今晚,AI 圈也地震了!谷歌深夜搞突袭,正式上线「最強推理大模型」Gemini 2.5 Pro!沒錯,就是我昨天發的文章谷歌大型推理模型曝光!擊敗 Claude-3.7-Thinking,洩漏的大模型,代號是「Nebula」,之前就被爆料這個新模型效果據說特別好,打敗 o1、o3-mini、Claude 3.7 Thinking 等一眾模型。沒想到,新模型兌現的這麼迅速,24 號才被爆料,25 號谷歌就官宣上線!
Gemini 2.5 Pro 在大模型榜單 LMSYS Arena 上排名第一,而且是斷層第一!分數比 Grok-3、GPT-4.5 整整高出了 40 分!要知道此前 LMSYS 上的頂流模型們的分數咬的特別緊,只差幾分。Grok 前腳宣布突破 1400 分數大關,這次 Gemini 2.5 Pro 直接幹到了 1443 分,創下最大 jump up 記錄。
首先 Gemini 2.5 Pro(模型版本是 gemini-2.5-pro-exp-03-25)是一個推理模型,谷歌稱這是迄今為止最強大的模型。不止是全面領先,而且是無短板。在所有評測類別(綜合能力、編碼、數學、創意寫作等)中均排名第 1,尤其在帶風格控制的複雜提示(Hard Prompts w/ Style Control)和多輪對話(Multi-Turn)表現突出。
Gemini 2.5 Pro 不止是谷歌目前最大的推理模型,而且還具備多模態能力,在 Vision Arena 視覺排行榜上也是第一。在網頁開發榜單 WebDev Arena 上排名第二,僅次於 Claude-3.7,Claude 的編程地位依舊難以撼動。
下面看下在各個 benchmark 上的具體得分 ——Gemini 2.5 Pro 綜合表現拿下最佳。尤其在科學(Science)、代碼生成、視覺推理(MMMU)和長文本理解(MRCR)上均領先。在號稱最難的測試「人類最後一次考試」中,Gemini 2.5 Pro 遙遙領先 OpenAI o3-mini。在號稱最難的 AI 測試 “人類最後一次考試” 中,Gemini 2.5 Pro 遙遙領先其他模型。
SWE-bench 代表編碼能力,Aider Polyglot 則是代表代碼編輯水平。等我看完所有的榜單之後,我只能說 “恐怖如斯”!現在,Gemini 2.5 Pro 已經可以在 Google AI Studio 和 Gemini APP 中使用了。傳送門:Google AI Studio
接下來看下效果 ——
第一个:曼德博集合演示效果#
曼德博集合(Mandelbrot set)是一種在複平面上組成分形的點的集合,有人稱它是人類有史以來做出的最奇異、最瑰麗的幾何圖形,曾被稱為 “上帝的指紋”。看下 Gemini 2.5 Pro 生成的效果吧。
第二个:網頁小遊戲#
還記得這個再熟悉不過的恐龍跑酷遊戲嗎,記憶裡的黑白版變成了有色版。生成地很帶感。
Gemini 2.5 Pro 最大的優勢是,依然具備原生多模態能力和超長上下文長度,目前支持到 1M 窗口,2M 的在路上了。但是目前尚未公布 API 價格。DeepSeek V3-0324 也剛剛發布,且是最寬鬆的 MIT 協議,究竟是閉源巨頭鞏固高地,還是開源陣營推動技術平權?