Gemini 2.5 Pro：深夜上線引爆榜單，究竟有何魔力？

今晚，AI 圈也地震了！谷歌深夜搞突袭，正式上线「最強推理大模型」Gemini 2.5 Pro！沒錯，就是我昨天發的文章谷歌大型推理模型曝光！擊敗 Claude-3.7-Thinking，洩漏的大模型，代號是「Nebula」，之前就被爆料這個新模型效果據說特別好，打敗 o1、o3-mini、Claude 3.7 Thinking 等一眾模型。沒想到，新模型兌現的這麼迅速，24 號才被爆料，25 號谷歌就官宣上線！

Gemini 2.5 Pro 在大模型榜單 LMSYS Arena 上排名第一，而且是斷層第一！分數比 Grok-3、GPT-4.5 整整高出了 40 分！要知道此前 LMSYS 上的頂流模型們的分數咬的特別緊，只差幾分。Grok 前腳宣布突破 1400 分數大關，這次 Gemini 2.5 Pro 直接幹到了 1443 分，創下最大 jump up 記錄。

首先 Gemini 2.5 Pro（模型版本是 gemini-2.5-pro-exp-03-25）是一個推理模型，谷歌稱這是迄今為止最強大的模型。不止是全面領先，而且是無短板。在所有評測類別（綜合能力、編碼、數學、創意寫作等）中均排名第 1，尤其在帶風格控制的複雜提示（Hard Prompts w/ Style Control）和多輪對話（Multi-Turn）表現突出。

Gemini 2.5 Pro 不止是谷歌目前最大的推理模型，而且還具備多模態能力，在 Vision Arena 視覺排行榜上也是第一。在網頁開發榜單 WebDev Arena 上排名第二，僅次於 Claude-3.7，Claude 的編程地位依舊難以撼動。

下面看下在各個 benchmark 上的具體得分 ——Gemini 2.5 Pro 綜合表現拿下最佳。尤其在科學（Science）、代碼生成、視覺推理（MMMU）和長文本理解（MRCR）上均領先。在號稱最難的測試「人類最後一次考試」中，Gemini 2.5 Pro 遙遙領先 OpenAI o3-mini。在號稱最難的 AI 測試 “人類最後一次考試” 中，Gemini 2.5 Pro 遙遙領先其他模型。