今夜、AI 界も地震が起きました!Google が深夜に突撃し、「最強推理大モデル」Gemini 2.5 Pro を正式に発表しました!そうです、昨日私が投稿した記事で Google の大型推理モデルが公開されたことについてです!Claude-3.7-Thinking を打ち負かし、漏洩した大型モデルのコードネームは「Nebula」です。以前からこの新モデルの効果が特に良いと噂されており、o1、o3-mini、Claude 3.7 Thinking などの多くのモデルを打ち負かすと言われていました。まさか、新モデルがこんなに早く実現するとは思いませんでした。24 日にリークされ、25 日に Google が公式に発表しました!
Gemini 2.5 Pro は大型モデルランキング LMSYS Arena で 1 位にランクインし、圧倒的な差をつけています!スコアは Grok-3、GPT-4.5 よりも 40 点も高いです!以前、LMSYS のトップモデルたちのスコアは非常に接近しており、数点の差でした。Grok が 1400 点の大台を突破した直後に、Gemini 2.5 Pro は 1443 点を叩き出し、最大のジャンプアップ記録を樹立しました。
まず、Gemini 2.5 Pro(モデルバージョンは gemini-2.5-pro-exp-03-25)は推理モデルで、Google はこれを今までで最も強力なモデルだと称しています。全面的にリードしているだけでなく、短所がありません。すべての評価カテゴリ(総合能力、コーディング、数学、創造的な執筆など)で 1 位にランクインしており、特にスタイル制御を伴う複雑なプロンプト(Hard Prompts w/ Style Control)や多輪対話(Multi-Turn)でのパフォーマンスが際立っています。
Gemini 2.5 Pro は Google の現在最大の推理モデルであるだけでなく、多モーダル能力も備えており、Vision Arena 視覚ランキングでも 1 位です。ウェブ開発ランキング WebDev Arena では 2 位にランクインしており、Claude-3.7 に次いでいます。Claude のプログラミング地位は依然として揺るぎません。
次に、各ベンチマークでの具体的なスコアを見てみましょう ——Gemini 2.5 Pro は総合的なパフォーマンスで最高の評価を得ています。特に科学(Science)、コード生成、視覚推理(MMMU)、長文理解(MRCR)でリードしています。「人類最後の試験」と呼ばれる最も難しいテストでは、Gemini 2.5 Pro は OpenAI o3-mini を大きくリードしています。最も難しい AI テスト「人類最後の試験」でも、Gemini 2.5 Pro は他のモデルを遥かにリードしています。
SWE-bench はコーディング能力を示し、Aider Polyglot はコード編集レベルを示します。すべてのランキングを見終わった後、私は「恐ろしい」としか言えません!現在、Gemini 2.5 Pro は Google AI Studio と Gemini APP で使用可能です。ポータル:Google AI Studio
次に、効果を見てみましょう ——
第 1:マンデルブロ集合のデモ効果#
マンデルブロ集合(Mandelbrot set)は、複素平面上に形成されるフラクタルの点の集合であり、人類が今まで作り出した最も奇妙で美しい幾何学的図形だと言われ、「神の指紋」とも呼ばれています。Gemini 2.5 Pro が生成した効果を見てみましょう。
第 2:ウェブゲーム#
このおなじみの恐竜ランニングゲームを覚えていますか?記憶の中の白黒版がカラー版に変わりました。生成されたものは非常に魅力的です。
Gemini 2.5 Pro の最大の利点は、依然としてネイティブの多モーダル能力と超長いコンテキスト長を持っていることで、現在は 1M ウィンドウまでサポートされており、2M も準備中です。しかし、現在のところ API の価格は発表されていません。DeepSeek V3-0324 も最近リリースされ、最も緩やかな MIT ライセンスが適用されています。果たして、閉源の巨頭が高地を固めるのか、それともオープンソース陣営が技術の平等を推進するのか?