banner
andrewji8

Being towards death

Heed not to the tree-rustling and leaf-lashing rain, Why not stroll along, whistle and sing under its rein. Lighter and better suited than horses are straw sandals and a bamboo staff, Who's afraid? A palm-leaf plaited cape provides enough to misty weather in life sustain. A thorny spring breeze sobers up the spirit, I feel a slight chill, The setting sun over the mountain offers greetings still. Looking back over the bleak passage survived, The return in time Shall not be affected by windswept rain or shine.
telegram
twitter
github

Gemini 2.5 Pro:深夜上线引爆榜单,究竟有何魔力?

今晚,AI 圈也地震了!谷歌深夜搞突袭,正式上线「最强推理大模型」Gemini 2.5 Pro!没错,就是我昨天发的文章谷歌大型推理模型曝光!击败 Claude-3.7-Thinking,泄漏的大模型,代号是「Nebula」,之前就被爆料这个新模型效果据说特别好,打败 o1、o3-mini、Claude 3.7 Thinking 等一众模型。没想到,新模型兑现的这么迅速,24 号才被爆料,25 号谷歌就官宣上线!

Gemini 2.5 Pro 在大模型榜单 LMSYS Arena 上排名第一,而且是断层第一!分数比 Grok-3、GPT-4.5 整整高出了 40 分!要知道此前 LMSYS 上的顶流模型们的分数咬的特别紧,只差几分。Grok 前脚宣布突破 1400 分数大关,这次 Gemini 2.5 Pro 直接干到了 1443 分,创下最大 jump up 记录。

首先 Gemini 2.5 Pro(模型版本是 gemini-2.5-pro-exp-03-25)是一个推理模型,谷歌称这是迄今为止最强大的模型。不止是全面领先,而且是无短板。在所有评测类别(综合能力、编码、数学、创意写作等)中均排名第 1,尤其在带风格控制的复杂提示(Hard Prompts w/ Style Control)和多轮对话(Multi-Turn)表现突出。

Gemini 2.5 Pro 不止是谷歌目前最大的推理模型,而且还具备多模态能力,在 Vision Arena 视觉排行榜上也是第一。在网页开发榜单 WebDev Arena 上排名第二,仅次于 Claude-3.7,Claude 的编程地位依旧难以撼动。

下面看下在各个 benchmark 上的具体得分 ——Gemini 2.5 Pro 综合表现拿下最佳。尤其在科学(Science)、代码生成、视觉推理(MMMU)和长文本理解(MRCR)上均领先。在号称最难的测试「人类最后一次考试」中,Gemini 2.5 Pro 遥遥领先 OpenAI o3-mini。在号称最难的 AI 测试 “人类最后一次考试” 中,Gemini 2.5 Pro 遥遥领先其他模型。

image

SWE-bench 代表编码能力,Aider Polyglot 则是代表代码编辑水平。等我看完所有的榜单之后,我只能说 “恐怖如斯”!现在,Gemini 2.5 Pro 已经可以在 Google AI Studio 和 Gemini APP 中使用了。传送门:Google AI Studio

image

接下来看下效果 ——

第一个:曼德博集合演示效果#

曼德博集合(Mandelbrot set)是一种在复平面上组成分形的点的集合,有人称它是人类有史以来做出的最奇异、最瑰丽的几何图形,曾被称为 “上帝的指纹”。看下 Gemini 2.5 Pro 生成的效果吧。

image

image

第二个:网页小游戏#

还记得这个再熟悉不过的恐龙跑酷游戏吗,记忆里的黑白版变成了有色版。生成地很带感。

image

image

Gemini 2.5 Pro 最大的优势是,依然具备原生多模态能力和超长上下文长度,目前支持到 1M 窗口,2M 的在路上了。但是目前尚未公布 API 价格。DeepSeek V3-0324 也刚刚发布,且是最宽松的 MIT 协议,究竟是闭源巨头巩固高地,还是开源阵营推动技术平权?

加载中...
此文章数据所有权由区块链加密技术和智能合约保障仅归创作者所有。