通过这个网站可以:
和 28 个大语言模型对话,
让大模型随机 PK,
指定两个大模型进行 PK,
查看大模型排行榜。
上面的所有操作,都不需要注册,登录,付费。只要打开网址即可体验!
这 28 个模型包括目前全球最强的 GPT-4-Turbo。
另外还包括
第一梯队在线模型:
GPT3.5
Gemini Pro
Claude2
第一梯队开源模型:
Llama2
Qwen
Yi-Chat
ChatGLM
Code Llama
WizardLM
反正市面上大部分模型都包括了。
你想快速体验各种 AI 聊天模型,这绝对是一个不错的选择。
下面来看一下具体有哪些玩法!
同时来看看,谁才是实打实的大语言王者。
- 模型大乱斗
打开网站之后,默认就是在竞技场(战斗),其实就是 28 个模型大乱斗。
规则很简单:
打开网页后,系统自动抽取两个大模型,不显示模型名称。
你发起聊天,然后根据它们回复,进行打分。
系统根据大量的打分形成一个排行榜。
这种设计还挺有意思,这样就可以收集真实用户的反馈。GPT 官方聊天有时候也会出现两个并排的结果,让你选哪一个比较好。
这样测试的结果,要比刷各种基础测试有意义。
下面来举个例子,我直接输入一个问题 “爸爸的爸爸的女儿叫什么?”
左边的比右边的好一点。
2. 指定模型 PK
匿名有利于公平公正统计真实反馈,但是你不知道到底是谁在和你对话。如果你想直接指定两个大模型进行 PK,那么可以使用第二个功能竞技场 (side-by-side) ,其实就是一对一 PK。
结果很明显,GPT4 完胜。claude 虽然号称 openai 的劲敌,实际上差距还是很大,有些时候甚至不堪一击。
做一个专有领域的大模型,相对简单。
做一个全球最大的通用大语言模型,不是一件简单的事情。
3. 直接聊天
不想 PK,只要想安静的聊天,那么就使用下面的功能。可以找一个大模型,一对一谈心。(direct chat)
- 排行榜
到底谁是最强的模型,这往往是大家最喜欢讨论,最关心的问题。
那么,我们可以来看看排行榜。
从描述看,这是 100K + 用户投票后产生的榜单,应该说是有很大参考意义的。
从榜单可以看到,OpenAI 推出的 GPT4,占据了前三位,GPT3.5 的排名也不错。
除此之外就是 Claude, Gemini Pro。
前面两个大家都很熟悉,Mixtral 可能不太熟悉。
Mixtral 8x7B 是一个由 Mistral AI 团队开发的大型语言模型,属于稀疏混合专家(Sparse Mixture of Experts,简称 SMoE)模型。
这个模型继承了 Mistral 7B 的架构,但每层由 8 个前馈块(即 “专家”)组成。在处理每个词汇时,每层的路由器网络会选择两个专家来处理当前状态并结合它们的输出
这个思路还挺有意思的,用的巧劲,以小博大。
虽然大家都说要赶超 GPT4,但实际上是 GPT4 一骑绝尘。差距并没有缩小,反而有变大的感觉。
从投入和关注度上也完全不在一个级别。
强者恒强,在可以预见的未来,ChatGPT 将遥遥领先同行。