https://chat.lmsys.org/(Requires Magic)
透過這個網站可以:
和 28 個大語言模型對話,
讓大模型隨機 PK,
指定兩個大模型進行 PK,
查看大模型排行榜。
上面的所有操作,都不需要註冊,登錄,付費。只要打開網址即可體驗!
這 28 個模型包括目前全球最強的 GPT-4-Turbo。
另外還包括
第一梯隊在線模型:
GPT3.5
Gemini Pro
Claude2
第一梯隊開源模型:
Llama2
Qwen
Yi-Chat
ChatGLM
Code Llama
WizardLM
反正市面上大部分模型都包括了。
你想快速體驗各種 AI 聊天模型,這絕對是一個不錯的選擇。
下面來看一下具體有哪些玩法!
同時來看看,誰才是實打實的大語言王者。
- 模型大亂鬥
打開網站之後,默認就是在競技場(戰鬥),其實就是 28 個模型大亂鬥。
規則很簡單:
打開網頁後,系統自動抽取兩個大模型,不顯示模型名稱。
你發起聊天,然後根據它們回覆,進行打分。
系統根據大量的打分形成一個排行榜。
這種設計還挺有意思,這樣就可以收集真實用戶的反饋。GPT 官方聊天有時候也會出現兩個並排的結果,讓你選哪一個比較好。
這樣測試的結果,要比刷各種基礎測試有意義。
下面來舉個例子,我直接輸入一個問題 “爸爸的爸爸的女兒叫什麼?”
左邊的比右邊的好一點。
2. 指定模型 PK
匿名有利於公平公正統計真實反饋,但是你不知道到底是誰在和你對話。如果你想直接指定兩個大模型進行 PK,那麼可以使用第二個功能競技場 (side-by-side) ,其實就是一對一 PK。
結果很明顯,GPT4 完勝。claude 雖然號稱 openai 的勁敵,實際上差距還是很大,有些時候甚至不堪一擊。
做一個專有領域的大模型,相對簡單。
做一個全球最大的通用大語言模型,不是一件簡單的事情。
3. 直接聊天
不想 PK,只要想安靜的聊天,那麼就使用下面的功能。可以找一個大模型,一對一談心。(direct chat)
- 排行榜
到底誰是最強的模型,這往往是大家最喜歡討論,最關心的問題。
那麼,我們可以來看看排行榜。
從描述看,這是 100K + 用戶投票後產生的榜單,應該說是有很大參考意義的。
從榜單可以看到,OpenAI 推出的 GPT4,佔據了前三位,GPT3.5 的排名也不錯。
除此之外就是 Claude, Gemini Pro。
前面兩個大家都很熟悉,Mixtral 可能不太熟悉。
Mixtral 8x7B 是一個由 Mistral AI 團隊開發的大型語言模型,屬於稀疏混合專家(Sparse Mixture of Experts,簡稱 SMoE)模型。
這個模型繼承了 Mistral 7B 的架構,但每層由 8 個前饋塊(即 “專家”)組成。在處理每個詞彙時,每層的路由器網絡會選擇兩個專家來處理當前狀態並結合它們的輸出
這個思路還挺有意思的,用的巧勁,以小博大。
雖然大家都說要趕超 GPT4,但實際上是 GPT4 一騎絕塵。差距並沒有縮小,反而有變大的感覺。
從投入和關注度上也完全不在一個級別。
強者恆強,在可以預見的未來,ChatGPT 將遙遙領先同行。