banner
andrewji8

Being towards death

Heed not to the tree-rustling and leaf-lashing rain, Why not stroll along, whistle and sing under its rein. Lighter and better suited than horses are straw sandals and a bamboo staff, Who's afraid? A palm-leaf plaited cape provides enough to misty weather in life sustain. A thorny spring breeze sobers up the spirit, I feel a slight chill, The setting sun over the mountain offers greetings still. Looking back over the bleak passage survived, The return in time Shall not be affected by windswept rain or shine.
telegram
twitter
github

深夜突襲:阿里 Qwen3 如何一舉奪得全球開源王座?

深夜突襲,阿里 Qwen3 登頂全球開源王座!#

就在今天凌晨,備受全球期待的阿里新一代通義千問模型 Qwen3 開源!一經問世,它立刻登頂全球最強開源模型王座。它的參數量僅為 DeepSeek-R1 的 1/3,但成本大幅下降,性能全面超越 R1、OpenAI-o1 等全球頂尖模型。

Qwen3 的特點#

  • 混合推理模型:國內首個「混合推理模型」,將「快思考」與「慢思考」集成進同一個模型。
    • 對簡單需求可低算力「秒回」答案。
    • 對複雜問題可多步驟「深度思考」,大大節省算力消耗。
  • 架構與參數:採用混合專家(MoE)架構,總參數量 235B,激活僅需 22B。
  • 預訓練數據:預訓練數據量達 36T,並在後訓練階段多輪強化學習,將非思考模式無縫整合到思考模型中。

性能表現#

  • 基準測試:Qwen3 一經誕生,立刻橫掃各大基準。
  • 部署成本:性能大幅提升的同時,部署成本大幅下降,僅需 4 張 H20 即可部署 Qwen3 滿血版,顯存佔用僅為性能相近模型的 1/3!

亮點總結#

  • 各種尺寸的稠密模型和混合專家(MoE)模型,包括 0.6B、1.7B、4B、8B、14B、32B 以及 30B-A3B 和 235B-A22B。
  • 能夠在思考模式(用於複雜的邏輯推理、數學和編碼)和非思考模式(用於高效的通用聊天)之間無縫切換。
  • 推理能力顯著增強,超越了之前處於思考模式下的 QwQ 和處於非思考模式下的 Qwen2.5 instruct 模型。
  • 更符合人類偏好,擅長創意寫作、角色扮演、多輪對話和指令遵循。
  • 精通 AI 智能體能力,支持在思考和非思考模式下與外部工具的精確集成。
  • 首次支持 119 種語言和方言,具有強大的多語言指令跟隨和翻譯能力。

訪問鏈接#

至此,阿里通義已開源 200 余個模型,全球下載量超 3 億次,千問衍生模型數超 10 萬個,徹底超越美國 Llama,成為全球第一開源模型!

Qwen3 家族登場#

這次,阿里一口氣開源了 8 款混合推理模型,包括 2 款 30B、235B 的 MoE 模型,以及 0.6B、1.7B、4B、8B、14B、32B 等 6 款稠密模型,均採用 Apache 2.0 許可。

  • Qwen3 的 30B 參數 MoE 模型實現了 10 倍以上的模型性能槓桿提升,僅激活 3B 就能媲美上代 Qwen2.5-32B 模型性能。
  • Qwen3 的稠密模型性能繼續突破,一半的參數量可實現同樣的高性能。

開源模型新王,刷新紀錄#

Qwen3 在推理、指令遵循、工具調用、多語言能力等方面均大幅增強,創下所有國產模型及全球開源模型的性能新高 —— 在奧數水平的 AIME25 測評中,Qwen3 斬獲 81.5 分,刷新開源紀錄。

  • 旗艦模型 Qwen3-235B-A22B 與其他頂級模型(如 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro)相比,在編碼、數學、通用能力等各項基準測試中,成績都相當亮眼。

主要特點#

混合推理模式#

Qwen3 模型引入了一種混合問題解決方式,支持兩種模式:

  1. 思考模式:逐步推理,適合複雜問題。
  2. 非思考模式:快速給出答案,適用於簡單問題。

這種靈活性讓用戶可以根據任務的複雜程度控制模型的推理過程。

多語言支持#

Qwen3 模型支持 119 種語言和方言,具有極大潛力創建國際應用。

更強大的智能體能力#

阿里對 Qwen3 模型進行了優化,以提高編碼和智能體能力,並且加強了對 MCP 的支持。

全網好評如潮#

Qwen3 開源不到 3 小時,GitHub 狂攬 17k 星,徹底點燃了開源社區的熱情。開發者們紛紛下載,開啟了极速測試。

載入中......
此文章數據所有權由區塊鏈加密技術和智能合約保障僅歸創作者所有。