banner
andrewji8

Being towards death

Heed not to the tree-rustling and leaf-lashing rain, Why not stroll along, whistle and sing under its rein. Lighter and better suited than horses are straw sandals and a bamboo staff, Who's afraid? A palm-leaf plaited cape provides enough to misty weather in life sustain. A thorny spring breeze sobers up the spirit, I feel a slight chill, The setting sun over the mountain offers greetings still. Looking back over the bleak passage survived, The return in time Shall not be affected by windswept rain or shine.
telegram
twitter
github

深夜突袭:阿里 Qwen3 如何一举夺得全球开源王座?

深夜突袭,阿里 Qwen3 登顶全球开源王座!#

就在今天凌晨,备受全球期待的阿里新一代通义千问模型 Qwen3 开源!一经问世,它立刻登顶全球最强开源模型王座。它的参数量仅为 DeepSeek-R1 的 1/3,但成本大幅下降,性能全面超越 R1、OpenAI-o1 等全球顶尖模型。

Qwen3 的特点#

  • 混合推理模型:国内首个「混合推理模型」,将「快思考」与「慢思考」集成进同一个模型。
    • 对简单需求可低算力「秒回」答案。
    • 对复杂问题可多步骤「深度思考」,大大节省算力消耗。
  • 架构与参数:采用混合专家(MoE)架构,总参数量 235B,激活仅需 22B。
  • 预训练数据:预训练数据量达 36T,并在后训练阶段多轮强化学习,将非思考模式无缝整合到思考模型中。

性能表现#

  • 基准测试:Qwen3 一经诞生,立刻横扫各大基准。
  • 部署成本:性能大幅提升的同时,部署成本大幅下降,仅需 4 张 H20 即可部署 Qwen3 满血版,显存占用仅为性能相近模型的 1/3!

亮点总结#

  • 各种尺寸的稠密模型和混合专家(MoE)模型,包括 0.6B、1.7B、4B、8B、14B、32B 以及 30B-A3B 和 235B-A22B。
  • 能够在思考模式(用于复杂的逻辑推理、数学和编码)和非思考模式(用于高效的通用聊天)之间无缝切换。
  • 推理能力显著增强,超越了之前处于思考模式下的 QwQ 和处于非思考模式下的 Qwen2.5 instruct 模型。
  • 更符合人类偏好,擅长创意写作、角色扮演、多轮对话和指令遵循。
  • 精通 AI 智能体能力,支持在思考和非思考模式下与外部工具的精确集成。
  • 首次支持 119 种语言和方言,具有强大的多语言指令跟随和翻译能力。

访问链接#

至此,阿里通义已开源 200 余个模型,全球下载量超 3 亿次,千问衍生模型数超 10 万个,彻底超越美国 Llama,成为全球第一开源模型!

Qwen3 家族登场#

这次,阿里一口气开源了 8 款混合推理模型,包括 2 款 30B、235B 的 MoE 模型,以及 0.6B、1.7B、4B、8B、14B、32B 等 6 款稠密模型,均采用 Apache 2.0 许可。

  • Qwen3 的 30B 参数 MoE 模型实现了 10 倍以上的模型性能杠杆提升,仅激活 3B 就能媲美上代 Qwen2.5-32B 模型性能。
  • Qwen3 的稠密模型性能继续突破,一半的参数量可实现同样的高性能。

开源模型新王,刷新纪录#

Qwen3 在推理、指令遵循、工具调用、多语言能力等方面均大幅增强,创下所有国产模型及全球开源模型的性能新高 —— 在奥数水平的 AIME25 测评中,Qwen3 斩获 81.5 分,刷新开源纪录。

  • 旗舰模型 Qwen3-235B-A22B 与其他顶级模型(如 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro)相比,在编码、数学、通用能力等各项基准测试中,成绩都相当亮眼。

主要特点#

混合推理模式#

Qwen3 模型引入了一种混合问题解决方式,支持两种模式:

  1. 思考模式:逐步推理,适合复杂问题。
  2. 非思考模式:快速给出答案,适用于简单问题。

这种灵活性让用户可以根据任务的复杂程度控制模型的推理过程。

多语言支持#

Qwen3 模型支持 119 种语言和方言,具有极大潜力创建国际应用。

更强大的智能体能力#

阿里对 Qwen3 模型进行了优化,以提高编码和智能体能力,并且加强了对 MCP 的支持。

全网好评如潮#

Qwen3 开源不到 3 小时,GitHub 狂揽 17k 星,彻底点燃了开源社区的热情。开发者们纷纷下载,开启了极速测试。

加载中...
此文章数据所有权由区块链加密技术和智能合约保障仅归创作者所有。