日前,阿里云方面正式发布并开源通义千问Qwen3系列模型,其中包括Qwen3-235B-A22B和Qwen3-30B-A3B两款MoE模型,以及Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B和Qwen3-0.6B六款Dense模型。
据了解,Qwen3系列每款模型均斩获同尺寸开源模型SOTA(最佳性能)。其中,Qwen3-235B-A22B 总参数超2350亿,激活参数超220亿,在代码、数学、通用能力等基准测试中,与DeepSeek-R1、o1、o3-mini、Grok-3和Gemini-2.5-Pro等模型相比表现出极具竞争力的结果。
值得一提的是,Qwen3是国内首个“混合推理模型”,其无缝集成了思考模式与非思考模式,可为用户提供灵活控制思考预算的能力。其中在思考模式下,模型会执行更多中间步骤,如分解问题、逐步推导、验证答案等,经过深思熟虑后给出最终答案。而在非思考模式下,则可提供快速、近乎即时的响应,适用于那些对速度要求高于深度的简单问题。
同时Qwen3的Agent能力也进一步优化。据了解,在评估模型Agent能力的BFCL评测中,Qwen3创下70.8的新高,超越 Gemini-2.5-Pro 、o1等顶尖模型,将大幅降低Agent调用工具的门槛。而且Qwen3原生支持MCP协议,并具备工具调用(function calling)能力,结合封装了工具调用模板和工具调用解析器的Qwen-Agent框架,将大幅降低编码复杂性,实现高效的手机及电脑Agent操作等任务。
值得注意的是,阿里云还为部署用户提供了一种软切换机制,允许用户在enable_thinking=True时动态控制模型的行为。具体而言,用户可以在提示或系统消息中添加/think和/no_think来逐轮切换模型的思考模式,在多轮对话中模型就会遵循最近的指令。
目前,全球开发者、研究机构和企业均可免费在魔搭社区、HuggingFace等平台下载模型并商用,也可通过阿里云百炼调用Qwen3的API服务。个人用户则可通过通义App直接体验Qwen3,并且夸克也即将全线接入Qwen3。
对此阿里云方面表示,“Qwen3代表了我们在通往通用人工智能(AGI)和超级人工智能(ASI)旅程中的一个重要里程碑……我们相信,Qwen3的发布和开源将极大地推动大型基础模型的研究与开发。我们的目标是为全球的研究人员、开发者和组织赋能,帮助他们利用这些前沿模型构建创新解决方案”。
该公司还指出,“展望未来,我们计划从多个维度提升我们的模型,包括优化模型架构和训练方法……我们认为,我们正从专注于训练模型的时代过渡到以训练Agent为中心的时代。我们的下一代迭代将为大家的工作和生活带来有意义的进步”。
【本文图片来自网络】