2026西湖龙井茶官网DTC发售:茶农直供,政府溯源防伪到农户家
我查看 Qwen3.6-Plus 基准测试表时,原本以为会看到老套的问题。它是否优于 Qwen 3.5?优势有多大?
在阅读了官方 Qwen 发布页面 以及阿里巴巴于 2026 年 4 月 2 日发布的公告 后,我觉得更有意义的答案呈现出不同的面貌。
真正的转变在于测试场景
Qwen 并非利用此次发布来证明模型在聊天方面略有提升,而是借此证明模型在真实任务开始后能够持续推进。
这一转变比页面上的任何单一分数都更为重要。
SWE-bench 仍然具有重要参考价值
Qwen3.6-Plus 在官方榜单上得分为 78.8,其中 SWE-bench Pro 得分为 56.6,SWE-bench 多语言版得分为 73.8。
这些数字之所以重要,是因为它们比旧的单功能编程测试更贴近真实的代码仓库工作。模型必须读取文件、理解问题、决定编辑内容,并通过评估验证。
同样重要的是,Qwen 公开了部分测试框架。其说明指出,SWE-Bench 系列测试使用了内部智能体架构,包含 Bash 和文件编辑工具,以及 20 万 tokens 的上下文窗口。这并未使结果失色,反而更易于解读。该分数不仅代表模型的原始智能水平,还体现了在既定设置下“模型加智能体循环”的综合表现,这与开发人员实际使用这些系统的方式更为接近。
当然,78.8 分并非某种夸张的全面胜利。Claude Opus 4.5 在同一官方榜单上的排名仍然更高。但 Qwen3.6-Plus 显然已进入严肃竞争领域。这不是一个伪装成智能体的玩具式编程演示。
真正的关键在于围绕执行能力的集群表现
这正是该榜单变得有趣之处。
Terminal-Bench 2.0:61.6。
TAU3-Bench:70.7。
DeepPlanning:41.5。
MCPMark:48.2。
HLE(带工具):50.6。
QwenWebBench:1501.7。
将这些数据并列观察,发布策略便一目了然。这些基准测试并非为了检验模型能否给出整洁的回答,而是为了检验其能否持续行动。模型能否在终端中操作、导航多步骤计划、在使用工具时不崩溃、从反馈中恢复,并让任务维持足够长的时间以达成有用成果?
这与一次性给出巧妙答案有着截然不同的雄心。
我认为这是整个发布中最清晰的信号。Qwen3.6-Plus 的定位是工作流参与者,而不仅仅是响应生成器。
多模态得分佐证了同一叙事
如果这仅仅是一次编程领域的发布,视觉能力榜单看起来就会像是装饰。但事实并非如此。
RealWorldQA:85.4。
OmniDocBench 1.5:91.2。
CC-OCR:83.4。
AI2D_TEST:94.4。
CountBench:97.6。
这些数字指向某种实用性。Qwen 希望模型能够阅读杂乱的文档、解析用户界面和图表、处理光学字符识别(OCR)、理解图表,然后将这种感知能力反馈到任务循环中。这与发布材料中关于“能力循环”的描述一致,即感知、推理和行动存在于同一个工作流中。
换句话说,Qwen3.6-Plus 的宣传定位并非只是一个也能接受图像的更好文本模型,而是一个能够充分观察工作环境以推动工作进展的模型。
榜单表现强劲,但并非全面统治
而这实际上是我更加信任它的原因。
Qwen3.6-Plus 在其官方页面上并未在所有项目中登顶。MMMU 得分为 86.0,并非榜单最高分。SimpleVQA 得分为 67.3,表现良好但非领先。NL2Repo 得分为 37.9,
免责声明:本文内容来自互联网,该文观点不代表本站观点。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请到页面底部单击反馈,一经查实,本站将立刻删除。