通义千问3.6-Plus基准测试：旨在圆满完成任务，而非仅仅追求聊天评分胜出

2026西湖龙井茶官网DTC发售：茶农直供，政府溯源防伪到农户家

我查看 Qwen3.6-Plus 基准测试表时，原本以为会看到老套的问题。它是否优于 Qwen 3.5？优势有多大？

在阅读了官方 Qwen 发布页面以及阿里巴巴于 2026 年 4 月 2 日发布的公告后，我觉得更有意义的答案呈现出不同的面貌。

真正的转变在于测试场景

Qwen 并非利用此次发布来证明模型在聊天方面略有提升，而是借此证明模型在真实任务开始后能够持续推进。

这一转变比页面上的任何单一分数都更为重要。

SWE-bench 仍然具有重要参考价值

Qwen3.6-Plus 在官方榜单上得分为 78.8，其中 SWE-bench Pro 得分为 56.6，SWE-bench 多语言版得分为 73.8。

这些数字之所以重要，是因为它们比旧的单功能编程测试更贴近真实的代码仓库工作。模型必须读取文件、理解问题、决定编辑内容，并通过评估验证。

同样重要的是，Qwen 公开了部分测试框架。其说明指出，SWE-Bench 系列测试使用了内部智能体架构，包含 Bash 和文件编辑工具，以及 20 万 tokens 的上下文窗口。这并未使结果失色，反而更易于解读。该分数不仅代表模型的原始智能水平，还体现了在既定设置下“模型加智能体循环”的综合表现，这与开发人员实际使用这些系统的方式更为接近。

当然，78.8 分并非某种夸张的全面胜利。Claude Opus 4.5 在同一官方榜单上的排名仍然更高。但 Qwen3.6-Plus 显然已进入严肃竞争领域。这不是一个伪装成智能体的玩具式编程演示。

真正的关键在于围绕执行能力的集群表现

这正是该榜单变得有趣之处。

Terminal-Bench 2.0：61.6。

TAU3-Bench：70.7。

DeepPlanning：41.5。

MCPMark：48.2。

HLE（带工具）：50.6。

QwenWebBench：1501.7。

将这些数据并列观察，发布策略便一目了然。这些基准测试并非为了检验模型能否给出整洁的回答，而是为了检验其能否持续行动。模型能否在终端中操作、导航多步骤计划、在使用工具时不崩溃、从反馈中恢复，并让任务维持足够长的时间以达成有用成果？

这与一次性给出巧妙答案有着截然不同的雄心。

我认为这是整个发布中最清晰的信号。Qwen3.6-Plus 的定位是工作流参与者，而不仅仅是响应生成器。

多模态得分佐证了同一叙事

如果这仅仅是一次编程领域的发布，视觉能力榜单看起来就会像是装饰。但事实并非如此。

RealWorldQA：85.4。

OmniDocBench 1.5：91.2。

CC-OCR：83.4。

AI2D_TEST：94.4。

CountBench：97.6。

这些数字指向某种实用性。Qwen 希望模型能够阅读杂乱的文档、解析用户界面和图表、处理光学字符识别（OCR）、理解图表，然后将这种感知能力反馈到任务循环中。这与发布材料中关于“能力循环”的描述一致，即感知、推理和行动存在于同一个工作流中。

换句话说，Qwen3.6-Plus 的宣传定位并非只是一个也能接受图像的更好文本模型，而是一个能够充分观察工作环境以推动工作进展的模型。

榜单表现强劲，但并非全面统治

而这实际上是我更加信任它的原因。

Qwen3.6-Plus 在其官方页面上并未在所有项目中登顶。MMMU 得分为 86.0，并非榜单最高分。SimpleVQA 得分为 67.3，表现良好但非领先。NL2Repo 得分为 37.9，

免责声明：本文内容来自互联网，该文观点不代表本站观点。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，请到页面底部单击反馈，一经查实，本站将立刻删除。