通义千问3.6-Plus基准测试:旨在圆满完成任务,而非仅仅追求聊天评分胜出

发布日期:2026-04-24 10:00:51   浏览量 :5
发布日期:2026-04-24 10:00:51  
5

2026西湖龙井茶官网DTC发售:茶农直供,政府溯源防伪到农户家 

我查看 Qwen3.6-Plus 基准测试表时,原本以为会看到老套的问题。它是否优于 Qwen 3.5?优势有多大?

在阅读了官方 Qwen 发布页面 以及阿里巴巴于 2026 年 4 月 2 日发布的公告 后,我觉得更有意义的答案呈现出不同的面貌。

真正的转变在于测试场景

Qwen 并非利用此次发布来证明模型在聊天方面略有提升,而是借此证明模型在真实任务开始后能够持续推进。

这一转变比页面上的任何单一分数都更为重要。

SWE-bench 仍然具有重要参考价值

Qwen3.6-Plus 在官方榜单上得分为 78.8,其中 SWE-bench Pro 得分为 56.6,SWE-bench 多语言版得分为 73.8。

这些数字之所以重要,是因为它们比旧的单功能编程测试更贴近真实的代码仓库工作。模型必须读取文件、理解问题、决定编辑内容,并通过评估验证。

同样重要的是,Qwen 公开了部分测试框架。其说明指出,SWE-Bench 系列测试使用了内部智能体架构,包含 Bash 和文件编辑工具,以及 20 万 tokens 的上下文窗口。这并未使结果失色,反而更易于解读。该分数不仅代表模型的原始智能水平,还体现了在既定设置下“模型加智能体循环”的综合表现,这与开发人员实际使用这些系统的方式更为接近。

当然,78.8 分并非某种夸张的全面胜利。Claude Opus 4.5 在同一官方榜单上的排名仍然更高。但 Qwen3.6-Plus 显然已进入严肃竞争领域。这不是一个伪装成智能体的玩具式编程演示。

真正的关键在于围绕执行能力的集群表现

这正是该榜单变得有趣之处。

Terminal-Bench 2.0:61.6。

TAU3-Bench:70.7。

DeepPlanning:41.5。

MCPMark:48.2。

HLE(带工具):50.6。

QwenWebBench:1501.7。

将这些数据并列观察,发布策略便一目了然。这些基准测试并非为了检验模型能否给出整洁的回答,而是为了检验其能否持续行动。模型能否在终端中操作、导航多步骤计划、在使用工具时不崩溃、从反馈中恢复,并让任务维持足够长的时间以达成有用成果?

这与一次性给出巧妙答案有着截然不同的雄心。

我认为这是整个发布中最清晰的信号。Qwen3.6-Plus 的定位是工作流参与者,而不仅仅是响应生成器。

多模态得分佐证了同一叙事

如果这仅仅是一次编程领域的发布,视觉能力榜单看起来就会像是装饰。但事实并非如此。

RealWorldQA:85.4。

OmniDocBench 1.5:91.2。

CC-OCR:83.4。

AI2D_TEST:94.4。

CountBench:97.6。

这些数字指向某种实用性。Qwen 希望模型能够阅读杂乱的文档、解析用户界面和图表、处理光学字符识别(OCR)、理解图表,然后将这种感知能力反馈到任务循环中。这与发布材料中关于“能力循环”的描述一致,即感知、推理和行动存在于同一个工作流中。

换句话说,Qwen3.6-Plus 的宣传定位并非只是一个也能接受图像的更好文本模型,而是一个能够充分观察工作环境以推动工作进展的模型。

榜单表现强劲,但并非全面统治

而这实际上是我更加信任它的原因。

Qwen3.6-Plus 在其官方页面上并未在所有项目中登顶。MMMU 得分为 86.0,并非榜单最高分。SimpleVQA 得分为 67.3,表现良好但非领先。NL2Repo 得分为 37.9,

免责声明:本文内容来自互联网,该文观点不代表本站观点。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请到页面底部单击反馈,一经查实,本站将立刻删除。

关于我们
热门推荐
合作伙伴
免责声明:本站部分资讯来源于网络,如有侵权请及时联系客服,我们将尽快处理
支持 反馈 订阅 数据
回到顶部