Qwen3 已有一战之力:接近旗舰性能,却把价格打下来

大模型的战场正在从“谁更强”转向“谁更值”。当旗舰模型的能力逐步拉开上限,真正决定能否大规模落地的,往往是每一次调用的成本、吞吐与可控性。

Qwen3 这一代最值得关注的变化,是它已经不再只是“开源阵营里很能打”的选择。以 Qwen3-Max-Thinking 为代表的旗舰推理型号,在多项公开 benchmark 上被 Qwen 官方直接对标 GPT-5.2-Thinking、Claude Opus 4.5,并在部分偏好与工具型评测中拿到领先成绩。更关键的是,Qwen3-Max 的 API 定价把“旗舰能力”带到了更接近工程预算的区间。

Pushing Qwen3-Max-Thinking Beyond its Limits 模型调用价格(阿里云百炼) OpenAI API Pricing Introducing Claude Opus 4.5

性能逼近

在 Qwen 的官方对比中,Qwen3-Max-Thinking 在 MMLU-Pro、GPQA、LiveCodeBench、SWE-bench Verified、工具调用等多个维度与 GPT-5.2-Thinking、Claude Opus 4.5 同台,并呈现出一种更“接近旗舰”的整体形态:不是只在单点能力上亮眼,而是在知识、推理、编码、偏好对齐、工具与长上下文之间尽量均衡。

更有意思的是,Qwen3-Max-Thinking 在 Arena-Hard v2 这类偏“对话偏好/竞技场胜率”的指标上给出了显著领先的分数,同时在 HLE(w/ tools)这类强调工具参与的评测上也拿到了更高的结果。这意味着它不仅会“想”,也更像一个能把工具用起来的系统。

Pushing Qwen3-Max-Thinking Beyond its Limits Qwen3-Max: Just Scale it

价格杀伤

当性能进入旗舰对标区间,价格就会决定“能不能用”和“能用多少”。按阿里云百炼公开的模型调用价格,在中国内地部署模式下,qwen3-maxqwen3-max-2026-01-23 在单次请求输入 Token ≤ 32K 的阶梯里,输入约 2.5 元/百万 Token、输出约 10 元/百万 Token。

横向看,OpenAI 的 GPT-5.2 标注为输入 1.75 美元/百万 Token、输出 14 美元/百万 Token。Claude Opus 4.5 官方公告给出的价格是输入 5 美元/百万 Token、输出 25 美元/百万 Token。即使不做汇率换算,仅从“同为旗舰级别 API、按百万 Token 计价”的量级上,Qwen3-Max 的输出成本也明显更激进;而如果按常见汇率粗略折算,差距会进一步放大。

模型调用价格(阿里云百炼) OpenAI API Pricing Introducing Claude Opus 4.5

落地更快

价格只是第一步,工程落地还要看迁移成本与生态兼容。Qwen3-Max 系列的一条关键策略,是把 API 做到 OpenAI-API compatible:你可以用接近 OpenAI Chat Completions 的方式去调用 qwen3-max,也能把 qwen3-max-2026-01-23 这类 Thinking 版本接到既有的调用框架里。

当“旗舰能力”与“可接受成本”叠加,再加上比较顺滑的 API 兼容路径,Qwen3 的竞争力就会从单纯的跑分,转变为一种更现实的工程优势:可以更大胆地开更长的上下文、更频繁地做工具调用、更放心地把它放进链路核心,而不是只在关键节点偶尔奢侈地用一次。

Qwen3-Max: Just Scale it Pushing Qwen3-Max-Thinking Beyond its Limits 模型列表(阿里云百炼)