Qwen3 已有一战之力：接近旗舰性能，却把价格打下来

大模型的战场正在从“谁更强”转向“谁更值”。当旗舰模型的能力逐步拉开上限，真正决定能否大规模落地的，往往是每一次调用的成本、吞吐与可控性。

Qwen3 这一代最值得关注的变化，是它已经不再只是“开源阵营里很能打”的选择。以 Qwen3-Max-Thinking 为代表的旗舰推理型号，在多项公开 benchmark 上被 Qwen 官方直接对标 GPT-5.2-Thinking、Claude Opus 4.5，并在部分偏好与工具型评测中拿到领先成绩。更关键的是，Qwen3-Max 的 API 定价把“旗舰能力”带到了更接近工程预算的区间。

Pushing Qwen3-Max-Thinking Beyond its Limits 模型调用价格（阿里云百炼） OpenAI API Pricing Introducing Claude Opus 4.5

性能逼近

在 Qwen 的官方对比中，Qwen3-Max-Thinking 在 MMLU-Pro、GPQA、LiveCodeBench、SWE-bench Verified、工具调用等多个维度与 GPT-5.2-Thinking、Claude Opus 4.5 同台，并呈现出一种更“接近旗舰”的整体形态：不是只在单点能力上亮眼，而是在知识、推理、编码、偏好对齐、工具与长上下文之间尽量均衡。

更有意思的是，Qwen3-Max-Thinking 在 Arena-Hard v2 这类偏“对话偏好/竞技场胜率”的指标上给出了显著领先的分数，同时在 HLE（w/ tools）这类强调工具参与的评测上也拿到了更高的结果。这意味着它不仅会“想”，也更像一个能把工具用起来的系统。

Pushing Qwen3-Max-Thinking Beyond its Limits Qwen3-Max: Just Scale it

价格杀伤

当性能进入旗舰对标区间，价格就会决定“能不能用”和“能用多少”。按阿里云百炼公开的模型调用价格，在中国内地部署模式下，qwen3-max 与 qwen3-max-2026-01-23 在单次请求输入 Token ≤ 32K 的阶梯里，输入约 2.5 元/百万 Token、输出约 10 元/百万 Token。

横向看，OpenAI 的 GPT-5.2 标注为输入 1.75 美元/百万 Token、输出 14 美元/百万 Token。Claude Opus 4.5 官方公告给出的价格是输入 5 美元/百万 Token、输出 25 美元/百万 Token。即使不做汇率换算，仅从“同为旗舰级别 API、按百万 Token 计价”的量级上，Qwen3-Max 的输出成本也明显更激进；而如果按常见汇率粗略折算，差距会进一步放大。

模型调用价格（阿里云百炼） OpenAI API Pricing Introducing Claude Opus 4.5

落地更快

价格只是第一步，工程落地还要看迁移成本与生态兼容。Qwen3-Max 系列的一条关键策略，是把 API 做到 OpenAI-API compatible：你可以用接近 OpenAI Chat Completions 的方式去调用 qwen3-max，也能把 qwen3-max-2026-01-23 这类 Thinking 版本接到既有的调用框架里。

当“旗舰能力”与“可接受成本”叠加，再加上比较顺滑的 API 兼容路径，Qwen3 的竞争力就会从单纯的跑分，转变为一种更现实的工程优势：可以更大胆地开更长的上下文、更频繁地做工具调用、更放心地把它放进链路核心，而不是只在关键节点偶尔奢侈地用一次。

Qwen3-Max: Just Scale it Pushing Qwen3-Max-Thinking Beyond its Limits 模型列表（阿里云百炼）