Claude Sonnet 4.6模型发布，更低的价格堪比Opus4.6的性能：国内外7个热门模型实测对比-极客君

今天凌晨 Anthropic 把 Claude Sonnet 4.6 发布了，同时在 claude.ai 和 Claude Cowork 放在默认位，我把手上的几个商单项目肝了8个多小时，把它在几个真实开发场景里反复折腾了一轮，然后写了这篇文章。

快速结论：

Sonnet 4.6 的定位非常明确，用 Sonnet 档位的价格，拉到接近 Opus 4.6 的工程能力上限，尤其是 coding、computer use 和长上下文场景。

数字上能给多少信心？Sonnet 4.6 在 SWE-bench Verified 上拿到 79.6% ，而 Opus 4.6 是 80.8% ，差距只有 1.2 个点。在 OSWorld -Verified（像人一样用电脑的能力）上，两者分别是 72.5% 和 72.7% ，基本就是同一档。

接下来我会做三件事：先拆各家公开基准的硬指标，再用真实项目做实战对比（前端从 0 到 1、后端遗留重构、Agent 自动化、终端编程），最后给一份工程视角的模型选型路由建议。

图片[1]-Claude Sonnet 4.6模型发布，更低的价格堪比Opus4.6的性能：国内外7个热门模型实测对比-极客君

01硬指标拆解

1.1 SWE-bench Verified：真实代码修复能力

SWE-bench Verified 是目前开发者社区最认可的“真实 issue 修复”基准，主要基于 Python 项目，经过人工校验确认可解。下图是我汇总的各家成绩：

图片[3]-Claude Sonnet 4.6模型发布，更低的价格堪比Opus4.6的性能：国内外7个热门模型实测对比-极客君

SWE-bench Verified 成绩对比（数据来源：各家官方公开报告）

模型	得分	与 Opus 差距	备注
Opus 4.6	80.8%	—	当前天花板
MiniMax M2.5	80.2%	-0.6%	性价比极高
Sonnet 4.6	79.6%	-1.2%	本文主角
Gemini 3 Pro	78.1%	-2.7%	非DeepThink
GLM-5	77.4%	-3.4%	中文场景强
Kimi K2.5	76.2%	-4.6%	多模态+Agent
GPT-5.3 Codex	56.8%*	—	*SWE-bench Pro

SWE-bench 成绩汇总（*GPT-5.3 为 Pro 版本，其余为 Verified 版本，不可直接对比）

数字背后有三个值得注意的点：

Sonnet 4.6 跟 Opus 4.6 之间的 1.2 个点差距，在实际开发中体现为决策风格和稳健性上的微小差异，而不是“会不会写”的问题。

MiniMax M2.5 拿到 80.2% 直接逼近 Opus，但价格只有 Opus 的零头（后面会算细账）。

第三，Gemini 3 Pro、GLM-5、Kimi K2.5 都在 76–78% 这个区间，已经达到生产可用的水平，具体选谁取决于你对终端能力、中文能力还是 Agent 工具链的侧重。

补一个细节：OpenAI 官方公开的是 SWE-bench Pro（GPT-5.3-Codex：56.8%），这个基准更严格、语言覆盖更广，和 Verified 不能直接比，不少测评文章会故意混淆这两个数字，看的时候留个心眼。

1.2 Terminal-Bench 2.0：终端 Agent 编程能力

如果你经常让模型在 CI 环境、Docker 容器或者终端里跑命令、写脚本、改配置，Terminal-Bench 的参考价值比 SWE-bench 更大。

图片[4]-Claude Sonnet 4.6模型发布，更低的价格堪比Opus4.6的性能：国内外7个热门模型实测对比-极客君

Terminal-Bench 2.0 成绩对比

这里的格局很清楚：GPT-5.3-Codex 以 77.3% 高居榜首，在终端场景下的确是目前的天花板。Claude 家族紧随其后，Opus 65.4%，Sonnet 59.1%，胜在稳定和一次通过率， Gemini 3 Pro 拿到 52.8%，中规中矩，国产模型方面，GLM-5（48.5%）、Kimi K2.5（45.2%）、 MiniMax M2.5 （43.0%）在终端这个维度还有进步空间，但别急着下判断，它们在其他维度上能补回来。

1.3 OSWorld -Verified：Computer Use（像人一样用电脑）

这一项是 Sonnet 4.6 真正让我眼前一亮的地方， 72.5% 的得分，离 Opus 4.6 的 72.7% 只差 0.2 个点。这意味着什么？

图片[5]-Claude Sonnet 4.6模型发布，更低的价格堪比Opus4.6的性能：国内外7个热门模型实测对比-极客君

OSWorld -Verified 全模型成绩对比

模型	OSWorld 得分	梯队	特点
Opus 4.6	72.7%	T1	标杆
Sonnet 4.6	72.5%	T1	性价比之王
GPT-5.3 Codex	58.3%	T1	偏好 API/脚本
Gemini 3 Pro	51.6%	T2	价格优势
Kimi K2.5	44.1%	T2	Agent Swarm 强
GLM-5	42.8%	T2	中文场景优先
MiniMax M2.5	39.5%	T2	成本极低

OSWorld -Verified 全模型详细数据

举个具体例子：你公司里有那种没有 API ？只有一个网页后台的老系统，以前要自动化就得写 Selenium 脚本、加胶水代码、再安排人手工兑底，现在这个分数说明，可以认真考虑让模型直接“看屏幕 + 点鼠标”把流程跑起来，然后再逐步迁移到 API 方案，这不是考卷上的炒作，是实打实的落地路径。

国产模型在 Computer Use 上目前和 Claude 的差距还比较明显，GLM-5、Kimi K2.5、 MiniMax M2.5 分别在 42.8%、44.1%、39.5%，属于 T 2 梯队。但这也说明了一件事：Computer Use 是一个发展很快的方向，有理由期待国产模型在后续版本中追赶上来。

02谈钱：不算账的测评都是耍流氓

光看跑分不看价格，就像买车的时候光看马力不看油耗（一般土豪随意），没法指导生产决策，先看各家官方公开的 API 定价：

图片[8]-Claude Sonnet 4.6模型发布，更低的价格堪比Opus4.6的性能：国内外7个热门模型实测对比-极客君

API 定价对比（数据来源：各家官网，2026年2月）

模型	输入 ($/M)	输出 ($/M)	上下文窗口
Opus 4.6	$5	$25	200K&1M阶梯
Sonnet 4.6	$3	$15	200K&1M阶梯
GPT-5.3 Codex	$6	$24	1M
Gemini 3 Pro	$1.25	$10	1M
GLM-5	$2	$8	200K
MiniMax M2.5	$1	$5.5	200K
Kimi K2.5	$0.6	$4	200K

各模型 API 定价明细

光看单价还不够直观。我按照实际开发中最常见的“重任务”场景算了一笔账：1M token 输入（整个代码库 / 大文档 / 多文件 RAG 上下文）+ 50K token 输出（修复方案 + patch + 测试 + 说明）。

图片[9]-Claude Sonnet 4.6模型发布，更低的价格堪比Opus4.6的性能：国内外7个热门模型实测对比-极客君

单次重任务成本对比（建议收藏，开会能用）

Opus 4.6 每次 $6.25，Sonnet 4.6 每次 $3.75 ，同样的重活Sonnet 只要 Opus 的60% 成本，但 SWE-bench Verified 上只差 1.2 个点。这个性价比在实际生产中非常有说服力。

“五分之一价格”这个说法到底准不准？

不少文章直接喊“Sonnet 4.6 只要 Opus 的五分之一” ，这句话源自 Claude Opus 4/4.1 的历史定价是 $15/$75（输入/输出），Sonnet 是 $3/$15，恰好是五分之一。

但现在 Opus 4.6 已经降到 $5/$25，所以严格比较4.6 vs 4.6，实际差距是 1.67 倍，不是 5 倍。

更准确的说法应该是：Sonnet 4.6 用“历史上 Sonnet 的价格档位”，拿到了接近 Opus 4.6 的工程能力。

03实战场景详解

拿真实开发里最常见、最要命的四类任务来测，统一规则：同一份需求、同一套约束、以“能跑起来”为底线。我关心的核心问题是：改动是否收敛、是否会把项目搞炸、需要我返工多少。

说明：下面的“工程体验”部分是我的主观评价（项目真实，评分主观）；跑分和价格等硬数据全部来自官方公开材料。

图片[12]-Claude Sonnet 4.6模型发布，更低的价格堪比Opus4.6的性能：国内外7个热门模型实测对比-极客君

七家模型实战场景综合评分（满分 10，主观评价）

3.1 前端从零搭建：Sonnet 4.6 的审美和边界感

任务： Next.js 16（App Router）+ Tailwind + Supabase ，做一个实时 SaaS Dashboard。要求暗黑模式、WebSocket 实时图表、响应式布局，三轮迭代——第一版能跑、第二版优化结构、第三版补边界和体验。

Sonnet 4.6 的表现

它很像一个经验丰富的前端合伙人，上来先定 types.ts ，把 WebSocket 数据结构和接口边界写清楚；Server Actions 用得很稳，没有把旧的 API Routes 混进来；Tailwind 的类名也很讲究，留白、阴影、微动效都很到位，能感觉到它是懂 UI 的。

也不是完美： Supabase 实时订阅的清理函数一开始漏了，典型的资源释放坑。但我指出后，它立刻把 useEffect 的 cleanup 补齐了，响应速度和修复质量都不错。

Opus 4.6 的表现

Opus 在前端搭建上和 Sonnet 很接近，代码规范同样出色，区别在于 Opus 在第二轮迭代时会主动提出架构优化建议（比如拆分过大的组件、抽离公共逻辑），而 Sonnet 更倾向于执行你给的指令。但考虑到价格差距，前端搭建任务用 Sonnet 就够了。

GPT-5.3-Codex 的表现

慢是真的慢，生成浪费在思考上，工程上偏“能跑就行”，UI 表现粗了一些，但生态优势明显，更懂 VS Code、CLI 和工具链的组合拳。

MiniMax M2.5 的表现

我原本的预期是“便宜但糙”，结果第一版就能跑起来。但在 Next.js 16 的新特性上出现了典型的“时间线差”——App Router 和 Pages Router 混用，需要我手动把路由层损顺，一句话总结：你当架构师，它当体力活工程师，配合得不错，最主要是快。

Gemini 3 Pro 的表现

Gemini 3 Pro 在前端搭建中表现很强，特别是UI界面很漂亮，它能正确使用 App Router，但 Tailwind 的细节调整比较粗糙，响应式布局的断点设置也不够精细，优势在于价格便宜颜值高，而且支持 1M 上下文窗口，适合大代码库场景。

GLM-5 / Kimi K2.5 的表现

GLM-5 在前端搭建中的代码规范还可以，尤其是注释和变量命名比较规整，但对 Next.js 16 的 App Router 等新特性支持偏弱，Tailwind 的细节调整也不如 Claude 家族精细，Kimi K2.5 情况类似，基本功能能跑通，但Kimi K2.5的 U I 审美是要比所有模型都强，然后国产模型在中文注释和文档生成上明显比海外模型好。

维度	Sonnet	Opus	GPT	Gemini	MiniMax	GLM-5	Kimi
代码规范	5	5	5	3	3	4	4
UI 审美	3	3	3	5	3	3	5
生成速度	4	3	2	4	5	3	3
新特性	5	5	4	3	3	3	3
性价比	3	2	3	3	5	4	4
中文能力	4	4	4	3	5	5	5

前端搭建场景全模型对比（满分 5，主观评分）

3.2 遗留系统重构：Opus 仍是兑底专家，但 Sonnet 已经够用

任务： 5000 行 Flask 单体迁移到 FastAPI 微服务架构。

这个任务最能体现模型的决策风格。Opus 4.6 很像资深 Tech Lead：先画依赖图、先找循环引用、先保守拆分，步子很稳。Sonnet 4.6 像执行力很强的 Senior：重构动作更快，但偶尔会给出略激进的删改建议。

我自己的用法： Opus 出方案 + 把关，Sonnet 去落地搬砖。这就是工程里的最优解，千万别拿 Opus 当打字员，也别拿 Sonnet 当架构兑底。

其他模型在这个场景下的表现：GPT-5.3-Codex 重构思路偏激进，有时会大段删改而不充分考虑向后兼容，但胜在质量。Gemini 3 Pro 表现居中，依赖分析还行但渐进拆分策略不够稳健。 MiniMax M2.5 能跟着拆分走，但对复杂依赖关系的判断偶尔会出错， GLM-5 和 Kimi K2.5 在这种大规模重构任务上还比较吞，主要短板在跨文件依赖分析和渐进式辽移策略上。

维度	Sonnet	Opus	GPT	Gemini	MiniMax	GLM-5	Kimi
依赖分析	4	5	5	3	3	4	3
渐进拆分	4	5	3	3	3	2	3
向后兼容	4	5	3	3	3	3	3
执行速度	4	3	2	4	5	4	4
风险控制	4	5	3	3	3	3	3

后端重构场景全模型对比（满分 5，主观评分）

3.3 Agent 自动化：Computer Use 终于从演示走向能用

任务：打开浏览器→抓取竞品定价→填表格→发邮件。

这类流程里，最难的不是会不会点鼠标，是弹窗处理、Cookie 同意、登录态保持、页面结构变化、以及失败后的恢复。Sonnet 4.6 在 OSWorld -Verified 拿到 72.5% 不是白来的，它对弹窗的处理非常像人，知道先把障碍清掉再推进主流程。

Opus 4.6 和 Sonnet 在这个场景下表现接近，都能很好地处理弹窗和异常恢复。Opus 的优势在于多步骤任务编排更稳，但成本更高。

GPT-5.3-Codex 的思路完全不同：它更倾向“别点 UI，我先找 API 或写脚本”。遇到 Cloudflare 这种反爬场景，就会比较吞， Gemini 3 Pro 在 Agent 自动化中表现中等，操作能力比 Claude 弱一档，但价格便宜和 1M 上下文窗口。

国产模型在这个场景下也有自己的位置。Kimi K2.5 的 Agent Swarm 架构可以拆出多个子任务并行执行，在抓取多个竞品页面时效率不错， MiniMax M2.5 成本极低，适合抵量大但容错率可接受的场景， GLM-5 在中文页面的识别和填写上比海外模型更准确。

简单总结：如果你的目标系统只有 UI 没有 API，Sonnet/Opus 更靠谱；如果有结构化 API 可用，Codex 的效率会更高；如果是中文场景 + 批量任务，GLM-5/Kimi/ MiniMax 值得认真考虑。

维度	Sonnet	Opus	GPT	Gemini	MiniMax	GLM-5	Kimi
UI 操作	5	5	3	3	2	2	3
异常恢复	5	5	3	2	2	2	3
API/脚本	4	4	5	3	3	3	3
多任务编排	4	5	3	3	3	3	4
中文页面	4	4	4	3	4	5	4

Agent 自动化场景全模型对比（满分 5，主观评分）

04中文与本土场景：国产模型不是陪跑

如果你的业务在国内、主要写中文、涉及合规、合同、发票、OCR 等场景，国产模型的优势是实打实的：

GLM-5 的中文语境理解和结构化表达能力非常强。举个例子，同样一份中文合同审查任务，GLM-5 输出的条款拆解和风险提示明显比海外模型更准确、更符合国内法律习惯，而且官方给了很完整的 benchmark 表，对标很清楚。

Kimi K2.5 的多模态 + Agent Swarm 架构适合拆分式任务——比如让多个 Agent 分头去研究不同主题，然后汇总成报告，在多线程研究和汇总场景下表现很不错。

MiniMax M2.5 更像一个便宜到离谱的生产力底座：把它挂在大量长尾请求上，把团队从重复劳动里解放出来，性价比非常突出。

05选型建议：别选“最强”，选“最合适”

到了 2026 年 2 月，“单模型通吃”这件事基本不行了，各家模型在不同维度上各有所长，真正要做的是搭一个工程化的路由策略。我自己的生产路由是这样的：

图片[17]-Claude Sonnet 4.6模型发布，更低的价格堪比Opus4.6的性能：国内外7个热门模型实测对比-极客君

推荐生产模型路由配比

占比模型定位适用场景80%Sonnet 4.6日常主力前后端开发、Agent、大部分任务10%Opus 4.6关键兑底架构设计、高风险重构、复杂决策5%GPT-5.3 Codex终端/CI容器、脚本、命令行密集型任务5%MiniMax/GLM/Kimi批量长尾中文场景、低成本批量、Agent Swarm

生产模型路由建议

写在最后

肝了 8 个多小时之后，我对 Sonnet 4.6 的整体感受是这次升级是有实质内容的，具体来说三个最让我印象深刻的点：

第一，性价比的确到位了， SWE-bench 差 Opus 1.2 个点， OSWorld 几乎同分，但价格只有 Opus 的60%。在我测试的四个场景里，除了后端重构这种需要深度架构决策的任务，其他场景 Sonnet 都能独立处理得很好。

第二，Computer Use 的进步是真实的， 72.5% 的 OSWorld 得分意味着，让模型“看屏幕点鼠标”处理那些没有 API 的老系统，已经从“演示用”变成了“能上生产”。对于很多企业来说，这可能是最具实际价值的一项进步。

第三，多模型路由是必然趋势，现在没有哪个模型能在所有维度上都最强。GPT-5.3-Codex 在终端场景无人能及，Gemini 3 Pro 价格竞争力强，国产模型在中文场景和成本上有绝对优势。把不同模型按场景分配，才是现阶段最合理的方案。

2026 年 AI 开发工具的竞争已经不再是谁最强，是谁能被最好地组合进工程体系， Sonnet 4.6 的发布，让这个组合里最重要的那个位置，有了一个性价比更高的选择。

文章版权声明 1、本站所有文章均为原创技术内容，受《中华人民共和国著作权法》保护。
2、文中提及的第三方工具、开源项目或服务，其版权归属原作者；本站仅作技术介绍与使用演示，不提供下载或修改版本。
3、所有推荐工具均可通过官方渠道免费获取，本站不存储、分发或托管任何软件资源。
4、如您认为内容侵犯您的权益，请联系邮箱 admin@jikejun.com，我们将及时处理。
5、本站内容仅供个人学习与技术交流使用，禁止用于商业用途、内容聚合、AI 模型训练或自动化采集。
6、转载须注明出处（极客君 jikejun.com）并保留原文链接，未经许可不得用于盈利场景。

THE END