Claude Sonnet 4.6模型发布,更低的价格堪比Opus4.6的性能:国内外7个热门模型实测对比

今天凌晨 Anthropic 把 Claude Sonnet 4.6 发布了,同时在 claude.ai 和 Claude Cowork 放在默认位 ,我把手上的几个商单项目肝了8个多小时 ,把它在几个真实开发场景里反复折腾了一轮 ,然后写了这篇文章。
快速结论:
Sonnet 4.6 的定位非常明确 , 用 Sonnet 档位的价格,拉到接近 Opus 4.6 的工程能力上限 ,尤其是 coding、computer use 和长上下文场景。
数字上能给多少信心?Sonnet 4.6 在 SWE-bench Verified 上拿到 79.6% ,而 Opus 4.6 是 80.8% ,差距只有 1.2 个点。在 OSWorld -Verified(像人一样用电脑的能力)上,两者分别是 72.5% 和 72.7% ,基本就是同一档。
接下来 我会做三件事: 先拆各家公开基准的硬指标,再用真实项目做实战对比(前端从 0 到 1、后端遗留重构、Agent 自动化、终端编程),最后给一份工程视角的模型选型路由建议。
图片[1]-Claude Sonnet 4.6模型发布,更低的价格堪比Opus4.6的性能:国内外7个热门模型实测对比-极客君
01硬指标拆解
图片[2]-Claude Sonnet 4.6模型发布,更低的价格堪比Opus4.6的性能:国内外7个热门模型实测对比-极客君
1.1 SWE-bench Verified:真实代码修复能力
SWE-bench Verified 是目前开发者社区最认可的“真实 issue 修复”基准,主要基于 Python 项目,经过人工校验确认可解。下图是我汇总的各家成绩:
图片[3]-Claude Sonnet 4.6模型发布,更低的价格堪比Opus4.6的性能:国内外7个热门模型实测对比-极客君
SWE-bench Verified 成绩对比(数据来源:各家官方公开报告)

模型

得分

 Opus 差距

备注

Opus 4.6

80.8%

当前天花板

MiniMax M2.5

80.2%

-0.6%

性价比极高

Sonnet 4.6

79.6%

-1.2%

本文主角

Gemini 3 Pro

78.1%

-2.7%

DeepThink

GLM-5

77.4%

-3.4%

中文场景强

Kimi K2.5

76.2%

-4.6%

多模态+Agent

GPT-5.3 Codex

56.8%*

*SWE-bench Pro

SWE-bench 成绩汇总(*GPT-5.3 为 Pro 版本,其余为 Verified 版本,不可直接对比)
数字背后有三个值得注意的点 :
Sonnet 4.6 跟 Opus 4.6 之间的 1.2 个点差距,在实际开发中体现为决策风格和稳健性上的微小差异,而不是“会不会写”的问题。
MiniMax M2.5 拿到 80.2% 直接逼近 Opus,但价格只有 Opus 的零头(后面会算细账)。
第三,Gemini 3 Pro、GLM-5、Kimi K2.5 都在 76–78% 这个区间,已经达到生产可用的水平,具体选谁取决于你对终端能力、中文能力还是 Agent 工具链的侧重。
补一个细节:OpenAI 官方公开的是 SWE-bench Pro(GPT-5.3-Codex:56.8%),这个基准更严格、语言覆盖更广,和 Verified 不能直接比 , 不少测评文章会故意混淆这两个数字,看的时候留个心眼。
1.2 Terminal-Bench 2.0:终端 Agent 编程能力
如果你经常让模型在 CI 环境、Docker 容器或者终端里跑命令、写脚本、改配置,Terminal-Bench 的参考价值比 SWE-bench 更大。
图片[4]-Claude Sonnet 4.6模型发布,更低的价格堪比Opus4.6的性能:国内外7个热门模型实测对比-极客君
Terminal-Bench 2.0 成绩对比
这里的格局很清楚:GPT-5.3-Codex 以 77.3% 高居榜首,在终端场景下的确是目前的天花板。Claude 家族紧随其后,Opus 65.4%,Sonnet 59.1%,胜在稳定和一次通过率 , Gemini 3 Pro 拿到 52.8%,中规中矩 , 国产模型方面,GLM-5(48.5%)、Kimi K2.5(45.2%)、 MiniMax M2.5 (43.0%) 在终端这个维度还有进步空间,但别急着下判断,它们在其他维度上能补回来。
1.3 OSWorld -Verified:Computer Use(像人一样用电脑)
这一项是 Sonnet 4.6 真正让我眼前一亮的地方 , 72.5% 的得分 ,离 Opus 4.6 的 72.7% 只差 0.2 个点。这意味着什么?
图片[5]-Claude Sonnet 4.6模型发布,更低的价格堪比Opus4.6的性能:国内外7个热门模型实测对比-极客君
OSWorld -Verified 全模型成绩对比

模型

OSWorld 得分

梯队

特点

Opus 4.6

72.7%

T1

标杆

Sonnet 4.6

72.5%

T1

性价比之王

GPT-5.3 Codex

58.3%

T1

偏好 API/脚本

Gemini 3 Pro

51.6%

T2

价格优势

Kimi K2.5

44.1%

T2

Agent Swarm 

GLM-5

42.8%

T2

中文场景优先

MiniMax M2.5

39.5%

T2

成本极低

OSWorld -Verified 全模型详细数据
举个具体例子 : 你公司里有那种没有 API ? 只有一个网页后台的老系统,以前要自动化就得写 Selenium 脚本、加胶水代码、再安排人手工兑底 , 现在这个分数说明,可以认真考虑让模型直接“看屏幕 + 点鼠标”把流程跑起来,然后再逐步迁移到 API 方案,这不是考卷上的炒作,是实打实的落地路径。
国产模型在 Computer Use 上目前和 Claude 的差距还比较明显,GLM-5、Kimi K2.5、 MiniMax M2.5 分别在 42.8%、44.1%、39.5%,属于 T 2 梯队。但这也说明了一件事:Computer Use 是一个发展很快的方向,有理由期待国产模型在后续版本中追赶上来。
图片[1]-Claude Sonnet 4.6模型发布,更低的价格堪比Opus4.6的性能:国内外7个热门模型实测对比-极客君
02谈钱:不算账的测评都是耍流氓
图片[2]-Claude Sonnet 4.6模型发布,更低的价格堪比Opus4.6的性能:国内外7个热门模型实测对比-极客君
光看跑分不看价格,就像买车的时候 光看马力不看油耗 (一般土豪随意) ,没法指导生产决策,先看各家官方公开的 API 定价:
图片[8]-Claude Sonnet 4.6模型发布,更低的价格堪比Opus4.6的性能:国内外7个热门模型实测对比-极客君
API 定价对比(数据来源:各家官网,2026年2月)

模型

输入 ($/M)

输出 ($/M)

上下文窗口

Opus 4.6

$5

$25

200K&1M阶梯

Sonnet 4.6

$3

$15

200K&1M阶梯

GPT-5.3 Codex

$6

$24

1M

Gemini 3 Pro

$1.25

$10

1M

GLM-5

$2

$8

200K

MiniMax M2.5

$1

$5.5

200K

Kimi K2.5

$0.6

$4

200K
各模型 API 定价明细
光看单价还不够直观。我按照实际开发中最常见的“重任务”场景算了一笔账:1M token 输入(整个代码库 / 大文档 / 多文件 RAG 上下文)+ 50K token 输出(修复方案 + patch + 测试 + 说明)。
图片[9]-Claude Sonnet 4.6模型发布,更低的价格堪比Opus4.6的性能:国内外7个热门模型实测对比-极客君
单次重任务成本对比(建议收藏,开会能用)
Opus 4.6 每次 $6.25,Sonnet 4.6 每次 $3.75 , 同样的重活Sonnet 只要 Opus 的60% 成本,但 SWE-bench Verified 上只差 1.2 个点。这个性价比在实际生产中非常有说服力。
“五分之一价格”这个说法到底准不准?
不少文章直接喊“Sonnet 4.6 只要 Opus 的五分之一” , 这句话 源自 Claude Opus 4/4.1 的历史定价是 $15/$75(输入/输出),Sonnet 是 $3/$15,恰好是五分之一。
但现在 Opus 4.6 已经降到 $5/$25,所以严格比较4.6 vs 4.6,实际差距是 1.67 倍,不是 5 倍。
更准确的说法应该是:Sonnet 4.6 用“历史上 Sonnet 的价格档位”,拿到了接近 Opus 4.6 的工程能力。
图片[1]-Claude Sonnet 4.6模型发布,更低的价格堪比Opus4.6的性能:国内外7个热门模型实测对比-极客君
03实战场景详解
图片[2]-Claude Sonnet 4.6模型发布,更低的价格堪比Opus4.6的性能:国内外7个热门模型实测对比-极客君
拿真实开发里最常见、最要命的四类任务来测,统一规则:同一份需求、同一套约束、以“能跑起来”为底线。我关心的核心问题是:改动是否收敛、是否会把项目搞炸、需要我返工多少。
说明:下面的“工程体验”部分是我的主观评价(项目真实,评分主观);跑分和价格等硬数据全部来自官方公开材料。
图片[12]-Claude Sonnet 4.6模型发布,更低的价格堪比Opus4.6的性能:国内外7个热门模型实测对比-极客君
七家模型实战场景综合评分(满分 10,主观评价)
3.1 前端从零搭建:Sonnet 4.6 的审美和边界感
任务: Next.js 16(App Router)+ Tailwind + Supabase ,做一个实时 SaaS Dashboard。要求暗黑模式、WebSocket 实时图表、响应式布局,三轮迭代——第一版能跑、第二版优化结构、第三版补边界和体验。
Sonnet 4.6 的表现
它很像一个经验丰富的前端合伙人,上来先定 types.ts ,把 WebSocket 数据结构和接口边界写清楚;Server Actions 用得很稳,没有把旧的 API Routes 混进来;Tailwind 的类名也很讲究,留白、阴影、微动效都很到位,能感觉到它是懂 UI 的。
也不是完美: Supabase 实时订阅的清理函数一开始漏了,典型的资源释放坑。但我指出后,它立刻把 useEffect 的 cleanup 补齐了,响应速度和修复质量都不错。
Opus 4.6 的表现
Opus 在前端搭建上和 Sonnet 很接近,代码规范同样出色,区别在于 Opus 在第二轮迭代时会主动提出架构优化建议(比如拆分过大的组件、抽离公共逻辑),而 Sonnet 更倾向于执行你给的指令。但考虑到价格差距,前端搭建任务用 Sonnet 就够了。
GPT-5.3-Codex 的表现
慢是真的慢,生成浪费在思考上,工程上偏“能跑就行”,UI 表现粗了一些,但生态优势明显,更懂 VS Code、CLI 和工具链的组合拳。
MiniMax M2.5 的表现
我原本的预期是“便宜但糙”,结果第一版就能跑起来。但在 Next.js 16 的新特性上出现了典型的“时间线差”——App Router 和 Pages Router 混用,需要我手动把路由层损顺,一句话总结:你当架构师,它当体力活工程师,配合得不错,最主要是快。
Gemini 3 Pro 的表现
Gemini 3 Pro 在前端搭建中表现很强,特别是UI界面很漂亮,它能正确使用 App Router,但 Tailwind 的细节调整比较粗糙,响应式布局的断点设置也不够精细,优势在于价格便宜颜值高,而且支持 1M 上下文窗口,适合大代码库场景。
GLM-5 / Kimi K2.5 的表现
GLM-5 在前端搭建中的代码规范还可以,尤其是注释和变量命名比较规整,但对 Next.js 16 的 App Router 等新特性支持偏弱,Tailwind 的细节调整也不如 Claude 家族精细,Kimi K2.5 情况类似,基本功能能跑通, 但Kimi K2.5的 U I 审美是要比所有模型都强 ,然后国产模型在中文注释和文档生成上明显比海外模型好。

维度

Sonnet

Opus

GPT

Gemini

MiniMax

GLM-5

Kimi

代码规范

5

5

5

3

3

4

4

UI 审美

3

3

3

5

3

3

5

生成速度

4

3

2

4

5

3

3

新特性

5

5

4

3

3

3

3

性价比

3

2

3

3

5

4

4

中文能力

4

4

4

3

5

5

5

前端搭建场景全模型对比(满分 5,主观评分)
3.2 遗留系统重构:Opus 仍是兑底专家,但 Sonnet 已经够用
任务: 5000 行 Flask 单体迁移到 FastAPI 微服务架构。
这个任务最能体现模型的决策风格。Opus 4.6 很像资深 Tech Lead:先画依赖图、先找循环引用、先保守拆分,步子很稳。Sonnet 4.6 像执行力很强的 Senior:重构动作更快,但偶尔会给出略激进的删改建议。
我自己的用法: Opus 出方案 + 把关,Sonnet 去落地搬砖。 这就是工程里的最优解 ,千万 别拿 Opus 当打字员,也别拿 Sonnet 当架构兑底。
其他模型在这个场景下的表现:GPT-5.3-Codex 重构思路偏激进,有时会大段删改而不充分考虑向后兼容,但胜 在质量 。Gemini 3 Pro 表现居中,依赖分析还行但渐进拆分策略不够稳健。 MiniMax M2.5 能跟着拆分走,但对复杂依赖关系的判断偶尔会出错 , GLM-5 和 Kimi K2.5 在这种大规模重构任务上还比较吞,主要短板在跨文件依赖分析和渐进式辽移策略上。

维度

Sonnet

Opus

GPT

Gemini

MiniMax

GLM-5

Kimi

依赖分析

4

5

5

3

3

4

3

渐进拆分

4

5

3

3

3

2

3

向后兼容

4

5

3

3

3

3

3

执行速度

4

3

2

4

5

4

4

风险控制

4

5

3

3

3

3

3

后端重构场景全模型对比(满分 5,主观评分)
3.3 Agent 自动化:Computer Use 终于从演示走向能用
任务: 打开浏览器→抓取竞品定价→填表格→发邮件。
这类流程里,最难的不是会不会点鼠标,是弹窗处理、Cookie 同意、登录态保持、页面结构变化、以及失败后的恢复。Sonnet 4.6 在 OSWorld -Verified 拿到 72.5% 不是白来的 , 它对弹窗的处理非常像人,知道先把障碍清掉再推进主流程。
Opus 4.6 和 Sonnet 在这个场景下表现接近,都能很好地处理弹窗和异常恢复。Opus 的优势在于多步骤任务编排更稳,但成本更高。
GPT-5.3-Codex 的思路完全不同:它更倾向“别点 UI,我先找 API 或写脚本”。遇到 Cloudflare 这种反爬场景,就会比较吞 , Gemini 3 Pro 在 Agent 自动化中表现中等,操作能力比 Claude 弱一档,但价格便宜和 1M 上下文窗口。
国产模型在这个场景下也有自己的位置。Kimi K2.5 的 Agent Swarm 架构可以拆出多个子任务并行执行,在抓取多个竞品页面时效率不错 , MiniMax M2.5 成本极低,适合抵量大但容错率可接受的场景 , GLM-5 在中文页面的识别和填写上比海外模型更准确。
简单总结:如果你的目标系统只有 UI 没有 API,Sonnet/Opus 更靠谱;如果有结构化 API 可用,Codex 的效率会更高;如果是中文场景 + 批量任务,GLM-5/Kimi/ MiniMax 值得认真考虑。

维度

Sonnet

Opus

GPT

Gemini

MiniMax

GLM-5

Kimi

UI 操作

5

5

3

3

2

2

3

异常恢复

5

5

3

2

2

2

3

API/脚本

4

4

5

3

3

3

3

多任务编排

4

5

3

3

3

3

4

中文页面

4

4

4

3

4

5

4

Agent 自动化场景全模型对比(满分 5,主观评分)
图片[1]-Claude Sonnet 4.6模型发布,更低的价格堪比Opus4.6的性能:国内外7个热门模型实测对比-极客君
04中文与本土场景:国产模型不是陪跑
图片[2]-Claude Sonnet 4.6模型发布,更低的价格堪比Opus4.6的性能:国内外7个热门模型实测对比-极客君
如果你的业务在国内、主要写中文、涉及合规、合同、发票、OCR 等场景,国产模型的优势是实打实的:
GLM-5 的中文语境理解和结构化表达能力非常强。举个例子,同样一份中文合同审查任务,GLM-5 输出的条款拆解和风险提示明显比海外模型更准确、更符合国内法律习惯,而且官方给了很完整的 benchmark 表,对标很清楚。
Kimi K2.5 的多模态 + Agent Swarm 架构适合拆分式任务——比如让多个 Agent 分头去研究不同主题,然后汇总成报告,在多线程研究和汇总场景下表现很不错。
MiniMax M2.5 更像一个便宜到离谱的生产力底座:把它挂在大量长尾请求上,把团队从重复劳动里解放出来,性价比非常突出。
图片[1]-Claude Sonnet 4.6模型发布,更低的价格堪比Opus4.6的性能:国内外7个热门模型实测对比-极客君
05选型建议:别选“最强”,选“最合适”
图片[2]-Claude Sonnet 4.6模型发布,更低的价格堪比Opus4.6的性能:国内外7个热门模型实测对比-极客君
到了 2026 年 2 月,“单模型通吃”这件事基本 不行 了 , 各家模型在不同维度上各有所长,真正要做的是搭一个工程化的路由策略。我自己的生产路由是这样的:
图片[17]-Claude Sonnet 4.6模型发布,更低的价格堪比Opus4.6的性能:国内外7个热门模型实测对比-极客君
推荐生产模型路由配比
占比模型定位适用场景80%Sonnet 4.6日常主力前后端开发、Agent、大部分任务10%Opus 4.6关键兑底架构设计、高风险重构、复杂决策5%GPT-5.3 Codex终端/CI容器、脚本、命令行密集型任务5%MiniMax/GLM/Kimi批量长尾中文场景、低成本批量、Agent Swarm
生产模型路由建议
写在最后
肝 了 8 个 多 小时之后,我对 Sonnet 4.6 的整体感受是这次升级是有实质内容的 , 具体来说三个最让我印象深刻的点:
第一,性价比的确到位了 , SWE-bench 差 Opus 1.2 个点, OSWorld 几乎同分,但价格只有 Opus 的60%。在我测试的四个场景里,除了后端重构这种需要深度架构决策的任务,其他场景 Sonnet 都能独立处理得很好。
第二,Computer Use 的进步是真实的 , 72.5% 的 OSWorld 得分意味着,让模型“看屏幕点鼠标”处理那些没有 API 的老系统,已经从“演示用”变成了“能上生产”。对于很多企业来说,这可能是最具实际价值的一项进步。
第三,多模型路由是必然趋势 , 现在没有哪个模型能在所有维度上都最强。GPT-5.3-Codex 在终端场景无人能及,Gemini 3 Pro 价格竞争力强,国产模型在中文场景和成本上有绝对优势。把不同模型按场景分配,才是现阶段最合理的方案。
2026 年 AI 开发工具的竞争已经不 再是 谁最强, 是谁能被最好地组合进工程体系 , Sonnet 4.6 的发布,让这个组合里最重要的那个位置,有了一个性价比更高的选择。
© 版权声明
THE END
喜欢就支持一下吧
点赞14赞赏 分享