突发!GPT-5.6 炸场发布:性能封神,但你我还用不上…

好消息!GPT-5.6,刚刚正式发布了。

不是一个模型,是三个。Sol,太阳。Terra,地球。Luna,月亮。

OpenAI 一口气发布了一整个太阳系。

坏消息!普通用户目前还用不了。

昨天 OpenAI 刚被美国政府要求限制 GPT-5.6 的发布,理由是「网络安全能力太强」。必须逐个客户审批,通过了才能开放使用。今天,GPT-5.6 限量预览直接上线了。

注意这几个形容词,限量(limited)、预览(preview)。注定不会是全面开放。

65e11a061e20260627100740

 

图片

TerminalBench 2.1 编程评测,GPT-5.6 Sol Ultra 狂砍 91.9% 准确率,全场最高。还在一纸禁令里的 Claude Mythos 5,88.0%。


Sol 是大杯旗舰款,OpenAI 目前最强的模型。

和 GPT-5.5 一个价。每百万 token 输入 5 美元,输出 30 美元。等于加量不加价,免费升级。

Terra 是中杯日常款,性能和 GPT-5.5 差不多,但价格便宜一半。每百万 token 输入 2.5 美元,输出 15 美元。

Luna 是小杯入门款,主打又快又便宜。每百万 token 输入 1 美元,输出 6 美元。GPT-5.6 系列最便宜的模型。

图片

OpenAI 模型的命名方式终于变了。

数字代表版本号,Sol/Terra/Luna 代表能力等级。以后每个等级可以独立升级,不用再等一整个大版本更新。

你可能已经想到了,这不就是 Claude 那套命名模式吗?!是的。数字是版本,比如 4.8,5;Haiku/Sonnet/Opus 是能力等级。


划重点,GPT-5.6 目前只开放给了大约 20 家通过审核的合作伙伴和企业客户,通过 API 和 Codex 接入。

图片

OpenAI 官方这样说。

「我们相信全面开放的价值。我们不认为这种政府审批流程应该成为长期默认模式。最好的工具不应该被挡在用户、开发者和网络安全防御者的门外。」

「这是一个短期步骤。我们选择配合,因为这是让模型尽快全面开放的最佳路径。

话外音:我配合你,但我不同意你。


TerminalBench 2.1 测试命令行工作流,需要模型自己规划、迭代和协调调用多个工具。Sol Ultra 91.9%,Sol 88.8%,Claude Mythos 5 88.0%,Claude Fable 5 84.3%,GPT-5.5 83.4%,Claude Opus 4.8 78.9%。

最强的 Sol Ultra 直接登顶。标准版 Sol 也刚好超过 Mythos 5

图片

中杯 Terra 准确率 84.3%,和 Fable 5 打了个平手。OpenAI 的中端模型,追平了 Anthropic 下架的旗舰款。

Luna 82.5%,略低于 GPT-5.5,但价格只有 GPT-5.5 的五分之一。

不过 OpenAI 官方目前只公布了 GPT-5.6 在编程、生物和网络安全这三个方向的评测结果。MMLU、SWE-bench 这些常规榜单都没放出。「完整跑分要等模型全面开放的时候才会公布了。」


Sol 这次新增了两个推理模式。

max,给模型更多时间深度思考。

ultra,直接调用一群子智能体,并行处理复杂任务。不难看出,这是在对标 Claude Code 的 ultracode 模式:一个 AI,指挥几百个 AI 干活。

这也是 Sol Ultra 能登顶的原因。单 Agent 88.8%,开启多 Agent 协作后,直接涨到 91.9% 。


网络安全是 GPT-5.6 发力最猛的方向,也是美国政府要求限量发布的原因。

在 ExploitBench 漏洞利用测试中,Sol 用了 Claude Mythos Preview 三分之一的 token,追平了它的得分。Claude Mythos 5 仍然是这项测试的最高分,但它已经下线两周了。

图片

OpenAI 表示,「Sol 擅长发现漏洞和生成修复补丁,但在完整攻击链上还没有突破关键阈值。」在 Chromium 和 Firefox 测试中,它发现了漏洞,也找到了一些可以利用的突破口,但没有自主生成一条完整的攻击链。

出于模型安全的考虑,OpenAI 配套上线了实时分类器、账号级行为审查和分级访问控制。还花了超过 70 万个 A100 等效 GPU 小时运行自动化红队测试,专门挖掘通用越狱漏洞。


ChatGPT 和 Codex 的普通用户目前还用不了。OpenAI 说「未来几周全面开放。

网友:还搞限量预览?你改名叫 ClosedAI 算了。

也有人说,「GPT-5.5 已经够用了,先把手里有的用好再说。」

7 月,Sol 还会上线 Cerebras 芯片方案,推理速度达到每秒 750 个 token。


Claude Fable 5,下线 2 周。

Gemini 3.5 Pro,继续难产。

GPT-5.6,发布了,但又没有完全发布。

魔幻,又有点无奈。

© 版权声明
THE END
喜欢就支持一下吧
点赞6赞赏 分享