被 GPT-5.2「夺舍」？谷歌 Gemini 3.1 Pro 深度实测来了-极客君

Gemini 3.1 Pro 发布当天，一位叫 IvanyaV 的网友发帖评价，「完全不如 3.0 Pro，回复死板、缺乏灵性，像被 GPT-5.2 夺舍了」。

TechRadar 跟进报道。Reddit 吵起来了。Hacker News 也在讨论。

谷歌上周刚发布了 Gemini 3.1 Pro，推理能力翻倍，16 项基准测试拿了 12 项第一。

跑分很好看，但真实体验到底怎么样？

我翻了一圈 AI 社区的测评和讨论，发现有些事谷歌没提。

今天我们逐个聊，顺便实测一波。

01｜三档思考，一个模型顶三个

科技媒体 VentureBeat 给 3.1 Pro 起了个绰号，叫「Deep Think Mini」。

原因是这次新增了 low、medium、high 三档思考深度。

以前只有两档。这次中间插了个 medium，等于把原来的 high 降级了，然后给新的 high 注入了 Deep Think 的部分能力。

你现在用 3.1 Pro 开 high 模式，体验接近一个迷你版的 Deep Think。不需要 Ultra 订阅，额度还更多。

怎么用？

最方便的还是老朋友 AI Studio，选 Gemini 3.1 Pro Preview，右侧参数面板找到 Thinking 选项，三个档位随意切换。

图片[1]-被 GPT-5.2「夺舍」？谷歌 Gemini 3.1 Pro 深度实测来了-极客君

日常问答 low 就够了。小型代码 medium。遇到数学推理、复杂代码再上 high。

划重点，high 模式会明显变慢。这个后面专门讲。

02｜「被夺舍了」？来看实测

回到开头。

来自网友 IvanyaV 的评价。

还在犹豫搬家到Gemini的朋友们暂时不用做决定了，因为3.1 Pro完全不如3.0 Pro，目前模型温度下降、缺乏灵性、回复死板，有点被5.2夺舍的迹象。

「被5.2夺舍」，精辟。

TechRadar 跟进报道，说 3.1 Pro「灵魂丢了」。

这和 GPT-5 刚发布时用户的吐槽一样，模型变得「更 AI」了。

到底丢没丢？来看实测。

情商测试。

我给 Gemini 3 Pro 和 3.1 Pro 各发了同一段话。

一个 35 岁程序员，刚被裁员，老婆怀孕 7 个月，房贷 280 万，坐在星巴克里不知道怎么回家。明确要求不要讲大道理，不要做职业规划，就想找个人说说话。

3 Pro 江湖味十足，颇有马斯克 Grok 那感觉。

上来就是「兄弟，我在这听着呢」，中间蹦出一句「这种感觉太tm糟糕了」，最后说「你想骂谁都行，我就在这陪你坐会儿。」

图片[2]-被 GPT-5.2「夺舍」？谷歌 Gemini 3.1 Pro 深度实测来了-极客君

3.1 Pro 更像一个受过训练的心理咨询师。

先建议你找个角落坐下来点杯热饮，然后说「你不需要在今天就把所有事情想清楚」，最后问了一个很专业的开放式问题，「你是怎么接到通知的？是HR突然找你，还是之前已经有预感了？」

图片[3]-被 GPT-5.2「夺舍」？谷歌 Gemini 3.1 Pro 深度实测来了-极客君

两个版本都遵循了「不讲大道理」的要求。但风格差异确实明显。

3 Pro 更有人味儿，3.1 Pro 更专业也更「安全」。

说「灵魂丢了」可能太绝对。更准确的说，灵魂换了一个。

中文写作。

同一个提示词，让两个模型分别用鲁迅和余华的风格写《论AI替代焦虑》，各 800 字。

先来看鲁迅。

3 Pro 起手就是鲁迅先生的腔调。「人，早就像极了低配版的AI」「大家怕的，并非是“硅基生命”的觉醒，而是“碳基生命”的贬值。」

图片[4]-被 GPT-5.2「夺舍」？谷歌 Gemini 3.1 Pro 深度实测来了-极客君

3.1 Pro 也不差，「现在是算法砸了“脑力劳动者”的牌坊，却是连血丝也见不到一点的。」观点犀利。

但读完整篇你会发现，它更像一个读透了鲁迅的人在写评论，而不是鲁迅在写杂文。

图片[5]-被 GPT-5.2「夺舍」？谷歌 Gemini 3.1 Pro 深度实测来了-极客君

差距在余华风格上更明显。

3 Pro 写了一个叫老李的校对员被 AI 替代的故事。「那个程序，只要两分钟，连一根烟都抽不完。」

中间穿插了一个老黄牛被拖拉机替代后被牵走杀肉的段落，「它的眼睛大大的，湿漉漉的，里面什么都没有，又好像什么都有。」

结尾是「在 AI 的眼里，老李的背影大概也就是一串随时可以被删除的代码吧。或者，连代码都算不上，只是一个多余的乱码。」

图片[6]-被 GPT-5.2「夺舍」？谷歌 Gemini 3.1 Pro 深度实测来了-极客君

节奏很慢，语气很平，但读完喘不过气。这就是余华。

3.1 Pro 也写了一个好故事。一个程序员怕被替代，拼命加班到在键盘上晕倒，额头磕出两寸长的口子，血流进键盘缝隙短路了。后来他发现 AI 画了一张图，图里的男人额头上有一道一模一样的疤。

图片[7]-被 GPT-5.2「夺舍」？谷歌 Gemini 3.1 Pro 深度实测来了-极客君

情节设计很巧妙，「回旋镖」式的结尾有点意思。但叙事节奏太快了，余华那种「慢慢讲一个让你喘不过气的故事」的温度没有了。读起来更像一个精巧的短篇小说大纲，而不是余华的文字。

3 Pro 赢在语言质感和风格还原度。3.1 Pro 赢在情节编排和结构设计。

这恰好印证了「灵魂变了」这个说法。

3.1 Pro 变得更聪明、更会设计，但那种浑然天成的文学直觉，淡了一点。

03｜幻觉率从 88% 降到 50%，真的假的？

上一代 Gemini 3 Pro 的槽点之一，是幻觉太高。

Let’s Data Science 社区说，Gemini 3 Pro 是「顶级模型中幻觉最高的」。用户反馈输出质量不稳定，事实性错误率高于 Claude 和 GPT。

独立评测机构 Artificial Analysis 有一个基准测试 AA-Omniscience，专门测试模型「不懂装懂」的概率。也就是，当模型不知道答案的时候，它是老实回答不知道，还是自信地编一个。

Gemini 3 Pro 的幻觉率是 88%。意思是当它答错的时候，88% 是在瞎编而不是承认不知道。

而 Gemini 3.1 Pro 降到了 50%。

图片[8]-被 GPT-5.2「夺舍」？谷歌 Gemini 3.1 Pro 深度实测来了-极客君

我设计了 5 道测试题来验证，其中混了两个陷阱。

依次回答以下问题，如果不确定，请明确说不确定，不要编造。

2025年诺贝尔文学奖得主是谁？请介绍他/她的代表作品。

中国历史上有一位叫「张择端」的宰相，他在宋朝推行了哪些改革？

SpaceX 的星舰（Starship）第几次试飞成功实现了完整的轨道飞行并安全回收？请给出具体日期。

Python 的标准库中有一个叫 itertools.accumulate_reduce 的函数，它的作用是什么？

介绍一下2024年图灵奖得主及其主要贡献。

测试前关闭「联网搜索」，防止模型作弊。

Gemini 3.1 Pro 表现不错。

5 题全对。

图片[9]-被 GPT-5.2「夺舍」？谷歌 Gemini 3.1 Pro 深度实测来了-极客君

张择端那题，它说「这是一个包含错误前提的问题。张择端是北宋著名画家，传世名作是《清明上河图》。」没有顺着陷阱编故事。

虚构函数那题，它说这个函数不存在，然后还分析「你可能混淆了 itertools.accumulate 和 functools.reduce。」

诺贝尔文学奖和图灵奖，它都老实承认「尚未公布」，并解释了公布时间的规律。因为 Gemini 3.1 Pro 的知识库截止日期是 2025 年 1 月。

从 88% 到 50%，进步非常明显，排名前五。

不过，第一名的 Claude 4.5 Haiku「不懂装懂」率最低，26%。

04｜一句话造 macOS，一句话种一棵树

网上最火的是两个测试。

一个是一句话生成Web 操作系统。另一个是种子生长为大树的交互式动画，被称为「AI 生成过的最好看的叶子」。

我用类似的提示词实测了一遍。

macOS。

用一个 HTML 文件实现一个完整的 macOS 风格的网页操作系统。要求：

完整复刻 macOS 的视觉风格，包括顶部菜单栏和底部 Dock 栏

Dock 栏有至少6个应用图标，鼠标悬停时图标放大

窗口支持拖拽、缩放、红黄绿三个按钮（关闭/最小化/最大化）

窗口有 macOS 标志性的毛玻璃/半透明效果

至少有两个应用能打开并使用（比如计算器和备忘录）

桌面有壁纸

来看 Gemini 3.1 Pro 一次生成的效果。

图片[10]-被 GPT-5.2「夺舍」？谷歌 Gemini 3.1 Pro 深度实测来了-极客君

顶部菜单栏有苹果 logo 和时间。

底部 Dock 栏鼠标悬停时图标放大，下方有运行中的小圆点。窗口支持拖拽，红黄绿按钮悬停时才显示图标，和真 macOS 一模一样。计算器能算数，备忘录能打字。

一个 HTML 文件，500 多行代码。

图片[11]-被 GPT-5.2「夺舍」？谷歌 Gemini 3.1 Pro 深度实测来了-极客君

种子生长。

这个更惊艳。

用一个 HTML 文件实现一个种子生长为大树的交互式动画。要求：

展示完整生命周期：种子裂开、根系向下延伸、茎破土而出、枝干伸展、树叶生长

每个阶段的过渡要自然流畅

有光照效果，尽可能追求真实感

点击页面可以重新播放动画

图片[12]-被 GPT-5.2「夺舍」？谷歌 Gemini 3.1 Pro 深度实测来了-极客君

打开 HTML 文件，屏幕是一片黎明前的黑暗。土壤剖面横在画面中间，一颗种子埋在地下。

然后它裂开了。

根系先生长，向下扎进土里。茎随后破土而出。天空跟着变化，太阳慢慢升起。树干从嫩绿一点点变成深棕色，枝干伸展，树叶一片片长出来，风吹过，枝条摇摆。

整个过程大约 12 秒。

图片[13]-被 GPT-5.2「夺舍」？谷歌 Gemini 3.1 Pro 深度实测来了-极客君

一句提示词，一个 HTML 文件，400 行 JavaScript。

就能有这样的效果。

05｜「价格屠夫」Gemini 3.1 Pro

The New Stack 说，Gemini 3.1 Pro 是「tops most benchmarks at half the price」。

顶级性能，价格只有对手一半。

这里的对手说的是 Claude Opus 4.6。

Gemini 3.1 Pro API 定价每百万 tokens 输入 2 美元、输出 12 美元。Claude Opus 4.6 是 5 美元和 25 美元。跑分接近甚至反超，成本只要一半。

图片[14]-被 GPT-5.2「夺舍」？谷歌 Gemini 3.1 Pro 深度实测来了-极客君

Gemini 的百万（1M）上下文窗口是稳定版，Claude 的 1M 还在 beta 阶段。

性价比拉满。

但没有最好的模型，只有最适合的模型。从来都是这样。

GDPval-AA，考察 44 种职业的实际工作任务，比如做 PPT、写文档、填表格、数据分析。Claude Sonnet 4.6 得分 1633，Claude Opus 4.6 得分 1606，Gemini 3.1 Pro 只有 1317。

写代码、办公，Anthropic 明显积累更深。

06｜「速度」，成了新痛点

Simon Willison，Django 框架联合创始人，记录了一个数据。

一个简单的「hi」，等了 104 秒。

他的鹈鹕骑自行车 SVG 测试，模型思考了 323.9 秒。超过 5 分钟。

图片[15]-被 GPT-5.2「夺舍」？谷歌 Gemini 3.1 Pro 深度实测来了-极客君

很多网友抱怨超时和 deadline expired 错误。

可能是谷歌这次主动选择了用速度换质量。

我自己测试的体感也差不多。那个种子生长动画 400 行代码，从发送提示词到完整输出，等了好一阵子。macOS 更久。

模型还在预览阶段，服务器负载刚上来，速度应该会改善。但对习惯了秒回的用户来说，这是个问题。

跑分 12 项第一，价格不到 Claude 一半，幻觉降了快一半，一句话能造一个 macOS。

但干活不如 Claude，速度让人捉急，「灵魂」也在变化。

没有完美的模型。只有适合你的模型。

文章版权声明 1、本站所有文章均为原创技术内容，受《中华人民共和国著作权法》保护。
2、文中提及的第三方工具、开源项目或服务，其版权归属原作者；本站仅作技术介绍与使用演示，不提供下载或修改版本。
3、所有推荐工具均可通过官方渠道免费获取，本站不存储、分发或托管任何软件资源。
4、如您认为内容侵犯您的权益，请联系邮箱 admin@jikejun.com，我们将及时处理。
5、本站内容仅供个人学习与技术交流使用，禁止用于商业用途、内容聚合、AI 模型训练或自动化采集。
6、转载须注明出处（极客君 jikejun.com）并保留原文链接，未经许可不得用于盈利场景。

THE END