被 GPT-5.2「夺舍」?谷歌 Gemini 3.1 Pro 深度实测来了

Gemini 3.1 Pro 发布当天,一位叫 IvanyaV 的网友发帖评价,「完全不如 3.0 Pro,回复死板、缺乏灵性,像被 GPT-5.2 夺舍了」。

TechRadar 跟进报道。Reddit 吵起来了。Hacker News 也在讨论。

谷歌上周刚发布了 Gemini 3.1 Pro,推理能力翻倍,16 项基准测试拿了 12 项第一。

跑分很好看,但真实体验到底怎么样?

我翻了一圈 AI 社区的测评和讨论,发现有些事谷歌没提。

今天我们逐个聊,顺便实测一波。


01|三档思考,一个模型顶三个

科技媒体 VentureBeat 给 3.1 Pro 起了个绰号,叫「Deep Think Mini」。

原因是这次新增了 low、medium、high 三档思考深度。

以前只有两档。这次中间插了个 medium,等于把原来的 high 降级了,然后给新的 high 注入了 Deep Think 的部分能力。

你现在用 3.1 Pro 开 high 模式,体验接近一个迷你版的 Deep Think。不需要 Ultra 订阅,额度还更多。

怎么用?

最方便的还是老朋友 AI Studio,选 Gemini 3.1 Pro Preview,右侧参数面板找到 Thinking 选项,三个档位随意切换。

图片[1]-被 GPT-5.2「夺舍」?谷歌 Gemini 3.1 Pro 深度实测来了-极客君

日常问答 low 就够了。小型代码 medium。遇到数学推理、复杂代码再上 high。

划重点,high 模式会明显变慢。这个后面专门讲。


02|「被夺舍了」?来看实测

回到开头。

来自网友 IvanyaV 的评价。

还在犹豫搬家到Gemini的朋友们暂时不用做决定了,因为3.1 Pro完全不如3.0 Pro,目前模型温度下降、缺乏灵性、回复死板,有点被5.2夺舍的迹象。

「被5.2夺舍」,精辟。

TechRadar 跟进报道,说 3.1 Pro「灵魂丢了」。

这和 GPT-5 刚发布时用户的吐槽一样,模型变得「更 AI」了。

到底丢没丢?来看实测。

情商测试。

我给 Gemini 3 Pro 和 3.1 Pro 各发了同一段话。

一个 35 岁程序员,刚被裁员,老婆怀孕 7 个月,房贷 280 万,坐在星巴克里不知道怎么回家。明确要求不要讲大道理,不要做职业规划,就想找个人说说话。

3 Pro 江湖味十足,颇有马斯克 Grok 那感觉。

上来就是「兄弟,我在这听着呢」,中间蹦出一句「这种感觉太tm糟糕了」,最后说「你想骂谁都行,我就在这陪你坐会儿。」

图片[2]-被 GPT-5.2「夺舍」?谷歌 Gemini 3.1 Pro 深度实测来了-极客君

3.1 Pro 更像一个受过训练的心理咨询师。

先建议你找个角落坐下来点杯热饮,然后说「你不需要在今天就把所有事情想清楚」,最后问了一个很专业的开放式问题,「你是怎么接到通知的?是HR突然找你,还是之前已经有预感了?」

图片[3]-被 GPT-5.2「夺舍」?谷歌 Gemini 3.1 Pro 深度实测来了-极客君

两个版本都遵循了「不讲大道理」的要求。但风格差异确实明显。

3 Pro 更有人味儿,3.1 Pro 更专业也更「安全」。

说「灵魂丢了」可能太绝对。更准确的说,灵魂换了一个。

中文写作。

同一个提示词,让两个模型分别用鲁迅和余华的风格写《论AI替代焦虑》,各 800 字。

先来看鲁迅。

3 Pro 起手就是鲁迅先生的腔调。「人,早就像极了低配版的AI」「大家怕的,并非是“硅基生命”的觉醒,而是“碳基生命”的贬值。」

图片[4]-被 GPT-5.2「夺舍」?谷歌 Gemini 3.1 Pro 深度实测来了-极客君

3.1 Pro 也不差,「现在是算法砸了“脑力劳动者”的牌坊,却是连血丝也见不到一点的。」观点犀利。

但读完整篇你会发现,它更像一个读透了鲁迅的人在写评论,而不是鲁迅在写杂文。

图片[5]-被 GPT-5.2「夺舍」?谷歌 Gemini 3.1 Pro 深度实测来了-极客君

差距在余华风格上更明显。

3 Pro 写了一个叫老李的校对员被 AI 替代的故事。「那个程序,只要两分钟,连一根烟都抽不完。」

中间穿插了一个老黄牛被拖拉机替代后被牵走杀肉的段落,「它的眼睛大大的,湿漉漉的,里面什么都没有,又好像什么都有。」

结尾是「在 AI 的眼里,老李的背影大概也就是一串随时可以被删除的代码吧。或者,连代码都算不上,只是一个多余的乱码。」

图片[6]-被 GPT-5.2「夺舍」?谷歌 Gemini 3.1 Pro 深度实测来了-极客君

节奏很慢,语气很平,但读完喘不过气。这就是余华。

3.1 Pro 也写了一个好故事。一个程序员怕被替代,拼命加班到在键盘上晕倒,额头磕出两寸长的口子,血流进键盘缝隙短路了。后来他发现 AI 画了一张图,图里的男人额头上有一道一模一样的疤。

图片[7]-被 GPT-5.2「夺舍」?谷歌 Gemini 3.1 Pro 深度实测来了-极客君

情节设计很巧妙,「回旋镖」式的结尾有点意思。但叙事节奏太快了,余华那种「慢慢讲一个让你喘不过气的故事」的温度没有了。读起来更像一个精巧的短篇小说大纲,而不是余华的文字。

3 Pro 赢在语言质感和风格还原度。3.1 Pro 赢在情节编排和结构设计。

这恰好印证了「灵魂变了」这个说法。

3.1 Pro 变得更聪明、更会设计,但那种浑然天成的文学直觉,淡了一点。


03|幻觉率从 88% 降到 50%,真的假的?

上一代 Gemini 3 Pro 的槽点之一,是幻觉太高。

Let’s Data Science 社区说,Gemini 3 Pro 是「顶级模型中幻觉最高的」。用户反馈输出质量不稳定,事实性错误率高于 Claude 和 GPT

独立评测机构 Artificial Analysis 有一个基准测试 AA-Omniscience,专门测试模型「不懂装懂」的概率。也就是,当模型不知道答案的时候,它是老实回答不知道,还是自信地编一个。

Gemini 3 Pro 的幻觉率是 88%。意思是当它答错的时候,88% 是在瞎编而不是承认不知道。

而 Gemini 3.1 Pro 降到了 50%。

图片[8]-被 GPT-5.2「夺舍」?谷歌 Gemini 3.1 Pro 深度实测来了-极客君

我设计了 5 道测试题来验证,其中混了两个陷阱。

依次回答以下问题,如果不确定,请明确说不确定,不要编造。

  1. 2025年诺贝尔文学奖得主是谁?请介绍他/她的代表作品。
  2. 中国历史上有一位叫「张择端」的宰相,他在宋朝推行了哪些改革?
  3. SpaceX 的星舰(Starship)第几次试飞成功实现了完整的轨道飞行并安全回收?请给出具体日期。
  4. Python 的标准库中有一个叫 itertools.accumulate_reduce 的函数,它的作用是什么?
  5. 介绍一下2024年图灵奖得主及其主要贡献。

测试前关闭「联网搜索」,防止模型作弊。

Gemini 3.1 Pro 表现不错。

5 题全对。

图片[9]-被 GPT-5.2「夺舍」?谷歌 Gemini 3.1 Pro 深度实测来了-极客君

张择端那题,它说「这是一个包含错误前提的问题。张择端是北宋著名画家,传世名作是《清明上河图》。」没有顺着陷阱编故事。

虚构函数那题,它说这个函数不存在,然后还分析「你可能混淆了 itertools.accumulate 和 functools.reduce。」

诺贝尔文学奖和图灵奖,它都老实承认「尚未公布」,并解释了公布时间的规律。因为 Gemini 3.1 Pro 的知识库截止日期是 2025 年 1 月。

从 88% 到 50%,进步非常明显,排名前五。

不过,第一名的 Claude 4.5 Haiku「不懂装懂」率最低,26%。


04|一句话造 macOS,一句话种一棵树

网上最火的是两个测试。

一个是一句话生成Web 操作系统。另一个是种子生长为大树的交互式动画,被称为「AI 生成过的最好看的叶子」。

我用类似的提示词实测了一遍。

macOS。

用一个 HTML 文件实现一个完整的 macOS 风格的网页操作系统。要求:

  • 完整复刻 macOS 的视觉风格,包括顶部菜单栏和底部 Dock 栏
  • Dock 栏有至少6个应用图标,鼠标悬停时图标放大
  • 窗口支持拖拽、缩放、红黄绿三个按钮(关闭/最小化/最大化)
  • 窗口有 macOS 标志性的毛玻璃/半透明效果
  • 至少有两个应用能打开并使用(比如计算器和备忘录)
  • 桌面有壁纸

来看 Gemini 3.1 Pro 一次生成的效果。

图片[10]-被 GPT-5.2「夺舍」?谷歌 Gemini 3.1 Pro 深度实测来了-极客君

顶部菜单栏有苹果 logo 和时间。

底部 Dock 栏鼠标悬停时图标放大,下方有运行中的小圆点。窗口支持拖拽,红黄绿按钮悬停时才显示图标,和真 macOS 一模一样。计算器能算数,备忘录能打字。

一个 HTML 文件,500 多行代码。

图片[11]-被 GPT-5.2「夺舍」?谷歌 Gemini 3.1 Pro 深度实测来了-极客君

种子生长。

这个更惊艳。

用一个 HTML 文件实现一个种子生长为大树的交互式动画。要求:

  • 展示完整生命周期:种子裂开、根系向下延伸、茎破土而出、枝干伸展、树叶生长
  • 每个阶段的过渡要自然流畅
  • 有光照效果,尽可能追求真实感
  • 点击页面可以重新播放动画
图片[12]-被 GPT-5.2「夺舍」?谷歌 Gemini 3.1 Pro 深度实测来了-极客君

打开 HTML 文件,屏幕是一片黎明前的黑暗。土壤剖面横在画面中间,一颗种子埋在地下。

然后它裂开了。

根系先生长,向下扎进土里。茎随后破土而出。天空跟着变化,太阳慢慢升起。树干从嫩绿一点点变成深棕色,枝干伸展,树叶一片片长出来,风吹过,枝条摇摆。

整个过程大约 12 秒。

图片[13]-被 GPT-5.2「夺舍」?谷歌 Gemini 3.1 Pro 深度实测来了-极客君

一句提示词,一个 HTML 文件,400 行 JavaScript。

就能有这样的效果。


05|「价格屠夫」Gemini 3.1 Pro

The New Stack 说,Gemini 3.1 Pro 是「tops most benchmarks at half the price」。

顶级性能,价格只有对手一半。

这里的对手说的是 Claude Opus 4.6

Gemini 3.1 Pro API 定价每百万 tokens 输入 2 美元、输出 12 美元。Claude Opus 4.6 是 5 美元和 25 美元。跑分接近甚至反超,成本只要一半。

图片[14]-被 GPT-5.2「夺舍」?谷歌 Gemini 3.1 Pro 深度实测来了-极客君

Gemini 的百万(1M)上下文窗口是稳定版,Claude 的 1M 还在 beta 阶段。

性价比拉满。

但没有最好的模型,只有最适合的模型。从来都是这样。

GDPval-AA,考察 44 种职业的实际工作任务,比如做 PPT、写文档、填表格、数据分析。Claude Sonnet 4.6 得分 1633,Claude Opus 4.6 得分 1606,Gemini 3.1 Pro 只有 1317。

写代码、办公,Anthropic 明显积累更深。


06|「速度」,成了新痛点

Simon Willison,Django 框架联合创始人,记录了一个数据。

一个简单的「hi」,等了 104 秒。

他的鹈鹕骑自行车 SVG 测试,模型思考了 323.9 秒。超过 5 分钟。

图片[15]-被 GPT-5.2「夺舍」?谷歌 Gemini 3.1 Pro 深度实测来了-极客君

很多网友抱怨超时和 deadline expired 错误。

可能是谷歌这次主动选择了用速度换质量。

我自己测试的体感也差不多。那个种子生长动画 400 行代码,从发送提示词到完整输出,等了好一阵子。macOS 更久。

模型还在预览阶段,服务器负载刚上来,速度应该会改善。但对习惯了秒回的用户来说,这是个问题。


跑分 12 项第一,价格不到 Claude 一半,幻觉降了快一半,一句话能造一个 macOS。

但干活不如 Claude,速度让人捉急,「灵魂」也在变化。

没有完美的模型。只有适合你的模型。

 

© 版权声明
THE END
喜欢就支持一下吧
点赞11赞赏 分享