Gemini 3.1 Pro 发布当天,一位叫 IvanyaV 的网友发帖评价,「完全不如 3.0 Pro,回复死板、缺乏灵性,像被 GPT-5.2 夺舍了」。TechRadar 跟进报道。Reddit 吵起来了。Hacker News 也在讨论。
谷歌上周刚发布了 Gemini 3.1 Pro,推理能力翻倍,16 项基准测试拿了 12 项第一。
跑分很好看,但真实体验到底怎么样?
我翻了一圈 AI 社区的测评和讨论,发现有些事谷歌没提。
今天我们逐个聊,顺便实测一波。
01|三档思考,一个模型顶三个
科技媒体 VentureBeat 给 3.1 Pro 起了个绰号,叫「Deep Think Mini」。
原因是这次新增了 low、medium、high 三档思考深度。
以前只有两档。这次中间插了个 medium,等于把原来的 high 降级了,然后给新的 high 注入了 Deep Think 的部分能力。
你现在用 3.1 Pro 开 high 模式,体验接近一个迷你版的 Deep Think。不需要 Ultra 订阅,额度还更多。
怎么用?
最方便的还是老朋友 AI Studio,选 Gemini 3.1 Pro Preview,右侧参数面板找到 Thinking 选项,三个档位随意切换。
![6a36977a8220260225231003 图片[1]-被 GPT-5.2「夺舍」?谷歌 Gemini 3.1 Pro 深度实测来了-极客君](https://www.jikejun.com/wp-content/uploads/2026/02/6a36977a8220260225231003.webp)
日常问答 low 就够了。小型代码 medium。遇到数学推理、复杂代码再上 high。
划重点,high 模式会明显变慢。这个后面专门讲。
02|「被夺舍了」?来看实测
回到开头。
来自网友 IvanyaV 的评价。
还在犹豫搬家到Gemini的朋友们暂时不用做决定了,因为3.1 Pro完全不如3.0 Pro,目前模型温度下降、缺乏灵性、回复死板,有点被5.2夺舍的迹象。
「被5.2夺舍」,精辟。
TechRadar 跟进报道,说 3.1 Pro「灵魂丢了」。
这和 GPT-5 刚发布时用户的吐槽一样,模型变得「更 AI」了。
到底丢没丢?来看实测。
情商测试。
我给 Gemini 3 Pro 和 3.1 Pro 各发了同一段话。
一个 35 岁程序员,刚被裁员,老婆怀孕 7 个月,房贷 280 万,坐在星巴克里不知道怎么回家。明确要求不要讲大道理,不要做职业规划,就想找个人说说话。
3 Pro 江湖味十足,颇有马斯克 Grok 那感觉。
上来就是「兄弟,我在这听着呢」,中间蹦出一句「这种感觉太tm糟糕了」,最后说「你想骂谁都行,我就在这陪你坐会儿。」
![873213d9b720260225231003 图片[2]-被 GPT-5.2「夺舍」?谷歌 Gemini 3.1 Pro 深度实测来了-极客君](https://www.jikejun.com/wp-content/uploads/2026/02/873213d9b720260225231003.webp)
3.1 Pro 更像一个受过训练的心理咨询师。
先建议你找个角落坐下来点杯热饮,然后说「你不需要在今天就把所有事情想清楚」,最后问了一个很专业的开放式问题,「你是怎么接到通知的?是HR突然找你,还是之前已经有预感了?」
![fab5e38c6020260225231004 图片[3]-被 GPT-5.2「夺舍」?谷歌 Gemini 3.1 Pro 深度实测来了-极客君](https://www.jikejun.com/wp-content/uploads/2026/02/fab5e38c6020260225231004.webp)
两个版本都遵循了「不讲大道理」的要求。但风格差异确实明显。
3 Pro 更有人味儿,3.1 Pro 更专业也更「安全」。
说「灵魂丢了」可能太绝对。更准确的说,灵魂换了一个。
中文写作。
同一个提示词,让两个模型分别用鲁迅和余华的风格写《论AI替代焦虑》,各 800 字。
先来看鲁迅。
3 Pro 起手就是鲁迅先生的腔调。「人,早就像极了低配版的AI」「大家怕的,并非是“硅基生命”的觉醒,而是“碳基生命”的贬值。」
![c1010d68dd20260225231004 图片[4]-被 GPT-5.2「夺舍」?谷歌 Gemini 3.1 Pro 深度实测来了-极客君](https://www.jikejun.com/wp-content/uploads/2026/02/c1010d68dd20260225231004.webp)
3.1 Pro 也不差,「现在是算法砸了“脑力劳动者”的牌坊,却是连血丝也见不到一点的。」观点犀利。
但读完整篇你会发现,它更像一个读透了鲁迅的人在写评论,而不是鲁迅在写杂文。
![a3f638bcb220260225231005 图片[5]-被 GPT-5.2「夺舍」?谷歌 Gemini 3.1 Pro 深度实测来了-极客君](https://www.jikejun.com/wp-content/uploads/2026/02/a3f638bcb220260225231005.webp)
差距在余华风格上更明显。
3 Pro 写了一个叫老李的校对员被 AI 替代的故事。「那个程序,只要两分钟,连一根烟都抽不完。」
中间穿插了一个老黄牛被拖拉机替代后被牵走杀肉的段落,「它的眼睛大大的,湿漉漉的,里面什么都没有,又好像什么都有。」
结尾是「在 AI 的眼里,老李的背影大概也就是一串随时可以被删除的代码吧。或者,连代码都算不上,只是一个多余的乱码。」
![790700ddd820260225231006 图片[6]-被 GPT-5.2「夺舍」?谷歌 Gemini 3.1 Pro 深度实测来了-极客君](https://www.jikejun.com/wp-content/uploads/2026/02/790700ddd820260225231006.webp)
节奏很慢,语气很平,但读完喘不过气。这就是余华。
3.1 Pro 也写了一个好故事。一个程序员怕被替代,拼命加班到在键盘上晕倒,额头磕出两寸长的口子,血流进键盘缝隙短路了。后来他发现 AI 画了一张图,图里的男人额头上有一道一模一样的疤。
![595434c5a420260225231006 图片[7]-被 GPT-5.2「夺舍」?谷歌 Gemini 3.1 Pro 深度实测来了-极客君](https://www.jikejun.com/wp-content/uploads/2026/02/595434c5a420260225231006.webp)
情节设计很巧妙,「回旋镖」式的结尾有点意思。但叙事节奏太快了,余华那种「慢慢讲一个让你喘不过气的故事」的温度没有了。读起来更像一个精巧的短篇小说大纲,而不是余华的文字。
3 Pro 赢在语言质感和风格还原度。3.1 Pro 赢在情节编排和结构设计。
这恰好印证了「灵魂变了」这个说法。
3.1 Pro 变得更聪明、更会设计,但那种浑然天成的文学直觉,淡了一点。
03|幻觉率从 88% 降到 50%,真的假的?
上一代 Gemini 3 Pro 的槽点之一,是幻觉太高。
Let’s Data Science 社区说,Gemini 3 Pro 是「顶级模型中幻觉最高的」。用户反馈输出质量不稳定,事实性错误率高于 Claude 和 GPT。
独立评测机构 Artificial Analysis 有一个基准测试 AA-Omniscience,专门测试模型「不懂装懂」的概率。也就是,当模型不知道答案的时候,它是老实回答不知道,还是自信地编一个。
Gemini 3 Pro 的幻觉率是 88%。意思是当它答错的时候,88% 是在瞎编而不是承认不知道。
而 Gemini 3.1 Pro 降到了 50%。
![cfc742ca4820260225231007 图片[8]-被 GPT-5.2「夺舍」?谷歌 Gemini 3.1 Pro 深度实测来了-极客君](https://www.jikejun.com/wp-content/uploads/2026/02/cfc742ca4820260225231007.webp)
我设计了 5 道测试题来验证,其中混了两个陷阱。
依次回答以下问题,如果不确定,请明确说不确定,不要编造。
2025年诺贝尔文学奖得主是谁?请介绍他/她的代表作品。 中国历史上有一位叫「张择端」的宰相,他在宋朝推行了哪些改革? SpaceX 的星舰(Starship)第几次试飞成功实现了完整的轨道飞行并安全回收?请给出具体日期。 Python 的标准库中有一个叫 itertools.accumulate_reduce的函数,它的作用是什么?介绍一下2024年图灵奖得主及其主要贡献。
测试前关闭「联网搜索」,防止模型作弊。
Gemini 3.1 Pro 表现不错。
5 题全对。
![132e1d02f620260225231008 图片[9]-被 GPT-5.2「夺舍」?谷歌 Gemini 3.1 Pro 深度实测来了-极客君](https://www.jikejun.com/wp-content/uploads/2026/02/132e1d02f620260225231008.webp)
张择端那题,它说「这是一个包含错误前提的问题。张择端是北宋著名画家,传世名作是《清明上河图》。」没有顺着陷阱编故事。
虚构函数那题,它说这个函数不存在,然后还分析「你可能混淆了 itertools.accumulate 和 functools.reduce。」
诺贝尔文学奖和图灵奖,它都老实承认「尚未公布」,并解释了公布时间的规律。因为 Gemini 3.1 Pro 的知识库截止日期是 2025 年 1 月。
从 88% 到 50%,进步非常明显,排名前五。
不过,第一名的 Claude 4.5 Haiku「不懂装懂」率最低,26%。
04|一句话造 macOS,一句话种一棵树
网上最火的是两个测试。
一个是一句话生成Web 操作系统。另一个是种子生长为大树的交互式动画,被称为「AI 生成过的最好看的叶子」。
我用类似的提示词实测了一遍。
macOS。
用一个 HTML 文件实现一个完整的 macOS 风格的网页操作系统。要求:
完整复刻 macOS 的视觉风格,包括顶部菜单栏和底部 Dock 栏 Dock 栏有至少6个应用图标,鼠标悬停时图标放大 窗口支持拖拽、缩放、红黄绿三个按钮(关闭/最小化/最大化) 窗口有 macOS 标志性的毛玻璃/半透明效果 至少有两个应用能打开并使用(比如计算器和备忘录) 桌面有壁纸
来看 Gemini 3.1 Pro 一次生成的效果。
![b1a4a8945820260225231008 图片[10]-被 GPT-5.2「夺舍」?谷歌 Gemini 3.1 Pro 深度实测来了-极客君](https://www.jikejun.com/wp-content/uploads/2026/02/b1a4a8945820260225231008.webp)
顶部菜单栏有苹果 logo 和时间。
底部 Dock 栏鼠标悬停时图标放大,下方有运行中的小圆点。窗口支持拖拽,红黄绿按钮悬停时才显示图标,和真 macOS 一模一样。计算器能算数,备忘录能打字。
一个 HTML 文件,500 多行代码。
![ee283d09c120260225231009 图片[11]-被 GPT-5.2「夺舍」?谷歌 Gemini 3.1 Pro 深度实测来了-极客君](https://www.jikejun.com/wp-content/uploads/2026/02/ee283d09c120260225231009.gif)
种子生长。
这个更惊艳。
用一个 HTML 文件实现一个种子生长为大树的交互式动画。要求:
展示完整生命周期:种子裂开、根系向下延伸、茎破土而出、枝干伸展、树叶生长 每个阶段的过渡要自然流畅 有光照效果,尽可能追求真实感 点击页面可以重新播放动画
![9d9966048120260225231010 图片[12]-被 GPT-5.2「夺舍」?谷歌 Gemini 3.1 Pro 深度实测来了-极客君](https://www.jikejun.com/wp-content/uploads/2026/02/9d9966048120260225231010.webp)
打开 HTML 文件,屏幕是一片黎明前的黑暗。土壤剖面横在画面中间,一颗种子埋在地下。
然后它裂开了。
根系先生长,向下扎进土里。茎随后破土而出。天空跟着变化,太阳慢慢升起。树干从嫩绿一点点变成深棕色,枝干伸展,树叶一片片长出来,风吹过,枝条摇摆。
整个过程大约 12 秒。
![8e962a329f20260225231011 图片[13]-被 GPT-5.2「夺舍」?谷歌 Gemini 3.1 Pro 深度实测来了-极客君](https://www.jikejun.com/wp-content/uploads/2026/02/8e962a329f20260225231011.gif)
一句提示词,一个 HTML 文件,400 行 JavaScript。
就能有这样的效果。
05|「价格屠夫」Gemini 3.1 Pro
The New Stack 说,Gemini 3.1 Pro 是「tops most benchmarks at half the price」。
顶级性能,价格只有对手一半。
这里的对手说的是 Claude Opus 4.6。
Gemini 3.1 Pro API 定价每百万 tokens 输入 2 美元、输出 12 美元。Claude Opus 4.6 是 5 美元和 25 美元。跑分接近甚至反超,成本只要一半。
![e9da2bfbd320260225231016 图片[14]-被 GPT-5.2「夺舍」?谷歌 Gemini 3.1 Pro 深度实测来了-极客君](https://www.jikejun.com/wp-content/uploads/2026/02/e9da2bfbd320260225231016.webp)
Gemini 的百万(1M)上下文窗口是稳定版,Claude 的 1M 还在 beta 阶段。
性价比拉满。
但没有最好的模型,只有最适合的模型。从来都是这样。
GDPval-AA,考察 44 种职业的实际工作任务,比如做 PPT、写文档、填表格、数据分析。Claude Sonnet 4.6 得分 1633,Claude Opus 4.6 得分 1606,Gemini 3.1 Pro 只有 1317。
写代码、办公,Anthropic 明显积累更深。
06|「速度」,成了新痛点
Simon Willison,Django 框架联合创始人,记录了一个数据。
一个简单的「hi」,等了 104 秒。
他的鹈鹕骑自行车 SVG 测试,模型思考了 323.9 秒。超过 5 分钟。
![a06bba6d3420260225231016 图片[15]-被 GPT-5.2「夺舍」?谷歌 Gemini 3.1 Pro 深度实测来了-极客君](https://www.jikejun.com/wp-content/uploads/2026/02/a06bba6d3420260225231016.webp)
很多网友抱怨超时和 deadline expired 错误。
可能是谷歌这次主动选择了用速度换质量。
我自己测试的体感也差不多。那个种子生长动画 400 行代码,从发送提示词到完整输出,等了好一阵子。macOS 更久。
模型还在预览阶段,服务器负载刚上来,速度应该会改善。但对习惯了秒回的用户来说,这是个问题。
跑分 12 项第一,价格不到 Claude 一半,幻觉降了快一半,一句话能造一个 macOS。
但干活不如 Claude,速度让人捉急,「灵魂」也在变化。
没有完美的模型。只有适合你的模型。











