Gemini 3.1 Pro 發佈！清華姚順宇站台宣傳，Karpathy：應用程式商店的時代結束了

2026/02/21

•

剛在印度 AI 峰會上經歷了最尷尬的一幕，Google CEO Sundar Pichai 轉頭就在今天凌晨官宣了最新模型 Gemini 3.1 Pro。

時機選得，相當精準（doge）。

OpenAI CEO 和 Anthropic CEO 在合影時拒絕握手，而是高舉拳頭。

雖然距離上周 Gemini 3 Deep Think 的更新沒幾天，但 3.1 Pro 的定位，Google 說得很清楚——專為那些「一個簡單答案遠遠不夠」的任務而設計，是解決複雜問題的基礎底座。

按慣例，0.1 的版本號更新通常意味著小修小補，然而，在測試模型解決全新邏輯模式能力的 ARC-AGI-2 基準上，3.1 Pro 拿下 77.1%，是上代 3 Pro（31.1%）的兩倍多，同時壓過了 Anthropic 的 Opus 4.6（68.8%）和 OpenAI 的 GPT-5.2（52.9%）。

其它方面，科學知識測試 GPQA Diamond 拿了 94.3%，智能體類基準 MCP Atlas 和 BrowseComp 分別拿下 69.2% 和 85.9%。

程式設計能力方面，競爭性程式設計基準 LiveCodeBench Pro 的 Elo 評分達到 2887，超過 3 Pro 的 2439 和 GPT-5.2 的 2393。SWE-Bench Verified 上，3.1 Pro 拿了 80.6%，和 Opus 4.6 的 80.8% 基本打平。

當然，3.1 Pro 也不是處處碾壓。

多模態基準 MMMU Pro 上，上代 3 Pro 反而略勝（81.0% vs 80.5%）；啟用工具支援的 Humanity's Last Exam 裡，Opus 4.6 以 53.1% 拿了第一。外界長期批評 Google 工具使用效率不如對手，這次還是沒能完全堵上嘴。

第三方知名分析機構 Artificial Analysis 則給出了相當實在的評價。

3.1 Pro 在他們的智能指數里排名第一，比 Opus 4.6 高 4 分；整個測試跑下來總計使用約 5700 萬 tokens，完成測試的成本不到 Opus 4.6 的一半。能打又省錢，這個組合還是很香的。

Google DeepMind 首席科學家 Jeff Dean 也轉發了一個是用 3.1 Pro 模擬城市規劃、設計全新城市的應用，從零生成可互動的規劃介面 demo。

Google 官方部落格則展示了幾個更日常的方向。程式碼動畫方面，3.1 Pro 可以直接根據文字提示生成動態 SVG，因為是純程式碼生成而非像素，任意縮放都不失真，檔案體積也遠小於傳統視訊。

複雜系統方面，模型直接接入公開遙測資料流，搭出了一個即時追蹤國際空間站軌道的航天儀表盤。

更有意思的是兩個創意類 demo。

一個是 3D 椋鳥群模擬，不只是生成視覺程式碼，還支援用手勢操控鳥群，並配有隨鳥群動態變化的生成音樂；

另一個是把《呼嘯山莊》的文學氛圍轉化成一個現代個人網站，模型沒有簡單概括情節，而是分析了小說的整體基調，設計出了貼合主人公氣質的介面風格。

此外，網友們也貢獻了不少精彩的案例。有人讓 3.1 Pro 生成一個「鬼怪獵人穿越鬼屋」的動態 SVG 循環動畫，結果直接看呆，評價是「Google 這次是認真的」。

還有網友認為讓它生成種子破土、根系延伸、莖稈冒出、葉片展開、直到長成完整大樹的互動動畫，每個生長階段的過渡都順滑自然，說這是見過最好的同類效果。

去年從 Anthropic 轉投 Google DeepMind 的清華物理系特獎得主姚順宇也站台宣傳：「Gemini 不僅是一個優秀的模型，而且更好的模型正以不可阻擋的方式到來。」

當然，這些 demo 加在一起說的是同一件事：模型能做的事，已經從單純的回答問題延伸到完成一整套專業或創意工作流了。

價格方面，API 按分級付費，整體和上代 3 Pro 保持一致，但跟 Anthropic Opus 系列比還是相對便宜的。

20 萬 tokens 以內，輸入 2 美元 / 每百萬 tokens，輸出 12 美元；超過 20 萬 tokens，輸入漲到 4 美元，輸出 18 美元。搜尋功能每月前 5000 次免費，之後每 1000 次查詢收費 14 美元。

現在，開發者可以在 AI Studio、Gemini API、Gemini CLI、智能體開發平台 Google Antigravity 以及 Android Studio；企業使用者在 Vertex AI 和 Gemini Enterprise；普通使用者在 Gemini 應用和 NotebookLM 都能用，後者僅限 Pro 和 Ultra 訂閱。

值得注意的是，3.1 Pro 目前只是預覽版，Google 大機率是要繼續打磨好智能體工作流再推正式版，向外界展示出一副還沒使全力的姿態。

至於這種能力滲透到個人層面會發生什麼，這讓我聯想到了 OpenAI 聯創 Andrej Karpathy 剛剛發佈的推文：

他想用 8 周時間把靜息心率從 50 降到 45，計畫是設定 Zone 2 有氧總時長目標，配合每周一次 HIIT。為了追蹤進展，他花了 1 小時用 vibe coding 做了一個專屬儀表盤。

過程比想像中麻煩，Claude 需要對 Woodway 跑步機的雲 API 進行逆向工程，提取原始資料，處理篩選，搭出 Web 前端介面，中間還有公制英制單位混用、日曆日期對不上這些 bug 需要手動發現並要求修復。

Karpathy 的感嘆很直接，兩年前這事得花 10 小時，現在 1 小時。但他更在意的是：這本來應該只需要 1 分鐘。

他的判斷是，應用程式商店模式正在過時。

300 行程式碼、LLM 幾秒生成的專屬工具，沒必要變成一個正經 App 讓你去搜尋下載。他同時也點了行業的問題：99% 的產品仍然沒有 AI 原生的 CLI，還在維護給人看的前端介面，而不是直接提供便於 Agent 呼叫的 API。

Woodway 跑步機本質上就是個感測器，結果還得讓 LLM 去逆向工程它，完全沒必要。

把 Jeff Dean 的城市規劃 demo 和 Karpathy 的跑步儀表盤放在一起看，其實是同一件事的兩面。當普通人花 1 小時就能為自己做一個高度定製的專屬工具，由 AI 原生感測器和執行器構成、LLM 負責編排、即興生成高度定製專屬應用的時代，就已經近在眼前了。 (APPSO)

科技