Gemini 3,又一個最強模型出現。但和上一次相比,它到底變了什麼? 是跑分又漲了幾個點,還是 AI 真的不一樣了?就在 Gemini 3 發佈後,11 月 22 日,Jeff Dean 在史丹佛大學發表演講,系統回顧了 15 年 AI 演進,從神經網路、TPU、Transformer 到稀疏模型和蒸餾技術,最後展示 Gemini 3 的獨特能力。在演講中,Jeff Dean 沒有講 benchmark 數字,也沒有做產品宣傳。他說的是:為什麼 AI 應該像大腦那樣工作?為什麼 AI 要從能說變成能做 ?為什麼下一代 AI 不拼參數,而是拼效率?在 Jeff Dean 的視角裡,Gemini 3 不只是一個更大的模型,而是讓 AI 的用法徹底變了。這三條判斷,才是這次發佈背後真正的訊號。訊號一:從拼大小,到像大腦演講一開始,Jeff Dean 就直指一個問題:傳統 AI 模型太浪費了。他說:“在傳統神經網路中,你為每個例子啟動整個模型,這非常浪費。更好的方式是:擁有一個非常大的模型,但每次只啟動其中 1% 到 5%。”假設你有一個巨大的模型,包含了圖像、語言、數學、程式碼等各種能力。傳統做法:無論你問什麼問題,整個模型都要呼叫一遍。就像每次開燈,家裡所有電器都要啟動。Jeff Dean 的想法:根據任務類型,只運行需要的那部分。處理圖片時,只用視覺模組;寫程式碼時,只用程式設計模組。他用大腦做比喻:你坐在英語課上,大腦會使用處理語言的那部分;開車時,大腦就關閉它,將全部精力專注於控制身體和觀察路況。AI 模型也應該這樣工作。這個想法不是為 Gemini 3 才提出的。早在幾年前,Jeff Dean 就開始推動團隊往這個方向研究,並給它起了個名字:Pathways 架構。該架構的核心目標,是建構一個超大模型卻能保持高效,讓每次推理僅啟動一小部分路徑。Google 通過“專家混合”(MoE)技術來實現的:模型內部有很多專家模組有的擅長圖像,有的擅長語言,有的做資訊融合輸入資料進來後,系統自動決定呼叫那些專家效果有多好?Jeff Dean 在演講中展示的資料很驚人:用同樣的計算預算,MoE 架構可以訓練出效果提升 8 倍的模型。而 Gemini 3,正是這套理念的最新實踐。它不再一次性載入全部權重,而是按需呼叫專家模組。結果是:性能更強,成本更低,還能同時處理多個任務。就像你的大腦:處理複雜問題時多個區域協同工作,做簡單事情時只用一小部分。這個轉變意味著什麼?未來的頂級模型,不再是一個什麼都做的全能選手,而是各有專長、協同工作的專業團隊。AI 競爭的關鍵,從“誰的模型更大”,變成了誰能更好地呼叫工具。訊號二:AI 為什麼不只是回答?如果說第一節講的是模型內部如何變聰明,那第二節要講的是:它開始能為你做事了。在演講現場,Jeff Dean 演示了一個例子:一位使用者有一堆家族食譜,有些是韓語手寫的,有些是英語的,都是老照片,有摺痕和油漬。使用者的需求很簡單:做一個雙語食譜網站。然後,Gemini 3 做了什麼? 第一步:掃描並識別所有照片中的文字; 第二步:翻譯成雙語版本; 第三步:自動生成網站佈局; 第四步:為每個食譜配上 AI 生成的配圖。整個過程,使用者只說了一句話。這就是傳統助手和智能 Agent 的區別。助手是你問什麼它答什麼,Agent 是你說目標、它自己拆解任務、呼叫工具、完成整個操作鏈。Jeff Dean 說:AI 不只是回答你,而是具有行動能力。這個能力背後的技術突破是:在可驗證領域的強化學習。什麼意思?以程式設計為例:AI 生成一段程式碼系統自動檢查:能編譯嗎?如果能,給獎勵;如果不能,給懲罰更進一步:程式碼通過單元測試了嗎?通過了,給更多獎勵同樣的邏輯也適用於數學:AI 生成一個證明系統用證明檢查器驗證正確就獎勵,錯誤就指出是第幾步出錯Jeff Dean 說:這個技術突破使模型能夠真正探索潛在解決方案的空間,隨著時間推移,它在探索這個空間時變得越來越好。效果有多驚人?Gemini 在 2025 年國際數學奧林匹克競賽(IMO)上,解決了六道題中的五道,獲得金牌。這個成績有多震撼?要知道,就在三年前的 2022 年,AI 模型在數學推理上還非常弱。當時,業界最先進的模型在 GSM8K(一個中學數學基準測試)上的精準率只有 15%。測試的題目是什麼難度呢?比如:Sean 有五個玩具,聖誕節他又得到了兩個,現在有幾個玩具?這種小學算術題,當時的 AI 正確率也只有 15%。而現在,Gemini 能解決的是國際數學奧林匹克的題目,這是全球數學天才競賽中最難的問題。從小學算術到奧賽金牌,用了不到三年時間。這個飛躍說明,AI 不只是在回答問題上變強了,而是具備了真正的問題解決能力。它能夠自己探索、嘗試、驗證,直到找到正確答案。具體來說,Agent 需要三個關鍵能力:狀態感知:知道你想要什麼、理解當前進展工具組合:能呼叫搜尋、計算器、API 等外部工具多步執行:根據反饋調整計畫、循環嘗試直到完成而 Gemini 3 通過和 Google 生態的深度整合,可以串聯日曆、郵件、雲端服務等真實系統,把這些能力真正用起來。就像前面的食譜網站案例:你不需要說“先識別文字,再翻譯,再排版”,只需要說“做個網站”,Gemini 3 自己搞定所有步驟。這改變了每個人工作方式:過去,你要告訴 AI 每一步怎麼做。現在,你只需要說出目標,剩下的 AI 自己搞定。你的角色從使用者變成了指揮者。訊號三:什麼決定 AI 能否普及?如果說 Pathways 架構讓模型變聰明,Agent 系統讓模型能行動,那第三個訊號最容易被忽視,但可能最關鍵:讓 AI 真正用得起。Jeff Dean 在史丹佛講了一個 2013 年的故事。當時,Google 剛做出一個很好的語音識別模型,比現有系統的錯誤率低很多。Jeff Dean 做了一個測算:如果 1 億人開始每天和手機說話 3 分鐘,會發生什麼?答案是:需要把 Google 的伺服器數量翻倍。就是說,一個功能的改進,要付出整個公司伺服器資源翻倍的代價。這讓 Jeff Dean 意識到:光有好模型不夠,必須讓它用得起。於是,TPU 誕生了。1、TPU:為效率而生的硬體2015 年,第一代 TPU 投入使用。它專門為機器學習設計,做了一件事:把低精度線性代數運算做到極致。結果是什麼?比當時的 CPU 和 GPU 快 15 到 30 倍,能效高 30 到 80 倍。這讓原本需要翻倍伺服器才能推出的功能,現在只需要現有硬體的一小部分就能實現。到了最新第七代 Ironwood TPU,單個 pod 有 9,216 個晶片。如果和第一代機器學習超級計算 pod(TPUv2)比,性能提升了 3,600 倍,能效提升了 30 倍。Jeff Dean 特別指出,這些提升不只靠晶片工藝進步,更重要的是Google從設計之初就把能效作為核心目標。2、蒸餾:讓小模型學會大模型的能力硬體是一方面,演算法是另一方面。Jeff Dean 和 Geoffrey Hinton、Oriol Vinyals 一起研究了一個叫“蒸餾”的技術。核心思想是:讓大模型當老師,教小模型。在一個語音識別任務中,他們做了個實驗:用 100% 的訓練資料,精準率是 58.9%只用 3% 的訓練資料,精準率掉到 44%但如果用蒸餾,只用 3% 的資料,精準率能達到 57%他們實現了用 3% 的資料,達到接近 100% 資料的效果。Jeff Dean 說:“你可以訓練一個非常大的模型,然後用蒸餾讓一個小得多的模型獲得非常接近大模型的性能。”這就是為什麼 Gemini 可以同時做到性能領先和手機可用。大模型在雲端訓練,小模型通過蒸餾學習,部署到手機上。參數隻有十分之一,但保留了 80% 以上的能力。3、真正的門檻:能不能在現實約束下落地但技術突破只是第一步。Jeff Dean 認為,AI 要真正普及到全球,必須面對更現實的問題:能源夠不夠?電力穩不穩?網路通不通?裝置能不能支援?這也是為什麼 Google 要在東南亞等新興市場推廣 AI。這些地區可能沒有強大的電網和伺服器基礎設施,但通過 TPU 和蒸餾這樣的效率技術,人們依然可以在現有條件下用上 AI。Google 的策略不是等條件完美了再推廣,而是讓技術適應現實。這背後的邏輯改變了整個行業的關注點。過去,大家比的是:這個模型有多強?多大參數?多少 token?現在,真正重要的是:它能不能在我的裝置上用起來?成本能壓到多少?能不能離線用?下一輪競爭,拼的不是參數,是落地效率。結語|從模型,到系統看性能資料,這是一次模型升級。看 Jeff Dean 的思路,這是一次範式轉變。從 2013 年伺服器要翻倍的困境,到 2025 年拿下 IMO 金牌,Jeff Dean 一直在回答一個問題:如何讓 AI 既強大,又可用?答案是三個轉變:不是拼誰的模型更大,而是拼設計更聰明(Pathways)不是拼誰的回答更準,而是拼能真正做事(Agent)不是拼誰的參數更多,而是拼能讓更多人用上(TPU+蒸餾)Gemini 3 不是終點,而是這套系統思維的第一次完整展現。 (AI 深度研究員)