經過一年多的蟄伏,Google帶著全新升級的多模態Gemini3來襲,前端UI升級性能拉滿,雖然深度推理、上下文一致性等與ChatGPT5.1 thinking相比還有差距,但總體上已經能滿足絕大多數使用者的基本AI需求。
Gemini 3是如何訓練的?是完全基於GoogleTPU嗎?大家都在關注這些核心問題!
Gemini 3 = 稀疏 Mixture-of-Experts(MoE)Transformer + 原生多模態(文字/圖像/音訊/視訊)+ 超長上下文(輸入最多 1M token、輸出 64k)+ RL 強化“多步推理/定理證明”的一整套棧,並且是用 Google 自家 TPU Pod + JAX + Pathways 從零訓練出來的新模型。
下面分幾層講:架構、訓練資料與流程、算力/系統設計,再講一下“這套設計背後的邏輯”。
1. 核心骨架:Sparse Mixture-of-Experts Transformer
官方模型卡直接寫了:
MoE 的關鍵點:
相當於,不是每個問題都叫公司裡所有員工一起開會,而是路由到 2–3 個最合適的小組來處理。
2. 原生多模態(Text + Vision + Audio + Video)
模型從設計上就是 “多模態優先”,而不是 “先做文字,再外掛一個視覺編碼器”。文字 token、圖像 patch、音訊幀,都會進同一個 Transformer 主幹,只是前端有不同的編碼器,把不同模態統一到同一向量空間。Google 還在此基礎上做了 Nano Banana Pro 這種圖像模型,直接把 Gemini 3 Pro 當成圖像生成/編輯的“主腦”。
這類原生多模態的好處:
3. 超長上下文:1M Token 輸入、64k 輸出
在實現上,Google 沒公開全部細節,但結合他們開放原始碼的 Gemma 3 報告可以看出最近的思路:更多 local attention 層 + 更短的 local span,減少 KV-cache 爆炸;把“少量 global attention 層”用在關鍵資訊彙總上。
所以你可以理解為:局部窗口裡用 cheap 的 local attention,偶爾插一層“全域視角”做資訊整合,再配合 MoE 把計算分散到不同專家上,共同支撐 1M context。
4. 和 Gemini 2.5 的差異
官方說得很清楚:
1. 預訓練資料構成
模型卡里披露得相當詳細:
多模態、多領域的大規模語料:
資料來源類型:
所以整體可以理解為:“公共網際網路 + 授權版權庫 + 自家產品行為日誌 + 內部 & 合成資料” 的大雜燴,而且是多模態同步喂的。
2. 資料清洗與安全過濾
同一份模型卡也寫了資料處理流程:
這些既是安全要求,也是為了穩定訓練(髒資料太多會直接拉垮收斂)。
官方沒有給出超細節的損失函數和 schedule,但框架是比較典型的“三階段”:
1. 階段一:自監督預訓練(大模型基座)
在上面那堆多模態資料上,做類似「下一個 token 預測」的自監督訓練;文字/程式碼用標準的 autoregressive objective;圖像/音訊/視訊通過適配的編碼方式,把 patch/幀也當 token 來預測。
目標:學到通用語言+世界知識+多模態表徵,不管任務、不管指令。
2. 階段二:監督式指令微調(SFT)
模型卡把這部分統稱為 instruction tuning data。
3. 階段三:強化學習 + 安全部署
Gemini 3 在 RL 上寫得比之前代更直白:使用 reinforcement learning from human and critic feedback:
人類標註那種回答更好;再加“critic 模型”自動給出評分;強化學習用到的內容特別強調:
也就是說,他們專門用 RL 把模型往“會慢慢推理、拆解問題、做數學/證明”這個方向拉。這也解釋了:Gemini 3 在 Humanity’s Last Exam、ARC AGI 2 等高難度推理 benchmark 上比 2.5 和不少競品強。
安全相關:他們把 資料過濾 + 條件預訓練 + SFT + RLHF + 產品級安全過濾 都當成安全“層級防護”。並按照自家的 Frontier Safety Framework 做紅隊和能力評估。
這次 Gemini 3 的一個重要“元敘事”是:“不用 NVIDIA 也能在前沿”。
1. 硬體:完全用 Google 自家 TPU 訓練
模型卡寫得很清楚:
外部文章因此強調:Gemini 3 證明了一條“自研晶片+自家雲”的完整路徑,可以在不依賴 GPU 供應鏈的情況下做到 frontier 等級。
2. 軟體棧:JAX + ML Pathways
模型卡:訓練用的是 JAX + ML Pathways。Pathways 是 Google 自己的多機多工訓練框架,比較適合這種 MoE + 超長上下文的大模型平行。結合 MoE 架構,你可以想像它在系統層面需要解決:
這些實現細節沒公開,但從他們強調的“sparse MoE + 1M context 實用化”可以看出,系統工程佔了很大比重。
站在方法論角度,可以大概總結出 Google 這代模型的取向:
Gemini 3 更像是“用 TPUs 驅動的 MoE 多模態大腦”,通過龐雜但乾淨的多模態資料預訓練,再用 RL 把“多步推理+Agent 行為”打磨到實戰可用。
Sparse MoE vs Dense LLM:到底換來了什麼,又付出了什麼?
Sparse MoE = 拿“更多參數容量”換“更複雜的系統工程”;
Dense LLM = 拿“簡單穩定”換“更高的推理成本 / 更有限的容量”。
1. 參數容量 vs 計算成本
設想一個簡化例子:
Dense 模型:400B 參數,每一層所有 token 都用到全部參數。
Sparse MoE:假設有 32 個專家(experts),每個 expert 有 50B 參數。模型“總容量”≈ 32 × 50B = 1.6T 參數;但路由策略:每個 token 只啟動 2 個 expert。那麼一次前向計算用到的參數 ≈ 2 × 50B = 100B 參數。
所以,對「單次推理」來說:
這就是 MoE 的核心吸引力:
在「算力可承受」的前提下,把總容量做得遠超 Dense,強化“記憶 & 專業化能力”。
2. 路由 & 負載平衡:MoE 的第一大坑
但換來的是非常難搞的一堆工程問題:
Dense LLM 就簡單很多:
3. 表達能力:通才 vs 專才
MoE 的“理論賣點”是:不同專家可以學不同的“風格 / 領域 / 任務”:
這會帶來幾個有意思的現象:
Dense LLM 則是完全的“通才模式”:所有 token 都用同一套參數;更容易在分佈遷移時保持穩健,但對容量和算力要求更高。
4. 訓練 & 推理的穩定性
Dense LLM 優點:
Sparse MoE 的典型麻煩:
但到了 Gemini 3 這種規模:
所以,Google使用MoE 是把“模型容量的 scaling law”從“全靠花算力”變成“花更多系統工程 + 一部分算力”。
幻覺情況如何?
Gemini 3 在“知道的事情答得很強”上是 SOTA,但在“不知道時老老實實說不知道”上,做得並不好。
幾個關鍵 benchmark:
1. SimpleQA Verified(事實問答精準率)也就是說:在簡單事實題上,它比競品明顯更“知道得多”。
2. AA-Omniscience(知識 + 幻覺聯合測評)這 88% 是啥意思?大意是:當它沒有答對時,~88% 的情況都會硬給一個自信的錯誤答案,而不是說“我不知道 / 沒法確認”。
Gemini 3 Pro 在 Omniscience Index 總分和 Accuracy(正確率)都是第一。但同一個評測裡,它的 Hallucination Rate ≈ 88%,而且和 Gemini 2.5 Pro 差不多。
所以:
不少媒體和分析直接點名這一點——“在可靠性 benchmark 裡拿第一,但幻覺率仍然很高”。所以,Gemini 3 的幻覺問題現在看起來“挺嚴重”,而且和 2.5 相比在“會說不知道”這塊幾乎沒進步。但與此同時,它在很多 推理、多模態和事實精準率 benchmark 上又明顯領先。
所以更合理的定位可能是:
這是一個“知識多、推理強,但自我認知(知道自己不知道)還很差”的巨大大腦。
對如何使用Gemini用法,我會建議:把它當作“生成研究結構 + 發掘盲區 + 做 scenario/ontology 的 co-pilot”更為恰當合適。 (貝葉斯之美)