谷歌大神首次揭密Gemini預訓練秘密：52頁PPT乾貨，推理成本成最重要因素

2025/04/28

•

谷歌憑藉Gemini 2.5 pro已經徹底翻身，經過這段時間各路大神的深度使用和評測，基本上已經鎖定大模型top1，除了優秀的寫作能力以外，編程能力更是打遍無敵手，最重要的Gemini一直以來基本是免費給所有人用，連API都免費

今天有幸看到了一個來自Google內部的技術分享，主講人是Vlad Feinberg，GoogleGemini Flash Pretraining的負責人。這份PPT資訊量爆炸，深入探討了Gemini預訓練背後的核心邏輯、挑戰以及未來方向，特別是如何在算力、數據、模型大小和 推理成本 之間找到那個微妙的平衡點。下面，我就帶大家來深度解讀這份乾貨，一探Gemini 背後的訓練故事

關於大模型的預訓，我們熟知的Scaling Laws（縮放定律）只是故事的一部分

ppt：

https://vladfeinberg.com/assets/2025-04-24-princeton-talk.pdf

一、告別「經驗主義」：從Kaplan到Chinchilla的認知革命

還記得大模型訓練的經典問題嗎？給你一筆固定的算力C（例如1000塊H100用30天），怎麼訓練出最強的LLM？模型參數N該多大？訓練資料D該多少？

早期，大家主要參考Kaplan等人在2020年提出的Scaling Laws。他們的研究發現，模型表現與算力、參數量、資料量之間存在冪律關係，並且強烈建議優先擴大模型參數N。具體來說，算力提升10倍，參數N建議擴大5.37倍，而資料D只需擴大1.86倍。這直接點燃了軍備競賽，大家瘋狂堆參數

但是，Google DeepMind (GDM) 在2022年3月發布的Chinchilla（龍貓）論文，為這個「參數為王」的時代潑了一盆冷水

Chinchilla團隊指出，Kaplan的研究方法（基於單次訓練中的中間loss點推斷）存在缺陷，忽略了學習率衰減等優化帶來的好處，只有最終的loss最能反映模型真實水平

他們採用了更嚴謹的IsoFlops方法：

固定總算力C
訓練多個不同參數N的模型（對應不同的資料量D，因為C ≈ 6 * N * D）
找到這個算力下，loss最低的那個模型N_opt(C)和D_opt(C)
重複以上步驟，得到不同算力C下的最優(N, D)點
擬合這些最優點的關係

Chinchilla的驚人發現是： 模型參數N和資料量D應該以大致相同的速率（指數約為0.5）隨算力C成長！這意味著，按照Kaplan定律訓練出來的許多大模型，其實是「訓練不足（Undertrained）」的！模型太大，數據相對太少，潛力沒發揮。更糟的是，這些「虛胖」的大模型，推理成本極高，部署和使用起來非常昂貴

二、推理成本，不能承受之重！

為什麼Chinchilla強調的「訓練不足」和推理成本如此重要？因為大模型最終是要用的！

看看Google內部的應用場景：

高通量服務：像是搜尋AI Overviews、免費的Gemini App（聊天機器人）、企業級Vertex AI平台、AI Studio API等，用戶量龐大
即時互動：Project Astra、Project Mariner這類需要即時回應的多模態應用。

這些場景，尤其是即時交互，對模型的推理延遲有著極為苛刻的要求

Vlad Feinberg現場做了一個簡單的「餐巾紙計算」（Napkin Math）：假設一個需要即時互動的Web Agent，上下文128k，每次交互處理8k新token，產生128個token，要求延遲在1秒內，再去掉250毫秒的網路和處理開銷...用Llama3-70B這樣的模型在Google的v5e晶片上跑，光是處理8k新token（Prefill）就需要近6秒（單芯），即使動用4x4=16塊晶片並行，也才勉強壓到0.5秒左右。而生成階段（Decode）更是受到記憶體頻寬的嚴重限制，每生成一個token可能就需要好幾毫秒

結論： 對於低延遲場景，70B參數的模型可能都太大了！我們需要更小、更快的模型，也就是像Gemini Flash/Flash-lite這樣的“小鋼砲”

傳統的Scaling Law研究，往往只專注於訓練loss，完全忽略了推理成本，這在實際應用上是行不通的

三、邁向新典範：推理感知（Inference-Aware）的Scaling Laws

既然推理成本如此重要，有沒有更科學的方法來指導預訓練呢？答案是肯定的。

Sardana等人在2024年提出了「推理感知」的Scaling Laws。核心思想是：不再僅僅最小化訓練loss，而是要優化“總成本”，這個總成本包括了訓練成本和生命周期內的總推理成本

其數學形式較複雜，需要考慮訓練與推理所使用的硬體（MFU不同）、輸入/輸出token量（D_inp, D_out）等因素

但結論很明確：

考慮到推理成本後，最優的模型往往比Chinchilla定律建議的更小，但需要用更多的數據（或重複訓練更久）！

當然，這種新範式也面臨挑戰：

硬體非同質性：訓練和推理晶片不同，成本難以統一衡量
推理量D_inf難以預測：模型變好會刺激更多使用（傑文斯悖論），市場會擴張
Scaling Law擬合本身並不完美：尤其在資料量極大或極小的情況下，擬合誤差可能很大

為了解決擬合問題，Muennighoff等人（2023）提出了考慮資料限制的Scaling Law，引入了唯一資料量U和重複次數R的概念L(N, U, R)。研究發現，重複數據的效益會快速下降。這意味著，在數據有限的情況下，更小的模型對數據重複利用更有效

那如果數據「無限」呢？ Llama3訓練了15T token還在提升，似乎說明對於開源模型，只要算力允許，可以一直用所有資料訓練下去。但這是否為最優策略？用數據受限定律可以反推，如果用更少、更精的數據，達到同樣效果能節省多少算力？達到Llama3 8B模型的loss，可能只需原來72%的算力

四、新維度：蒸餾與其他

除了模型大小、資料量、推理成本，模型蒸餾（Distillation） 也成為了一個重要的研究方向。 Busbridge等人（2025)正在研究蒸餾的Scaling Laws，試圖量化教師模型與學生模型之間的成本與表現關係

如何用有限的算力訓練出「小而精」的學生模型？教師模型的能力上限、學生模型的「容量差距」、蒸餾過程中的技巧（如溫度控制）等，都是需要探索的問題。一個有趣的觀點是，蒸餾本質上是一種變異數縮減，好的教師模型能提供更穩定的學習訊號，減少學生模型學習的「雜訊」。

觀點總結

總結一下Vlad Feinberg分享的核心觀點：

Scaling研究兩大方向：

提升曲線：在給定的模型大小下，做到更好的效能
增加斜率：讓模型效能隨規模成長得更快

Gemini的策略：類似“Tick-Tock”，用Flash版本追趕上一代Pro版本的效能，不斷優化推理效率

推理效率是關鍵：壓縮技術（更好的蒸餾、量化、服務友善模型設計）與Scaling研究同等重要

低成本研究機會：

硬體感知Kernel優化：為特定硬體寫算子，例如下一代Flash Attention

量化新前沿：超越傳統的向量量化

FunSearch類別方法：用LLM輔助搜尋更好的模型結構或訓練策略

更穩健的Scaling Laws：引入更多維度（如資料品質、重複度），使用更嚴謹的統計模型（如MLE vs. 最小平方法），甚至用主動學習來選擇最優的(N, D)實驗點

寫在最後：

如果你對這個主題有興趣，可以去查閱PPT中提到的幾篇關鍵論文（Kaplan 2020, Chinchilla 2022, Sardana 2024, Muennighoff 2023, Busbridge 2025等

ppt地址再次奉上：

https://vladfeinberg.com/assets/2025-04-24-princeton-talk.pdf(AI寒武紀)