谷歌大神首次揭密Gemini預訓練秘密:52頁PPT乾貨,推理成本成最重要因素

谷歌憑藉Gemini 2.5 pro已經徹底翻身,經過這段時間各路大神的深度使用和評測,基本上已經鎖定大模型top1,除了優秀的寫作能力以外,編程能力更是打遍無敵手,最重要的Gemini一直以來基本是免費給所有人用,連API都免費

今天有幸看到了一個來自Google內部的技術分享,主講人是Vlad Feinberg,GoogleGemini Flash Pretraining的負責人。這份PPT資訊量爆炸,深入探討了Gemini預訓練背後的核心邏輯、挑戰以及未來方向,特別是如何在算力、數據、模型大小和 推理成本 之間找到那個微妙的平衡點。下面,我就帶大家來深度解讀這份乾貨,一探Gemini 背後的訓練故事

關於大模型的預訓,我們熟知的Scaling Laws(縮放定律)只是故事的一部分

ppt:

https://vladfeinberg.com/assets/2025-04-24-princeton-talk.pdf



一、告別「經驗主義」:從Kaplan到Chinchilla的認知革命

還記得大模型訓練的經典問題嗎?給你一筆固定的算力C(例如1000塊H100用30天),怎麼訓練出最強的LLM?模型參數N該多大?訓練資料D該多少?

早期,大家主要參考Kaplan等人在2020年提出的Scaling Laws。他們的研究發現,模型表現與算力、參數量、資料量之間存在冪律關係,並且強烈建議優先擴大模型參數N。具體來說,算力提升10倍,參數N建議擴大5.37倍,而資料D只需擴大1.86倍。這直接點燃了軍備競賽,大家瘋狂堆參數


但是,Google DeepMind (GDM) 在2022年3月發布的Chinchilla(龍貓)論文,為這個「參數為王」的時代潑了一盆冷水

Chinchilla團隊指出,Kaplan的研究方法(基於單次訓練中的中間loss點推斷)存在缺陷,忽略了學習率衰減等優化帶來的好處,只有最終的loss最能反映模型真實水平

他們採用了更嚴謹的IsoFlops方法

  1. 固定總算力C
  2. 訓練多個不同參數N的模型(對應不同的資料量D,因為C ≈ 6 * N * D)
  3. 找到這個算力下,loss最低的那個模型N_opt(C)和D_opt(C)
  4. 重複以上步驟,得到不同算力C下的最優(N, D)點
  5. 擬合這些最優點的關係

Chinchilla的驚人發現是: 模型參數N和資料量D應該以大致相同的速率(指數約為0.5)隨算力C成長! 這意味著,按照Kaplan定律訓練出來的許多大模型,其實是「訓練不足(Undertrained)」的!模型太大,數據相對太少,潛力沒發揮。更糟的是,這些「虛胖」的大模型,推理成本極高,部署和使用起來非常昂貴


二、推理成本,不能承受之重!

為什麼Chinchilla強調的「訓練不足」和推理成本如此重要?因為大模型最終是要用的!

看看Google內部的應用場景:

  1. 高通量服務:像是搜尋AI Overviews、免費的Gemini App(聊天機器人)、企業級Vertex AI平台、AI Studio API等,用戶量龐大
  2. 即時互動:Project Astra、Project Mariner這類需要即時回應的多模態應用。

這些場景,尤其是即時交互,對模型的推理延遲有著極為苛刻的要求

Vlad Feinberg現場做了一個簡單的「餐巾紙計算」(Napkin Math):假設一個需要即時互動的Web Agent,上下文128k,每次交互處理8k新token,產生128個token,要求延遲在1秒內,再去掉250毫秒的網路和處理開銷...用Llama3-70B這樣的模型在Google的v5e晶片上跑,光是處理8k新token(Prefill)就需要近6秒(單芯),即使動用4x4=16塊晶片並行,也才勉強壓到0.5秒左右。而生成階段(Decode)更是受到記憶體頻寬的嚴重限制,每生成一個token可能就需要好幾毫秒

結論: 對於低延遲場景,70B參數的模型可能都太大了! 我們需要更小、更快的模型,也就是像Gemini Flash/Flash-lite這樣的“小鋼砲”


傳統的Scaling Law研究,往往只專注於訓練loss,完全忽略了推理成本,這在實際應用上是行不通的

三、邁向新典範:推理感知(Inference-Aware)的Scaling Laws

既然推理成本如此重要,有沒有更科學的方法來指導預訓練呢?答案是肯定的。

Sardana等人在2024年提出了「推理感知」的Scaling Laws。核心思想是:不再僅僅最小化訓練loss,而是要優化“總成本”,這個總成本包括了訓練成本和生命周期內的總推理成本

其數學形式較複雜,需要考慮訓練與推理所使用的硬體(MFU不同)、輸入/輸出token量(D_inp, D_out)等因素


結論很明確:

考慮到推理成本後,最優的模型往往比Chinchilla定律建議的更小,但需要用更多的數據(或重複訓練更久)!


當然,這種新範式也面臨挑戰:

  1. 硬體非同質性:訓練和推理晶片不同,成本難以統一衡量
  2. 推理量D_inf難以預測:模型變好會刺激更多使用(傑文斯悖論),市場會擴張
  3. Scaling Law擬合本身並不完美:尤其在資料量極大或極小的情況下,擬合誤差可能很大

為了解決擬合問題,Muennighoff等人(2023)提出了考慮資料限制的Scaling Law,引入了唯一資料量U和重複次數R的概念L(N, U, R)。研究發現,重複數據的效益會快速下降。這意味著,在數據有限的情況下,更小的模型對數據重複利用更有效


那如果數據「無限」呢? Llama3訓練了15T token還在提升,似乎說明對於開源模型,只要算力允許,可以一直用所有資料訓練下去。但這是否為最優策略?用數據受限定律可以反推,如果用更少、更精的數據,達到同樣效果能節省多少算力?達到Llama3 8B模型的loss,可能只需原來72%的算力


四、新維度:蒸餾與其他

除了模型大小、資料量、推理成本,模型蒸餾(Distillation) 也成為了一個重要的研究方向。 Busbridge等人(2025)正在研究蒸餾的Scaling Laws,試圖量化教師模型與學生模型之間的成本與表現關係

如何用有限的算力訓練出「小而精」的學生模型?教師模型的能力上限、學生模型的「容量差距」、蒸餾過程中的技巧(如溫度控制)等,都是需要探索的問題。一個有趣的觀點是,蒸餾本質上是一種變異數縮減,好的教師模型能提供更穩定的學習訊號,減少學生模型學習的「雜訊」。


觀點總結

總結一下Vlad Feinberg分享的核心觀點:

Scaling研究兩大方向

  1. 提升曲線:在給定的模型大小下,做到更好的效能
  2. 增加斜率:讓模型效能隨規模成長得更快

Gemini的策略:類似“Tick-Tock”,用Flash版本追趕上一代Pro版本的效能,不斷優化推理效率

推理效率是關鍵:壓縮技術(更好的蒸餾、量化、服務友善模型設計)與Scaling研究同等重要

低成本研究機會

硬體感知Kernel優化:為特定硬體寫算子,例如下一代Flash Attention

量化新前沿:超越傳統的向量量化

FunSearch類別方法:用LLM輔助搜尋更好的模型結構或訓練策略

更穩健的Scaling Laws:引入更多維度(如資料品質、重複度),使用更嚴謹的統計模型(如MLE vs. 最小平方法),甚至用主動學習來選擇最優的(N, D)實驗點


寫在最後:

如果你對這個主題有興趣,可以去查閱PPT中提到的幾篇關鍵論文(Kaplan 2020, Chinchilla 2022, Sardana 2024, Muennighoff 2023, Busbridge 2025等

ppt地址再次奉上:

https://vladfeinberg.com/assets/2025-04-24-princeton-talk.pdf(AI寒武紀)