谷歌憑藉Gemini 2.5 pro已經徹底翻身,經過這段時間各路大神的深度使用和評測,基本上已經鎖定大模型top1,除了優秀的寫作能力以外,編程能力更是打遍無敵手,最重要的Gemini一直以來基本是免費給所有人用,連API都免費
今天有幸看到了一個來自Google內部的技術分享,主講人是Vlad Feinberg,GoogleGemini Flash Pretraining的負責人。這份PPT資訊量爆炸,深入探討了Gemini預訓練背後的核心邏輯、挑戰以及未來方向,特別是如何在算力、數據、模型大小和 推理成本 之間找到那個微妙的平衡點。下面,我就帶大家來深度解讀這份乾貨,一探Gemini 背後的訓練故事
關於大模型的預訓,我們熟知的Scaling Laws(縮放定律)只是故事的一部分
ppt:
https://vladfeinberg.com/assets/2025-04-24-princeton-talk.pdf
還記得大模型訓練的經典問題嗎?給你一筆固定的算力C(例如1000塊H100用30天),怎麼訓練出最強的LLM?模型參數N該多大?訓練資料D該多少?
早期,大家主要參考Kaplan等人在2020年提出的Scaling Laws。他們的研究發現,模型表現與算力、參數量、資料量之間存在冪律關係,並且強烈建議優先擴大模型參數N。具體來說,算力提升10倍,參數N建議擴大5.37倍,而資料D只需擴大1.86倍。這直接點燃了軍備競賽,大家瘋狂堆參數
但是,Google DeepMind (GDM) 在2022年3月發布的Chinchilla(龍貓)論文,為這個「參數為王」的時代潑了一盆冷水
Chinchilla團隊指出,Kaplan的研究方法(基於單次訓練中的中間loss點推斷)存在缺陷,忽略了學習率衰減等優化帶來的好處,只有最終的loss最能反映模型真實水平
他們採用了更嚴謹的IsoFlops方法:
Chinchilla的驚人發現是: 模型參數N和資料量D應該以大致相同的速率(指數約為0.5)隨算力C成長! 這意味著,按照Kaplan定律訓練出來的許多大模型,其實是「訓練不足(Undertrained)」的!模型太大,數據相對太少,潛力沒發揮。更糟的是,這些「虛胖」的大模型,推理成本極高,部署和使用起來非常昂貴
為什麼Chinchilla強調的「訓練不足」和推理成本如此重要?因為大模型最終是要用的!
看看Google內部的應用場景:
這些場景,尤其是即時交互,對模型的推理延遲有著極為苛刻的要求
Vlad Feinberg現場做了一個簡單的「餐巾紙計算」(Napkin Math):假設一個需要即時互動的Web Agent,上下文128k,每次交互處理8k新token,產生128個token,要求延遲在1秒內,再去掉250毫秒的網路和處理開銷...用Llama3-70B這樣的模型在Google的v5e晶片上跑,光是處理8k新token(Prefill)就需要近6秒(單芯),即使動用4x4=16塊晶片並行,也才勉強壓到0.5秒左右。而生成階段(Decode)更是受到記憶體頻寬的嚴重限制,每生成一個token可能就需要好幾毫秒
結論: 對於低延遲場景,70B參數的模型可能都太大了! 我們需要更小、更快的模型,也就是像Gemini Flash/Flash-lite這樣的“小鋼砲”
傳統的Scaling Law研究,往往只專注於訓練loss,完全忽略了推理成本,這在實際應用上是行不通的
既然推理成本如此重要,有沒有更科學的方法來指導預訓練呢?答案是肯定的。
Sardana等人在2024年提出了「推理感知」的Scaling Laws。核心思想是:不再僅僅最小化訓練loss,而是要優化“總成本”,這個總成本包括了訓練成本和生命周期內的總推理成本
其數學形式較複雜,需要考慮訓練與推理所使用的硬體(MFU不同)、輸入/輸出token量(D_inp, D_out)等因素
但結論很明確:
考慮到推理成本後,最優的模型往往比Chinchilla定律建議的更小,但需要用更多的數據(或重複訓練更久)!
當然,這種新範式也面臨挑戰:
為了解決擬合問題,Muennighoff等人(2023)提出了考慮資料限制的Scaling Law,引入了唯一資料量U和重複次數R的概念L(N, U, R)。研究發現,重複數據的效益會快速下降。這意味著,在數據有限的情況下,更小的模型對數據重複利用更有效
那如果數據「無限」呢? Llama3訓練了15T token還在提升,似乎說明對於開源模型,只要算力允許,可以一直用所有資料訓練下去。但這是否為最優策略?用數據受限定律可以反推,如果用更少、更精的數據,達到同樣效果能節省多少算力?達到Llama3 8B模型的loss,可能只需原來72%的算力
除了模型大小、資料量、推理成本,模型蒸餾(Distillation) 也成為了一個重要的研究方向。 Busbridge等人(2025)正在研究蒸餾的Scaling Laws,試圖量化教師模型與學生模型之間的成本與表現關係
如何用有限的算力訓練出「小而精」的學生模型?教師模型的能力上限、學生模型的「容量差距」、蒸餾過程中的技巧(如溫度控制)等,都是需要探索的問題。一個有趣的觀點是,蒸餾本質上是一種變異數縮減,好的教師模型能提供更穩定的學習訊號,減少學生模型學習的「雜訊」。
總結一下Vlad Feinberg分享的核心觀點:
Scaling研究兩大方向:
Gemini的策略:類似“Tick-Tock”,用Flash版本追趕上一代Pro版本的效能,不斷優化推理效率
推理效率是關鍵:壓縮技術(更好的蒸餾、量化、服務友善模型設計)與Scaling研究同等重要
低成本研究機會:
硬體感知Kernel優化:為特定硬體寫算子,例如下一代Flash Attention
量化新前沿:超越傳統的向量量化
FunSearch類別方法:用LLM輔助搜尋更好的模型結構或訓練策略
更穩健的Scaling Laws:引入更多維度(如資料品質、重複度),使用更嚴謹的統計模型(如MLE vs. 最小平方法),甚至用主動學習來選擇最優的(N, D)實驗點
如果你對這個主題有興趣,可以去查閱PPT中提到的幾篇關鍵論文(Kaplan 2020, Chinchilla 2022, Sardana 2024, Muennighoff 2023, Busbridge 2025等
ppt地址再次奉上:
https://vladfeinberg.com/assets/2025-04-24-princeton-talk.pdf(AI寒武紀)