進一步改善AI大模型訓練方式。

Google團隊的一篇最新論文或將揭開下一代AI大模型訓練新範式。

這是一篇關於語言模型訓練方式的論文，由GoogleResearch、GoogleSearch和GoogleDeepMind三大團隊人員合力完成，他們提出了一種“DiLoCo的縮放定律”，可使語言模型訓練具有可靠且穩健的擴展性。

論文第一作者、GoogleAI分佈式機器學習研究員Zachary Charles表示：“這是分佈式訓練在越來越大的模型上發揮作用的關鍵一步，我們可以跨資料中心進行LLM訓練，並且能夠很好地擴展到越來越大的模型！”

未來的智能或將是分佈式的，而DiLoCo可能起到關鍵“鑰匙”作用。

網友評論稱，該研究對去中心化訓練總體上非常樂觀，我們距離在遍佈全球的GPU上訓練超大型模型可能只差幾篇論文了。

“Scaling Law” （ 縮放定律）在電腦科學、物理學、機器學習等多個領域都有應用。

在機器學習領域，特別是深度學習中，縮放定律主要探討模型性能（如精準率、損失值等）與模型規模（參數數量）、資料集大小以及計算資源之間的關係。

AI圈公認的是，Scaling Law由OpenAI團隊於2020年正式提出，並在其論文《神經語言模型的擴展定律》（Scaling Laws for Neural Language Models）中進行了闡述。

但很多人可能想不到，關於Scaling Law的發現最早還能追溯到百度。2017年12月，百度矽谷人工智慧實驗室團隊曾發表了一篇名為《DEEP LEARNING SCALING IS PREDICTABLE, EMPIRICALLY》（《經驗表明深度學習是可預測的》）的論文，就曾探討了機器翻譯、語言建模、圖像處理和語音識別等四個領域中的Scaling現象。

前OpenAI研究副總裁、美國人工智慧獨角獸公司Anthropic創始人Dario Amodei ，2014年11月至2015年10月期間曾在百度矽谷人工智慧實驗室工作，他曾提到那時在百度研究AI時，就已經發現了Scaling現象，但可惜的是百度沒有將這一發現正式命名為 “Law”。

隨著業界朝著參數越來越大的AI模型拓展，資料平行方法中固有的頻繁同步需求會導致顯著的訓練速度減緩，這對進一步擴大模型規模構成了嚴峻挑戰。

DiLoCo則是一種分佈式低通訊方法，該方法旨在不降低模型質量的前提下放寬同步要求。

在這篇新論文中，研究人員測試了在固定計算資源預算的情況下使用DiLoCo訓練大語言模型（LLMs）時的縮放定律特性。

結果有點小驚喜，DiLoCo在模型規模變化時，其擴展性既具有可預測性又十分穩健，經過良好調優後，隨著模型規模的增大，DiLoCo在擴展性方面優於資料平行訓練方法，而且即使在模型規模較小的情況下，其性能也能超過資料平行訓練方法。

1、DiLoCo的超參數在不同的模型規模下都具有穩健性且是可預測的；

2、隨著模型規模的增大，DiLoCo相比資料平行訓練有了進一步的提升；

3、DiLoCo所使用的頻寬比資料平行訓練少幾個數量級；

4、DiLoCo能夠承受比資料平行訓練大得多的批次大小。

當下，訓練大型語言模型（LLMs）的默認方法仍然是大批次分佈式資料平行訓練，然而，在較小規模下可以忽略不計的頻寬和通訊限制，在較大規模時卻成了主導影響因素。

一些大型科研機構和科技公司，為了充分利用多資料中心的資源優勢、實現資料的分佈式處理和提高模型的泛化能力，都在積極探索和嘗試跨資料中心的LLM訓練技術，可以說，DiLoCo的縮放定律不僅減少了通訊量，還使得資料平行分佈式訓練（DDP）能夠擴展到更多的計算資源上，有望破解當下的大規模AI訓練瓶頸。

論文第一作者Zachary Charles在社交媒體分享了一些團隊的重要發現。

關鍵發現 1：規模效應。相對於資料平行，DiLoCo在規模方面表現更佳，即使研究人員開始對更大的模型進行推斷，使用縮放定律來預測最佳超參數，DiLoCo仍然表現得非常好。

關鍵發現 2：具有單一模型副本的DiLoCo比資料平行訓練也更好！這是Lookahead最佳化器的增強版本，它不會減少通訊，但具有更好的泛化能力，並且對於較大的批次大小表現更好。

關鍵發現 3：DiLoCo增加了最佳批次大小，這意味著研究人員可以水平擴展，從而進一步縮短端到端的掛鐘訓練時間！（掛鐘時間是指從訓練開始到結束整個過程所花費的時間）。

事實上，使用理想化的掛鐘時間模型，研究人員發現這種現象使得DiLoCo即使在使用高頻寬網路進行訓練時也比資料平行更快，而當使用低頻寬網路時，性能差距就明顯體現出來了。

關鍵發現4：DiLoCo的外部學習率（使同步操作保持性能的關鍵）與模型大小保持不變，這意味著研究人員可以在小規模上調整DiLoCo特定的超參數，並在大規模上使用它們。

Zachary Charles表示，DiLoCo也有助於過度訓練（超量訓練），過度訓練可能成本相當高，但DiLoCo增大的批次大小以及減少的通訊量意味著，在與資料平行訓練進行1倍過度訓練相同的時間內，使用DiLoCo通常能夠進行4倍的過度訓練。

NanoDO程式碼庫是一個由Google DeepMind團隊開發，採用JAX框架建構的極簡Transformer解碼器語言模型。Google研究人員將本次研究成果與NanoDO程式碼庫（https://github.com/google-deepmind/nanodo）相結合，從而能夠在JAX框架下非常輕鬆地對大型語言模型應用DiLoCo方法。

研究人員認為，未來至少有三個研究方向很有前景。

第一，可以從已應用於資料平行訓練縮放定律分析的多個方面來擴充DiLoCo的縮放定律分析；

第二，縮放定律可進一步調整，將對DiLoCo及相關方法的改進納入其中，這些改進包括非同步更新、流式DiLoCo以及與訓練方法協同設計的模組化架構；

第三，顯然需要開發相關系統和軟體，以便大規模部署DiLoCo這類方法，並在實際超大規模場景中實現其通訊效率優勢。

Google團隊近期在AI底層技術和開源方面實現了很多進展，一直在探索算力和模型性能之間平衡的極限。

在DiLoCo縮放定律發佈前幾天，Google開源了一個Gemma 3模型，是一個可在單個GPU或TPU上運行的目前功能最強的AI模型，其最大的27B模型僅需一個H100 GPU就能運行，而其他模型想要實現類似性能則需要至少10倍的算力。

Google的動作也反映了當下AI模型發展的最新趨勢，一種是被設計為輕量級、高性能模型，能夠輕鬆在手機、筆記型電腦到工作站等便攜裝置上直接快速運行，幫助開發者在人們需要的任何地方建立人工智慧應用程式。

另一種路徑就是AI巨頭們下一步押注的超級大模型，例如業界推測GPT-5或將達到10兆參數規模，如何通過技術最佳化提升超大規模訓練效率、降低訓練成本十分關鍵。

從去年開始，業內也偶爾傳出scaling law已失效、預訓練即將結束的論斷，但目前看來，scaling law並未失效，而是需要更多創新了，尤其是在模型參數規模、訓練資料量和計算資源不斷加大的情況下，相關的降本增效技術突破或給AI發展帶來新的轉折點。 (頭部科技)

#DiLoCo縮放定律 你可以在這裡找到鉅亨號中所有使用「DiLoCo縮放定律」為關鍵字所發布的內容