進一步改善AI大模型訓練方式。
Google團隊的一篇最新論文或將揭開下一代AI大模型訓練新範式。
這是一篇關於語言模型訓練方式的論文,由GoogleResearch、GoogleSearch和GoogleDeepMind三大團隊人員合力完成,他們提出了一種“DiLoCo的縮放定律”,可使語言模型訓練具有可靠且穩健的擴展性。
論文第一作者、GoogleAI分佈式機器學習研究員Zachary Charles表示:“這是分佈式訓練在越來越大的模型上發揮作用的關鍵一步,我們可以跨資料中心進行LLM訓練,並且能夠很好地擴展到越來越大的模型!”
未來的智能或將是分佈式的,而DiLoCo可能起到關鍵“鑰匙”作用。
網友評論稱,該研究對去中心化訓練總體上非常樂觀,我們距離在遍佈全球的GPU上訓練超大型模型可能只差幾篇論文了。
“Scaling Law” ( 縮放定律)在電腦科學、物理學、機器學習等多個領域都有應用。
在機器學習領域,特別是深度學習中,縮放定律主要探討模型性能(如精準率、損失值等)與模型規模(參數數量)、資料集大小以及計算資源之間的關係。
AI圈公認的是,Scaling Law由OpenAI團隊於2020年正式提出,並在其論文《神經語言模型的擴展定律》(Scaling Laws for Neural Language Models)中進行了闡述。
但很多人可能想不到,關於Scaling Law的發現最早還能追溯到百度。2017年12月,百度矽谷人工智慧實驗室團隊曾發表了一篇名為《DEEP LEARNING SCALING IS PREDICTABLE, EMPIRICALLY》(《經驗表明深度學習是可預測的》)的論文,就曾探討了機器翻譯、語言建模、圖像處理和語音識別等四個領域中的Scaling現象。
前OpenAI研究副總裁、美國人工智慧獨角獸公司Anthropic創始人Dario Amodei ,2014年11月至2015年10月期間曾在百度矽谷人工智慧實驗室工作,他曾提到那時在百度研究AI時,就已經發現了Scaling現象,但可惜的是百度沒有將這一發現正式命名為 “Law”。
隨著業界朝著參數越來越大的AI模型拓展,資料平行方法中固有的頻繁同步需求會導致顯著的訓練速度減緩,這對進一步擴大模型規模構成了嚴峻挑戰。
DiLoCo則是一種分佈式低通訊方法,該方法旨在不降低模型質量的前提下放寬同步要求。
在這篇新論文中,研究人員測試了在固定計算資源預算的情況下使用DiLoCo訓練大語言模型(LLMs)時的縮放定律特性。
結果有點小驚喜,DiLoCo在模型規模變化時,其擴展性既具有可預測性又十分穩健,經過良好調優後,隨著模型規模的增大,DiLoCo在擴展性方面優於資料平行訓練方法,而且即使在模型規模較小的情況下,其性能也能超過資料平行訓練方法。
總結起來就是4點突出優勢:
1、DiLoCo的超參數在不同的模型規模下都具有穩健性且是可預測的;
2、隨著模型規模的增大,DiLoCo相比資料平行訓練有了進一步的提升;
3、DiLoCo所使用的頻寬比資料平行訓練少幾個數量級;
4、DiLoCo能夠承受比資料平行訓練大得多的批次大小。
當下,訓練大型語言模型(LLMs)的默認方法仍然是大批次分佈式資料平行訓練,然而,在較小規模下可以忽略不計的頻寬和通訊限制,在較大規模時卻成了主導影響因素。
一些大型科研機構和科技公司,為了充分利用多資料中心的資源優勢、實現資料的分佈式處理和提高模型的泛化能力,都在積極探索和嘗試跨資料中心的LLM訓練技術,可以說,DiLoCo的縮放定律不僅減少了通訊量,還使得資料平行分佈式訓練(DDP)能夠擴展到更多的計算資源上,有望破解當下的大規模AI訓練瓶頸。
論文第一作者Zachary Charles在社交媒體分享了一些團隊的重要發現。
關鍵發現 1:規模效應。相對於資料平行,DiLoCo在規模方面表現更佳,即使研究人員開始對更大的模型進行推斷,使用縮放定律來預測最佳超參數,DiLoCo仍然表現得非常好。
關鍵發現 2:具有單一模型副本的DiLoCo比資料平行訓練也更好!這是Lookahead最佳化器的增強版本,它不會減少通訊,但具有更好的泛化能力,並且對於較大的批次大小表現更好。
關鍵發現 3:DiLoCo增加了最佳批次大小,這意味著研究人員可以水平擴展,從而進一步縮短端到端的掛鐘訓練時間!(掛鐘時間是指從訓練開始到結束整個過程所花費的時間)。
事實上,使用理想化的掛鐘時間模型,研究人員發現這種現象使得DiLoCo即使在使用高頻寬網路進行訓練時也比資料平行更快,而當使用低頻寬網路時,性能差距就明顯體現出來了。
關鍵發現4:DiLoCo的外部學習率(使同步操作保持性能的關鍵)與模型大小保持不變,這意味著研究人員可以在小規模上調整DiLoCo特定的超參數,並在大規模上使用它們。
Zachary Charles表示,DiLoCo也有助於過度訓練(超量訓練),過度訓練可能成本相當高,但DiLoCo增大的批次大小以及減少的通訊量意味著,在與資料平行訓練進行1倍過度訓練相同的時間內,使用DiLoCo通常能夠進行4倍的過度訓練。
NanoDO程式碼庫是一個由Google DeepMind團隊開發,採用JAX框架建構的極簡Transformer解碼器語言模型。Google研究人員將本次研究成果與NanoDO程式碼庫(https://github.com/google-deepmind/nanodo)相結合,從而能夠在JAX框架下非常輕鬆地對大型語言模型應用DiLoCo方法。
研究人員認為,未來至少有三個研究方向很有前景。
第一,可以從已應用於資料平行訓練縮放定律分析的多個方面來擴充DiLoCo的縮放定律分析;
第二,縮放定律可進一步調整,將對DiLoCo及相關方法的改進納入其中,這些改進包括非同步更新、流式DiLoCo以及與訓練方法協同設計的模組化架構;
第三,顯然需要開發相關系統和軟體,以便大規模部署DiLoCo這類方法,並在實際超大規模場景中實現其通訊效率優勢。
Google團隊近期在AI底層技術和開源方面實現了很多進展,一直在探索算力和模型性能之間平衡的極限。
在DiLoCo縮放定律發佈前幾天,Google開源了一個Gemma 3模型,是一個可在單個GPU或TPU上運行的目前功能最強的AI模型,其最大的27B模型僅需一個H100 GPU就能運行,而其他模型想要實現類似性能則需要至少10倍的算力。
Google的動作也反映了當下AI模型發展的最新趨勢,一種是被設計為輕量級、高性能模型,能夠輕鬆在手機、筆記型電腦到工作站等便攜裝置上直接快速運行,幫助開發者在人們需要的任何地方建立人工智慧應用程式。
另一種路徑就是AI巨頭們下一步押注的超級大模型,例如業界推測GPT-5或將達到10兆參數規模,如何通過技術最佳化提升超大規模訓練效率、降低訓練成本十分關鍵。
從去年開始,業內也偶爾傳出scaling law已失效、預訓練即將結束的論斷,但目前看來,scaling law並未失效,而是需要更多創新了,尤其是在模型參數規模、訓練資料量和計算資源不斷加大的情況下,相關的降本增效技術突破或給AI發展帶來新的轉折點。 (頭部科技)