#GPT-4.5
奧特曼首揭GPT-4.5內幕,一個bug搞崩10萬GPU! 5人即可重訓GPT-4
GPT-4.5出世一個多月,鮮有人知背後研發故事。今天凌晨,奧特曼與三位核心研究員線上開啟播客對話,首次揭開了GPT-4.5從願景到現實的史詩級突破。早在兩年前,OpenAI團隊就訂下了一個大膽的目標,打造出比GPT-4聰明10倍的模型。這不僅意味著LLM效能提升,更是對計算、資料、協作的極限挑戰。從左到右:奧特曼、Alex Paino、Amin Tootoonchian和Daniel Selsam如今,OpenAI在2月底正式交卷,GPT-4.5情商堪稱所有模型最強的,並再次Scaling無監督學習的邊界。這款「超級模型」究竟如何創造智慧奇蹟,全部濃縮在了這45分鐘的圓桌對話中。一些精彩亮點:GPT-4.5比GPT-4聰明10倍,研發用時2年,擁有上一代不具備的微妙「魔力」訓練GPT-4.5為OpenAI提供了寶貴的技術經驗;現只需要大約5名員工,就可以從頭開始訓練GPT-4算力基礎設施和大規模GPU擴展帶來的小機率問題會捅出大亂子資料效率成為關鍵瓶頸,OpenAI下一個主要研究前沿是提高資料效率「torch.sum bug」等趣事推動模型效能飛躍。Scaling Law被驗證為可能長期有效的「宇宙規律」GPT-4.5聰明10倍奧特曼開篇說,通常他們開這種會都是為了發佈新產品,不過這次打算換個玩法,聊聊GPT-4.5開發背後的故事。GPT-4.5推出後,使用者對它的興趣特別大,這大大超出了研發團隊的預期。他們先從「一個巨型模型到底需要什麼?」這個話題說起。「一大堆人、一大把時間,還有大量的計算資源。」主要負責預訓練資料的Alex回答。Alex表示,他們光是準備階段就花了很多心思,至於正式的訓練,「本身就是個超級大的工程」。在實際訓練中,研究團隊經常得做選擇:是推遲發佈,等更多問題解決;還是早點上線,邊跑邊解決問題。這是個平衡,不能讓整個訓練過程拖太久。他們謙虛地認為,對於效率更高的演算法及以如何更好地利用現有資料,他們還只是「略知皮毛」。在不久之前,我們還在受限於算力。但從GPT-4.5開始,我們更是處在一個受限於資料的環境裡了。他們說這是一個顛覆性的進展,「整個世界對此還沒有充分認識到。」兩年前著手開發GPT-4.5時,他們的目標是比GPT-4聰明10倍。現在,他們覺得自己達到了這個目標——至少在投入的有效算力下,GPT-4.5實現了比GPT-4聰明10倍的效果。預訓練的兩個難題不過,實際的訓練時間還是比預想的要長不少。這裡面主要有兩個問題。一個是從1萬個GPU增加到10萬個GPU,問題會變得多很多。尤其是一些事先沒預料到的小機率問題,在大規模計算時會捅出大亂子。最容易出問題的就是算力基礎設施,由於他們的資料量實在太大了,有些問題連硬體製造商都沒遇過。網路架構、單一加速器,這些都會出問題。 「我們的工作就是儘量把這些變數的波動降到最低。」另一個問題是探索前沿科技這件事本身就很難。在訓練GPT-4.5時,OpenAI投入了幾百人的努力,耗費了大量的時間,幾乎是all in。但如果他們現在重新訓練一個GPT-4等級的模型,大概只需要5到10個人就可以搞定。專注於資料效率和演算法的Dan說,「我覺得做任何新東西都難。但是當你知道別人已經做成某件事,難度就會大大降低」。「因為最難的部分是下定決心去做一件事。知道某件事是可行的,簡直就像開了掛,瞬間就容易多了。」Dan接著表示,如果想要將訓練規模再擴大10倍甚至是100倍,資料就會成為瓶頸,這時候就需要一些演算法上的創新,讓模型能用更多的算力從同樣的資料裡學到更多。torch.sum bug趣事研究團隊在GPT-4.5的訓練中,發現了一些特別有趣的事。例如,在訓練過程中不斷最佳化機器學習演算法,做一些調整。尤其是團隊解決了一些關鍵問題後,他們看到了模型效能的大幅提升。那一刻,整個團隊的能量都不一樣了,大家都特別興奮,動力滿滿,要把最後階段衝刺完成。「那一刻真的很震撼。這對團隊士氣的提升,真的特別美妙。」現場OpenAI的首席系統架構師Amin Chian分享了一個「torch.sum bug」趣事。在訓練過程中遇到bug是常事,通常是找一下到底是硬體故障、資料損壞,還是機器學習相關的Bug。但在訓練GPT-4.5時,有一次好幾個問題一直都沒有解決。大家沒辦法就在一起討論研究這些問題到底是由不同的Bug引起的,還是同一個Bug導致的。他們圍著桌子投票。結果呢?後來確定的那個Bug在當時得票最少!就是個簡單的「torch.sum」Bug,來自上游的PyTorch庫,大家都覺得太不可思議了。所有的問題都被這一行程式碼解決了,真的特別有趣。為了慶祝,他們還把Slack頻道從「多Bug理論」改成了「單Bug理論」,那場面可熱鬧了。這個Bug的觸發頻率特別低,可能每100步、1000步才出一次問題,特別容易被忽略。但他們有條紀律,在訓練過程中不能容忍這種問題出現。整個過程就是一個堅持不放棄的故事。壓縮即智能幾十年來,深度學習的核心一直是提升算力效率。而且,每一次小的改進,都能帶來顯著的疊加效應。世界上各地不同的人發現一個提升10%效率的技巧,另一個提出提升20%的最佳化,這些看似微小的進步累積起來,就能徹底改變模型的表現。過去,因算力受限,資料效率的研究顯得並不划算。但如今,資料效率每一次突破都將可能成為AI發展的臨界點。因此,現在就去預測AI會有瓶頸,有點不明智。他們也認為更好的預訓練和無監督學習能全面提升模型的智能,幫助模型更好地泛化,這一點跟現在模型的推理能力很是互補。預訓練本質上是在壓縮資料。壓縮資料意味著發現不同事物之間的聯絡、類比和抽象。而推理則針對某個具體問題,需要一種謹慎思考的技巧。這種謹慎思考能解鎖很多不同領域的問題,但預訓練在跨領域壓縮資料時,學到的是一種更抽象的東西。為什麼無監督學習會有效?研究員們的答案是「壓縮」。可以說,理想的智慧形態就是所謂的「所羅門諾夫歸納」(Solomonov induction)。簡單來說,模型更傾向於簡潔的解釋。與此同時,它嚴格遵循貝葉斯原理,把所有可能性都記住,隨時根據新資訊更新自己的答案。而他們現在做的預訓練——或者說理解預訓練的一個視角——就是在做這種「壓縮」。試圖找到一個最短的程式(或模型),來解釋所有的資料,以此作為理想智慧的一種近似。Scaling Law是宇宙法則在播客的最後,奧特曼表示,訓練GPT-4.5的整個過程,花了無數的人力、時間和金錢,其實可以看成是一場實驗。一場驗證Scaling Law是不是還成立的實驗。結果他們發現,Scaling Law不僅有效,而且可能會持續很長時間。奧特曼說他接受Scaling Law就像接受量子力學一樣,還不明白為什麼Scaling Law會是一種宇宙的規律。對此Dan試著解釋說,模型資料壓縮得越多,智能就越高,這個有很強的哲學依據。他自己比較喜歡的一個解釋是,世界上資料的「關鍵概念」是稀疏的,符合冪律分佈(power law)。例如,第100個重要的概念,可能在每100個文件裡只出現一次。也就是說資料有很強的「長尾效應」。所以現實是,如果你想抓到「尾巴」裡下一個重要的東西,可能得把算力和資料量翻個十倍。而這個尾巴還很長,可以一直挖下去。(硅星人Pro)