Scaling Law撞牆,AI圈炸鍋了!OpenAI旗艦Orion被曝遭遇瓶頸,大改技術路線

【新智元導讀】剛剛,外媒獨家爆料,OpenAI下一代旗艦Orion改進大幅放緩,合成資料越訓越像舊模型,編碼性能甚至還在退步。為此,數位OpenAI大牛上線與網友開啟了一場激烈的爭辯。



怎麼回事,大模型Scaling Law也撞牆了?

幾天前,Sam Altman在YC獨家專訪中大膽預言,2025年AGI降臨,並期待在同年要一個孩子。

沒想到,The Information緊接著的一份獨家爆料,直接打臉Altman:

GPT系列模型改進緩慢,OpenAI正在轉變策略,另謀出路。


據稱,下一代旗艦模型Orion並不像前代實現巨大的飛躍,雖然性能會超越OpenAI現有模型,但相較於從GPT-3到GPT-4的迭代,改進幅度要小得多。

不僅如此,這種提升也基本侷限在了語言能力上——Orion的程式碼能力甚至不如舊模型,但成本卻更高。



這篇文章直擊OpenAI痛點,提出Scaling Law逐漸放緩,原因之一是高品質文字資料越來越少。

為此,OpenAI成立專門的基礎團隊,去研究如何解決訓練資料匱乏問題改進模型,以及Scaling Law還能適用多久。

一時間,全網掀起了熱議——對LLM能否通向AGI的質疑聲此起彼伏。

向來都在唱衰的NYU教授馬庫斯,更是直接單方面宣佈「勝利」:遊戲結束,我贏了!



馬庫斯:我早就說過,GPT正在陷入收益遞減階段

為了扭轉這一局面,多位OpenAI研究人員當場急了,紛紛現身為一直以來堅守的LLM定律辯護。

德撲之父Noam Brown直接追問網友原因,對方回覆稱,「都已經過去一年半了,Scaling並沒有給大模型帶去顯著的改善」。

Noam反問道,「o1-preview呢」?



俄勒岡州立大學名譽教授表示,「o1-preview是否是一個Scaling的實例?如果是,具體是什麼在Scaling?在過去,『Scaling』指的是同時擴巨量資料規模、神經網路參數和計算資源」。

Noam稱,「它是推理計算的Scaling」。



就這樣,AI圈一場關於大模型Scaling Law的辯論就此展開了。



OpenAI大牛下場激辯,Sacling Law沒撞牆

在說Scaling Law之前,先簡要回顧下它具體指的是什麼?

OpenAI團隊2020年提交的arXiv論文中最先提出這一概念,是指LLM性能與計算量、參數量、資料量三者呈現冪律關係。


論文地址:https://arxiv.org/pdf/2001.08361


直白講,也就是業界一直宣稱的,隨著大模型參數不斷增加,超級智能終有一天實現。

而o1的誕生,標誌著Scaling Law的另一個轉向。



OpenAI研究員Adam稱,Scaling剛剛找到了另一套「齒輪」!

o1系列模型scaling的兩個重要維度——訓練時間和測試(推理)時間。

傳統的Scaling Law,專注於用更長時間(預)訓練更大的模型,絕對仍然是一個重要因素。而且,這種規模仍是基礎。

現在恰好出現了另一個Scaling因素,這兩個維度有望一起解鎖一些驚人的能力。



那麼這個維度,是什麼?

o1發佈之際,Noam Brown對其推理思維做出瞭解釋:

用強化學習訓練後的o1在給出回答前,會通過一個私有的CoT進行「思考」。模型思考時間越長,在推理任務上表現的越好。

這種方法開創了模型scaling的新維度,模型性能不再僅僅受限於預訓練階段,現在可以通過增加推理計算資源來提升模型表現。



與此同時,Jason Wei昨天髮長文更生動地解釋了,o1思維鏈前後存在著細微但重要的差異。

在o1範式之前,思維鏈的實際表現和人類期望它達到的效果之間存在差距。它更像是先有了答案,再去對答案進行解釋,列出步驟。

實際上,模型只是模仿了它在預訓練中見過的推理路徑,比如數學作業解答,而不是一步步推理得到答案。

這些資料的問題在於,它是作者在其他地方完成所有思考後才總結出來的解答,而不是真正的思維過程。所以這些解答通常資訊密度很差。

一個明顯的例子就是「答案是5,因為...」這樣的表述,其中「5」這個數字突然包含了大量新資訊。

在o1範式下,可以看到思維鏈與教科書中的數學解答很不相同。

這些思維鏈更像是「內心獨白」或「意識流」。你可以看到模型在不斷調整思路,說一些像「另外,讓我們試試」或「等等,但是」這樣的話。

雖然我沒有直接測量過,但我敢打賭(我的心理語言學朋友們可能能夠確認),思維鏈中的資訊密度比網際網路上的普通文字要均勻得多。

由此可見,o1的思維鏈更接近「人類的思維過程」,答案是通過推理得出的。



OpenAI產品副總Peter Welinder表示,「人們低估了測試時計算能力的強大:它可以持續更長時間的運算,進行平行處理,甚至能夠任意地fork和branch——這就像是將你的思維複製1000份,然後從中挑選出最好的想法。」

也就意味著,在AI推理階段,我們可以通過增加計算資源來顯著提升模型表現。



OpenAI研究人員Clive Chan對此表示同感:自一月份加入OpenAI以來,我的觀點已經從「這些都是無謂的炒作」轉變為「AGI基本上已經到來了」。

依我拙見,接下來需要的並不是太多新的科學理論,而是需要多年辛苦的工程最佳化,去嘗試在這個新範式下所有明顯可行的想法,擴大Scaling並提升速度,同時找到方法來教會AI那些無法直接從網上學習的技能。

也許在這堵牆之後還有另一堵牆,但就目前來看,能看到的都是10倍級的進步空間。

這感覺就像,2022年Autopilot範式轉變——「端到端機器學習」解決了以前難以解決的問題,但同時帶來的新的挑戰,即投入多年時間不斷微調架構,並在全新的資料問題類型上玩「打地鼠遊戲」。



OpenAI研究員Will Depue直接模仿馬庫斯的語氣,照搬了原話頗具玩味。



或許你會說,OpenAI提出的Scaling Law,當前要堅守辯護了。那麼,其他人怎麼看?

別怕,OpenAI有技術實力

xAI研究員Hieu Pham用調侃的語氣表示,我實在忍不住說出這幾天一直縈繞在我腦海中的那個俏皮話:「技術力」問題。

那些說大模型Scaling Law已經放緩的人,就像再說摩爾定律在硬體領域已經放緩一樣。從某種意義上說,雖然每個人都這麼說,但總有公司能找到辦法突破這些限制。

即便是面對現有的網際網路資料耗盡問題,也會有公司找到解決的辦法。

總而言之,OpenAI可能面臨一些難題,但「技術力」絕不是問題。



抨擊Information,為什麼被一些人稱為The [Mis]information的原因

資料科學家Yam Peleg鄭重申明:深度學習沒有撞牆。



另網友表示,關於AI發展正在放緩或即將終結的說法,現在已被證實是胡說八道,完全錯誤的!

隨著OpenAI在o1和CoT(思維鏈)方面的突破,發展似乎看不到盡頭。Q*(代號Strawberry)是帶領我們邁向AGI突破性進展,這也是Sam Altman如此有信心的原因。



既然Scaling Law沒死,Orion又是怎麼回事?


使用成本激增,改進幅度微小,程式設計性能不進反退?

ChatGPT等其他AI產品的使用者數,肉眼可見地增長。奧特曼最近稱,ChatGPT已經成為全球第八大網站。

然而,Information稱,支撐這些AI背後的基礎大模型改進速度,似乎正在放緩。

在即將推出的代號為Orion的旗艦模型時,OpenAI內部遇到了巨大的挑戰。

今年5月,Altman曾告訴員工,他預計下一代Orion很可能會比一年前發佈的最後一個旗艦產品模型顯著提升。

一位人士透露,儘管OpenAI僅完成了Orion訓練過程的20%,但其在智能、完成任務、回答問題的能力方面已經與GPT-4相媲美。

但據OpenAI員工測試後發現,雖然Orion性能最終優於之前的模型,但與GPT-3和GPT-4之間的飛躍相比,性能提升要小得多。



他們認為,Orion在處理某些任務時,並不比上一代更可靠。

新模型在語言任務上會表現得更好,但在編碼等任務上可能無法超越之前的模型,這是一大問題。

另外,一位知情人士表示,Orion可能比OpenAI最近發佈的其他模型,在資料中心的運行成本更高。

Orion的情況可能會測試AI領域的一個核心假設,即所謂的Scaling Law:

只要有更多的資料供大模型學習,並有額外的計算能力來促進訓練過程,它們就會繼續以相同的速度改進。


就在昨天,科學家Yam Peleg爆料,「聽說從某個前沿實驗室(老實說不是OpenAI)傳出消息,他們在嘗試通過延長訓練時間,使用越來越多資料來強行提升性能時,遇到了一個意想不到的巨大收益遞減瓶頸」。


業界新方向:改進訓練後的模型

為了應對GPT改進放緩,對基於訓練的Scaling Law提出的挑戰,業界似乎正在轉向改進訓練後的模型,這可能會產生不同類型的Scaling Law。

一些首席執行官,包括小紮在內,表示即使在最壞的情況下,即使當前技術沒有改進,仍然有很大的空間可以在其基礎上建構消費者和企業產品。



比如,OpenAI正忙於在其模型中嵌入更多程式碼編寫功能,對抗最大勁敵Anthropic的重大威脅。

它還在開發能夠控制個人電腦的軟體,通過點選、移動游標、文字輸入,以及其他人類在使用不同應用程式時進行的操作,來完成網頁瀏覽或應用程式的白領任務。

這些產品,是朝著處理多步任務AI智能體發展的一個組成部分,可能會像最初推出的ChatGPT一樣具有革命性。



此外,小扎、Altman,以及其他AI巨頭的首席執行官們也公開表示,尚未達到傳統Scaling Law的極限。

這也就不難理解,包括OpenAI在內的公司仍在開發昂貴的、耗資數十億美元的資料中心,以儘可能多地從預訓練模型中獲取性能提升。

然而,OpenAI研究員Noam Brown在上個月的TEDAI會議上表示,「開發更先進的模型,可能在經濟上變得不可行」。

他又表示,「畢竟,我們真的要訓練那些耗資數千億美元或數兆美元的模型嗎?在某個時候,Scaling Law會崩潰」。



在公開發佈之前,OpenAI尚未完成Orion安全性測試的漫長過程。

有員工表示,當OpenAI在明年年初發佈Orion時,可能會不同於其傳統的「GPT」命名慣例,進一步強調了大語言模型改進的不斷變化。


撞上資料牆,越訓越像舊模型

GPT發展放緩,一個原因是高品質文字和其他資料供應的減少。

LLM在預訓練期間會處理這些資料,以理解世界和不同概念之間的關係,從而解決諸如撰寫部落格文章、解決編碼錯誤等問題。

過去幾年中,LLM使用了各種公開可用的文字以及來自網站、書籍,以及其他來源的其他資料進行預訓練。

眾所周知,網際網路資料已經耗盡。另有Epoch AI研究佐證,2026年前全網高品質資料幾近用完。

一些人表示,模型的開發者已儘可能,從這類資料中搾取了更多的資訊。

為此,OpenAI組建了一個基礎團隊,由之前負責預訓練Nick Ryder領導,以探索如何應對訓練資料短缺以及Scaling Law還會持續多長時間。



據一位OpenAI員工透露,Orion部分訓練是通過由其他OpenAI模型(包括GPT-4和最近發佈的o1推理模型)生成的AI資料進行訓練的。

然而,他又表示,這種所謂的「合成資料」導致了一個新問題——即Orion最終在某些方面可能與那些舊模型相似。


OpenAI挽救策略

雖然資料暫時無解,但OpenAI的研究人員正在通過改進模型處理特定任務的方式,來提升它們在後訓練過程中的表現。

具體來說,他們讓模型從大量已正確解決的問題(如數學或程式設計問題)中學習,這一過程被稱為強化學習(RL)。

他們還要求人類評估員在特定的程式設計或問題解決任務上,測試預訓練模型並對答案進行評分,這有助於研究人員微調模型,以改進其對某些類型請求(如寫作或編碼)的回答。

這一過程稱為人類反饋強化學習(RLHF),也在以往AI模型性能改進方面,可以看到該方法的有效性。

為了處理這些評估,OpenAI和其他AI開發者通常依賴於,諸如Scale AI和Turing這樣的初創公司來管理成千上萬的合同工。

此外,o1推理模型,在給出答案前需要更多時間進行「思考」LLM訓練過的資料,這一概念被稱為測試時計算(Test-Time Compute)。



這意味著o1的響應質量可以繼續提高,當模型在回答使用者問題時,提供額外的計算資源,即使不對基礎模型進行更改。

知情人士稱,如果OpenAI能夠繼續提高基礎模型的質量,即使速度較慢,也可以產生更好的推理結果。

Brown在TEDAI會議上表示,「這為Scaling打開了全新的維度,研究人員可以通過從『每次查詢花費一分錢到每次查詢花費十美分』來改善模型的響應」。

也就是說,不能暴力Scaling大模型,否則Scaling Law真的會崩潰。

與此同時,Altman在倫敦開發者日上,強調了OpenAI推理模型的重要性,這些模型可以與LLM結合使用。

「我希望『推理』能夠解鎖我們等待多年的許多事情——例如,讓這樣的模型能夠為新科學做出貢獻,幫助編寫更多複雜的程式碼」。



在最近與YC首席執行官Garry Tan的採訪中,Altman表示,「我們基本上知道該怎麼去做」才能實現與人類能力相當的通用人工智慧——其中一部分涉及「以創造性的方式使用當前模型」。

數學家和其他科學家表示,o1作為一個可以提供反饋、想法的伴侶,對他們的工作很有幫助。

但據兩名瞭解情況的員工稱,該模型的價格是非推理模型的6倍,因此缺少廣泛的使用者基礎。



GPU一直在加,智能卻不見漲

一些在AI領域投了數千萬美元的投資者,也開始懷疑LLM的改進速度是否開始趨於平穩。

著名風投機構Andreessen Horowit聯創Ben Horowitz,既是OpenAI股東,也是Mistral、Safe Superintelligence等競爭對手的直接投資者。

他在一個YouTube視訊中表示,「我們正以同樣的速度增加用於訓練AI的GPU數量,但我們根本沒有從中獲得智能上的改進」。

Horowitz的同事Marc Andreessen在同一個視訊中表示,有很多聰明的人正在努力突破漸近線,想辦法達到更高水平的推理能力。



Databricks企業軟體公司聯合創始人兼主席,同時也是一個允許應用程式開發者評估不同大模型的網站的共同開發者Ion Stoica表示,大模型的性能可能在某些方面進入平台期,但在其他方面則沒有。

他繼續表示,雖然AI在編碼和解決複雜的多步問題等任務上繼續改善,但在執行一般任務的能力上,如分析文字的情感、描述疾病症狀,進展似乎放緩。

對於一般知識問題,你可以說目前我們在LLM的表現上看到了一種平台期。我們需要更多的事實資料,而合成資料的幫助有限。 (新智元)