OpenAI底層AGI技術被曝光!前研究主管豪言:從此再無新範式

【新智元導讀】不是更大模型,而是更強推理、更像人!AGI離落地,還有多遠?OpenAI前研究主管表示,AGI所需突破已經實現!

AGI所需突破已經實現!

OpenAI前研究主管Bob McGrew公開表示:AGI的「技術拼圖」已經齊全,關鍵在於如何將推理能力落地,並重塑價值創造路徑

作為研究主管,他見證了OpenAI從GPT-3的突破到如今推理模型的演變。

他認為,實現通用人工智慧 (AGI) 的三大支柱是:

Transformer、規模化預訓練和推理。

AI能力持續增強。在過去五年中,技術發展迅猛、令人興奮。

而且這一趨勢仍在延續,他認為並不存在所謂的「技術牆」

在紅杉的「訓練資料」(Training Data)系列播客中,他分享了關於AI的洞見。

AGI拼圖已現

「除了預訓練、後訓練、推理這三部分外,未來可能不會再出現根本性突破。」

Bob McGrew的這個觀點可能有爭議。

但如果穿越到2030年, 總結實現更高智能(也許是AGI,也許是其他形式)所需的根本概念。

他認為,最終會得出全部關鍵點:

1. 基於transformer的語言模型;

2. 大規模預訓練(比如GPT-1和GPT-2);

3. 推理能力的引入與不斷提升;

4. 越來越多的多模態能力。

他甚至認為,到了2035年,我們仍然不會看到這些之外的新趨勢。為什麼這麼認為?

回到2020年,那時GPT-3剛訓練完成。可以想像一下當時OpenAI的情景:模型還未發佈,但已經知道它帶來了「劃時代的變革」。

Dario Amodei、Ilya Sutskever、Alec Radford等一群人圍坐在辦公室,盯著這個模型。他們很清楚接下來的路線圖是什麼:

從GPT-3到GPT-4,預訓練規模必須擴大;

  • 必須增強多模態能力,最終發展出能使用電腦的模型;
  • 開始探索「測試時計算」(test time compute)。

所以Bob認為,從現在起大家會繼續擴大、改進和打磨這三個概念。這非常難,需要大量智慧和努力。但若干年後再回頭看,我們不會看到有其他新出現的根本性技術趨勢。

他認為如果錯了,那未來將更加精彩。但現在,他覺得他是對的。

為什麼說今年是推理之年

我們正處在AI發展的關鍵節點,見證了預訓練、後訓練與推理三者的融合。

而2025年是「推理之年」。

推理是種新技術。從2023年9月的o1-preview,到六個月後的2024年4月發佈o3,僅用了六個月,期間進展迅猛。

同時,OpenAI多年開發的推理能力,正在向Google、DeepSeek、Anthropic等公司擴散——只在短短幾個月內就實現了。

這說明,推理是各大實驗室今年的重點方向

而且推理模型領域目前還有很多成果,唾手可得。例如,o1-preview與o3之間最大的區別在於:

前者無法使用工具,而後者則能在「思維鏈」(Chain of Thought)中呼叫工具

在訓練o1時,OpenAI就知道推理很值得做,但實現起來很難,最終他們用了六個月將其開發並行布。

但推理的下一步並不直觀。

隨著推理能力趨於成熟,技術潛力也將逐漸被「消耗殆盡」。因此,進展的速度可能會放緩,不再像前期那樣迅猛。

預訓練

地位仍在,但角色轉型

許多人說:「預訓練正面臨瓶頸」「Scaling Law即將終結」……

但Bob認為:「預訓練仍然重要,但收益遞減。

之所以會出現收益遞減,是因為模型的智能增長與所投入的算力呈對數線性關係——也就是說,要提升一定幅度的智能,就必須成倍增加算力。

本質上,預訓練是規模巨大、耗時持久的訓練過程,要用整個資料中心持續運行好幾個月。而當要訓練下一個新模型時,通常要在多個資料中心上完成。

這可以依賴一些演算法效率的提升,但從根本上說,必須等新的資料中心建成。這無法像推理那樣在六個月內完成改進,而是需要數年的時間。

不過,這並不意味著預訓練無用。

2025年,預訓練的真正槓桿在於架構的改進

即使正在重點開發推理能力,仍然希望改進預訓練,提高推理時的效率、支援更長的上下文或更好地利用上下文。而要做到這些時,就必須從頭開始,在新架構上重新進行預訓練,然後再進入整個推理最佳化流程。

所以,預訓練仍然重要,但它在整個流程中扮演的角色已經發生了變化。

後訓練

模型的人格

預訓練和推理的目標是提升智能。在這兩個環節中,有明確的「Scaling Law」:

投入更多算力,就能獲得更高的智能。

後訓練不提升智能,而是塑造模型的「人格」,與「智能」完全不同。

本質上,智能是「薄問題」(thin problem),只要做得更好,它的適應能力和泛化能力就會提升,幾乎可以遷移到任何任務上——

比如你在數學上做得更好,就能更好地應對法律推理問題。

但「模型人格」是「厚問題」(thick problem)。

這需要去思考:「我希望這個智能體表現出什麼樣的個性?我希望它如何行動?」更像是人類多年與他人互動的成長過程。

而如何將人類對「好人格」的定義,轉化為真實、吸引人的AI人格,這本身就非常難,值得深入研究。

這需要像OpenAI的Joanne Jang(下圖左)或Anthropic的Amanda Askell(下圖右)之類的「產品經理」,專門去設計模型人格

她們對人性有非常深刻的理解。

推理演進路徑與挑戰

推理為何關鍵?

主持人Sonya Huang對推理很感興趣。

而OpenAI似乎很早就堅定地押注在這個推理範式上,可能比其他實驗室都要早。

所以她問了Bob一個問題:「最初OpenAI為什麼會對推理下注這麼重?

Bob McGrew認為推理是AGI缺失的關鍵拼圖

預訓練可以讓模型對問題有一種「直覺式的理解」。

但如果讓人馬上去計算2個五位數的乘法,對一般人來說完全做得到,但不能立刻得到精準結果。因為人類天生就需要「在回答前思考」——

人類需要「草稿紙」,慢慢推導。這就是早期模型(甚至包括GPT-3)所不具備的能力。

後來OpenAI開始關注到一些公開實驗的啟示——比如「逐步思考」(step by step thinking)、「思維鏈」(chain of thought)等概念。

OpenAI意識到模型可以自己引導推理過程,而不是僅僅模仿人類如何思考的樣本。這種能力非常強大,而且可以被訓練出來。

他們知道這會比單純的預訓練更具潛力,因為:

人類的思維是在腦子裡的,不是模型能直接獲取的資料;

  • 公開的資料幾乎都是「最終答案」,模型看不到中間推理過程;
  • 所以模型必須自己推匯出「思考的方式」。

這就是為什麼OpenAI如此看重推理。

之前,Bob提到:「我們尚未揭示完全推理。」

主持人Stephanie Zhan繼續追問道:「我們現在對推理理解得足夠了嗎?還是說還處在早期研發階段?」

Bob McGrew認為行業一線依舊能看到大量新想法和細節上的改進,但局外人已經看不懂了。

現在,很多進展已經不會公開出現在論文中了。

就像以前,學術界還能做出很大的突破。但後來,當Bob再看到學術論文時,他會想:「哦,這個我們早就做過了,他們剛剛又重新發現了一次。」

如今,投入到這個方向的精力已經非常巨大。

因此,確實還有很多東西可以探索,但它們已經不是三言兩語可以講清楚的點子了。 (新智元)