【新智元導讀】 OpenAI,有大事發生!最近各種爆料頻出,例如OpenAI已經跨過「遞歸自我改進」臨界點,o4、o5已經能自動化AI研發,甚至OpenAI已經研發出GPT-5? OpenAI員工如潮水般爆料,瘋狂暗示內部已開發出ASI。
種種跡象表明,最近OpenAI似乎發生了什麼大事。
AI研究員Gwern Branwen發布了一篇關於OpenAI o3、o4、o5的文章。
根據他的說法,OpenAI已經跨越了臨界點,達到了「遞歸自我改進」的門檻——o4或o5能自動化AI研發,完成剩下的工作!
文章重點如下——
- OpenAI可能選擇將其「o1-pro」模型保密,利用其運算資源來訓練o3這類更進階的模型,類似Anthorpic的策略
- OpenAI可能相信他們已經在AI發展方面取得了突破,正在走向ASI之路
- 目標是開發一種運作效率高的超人AI,類似AlphaGo/Zero所實現的目標
- 推理時搜尋最初可以提高效能,但最終會達到極限
甚至還出現了這樣一種傳言:OpenAI和Anthropic已經訓練出了GPT-5等級的模型,但都選擇了「雪藏」。
原因在於,模型雖能力強,但營運成本太高,用GPT-5蒸餾出GPT-4o、o1、o3這類模型,才更具性價比。
甚至,OpenAI安全研究員Stephen McAleer最近兩周的推文,看起來簡直跟短篇科幻小說——
我有點懷念過去做AI研究的時候,那時我們還不知道如何創造超級智慧。
在前沿實驗室,許多研究人員都非常認真地對待AI短時間的影響,而實驗室之外幾乎沒有人充分討論其安全影響。
而現在控制超級智慧已經是迫在眉睫的研究事項了。
我們該如何控制詭計多端的超級智慧?即使擁有完美的監視器,難道它不會說服我們將其從沙箱中釋放出來嗎?
總之,越來越多OpenAI員工,都開始暗示他們已經在內部開發了ASI。
這是真的嗎?還是CEO奧特曼「謎語人」的風格被底下員工學會了?
很多人覺得,這是OpenAI慣常的一種炒作手段。
但讓人有點害怕的是,有些一兩年前離開的人,其實表達過擔憂。
莫非,我們真的已處於ASI的邊緣?
超級智慧(superintelligence)的「潘朵拉魔盒」,真的被打開了?
OpenAI:「遙遙領先」
OpenAI的o1和o3模型,開啟了新的擴展範式:在運行時對模型推理投入更多運算資源,可以穩定地提高模型效能。
如下所示,o1的AIME準確率,隨著測試時計算資源的對數增加而呈現恆定成長。
OpenAI的o3模型延續了這一趨勢,創造了破紀錄的表現,具體成績如下:
根據OpenAI的說法,o系列模型的表現提升主要來自於增加思維鏈(Chain-of-Thought,CoT)的長度(以及其他技術,如思維樹),並透過強化學習來改進思維鏈(CoT)過程。
目前,運行o3在最大效能下非常昂貴,單一ARC-AGI任務的成本約為300美元,但推理成本正以每年約10倍的速度下降!
Epoch AI的一項最新分析指出,前沿實驗室在模型訓練和推理上的花費可能相似。
因此,除非接近推理擴展的硬性限制,否則前沿實驗室將繼續大量投入資源優化模型推理,成本將繼續下降。
就一般情況而言,推理擴展範式預計可能會持續下去,並且將是AGI安全性的關鍵考慮因素。
那麼推理擴展範式對AI安全性的影響是什麼呢?簡而言之,AI安全研究人員Ryan Kidd博士認為:
o1和o3的發布,對AGI時間表的預測的影響並不大。
Metaculus的「強AGI」預測似乎因為o3的發布而提前了一年,預計在2031年中期實現;然而,自2023年3月以來,該預測一直在2031到2033年之間波動。
Manifold Market的「AGI何時到來?」也提早了一年,從2030年調整為2029年,但最近這項預測也在波動。
很有可能,這些預測平台已經在某種程度上考慮了推理計算擴展的影響,因為思維鏈並不是一項新技術,即使透過RL增強。
整體來說,Ryan Kidd認為他也沒有比這些預測平台目前預測更好的見解。
在《AI Could Defeat All Of Us Combined》中,Holden Karnofsky描述了一種模稜兩可的風險威脅模型。
在這個模型中,一群人類層級的AI,憑藉著更快的認知速度和更好的協調能力超過了人類,而非依賴定性上的超級智慧能力。
這個情景的前提是,「一旦第一個人類層級的AI系統被創造出來,創造它的人,可以利用創造它所需要的相同運算能力,運行數億個副本,每個副本大約運行一年。 」
如果第一個AGI的運行成本和o3-high的成本一樣(約3000美元/任務),總成本至少要3000億美元,那麼這個威脅模型似乎就沒那麼可信了。
因此,Ryan Kidd博士對「部署問題」問題的擔憂較小,即一旦經過昂貴的訓練,短期模型就可以廉價地部署,從而產生巨大影響。
這在一定程度上減輕了他對「集體」或「高速」超級智慧的擔憂,同時略微提升了對「定性」超級智慧的關注,至少對於第一代AGI系統而言。
如果模型的更多認知,是以人類可解釋的思維鏈(CoT)形式嵌入,而非內部激活,這似乎是透過監督來促進AI安全性的好消息!
儘管CoT對模型推理的描述並不總是真實或準確,但這一點可能會得到改進。
Ryan Kidd也對LLM輔助的紅隊成員持樂觀態度,他們能夠防止隱密的陰謀,或至少限制可能秘密實施的計劃的複雜度,前提是有強有力的AI控制措施
從這個角度來看,推理計算擴展範式似乎非常有利於AI安全,前提是有足夠的CoT監督。
不幸的是,像Meta的Coconut(「連續思維鏈」)這樣的技術可能很快就會應用於前沿模型,連續推理可以不使用語言作為中介狀態。
儘管這些技術可能帶來性能上的優勢,但它們可能會在AI安全性上帶來巨大的隱患。
正如Marius Hobbhahn所說:「如果為了微小的性能提升,而犧牲了可讀的CoT,那簡直是在自毀前程。」
然而,考慮到使用者看不到o1的CoT,尚不確定是否能知道非語言CoT被部署的可能性,除非透過對抗性攻擊揭示這一點。
AGI來了
美國AI作家和研究員Gwern Branwen,則認為Ryan Kidd遺漏了一個重要面向:像o1這樣的模型的主要目的之一不是將其部署,而是產生下一個模型的訓練資料。
o1解決的每一個問題現在都是o3的一個訓練資料點(例如,任何一個o1會話最終找到正確答案的例子,都來訓練更精細的直覺)。
這意味著這裡的擴展範式,可能最終看起來很像當前的訓練時範式:大量的大型資料中心,在努力訓練一個擁有最高智慧的最終前沿模型,並以低搜尋的方式使用,並且會被轉化為更小更便宜的模型,用於那些低搜尋或無搜尋的用例。
對於這些大型資料中心來說,工作負載可能幾乎完全與搜尋相關(因為與實際的微調相比,推出模型的成本低廉且簡單),但這對其他人來說並不重要;就像之前一樣,所看到的基本是,使用高階GPU和大量電力,等待3到6個月,最終一個更聰明的AI出現。
OpenAI部署了o1-pro,而不是將其保持為私有,並將運算資源投資於更多的o3訓練等自舉流程。
Gwern Branwen對此有點驚訝。
顯然,類似的事情也發生在Anthropic和Claude-3.6-opus上——它並沒有「失敗」,他們只是選擇將其保持為私有,並將其蒸餾成一個小而便宜、但又奇怪地聰明的Claude-3.6-sonnet。 )
OpenAI的成員突然在Twitter上變得有些奇怪、甚至有些欣喜若狂,原因可能就是看到從原始4o模型到o3(以及現在的狀態)的改進。
這就像觀看AlphaGo在圍棋中等國際排名:它一直在上升…上升…再上升…
或許他們覺得自己「突破了」,終於跨過了臨界點:從單純的前沿AI工作,幾乎每個人幾年後都會複製的那種,跨越到起飛階段——破解了智能的關鍵,以至o4或o5將能夠自動化AI研發,並完成剩下的部分。
2024年11月,Altman表示:
我可以看到一條路徑,我們正在做的工作會繼續加速成長,過去三年的進展將繼續在未來三年、六年、九年或更長時間內繼續下去。
不久卻又改口:
我們現在非常確信地知道如何建構傳統意義上的AGI……我們開始將目標超越這一點,邁向真正意義上的超級智慧。我們很喜歡我們目前的產品,但我們是為了美好的未來。透過超級智能,我們可以做任何事。
而其他AI實驗室只能望洋興嘆:當超級智慧研究能夠自給自足時,根本無法獲得所需的大型運算設備來競爭。
最終OpenAI可能吃掉整個AI市場。
畢竟AlphaGo/Zero模型不僅遠遠超過人類,運行成本也非常低。僅僅搜尋幾步就能達到超人類的實力;即使是僅僅前向傳遞,已接近職業人類的水平!
如果看下文中的相關擴展曲線,會發現原因其實顯而易見。
論文連結:https://arxiv.org/pdf/2104.03113
推理時的搜尋就像是一種刺激劑,能立即提升分數,但很快就會達到極限。
很快,你必須使用更聰明的模型來改善搜尋本身,而不是做更多的搜尋。
如果單純的搜尋能如此有效,那西洋棋在1960年代就能解決了.
而實際上,到1997年5月,電腦才擊敗了西洋棋世界冠軍,但超過西洋棋大師的搜尋速度並不難。
如果你想要寫著「Hello World」的文本,一群在打字機上的猴子可能就足夠了;但如果想要在宇宙毀滅之前,得到《哈姆雷特》的全文,你最好現在就開始去克隆莎士比亞。
幸運的是,如果你手邊有需要的訓練資料和模型,那可以用來創造一個更聰明的模型:聰明到可以寫出媲美甚至超越莎士比亞的作品。
2024年12月20日,奧特曼強調:
在今天的噪音中,似乎有些消息被忽略了:
在程式設計任務中,o3-mini將超過o1的表現,而且成本還要少很多!
我預計這一趨勢將持續下去,但也預見到為獲得邊際的更多性能而付出指數級增加的資金,這將變得非常奇怪。
因此,你可以花錢來改善模型在某些產出上的表現……但「你」可能是「AI 實驗室」,你只是花錢去改善模型本身,而不僅僅是為了某個一般問題的臨時輸出。
這意味著外部人員可能永遠看不到中間模型(就像圍棋玩家無法看到AlphaZero訓練過程中第三步的隨機檢查點)。
而且,如果「部署成本是現在的1000倍」成立,這也是不部署的理由。
為什麼要浪費這些運算資源來服務外部客戶,而不繼續訓練,將其蒸餾回去,最終部署一個成本為100倍、然後10倍、1倍,甚至低於1倍的更優模型呢?
因此,一旦考慮到所有的二階效應和新工作流程,搜尋/測試時間範式可能會看起來出奇地熟悉。(新智元)