Anthropic 研究員:強化學習將推動 Transformer 實現 AGI

在剛剛結束的 AI Agenda Live 紐約活動上,Anthropic 強化學習團隊技術負責人 Sholto Douglas 拋出了一個重磅觀點:

即使不需要新的模型架構突破,強化學習也能讓今天的 Transformer 模型達到人類專家等級的表現。

可以說,這已經非常接近 AGI 了。

要知道,去年秋天大家還在擔心 AI 模型訓練的進步速度正在放緩,現在研究人員們卻重新燃起了希望。

Transformer 還能再戰十年?

Douglas 給出的非共識觀點是:我們不需要超越 Transformer 的新架構

這個 2017 年發明的架構,現在支撐著 GPT、Claude 這些最流行的模型,竟然還有這麼大的潛力可挖?

過去兩年,不少創業公司像 Sakana AI、Symbolic AI 和 AUI,都拿著「超越 Transformer」的故事從頂級 VC 那裡融了幾百萬美元。

它們聲稱能造出比 Transformer 更少出錯的模型。

但現在看來,Transformer 的統治地位似乎還很穩固。

同時,Douglas 還點出了另一個現象:今天最強大的晶片都是為 Transformer 最佳化的,這形成了一個自我強化的循環,讓研究者們更不願意去探索新架構了。

定義「好」比想像中難

但也別高興得太早。

Databricks 首席 AI 科學家 Jonathan Frankle 在同一個活動上潑了點冷水:強化學習的一個關鍵步驟是定義什麼叫「好表現」

在程式設計領域,這很簡單——

程式碼能跑就是好。

但在商業世界裡呢?

Frankle 舉了個公眾號文章的例子:

什麼是一篇「好」文章?

是故事講的好不好聽?

是有沒有給到好的情緒價值?

是有沒有帶來資訊量?

是看點選量和訂閱數?

是看被其他媒體引用的次數?

還是看文章是否清晰易懂,或者是否深入技術細節?

這個問題沒有標準答案。

Anthropic 的十億美元賭注

面對這些挑戰,像 Anthropic 這樣的實驗室正在嘗試各種方法來提升模型在企業任務上的表現。

比如在 Salesforce 中記錄通話,或者製作 Excel 表格。

他們的方法包括:

  • 讓人類專家給模型表現打分
  • 讓 AI 模型在企業應用的副本中「自由探索」(也叫「RL gyms」)來學習如何使用這些應用

這些方法既困難又昂貴。

據報導,Anthropic 討論過在未來一年內在這些 RL gyms 上投入 10 億美元

這筆錢花得值不值?

目前來看,還需要時間才能知道答案。

網友 R.J. 🎯(@aherosfuneral)稱:

是的,這就是問題所在。基準測試讓進展看起來很清晰,但現實生活是混亂的。「專家等級」很大程度上取決於具體情境,而人類帶來的適應性很難衡量。

@Nexio(@BhakteshHe70609)提出思考:

隨著強化學習將 AI 推向人類專業水平,真正的挑戰不僅是更智能的模型——而是在一個充滿無限細微差別的世界中,就什麼是「好」達成共識。定義表現很快會成為人類最重要的工作嗎?

Morgan_Analyst(@tairogi1988)也表達了類似觀點:

人類等級的 AI 感覺比以往任何時候都更近了,但定義「好」才是真正的挑戰。這讓我想起 David Smith 的觀點,市場將是最終的測試。

Christopher John Lee(@JunHongLi56447)評論道:

也許我們真正需要做的是瘋狂擴展 RL。然後也許我們能看到奇蹟。

Today in AI(@todayinai_)指出了一個技術性問題:

隨機獎勵函數是營運上的牆。企業自動化需要可審計、確定性的智能體軌跡,這是 RL 的機率性策略從根本上難以處理的必要性。

強化學習的前景,讓人既興奮又忐忑。

一方面,我們看到了通向 AGI 的可能路徑,不需要革命性的架構創新,只需要把現有的技術推到極致。

另一方面,如何定義和評估「智能」本身,成了擺在我們面前的哲學難題。

當 AI 越來越接近人類專家水平時,我們才發現——

原來定義什麼是「好」,才是擺在 AI 面前最重要也最困難的問題。 (AGI Hunt)