Anthropic 研究員：強化學習將推動 Transformer 實現 AGI

2025/10/02

•

在剛剛結束的 AI Agenda Live 紐約活動上，Anthropic 強化學習團隊技術負責人 Sholto Douglas 拋出了一個重磅觀點：

即使不需要新的模型架構突破，強化學習也能讓今天的 Transformer 模型達到人類專家等級的表現。

可以說，這已經非常接近 AGI 了。

要知道，去年秋天大家還在擔心 AI 模型訓練的進步速度正在放緩，現在研究人員們卻重新燃起了希望。

Transformer 還能再戰十年？

Douglas 給出的非共識觀點是：我們不需要超越 Transformer 的新架構。

這個 2017 年發明的架構，現在支撐著 GPT、Claude 這些最流行的模型，竟然還有這麼大的潛力可挖？

過去兩年，不少創業公司像 Sakana AI、Symbolic AI 和 AUI，都拿著「超越 Transformer」的故事從頂級 VC 那裡融了幾百萬美元。

它們聲稱能造出比 Transformer 更少出錯的模型。

但現在看來，Transformer 的統治地位似乎還很穩固。

同時，Douglas 還點出了另一個現象：今天最強大的晶片都是為 Transformer 最佳化的，這形成了一個自我強化的循環，讓研究者們更不願意去探索新架構了。

定義「好」比想像中難

但也別高興得太早。

Databricks 首席 AI 科學家 Jonathan Frankle 在同一個活動上潑了點冷水：強化學習的一個關鍵步驟是定義什麼叫「好表現」。

在程式設計領域，這很簡單——

程式碼能跑就是好。

但在商業世界裡呢？

Frankle 舉了個公眾號文章的例子：

什麼是一篇「好」文章？

是故事講的好不好聽？

是有沒有給到好的情緒價值？

是有沒有帶來資訊量？

是看點選量和訂閱數？

是看被其他媒體引用的次數？

還是看文章是否清晰易懂，或者是否深入技術細節？

這個問題沒有標準答案。

Anthropic 的十億美元賭注

面對這些挑戰，像 Anthropic 這樣的實驗室正在嘗試各種方法來提升模型在企業任務上的表現。

比如在 Salesforce 中記錄通話，或者製作 Excel 表格。

他們的方法包括：

讓人類專家給模型表現打分
讓 AI 模型在企業應用的副本中「自由探索」（也叫「RL gyms」）來學習如何使用這些應用

這些方法既困難又昂貴。

據報導，Anthropic 討論過在未來一年內在這些 RL gyms 上投入 10 億美元。

這筆錢花得值不值？

目前來看，還需要時間才能知道答案。

網友 R.J. 🎯（@aherosfuneral）稱：

是的，這就是問題所在。基準測試讓進展看起來很清晰，但現實生活是混亂的。「專家等級」很大程度上取決於具體情境，而人類帶來的適應性很難衡量。

@Nexio（@BhakteshHe70609）提出思考：

隨著強化學習將 AI 推向人類專業水平，真正的挑戰不僅是更智能的模型——而是在一個充滿無限細微差別的世界中，就什麼是「好」達成共識。定義表現很快會成為人類最重要的工作嗎？

Morgan_Analyst（@tairogi1988）也表達了類似觀點：

人類等級的 AI 感覺比以往任何時候都更近了，但定義「好」才是真正的挑戰。這讓我想起 David Smith 的觀點，市場將是最終的測試。

Christopher John Lee（@JunHongLi56447）評論道：

也許我們真正需要做的是瘋狂擴展 RL。然後也許我們能看到奇蹟。

Today in AI（@todayinai_）指出了一個技術性問題：

隨機獎勵函數是營運上的牆。企業自動化需要可審計、確定性的智能體軌跡，這是 RL 的機率性策略從根本上難以處理的必要性。

強化學習的前景，讓人既興奮又忐忑。

一方面，我們看到了通向 AGI 的可能路徑，不需要革命性的架構創新，只需要把現有的技術推到極致。

另一方面，如何定義和評估「智能」本身，成了擺在我們面前的哲學難題。

當 AI 越來越接近人類專家水平時，我們才發現——

原來定義什麼是「好」，才是擺在 AI 面前最重要也最困難的問題。 (AGI Hunt)