在剛剛結束的 AI Agenda Live 紐約活動上,Anthropic 強化學習團隊技術負責人 Sholto Douglas 拋出了一個重磅觀點:
即使不需要新的模型架構突破,強化學習也能讓今天的 Transformer 模型達到人類專家等級的表現。
可以說,這已經非常接近 AGI 了。
要知道,去年秋天大家還在擔心 AI 模型訓練的進步速度正在放緩,現在研究人員們卻重新燃起了希望。
Douglas 給出的非共識觀點是:我們不需要超越 Transformer 的新架構。
這個 2017 年發明的架構,現在支撐著 GPT、Claude 這些最流行的模型,竟然還有這麼大的潛力可挖?
過去兩年,不少創業公司像 Sakana AI、Symbolic AI 和 AUI,都拿著「超越 Transformer」的故事從頂級 VC 那裡融了幾百萬美元。
它們聲稱能造出比 Transformer 更少出錯的模型。
但現在看來,Transformer 的統治地位似乎還很穩固。
同時,Douglas 還點出了另一個現象:今天最強大的晶片都是為 Transformer 最佳化的,這形成了一個自我強化的循環,讓研究者們更不願意去探索新架構了。
但也別高興得太早。
Databricks 首席 AI 科學家 Jonathan Frankle 在同一個活動上潑了點冷水:強化學習的一個關鍵步驟是定義什麼叫「好表現」。
在程式設計領域,這很簡單——
程式碼能跑就是好。
但在商業世界裡呢?
Frankle 舉了個公眾號文章的例子:
什麼是一篇「好」文章?
是故事講的好不好聽?
是有沒有給到好的情緒價值?
是有沒有帶來資訊量?
是看點選量和訂閱數?
是看被其他媒體引用的次數?
還是看文章是否清晰易懂,或者是否深入技術細節?
這個問題沒有標準答案。
面對這些挑戰,像 Anthropic 這樣的實驗室正在嘗試各種方法來提升模型在企業任務上的表現。
比如在 Salesforce 中記錄通話,或者製作 Excel 表格。
他們的方法包括:
這些方法既困難又昂貴。
據報導,Anthropic 討論過在未來一年內在這些 RL gyms 上投入 10 億美元。
這筆錢花得值不值?
目前來看,還需要時間才能知道答案。
網友 R.J. 🎯(@aherosfuneral)稱:
是的,這就是問題所在。基準測試讓進展看起來很清晰,但現實生活是混亂的。「專家等級」很大程度上取決於具體情境,而人類帶來的適應性很難衡量。
@Nexio(@BhakteshHe70609)提出思考:
隨著強化學習將 AI 推向人類專業水平,真正的挑戰不僅是更智能的模型——而是在一個充滿無限細微差別的世界中,就什麼是「好」達成共識。定義表現很快會成為人類最重要的工作嗎?
Morgan_Analyst(@tairogi1988)也表達了類似觀點:
人類等級的 AI 感覺比以往任何時候都更近了,但定義「好」才是真正的挑戰。這讓我想起 David Smith 的觀點,市場將是最終的測試。
Christopher John Lee(@JunHongLi56447)評論道:
也許我們真正需要做的是瘋狂擴展 RL。然後也許我們能看到奇蹟。
Today in AI(@todayinai_)指出了一個技術性問題:
隨機獎勵函數是營運上的牆。企業自動化需要可審計、確定性的智能體軌跡,這是 RL 的機率性策略從根本上難以處理的必要性。
強化學習的前景,讓人既興奮又忐忑。
一方面,我們看到了通向 AGI 的可能路徑,不需要革命性的架構創新,只需要把現有的技術推到極致。
另一方面,如何定義和評估「智能」本身,成了擺在我們面前的哲學難題。
當 AI 越來越接近人類專家水平時,我們才發現——
原來定義什麼是「好」,才是擺在 AI 面前最重要也最困難的問題。 (AGI Hunt)