還記得AlphaGo 剛擊敗李世石時,全世界驚呼“人工智慧時代來了”,轉眼不過幾年,ChatGPT、o‑系列模型已經把“智能”從棋盤和試卷一路捲到程式碼、創作甚至電腦螢幕背後的每一次點選
清華姚班出身大牛,現任OpenAI 研究科學家姚順雨在最新長文《The Second Half》中拋出一個驚人判斷:
過去幾十年我們專注於“把模型訓得更強”,如今遊戲規則徹底反轉——接下來比拚的不是訓練,而是“如何定義並評估真正有用的任務”。換言之,第一階段的看家法寶是Transformer、深度強化學習和大規模預訓練;而第二階段,你得像產品經理一樣重新思考:AI 究竟該為誰解決什麼問題、又該如何衡量「解決不好」。這一轉向,將決定誰只是“模型分數更高”,誰能真正撬動兆級經濟價值
姚順雨在文中還提到:
Sutton(強化學習之父) & Barto 的經典教材幾乎只談演算法,幾乎不談環境與先驗,然而,在深度RL時代,人們發現環境對經驗結果影響巨大:一種演算法的表現往往極度依賴其開發和測試的環境。如果忽略環境,你也許會創造出只在玩具設定裡無比優越的「最優」演算法。那麼為何不先確定真正想解決的環境,再找最適合的演算法呢?
這段看法其實剛好和這兩天Sutton與GoogleRL副總裁寫的最新論文《Welcome to the Era of Experience》的觀點一致
以下是全文分享:
原作者:姚順雨(Shunyu Yao),OpenAI 研究科學家原文標題:The Second Half原文摘要:We're at AI's halftime.
網址: https://ysymyth.github.io/The-Second-Half/
幾十年來,AI 主要專注於開發新的訓練方法和模型。事實證明這條路行之有效:從擊敗世界冠軍的國際象棋和圍棋程序,到在SAT 和律師資格考試上超過大多數人類,再到在IMO 和IOI 上摘金奪銀。寫進教科書的里程碑——Deep Blue、AlphaGo、GPT‑4 以及o‑series——背後都是AI 方法上的根本性創新:搜尋、深度強化學習、規模化和推理能力。隨著時間推移,一切都在變得更好。
用三個字概括:強化學習終於奏效了。更準確地說:強化學習終於有了泛化能力。經歷許多重大彎路和里程碑的累積,我們終於找到了一套可行的配方,能用語言和推理解決各種RL 任務。即使在一年前,如果你告訴大多數AI 研究者一份單一的配方可以同時搞定軟體工程、創意寫作、IMO 級數學、鍵盤滑鼠操作以及長篇問答——他們肯定會笑你「幻覺」。這些任務各自極難,許多研究者整個博士階段可能只盯著其中一個小方向。
然而,它真的發生了。
AI 的下半場——從此刻開始——將把重心從「解決問題」轉向「定義問題」。在這個新時代,評價比訓練更重要。我們不再僅僅問“能不能訓練出解決X 的模型?”,而是要問“我們應該訓練AI 做什麼?如何衡量真實的進步?”要在下半場取得成功,我們必須及時轉變心態和技能,更像產品經理那樣思考。
要理解前半場,看看那些工作贏得了桂冠。你認為迄今最具影響力的AI 論文是那幾篇?
我在史丹佛224N 課堂上做過小測驗,答案不意外:Transformer、AlexNet、GPT‑3 等。這些論文的共同點是什麼?它們提出了能訓練出更好模型的根本性突破,並透過在某些基準上顯著提升成績來發表。
還有一個潛在共通點:這些「贏家」都是訓練方法或模型,而不是基準或任務。即使可以說是最具影響力的基準資料集——ImageNet——其引用量也不到AlexNet 的三分之一。模型VS. 基準的對比在其他地方更為懸殊:Transformer 的核心基準是WMT'14 翻譯,其研討會報告引用量約1300,而Transformer 論文則超過160,000。
這說明了前半場的遊戲規則:重點是建立新模型和方法,而評估與基準處於次要(但必要)地位。
為什麼?因為在AI 的前半場,提出新演算法或模型架構往往比定義任務更難、更令人興奮。與此相對,把現有的人類任務(翻譯、圖像識別、下棋)轉成基準顯得簡單得多。更重要的是,好方法往往更通用:Transformer 最初在WMT'14 翻譯任務上嶄露頭角,後來卻驅動了電腦視覺、自然語言處理、強化學習等眾多領域的進步。一個偉大的新方法能爬過許多不同的基準,因此其影響通常超越單一任務。
這套遊戲行數十年,催生了改變世界的想法與突破,在各領域不斷刷新基準成績。為何遊戲要改變?因為所有這些突破的累積,帶來了能夠真正解決任務的「通用配方」。
配方的原料並不意外:大規模語言預訓練、資料與計算的規模化,以及「推理與行動」的概念。這些詞似乎成了舊金山每天都在喊的流行語,但為何稱之為「配方」?
可以用強化學習(RL) 的視角來理解——RL 常被視作AI 的「終局」——理論上能贏下游戲,實際上也難以想像沒有RL 的超人系統(如AlphaGo)。 RL 有三大關鍵組成:演算法、環境和先驗。長期以來,RL 研究者幾乎把全部注意力放在演算法(REINFORCE、DQN、PPO、TRPO 等)上,同時把環境和先驗視為固定或最小化條件。 Sutton & Barto 的經典教材幾乎只談演算法,幾乎不談環境與先驗。
然而,在深度RL時代,人們發現環境對經驗結果影響巨大:一種演算法的表現往往極度依賴其開發和測試的環境。如果忽略環境,你也許會創造出只在玩具設定裡無比優越的「最優」演算法。那麼為何不先確定真正想解決的環境,再找最適合的演算法呢?
這正是OpenAI 的初衷:他們建構了Gym、World of Bits、Universe 等一系列標準RL 環境,試圖把網路或電腦變成遊戲環境。計畫聽起來完美:一旦把所有數字世界變成環境,再用聰明的RL 演算法解決它們,就能得到數字AGI。
計劃很好,但並不完全奏效。 OpenAI 在用RL 解決Dota、機械手等方向取得巨大進展,卻始終無法搞定“用電腦”或“網頁導航”,而且一個領域的RL 代理無法遷移到另一個領域。缺了什麼?
直到GPT‑2、GPT‑3 出現,人們才發現缺少的原來是先驗。需要強大的語言預訓練,把常識和語言知識蒸餾進模型,再透過微調把它變成WebGPT 或ChatGPT(並改變世界)。事實證明,RL 最重要的部分可能並非演算法或環境,而是先驗——而這些先驗可以透過與RL 並不直接相關的方式獲得。
語言預訓練為聊天提供了好先驗,卻不足以同樣出色地操控電腦或玩電子遊戲。為何?因為這些領域與網路文字分佈差得更遠,直接進行監督微調或RL 效果不佳。 2019 年GPT‑2 剛問世時,我曾在此之上做監督微調/RL 來解決文字冒險遊戲-CALM 是世界上第一個基於預訓練語言模型的遊戲代理。但它需要數百萬步RL 才能爬過單一遊戲,無法泛化。雖然這正是典型RL 的特徵,但我覺得奇怪:人類卻能零樣本上手新遊戲並表現得更好。於是我迎來了人生第一次“頓悟”:我們之所以泛化,是因為我們可以選擇“思考”而不只是“行動” ——例如先想到“地牢危險,需要武器,而箱子可能藏武器”,再規劃行動。
“思考”,或“推理”,是一種奇特動作:它不直接影響外部世界,但其空間開放、組合爆炸——你可以想一個詞、一句話、一段話,甚至隨機想10000 個單詞,而周圍世界不會立即改變。在經典RL 理論中,這是交易極差、讓決策幾乎不可能:如果需要在兩個箱子中選一個,有一個有100 萬美元,另一個空,你期望賺50 萬;若我再加無限個空箱子,你期望收穫為零。但當把推理加入RL 中的動作空間時,我們藉助語言預訓練先驗來泛化,並且能為不同決策靈活組態推理時長。這很神奇,恐怕我得另寫文章解釋;簡而言之:語言透過代理中的推理實現泛化。
當我們擁有正確的RL 先驗(語言預訓練)和RL 環境(把語言推理當作動作)後,RL 演算法反而成了最瑣碎的部分。於是有了o‑series、R1、「deep research」 和麵向電腦操作的代理,未來還會更多。諷刺的是:幾十年來RL 研究者過分關注演算法,幾乎沒人理會先驗——所有實驗幾乎都是從零開始。卻花了數十年彎路才發現,也許我們應該完全倒過來排優先順序。
正如Steve Jobs 所說:“你無法預見地連接點點滴滴,只有回頭看時才能。”
這套配方正在徹底改寫遊戲規則。回顧前半場的循環:
現在循環被破壞了,因為:
接下來怎麼玩?如果新方法不再稀缺,而更難基準也會迅速被破,那我們應該做什麼?
我認為必須從根本上重新思考「評估」。這不只是再造新基準,更要質疑現有評估設定,創造新的評估方式,迫使我們發明超越配方的新方法。這很難,因為人類有慣性,很少質疑基本假設──許多假設被視為天經地義。
舉兩例說明慣性:
1. 評估「應該」自動運行-通常代理收到一次任務輸入,就完全自主地做事,最後得到評分。但現實中,代理必須在任務過程中與人類互動——你不會給客服發一大段資訊等10 分鐘就指望一次性解決。於是出現了讓真人或模擬使用者在環的基準:如Chatbot Arena、tau‑bench。
2. 評估「應該」獨立同分佈(iid) 運行-如果測試集有500 個任務,你平行跑完取平均。但現實中任務是順序完成的:Google 軟件工程師越熟悉代碼庫,解決bug 越快;而代理卻在同一倉庫裡反覆「首次見面」。我們顯然需要長期記憶,但學術界缺乏能證明需求的基準,也缺乏質疑iid 假設的勇氣。
這些假設在前半場無傷大雅,因為智能等級低時,只要智能提升,效用就會同步提升。但現在,通用配方已確保在這些假設下必勝。因此,下半場的新遊戲是:
這場遊戲難在陌生,卻也令人興奮。前半場玩家在電子遊戲和考試裡刷分;下半場玩家則有機會把智能做成真正有用的產品,建立十億、兆美元的公司。前半場充斥增量模型和方法;在下半場,它們被配方「過濾」——除非你創造新假設來打破配方,否則註定被碾壓。
歡迎來到下半場! (AI寒武紀)