清華姚班大牛，OpenAI姚順雨：AI的下半場要像產品經理一樣思考，RL演算法取決於環境

2025/04/20

•

還記得AlphaGo 剛擊敗李世石時，全世界驚呼“人工智慧時代來了”，轉眼不過幾年，ChatGPT、o‑系列模型已經把“智能”從棋盤和試卷一路捲到程式碼、創作甚至電腦螢幕背後的每一次點選

清華姚班出身大牛，現任OpenAI 研究科學家姚順雨在最新長文《The Second Half》中拋出一個驚人判斷：

過去幾十年我們專注於“把模型訓得更強”，如今遊戲規則徹底反轉——接下來比拚的不是訓練，而是“如何定義並評估真正有用的任務”。換言之，第一階段的看家法寶是Transformer、深度強化學習和大規模預訓練；而第二階段，你得像產品經理一樣重新思考：AI 究竟該為誰解決什麼問題、又該如何衡量「解決不好」。這一轉向，將決定誰只是“模型分數更高”，誰能真正撬動兆級經濟價值

姚順雨在文中還提到：

Sutton（強化學習之父） & Barto 的經典教材幾乎只談演算法，幾乎不談環境與先驗，然而，在深度RL時代，人們發現環境對經驗結果影響巨大：一種演算法的表現往往極度依賴其開發和測試的環境。如果忽略環境，你也許會創造出只在玩具設定裡無比優越的「最優」演算法。那麼為何不先確定真正想解決的環境，再找最適合的演算法呢？

這段看法其實剛好和這兩天Sutton與GoogleRL副總裁寫的最新論文《Welcome to the Era of Experience》的觀點一致

以下是全文分享：

《The Second Half》全文翻譯

原作者：姚順雨（Shunyu Yao），OpenAI 研究科學家原文標題：The Second Half原文摘要：We're at AI's halftime.

網址： https://ysymyth.github.io/The-Second-Half/

幾十年來，AI 主要專注於開發新的訓練方法和模型。事實證明這條路行之有效：從擊敗世界冠軍的國際象棋和圍棋程序，到在SAT 和律師資格考試上超過大多數人類，再到在IMO 和IOI 上摘金奪銀。寫進教科書的里程碑——Deep Blue、AlphaGo、GPT‑4 以及o‑series——背後都是AI 方法上的根本性創新：搜尋、深度強化學習、規模化和推理能力。隨著時間推移，一切都在變得更好。

那麼，現在究竟發生了什麼不同呢？

用三個字概括：強化學習終於奏效了。更準確地說：強化學習終於有了泛化能力。經歷許多重大彎路和里程碑的累積，我們終於找到了一套可行的配方，能用語言和推理解決各種RL 任務。即使在一年前，如果你告訴大多數AI 研究者一份單一的配方可以同時搞定軟體工程、創意寫作、IMO 級數學、鍵盤滑鼠操作以及長篇問答——他們肯定會笑你「幻覺」。這些任務各自極難，許多研究者整個博士階段可能只盯著其中一個小方向。

然而，它真的發生了。

接下來會怎樣？

AI 的下半場——從此刻開始——將把重心從「解決問題」轉向「定義問題」。在這個新時代，評價比訓練更重要。我們不再僅僅問“能不能訓練出解決X 的模型？”，而是要問“我們應該訓練AI 做什麼？如何衡量真實的進步？”要在下半場取得成功，我們必須及時轉變心態和技能，更像產品經理那樣思考。

前半場回顧

要理解前半場，看看那些工作贏得了桂冠。你認為迄今最具影響力的AI 論文是那幾篇？

我在史丹佛224N 課堂上做過小測驗，答案不意外：Transformer、AlexNet、GPT‑3 等。這些論文的共同點是什麼？它們提出了能訓練出更好模型的根本性突破，並透過在某些基準上顯著提升成績來發表。

還有一個潛在共通點：這些「贏家」都是訓練方法或模型，而不是基準或任務。即使可以說是最具影響力的基準資料集——ImageNet——其引用量也不到AlexNet 的三分之一。模型VS. 基準的對比在其他地方更為懸殊：Transformer 的核心基準是WMT'14 翻譯，其研討會報告引用量約1300，而Transformer 論文則超過160,000。

這說明了前半場的遊戲規則：重點是建立新模型和方法，而評估與基準處於次要（但必要）地位。

為什麼？因為在AI 的前半場，提出新演算法或模型架構往往比定義任務更難、更令人興奮。與此相對，把現有的人類任務（翻譯、圖像識別、下棋）轉成基準顯得簡單得多。更重要的是，好方法往往更通用：Transformer 最初在WMT'14 翻譯任務上嶄露頭角，後來卻驅動了電腦視覺、自然語言處理、強化學習等眾多領域的進步。一個偉大的新方法能爬過許多不同的基準，因此其影響通常超越單一任務。

這套遊戲行數十年，催生了改變世界的想法與突破，在各領域不斷刷新基準成績。為何遊戲要改變？因為所有這些突破的累積，帶來了能夠真正解決任務的「通用配方」。

配方是什麼？

配方的原料並不意外：大規模語言預訓練、資料與計算的規模化，以及「推理與行動」的概念。這些詞似乎成了舊金山每天都在喊的流行語，但為何稱之為「配方」？

可以用強化學習(RL) 的視角來理解——RL 常被視作AI 的「終局」——理論上能贏下游戲，實際上也難以想像沒有RL 的超人系統（如AlphaGo）。 RL 有三大關鍵組成：演算法、環境和先驗。長期以來，RL 研究者幾乎把全部注意力放在演算法（REINFORCE、DQN、PPO、TRPO 等）上，同時把環境和先驗視為固定或最小化條件。 Sutton & Barto 的經典教材幾乎只談演算法，幾乎不談環境與先驗。

然而，在深度RL時代，人們發現環境對經驗結果影響巨大：一種演算法的表現往往極度依賴其開發和測試的環境。如果忽略環境，你也許會創造出只在玩具設定裡無比優越的「最優」演算法。那麼為何不先確定真正想解決的環境，再找最適合的演算法呢？

這正是OpenAI 的初衷：他們建構了Gym、World of Bits、Universe 等一系列標準RL 環境，試圖把網路或電腦變成遊戲環境。計畫聽起來完美：一旦把所有數字世界變成環境，再用聰明的RL 演算法解決它們，就能得到數字AGI。

計劃很好，但並不完全奏效。 OpenAI 在用RL 解決Dota、機械手等方向取得巨大進展，卻始終無法搞定“用電腦”或“網頁導航”，而且一個領域的RL 代理無法遷移到另一個領域。缺了什麼？

直到GPT‑2、GPT‑3 出現，人們才發現缺少的原來是先驗。需要強大的語言預訓練，把常識和語言知識蒸餾進模型，再透過微調把它變成WebGPT 或ChatGPT（並改變世界）。事實證明，RL 最重要的部分可能並非演算法或環境，而是先驗——而這些先驗可以透過與RL 並不直接相關的方式獲得。

語言預訓練為聊天提供了好先驗，卻不足以同樣出色地操控電腦或玩電子遊戲。為何？因為這些領域與網路文字分佈差得更遠，直接進行監督微調或RL 效果不佳。 2019 年GPT‑2 剛問世時，我曾在此之上做監督微調／RL 來解決文字冒險遊戲－CALM 是世界上第一個基於預訓練語言模型的遊戲代理。但它需要數百萬步RL 才能爬過單一遊戲，無法泛化。雖然這正是典型RL 的特徵，但我覺得奇怪：人類卻能零樣本上手新遊戲並表現得更好。於是我迎來了人生第一次“頓悟”：我們之所以泛化，是因為我們可以選擇“思考”而不只是“行動” ——例如先想到“地牢危險，需要武器，而箱子可能藏武器”，再規劃行動。

“思考”，或“推理”，是一種奇特動作：它不直接影響外部世界，但其空間開放、組合爆炸——你可以想一個詞、一句話、一段話，甚至隨機想10000 個單詞，而周圍世界不會立即改變。在經典RL 理論中，這是交易極差、讓決策幾乎不可能：如果需要在兩個箱子中選一個，有一個有100 萬美元，另一個空，你期望賺50 萬；若我再加無限個空箱子，你期望收穫為零。但當把推理加入RL 中的動作空間時，我們藉助語言預訓練先驗來泛化，並且能為不同決策靈活組態推理時長。這很神奇，恐怕我得另寫文章解釋；簡而言之：語言透過代理中的推理實現泛化。

當我們擁有正確的RL 先驗（語言預訓練）和RL 環境（把語言推理當作動作）後，RL 演算法反而成了最瑣碎的部分。於是有了o‑series、R1、「deep research」和麵向電腦操作的代理，未來還會更多。諷刺的是：幾十年來RL 研究者過分關注演算法，幾乎沒人理會先驗——所有實驗幾乎都是從零開始。卻花了數十年彎路才發現，也許我們應該完全倒過來排優先順序。

正如Steve Jobs 所說：“你無法預見地連接點點滴滴，只有回頭看時才能。”

下半場

這套配方正在徹底改寫遊戲規則。回顧前半場的循環：

提出新訓練方法或模型，刷基準分數；
建立更難的基準，繼續循環。

現在循環被破壞了，因為：

配方把「刷分」工業化且無需太多新點子。你琢磨半天提升5%，下一代o‑series 隨手提升30%。
即便造更難基準，配方很快（而且越來越快）就能解決。

接下來怎麼玩？如果新方法不再稀缺，而更難基準也會迅速被破，那我們應該做什麼？

我認為必須從根本上重新思考「評估」。這不只是再造新基準，更要質疑現有評估設定，創造新的評估方式，迫使我們發明超越配方的新方法。這很難，因為人類有慣性，很少質疑基本假設──許多假設被視為天經地義。

舉兩例說明慣性：

1. 評估「應該」自動運行－通常代理收到一次任務輸入，就完全自主地做事，最後得到評分。但現實中，代理必須在任務過程中與人類互動——你不會給客服發一大段資訊等10 分鐘就指望一次性解決。於是出現了讓真人或模擬使用者在環的基準：如Chatbot Arena、tau‑bench。

2. 評估「應該」獨立同分佈(iid) 運行－如果測試集有500 個任務，你平行跑完取平均。但現實中任務是順序完成的：Google 軟件工程師越熟悉代碼庫，解決bug 越快；而代理卻在同一倉庫裡反覆「首次見面」。我們顯然需要長期記憶，但學術界缺乏能證明需求的基準，也缺乏質疑iid 假設的勇氣。

這些假設在前半場無傷大雅，因為智能等級低時，只要智能提升，效用就會同步提升。但現在，通用配方已確保在這些假設下必勝。因此，下半場的新遊戲是：

設計面向真實效用的新評估設定或任務；
用配方或在其上增添新元件來解決它們，循環往復。

這場遊戲難在陌生，卻也令人興奮。前半場玩家在電子遊戲和考試裡刷分；下半場玩家則有機會把智能做成真正有用的產品，建立十億、兆美元的公司。前半場充斥增量模型和方法；在下半場，它們被配方「過濾」——除非你創造新假設來打破配方，否則註定被碾壓。

歡迎來到下半場！（AI寒武紀）