#首席AI科學家
姚順雨:騰訊在AI時代的護城河!還是易守難攻的好平台!
12月17日,騰訊聘請了前OpenAI研究員姚順雨擔任總辦首席AI科學家,直接向總裁劉熾平匯報。很多人擔心騰訊AI掉隊了,但姚順雨其實在消息公佈之前三個月就曾經談到騰訊的護城河:微信還是一個易守難攻的好平台。這或許也是他選擇加入騰訊的重要原因之一,他甚至還聊了如果他是微信一號位會怎麼做的話題。原文很長,談的面很廣,我挑選了與騰訊等巨頭相關的內容:1、談應用公司的護城河——資料飛輪李廣密:在你看來,應用公司的資料飛輪,對他們來說重要嗎?或者說,在什麼環境下才能形成?我感覺,Chatbot產生的是偏好資料,好像沒什麼資料飛輪;Code可能有思考過程的資料,這種思考過程的資料代表一類能力,可能是有用的;像Canvas也好,Artifacts也好,可能是有思考過程的資料,這類可能有機會形成很強的資料飛輪效應。姚順雨:大多數公司還沒有形成資料飛輪;他們依賴模型變好,利用模型變好的溢出能力。如果你要有資料飛輪,首先你要能自己去訓模型,並且能通過互動有很好的reward(獎勵),使你能把好的資料和不好的資料分開。【一涵註:這就是騰訊必須自己做AI而不是依賴DeepSeek的原因。】比較成功的是Midjourney,有非常清晰的reward——人更喜歡那張圖,這個reward和應用是對齊的,reward做得更好,公司就更成功,模型也更好——一切都對齊。有了這種情況,才能自己訓練模型,做資料飛輪。這個過程必須比較非主線。因為如果很主線,我也可以通過Pre-Training或RL提升能力,靠泛化或其他方式。總的來說,大部分公司目前還沒有形成飛輪。【一涵註:比如程式設計之類的主線任務,每個巨頭公司都會自己訓練好,不是創業公司能做的。】2、超級巨頭有動力繼續推動中心化張小珺:你對未來Agent生態的構想會是什麼樣?現在有點像,當年大家都在創業做App的時候,如果再往後推演幾年,這個世界會是什麼樣?姚順雨:很難說。但肯定會有很多不同的互動方式,創造出不同的系統。OpenAI這樣的公司,會想繼續推進一個中心化的助手系統,有更多環境、更強能力,做更多事情。也會有不同的生態系統,有不同的互動方式,會訓練完全不同的模型。甚至從Pre-Training開始,所需要的能力和很多東西都不同。【一涵註:比如OpenAI正在訓練一個商業專用的模型,在判斷出使用者提問商業資訊的時候,專門用來推送廣告,並顯著標識廣告資訊,來減少使用者對主模型的信任問題。】比如,另一種互動方式可能是,我想造一個朋友。這個朋友不需要數學、物理特別強,數學太強反而不自然。它記憶不一定特別好,會犯錯,有感情,也不是特別rational(理性)。但這也是有價值的——可能有人會做這種事。這類東西很難和ChatGPT比強弱,它們是不同應用,有不同價值。也可能出現一個由Agent組成的社會。為什麼這個世界上很多人有價值?不是因為他們的數學或編碼能力強,而是因為他們擁有別人沒有的資訊。中間商本質是擁有資訊差。擁有資訊差的人會想維護自己的權利和資源。這樣的人會發明出更Multi-Agent(多智能體)或更 Distributed Network(分佈式網路)。在交易世界裡,資訊很重要,每個人只擁有資訊的一小部分,這種情況會出現新的不同形態。可能是Multi-Agent,每個人有自己的Agent,Agent之間可以與百萬甚至更多人交換資訊,達成交易或某些目的。根本上,現在非常強的巨頭和重要節點,有動力繼續推動中心化。但在中心化之外的力量,也有動力做一些非中心化的事情。這個世界可能不會是單方壓倒另一方,雙方都會有自己的力量。而這個世界智能的邊界、研究的邊界,可能不是由一家機構定義,而是由不同Super App共同定義的。【一涵註:有些公司可以用去中心化的形式行中心化之實。比如拼多多創業早期提倡分佈式人工智慧,就是讓每個人擁有一個有自己隱私資訊的Agent,保護你的私有資料,但是同時也會和其它Agent溝通來提升購物前的信任感和推薦精準性,以及做工廠定製降低價格。然而,這些資料並不真是我們私有的,比如我們想把這些資料打包帶走到其他平台,例如淘寶或者抖音,那是不可能的,因此這些平台就構成了資料的壟斷和中心化。】3、做垂直產品還是通用產品?姚順雨:iPhone或iPad是非常通用的產品形態,但它一開始,都有一些Killer App支援它有momentum(增長動能)。包括ChatGPT,包括微信,很多偉大產品都這樣。你有一個足夠通用、簡單,或第一性的互動方式,它有很多想像空間。但你去維護它,或者設計路徑的時候,你能有各種各樣的應用,使它不停地增長。【一涵註:最典型的例子是微信和抖音,公眾號、朋友圈、小程序、視訊號都是微信這個通訊產品催生的,早已和WhatsApp等單純的通訊產品不同(馬斯克都說歐美沒有,他要copy一個)。而抖音商城、汽水音樂、紅果短劇等APP都是抖音這種短影片推薦的互動方式衍生出來的。因此微信和抖音本質上都是通用產品,是會產生競爭的平台型公司,而不是單純的社交軟體和視訊軟體。現在,ChatGPT也正在試圖把自己打造成通用產品,如加入了應用程式商店。可能產生通用產品的AI是對過去的網際網路平台都有威脅的。】4、如果姚順雨是科技巨頭的CEO,會怎麼看待AI?李廣密:順雨,如果你是一個全球超大網際網路或科技公司的CEO,今天這個公司還沒有自己的模型,沒有好的研究文化,甚至沒有好的AI戰略,你作為CEO會怎麼做?姚順雨:首先,我肯定會學習,我會想弄清楚這個事情到底是什麼。如果你作為CEO不懂這個事情,所有事情會變得很難。很多時候,一個公司的bottleneck(瓶頸)就在於,CEO 對這個事理解不夠。如果你不理解,去招一些很好的人、做一些事情,你很可能被他們忽悠。所以,首先要自己學習。【一涵註:這也是為什麼不少成功的AI公司都是自己培養人才來做好,而不是靠挖人。】然後要從創造新的價值來思考問題。畢竟你不是技術專家,而是一個CEO,你有一些場景、一些資源、一些優勢。從第一性原理看,一個新的技術產生了,你要思考的是,怎麼用這些新技術結合你現在的資源去創造新的價值。當然,你可以嘗試做一個和當前業務完全不一樣、但價值非常大的事情,比如ChatGPT,但對大多數公司來說,即使很有錢、很強,也不一定make sense(合理)。所以,第一是自己要學習技術;第二是要思考怎麼創造新的價值。5、如果姚順雨是巴菲特,會怎麼投資AI行業?李廣密:如果你成為了波克夏的CEO(巴菲特的投資公司),未來要拿出500億美金allocate(分配)到AGI行業,你會怎麼allocate這筆錢?——既能體現回報,也能體現對人類的貢獻。姚順雨:這是個很好的問題。取決於你有多少精力,或者有多少資源分配顆粒度。當然現在OpenAI、Anthropic,這些模型層公司,大機率會有更大價值。還有一類很有價值的,是能積累User Context(使用者上下文),或者能建構特殊Environment(環境)的公司。最終如果AI或AGI是一個系統,它需要有Intelligence(智能),需要有Environment,還需要有User Context,或者對使用者的理解。現在有很多User Data(使用者資料)或User Context 的公司,有點像發明車之前的煤炭、煤礦,或者像發明汽車之前的石油公司。從這個角度,微信或大平台,還是一個易守難攻的好平台,它積攢大量的Context。如果Intelligence是一個可以逐漸民主化、逐漸變得便宜、逐漸普及,擁有這樣的平台,擁有這樣的Environment,擁有這樣的Context,可能會是一個很強的壁壘。它可能還是一個很好的投資。【一涵註:所以上一代的巨型網際網路公司,例如已經有不錯的模型、也有大量使用者資料,還有晶片和雲端運算的阿里,以及在全球獲得大量使用者資料的拼多多和抖音,也都是非常值得關注的投資對象。而百度這樣的公司因為移動網際網路時代APP的普遍資料孤島化(李彥宏本人講的),失去了獲取大量使用者資料的機會,因此也沒有太大價值了。】6、如果姚順雨是微信的一號位,會怎麼做?張小珺:今天順雨當了很多公司的CEO,那我再問一個:如果你是微信的一號位,你會怎麼在微信裡做Agent?姚順雨:我可能會不急,先觀望觀望。我好像沒有理由要急。我會觀察,我會學習 AI,會觀察有沒有什麼新的互動方式很有意思。但我不會急著去做很多事——我有易守難攻的地方,為什麼要急著進攻?比較危險的是一個顛覆性的創新。真正的危險,不是說一個類似於微信的東西打敗了微信,而是一個很不一樣的東西打敗了微信。就像微信打敗了QQ。當時擔心的並不是一個類似QQ的東西打敗了QQ,而是一個很不一樣的產品去打敗這個東西。需要對顛覆性創新有所警惕。但如果是這些incremental(漸進式的)創新,這種小的創新,早做晚做可能區別沒有那麼大,也不用太擔心。李廣密:所有人都說微信卡位好,但今天微信還沒有很激進地投入,如果未來Multi-Agents 、Long-Term Memory這些問題解決了,但這個Agent系統不長在微信上,是比較恐怖的。原有網路不一定有價值。姚順雨:這取決於人類的網路會變成什麼樣?你會有更多Agent朋友,還是更多人類朋友?或者你有更多Agent職業上的互動,還是有更多人類職業上的互動?微信上你既有朋友,也有基於職業的互動——比如我要買個東西,我要諮詢律師,對吧?這取決於人類的網路會變成什麼樣。但總會有一個這樣的網路,基於這個網路,肯定會需要有基礎設施,需要有平台。【一涵註:今天的AI其實會對無論是職業的互動,還是情感的互動都可能有巨大影響。比如段永平在26日早上表示:“律師這個職業會受到AI的巨大挑戰!我現在有任何合同都是讓Gemini和ChatGPT看一眼,毛病建議他都可以馬上給出來,非常厲害。”連他這樣等級的企業家都用AI來看合同了,那麼普通人就更可以用了。而情感的互動上,AI算命、心理諮詢也已經很常見,很明顯可以觀察到周圍一些人在和AI比如豆包、DeepSeek交朋友。以上互動的變化大概也是騰訊需要下重注挖姚順雨做AI的重要原因。按照姚順雨的說法,微信有不急的底氣,但會不會出現一個很不一樣的東西打敗了微信,我還是要跟大家一起持續跟蹤觀察。】 (一涵筆記)
騰訊官宣!姚順雨出任首席 AI 科學家,27 歲清華學霸掌舵騰訊 AI 下半場
「追到第一名」的劇本,騰訊可能又要演一遍,這次押注的是 AI。就在今天下午發佈的內部公告中,騰訊表示,知名 AI 研究員姚順雨 (Vinces Yao) 正式出任「CEO / 總裁辦公室」首席 AI 科學家,向騰訊總裁劉熾平匯報;同時兼任 AI Infra 部、大語言模型部負責人,向技術工程事業群總裁盧山匯報。這次任命,釋放的訊號很清晰:騰訊的 AI 正在全面提速,且是帶著「要打硬仗」的架勢。不久前,金沙江創投主管合夥人朱嘯虎在談及國內 AI 競爭格局時直言騰訊還沒真正發力。他還評價稱,騰訊往往等局面打明白後再加速追趕——從第五、第六,追到第三、第二,最後追到第一。今天,騰訊便用實際行動回應了外界的質疑。騰訊升級大模型研發架構,新成立 AI Infra 部、AI Data 部、資料計算平台部。其中,AI Infra 部將負責大模型訓練和推理平台技術能力建設,聚焦分佈式訓練、高性能推理等核心技術,為演算法研發和業務落地提供支撐。王迪繼續擔任大語言模型部副總經理,向姚順雨匯報。劉煜宏擔任 AI Data 部負責人、陳鵬擔任資料計算平台部負責人,均向公司副總裁蔣傑匯報。更關鍵的是,騰訊混元的「成績單」已足夠搶眼。過去一年,混元大模型發佈超過 30 個新模型。12 月 5 日發佈的混元 2.0,在複雜推理與文字生成場景表現國內領先。混元 3D 模型更是保持著全球領先水準,開源社區下載量超過 300 萬。組織調整與密集引才,說到底就是在為高強度的技術攻關補齊兵力、夯實底座。而姚順雨的加盟,無疑是騰訊 AI 戰略中極為重要的一步棋,也讓人不由得期待,他的到來或許會為騰訊 AI 帶來一股全新的氣象。細數姚順雨的履歷,只能用開掛來形容——合肥一中出身、NOI 銀牌得主、高考 704 分勇奪安徽理科探花,擔任過清華姚班聯席會主席,甚至還聯合創辦了清華說唱社,妥妥的全能型人才。普林斯頓電腦博士畢業後,他更是直奔 OpenAI,期間,他曾深度參與 Computer-Using Agent (CUA)、Deep Research 等重要產品。今年 5 月份,憑藉過硬的履歷,他成功入選《MIT 科技評論》「35 歲以下科技創新 35 人」中國區榜單,成為該屆最年輕入選者。圖片來自清華校友總會學術成果也相當能打,他推動了 LLM 從「對話系統」向「任務執行系統」的範式轉變。隨便拎幾篇代表作出來:ReAct (ICLR 2023):將推理與行動結合的經典框架,引用超 4300 次。Tree of Thoughts (NeurIPS 2023):大語言模型的「思維樹」問題求解方法,引用超 4000 次。Reflexion (NeurIPS 2023):引入語言反饋的自我改進智能體,引用超 2600 次。SWE-bench (ICLR 2024):評估語言模型解決真實 GitHub 問題的能力。WebShop (NeurIPS 2022):可擴展的基於語言代理的網頁互動任務。SWE-agent (NeurIPS 2024):面向自動化軟體工程的智能體-電腦介面。……Google Scholar 顯示,他的總引用次數超過 1.5 萬次,h-index 為 24,i10-index 為 29——這個資料在 27 歲這個年齡段,表現相當不俗。巧合的是,今年 5 月姚順雨在一次與張小珺、李廣密的對談中,恰好聊到了微信和 AI 的話題。當時李廣密拋出觀點:微信卡位確實好,但如果未來 Multi-Agents、Long-Term Memory 這些技術成熟了,Agent 系統卻沒長在微信上,那就「比較恐怖」了。姚順雨的回應頗為哲學:「這取決於人類的網路會變成什麼樣?你會有更多 Agent 朋友,還是更多人類朋友?」他進一步解釋,微信既承載社交關係,也承載職業互動——比如購物諮詢、法律服務等。無論人類網路如何演變,總需要基礎設施和平台支撐。面對張小珺的靈魂拷問:如果你是微信一號位,會怎麼做 Agent?姚順雨表示:「我可能會不急,先觀望觀望。」在他看來。微信已經易守難攻,為什麼要急著進攻?真正的威脅不是類似產品的競爭,而是顛覆性創新。就像當年微信打敗 QQ 那樣,危險的是「很不一樣的東西」。除了這次精彩的對談,今年 4 月份姚順雨發表的技術博文《AI 的下半場》同樣在業界引起了廣泛討論。讓AI 下半場總結:AI 正處在中場休息。幾十年來,AI 的主要精力都放在開發新的訓練方法和模型上。事實證明,這條路走得通:從在國際象棋和圍棋上擊敗世界冠軍,到在 SAT 和律師資格考試中超過大多數人類考生,再到拿下 IMO 和 IOI 金牌。寫進歷史的這些里程碑——DeepBlue、AlphaGo、GPT-4 和 o-series——背後都是 AI 方法上的根本創新:搜尋、深度強化學習、規模化訓練以及推理。隨著時間推移,效果一次次被刷新。那現在突然有什麼不同呢?三個詞:強化學習真的能用了。更準確地說,強化學習終於能夠泛化了。經歷了多次迂迴探索和里程碑的積累,我們終於找到了一套能解決各種強化學習任務的有效方法——依託語言與推理。要是你一年前對大多數 AI 研究者說:有一個通用方案能同時搞定軟體開發、創意寫作、IMO 等級的數學題、鍵鼠操作,甚至長篇問答——他們大概會笑你在「幻覺」。因為這些任務都極其困難,很多研究者整個博士階段可能只專注在其中一個方向。然而,這已經成真。那麼接下來會怎樣?AI 的下半場——從現在開始——將把重心從「解決問題」轉向「定義問題」。在這個新階段,評估的重要性會超過訓練。我們不再只是問「能不能訓練出一個模型解決 X 問題?」,而是要問「我們究竟應該讓 AI 去做什麼?又該如何衡量真正的進展?」。要想在下半場脫穎而出,我們需要及時轉變思維方式和技能組合,更接近於產品經理的思路。上半場要理解 AI 的上半場,可以看看它的「贏家」們。到目前為止,你認為最有影響力的 AI 論文有那些?我做了下 Stanford 224N 的小測,結果並不意外:Transformer、AlexNet、GPT-3 等等。這些論文的共同點是什麼?它們都提出了訓練更好模型的重大突破。同時,它們也靠在某些基準測試上取得(顯著的)提升,才得以順利發表。但還有個潛在的共性:這些「贏家」幾乎全都是訓練方法或模型,而不是基準或任務。就算是公認最有影響力的基準之一——ImageNet,它的引用量也不到 AlexNet 的三分之一。而在其他地方,方法和基準的對比更懸殊。比如,Transformer 的主要基準是 WMT'14 翻譯任務,該研討會的報告大約有 1300 次引用,而 Transformer 論文字身超過 16 萬次。這說明了上半場的遊戲規則:重點在於創造新的模型和方法,而評估和基準雖然必要,卻始終是次要的。為什麼?很大一個原因是,在 AI 的上半場,方法比任務更難,也更令人興奮。從零開始發明一種新演算法或網路結構——比如反向傳播演算法、摺積神經網路(AlexNet),或者後來 GPT-3 所用的 Transformer——需要非凡的洞察力和工程能力。相比之下,給 AI 定義任務就顯得直接得多:我們只需要把人類已經在做的事情(翻譯、圖像識別、下棋)變成基準測試就行,幾乎不需要太多新洞見或工程創新。方法的價值還在於它們往往比單個任務更通用、應用更廣。以 Transformer 為例,它不僅推動了自然語言處理(NLP),還在電腦視覺(CV)、強化學習(RL)等領域全面開花,遠遠超越了它最初驗證成果的那個小小的翻譯資料集(WMT』14)。一個偉大的新方法可以「爬」上許多不同的基準,因為它足夠簡潔和通用,所以影響往往超越單一任務。這種玩法延續了數十年,催生了改變世界的思想和突破,並通過不斷刷新的基準成績體現出來。那為什麼這個遊戲會改變呢?因為這些思想和突破的累積,已經帶來了質的飛躍——我們終於找到了可行的通用方案來解決任務。配方那麼,「配方」到底是什麼?配料其實並不意外:大規模的語言預訓練、資料和算力的擴展,以及「推理與行動」的理念。這些聽起來像是你每天在舊金山都會聽到的流行詞,但為什麼要稱它為配方呢?我們可以從強化學習(RL)的視角去理解。RL 常被認為是 AI 的「終局」——理論上它能保證贏得遊戲,而在實踐中,你也幾乎無法想像沒有 RL 的超級智能系統(比如 AlphaGo)。在 RL 中,有三個關鍵組成部分:演算法、環境和先驗知識。長期以來,RL 研究者主要聚焦在演算法本身(比如 REINFORCE、DQN、TD-learning、actor-critic、PPO、TRPO……),這是智能體如何學習的「智力核心」,而環境和先驗往往被視作固定不變或最低限度的設定。比如,Sutton 和 Barto 的經典教材幾乎完全講演算法,幾乎沒涉及環境或先驗。然而,在深度 RL 時代,研究者們逐漸發現:環境的重要性極高。一個演算法的表現往往與它所處的環境高度繫結。如果你忽略環境,就可能造出一個只在玩具問題裡「最優」的演算法。那為什麼不先想清楚:我們到底想要解決什麼樣的環境,然後再去尋找最合適的演算法?這正是 OpenAI 最初的計畫。它先推出了 Gym,把各種遊戲變成標準化的 RL 環境;接著又嘗試了 World of Bits 和 Universe 項目,試圖把網際網路或電腦本身變成一個遊戲。這聽起來很合理:一旦把所有數字世界轉化為環境,再用聰明的 RL 演算法去解決,就能得到數字版的 AGI。這是個好計畫,但沒能完全走通。OpenAI 確實取得了巨大進展,用 RL 解決了 Dota、機械手等難題。但它始終沒能真正攻克電腦操作或網頁導航的問題,而且在一個領域中訓練出來的 RL 智能體,幾乎無法遷移到另一個領域。顯然,缺了點什麼。直到 GPT-2、GPT-3 出現,人們才意識到:缺少的關鍵其實是先驗。你需要強大的語言預訓練,把常識和語言知識蒸餾進模型裡,然後再進行微調,讓它們成為能上網(WebGPT)或能聊天(ChatGPT)的智能體(並由此改變世界)。事實證明,RL 中最重要的部分可能既不是演算法,也不是環境,而是先驗知識——而且這種先驗完全可以通過與 RL 毫不相關的方法獲得。語言預訓練為對話提供了很好的先驗,但在控制電腦或玩電子遊戲時效果卻不那麼理想。為什麼?因為這些任務與網際網路文字的分佈差距更大,直接在這些領域做 SFT(監督微調)或 RL(強化學習)時,泛化能力很差。我在 2019 年就注意到了這個問題。當時 GPT-2 剛發佈,我嘗試在它的基礎上做 SFT 和 RL 來解決文字冒險遊戲——CALM 是世界上第一個基於預訓練語言模型建構的智能體。但它需要上百萬步的 RL 訓練才能「爬」過一款遊戲,而且無法遷移到新遊戲。雖然這正是 RL 的典型特徵,RL 研究者對此並不意外,但我卻覺得奇怪:因為人類可以很輕鬆地嘗試一款新遊戲,並且在零樣本情況下表現顯著更好。就在那時,我迎來了人生中的第一個「頓悟時刻」——人類之所以能泛化,是因為我們不僅能選擇「去 2 號櫃子」「用 1 號鑰匙開 3 號寶箱」「用劍殺地牢怪」,還可以選擇去思考:「地牢很危險,我需要一件武器來應對。但目前沒有現成的武器,也許需要去鎖著的箱子裡找。3 號寶箱在 2 號櫃子裡,那我應該先去櫃子 2,把它打開。」思考,或者說推理,是一種奇怪的行動。它不會直接改變外部世界,但推理的空間是開放的、組合上無限的——你可以思考一個詞、一句話、一整段話,甚至一萬個隨機單詞,而周圍的世界並不會立刻發生變化。在傳統 RL 理論中,這是個「糟糕的選擇」,會讓決策幾乎不可能。想像一下:你需要從兩個盒子裡挑一個,一個有 100 萬美元,另一個是空的。你期望值是 50 萬。現在如果我加上無限多個空盒子,你的期望值就變成了 0。但如果我們把推理加入 RL 環境的動作空間,就能利用語言預訓練提供的先驗來實現泛化,同時還能根據不同決策靈活分配推理時的計算量。這真的是一件很神奇的事。我在這裡沒法完全解釋清楚,可能需要專門寫一篇博文。你可以去讀一下 ReAct,它講述了智能體推理的最初故事,也能感受到我當時的心路。直觀地說:即便你加了無數個空盒子,但你在生活和遊戲中早已見過類似情況,所以選擇這些空盒子的經歷反而能幫助你在真正有錢的遊戲裡更好地做出選擇。抽象地說:語言是通過推理在智能體中實現泛化的。一旦我們擁有了合適的 RL 先驗(語言預訓練)和合適的 RL 環境(把語言推理作為動作),結果發現 RL 演算法本身反而成了最不重要的部分。於是才有了 o-series、R1、deep research、會用電腦的智能體,以及未來更多的成果。多麼諷刺的轉折!長期以來,RL 研究者最關心的都是演算法,而幾乎沒人注意先驗——幾乎所有 RL 實驗都是從零開始。但我們花了幾十年的迂迴才意識到,也許優先順序應該完全反過來。下半場這個「配方」正在徹底改變遊戲規則。回顧一下上半場的玩法:我們開發新的訓練方法或模型,用來在基準測試上爬坡。然後我們再設計更難的基準,繼續循環。但這種玩法正在失效,原因有二:這個配方基本上已經把「刷基準」的過程標準化、產業化了,不需要多少新的點子。隨著配方的規模化和泛化,你為某個特定任務設計的新方法,可能只能提升 5%;而下一代 o-series 模型即便沒有專門針對這個任務,也能直接提升 30%。即便我們設計出更難的基準,也會很快(而且越來越快)被這個配方解決。我的同事 Jason Wei 畫過一個很漂亮的圖,把這種趨勢表現得很清晰:那麼下半場還能玩什麼?如果新的方法已不再需要,而更難的基準也會越來越快被解決,那我們接下來該做什麼?我認為我們需要從根本上重新思考「評估」。這不僅僅是去設計新的、更難的基準,而是要徹底質疑現有的評估方式,並創造新的評估體系,從而逼迫我們去發明超越現有「配方」的新方法。這很難,因為人類有慣性,幾乎不會去懷疑最基本的假設——你習以為常地接受它們,卻沒意識到它們只是「假設」,而不是「規律」。舉個關於慣性的例子:假設你在 2021 年設計了一種基於人類考試的評估方式,這是一個極其大膽的想法。但三年後,這個方法就已經飽和了。你會怎麼做?最可能的做法就是——設計一份更難的考試。或者,假設你解決了簡單的程式設計任務,那你會怎麼做?很可能就是去找更難的程式設計任務來解,直到達到 IOI 金牌水平。這種慣性很自然,但問題在於:AI 已經在國際象棋和圍棋上擊敗了世界冠軍,在 SAT 和律師資格考試中超過了大多數人類,甚至在 IOI 和 IMO 上拿下了金牌。可世界並沒有發生太大改變——至少從經濟和 GDP 的角度來看如此。我稱之為效用問題,並認為這是 AI 最重要的問題。也許我們很快就能解決效用問題,也許不會。但無論如何,這個問題的根源可能出奇地簡單:我們的評估方式在很多基本層面上與現實世界的設定並不一致。舉兩個例子:- 在評估中,任務「應該」自動運行:通常智能體接收任務輸入,自主執行,然後得到一個獎勵。但現實中,智能體必須在任務過程中持續與人類互動——你不會只給客服發一段超長的文字,等上 10 分鐘,就指望對方給你一份完整的回覆解決所有問題。通過質疑這種評估設定,人們發明了新的基準:要麼把真實人類納入環節(如 Chatbot Arena),要麼引入使用者模擬(如 tau-bench)。- 評估「應該」是 i.i.d.(獨立同分佈) 的。如果你有一個包含 500 個任務的測試集,就會獨立運行每個任務,最後取平均得到一個總體指標。可在現實中,我們解決問題往往是順序進行的,而不是平行。比如,一個 Google 的軟體工程師(SWE)在處理 google3 的問題時,隨著她對程式碼庫越來越熟悉,效率會越來越高;但一個 SWE 智能體在同一個程式碼庫中解決了很多問題,卻無法獲得這種熟悉度。我們顯然需要長期記憶的方法(事實上已經有一些了),但學術界既沒有合適的基準來證明其必要性,也缺乏質疑 i.i.d. 假設的勇氣——而 i.i.d. 一直以來是機器學習的基礎。這些假設「一直以來」就是如此。在 AI 的上半場,基於這些假設去設計基準是沒問題的,因為智能水平還低,提升智能基本就等於提升效用。但現在,這套通用配方在這些假設下幾乎必定能奏效。所以,在下半場的新玩法是:我們開發新的評估方式或任務,以衡量真實世界的效用。我們用現有配方去解決它們,或在配方上加入新的元件,然後繼續循環。這個遊戲很難,因為它是陌生的。但它同樣令人興奮。上半場的玩家解決的是電子遊戲和考試,下半場的玩家則有機會靠建構真正有用的智能產品,打造市值數十億甚至數兆美元的公司。上半場充斥著方法和模型的漸進改進,而下半場會對它們進行一定的「篩選」。這套通用配方會輕易擊敗那些漸進式的方法,除非你能設計出新的假設,打破現有配方。那時,你才會做出真正改變遊戲的研究。 (APPSO)
合肥一中畢業的姚順雨,出任騰訊首席AI科學家
這位年僅27歲的AI界頂尖人才為合肥一中2015屆校友如今已成為中國科技巨頭AI戰略佈局的關鍵核心今天上午合肥一中官微發佈推文講述了該校傑出校友姚順雨在校時的故事姚順雨的成長軌跡堪稱“學霸範本”。初中就讀於合肥45中,高中考入合肥一中後,他便展現出過人的電腦天賦,2014年斬獲全國資訊學奧林匹克競賽(NOI)銀牌。姚順雨在合一校園(倒數第二排左五)。2015年高考,他以704分、安徽省理科第三的優異成績,考入被譽為“天才集中營”的清華大學交叉資訊研究院“姚班”,主修電腦科學,其間不僅擔任姚班聯席會主席,還聯合創辦了清華大學學生說唱社,兼具學術深度與多元才華。姚順雨在清華“姚班”。2019年,姚順雨遠赴普林斯頓大學深造,專攻自然語言處理與強化學習,2024年順利獲得電腦科學博士學位。姚順雨在芝加哥學習交流。在合肥一中學習期間,姚順雨便是大神級的存在。關於姚順雨,還發生一件有趣的事:2015年高考出分後,姚順雨還專門來找校領導,主動“懺悔”,說由於自己的低級錯誤,讓大合一錯過了一個“全省頭名”,於可愛中彰顯了他對母校的榮譽感與責任感。而在班主任杜敏老師眼裡,姚順雨是個非常有想法、做事有規劃的孩子,不僅是理科大神,而且熱愛文學、喜歡rap和籃球、舞蹈等,可以說是個全面發展的學霸。姚順雨在MIT學習交流。學術生涯中,姚順雨已創下多項重磅成果。博士期間提出的思維樹(Tree of Thoughts)框架,大幅提升了AI決策模型的複雜問題解決能力;研發的ReAct方法首次建構“推理—行動”智能體範式,成為全球語言智能體開發的主流技術;2024年博士畢業後,他直接加入OpenAI擔任研究科學家,深度參與智能體產品Operator、DeepResearch及電腦使用智能體(CUA)的核心研發,為語言智能體領域的開啟與發展奠定了基礎性貢獻。2025年5月,他以最年輕入選者身份躋身《麻省理工科技評論》“35歲以下科技創新35人”中國區名單,學術實力與創新潛力獲國際權威認可。 (安徽日報)
27歲的姚順雨,出任騰訊「CEO/總裁辦公室」首席AI科學家,向總裁劉熾平匯報
內媒消息,騰訊於周三(12月17日)宣佈,姚順雨Vinces Yao出任「CEO/總裁辦公室」首席AI科學家,向騰訊總裁劉熾平匯報;同時兼任AI Infra部、大語言模型部負責人,向技術工程事業群總裁盧山匯報。姚順雨的母校合肥一中發文題為《傑出校友 | 這條重磅新聞關於2015屆校友姚順雨》,稱這位年僅27歲的AI界頂尖人才,為合肥一中2015屆校友”。其初中就讀於合肥45中,高中考入合肥一中後,2014年斬獲全國資訊學奧林匹克競賽(NOI)銀牌;2015年高考,他以704分、安徽省理科第三的優異成績,考入清華大學交叉資訊研究院“姚班”,主修電腦科學,擔任姚班聯席會主席,聯合創辦了清華大學學生說唱社;2019年,姚順雨遠赴普林斯頓大學深造,專攻自然語言處理與強化學習,2024年順利獲得電腦科學博士學位;在博士期間提出的思維樹(Tree of Thoughts)框架,大幅提升了AI決策模型的複雜問題解決能力;研發的ReAct方法首次建構"推理—行動"智能體範式,成為全球語言智能體開發的主流技術;2024年博士畢業後,他直接加入OpenAI擔任研究科學家,深度參與智能體產品Operator、DeepResearch及電腦使用智能體(CUA)的核心研發,為語言智能體領域的開啟與發展奠定了基礎性貢獻;2025年5月,他以最年輕入選者身份躋身《麻省理工科技評論》“35歲以下科技創新35人”中國區名單。在高中班主任眼裡,姚順雨是個非常有想法、做事有規劃的孩子,不僅是理科大神,而且熱愛文學、喜歡rap和籃球、舞蹈等,可以說是個全面發展的學霸。 (瑞恩資本RyanbenCapital)
當前大語言模型最終都會被淘汰 | 楊立昆萬字演講實錄
3月21日,Meta首席AI科學家楊立昆在美國2025 年聯合數學會議上就 AI 的發展現狀與未來方向發表了演講。他深入分析了當前 AI 技術,特別是自回歸大語言模型存在的根本侷限,如“幻覺”問題和無法真正理解物理世界。楊立昆表示,如果想實現達到人類水平的 AI,別只盯著 LLM,當前大語言模型最終都會被淘汰。他表示,AI 需要像嬰兒一樣通過觀察和互動來學習世界模型,為了學習世界模型,我們應該放棄(像素級預測的)生成式 AI,並重點介紹了他所推動的基於能量的模型(EBMs)和聯合嵌入預測架構(JEPA)等新思路,以及與之相關的規劃和推理能力的重要性。以下是本次演講實錄經數字開物團隊編譯整理剛聽 Bryna 列舉了過往 Gibbs 講座的各位傑出演講者,我確實深感壓力。我不敢相信自己能夠與那些大師比肩。不過,還是讓我來談談 AI。如今人人都在談論 AI,特別是實現達到人類水平 AI 的難點。在 AI 的研發生態中,許多人開始認為,我們或許有機會在未來十年左右,建構出一種最終有望達到人類智能水平的機器架構。至於這具體需要多長時間,各種預測眾說紛紜,差異巨大。最樂觀的人認為我們已經實現了。有些正在大舉融資的人聲稱明年就能實現,但我個人並不如此認為。但我確實認為我們大有希望。接下來,我想和大家探討一下,我所認為的 AI 研究方向、面臨的挑戰,以及其中一些確實存在的數學難題。我們為何需要建構具備人類水平智能的 AI 系統?因為在不久的將來,我們每個人都將與 AI 助手互動,讓它們來協助我們的日常生活。我們將能通過各種智能裝置 (包括智能眼鏡等) ,借助語音以及其他多種方式與這些助手溝通。我們將擁有內建攝影機和螢幕的智能眼鏡。目前市面上已有不帶螢幕的智能眼鏡,但帶螢幕的版本也即將問世。實際上,這種技術現已存在,只是成本過高,尚未能商業化。這是我們在 Meta 的同事們展示的 Orion 項目。所以,未來正在到來。設想:我們每個人的一生,都將與 AI 助手緊密相伴、持續互動。我們每個人都會像大公司的 CEO 或重要官員一樣,身邊隨時有一支由聰明的虛擬助手組成的團隊待命,為我們服務。這是一種可能出現的未來景象。但問題在於,我們尚不知曉如何實現這一切。坦率地說,當前機器學習 的水平,確實不盡如人意。與人類或動物相比,機器的學習效率非常低。要達到某個特定的性能水平,它們需要經歷的樣本數量或試錯次數極為龐大。過去,機器學習的主要範式是監督學習。監督學習的過程是:給系統一個輸入,等待其產生一個輸出,然後告知系統正確的、預期的輸出是什麼。如果系統產生的輸出與期望不同,它便會調整內部參數,以使下一次的輸出更接近正確答案。這本質上只是在學習一個輸入輸出的對應關係。強化學習則不直接告知系統正確答案,它僅是告知系統其產生的答案是好是壞。這種方法的主要問題在於,系統需要反覆嘗試並接收關於“好壞”或“是否有改進”的反饋,因此其效率甚至低於監督學習。強化學習目前主要僅適用於遊戲或者那些可以在電腦上快速模擬的場景。在過去幾年裡,有一項技術給 AI 領域帶來了革命性的變化,那就是自監督學習 。它的效果驚人地好,確實給 AI 帶來了翻天覆地的變化。然而,它的侷限性也非常明顯。自監督學習是當前大語言模型、聊天機器人以及類似技術的基礎。稍後我會向大家解釋其工作原理。動物和人類學習新任務的速度非常快。它們能理解世界的運作方式,能夠進行推理和規劃,並擁有常識。它們的行為是由目標驅動的,而不僅僅是預測文字序列中的下一個詞。那麼,這些聊天機器人和 LLMs 是如何工作的呢?自回歸大語言模型的訓練目標是預測序列中的下一個詞,或者更準確地說,是預測一個離散符號序列中的下一個符號,例如詞語、DNA 序列、音符、蛋白質序列等。其具體做法是,取一段符號序列,將其輸入一個大型神經網路。這種網路的架構設計旨在讓系統在其輸出端重現其輸入——這被稱為自動編碼器 。使用者輸入一個序列,並要求系統在輸出端複製這個序列。然而,該架構的特點在於:系統在生成某個特定符號時,只能參考該符號之前的符號序列,無法看到需要預測的符號本身。因此,訓練的實質是讓模型根據先前的符號預測下一個符號。這個訓練過程可以在長序列上平行執行。通過測量輸入序列與系統生成序列之間的某種散度進行量化差異,再利用基於梯度的最佳化方法,調整預測器函數 (一個可能包含數百億乃至數千億參數的巨型神經網路) 內部的所有參數,以最小化該散度值。這是一個維度非常高的問題。系統訓練完成後,當輸入一個序列時,它便會預測下一個符號。假設此處的上下文窗口(即系統回溯參考的先前符號數量) ,其大小為 3。實際上,對於當前的 LLM,該窗口長度可達數十萬符號。但我們假設是 3。向系統輸入 3 個詞,它會生成下一個詞。當然,系統無法精確預測下一個詞具體是那一個,因此它實際輸出的是一個覆蓋其詞彙表中所有可能詞語 (或 Tokens) 的機率分佈。通常在 LLMs 中,訓練模型生成的是 Tokens,即子詞單元,而非完整的詞。可能的 Token 種類數量通常在 10 萬左右。在使用這個訓練好的系統時,使用者首先輸入一段文字序列,稱為提示。系統預測出下一個 Token 後,將其追加到輸入序列的末尾。隨後,系統基於更新後的序列預測再下一個 Token,並再次追加,如此循環往復。這就是自回歸預測,一個在訊號處理和統計學領域非常古老的概念。如果將這些神經網路建構得極其龐大,使用非常長的輸入窗口,並利用包含數兆乃至數十兆 Token 的海量資料集進行訓練,其效果便會格外顯著。這些系統似乎能夠學習到語言或其他符號序列內部大量深層次的結構。然而,自回歸預測存在一個根本性的問題 (在座的數學家或許能更嚴謹地將其形式化表述) 。自回歸預測本質上是一個發散的過程。想像符號是離散的。每生成一個符號,便存在多種選擇 (可能多達 10 萬種) 。可以將所有可能的 Token 序列集合想像成一棵巨樹,其分支因子達到 10 萬。在這棵龐大的樹中,僅有一棵極小的子樹對應著所有“正確”的答案或合理的續寫。例如,若初始提示是一個問題,那麼後續生成的包含答案的文字序列便都位於這棵小子樹之內。但問題在於,這棵代表正確性的子樹,在由所有可能序列構成的巨樹中,僅佔極其微小的一部分。問題由此產生:若假設 (儘管此假設並不成立) 每生成一個符號便有固定的錯誤機率 ‘E’,且各步錯誤相互獨立,那麼一個長度為 N 的序列保持完全正確的機率即為 (1-E)^N。即使錯誤率 E 非常小,但隨著序列長度 N 的增加,該正確機率也會呈指數級衰減並趨近於零。這個問題是自回歸預測框架所固有的,在當前框架內無法解決。我的預測是:自回歸 LLMs 註定要被淘汰。幾年後,理性的人們可能將不再使用它們。這也就是為何經常出現 LLM 產生幻覺的現象;它們有時會生成不合邏輯或與事實不符的內容,其根本原因便在於這種自回歸預測機制。問題在於,應當採用何種機制來替代它?以及它是否存在其他侷限性?我認為,我們目前仍缺乏一些根本性的要素——即一種建構 AI 系統的全新理念。僅僅依靠在更大的資料集上訓練更大的語言模型,永遠無法實現達到人類水平的 AI。這絕無可能。稍後我會闡述另一個原因。且不說達到人類的水平,即便要模擬數學家或科學家的能力也相去甚遠,我們目前甚至無法復現貓所具備的能力。貓對於物理世界擁有驚人的理解力 (我用貓舉例,換成老鼠也同樣適用) 。我們目前尚不清楚如何讓 AI 系統獲得如同貓一般的物理世界理解能力。家貓能夠規劃非常複雜的行動序列。它們擁有關於世界的因果模型 (Causal Models) ,能夠理解自身行為所產生的後果。而人類的能力則更為出色。一個 10 歲的孩子便能收拾餐桌並將碗碟放入洗碗機,即便先前從未專門學習過此項任務。讓這個孩子去執行,他很可能在首次嘗試時就能正確完成。這與零樣本學習相關。這是因為這個孩子已經具備了相當完善的世界心智模型 (Mental Model) ,理解物體在被操控時的反應方式以及事物應有的狀態。一個 17 歲的青少年,大約通過 20 小時的練習便能掌握駕駛技能。然而,儘管自動駕駛公司積累了海量的訓練資料 (可能多達數十萬小時的人類駕駛錄影) ,但時至今日,我們仍未實現完全自動駕駛,即 L5 等級的車輛。我們已有能夠通過律師資格考試、解決數學問題乃至證明定理的 AI 系統。但是,承諾的 L5 級自動駕駛汽車在那裡?我的家用機器人又在何處?我們仍舊無法建構出能有效與真實物理世界互動的系統。事實證明,物理世界遠比語言複雜得多。這恰好印證了莫拉維克悖論 (Moravec's Paradox) :那些對人類而言頗具挑戰的任務 (例如計算積分、求解微分方程、進行象棋或圍棋對弈、規劃城市路徑等) ,電腦反而極為擅長。它們在棋類對弈等任務上的表現遠超人類,使我們望塵莫及。這意味著什麼?當人們將人類智能譽為“通用智能”時,這完全是一種誤解。我們人類並不具備所謂的通用智能;我們是高度專業化的。僅靠文字訓練,我們無法實現達到人類水平的 AI。這裡有一個有趣的計算值得關注。一個典型的現代大語言模型大約是在20 兆個 Token 上進行訓練的。每個 Token 大約相當於 3 字節,因此總量接近 60 TB。我們將其近似看作100 TB 。我們任何一個人都需要花費數十萬年,才能讀完這如海量般的文字,而這幾乎囊括了網際網路上所有公開可用的文字。這似乎是極其龐大的訓練資料量。現在,我們來考慮一個人類的孩子。一個四歲的孩子總共清醒的時間大約是 16,000 小時。我們大約有 200 萬根視神經纖維 (每隻眼睛 100 萬根) 連接到視覺皮層。每根視神經纖維大約每秒傳輸 1 字節的資料。計算表明,一個四歲的孩子在四年內僅通過視覺就處理了大約 100 TB的資料。物理世界蘊含的資訊,特別是來自視覺、觸覺和聽覺的感官輸入,其資訊量遠超人類有史以來產生的所有文字。如果我們不能讓 AI 系統通過觀察世界來學習其運作規律,我們將永遠無法實現達到人類水平的智能。感官輸入所能提供的資訊,遠比文字豐富得多。心理學家已經研究過嬰兒如何學習現實世界,在最初的幾個月裡,他們主要通過觀察來學習。在此期間,嬰兒除了活動自己的四肢外,並不能對世界產生顯著影響或與之進行有效互動。他們主要通過觀察,學習了大量關於這個世界的背景知識。這是一種 自我監督學習的形式,我相信,如果我們希望 AI 系統能達到動物乃至人類水平的智能,就必須復現這種學習方式。嬰兒會學習諸如 物體恆存性(即一個物體被另一個物體遮擋後依然存在的事實)、穩定性以及自然物體類別(即使不知道它們的名稱) 等概念。他們還會學習直覺物理學,包括重力、慣性和動量守恆等基本物理規律。嬰兒大約在九個月大的時候就能掌握這些。如果你給一個六個月大的嬰兒展示一個物體似乎漂浮在空中的場景,他們並不會感到特別驚訝。然而,一個 10 個月大的嬰兒看到同樣的場景則會睜大眼睛,顯得非常驚訝,因為那時他們已經懂得,沒有支撐的物體會下落。這種學習主要是在這個年齡段,通過觀察並結合一些互動完成的。要實現達到人類水平的 AI (Meta 稱之為 AMI,即高級機器智能,其發音 'ami' 在法語中意為 '朋友';之所以這樣命名,是因為我們認為人類智能並非真正通用的),我們需要這樣的系統:它們能夠通過觀察和感官輸入學習世界模型,也就是對世界運作方式的內部認知模型。這使得它們能夠學習直覺物理學和常識。我們還需要具備持久性記憶的系統,能夠規劃複雜行動序列的系統,能夠進行推理的系統,以及那些天生可控、設計安全的系統,而不僅僅是像當前 AI 系統那樣通過微調實現安全可控。在我看來,要建構這樣的系統,唯一的途徑就是徹底改變其執行推理的方式。當前 LLM 和其他神經網路改採用的推理方式,是將輸入訊號通過固定數量的網路層處理後生成輸出。LLM 就是這樣工作的;每生成一個 Token,都會消耗固定的計算量。讓 LLM 實現所謂‘更長時間思考’的技巧,其實是誘導它生成更多的 Token (這被稱為 思維鏈推理)。這在近期被譽為 AI 領域的一大進步。然而,這種每步計算量固定的方式,其侷限性非常大。對於一個規模合理的神經網路來說,訊號通過固定層數所能計算的函數類型是有限的。大多數複雜任務需要可變的計算步驟;它們無法總被簡化為固定的幾步。許多計算任務在本質上是序列或順序的,而非純粹的平行結構。處理複雜問題,往往需要投入比簡單問題更多的計算資源 (時間)。一種更優的推理方法,或許是“通過最佳化進行推理”。在這種方法中,你先獲得一個觀察結果,這個觀察結果可以先通過幾個初始神經網路層進行初步處理。然後,你擁有一個成本函數(它本身也可以是一個神經網路),它會輸出一個標量值。這個成本函數用於衡量輸入與某個假設輸出之間的相容程度 (或不相容程度)。於是,推理問題就轉變為一個最佳化問題:給定輸入 'x',去尋找能使該目標 (成本) 函數最小化的那個輸出 'y'。我將這種方法稱為 目標驅動的 AI,當然,這並非一個全新的概念。大多數機率推理系統(probabilistic inference systems) 正是運用最佳化來進行推理。在座的各位中,很多人都研究過最優控制;最優控制中的規劃,比如模型預測控制,它就是通過最佳化來生成控制輸出的。關於這一點,我稍後會再詳細說明。這個想法並不新鮮,但似乎已經被遺忘了。我相信我們必須重新回歸這種方法。我們需要建構基於最佳化推理架構的系統,其中,“輸出”被看作一個潛變數,需要依據輸入和目標函數 來進行最佳化確定。這在傳統 AI 中是很經典的思想:在可能的解空間中搜尋解決方案。這種思想非常傳統,只不過在近期的深度學習熱潮中有些被忽視了。這種方法能解決的任務類型,大致相當於心理學家所說的 “系統 2” 思維模式。在人類認知中,存在兩種產生行為的模式。系統1處理的是潛意識層面的任務,也就是那些無需深思即可執行的動作。而當你必須集中意識、深思熟慮來規劃一系列行動時,系統 2 就開始工作了。例如,當你在建造不熟悉的東西時,你會用到系統 2。當你在證明一個定理時,毫無疑問你也在使用系統2。若要形式化地表述這種‘通過最佳化進行推理’的過程,最佳方式是什麼呢?這正好對應了能量基模型(Energy-Based Models)的核心思想。一個 EBM 會計算一個稱為“能量”的標量值,它衡量的是輸入 X 與候選輸出 Y 之間的不匹配程度。它通過最小化這個能量值 (相對於 Y) 來進行推理。我們稱這個能量函數為 F(X, Y)。為何用 'F' 而非 'E' (Energy) 呢?因為 'F' 關聯到自由能,這可以追溯到吉布斯的研究工作。這就是推理的過程。通過標量能量函數來刻畫變數 X 和 Y 之間的依賴關係,這種方法比直接學習從 X 到 Y 的對應函數要通用得多。原因在於,對於給定的 X,可能存在多個與之相容的 Y 值。例如,在機器翻譯中,一個英文句子可能對應許多個有效的法語翻譯。所有這些好的翻譯都應該對應較低的能量值,表明輸入 (英文句) 和輸出 (法文譯文) 在翻譯任務上是相容的。但這並不意味著一定存在唯一的“正確”輸出。本質上,我這裡談論的是 隱式函數——也就是通過隱式函數,而非顯式函數,來表達變數間的依賴關係。這是一個非常簡單的概念,但令人意外的是,有些電腦科學家似乎對此難以理解。那麼,在一個能夠規劃行動的智能系統中,我們應如何運用這些能量基模型呢?下面這個示意框圖,展示了這類標量能量函數系統的內部結構。在此圖中:圓形表示變數 (觀測到的或潛在的)。一端扁平、另一端圓弧形的模組代表 確定性函數 (比如,產生單一輸出的神經網路)。矩形代表目標函數,它們是標量值函數,當其輸入組態符合期望或可接受時,函數值就低,反之則高。這裡可以有多種類型的目標函數。一種是衡量系統完成預期任務的程度。另一類則可能代表護欄,也就是一些約束條件,用於防止系統執行不期望的、危險的、自毀的或有害的行為 (例如,對附近人類造成傷害)。整個過程始於觀察世界狀態 (S_t)。該觀察結果首先被送入感知模組,由它生成當前狀態的一種內部表示。由於感知可能是不完整的,該表示可能會結合來自記憶模組的資訊,後者儲存著對世界未觀測部分的估計狀態。這些資訊組合起來,就構成了當前的狀態估計。這個狀態估計隨後被輸入到一個世界模型中。世界模型的作用,是預測在執行一個特定的行動序列 (A) 後,將會產生什麼樣的結果 (即未來的狀態表示)。行動序列在圖中由黃色變數框表示。世界模型會預測出一系列後續的狀態表示 (S_t+1, S_t+2...)。這些預測的狀態表示,隨後被輸入到目標函數中進行評估。假定所有這些模組 (感知、世界模型、成本模組) 都是可微的(例如,可以由神經網路實現),那麼就可以將梯度從成本函數出發,經由世界模型,一路反向傳播到行動序列上。通過使用基於梯度的最佳化方法 (例如梯度下降),就能找到一個可使總體成本 (目標函數值) 最小化的行動序列。這個過程,本質上就是在進行規劃。我們首先來描述一個系統如何通過最佳化來執行推理,也就是規劃。這需要一個“世界模型” ,用來預測行動會帶來什麼後果。在最優控制理論裡,這是一個非常經典的想法——你要控制一個系統,就得先有一個這個系統的模型。給這個模型輸入一系列行動(或者叫控制指令),它就能預測出結果。比如說,要把火箭送入空間站。我們得有一個火箭的動力學模型。我們可以先設想一系列控制指令,預測火箭的飛行軌跡,再用一個成本函數來衡量火箭離目標空間站有多遠。接著,通過最佳化,就能找到讓這個成本最小的那一套控制指令,引導火箭飛向目的地。這是一種非常經典的技術,叫做“模型預測控制” (MPC)。從上世紀 60 年代開始,MPC 在最優控制、機器人技術,甚至火箭軌道規劃這些領域,都有非常廣泛的應用。當然,真實世界並非完全是確定性的。我們用的世界模型,可能需要引入一些“潛在變數”,這些變數的值我們沒法直接看到。它們可能代表著一些未知因素,可能需要從某個機率分佈中抽取,這樣一來,模型就會給出多種可能的預測。所以,用這種包含了潛在變數來表示未知因素的世界模型,在不確定性下做規劃,肯定是非常理想的。不過,在通常情況下,這仍然是一個尚未解決的難題。我們最終想要實現的是“分層規劃”。人類和動物天生就會這麼做。但是,目前還沒有那個 AI 系統能真正學會如何有效地做分層規劃。我們可以手工定義好層次結構,讓系統去執行分層規劃,但沒有系統是真正自己學會這個能力的。舉個例子:假設我現在在紐約大學的辦公室,打算去巴黎。我不可能只靠規劃具體到毫秒級的肌肉怎麼動,這是最低層級的動作,來計畫好從辦公室到巴黎的整個行程,這做不到。第一,這個動作序列會特別特別長;第二,我缺少做這種規劃所必需的資訊(比如,我沒法預先知道路上那個紅綠燈是紅的還是綠的,這會影響到我計畫在那兒是停還是走)。不過,在比較高的抽象層面上,我的大腦可以做這樣的預測:要去巴黎,得先去機場坐飛機。好了,現在就有了一個子目標:去機場。那怎麼去機場呢?在紐約的話,我可以下樓到街上,招手叫輛計程車。那怎麼下到街上呢?我得從辦公桌前站起來,走到電梯那兒,按下按鈕,然後走出大樓。那怎麼去電梯那兒呢?我得從椅子上站起來,拿起包,打開辦公室的門,然後一邊躲著障礙物,一邊走到電梯口。你看,沿著這個層次往下,到了某個足夠具體的層級,詳細的行動規劃(比如剛才說的毫秒級肌肉控制)才變得可行,因為這時候,做動作需要的即時資訊都有了(比如,站起來、開門這些動作,就可以在當前這個局部環境下規劃)。所以說,怎麼學習世界模型、怎麼學習分層世界模型、怎麼學習世界的“抽象表示”,好讓系統能在不同的時間尺度上做預測,從而有效地規劃,關於這一系列的問題,目前還沒有人確切地知道該怎麼做,或者怎麼能讓它穩定可靠地運行起來。把這些部分拼在一起,我們大概就能得到一個 AMI,也就是人工智慧機器,它可能的“認知架構”是什麼樣的。這個架構裡,得有一個世界模型,還得有各種各樣的“目標函數”,一個“行動者”(它負責最佳化動作來降低成本),還得有“短期記憶”(有點像大腦裡的海馬體),最後還需要一個“感知模組”(類似大腦的視覺皮層)。大概兩年半以前,我寫過一篇長論文,大致講了我認為 AI 研究要在那個方向上使勁,才能取得進展。寫那篇論文的時候,“大語言模型”那股熱潮還沒起來,雖然那時候 LLM 已經有了。但我從來就不信,光靠 LLM 就能搞出達到人類水平的 AI。那我們怎麼才能讓 AI 系統通過看視訊之類的感官輸入,來學習關於這個世界的“心智模型” 呢?我們能不能像訓練 LLM 那樣,用“自回歸預測”的思路,去訓練一個“生成式架構”,讓它能預測視訊的下一幀畫面呢?答案是:不行,這招沒用。我本人在這上面花了 20 年功夫,結果是徹底失敗。它對視訊預測就是不管用。但它對預測離散的符號是管用的,因為預測下一個符號的時候,處理不確定性相對簡單直接:你只要輸出一個機率向量就行了(也就是一串加起來等於 1 的、0 到 1 之間的數字)。可視訊預測的難點在於,你要預測的是一個維度非常高、而且是連續的對象(也就是一幀圖像)。我們現在還不知道,怎麼才能在這樣高維度的連續空間裡,既有效又方便地表示“機率密度函數”。雖然我們可以用“能量函數”來間接表示它,然後再做歸一化(這有點像統計物理裡的做法,比如用玻爾茲曼分佈 (Boltzmann distribution),就是那個 exp (-能量/kT))。但是,對於高維空間裡複雜的能量函數來說,要算出那個歸一化常數(也叫“配分函數” (partition function)),通常在計算上是搞不定的。所以說,用標準的“生成式模型”(比如那種直接預測每個像素值的自回歸模型),想通過訓練它做視訊預測來學習世界模型,效果並不好。現在是有很多人在研究生成式視訊模型,但他們主要的目標,往往就是生成視訊本身,不一定是為了從中學習深刻的世界模型。如果你的目標只是生成視訊,那這個方法也許還行。但如果你想讓系統真正理解它背後的物理原理和因果關係,那這條路多半是走不通的。你想想,未來明明是不確定的,你非要讓系統給出一個唯一的、確定的預測,那結果往往就是預測出來的東西模模糊糊的,或者是各種可能性的一個平均,因為它沒辦法,只好試著把各種可能性都折中一下。針對這個問題,我提出的解決方案叫做 JEPA,它的全稱是“聯合嵌入預測架構” (Joint Embedding Predictive Architecture)。概念圖大概是這個樣子。可能你第一眼看上去,覺得它跟生成式架構沒啥區別。讓我來給你講清楚點。左邊這個是生成式架構:它在訓練的時候,要最小化的是“預測誤差”。你看,它觀察輸入 X,在訓練的時候也觀察目標 Y,然後就訓練這個系統怎麼根據 X 來預測 Y。這跟“監督學習”很像(或者說,如果 Y 本身就是 X 的一部分,那就跟“自監督學習”差不多,比如預測序列裡的下一個元素)。這套方法對預測離散的 Y 管用,但是對預測連續的、高維的 Y(比如圖像或者視訊)就不行了。右邊這個就是聯合嵌入預測架構 (JEPA)。你看,輸入 X 和目標 Y,都各自經過一個“編碼器網路”。這些編碼器會算出 X 和 Y 的“抽象表示”(也就是“嵌入”)。X 和 Y 的編碼器可以是不一樣的。然後呢,預測是在這個抽象的表示空間裡進行的(就是從 X 的表示來預測 Y 的表示)。這可能就是個更容易解決的問題了,因為你想啊,原始輸入 Y 裡面,很多細節資訊可能壓根兒就沒法預測。JEPA 架構的目標,就是要學到一種抽象表示,把那些不可預測的細節給過濾掉或者忽略掉。編碼器函數要學習的是“不變性”,目的是把 Y 裡面那些跟不可預測因素相關的變化,從表示空間裡給去掉。比方說,想像一個鏡頭在這個房間裡掃過。要是我停下鏡頭,讓系統預測下一幀畫面是啥,它可能能預測出大體的場景(比如座位上有人),但它絕對預測不了每個人的精確位置和長相,也預測不了地板、牆壁的精確紋理。這裡面有太多不可預測的細節了,因為需要的資訊根本就不在輸入畫面裡(也就是上下文中沒有)。JEPA 就是要學習一種能過濾掉這些不可預測細節的表示,把預測的精力集中在那些能預測的事情上,而不是在那些壓根兒預測不了的東西上白費力氣。當然,要有效地實現 JEPA,還有一些技術上的挑戰。但結論就是:如果我的說法是對的,那在學習世界模型這件事上,用 JEPA 這種架構要比用標準的生成式架構好得多。為了學習世界模型,我們也許真該放棄那種像素等級的生成式預測了。現在大家都在談論“生成式 AI”。而我的建議是,要想學習世界模型,咱們就得放棄(像素級預測性的)生成式 AI。這些架構也有不同的變種,有些可能還會用到潛在變數。不過,一個關鍵的挑戰是怎麼去訓練這些“基於能量的模型”或者 JEPA 系統。要想訓練這種系統學會變數之間的依賴關係,就得學習一個能量函數,讓這個函數給那些在訓練資料裡看到的、匹配的 (X, Y) 資料對打低分(低能量值),而給那些不匹配的、或者離正常資料分佈(也就是“資料流形”)很遠的資料點打高分(高能量值)。你可以想像一下,所有正常的 (X, Y) 資料點都分佈在某個高維空間裡的一個光滑的面上(這個面就叫流形)。我們希望能量函數在這個面上得分最低(比如是 0),然後離這個面越遠,得分就越高。問題是,就我所知,訓練這種系統主要有兩種辦法。如果這個能量函數特別能變形(就是參數特別多,能擬合出各種形狀),那它就可能會“崩潰”。如果你只讓能量函數在訓練資料點上得分低,其他啥也不管,那系統最後可能就學到一個最簡單的解:給所有點都打一樣的最低分,變成一個完全平的能量函數。這就是一個沒用的“平凡解”。這就叫“崩潰”。那怎麼防止崩潰呢?主要有兩種方法。第一種是“對比方法”(Contrastive methods)。你得另外生成一些“反例”樣本(圖中那些閃爍的綠點),這些點不在正常的資料流形上。然後你明確地告訴模型,要給這些反例打高分,同時給那些正常的樣本打低分。你通過設計一個“損失函數”來達到這個目的。但對比方法的毛病在於,到了高維空間它就不太好使了,因為要想把能量函數的樣子(也就是“能量地貌”)給塑造好,你需要特別特別多的反例樣本,這個數量會隨著維度增加呈指數爆炸式增長。第二種是“正則化方法” (Regularized methods)。這種方法是在損失函數里加一個“正則化項” (regularizer term)。你通過最小化這個正則化項,來間接地限制那些被打低分的輸入空間的“體積”,不讓它變得太大。這聽起來可能有點玄乎,但在應用數學裡有類似的想法,比如“稀疏編碼” (sparse coding)。當你讓一個潛在變數變得稀疏的時候(比如加個“L1 懲罰項”,你其實就是在減小那些能讓“重建能量”很低的潛在空間的體積。所以,基本上就是這兩條路:對比方法和正則化方法。不同的架構,發生崩潰的傾向性也不一樣。既然這是吉布斯講座 (Gibbs lecture),我必須再提一下Gibbs的名字。怎麼把能量函數正兒八經地變成機率分佈呢?就是用“吉布斯-玻爾茲曼分佈” (Gibbs-Boltzmann distribution)。你算一個 exp(-β * F(X,Y)),β 是個常數,類似“逆溫度”,F(X,Y) 就是能量函數。然後你把這個式子在 Y 的所有可能取值上做個積分,用這個積分結果去除它本身,進行歸一化。這樣,你就得到了一個規規矩矩歸一化了的條件機率分佈 P(Y|X)。如果你非要搞“機率建模”,那你訓練“能量基礎模型”的辦法,就是在訓練資料上最小化那個“負對數似然函數” (negative log-likelihood, -log P(Y|X))。但問題又來了,那個歸一化常數 Z(X),通常算起來太難了,計算上搞不定。所以你就得用近似的方法,比如“變分方法” (variational methods) 或者“蒙特卡洛方法” (Monte Carlo methods)。機器學習領域有很多人在這方面下了大功夫,也從物理、統計這些學科裡借鑑了不少想法。我畫了個表,把各種經典的方法分成了正則化和對比這兩類。這些方法(包括對比和正則化的)用自監督學習的方式來預訓練視覺系統,學習圖像表示,已經非常成功了。這些想法的核心,最早可以追溯到 90 年代初,包括我 1993 年的一篇論文,還有 2000 年代中期我和學生們一起做的一些研究。最近這些年,有很多論文,包括 Google 發的那些,都在研究這些方法,尤其是對比方法。你們可能聽說過 OpenAI 的 CLIP 模型,它就是用文字做監督,通過對比學習來學視覺特徵的。但還是要再說一遍,對比方法隨著潛在空間維度增加,它的擴展性不一定好。我個人更喜歡正則化方法。問題是怎麼讓它們有效地跑起來。一個關鍵的目標是防止模型崩潰。那在這種情況下,崩潰到底是什麼樣子呢?崩潰,指的就是模型只去最小化那個潛在空間裡的預測誤差(比如說,預測的表示 S_Y_tilde 和目標的表示 S_Y 之間的距離 D),而且 只幹這件事。那系統就可以耍小聰明了,它完全不管輸入 X 和 Y 是啥,直接輸出兩個固定的、不變的表示 S_X 和 S_Y,這樣誤差自然就是零了。但這樣得到的模型,就是個崩潰了的、一點用都沒有的模型。要防止這種情況,一個辦法(它也算是一種正則化項)就是,在最小化預測誤差的同時,還要想辦法最大化編碼器輸出的表示 S_X 和 S_Y 本身包含的“資訊量”。比如,你找個辦法估計一下資訊量 I(S_X) 和 I(S_Y),在它們前面加個負號(表示要最大化它們),然後把這兩項加到總的、需要最小化的目標函數里去。但是,直接去最大化資訊量是很難的。雖然我們有些跟資訊量上界有關的技術(比如最小化“互資訊” (mutual information)),但在這種場景下,我們通常沒有有效的、方便計算的下限來幫我們最大化資訊量。所以,實際操作中,我們是設計一些“代理”目標,通過最佳化這些代理目標,來間接鼓勵模型產生資訊量更高的表示(這可能基於一些假設或近似),並期望實際的資訊量也跟著提高。而且這招效果還挺不錯的,雖然它的理論依據還在完善中,但可能比其他方法要好。我們具體在用的一種方法叫做VicReg ,全稱是“方差-不變性-協方差正則化” (Variance-Invariance-Covariance Regularization)。它的想法裡包含一個成本項,要求在處理一批樣本時,表示 S_X 的每個維度的方差都要保持在某個閾值以上(比如大於 1,可以用“hinge 損失”來實現)。還有一個成本項,要求這批樣本表示算出來的“協方差矩陣”,它的非對角線上的元素都要趨近於零(比如,先把資料“中心化”,然後算 S_X 轉置乘以 S_X)。這樣做的目的是消除表示向量各個維度之間的相關性,最理想的情況是讓不同的特徵維度(也就是表示矩陣的列)之間近似“正交”。其他研究者也提出了類似的想法,包括伯克利的馬毅(Yi Ma)教授,還有我在紐約大學的一些同事(他們搞了個叫 MMCR 的方法)。我們有一些理論結果表明,在某些條件下,如果你先對資料做了“非線性變換” (non-linear transformation),然後再用這個去相關的標準,它能有效地促進變數之間“兩兩獨立” (pairwise independence),而不僅僅是沒相關性,這一點很有意思。不過,完整的理論圖像還不清晰。對於嗅覺敏銳的數學家來說,這裡面還有很多挑戰。時間關係,我再跳過一些細節,但你其實可以把 VicReg 這個技術用到“偏微分方程” (Partial Differential Equations, PDEs) 上——不一定是為了直接解方程,而是比如,通過觀察方程解在不同時空窗口裡的樣子,來反推出方程本身的係數。具體怎麼做呢?你拿到 PDE 的時空解,從裡面隨機取兩個不同的窗口,然後訓練一個系統(用 VicReg 的標準),讓它不管你取那兩個窗口,都能給它們算出一樣的表示。你想,能讓系統從不同窗口裡提取出來的、共同的不變資訊是啥呢?那只能是跟背後那個微分方程本身有關的東西——說白了,就是方程的係數,或者是係數的某種表示。把這個方法用到各種實際問題上,發現它確實管用。想瞭解更多細節的話,可以找 Randal Balestriero聊聊。他是相關論文的主要作者之一。最關鍵也很有趣的一點是,用 VicReg 這種方法學出來的 PDE 係數,用它去做後續的預測,效果竟然比直接用監督學習訓練來做預測還要好。除了 VicReg,還有一類替代方法,是基於“蒸餾”的。我們用這些方法,是因為它們在實驗中通常效果挺好。但我個人不太喜歡它們,因為感覺它們的理論基礎好像還不如 VicReg 或者資訊最大化那些方法紮實。我就不細講它們是怎麼工作的了。簡單說,你名義上是在最小化某個函數,但實際上你用的那個“梯度下降” 更新步驟,並不能真正讓那個函數達到最小值;這裡面挺複雜的。雖然也有一些理論論文,但它們通常只在很簡化的假設下才成立(比如假設編碼器和預測器都是線性的)。總的來說,這不是一個理論上特別讓人滿意的方法,但它確實在實踐中效果很好,很多人用它來自監督地學習圖像特徵。這類技術裡有一種叫做 I-JEPA,我就不細說了,但它在學習圖像表示方面做得非常好,學到的表示對後續的監督任務很有用,而且需要的帶標籤的樣本比從零開始訓練要少得多。類似地,還有一個用於視訊的版本,叫做 V-JEPA。它的做法是:拿一段視訊,在時間和空間上隨機“遮掉” (mask) 一大部分區域,然後訓練一個 JEPA 架構,讓它根據沒被遮住的部分(也就是上下文)的表示,去預測那些被遮住部分的表示。結果發現,這樣訓練出來的系統能學到非常好的視訊表示。你可以把這種表示作為後續任務(比如動作分類)的輸入,效果非常好。我們最近在準備投的一篇論文裡,有個特別有意思的結果:你用這些 V-JEPA 系統去測試,測量它們對視訊的預測誤差,如果你給它看一段物理上不可能發生的視訊(比如一個東西突然消失了,或者自己變形了),系統能檢測出來!這時候預測誤差會一下子變得特別高,就好像系統在說:“嘿,這事兒不對勁,不可能發生!”這說明這個系統已經學到了一種非常基本的、關於物理世界可能性的“常識”,這跟我前面提到的嬰兒學習有點像。這個結果挺讓人驚訝的,因為我們並沒有專門訓練它去檢測“異常”,它只是被訓練去預測那些被遮住的部分應該是什麼樣的表示而已。我們還一直把自監督學習訓出來的編碼器和預測器用在規劃任務上。這就又說回到世界模型了。假設有張圖顯示了當前世界的狀態(比如桌子上有一堆籌碼),同時有個系統控制著一個機械臂。我們希望這個系統能操作機械臂,讓最後的狀態跟我們想要的目標狀態一樣(比如,把所有藍色的籌碼都弄到指定的方框裡去,就像圖裡畫的那樣)。我們先訓練一個編碼器(可以用像 DINOv2 這樣預訓練好的),然後再訓練一個世界模型,讓它在抽象的表示空間裡預測,如果採取某個特定的動作,會導致什麼結果。它能不能預測出來,最後那個擺著藍色籌碼的棋盤的狀態,對應的表示是什麼?一旦有了這個世界模型(這個模型可以在隨機動作的資料上訓練),我們能不能用它來規劃一連串的動作,最終達到我們想要的目標狀態呢?我們已經把這套方法用在了好幾個問題上,發現它在規劃方面效果確實不錯。這就是那個藍色籌碼任務的結果。大家看到的是一段視訊(你看不到機械臂做了什麼動作,但它確實在動)。上面顯示的是真實世界裡籌碼狀態的變化。下面顯示的是系統通過它內部的世界模型,預測接下來會發生什麼(這個預測結果是通過一個另外訓練的“解碼器”,把內部表示又變回圖像,這樣我們就能看見了)。我再放一遍。在下面這個預測畫面裡,你可以看到,隨著機器人推著籌碼移動,預測的狀態也在一步步變化。最後預測的狀態雖然不是個完美的正方形,但也相當接近了。這個任務需要在複雜的“動態系統”裡做規劃,因為籌碼之間會相互碰撞、相互影響。對於這樣的系統,你很可能沒法靠手工建立一個足夠精確的模型來做有效的規劃。我們還有類似的研究,把這些想法用到了真實環境裡的導航規劃上。所以,我的建議如下:放棄(像素級預測性的)生成式模型,擁抱聯合嵌入架構(比如 JEPA)。放棄純粹的機率模型,擁抱基於能量的模型。放棄對比方法,擁抱正則化方法。放棄“無模型的強化學習”,擁抱“基於模型的方法”,比如模型預測控制和規劃。如果你真的想實現達到人類水平的 AI,別只盯著 LLM。如果你是 AI 領域的博士生,我勸你最好別直接去做擴展 LLM 的工作,因為你得跟那些有幾萬塊 GPU 的大公司工業團隊競爭,想在那兒做出重大貢獻太難了。那有那些問題需要解決呢?怎麼建構大規模的世界模型?怎麼才能有效地用“多模態輸入” 來訓練它們?怎麼開發出更好的規劃演算法?最優控制和各種最佳化技術方面的深厚功底,在這裡可能會派上大用場。用簡單的基於梯度的方法在這些學到的模型裡做規劃時,會碰到“局部最小值”和可能“不可微分”的問題。像 ADMM(交替方向乘子法)這樣的方法也許能幫上忙。其他的關鍵問題還有:怎麼做帶潛在變數的 JEPA?怎麼在“不確定的環境” 裡做規劃?怎麼有效地對潛在變數進行正則化?以及,怎麼實現真正的分層規劃?基於能量的學習,它的數學基礎到底是啥?當我們跳出嚴格的機率學習框架時,我們就進入了一個不那麼熟悉的領域,到底什麼樣的訓練過程才是最優的,還不完全清楚。還有一個我沒怎麼談到的問題是,怎麼讓系統自己學習成本函數或者目標模組。世界模型難免不精準,怎麼在這種情況下做有效的規劃,並且不斷調整模型,這也非常關鍵。也許,要是我們能在未來五到十年裡把這些問題解決了,我們就有望走上正軌,去建構真正智能的,也就是能夠規劃和推理的AI 系統。我個人覺得,要讓這一切朝著好的方向發展,唯一的辦法就是讓底層的平台保持“開源”;我本人就是開源 AI 的鐵桿支持者。如果我們成功了,AI 就能成為放大人類智能的強大工具,這肯定是一件大好事。非常感謝大家。 (數字開物)