#科學家
姚順雨:騰訊在AI時代的護城河!還是易守難攻的好平台!
12月17日,騰訊聘請了前OpenAI研究員姚順雨擔任總辦首席AI科學家,直接向總裁劉熾平匯報。很多人擔心騰訊AI掉隊了,但姚順雨其實在消息公佈之前三個月就曾經談到騰訊的護城河:微信還是一個易守難攻的好平台。這或許也是他選擇加入騰訊的重要原因之一,他甚至還聊了如果他是微信一號位會怎麼做的話題。原文很長,談的面很廣,我挑選了與騰訊等巨頭相關的內容:1、談應用公司的護城河——資料飛輪李廣密:在你看來,應用公司的資料飛輪,對他們來說重要嗎?或者說,在什麼環境下才能形成?我感覺,Chatbot產生的是偏好資料,好像沒什麼資料飛輪;Code可能有思考過程的資料,這種思考過程的資料代表一類能力,可能是有用的;像Canvas也好,Artifacts也好,可能是有思考過程的資料,這類可能有機會形成很強的資料飛輪效應。姚順雨:大多數公司還沒有形成資料飛輪;他們依賴模型變好,利用模型變好的溢出能力。如果你要有資料飛輪,首先你要能自己去訓模型,並且能通過互動有很好的reward(獎勵),使你能把好的資料和不好的資料分開。【一涵註:這就是騰訊必須自己做AI而不是依賴DeepSeek的原因。】比較成功的是Midjourney,有非常清晰的reward——人更喜歡那張圖,這個reward和應用是對齊的,reward做得更好,公司就更成功,模型也更好——一切都對齊。有了這種情況,才能自己訓練模型,做資料飛輪。這個過程必須比較非主線。因為如果很主線,我也可以通過Pre-Training或RL提升能力,靠泛化或其他方式。總的來說,大部分公司目前還沒有形成飛輪。【一涵註:比如程式設計之類的主線任務,每個巨頭公司都會自己訓練好,不是創業公司能做的。】2、超級巨頭有動力繼續推動中心化張小珺:你對未來Agent生態的構想會是什麼樣?現在有點像,當年大家都在創業做App的時候,如果再往後推演幾年,這個世界會是什麼樣?姚順雨:很難說。但肯定會有很多不同的互動方式,創造出不同的系統。OpenAI這樣的公司,會想繼續推進一個中心化的助手系統,有更多環境、更強能力,做更多事情。也會有不同的生態系統,有不同的互動方式,會訓練完全不同的模型。甚至從Pre-Training開始,所需要的能力和很多東西都不同。【一涵註:比如OpenAI正在訓練一個商業專用的模型,在判斷出使用者提問商業資訊的時候,專門用來推送廣告,並顯著標識廣告資訊,來減少使用者對主模型的信任問題。】比如,另一種互動方式可能是,我想造一個朋友。這個朋友不需要數學、物理特別強,數學太強反而不自然。它記憶不一定特別好,會犯錯,有感情,也不是特別rational(理性)。但這也是有價值的——可能有人會做這種事。這類東西很難和ChatGPT比強弱,它們是不同應用,有不同價值。也可能出現一個由Agent組成的社會。為什麼這個世界上很多人有價值?不是因為他們的數學或編碼能力強,而是因為他們擁有別人沒有的資訊。中間商本質是擁有資訊差。擁有資訊差的人會想維護自己的權利和資源。這樣的人會發明出更Multi-Agent(多智能體)或更 Distributed Network(分佈式網路)。在交易世界裡,資訊很重要,每個人只擁有資訊的一小部分,這種情況會出現新的不同形態。可能是Multi-Agent,每個人有自己的Agent,Agent之間可以與百萬甚至更多人交換資訊,達成交易或某些目的。根本上,現在非常強的巨頭和重要節點,有動力繼續推動中心化。但在中心化之外的力量,也有動力做一些非中心化的事情。這個世界可能不會是單方壓倒另一方,雙方都會有自己的力量。而這個世界智能的邊界、研究的邊界,可能不是由一家機構定義,而是由不同Super App共同定義的。【一涵註:有些公司可以用去中心化的形式行中心化之實。比如拼多多創業早期提倡分佈式人工智慧,就是讓每個人擁有一個有自己隱私資訊的Agent,保護你的私有資料,但是同時也會和其它Agent溝通來提升購物前的信任感和推薦精準性,以及做工廠定製降低價格。然而,這些資料並不真是我們私有的,比如我們想把這些資料打包帶走到其他平台,例如淘寶或者抖音,那是不可能的,因此這些平台就構成了資料的壟斷和中心化。】3、做垂直產品還是通用產品?姚順雨:iPhone或iPad是非常通用的產品形態,但它一開始,都有一些Killer App支援它有momentum(增長動能)。包括ChatGPT,包括微信,很多偉大產品都這樣。你有一個足夠通用、簡單,或第一性的互動方式,它有很多想像空間。但你去維護它,或者設計路徑的時候,你能有各種各樣的應用,使它不停地增長。【一涵註:最典型的例子是微信和抖音,公眾號、朋友圈、小程序、視訊號都是微信這個通訊產品催生的,早已和WhatsApp等單純的通訊產品不同(馬斯克都說歐美沒有,他要copy一個)。而抖音商城、汽水音樂、紅果短劇等APP都是抖音這種短影片推薦的互動方式衍生出來的。因此微信和抖音本質上都是通用產品,是會產生競爭的平台型公司,而不是單純的社交軟體和視訊軟體。現在,ChatGPT也正在試圖把自己打造成通用產品,如加入了應用程式商店。可能產生通用產品的AI是對過去的網際網路平台都有威脅的。】4、如果姚順雨是科技巨頭的CEO,會怎麼看待AI?李廣密:順雨,如果你是一個全球超大網際網路或科技公司的CEO,今天這個公司還沒有自己的模型,沒有好的研究文化,甚至沒有好的AI戰略,你作為CEO會怎麼做?姚順雨:首先,我肯定會學習,我會想弄清楚這個事情到底是什麼。如果你作為CEO不懂這個事情,所有事情會變得很難。很多時候,一個公司的bottleneck(瓶頸)就在於,CEO 對這個事理解不夠。如果你不理解,去招一些很好的人、做一些事情,你很可能被他們忽悠。所以,首先要自己學習。【一涵註:這也是為什麼不少成功的AI公司都是自己培養人才來做好,而不是靠挖人。】然後要從創造新的價值來思考問題。畢竟你不是技術專家,而是一個CEO,你有一些場景、一些資源、一些優勢。從第一性原理看,一個新的技術產生了,你要思考的是,怎麼用這些新技術結合你現在的資源去創造新的價值。當然,你可以嘗試做一個和當前業務完全不一樣、但價值非常大的事情,比如ChatGPT,但對大多數公司來說,即使很有錢、很強,也不一定make sense(合理)。所以,第一是自己要學習技術;第二是要思考怎麼創造新的價值。5、如果姚順雨是巴菲特,會怎麼投資AI行業?李廣密:如果你成為了波克夏的CEO(巴菲特的投資公司),未來要拿出500億美金allocate(分配)到AGI行業,你會怎麼allocate這筆錢?——既能體現回報,也能體現對人類的貢獻。姚順雨:這是個很好的問題。取決於你有多少精力,或者有多少資源分配顆粒度。當然現在OpenAI、Anthropic,這些模型層公司,大機率會有更大價值。還有一類很有價值的,是能積累User Context(使用者上下文),或者能建構特殊Environment(環境)的公司。最終如果AI或AGI是一個系統,它需要有Intelligence(智能),需要有Environment,還需要有User Context,或者對使用者的理解。現在有很多User Data(使用者資料)或User Context 的公司,有點像發明車之前的煤炭、煤礦,或者像發明汽車之前的石油公司。從這個角度,微信或大平台,還是一個易守難攻的好平台,它積攢大量的Context。如果Intelligence是一個可以逐漸民主化、逐漸變得便宜、逐漸普及,擁有這樣的平台,擁有這樣的Environment,擁有這樣的Context,可能會是一個很強的壁壘。它可能還是一個很好的投資。【一涵註:所以上一代的巨型網際網路公司,例如已經有不錯的模型、也有大量使用者資料,還有晶片和雲端運算的阿里,以及在全球獲得大量使用者資料的拼多多和抖音,也都是非常值得關注的投資對象。而百度這樣的公司因為移動網際網路時代APP的普遍資料孤島化(李彥宏本人講的),失去了獲取大量使用者資料的機會,因此也沒有太大價值了。】6、如果姚順雨是微信的一號位,會怎麼做?張小珺:今天順雨當了很多公司的CEO,那我再問一個:如果你是微信的一號位,你會怎麼在微信裡做Agent?姚順雨:我可能會不急,先觀望觀望。我好像沒有理由要急。我會觀察,我會學習 AI,會觀察有沒有什麼新的互動方式很有意思。但我不會急著去做很多事——我有易守難攻的地方,為什麼要急著進攻?比較危險的是一個顛覆性的創新。真正的危險,不是說一個類似於微信的東西打敗了微信,而是一個很不一樣的東西打敗了微信。就像微信打敗了QQ。當時擔心的並不是一個類似QQ的東西打敗了QQ,而是一個很不一樣的產品去打敗這個東西。需要對顛覆性創新有所警惕。但如果是這些incremental(漸進式的)創新,這種小的創新,早做晚做可能區別沒有那麼大,也不用太擔心。李廣密:所有人都說微信卡位好,但今天微信還沒有很激進地投入,如果未來Multi-Agents 、Long-Term Memory這些問題解決了,但這個Agent系統不長在微信上,是比較恐怖的。原有網路不一定有價值。姚順雨:這取決於人類的網路會變成什麼樣?你會有更多Agent朋友,還是更多人類朋友?或者你有更多Agent職業上的互動,還是有更多人類職業上的互動?微信上你既有朋友,也有基於職業的互動——比如我要買個東西,我要諮詢律師,對吧?這取決於人類的網路會變成什麼樣。但總會有一個這樣的網路,基於這個網路,肯定會需要有基礎設施,需要有平台。【一涵註:今天的AI其實會對無論是職業的互動,還是情感的互動都可能有巨大影響。比如段永平在26日早上表示:“律師這個職業會受到AI的巨大挑戰!我現在有任何合同都是讓Gemini和ChatGPT看一眼,毛病建議他都可以馬上給出來,非常厲害。”連他這樣等級的企業家都用AI來看合同了,那麼普通人就更可以用了。而情感的互動上,AI算命、心理諮詢也已經很常見,很明顯可以觀察到周圍一些人在和AI比如豆包、DeepSeek交朋友。以上互動的變化大概也是騰訊需要下重注挖姚順雨做AI的重要原因。按照姚順雨的說法,微信有不急的底氣,但會不會出現一個很不一樣的東西打敗了微信,我還是要跟大家一起持續跟蹤觀察。】 (一涵筆記)
騰訊官宣!姚順雨出任首席 AI 科學家,27 歲清華學霸掌舵騰訊 AI 下半場
「追到第一名」的劇本,騰訊可能又要演一遍,這次押注的是 AI。就在今天下午發佈的內部公告中,騰訊表示,知名 AI 研究員姚順雨 (Vinces Yao) 正式出任「CEO / 總裁辦公室」首席 AI 科學家,向騰訊總裁劉熾平匯報;同時兼任 AI Infra 部、大語言模型部負責人,向技術工程事業群總裁盧山匯報。這次任命,釋放的訊號很清晰:騰訊的 AI 正在全面提速,且是帶著「要打硬仗」的架勢。不久前,金沙江創投主管合夥人朱嘯虎在談及國內 AI 競爭格局時直言騰訊還沒真正發力。他還評價稱,騰訊往往等局面打明白後再加速追趕——從第五、第六,追到第三、第二,最後追到第一。今天,騰訊便用實際行動回應了外界的質疑。騰訊升級大模型研發架構,新成立 AI Infra 部、AI Data 部、資料計算平台部。其中,AI Infra 部將負責大模型訓練和推理平台技術能力建設,聚焦分佈式訓練、高性能推理等核心技術,為演算法研發和業務落地提供支撐。王迪繼續擔任大語言模型部副總經理,向姚順雨匯報。劉煜宏擔任 AI Data 部負責人、陳鵬擔任資料計算平台部負責人,均向公司副總裁蔣傑匯報。更關鍵的是,騰訊混元的「成績單」已足夠搶眼。過去一年,混元大模型發佈超過 30 個新模型。12 月 5 日發佈的混元 2.0,在複雜推理與文字生成場景表現國內領先。混元 3D 模型更是保持著全球領先水準,開源社區下載量超過 300 萬。組織調整與密集引才,說到底就是在為高強度的技術攻關補齊兵力、夯實底座。而姚順雨的加盟,無疑是騰訊 AI 戰略中極為重要的一步棋,也讓人不由得期待,他的到來或許會為騰訊 AI 帶來一股全新的氣象。細數姚順雨的履歷,只能用開掛來形容——合肥一中出身、NOI 銀牌得主、高考 704 分勇奪安徽理科探花,擔任過清華姚班聯席會主席,甚至還聯合創辦了清華說唱社,妥妥的全能型人才。普林斯頓電腦博士畢業後,他更是直奔 OpenAI,期間,他曾深度參與 Computer-Using Agent (CUA)、Deep Research 等重要產品。今年 5 月份,憑藉過硬的履歷,他成功入選《MIT 科技評論》「35 歲以下科技創新 35 人」中國區榜單,成為該屆最年輕入選者。圖片來自清華校友總會學術成果也相當能打,他推動了 LLM 從「對話系統」向「任務執行系統」的範式轉變。隨便拎幾篇代表作出來:ReAct (ICLR 2023):將推理與行動結合的經典框架,引用超 4300 次。Tree of Thoughts (NeurIPS 2023):大語言模型的「思維樹」問題求解方法,引用超 4000 次。Reflexion (NeurIPS 2023):引入語言反饋的自我改進智能體,引用超 2600 次。SWE-bench (ICLR 2024):評估語言模型解決真實 GitHub 問題的能力。WebShop (NeurIPS 2022):可擴展的基於語言代理的網頁互動任務。SWE-agent (NeurIPS 2024):面向自動化軟體工程的智能體-電腦介面。……Google Scholar 顯示,他的總引用次數超過 1.5 萬次,h-index 為 24,i10-index 為 29——這個資料在 27 歲這個年齡段,表現相當不俗。巧合的是,今年 5 月姚順雨在一次與張小珺、李廣密的對談中,恰好聊到了微信和 AI 的話題。當時李廣密拋出觀點:微信卡位確實好,但如果未來 Multi-Agents、Long-Term Memory 這些技術成熟了,Agent 系統卻沒長在微信上,那就「比較恐怖」了。姚順雨的回應頗為哲學:「這取決於人類的網路會變成什麼樣?你會有更多 Agent 朋友,還是更多人類朋友?」他進一步解釋,微信既承載社交關係,也承載職業互動——比如購物諮詢、法律服務等。無論人類網路如何演變,總需要基礎設施和平台支撐。面對張小珺的靈魂拷問:如果你是微信一號位,會怎麼做 Agent?姚順雨表示:「我可能會不急,先觀望觀望。」在他看來。微信已經易守難攻,為什麼要急著進攻?真正的威脅不是類似產品的競爭,而是顛覆性創新。就像當年微信打敗 QQ 那樣,危險的是「很不一樣的東西」。除了這次精彩的對談,今年 4 月份姚順雨發表的技術博文《AI 的下半場》同樣在業界引起了廣泛討論。讓AI 下半場總結:AI 正處在中場休息。幾十年來,AI 的主要精力都放在開發新的訓練方法和模型上。事實證明,這條路走得通:從在國際象棋和圍棋上擊敗世界冠軍,到在 SAT 和律師資格考試中超過大多數人類考生,再到拿下 IMO 和 IOI 金牌。寫進歷史的這些里程碑——DeepBlue、AlphaGo、GPT-4 和 o-series——背後都是 AI 方法上的根本創新:搜尋、深度強化學習、規模化訓練以及推理。隨著時間推移,效果一次次被刷新。那現在突然有什麼不同呢?三個詞:強化學習真的能用了。更準確地說,強化學習終於能夠泛化了。經歷了多次迂迴探索和里程碑的積累,我們終於找到了一套能解決各種強化學習任務的有效方法——依託語言與推理。要是你一年前對大多數 AI 研究者說:有一個通用方案能同時搞定軟體開發、創意寫作、IMO 等級的數學題、鍵鼠操作,甚至長篇問答——他們大概會笑你在「幻覺」。因為這些任務都極其困難,很多研究者整個博士階段可能只專注在其中一個方向。然而,這已經成真。那麼接下來會怎樣?AI 的下半場——從現在開始——將把重心從「解決問題」轉向「定義問題」。在這個新階段,評估的重要性會超過訓練。我們不再只是問「能不能訓練出一個模型解決 X 問題?」,而是要問「我們究竟應該讓 AI 去做什麼?又該如何衡量真正的進展?」。要想在下半場脫穎而出,我們需要及時轉變思維方式和技能組合,更接近於產品經理的思路。上半場要理解 AI 的上半場,可以看看它的「贏家」們。到目前為止,你認為最有影響力的 AI 論文有那些?我做了下 Stanford 224N 的小測,結果並不意外:Transformer、AlexNet、GPT-3 等等。這些論文的共同點是什麼?它們都提出了訓練更好模型的重大突破。同時,它們也靠在某些基準測試上取得(顯著的)提升,才得以順利發表。但還有個潛在的共性:這些「贏家」幾乎全都是訓練方法或模型,而不是基準或任務。就算是公認最有影響力的基準之一——ImageNet,它的引用量也不到 AlexNet 的三分之一。而在其他地方,方法和基準的對比更懸殊。比如,Transformer 的主要基準是 WMT'14 翻譯任務,該研討會的報告大約有 1300 次引用,而 Transformer 論文字身超過 16 萬次。這說明了上半場的遊戲規則:重點在於創造新的模型和方法,而評估和基準雖然必要,卻始終是次要的。為什麼?很大一個原因是,在 AI 的上半場,方法比任務更難,也更令人興奮。從零開始發明一種新演算法或網路結構——比如反向傳播演算法、摺積神經網路(AlexNet),或者後來 GPT-3 所用的 Transformer——需要非凡的洞察力和工程能力。相比之下,給 AI 定義任務就顯得直接得多:我們只需要把人類已經在做的事情(翻譯、圖像識別、下棋)變成基準測試就行,幾乎不需要太多新洞見或工程創新。方法的價值還在於它們往往比單個任務更通用、應用更廣。以 Transformer 為例,它不僅推動了自然語言處理(NLP),還在電腦視覺(CV)、強化學習(RL)等領域全面開花,遠遠超越了它最初驗證成果的那個小小的翻譯資料集(WMT』14)。一個偉大的新方法可以「爬」上許多不同的基準,因為它足夠簡潔和通用,所以影響往往超越單一任務。這種玩法延續了數十年,催生了改變世界的思想和突破,並通過不斷刷新的基準成績體現出來。那為什麼這個遊戲會改變呢?因為這些思想和突破的累積,已經帶來了質的飛躍——我們終於找到了可行的通用方案來解決任務。配方那麼,「配方」到底是什麼?配料其實並不意外:大規模的語言預訓練、資料和算力的擴展,以及「推理與行動」的理念。這些聽起來像是你每天在舊金山都會聽到的流行詞,但為什麼要稱它為配方呢?我們可以從強化學習(RL)的視角去理解。RL 常被認為是 AI 的「終局」——理論上它能保證贏得遊戲,而在實踐中,你也幾乎無法想像沒有 RL 的超級智能系統(比如 AlphaGo)。在 RL 中,有三個關鍵組成部分:演算法、環境和先驗知識。長期以來,RL 研究者主要聚焦在演算法本身(比如 REINFORCE、DQN、TD-learning、actor-critic、PPO、TRPO……),這是智能體如何學習的「智力核心」,而環境和先驗往往被視作固定不變或最低限度的設定。比如,Sutton 和 Barto 的經典教材幾乎完全講演算法,幾乎沒涉及環境或先驗。然而,在深度 RL 時代,研究者們逐漸發現:環境的重要性極高。一個演算法的表現往往與它所處的環境高度繫結。如果你忽略環境,就可能造出一個只在玩具問題裡「最優」的演算法。那為什麼不先想清楚:我們到底想要解決什麼樣的環境,然後再去尋找最合適的演算法?這正是 OpenAI 最初的計畫。它先推出了 Gym,把各種遊戲變成標準化的 RL 環境;接著又嘗試了 World of Bits 和 Universe 項目,試圖把網際網路或電腦本身變成一個遊戲。這聽起來很合理:一旦把所有數字世界轉化為環境,再用聰明的 RL 演算法去解決,就能得到數字版的 AGI。這是個好計畫,但沒能完全走通。OpenAI 確實取得了巨大進展,用 RL 解決了 Dota、機械手等難題。但它始終沒能真正攻克電腦操作或網頁導航的問題,而且在一個領域中訓練出來的 RL 智能體,幾乎無法遷移到另一個領域。顯然,缺了點什麼。直到 GPT-2、GPT-3 出現,人們才意識到:缺少的關鍵其實是先驗。你需要強大的語言預訓練,把常識和語言知識蒸餾進模型裡,然後再進行微調,讓它們成為能上網(WebGPT)或能聊天(ChatGPT)的智能體(並由此改變世界)。事實證明,RL 中最重要的部分可能既不是演算法,也不是環境,而是先驗知識——而且這種先驗完全可以通過與 RL 毫不相關的方法獲得。語言預訓練為對話提供了很好的先驗,但在控制電腦或玩電子遊戲時效果卻不那麼理想。為什麼?因為這些任務與網際網路文字的分佈差距更大,直接在這些領域做 SFT(監督微調)或 RL(強化學習)時,泛化能力很差。我在 2019 年就注意到了這個問題。當時 GPT-2 剛發佈,我嘗試在它的基礎上做 SFT 和 RL 來解決文字冒險遊戲——CALM 是世界上第一個基於預訓練語言模型建構的智能體。但它需要上百萬步的 RL 訓練才能「爬」過一款遊戲,而且無法遷移到新遊戲。雖然這正是 RL 的典型特徵,RL 研究者對此並不意外,但我卻覺得奇怪:因為人類可以很輕鬆地嘗試一款新遊戲,並且在零樣本情況下表現顯著更好。就在那時,我迎來了人生中的第一個「頓悟時刻」——人類之所以能泛化,是因為我們不僅能選擇「去 2 號櫃子」「用 1 號鑰匙開 3 號寶箱」「用劍殺地牢怪」,還可以選擇去思考:「地牢很危險,我需要一件武器來應對。但目前沒有現成的武器,也許需要去鎖著的箱子裡找。3 號寶箱在 2 號櫃子裡,那我應該先去櫃子 2,把它打開。」思考,或者說推理,是一種奇怪的行動。它不會直接改變外部世界,但推理的空間是開放的、組合上無限的——你可以思考一個詞、一句話、一整段話,甚至一萬個隨機單詞,而周圍的世界並不會立刻發生變化。在傳統 RL 理論中,這是個「糟糕的選擇」,會讓決策幾乎不可能。想像一下:你需要從兩個盒子裡挑一個,一個有 100 萬美元,另一個是空的。你期望值是 50 萬。現在如果我加上無限多個空盒子,你的期望值就變成了 0。但如果我們把推理加入 RL 環境的動作空間,就能利用語言預訓練提供的先驗來實現泛化,同時還能根據不同決策靈活分配推理時的計算量。這真的是一件很神奇的事。我在這裡沒法完全解釋清楚,可能需要專門寫一篇博文。你可以去讀一下 ReAct,它講述了智能體推理的最初故事,也能感受到我當時的心路。直觀地說:即便你加了無數個空盒子,但你在生活和遊戲中早已見過類似情況,所以選擇這些空盒子的經歷反而能幫助你在真正有錢的遊戲裡更好地做出選擇。抽象地說:語言是通過推理在智能體中實現泛化的。一旦我們擁有了合適的 RL 先驗(語言預訓練)和合適的 RL 環境(把語言推理作為動作),結果發現 RL 演算法本身反而成了最不重要的部分。於是才有了 o-series、R1、deep research、會用電腦的智能體,以及未來更多的成果。多麼諷刺的轉折!長期以來,RL 研究者最關心的都是演算法,而幾乎沒人注意先驗——幾乎所有 RL 實驗都是從零開始。但我們花了幾十年的迂迴才意識到,也許優先順序應該完全反過來。下半場這個「配方」正在徹底改變遊戲規則。回顧一下上半場的玩法:我們開發新的訓練方法或模型,用來在基準測試上爬坡。然後我們再設計更難的基準,繼續循環。但這種玩法正在失效,原因有二:這個配方基本上已經把「刷基準」的過程標準化、產業化了,不需要多少新的點子。隨著配方的規模化和泛化,你為某個特定任務設計的新方法,可能只能提升 5%;而下一代 o-series 模型即便沒有專門針對這個任務,也能直接提升 30%。即便我們設計出更難的基準,也會很快(而且越來越快)被這個配方解決。我的同事 Jason Wei 畫過一個很漂亮的圖,把這種趨勢表現得很清晰:那麼下半場還能玩什麼?如果新的方法已不再需要,而更難的基準也會越來越快被解決,那我們接下來該做什麼?我認為我們需要從根本上重新思考「評估」。這不僅僅是去設計新的、更難的基準,而是要徹底質疑現有的評估方式,並創造新的評估體系,從而逼迫我們去發明超越現有「配方」的新方法。這很難,因為人類有慣性,幾乎不會去懷疑最基本的假設——你習以為常地接受它們,卻沒意識到它們只是「假設」,而不是「規律」。舉個關於慣性的例子:假設你在 2021 年設計了一種基於人類考試的評估方式,這是一個極其大膽的想法。但三年後,這個方法就已經飽和了。你會怎麼做?最可能的做法就是——設計一份更難的考試。或者,假設你解決了簡單的程式設計任務,那你會怎麼做?很可能就是去找更難的程式設計任務來解,直到達到 IOI 金牌水平。這種慣性很自然,但問題在於:AI 已經在國際象棋和圍棋上擊敗了世界冠軍,在 SAT 和律師資格考試中超過了大多數人類,甚至在 IOI 和 IMO 上拿下了金牌。可世界並沒有發生太大改變——至少從經濟和 GDP 的角度來看如此。我稱之為效用問題,並認為這是 AI 最重要的問題。也許我們很快就能解決效用問題,也許不會。但無論如何,這個問題的根源可能出奇地簡單:我們的評估方式在很多基本層面上與現實世界的設定並不一致。舉兩個例子:- 在評估中,任務「應該」自動運行:通常智能體接收任務輸入,自主執行,然後得到一個獎勵。但現實中,智能體必須在任務過程中持續與人類互動——你不會只給客服發一段超長的文字,等上 10 分鐘,就指望對方給你一份完整的回覆解決所有問題。通過質疑這種評估設定,人們發明了新的基準:要麼把真實人類納入環節(如 Chatbot Arena),要麼引入使用者模擬(如 tau-bench)。- 評估「應該」是 i.i.d.(獨立同分佈) 的。如果你有一個包含 500 個任務的測試集,就會獨立運行每個任務,最後取平均得到一個總體指標。可在現實中,我們解決問題往往是順序進行的,而不是平行。比如,一個 Google 的軟體工程師(SWE)在處理 google3 的問題時,隨著她對程式碼庫越來越熟悉,效率會越來越高;但一個 SWE 智能體在同一個程式碼庫中解決了很多問題,卻無法獲得這種熟悉度。我們顯然需要長期記憶的方法(事實上已經有一些了),但學術界既沒有合適的基準來證明其必要性,也缺乏質疑 i.i.d. 假設的勇氣——而 i.i.d. 一直以來是機器學習的基礎。這些假設「一直以來」就是如此。在 AI 的上半場,基於這些假設去設計基準是沒問題的,因為智能水平還低,提升智能基本就等於提升效用。但現在,這套通用配方在這些假設下幾乎必定能奏效。所以,在下半場的新玩法是:我們開發新的評估方式或任務,以衡量真實世界的效用。我們用現有配方去解決它們,或在配方上加入新的元件,然後繼續循環。這個遊戲很難,因為它是陌生的。但它同樣令人興奮。上半場的玩家解決的是電子遊戲和考試,下半場的玩家則有機會靠建構真正有用的智能產品,打造市值數十億甚至數兆美元的公司。上半場充斥著方法和模型的漸進改進,而下半場會對它們進行一定的「篩選」。這套通用配方會輕易擊敗那些漸進式的方法,除非你能設計出新的假設,打破現有配方。那時,你才會做出真正改變遊戲的研究。 (APPSO)
合肥一中畢業的姚順雨,出任騰訊首席AI科學家
這位年僅27歲的AI界頂尖人才為合肥一中2015屆校友如今已成為中國科技巨頭AI戰略佈局的關鍵核心今天上午合肥一中官微發佈推文講述了該校傑出校友姚順雨在校時的故事姚順雨的成長軌跡堪稱“學霸範本”。初中就讀於合肥45中,高中考入合肥一中後,他便展現出過人的電腦天賦,2014年斬獲全國資訊學奧林匹克競賽(NOI)銀牌。姚順雨在合一校園(倒數第二排左五)。2015年高考,他以704分、安徽省理科第三的優異成績,考入被譽為“天才集中營”的清華大學交叉資訊研究院“姚班”,主修電腦科學,其間不僅擔任姚班聯席會主席,還聯合創辦了清華大學學生說唱社,兼具學術深度與多元才華。姚順雨在清華“姚班”。2019年,姚順雨遠赴普林斯頓大學深造,專攻自然語言處理與強化學習,2024年順利獲得電腦科學博士學位。姚順雨在芝加哥學習交流。在合肥一中學習期間,姚順雨便是大神級的存在。關於姚順雨,還發生一件有趣的事:2015年高考出分後,姚順雨還專門來找校領導,主動“懺悔”,說由於自己的低級錯誤,讓大合一錯過了一個“全省頭名”,於可愛中彰顯了他對母校的榮譽感與責任感。而在班主任杜敏老師眼裡,姚順雨是個非常有想法、做事有規劃的孩子,不僅是理科大神,而且熱愛文學、喜歡rap和籃球、舞蹈等,可以說是個全面發展的學霸。姚順雨在MIT學習交流。學術生涯中,姚順雨已創下多項重磅成果。博士期間提出的思維樹(Tree of Thoughts)框架,大幅提升了AI決策模型的複雜問題解決能力;研發的ReAct方法首次建構“推理—行動”智能體範式,成為全球語言智能體開發的主流技術;2024年博士畢業後,他直接加入OpenAI擔任研究科學家,深度參與智能體產品Operator、DeepResearch及電腦使用智能體(CUA)的核心研發,為語言智能體領域的開啟與發展奠定了基礎性貢獻。2025年5月,他以最年輕入選者身份躋身《麻省理工科技評論》“35歲以下科技創新35人”中國區名單,學術實力與創新潛力獲國際權威認可。 (安徽日報)
阿里字節騰訊的CEO身旁都有了一個AI科學家
姚順雨到騰訊,終於得到官方確認。12月17日,騰訊升級大模型研發架構,一方面,新成立AI Infra部、AI Data部、資料計算平台部,全面強化大模型的研發體系與核心能力;另一方面宣佈,“Vinces Yao”,也就是前OpenAI明星研究員姚順雨,出任“CEO/總裁辦公室首席AI科學家”。他將直接向騰訊總裁劉熾平匯報,同時兼任AI Infra部、大語言模型部負責人,雙線向技術工程事業群總裁盧山匯報。這裡首先有三個資訊值得注意:第一,騰訊第一次有了總辦首席AI科學家的崗位。第二,這個崗位夠靠近騰訊權力中心。第三,在這個位置上的是一位AI界非常年輕的明星人物。這讓人想到字節和阿里先前的人員和組織調整動作,至此,三家中國網際網路巨頭在AI時代也集體把AI科學家「安插」到了自己的權力中心。阿里字節騰訊,都把AI拉向權力中心位置對巨頭來說,組織中心位置的調整併不容易。而三家頭部大廠,都想辦法把AI拉向了集團決策的核心位置。先看阿里。不久前,阿里雲CTO、通義實驗室負責人周靖人,正式晉陞為阿里巴巴合夥人。這是他個人的職業巔峰,也是阿里AI戰略演進的關鍵訊號。阿里合夥人團隊已做精簡,周靖人的入選,標誌著阿里首次將一位純技術背景的AI科學家,正式引入權力中心。早先,周靖人離開微軟,以阿里雲首席科學家身份加入阿里,後又擔任阿里雲CTO。 2023年,吳泳銘上台,兼任阿里雲董事長與CEO。同時,阿里明確「AI驅動」為集團一大戰略重心,達摩院內部部分AI團隊重組為通義實驗室,由周靖人掌舵。隨後周靖人帶領團隊,推進通義千問系列模型研發,並促成Qwen成為全球最受關注的開源模型之一,這是阿里拿到AI時代船票的關鍵動作。同時,阿里也在組織架構上把AI拉到了更核心的位置。從2025年8月起,阿里實質上終結了「1+6+N」的橫向分拆模式,重新收縮為四大部門,在集團層面更明確了「AI+雲」的重要地位。再看字節。2023年到2024年,字節跳動逐步確立了兩大核心AI組織,Seed與Flow。一個專注底層大模型研發,一個負責將大模型落地為具體產品。其中,Seed部門由原TikTok技術負責人朱文佳主導,並直接向CEO梁汝波匯報。而2025年初,原Google副總裁吳永輝加入Seed,同樣直接向梁汝波匯報。吳永輝在Google曾拿到Google Fellow頭銜,為Gemini做出了重要貢獻。他的加入進一步凸顯了字節對基礎研究的重視。之後,在2025年10月,Seed便完成新一輪架構調整,過渡期快速度過,吳永輝正式成為Seed的唯一負責人,直接向字節最核心管理者匯報,並對外強調Seed的首要目標是探索智能上限,專注長期研究。騰訊的調整則相對滯後。它先是2023年集中攻關底座大模型,隨後將AI產品線移向離商業更近的部門,推出元寶等C端產品。到了2025年,騰訊AI有更密集的調整,內部關係也逐漸清晰。2月,騰訊將原本散落在不同事業群的C端AI產品進行整合,形成了以CSIG核心的AI產品矩陣。 4月,混元研發團隊內部拆分為大語言模型部與多模態模型部,確立演算法研發的雙軌制。而眼下,騰訊新成立AI Infra部等組織,重新整理了AI大模型研發體系。姚順雨任職得到官宣,則讓騰訊終於也有了直通權力核心的AI科學家。把AI科學家放到CEO身邊,能帶來啥梁文鋒說,創新缺的肯定不是資本,而是缺乏信心,以及不知道怎麼組織高密度的人才,實現有效的創新。AI的競爭是頂尖人才和組織度的競爭。既需要合適的頂尖人才,還得把他們放到合適到位置,再匹配相應的組織調整,才能真正加速AI處理程序。字節阿里是如此,騰訊要做的是如此,Google也是如此。2023年,Google將曾開發出Transformer架構的AI實驗室Google Brain和開發出AlphaGo的Deep Mind合併,成立了全新的Google Deep Mind。 2025年初,又將Gemini App團隊和AI Studio開發者團隊也全部劃歸Deep Mind管理,實現了AI算力、人才和模型研發的集權,並由Demis Hassabis統一領導。同時,Hassabis和Google首席科學家Jeff Dean都直接向CEO匯報。 GoogleAI上的密整合果,離不開這種組織上的支撐。而這些巨頭最突出的共通性,就是把AI科學家放到了靠近權力中心的關鍵位置。總的來看,一個AI科學家走向舞台中央的時代正在來臨。這帶來許多好處。過去,AI部門在網際網路大廠往往是中台或實驗室性質,科學家向業務總裁匯報。如今AI科學家地位提升,意味著AI在內部的決策權升級。同時,當AI部門有了更大權力和更多資源,還可以藉助各自AI掌門人的技術直覺,讓錢更準確地投向技術前沿,提高花錢的效率。此外,AI科學家在企業內受到重視,還能帶來流量與聲譽。就像羅福莉加入小米,在發佈MiMo-V2-Flash大模型之前,已經提高了小米AI的外界關注和討論。而姚順雨在騰訊拿到超規格待遇,衍生的好處也只多不少。除了以上幾點,最明顯的是為業內招募背書。騰訊總辦們已經親自下場,來吸引最頂尖的AI人才。在姚之後,騰訊的求賢之路可以更順暢一點。而更實在的好處,是姚順雨專長與騰訊AI需求互補。作為AI大模型推理與智能體方向的頂尖青年學者,姚能幫騰訊補齊推理短板,加速Agent場景落地。而騰訊最有想像力的AI事業之一,就是給微信打造Agent。現在一個微信Super Agent,有機會更早亮相了。 (硅星人Pro)
27歲的姚順雨,出任騰訊「CEO/總裁辦公室」首席AI科學家,向總裁劉熾平匯報
內媒消息,騰訊於周三(12月17日)宣佈,姚順雨Vinces Yao出任「CEO/總裁辦公室」首席AI科學家,向騰訊總裁劉熾平匯報;同時兼任AI Infra部、大語言模型部負責人,向技術工程事業群總裁盧山匯報。姚順雨的母校合肥一中發文題為《傑出校友 | 這條重磅新聞關於2015屆校友姚順雨》,稱這位年僅27歲的AI界頂尖人才,為合肥一中2015屆校友”。其初中就讀於合肥45中,高中考入合肥一中後,2014年斬獲全國資訊學奧林匹克競賽(NOI)銀牌;2015年高考,他以704分、安徽省理科第三的優異成績,考入清華大學交叉資訊研究院“姚班”,主修電腦科學,擔任姚班聯席會主席,聯合創辦了清華大學學生說唱社;2019年,姚順雨遠赴普林斯頓大學深造,專攻自然語言處理與強化學習,2024年順利獲得電腦科學博士學位;在博士期間提出的思維樹(Tree of Thoughts)框架,大幅提升了AI決策模型的複雜問題解決能力;研發的ReAct方法首次建構"推理—行動"智能體範式,成為全球語言智能體開發的主流技術;2024年博士畢業後,他直接加入OpenAI擔任研究科學家,深度參與智能體產品Operator、DeepResearch及電腦使用智能體(CUA)的核心研發,為語言智能體領域的開啟與發展奠定了基礎性貢獻;2025年5月,他以最年輕入選者身份躋身《麻省理工科技評論》“35歲以下科技創新35人”中國區名單。在高中班主任眼裡,姚順雨是個非常有想法、做事有規劃的孩子,不僅是理科大神,而且熱愛文學、喜歡rap和籃球、舞蹈等,可以說是個全面發展的學霸。 (瑞恩資本RyanbenCapital)
騰訊“坐不住”了,官宣大牛負責AI
騰訊今日對外確認,姚順雨(Vinces Yao)已正式出任騰訊“CEO/總裁辦公室”首席AI科學家,直接向騰訊總裁劉熾平匯報。在此角色之外,他兼任騰訊AI基礎設施(AI Infra)與大語言模型部負責人,並在大模型組織架構調整中承擔核心職責。此任命標誌著騰訊在AI研發體系的戰略聚焦。有媒體報導,騰訊近期完成了一次組織調整,正式新成立AI Infra部、AI Data部、資料計算平台部。姚順雨畢業於國內頂尖的清華“姚班”電腦科學精英班,後在美國普林斯頓大學獲得電腦科學博士學位,並在機器學習與大規模語言模型研究領域積累深厚科研成果。他曾擔任OpenAI研究員,參與智能體(Agent)與大規模AI系統設計的前沿工作。這樣的學術與工程交融背景,是其被騰訊重用的關鍵原因。題外話,據傳當年清華同一屆有三位同學都叫“姚順雨/宇”!2019年他們一起畢業:一個是本文所指的主角,清華姚班的AI大神,本科rap社創始人,後來普林斯頓博士畢業進OpenAI搞大模型,最近去了騰訊;一個是物理天才,本科拿特獎在頂刊發論文,後來跑去Stanford念PhD,又加入Anthropic搞AI,剛離職加入 Google;還有一個是人文學院的才女,雙學位加身。這名字是不是和“堯舜禹”有大神般的玄學?騰訊為何“坐不住”了:大模型競賽加速騰訊近期發佈了混元大模型最新版本Tencent HY 2.0,採用混合專家(MoE)架構、支援超長上下文等領先指標,並已接入公司內多項產品與雲服務。然而在AI領域,競爭持續加劇:友商壓力:阿里巴巴旗下的通義千問(Qwen系列)持續推出高規格模型,在中國市場與國際競賽中都有顯著存在感。即便談到應用場景,豆包的體驗口碑也越來越不錯,加上千問和靈光的騰空而出,當它們的下載數量快速增長超過千萬等級時,騰訊的各大產品未來是否有足夠的“網路效應”都不好說。就連小米也挖了“天才少女”羅福莉(當然,羅福莉本人反對網路神化她)。國際對手:Google等發佈的Gemini-系列模型(例如Gemini 3 Pro)展示了在推理能力與多模態能力方面的提升,引發全球AI開發者關注並對中國AI廠商提出競爭壓力。在這樣的背景下,騰訊不能僅靠應用場景護城河(如微信生態、QQ、遊戲等),“基礎模型能力”的競爭已是核心戰場。因此通過引進頂尖研究人才來強化模型底層架構與演算法研究,是一次戰略升級訊號。這也是對市場競爭壓力與AI生態擴展趨勢的直接回應。姚順雨理念與對騰訊AI實力的潛在影響雖然公開報導中較少具體引言,但從其在OpenAI的工作看:他是“語言智能體(Agent)”研究與執行框架的實踐者,這類框架強調模型在真實世界環境中“感知—推理—行動”的能力。這類能力正是下一代AI產品差異化競爭的關鍵——不只是回答問題,而是驅動真實複雜任務執行。作為首席AI科學家,姚順雨的核心理念可概括為:提升模型在實際環境中的智能執行能力與可擴展性,從基礎演算法研究到AI產品落地的全鏈條能力強化。從OpenAI經驗來看,他強調智能體驅動的決策推理與多工泛化能力,這將有助騰訊從工程實現者向科研與技術驅動者並進。預計這種轉型將帶來:更具通用智能與大規模推理能力的大模型架構更高效的AI訓練與推理基礎設施在未來騰訊各大產品線中實現更深度AI功能融合如果進展順利,底層AI的能力將惠及騰訊旗下所有的業務線,特別是微信這樣的超級app,反過來說,騰訊也不得不快速行動了,只靠短影片已經不夠撐起微信未來的想像力了。市場反應與騰訊股價表現截至2025年12月17日收盤,騰訊控股(0700.HK)股價約 605.00 港元,較前一交易日上漲約 1.4% 左右。該股在過去一周內經歷小幅波動,但整體維持在 590 —— 615 港元區間震盪,並明顯高於年初低點,反映投資者對核心業務持續增長及AI戰略佈局的謹慎樂觀態度。歷史資料顯示騰訊股價在過去一個月雖有調整,但並未出現明顯下跌趨勢。AI競爭加速與中國科技股回暖預期是推動騰訊股價表現的潛在因素之一。同時,技術與產品發展進度、政策環境與宏觀經濟走勢均將繼續影響後續股價走勢。近期有海外資金持續流入中國AI相關類股,亦為市場提供支撐。小結據The Information近期報導,騰訊正在高價搶奪字節跳動的AI團隊,在過去數月裡,以加倍薪資積極挖角字節旗下的頂尖AI人才。根據36氪報導,《智能湧現》瞭解到,如今領導AI Infra部、大語言模型部負責人的姚順雨在加入騰訊後,已經幫助混元招募到了更多的人才,如字節、阿里、AI六小虎(Kimi、MiniMax、智譜、階躍星辰、百川、零一萬物)中的數位核心員工。騰訊本次對AI人才與研發架構的戰略調整,透露出它在AI基礎技術競爭中的“坐不住感”。從聚焦場景生態到強化底層智能協議與模型能力,騰訊正試圖在新一輪AI競賽中搶佔更有利位置。而姚順雨作為“連結科研與產品實現”的關鍵人物,其理念與背景或將為騰訊AI實力帶來實質性提升。股價在此消息刺激下的小幅走強,也反映出市場對騰訊AI戰略潛力的認可。 (首席商業評論)
中國科學家領銜,人類首次看清黑洞“舞步”
12月12日中午,在北京中國科學院國家天文台會議室內,研究員劉繼峰、王亞楠與中國科學院大學副教授黃樣、華中科技大學教授雷衛華等正在聚焦1.2億光年外的一場“宇宙風暴”—— 一顆恆星被超大質量黑洞撕裂,殘骸形成熾熱的吸積盤,並驅動噴流同步擺動。就在一天前,由他們領銜、聯合30余家國內外機構發表於《科學進展》的研究成果,首次在潮汐瓦解事件(TDE)AT2020afhd中獲得有力觀測證據,“看清”了黑洞系統的“舞步”——吸積盤與噴流協同進動。黑洞系統吸積盤與噴流協同進動的藝術想像圖。張旭/繪  中國科學院國家天文台供圖AT2020afhd位於星系LEDA 145386中心,距地球約1.2億光年。潮汐瓦解事件是指當恆星過於靠近星系中心的超大質量黑洞時,被其強大潮汐力撕碎的劇烈天文現象。部分恆星碎片在回落過程中形成高溫吸積盤,釋放出強烈輻射。團隊認為,吸積盤與噴流同步進動很可能源於廣義相對論預言的“蘭斯-蒂林效應”,即旋轉黑洞拖曳周圍時空,使傾斜吸積盤及其垂直噴流整體周期性擺動。儘管理論對黑洞系統的“舞動”形式早有預測,但獲得清晰觀測證據極具挑戰性。2024年1月,王亞楠通過“暫現源名稱服務網”注意到AT2020afhd。“發現這個事件存在X射線輻射後,我們立刻觸發了更高頻次的X射線監測。”她說,“但當時並沒有預期這個源會這麼特別。直到監測了一個月後,發現它的X射線輻射存在劇烈的光度變化。”團隊決定啟動密集監測,於是迅速組織國際協同觀測,開展了為期一年多的多波段高頻次觀測。轉機出現在事件發現215天後:X射線光變呈現周期約19.6天、振幅超10倍的准周期振盪;射電波段同步出現超4倍振幅變化。“這種跨波段、高振幅、准周期的同步行為表明,吸積盤與噴流之間存在剛性連接,像陀螺一樣圍繞黑洞自轉軸共同進動。”王亞楠表示。團隊建構的協同進動模型成功復現觀測資料,並對系統幾何、黑洞自旋及噴流速度等參數作出明確限制。目前,在國家天文台牽頭下,國內已成立潮汐瓦解事件研究小組,定期開展學術交流,為重大發現提供智力支撐。展望未來,劉繼峰表示:“隨著‘司天工程’(GOTTA)、‘天關’衛星等新一代時域天文設施運行,我們將實現全天區深度、多波段、高頻次監測,發現更多此類事件,深化對黑洞吸積物理的理解。” (中國科學報)