#姚順雨
當姚順雨的巨臉降臨中國AGI
1月10日,AGI-NEXT前沿峰會的主會場大廳裡擠滿了人。這是由清華大學基礎模型北京市重點實驗室發起的前沿峰會。三個小時的議程,四個演講和一個pannel,總計六個嘉賓,幾乎每一個都是時下關注的熱門人物:比如,剛剛登陸港股的智譜創始人唐傑、不太愛出門參加活動的Kimi創始人楊植麟、正在向C端Super App發起衝鋒的阿里巴巴Qwen負責人林俊暘,以及近期在官宣加入騰訊後首次露面的前OpenAI研究員姚順雨。其中前三位分別做了技術報告分享,而姚順雨則參加了隨後的AGI-Next圓桌對話。在會議邀請函裡,姚順雨的名字出現在了一個不那麼起眼的角落裡:沒有主題報告,名字被悄悄放在了楊強、唐傑和林俊暘後面。但很快許多人都立刻意識到,這將是這位剛剛官宣加盟騰訊的前OpenAI研究員、網傳各種版本天價薪酬的合肥天才少年,作為中國估值最高的網際網路公司的AI一號位,在回國後的首次公開露面。從一開始,會場上的觀眾席裡彷彿就有一種默契。主持人開始介紹嘉賓,在一眾領導之後,不少人都伸長了脖子張望,但都沒有聽到那個期待中的名字。有人開始疑惑,但好像有些嘉賓的名字也沒有被提及,所以懷疑他可能是和其他人一同待在貴賓室裡。當然,或者可能乾脆未必真的會來——畢竟誰沒見過在活動當天爽約的“大佬”呢?這種懷疑在圓桌開始的那一刻幾乎被坐實了。圓桌原本有五個人,但舞台只搬上了四張沙發。LED大螢幕上還打出了姚順雨的銘牌,但他的頭像下卻空空如也。加拿大皇家科學院院士和工程院院士楊強、智譜創始人唐傑、Qwen負責人林俊暘和主持人、拾象科技創始人李廣密在台上一一落座。然後主持人開始對嘉賓講話。坐在我側前方的中年大哥說了一句,“哦,沒來啊。”主持人還沒提完問題,姚順雨巨大的騰訊會議頭像框就突然“閃現”在了三個嘉賓大佬的頭頂。那是滿滿一整屏的LED,把他的頭塑造得如此之大,以至於沒有一個嘉賓的高度能超過他的鼻尖。唐傑、楊強、林俊暘我上一次看到這樣的“奇景”,還是在《1984》。沒有觀眾能接受這樣戲劇性的一幕,於是會場爆發出了一陣熱烈的笑聲。剛才那位扼腕的大哥又說,“果然是YaoShunYu啊。”姚順雨似乎在視訊裡比照片更好看。他臉上堆滿了1998年生年輕人該有的膠原蛋白,發量充沛,笑起來很有鄰家大男孩的親和力——尤其在小紅書裡,大量的女性使用者湧入評論區稱讚他是“Hot Nerd”、“理想型之理想型”、“像許嵩”、“大臥蠶狗狗眼”,並為其“英年早婚”而深感惋惜。可能是看到了現場的情況,姚順雨頭顱左右轉動、眼神裡夾雜著一些迷茫。我當時看著那場面,心想那簡直就是過去半年時間裡,他本人在中國AGI江湖傳說的最佳側寫:這個年輕人以不置可否的網路傳聞方式,猝不及防地出現在了AI江湖裡,掌控了一家市值約等於字節跳動(3500億美金)和阿里巴巴(3600億美金)之和的超級網際網路公司(5.5兆港幣)的AI部門,最後無意間將那些年齡上能做他爺爺輩的研究者置於一種略顯尷尬的場面裡。而這背後巨大的故事張力,又在AI圈外塑造了一種遠遠超出技術與商業本身的爽文敘事。至於他本人的反應——他的理性非常清楚地知道自己的形象將處在一個巨大的會議廳裡,但身體的反應卻完全沒有處於嘈雜人群中的實感。面對身後的龐然大物,主持人選擇話頭扔給姚順雨。姚順雨此時像是反應過來,然後笑著問所有人,“我現在是不是一張巨大的臉在(螢幕上)”。所有人聽完又再笑。而這就是1998年出生的騰訊AI一號位,在中國頂級舞台首發亮相的第一分鐘。其樂融融。姚順雨講了麼?人們對姚順雨充滿好奇,除了對於年齡和網傳誇張年薪的反差感外,自然還包含了對騰訊接下來AI動向的好奇。正如Qwen林俊暘在回答主持人問題時,拿姚順雨打趣說:“一代一代的人塑造了這些公司,比如說今天順雨到騰訊之後,可能騰訊變成一個有著順雨基因的公司。”姚順雨在回答問題時,有時顯得很謹慎,說話比任何人都慢,會字斟句酌地吐出幾個同義詞。但我想,我們依然能夠通過這次對談,瞥見未來姚順雨乃至騰訊AI未來的審美偏好和發力方向。以下是對姚順雨相關表態的整理和分析:(一)“騰訊肯定還是一家To C基因更強的公司。”(1)我們會思考,怎麼樣能夠讓今天的大模型或者說AI的發展給使用者提供更多價值——很多時候是額外的Context。比如,今天我想去吃什麼?這個事情不需要更大的模型能力,而是需要額外的Context,比如今天特別冷,需要吃暖和的。我和老婆聊了很多天,可以把聊天記錄轉發給元寶。(2)對於To C來說,大部分人大部分時候不需要用到這麼強的智能,可能今天用ChatGPT和去年相比,寫成交代數和伽羅瓦理論的能力變強的,但是大部分人大部分時候感受不到。To C的問題是DAU等指標和模型智能不相關,甚至相反。(二)“ToB 在中國很難。”(1)生產力的革命,包括很多中國的公司做Coding Agent,需要打很多海外市場。我們會思考怎麼把自己先服務好。大公司本身就已經有各種各樣的應用場景、各種各樣需要生產力變得更好的地方。(2)“To B 的智能越高,代表生產力越高,值錢的也越來越多,大部分時候很多人就願意用最強的模型——強的模型和稍微差點,或者弱的模型它的分化會越來越明顯。(3)to B 的垂直整合未必成立,因為模型層和應用層需要的能力還是挺不一樣(比如ChatGPT Agent 相比於Manus);但 to C 的垂直可能還是成立的,無論是ChatGPT還是豆包,模型和產品是非常強耦合去緊密迭代的。(4)Anthropic不做什麼創新,老老實實把事情做好,就會有價值;(5)即便所有的模型訓練全部停止,to B也可以有很大的空間,為GDP提供5-10%的(正面)影響。(三)“自主學習在矽谷是一個共識”(回答下一個範式的問題)(1)自主學習不是一種方法論,而是資料或者任務,本質是討論基於什麼樣的獎勵函數;(2)ChatGPT在利用使用者的資料不斷彌合人聊天的風格;Claude 寫了Claude 項目95%的程式碼,這可能都是一種自我學習;(四)“中國對於刷榜和數字看得更重一些”(1)DeepSeek做得比較好;Claude在榜單不是很高,但是大家都知道這個東西好用。(五)“對於中國從跟隨者變引領者,我還是挺樂觀的”(1)任何一個事情一旦被發現,中國就很快會復現;(2)核心(變數之一)在於光刻機能否突破來解決算力優勢;林俊暘疑似對姚順雨部分觀點的不同意見:(一)關於自學習範式:人類不能通過互動讓AI變得更厲害,只會讓它上下文變得越來越長,AI變得越來越笨。自動化AI未必需要自主學習,AI訓練AI就會很強,但持續理解使用者會很重要。AI自主性可能導致安全風險,“比如說今天主動產生一些想法,往會場裡面扔一顆炸彈”。拿我們自己獻醜,我們自己的Memory看起來知道我過去幹了什麼,但是只是記起來過去事情,每次叫一遍我的名字,其實並不顯得你很聰明(未來是否實現還要看更多時間和技術觀測)(二)關於to B“垂直整合”邏輯未必成立:當然Manus確實很成功,套殼是不是未來,這本身也是個話題。今天到這個環節,我比較同意“模型即產品”。我們現在Agent已經變的託管式的Agent,而不是我要不斷給你來來回回互動的那種形式。從這個角度來說,它對模型的要求是很高的——模型就是這是這個Agent本身,Agent就是這個產品本身,如果它們都是一體化的話,今天做基礎模型本身,其實也就是在做產品。總結如果從姚順雨的發言,可以(不負責任地)大概猜到騰訊接下來的AI戰略:第一,騰訊會發力圍繞社交應用做Agent,重視上下文工程和自進化的主打C端市場。第二,B端市場繼續保守。第三,不會太去沖榜。姚順雨被官宣是他在騰訊漫長Landing的一個里程碑。但在如何把他的基因放進騰訊之前,可能先要想好,如何把騰訊的基因融進自己的身體裡。而相比於姚順雨的降臨,我們大概更期待他能給騰訊龐大生態帶來嶄新的變化。用姚順雨那篇知名的部落格的話說,我們正處在AI的中場休息——所以,“歡迎來到下半場”。姚順雨和他的騰訊AI會成為那個開球人嗎? (矽星人Pro)
姚順雨:騰訊在AI時代的護城河!還是易守難攻的好平台!
12月17日,騰訊聘請了前OpenAI研究員姚順雨擔任總辦首席AI科學家,直接向總裁劉熾平匯報。很多人擔心騰訊AI掉隊了,但姚順雨其實在消息公佈之前三個月就曾經談到騰訊的護城河:微信還是一個易守難攻的好平台。這或許也是他選擇加入騰訊的重要原因之一,他甚至還聊了如果他是微信一號位會怎麼做的話題。原文很長,談的面很廣,我挑選了與騰訊等巨頭相關的內容:1、談應用公司的護城河——資料飛輪李廣密:在你看來,應用公司的資料飛輪,對他們來說重要嗎?或者說,在什麼環境下才能形成?我感覺,Chatbot產生的是偏好資料,好像沒什麼資料飛輪;Code可能有思考過程的資料,這種思考過程的資料代表一類能力,可能是有用的;像Canvas也好,Artifacts也好,可能是有思考過程的資料,這類可能有機會形成很強的資料飛輪效應。姚順雨:大多數公司還沒有形成資料飛輪;他們依賴模型變好,利用模型變好的溢出能力。如果你要有資料飛輪,首先你要能自己去訓模型,並且能通過互動有很好的reward(獎勵),使你能把好的資料和不好的資料分開。【一涵註:這就是騰訊必須自己做AI而不是依賴DeepSeek的原因。】比較成功的是Midjourney,有非常清晰的reward——人更喜歡那張圖,這個reward和應用是對齊的,reward做得更好,公司就更成功,模型也更好——一切都對齊。有了這種情況,才能自己訓練模型,做資料飛輪。這個過程必須比較非主線。因為如果很主線,我也可以通過Pre-Training或RL提升能力,靠泛化或其他方式。總的來說,大部分公司目前還沒有形成飛輪。【一涵註:比如程式設計之類的主線任務,每個巨頭公司都會自己訓練好,不是創業公司能做的。】2、超級巨頭有動力繼續推動中心化張小珺:你對未來Agent生態的構想會是什麼樣?現在有點像,當年大家都在創業做App的時候,如果再往後推演幾年,這個世界會是什麼樣?姚順雨:很難說。但肯定會有很多不同的互動方式,創造出不同的系統。OpenAI這樣的公司,會想繼續推進一個中心化的助手系統,有更多環境、更強能力,做更多事情。也會有不同的生態系統,有不同的互動方式,會訓練完全不同的模型。甚至從Pre-Training開始,所需要的能力和很多東西都不同。【一涵註:比如OpenAI正在訓練一個商業專用的模型,在判斷出使用者提問商業資訊的時候,專門用來推送廣告,並顯著標識廣告資訊,來減少使用者對主模型的信任問題。】比如,另一種互動方式可能是,我想造一個朋友。這個朋友不需要數學、物理特別強,數學太強反而不自然。它記憶不一定特別好,會犯錯,有感情,也不是特別rational(理性)。但這也是有價值的——可能有人會做這種事。這類東西很難和ChatGPT比強弱,它們是不同應用,有不同價值。也可能出現一個由Agent組成的社會。為什麼這個世界上很多人有價值?不是因為他們的數學或編碼能力強,而是因為他們擁有別人沒有的資訊。中間商本質是擁有資訊差。擁有資訊差的人會想維護自己的權利和資源。這樣的人會發明出更Multi-Agent(多智能體)或更 Distributed Network(分佈式網路)。在交易世界裡,資訊很重要,每個人只擁有資訊的一小部分,這種情況會出現新的不同形態。可能是Multi-Agent,每個人有自己的Agent,Agent之間可以與百萬甚至更多人交換資訊,達成交易或某些目的。根本上,現在非常強的巨頭和重要節點,有動力繼續推動中心化。但在中心化之外的力量,也有動力做一些非中心化的事情。這個世界可能不會是單方壓倒另一方,雙方都會有自己的力量。而這個世界智能的邊界、研究的邊界,可能不是由一家機構定義,而是由不同Super App共同定義的。【一涵註:有些公司可以用去中心化的形式行中心化之實。比如拼多多創業早期提倡分佈式人工智慧,就是讓每個人擁有一個有自己隱私資訊的Agent,保護你的私有資料,但是同時也會和其它Agent溝通來提升購物前的信任感和推薦精準性,以及做工廠定製降低價格。然而,這些資料並不真是我們私有的,比如我們想把這些資料打包帶走到其他平台,例如淘寶或者抖音,那是不可能的,因此這些平台就構成了資料的壟斷和中心化。】3、做垂直產品還是通用產品?姚順雨:iPhone或iPad是非常通用的產品形態,但它一開始,都有一些Killer App支援它有momentum(增長動能)。包括ChatGPT,包括微信,很多偉大產品都這樣。你有一個足夠通用、簡單,或第一性的互動方式,它有很多想像空間。但你去維護它,或者設計路徑的時候,你能有各種各樣的應用,使它不停地增長。【一涵註:最典型的例子是微信和抖音,公眾號、朋友圈、小程序、視訊號都是微信這個通訊產品催生的,早已和WhatsApp等單純的通訊產品不同(馬斯克都說歐美沒有,他要copy一個)。而抖音商城、汽水音樂、紅果短劇等APP都是抖音這種短影片推薦的互動方式衍生出來的。因此微信和抖音本質上都是通用產品,是會產生競爭的平台型公司,而不是單純的社交軟體和視訊軟體。現在,ChatGPT也正在試圖把自己打造成通用產品,如加入了應用程式商店。可能產生通用產品的AI是對過去的網際網路平台都有威脅的。】4、如果姚順雨是科技巨頭的CEO,會怎麼看待AI?李廣密:順雨,如果你是一個全球超大網際網路或科技公司的CEO,今天這個公司還沒有自己的模型,沒有好的研究文化,甚至沒有好的AI戰略,你作為CEO會怎麼做?姚順雨:首先,我肯定會學習,我會想弄清楚這個事情到底是什麼。如果你作為CEO不懂這個事情,所有事情會變得很難。很多時候,一個公司的bottleneck(瓶頸)就在於,CEO 對這個事理解不夠。如果你不理解,去招一些很好的人、做一些事情,你很可能被他們忽悠。所以,首先要自己學習。【一涵註:這也是為什麼不少成功的AI公司都是自己培養人才來做好,而不是靠挖人。】然後要從創造新的價值來思考問題。畢竟你不是技術專家,而是一個CEO,你有一些場景、一些資源、一些優勢。從第一性原理看,一個新的技術產生了,你要思考的是,怎麼用這些新技術結合你現在的資源去創造新的價值。當然,你可以嘗試做一個和當前業務完全不一樣、但價值非常大的事情,比如ChatGPT,但對大多數公司來說,即使很有錢、很強,也不一定make sense(合理)。所以,第一是自己要學習技術;第二是要思考怎麼創造新的價值。5、如果姚順雨是巴菲特,會怎麼投資AI行業?李廣密:如果你成為了波克夏的CEO(巴菲特的投資公司),未來要拿出500億美金allocate(分配)到AGI行業,你會怎麼allocate這筆錢?——既能體現回報,也能體現對人類的貢獻。姚順雨:這是個很好的問題。取決於你有多少精力,或者有多少資源分配顆粒度。當然現在OpenAI、Anthropic,這些模型層公司,大機率會有更大價值。還有一類很有價值的,是能積累User Context(使用者上下文),或者能建構特殊Environment(環境)的公司。最終如果AI或AGI是一個系統,它需要有Intelligence(智能),需要有Environment,還需要有User Context,或者對使用者的理解。現在有很多User Data(使用者資料)或User Context 的公司,有點像發明車之前的煤炭、煤礦,或者像發明汽車之前的石油公司。從這個角度,微信或大平台,還是一個易守難攻的好平台,它積攢大量的Context。如果Intelligence是一個可以逐漸民主化、逐漸變得便宜、逐漸普及,擁有這樣的平台,擁有這樣的Environment,擁有這樣的Context,可能會是一個很強的壁壘。它可能還是一個很好的投資。【一涵註:所以上一代的巨型網際網路公司,例如已經有不錯的模型、也有大量使用者資料,還有晶片和雲端運算的阿里,以及在全球獲得大量使用者資料的拼多多和抖音,也都是非常值得關注的投資對象。而百度這樣的公司因為移動網際網路時代APP的普遍資料孤島化(李彥宏本人講的),失去了獲取大量使用者資料的機會,因此也沒有太大價值了。】6、如果姚順雨是微信的一號位,會怎麼做?張小珺:今天順雨當了很多公司的CEO,那我再問一個:如果你是微信的一號位,你會怎麼在微信裡做Agent?姚順雨:我可能會不急,先觀望觀望。我好像沒有理由要急。我會觀察,我會學習 AI,會觀察有沒有什麼新的互動方式很有意思。但我不會急著去做很多事——我有易守難攻的地方,為什麼要急著進攻?比較危險的是一個顛覆性的創新。真正的危險,不是說一個類似於微信的東西打敗了微信,而是一個很不一樣的東西打敗了微信。就像微信打敗了QQ。當時擔心的並不是一個類似QQ的東西打敗了QQ,而是一個很不一樣的產品去打敗這個東西。需要對顛覆性創新有所警惕。但如果是這些incremental(漸進式的)創新,這種小的創新,早做晚做可能區別沒有那麼大,也不用太擔心。李廣密:所有人都說微信卡位好,但今天微信還沒有很激進地投入,如果未來Multi-Agents 、Long-Term Memory這些問題解決了,但這個Agent系統不長在微信上,是比較恐怖的。原有網路不一定有價值。姚順雨:這取決於人類的網路會變成什麼樣?你會有更多Agent朋友,還是更多人類朋友?或者你有更多Agent職業上的互動,還是有更多人類職業上的互動?微信上你既有朋友,也有基於職業的互動——比如我要買個東西,我要諮詢律師,對吧?這取決於人類的網路會變成什麼樣。但總會有一個這樣的網路,基於這個網路,肯定會需要有基礎設施,需要有平台。【一涵註:今天的AI其實會對無論是職業的互動,還是情感的互動都可能有巨大影響。比如段永平在26日早上表示:“律師這個職業會受到AI的巨大挑戰!我現在有任何合同都是讓Gemini和ChatGPT看一眼,毛病建議他都可以馬上給出來,非常厲害。”連他這樣等級的企業家都用AI來看合同了,那麼普通人就更可以用了。而情感的互動上,AI算命、心理諮詢也已經很常見,很明顯可以觀察到周圍一些人在和AI比如豆包、DeepSeek交朋友。以上互動的變化大概也是騰訊需要下重注挖姚順雨做AI的重要原因。按照姚順雨的說法,微信有不急的底氣,但會不會出現一個很不一樣的東西打敗了微信,我還是要跟大家一起持續跟蹤觀察。】 (一涵筆記)
騰訊官宣!姚順雨出任首席 AI 科學家,27 歲清華學霸掌舵騰訊 AI 下半場
「追到第一名」的劇本,騰訊可能又要演一遍,這次押注的是 AI。就在今天下午發佈的內部公告中,騰訊表示,知名 AI 研究員姚順雨 (Vinces Yao) 正式出任「CEO / 總裁辦公室」首席 AI 科學家,向騰訊總裁劉熾平匯報;同時兼任 AI Infra 部、大語言模型部負責人,向技術工程事業群總裁盧山匯報。這次任命,釋放的訊號很清晰:騰訊的 AI 正在全面提速,且是帶著「要打硬仗」的架勢。不久前,金沙江創投主管合夥人朱嘯虎在談及國內 AI 競爭格局時直言騰訊還沒真正發力。他還評價稱,騰訊往往等局面打明白後再加速追趕——從第五、第六,追到第三、第二,最後追到第一。今天,騰訊便用實際行動回應了外界的質疑。騰訊升級大模型研發架構,新成立 AI Infra 部、AI Data 部、資料計算平台部。其中,AI Infra 部將負責大模型訓練和推理平台技術能力建設,聚焦分佈式訓練、高性能推理等核心技術,為演算法研發和業務落地提供支撐。王迪繼續擔任大語言模型部副總經理,向姚順雨匯報。劉煜宏擔任 AI Data 部負責人、陳鵬擔任資料計算平台部負責人,均向公司副總裁蔣傑匯報。更關鍵的是,騰訊混元的「成績單」已足夠搶眼。過去一年,混元大模型發佈超過 30 個新模型。12 月 5 日發佈的混元 2.0,在複雜推理與文字生成場景表現國內領先。混元 3D 模型更是保持著全球領先水準,開源社區下載量超過 300 萬。組織調整與密集引才,說到底就是在為高強度的技術攻關補齊兵力、夯實底座。而姚順雨的加盟,無疑是騰訊 AI 戰略中極為重要的一步棋,也讓人不由得期待,他的到來或許會為騰訊 AI 帶來一股全新的氣象。細數姚順雨的履歷,只能用開掛來形容——合肥一中出身、NOI 銀牌得主、高考 704 分勇奪安徽理科探花,擔任過清華姚班聯席會主席,甚至還聯合創辦了清華說唱社,妥妥的全能型人才。普林斯頓電腦博士畢業後,他更是直奔 OpenAI,期間,他曾深度參與 Computer-Using Agent (CUA)、Deep Research 等重要產品。今年 5 月份,憑藉過硬的履歷,他成功入選《MIT 科技評論》「35 歲以下科技創新 35 人」中國區榜單,成為該屆最年輕入選者。圖片來自清華校友總會學術成果也相當能打,他推動了 LLM 從「對話系統」向「任務執行系統」的範式轉變。隨便拎幾篇代表作出來:ReAct (ICLR 2023):將推理與行動結合的經典框架,引用超 4300 次。Tree of Thoughts (NeurIPS 2023):大語言模型的「思維樹」問題求解方法,引用超 4000 次。Reflexion (NeurIPS 2023):引入語言反饋的自我改進智能體,引用超 2600 次。SWE-bench (ICLR 2024):評估語言模型解決真實 GitHub 問題的能力。WebShop (NeurIPS 2022):可擴展的基於語言代理的網頁互動任務。SWE-agent (NeurIPS 2024):面向自動化軟體工程的智能體-電腦介面。……Google Scholar 顯示,他的總引用次數超過 1.5 萬次,h-index 為 24,i10-index 為 29——這個資料在 27 歲這個年齡段,表現相當不俗。巧合的是,今年 5 月姚順雨在一次與張小珺、李廣密的對談中,恰好聊到了微信和 AI 的話題。當時李廣密拋出觀點:微信卡位確實好,但如果未來 Multi-Agents、Long-Term Memory 這些技術成熟了,Agent 系統卻沒長在微信上,那就「比較恐怖」了。姚順雨的回應頗為哲學:「這取決於人類的網路會變成什麼樣?你會有更多 Agent 朋友,還是更多人類朋友?」他進一步解釋,微信既承載社交關係,也承載職業互動——比如購物諮詢、法律服務等。無論人類網路如何演變,總需要基礎設施和平台支撐。面對張小珺的靈魂拷問:如果你是微信一號位,會怎麼做 Agent?姚順雨表示:「我可能會不急,先觀望觀望。」在他看來。微信已經易守難攻,為什麼要急著進攻?真正的威脅不是類似產品的競爭,而是顛覆性創新。就像當年微信打敗 QQ 那樣,危險的是「很不一樣的東西」。除了這次精彩的對談,今年 4 月份姚順雨發表的技術博文《AI 的下半場》同樣在業界引起了廣泛討論。讓AI 下半場總結:AI 正處在中場休息。幾十年來,AI 的主要精力都放在開發新的訓練方法和模型上。事實證明,這條路走得通:從在國際象棋和圍棋上擊敗世界冠軍,到在 SAT 和律師資格考試中超過大多數人類考生,再到拿下 IMO 和 IOI 金牌。寫進歷史的這些里程碑——DeepBlue、AlphaGo、GPT-4 和 o-series——背後都是 AI 方法上的根本創新:搜尋、深度強化學習、規模化訓練以及推理。隨著時間推移,效果一次次被刷新。那現在突然有什麼不同呢?三個詞:強化學習真的能用了。更準確地說,強化學習終於能夠泛化了。經歷了多次迂迴探索和里程碑的積累,我們終於找到了一套能解決各種強化學習任務的有效方法——依託語言與推理。要是你一年前對大多數 AI 研究者說:有一個通用方案能同時搞定軟體開發、創意寫作、IMO 等級的數學題、鍵鼠操作,甚至長篇問答——他們大概會笑你在「幻覺」。因為這些任務都極其困難,很多研究者整個博士階段可能只專注在其中一個方向。然而,這已經成真。那麼接下來會怎樣?AI 的下半場——從現在開始——將把重心從「解決問題」轉向「定義問題」。在這個新階段,評估的重要性會超過訓練。我們不再只是問「能不能訓練出一個模型解決 X 問題?」,而是要問「我們究竟應該讓 AI 去做什麼?又該如何衡量真正的進展?」。要想在下半場脫穎而出,我們需要及時轉變思維方式和技能組合,更接近於產品經理的思路。上半場要理解 AI 的上半場,可以看看它的「贏家」們。到目前為止,你認為最有影響力的 AI 論文有那些?我做了下 Stanford 224N 的小測,結果並不意外:Transformer、AlexNet、GPT-3 等等。這些論文的共同點是什麼?它們都提出了訓練更好模型的重大突破。同時,它們也靠在某些基準測試上取得(顯著的)提升,才得以順利發表。但還有個潛在的共性:這些「贏家」幾乎全都是訓練方法或模型,而不是基準或任務。就算是公認最有影響力的基準之一——ImageNet,它的引用量也不到 AlexNet 的三分之一。而在其他地方,方法和基準的對比更懸殊。比如,Transformer 的主要基準是 WMT'14 翻譯任務,該研討會的報告大約有 1300 次引用,而 Transformer 論文字身超過 16 萬次。這說明了上半場的遊戲規則:重點在於創造新的模型和方法,而評估和基準雖然必要,卻始終是次要的。為什麼?很大一個原因是,在 AI 的上半場,方法比任務更難,也更令人興奮。從零開始發明一種新演算法或網路結構——比如反向傳播演算法、摺積神經網路(AlexNet),或者後來 GPT-3 所用的 Transformer——需要非凡的洞察力和工程能力。相比之下,給 AI 定義任務就顯得直接得多:我們只需要把人類已經在做的事情(翻譯、圖像識別、下棋)變成基準測試就行,幾乎不需要太多新洞見或工程創新。方法的價值還在於它們往往比單個任務更通用、應用更廣。以 Transformer 為例,它不僅推動了自然語言處理(NLP),還在電腦視覺(CV)、強化學習(RL)等領域全面開花,遠遠超越了它最初驗證成果的那個小小的翻譯資料集(WMT』14)。一個偉大的新方法可以「爬」上許多不同的基準,因為它足夠簡潔和通用,所以影響往往超越單一任務。這種玩法延續了數十年,催生了改變世界的思想和突破,並通過不斷刷新的基準成績體現出來。那為什麼這個遊戲會改變呢?因為這些思想和突破的累積,已經帶來了質的飛躍——我們終於找到了可行的通用方案來解決任務。配方那麼,「配方」到底是什麼?配料其實並不意外:大規模的語言預訓練、資料和算力的擴展,以及「推理與行動」的理念。這些聽起來像是你每天在舊金山都會聽到的流行詞,但為什麼要稱它為配方呢?我們可以從強化學習(RL)的視角去理解。RL 常被認為是 AI 的「終局」——理論上它能保證贏得遊戲,而在實踐中,你也幾乎無法想像沒有 RL 的超級智能系統(比如 AlphaGo)。在 RL 中,有三個關鍵組成部分:演算法、環境和先驗知識。長期以來,RL 研究者主要聚焦在演算法本身(比如 REINFORCE、DQN、TD-learning、actor-critic、PPO、TRPO……),這是智能體如何學習的「智力核心」,而環境和先驗往往被視作固定不變或最低限度的設定。比如,Sutton 和 Barto 的經典教材幾乎完全講演算法,幾乎沒涉及環境或先驗。然而,在深度 RL 時代,研究者們逐漸發現:環境的重要性極高。一個演算法的表現往往與它所處的環境高度繫結。如果你忽略環境,就可能造出一個只在玩具問題裡「最優」的演算法。那為什麼不先想清楚:我們到底想要解決什麼樣的環境,然後再去尋找最合適的演算法?這正是 OpenAI 最初的計畫。它先推出了 Gym,把各種遊戲變成標準化的 RL 環境;接著又嘗試了 World of Bits 和 Universe 項目,試圖把網際網路或電腦本身變成一個遊戲。這聽起來很合理:一旦把所有數字世界轉化為環境,再用聰明的 RL 演算法去解決,就能得到數字版的 AGI。這是個好計畫,但沒能完全走通。OpenAI 確實取得了巨大進展,用 RL 解決了 Dota、機械手等難題。但它始終沒能真正攻克電腦操作或網頁導航的問題,而且在一個領域中訓練出來的 RL 智能體,幾乎無法遷移到另一個領域。顯然,缺了點什麼。直到 GPT-2、GPT-3 出現,人們才意識到:缺少的關鍵其實是先驗。你需要強大的語言預訓練,把常識和語言知識蒸餾進模型裡,然後再進行微調,讓它們成為能上網(WebGPT)或能聊天(ChatGPT)的智能體(並由此改變世界)。事實證明,RL 中最重要的部分可能既不是演算法,也不是環境,而是先驗知識——而且這種先驗完全可以通過與 RL 毫不相關的方法獲得。語言預訓練為對話提供了很好的先驗,但在控制電腦或玩電子遊戲時效果卻不那麼理想。為什麼?因為這些任務與網際網路文字的分佈差距更大,直接在這些領域做 SFT(監督微調)或 RL(強化學習)時,泛化能力很差。我在 2019 年就注意到了這個問題。當時 GPT-2 剛發佈,我嘗試在它的基礎上做 SFT 和 RL 來解決文字冒險遊戲——CALM 是世界上第一個基於預訓練語言模型建構的智能體。但它需要上百萬步的 RL 訓練才能「爬」過一款遊戲,而且無法遷移到新遊戲。雖然這正是 RL 的典型特徵,RL 研究者對此並不意外,但我卻覺得奇怪:因為人類可以很輕鬆地嘗試一款新遊戲,並且在零樣本情況下表現顯著更好。就在那時,我迎來了人生中的第一個「頓悟時刻」——人類之所以能泛化,是因為我們不僅能選擇「去 2 號櫃子」「用 1 號鑰匙開 3 號寶箱」「用劍殺地牢怪」,還可以選擇去思考:「地牢很危險,我需要一件武器來應對。但目前沒有現成的武器,也許需要去鎖著的箱子裡找。3 號寶箱在 2 號櫃子裡,那我應該先去櫃子 2,把它打開。」思考,或者說推理,是一種奇怪的行動。它不會直接改變外部世界,但推理的空間是開放的、組合上無限的——你可以思考一個詞、一句話、一整段話,甚至一萬個隨機單詞,而周圍的世界並不會立刻發生變化。在傳統 RL 理論中,這是個「糟糕的選擇」,會讓決策幾乎不可能。想像一下:你需要從兩個盒子裡挑一個,一個有 100 萬美元,另一個是空的。你期望值是 50 萬。現在如果我加上無限多個空盒子,你的期望值就變成了 0。但如果我們把推理加入 RL 環境的動作空間,就能利用語言預訓練提供的先驗來實現泛化,同時還能根據不同決策靈活分配推理時的計算量。這真的是一件很神奇的事。我在這裡沒法完全解釋清楚,可能需要專門寫一篇博文。你可以去讀一下 ReAct,它講述了智能體推理的最初故事,也能感受到我當時的心路。直觀地說:即便你加了無數個空盒子,但你在生活和遊戲中早已見過類似情況,所以選擇這些空盒子的經歷反而能幫助你在真正有錢的遊戲裡更好地做出選擇。抽象地說:語言是通過推理在智能體中實現泛化的。一旦我們擁有了合適的 RL 先驗(語言預訓練)和合適的 RL 環境(把語言推理作為動作),結果發現 RL 演算法本身反而成了最不重要的部分。於是才有了 o-series、R1、deep research、會用電腦的智能體,以及未來更多的成果。多麼諷刺的轉折!長期以來,RL 研究者最關心的都是演算法,而幾乎沒人注意先驗——幾乎所有 RL 實驗都是從零開始。但我們花了幾十年的迂迴才意識到,也許優先順序應該完全反過來。下半場這個「配方」正在徹底改變遊戲規則。回顧一下上半場的玩法:我們開發新的訓練方法或模型,用來在基準測試上爬坡。然後我們再設計更難的基準,繼續循環。但這種玩法正在失效,原因有二:這個配方基本上已經把「刷基準」的過程標準化、產業化了,不需要多少新的點子。隨著配方的規模化和泛化,你為某個特定任務設計的新方法,可能只能提升 5%;而下一代 o-series 模型即便沒有專門針對這個任務,也能直接提升 30%。即便我們設計出更難的基準,也會很快(而且越來越快)被這個配方解決。我的同事 Jason Wei 畫過一個很漂亮的圖,把這種趨勢表現得很清晰:那麼下半場還能玩什麼?如果新的方法已不再需要,而更難的基準也會越來越快被解決,那我們接下來該做什麼?我認為我們需要從根本上重新思考「評估」。這不僅僅是去設計新的、更難的基準,而是要徹底質疑現有的評估方式,並創造新的評估體系,從而逼迫我們去發明超越現有「配方」的新方法。這很難,因為人類有慣性,幾乎不會去懷疑最基本的假設——你習以為常地接受它們,卻沒意識到它們只是「假設」,而不是「規律」。舉個關於慣性的例子:假設你在 2021 年設計了一種基於人類考試的評估方式,這是一個極其大膽的想法。但三年後,這個方法就已經飽和了。你會怎麼做?最可能的做法就是——設計一份更難的考試。或者,假設你解決了簡單的程式設計任務,那你會怎麼做?很可能就是去找更難的程式設計任務來解,直到達到 IOI 金牌水平。這種慣性很自然,但問題在於:AI 已經在國際象棋和圍棋上擊敗了世界冠軍,在 SAT 和律師資格考試中超過了大多數人類,甚至在 IOI 和 IMO 上拿下了金牌。可世界並沒有發生太大改變——至少從經濟和 GDP 的角度來看如此。我稱之為效用問題,並認為這是 AI 最重要的問題。也許我們很快就能解決效用問題,也許不會。但無論如何,這個問題的根源可能出奇地簡單:我們的評估方式在很多基本層面上與現實世界的設定並不一致。舉兩個例子:- 在評估中,任務「應該」自動運行:通常智能體接收任務輸入,自主執行,然後得到一個獎勵。但現實中,智能體必須在任務過程中持續與人類互動——你不會只給客服發一段超長的文字,等上 10 分鐘,就指望對方給你一份完整的回覆解決所有問題。通過質疑這種評估設定,人們發明了新的基準:要麼把真實人類納入環節(如 Chatbot Arena),要麼引入使用者模擬(如 tau-bench)。- 評估「應該」是 i.i.d.(獨立同分佈) 的。如果你有一個包含 500 個任務的測試集,就會獨立運行每個任務,最後取平均得到一個總體指標。可在現實中,我們解決問題往往是順序進行的,而不是平行。比如,一個 Google 的軟體工程師(SWE)在處理 google3 的問題時,隨著她對程式碼庫越來越熟悉,效率會越來越高;但一個 SWE 智能體在同一個程式碼庫中解決了很多問題,卻無法獲得這種熟悉度。我們顯然需要長期記憶的方法(事實上已經有一些了),但學術界既沒有合適的基準來證明其必要性,也缺乏質疑 i.i.d. 假設的勇氣——而 i.i.d. 一直以來是機器學習的基礎。這些假設「一直以來」就是如此。在 AI 的上半場,基於這些假設去設計基準是沒問題的,因為智能水平還低,提升智能基本就等於提升效用。但現在,這套通用配方在這些假設下幾乎必定能奏效。所以,在下半場的新玩法是:我們開發新的評估方式或任務,以衡量真實世界的效用。我們用現有配方去解決它們,或在配方上加入新的元件,然後繼續循環。這個遊戲很難,因為它是陌生的。但它同樣令人興奮。上半場的玩家解決的是電子遊戲和考試,下半場的玩家則有機會靠建構真正有用的智能產品,打造市值數十億甚至數兆美元的公司。上半場充斥著方法和模型的漸進改進,而下半場會對它們進行一定的「篩選」。這套通用配方會輕易擊敗那些漸進式的方法,除非你能設計出新的假設,打破現有配方。那時,你才會做出真正改變遊戲的研究。 (APPSO)
合肥一中畢業的姚順雨,出任騰訊首席AI科學家
這位年僅27歲的AI界頂尖人才為合肥一中2015屆校友如今已成為中國科技巨頭AI戰略佈局的關鍵核心今天上午合肥一中官微發佈推文講述了該校傑出校友姚順雨在校時的故事姚順雨的成長軌跡堪稱“學霸範本”。初中就讀於合肥45中,高中考入合肥一中後,他便展現出過人的電腦天賦,2014年斬獲全國資訊學奧林匹克競賽(NOI)銀牌。姚順雨在合一校園(倒數第二排左五)。2015年高考,他以704分、安徽省理科第三的優異成績,考入被譽為“天才集中營”的清華大學交叉資訊研究院“姚班”,主修電腦科學,其間不僅擔任姚班聯席會主席,還聯合創辦了清華大學學生說唱社,兼具學術深度與多元才華。姚順雨在清華“姚班”。2019年,姚順雨遠赴普林斯頓大學深造,專攻自然語言處理與強化學習,2024年順利獲得電腦科學博士學位。姚順雨在芝加哥學習交流。在合肥一中學習期間,姚順雨便是大神級的存在。關於姚順雨,還發生一件有趣的事:2015年高考出分後,姚順雨還專門來找校領導,主動“懺悔”,說由於自己的低級錯誤,讓大合一錯過了一個“全省頭名”,於可愛中彰顯了他對母校的榮譽感與責任感。而在班主任杜敏老師眼裡,姚順雨是個非常有想法、做事有規劃的孩子,不僅是理科大神,而且熱愛文學、喜歡rap和籃球、舞蹈等,可以說是個全面發展的學霸。姚順雨在MIT學習交流。學術生涯中,姚順雨已創下多項重磅成果。博士期間提出的思維樹(Tree of Thoughts)框架,大幅提升了AI決策模型的複雜問題解決能力;研發的ReAct方法首次建構“推理—行動”智能體範式,成為全球語言智能體開發的主流技術;2024年博士畢業後,他直接加入OpenAI擔任研究科學家,深度參與智能體產品Operator、DeepResearch及電腦使用智能體(CUA)的核心研發,為語言智能體領域的開啟與發展奠定了基礎性貢獻。2025年5月,他以最年輕入選者身份躋身《麻省理工科技評論》“35歲以下科技創新35人”中國區名單,學術實力與創新潛力獲國際權威認可。 (安徽日報)
阿里字節騰訊的CEO身旁都有了一個AI科學家
姚順雨到騰訊,終於得到官方確認。12月17日,騰訊升級大模型研發架構,一方面,新成立AI Infra部、AI Data部、資料計算平台部,全面強化大模型的研發體系與核心能力;另一方面宣佈,“Vinces Yao”,也就是前OpenAI明星研究員姚順雨,出任“CEO/總裁辦公室首席AI科學家”。他將直接向騰訊總裁劉熾平匯報,同時兼任AI Infra部、大語言模型部負責人,雙線向技術工程事業群總裁盧山匯報。這裡首先有三個資訊值得注意:第一,騰訊第一次有了總辦首席AI科學家的崗位。第二,這個崗位夠靠近騰訊權力中心。第三,在這個位置上的是一位AI界非常年輕的明星人物。這讓人想到字節和阿里先前的人員和組織調整動作,至此,三家中國網際網路巨頭在AI時代也集體把AI科學家「安插」到了自己的權力中心。阿里字節騰訊,都把AI拉向權力中心位置對巨頭來說,組織中心位置的調整併不容易。而三家頭部大廠,都想辦法把AI拉向了集團決策的核心位置。先看阿里。不久前,阿里雲CTO、通義實驗室負責人周靖人,正式晉陞為阿里巴巴合夥人。這是他個人的職業巔峰,也是阿里AI戰略演進的關鍵訊號。阿里合夥人團隊已做精簡,周靖人的入選,標誌著阿里首次將一位純技術背景的AI科學家,正式引入權力中心。早先,周靖人離開微軟,以阿里雲首席科學家身份加入阿里,後又擔任阿里雲CTO。 2023年,吳泳銘上台,兼任阿里雲董事長與CEO。同時,阿里明確「AI驅動」為集團一大戰略重心,達摩院內部部分AI團隊重組為通義實驗室,由周靖人掌舵。隨後周靖人帶領團隊,推進通義千問系列模型研發,並促成Qwen成為全球最受關注的開源模型之一,這是阿里拿到AI時代船票的關鍵動作。同時,阿里也在組織架構上把AI拉到了更核心的位置。從2025年8月起,阿里實質上終結了「1+6+N」的橫向分拆模式,重新收縮為四大部門,在集團層面更明確了「AI+雲」的重要地位。再看字節。2023年到2024年,字節跳動逐步確立了兩大核心AI組織,Seed與Flow。一個專注底層大模型研發,一個負責將大模型落地為具體產品。其中,Seed部門由原TikTok技術負責人朱文佳主導,並直接向CEO梁汝波匯報。而2025年初,原Google副總裁吳永輝加入Seed,同樣直接向梁汝波匯報。吳永輝在Google曾拿到Google Fellow頭銜,為Gemini做出了重要貢獻。他的加入進一步凸顯了字節對基礎研究的重視。之後,在2025年10月,Seed便完成新一輪架構調整,過渡期快速度過,吳永輝正式成為Seed的唯一負責人,直接向字節最核心管理者匯報,並對外強調Seed的首要目標是探索智能上限,專注長期研究。騰訊的調整則相對滯後。它先是2023年集中攻關底座大模型,隨後將AI產品線移向離商業更近的部門,推出元寶等C端產品。到了2025年,騰訊AI有更密集的調整,內部關係也逐漸清晰。2月,騰訊將原本散落在不同事業群的C端AI產品進行整合,形成了以CSIG核心的AI產品矩陣。 4月,混元研發團隊內部拆分為大語言模型部與多模態模型部,確立演算法研發的雙軌制。而眼下,騰訊新成立AI Infra部等組織,重新整理了AI大模型研發體系。姚順雨任職得到官宣,則讓騰訊終於也有了直通權力核心的AI科學家。把AI科學家放到CEO身邊,能帶來啥梁文鋒說,創新缺的肯定不是資本,而是缺乏信心,以及不知道怎麼組織高密度的人才,實現有效的創新。AI的競爭是頂尖人才和組織度的競爭。既需要合適的頂尖人才,還得把他們放到合適到位置,再匹配相應的組織調整,才能真正加速AI處理程序。字節阿里是如此,騰訊要做的是如此,Google也是如此。2023年,Google將曾開發出Transformer架構的AI實驗室Google Brain和開發出AlphaGo的Deep Mind合併,成立了全新的Google Deep Mind。 2025年初,又將Gemini App團隊和AI Studio開發者團隊也全部劃歸Deep Mind管理,實現了AI算力、人才和模型研發的集權,並由Demis Hassabis統一領導。同時,Hassabis和Google首席科學家Jeff Dean都直接向CEO匯報。 GoogleAI上的密整合果,離不開這種組織上的支撐。而這些巨頭最突出的共通性,就是把AI科學家放到了靠近權力中心的關鍵位置。總的來看,一個AI科學家走向舞台中央的時代正在來臨。這帶來許多好處。過去,AI部門在網際網路大廠往往是中台或實驗室性質,科學家向業務總裁匯報。如今AI科學家地位提升,意味著AI在內部的決策權升級。同時,當AI部門有了更大權力和更多資源,還可以藉助各自AI掌門人的技術直覺,讓錢更準確地投向技術前沿,提高花錢的效率。此外,AI科學家在企業內受到重視,還能帶來流量與聲譽。就像羅福莉加入小米,在發佈MiMo-V2-Flash大模型之前,已經提高了小米AI的外界關注和討論。而姚順雨在騰訊拿到超規格待遇,衍生的好處也只多不少。除了以上幾點,最明顯的是為業內招募背書。騰訊總辦們已經親自下場,來吸引最頂尖的AI人才。在姚之後,騰訊的求賢之路可以更順暢一點。而更實在的好處,是姚順雨專長與騰訊AI需求互補。作為AI大模型推理與智能體方向的頂尖青年學者,姚能幫騰訊補齊推理短板,加速Agent場景落地。而騰訊最有想像力的AI事業之一,就是給微信打造Agent。現在一個微信Super Agent,有機會更早亮相了。 (硅星人Pro)
27歲的姚順雨,出任騰訊「CEO/總裁辦公室」首席AI科學家,向總裁劉熾平匯報
內媒消息,騰訊於周三(12月17日)宣佈,姚順雨Vinces Yao出任「CEO/總裁辦公室」首席AI科學家,向騰訊總裁劉熾平匯報;同時兼任AI Infra部、大語言模型部負責人,向技術工程事業群總裁盧山匯報。姚順雨的母校合肥一中發文題為《傑出校友 | 這條重磅新聞關於2015屆校友姚順雨》,稱這位年僅27歲的AI界頂尖人才,為合肥一中2015屆校友”。其初中就讀於合肥45中,高中考入合肥一中後,2014年斬獲全國資訊學奧林匹克競賽(NOI)銀牌;2015年高考,他以704分、安徽省理科第三的優異成績,考入清華大學交叉資訊研究院“姚班”,主修電腦科學,擔任姚班聯席會主席,聯合創辦了清華大學學生說唱社;2019年,姚順雨遠赴普林斯頓大學深造,專攻自然語言處理與強化學習,2024年順利獲得電腦科學博士學位;在博士期間提出的思維樹(Tree of Thoughts)框架,大幅提升了AI決策模型的複雜問題解決能力;研發的ReAct方法首次建構"推理—行動"智能體範式,成為全球語言智能體開發的主流技術;2024年博士畢業後,他直接加入OpenAI擔任研究科學家,深度參與智能體產品Operator、DeepResearch及電腦使用智能體(CUA)的核心研發,為語言智能體領域的開啟與發展奠定了基礎性貢獻;2025年5月,他以最年輕入選者身份躋身《麻省理工科技評論》“35歲以下科技創新35人”中國區名單。在高中班主任眼裡,姚順雨是個非常有想法、做事有規劃的孩子,不僅是理科大神,而且熱愛文學、喜歡rap和籃球、舞蹈等,可以說是個全面發展的學霸。 (瑞恩資本RyanbenCapital)
騰訊把AI未來,交給了一個27歲的人
很難想像,騰訊剛剛任命的首席 AI 科學家只有27歲,當80後還在會議室“反覆對齊顆粒度”的時候,這個98年出生的年輕人,已經開始參與決定騰訊 AI 往那走了。搞不好,他以後會把QQ+微信搞成真正的、能幹活的AI助手。12月17日,騰訊官方宣佈重大組織架構升級與人事任命,27歲的AI界頂尖人才姚順雨被任命為騰訊 CEO / 總裁辦公室體系下的:首席 AI 科學家,同時兼任:大語言模型負責人、推理負責人、AI 基礎設施核心負責人,直接向騰訊總裁劉熾平匯報。騰訊把AI交給了一個98年出生的人換句話說,一個98年出生的年輕人,直接站在了騰訊AI的正中央,姚順雨不在某一個業務部門,也不是掛名科學家,他的位置在騰訊 AI 的中樞層。所有和大模型、算力、推理、Agent 相關的關鍵能力,最終都會匯到他這條線上。他直接向劉熾平匯報,這意味著:騰訊已經把 AI 從“技術嘗試”,提升到了“總裁級戰略執行”的高度,這在騰訊歷史上非常少見。姚順雨的履歷姚順雨是合肥一中出身,2016年安徽高考理科全省第三名(704分),NOI(全國青少年資訊學奧林匹克競賽)銀牌。順利進入清華大學交叉資訊研究院(也就是傳說中的“姚班”),這裡是中國 AI 頂尖人才的黃埔軍校,每一屆只招幾十個人。在大三前,他都沒碰過AI,學的是視覺。去 MIT 交換接觸到認知科學後,他開始思考:語言能否成為智能的核心?博士階段,他放棄主流的視覺,轉向語言和強化學習。這一步,精準踩中了後來大模型的“主航道”。在清華和博士期間,他是 ToT(思維樹)、ReAct、Coala 等頂尖演算法的核心貢獻者。他在清華還是說唱社的創始人。簡單說,別人關心模型會不會答題,他關心模型能不能自己想、自己試、自己改。他最早把模型當成“智能體”(Agent),而不是聊天工具。ReAct引用超4800次,被Meta、Google DeepMind、Cohere等廣泛採用。GitHub 上衍生項目超200個,包括 LangChain、LlamaIndex 的核心執行模組。他今年4月發文稱“AI 進入下半場”,主線正從“模型訓練”轉向“定義任務與評估體系”。說白了,模型會變成水電煤,差距在於你讓 AI 幹什麼、怎麼判斷它幹得好不好。這已經不是科學家的視角,而是產品和商業視角。2024年博士畢業後,他就直接進入了OpenAI,參與了 Operator、Deep Research、Computer Using Agent 等核心項目。他的論文在 AI 圈是必讀文獻,直接定義了什麼是 Agent(智能體)。Operator就是自動操作電腦的AI,就跟字節前段時間出的中興豆包手機很像。騰訊挖他過來,估計也是為了這事,搞不好,以後QQ、微信都嗯給你自動幫使用者訂車票、打車、做PPT的工作了。這是一代人的分水嶺70後、80後這一代技術領軍人物,大多成長在PC 時代、移動網際網路時代,是馬雲、馬化騰、李彥宏的時代,他們擅長的是流量、產品、平台、變現。而95後、00後這一代人就是做原生AI、演算法里長大的,他們默認的世界是:智能體、自動化、人機協作。這幫人不是做學習AI,他們本身就是AI的一部分。騰訊這次的選擇98年的姚順雨做首席科學家,本質是在選未來。未來真正的競爭力,不是某一個爆款應用,而是能持續幹活的AI系統。我們這些80後中老年群體,默認AI就是聊天工具,或者找資料的,搞流量的。而姚順雨搞的是智能體,是讓 AI 去操作電腦、去替你做決策。騰訊這次把他放在核心位置,意圖非常明顯:騰訊需要一個能接管微信、QQ,能像真人助理一樣幫你處理複雜事務的“超級大腦”。寫在最後:姚順雨做《AI的下半場》裡說的一句話,我也把它送給所有關注 AI 的創業者吧:“AI 的主線正在從模型訓練,轉向定義任務與評估體系。”意思是說:AI的下半場是要親民、辦實事。 (盧鬆鬆)
騰訊調整大模型組織架構:姚順雨加盟,向總裁劉熾平匯報
官宣了。就在剛剛,量子位獲悉,騰訊內部宣佈了大模型組織架構調整,而姚順雨也首次被明確了加盟。姚順雨是誰?前OpenAI研究員、清華姚班學霸、普林斯頓博士、NOI奧賽銀牌、安徽省高考探花,是近幾年大模型 Agent 方向最受關注的青年研究者之一。只有28歲。他是Tree of Thoughts(思維樹)、ReAct等工作的作者,也是SWE-bench、SWE-agent等一系列知名研究的核心貢獻者。去年一篇《AI下半場》的博文,讓他在學界與產業界迅速出圈;而今年9月從OpenAI離職後,他的去向也隨之成為各大 AI 公司關注的焦點,一度引發諸多猜測。如今,一切塵埃落定——姚順雨確定加盟騰訊,雙重身份:第一,“CEO/總裁辦公室”首席AI科學家,向騰訊總裁劉熾平匯報;同時兼任AI Infra部、大語言模型部負責人,向技術工程事業群總裁盧山匯報。騰訊內部官宣說了啥姚順雨內部官宣加盟的消息,是隨著騰訊AI組織架構一起披露的。量子位獲悉,騰訊今日內部官宣了大模型研發組織架構調整——新成立AI Infra部、AI Data部、資料計算平台部,全面強化其大模型的研發體系與核心能力。其中Vincesyao出任“CEO/總裁辦公室”首席AI科學家,向騰訊總裁劉熾平匯報;同時兼任AI Infra部、大語言模型部負責人,向技術工程事業群總裁盧山匯報。而Vincesyao,正是姚順雨。據稱,作為騰訊大模型體系的重要一環,AI Infra部將負責大模型訓練和推理平台技術能力建設,聚焦大模型分佈式訓練、高性能推理服務等核心技術能力,建構大模型AI Infra核心競爭力,為大模型演算法研發和業務場景落地提供穩定高效的技術支援和服務。而架構升級後的AI Data部、資料計算平台部,將分別負責大模型資料及評測體系建設、巨量資料和機器學習的資料智能融合平台建設工作。王迪繼續擔任大語言模型部副總經理,向姚順雨匯報。劉煜宏擔任AI Data部負責人、陳鵬擔任資料計算平台部負責人,均向公司副總裁蔣傑匯報。騰訊內部信中還強調,AI大模型研究與工程技術緊密相關。在過往混元大模型訓練以及海量業務場景的深度實踐中,騰訊已經積累了系統化的工程能力;此次大模型研發架構升級,在進一步強化騰訊工程化優勢同時,旨在提升AI大模型研究能力,聚焦公司AI戰略佈局,提升AI大模型的研發效率。過去一年,混元大模型發佈超過30個新模型。12月5日發佈的混元2.0,顯著改進了預訓練資料和強化學習策略,在複雜推理與文字生成場景表現國內領先。混元3D模型甚至保持著全球領先的水準,開源社區下載量超過300萬。而AI產品和服務,騰訊也正在展現一貫的競爭力。在產品和服務層面,騰訊元寶持續最佳化使用者體驗,上線初期甚至保持了每天一個版本的迭代頻率,快速贏得了使用者的認可,使用者規模穩居國內AI應用前三,成為最受新中產歡迎的AI原生應用。目前騰訊也將元寶的AI能力融入微信、QQ、音樂、會議等國民級產品中,讓使用者在不改變習慣的前提下自然觸碰AI,為使用者提供最自然、門檻最低的服務體驗。與此同時,據稱騰訊公司內部正在推進一場全面AI化的效率變革。據騰訊財報會資訊,截止目前,騰訊混元大模型已在騰訊會議、微信、廣告、遊戲等內部超過900款應用和場景中落地。在騰訊公司內部,有超90%的騰訊工程師在使用騰訊雲程式碼助手CodeBuddy,50%新增程式碼由AI輔助生成,程式碼評審環AI參與度達94%。而作為高密度人才引進的姚順雨,也是騰訊開啟AI攻堅的證明。可以確定的是,這個時間點上的騰訊,已經明顯開啟了AI處理程序上的提速。不論是組織變陣、人才推進,還是產品代表元寶、開源代表混元3D,都能明顯感覺得到企鵝洶湧。當然,之所以騰訊一舉一動備受關注,核心還是其所擁有的完備AI要素:豐富場景、海量資料、生態資源,以及謀定後動的戰略風格…AI船票是什麼可能還在被討論,但擁有上述AI要素的騰訊,被認為坐在預留席位的那一桌。這或許也是姚順雨這樣的TOP人才,難以拒絕offer的原因。姚順雨其人其論姚順雨,合肥一中畢業,NOI奧賽銀牌,高考704分以安徽探花進入清華姚班,後在普林斯頓大學獲得電腦博士學位。博士期間,他師從GPT-1第二作者Karthik Narasimhan,從事智能體方向研究。博士畢業後,隨即加入OpenAI。在科研層面,姚順雨的工作幾乎貫穿了Agent研究的關鍵節點。他先後提出CALM(讓語言模型以Agent形式參與語言遊戲)、WebShop(用可控的電商環境系統性評估Agent 能力)等工作。隨後,他又陸續推出了一系列在學界和工業界都產生深遠影響的成果:ReAct:讓大語言模型同步完成推理與行動,是其被引次數最高的工作。Tree of Thoughts:通過搜尋式思維結構顯著提升模型推理能力。SWE-bench:面向真實軟體工程任務的大模型評估基準。SWE-agent:將LLM系統性用於程式碼修復與開發的開源 Agent)。如果說這些工作回答的是“Agent 能不能工作、該怎麼工作”,那麼在觀點層面,姚順雨更關心的,是AI接下來該往那裡走。在2024年8月加入OpenAI 後,姚順雨發表博文《The Second Half》,提出了一個被反覆引用的判斷:AI正處在“中場休息”階段:上半場是訓練 > 評估,下半場將是評估 > 訓練。在他的劃分中,AI 發展可以清晰地分為兩個階段:上半場:以模型和方法為中心,核心任務是“把模型訓出來”。下半場:隨著模型能力趨於成熟,重心轉向任務定義、系統建構與評估體系。也就是說,AI 的關鍵問題正在從“我們能否訓練一個模型解決 XX?”轉向“什麼問題值得被解決?我們如何判斷 AI 是否真的進步了?”在這個階段,評估不再是附屬環節,而是決定方向的前置條件。真正重要的,不是繼續堆模型規模,而是讓模型在真實任務、真實系統中經得起檢驗。除了“AI 下半場”的判斷之外,姚順雨今年 9 月與張小珺的對談同樣出圈,也進一步強化了他一貫的技術立場。在那次對談中,他對Agent、應用與模型邊界的多項判斷被反覆引用,比如:Agent 的本質不是“會用工具”,而是“能推理並泛化”Code 是 Agent 的“手”,是真正的第一性環境真正困難的不是“難任務”,而是“簡單任務的可靠性”創業公司的最大機會,不在模型,而在互動方式這些觀點並非停留在判斷層面,而是與他過往在 ReAct、SWE-agent 等工作中一以貫之的研究路徑高度一致。如今,這位有產出、有觀點、也有清晰技術方法論的明星研究員選擇加入騰訊,所帶來的,顯然不只是單點能力補強,而是一整套關於Agent、系統與真實任務的“下半場”解法。 (量子位)