#騰訊
290萬億新市場!騰訊螞蟻入局,內地嚴禁,香港發牌:這背後的“雙軌”邏輯絕了!
親愛的藏金洞友們:今天這篇,咱們得聊點深水區的東西。最近有個事兒,看得很多懂行的人心驚肉跳,又暗自叫絕。就在前兩天,香港財庫局局長許正宇透了個底:香港要在2026年初,正式發放首批穩定幣牌照。而且,這門檻高得嚇人,可即便如此,還是收到了36份申請,聽說騰訊、螞蟻這些巨頭的影子都在裡面晃悠。很多人看不懂了,跑來問我:“洞主,內地對虛擬幣不是嚴防死守、全面禁止嗎?怎麼香港那邊反倒大張旗鼓地發牌照?這不是‘左右互搏’嗎?”哎呀,你要是這麼看,那就真是只看到了第一層。這那裡是互搏,這分明是國家在下一盤名為“雙軌制”的驚天大棋。這也是為了那290兆的超級市場,布下的“勝負手”。看似“割裂”,實則“互補”的頂級智慧咱們先說個反常識的現象。內地這邊,對加密貨幣的態度那是“零容忍”,為了防範金融風險,把口子扎得死死的。可一河之隔的香港,卻在加速擁抱Web3,甚至專門立法搞穩定幣監管。這一冷一熱,是不是很割裂?其實,這正是“一國兩制”在金融戰場上的最高級應用——“雙軌治理”。內地是“大後方”,必須要穩,不能讓虛擬幣的波動衝擊了老百姓的錢袋子,所以要防風險。香港是“特種兵”,是國際金融中心,必須得沖,要去搶佔全球數字金融的制高點,所以要促創新。這就好比打仗,大部隊在後面修整,但得派出一支精銳小隊,去最前線摸清新式武器的用法。香港,就是這支精銳。這次發牌照,就是給這支精銳發了“持槍證”。這也意味著,中國並沒有放棄數位資產這塊陣地,而是換了一種更聰明、更安全的方式在入局。290兆的“大蛋糕”,不吃就是別人的了為什麼一定要入局?因為這塊蛋糕大到你無法想像,更因為如果你不吃,就要被別人連盤子都端走了。根據權威測算,到2030年,全球跨境支付的規模將達到驚人的290兆美元。以前,這筆錢的流轉,基本都得看SWIFT的臉色,看美元的臉色。那個系統,又貴,又慢,還要被查戶口。但穩定幣不一樣。它是基於區塊鏈的,秒到帳,手續費極低,而且全天候無休。現在,市面上全是USDT這種美元穩定幣。如果任由它們發展,未來的全球貿易結算,就會形成一種新的“鏈上美元霸權”。到時候,人家動動手指,就能在鏈上封鎖你的資產,比現在SWIFT制裁還要狠。所以,香港必須做人民幣穩定幣,或者至少是港元穩定幣。如果人民幣能在這290兆的市場裡切下10%-20%的份額,那就是幾十兆甚至上百兆的增量。這不僅僅是生意,這是金融主權的保衛戰。騰訊和螞蟻,為什麼是“奉旨填海”?在這場戰役裡,騰訊和螞蟻這樣的巨頭,角色非常微妙。在內地,它們是受監管的支付巨頭;但在香港,它們可能是未來的“數字基建狂魔”。為什麼?因為它們有技術,有場景。騰訊有至信鏈,螞蟻有螞蟻鏈,它們的技術儲備是世界級的11。更重要的是,微信支付和支付寶已經覆蓋了全球幾十億使用者。這次香港發牌,其實是給了它們一個合法的“出海口”。通過香港這個“沙盒”,它們可以將國內成熟的區塊鏈技術,轉化為合規的跨境支付服務。比如,那個“千循科技”搞的PayKet平台,就已經把AI和穩定幣結合起來做外貿結算了。未來的劇本很可能是這樣:你在內地,繼續用人民幣,安全穩健;但當你需要做外貿、出海做生意時,在香港的合規框架下,騰訊和螞蟻的系統能幫你瞬間完成基於穩定幣的全球結算。這就叫:內循環保民生,外循環搶市場。普通人的機會:別做韭菜,要做“賣鏟人”聽到這兒,很多洞友估計又激動了:“洞主,那是不是該去買點幣屯著?”錯!大錯特錯!你要是現在衝進去炒幣,那你就是沒看懂國家的良苦用心,純屬去送人頭。穩定幣,它的核心價值在於“支付”,而不是“炒作”。它的價格是錨定法幣的,你屯它幹嘛?普通人的機會,在於這套新基建鋪開後的“衍生紅利”。做外貿和跨境電商的兄弟們:盯緊了。以後你們的收款方式會發生巨變。使用合規的穩定幣支付通道,能幫你省下大筆的匯率損耗和手續費。這省下來的,就是純利潤。技術流的“賣鏟人”:香港現在急缺懂Web3、懂合規、懂區塊鏈安全的人才。如果你是程式設計師,或者是做金融合規的,去香港,或者服務香港的機構,工資能翻倍。關注“基建股”:別盯著幣價,要盯著那些能拿到牌照、或者給牌照機構提供技術支援的上市公司。它們才是這場290兆盛宴的掌勺人。洞主有話說最後,洞主想感慨一句。一代人有一代人的使命,一代人也有一代人的財富風口。當年的房地產,是把地底下的財富挖出來;現在的數字金融,是把全球流動的財富截下來。內地嚴禁,是為了守住底線;香港發牌,是為了拓展上限。這背後的“雙軌”邏輯,是高層的智慧,是為了擊碎舊有的美元霸權;希望你能接得住這波潑天的富貴。別只顧著看熱鬧,看懂局勢,才能守住你的錢袋子。 (藏金洞)
毛利80%,80後女生低調賺了22億,騰訊撐腰再衝上市
從溫暖的社交烏托邦,到年入22億的情緒生意。從溫暖的社交烏托邦,到年入22億的情緒生意,Soul在收割3.9億年輕人後,背負著騰訊的重注與市場的審視,第四次站到了港交所的門前。當無數年輕人在物理世界中保持距離,卻轉向虛擬空間尋求情感連接時,一個龐大的市場悄然開啟。2025年底,主打“靈魂社交”的Soul再度向資本市場遞表。它坐擁近3.9億註冊使用者,既有騰訊49.9%的持股作為戰略背書,卻也同時面臨著超過124億元人民幣的債務風險。▲圖源:小紅書從“靈魂社交”到“AI+沉浸式社交”,標籤幾經變換。當溫暖的口號遭遇冰冷的資本,Soul的漫長上市路,究竟是一場情懷的勝利,還是一場精準的情緒變現?01. 一個“僅自己可見”的念頭長成3.9億人的樹洞Soul的起點,源於一個極具時代感的社交洞察。2015年,創始人張璐在分享生活動態時,陷入了兩難。朋友圈熟人太多,充滿表演壓力;微博關係太弱,如同石沉大海。最終,那條動態被設定為“僅自己可見”,留在了QQ空間——表達欲在複雜的社交計算中無聲消散。這個瞬間讓她捕捉到一個市場空白,一個既能自由宣洩真實情緒,又能獲得善意回應的“中間地帶”。2016年,Soul應運而生,其核心邏輯與主流社交背道而馳,不看顏值、不依託線下身份,而是通過興趣圖譜、人格測試與演算法,進行“靈魂匹配”。▲圖源:小紅書產品早期雖不乏技術瑕疵,但使用者展現了驚人的容忍度,甚至用截圖等方式堅持互動。這強有力地驗證了“無壓力社交”需求的真實性與迫切性。Soul迅速在年輕群體中建立起口碑,完成了冷啟動。資本的嗅覺同樣靈敏。2020年,在使用者增長與留存資料得到驗證後,騰訊通過D輪融資戰略入股,以49.9%的持股成為最大機構股東。這筆投資為Soul帶來了支付通道、流量支援等關鍵生態資源,更是一次來自網際網路巨頭的強力戰略背書,為其後續的商業化與規模化鋪平了道路。02. 情緒明碼標價一份孤獨感催生的印鈔機Soul將虛不可言的“情緒價值”,做成了一門毛利率超過80%的實在生意。其商業模式以虛擬形象(Avatar)裝扮 + 會員特權 + 虛擬禮物組成。使用者從建立Avatar開始,髮型、服飾等大量個性化選項需付費購買;在群聊派對中贈送禮物、獲得優先推薦等增強體驗的特權,也都明碼標價。▲圖源:小紅書這套模式的本質,是將使用者對共鳴、陪伴與關注的情感需求,系統性地轉化為可消費的虛擬商品。招股書顯示,2025年前八個月,此項“情緒價值服務”收入佔比高達90.8%,每付費使用者月均貢獻104.4元。Z世代使用者佔比78.7%,在AI+沉浸式情緒經濟行業中位列第一。圖源:Soul 招股書AI技術的引入,則讓這台“情緒印鈔機”運轉得更高效。Soul自研的“靈犀”推薦系統和“Soul X”大模型,不僅負責更精準地匹配“靈魂”,還試圖在破冰、聊天等環節提供輔助,降低社交門檻。讓使用者更容易建立連接、更長時間停留、從而擁有更強的付費意願。▲圖源:Soul招股書從2023年起,這套模式跑通了盈利閉環。公司經調整淨利潤扭虧為盈,2023年賺了3.61億元,2024年賺了3.37億元。“讓天下沒有孤獨的人”的願景,在帳本上被改寫為“讓天下願意為緩解孤獨付費”。03. 付費率僅6.5%,與消失的新朋友然而,這台高效的“情緒印鈔機”,正面臨著“燃料”增長乏力的根本性挑戰。盈利光環之下,裂痕已然顯現。據招股書披露,Soul的月活躍使用者數在2022年達到2940萬的峰值後便進入停滯,2025年前八個月為2800萬,仍未恢復高位。這意味著其核心使用者池增長已經陷入疲軟狀態。另一關鍵指標“付費率”,則暴露了商業化的天然瓶頸。截至2025年8月,Soul的付費使用者比例僅為6.5%。▲圖源:Soul招股書相比之下,同期謀求上市的婚戀平台“伊對”,付費率高達12%。這揭示了一個現實,絕大多數使用者只願在此免費尋找陪伴,並未形成穩定的付費習慣。再者,收入結構的單一性放大了潛在風險。超過九成的營收依賴於虛擬物品,使得公司的命脈懸於少數付費使用者的消費意願之上,抗風險能力脆弱。廣告業務佔比始終徘徊在10%左右,增速放緩,未能成長為第二增長曲線。▲圖源:Soul招股書更大的陰影來自賽道自身的“宿命”。陌生人社交領域早有前車之鑑,昔日的王者“陌陌”已陷入使用者流失與營收下滑的困境。這類平台似乎難逃一個循環,依靠新鮮感與情緒驅動快速起量,但使用者關係一旦深化,便會迅速遷移至微信等成熟通訊工具,原平台則淪為“一次性”的連接跳板。此外,匿名與虛擬特性伴生的內容安全與詐騙風險,也讓平台持續處於強監管的聚光燈下。據黑貓投訴平台資料顯示,關於Soul的累計投訴量已超過5600條。▲圖源:黑貓投訴平台在年輕人聚集的小紅書等社交平台上,也有不少使用者分享其負面體驗,吐槽平台”聊騷““侮辱性言論”太多,或抱怨匹配質量下降。圖源:小紅書▲圖源:小紅書▲圖源:小紅書這些聲音揭示出,在平台追求商業化和規模擴張的同時,使用者體驗與社區治理正面臨嚴峻挑戰。04. 闖關IPO背負124億背水一戰面對現實瓶頸與增長焦慮,使得Soul的上市之路異常坎坷。此次遞表,已是其第四次嘗試。前幾次的折戟,讓一份沉重的對賭協議浮出水面:Soul帳上記錄著一筆高達124億元的“可贖回負債”。這本質上是早期融資中與投資機構簽訂的協議,意味著若公司未能成功上市,將面臨連本帶利回購股份的巨額現金償付壓力。這實質上是關於企業成長速度與資本市場窗口的一場對賭。早期投資者以資金押注公司能在約定時間內達標上市。若公司未能完成這一關鍵跳躍,則對賭失敗,公司須履行“清算回呼”義務,將投資款連同約定的資金成本一併返還。這筆規模巨大的可贖回負債,構成了Soul的剛性兌付壓力。其持續產生的利息支出不斷侵蝕公司利潤,更使得本次IPO成為一道必須跨越的生存關卡——成敗之間,別無退路。為此,Soul必須講出一個足以打動資本市場的新故事。在外部技術浪潮與內部資源重配的雙重作用下,其對外故事線發生了顯著轉向。曾經的“社交元宇宙”標籤被迅速刷新,取而代之的是更契合當前資本與技術偏好的“AI+沉浸式社交平台”這一新敘事。它計畫將此次IPO募資的大部分,用於強化AI、GPU及資料分析能力。這步棋兼具進攻與防守意味。進攻在於,借助AI概念提升估值想像空間,並試圖用技術真正突破匹配效率和體驗瓶頸,打破增長天花板。防守在於,必須向投資人證明,其逐年增長的巨額研發投入是值得的,並且有能力在AI的新競賽中不被甩下。▲圖源:Soul招股書騰訊的49.9%持股是它最強的背書,但也是最深的繫結。 Soul在支付、雲服務、流量獲取上深度依賴騰訊生態。這種關係是護城河,也可能成為獨立性的隱憂。05. Soul的准上市超越IPO的行業實驗與價值拷問Soul的上市歷程,早已超越了一家創業公司的資本化個案。它已成為觀察移動網際網路紅利退潮後,社交創業生存邏輯的典型案例。任何美好的產品初心,最終都必須在嚴苛的商業模式中驗證其可持續性;即便是精準的賽道切入,也可能深陷行業固有的周期性困境與道德風險之中。▲圖源:小紅書這更是一場關於情感數位化的大型商業實驗。它試圖驗證兩個核心命題,一是當代年輕人的孤獨感,能否通過技術平台實現規模化的疏解與可持續的商業轉化?二是當情感連接被系統性地嵌入付費節點,這種被精密設計的“溫暖”,其使用者體驗與商業效率的平衡點究竟何在?對Soul的創始團隊而言,成功上市意味著穿越生死線,解除對賭枷鎖,為公司贏得關鍵的生存與發展資源。然而,對於其數億使用者而言,上市可能標誌著平台發展邏輯的根本性轉折——從一個以情感體驗與社區氛圍為核心的“綠洲”,轉向一個必須對季度財報和股東回報負責的“上市公司”。06. 寫在最後無論Soul最後能否成功敲鐘,其長達數年的嘗試與掙扎,都已為“情感經濟”的商業模式、估值邏輯與倫理邊界,提供了一個無法繞開的、極具參照意義的行業樣本。它留下的,不僅是一個公司的上市懸念,更是一個時代關於社交、情感與商業關係的深刻叩問。 (快刀財經)
騰訊官宣!姚順雨出任首席 AI 科學家,27 歲清華學霸掌舵騰訊 AI 下半場
「追到第一名」的劇本,騰訊可能又要演一遍,這次押注的是 AI。就在今天下午發佈的內部公告中,騰訊表示,知名 AI 研究員姚順雨 (Vinces Yao) 正式出任「CEO / 總裁辦公室」首席 AI 科學家,向騰訊總裁劉熾平匯報;同時兼任 AI Infra 部、大語言模型部負責人,向技術工程事業群總裁盧山匯報。這次任命,釋放的訊號很清晰:騰訊的 AI 正在全面提速,且是帶著「要打硬仗」的架勢。不久前,金沙江創投主管合夥人朱嘯虎在談及國內 AI 競爭格局時直言騰訊還沒真正發力。他還評價稱,騰訊往往等局面打明白後再加速追趕——從第五、第六,追到第三、第二,最後追到第一。今天,騰訊便用實際行動回應了外界的質疑。騰訊升級大模型研發架構,新成立 AI Infra 部、AI Data 部、資料計算平台部。其中,AI Infra 部將負責大模型訓練和推理平台技術能力建設,聚焦分佈式訓練、高性能推理等核心技術,為演算法研發和業務落地提供支撐。王迪繼續擔任大語言模型部副總經理,向姚順雨匯報。劉煜宏擔任 AI Data 部負責人、陳鵬擔任資料計算平台部負責人,均向公司副總裁蔣傑匯報。更關鍵的是,騰訊混元的「成績單」已足夠搶眼。過去一年,混元大模型發佈超過 30 個新模型。12 月 5 日發佈的混元 2.0,在複雜推理與文字生成場景表現國內領先。混元 3D 模型更是保持著全球領先水準,開源社區下載量超過 300 萬。組織調整與密集引才,說到底就是在為高強度的技術攻關補齊兵力、夯實底座。而姚順雨的加盟,無疑是騰訊 AI 戰略中極為重要的一步棋,也讓人不由得期待,他的到來或許會為騰訊 AI 帶來一股全新的氣象。細數姚順雨的履歷,只能用開掛來形容——合肥一中出身、NOI 銀牌得主、高考 704 分勇奪安徽理科探花,擔任過清華姚班聯席會主席,甚至還聯合創辦了清華說唱社,妥妥的全能型人才。普林斯頓電腦博士畢業後,他更是直奔 OpenAI,期間,他曾深度參與 Computer-Using Agent (CUA)、Deep Research 等重要產品。今年 5 月份,憑藉過硬的履歷,他成功入選《MIT 科技評論》「35 歲以下科技創新 35 人」中國區榜單,成為該屆最年輕入選者。圖片來自清華校友總會學術成果也相當能打,他推動了 LLM 從「對話系統」向「任務執行系統」的範式轉變。隨便拎幾篇代表作出來:ReAct (ICLR 2023):將推理與行動結合的經典框架,引用超 4300 次。Tree of Thoughts (NeurIPS 2023):大語言模型的「思維樹」問題求解方法,引用超 4000 次。Reflexion (NeurIPS 2023):引入語言反饋的自我改進智能體,引用超 2600 次。SWE-bench (ICLR 2024):評估語言模型解決真實 GitHub 問題的能力。WebShop (NeurIPS 2022):可擴展的基於語言代理的網頁互動任務。SWE-agent (NeurIPS 2024):面向自動化軟體工程的智能體-電腦介面。……Google Scholar 顯示,他的總引用次數超過 1.5 萬次,h-index 為 24,i10-index 為 29——這個資料在 27 歲這個年齡段,表現相當不俗。巧合的是,今年 5 月姚順雨在一次與張小珺、李廣密的對談中,恰好聊到了微信和 AI 的話題。當時李廣密拋出觀點:微信卡位確實好,但如果未來 Multi-Agents、Long-Term Memory 這些技術成熟了,Agent 系統卻沒長在微信上,那就「比較恐怖」了。姚順雨的回應頗為哲學:「這取決於人類的網路會變成什麼樣?你會有更多 Agent 朋友,還是更多人類朋友?」他進一步解釋,微信既承載社交關係,也承載職業互動——比如購物諮詢、法律服務等。無論人類網路如何演變,總需要基礎設施和平台支撐。面對張小珺的靈魂拷問:如果你是微信一號位,會怎麼做 Agent?姚順雨表示:「我可能會不急,先觀望觀望。」在他看來。微信已經易守難攻,為什麼要急著進攻?真正的威脅不是類似產品的競爭,而是顛覆性創新。就像當年微信打敗 QQ 那樣,危險的是「很不一樣的東西」。除了這次精彩的對談,今年 4 月份姚順雨發表的技術博文《AI 的下半場》同樣在業界引起了廣泛討論。讓AI 下半場總結:AI 正處在中場休息。幾十年來,AI 的主要精力都放在開發新的訓練方法和模型上。事實證明,這條路走得通:從在國際象棋和圍棋上擊敗世界冠軍,到在 SAT 和律師資格考試中超過大多數人類考生,再到拿下 IMO 和 IOI 金牌。寫進歷史的這些里程碑——DeepBlue、AlphaGo、GPT-4 和 o-series——背後都是 AI 方法上的根本創新:搜尋、深度強化學習、規模化訓練以及推理。隨著時間推移,效果一次次被刷新。那現在突然有什麼不同呢?三個詞:強化學習真的能用了。更準確地說,強化學習終於能夠泛化了。經歷了多次迂迴探索和里程碑的積累,我們終於找到了一套能解決各種強化學習任務的有效方法——依託語言與推理。要是你一年前對大多數 AI 研究者說:有一個通用方案能同時搞定軟體開發、創意寫作、IMO 等級的數學題、鍵鼠操作,甚至長篇問答——他們大概會笑你在「幻覺」。因為這些任務都極其困難,很多研究者整個博士階段可能只專注在其中一個方向。然而,這已經成真。那麼接下來會怎樣?AI 的下半場——從現在開始——將把重心從「解決問題」轉向「定義問題」。在這個新階段,評估的重要性會超過訓練。我們不再只是問「能不能訓練出一個模型解決 X 問題?」,而是要問「我們究竟應該讓 AI 去做什麼?又該如何衡量真正的進展?」。要想在下半場脫穎而出,我們需要及時轉變思維方式和技能組合,更接近於產品經理的思路。上半場要理解 AI 的上半場,可以看看它的「贏家」們。到目前為止,你認為最有影響力的 AI 論文有那些?我做了下 Stanford 224N 的小測,結果並不意外:Transformer、AlexNet、GPT-3 等等。這些論文的共同點是什麼?它們都提出了訓練更好模型的重大突破。同時,它們也靠在某些基準測試上取得(顯著的)提升,才得以順利發表。但還有個潛在的共性:這些「贏家」幾乎全都是訓練方法或模型,而不是基準或任務。就算是公認最有影響力的基準之一——ImageNet,它的引用量也不到 AlexNet 的三分之一。而在其他地方,方法和基準的對比更懸殊。比如,Transformer 的主要基準是 WMT'14 翻譯任務,該研討會的報告大約有 1300 次引用,而 Transformer 論文字身超過 16 萬次。這說明了上半場的遊戲規則:重點在於創造新的模型和方法,而評估和基準雖然必要,卻始終是次要的。為什麼?很大一個原因是,在 AI 的上半場,方法比任務更難,也更令人興奮。從零開始發明一種新演算法或網路結構——比如反向傳播演算法、摺積神經網路(AlexNet),或者後來 GPT-3 所用的 Transformer——需要非凡的洞察力和工程能力。相比之下,給 AI 定義任務就顯得直接得多:我們只需要把人類已經在做的事情(翻譯、圖像識別、下棋)變成基準測試就行,幾乎不需要太多新洞見或工程創新。方法的價值還在於它們往往比單個任務更通用、應用更廣。以 Transformer 為例,它不僅推動了自然語言處理(NLP),還在電腦視覺(CV)、強化學習(RL)等領域全面開花,遠遠超越了它最初驗證成果的那個小小的翻譯資料集(WMT』14)。一個偉大的新方法可以「爬」上許多不同的基準,因為它足夠簡潔和通用,所以影響往往超越單一任務。這種玩法延續了數十年,催生了改變世界的思想和突破,並通過不斷刷新的基準成績體現出來。那為什麼這個遊戲會改變呢?因為這些思想和突破的累積,已經帶來了質的飛躍——我們終於找到了可行的通用方案來解決任務。配方那麼,「配方」到底是什麼?配料其實並不意外:大規模的語言預訓練、資料和算力的擴展,以及「推理與行動」的理念。這些聽起來像是你每天在舊金山都會聽到的流行詞,但為什麼要稱它為配方呢?我們可以從強化學習(RL)的視角去理解。RL 常被認為是 AI 的「終局」——理論上它能保證贏得遊戲,而在實踐中,你也幾乎無法想像沒有 RL 的超級智能系統(比如 AlphaGo)。在 RL 中,有三個關鍵組成部分:演算法、環境和先驗知識。長期以來,RL 研究者主要聚焦在演算法本身(比如 REINFORCE、DQN、TD-learning、actor-critic、PPO、TRPO……),這是智能體如何學習的「智力核心」,而環境和先驗往往被視作固定不變或最低限度的設定。比如,Sutton 和 Barto 的經典教材幾乎完全講演算法,幾乎沒涉及環境或先驗。然而,在深度 RL 時代,研究者們逐漸發現:環境的重要性極高。一個演算法的表現往往與它所處的環境高度繫結。如果你忽略環境,就可能造出一個只在玩具問題裡「最優」的演算法。那為什麼不先想清楚:我們到底想要解決什麼樣的環境,然後再去尋找最合適的演算法?這正是 OpenAI 最初的計畫。它先推出了 Gym,把各種遊戲變成標準化的 RL 環境;接著又嘗試了 World of Bits 和 Universe 項目,試圖把網際網路或電腦本身變成一個遊戲。這聽起來很合理:一旦把所有數字世界轉化為環境,再用聰明的 RL 演算法去解決,就能得到數字版的 AGI。這是個好計畫,但沒能完全走通。OpenAI 確實取得了巨大進展,用 RL 解決了 Dota、機械手等難題。但它始終沒能真正攻克電腦操作或網頁導航的問題,而且在一個領域中訓練出來的 RL 智能體,幾乎無法遷移到另一個領域。顯然,缺了點什麼。直到 GPT-2、GPT-3 出現,人們才意識到:缺少的關鍵其實是先驗。你需要強大的語言預訓練,把常識和語言知識蒸餾進模型裡,然後再進行微調,讓它們成為能上網(WebGPT)或能聊天(ChatGPT)的智能體(並由此改變世界)。事實證明,RL 中最重要的部分可能既不是演算法,也不是環境,而是先驗知識——而且這種先驗完全可以通過與 RL 毫不相關的方法獲得。語言預訓練為對話提供了很好的先驗,但在控制電腦或玩電子遊戲時效果卻不那麼理想。為什麼?因為這些任務與網際網路文字的分佈差距更大,直接在這些領域做 SFT(監督微調)或 RL(強化學習)時,泛化能力很差。我在 2019 年就注意到了這個問題。當時 GPT-2 剛發佈,我嘗試在它的基礎上做 SFT 和 RL 來解決文字冒險遊戲——CALM 是世界上第一個基於預訓練語言模型建構的智能體。但它需要上百萬步的 RL 訓練才能「爬」過一款遊戲,而且無法遷移到新遊戲。雖然這正是 RL 的典型特徵,RL 研究者對此並不意外,但我卻覺得奇怪:因為人類可以很輕鬆地嘗試一款新遊戲,並且在零樣本情況下表現顯著更好。就在那時,我迎來了人生中的第一個「頓悟時刻」——人類之所以能泛化,是因為我們不僅能選擇「去 2 號櫃子」「用 1 號鑰匙開 3 號寶箱」「用劍殺地牢怪」,還可以選擇去思考:「地牢很危險,我需要一件武器來應對。但目前沒有現成的武器,也許需要去鎖著的箱子裡找。3 號寶箱在 2 號櫃子裡,那我應該先去櫃子 2,把它打開。」思考,或者說推理,是一種奇怪的行動。它不會直接改變外部世界,但推理的空間是開放的、組合上無限的——你可以思考一個詞、一句話、一整段話,甚至一萬個隨機單詞,而周圍的世界並不會立刻發生變化。在傳統 RL 理論中,這是個「糟糕的選擇」,會讓決策幾乎不可能。想像一下:你需要從兩個盒子裡挑一個,一個有 100 萬美元,另一個是空的。你期望值是 50 萬。現在如果我加上無限多個空盒子,你的期望值就變成了 0。但如果我們把推理加入 RL 環境的動作空間,就能利用語言預訓練提供的先驗來實現泛化,同時還能根據不同決策靈活分配推理時的計算量。這真的是一件很神奇的事。我在這裡沒法完全解釋清楚,可能需要專門寫一篇博文。你可以去讀一下 ReAct,它講述了智能體推理的最初故事,也能感受到我當時的心路。直觀地說:即便你加了無數個空盒子,但你在生活和遊戲中早已見過類似情況,所以選擇這些空盒子的經歷反而能幫助你在真正有錢的遊戲裡更好地做出選擇。抽象地說:語言是通過推理在智能體中實現泛化的。一旦我們擁有了合適的 RL 先驗(語言預訓練)和合適的 RL 環境(把語言推理作為動作),結果發現 RL 演算法本身反而成了最不重要的部分。於是才有了 o-series、R1、deep research、會用電腦的智能體,以及未來更多的成果。多麼諷刺的轉折!長期以來,RL 研究者最關心的都是演算法,而幾乎沒人注意先驗——幾乎所有 RL 實驗都是從零開始。但我們花了幾十年的迂迴才意識到,也許優先順序應該完全反過來。下半場這個「配方」正在徹底改變遊戲規則。回顧一下上半場的玩法:我們開發新的訓練方法或模型,用來在基準測試上爬坡。然後我們再設計更難的基準,繼續循環。但這種玩法正在失效,原因有二:這個配方基本上已經把「刷基準」的過程標準化、產業化了,不需要多少新的點子。隨著配方的規模化和泛化,你為某個特定任務設計的新方法,可能只能提升 5%;而下一代 o-series 模型即便沒有專門針對這個任務,也能直接提升 30%。即便我們設計出更難的基準,也會很快(而且越來越快)被這個配方解決。我的同事 Jason Wei 畫過一個很漂亮的圖,把這種趨勢表現得很清晰:那麼下半場還能玩什麼?如果新的方法已不再需要,而更難的基準也會越來越快被解決,那我們接下來該做什麼?我認為我們需要從根本上重新思考「評估」。這不僅僅是去設計新的、更難的基準,而是要徹底質疑現有的評估方式,並創造新的評估體系,從而逼迫我們去發明超越現有「配方」的新方法。這很難,因為人類有慣性,幾乎不會去懷疑最基本的假設——你習以為常地接受它們,卻沒意識到它們只是「假設」,而不是「規律」。舉個關於慣性的例子:假設你在 2021 年設計了一種基於人類考試的評估方式,這是一個極其大膽的想法。但三年後,這個方法就已經飽和了。你會怎麼做?最可能的做法就是——設計一份更難的考試。或者,假設你解決了簡單的程式設計任務,那你會怎麼做?很可能就是去找更難的程式設計任務來解,直到達到 IOI 金牌水平。這種慣性很自然,但問題在於:AI 已經在國際象棋和圍棋上擊敗了世界冠軍,在 SAT 和律師資格考試中超過了大多數人類,甚至在 IOI 和 IMO 上拿下了金牌。可世界並沒有發生太大改變——至少從經濟和 GDP 的角度來看如此。我稱之為效用問題,並認為這是 AI 最重要的問題。也許我們很快就能解決效用問題,也許不會。但無論如何,這個問題的根源可能出奇地簡單:我們的評估方式在很多基本層面上與現實世界的設定並不一致。舉兩個例子:- 在評估中,任務「應該」自動運行:通常智能體接收任務輸入,自主執行,然後得到一個獎勵。但現實中,智能體必須在任務過程中持續與人類互動——你不會只給客服發一段超長的文字,等上 10 分鐘,就指望對方給你一份完整的回覆解決所有問題。通過質疑這種評估設定,人們發明了新的基準:要麼把真實人類納入環節(如 Chatbot Arena),要麼引入使用者模擬(如 tau-bench)。- 評估「應該」是 i.i.d.(獨立同分佈) 的。如果你有一個包含 500 個任務的測試集,就會獨立運行每個任務,最後取平均得到一個總體指標。可在現實中,我們解決問題往往是順序進行的,而不是平行。比如,一個 Google 的軟體工程師(SWE)在處理 google3 的問題時,隨著她對程式碼庫越來越熟悉,效率會越來越高;但一個 SWE 智能體在同一個程式碼庫中解決了很多問題,卻無法獲得這種熟悉度。我們顯然需要長期記憶的方法(事實上已經有一些了),但學術界既沒有合適的基準來證明其必要性,也缺乏質疑 i.i.d. 假設的勇氣——而 i.i.d. 一直以來是機器學習的基礎。這些假設「一直以來」就是如此。在 AI 的上半場,基於這些假設去設計基準是沒問題的,因為智能水平還低,提升智能基本就等於提升效用。但現在,這套通用配方在這些假設下幾乎必定能奏效。所以,在下半場的新玩法是:我們開發新的評估方式或任務,以衡量真實世界的效用。我們用現有配方去解決它們,或在配方上加入新的元件,然後繼續循環。這個遊戲很難,因為它是陌生的。但它同樣令人興奮。上半場的玩家解決的是電子遊戲和考試,下半場的玩家則有機會靠建構真正有用的智能產品,打造市值數十億甚至數兆美元的公司。上半場充斥著方法和模型的漸進改進,而下半場會對它們進行一定的「篩選」。這套通用配方會輕易擊敗那些漸進式的方法,除非你能設計出新的假設,打破現有配方。那時,你才會做出真正改變遊戲的研究。 (APPSO)
合肥一中畢業的姚順雨,出任騰訊首席AI科學家
這位年僅27歲的AI界頂尖人才為合肥一中2015屆校友如今已成為中國科技巨頭AI戰略佈局的關鍵核心今天上午合肥一中官微發佈推文講述了該校傑出校友姚順雨在校時的故事姚順雨的成長軌跡堪稱“學霸範本”。初中就讀於合肥45中,高中考入合肥一中後,他便展現出過人的電腦天賦,2014年斬獲全國資訊學奧林匹克競賽(NOI)銀牌。姚順雨在合一校園(倒數第二排左五)。2015年高考,他以704分、安徽省理科第三的優異成績,考入被譽為“天才集中營”的清華大學交叉資訊研究院“姚班”,主修電腦科學,其間不僅擔任姚班聯席會主席,還聯合創辦了清華大學學生說唱社,兼具學術深度與多元才華。姚順雨在清華“姚班”。2019年,姚順雨遠赴普林斯頓大學深造,專攻自然語言處理與強化學習,2024年順利獲得電腦科學博士學位。姚順雨在芝加哥學習交流。在合肥一中學習期間,姚順雨便是大神級的存在。關於姚順雨,還發生一件有趣的事:2015年高考出分後,姚順雨還專門來找校領導,主動“懺悔”,說由於自己的低級錯誤,讓大合一錯過了一個“全省頭名”,於可愛中彰顯了他對母校的榮譽感與責任感。而在班主任杜敏老師眼裡,姚順雨是個非常有想法、做事有規劃的孩子,不僅是理科大神,而且熱愛文學、喜歡rap和籃球、舞蹈等,可以說是個全面發展的學霸。姚順雨在MIT學習交流。學術生涯中,姚順雨已創下多項重磅成果。博士期間提出的思維樹(Tree of Thoughts)框架,大幅提升了AI決策模型的複雜問題解決能力;研發的ReAct方法首次建構“推理—行動”智能體範式,成為全球語言智能體開發的主流技術;2024年博士畢業後,他直接加入OpenAI擔任研究科學家,深度參與智能體產品Operator、DeepResearch及電腦使用智能體(CUA)的核心研發,為語言智能體領域的開啟與發展奠定了基礎性貢獻。2025年5月,他以最年輕入選者身份躋身《麻省理工科技評論》“35歲以下科技創新35人”中國區名單,學術實力與創新潛力獲國際權威認可。 (安徽日報)
阿里字節騰訊的CEO身旁都有了一個AI科學家
姚順雨到騰訊,終於得到官方確認。12月17日,騰訊升級大模型研發架構,一方面,新成立AI Infra部、AI Data部、資料計算平台部,全面強化大模型的研發體系與核心能力;另一方面宣佈,“Vinces Yao”,也就是前OpenAI明星研究員姚順雨,出任“CEO/總裁辦公室首席AI科學家”。他將直接向騰訊總裁劉熾平匯報,同時兼任AI Infra部、大語言模型部負責人,雙線向技術工程事業群總裁盧山匯報。這裡首先有三個資訊值得注意:第一,騰訊第一次有了總辦首席AI科學家的崗位。第二,這個崗位夠靠近騰訊權力中心。第三,在這個位置上的是一位AI界非常年輕的明星人物。這讓人想到字節和阿里先前的人員和組織調整動作,至此,三家中國網際網路巨頭在AI時代也集體把AI科學家「安插」到了自己的權力中心。阿里字節騰訊,都把AI拉向權力中心位置對巨頭來說,組織中心位置的調整併不容易。而三家頭部大廠,都想辦法把AI拉向了集團決策的核心位置。先看阿里。不久前,阿里雲CTO、通義實驗室負責人周靖人,正式晉陞為阿里巴巴合夥人。這是他個人的職業巔峰,也是阿里AI戰略演進的關鍵訊號。阿里合夥人團隊已做精簡,周靖人的入選,標誌著阿里首次將一位純技術背景的AI科學家,正式引入權力中心。早先,周靖人離開微軟,以阿里雲首席科學家身份加入阿里,後又擔任阿里雲CTO。 2023年,吳泳銘上台,兼任阿里雲董事長與CEO。同時,阿里明確「AI驅動」為集團一大戰略重心,達摩院內部部分AI團隊重組為通義實驗室,由周靖人掌舵。隨後周靖人帶領團隊,推進通義千問系列模型研發,並促成Qwen成為全球最受關注的開源模型之一,這是阿里拿到AI時代船票的關鍵動作。同時,阿里也在組織架構上把AI拉到了更核心的位置。從2025年8月起,阿里實質上終結了「1+6+N」的橫向分拆模式,重新收縮為四大部門,在集團層面更明確了「AI+雲」的重要地位。再看字節。2023年到2024年,字節跳動逐步確立了兩大核心AI組織,Seed與Flow。一個專注底層大模型研發,一個負責將大模型落地為具體產品。其中,Seed部門由原TikTok技術負責人朱文佳主導,並直接向CEO梁汝波匯報。而2025年初,原Google副總裁吳永輝加入Seed,同樣直接向梁汝波匯報。吳永輝在Google曾拿到Google Fellow頭銜,為Gemini做出了重要貢獻。他的加入進一步凸顯了字節對基礎研究的重視。之後,在2025年10月,Seed便完成新一輪架構調整,過渡期快速度過,吳永輝正式成為Seed的唯一負責人,直接向字節最核心管理者匯報,並對外強調Seed的首要目標是探索智能上限,專注長期研究。騰訊的調整則相對滯後。它先是2023年集中攻關底座大模型,隨後將AI產品線移向離商業更近的部門,推出元寶等C端產品。到了2025年,騰訊AI有更密集的調整,內部關係也逐漸清晰。2月,騰訊將原本散落在不同事業群的C端AI產品進行整合,形成了以CSIG核心的AI產品矩陣。 4月,混元研發團隊內部拆分為大語言模型部與多模態模型部,確立演算法研發的雙軌制。而眼下,騰訊新成立AI Infra部等組織,重新整理了AI大模型研發體系。姚順雨任職得到官宣,則讓騰訊終於也有了直通權力核心的AI科學家。把AI科學家放到CEO身邊,能帶來啥梁文鋒說,創新缺的肯定不是資本,而是缺乏信心,以及不知道怎麼組織高密度的人才,實現有效的創新。AI的競爭是頂尖人才和組織度的競爭。既需要合適的頂尖人才,還得把他們放到合適到位置,再匹配相應的組織調整,才能真正加速AI處理程序。字節阿里是如此,騰訊要做的是如此,Google也是如此。2023年,Google將曾開發出Transformer架構的AI實驗室Google Brain和開發出AlphaGo的Deep Mind合併,成立了全新的Google Deep Mind。 2025年初,又將Gemini App團隊和AI Studio開發者團隊也全部劃歸Deep Mind管理,實現了AI算力、人才和模型研發的集權,並由Demis Hassabis統一領導。同時,Hassabis和Google首席科學家Jeff Dean都直接向CEO匯報。 GoogleAI上的密整合果,離不開這種組織上的支撐。而這些巨頭最突出的共通性,就是把AI科學家放到了靠近權力中心的關鍵位置。總的來看,一個AI科學家走向舞台中央的時代正在來臨。這帶來許多好處。過去,AI部門在網際網路大廠往往是中台或實驗室性質,科學家向業務總裁匯報。如今AI科學家地位提升,意味著AI在內部的決策權升級。同時,當AI部門有了更大權力和更多資源,還可以藉助各自AI掌門人的技術直覺,讓錢更準確地投向技術前沿,提高花錢的效率。此外,AI科學家在企業內受到重視,還能帶來流量與聲譽。就像羅福莉加入小米,在發佈MiMo-V2-Flash大模型之前,已經提高了小米AI的外界關注和討論。而姚順雨在騰訊拿到超規格待遇,衍生的好處也只多不少。除了以上幾點,最明顯的是為業內招募背書。騰訊總辦們已經親自下場,來吸引最頂尖的AI人才。在姚之後,騰訊的求賢之路可以更順暢一點。而更實在的好處,是姚順雨專長與騰訊AI需求互補。作為AI大模型推理與智能體方向的頂尖青年學者,姚能幫騰訊補齊推理短板,加速Agent場景落地。而騰訊最有想像力的AI事業之一,就是給微信打造Agent。現在一個微信Super Agent,有機會更早亮相了。 (硅星人Pro)
27歲的姚順雨,出任騰訊「CEO/總裁辦公室」首席AI科學家,向總裁劉熾平匯報
內媒消息,騰訊於周三(12月17日)宣佈,姚順雨Vinces Yao出任「CEO/總裁辦公室」首席AI科學家,向騰訊總裁劉熾平匯報;同時兼任AI Infra部、大語言模型部負責人,向技術工程事業群總裁盧山匯報。姚順雨的母校合肥一中發文題為《傑出校友 | 這條重磅新聞關於2015屆校友姚順雨》,稱這位年僅27歲的AI界頂尖人才,為合肥一中2015屆校友”。其初中就讀於合肥45中,高中考入合肥一中後,2014年斬獲全國資訊學奧林匹克競賽(NOI)銀牌;2015年高考,他以704分、安徽省理科第三的優異成績,考入清華大學交叉資訊研究院“姚班”,主修電腦科學,擔任姚班聯席會主席,聯合創辦了清華大學學生說唱社;2019年,姚順雨遠赴普林斯頓大學深造,專攻自然語言處理與強化學習,2024年順利獲得電腦科學博士學位;在博士期間提出的思維樹(Tree of Thoughts)框架,大幅提升了AI決策模型的複雜問題解決能力;研發的ReAct方法首次建構"推理—行動"智能體範式,成為全球語言智能體開發的主流技術;2024年博士畢業後,他直接加入OpenAI擔任研究科學家,深度參與智能體產品Operator、DeepResearch及電腦使用智能體(CUA)的核心研發,為語言智能體領域的開啟與發展奠定了基礎性貢獻;2025年5月,他以最年輕入選者身份躋身《麻省理工科技評論》“35歲以下科技創新35人”中國區名單。在高中班主任眼裡,姚順雨是個非常有想法、做事有規劃的孩子,不僅是理科大神,而且熱愛文學、喜歡rap和籃球、舞蹈等,可以說是個全面發展的學霸。 (瑞恩資本RyanbenCapital)
騰訊把AI未來,交給了一個27歲的人
很難想像,騰訊剛剛任命的首席 AI 科學家只有27歲,當80後還在會議室“反覆對齊顆粒度”的時候,這個98年出生的年輕人,已經開始參與決定騰訊 AI 往那走了。搞不好,他以後會把QQ+微信搞成真正的、能幹活的AI助手。12月17日,騰訊官方宣佈重大組織架構升級與人事任命,27歲的AI界頂尖人才姚順雨被任命為騰訊 CEO / 總裁辦公室體系下的:首席 AI 科學家,同時兼任:大語言模型負責人、推理負責人、AI 基礎設施核心負責人,直接向騰訊總裁劉熾平匯報。騰訊把AI交給了一個98年出生的人換句話說,一個98年出生的年輕人,直接站在了騰訊AI的正中央,姚順雨不在某一個業務部門,也不是掛名科學家,他的位置在騰訊 AI 的中樞層。所有和大模型、算力、推理、Agent 相關的關鍵能力,最終都會匯到他這條線上。他直接向劉熾平匯報,這意味著:騰訊已經把 AI 從“技術嘗試”,提升到了“總裁級戰略執行”的高度,這在騰訊歷史上非常少見。姚順雨的履歷姚順雨是合肥一中出身,2016年安徽高考理科全省第三名(704分),NOI(全國青少年資訊學奧林匹克競賽)銀牌。順利進入清華大學交叉資訊研究院(也就是傳說中的“姚班”),這裡是中國 AI 頂尖人才的黃埔軍校,每一屆只招幾十個人。在大三前,他都沒碰過AI,學的是視覺。去 MIT 交換接觸到認知科學後,他開始思考:語言能否成為智能的核心?博士階段,他放棄主流的視覺,轉向語言和強化學習。這一步,精準踩中了後來大模型的“主航道”。在清華和博士期間,他是 ToT(思維樹)、ReAct、Coala 等頂尖演算法的核心貢獻者。他在清華還是說唱社的創始人。簡單說,別人關心模型會不會答題,他關心模型能不能自己想、自己試、自己改。他最早把模型當成“智能體”(Agent),而不是聊天工具。ReAct引用超4800次,被Meta、Google DeepMind、Cohere等廣泛採用。GitHub 上衍生項目超200個,包括 LangChain、LlamaIndex 的核心執行模組。他今年4月發文稱“AI 進入下半場”,主線正從“模型訓練”轉向“定義任務與評估體系”。說白了,模型會變成水電煤,差距在於你讓 AI 幹什麼、怎麼判斷它幹得好不好。這已經不是科學家的視角,而是產品和商業視角。2024年博士畢業後,他就直接進入了OpenAI,參與了 Operator、Deep Research、Computer Using Agent 等核心項目。他的論文在 AI 圈是必讀文獻,直接定義了什麼是 Agent(智能體)。Operator就是自動操作電腦的AI,就跟字節前段時間出的中興豆包手機很像。騰訊挖他過來,估計也是為了這事,搞不好,以後QQ、微信都嗯給你自動幫使用者訂車票、打車、做PPT的工作了。這是一代人的分水嶺70後、80後這一代技術領軍人物,大多成長在PC 時代、移動網際網路時代,是馬雲、馬化騰、李彥宏的時代,他們擅長的是流量、產品、平台、變現。而95後、00後這一代人就是做原生AI、演算法里長大的,他們默認的世界是:智能體、自動化、人機協作。這幫人不是做學習AI,他們本身就是AI的一部分。騰訊這次的選擇98年的姚順雨做首席科學家,本質是在選未來。未來真正的競爭力,不是某一個爆款應用,而是能持續幹活的AI系統。我們這些80後中老年群體,默認AI就是聊天工具,或者找資料的,搞流量的。而姚順雨搞的是智能體,是讓 AI 去操作電腦、去替你做決策。騰訊這次把他放在核心位置,意圖非常明顯:騰訊需要一個能接管微信、QQ,能像真人助理一樣幫你處理複雜事務的“超級大腦”。寫在最後:姚順雨做《AI的下半場》裡說的一句話,我也把它送給所有關注 AI 的創業者吧:“AI 的主線正在從模型訓練,轉向定義任務與評估體系。”意思是說:AI的下半場是要親民、辦實事。 (盧鬆鬆)
騰訊調整大模型組織架構:姚順雨加盟,向總裁劉熾平匯報
官宣了。就在剛剛,量子位獲悉,騰訊內部宣佈了大模型組織架構調整,而姚順雨也首次被明確了加盟。姚順雨是誰?前OpenAI研究員、清華姚班學霸、普林斯頓博士、NOI奧賽銀牌、安徽省高考探花,是近幾年大模型 Agent 方向最受關注的青年研究者之一。只有28歲。他是Tree of Thoughts(思維樹)、ReAct等工作的作者,也是SWE-bench、SWE-agent等一系列知名研究的核心貢獻者。去年一篇《AI下半場》的博文,讓他在學界與產業界迅速出圈;而今年9月從OpenAI離職後,他的去向也隨之成為各大 AI 公司關注的焦點,一度引發諸多猜測。如今,一切塵埃落定——姚順雨確定加盟騰訊,雙重身份:第一,“CEO/總裁辦公室”首席AI科學家,向騰訊總裁劉熾平匯報;同時兼任AI Infra部、大語言模型部負責人,向技術工程事業群總裁盧山匯報。騰訊內部官宣說了啥姚順雨內部官宣加盟的消息,是隨著騰訊AI組織架構一起披露的。量子位獲悉,騰訊今日內部官宣了大模型研發組織架構調整——新成立AI Infra部、AI Data部、資料計算平台部,全面強化其大模型的研發體系與核心能力。其中Vincesyao出任“CEO/總裁辦公室”首席AI科學家,向騰訊總裁劉熾平匯報;同時兼任AI Infra部、大語言模型部負責人,向技術工程事業群總裁盧山匯報。而Vincesyao,正是姚順雨。據稱,作為騰訊大模型體系的重要一環,AI Infra部將負責大模型訓練和推理平台技術能力建設,聚焦大模型分佈式訓練、高性能推理服務等核心技術能力,建構大模型AI Infra核心競爭力,為大模型演算法研發和業務場景落地提供穩定高效的技術支援和服務。而架構升級後的AI Data部、資料計算平台部,將分別負責大模型資料及評測體系建設、巨量資料和機器學習的資料智能融合平台建設工作。王迪繼續擔任大語言模型部副總經理,向姚順雨匯報。劉煜宏擔任AI Data部負責人、陳鵬擔任資料計算平台部負責人,均向公司副總裁蔣傑匯報。騰訊內部信中還強調,AI大模型研究與工程技術緊密相關。在過往混元大模型訓練以及海量業務場景的深度實踐中,騰訊已經積累了系統化的工程能力;此次大模型研發架構升級,在進一步強化騰訊工程化優勢同時,旨在提升AI大模型研究能力,聚焦公司AI戰略佈局,提升AI大模型的研發效率。過去一年,混元大模型發佈超過30個新模型。12月5日發佈的混元2.0,顯著改進了預訓練資料和強化學習策略,在複雜推理與文字生成場景表現國內領先。混元3D模型甚至保持著全球領先的水準,開源社區下載量超過300萬。而AI產品和服務,騰訊也正在展現一貫的競爭力。在產品和服務層面,騰訊元寶持續最佳化使用者體驗,上線初期甚至保持了每天一個版本的迭代頻率,快速贏得了使用者的認可,使用者規模穩居國內AI應用前三,成為最受新中產歡迎的AI原生應用。目前騰訊也將元寶的AI能力融入微信、QQ、音樂、會議等國民級產品中,讓使用者在不改變習慣的前提下自然觸碰AI,為使用者提供最自然、門檻最低的服務體驗。與此同時,據稱騰訊公司內部正在推進一場全面AI化的效率變革。據騰訊財報會資訊,截止目前,騰訊混元大模型已在騰訊會議、微信、廣告、遊戲等內部超過900款應用和場景中落地。在騰訊公司內部,有超90%的騰訊工程師在使用騰訊雲程式碼助手CodeBuddy,50%新增程式碼由AI輔助生成,程式碼評審環AI參與度達94%。而作為高密度人才引進的姚順雨,也是騰訊開啟AI攻堅的證明。可以確定的是,這個時間點上的騰訊,已經明顯開啟了AI處理程序上的提速。不論是組織變陣、人才推進,還是產品代表元寶、開源代表混元3D,都能明顯感覺得到企鵝洶湧。當然,之所以騰訊一舉一動備受關注,核心還是其所擁有的完備AI要素:豐富場景、海量資料、生態資源,以及謀定後動的戰略風格…AI船票是什麼可能還在被討論,但擁有上述AI要素的騰訊,被認為坐在預留席位的那一桌。這或許也是姚順雨這樣的TOP人才,難以拒絕offer的原因。姚順雨其人其論姚順雨,合肥一中畢業,NOI奧賽銀牌,高考704分以安徽探花進入清華姚班,後在普林斯頓大學獲得電腦博士學位。博士期間,他師從GPT-1第二作者Karthik Narasimhan,從事智能體方向研究。博士畢業後,隨即加入OpenAI。在科研層面,姚順雨的工作幾乎貫穿了Agent研究的關鍵節點。他先後提出CALM(讓語言模型以Agent形式參與語言遊戲)、WebShop(用可控的電商環境系統性評估Agent 能力)等工作。隨後,他又陸續推出了一系列在學界和工業界都產生深遠影響的成果:ReAct:讓大語言模型同步完成推理與行動,是其被引次數最高的工作。Tree of Thoughts:通過搜尋式思維結構顯著提升模型推理能力。SWE-bench:面向真實軟體工程任務的大模型評估基準。SWE-agent:將LLM系統性用於程式碼修復與開發的開源 Agent)。如果說這些工作回答的是“Agent 能不能工作、該怎麼工作”,那麼在觀點層面,姚順雨更關心的,是AI接下來該往那裡走。在2024年8月加入OpenAI 後,姚順雨發表博文《The Second Half》,提出了一個被反覆引用的判斷:AI正處在“中場休息”階段:上半場是訓練 > 評估,下半場將是評估 > 訓練。在他的劃分中,AI 發展可以清晰地分為兩個階段:上半場:以模型和方法為中心,核心任務是“把模型訓出來”。下半場:隨著模型能力趨於成熟,重心轉向任務定義、系統建構與評估體系。也就是說,AI 的關鍵問題正在從“我們能否訓練一個模型解決 XX?”轉向“什麼問題值得被解決?我們如何判斷 AI 是否真的進步了?”在這個階段,評估不再是附屬環節,而是決定方向的前置條件。真正重要的,不是繼續堆模型規模,而是讓模型在真實任務、真實系統中經得起檢驗。除了“AI 下半場”的判斷之外,姚順雨今年 9 月與張小珺的對談同樣出圈,也進一步強化了他一貫的技術立場。在那次對談中,他對Agent、應用與模型邊界的多項判斷被反覆引用,比如:Agent 的本質不是“會用工具”,而是“能推理並泛化”Code 是 Agent 的“手”,是真正的第一性環境真正困難的不是“難任務”,而是“簡單任務的可靠性”創業公司的最大機會,不在模型,而在互動方式這些觀點並非停留在判斷層面,而是與他過往在 ReAct、SWE-agent 等工作中一以貫之的研究路徑高度一致。如今,這位有產出、有觀點、也有清晰技術方法論的明星研究員選擇加入騰訊,所帶來的,顯然不只是單點能力補強,而是一整套關於Agent、系統與真實任務的“下半場”解法。 (量子位)