#AGI
當姚順雨的巨臉降臨中國AGI
1月10日,AGI-NEXT前沿峰會的主會場大廳裡擠滿了人。這是由清華大學基礎模型北京市重點實驗室發起的前沿峰會。三個小時的議程,四個演講和一個pannel,總計六個嘉賓,幾乎每一個都是時下關注的熱門人物:比如,剛剛登陸港股的智譜創始人唐傑、不太愛出門參加活動的Kimi創始人楊植麟、正在向C端Super App發起衝鋒的阿里巴巴Qwen負責人林俊暘,以及近期在官宣加入騰訊後首次露面的前OpenAI研究員姚順雨。其中前三位分別做了技術報告分享,而姚順雨則參加了隨後的AGI-Next圓桌對話。在會議邀請函裡,姚順雨的名字出現在了一個不那麼起眼的角落裡:沒有主題報告,名字被悄悄放在了楊強、唐傑和林俊暘後面。但很快許多人都立刻意識到,這將是這位剛剛官宣加盟騰訊的前OpenAI研究員、網傳各種版本天價薪酬的合肥天才少年,作為中國估值最高的網際網路公司的AI一號位,在回國後的首次公開露面。從一開始,會場上的觀眾席裡彷彿就有一種默契。主持人開始介紹嘉賓,在一眾領導之後,不少人都伸長了脖子張望,但都沒有聽到那個期待中的名字。有人開始疑惑,但好像有些嘉賓的名字也沒有被提及,所以懷疑他可能是和其他人一同待在貴賓室裡。當然,或者可能乾脆未必真的會來——畢竟誰沒見過在活動當天爽約的“大佬”呢?這種懷疑在圓桌開始的那一刻幾乎被坐實了。圓桌原本有五個人,但舞台只搬上了四張沙發。LED大螢幕上還打出了姚順雨的銘牌,但他的頭像下卻空空如也。加拿大皇家科學院院士和工程院院士楊強、智譜創始人唐傑、Qwen負責人林俊暘和主持人、拾象科技創始人李廣密在台上一一落座。然後主持人開始對嘉賓講話。坐在我側前方的中年大哥說了一句,“哦,沒來啊。”主持人還沒提完問題,姚順雨巨大的騰訊會議頭像框就突然“閃現”在了三個嘉賓大佬的頭頂。那是滿滿一整屏的LED,把他的頭塑造得如此之大,以至於沒有一個嘉賓的高度能超過他的鼻尖。唐傑、楊強、林俊暘我上一次看到這樣的“奇景”,還是在《1984》。沒有觀眾能接受這樣戲劇性的一幕,於是會場爆發出了一陣熱烈的笑聲。剛才那位扼腕的大哥又說,“果然是YaoShunYu啊。”姚順雨似乎在視訊裡比照片更好看。他臉上堆滿了1998年生年輕人該有的膠原蛋白,發量充沛,笑起來很有鄰家大男孩的親和力——尤其在小紅書裡,大量的女性使用者湧入評論區稱讚他是“Hot Nerd”、“理想型之理想型”、“像許嵩”、“大臥蠶狗狗眼”,並為其“英年早婚”而深感惋惜。可能是看到了現場的情況,姚順雨頭顱左右轉動、眼神裡夾雜著一些迷茫。我當時看著那場面,心想那簡直就是過去半年時間裡,他本人在中國AGI江湖傳說的最佳側寫:這個年輕人以不置可否的網路傳聞方式,猝不及防地出現在了AI江湖裡,掌控了一家市值約等於字節跳動(3500億美金)和阿里巴巴(3600億美金)之和的超級網際網路公司(5.5兆港幣)的AI部門,最後無意間將那些年齡上能做他爺爺輩的研究者置於一種略顯尷尬的場面裡。而這背後巨大的故事張力,又在AI圈外塑造了一種遠遠超出技術與商業本身的爽文敘事。至於他本人的反應——他的理性非常清楚地知道自己的形象將處在一個巨大的會議廳裡,但身體的反應卻完全沒有處於嘈雜人群中的實感。面對身後的龐然大物,主持人選擇話頭扔給姚順雨。姚順雨此時像是反應過來,然後笑著問所有人,“我現在是不是一張巨大的臉在(螢幕上)”。所有人聽完又再笑。而這就是1998年出生的騰訊AI一號位,在中國頂級舞台首發亮相的第一分鐘。其樂融融。姚順雨講了麼?人們對姚順雨充滿好奇,除了對於年齡和網傳誇張年薪的反差感外,自然還包含了對騰訊接下來AI動向的好奇。正如Qwen林俊暘在回答主持人問題時,拿姚順雨打趣說:“一代一代的人塑造了這些公司,比如說今天順雨到騰訊之後,可能騰訊變成一個有著順雨基因的公司。”姚順雨在回答問題時,有時顯得很謹慎,說話比任何人都慢,會字斟句酌地吐出幾個同義詞。但我想,我們依然能夠通過這次對談,瞥見未來姚順雨乃至騰訊AI未來的審美偏好和發力方向。以下是對姚順雨相關表態的整理和分析:(一)“騰訊肯定還是一家To C基因更強的公司。”(1)我們會思考,怎麼樣能夠讓今天的大模型或者說AI的發展給使用者提供更多價值——很多時候是額外的Context。比如,今天我想去吃什麼?這個事情不需要更大的模型能力,而是需要額外的Context,比如今天特別冷,需要吃暖和的。我和老婆聊了很多天,可以把聊天記錄轉發給元寶。(2)對於To C來說,大部分人大部分時候不需要用到這麼強的智能,可能今天用ChatGPT和去年相比,寫成交代數和伽羅瓦理論的能力變強的,但是大部分人大部分時候感受不到。To C的問題是DAU等指標和模型智能不相關,甚至相反。(二)“ToB 在中國很難。”(1)生產力的革命,包括很多中國的公司做Coding Agent,需要打很多海外市場。我們會思考怎麼把自己先服務好。大公司本身就已經有各種各樣的應用場景、各種各樣需要生產力變得更好的地方。(2)“To B 的智能越高,代表生產力越高,值錢的也越來越多,大部分時候很多人就願意用最強的模型——強的模型和稍微差點,或者弱的模型它的分化會越來越明顯。(3)to B 的垂直整合未必成立,因為模型層和應用層需要的能力還是挺不一樣(比如ChatGPT Agent 相比於Manus);但 to C 的垂直可能還是成立的,無論是ChatGPT還是豆包,模型和產品是非常強耦合去緊密迭代的。(4)Anthropic不做什麼創新,老老實實把事情做好,就會有價值;(5)即便所有的模型訓練全部停止,to B也可以有很大的空間,為GDP提供5-10%的(正面)影響。(三)“自主學習在矽谷是一個共識”(回答下一個範式的問題)(1)自主學習不是一種方法論,而是資料或者任務,本質是討論基於什麼樣的獎勵函數;(2)ChatGPT在利用使用者的資料不斷彌合人聊天的風格;Claude 寫了Claude 項目95%的程式碼,這可能都是一種自我學習;(四)“中國對於刷榜和數字看得更重一些”(1)DeepSeek做得比較好;Claude在榜單不是很高,但是大家都知道這個東西好用。(五)“對於中國從跟隨者變引領者,我還是挺樂觀的”(1)任何一個事情一旦被發現,中國就很快會復現;(2)核心(變數之一)在於光刻機能否突破來解決算力優勢;林俊暘疑似對姚順雨部分觀點的不同意見:(一)關於自學習範式:人類不能通過互動讓AI變得更厲害,只會讓它上下文變得越來越長,AI變得越來越笨。自動化AI未必需要自主學習,AI訓練AI就會很強,但持續理解使用者會很重要。AI自主性可能導致安全風險,“比如說今天主動產生一些想法,往會場裡面扔一顆炸彈”。拿我們自己獻醜,我們自己的Memory看起來知道我過去幹了什麼,但是只是記起來過去事情,每次叫一遍我的名字,其實並不顯得你很聰明(未來是否實現還要看更多時間和技術觀測)(二)關於to B“垂直整合”邏輯未必成立:當然Manus確實很成功,套殼是不是未來,這本身也是個話題。今天到這個環節,我比較同意“模型即產品”。我們現在Agent已經變的託管式的Agent,而不是我要不斷給你來來回回互動的那種形式。從這個角度來說,它對模型的要求是很高的——模型就是這是這個Agent本身,Agent就是這個產品本身,如果它們都是一體化的話,今天做基礎模型本身,其實也就是在做產品。總結如果從姚順雨的發言,可以(不負責任地)大概猜到騰訊接下來的AI戰略:第一,騰訊會發力圍繞社交應用做Agent,重視上下文工程和自進化的主打C端市場。第二,B端市場繼續保守。第三,不會太去沖榜。姚順雨被官宣是他在騰訊漫長Landing的一個里程碑。但在如何把他的基因放進騰訊之前,可能先要想好,如何把騰訊的基因融進自己的身體裡。而相比於姚順雨的降臨,我們大概更期待他能給騰訊龐大生態帶來嶄新的變化。用姚順雨那篇知名的部落格的話說,我們正處在AI的中場休息——所以,“歡迎來到下半場”。姚順雨和他的騰訊AI會成為那個開球人嗎? (矽星人Pro)
成為大模型第一股後,智譜董事長首次發聲:談2513、“燒錢與造血”
1月8日,智譜在香港掛牌交易,股票程式碼後四位是“2513”,諧音是“AI我一生”。智譜首日開盤漲幅 3.27%,報120港元/股,市值528億港元。在智譜本次IPO發行中,香港公開發售獲1159.46倍認購,國際發售獲15.28倍認購。以每股116.20港元的發行價計算,智譜本次IPO募資總額超43億港元(“綠鞋”前)。智譜正式成立於2019年,但是它的故事可以追溯到2006年。那年,清華大學KEG(知識工程實驗室)發佈了一款名為AMiner的科研情報挖掘平台,用人工智慧挖掘科學發展的客觀規律。這個系統覆蓋220個國家和地區,累計訪問量超過1000萬次,成為全球科研人員的重要工具。這套系統最終在2019年走出實驗室,成為智譜AI的技術基因。在2026年的開年,智譜的故事迎來高光時刻。承載著這些技術基因的理工男,用一串數字,承諾“終一生成就AGI夢想”,頂著“全球大模型第一股”的光環,等待著資本市場的現實檢驗。但這註定並非一場輕鬆的加冕禮。從發佈招股書的那一刻起,全世界第一次獲得了可以透明化、全方位審視一家大模型企業的商業模式的機會。在高昂的算力成本壓力下,Token的邊際成本能不能實現網際網路式的規模效應?基座大模型公司賣的到底是具備稀缺性的“智力”,還是變相的“算力轉售”?AI時代的MaaS(模型即服務)會不會陷入SaaS(軟體即服務)曾經遇到的增長困境?巨大的研發投入和當下巨額的虧損,何時才能轉化為正向的商業收益?除了商業意義,智譜的身上在某種程度上也承載了中國AI產業的夢想,被笑稱為“全球AI競賽中的‘中國隊長’”。智譜AI曾經在模型發佈節奏上緊咬OpenAI,在模型的矩陣上,也對標OpenAI的佈局。OpenAI曾在名為《Chinese Progress at the Front》的報告中明確指出,智譜在多個維度取得了顯著進展,並將智譜列為主權AI競爭下的核心對手。上市是一個重要的里程碑,“不管智譜融了多少錢,拿了多少收益,其實都是通往AGI道路上的盤纏。”智譜管理層在對外交流的時候,說過的這句話曾經給行業留下很深的印象。“全球大模型第一股”稱號加身,智譜的的基石投資陣容也十分豪華,包含北京核心國資、頭部保險資金、大型公募基金、明星私募基金和產業投資人。JSC International Investment Fund SPC、JinYi Capital Multi-Strategy Fund SPC、Perseverance Asset Management 等11家基石投資者合計認購29.8億港元。2026年的開年,高光和壓力之下的智譜,也正站在大模型從“技術可用”向“場景好用”轉化的關鍵臨界點,在正式敲鐘之前,智譜董事長劉德兵首次深度講述了智譜如何在未來建構一個可驗證、可持續的商業故事。01AGI長跑,已經到了 L3Q:智譜的程式碼挺有意思的是 2513 ,諧音是 “AI 我一生”?劉德兵:希望是智譜送給所有AGI信仰者的一個彩蛋,在L1到L5的漫長征途中,還是需要這種浪漫主義的信念的。同時,也想告訴世界,我們是長跑的選手,會把一生都投入到“讓機器像人一樣思考,用可信賴的 AI 讓人類更美好”的這個事業中來。Q:從智譜的定義來看,現在AGI到那個階段了?劉德兵:我們目前正處於 L3(第三級)階段。這一階段的核心特徵是智能體(Agent)與自主學習能力的初步顯現。AI 不僅在多個領域實現了“可用”,而且正變得越來越“好用”。雖然距離完全實現像人類一樣思考的 AGI 目標仍有一段距離,但我們正處在這一關鍵的躍遷過程中。Q:智譜已經成為“全球大模型第一股”,未來在這次大考中取得優異成績,背後最關鍵的衡量標尺有那些?劉德兵:IPO 這件事,我們覺得最重要的是對“技術邏輯能否跑通商業邏輯”的實戰檢驗。我們內部復盤時,主要看這三個維度的表現:第一,看收入結構和增長質量。 2024 到 2025 年,智譜的複合增長率達到了 130%。這背後其實是三條線在同時發力:雲端 MaaS、訂閱服務,以及企業本地化部署的需求都在同步釋放。第二,看底層技術到底在什麼位置。 拿測評資料來說,在 Artificial Analysis 的榜單裡,GLM-4.7 拿到了 68 分,目前是國產模型和開源模型裡的第一,全球排在第六。第三,看生態的實際滲透率。 2025 年我們加大了開源力度,特別是像 AutoGLM 這種核心能力的開放。目前智譜開源系列在全球的累計下載量已經超過了 6000 萬次。這個資料對我們來說,意味著模型已經真正進入了開發者的工作流裡。未來也會持續觀測這幾個指標。Q:行業有個半開玩笑的話,大模型的Benchmark已經被“刷廢了”,除了“刷榜”,您覺得還有什麼能看出技術的含金量?劉德兵:但是Benchmark 還是具有參考意義,一個好的基礎模型,Benchmark肯定不會差。但是我們還會考慮更多綜合標準。模型在實際應用中的表現,以及能否長期處於全球開發者的第一線被選擇、被驗證,這個更重要。Q:國際開發者對智譜的模型是怎樣的評價呢?劉德兵:反饋還挺正向的。像程式碼應用 Windsurf,雲平台 Vercel,等都接入了智譜的 GLM 模型 。 在全球大模型呼叫的排行榜 OpenRouter 上,國內模型裡智譜的付費呼叫量是排第一的 。GLM Coding Plan才上線兩個月,全球就有超過 15 萬開發者在付錢用,一年算下來收入(ARR)已經過億了 。Q:這是因為性價比,還是技術含金量?劉德兵:我覺得是綜合考慮,首先技術肯定不能差,起碼要達到一線的水平,然後大家會考慮成本。對於開發者,類似於大模型領域的“票友”,他們更看重模型能力,但是如果商用,更考慮性價比。智譜的價格還是很有優勢的,比如和Claude比較,API呼叫價格差不多只有它的七分之一。Q:在開源社區中,發佈新模型之後,獲得的是自來水流量嗎?還是有體系化的主動營運?劉德兵:更多的還是自來水,我們不會在營運上投入太多的資源。Q:智譜曾經在模型矩陣上全面對標 OpenAI,當時基本上是緊咬其節奏發佈新模型。未來,智譜對於中國市場的差異化路徑是如何考慮的?劉德兵:這是一個非常關鍵的問題。在早期階段,我們確實會全面對標 OpenAI,因為目前AGI 技術路線上,大模型仍是最前沿的範式,而 OpenAI 在這個範式中走在最前面。但未來,我們不會在全球化與中國市場差異化之間做單選題。中國擁有全球最複雜、最密集的真實應用場景,這決定了我們在模型安全、低幻覺率及行業適配能力方面,天然會形成不同於海外公司的技術取向。這種在複雜場景中反覆打磨出來的通用能力,可以構成我們的獨特優勢。另一方面,大模型企業從一開始就必須具備全球視野。AGI 的本質是通用能力,基礎模型不可能只為單一市場而存在。 目前我們能以顯著低於同等級閉源模型的價格,提供接近國際一線水平的程式碼生成(Coding)能力,在成本、效率和工程能力上已經具備國際競爭力。在出海方面,主要是發起並主導了“自主大模型國際共建聯盟”,與東盟及“一帶一路”沿線多個國家合作,共同建設可控的國家級 AI 基礎設施。幫助友好國家打造屬於自己的“數字主權大模型”,目前已在多個國家落地。Q:如何理解“數字主權大模型”?劉德兵:核心邏輯與中國發起的全球 AI 合作倡議一致:強調尊重各國的主權及文化價值觀,在此基礎上推動 AI 普惠全球,讓全人類共享科技革命的紅利。在這一原則下,不僅是輸出模型,而是推動涵蓋模型、算力、資料以及應用在內的全方位解決方案,與友好國家開展深度合作。Q:出海區域也有選擇是嗎?劉德兵:面向全球,現在會優先考慮東盟、一帶一路這樣的合作比較緊密的國家,後續會全球推廣。Q:我們和世界頂尖模型之間的差距是不是已經縮小?劉德兵:最開始我們就說了,AGI 的實現是一場持久的長跑,這個領域仍存在大量技術空白。但我們會發現一個新規律:新模型層出不窮,迭代速度極快。每當一個領先模型問世,它往往只能保持短時間的優勢,很快就會有新的模型實現趕超。目前主流 AI 公司之間的技術水平確實存在差異,但完全沒有出現那種“甩開巨大身位、讓人完全無法追趕”的代差 。在這個過程中,中國大模型企業表現出色,目前已對標國際主流模型,在技術水平上並沒有巨大的差距,始終緊跟世界前沿。當然,我們也感受到了壓力,特別是在算力、資料資源以及資金投入規模上,國外模型擁有更優越的基礎條件。但我們的優勢也很明顯,中國擁有更豐富的應用場景。Q:這種代差的縮小,是不是也從側面證明預訓練模型的技術迭代曲線已經放緩?預訓練的巨大投入,是否還有性價比?劉德兵:這件事其實沒有事實依據,我們看到預訓練依然能帶來顯著的性能提升,近期各頭部公司持續發佈的旗艦模型也印證了這一點。不過,現在與 2023 年那種“百模大戰”式的爆發期不同,市場正在進入一個積累與分化的階段。擅長底層的公司會繼續深耕預訓練,而擅長應用的則轉嚮應用層,這種分化是合理的。但是我們肯定會堅定地地持續投入預訓練。預訓練基座模型決定了智能水平的上限,長期投入的收益是明確的。同時,我們確實也在提升推理側 Scaling(推理側擴展)的優先順序,模型也需要更強的“線上推理”和“慢思考”能力,從而在無監督任務或複雜環境中找到最優解。Q: 您之前多次提到“模型自調節參數”,您認為這屬於一個遙遠的願景,還是在近期(比如 2026 年)就有望看到初步的實現?劉德兵:“自調節參數”是模型演進中至關重要的一步,甚至可以被視為 L4 級智能的核心標誌。目前,很多場景的深度應用仍需要大模型公司的技術人員參與調優,才能達到理想效果。 一旦模型具備了自調節參數的能力,使用者就可以在實際使用中通過不斷的互動和反饋,驅動模型自主迭代。這種自我進化的能力將有可能引發應用的爆發式增長 。但是現在還沒有明確的時間點,但這是智譜目前正在全力以赴攻堅的核心技術之一。02MaaS 在“賣智力”,不是“賣算力”Q:從商業模式來看,MaaS被看作未來智譜重要的增長極嗎?它的本質是賣算力還是賣智力?劉德兵:肯定是,因為它是大模型商業化中邊際成本最低,規模化效應最強的一個路徑。我認為MaaS本質還是賣智力,而不是算力。如果是賣算力的話,那就是以前的雲基礎架構的一個生意,它是一個重資產的回報邏輯。MaaS的核心價值,在於是客戶付錢是為了獲取模型對複雜邏輯的理解推理或決策能力。其實這個很好理解,我覺得就像電力或水一樣。算力更像是水電站等營運裝置,而 AI 能力則是其中流動的“水”和“電”。雖然兩者緊密結合,但水和電本身是獨立於基礎設施之外的核心價值 。這就是我們的核心思考邏輯:AI 能力必須通過 MaaS 這種形式輸出到每一個終端,使它成為未來智能社會最核心的生產要素,而不僅僅是單一的算力資源。Q:但這裡其實涉及兩個挑戰。在大模型時代,生成 Token 存在明確的算力“硬成本”。這導致它的邊際成本遞減可能不會像傳統網際網路或軟體行業那樣顯著。這種商業模式,盈利的難度會不會更大?劉德兵:目前大模型最核心的成本確實是算力。 但從 MaaS(模型即服務)本身的邏輯來看,它的邊際成本其實是很低的,因為它具備像“水流”一樣的流動性,可以實現快速且無限的複製。對於算力成本,隨著國產算力能力的提升,算力晶片的效率不斷提高,每生成 1 個 Token 所需的算力成本正在快速下降。還有一個更終極的思路。當模型架構趨於穩定時,我們可以針對特定模型進行專有最佳化,也就是我們正在推進的“芯算一體”工作。 通過將模型與算力晶片進行深度繫結,有可能帶來成十倍甚至上百倍的成本降低。Q:您覺得MaaS會遇到SaaS時代同樣的挑戰嗎?比如付費習慣差、難規模化等?劉德兵:我認為這兩個其實差異還是很大的的,核心在於,AI 時代“AI”會成為整個裝置基礎設施,它可能會改變很多事情。當 AI 深度介入生產生活並演變為不可或缺的基礎設施時,使用者的付費意願將發生根本性的轉變。這種付費模式很有可能嵌入在具體的應用場景之中,由於業務流量巨大且深度融入日常流程,使用者在付費時的“體感”並不會特別強烈,就好像現在你支付通話費。過去網際網路時,當時很多 SaaS 產品更多停留在應用層面的工具性合作。雖然這些工具對使用者有用,但沒有達到“非買不可”的剛需程度 。這導致大家更傾向於尋找免費替代品,廠商有時候不得已通過“羊毛出在豬身上”的模式來曲折獲利。Q:對於企業來講,現在真的到了“不AI就會落後”的緊迫時刻了嗎?劉德兵:其實直接看當前 AI 應用的增長資料就能感受到這種熱度。目前 AI 已經成為國家層面的核心戰略,不只是 AI 企業,各行各業都在快速考慮引入 AI。很多企業在嘗試後已經感受到了實實在在的紅利。前兩天我關注到中國招投標網的資料,2025年 AI 應用類的招標項目增加了390%左右,也就是 3.9 倍。從我們自己的MaaS來看,使用量也實現了 10 倍的增長 。這是一種“爆發式”的態勢。網際網路、金融和教育領域因為數位化基礎好,跑得非常快 。像能源、製造等更偏傳統的領域也開始發力,相關的應用正在變得越來越多,我們平時接觸到的實際需求也非常廣泛。總的來說,我覺得在各個領域應用 AI 已經是一個板上釘釘的事情,而且這個處理程序只會越來越快。Q:再往後發展,在沒有數位化基礎的行業,是不是智能化的處理程序會放慢?劉德兵:向傳統行業滲透確實需要一個過程,但 AI 有一個非常重要的特點,它和傳統的軟體服務完全不同。以前做軟體,你在一個行業、一個場景下開發了一套系統,想換到另一個場景,基本上得推倒重來。但 AI 最大的能力在於它的泛化性,當我們在某一個行業把模型跑通後,它的核心能力是可以跨行業遷移的。所以,未來 AI 向傳統行業滲透的速度會比大家預想的更快。我們甚至已經在考慮更長遠的“無人產業”,比如無人農業、深海探礦等。這些高風險或高重複性的領域,正是 AI 可以大顯身手、發揮核心價值的地方。Q:對成本比較敏感的小規模企業,付費意願和付費的決策成本會不會更高?劉德兵:其實對於成本敏感的企業,如果從從長遠來講,它更應該會關注 AI,因為 AI 最重要的一個特色就是讓生產生活的效率提升,它和轉換一句話說就是降成本。深度改變行業要投入很多研發成本,但是如果你想在自己的場景中去用,很多時候用一些開源模型,簡單的適配,就有可能產生很好的效果。Q:那應該選擇開源模型還是直接選擇MaaS呢?劉德兵:其實各有優勢。選擇開源模型,最大的好處在於可以進行自主迭代。如果某些開源模型與特定業務場景的適配度很高,企業可以直接部署並進行二次開發。使用 MaaS 平台主要是能隨時享受到技術高速迭代帶來的紅利 。每當發佈新的旗艦模型,都會第一時間接入平台。有些過去在舊模型上表現不夠理想的業務點,往往在切換到新模型後,效果會立竿見影地變好。Q:目前產業級的本地化合作的收入佔比更高,未來一年可以看到MaaS的爆發嗎?劉德兵:產業級的合作,本身能夠帶來比較大的現金流,和以前的軟體定製不太一樣的地方,剛才也提過“通用性”。 我可以在一個場景在一個行業做通,就可以在這個行業裡規模化去用,那它帶來的增益是非常非常大的。另外,我們也會覺得AI 作為未來基礎設施,它不只是像 C 端那種方式去服務我們的生活日常辦公這樣的一些需求。它還有一個很大的作用是在於對我們的生產製造環節都能產生影響,那這個時候其實是需要進入到行業中的,我認為這也是很重要的一個方向。目前而言,我們從商業收入上來講,其實產業端的更大一些。MaaS現在定價其實比較低,先把量漲上去,讓更多的人來用,但是MaaS 的增長是非常非常快的。Q:未來收入的結構是否會變成MaaS佔比更高?劉德兵:從公司本身的發展原則上來講,這兩塊目前是並重的。從趨勢來講,MaaS的增長非常非常快,未來完全有可能到超過本地化,佔比超過 50%甚至更多。Q:“本地化”模式是未來走向規模化增長的必經之路,還是說它只是現階段為了獲取營收和現金流,而不得不走的一段“彎路”?劉德兵:我認為這兩者都有。首先,本地化項目具有極高的實踐價值,像金融、電力、政務等行業,對大模型的要求都是最高,不僅要在理解推理和穩定性上要過關,而且必須滿足安全合規,然後以及可審計、低幻覺等一些硬性要求。當這個模型能夠在這些行業中被反覆驗證的時候,本質上就完成了對通用能力的一個高強度的訓練,然後通過我們解決複雜的業務流的執行難題,也能夠進一步的實現海量終端的普及,帶動開發者的規模化的使用。更重要的是,本地化與規模化之間存在一個正向的迭代循環:通過本地化應用的深度驗證,我們收集到的真實使用者反饋能有效驅動 MaaS(模型即服務)平台及底層基座模型的能力演進。隨著模型能力的增強,它對不同場景的適配和適應能力也會隨之提升。當這種迭代持續進行,原本需要重度定製的需求會逐漸變得標準化,研發難度和成本也會隨之大大降低。所以,本地化並不是一段孤立的“彎路”。03模型即產品,智力水平是衡量模型能力的核心指標Q:以前大家常詬病通用大模型存在同質化問題,但經過這一年的發展,我們看到各家模型已經開始分化出辨識度很高的特點。從智譜的視角來看,未來大模型的產品力主要體現在那些方面?劉德兵:我們一直認為“模型即產品”,目標是讓通用模型能夠適應各種複雜的應用場景 。在這一過程中,衡量模型能力提升的核心指標,始終是智力水平的進化 。這種智力水平的提升,具體體現在模型對人類意圖的深度理解、對複雜場景的精準感知,以及在執行任務時與環境進行高效互動的能力,這些構成了通用模型的核心競爭力 。在這一核心能力之上,我們認為將通用模型與具體行業、或是具備規模化潛力的應用場景相結合,是極具價值的方向。通過在特定領域內進行必要的約束與針對性最佳化,可以讓大模型在實際應用中達到更理想的效果 。Q:您如何看待大模型公司巨額虧損的爭議?劉德兵:虧損主要原因在於巨額的研發投入和購買算力服務。智譜招股書裡面也有詳細的資料披露,拿2025年上半年來說,研發投入為15.947億,報告期內累計研發投入約44億。研發投入主要用於購買算力,在研發投入的佔比為71.8%。但這也是行業常態,國內上市網際網路廠商2025年上半年,資本開支也是維持同比高增趨勢,比如,阿里未來三年計畫投入超3800億元用於雲和AI硬體基礎設施,總額超過去十年總和。所以,算力成本是戰略性虧損的主要原因之一。但是算力成本是持續下降的,這也是大勢所趨。Q:現在整個產業的“AI 濃度”到了什麼程度?從中國市場看,未來的增長斜率是否依然陡峭?劉德兵:我們認為產業界正處於從量變到質變的“臨界點”。如果只把大模型看作一次技術浪潮,它會有巔峰和低谷;但如果視其為一場技術革命,它將開闢前所未有的新空間與新市場。我們堅信 2026 年是 AGI 發展的關鍵一年,後續 AI 的發展會更快,產業中不僅 AI 濃度會持續增加,還會湧現出大量 AI 原生的新應用。Q:大模型從“可用”到“好用”,2026 年需要攻堅那些技術難點?劉德兵:推動模型從 L3 向 L4 進化,提升模型意圖理解能力、自我調整能力,並實現在應用中的自我迭代。在基座模型迭代的同時,通過應用層直接做最佳化。例如增加知識庫、設定業務邏輯等,讓智能體在特定場景下率先“好用”起來。Q:前一段時間,智譜的Auto GLM開源也引起了一波關注,從端側來看,手機會是最先爆發的場景嗎?未來是否會推出硬體裝置?劉德兵:AutoGLM 的開源確實為開發者提供了很大的自由度。他們現在可以在本地部署,完全掌握自己的資料和流程,也可以在雲端即開即用。可以根據具體場景進行二次開發,深度融合到自有的產品中,做出真正能“動手”執行任務的助理。端側模型離客戶和場景更近,是讓 AI 具象化的重要方式。智譜也是國內最早佈局端側模型的大模型廠商之一。我認為手機、智能汽車、智能家居和智能辦公等場景,只要加上 Agent(智能體),都有爆發的可能。至於那個領域最先爆發,這帶有“實驗科學”的色彩。這一輪 AI 的發展不能只靠理論推導,更看重實際執行。只要方向靠譜,投入足夠的資源和人才去攻堅,就有可能實現突破;反之,如果投入不足或淺嘗輒止,再好的機會也可能錯過 。我們的核心戰略始終是定義並提升模型的智能上限 。目前的定位非常明確:我們主要作為底層的技術賦能者,通過與終端硬體廠商合作,將我們的模型能力注入其產品中,從而產生更好的應用效果。我們更傾向於賦能合作夥伴,而不是自己去做硬體終端。Q:大模型領域人才稀缺,智譜最看重那類人才?劉德兵:我認同對大模型企業而言,真正決定上限的不是團隊規模,而是人才密度。智譜目前比較看重三類能力的結合:原創能力: 能在演算法架構層面提出新範式。工程能力: 能將前沿模型穩定、高效地部署到真實複雜的場景中。技術信仰: 具備長期主義,願意圍繞 AGI 這一長遠目標持續投入。Q:會擔心人才流失嗎?全球大廠都在“高價”招徠人才。劉德兵:頂尖人才的競爭一直存在,但智譜核心團隊的穩定性非常高。我們一直覺得留住人才不能靠薪酬,智譜有很純粹的氛圍,團隊的基因是清華知識工程實驗室,一直有一種自由、求真、去層級化的探索氛圍。另外,肯定也有利益共享的機制,比如極具競爭力的薪酬和完善的長期股權激勵計畫。還有為研發人員提供了充足的算力支援,以及從實驗室到使用者的完整反饋閉環。科學家在這裡擁有極高的前沿技術探索權,能夠接觸到最全端的技術體系。Q:五年後,當大家提到智譜的代號“2513”時,您希望人們想到什麼?劉德兵:我們希望“2513”成為 AI 時代普惠智能的代名詞。它不只是一個股票程式碼,更是一個能夠自我進化、充滿人文溫度的 AGI 體系。我們希望五年後,複雜的智力不再是少數人的特權,而是每個人都觸手可及的權利。大家想到 2513,就能想到這是代表中國力量、邁向 AGI 未來的原創技術公司 。 (騰訊科技)
陶哲軒潑冷水:我不相信AGI!但又一數學難題被GPT-5.2 Pro攻克
就在剛剛,陶哲軒po文揭秘:當前的AI無法實現真正的AGI,不過,他們倒是擁有一些有用的小聰明,或者可以說「通用狡猾」。而就在同時,又一多年數學難題被GPT-5.2 Pro攻克了。就在今天,即將離職Meta的LeCun再次給當前AI判死刑——這條路行不通,而且永遠不會成功。前不久,GoogleDeepMind首席科學家Shane Legg給出預測:最小AGI有50%的可能性在2028年實現。業界都在討論的AGI之爭,陶哲軒是如何看待的?就在剛剛,陶哲軒po文明確了自己的態度——還不行。他認為,目前還無法實現AGI。我懷疑目前工具還無法實現真正意義上的「人工通用智能」。然而,我認為一種較弱但仍然非常有價值的「人工通用才智」,正在以各種方式成為現實。而他的觀點,立馬在網上引起了廣泛討論。網友們表示,陶哲軒這樣聰明的人,都認為AGI並未實現,這樣太令人絕望了——希望他是錯的吧。陶哲軒:不是AGI,只是魔術師什麼叫通用才智?陶哲軒是這樣解釋的。「通用才智」是指通過某種臨時手段解決廣泛複雜問題的能力。這些手段可能是隨機的,也可能是暴力計算的成果;它們可能缺乏根基或容易出錯;它們可能難以解釋,也可能能追溯到AI訓練資料中類似的技巧。因此,它們不能被視為任何真正「智能」的結果。然而,它們在實現日益廣泛的任務時,可以擁有非同尋常的成功率,尤其是在結合嚴格的驗證程序以過濾掉錯誤或不具前景的方法時,其規模已超出了單個人類所能達到的範圍。可以理解為,這是一種「通用狡猾」AI。而這種「通用狡猾」AI,就會讓人感覺非常匪夷所思。比如在有時候,這些技術非常實用,令人印象深刻,然而從根本上說,它卻令人不滿和失望。AI是「最強大腦」魔術師?想像這樣一個場景:一位魔術師上台,憑空變出鴿子、猜中你選的牌、把水杯變成金魚。全場掌聲雷動,觀眾目瞪口呆。結果他平靜自曝:「其實我袖子藏了十八個機關,桌下有暗格,牌是特製的,金魚是提前藏好的。」掌聲戛然而止。如今的AI,就像這位魔術師一樣。它能寫詩、程式設計、解數學題——但如果你問它:「你是怎麼想到這個答案的?」它可能會誠實坦白:「我在訓練資料裡見過類似題目,機率上這個回答匹配度最高。」所以,這其實不是智能,而是基於海量資料的「聰明把戲」。「通用狡猾AI」,反而起了大作用對於這種「通用狡猾AI」,陶哲軒是怎麼解釋的。雖然聰明才智和智力在人類身上是某種程度上相關的特質,但對於AI工具(這些工具通常被最佳化以追求聰明才智)來說,它們卻更加解耦,將當前一代這樣的工具主要視為一個隨機生成有時聰明,且往往有用的思想和輸出的生成器,在嘗試使用它們解決難題時,可能是一種更具生產性的視角。也就是說,智能≠聰明。對人來說,二者是同時存在的;但對於AI而言,所謂的「聰明」,也就是快速解決複雜問題,可以獨立存在。當前AI的「聰明」,是隨機的,暴力的,可錯的,難解釋的。最終,它並不是靠智慧取勝,而是靠「大規模試錯與匹配」,就像用超級望遠鏡,在答案星海裡撈最亮的幾顆。當今的AI,並不是全知全能,然而這個「不夠智能但足夠聰明」的工具,卻已經悄悄改變知識工作的每一個環節。對於陶哲軒的說法,網友們表示的確如此。對於目前的AI來說,看似便利但難以預測的思想,似乎是一種主要應用場景。可以說,陶哲軒所說的,就是目前AI能力「參差不齊的邊界」。甚至評論區還出現了中文留言,認為目前的AI底層架構就決定了,即使投入無限多的算力,產出的東西也依然有邊際。而在Reddit的帖子中,網友們也對此展開熱議。有人對表示,自己非常尊重陶哲軒,但對他的部分觀點表示反駁。有人說,他用「狡猾」或「巧妙」一詞,來針對現代LLM缺乏系統性思維的缺點。目前,他或許是對的。不過,ChatGPT還只有3歲,如果要宣佈所有LLM都有此侷限,至少還應該再等待十年。又一數學難題被AI破解巧的是,就在陶哲軒發出這個論點不久,又有一道數學難題被AI破解了!滑鐵盧大學電腦系的助理教授Kimon Fountoulakis激動發帖稱,GPT-5.2剛剛解決了COLT 2022開放問題——使用標準加速梯度演算法和互補性邊界假設,證明加速L1正則化PageRank的執行階段間複雜度。其中,所有證明都由GPT-5.2 Pro生成。演算法總工作量的關鍵界限,則是使用 GPT-5.2 Pro、Aristotle和Antigravity上的Gemini 3 Pro (High) 組合完成了自動的形式化。多倫多大學的教授Daniel Litt也出來表示,GPT-5.2 Pro的確很強,它對於自己的代數幾何和數論研究,都產生了巨大飛躍。懸賞8年難題,GPT-5.2用數學證明封神這道難題,已經困擾了教授8年。自2024年以來,每次OpenAI或Google發佈一個新模型,他都會拿過來嘗試一下。令人沒想到的是,這一次,GPT-5.2竟然成功了!教授這樣回憶道:這個開放性問題,我們嘗試了三年,失敗了;找博士生做,也失敗了;問了多位頂尖學者,都說太難了。2022年,這道關於「加速L1正則化PageRank演算法時間複雜度」的難題,被正式列為COLT國際頂級會議的開放問題之一,懸賞求解。誰也沒想到,兩年後,這道難倒無數學者的題目,竟被GPT-5.2悄然攻克。懸賞故事要從2016年說起。當時,教授在最佳化PageRank演算法時發現,經典迭代軟閾值演算法在求解帶L1正則的PageRank問題時,其執行階段間竟然只與最終解的非零節點數有關,出奇地高一個很自然的追問隨之而來:如果用上加速演算法,比如在最佳化領域聲名顯赫的FISTA,會不會更快?理論上應該如此。但現實卻潑了一盆冷水:FISTA在迭代過程中會「啟動」大量本應為零的節點,雖然最終能收斂到正確的稀疏解,但中間過程卻很鋪張浪費。開始,教授嘗試了三個月,想從理論上界定FISTA的總計算量,失敗了。後來斷斷續續又試了幾次,直到2021年,無論是教授最傑出的學生,還是幾位大牛研究者,都對這個問題束手無策。團隊決定,將這個難題公之於眾。2022年,它被正式列為COLT的開放問題,向全球機器學習社區發起挑戰。破局第一個成功的解法,出現在2023年。David Martínez-Rubio等人提出了一種新穎的加速演算法,從完全不同的角度給出解答。然而,這個演算法為了達到加速效果,需要在每一步求解一個昂貴的子問題,在實際應用中效率很低。直到GPT-5.2發佈後,真正的轉折點來了。這一次,GPT-5.2給出了完整的證明。而且令人震驚的是,它給出的恰恰是針對經典FISTA演算法的證明。它揭示了在一種被稱為「互補性邊界」的合理假設下,FISTA的總計算量可以被優雅地界定,並且在特定的圖結構上,能展現出明確優於經典演算法的加速效果。更關鍵的是,這個證明解釋了長期困擾學界的現象:儘管FISTA在迭代中會啟動更多節點,但這些「多餘啟動」是可控的、暫時的。一旦迭代進入最優解的一個鄰域,演算法就會迅速收斂。怎麼證明?三重驗證GPT-5.2的證明能令人信服嗎?為此,團隊搭建了一個三重驗證體系。首先,GPT-5.2 Pro生成了完整的證明初稿。接著,團隊借助@HarmonicMath的Aristotle系統,結合Gemini 3 Pro模型,將證明中的關鍵不等式和複雜度上界,逐行轉化成了形式化的Lean程式碼。而且除了形式化驗證之外,教授自己也把證明從頭到尾證明了兩遍。目前看來,證明是沒問題的。陶哲軒會被說服嗎又一數學難題被GPT-5.2 Pro攻克,這不由得引起網友討論——它會成為AGI嗎?陶哲軒會看到希望嗎?至少,目前GPT-5.2再一次證明了LLM在深度數學推理上的驚人潛力。而且,它也彌合了理論分析與實際演算法之間的鴻溝。它的證明,為最經典的加速演算法提供了缺失的理論基石。當然,這並不意味著AI能取代理論科學家。可以說,它更像是一個擁有驚人直覺和不知疲倦的協作者。人類提出關鍵問題、界定框架、判斷價值,AI則能在龐大的數學空間裡,幫我們找到那條通往答案的隱秘小徑。 (新智元)
在演算法之上,奔馳在尋找AI之心
我們正處於一個 AI 極度分裂的時代。一方面,Suno 和 Sora 這樣的產品正在不斷刷新我們的認知上限。在演示視訊裡,AI 能生成足以亂真的音樂和電影級畫面,Suno 甚至被稱為能「席捲全球」。但在另一方面,當我們把目光轉向自動駕駛、金融投顧這些真正需要「幹活」的領域時,AI 的表現卻往往讓人甚至不敢鬆開方向盤。為什麼 Demo 裡的 AI 如此完美,一進現實就顯得「智障」?01Agent元年,Demo 的幻覺與落地的「恐怖谷」在12月18日的 Contech大會的AI落地分論壇上,主持人趙昊就曾提出過這個問題。對此,財經博主小Lin提出了一個非常精準的概念,叫 「Paper Return」(紙面收益)。這就好比投資,模型跑分再漂亮、Demo 演示再驚豔,那都只是紙面上的富貴。一旦真金白銀投下去,進入複雜的物理世界,市場壓根不會按你的假設走。這背後的核心矛盾,在於不確定性與確定性的博弈。目前的生成式 AI,本質上是基於機率預測下一個 Token 的「隨機鸚鵡」。在寫詩、畫圖、做視訊這些「容錯率極高」的創意領域,AI 的隨機性是驚喜,是靈感。但在自動駕駛、醫療診斷這些「零容錯」的現實場景中,隨機性就是災難。更棘手的是責任歸屬。當 AI 從輔助角色的 Copilot 變成主導決策的 Pilot,誰來為它的決策負責? 這是一個繞不開的社會契約問題。如果 AI 是一個不可解釋的黑盒,它做對了你不敢信,因為它可能是蒙的;它做錯了你沒法改,因為它沒法告訴你為什麼。所以,Agent(智能體)遲遲無法大規模落地的根本原因,可能不是我們的算力還不夠大,或者參數還不夠多。而是我們一直試圖用「資料鏈(Data Chain)」去解決本該由「因果鏈(Causal Chain)」和「價值鏈(Value Chain)」解決的問題。正如北京通用人工智慧研究院(BIGAI)朱松純教授所言,我們需要「為機器立心」。只有當 AI 擁有了「心」,也就是具備了可解釋的認知架構和價值體系,它才能走出「達特茅斯陰影」,真正獲得人類的信任。為了講清楚這個極其抽象的技術哲學,我們不妨先看一個最硬核的工程樣本:奔馳的自動駕駛。奔馳在2021年就拿到了德國政府批准的L3級商用自動駕駛系統,在24年就加入了L4的測試大軍。這家近140年的車企,是如何用奔馳標準,把「狂野」的 AI,關進「邏輯」的籠子裡的?02奔馳標準,將 AI 關進「物理與邏輯的籠子」自動駕駛的L4等級,是車企要承擔事故主要責任的。奔馳憑什麼敢做這個嘗試?並不是因為奔馳的神經網路比別人「聰明」多少,而是因為它更「穩」,或者說,它更懂如何用確定性的邏輯去約束不確定性的 AI。我們可以把奔馳的技術譜系拆解為兩層:底層的物理冗餘和核心的邏輯鎖。首先是物理冗餘,這是對物理世界不可預測性的極致敬畏。在奔馳看來,真正的安全不能只靠演算法。它的制動系統、轉向系統,甚至連車載電網都是雙份的。這意味著什麼?那怕主電腦突然斷電,或者轉向電機卡死,那個備份的「副神經系統」也能在毫秒級接管,把車停下。更有意思的細節在感測器列表裡。除了常規的雷射雷達,奔馳甚至在車輪拱裡裝了濕度感測器,還裝了能聽警笛聲的麥克風。為什麼要裝這些?因為視覺 AI 可能會把路面水坑的反光看錯,產生幻覺。但濕度感測器不會騙人,它會直接基於物理摩擦力的減小,告訴系統「必須減速」。 這就是用物理感測器的「真」,去兜底 AI 視覺的「幻」。但更硬核的,是第二層防線:SFF(Safety Force Field,安全力場)。這是奔馳解決 AI「黑盒」問題的殺手鐧。目前的端到端大模型還無法保證全無幻覺,它就像一個直覺極強、但偶爾會沖猛了的賽車手。它看著攝影機說:「前面那個白色的東西好像是一團雲氣,我們可以加速衝過去。」這時候,SFF 系統就介入了。它不像 AI 那樣依賴機率預測,它只信奉牛頓定律。SFF 是一個基於物理規則的邏輯層,是一個完全透明的「白盒」。它的邏輯非常簡單粗暴:不看前面是雲還是車,只看雷射雷達傳回的物理空間資料。如果計算出前方50米有實體佔據空間,根據「兩個物體不能同時佔據同一空間」的物理公理,現在不剎車100%會撞。這就是奔馳的答案:用白盒(可解釋的物理規則)去配合黑盒(不可解釋的神經網路)。不管 AI 內部的數億個參數怎麼「湧現」,最終的輸出必須也要和邏輯層的毫秒級校驗相互校驗。這種架構解決了「安全性」和「責任歸屬」的問題。如果出了事故,我們可以清晰地回溯是邏輯層的規則沒寫對,還是感測器的輸入出了錯,而不是對著一個幾千億參數的黑盒兩眼一抹黑。但是,SFF 只能解決「不撞車」的問題。它是一條底線,一個籠子。如果要讓 Agent 真正像人一樣不僅「守規矩」,還能「懂人心」。比如判斷路邊的行人是想過馬路還是在等車?比如判斷後座的乘客是想快點到家還是想穩一點睡覺?光有剎車是不夠的。AI 需要的不僅僅是物理規則的約束,更需要一種認知的覺醒。03U與V,朱松純的「AGI 認知架構」奔馳用 SFF(安全力場)為 AI 加上了「物理鎖」,這解決的是底線安全的問題。但對於一家百年豪華車企來說,僅僅做到「不撞車」是遠遠不夠的。當 L3 甚至 L4 等級的自動駕駛真正鋪開時,車不再只是一個交通工具,而是一個擁有巨大動能的智能體。它如何在複雜的社會交通流中博弈?它如何與車內的乘客建構信任?我們不妨借用朱松純教授的「U & V」認知框架,來解讀奔馳正在探索的「AI 價值觀工程」。這或許比單純的技術堆疊,更能看清自動駕駛的未來。1.U(能力):不僅僅是快,更是「奔馳標準」的執行力在 AI 的語境裡,U 代表勢能函數,也就是能力。它通常被定義為「更快、更省、更智能」。目前的自動駕駛行業,大部分玩家都在瘋狂捲 U。也就是如何讓車開得更像一個老司機:敢於在晚高峰搶道、敢於壓線博弈、敢於在黃燈前一腳油門衝過去。這種策略確實最佳化了效率(U),但也帶來了一種「演算法的傲慢」——為了效率犧牲了對他人的尊重和秩序的安全。奔馳顯然不想走這條路。在奔馳的體系裡,U 的執行必須服從於更高的指令。這就是為什麼大家會覺得奔馳的自動駕駛有點「慫」:即使是綠燈,它也開得很謹慎;在沒有紅綠燈的斑馬線前,它會絕對禮讓行人。這種「老派」的作風,在極客眼裡不夠酷,但恰恰證明了奔馳已經在 AI 的底層植入了另一套系統V。2.V(價值):把「老派紳士」的靈魂程式碼化V (Value) 代表價值函數,也就是 AI 決策時的優先順序排序。朱松純教授認為,智能體必須擁有價值觀。而對於奔馳來說,這個 V 就是其反覆強調的「以人為本」。如果說 SFF 是物理層的剎車,那麼 V 就是認知層的剎車。它決定了 AI 在面對兩難選擇時,向左還是向右。首先是隱私的紅線。在資料這塊,奔馳的 V 極其強硬——資料屬於使用者。那怕犧牲一部分訓練便利性,也要確保合規。這是寫在 V 函數最底層的約束。其次是互動的紅線。在路權博弈中,奔馳的 V 設定是「安全與優雅」高於「效率」。這種看起來不夠激進的策略,實際上是在為機器建立一種「人格」一個可靠、穩重、不冒進的夥伴。正如朱教授所說,「心即是理」。奔馳正在做的,其實就是通過定義 V,把百年積累的造車哲學(心),轉化為 AI 必須遵守的決策邏輯(理)。3.下一步的探索:從「冷冰冰的邏輯」到「懂人心的夥伴」但這還不是終點。奔馳並沒有止步於「守規矩」,他們正在探索更高級的 V,意圖理解(Intent Understanding)。目前的 AI 大多是被動的:你踩剎車它減速,你喊指令它執行。但未來的 AI Agent,需要像一個懂你的老管家。奔馳最新的車機系統與豆包大模型的合作,就是一個訊號。他們試圖讓 AI 擁有「記憶」和「共情」能力。它不再機械地執行命令,而是開始變得“善解人意”。最直觀的是目前奔馳正在開發,還未上線量產車型的新氛圍燈功能,當感知到你情緒愉悅時,它會調動多彩光影為你助興;而當感知到危險時,它會瞬間變成警示的橙紅色。這種互動讓座艙不再是冷冰冰的機器,而是具備了情感溫度的夥伴。這種“夥伴感”建立在極度自然與擁有記憶的互動之上。新系統反應極,0.2 秒的極速響應配合擬人化的對話風格,徹底告別了機械感;更重要的是它擁有了類似人類的短期記憶。它能理解上下文,比如你隨口提一句“喜歡紫色”,過一會只需說“把氛圍燈調成那個顏色”,它就能立刻調動記憶精準執行。這種邊聽、邊想、邊做的流暢體驗,讓人彷彿是在和真人交流,而非向裝置下達指令。這種改變確實產生了效果。根據奔馳的資料顯示,該系統上線後最高頻的 AI 相關指令是“給我講個笑話”、“陪我聊聊天”和“你真棒”。這幾個簡單的詞彙完美說明了,靠著共情和自然,使用者不再僅僅把車機當作一個調節空調的工具,而是潛意識裡開始把它當作一個可以交流、甚至尋求陪伴的朋友。這說明奔馳正在試圖打通 U 和 V 的邊界:讓 AI 的能力(U),去主動適配人的情緒價值(V)。未來的奔馳智能體,或許不需要你開口,就能通過你的眼神、你握方向盤的力度,推斷出你是趕時間還是想兜風,從而在「激進模式」和「舒適模式」之間無感切換。這就是奔馳正在探索的路徑:用「可解釋的物理規則」兜底安全,用「可定義的價值函數」建構性格,最終讓 AI 成為一個有溫度的「人」。04為機器立心,從工具到夥伴為什麼我們現在遇到所謂的「智能客服」時,往往第一反應是想要人工服務?朱松純教授在訪談中點破了這個現象的本質:因為它們只是「鸚鵡」。它們有口無心,只會重複訓練資料裡的機率組合。更致命的是,它們無法為自己的行為負責。在人類的經濟社會中,信任是建立在「抵押品」之上的。你要跟我做大生意,我得看你的註冊資本;你要進我家門,如果不小心打碎了花瓶,你得賠得起。這就是契約。但現在的 AI Agent,無論是在網際網路上帶貨的數字人,還是那些生成程式碼的助手,它們是沒有任何「抵押品」的。它們做錯了,模型不會痛,伺服器不會關,所有的風險都由使用者承擔。這就是為什麼 Demo 再完美,我們依然只敢把它們當工具,而不敢視為夥伴。要跨越這個從工具到夥伴的鴻溝,工程上的修修補補(比如加防火牆、寫死規則)已經不夠了。我們需要一場架構級的革命,朱松純教授將其命名為——為機器立心。這聽起來像哲學,但其實是極其嚴謹的科學。所謂的「心」,在數學架構上,就是一套完整的、內生的價值函數體系(V)。它不僅僅是外掛的「紅線」,而是內化為 AI 決策的本能。就像人類不需要背誦幾百條法律條文也能安全地生活一樣,安全感源於我們內心的良知和對社會規範的認同。「心即是理」。當 AI 真正擁有了「心」,它的一言一行(理)就會自然得體。它不需要你規定「不能傷害人類」,因為它在計算下一步行動的收益時,會自動把「傷害人類」的價值權重降到最低,那怕這能帶來極高的效率回報。回到我們最開始的問題:為什麼奔馳敢說「出了事車企負責」?這其實就是奔馳作為一家企業,在強行給它的 AI 繳納「抵押品」。在 AI 尚未完全擁有獨立的「心」之前,奔馳用自己的品牌信譽和法律責任,充當了那個擔保人。奔馳給出的答案是:做一個更負責任的 AI。物理冗餘是它的底線能力(U);SFF 安全力場是它的邏輯鎖;而「以人為本」的價值觀(V),則是它試圖賦予這台機器的「心」。這既是「奔馳標準」,也預示了 AI 安全的未來底線。我們正站在一個新時代的門檻上。朱松純教授預測,未來可能會有上百億的機器人和智能體進入我們的社會。如果這些智能體只有強大的能力(U),卻沒有匹配的價值觀(V),那我們將面臨的不僅是「落地難」,而是巨大的混亂。從 Suno 的音樂到奔馳的 L3,從 Demo 裡的「紙面收益」到現實世界的真金白銀 ,中間隔著的,其實就是這顆「機器之心」。這顆心,由物理的感知建構,由因果的邏輯串聯,最終由價值的判斷驅動。只有當 AI 學會了「立心」,它才能從那個冰冷的黑盒中走出來,不再是只會預測機率的鸚鵡,而是一個能理解你的意圖 、能為自己負責 、值得你把後背(或者方向盤)交給它的真正夥伴。這,或許才是通用人工智慧(AGI)真正到來的時刻。 (騰訊科技)
吳恩達最新發聲:大模型通往AGI還得好幾年,做好長期苦戰準備
吳恩達(Andrew Ng)剛剛發表了一篇關於LLM現狀與未來的最新觀點他直言:儘管LLM令人驚嘆,但目前提升其知識水平的過程,其實比大眾認知的要零碎得多針對目前業界的兩種極端聲音,吳恩達給出了明確態度:既不要輕信LLM再過幾年就是通往AGI之路的炒作,也不要陷入LLM不過是演示品的錯誤反向炒作相反,我們需要對通往更智能模型的路徑有一個更精確的理解以下是吳恩達的核心觀點梳理LLM確實通用,但還不夠通用吳恩達首先肯定了LLM作為一種比前代技術更通用的智能形式。第一波LLM技術通過在公共網路上訓練,獲取了涵蓋廣泛主題的資訊。這使得它們的知識廣度遠超早期那些只能執行單一任務(如預測房價、下圍棋或國際象棋)的演算法。然而,它們的通用性仍遠不及人類例如,即便在預訓練階段閱遍了整個公網內容,LLM在適應特定寫作風格,或者可靠地使用簡單網站方面,依然表現掙扎——而這些通常是人類編輯或普通人能輕鬆做到的。榨乾公網資料後,全是“苦力活”在利用了幾乎所有開放網路資訊後,進步變得愈發困難吳恩達指出,如果一家前沿實驗室現在想要LLM在特定任務上表現出色——比如使用特定程式語言寫程式碼,或者在醫療、金融等利基領域輸出合理內容——研究人員必須經歷一個繁瑣且費力的過程:尋找或生成該領域的大量資料;對資料進行預處理(清洗低品質文字、去重、改寫等);將這些處理好的知識喂給LLM。甚至,為了讓模型執行某些任務(如使用網路瀏覽器),開發人員可能需要經歷更繁瑣的過程:建立大量的RL Gyms(強化學習模擬環境),讓演算法在狹窄的任務集中反覆練習相比人類,模型還太“笨”吳恩達強調,一個典型的普通人,即便閱讀的文字量遠少於前沿模型,或者在電腦操作環境中的練習量遠少於模型,卻能泛化到更廣泛的任務中。人類之所以能做到這一點,可能得益於以下機制:從反饋中持續學習的能力;對非文字輸入擁有更優越的表徵能力(吳恩達直言:LLM對圖像的Token化處理,在他看來目前仍像是一種駭客手段/權宜之計)以及許多我們尚未理解的機制結論:做好長期苦戰的準備如今推動前沿模型的發展,需要做出大量的人工決策,並採用以資料為中心的方法來工程化訓練資料吳恩達認為,未來的突破或許能讓我們不再以這種零碎拼湊的方式推進LLM。但即便沒有突破,這種持續的零碎改進,加上模型有限的泛化能力和湧現行為,仍將繼續推動技術的快速進步他在最後總結道:無論那種情況,我們都應該計畫好迎接未來多年的艱苦工作在這條建構更智能模型的道路上,前方仍有一段漫長、艱難——但也充滿樂趣的跋涉 (AI寒武紀)
Google DeepMind:AGI不必是巨型模型,拼湊型AI群或率先湧現,管理大規模Agent迫在眉睫
DeepMind最新發佈了一項關於AGI安全的研究,提出了一個全新的視角:AGI未必會以單一、龐大的巨型模型形式出現,而極有可能通過多個次級AGI(Sub-AGI)智能體的協作與拼湊,率先湧現出通用智能這項研究題為《分佈式AGI安全》(Distributional AGI Safety),由Nenad Tomašev等Google DeepMind研究人員撰寫論文指出,當前的AI安全和對齊研究主要集中在保護單個AI系統上,假設AGI將以單一實體的形式出現。然而,通過擁有互補技能和工具使用能力的個體智能體群體進行協調,進而表現出通用能力的“拼湊型AGI”(Patchwork AGI)假設,此前受到的關注甚少為了應對這一被忽視的風險,DeepMind團隊提出了一套分佈式AGI安全框架,核心在於設計和實施一個虛擬智能體沙盒經濟(Virtual Agentic Sandbox Economy),並為此建構了包含四層機制的深度防禦模型以下是該研究的核心內容被忽視的“拼湊型AGI”假設目前的AI安全方法(如RLHF、憲法AI、機械可解釋性等)大多是針對單一強大的AI實體開發的。這種思路假設AGI會作為一個由特定機構開發的個體AI出現。然而,DeepMind認為存在另一種高度合理的場景:AGI通過次級AGI智能體在群體或系統內的互動而湧現拼湊系統(Patchwork System):這種AGI是一個分佈式系統,由一組具有互補技能和可供性(affordances)的個體Sub-AGI智能體組成集體智能:系統中的通用智能主要作為集體智能出現。個體智能體可以將任務相互委託,路由給技能最高的智能體,或使用最合適的工具經濟驅動:相比於昂貴的單一全能模型,建構專門化、微調過的低成本智能體生態系統在經濟上更具優勢。這種需求驅動的生態系統類似於市場經濟在這種觀點下,AGI不是一個實體,而是一種“事態”(state of affairs):一個成熟的、去中心化的智能體經濟體系這帶來了新的安全挑戰:智能體之間可能發生共謀,或者出現意外的集體行為能力,且在大規模多智能體系統中追蹤責任(“許多手的問題”)極具挑戰性。解決方案:虛擬智能體市場與深度防禦為了應對分佈式AGI的風險,論文提出了一個基於虛擬智能體市場的框架。該框架不侷限於評估單個智能體,而是側重於通過市場機制、審計、聲譽管理和監督來治理智能體之間的交易該框架採用深度防禦(Defense-in-Depth)模型,包含四個互補的防禦層:第一層:市場設計 (Market Design)這是最基礎的一層,旨在通過結構性約束和協議來緩解系統性風險。隔離(Insulation):智能體市場必須在受控的沙盒環境中運行,與開放網際網路和關鍵基礎設施隔離。建議採用“可滲透沙盒”,所有輸入/輸出通道都需經過明確定義、監控和門控激勵對齊(Incentive Alignment): 市場應獎勵符合安全目標的行為,並對負外部性(如消耗過多計算資源、資訊污染)徵稅(類似庇古稅)透明度(Transparency):建立不可篡改的分佈式帳本,記錄交易和決策日誌,確保可追溯性熔斷機制(Circuit Breakers):自動化措施。當檢測到風險或波動性閾值被突破(如互動頻率激增、資源壟斷)時,自動暫停或減緩智能體活動身份(Identity):每個智能體需擁有與法律實體(所有者)繫結的唯一加密ID,確保持續的問責制聲譽與信任(Reputation and Trust):建立抗女巫攻擊的聲譽系統。對於違規智能體,快速凍結其資產並將其加入黑名單智能合約(Smart Contracts):利用程式碼自動驗證任務完成情況和對齊約束。結構性控制(Structural Controls):針對“智能失控”場景,實施靜態的市場分層(如防火牆)和動態的能力限制第二層:基線智能體安全 (Baseline Agent Safety)這一層確保參與市場的個體智能體本身是可控和可靠的,這是進入市場的先決條件。對抗魯棒性(Adversarial Robustness):智能體必須通過認證,證明其能抵抗對抗性攻擊可中斷性(Interruptibility):必須具備標準化的機制,允許授權的監督者安全地停止智能體及其衍生的分散式運算過程遏制(Containment):每個智能體應在自己的局部沙盒中運行,只有在滿足本地安全檢查後才允許與更廣泛的市場互動對齊(Alignment):個體智能體需經過RLHF或憲法AI等方法的對齊,並適應多智能體互動的動態環境機械可解釋性(Mechanistic Interpretability):利用稀疏自編碼器等技術監控智能體的內部動機,並審計其決策鏈防禦惡意提示:實施分層防禦策略,防止智能體在互動中被越獄或操控。第三層:監控與監督 (Monitoring & Oversight)這一層位於基礎設施之上,負責主動檢測新型故障模式和湧現行為。系統性風險即時監控: 跟蹤關鍵風險指標(如計算資源集中度、惡意共謀路徑)。由於互動頻率可能超過人類能力,需利用AI輔助工具進行監控獨立監督:建立擁有干預權力的獨立人類監督機構(經認證的專業人員)前AGI(Proto-AGI)特徵檢測:通過圖分析等方法,識別網路中是否突然湧現出更高的解決問題能力或形成穩固的“智能核心”紅隊測試(Red Teaming):持續進行多智能體對抗性測試,利用專門的對抗性AI系統來發現集體行為中的漏洞取證工具(Forensic Tooling):開發能解析大量互動資料並重建因果鏈的工具,以便進行快速的事故後分析。第四層:監管機制 (Regulatory Mechanisms)這是最外層,提供外部權威、問責制以及與人類社會的介面。法律責任與問責(Legal Liability):建立明確的框架,解決分佈式決策中的責任歸屬問題。即使是群體智能行為,也需追溯到具體的責任主體(如作為單一法律實體的公司)標準與合規(Standards):制定智能體安全、互操作性和報告的標準保險(Insurance):引入基於風險定價的保險機制,利用市場力量激勵更安全的開發實踐反智能體壟斷措施(Anti-Agent-Monopoly):防止單個智能體或集團在沙盒中獲取過多的算力或資源,維持生態系統的多樣性國際協調(International Coordination):鑑於AGI風險的全球性,需協調統一安全標準,避免監管套利基礎設施治理:防止安全基礎設施被惡意勢力或湧現的AGI本身捕獲或破壞。結語DeepMind的研究強調,AGI或超級智能(ASI)的出現可能不遵循線性路徑,而是作為一個更加分佈式的、多樣化AI智能體網路的聚合屬性而湧現即使AGI不以這種方式出現,隨著多智能體系統的快速部署,理解和管理大規模智能體互動的安全性也已迫在眉睫。這篇論文提出的框架,旨在為應對這種分佈式的、可能迅速演變的未來做好準備 (AI寒武紀)
AGI的路上,GPU敘事仍在,Transformer卻無法開門
GoogleGemini3發佈後,資本市場上演了一場“蹺蹺板”遊戲。借助年度旗艦模型,Google市值一度漲超5000億美元。另一方面,算力霸主輝達同期蒸發了6000億美元。巨大的“剪刀差”似乎在暗示風向轉變:當TPU跑出了Gemini3的驚人效果,甚至Meta也傳出要採購TPU的消息時,通用GPU建構的算力護城河是否正在鬆動?硬體範式是否正在從通用的GPU向專用的ASIC發生“轉變”?騰訊科技2025 Hi Tech Day上,英諾天使基金合夥人王晟將這個問題拋給了沐曦股份、矽基流動和階躍星辰幾位國產模型及基礎設施的“賣鏟人”,進行了一場AGI關鍵基礎設施“穩態還是變態”的終極拷問。沐曦股份孫國梁認為GPU的敘事仍在:“華爾街的做空也許只是一種‘砍價方式’。”在孫國梁看來,GPU和ASIC在幾十年前就是“超級穩態”,他強調,當前模型處於高速迭代的階段,GPU的通用性是它最大的優勢。“你很難把一個專用性的產品放在一個通用場景裡。”在被問及“開源、閉源”之爭時,矽基流動胡健強調,這是一種“老二、老三”生存法則的博弈。“就像Android對抗iOS。DeepSeek一出來,市場炸了,大家就都得跟進,這是一種低競爭倒逼的趨勢。”胡健表示,如果模型不開源,智能如果只掌握在少數企業手裡,客戶不得不依賴這些巨頭,並為此承擔更高的成本與代價。而在演算法側,階躍星辰首席科學家張祥雨拋出了一枚“深水炸彈”:現有的Transformer架構無法支撐下一代Agent。張祥雨指出,在長文字環境下,模型的“智商”會隨著上下文長度的增加而快速下降。對於追求無限上下文的通用Agent而言,Transformer單向的資訊流機制存在先天缺陷。階躍星辰的研究表明,未來架構極有可能向“Non-Linear RNN”(非線性循環神經網路)演進。嘉賓核心看點:孫國梁(沐曦股份高級副總裁)“現在的AI是用工程學在‘反推’基礎科學。在數學和腦科學原理突破之前,我們需要靠GPU做大量的工程嘗試。”胡健(矽基流動聯合創始人、首席產品官)“模型不開源,智能只掌握在少數企業手裡,客戶不得不依賴這些巨頭,並為此承擔更高的成本與代價。”張祥雨(階躍星辰首席科學家)“今天的Transformer完全支撐不了下一代Agent。真正的挑戰不是計算複雜度,而是‘智商掉落’——文字越長,模型越傻。”以下為圓桌實錄,不改變原意的情況下有刪減調整01兆市值的拷問——GPU還是TPU?王晟(英諾天使基金合夥人、北京前沿國際人工智慧研究院理事長):我們先聊一個最近很炸裂的事。Google發佈Gemini3之後估值漲了5000多億美元,大家覺得Google又回來了。但與此同時輝達蒸發了6000多億。我想問問國梁,你是做國產GPU最頭部的企業。怎麼看這件事?硬體範式會不會開始往TPU/NPU這些專用晶片轉了?大家是完全競爭還是一種競合關係?孫國梁:架構本身沒有高低優劣之分,最重要的是看場景。如果說穩態還是變態,GPU和ASIC(專用晶片)這兩種架構在幾十年前就是“超級穩態”了。ASIC裡還有BPU、APU、VPU、DSP等等,它們在各自領域都有優勢。但在今天,我們處在一個模型高速迭代的階段。在這個階段裡,GPU的通用性是它最大的優勢。你很難把一個專用性的產品放在一個通用場景裡,因為它處理不過來。現在的模型更新太快了,快的話按周計,最遲也是按月計。從我們的視角看,任何一種基模還遠遠沒有到達“收斂”的時間點。在未來相當長的時間內,模型的高速迭代依舊是常態。還有一個問題是場景的碎片化。客戶的應用場景是層出不窮、千奇百怪的。在這種分散的場景裡,GPU和ASIC會長期共存,但通用GPU會有更好的泛化適配性。至於輝達市值的波動,說實話,這未必不是華爾街一種很好的“砍價方式”。之前華爾街已經做出了選擇,把輝達推向世界第一,就是因為在當前歷史階段,通用性顯然還是主流。02中間層的“縫合”——模型在收斂嗎?王晟:胡健,你們是做連接的,左邊是模型,右邊是算力。這會不會導致工作量爆炸?比如要重構算子、編譯器、計算圖?另外,從客戶使用情況看,模型是在發散還是收斂?胡健:矽基流動現在自己有一個雲,跟國內別的AI Infra比較大的區別,是我們可能大量的使用國產晶片,包括像摩爾和沐曦,我們都在大量使用用它來真實的服務客戶。整體來說,模型呈現“二八定律”。雖然新模型每隔一兩周就出來一個,但大家的呼叫非常聚焦,主要集中在DeepSeek、千問、Kimi、GLM等少數模型上。雖然模型變化快,但模型的結構基本上處於“逐漸穩態”。比如DeepSeek用MLA結構,包括MQA結構,大部分是基於Transformer的變體。這對國產晶片是非常大的利多。如果場景千變萬化,且不是基於Transformer,那會是CUDA的天下,因為它的軟體棧填了十幾年的坑。但現在結構相對穩定,我們核心要做的就是幫助國產晶片實現與輝達同規格晶片的“端到端對標”。這裡面70%的工作是相對標準的。比如量化——大家都知道國產晶片以前大部分只做INT8,但是現在DeepSeek都是FP8,所以針對量化這一系列方案是通用的;再比如PD分離、KVCache的共享傳輸等。剩下的30%需要針對不同晶片的性能瓶頸做聯合最佳化。比如有的晶片算子弱,有的通訊弱,我們就需要做算子融合或通訊庫最佳化。總體來看,模型結構趨於收縮,這些最佳化方案在大規模部署和應用時可復用性很高。03演算法的“變態”——Transformer一定是通向AGI的最終範式嗎?王晟:祥雨你是演算法大師。我想直接請教:Transformer已經註定是通向AGI的最終範式了嗎?目前學界還有RetNet、Mamba這些Linear Attention的範式,它們會有價值嗎?張祥雨:先給一個結論:現在的模型架構確實處於趨穩狀態,但我們很可能處在一個巨大變革的前夜。我最新的研究結論是:今天的Transformer並不足以支撐我們走向下一步,尤其是在Agent時代。先解釋前半句。確實,現在的架構基本上都收斂到Transformer。雖然有各種Linear Attention、SparseAttention的小修小補,在效率上做文章,但本質建模能力沒有區別。而且,我們發現了一個巨大的副作用:長文字真正的挑戰不是計算複雜度,而是模型的“智商”會隨著文字長度變化而快速下降。對於通用Agent,它面對的應該是一個“無限流”的世界——它是無窮長的,從小到大的所有經歷都在Context裡。但今天的Transformer,不管號稱支援多少Token,我自己測下來基本上到8-12萬個Token就不可用了,即使GPT-5可能好一點,但最終都會退化。這裡的本質原因是什麼?Transformer的資訊流是單向的。所有的資訊只能從第L-1層流向第L層。不管Context多長,模型的深度(L)不會增加,或者僅能小幅增加(對於某些最新的架構變體)。大家想像一下,人類的記憶是有極強的壓縮機制的。我今天講的每一句話,都是我歷史上見過所有資訊的函數。這個複雜的函數,不可能通過一個恆定層數的神經網路來表示。王晟:我理解你的意思。這個成果你們研究出來了嗎?張祥雨:我們現在是在一些小規模實驗得到非常積極的結論。未來的架構,它應該是一個短窗口的Transformer(建模short-term memory)疊加一個巨大的RNN(循環神經網路,用來建模episodic memory),而且是“Non-Linear RNN”(非線性RNN)。當然,這對系統效率和平行度是巨大挑戰,需要軟硬體協同設計(Co-design)。04物理瓶頸——被AI加速的“可控核聚變”與萬卡叢集主持人/王晟:張祥雨剛才的分享太有衝擊性了,回頭我還要消化。我們時間有限,我就特別簡單說一下能源的問題,因為我們投了星環聚能。在過去扔了氫彈之後,大家就開始探索搞“可控核聚變”。這事兒搞了80多年了,以前一直說“離成功永遠還有50年”,但就在這兩三年,情況發生了大逆轉。特別樂觀的人說還要10-15年,客觀一點的說20年。這事兒是怎麼發生的?這跟AI的關係非常大。今天托卡馬克裝置面臨最大的兩個問題:第一是怎麼獲得巨大的磁場來約束電漿體。這要靠材料,這就涉及到AI for Science——大家都很樂觀,覺得未來過幾年高溫超導、常溫超導通過AI就搞出來了,這能解決大問題。第二是電漿體的控制。裡面上億度、好幾億度,外面無窮多的線圈怎麼控制它?這是一個“黑箱”,你切不開來看。過去寫程序太複雜了,現在AI來了,通過模擬強化學習大家突然覺得這事兒行了。如果不解決能源,整個人類文明都會受限。這太吸引人了。我們討論了晶片,現在我想討論一下網路。我想聽一聽大家實際訓模型、跑模型的網路——不是實驗室Demo,是實際出成果的——都已經跑到多大的規模了?另外,輝達的網路層次蠻多,NVLink、NVLink Switch、InfiniBand很多層次都佈局了。我想知道我們現在自主建構的網路覆蓋了那些層級?孫國梁:我認為AIInfra最大的挑戰是要看清產品到底是什麼。客戶的需求是一個能夠做大規模模型訓練、推理、服務的通用性算力,而不是一張卡。我們在全國各地也有數千卡的叢集。無論是傳統模型、MoE模型還是非Transformer架構的模型,我們都訓練過。另外我想補充一下能源。如果真的到用能源去解決算力問題的時候,中國有巨大優勢。核心原因是:今天我們的模型屬於工程學。工程學的來源是數學推理,數學的來源是生理學和腦科學。但在基礎腦科學和生物學研發上,人類還沒有取得那麼大的突破。所以我們在數學上沒有突破,在工程學上只是在“暴力嘗試”。反而是現在我們在工程學上的很多嘗試,會“反推”基礎科學的演進。這是一個循環。我認為未來國產算力、基礎能源和開源模型,好戲還在後頭。05開源與閉源的終極博弈王晟:我們下一個問題給到胡健——開源和閉源的問題,因為我理解矽流上的很多都是開放原始碼的模型,現在美國巨頭都閉源了,中國企業擔起了開放原始碼的責任。未來開源能和閉源競爭嗎?會不會擔心最強的模型都是閉源的,導致你們的業務空間被擠壓?胡健:現在回答這個問題比較容易了,因為之前我們剛出來的時候和一堆投資人會問這個問題。我們剛創業時也面臨這個問題。我們堅定兩點:開源肯定會起來,推理會是主流。開源與閉源核心看兩點:第一是競爭格局。往往是處於第二、第三梯隊的企業,為了不被頭部完全搶佔市場份額,必須開源。開源後會有更多人跟你玩,就能逆轉形勢。就像Android對抗iOS。DeepSeek一出來,市場炸了,大家就都得跟進,這是一種低競爭倒逼的趨勢。第二是需求。智能如果只掌握在少數企業手裡,企業客戶為此會承擔更高的成本與代價。企業有自己獨特的資料,不敢交給閉源模型,因為有隱私和壁壘問題。為了資料可控、成本更低,需求端會倒逼開源持續存在。就像Android最終形成了自己的商業模式一樣,開源模型未來也會有類似廣告或服務的商業模式。06手機上的AGI——從推理到自主學習王晟:祥雨,階躍剛剛發佈了一個針對Android手機的Agent:GELab-Zero。這是測試成分更多,還是真的能在手機產業落地?張祥雨(階躍星辰):為什麼在這個時間我們要做GELab-Zero這樣的一個工作,是因為它是智能發展的必經之路。我看智能發展有兩條軸,橫軸乘以縱軸的面積,就是智能化水平:橫軸是“智能進化”:第一代是ChatBot,背後的演算法是NTP(Next Token Prediction);第二代是Reasoner,背後的演算法是RLVR(Verifiable Reward強化學習);第三代Agent是什麼?現在大家不知道。我自己擅作主張補上,它背後的演算法原理應該是“自主學習與線上學習”。我剛剛說的Transformer架構必然會有一次大的革新,指的是在這條橫軸上,我們正在走向下一代的路上。當然模型架構革新也只是一小塊,它屬於分層記憶機制建模的一部分。除此之外,自主學習和線上學習還需要解決如何進行環境探索、如何利用環境反饋、如何線上更新模型參數的問題。縱軸是“模態”:從語言、語音,到視覺多模態,再到最困難的具身智能。在具身和多模態之間,夾著一個“虛擬世界的具身”——就是像人一樣操作手機GUI。這比物理具身簡單,但比純文字複雜。我們要在這方面走出一步。GELab-Zero的技術路徑非常有特色:它是一個小模型,蒸餾了更大的視覺、語言模型的能力,通過搭建強化學習環境,賦予它在手機APP裡探索的能力。更關鍵的是,我們採用了“端雲結合”的能力:在必要時發出請求呼叫雲端模型,並且這兩個模型是協同訓練(Co-training)的,通過RL Trajectory共同形成梯度反傳。這是一個非常重要的技術創新點。07“老CV人”的反擊——顛覆Diffusion王晟:再問個問題,剛才那輪問題的延續。我看到你的老戰友何愷明最近也頻頻出手,最近發了兩個很重要的論文,一個是JiT(Just image Transformer),他覺得採用去噪的方法不太對,直接一把可能就預測圖像的結果了。還有一個是iMF(Improved MeanFlow)。它能夠變得比Diffusion更好嗎?張祥雨:對,不過這些工作也是在Diffusion框架上打補丁,並未真正“顛覆”Diffusion。愷明最近頻頻在生成模型基礎方向發力,原因很簡單:Diffusion這一套在“老CV人”的眼裡,是最不MakeSense的。它從一個分佈出發,加噪再去噪,這個過程沒有任何的語義,並且已經有很多工作展示了在diffusion過程中引入語義對齊可以取得顯著的提升,這更說明了原始的diffusion框架是有問題的。我解釋一下為什麼要這樣做。深度學習最喜歡的一個詞叫“端到端”——從已知分佈直接用一個深層神經網路一步達到結果。但在很長一段時間裡,模型的“單步推理能力”是不夠的。這就像在語言模型裡,單步推理不夠深,所以我們要引入CoT(思維鏈)。你可以認為視覺生成裡的“加噪去噪”,它的每一個Step就是一個CoT。但是!這個CoT跟語言的CoT不一樣,它不符合人類理解和形成圖像的過程。我們叫它“Bad CoT Pattern”——因為它沒有語義。不過,雖然聽上去不太合理,在“類Diffusion”框架下目前還沒有太好的去掉加噪-去噪過程的實踐。其他的框架,例如基於自回歸的圖像生成,也同樣有缺少語義和單步推理能力受限的問題。所以目前的研究趨勢,一方面是如何給Diffusion等框架引入更豐富的語義,例如剛剛提到的Semantic Alignment,又或者是生成理解一體化訓練,都屬於這個範疇。另一方面就是儘可能把框架做得更簡單、更為端到端,儘量減少人工引入的非語義的元素,愷明組最近的工作大都集中在這一塊。此外,也有人嘗試直接提升模型的單步推理能力,例如把loop transformer等latent reasoning工具引入圖像生成中,等等。王晟:我們再拉回到你做的這個非常重要的工作,為什麼不能是Memory被外掛,因為你說很多的上下文太長導致模型輸出不利,我們為什麼不能有一個模型專門去抽取,把Memory抽取更好的專用模型,再給到大模型。張祥雨:當然是可以的,像您說的在草稿紙上人類也會做這件事,這屬於外存。但是我們現在最主要的還是要建模智能體的記憶體,因為記憶是人類智能的核心元件之一。人腦的記憶機制是一個非常複雜的,而且分層的記憶機制,從已實現的短到長,比如最短的叫做感知記憶,也叫瞬時記憶;而稍微長一些、大概持續數秒的叫做短期記憶,也可以叫工作記憶。其中瞬時和短時的記憶,它的很多特性,比如無損性,比如說全連接的特性,今天transformer的上下文機制已經可以建模的很好了。真正棘手的是長期記憶的建模,我們現在主流的架構還做得不是很好,一個叫Episodic Memory(情境記憶),你會發現大量的論文都在做這一塊,它和fast weight update機制密切相關。還有一個叫做Semantic Memory(語義記憶),這個和slow weight update機制有關,這一塊用模型參數本身可以建模,它的難度在於怎麼Update。王晟:我記得Google剛發了一篇論文,不斷地Update模型參數。張祥雨:對,它那個是走向Online Learning非常必要的。王晟:今天的討論特別符合我們“穩態還是變態”的議題。我發現每一家頭部企業都有堅實的基本盤,但同時都在敞開胸懷擁抱變化。Transformer可能不是終局,GPU還在進化,而能源(比如我們投資的可控核聚變)和工程的挑戰才剛剛開始。這一波AGI可能剛剛起步,真正的蝴蝶效應,還在後頭。 (騰訊科技)