GoogleGemini3發佈後,資本市場上演了一場“蹺蹺板”遊戲。
借助年度旗艦模型,Google市值一度漲超5000億美元。另一方面,算力霸主輝達同期蒸發了6000億美元。
巨大的“剪刀差”似乎在暗示風向轉變:當TPU跑出了Gemini3的驚人效果,甚至Meta也傳出要採購TPU的消息時,通用GPU建構的算力護城河是否正在鬆動?硬體範式是否正在從通用的GPU向專用的ASIC發生“轉變”?
騰訊科技2025 Hi Tech Day上,英諾天使基金合夥人王晟將這個問題拋給了沐曦股份、矽基流動和階躍星辰幾位國產模型及基礎設施的“賣鏟人”,進行了一場AGI關鍵基礎設施“穩態還是變態”的終極拷問。
沐曦股份孫國梁認為GPU的敘事仍在:“華爾街的做空也許只是一種‘砍價方式’。”
在孫國梁看來,GPU和ASIC在幾十年前就是“超級穩態”,他強調,當前模型處於高速迭代的階段,GPU的通用性是它最大的優勢。“你很難把一個專用性的產品放在一個通用場景裡。”
在被問及“開源、閉源”之爭時,矽基流動胡健強調,這是一種“老二、老三”生存法則的博弈。“就像Android對抗iOS。DeepSeek一出來,市場炸了,大家就都得跟進,這是一種低競爭倒逼的趨勢。”
胡健表示,如果模型不開源,智能如果只掌握在少數企業手裡,客戶不得不依賴這些巨頭,並為此承擔更高的成本與代價。
而在演算法側,階躍星辰首席科學家張祥雨拋出了一枚“深水炸彈”:現有的Transformer架構無法支撐下一代Agent。
張祥雨指出,在長文字環境下,模型的“智商”會隨著上下文長度的增加而快速下降。對於追求無限上下文的通用Agent而言,Transformer單向的資訊流機制存在先天缺陷。階躍星辰的研究表明,未來架構極有可能向“Non-Linear RNN”(非線性循環神經網路)演進。
嘉賓核心看點:
孫國梁(沐曦股份高級副總裁)
“現在的AI是用工程學在‘反推’基礎科學。在數學和腦科學原理突破之前,我們需要靠GPU做大量的工程嘗試。”
胡健(矽基流動聯合創始人、首席產品官)
“模型不開源,智能只掌握在少數企業手裡,客戶不得不依賴這些巨頭,並為此承擔更高的成本與代價。”
張祥雨(階躍星辰首席科學家)
“今天的Transformer完全支撐不了下一代Agent。真正的挑戰不是計算複雜度,而是‘智商掉落’——文字越長,模型越傻。”
王晟(英諾天使基金合夥人、北京前沿國際人工智慧研究院理事長):我們先聊一個最近很炸裂的事。Google發佈Gemini3之後估值漲了5000多億美元,大家覺得Google又回來了。但與此同時輝達蒸發了6000多億。
我想問問國梁,你是做國產GPU最頭部的企業。怎麼看這件事?硬體範式會不會開始往TPU/NPU這些專用晶片轉了?大家是完全競爭還是一種競合關係?
孫國梁:架構本身沒有高低優劣之分,最重要的是看場景。
如果說穩態還是變態,GPU和ASIC(專用晶片)這兩種架構在幾十年前就是“超級穩態”了。ASIC裡還有BPU、APU、VPU、DSP等等,它們在各自領域都有優勢。
但在今天,我們處在一個模型高速迭代的階段。在這個階段裡,GPU的通用性是它最大的優勢。你很難把一個專用性的產品放在一個通用場景裡,因為它處理不過來。
現在的模型更新太快了,快的話按周計,最遲也是按月計。從我們的視角看,任何一種基模還遠遠沒有到達“收斂”的時間點。在未來相當長的時間內,模型的高速迭代依舊是常態。
還有一個問題是場景的碎片化。客戶的應用場景是層出不窮、千奇百怪的。在這種分散的場景裡,GPU和ASIC會長期共存,但通用GPU會有更好的泛化適配性。
至於輝達市值的波動,說實話,這未必不是華爾街一種很好的“砍價方式”。之前華爾街已經做出了選擇,把輝達推向世界第一,就是因為在當前歷史階段,通用性顯然還是主流。
王晟:胡健,你們是做連接的,左邊是模型,右邊是算力。這會不會導致工作量爆炸?比如要重構算子、編譯器、計算圖?另外,從客戶使用情況看,模型是在發散還是收斂?
胡健:矽基流動現在自己有一個雲,跟國內別的AI Infra比較大的區別,是我們可能大量的使用國產晶片,包括像摩爾和沐曦,我們都在大量使用用它來真實的服務客戶。
整體來說,模型呈現“二八定律”。雖然新模型每隔一兩周就出來一個,但大家的呼叫非常聚焦,主要集中在DeepSeek、千問、Kimi、GLM等少數模型上。
雖然模型變化快,但模型的結構基本上處於“逐漸穩態”。比如DeepSeek用MLA結構,包括MQA結構,大部分是基於Transformer的變體。這對國產晶片是非常大的利多。
如果場景千變萬化,且不是基於Transformer,那會是CUDA的天下,因為它的軟體棧填了十幾年的坑。但現在結構相對穩定,我們核心要做的就是幫助國產晶片實現與輝達同規格晶片的“端到端對標”。
這裡面70%的工作是相對標準的。比如量化——大家都知道國產晶片以前大部分只做INT8,但是現在DeepSeek都是FP8,所以針對量化這一系列方案是通用的;再比如PD分離、KVCache的共享傳輸等。
剩下的30%需要針對不同晶片的性能瓶頸做聯合最佳化。比如有的晶片算子弱,有的通訊弱,我們就需要做算子融合或通訊庫最佳化。總體來看,模型結構趨於收縮,這些最佳化方案在大規模部署和應用時可復用性很高。
王晟:祥雨你是演算法大師。我想直接請教:Transformer已經註定是通向AGI的最終範式了嗎?目前學界還有RetNet、Mamba這些Linear Attention的範式,它們會有價值嗎?
張祥雨:先給一個結論:現在的模型架構確實處於趨穩狀態,但我們很可能處在一個巨大變革的前夜。
我最新的研究結論是:今天的Transformer並不足以支撐我們走向下一步,尤其是在Agent時代。
先解釋前半句。確實,現在的架構基本上都收斂到Transformer。雖然有各種Linear Attention、SparseAttention的小修小補,在效率上做文章,但本質建模能力沒有區別。
而且,我們發現了一個巨大的副作用:長文字真正的挑戰不是計算複雜度,而是模型的“智商”會隨著文字長度變化而快速下降。
對於通用Agent,它面對的應該是一個“無限流”的世界——它是無窮長的,從小到大的所有經歷都在Context裡。但今天的Transformer,不管號稱支援多少Token,我自己測下來基本上到8-12萬個Token就不可用了,即使GPT-5可能好一點,但最終都會退化。
這裡的本質原因是什麼?Transformer的資訊流是單向的。
所有的資訊只能從第L-1層流向第L層。不管Context多長,模型的深度(L)不會增加,或者僅能小幅增加(對於某些最新的架構變體)。
大家想像一下,人類的記憶是有極強的壓縮機制的。我今天講的每一句話,都是我歷史上見過所有資訊的函數。這個複雜的函數,不可能通過一個恆定層數的神經網路來表示。
王晟:我理解你的意思。這個成果你們研究出來了嗎?
張祥雨:我們現在是在一些小規模實驗得到非常積極的結論。未來的架構,它應該是一個短窗口的Transformer(建模short-term memory)疊加一個巨大的RNN(循環神經網路,用來建模episodic memory),而且是“Non-Linear RNN”(非線性RNN)。當然,這對系統效率和平行度是巨大挑戰,需要軟硬體協同設計(Co-design)。
主持人/王晟:張祥雨剛才的分享太有衝擊性了,回頭我還要消化。我們時間有限,我就特別簡單說一下能源的問題,因為我們投了星環聚能。
在過去扔了氫彈之後,大家就開始探索搞“可控核聚變”。這事兒搞了80多年了,以前一直說“離成功永遠還有50年”,但就在這兩三年,情況發生了大逆轉。特別樂觀的人說還要10-15年,客觀一點的說20年。
這事兒是怎麼發生的?這跟AI的關係非常大。
今天托卡馬克裝置面臨最大的兩個問題:
第一是怎麼獲得巨大的磁場來約束電漿體。這要靠材料,這就涉及到AI for Science——大家都很樂觀,覺得未來過幾年高溫超導、常溫超導通過AI就搞出來了,這能解決大問題。
第二是電漿體的控制。裡面上億度、好幾億度,外面無窮多的線圈怎麼控制它?這是一個“黑箱”,你切不開來看。過去寫程序太複雜了,現在AI來了,通過模擬強化學習大家突然覺得這事兒行了。
如果不解決能源,整個人類文明都會受限。這太吸引人了。
我們討論了晶片,現在我想討論一下網路。
我想聽一聽大家實際訓模型、跑模型的網路——不是實驗室Demo,是實際出成果的——都已經跑到多大的規模了?
另外,輝達的網路層次蠻多,NVLink、NVLink Switch、InfiniBand很多層次都佈局了。我想知道我們現在自主建構的網路覆蓋了那些層級?
孫國梁:我認為AIInfra最大的挑戰是要看清產品到底是什麼。客戶的需求是一個能夠做大規模模型訓練、推理、服務的通用性算力,而不是一張卡。
我們在全國各地也有數千卡的叢集。無論是傳統模型、MoE模型還是非Transformer架構的模型,我們都訓練過。
另外我想補充一下能源。如果真的到用能源去解決算力問題的時候,中國有巨大優勢。
核心原因是:今天我們的模型屬於工程學。工程學的來源是數學推理,數學的來源是生理學和腦科學。但在基礎腦科學和生物學研發上,人類還沒有取得那麼大的突破。所以我們在數學上沒有突破,在工程學上只是在“暴力嘗試”。
反而是現在我們在工程學上的很多嘗試,會“反推”基礎科學的演進。這是一個循環。我認為未來國產算力、基礎能源和開源模型,好戲還在後頭。
王晟:我們下一個問題給到胡健——開源和閉源的問題,因為我理解矽流上的很多都是開放原始碼的模型,現在美國巨頭都閉源了,中國企業擔起了開放原始碼的責任。未來開源能和閉源競爭嗎?會不會擔心最強的模型都是閉源的,導致你們的業務空間被擠壓?
胡健:現在回答這個問題比較容易了,因為之前我們剛出來的時候和一堆投資人會問這個問題。
我們剛創業時也面臨這個問題。我們堅定兩點:開源肯定會起來,推理會是主流。
開源與閉源核心看兩點:
第一是競爭格局。往往是處於第二、第三梯隊的企業,為了不被頭部完全搶佔市場份額,必須開源。開源後會有更多人跟你玩,就能逆轉形勢。就像Android對抗iOS。DeepSeek一出來,市場炸了,大家就都得跟進,這是一種低競爭倒逼的趨勢。
第二是需求。智能如果只掌握在少數企業手裡,企業客戶為此會承擔更高的成本與代價。企業有自己獨特的資料,不敢交給閉源模型,因為有隱私和壁壘問題。為了資料可控、成本更低,需求端會倒逼開源持續存在。
就像Android最終形成了自己的商業模式一樣,開源模型未來也會有類似廣告或服務的商業模式。
王晟:祥雨,階躍剛剛發佈了一個針對Android手機的Agent:GELab-Zero。這是測試成分更多,還是真的能在手機產業落地?
張祥雨(階躍星辰):為什麼在這個時間我們要做GELab-Zero這樣的一個工作,是因為它是智能發展的必經之路。
我看智能發展有兩條軸,橫軸乘以縱軸的面積,就是智能化水平:
橫軸是“智能進化”:
第一代是ChatBot,背後的演算法是NTP(Next Token Prediction);
第二代是Reasoner,背後的演算法是RLVR(Verifiable Reward強化學習);
第三代Agent是什麼?現在大家不知道。我自己擅作主張補上,它背後的演算法原理應該是“自主學習與線上學習”。
我剛剛說的Transformer架構必然會有一次大的革新,指的是在這條橫軸上,我們正在走向下一代的路上。當然模型架構革新也只是一小塊,它屬於分層記憶機制建模的一部分。除此之外,自主學習和線上學習還需要解決如何進行環境探索、如何利用環境反饋、如何線上更新模型參數的問題。
縱軸是“模態”:從語言、語音,到視覺多模態,再到最困難的具身智能。
在具身和多模態之間,夾著一個“虛擬世界的具身”——就是像人一樣操作手機GUI。這比物理具身簡單,但比純文字複雜。
我們要在這方面走出一步。GELab-Zero的技術路徑非常有特色:它是一個小模型,蒸餾了更大的視覺、語言模型的能力,通過搭建強化學習環境,賦予它在手機APP裡探索的能力。
更關鍵的是,我們採用了“端雲結合”的能力:在必要時發出請求呼叫雲端模型,並且這兩個模型是協同訓練(Co-training)的,通過RL Trajectory共同形成梯度反傳。這是一個非常重要的技術創新點。
王晟:再問個問題,剛才那輪問題的延續。我看到你的老戰友何愷明最近也頻頻出手,最近發了兩個很重要的論文,一個是JiT(Just image Transformer),他覺得採用去噪的方法不太對,直接一把可能就預測圖像的結果了。還有一個是iMF(Improved MeanFlow)。它能夠變得比Diffusion更好嗎?
張祥雨:對,不過這些工作也是在Diffusion框架上打補丁,並未真正“顛覆”Diffusion。愷明最近頻頻在生成模型基礎方向發力,原因很簡單:Diffusion這一套在“老CV人”的眼裡,是最不MakeSense的。它從一個分佈出發,加噪再去噪,這個過程沒有任何的語義,並且已經有很多工作展示了在diffusion過程中引入語義對齊可以取得顯著的提升,這更說明了原始的diffusion框架是有問題的。
我解釋一下為什麼要這樣做。
深度學習最喜歡的一個詞叫“端到端”——從已知分佈直接用一個深層神經網路一步達到結果。但在很長一段時間裡,模型的“單步推理能力”是不夠的。
這就像在語言模型裡,單步推理不夠深,所以我們要引入CoT(思維鏈)。你可以認為視覺生成裡的“加噪去噪”,它的每一個Step就是一個CoT。
但是!這個CoT跟語言的CoT不一樣,它不符合人類理解和形成圖像的過程。我們叫它“Bad CoT Pattern”——因為它沒有語義。
不過,雖然聽上去不太合理,在“類Diffusion”框架下目前還沒有太好的去掉加噪-去噪過程的實踐。其他的框架,例如基於自回歸的圖像生成,也同樣有缺少語義和單步推理能力受限的問題。
所以目前的研究趨勢,一方面是如何給Diffusion等框架引入更豐富的語義,例如剛剛提到的Semantic Alignment,又或者是生成理解一體化訓練,都屬於這個範疇。另一方面就是儘可能把框架做得更簡單、更為端到端,儘量減少人工引入的非語義的元素,愷明組最近的工作大都集中在這一塊。
此外,也有人嘗試直接提升模型的單步推理能力,例如把loop transformer等latent reasoning工具引入圖像生成中,等等。
王晟:我們再拉回到你做的這個非常重要的工作,為什麼不能是Memory被外掛,因為你說很多的上下文太長導致模型輸出不利,我們為什麼不能有一個模型專門去抽取,把Memory抽取更好的專用模型,再給到大模型。
張祥雨:當然是可以的,像您說的在草稿紙上人類也會做這件事,這屬於外存。但是我們現在最主要的還是要建模智能體的記憶體,因為記憶是人類智能的核心元件之一。
人腦的記憶機制是一個非常複雜的,而且分層的記憶機制,從已實現的短到長,比如最短的叫做感知記憶,也叫瞬時記憶;而稍微長一些、大概持續數秒的叫做短期記憶,也可以叫工作記憶。
其中瞬時和短時的記憶,它的很多特性,比如無損性,比如說全連接的特性,今天transformer的上下文機制已經可以建模的很好了。
真正棘手的是長期記憶的建模,我們現在主流的架構還做得不是很好,一個叫Episodic Memory(情境記憶),你會發現大量的論文都在做這一塊,它和fast weight update機制密切相關。還有一個叫做Semantic Memory(語義記憶),這個和slow weight update機制有關,這一塊用模型參數本身可以建模,它的難度在於怎麼Update。
王晟:我記得Google剛發了一篇論文,不斷地Update模型參數。
張祥雨:對,它那個是走向Online Learning非常必要的。
王晟:今天的討論特別符合我們“穩態還是變態”的議題。
我發現每一家頭部企業都有堅實的基本盤,但同時都在敞開胸懷擁抱變化。Transformer可能不是終局,GPU還在進化,而能源(比如我們投資的可控核聚變)和工程的挑戰才剛剛開始。這一波AGI可能剛剛起步,真正的蝴蝶效應,還在後頭。 (騰訊科技)