#Transformer
梁文鋒署名新論文,DeepSeek V4架構首曝?直擊Transformer致命缺陷
【新智元導讀】深夜,梁文鋒署名的DeepSeek新論文又來了。這一次,他們提出全新的Engram模組,解決了Transformer的記憶難題,讓模型容量不再靠堆參數!剛剛 ,DeepSeek新論文發佈了,梁文鋒署名!這一次,他們聯手北大直接瞄準了「記憶」,是Transformer最致命的關鍵難題。如今,MoE成為大模型主流架構,但本質仍是Transformer,因其缺少原生「知識尋找」機制,很多檢索能力被迫用大量計算去模擬。33頁論文中,團隊提出了 MoE 互補的「條件記憶」稀疏軸,並通過一種全新的Engram模組去實現:將經典雜湊N-gram嵌入現代化,提供近似O(1)的確定性知識尋找。論文地址:https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf通過「稀疏分配」(Sparsity Allocation)建模,他們意外發現MoE與Engram之間,存在「U形scaling law」。這意味著,需調整兩者之間資源比例,讓計算與靜態記憶間找到最優權衡。沿著這個規律,將Engram擴展到27B參數後,並在嚴格等參數、等FLOPs下優於MoE基線。直白講,MoE只解決「怎麼少算」,Engram直接解決「別瞎算」。它把該查的交給 O(1)記憶,把注意力從局部瑣碎中解救出來,結果不只是更會背知識,同時推理、程式碼、數學一起變強。這可能成為稀疏LLM下一條主流路線,更重要的是,下一代V4或將整合這一新方法。不再苦算,給Transfomer插入「電子腦」當前,LLM越做越大已成為「鐵律」,一條熟悉的路徑是——把參數做大,把計算做「稀疏」。混合專家模型(MoE)就是典型代表,每個token只需啟動少量專家,用「條件計算」讓參數規模飆升,FLOPs還能控住。從Artifical Analysis榜單中可以看出,現有的稀疏大模型,主流都是MoE。但問題在於,Transformer缺少一種「原生的知識尋找」能力,所以很多本該像檢索一樣 O(1)解決的事,被迫用一堆計算去「模擬檢索」,效率很不划算。北大和DeepSeek新論文帶來一個很有意思的觀點:稀疏化不只服務「計算」,也可以服務「記憶」。由此,團隊提出了Engram,把語言建模中大量「固定、局部、刻板」的模式,交給一個可擴展的查表模組去承擔。這樣一來,可以讓Transformer主幹把注意力和深度用在更需要「組合與推理」的地方。語言建模,兩類任務論文中,作者明確將語言建模拆成兩類子任務:一部分任務需「組合與推理」:上下文關係、長程依賴、邏輯推理、鏈式推理。另一部分任務更像「模式檢索」:實體名、固定搭配、常見短語、語法片段、重複出現的局部結構後者的一個共同點很明顯,即它們往往局部、穩定、重複出現。若是用多層注意力和FFN去「算」他們,模型做得到,但成本極高,還會擠佔早期層的表達空間。為了識別實體「戴安娜,威爾士王妃」(Diana,Princess of Wales),LLM必須消耗多層注意力和FFN來逐步組合特徵,這個過程理論上是可以通過一次知識尋找操作來完成的。而Engram想做的事情很直接——把這類「局部靜態模式」轉移到一個廉價的知識尋找原語。它用確定性的查表快速給出候選資訊,再由上下文決定是否採納。Engram核心架構:暴力查表+記憶開關Engram一詞源於神經學,本意為「記憶痕跡」,是一種可擴展、可檢索的記憶單元。它可以用於儲存LLM在推理過程中,可能已接觸過的模式、資訊片段。可以將Engram理解為,把經典「雜湊N-gram嵌入」現代化,做成插在Transformer中間層的一個「可擴展查表模組」。如圖1所示,Engram是一個條件記憶模組,旨在通過從結構上將靜態模式儲存與動態計算分離開來,從而增強Transformer骨幹網路。形式化地說,給定輸入序列X=(x_1,...,x_T)和第l層的隱藏狀態H^(l)∈R^Txd,該模組分兩個功能階段來處理每個位置t:檢索和融合。接下來,一起看看Engram的關鍵設計點。基於雜湊N-gram的稀疏檢索第一階段主要負責將局部上下文對應到靜態的記憶條目中,這通過分詞器壓縮(tokenizer compression)和確定性雜湊檢索嵌入來實現。分詞器壓縮為了最大化語義密度,作者引入了一個詞表投影層。他們預先計算了一個滿射函數P:V→V',利用歸一化的文字等價性(比如NFKC、小寫化等手段)將原始Token ID坍縮成規範識別碼。這個過程能讓128k大小的分詞器有效詞表大小減少23%。多頭雜湊要想直接參數化所有可能的N-grams組合空間,計算上是行不通的。作者採用了一種基於雜湊的方法。為了減少沖突,給每個N-gram階數n分配了K個不同的雜湊頭。每個頭k通過一個確定性函數φ_n,k,將壓縮後的上下文對應到嵌入表E_n,k中的一個索引:上下文感知門控檢索到的嵌入e_t充當的是上下文無關的先驗資訊。不過,它們容易受到雜湊衝突或多義詞帶來的噪聲干擾。為了增強表達力並解決這種歧義,作者採用了一套受注意力機制啟發的上下文感知門控機制。他們利用當前的隱藏狀態h_t作為動態的Query,而檢索到的記憶e_t則作為Key和Value投影的來源:其中W_K,W_V是可學習的投影矩陣。為了保證梯度穩定性,他們在計算標量門α_t∈(0,1)之前,先對Query和Key進行RMSNorm處理:最後,為了擴大感受野並增強模型的非線性,作者還引入了一個短的深度因果摺積:門控可視化為了實證驗Engram是否按預期行為,作者在圖7中可視化了Engram-27B在各種樣本上的門控標量α_t。結果展示了,明顯的選擇性模式。門控機制在完成局部、靜態模式時一致地啟動(顯示為紅色)。在英文中,觀察到在多Token命名實體(如Alexander the Great、the Milky Way)和固定短語(如By the way,Princess of Wales)上有強烈的啟動。關鍵是,這種行為有效地跨語言泛化。在中文demo中,Engram識別並檢索獨特的習語表達和歷史實體,比如「四大發明」和「張仲景」。這些定性結果證實,Engram成功識別並處理了固定的語言依賴關係,有效地將Transformer骨幹網路從記憶這些靜態關聯中解放出來。系統效率:計算與儲存解耦擴展記憶增強型模型往往受限於GPU高頻寬記憶體(HBM)的容量。然而,Engram的確定性檢索機制天生就支援將參數儲存與計算資源解耦。與依賴執行階段隱藏狀態進行動態路由的混合專家模型(MoE)不同,Engram的檢索索引僅取決於輸入的Token序列。這種可預測性為訓練和推理提供了專門的最佳化策略,如圖2所示。訓練階段,為了容納大規模嵌入表,他們採用標準的模型平行策略,將表分片儲存在可用的GPU上。推理階段,這種確定性特性使得「預取和重疊」策略成為可能。U型Scaling Law,揭秘最優分配比Engram作為條件記憶的一種實現形式,在結構上與MoE專家提供的條件計算是互補的。這裡,主要研究了以下兩個關鍵問題:1. 有限約束下的分配2. 無限記憶體場景作者通過三個參數指標來分析MoE和Engram之間的權衡:P_tot:總可訓練參數,不包括詞表嵌和LM頭。P_act:每個Token的啟動參數量。這個數值決定了訓練成本(FLOPs)。P_sparse≜P_tot-P_act:非啟動參數,這代表了「免費」的參數預算,可用於在不增加計算成本的情況下擴展模型規模。作者將分配比例ρ∈[0,1]定義為分配給MoE專家容量的非啟動參數預算的比例:直觀來說:ρ=1對應純MoE模型(所有非啟動參數都是參與路由的專家)。ρ<1則減少路由專家的數量,並將釋放出來的參數重新分配給Engram嵌入槽位。結果與分析圖3(左)展示了驗證損失與分配比例ρ之間存在一致的U型關係。這種U型關係證實了兩個模組之間的結構互補性:MoE主導(ρ→100):模型缺乏用於儲存靜態模式的專用記憶體,迫使它只能通過增加深度和計算量來低效地重建這些模式。Engram主導(ρ→0%):模型失去了條件計算能力,從而損害了那些需要動態、上下文依賴推理的任務;在這種場景下,記憶無法替代計算。接下來,作者探索了一種互補的設定:激進的記憶體擴展。圖3(右)表明,擴充記憶體槽位的數量能帶來清晰且一致的驗證損失改善。在探索的範圍內,曲線遵循嚴格的冪律,這表明Engram提供了一種可預測的擴展調節手段:更大的記憶體能持續帶來收益,而無需額外的計算量。關於擴展效率關鍵的一點是:雖然OverEncoding的直接平均方法也能受益於更大的記憶體表,但Engram在相同的記憶體預算下解鎖了更大的擴展潛力。結合分配定律,這些結果驗證了——條件記憶可以作為稀疏容量的一個獨特且可擴展的維度,與MoE的條件計算相輔相成。爆殺傳統MoE,知識推理數學全面漲基於Engram架構以及實驗得出的分配定律,作者將Engram擴展到了數十億參數的等級,以此來驗證其在現實世界LLM預訓練中的有效性。他們訓練了以下四個模型:Dense-4B (總參數4.1B)MoE-27B (總參數26.7B)Engram-27B (總參數26.7B)Engram-40B (總參數39.5B)實驗結果首先,與先前的文獻結論一致,稀疏架構表現出了優於密集模型的擴展定律。在相同的訓練計算預算下,所有三個稀疏變體(MoE-27B,Engram-27B/40B)在所有基準測試中都顯著擊敗了等FLOPs的Dense-4B基線。更重要的是,Engram-27B始終優於等參數且等FLOPs的MoE-27B基線。有趣的是,這些收益並不僅限於知識密集型任務(MMLU:+3.0,MMLU-Pro:+1.8,CMMLU:+4.0)。在通用推理領域(BBH:+5.0,ARC-Challenge:+3.7,DROP:+3.3),以及程式碼和數學推理(HumanEval:+3.0,MBPP:+1.6,GSM8K:+2.2,MATH:+2.4)中,提升更為顯著。這些結果支援了他們的假設:引入一個專用的知識尋找原語所帶來的表示效率提升,要超過將所有稀疏預算都分配給條件計算的效果。最後,擴展到Engram-40B進一步降低了預訓練損失,並在大多數基準測試中提升了性能。可以觀察到,Engram-40B與基線之間的訓練損失差距在訓練後期仍在持續擴大,這表明擴大的記憶體容量在當前的Token預算內尚未完全飽和。注意力徹底解放,32k上下文性能狂飆通過將局部依賴建模的任務解除安裝給靜態尋找,Engram架構保留了寶貴的注意力容量來管理全域上下文。通過長上下文擴展訓練,作者證明了Engram在長程檢索和推理任務上帶來了顯著的提升。實驗結果1. 超越注意力機制的長上下文能力雖然注意力機制和位置編碼提供了處理上下文的結構基礎,但結果表明,長上下文性能並非僅由架構先驗決定。軌跡可見,長上下文性能與基座模型的通用建模能力本質上是掛鉤的。因此,嚴格的架構比較必須通過對齊基座模型的Loss來控制這一干擾變數,而不僅僅是簡單地對齊訓練步數。2. 受控設定下的架構優越性在上述原則的指導下,作者將Engram與MoE 基線進行了對比。當控制了基座能力後,Engram模組的效率增益就變得非常明顯:等Loss設定(46k vs. 基線):當對比預訓練Loss對齊的Engram-27B(46k)和完全訓練的MoE-27B(50k)時,Engram 展現出了顯著的增益。等FLOPs設定(50k vs. 基線):在標準的等計算預算下,Engram-27B(50k)進一步拉大了這一差距,確立了全面的最佳性能。極端設定(≈82%計算量):即便是提前停止訓練的Engram-27B(41k),在面對完全訓練的MoE-27B(50k)時依然極具競爭力。這凸顯了Engram架構內在的優越性。計算+記憶雙軸時代,直接融入V4?DeepSeek最新論文,打開了稀疏化的第二條路,是一條非常具有啟發性的路線:稀疏化模型進入了「計算+記憶」雙軸時代。MoE繼續負責動態計算與推理Engram負責儲存與檢索靜態知識與局部模式如上的U型scaling law證明了,稀疏預算全部給MoE,不是全域最優,留出一部分給Engram整體更強。1. 稀疏化目標變得更豐富了條件計算解決了FLOPs,條件記憶解決了容量與模式檢索,兩線均可互補。2. Engram收益帶有結構性它讓LLM知識能力暴漲同時,也間接提升了推理、數學、程式碼的性能,因為Transfomer主幹的深度和注意力計算效用更「值錢」了。3. 確定性查表,很適合系統最佳化模型預取和解除安裝很大,為「更大參數、同等吞吐」提供了一種可行的工程路線。如今,全網都在猜測,春節檔的V4有很大機率會把Engram融入主幹架構。回看此前DeepSeek路線:DeepSeek V2曾引入MLA,大幅提升了推理效率和KV快取友好度;DeepSeek V3持續最佳化MoE,實現無損負載平衡,訓練更穩定,成本更低。若是V4真的把Engram落地,那將不僅是參數規模的提升,更是架構範式的又一次躍遷。再加上,此前爆出,V4程式碼實力可能趕超Claude、ChatGPT系列。今年的春節大禮,真是讓人期待。(新智元)
DeepSeek新年第一天硬核論文上線:Transformer殘差連接迎來十年來最大升級「梁文鋒署名」
自大神何愷明的ResNet誕生以來,“殘差連接”(Residual Connection)就已成為深度學習架構的基石,貫穿了從摺積網路到如今大行其道的Transformer。這一簡潔的設計通過“恆等對應”(identity mapping)特性,保證了資訊在深層網路中的穩定傳遞,有效緩解了梯度消失問題然而,十年來,儘管殘差連接內部的計算模組(如注意力、FFN)日新月異,其“A+B”式的拓撲結構本身卻鮮有變化。最近,一項名為 超連接(Hyper-Connections, HC) 的研究試圖打破這一常規。通過將單通道的殘差流擴展為多通道,並引入可學習的連接模式,HC在不顯著增加計算量(FLOPs)的前提下,提升了模型的拓撲複雜度和性能潛力。但這種自由度的提升也帶來了一把雙刃劍:不受約束的連接方式從根本上破壞了殘差連接賴以成功的恆等對應屬性。這導致了嚴重的訓練不穩定、模型難以擴展,並帶來了巨大的記憶體訪問開銷,限制了其在真實大規模訓練中的應用。現在DeepSeek的研究團隊提出了一個全新的解決方案:流形約束超連接(Manifold-Constrained Hyper-Connections, mHC)。核心思路是把 Transformer 裡原本只有一條“殘差高速路”的結構,升級成多條平行通道,讓每一層都能在通道之間重新分配資訊,並用“雙隨機矩陣”約束,避免梯度爆炸或消失。更重要的是,團隊通過一系列嚴謹的底層架構最佳化,使其在真實的大規模訓練中高效可行實驗證明,mHC不僅解決了HC的訓練穩定性問題,還表現出更強的性能和擴展性,為基礎模型的架構設計提供了新的思路。論文名稱:mHC: Manifold-Constrained Hyper-Connections論文地址:arXiv:2512.24880v1超連接要理解mHC的創新,我們首先需要回顧一下殘差連接的演進。1. 標準殘差連接 (a)其結構可以表示為 x_l+1 = x_l + F(x_l,w_l。x_l是輸入,F是計算層(如Transformer Block)。核心在於x_l這一項,它確保了無論F如何變化,總有一條“高速公路”能讓資訊無損地從淺層傳遞到深層。當把這個公式遞迴展開時,深層特徵x_L總是包含了淺層特徵x_l的原始資訊2. 超連接 (HC) (b)HC將殘差流的維度從C擴展到了n x C,相當於建立了n條平行的殘差“車道”。同時,它引入了三個可學習的矩陣來控制資訊流動:H_pre: 從n條車道中“讀出”資訊,匯聚後送入計算層F。H_post: 將計算層F的輸出“寫入”回n條車道。H_res: 在n條車道之間直接進行資訊互動和更新。初步消融實驗表明,在三個矩陣中,負責殘差流內部資訊交換的H_res對性能提升的貢獻最大。然而,問題也恰恰出在這個H_res上。由於H_res是一個不受約束的可學習矩陣,當網路層數加深時,訊號在殘差流中的傳播由多個H_res矩陣的連乘(Π H_res)決定。這個連乘積會嚴重偏離恆等矩陣,導致訊號在傳播過程中被無限放大或衰減,最終造成訓練崩潰27B模型的實驗資料清晰地揭示了這一問題。與mHC相比,HC的損失在訓練約12k步時出現了異常飆升。其梯度范數也極不穩定。進一步分析訊號傳播的增益幅度(Amax Gain Magnitude),可以發現HC的復合對應(多層H_res連乘)增益峰值達到了驚人的3000,而理想值應為1。這證實了殘差流中存在嚴重的訊號爆炸除了數值不穩定,HC還帶來了巨大的系統開銷。擴寬的殘差流(n倍寬度)意味著記憶體讀寫(I/O)成本急劇增加,這在現代GPU架構中是主要的性能瓶頸。此外,在流水線平行訓練中,通訊開銷也增加了n倍,嚴重影響訓練效率。mHC:用“流形約束”馴服超連接為瞭解決上述挑戰,DeepSeek-AI團隊提出了mHC框架,其核心思想是:對H_res施加流形約束。具體來說,mHC將H_res約束為一個雙隨機矩陣這是一種特殊的非負矩陣,其每行之和與每列之和均為1。這種約束帶來了三個關鍵的理論優勢:保范性:雙隨機矩陣的譜范數有界(小於等於1),這意味著對應是非擴張的,從根本上杜絕了梯度爆炸的風險。復合閉包性:兩個雙隨機矩陣的乘積仍然是雙隨機矩陣。這保證了無論網路多深,Π H_res的復合對應始終保持穩定。幾何解釋:所有n x n雙隨機矩陣構成的集合是一個“伯克霍夫多面體”(Birkhoff Polytope),它是所有n x n置換矩陣的凸包。這意味著H_res的作用可以被看作是不同流之間特徵的一種“柔性”置換和融合。為了實現這一約束,mHC採用了經典的Sinkhorn-Knopp演算法。該演算法通過對矩陣進行交替的行、列歸一化迭代,可以有效地將任意一個正矩陣投影到雙隨機矩陣流形上。對於H_pre和H_post,mHC也施加了非負性約束,以防止正負係數的組合導致訊號抵消。高效的系統工程實現一個好的架構思想,離不開高效的工程實現。為了讓mHC能夠在大規模訓練中真正落地,研究團隊進行了三項關鍵的底層最佳化:1. Kernel Fusion(核函數融合)針對mHC引入的額外操作(如RMSNorm、矩陣變換、啟動函數等)會帶來大量小規模、高延遲的GPU Kernel呼叫和記憶體讀寫,團隊開發了高度最佳化的融合核函數。例如,將多個對共享資料進行的操作合併到一個CUDA Kernel中,並利用TileLang等工具高效開發,極大地減少了記憶體頻寬瓶頸和Kernel啟動開銷。2. Recomputing(重計算)擴寬的殘差流會佔用大量視訊記憶體來儲存中間啟動值,以備反向傳播使用。為緩解這一問題,mHC採用了一種選擇性的重計算策略。在前向傳播後,只保留每個重計算塊的初始輸入x_l0,而塊內的其他中間啟動值則被丟棄。在反向傳播時,利用已儲存的x_l0即時重新計算這些值。團隊還推匯出了最優重計算塊大小的公式,以最小化總視訊記憶體佔用3. Overlapping Communication in DualPipe(在DualPipe中重疊通訊)在大規模流水線平行訓練中,mHC引入的通訊和重計算開銷可能阻塞訓練流程。團隊擴展了現有的DualPipe調度策略,通過設定高優先順序計算流和解耦重計算與通訊依賴,實現了計算、通訊和重計算的深度重疊,最大限度地隱藏了額外開銷。通過這一系列最佳化,mHC(當n=4時)帶來的額外訓練時間開銷被控制在了 6.7% 以內,使其成為一個既強大又實用的架構。實驗效果:穩定、高效、可擴展團隊在3B、9B和27B等不同規模的MoE模型上,對基線模型、HC和mHC進行了全面的對比實驗。穩定性驗證27B模型訓練過程中的損失差距和梯度范數。mHC成功地解決了HC的訓練不穩定性,最終取得了比基線模型低0.021的損失。其梯度范數曲線也與基線模型一樣平滑穩定對訊號傳播的分析也證實了mHC的有效性。其單層和復合對應的增益幅度都穩定在1附近(最大約1.6),相比HC的~3000,穩定性提升了三個數量級HC中出現大量絕對值很大的元素,而mHC的矩陣則非常穩定,接近於一個柔性的置換。下游任務性能在涵蓋了常識推理、程式碼、數學等多個領域的8個下游基準測試中,27B的mHC模型性能全面領先。它不僅顯著優於基線模型,並且在大多數任務上超越了原始的HC模型。特別是在BBH和DROP等考驗推理能力的任務上,mHC相比HC分別取得了2.1%和2.3%的提升擴展性分析擴展性是衡量一個架構是否有潛力的關鍵。計算擴展曲線顯示,從3B到27B模型,mHC相較於基線模型的性能優勢一直穩定保持。Token擴展曲線則展示了在單次訓練中,mHC的優勢隨著訓練的進行而持續存在這些結果共同證明,mHC是一個在各種規模下都穩定有效、且具備良好擴展性的架構設計寫在最後deepseek 這項工作指出了超連接(HC)在擴展殘差連接範式時,因破壞恆等對應而導致的內在不穩定性。通過引入流形約束超連接(mHC),研究團隊成功地將訊號傳播轉化為一種穩定的凸組合,恢復了訓練的穩定性與可擴展性。更重要的是,通過精細的系統級最佳化,mHC在實現了性能提升的同時,保持了極低的計算開銷mHC框架的提出,不僅為超連接這一新興方向提供了實用的解決方案,也為宏觀架構設計開闢了新的可能性。未來,研究人員可以探索除雙隨機矩陣外的其他流形約束,以適應不同的學習目標,在模型的可塑性與穩定性之間找到更優的平衡點。這項工作或許將重新激發社區對網路拓撲結構設計的興趣。總的來說,本文的真正亮點並非在於證明超連接能夠大規模運行,而在於:DeepSeek擁有內部能力,可以圍繞高度實驗性的研究理念,在各個層面(核心、記憶體管理、節點間通訊)重構整個訓練環境 (AI寒武紀)
AGI的路上,GPU敘事仍在,Transformer卻無法開門
GoogleGemini3發佈後,資本市場上演了一場“蹺蹺板”遊戲。借助年度旗艦模型,Google市值一度漲超5000億美元。另一方面,算力霸主輝達同期蒸發了6000億美元。巨大的“剪刀差”似乎在暗示風向轉變:當TPU跑出了Gemini3的驚人效果,甚至Meta也傳出要採購TPU的消息時,通用GPU建構的算力護城河是否正在鬆動?硬體範式是否正在從通用的GPU向專用的ASIC發生“轉變”?騰訊科技2025 Hi Tech Day上,英諾天使基金合夥人王晟將這個問題拋給了沐曦股份、矽基流動和階躍星辰幾位國產模型及基礎設施的“賣鏟人”,進行了一場AGI關鍵基礎設施“穩態還是變態”的終極拷問。沐曦股份孫國梁認為GPU的敘事仍在:“華爾街的做空也許只是一種‘砍價方式’。”在孫國梁看來,GPU和ASIC在幾十年前就是“超級穩態”,他強調,當前模型處於高速迭代的階段,GPU的通用性是它最大的優勢。“你很難把一個專用性的產品放在一個通用場景裡。”在被問及“開源、閉源”之爭時,矽基流動胡健強調,這是一種“老二、老三”生存法則的博弈。“就像Android對抗iOS。DeepSeek一出來,市場炸了,大家就都得跟進,這是一種低競爭倒逼的趨勢。”胡健表示,如果模型不開源,智能如果只掌握在少數企業手裡,客戶不得不依賴這些巨頭,並為此承擔更高的成本與代價。而在演算法側,階躍星辰首席科學家張祥雨拋出了一枚“深水炸彈”:現有的Transformer架構無法支撐下一代Agent。張祥雨指出,在長文字環境下,模型的“智商”會隨著上下文長度的增加而快速下降。對於追求無限上下文的通用Agent而言,Transformer單向的資訊流機制存在先天缺陷。階躍星辰的研究表明,未來架構極有可能向“Non-Linear RNN”(非線性循環神經網路)演進。嘉賓核心看點:孫國梁(沐曦股份高級副總裁)“現在的AI是用工程學在‘反推’基礎科學。在數學和腦科學原理突破之前,我們需要靠GPU做大量的工程嘗試。”胡健(矽基流動聯合創始人、首席產品官)“模型不開源,智能只掌握在少數企業手裡,客戶不得不依賴這些巨頭,並為此承擔更高的成本與代價。”張祥雨(階躍星辰首席科學家)“今天的Transformer完全支撐不了下一代Agent。真正的挑戰不是計算複雜度,而是‘智商掉落’——文字越長,模型越傻。”以下為圓桌實錄,不改變原意的情況下有刪減調整01兆市值的拷問——GPU還是TPU?王晟(英諾天使基金合夥人、北京前沿國際人工智慧研究院理事長):我們先聊一個最近很炸裂的事。Google發佈Gemini3之後估值漲了5000多億美元,大家覺得Google又回來了。但與此同時輝達蒸發了6000多億。我想問問國梁,你是做國產GPU最頭部的企業。怎麼看這件事?硬體範式會不會開始往TPU/NPU這些專用晶片轉了?大家是完全競爭還是一種競合關係?孫國梁:架構本身沒有高低優劣之分,最重要的是看場景。如果說穩態還是變態,GPU和ASIC(專用晶片)這兩種架構在幾十年前就是“超級穩態”了。ASIC裡還有BPU、APU、VPU、DSP等等,它們在各自領域都有優勢。但在今天,我們處在一個模型高速迭代的階段。在這個階段裡,GPU的通用性是它最大的優勢。你很難把一個專用性的產品放在一個通用場景裡,因為它處理不過來。現在的模型更新太快了,快的話按周計,最遲也是按月計。從我們的視角看,任何一種基模還遠遠沒有到達“收斂”的時間點。在未來相當長的時間內,模型的高速迭代依舊是常態。還有一個問題是場景的碎片化。客戶的應用場景是層出不窮、千奇百怪的。在這種分散的場景裡,GPU和ASIC會長期共存,但通用GPU會有更好的泛化適配性。至於輝達市值的波動,說實話,這未必不是華爾街一種很好的“砍價方式”。之前華爾街已經做出了選擇,把輝達推向世界第一,就是因為在當前歷史階段,通用性顯然還是主流。02中間層的“縫合”——模型在收斂嗎?王晟:胡健,你們是做連接的,左邊是模型,右邊是算力。這會不會導致工作量爆炸?比如要重構算子、編譯器、計算圖?另外,從客戶使用情況看,模型是在發散還是收斂?胡健:矽基流動現在自己有一個雲,跟國內別的AI Infra比較大的區別,是我們可能大量的使用國產晶片,包括像摩爾和沐曦,我們都在大量使用用它來真實的服務客戶。整體來說,模型呈現“二八定律”。雖然新模型每隔一兩周就出來一個,但大家的呼叫非常聚焦,主要集中在DeepSeek、千問、Kimi、GLM等少數模型上。雖然模型變化快,但模型的結構基本上處於“逐漸穩態”。比如DeepSeek用MLA結構,包括MQA結構,大部分是基於Transformer的變體。這對國產晶片是非常大的利多。如果場景千變萬化,且不是基於Transformer,那會是CUDA的天下,因為它的軟體棧填了十幾年的坑。但現在結構相對穩定,我們核心要做的就是幫助國產晶片實現與輝達同規格晶片的“端到端對標”。這裡面70%的工作是相對標準的。比如量化——大家都知道國產晶片以前大部分只做INT8,但是現在DeepSeek都是FP8,所以針對量化這一系列方案是通用的;再比如PD分離、KVCache的共享傳輸等。剩下的30%需要針對不同晶片的性能瓶頸做聯合最佳化。比如有的晶片算子弱,有的通訊弱,我們就需要做算子融合或通訊庫最佳化。總體來看,模型結構趨於收縮,這些最佳化方案在大規模部署和應用時可復用性很高。03演算法的“變態”——Transformer一定是通向AGI的最終範式嗎?王晟:祥雨你是演算法大師。我想直接請教:Transformer已經註定是通向AGI的最終範式了嗎?目前學界還有RetNet、Mamba這些Linear Attention的範式,它們會有價值嗎?張祥雨:先給一個結論:現在的模型架構確實處於趨穩狀態,但我們很可能處在一個巨大變革的前夜。我最新的研究結論是:今天的Transformer並不足以支撐我們走向下一步,尤其是在Agent時代。先解釋前半句。確實,現在的架構基本上都收斂到Transformer。雖然有各種Linear Attention、SparseAttention的小修小補,在效率上做文章,但本質建模能力沒有區別。而且,我們發現了一個巨大的副作用:長文字真正的挑戰不是計算複雜度,而是模型的“智商”會隨著文字長度變化而快速下降。對於通用Agent,它面對的應該是一個“無限流”的世界——它是無窮長的,從小到大的所有經歷都在Context裡。但今天的Transformer,不管號稱支援多少Token,我自己測下來基本上到8-12萬個Token就不可用了,即使GPT-5可能好一點,但最終都會退化。這裡的本質原因是什麼?Transformer的資訊流是單向的。所有的資訊只能從第L-1層流向第L層。不管Context多長,模型的深度(L)不會增加,或者僅能小幅增加(對於某些最新的架構變體)。大家想像一下,人類的記憶是有極強的壓縮機制的。我今天講的每一句話,都是我歷史上見過所有資訊的函數。這個複雜的函數,不可能通過一個恆定層數的神經網路來表示。王晟:我理解你的意思。這個成果你們研究出來了嗎?張祥雨:我們現在是在一些小規模實驗得到非常積極的結論。未來的架構,它應該是一個短窗口的Transformer(建模short-term memory)疊加一個巨大的RNN(循環神經網路,用來建模episodic memory),而且是“Non-Linear RNN”(非線性RNN)。當然,這對系統效率和平行度是巨大挑戰,需要軟硬體協同設計(Co-design)。04物理瓶頸——被AI加速的“可控核聚變”與萬卡叢集主持人/王晟:張祥雨剛才的分享太有衝擊性了,回頭我還要消化。我們時間有限,我就特別簡單說一下能源的問題,因為我們投了星環聚能。在過去扔了氫彈之後,大家就開始探索搞“可控核聚變”。這事兒搞了80多年了,以前一直說“離成功永遠還有50年”,但就在這兩三年,情況發生了大逆轉。特別樂觀的人說還要10-15年,客觀一點的說20年。這事兒是怎麼發生的?這跟AI的關係非常大。今天托卡馬克裝置面臨最大的兩個問題:第一是怎麼獲得巨大的磁場來約束電漿體。這要靠材料,這就涉及到AI for Science——大家都很樂觀,覺得未來過幾年高溫超導、常溫超導通過AI就搞出來了,這能解決大問題。第二是電漿體的控制。裡面上億度、好幾億度,外面無窮多的線圈怎麼控制它?這是一個“黑箱”,你切不開來看。過去寫程序太複雜了,現在AI來了,通過模擬強化學習大家突然覺得這事兒行了。如果不解決能源,整個人類文明都會受限。這太吸引人了。我們討論了晶片,現在我想討論一下網路。我想聽一聽大家實際訓模型、跑模型的網路——不是實驗室Demo,是實際出成果的——都已經跑到多大的規模了?另外,輝達的網路層次蠻多,NVLink、NVLink Switch、InfiniBand很多層次都佈局了。我想知道我們現在自主建構的網路覆蓋了那些層級?孫國梁:我認為AIInfra最大的挑戰是要看清產品到底是什麼。客戶的需求是一個能夠做大規模模型訓練、推理、服務的通用性算力,而不是一張卡。我們在全國各地也有數千卡的叢集。無論是傳統模型、MoE模型還是非Transformer架構的模型,我們都訓練過。另外我想補充一下能源。如果真的到用能源去解決算力問題的時候,中國有巨大優勢。核心原因是:今天我們的模型屬於工程學。工程學的來源是數學推理,數學的來源是生理學和腦科學。但在基礎腦科學和生物學研發上,人類還沒有取得那麼大的突破。所以我們在數學上沒有突破,在工程學上只是在“暴力嘗試”。反而是現在我們在工程學上的很多嘗試,會“反推”基礎科學的演進。這是一個循環。我認為未來國產算力、基礎能源和開源模型,好戲還在後頭。05開源與閉源的終極博弈王晟:我們下一個問題給到胡健——開源和閉源的問題,因為我理解矽流上的很多都是開放原始碼的模型,現在美國巨頭都閉源了,中國企業擔起了開放原始碼的責任。未來開源能和閉源競爭嗎?會不會擔心最強的模型都是閉源的,導致你們的業務空間被擠壓?胡健:現在回答這個問題比較容易了,因為之前我們剛出來的時候和一堆投資人會問這個問題。我們剛創業時也面臨這個問題。我們堅定兩點:開源肯定會起來,推理會是主流。開源與閉源核心看兩點:第一是競爭格局。往往是處於第二、第三梯隊的企業,為了不被頭部完全搶佔市場份額,必須開源。開源後會有更多人跟你玩,就能逆轉形勢。就像Android對抗iOS。DeepSeek一出來,市場炸了,大家就都得跟進,這是一種低競爭倒逼的趨勢。第二是需求。智能如果只掌握在少數企業手裡,企業客戶為此會承擔更高的成本與代價。企業有自己獨特的資料,不敢交給閉源模型,因為有隱私和壁壘問題。為了資料可控、成本更低,需求端會倒逼開源持續存在。就像Android最終形成了自己的商業模式一樣,開源模型未來也會有類似廣告或服務的商業模式。06手機上的AGI——從推理到自主學習王晟:祥雨,階躍剛剛發佈了一個針對Android手機的Agent:GELab-Zero。這是測試成分更多,還是真的能在手機產業落地?張祥雨(階躍星辰):為什麼在這個時間我們要做GELab-Zero這樣的一個工作,是因為它是智能發展的必經之路。我看智能發展有兩條軸,橫軸乘以縱軸的面積,就是智能化水平:橫軸是“智能進化”:第一代是ChatBot,背後的演算法是NTP(Next Token Prediction);第二代是Reasoner,背後的演算法是RLVR(Verifiable Reward強化學習);第三代Agent是什麼?現在大家不知道。我自己擅作主張補上,它背後的演算法原理應該是“自主學習與線上學習”。我剛剛說的Transformer架構必然會有一次大的革新,指的是在這條橫軸上,我們正在走向下一代的路上。當然模型架構革新也只是一小塊,它屬於分層記憶機制建模的一部分。除此之外,自主學習和線上學習還需要解決如何進行環境探索、如何利用環境反饋、如何線上更新模型參數的問題。縱軸是“模態”:從語言、語音,到視覺多模態,再到最困難的具身智能。在具身和多模態之間,夾著一個“虛擬世界的具身”——就是像人一樣操作手機GUI。這比物理具身簡單,但比純文字複雜。我們要在這方面走出一步。GELab-Zero的技術路徑非常有特色:它是一個小模型,蒸餾了更大的視覺、語言模型的能力,通過搭建強化學習環境,賦予它在手機APP裡探索的能力。更關鍵的是,我們採用了“端雲結合”的能力:在必要時發出請求呼叫雲端模型,並且這兩個模型是協同訓練(Co-training)的,通過RL Trajectory共同形成梯度反傳。這是一個非常重要的技術創新點。07“老CV人”的反擊——顛覆Diffusion王晟:再問個問題,剛才那輪問題的延續。我看到你的老戰友何愷明最近也頻頻出手,最近發了兩個很重要的論文,一個是JiT(Just image Transformer),他覺得採用去噪的方法不太對,直接一把可能就預測圖像的結果了。還有一個是iMF(Improved MeanFlow)。它能夠變得比Diffusion更好嗎?張祥雨:對,不過這些工作也是在Diffusion框架上打補丁,並未真正“顛覆”Diffusion。愷明最近頻頻在生成模型基礎方向發力,原因很簡單:Diffusion這一套在“老CV人”的眼裡,是最不MakeSense的。它從一個分佈出發,加噪再去噪,這個過程沒有任何的語義,並且已經有很多工作展示了在diffusion過程中引入語義對齊可以取得顯著的提升,這更說明了原始的diffusion框架是有問題的。我解釋一下為什麼要這樣做。深度學習最喜歡的一個詞叫“端到端”——從已知分佈直接用一個深層神經網路一步達到結果。但在很長一段時間裡,模型的“單步推理能力”是不夠的。這就像在語言模型裡,單步推理不夠深,所以我們要引入CoT(思維鏈)。你可以認為視覺生成裡的“加噪去噪”,它的每一個Step就是一個CoT。但是!這個CoT跟語言的CoT不一樣,它不符合人類理解和形成圖像的過程。我們叫它“Bad CoT Pattern”——因為它沒有語義。不過,雖然聽上去不太合理,在“類Diffusion”框架下目前還沒有太好的去掉加噪-去噪過程的實踐。其他的框架,例如基於自回歸的圖像生成,也同樣有缺少語義和單步推理能力受限的問題。所以目前的研究趨勢,一方面是如何給Diffusion等框架引入更豐富的語義,例如剛剛提到的Semantic Alignment,又或者是生成理解一體化訓練,都屬於這個範疇。另一方面就是儘可能把框架做得更簡單、更為端到端,儘量減少人工引入的非語義的元素,愷明組最近的工作大都集中在這一塊。此外,也有人嘗試直接提升模型的單步推理能力,例如把loop transformer等latent reasoning工具引入圖像生成中,等等。王晟:我們再拉回到你做的這個非常重要的工作,為什麼不能是Memory被外掛,因為你說很多的上下文太長導致模型輸出不利,我們為什麼不能有一個模型專門去抽取,把Memory抽取更好的專用模型,再給到大模型。張祥雨:當然是可以的,像您說的在草稿紙上人類也會做這件事,這屬於外存。但是我們現在最主要的還是要建模智能體的記憶體,因為記憶是人類智能的核心元件之一。人腦的記憶機制是一個非常複雜的,而且分層的記憶機制,從已實現的短到長,比如最短的叫做感知記憶,也叫瞬時記憶;而稍微長一些、大概持續數秒的叫做短期記憶,也可以叫工作記憶。其中瞬時和短時的記憶,它的很多特性,比如無損性,比如說全連接的特性,今天transformer的上下文機制已經可以建模的很好了。真正棘手的是長期記憶的建模,我們現在主流的架構還做得不是很好,一個叫Episodic Memory(情境記憶),你會發現大量的論文都在做這一塊,它和fast weight update機制密切相關。還有一個叫做Semantic Memory(語義記憶),這個和slow weight update機制有關,這一塊用模型參數本身可以建模,它的難度在於怎麼Update。王晟:我記得Google剛發了一篇論文,不斷地Update模型參數。張祥雨:對,它那個是走向Online Learning非常必要的。王晟:今天的討論特別符合我們“穩態還是變態”的議題。我發現每一家頭部企業都有堅實的基本盤,但同時都在敞開胸懷擁抱變化。Transformer可能不是終局,GPU還在進化,而能源(比如我們投資的可控核聚變)和工程的挑戰才剛剛開始。這一波AGI可能剛剛起步,真正的蝴蝶效應,還在後頭。 (騰訊科技)
AGI只剩5–10 年!GoogleDeepMindCEO:必須把Scaling推到極限,還需1-2個Transformer級重大突破
前不久,在NeurIPS 2025大會上,Google推出了Transformer框架的最強繼任者:Titans+MIRAS。眾所周知,Transformer最大瓶頸在於,上下文無限擴展,會導致計算成本飆升。除了業界迭代的RNN、Mamba-2等架構,Google提出的新一代解決方案Titans+MIRAS,能夠把RNN速度和Transformer精準性相結合,可以讓 AI模型在運行過程中動態更新核心記憶,跑得更快,也能處理超長規模的上下文。與此同時,在最新採訪中,GoogleDeepMind CEO Demis Hassabis也對未來12個月AI的關鍵突破做出重磅預測!1、多模態深度融合Gemini 天生多模態,未來 12 個月會看到圖像、視訊、音訊與語言更深層的“能力互相催化”。他特別強調圖像模型(如 NanoBanana Pro)表現驚豔,能做精準圖表類輸出。2、世界模型DeepMind 的 Genie 3:可以生成視訊、還能像遊戲一樣走進畫面內部探索,並保持 1 分鐘的視覺一致性。這是“可互動 AGI”的重要原型。3、Agent 可靠性大躍升Demis說今天的 agents 不能完全委託任務,但 1 年內將逼近可託付等級。結合 Gemini 的“通用助理”概念:明年將更普遍出現在手機、電腦、眼鏡等裝置,成為人類生活的纖維層工具。在今年早些時候,Demis就公開表示我們將在2030年實現AGI。在最新採訪中,Demis又再次強調:我們距離實現AGI只有5-10年時間!他直言自己對AGI的標準很高:AI必須全面具備人類的所有認知能力,其中包括創造力和發明能力。他認為在達到AGI之前,還需要做兩件事:1、大語言模型的Scaling必須做到極限,Demis認為規模化“至少會成為 AGI 的一個關鍵組成部分,甚至就是全部”;2、還需要一兩個像Transformer、AlphaGo這樣的重大技術突破(全新架構Titans+MIRAS就是這個等級的)以下是Axios AI+峰會上,Axios聯合創始人Mike Allen與Demis Hassabis交談的全文,enjoy!諾獎之後的變化主持人:距你得知自己成為諾貝爾獎得主,只過去 400 多天。當時你說 “這太不真實了,這是最重要的那個獎”。從那之後,你的生活與工作發生了什麼變化?它帶來了什麼?Demis:到現在其實依然有點不真實,感覺還沒完全消化。但確實帶來了不少改變。最大的改變是,當你和 AI 領域之外的人交流,像政府高層,那些對 AI 瞭解不多的人,諾貝爾獎就像一個“通行證”,會讓他們立刻意識到你在這個領域確實是專家。我覺得未來在很多場合它會很有用。至於資源,你說得對,我們在 Google 和 DeepMind 本來資源就不少,雖然永遠不夠,計算力永遠不嫌多。但諾獎更多是給我一個平台,讓我能夠為重要議題發聲,比如 AI 安全。我過去發聲不多,但未來這會變得重要,可能我們今天也會談到。主持人:除了 AI 安全,你覺得未來你還會更常用你的平台談那些議題?Demis不僅是長期的 AGI 安全,當然那是我們持續關注的,另外我也會關注當下對 AI 的負責任使用。那些事情適合讓 AI 加速、增強?那些領域在短期內就需要我們更謹慎?還有,就是幫助整個社會為 AGI 做好準備。AGI 可能是人類歷史最具變革性的時刻之一,它已經在地平線上逼近了。社會、物種、政府,以及重要決策者都必須提前準備。而諾獎帶來的平台基本能讓我敲開任何一扇門,這會非常關鍵。主持人:你的獨特之處在於,你既深耕科學,又站在全球科技公司、超級平台、超級大國競爭的前線。同時你又有類似賈伯斯那種“產品直覺”,想做讓人讚嘆的產品,但你總說自己首先是科學家。Demis:是的,我首先是科學家。所謂“科學家”,是指我的默認思考方式就是“科學方法”。我認為科學方法可能是人類歷史上最重要的思想之一,它帶來了啟蒙時代、現代科學,甚至現代文明賴以運轉的體系:實驗、假設、驗證、迭代。我認為這種方法不僅適用於科學,甚至適用於日常生活和商業。我一直努力把這種方法做到極致。它讓我們在研究、工程和基礎設施上都追求極高的嚴謹性和精確性。是的,我們正處在科技史上最激烈的競爭中之一,但我們的優勢來自這種科學方法的根基,以及我們能夠同時做到世界級研究、世界級工程、世界級基礎設施建設——這三者缺一不可,而 DeepMind 在這三方面都保持著頂級水平。未來12個月 AI 會發生什麼?主持人:未來 12 個月,你認為世界會發生那些變化?如果明年這個時候我們還能坐在這裡,會看到什麼不同?Demis我們現在正在努力推進的是多模態能力的深度融合。Gemini 從第一天起就是多模態模型,能處理圖像、視訊、文字、音訊,現在也能產出這些模態的內容。多模態帶來非常多跨領域能力增強,比如我們最近的圖像模型 NoBanana Pro,它對於視覺的理解驚人,能生成精準的資訊圖。未來一年你會看到多模態的進一步突破,特別是視訊與語言模型的深度結合,將出現非常強的新能力。第二個重點是“世界模型”。我們現在有一個系統叫 Genie 3,它是互動視訊模型,你不僅能生成視訊,還能像在遊戲或模擬世界中一樣“走進去”,並保持一分鐘以上的連貫性,這是非常令人興奮的。第三是智能體(agents)。現在智能體還不夠可靠,無法完成完整任務,但未來一年會有明顯進展。主持人:今天在台上我們已經聽了很多關於 agents 的討論。一年後它們會發展到什麼程度?能給普通人一個具體例子嗎?Demis我們正在打造一個“通用助手”,最終希望 Gemini 能成為這種普適助手,它會出現在更多裝置上,不只是電腦和手機,甚至可能是眼鏡等隨身裝置。它會成為你日常生活中的一部分,每天多次向它求助,不僅提升工作效率,也改善個人生活,比如給予你喜歡的書、電影、活動的推薦。不過目前智能體還不能讓你完全“委派”一個任務並保證 100% 完成。但我認為一年後,我們會看到接近這種能力的智能體出現。AI最好的可能vs 最糟的擔憂主持人如果分“最樂觀”和“最悲觀”來說,你心中 AI 能給世界帶來的最好是什麼?最怕的又是什麼?Demis最好的情況,是我從年輕時就一直為之努力的願景,一種“激進豐裕(radical abundance)”。意味著 AI 解決了人類當下最大的難題:免費、清潔的可再生能源;或許突破聚變、突破電池、突破材料科學、半導體;治癒大量疾病。那會是一個“後稀缺時代”,人類繁榮,甚至走向星辰,向銀河擴散意識。但即便是烏托邦也會帶來問題:如果 AI 把所有難題都解決了,人類的目的感會發生什麼?作為科學家,我會擔心這一點,連科學方法本身也可能受到影響。主持人:那最糟的情況呢?Demis:顯然,AI 的兩個主要風險:1)壞人用它做壞事;2)隨著系統更接近 AGI、更具“能動性(agentic)”,它可能偏離人類初始目標,造成傷害。主持人:我快速列幾個風險,你告訴我你有多擔心:① 惡意分子利用 AI 製造病原體。Demis:是的,這是必須嚴格防範的風險之一。② 國家級駭客用 AI 對能源、水資源系統發動網路攻擊。Demis:這可能現在就已經在發生了,雖然 AI 還不算很先進。但這是最容易被攻擊的方向。因此我們在 Google 和 DeepMind 都在投入大量資源,用 AI 提升網路防禦能力。③ AI 自主運行,脫離人類控制。Demis:這與 agentic 系統的發展直接相關。它們越強、越自主,偏離指令的可能性也越大。現在研究的重點是如何讓能“持續學習”的系統始終待在安全護欄內。商業世界會強迫我們做到這一點,因為企業客戶會要求可靠性,否則他們不會購買,市場會淘汰不負責任的模型提供商。但AI“跳出護欄”的風險不是零,必須嚴肅對待。中美之間的差距只有“幾個月”主持人:在與中國的 AI 競賽中,美國在那些方面領先?那些方面落後?Demis:我認為西方和美國仍然領先,尤其從最新基準和系統表現來看。但中國並不遠,比如 DeepSeek 等最新模型都很優秀,團隊也很強。現在的差距可能只剩“幾個月”,而不是“幾年”。主持人:如果不談晶片,只看 AI 本身,中國是不是贏了?Demis:我認為即便不考慮晶片,在演算法創新上,西方仍然佔優勢。到目前為止,中國公司還沒有展示過真正突破性的全新演算法創新。關於 Gemini 3 的“細膩感”主持人:恭喜你們上個月推出了 Gemini 3。這款模型被稱為“遊戲規則改變者”,你們說它在推理的深度與細膩度上達到了前所未有的水平。能不能告訴我們,Gemini 3 的“細膩度”究竟獨特在那裡?Demis:我覺得最讓我們滿意的,不只是它的能力,還有它的“風格”,甚至可以說是某種“人格感”。我喜歡它回答問題時的方式:既能保持簡潔,又不會對使用者的話一味附和。如果你的觀點不太成立,它會溫和地指出問題。我認為很多使用者也感受到了這種變化,可以明顯感覺到它的智能層次以及整體實用性都上了一個台階。主持人:那有沒有什麼是 Gemini 做出來以後連你都覺得:“哇,我沒想到它竟然能這樣”?Demis:這其實就是我們為什麼如此熱愛這份工作的原因。現在這個時代,研究直接連著產品,這意味著數百萬,甚至在 Google 的規模下,是數十億使用者,會在第一時間使用你剛發佈的技術,然後他們總能立刻把模型玩出一些非常酷的新花樣,很多還會迅速傳播開來。我個人最喜歡的是 Gemini 3 能“一次性生成遊戲”的能力。這對我意義很大,因為我職業生涯最早就是做遊戲 AI 的。現在的模型已經非常接近可以在下一代版本中做到:你可能只用幾小時,通過“邊聊邊寫程式碼”的方式,就能做出接近商業品質的遊戲,而這些過去可能要花團隊多年才能完成。主持人:遊戲“一次生成”的能力,說明了模型的什麼特質?Demis:這說明了這些模型具備令人難以置信的深度理解能力:它們能夠消化非常高層次的指令,然後輸出極其具體與細節豐富的成果。另外,Gemini 3 在前端開發、網站設計方面特別強,美感與創造力兼具,同時技術上又非常穩健。主持人:Axios 寫過很多關於“連這些模型的創造者都無法完全理解模型”的文章。Gemini 3 有沒有什麼地方讓你覺得:“我其實也不完全理解它”?Demis:老實說,我覺得在座的所有人可能都有同樣的感覺,創新的速度太快了。我們幾乎把所有時間都花在建構這些系統上,卻沒有足夠時間真正探索它們的全部能力。每次發佈新版本時,我都會有一種強烈感覺:我甚至連當前系統能力的十分之一都沒來得及挖掘,因為我們馬上又得投入到下一輪的研發與安全測試中。於是很多情況下,最終是使用者比我們內部團隊更早發現這些系統的極限與可能性。為什麼會從其他路線“轉向”大模型?主持人:再問一個有關 Gemini 的背景問題。你們當時其實有很多研究方向,但你並不是一開始就把“大語言模型”當成最終路徑。作家Walter Isaacson告訴我,當你意識到 LLM 的力量時,你做了一個“轉身式大調整”,而且成功地實現了跨越式領先。按 Walter 的說法,大多數商業領袖可能會固執,堅持自己原本的方向。你是怎麼做出這個轉向、決定“ALL IN 大模型”的?Demis:這就是科學方法的力量,如果你是真正的科學家,你不能對某個想法太教條,你必須順著事實與實驗結果前進。Walter 說的是2017–2018 年左右的事情。當時我們並不確定那條路線能通往 AGI,我們有很多方向:我們有自己很強的語言模型(內部叫 Chinchilla、Sparrow 等),我們也在做 AlphaZero 那一類“純強化學習系統”,還有一些偏認知科學、神經科學啟發的架構。作為 DeepMind 的負責人,我的任務是:盡快、安全地建構 AGI,而不是押注某條特定路線。所以我對方法其實很務實,理論可以有,但最終標準是“能不能行得通”。當我們開始看到“規模化”開始真正起效時,我們就逐漸把更多資源轉向語言模型這條研究分支。距離AGI還有5-10年主持人:你對人工通用智能(AGI)從不迴避,有些人說“我們不知道”,或者甚至說“已經有了”,但你會明確說:“我們還沒到,但已經很近”。到底有多近?Demis:我們現在肯定還沒到。但我確實認為很接近了。如果讓我給個時間窗口,我的判斷是5 到 10 年。不過我對 AGI 的標準很高:我們定義的 AGI 是一個擁有所有人類認知能力的系統,包括創新與創造力。雖然今天的 LLM 在某些方面已經驚人地強大,像博士水準甚至金牌等級,但也仍然存在明顯缺陷,能力不平衡(所謂“鋸齒型智能”)。而且還缺少持續學習、線上學習、長期規劃、深層推理這些關鍵能力。我認為未來它們能做到,但可能還需要“一兩次真正的大突破”。主持人:那我們能僅靠 LLM 的規模化與改進實現 AGI 嗎?還是還需要別的方法?Demis:這是一個實驗問題,但我的最佳判斷是:規模化必須做到極限,它至少會成為 AGI 的一個關鍵組成部分,有可能甚至就是全部。不過我個人認為,很可能在事後回看時,我們會發現除了規模化之外,還需要再來一兩次類似“Transformer 或 AlphaZero 那種等級的突破”。AI 產業是否正在形成泡沫主持人:回到行業層面。投入這麼大,會不會形成足以衝擊經濟的大泡沫?Demis:我認為不是非黑即白。行業某些部分確實可能已經泡沫化,比如某些荒唐的天價種子輪融資,這可能不可持續。但另一方面,我比任何人都相信 AI 會成為最具變革性的技術,所以長期看,這些投入最終都會被證明合理。作為 Google DeepMind 的負責人,我的工作就是:無論泡沫破不破,我們都要處於最佳位置。主持人:AI 人才大戰正在瘋狂升級,最終會走向什麼?Demis:確實現在有點誇張,比如 Meta 的一些舉動。但對我們來說,我們要的是“使命驅動的人”。我們擁有最好的使命、最完整的技術堆疊,如果你想做影響世界最大的工作,沒有比 Google DeepMind 更好的地方。而且頂尖科學家與工程師都會想在最靠前的系統上工作,這會形成一個正循環。AI 會不會發展出“自我利益”主持人:很多人擔心 AI 會不會發展出自己的“利益傾向”。你覺得可能嗎?Demis:這是一個嚴肅的問題。如果未來高度自主的系統真的出現了某種“自我利益”,而這種利益又與設計者、甚至與人類整體意願衝突,那確實可能導致風險。這是所有“智能體AI”必須謹慎考慮的問題。人類可能通過腦機介面來跟上AGI主持人:你還是個玩家。遊戲教給了我們什麼?對 AI 的未來有什麼啟示?Demis:我的棋類背景與遊戲經驗對我的科研與管理影響很大。最好的遊戲(比如象棋、圍棋、撲克)都是現實某些面向的縮影,但區別在於現實中你往往只有寥寥幾次關鍵決策機會,而在遊戲中你可以不斷練習、不斷提升決策能力。如果你認真對待遊戲,把每次決策都當成真實的判斷,它確實能訓練你的思維方式與規劃能力。主持人:你說過,我們的大腦其實是為了做“採獵者”而進化的。但現在我們面對的變革規模是工業革命的十倍、速度是十倍。人類跟得上嗎?包括你自己?Demis:我提“採獵者大腦”的重點其實恰恰是:人類極其適應性強。我們從遠古自然走到現代城市文明,用的還是同一顆大腦。這說明我們本身就是通用智能的最佳例子,我們可以適應各種環境。未來當 AGI 出現後,我們可能會發明新的技術(比如腦機介面),有些人可能會選擇將它們作為自身能力的擴展,那也可能是我們保持同步的一種方式。AI 將如何改變未來的世界盃主持人:你是終身利物浦球迷,也給他們做過分析。AI 將如何影響未來在北美舉辦的世界盃?Demis:已經有很多球隊來找我們,希望獲得幫助。當然我必須儘量保持中立。但從本質上講,體育有巨大且細緻的資料,而且追求極致的表現,是 AI 介入並產生巨大價值的天然場景。 (51CTO技術堆疊)
下一個Transformer可能又被Google做出來了
如果把現在的頂尖大模型比作一個人,那它一定患有一種罕見的神經系統疾病:順行性遺忘症(Anterograde Amnesia)。這是 Google Research 研究員、最近最受關注的一篇論文《Nested Learning: The Illusion of Deep Learning Architectures》第一作者 Ali Behrouz 拋出的一個讓所有人陷入沉思的比喻。看過諾蘭的電影《記憶碎片》(Memento)的人更能理解這種絕望。這種病症的患者擁有完好的“過往記憶”(Retrograde Memory),他們記得發病前的一切,我是誰,我來自那裡,我有什麼技能。但對於發病後發生的所有事情,他們永遠無法形成“新的長期記憶”。他們只能活在短暫的“當下”,幾分鐘後,一切就會被重設。這就是現在 AI 模型的真實寫照。無論Gemini或是ChatGPT多麼博學,如果不聯網搜尋,它們都只能依靠預訓練階段獲得的出廠知識(也就是“發病前”的記憶)來回答問題。而在對話窗口裡,無論你教給它多少新公司的業務邏輯,或者糾正了它多少次程式碼錯誤,這些資訊都只停留在短暫的上下文窗口裡。一旦窗口關閉,或者視訊記憶體被重設,它就像金魚一樣,把剛才發生的一切忘得乾乾淨淨 。下一次見面,它依然是那個出廠時的它,絲毫沒有因為與你的互動而變得更聰明一點。為什麼擁有超級算力的 AI,卻治不好這個健忘症?長期以來,行業有一種二元對立的看法,認為 AI 的“架構”(Architecture)和“最佳化器”(Optimizer)是兩個截然不同的物種。架構是骨架(如 Transformer),它是靜態的,出廠即凍結,負責“推理”。“最佳化器”是雕刻刀(如 Adam、SGD),它是動態的,只在工廠裡用來訓練模型,出廠後就被沒收了。我們習慣了把 AI 當作一個靜態產品,訓練好了,打包發佈,使用者只管用。但在 Google 最新發佈的 52 頁硬核論文《Nested Learning: The Illusion of Deep Learning Architectures》(巢狀學習:深度學習架構的幻覺)中,研究團隊試圖告訴我們,這其實是一種幻覺,是我們人為製造的自我設限。如果架構和最佳化器本質上是同一個東西呢?如果並沒有所謂的“訓練階段”和“推理階段”之分,一切都只是不同頻率的“記憶壓縮”過程呢?基於這個大膽的假設,Google 團隊提出了一個名為 HOPE 的新框架。他們並沒有簡單地堆砌參數,而是試圖從底層邏輯上重構 AI 的“大腦結構”,讓它不再是一個出廠即固化的工具,而是在每一次互動中都能微調自己、擁有“快慢記憶系統”的動態生命體。而這篇論文也被不少人稱為“Attention Is All You Need V2”,這篇論文提出的Transformer 架構成就了今天大模型的火熱,而HOPE讓人們期待它成為下一個Transformer 等級的創新。Ali Behrouz 在 NeurIPS 2025 現場講解Nested Learning。拆解“幻覺”:被遺忘的中間地帶要治好“健忘症”,我們首先得看看現在的 AI 大腦裡到底裝了什麼。在 Ali Behrouz 的解構下,目前的 Transformer 架構呈現出一種極端的“精神分裂”狀態。如果不使用複雜的數學術語,我們可以把它的內部元件看作兩個極端:一個是“極快”的 Attention(注意力機制)。它時刻處於亢奮狀態,對你輸入的每一個字(Token)都進行瞬時的計算和響應。它的更新頻率幾乎是無限的,這讓模型擁有了所謂的上下文學習能力(In-Context Learning),你剛說的話,它馬上就能用。另一個是“極慢”的 MLP(前饋神經網路)。它是模型的長期記憶庫,承載了絕大多數參數。但它的更新頻率是 0。這部分像一塊凍結的硬碟,除非你耗費巨資進行全量微調(Fine-tuning),否則它永遠不會改變。在這兩者之間,存在著一個巨大的真空地帶。這就是“幻覺”的根源。人類的大腦並不是這樣工作的。我們的記憶是一個連續的頻譜,我們有幾秒鐘的感官記憶,有幾小時的工作記憶,也有幾天甚至幾年的長期記憶。我們的腦突觸並不是非黑即白,而是以各種不同的頻率在不斷微調。為了填補這個真空,Google 團隊提出了 Nested Learning(巢狀學習) 的概念。我們可以把它想像成一套精密咬合的齒輪系統”:最外層的小齒輪轉得飛快(處理當前的對話);中間層的齒輪轉得稍慢(記住過去幾小時或幾天的任務);最裡層的大齒輪轉得極慢(沉澱世界觀和基礎知識)。為了證明這種統一性在生物學上的合理性,他甚至在論文中引用了一個非常硬核的神經科學案例,半球切除術(Hemispherectomy) 。醫學發現,即使切掉人類的一半大腦,通常是為了治療嚴重癲癇,剩下的一半腦組織也能通過重組資源,接管幾乎所有功能,人依然能正常生活。這說明大腦並沒有什麼“專門負責 Attention 的模組”或“專門負責 MLP 的模組”,神經組織是通用的、可復用的。同樣的道理,AI 的“架構”和“最佳化器”本質上也是同一種東西,只是處於不同的巢狀層級:傳統的模型記憶的是“資料”(Token);最佳化器(如 Adam)記憶的是“梯度”(Gradient)。即“我上次在這個地方犯了錯,下次要修正” 。既然都是在“記憶資訊”並“更新狀態”,為什麼我們要把它們人為地割裂開來?也許我們不需要在這個二元對立的框架裡修修補補,可以直接設計一個全頻率覆蓋的動態系統。HOPE 的三層設計基於 Nested Learning 的理論,Google 團隊交出了一份具體的工程答卷,還起了一個充滿寓意的名字:HOPE (High-order OPtimization and Expressivity)。如果說傳統的 Transformer 是一個只有短期記憶的“單核處理器”,那麼 HOPE 更像是一個符合神經科學原理的“雙重記憶大腦”。它通過兩個元件,復刻了類似生物大腦中海馬體(Hippocampus)與大腦皮層(Cortex)的協作機制 。1. 快系統:像海馬體一樣敏銳的 Titans在 HOPE 的最前端,是處理即時資訊的“快系統”。這裡 Google 使用了論文一作 Ali Behrouz 之前的另一項成名作Titans。你可以把 Titans 理解為一種“超級 RNN”。它就像人類靈活的海馬體,負責快速捕捉和編碼當下的新知。傳統的 AI 模型在處理新資訊時是被動的,但 HOPE 裡的 Titans 模組具有極強的“主觀能動性”,它是 Self-Modifying(自我修改) 的。它不僅是在讀取資料,更是在根據當前的上下文,即時生成自己這一步學習所需要的 Key、Value,甚至自己決定這一次記憶的 Learning Rate(學習率) 。這意味著,它能敏銳地判斷眼前資訊的重要性,快速形成短期記憶。2. 慢系統:像皮層一樣厚重的 CMS這是整個架構中最具顛覆性的設計。HOPE 引入了 Continuum Memory System (連續記憶系統,CMS)。CMS 就像是厚重的大腦皮層,負責將經過篩選的知識長久地刻印在神經元中。Google 將人腦電波的頻率機制引入了 AI 架構設計,建構了不同更新頻率的層級在 CMS 中,模型內部的 MLP(前饋網路)不再是鐵板一塊,而是被切分成了不同的層級,就像不同轉速的齒輪:高頻層: 可能每處理幾百個字就更新一次,用於捕捉剛才對話裡的新定義。中頻層: 可能每處理幾萬字更新一次,用於適應一個新的項目背景。低頻層: 幾乎不更新,用於穩固語言的語法和常識 。左側的 HOPE 架構擁有豐富的中間層級這種設計避免了災難性遺忘。當新知識湧入時,它會被優先儲存在高頻層,而不會去驚擾低頻層裡的舊知識。隨著時間的推移,真正重要的資訊才會像沙漏裡的沙子一樣,慢慢沉澱到深層。3. 最佳化器也有了“記憶”Google 的激進之處在於,他們不僅改造了大腦(架構),還改造了老師(最佳化器)。為了配合這就這套複雜的系統,他們設計了一個名為 M3 (Multi-scale Momentum Muon) 的新最佳化器。既然模型分了層,最佳化器為什麼不能分層?普通的 Adam 最佳化器只看眼前的梯度(Local Structure),容易陷入短視。而 M3 最佳化器本身也被設計成了巢狀結構,它有一層“快動量”負責看腳下的路,還有一層“慢動量”負責看遠處的山脈(全域 Loss Landscape)。這意味著,連負責訓練的演算法本身,都擁有了更深遠的記憶力。M3 最佳化器在 ImageNet 訓練任務中,展現出了更快的收斂速度和更低的 Loss實驗資料顯示,這種設計在 ImageNet 和大語言模型訓練上,不僅收斂更快,而且最終效果更好。4. 給工程師的“後悔藥”對於工業界的開發者來說,HOPE 最迷人的地方可能不是從頭訓練一個新模型,而是它提供了一種“原地改造”的可能性。Ali Behrouz 在分享中提到了一個名為 Ad-hoc Level Stacking 的技巧,你不需要拋棄手裡現有的 Llama 或 Qwen 模型。你可以直接拿來一個預訓練好的模型,人為地將它的不同層指定為不同的“更新頻率”,把淺層設為高頻,深層設為低頻 。這就像是給一輛已經出廠的舊車,通過刷新韌體就解鎖了自動駕駛功能。這一特性,讓 Nested Learning 成為了一個工程方案。從“靜態產品”到“動態生命”我們把視角從程式碼行中抽離出來,會發現 Nested Learning 真正的野心,不在於刷榜,而在於試圖完成一次 AI 領域的範式轉移。在 NeurIPS 的分享最後,作者提出了一個發人深省的觀點,“深度(Depth)也許不再是唯一的答案。”過去十年,我們一直在堆疊物理層數,把神經網路做得越來越深。這種暴力美學確實帶來了湧現能力,但它也製造了一個巨大的“幻覺”,誤以為智能來源於靜態的深度。而忽略了真正的深度可能來自於巢狀的最佳化。更進一步,論文中提出了一個極其激進的定義:“預訓練本身,其實就是一種超長上下文的 In-Context Learning。”這句話消解了 AI 領域最大的邊界。在 Nested Learning 的願景裡,沒有所謂的“訓練結束”這一天。模型在與使用者互動的每一秒,都在以某種微小的頻率更新自己的突觸。它不再是一個冰冷的、出廠即固化機器,而是一個在資料流中不斷呼吸、代謝、進化的有機體。這或許才是通往 AGI更本質的道路,智能不是被灌輸的,而是在互動中生長的。當然,任何試圖顛覆範式的理論,註定會伴隨著巨大的爭議。這圍繞這篇論文討論區裡,聲音很多樣。樂觀者將其視為 "Attention Is All You Need V2"。社區對於自我修改這一概念尤為著迷。長期以來,我們一直詬病 LLM 只是“統計學的鸚鵡”,而 HOPE 讓 AI 第一次擁有了某種“元認知”能力,即學習如何學習。這種從被動擬合到主動適應的跨越,被認為是 AI 產生質變的關鍵。實用主義者則看到瞭解決災難性遺忘的曙光。如果這一架構能落地,未來的企業級 AI 將不再需要為了更新一點點業務知識而耗資百萬進行全量重訓,AI 可以在業務流中自然地學會新規章,同時不忘記舊制度。這是對降本增效是最直接的。質疑者也大有人在。比如有評論指出,論文中將 SGD(梯度下降)強行解釋為“聯想記憶”的數學證明雖然精彩,但更多依賴直覺,缺乏嚴謹的收斂性保障。更有工程師擔心,這種複雜的“巢狀最佳化”會讓調參難度呈指數級上升,畢竟,調一個 Adam 已經夠頭疼了,現在我們要同時調好幾個不同頻率的“大腦”。但無論如何,Google 這一次沒有在參數量上卷,而是在“學習的本質”上開了一槍。它用一種近乎哲學的方式提醒我們,對於一個真正的智能體來說,存在就是壓縮,活著就是學習。 (矽星人Pro)
Transformer作者爆料GPT-5.1內幕!OpenAI內部命名規則變亂了
我們正在經歷一次靜悄悄、但本質性的AI範式轉換。它的意義不亞於Transformer本身。過去一年裡,關於AI發展,出現了兩種觀點的分化:一邊是“AI增長放緩、模型到頂、預訓練無用論”另一邊則是隔三差五就來一次“AI大周”:GPT-5.1、Gemini 3、Grok 4.1。而Transformer作者之一、現任OpenAI研究科學家的Łukasz Kaiser最近接受採訪,給出了第一視角的解答。資訊量極大,包括AI的底層範式轉變、GPT-5.1的命名規則、未來AI的發展趨勢……以及Transformer誕生背後的二三事。AI不是變慢了,而是換代了。GPT-5.1不是簡單的小版本迭代,OpenAI內部版本命名規則有所變化。多模態推理將會成為下一個突破點。AI不會讓人類完全失去工作。家用機器人是繼ChatGPT後最可見的AI革命。下面一起來康康詳細內容:AI發展沒有放緩,而是平穩增長過去一年裡,有關“模型進展變緩”的聲音層出不窮,但Łukasz認為這種看法是錯誤的。他給出的解釋也很直白:從內部視角看,AI的能力增長是一條非常平滑的指數曲線。這類似於摩爾定律,幾十年來摩爾定律始終有效,甚至在GPU的推動下還在加速,歸根結底也是因為它歷經了數代技術的迭代。因此,AI從外部看,趨勢是平穩的;而從內部看,其進步也離不開新技術、電腦能力的提升和工程最佳化的共同作用。至於為什麼會有人覺得“變慢了”,原因無它:AI的底層範式,已經悄悄從預訓練轉向推理模型。這也是繼Transformer誕生後的又一次關鍵轉折。如果把技術發展的過程描述為一條S型曲線(起步→快速增長→平穩期),那麼預訓練就處於S曲線的上升後期,而推理模型仍處於初期。不過這並不意味著預訓練的Scaling Laws就失效了,它仍在發揮作用,只是和新的推理範式相比,需要投入更多的資金。所以出於經濟上的考量,業內人士開始普遍將工作重心轉向更小也更便宜,但質量相同的模型,所以這也是導致外界認為預訓練已經停止的原因之一。那麼回到推理模型上,由於該範式還處於新興階段,進步速度會相當之快。以ChatGPT為例,GPT-3.5會直接基於訓練資料記憶給出答案,而不會借助任何外部工具和推理,反觀現在最新的ChatGPT會主動瀏覽網站、進行推理分析,再給出精準答案。對於普通使用者來說,如果不仔細對比,可能會覺得二者差異不大,但實際上這背後是性能質的飛躍。又比如說Codex,程式設計師的工作方式已經在近幾個月裡轉變為“Codex先處理,然後人工微調”的模式,這種變化其實相當之徹底,但如果不是專業從事程式設計工作,自然不會留意到這種根本性變革。所以總的來說,這一切的變化都發生得太快,以至於讓人們還未曾察覺到其中的變化。而推理模型的本質其實也與基礎大模型類似,只是在給出最終答案前,會優先進行思考,也就是所謂的思維鏈。在思考過程中,模型被允許使用工具,例如瀏覽網頁,以給出更準確的答案。其推理過程也會被視為模型的一部分並接受訓練。相比於傳統的深度神經網路梯度下降訓練,推理模型則更多使用的是強化學習。具體來說,強化學習會通過獎勵機制推動模型獲取更好的答案,也需要研究人員提供更細緻的資料準備,以完成強化學習的參數調整。然後通過強化學習,模型就能學會對自身錯誤的糾正。後續行業也會繼續轉向更複雜的強化學習,例如借助一個大模型來判斷答案的正確性或偏好度,或者融入更多的人類偏好。總之,未來強化學習的應用範圍會更加廣泛,不僅僅適用於特定領域,還能處理更多通用資料,比如說多模態推理,雖然最近Gemini已經能夠在推理過程中生成圖像,但整體來說還處於剛剛起步的階段,相信在強化學習的幫助下會有進一步的提升。GPT-5.1絕非表面上的小版本更新關於最近發佈的GPT-5.1,Łukasz也釋出了更多細節。GPT-5.1看起來只是小版本更迭,實際從內部來講,是一個巨大的穩定性迭代。首先回到最初的GPT-4到GPT-5,簡單來說,得益於強化學習和合成資料的應用,GPT-5的推理能力明顯提升了。而到GPT-5.1的改進,則更多集中在後訓練階段,比如增加安全性、減少幻覺,以及加入了如書呆子、專業等多種風格選擇。版本的命名方式也不再與技術細節掛鉤,轉而以使用者體驗為導向,比如GPT-5是基礎能力較強的模型,GPT-5.1是能力更優的版本,Mini是更小、更快、更廉價但性能稍弱的模型,推理模型則專注於複雜任務。這種命名方式的轉變也為OpenAI內部帶來了更多靈活性,現在強化學習、預訓練、幻燈片最佳化等多個項目平行工作,然後通過蒸餾技術就能將多項目成果整合到一個模型中。這大大縮短了模型迭代時間,可以更好地滿足使用者體驗需求,所以GPT-5.1看似是小版本更新,實則背後是OpenAI基於使用者對其能力和目標預期做出的策略調整。不過坦白地講,GPT-5.1在部分能力上仍然存在短板。比如Łukasz用自己5歲的女兒舉了個例子——GPT-5.1能夠遊刃有餘地解決奧林匹克競賽題,但在面對小學一年級的數奇偶數題目上卻錯誤百出。該題目內容是,圖中有兩組點,中間有一個共享點,問總點數是奇數還是偶數。5歲的孩子能夠在10秒內就算出答案(因為共享點的存在導致總點數為奇數),但無論GPT-5.1還是Gemini 3都會自動忽略這個共享點,誤判為偶數。這主要還是因為模型缺乏足夠的多模態能力,也未能將一個問題的推理經驗遷移到相似場景中,所以後續他們將會在訓練中進一步強化多模態推理和上下文推理遷移能力。從GoogleTransformer走向OpenAI而作為Transformer的作者之一,Łukasz也在訪談中補充了很多誕生細節。Łukasz自己原先是一名專注於理論電腦科學的學者,高中時就對數學和電腦充滿興趣,並在德國獲得了理論電腦科學與數學博士學位。他一直對“思維是如何運作的”、“智能的本質是什麼”諸如此類的問題充滿好奇,也曾在法國獲得終身教職,從事邏輯和程式設計研究。直到深度學習興起,他加入了Google。先是成為了Ray Kurzweil團隊的一員,後轉至Google Brain,開始與Ilya Sutskever等人合作。在開發Transformer的過程中,Łukasz主要負責編碼和系統工作,參與TensorFlow框架的開發。不過有趣的是,據他回憶,Transformer論文的八位共同作者從未在同一個物理房間中共同出現過。而雖然他們彼此之間素未謀面,但他們通過不同角度共同建構了這個模型:有人專注於注意力機制本身,有人研究如何通過前饋網路儲存知識,還有人複雜解決工程實現問題,比如他自己。從現在的角度看,Transformer毫無疑問是當今AI架構的里程碑,但在當時,很多人對用同一個模型處理多個任務的想法並不理解,他們普遍認為不同任務就應該分別訓練不同的專有模型。而他們八個人堅信自己的選擇,後來的事實也證實了他們的想法是正確的。關於之所以離開Google,轉投OpenAI,其中一個原因還是因為llya。llya在Google時期就是Łukasz的直系領導,在創辦OpenAI後也屢次邀請他加入。剛好這時,Łukasz也無法適應Google Brain的團隊規模擴大以及遠端工作氛圍,於是一拍即合,來到了OpenAI。OpenAI也沒有讓他失望,這裡沒有嚴格的組織架構,都是根據項目自發組隊,也會根據項目進展靈活調整,直到項目成熟才會逐步擴大團隊。當然不同項目之間也會存在資源競爭,畢竟OpenAI內部GPU資源有限。從技術層面看,預訓練目前消耗的GPU資源最多,其次是強化學習和視訊模型,資源分配在很大程度上還是由技術需求決定。所以競爭不可避免,Łukasz本人也不例外。下一次突破來自多模態推理+具身智能最後,Łukasz聊了聊他眼中的AI未來。AI會改變工作,但不會讓工作消失。因為從產品層面上看,即使AI自動化了絕大部分任務,但人類專家的需求仍然存在。以翻譯行業為例,其實Transformer論文最初的應用場景就是翻譯,現在的模型也能精準翻譯西班牙語、法語等語言,但對於報紙廣告乃至ChatGPT UI介面,仍然需要人類譯者進行二次稽核。這本質上是信任問題,即使模型能力再強,對於一些高風險、高關注度的場景,還是會傾向於依賴人類專家經驗。只是說,對於另外一些基礎工作,可替代性會變高,後續也會出現相應的工作內容變化,但歸根結底不會讓人類無事可做。Łukasz還預計,家用機器人可能會成為“下一次更為直觀的AI革命”。機器人技術的進展,取決於多模態能力和通用強化學習、通用推理的進步。一旦這些領域取得突破,機器人技術必將迎來爆發式增長。目前已經有很多矽谷公司在相繼推出智能手遙操作等硬體產品,硬體基礎也將迅速成熟,屆時將協同多模態和物理世界推理能力,實現家用機器人的能力躍遷。這將會比ChatGPT更直觀、更易感知。 (量子位)
李飛飛最新萬字訪談:未來五年,Transformer 可能被淘汰
11月24日,史丹佛大學教授、World Labs創始人李飛飛參加播客訪談,詳細闡述了她對空間智能(Spatial Intelligence)的構想,並討論她與楊立昆在世界模型(World Models)上的不同觀點流派問題。在世界模型的建構上,李飛飛與前Meta首席科學家楊立昆(Yann LeCun)的理念常被外界視為兩種流派。楊立昆傾向於讓模型學習世界的抽象“隱式表徵”,而不必還原每一幀像素;而李飛飛的Marble則力求從抽象的內部表徵中產生顯式表徵,明確輸出可視化的3D世界。李飛飛並不認為兩者是對立關係,她表示如果最終要建構一個通用的世界模型,隱式表徵和顯式表徵最終都是必要的。World Labs採用的是“刻意為之”的顯式輸出,因為其商業目標服務於遊戲開發、視覺特效和建築設計等領域的人類創作者,他們的日常工作需要一個可視化的、可互動的3D輸出結果。但在模型內部,RTFM同樣包含隱式表徵。她認為,未來的架構將是兩者的混合體。作為World Labs的創始人,李飛飛在訪談中透露了公司的首個產品Marble,以及其背後的技術底座“即時幀模型”(RTFM)。與單純生成視訊的模型不同,Marble致力於生成具有一致性和持久性的3D空間,其模型不僅是多模態的,支援文字、圖像、視訊甚至粗略的3D佈局作為輸入,更重要的是它試圖在推理過程中保持物體一致性。她說,目前的LLM主要通過海量的文字資料學習,雖然語言模型令人驚嘆,但人類大量的知識是無法僅通過語言捕捉的。為了建構真正的通用人工智慧,AI必須走出文字的限制,通過視覺和行動去體驗物理世界。人類的學習過程本質上是具身(Embodied)的,我們在沒有語言的情況下與世界大量互動,感知光線、觸覺、重力和空間關係。當被問及目前的AI是否真正“理解”物理世界時,李飛飛認為,目前大多數生成式視訊中展現的水流或樹木擺動,並非基於牛頓力學計算,而是基於海量資料的統計學湧現。雖然AI可能通過資料擬合出運動定律,但要達到愛因斯坦提出相對論那種層面的抽象,目前的Transformer架構尚未展現出足夠的證據。對於技術的演進速度,李飛飛認為在五年內,我們有望看到AI在理解物理世界方面取得重大進展。她描繪了一個基於“多重宇宙”(Multiverse)的未來圖景:通過大幅降低3D內容生成的門檻,人類可以低成本地創造出無數個平行世界,這些數字平行世界將成為人類物理體驗的無限延伸,重塑娛樂、教育、遠端協作以及科學探索等多個領域場景。李飛飛訪談內容劃重點:1. 空間智能是核心僅靠語言不足以建構通用人工智慧(AGI)。人類大量智能(如空間推理、急救反應)是非語言的。AI必須獲得“空間智能”(Spatial Intelligence),要像生物一樣,擁有深度感知的空間能力,建立起看、做和想像之間的完整閉環。2.世界模型的新範式World Labs 的核心產品 Marble 與普通視訊生成模型的最大區別在於“物體恆常性”(Object Permanence)。在 Marble 生成的世界裡,當你轉身再轉回來,背後的物體依然存在且保持原狀,而不是像夢境一樣隨機變形。李飛飛團隊提出了“即時幀模型”(RTFM),其目標是在單張 H100 GPU 的算力約束下,實現高效的 3D 空間推理。這是為了建構一個在幾何上一致、在時間上持久的“數字容器”,為未來能夠理解物理法則的 AI 打下地基。3. 與楊立昆和而不同楊立昆主張世界模型要做抽象理解的“隱式表徵”,李飛飛的Marble則力求從抽象的內部表徵中產生顯式表徵。李飛飛認為隱式表徵和顯式表徵最終必須融合,但目前 World Labs 刻意選擇輸出顯式 3D 表徵,目的是賦能人類。未來的AI 不應只是一個黑盒,而應成為遊戲開發者、建築師和藝術家的“神經空間引擎”(Neural Spatial Engine)。它融合了傳統物理引擎(如Unreal)的確定性規則和生成式 AI 的統計創造力,讓普通人也能瞬間建構複雜的 3D 互動世界。4. 視覺領域的“Next Token”難題語言模型有完美的“預測下一個Token”作為目標函數。但在視覺領域,“預測下一幀”雖然強大但並不完美,因為它將三維世界壓縮為二維,丟失了結構資訊。尋找視覺領域的“通用任務函數”仍是未解之謎。5. AI目前還不懂物理AI生成的物理現象(如重力、碰撞)多源於統計規律的模仿,而非對物理定律的因果理解。現有的Transformer架構可能難以產生如“相對論”般的高級抽象,未來五年,行業需要尋找一種新的架構突破,讓 AI 從統計相關性跨越到真正的因果邏輯和物理推理。以下為李飛飛訪談實錄:主持人:歡迎收聽本期播客。在這一集中,我很榮幸再次與人工智慧先驅李飛飛博士對話。幾年前我曾在播客上邀請過飛飛,我也推薦大家去聽那一期節目。在今天的對話中,我們將探討她關於“世界模型”(World Models)的見解以及“空間智能”(Spatial Intelligence)的重要性——這些都是打造真正理解現實世界並能與之互動的 AI 的關鍵要素。雖然大型語言模型(LLMs)已經非常驚人,但大量(甚至大部分)人類知識並未被文字所捕捉。為了實現更廣義的人工智慧,模型需要親身體驗世界,或者至少通過視訊來學習。我們還討論了她的創業公司 World Labs 以及他們的第一個產品 Marble。Marble 可以從模型的內部表徵生成令人難以置信的複雜 3D 空間。1. 從電腦視覺到空間智能的演進主持人:我想先把話題從Marble 和你們那個能生成一致且持久的、供觀眾漫遊的 3D 世界的新模型上移開,多談談你為什麼把重點放在世界模型和空間智能上。為什麼這是超越單純語言學習的必要條件?另外,你的方法與楊立昆的方法有何不同?你現在的世界模型工作,究竟是你過去在環境智能(Ambient Intelligence)工作的延伸,還是平行的另一條路線?李飛飛:過去幾年我一直思考的空間智能工作,實際上是我整個電腦視覺職業生涯重點的延續。我之所以強調“空間智能”,是因為我們的技術已經發展到了這樣一個階段:其複雜程度和深層能力已經不再停留在僅僅“盯著”一張圖像的層面,甚至不僅僅是簡單的視訊理解。現在的核心是深度感知的空間,這與機器人學、具身智能(Embodied AI)以及環境智能都緊密相連。從這個角度看,這確實是我在電腦視覺與 AI 領域職業生涯的自然延伸。主持人:正如你和其他許多人所指出的,語言模型是從以文字編碼的人類知識中學習的,但那只是人類知識的一個非常有限的子集。人類的學習是通過在沒有語言的情況下與世界大量互動獲得的。因此,如果我們要超越當前這些雖然了不起但仍有侷限的大型語言模型,開發出能對世界有更直接體驗、能更直接從世界中學習的模型就顯得尤為重要。談到具體方法,以Marble 為例,你的做法是將模型學到的世界內部表徵提取出來,並建立一個與之對應的外在視覺現實。而楊立昆的方法主要是建立內部表徵,讓模型能夠學習運動物理定律之類的東西。這之間有平行關係嗎?這兩種方法是互補的,還是有重疊?李飛飛:首先,我不會把自己和楊立昆對立起來。我認為我們在智力上處於同一個連續體中,只是對空間智能和世界建模採取了不同的切入點。如果你讀過我最近發表的那篇關於“空間智能”的長文(我稱之為宣言),我在這一點上說得很清楚。我認為,如果最終要建構一個通用的、全能的世界模型,隱式表徵(Implicit Representation)和某種程度的顯式表徵(Explicit Representation)最終可能都是必要的,尤其是在輸出層。例如,World Labs 目前的世界模型 Marble 確實會顯式地輸出 3D 表徵,但在模型內部,它同時也包含隱式表徵。老實說,我認為這兩者最終都是不可或缺的。在輸入模態方面也是如此。是的,從視訊中學習非常重要,畢竟整個世界可以看作是大量連續幀的輸入。但真正的智能,無論是對於動物還是機器,不僅僅是被動觀看。它還涉及到動作、互動的具身體驗,以及觸覺、聲音、氣味、物理力(Physical Forces)、溫度等。因此,我認為這在本質上是深度多模態的(Deeply Multimodal)。Marble 作為一個模型只是第一步。在我們幾天前發佈的那篇技術報告中,我們要表達得相當明確:多模態既是一種學習範式,也是一種輸入範式。目前學術界對此有很多討論,這也展示了該領域正處於早期且令人興奮的階段。可以說,我們在確切的模型架構和表徵方式上的探索還遠未結束。2. 超越文字:多模態輸入與學習範式主持人:在你那個世界模型中,輸入主要是視訊嗎?李飛飛:如果你體驗過Marble,你會發現我們的世界模型輸入是相當多模態的。你可以只使用純文字,也可以使用一張或多張圖像,可以處理視訊,甚至可以輸入粗略的 3D 佈局(比如盒子或體素)。它是多模態的,而且我認為隨著我們的推進,這方面的能力會進一步加深。文字只是一種形式。是的,但這正是我們產生分歧的地方。大多數動物並不是通過複雜的語言來學習的,但人類是。不過,我們今天的AI 世界模型(World Models)將從大量的語言輸入以及其他模態中學習,它並非僅僅通過語言來進行資訊的壓縮和傳遞。主持人:這也是大型語言模型(LLMs)的一個限制,即模型在訓練後參數就固定了。所以它們不會持續學習,儘管在測試時的推理階段會有一定程度的學習。這是你在建構世界模型時試圖解決的問題嗎?因為我們可以推測,世界模型在遇到新環境時應當是不斷學習的。李飛飛:是的,持續學習(Continuous Learning)範式確實非常重要。對於生物來說就是如此,這也是我們人類學習的方式。即使在生物學習中,也存在線上學習與離線學習的區別。在我們目前的世界模型形式中,仍然更多地處於批次或離線學習模式。但我們絕對持開放態度,尤其是未來涉及到線上學習和多模態融合時。主持人:那會是怎樣的?會是一個完全不同的架構,還是僅僅是工程實現的問題?李飛飛:我會保持開放的心態。我認為會是兩者的混合。顯然這需要優秀的工程實現,比如微調(Fine-tuning)和線上學習,但也可能會出現新的架構。主持人:你能談談即時幀模型(Real-Time Frame Model)嗎?以及你們在世界模型方面的工作?李飛飛:你指的是我們幾周前發佈的一篇技術部落格,那是專門深入探討我們的即時幀模型的。World Labs 是一個以研究為主的組織,雖然我們也關心產品,但現階段大量工作是以模型為先的。我們正著重研究如何推進空間智能(Spatial Intelligence)。這項特定的工作實際上是專注於如何實現基於幀的生成,並儘可能保持幾何一致性和持久性。在早期的基於幀的生成操作中,當你向前移動視角時,往往會失去那種物體持久性。在這個特定案例中,我們努力實現平衡,並在推理期間以計算高效的方式完成這一點,即在推理時僅使用單個H100 GPU。我們不太清楚其他基於幀的模型的情況,因為他們沒透露推理時使用了多少晶片,但我們假設那是相當大的算力消耗。3. 尋找空間智能的“通用任務函數”主持人:在你的那篇“宣言”裡,你談到了需要一個“通用任務函數”(General Task Function)。這類似於語言模型中的“下一個 Token 預測”(Next Token Prediction)。它是否帶有預測元素?李飛飛:生成式AI 最重大的突破之一,確實是發現了“下一個 Token 預測”這個目標函數。這是一個非常優美的表述,因為語言是以序列化方式存在的,你可以將語言 Token 化為這種序列表示。你用於下一個 Token 預測的學習函數,正是推理時所需要的。無論是人類還是電腦生成語言,實際上都是一個接一個地把標記向前推進。擁有一個與最終實際執行任務完全(100%)對齊的目標函數是極好的,因為它使最佳化可以完全針對目標進行。但在電腦視覺或世界建模中,情況沒那麼簡單。語言本質上是人類生成的,自然界中並不存在你盯著看的“語言”,那怕你最終學會了閱讀,那也是因為它已經被生成了。但我們與世界的關係要更加多模態:世界就在那裡等著你去觀察、解讀、推理並與之互動。人類還有一種“心眼(Mind's Eye)”,能夠建構不同版本的現實、想像並生成故事。這要複雜得多。主持人:那麼,定義這個通用任務的是什麼?或者說,我們可以使用的通用目標函數是什麼?有什麼能像“下一個 Token 預測”一樣強大嗎?是 3D 重建嗎?李飛飛:這是一個非常深刻的問題。有些人實際上會爭辯說,世界建模的通用任務可能就是對世界進行3D 重建。如果這是目標函數並且我們達成了它,很多事情就會水到渠成。但我並不這麼認為,因為大多數動物的大腦並不一定會進行精確的三維重建,然而老虎或人類在空間上卻是如此強大的視覺智能體。“下一幀預測”確實有一定力量。首先有大量用於訓練的資料;其次,為了預測下一幀,你必須學習世界的結構,因為世界不是白噪聲,幀與幀之間存在大量結構連接。但這也令人不滿意,因為你把世界當作二維的,這種壓縮方式非常糟糕。即使你做得完美,3D 結構也只是隱式的,這種基於幀的方式會丟失很多資訊。所以在這方面仍有很多探索空間。主持人:我得問你,你們把模型命名為RTFM(Real-Time Frame Model),這是個玩笑嗎?李飛飛:這確實是一次絕妙的“表演”。名字不是我起的,是我們的一位研究員,他在命名方面真的很有天賦。我們覺得用那個名字玩個梗很有趣。主持人:但是RTFM 是在預測下一幀,並且具有三維一致性,對吧?李飛飛:是的。主持人:這就是模型所學內部表示有趣的地方。比如我看著電腦螢幕,即使看不見背面,我也知道它長什麼樣,因為我腦海中有它的內部表徵。這就是為什麼你可以在螢幕這個二維平面上移動物體,卻能看到它的另一面。模型擁有三維物體的內部表徵,即使它當前的視角看不見物體的背面。當你說到空間智能時,這是否包括自然的物理法則?比如理解你不能穿過一個固體物體?或者如果站在懸崖邊,它知道那是邊緣,如果走過去會掉下去而不是浮在空中?李飛飛:你描述的既有物理層面也有語義層面。從懸崖掉下去很大程度上取決於重力定律,但穿牆而過則基於材質和語義(固體與非固體)。目前作為一個現有模型,RTFM 還沒有把重點放在顯式的物理學上。大部分的“物理”實際上是從統計中湧現的。許多生成式視訊模型展示的水流或樹木移動,並不是基於牛頓力學定律和質量計算出來的,而是基於對大量統計模式的遵循。World Labs 目前仍然專注於生成和探索靜態世界,但我們也將探索動態,其中很多將是統計學習。我不認為今天的AI 有能力在不同層次上進行抽象並推導物理規律。另一方面,我們有像 Unreal 這樣的空間物理引擎,其中有明確的物理定律在起作用。最終,這些遊戲引擎/物理引擎將與世界生成模型融合成我稱之為“神經空間引擎(Neural Spatial Engine)”的東西。我們正朝著那個方向前進,但現在還處於早期階段。4. 顯式表徵的價值:賦能創作者與產業主持人:我不是想讓你和楊立昆對立。但你似乎關注的是從抽象的內部表徵中產生顯式表徵,而楊立昆只是關注內部表徵。李飛飛:在我看來它們會完美結合。我們同時探索兩者。輸出顯式表徵其實是一種非常刻意的方法,因為我們希望這對人有用。我們希望這對那些在創作、模擬和設計的人有用。如果你看看當今的行業,無論你是在製作視覺特效(VFX)、開發遊戲、設計室內、還是為機器人或自動駕駛車輛進行模擬(數字孿生),這些行業的工作流程都非常依賴 3D。我們希望這些模型對個人和企業都絕對有用。主持人:這就回到了持續學習的話題。比如一個機器人上的模型,通過攝影機在世界中移動獲取資料,最終它不僅學習場景,還理解空間的物理性,然後與語言結合?這是否需要持續學習?李飛飛:絕對如此。尤其是當接近某個用例時,持續學習至關重要。這可以通過多種方式實現:在語言模型中,將上下文字身作為輸入就是一種持續學習(作為記憶);此外還有線上學習和微調。在空間智能領域,無論是個性化機器人還是具有特定風格的藝術家,最終都會推動這項技術在不同時間尺度上變得更具響應性,以滿足具體用例的需求。5. 未來展望:AI模型的技術跨越主持人:你現在的進展非常快,特別是想到你曾在紐澤西經營過乾洗店,雖然那是很短的一段時間,但這種跨越真是令人驚嘆。你對這項技術五年後的發展程度有什麼判斷嗎?比如模型內部是否會內建某種物理引擎,或者擁有更長時間尺度的學習能力,從而建立起更豐富的內部表徵?也就是說,模型是否會開始真正理解物理世界?李飛飛:實際上,作為一名科學家,很難給出一個精確的時間預測,因為有些技術的進展比我預期的快得多,而有些則慢得多。但我認為這是一個非常好的目標,而且五年確實是一個相當合理的估計。我不知道我們會不會更快實現,但在我看來,這比猜測五十年要靠譜得多,當然也比猜測五個月要靠譜。主持人:你能否稍微談談,為什麼你認為“空間智能”(Spatial Intelligence)是下一個前沿?正如我們所知,包含在文字中的人類知識只是全部人類知識的一個子集。雖然它非常豐富,但你不能指望一個 AI 模型僅通過文字就能理解世界。能具體談談為什麼這很重要嗎?以及 Marble 和 World Labs 是如何與這個更大的目標相關聯的?李飛飛:從根本上講,技術應該幫助人類。與此同時,理解智能科學本身是我能想到的最迷人、最大膽、最有雄心的科學探索,這是屬於21世紀的探索課題。無論你是被科學的好奇心吸引,還是被用技術幫助人類的動機驅動,這都指向了一點:我們的大量智能,以及我們工作中的大量智能是超越語言的。我曾半開玩笑地說,你無法用語言去滅火。在我的宣言裡,我舉了幾個例子:無論是空間推理、DNA 雙螺旋結構的推導,還是一名急救人員在快速變化的情況中與團隊協作滅火,很多內容都超越了語言。所以,從應用角度來看這是顯而易見的;作為一項科學探索,我們應該盡最大努力去破解如何發展空間智能技術,帶我們進入下一個層次。從宏觀角度來看,這就是驅動我的雙重動機:科學發現以及為人類製造有用的工具。我們可以更深入地探討一下其實用性。無論是在談論創造力、模擬、設計、沉浸式體驗、教育還是醫療保健,甚至是製造業,利用空間智能可以做的事情實在太多了。實際上,我很興奮,因為許多關心教育、沉浸式學習和體驗的人告訴我,Marble(我們需要發佈的首個模型)激發了他們思考如何將其用於沉浸式體驗,使學習更具互動性和趣味性。這是如此自然,因為還不會說話的兒童完全就是通過沉浸式體驗來學習的。即便作為成年人,我們的生活也大多沉浸在這個世界中,雖然包括聽說讀寫,但也包括實踐、互動和享受。主持人:是的。Marble 讓所有人都印象深刻的一點是,它不僅僅是生成下一幀畫面,而是在一個空間中移動,而且它僅在一塊 H100 GPU 上運行。我在你其他的演講中聽到你提到過“體驗多重宇宙”(experiencing the multiverse)。大家一開始都很興奮,直到意識到這需要巨大的計算量和昂貴的成本。你真的認為這是朝著為教育建立虛擬世界邁出的一步嗎?因為看起來你們已經能夠減少計算負擔了。李飛飛:首先,我真的相信在推理方面我們會加速,我們將變得更高效、更優秀、規模更大、質量更高。這是技術的趨勢。我也相信多重宇宙的概念。就我們所知,整個人類歷史的經驗只存在於一個世界裡,確切地說是地球這個物理實體。雖然有極少數人登上過月球,但也就僅此而已。我們在3D 空間中建設文明、生活、做所有事情。但隨著數字革命和數字爆炸,我們正把生活的一部分轉移到數字世界中,這兩者有很多交叉。我並不想描繪一種我們放棄了物理世界的反烏托邦圖景,也不會描繪一種每個人都戴著頭盔、永遠無法欣賞真實世界的極端烏托邦式虛擬世界,那是生命最充實的部分,我會拒絕這兩種極端觀點。但從實用角度以及對未來的設想來看,數字世界是無邊無際的。它是無限的,它為我們提供了物理世界無法允許的更多維度和體驗。例如,我們討論過關於學習的問題。我真希望能以更互動、更沉浸的方式學習化學。我記得大學化學課有很多關於分子排列、理解對稱性和分子結構不對稱性的內容。我真希望能在沉浸式體驗中親自感受那些東西。我遇到的許多創作者,我意識到在他們的腦海中,每一瞬間都有無數的想法,但他們受制於工具的限制。例如使用Unreal Engine(虛幻引擎),要把腦中的一個世界表達出來需要花費數周甚至數小時的工作時間。無論你是製作一部奇幻音樂劇,還是為新生兒設計臥室,如果我們允許人們像在物理世界中一樣,充分利用數字宇宙去反覆嘗試、交流和創造,那將非常有趣。此外,數字時代也在幫助我們打破物理邊界和勞動的限制。比如遠端操控機器人。我完全可以想像創作者通過具身化的化身(Avatar)在全球協作,通過機械臂或任何形態以及數字空間,使他們既能在物理世界中工作,也能在數字世界中工作。電影行業也將被徹底改變,現在的電影是被動體驗,儘管很美好,但我們將改變獲得娛樂的方式。所以這一切都需要多重世界。主持人:還有關於瞬移或者遙操作機器人,比如有人在談論在小行星上開採稀土。如果你不需要親身到場,而是能遠端操作機器人,那就在那些空間裡實現了。你所談論的是建立人們可以體驗的3D 空間的顯式表徵。在你的模型中,這個模型自身在多大程度上“理解”它所處的空間?它是內化了這些資訊,還是僅僅是將其顯式地投射出來?這是一個朝著真正理解世界的人工智慧努力的過程。不僅僅是對三維空間有一個表示,而是真正理解物理定律,理解它所看到的東西,甚至包括這些東西的價值、有用性,以及如何操縱物理世界。你認為目前已經存在多少這樣的理解?要讓那些模型真正理解這個世界,還需要發生什麼?李飛飛:這是一個很棒的問題。“理解”是一個很深刻的詞。當AI “理解”某樣東西時,它本質上與人類的理解不同。部分原因是我們是非常不同的存在。人類是具身的(embodied),是在一個有形的身體裡存在的。例如,當我們真正理解“我的朋友很高興”時,這不僅僅是抽象的理解。你能感受到你體內發生的化學反應,釋放快樂激素,心跳加速,情緒改變。那種理解層次與抽象的AI Agent非常不同。AI Agent能夠正確地分配意義並建立聯絡。例如,在 Marble 我們的產品中,你可以進入世界生成的高級模式進行編輯。你可以預覽這個世界並說:“我不喜歡這張沙發是粉色的,把它換成藍色。”然後它就把它改成藍色。它是否理解“藍色沙發”和“更改”這個詞的含義?是的。因為沒有這種理解,它就無法執行任務。但它是否像你我一樣理解關於沙發的一切?包括沙發的用途、甚至無用的資訊?它有關於沙發的記憶嗎?它會把“沙發”這個概念推廣到許多其他事物上嗎?不,它沒有。作為一個模型,它的能力有限,只能根據要求建立一個包含藍色沙發的空間。所以我認為AI 確實能“理解”,但不要將這種理解誤解為擬人化的、人類層面的理解。這種理解更多是語義層面的,而不是那種光線打在視網膜上產生感知體驗的理解。主持人:我看過你和Peter Diamandis 以及埃裡克·施密特(Eric Schmidt)的討論。其中有一點讓我印象深刻,是關於 AI 可能具有創造力或用於輔助科學研究的討論。當時給出的類比是:如果在愛因斯坦發現相對論之前就有人工智慧,AI 能推理出那一發現嗎?對於 AI 來說,要具有這種科學推理層面的創造力,還缺少什麼?李飛飛:我認為我們更接近於讓AI 推匯出雙螺旋結構,而不是提出狹義相對論。部分原因是我們已經看到了很多出色的蛋白質摺疊相關工作。推斷雙螺旋結構的表示更紮根於空間和幾何。而狹義相對論的表述是在抽象層面上。我們在物理中看到的所有事物,從牛頓定律到量子力學,都是將作用抽象到因果層面。比如質量、力這些概念,是被抽象到不再僅僅是純粹統計模式生成的層次。語言可以是統計性的,3D 或 2D 世界的動力學可以是統計性的,但對力、質量、磁性以及因果關係的抽象,並非純粹的統計性,而是非常深刻的因果性和抽象性。我和Eric 在台上都在說,如果我們把所有關於天體觀測的資料、衛星資料都聚合起來交給當今的 AI,它也許能通過資料推導並擬合出牛頓運動定律。主持人:既然AI 如果給出資料就能推斷出運動定律,那你為什麼認為它無法推匯出相對論那些定律呢?李飛飛:當我們說那些定律被“推導”出來時,牛頓不得不推導、抽象出諸如“力”、“質量”、“加速度”以及那些基本常數的概念。那些概念處於一個我還沒有在目前的AI 中見過的抽象層面。如今的AI 可以利用大量資料,但在那個層面的抽象表示、變數或關係上,還沒有太多證據表明它能做到。我並不瞭解 AI 中發生的一切,如果我被證明是錯的,我很樂意接受。但我還沒聽說過有任何工作能在 Transformer 模型的架構中做到那種層次的抽象。我看不出那種抽象能從那裡來,這就是我對此表示懷疑的原因。這需要建構內部抽象的內部表徵,以及應用邏輯知識的規則。這可能需要我們在基礎架構和演算法上取得更多進展。主持人:這正是我想問的。你一直在和人們討論後Transformer(post-transformer)架構。你是否預期會出現一種新的架構能解鎖其中一些能力?李飛飛:我同意,我確實認為我們會有架構上的突破。我不認為Transformer 是 AI 的最後一項發明。在宏觀的時間尺度上,與宇宙歷史相比,人類存在的時間並不長,但在我們簡短的歷史中,我們從未停止創新。所以我不認為Transformer 是 AI 的最終演算法架構。主持人:你曾提到,你曾設想如果你能讓一個AI 系統為圖像打標籤或生成說明,那本該是你職業生涯的巔峰。當然你早就超越了這一點。那麼現在,你想像中未來職業生涯的巔峰成就從今天開始會是什麼?李飛飛:我確實認為開啟“空間智能”很重要。建立一個真正將感知與推理相連接的模型:從“看見”到“做”,包括規劃和想像,並將想像轉化為創造。那會非常了不起。一個能同時做到這三點的模型。 (劃重點KeyPoints)
AI巨龍甦醒:Google有那些被忽視的技術武器與商業底牌?
在AI時代,我們所熟悉的公司都有它自身的獨特優勢,比如:輝達:GPU + 開發者平台微軟: 雲端運算OpenAI: 大語言模型但,有那麼一家公司同時擁有這3者:雲 + TPU + 大模型。不僅如此,它還壟斷了網際網路上絕大部分廣告業務。這家公司就是從沉睡中覺醒的“獅子”——Google。在上幾期的分享中(連結在文末),討論了Google崛起的歷史。本期,我們將邁入Google的AI時代,瞭解它的前世今生,探討改變世界的AI技術是如何誕生在Google?以及為什麼它們並沒有最先商業化?(註:本文1.3萬字,閱讀時長約40分鐘)Ben:想像一下你有一家盈利的公司,每條業務線都能產生巨大的利潤,而且你所在的市場也同樣巨大,可以說是全球最大的市場之一。但更幸運的是,你還是這個巨大市場中的壟斷者,市佔率90%,而且使用者鎖定效應很強。David:當你說壟斷,是按照美國政府的定義嗎?Ben:沒錯。但再想像這樣一件事:在你的研究實驗室裡,你那些才華橫溢的科學家搞出了一項發明。這項發明再加上其他天才科學家此前的一大堆發明,組合起來居然能做出一個在大多數用途上都比你現有產品好得多的新產品。於是你應該基於這項新發明推出了新產品。David:對。Ben:尤其是因為出於純粹的“善意”,你的科學家們已經發表論文,介紹這項新發明有多棒,而且此前的很多發明也都發了論文。所以,現在有新的初創競爭者迅速把這項發明商業化了。那麼當然,David,你會把你的整個產品線都改成基於這個新東西,對吧?David:呃,這聽起來像電影。Ben:但問題來了。也許你不應該推出那個新產品。David,這對我來說像是一個相當典型的兩難困境。這說的當然是今天的Google。在也許是最經典的“創新者的窘境”教科書案例中,我們當下身處的整場AI革命,是由2017年GoogleBrain團隊發明Transformer所奠定的。想想OpenAI和ChatGPT、Anthropic、輝達股價創歷史新高,如今所有這些瘋狂的事情都依賴於Google在2017年發表的那一篇研究論文。而且不光如此。十年前,Google擁有全世界最密集的AI人才陣容,促成了這次突破;而今天,他們幾乎擁有你能想像到的最佳資產組合。他們有頂級的大模型Gemini;他們不需要依賴公共雲來託管模型,而是有自己的Google Cloud,如今營收已經達到500億美元,具有真正的規模;他們還是一家晶片公司,擁有自家的TPU(張量處理器),除了輝達GPU之外,全球只有這一套AI晶片在真正大規模部署。也許AMD也算一點,但這兩家肯定是最頂的。有人在採訪裡對我說,如果你沒有一個基礎的前沿大模型,或者沒有一款AI晶片,你可能在AI市場裡就只是大宗商品。而Google是唯一兩者兼備的公司。David:Google目前依然有誇張強悍的人才儲備。Ben:儘管ChatGPT已經有點成了這個時代的“克林克斯”(紙巾代名詞),但Google仍然掌控著那個“文字框”——那個在絕大多數人任何時候只要想在網上搜點什麼都要用到的網際網路大門口。但問題依然是:Google在戰略上該怎麼做?他們是否應該孤注一擲,靠著自己的“嫡長子繼承權”去贏下AI?還是為了保護搜尋帶來的海量利潤而束手束腳,讓AI浪潮從身邊掠過?或許我們首先要回答的問題是:Google是怎麼走到今天這一步的?如果把時間撥回到今天的10年前,在Transformer論文發表之前,以下所有這些人(我們之前也談到過)都是Google員工:Ilya Sutskever,OpenAI的創始首席科學家,他與Geoff Hinton(辛頓)和Alex Krizhevsky在AlexNet上做出了奠基性工作,幾年前剛剛發表。Dario Amodei,Anthropic的創始人;Andrej Karpathy,直到最近都是特斯拉的首席科學家;Andrew Ng;Sebastian Thrun;Nam Shazeer。DeepMind的所有人:Demis Hassabis、Shane Legg、Mustafa Suleyman——Mustafa如今除了曾是DeepMind的創始人外,還在微軟負責AI。基本上,AI領域所有有名有姓的人都在Google工作過,唯一的例外是Yann LeCun(楊立昆),他在Facebook工作。David:是啊,現在很難去追溯一家大的AI實驗室,而不會發現它的起源故事裡有Google。Ben:對,這個類比就像在電腦時代曙光之際,有一家像IBM這樣的公司把所有會寫程式碼的人都雇了。於是如果別人想寫個程序,哦,對不起,做不了。因為,所有會程式設計的人都在IBM。而,2010年代中期的AI領域,Google就是這樣的存在。不過,學會程式設計相對容易;但是,想要成為一名AI研究者就難太多了。這是非常特定的博士項目才能做的事情,導師群體很有限,而且領域內部對研究方向有很多內鬥:什麼是正統、什麼是異端幾乎到了宗教之爭的地步。那麼Google怎麼走到這一步的?這要回到公司創立之初。拉里·佩奇一直把Google看成一家人工智慧公司。事實上,拉里的父親就是電腦科學教授,在密歇根大學拿的博士,研究方向是機器學習和人工智慧,那在當年電腦科學裡並不熱門。David:對。很多人認為專攻AI是在浪費時間,因為三十年前的一些大理論到了那個時期都被證明靠不住,或者至少大家覺得被推翻了。所以拉里父親把一生和事業都押在AI上,是一個相當逆向的決定。Ben:這也影響了拉里。如果你眯著眼看,Google的基石演算法PageRank就是一種統計方法,從電腦科學的分類看,它可以算作AI的一部分。而拉里當然一直有更大的夢想。我們之前在節目裡引用過他2000年的一句話——也就是Google成立兩年後——拉里說,人工智慧將是Google的終極版本。如果我們有一個終極搜尋引擎,它會理解整個網路,它會精準理解你想要什麼,然後給你正確的東西。這顯然就是人工智慧。我們現在離那還差得遠。不過,我們可以逐步接近,而這基本上就是我們在這裡所做的。Google一直就是一家AI公司。那是在2000年。當年晚些時候或2001年初,Google工程師Gor Heric和Ben Gomes(後來領導搜尋)以及一個相對新入職的工程師Gnome Shazir聊天,三個人吃飯時,George隨口說起他讀博時的一個理論:資料壓縮在技術上其實等價於理解資料。Gor是Google前10號員工之一,非常厲害的工程師。就像拉里父親一樣,他在密歇根大學的博士是機器學習。即使在他就讀的時候,這在電腦科學裡還是相當少見而逆向的分支。思路是這樣的:如果你能把某段資訊變小,存起來,然後在之後把它恢復成原始形態,那麼唯一可能做到這件事的方式就是作用於資料的那個“力”真的理解資料的含義。因為你在壓縮時丟失了資訊,然後還能重建回來。就像你在學校,讀了一本很長的教科書,把資訊存進記憶,然後考試時看你是否真的理解了材料。如果你能重建那些概念,那就說明你真正理解了。David:這有點預示了今天的大型語言模型是在把全世界的知識壓縮到若干TB裡,變成一個被壓得扁扁的小向量集合。Ben:相對於全世界的資訊量來說當然“小”。但就是這個思路:你能把世界的資訊存進一個AI模型裡,形式很難理解、幾乎不可解釋;但當你“解壓”時,便可以把知識大致還原。David:是的。Ben:這些模型能體現“理解”,對吧?David:它們真的懂嗎?Ben:這是問題。它們當然在模仿“理解”。David:這段對話正在發生……Ben:你知道的,這已是25年前的事了。新來的那位年輕人Gnome愣住了,說:“哇,如果這是真的,那太深刻了。”David:這是在Google的茶水間裡嗎?Ben:他們在吃午飯。David:你從那看到這個的?Ben:在《In the Plex》裡。Steven Levy寫的那本關於Google的好書,我們講Google系列都頻繁參考它。裡頭有一小段關於這個的描寫,因為這本書在ChatGPT和AI大熱之前出版。所以Gnome就“黏”上了George,圍繞這個想法一直碰撞。接下來幾個月,這兩個人決定用最“Googly”的方式:他們停下手頭一切活,去研究這個點——語言模型、資料壓縮,看看是否能用資料生成機器“理解”,如果能做到,對Google就很有用。我覺得這也恰好趕上了2001年那段時間拉里把工程組織的所有經理都開了,於是大家都在干自己想幹的事。David:有意思。書裡還有一段Gor的名言。Ben:很多人覺得讓我們倆(指Gnome和他)把才華用在這上面是個很糟的主意,但Sanjay Ghemawat——當然就是Jeff Dean出名的編碼搭檔——覺得這很酷。於是George就對任何懷疑者說:Sanjay覺得這是個好主意,而世界上沒人比Sanjay更聰明。所以,為什麼我們要接受你“這是個壞主意”的看法呢?總之,這把Gnome和George帶進了自然語言的機率模型兔子洞。意思是:對於網際網路上出現的任何一個詞序列,另一個特定詞序列跟在後面的機率是多少?今天瞭解LLM的人聽起來應該很熟悉。David:哦,就像下一個詞預測。Ben:或者如果推廣一點,就是下一個token預測。David:對。所以他們用這項工作做的第一件事,就是在Google搜尋裡做“你是不是要找:Did you mean”拼寫糾錯。哦,原來是從這出來的。Ben:對,Gnome做的。David:這對Google太重要了,因為當你把查詢打錯然後不得不再打一遍時,使用者體驗很差。Ben:而且這也會攻擊Google的基礎設施:每次拼錯的查詢發出去,系統都要去處理並返回結果,而這些結果是沒用的,很快就被新查詢覆蓋。這個問題又非常聚焦:比如有80%的機率,使用者打“god groomer”其實是想找“dog groomer”,然後他們會重打。若我們很有信心,就乾脆直接幫他改正,再給他一個退出選項,而不是讓他選擇“啟用”。這是一個很棒的特性,也是這個方向的很好首次用例。於是他們拿下這波勝利,繼續做,最後他們做了一個相當大的——對當時來說的“大”——語言模型,暱稱“Phil”,全稱是“probabilistic hierarchical inferential learner”(機率分層推理學習器)。David:這些AI研究者最愛造首字母縮略詞的諧音梗。Ben:快進到2003年,Susan Wojcicki和Jeff Dean在準備上線AdSense。他們需要一種方法去理解第三方網頁(出版商頁面)的內容,好把Google的廣告語料庫投放上去。Phil就是他們用的工具。我之前完全不知道語言模型參與了這個。於是Jeff Dean把Phil借來,在一周之內就寫出了AdSense。然後,砰——AdSense。這幾乎是一夜之間給Google帶來數十億美元新收入,因為就是同一套廣告語料、同一批AdWords搜尋廣告,現在能投在第三方網站上了。他們一下子把系統裡已有廣告的庫存擴張到巨量。好吧,這時候我們得停一下,來點“Jeff Dean Facts”。整集裡他都是那條貫穿線:Google怎麼做到的?Jeff Dean怎麼就周末回家重寫了一個巨型分佈式系統,順手把Google所有問題都解決了?在“查克·諾裡斯段子”流行的時候,Google內部也流行“Jeff Dean段子”。我最喜歡的一條是:真空中的光速原本大約是每小時35英里,然後Jeff Dean花了一個周末最佳化了物理。所以,語言模型確實有效,確實能為Google帶來巨大價值,並且它們非常漂亮地契合了Google“組織全世界資訊並讓其普遍可及且有用”的使命:如果你能理解世界資訊、把它壓縮,然後再重建,這就對上了。在 2000年代中期,Phil佔用了Google整個資料中心基礎設施的15%,我猜很大一部分是AdSense廣告投放,還有“Did you mean”和公司內部開始用它做的其他東西。好,現在來到2007年——對我們故事來說非常非常重要的一年。Google剛剛發佈了Google Translate。這是Google那些偉大產品密集出現的時代:地圖、Gmail、Docs,隨後還有Chrome和Android。他們有一段長達10年的輝煌期,除了搜尋,基本把你今天熟悉的所有Google產品都在那10年裡發佈了。然後在那之後大約10年(從2013年開始),他們基本沒再發佈你聽說過的新產品,直到我們來到Gemini,這是很有意思的現象。但2003到2013這段時間就是一波接一波的爆款。其中一個就是Google Translate。也許使用者規模或對世界的影響不如Gmail或地圖,但仍是一個神奇的產品。Translate的首席架構師是另一位機器學習博士,名叫Franz O。Franz的背景是NLP和機器學習,他在德國拿的博士。於是Google和Franz把他引入,Franz打造了一個更大的語言模型,在當年的DARPA挑戰賽中橫掃對手(這是2006或2007年)。他拿到了當時天文數字的BLEU分數(BLEU:用於評估機器翻譯質量的演算法標竿),遠超其他一切。Jeff Dean聽說了Franz和翻譯團隊的工作,說太棒了。這個模型裡“gram”是指詞的n元組,在Google搜尋索引的兩兆詞語料上訓練。東西大到翻譯一句話需要12個小時。所以DARPA這次比賽的規則是:周一給你一組句子,你必須在周五之前提交機器翻譯的結果。David:伺服器有大把時間可以跑。Ben:他們想的是:“好,我們從周一到周五有若干小時。用儘可能多的算力翻完這幾句就行了。學會規則並利用它。”於是作為“工程界的查克·諾裡斯”,Jeff說,把程式碼給我看看。Jeff空降到翻譯團隊,和他們一起幹了幾個月。他把演算法重構成平行地處理詞和句子,而不是順序處理。因為當你翻譯一個句子集合或一個句子中的詞時,不一定要按順序來。你可以把問題拆成若幹部分,獨立處理,可以平行化。David:當然你不會得到完美的翻譯。Ben:但是想像你只是逐詞翻譯——至少可以同時把每個詞都翻了,再把句子拼回去,基本能明白原意。而且Jeff太清楚了,因為是他和Sanjay、Zhozha一起搭了Google的基礎設施,那是極度可平行、分佈式的。你可以把負載拆成小塊,扔到Google各個資料中心裡,最後重組,把結果返還給使用者。David:他們是在全世界範圍內把CPU工作負載跨多個資料中心平行化做得最好的公司。Ben:我們還在說CPU哦。Jeff和團隊的工作成果是,把平均單句翻譯時間從12小時降到了100毫秒。然後,他們就把它上線Google Translate。效果很驚人。David:這聽起來像一條“Jeff Dean段子”。Ben:是啊,曾經要12小時,Jeff花了幾個月,現在100毫秒。所以這是第一個在Google產品裡生產級使用的“大”語言模型。他們看到效果這麼好,就想,嗯,也許我們可以把它用於其他事情,比如輸入時的搜尋詞預測;當然也別忘了Google的皇冠明珠:廣告質量分(AdWords的ad quality)其實就是對給定廣告文案的點選率預測。你很容易看出,一個擅長攝取資訊、理解並據此做預測的“大模型”,對計算廣告質量會非常有用——這直接關聯Google的利潤底線。語言模型線這邊很棒。我剛說2007年是個大年。也是在2007年,幾位電腦科學教授在Google園區的“宿命交匯”開始了。2007年4月,拉里·佩奇邀請史丹佛的Sebastian Thrun來Google,先是兼職,隨後全職,做機器學習的應用。Sebastian是史丹佛SAIL(人工智慧實驗室)的負責人。這個傳奇實驗室在上世紀六七十年代AI第一波浪潮中大放異彩——那時拉里的父親也活躍在該領域;實驗室後來曾關閉一段時間,在2000年代初復興,Sebastian成了負責人。有個關於Sebastian的趣事:他怎麼來Google的?他也跟我們聊過,我之前不知道這幾乎是一次“人才併購”。他和一些(好像是)研究生正要創業,拿到了Benchmark和紅杉的term sheet。然後拉里來了,說:“要不我們就用獎金的方式,在公司成立之前就把你們‘收購’了?”對他們來說,這可能是個非常明智的決定。SAIL不僅擁有世界上最厲害的教授和博士AI研究者,還有一條史丹佛本科生“人才流”,在讀本科時就能進去做研究(CS、Symbolic Systems之類專業的學生)。其中一位後來是Meta的首席產品官Chris Cox,他就是這麼入門AI的。當然Facebook/Meta等會也要在故事裡回歸。在Sebastian在任時,還有另一位在SAIL呆過的大一/大二本科生,後來從史丹佛輟學去創業,參加了2005年夏天YC的第一期。時間來到2007年4月,Sebastian從SAIL來到Google。接下來幾個月,他做的第一批事之一是Google Maps的Ground Truth項目,基本上就是重造Google Maps的底層資料。在Ground Truth之前,Maps產品已經存在,但底圖資料要從Tele Atlas買。David:我記得當時有兩家。Ben:是的,雙寡頭。另一家是Navteq(Navtech)。David:這是一套大家都用的、質量不怎麼樣的地圖真源資料。你也很難比別人做得更好,因為大家都用同一套資料。Ben:質量不高還很貴。Tele Atlas和Navteq都是市值數十億美元的公司,我記得可能有一家或兩家都曾經上市,後來被收購,總之營收很高。而Sebastian的第一個大項目就是Street View(街景)。主要用自家街景的照片重建Tele Atlas的資料。他們也引入了其他資料,比如人口普查等,一共用了四十多個資料來源,把它們融合在一起。Ground Truth是一個非常宏大的工程,從零開始做一套新地圖。David:尤其是當你雇了一千名印度員工幫你篩查資料差異,實際上把地圖手動畫出來的時候。Ben:對,那時AI自動化還不多。所以在Ground Truth大獲成功的基礎上,Sebastian開始遊說拉里和謝爾蓋:我們應該多做這種事。比如把AI教授、學者請進Google,兼職也行,不一定要他們全職,讓他們保留學術職位,同時來這裡參與我們的產品項目。他告訴兩位創始人:教授們的工作能被數以億計的使用者使用;我們付他們錢、給他們Google股票、他們還能繼續當教授。如你所料,拉里和謝爾蓋說:“好主意,干,多來點。”於是2007年12月,Sebastian請來了一位來自多倫多大學、當時相對小有名氣的機器學習教授Geoff Hinton(傑佛瑞·辛頓)到Google做技術演講,還不是聘用,只是來給大家講講他們在做的“用神經網路開闢新路”的研究。傑佛瑞·辛頓——如果有人還不熟這個名字——如今被稱為“神經網路之父”,也可以說是現代AI整體方向的“教父”。David:在那個時候,他還是“邊緣學者”。神經網路當時不是AI裡被尊敬的分支。Ben:對,完全不是。部分原因是三四十年前圍繞神經網路有一波炒作,但沒有兌現。於是大家把它當成被“證偽”的東西,至少是冷門。David:你還記得我們輝達那幾期裡我最喜歡的Hinton冷知識嗎?Ben:他曾祖父是George Boole。他是George和Mary Boole的玄孫,Boolean代數和Boolean邏輯的發明者。這就很有意思了,因為那是符號邏輯、確定性電腦科學邏輯的基礎。而神經網路的搞笑之處在於,它不是符號AI,不是那種“我給你具體規則,然後你沿著一棵巨大的if-then樹走”。它是非確定性的,恰恰是那個領域的反面。David:這再次強調了這支機器學習/電腦科學分支在當時有多“異端”。正如你之前說的,神經網路不是新點子,理論上前景巨大,但實踐上算力太不夠,沒法做多層。那時,一個電腦神經網路最多隻能有一層或個位數層。而Geoff和他的前博士後Yann LeCun開始在社區里布道:嘿,如果我們能搞出多層、深層神經網路,也就是“深度學習”,就能兌現承諾。不是思路不對,而是實現需要海量算力,去做層層傳遞時的乘法運算,去檢測、理解、儲存模式。如果我們真的能做到,一個大型多層神經網路會非常有價值,甚至能跑起來。Ben:來到2007年,中後期。摩爾定律讓算力增長到足以開始驗證這些理論。於是Geoff來Google做了這場演講。Google的職員,Sebastian、Jeff Dean和我們提到的其他人都非常興奮,因為他們已經在翻譯和語言模型裡做了類似的事情——雖然不是用Geoff的深度神經網路。這裡出現了一個全新的架構思路:如果能跑起來,會讓他們的模型更好地工作、識別更複雜的模式、把資料理解得更深入。非常有前景。David:當然,這一切當時都還只是“理論上”。Ben:Sebastian在這次演講後,把Geoff Hinton帶進了Google,先是顧問,接下來幾年,這件事更有意思:後來Geoff從技術上講成為了Google“實習生”。這是他們繞過兼職/全職政策的方式。(PS:他主要職業是在大學任教)2011或2012年某個夏天,他在Google當了“實習生”。注意這時他大概60歲了。接下來的幾年裡,Sebastian把機器學習學者引進Google、讓他們保留學術職位的模式進行得非常順利。到2009年末,Sebastian、拉里和謝爾蓋決定:我們干脆在Google內部單獨起一個新部門,於是有了Google X“登月工廠”。Google X的第一個項目由Sebastian親自帶隊。我先不說它的名字,稍後會回到它。但對我們的故事至關重要的,是第二個項目,不僅關乎我們這一集,更關乎全世界——它改變了整個AI世界。這個項目叫Google Brain。當Sebastian離開史丹佛全職加入Google後,當然得有人接手SAIL。接手的是另一位電腦科學教授、才華橫溢的人,Andrew Ng。David:這真是“AI全明星”一集。Ben:對,全是AI大咖。那麼Sebastian做了什麼?他把Andrew招來做兼職,每周在Google園區待一天。這恰好跟X的啟動和Sebastian把這個部門正式化的時間點重合。於是2010或2011年的某一天,Andrew來Google“上一天班”,碰到了誰?Jeff Dean。Jeff向Andrew講他和Franz在語言模型上的工作,和Geoff Hinton在深度學習上的推進。當然,Andrew都知道。Andrew也在講他和SAIL在史丹佛做的研究。然後他們決定:也許時機到了,可以在Google內部來一次真正的大跨步,基於Geoff Hinton講的路線,在Google高度可平行的基礎設施上,建一個巨大的深度神經網路模型。要強調一下,Google之前試過兩次,都沒成功。他們試了一個叫“Brains on Borg”的東西(Borg是Google內部用來跑基礎設施的系統),還試了“Cortex”項目,但都沒起來。所以在Google研究組裡,對“大規模神經網路到底能不能在Google基礎設施上跑”是有些疤痕記憶的。於是Andrew Ng和Jeff Dean把Greg Corrado拉進來,他是神經科學博士,出色的研究員,已在Google工作。資訊流公司搶先一步邁入“AI時代”2011年,他們三人啟動了X裡的第二個正式項目,十分貼切地命名為Google Brain。三人開始動手,搭建一個非常非常大的深度神經網路模型。要做這個,你需要一套能跑它的系統。Google擅長把前沿研究“系統化工程化”,讓它真正在生產環境跑起來。Jeff在做這套基礎設施系統,他決定把它命名為“Dist Belief”,既是“分佈式”的諧音,也暗含“懷疑、不信”。因為幾乎沒人相信它能工作。業內大多數人不信,Google內部大多數人也不信。當時的研究都指出,你需要“同步式”的——也就是在一台機器上以很高的平行度進行計算,就像GPU那樣;最好所有計算都在一個地方發生,這樣你在邁出下一步前很容易查到系統裡其他部分的最新計算值。Jeff寫的Dist Belief恰恰相反:它分佈在一大堆CPU核上,可能跨一個資料中心,甚至不同的資料中心。理論上,這很糟,因為這意味著每台機器都要不停地等其他機器同步參數,才能繼續往下算。但Dist Belief實際上以“非同步”方式工作,不去糾結是否拿到了其他核的最新參數。也就是說你在用“過期的資料”更新參數。照理說這應該不行,但瘋狂的是——它能行。Dist Belief有了,接下來幹啥?做研究試試看能不能用上它。於是他們在2011年底發表一篇論文,標題先報一下:《Building high-level features using large-scale unsupervised learning》(用大規模無監督學習建構高層特徵),但大家都叫它“貓論文”。David:“貓論文”?Ben:你去問Google或AI圈裡任何人,他們都會說“哦,對,貓論文”。他們訓練了一個有9層的大型神經網路,用的是YouTube視訊裡的無標籤幀,目標是識別“貓”,用了1,000台機器上的16,000個CPU核心。之後他們又在TGIF上介紹了“貓論文”的結果。你去問Google的人,他們會說:“那次TGIF,天啊,一切都變了。”它證明了大型神經網路在無監督、無標籤資料的情況下,可以學到有意義的模式。不僅如此,它還能在Google自建的分佈式系統上跑起來。這是巨大的進步。Google有龐大的基礎設施資產。我們能否把研究者提出的這個理論電腦科學思路,借助Dist Belief在我們的系統上跑起來?答案是:能。這項驚人的技術成就,帶來的深遠影響,不僅僅是其商業成就。我覺得不誇張地說,“貓論文”在接下來的十年裡,為Google、Facebook、字節跳動帶來了數千億美元的營收。David:這就是資料裡的識別模式。Ben:當時YouTube有個大問題:使用者會不斷上傳視訊,量巨大,但使用者非常不擅長描述自己視訊裡有什麼。YouTube正試圖變成“目的地網站”,讓大家看更多視訊,打造資訊流,提高停留時長。然而推薦系統要決定“喂什麼”,只能看使用者給視訊寫的標題和描述。無論是你在搜尋視訊,還是平台要挑下一個推薦,它都需要知道視訊裡是什麼。“貓論文”證明了,你可以用這項技術——跑在Dist Belief上的深度神經網路——去深入理解YouTube視訊庫裡的視訊內容,然後再用這些資料決定要給使用者推薦什麼視訊。David:如果你能回答“有貓/無貓”,你也能回答很多更多的問題。Ben:這是Jeff Dean的一段話:“我們建構了一套系統,通過模型和資料的平行化,使我們能訓練非常大的神經網路。我們在隨機選取的1000萬張YouTube幀上做了無監督學習。它會基於嘗試用高層表徵來重構幀,從而建構無監督的表徵。我們讓它在2000台機器、16000個核心上訓練。沒過多久,模型在最高層會形成一種表徵:某個神經元會對貓的圖像興奮。”它從來沒被告知什麼是貓,但它在訓練資料裡看到了足夠多“貓臉正面”的樣本,於是那個神經元會對“貓”觸發,而對其他大多數東西不會觸發。這就是無標籤資料、無監督學習裡最瘋狂的部分——系統在從未被明確告知“什麼是貓”的情況下學會了“貓”,而且還出現了“貓神經元”。於是之後就有“iPhone神經元”“舊金山巨人隊神經元”,以及YouTube用來推薦的一切特徵……David:更別提識別版權、以及幫助版權方的分成了。Ben:對,這引向了YouTube的一切。基本上把YouTube放上了通往今天的道路——成為網際網路上最大的內容平台和地球上最大的媒體公司。“貓論文”開啟了2012年到2022年11月30(ChatGPT發佈)的新紀元:AI已經在塑造我們的生活,並帶來數千億美元的收入。它先是在YouTube的資訊流裡,然後被Facebook借鑑。他們挖來了Yann LeCun,創立了FAIR,再帶到Instagram;接著TikTok和字節跳動拿去做,後來又通過Reels和Shorts“回流”到Facebook和YouTube。David:這是我最喜歡的“David Rosenthal主義”。Ben:公眾喜歡把2022年以後叫“AI時代”。事實上,對任何能好好利用推薦和分類系統的公司而言,“AI時代”是從2012年開始的。David:的確,AI時代始於2012年,其中一部分就是“貓論文”。Google買下辛頓的DNN Research 公司Ben:另一部分是黃仁勳在輝達口中的AI“宇宙大霹靂時刻”——AlexNet。我們之前說到Geoff Hinton在多倫多大學。在這段時間他有兩個研究生:Alex Krizhevsky和Ilya Sutskever(後來是OpenAI的聯合創始人兼首席科學家)。三人計畫用Geoff的深度神經網路思路和演算法,去參加電腦視覺領域著名的ImageNet競賽。這是史丹佛的Fei-Fei Li(李飛飛)主導的年度機器視覺演算法競賽。它的競賽規則是:李飛飛收集了一個1400萬張圖片的資料庫,已經有人對這些圖片全部打好了標籤。那個團隊,在不看標籤的前提下,能寫出演算法,僅憑圖片,識別的正確最多(精準率最高)。2012年的比賽結果是,AlexNet橫空出世。它的錯誤率是15%。儘管還是偏高,但從此前25%錯誤率到15%,一年之內下降10個百分點,這在此之前從未發生過。David:比第二名好40%。Ben: Geoff、Alex和Ilya知道,深度神經網路很有潛力,摩爾定律讓你能用CPU堆出幾層。他們有個靈感:如果我們不在CPU上跑,而是改用另一類天生高度平行的計算晶片呢?那就是當時領先公司輝達做的——用於電子遊戲的圖形顯示卡。對當時而言並不顯而易見,尤其是把最前沿的學術電腦科學研究(通常跑在超級電腦上、依賴強大的CPU)搬到這些零售價1000美元的“玩具”顯示卡上——當時還更便宜,只要幾百美元。多倫多團隊跑到本地Best Buy之類的店,買了兩塊輝達頂級遊戲卡GeForce GTX 580。團隊把他們的神經網路演算法用CUDA(輝達的程式語言)重寫,靠這兩塊零售GTX 580訓練出了他們的深度神經網路,在ImageNet比賽裡把第二名甩開40%。所以當黃仁勳說那是AI的“宇宙大霹靂時刻”,他是對的。它向所有人展示:天啊,如果兩塊零售GTX 580就能做到這樣,想像一下更多顯示卡,或者專用晶片能做到什麼。並且,這件事把輝達從一家有些掙扎的PC遊戲配件廠商帶上了AI浪潮的道路,成為今天全球最有價值的公司。這也展示了AI研究的常見模式:某個突破帶來一個大台階躍遷,然後是多年最佳化的過程,收益逐漸遞減:前半截進步一瞬間發生,後半截要花很多年打磨。當你有一個想法,做出來,然後意識到:“天那,我剛剛找到了推動這個領域的下一個大飛躍”,那一定既罕見又酷斃了。David:就像解鎖了下一關。Ben:AlexNet之後,整個電腦科學界都沸騰了。這時人們也開始不再懷疑神經網路。多倫多的三個人——Geoff Hinton、Alex Krizhevsky和Ilya Sutskever——做了很自然的一件事:他們成立了一家公司,叫DNN Research(深度神經網路研究)。這是一家只有AI研究員,沒有產品的公司。如你所料,它幾乎立刻被Google收購了。這裡有件很瘋狂的事,第一個出價其實來自BU公司,出價1200萬美元。Geoff Hinton並不清楚該怎麼給公司估值,也不確定這是否公平。於是他做了任何一位學者會做的事來確定公司的市場價值:他說“非常感謝,我現在要搞一個拍賣”,而且是高度結構化的:每次有人出價,計時器重設,再給其他人一小時出新價。並且,他還諮詢了所有在大公司作研究的學者朋友,問他們: “嘿,我們在那兒繼續做研究會更好?”當時,競價的公司包括BU、Google、微軟,還有另一家…David:Facebook?Ben:哦,等等,不包括Facebook。想想年份,這是2012年。Facebook還沒真正入局AI,他們還在籌建自己的AI實驗室。因為Yann LeCun和FAIR是2013年才開始的。David:OpenAI還要過好幾年才成立。那家公司略早於OpenAI,做幾乎同樣的使命?Ben:就藏在眼皮底下——DeepMind。他們是DNN Research四方競購裡的第四家。當然,競價一開始,DeepMind就不得不退出——他們是初創公司,沒錢買。David:我壓根沒想到會有DeepMind,我第一個問題就是:他們從那弄錢?他們沒錢。Ben:不過Geoff已經認識並尊敬Demis了,儘管他當時“只是在做一家叫DeepMind的初創公司”。David:等等,DeepMind都在競拍裡,Facebook卻不在?Ben:競拍和當年的一個大會同時進行,當時叫NIPS(現在叫NeurIPS)。Geoff在太浩湖的Harrah’s賭場酒店房間裡主持了這場拍賣。我們得感謝Cade Metz,他寫的《Genius Makers》(AI簡史)這本書,我們這集會頻繁引用。出價一路抬升,微軟一度退出,又回來。DeepMind退出。最後剩BU和Google死磕。最後某一刻,三位研究者互相看了看,說:我們真正想去那兒?我們想去Google。於是他們把競價停在4400萬美元,說:“Google,這足夠多了,我們選你們。”David:我知道大概是4000萬,但我不知道整個故事。這簡直像Google自己在IPO裡搞的“荷蘭式拍賣”一樣,對吧?太貼合Google的DNA了。Ben:是的,特別貼合。還有個細節:三個人本該各拿三分之一。但Alex和Ilya去找Geoff說:“我覺得你該多拿一些,你40%,我們各30%。”最後就這麼定了。這讓三人直接加入Google Brain,給那裡的所有工作加上了加速器。劇透一下,幾年後,接替Sebastian管理Google X的Astro Teller,在紐約時報的一篇Google X人物特寫裡說:Google Brain給Google核心業務——搜尋、廣告、YouTube——帶來的收益,遠遠超過他們在Google X及公司其他地方做過的所有“登月”投資。但Google的AI歷史不止於此。還有一塊非常重要的拼圖來自公司外的收購。就像YouTube之於Google的意義在AI領域的對應物。我們剛才提到過的——DeepMind。 (希芙的星空)