#Transformer
AGI的路上,GPU敘事仍在,Transformer卻無法開門
GoogleGemini3發佈後,資本市場上演了一場“蹺蹺板”遊戲。借助年度旗艦模型,Google市值一度漲超5000億美元。另一方面,算力霸主輝達同期蒸發了6000億美元。巨大的“剪刀差”似乎在暗示風向轉變:當TPU跑出了Gemini3的驚人效果,甚至Meta也傳出要採購TPU的消息時,通用GPU建構的算力護城河是否正在鬆動?硬體範式是否正在從通用的GPU向專用的ASIC發生“轉變”?騰訊科技2025 Hi Tech Day上,英諾天使基金合夥人王晟將這個問題拋給了沐曦股份、矽基流動和階躍星辰幾位國產模型及基礎設施的“賣鏟人”,進行了一場AGI關鍵基礎設施“穩態還是變態”的終極拷問。沐曦股份孫國梁認為GPU的敘事仍在:“華爾街的做空也許只是一種‘砍價方式’。”在孫國梁看來,GPU和ASIC在幾十年前就是“超級穩態”,他強調,當前模型處於高速迭代的階段,GPU的通用性是它最大的優勢。“你很難把一個專用性的產品放在一個通用場景裡。”在被問及“開源、閉源”之爭時,矽基流動胡健強調,這是一種“老二、老三”生存法則的博弈。“就像Android對抗iOS。DeepSeek一出來,市場炸了,大家就都得跟進,這是一種低競爭倒逼的趨勢。”胡健表示,如果模型不開源,智能如果只掌握在少數企業手裡,客戶不得不依賴這些巨頭,並為此承擔更高的成本與代價。而在演算法側,階躍星辰首席科學家張祥雨拋出了一枚“深水炸彈”:現有的Transformer架構無法支撐下一代Agent。張祥雨指出,在長文字環境下,模型的“智商”會隨著上下文長度的增加而快速下降。對於追求無限上下文的通用Agent而言,Transformer單向的資訊流機制存在先天缺陷。階躍星辰的研究表明,未來架構極有可能向“Non-Linear RNN”(非線性循環神經網路)演進。嘉賓核心看點:孫國梁(沐曦股份高級副總裁)“現在的AI是用工程學在‘反推’基礎科學。在數學和腦科學原理突破之前,我們需要靠GPU做大量的工程嘗試。”胡健(矽基流動聯合創始人、首席產品官)“模型不開源,智能只掌握在少數企業手裡,客戶不得不依賴這些巨頭,並為此承擔更高的成本與代價。”張祥雨(階躍星辰首席科學家)“今天的Transformer完全支撐不了下一代Agent。真正的挑戰不是計算複雜度,而是‘智商掉落’——文字越長,模型越傻。”以下為圓桌實錄,不改變原意的情況下有刪減調整01兆市值的拷問——GPU還是TPU?王晟(英諾天使基金合夥人、北京前沿國際人工智慧研究院理事長):我們先聊一個最近很炸裂的事。Google發佈Gemini3之後估值漲了5000多億美元,大家覺得Google又回來了。但與此同時輝達蒸發了6000多億。我想問問國梁,你是做國產GPU最頭部的企業。怎麼看這件事?硬體範式會不會開始往TPU/NPU這些專用晶片轉了?大家是完全競爭還是一種競合關係?孫國梁:架構本身沒有高低優劣之分,最重要的是看場景。如果說穩態還是變態,GPU和ASIC(專用晶片)這兩種架構在幾十年前就是“超級穩態”了。ASIC裡還有BPU、APU、VPU、DSP等等,它們在各自領域都有優勢。但在今天,我們處在一個模型高速迭代的階段。在這個階段裡,GPU的通用性是它最大的優勢。你很難把一個專用性的產品放在一個通用場景裡,因為它處理不過來。現在的模型更新太快了,快的話按周計,最遲也是按月計。從我們的視角看,任何一種基模還遠遠沒有到達“收斂”的時間點。在未來相當長的時間內,模型的高速迭代依舊是常態。還有一個問題是場景的碎片化。客戶的應用場景是層出不窮、千奇百怪的。在這種分散的場景裡,GPU和ASIC會長期共存,但通用GPU會有更好的泛化適配性。至於輝達市值的波動,說實話,這未必不是華爾街一種很好的“砍價方式”。之前華爾街已經做出了選擇,把輝達推向世界第一,就是因為在當前歷史階段,通用性顯然還是主流。02中間層的“縫合”——模型在收斂嗎?王晟:胡健,你們是做連接的,左邊是模型,右邊是算力。這會不會導致工作量爆炸?比如要重構算子、編譯器、計算圖?另外,從客戶使用情況看,模型是在發散還是收斂?胡健:矽基流動現在自己有一個雲,跟國內別的AI Infra比較大的區別,是我們可能大量的使用國產晶片,包括像摩爾和沐曦,我們都在大量使用用它來真實的服務客戶。整體來說,模型呈現“二八定律”。雖然新模型每隔一兩周就出來一個,但大家的呼叫非常聚焦,主要集中在DeepSeek、千問、Kimi、GLM等少數模型上。雖然模型變化快,但模型的結構基本上處於“逐漸穩態”。比如DeepSeek用MLA結構,包括MQA結構,大部分是基於Transformer的變體。這對國產晶片是非常大的利多。如果場景千變萬化,且不是基於Transformer,那會是CUDA的天下,因為它的軟體棧填了十幾年的坑。但現在結構相對穩定,我們核心要做的就是幫助國產晶片實現與輝達同規格晶片的“端到端對標”。這裡面70%的工作是相對標準的。比如量化——大家都知道國產晶片以前大部分只做INT8,但是現在DeepSeek都是FP8,所以針對量化這一系列方案是通用的;再比如PD分離、KVCache的共享傳輸等。剩下的30%需要針對不同晶片的性能瓶頸做聯合最佳化。比如有的晶片算子弱,有的通訊弱,我們就需要做算子融合或通訊庫最佳化。總體來看,模型結構趨於收縮,這些最佳化方案在大規模部署和應用時可復用性很高。03演算法的“變態”——Transformer一定是通向AGI的最終範式嗎?王晟:祥雨你是演算法大師。我想直接請教:Transformer已經註定是通向AGI的最終範式了嗎?目前學界還有RetNet、Mamba這些Linear Attention的範式,它們會有價值嗎?張祥雨:先給一個結論:現在的模型架構確實處於趨穩狀態,但我們很可能處在一個巨大變革的前夜。我最新的研究結論是:今天的Transformer並不足以支撐我們走向下一步,尤其是在Agent時代。先解釋前半句。確實,現在的架構基本上都收斂到Transformer。雖然有各種Linear Attention、SparseAttention的小修小補,在效率上做文章,但本質建模能力沒有區別。而且,我們發現了一個巨大的副作用:長文字真正的挑戰不是計算複雜度,而是模型的“智商”會隨著文字長度變化而快速下降。對於通用Agent,它面對的應該是一個“無限流”的世界——它是無窮長的,從小到大的所有經歷都在Context裡。但今天的Transformer,不管號稱支援多少Token,我自己測下來基本上到8-12萬個Token就不可用了,即使GPT-5可能好一點,但最終都會退化。這裡的本質原因是什麼?Transformer的資訊流是單向的。所有的資訊只能從第L-1層流向第L層。不管Context多長,模型的深度(L)不會增加,或者僅能小幅增加(對於某些最新的架構變體)。大家想像一下,人類的記憶是有極強的壓縮機制的。我今天講的每一句話,都是我歷史上見過所有資訊的函數。這個複雜的函數,不可能通過一個恆定層數的神經網路來表示。王晟:我理解你的意思。這個成果你們研究出來了嗎?張祥雨:我們現在是在一些小規模實驗得到非常積極的結論。未來的架構,它應該是一個短窗口的Transformer(建模short-term memory)疊加一個巨大的RNN(循環神經網路,用來建模episodic memory),而且是“Non-Linear RNN”(非線性RNN)。當然,這對系統效率和平行度是巨大挑戰,需要軟硬體協同設計(Co-design)。04物理瓶頸——被AI加速的“可控核聚變”與萬卡叢集主持人/王晟:張祥雨剛才的分享太有衝擊性了,回頭我還要消化。我們時間有限,我就特別簡單說一下能源的問題,因為我們投了星環聚能。在過去扔了氫彈之後,大家就開始探索搞“可控核聚變”。這事兒搞了80多年了,以前一直說“離成功永遠還有50年”,但就在這兩三年,情況發生了大逆轉。特別樂觀的人說還要10-15年,客觀一點的說20年。這事兒是怎麼發生的?這跟AI的關係非常大。今天托卡馬克裝置面臨最大的兩個問題:第一是怎麼獲得巨大的磁場來約束電漿體。這要靠材料,這就涉及到AI for Science——大家都很樂觀,覺得未來過幾年高溫超導、常溫超導通過AI就搞出來了,這能解決大問題。第二是電漿體的控制。裡面上億度、好幾億度,外面無窮多的線圈怎麼控制它?這是一個“黑箱”,你切不開來看。過去寫程序太複雜了,現在AI來了,通過模擬強化學習大家突然覺得這事兒行了。如果不解決能源,整個人類文明都會受限。這太吸引人了。我們討論了晶片,現在我想討論一下網路。我想聽一聽大家實際訓模型、跑模型的網路——不是實驗室Demo,是實際出成果的——都已經跑到多大的規模了?另外,輝達的網路層次蠻多,NVLink、NVLink Switch、InfiniBand很多層次都佈局了。我想知道我們現在自主建構的網路覆蓋了那些層級?孫國梁:我認為AIInfra最大的挑戰是要看清產品到底是什麼。客戶的需求是一個能夠做大規模模型訓練、推理、服務的通用性算力,而不是一張卡。我們在全國各地也有數千卡的叢集。無論是傳統模型、MoE模型還是非Transformer架構的模型,我們都訓練過。另外我想補充一下能源。如果真的到用能源去解決算力問題的時候,中國有巨大優勢。核心原因是:今天我們的模型屬於工程學。工程學的來源是數學推理,數學的來源是生理學和腦科學。但在基礎腦科學和生物學研發上,人類還沒有取得那麼大的突破。所以我們在數學上沒有突破,在工程學上只是在“暴力嘗試”。反而是現在我們在工程學上的很多嘗試,會“反推”基礎科學的演進。這是一個循環。我認為未來國產算力、基礎能源和開源模型,好戲還在後頭。05開源與閉源的終極博弈王晟:我們下一個問題給到胡健——開源和閉源的問題,因為我理解矽流上的很多都是開放原始碼的模型,現在美國巨頭都閉源了,中國企業擔起了開放原始碼的責任。未來開源能和閉源競爭嗎?會不會擔心最強的模型都是閉源的,導致你們的業務空間被擠壓?胡健:現在回答這個問題比較容易了,因為之前我們剛出來的時候和一堆投資人會問這個問題。我們剛創業時也面臨這個問題。我們堅定兩點:開源肯定會起來,推理會是主流。開源與閉源核心看兩點:第一是競爭格局。往往是處於第二、第三梯隊的企業,為了不被頭部完全搶佔市場份額,必須開源。開源後會有更多人跟你玩,就能逆轉形勢。就像Android對抗iOS。DeepSeek一出來,市場炸了,大家就都得跟進,這是一種低競爭倒逼的趨勢。第二是需求。智能如果只掌握在少數企業手裡,企業客戶為此會承擔更高的成本與代價。企業有自己獨特的資料,不敢交給閉源模型,因為有隱私和壁壘問題。為了資料可控、成本更低,需求端會倒逼開源持續存在。就像Android最終形成了自己的商業模式一樣,開源模型未來也會有類似廣告或服務的商業模式。06手機上的AGI——從推理到自主學習王晟:祥雨,階躍剛剛發佈了一個針對Android手機的Agent:GELab-Zero。這是測試成分更多,還是真的能在手機產業落地?張祥雨(階躍星辰):為什麼在這個時間我們要做GELab-Zero這樣的一個工作,是因為它是智能發展的必經之路。我看智能發展有兩條軸,橫軸乘以縱軸的面積,就是智能化水平:橫軸是“智能進化”:第一代是ChatBot,背後的演算法是NTP(Next Token Prediction);第二代是Reasoner,背後的演算法是RLVR(Verifiable Reward強化學習);第三代Agent是什麼?現在大家不知道。我自己擅作主張補上,它背後的演算法原理應該是“自主學習與線上學習”。我剛剛說的Transformer架構必然會有一次大的革新,指的是在這條橫軸上,我們正在走向下一代的路上。當然模型架構革新也只是一小塊,它屬於分層記憶機制建模的一部分。除此之外,自主學習和線上學習還需要解決如何進行環境探索、如何利用環境反饋、如何線上更新模型參數的問題。縱軸是“模態”:從語言、語音,到視覺多模態,再到最困難的具身智能。在具身和多模態之間,夾著一個“虛擬世界的具身”——就是像人一樣操作手機GUI。這比物理具身簡單,但比純文字複雜。我們要在這方面走出一步。GELab-Zero的技術路徑非常有特色:它是一個小模型,蒸餾了更大的視覺、語言模型的能力,通過搭建強化學習環境,賦予它在手機APP裡探索的能力。更關鍵的是,我們採用了“端雲結合”的能力:在必要時發出請求呼叫雲端模型,並且這兩個模型是協同訓練(Co-training)的,通過RL Trajectory共同形成梯度反傳。這是一個非常重要的技術創新點。07“老CV人”的反擊——顛覆Diffusion王晟:再問個問題,剛才那輪問題的延續。我看到你的老戰友何愷明最近也頻頻出手,最近發了兩個很重要的論文,一個是JiT(Just image Transformer),他覺得採用去噪的方法不太對,直接一把可能就預測圖像的結果了。還有一個是iMF(Improved MeanFlow)。它能夠變得比Diffusion更好嗎?張祥雨:對,不過這些工作也是在Diffusion框架上打補丁,並未真正“顛覆”Diffusion。愷明最近頻頻在生成模型基礎方向發力,原因很簡單:Diffusion這一套在“老CV人”的眼裡,是最不MakeSense的。它從一個分佈出發,加噪再去噪,這個過程沒有任何的語義,並且已經有很多工作展示了在diffusion過程中引入語義對齊可以取得顯著的提升,這更說明了原始的diffusion框架是有問題的。我解釋一下為什麼要這樣做。深度學習最喜歡的一個詞叫“端到端”——從已知分佈直接用一個深層神經網路一步達到結果。但在很長一段時間裡,模型的“單步推理能力”是不夠的。這就像在語言模型裡,單步推理不夠深,所以我們要引入CoT(思維鏈)。你可以認為視覺生成裡的“加噪去噪”,它的每一個Step就是一個CoT。但是!這個CoT跟語言的CoT不一樣,它不符合人類理解和形成圖像的過程。我們叫它“Bad CoT Pattern”——因為它沒有語義。不過,雖然聽上去不太合理,在“類Diffusion”框架下目前還沒有太好的去掉加噪-去噪過程的實踐。其他的框架,例如基於自回歸的圖像生成,也同樣有缺少語義和單步推理能力受限的問題。所以目前的研究趨勢,一方面是如何給Diffusion等框架引入更豐富的語義,例如剛剛提到的Semantic Alignment,又或者是生成理解一體化訓練,都屬於這個範疇。另一方面就是儘可能把框架做得更簡單、更為端到端,儘量減少人工引入的非語義的元素,愷明組最近的工作大都集中在這一塊。此外,也有人嘗試直接提升模型的單步推理能力,例如把loop transformer等latent reasoning工具引入圖像生成中,等等。王晟:我們再拉回到你做的這個非常重要的工作,為什麼不能是Memory被外掛,因為你說很多的上下文太長導致模型輸出不利,我們為什麼不能有一個模型專門去抽取,把Memory抽取更好的專用模型,再給到大模型。張祥雨:當然是可以的,像您說的在草稿紙上人類也會做這件事,這屬於外存。但是我們現在最主要的還是要建模智能體的記憶體,因為記憶是人類智能的核心元件之一。人腦的記憶機制是一個非常複雜的,而且分層的記憶機制,從已實現的短到長,比如最短的叫做感知記憶,也叫瞬時記憶;而稍微長一些、大概持續數秒的叫做短期記憶,也可以叫工作記憶。其中瞬時和短時的記憶,它的很多特性,比如無損性,比如說全連接的特性,今天transformer的上下文機制已經可以建模的很好了。真正棘手的是長期記憶的建模,我們現在主流的架構還做得不是很好,一個叫Episodic Memory(情境記憶),你會發現大量的論文都在做這一塊,它和fast weight update機制密切相關。還有一個叫做Semantic Memory(語義記憶),這個和slow weight update機制有關,這一塊用模型參數本身可以建模,它的難度在於怎麼Update。王晟:我記得Google剛發了一篇論文,不斷地Update模型參數。張祥雨:對,它那個是走向Online Learning非常必要的。王晟:今天的討論特別符合我們“穩態還是變態”的議題。我發現每一家頭部企業都有堅實的基本盤,但同時都在敞開胸懷擁抱變化。Transformer可能不是終局,GPU還在進化,而能源(比如我們投資的可控核聚變)和工程的挑戰才剛剛開始。這一波AGI可能剛剛起步,真正的蝴蝶效應,還在後頭。 (騰訊科技)
AGI只剩5–10 年!GoogleDeepMindCEO:必須把Scaling推到極限,還需1-2個Transformer級重大突破
前不久,在NeurIPS 2025大會上,Google推出了Transformer框架的最強繼任者:Titans+MIRAS。眾所周知,Transformer最大瓶頸在於,上下文無限擴展,會導致計算成本飆升。除了業界迭代的RNN、Mamba-2等架構,Google提出的新一代解決方案Titans+MIRAS,能夠把RNN速度和Transformer精準性相結合,可以讓 AI模型在運行過程中動態更新核心記憶,跑得更快,也能處理超長規模的上下文。與此同時,在最新採訪中,GoogleDeepMind CEO Demis Hassabis也對未來12個月AI的關鍵突破做出重磅預測!1、多模態深度融合Gemini 天生多模態,未來 12 個月會看到圖像、視訊、音訊與語言更深層的“能力互相催化”。他特別強調圖像模型(如 NanoBanana Pro)表現驚豔,能做精準圖表類輸出。2、世界模型DeepMind 的 Genie 3:可以生成視訊、還能像遊戲一樣走進畫面內部探索,並保持 1 分鐘的視覺一致性。這是“可互動 AGI”的重要原型。3、Agent 可靠性大躍升Demis說今天的 agents 不能完全委託任務,但 1 年內將逼近可託付等級。結合 Gemini 的“通用助理”概念:明年將更普遍出現在手機、電腦、眼鏡等裝置,成為人類生活的纖維層工具。在今年早些時候,Demis就公開表示我們將在2030年實現AGI。在最新採訪中,Demis又再次強調:我們距離實現AGI只有5-10年時間!他直言自己對AGI的標準很高:AI必須全面具備人類的所有認知能力,其中包括創造力和發明能力。他認為在達到AGI之前,還需要做兩件事:1、大語言模型的Scaling必須做到極限,Demis認為規模化“至少會成為 AGI 的一個關鍵組成部分,甚至就是全部”;2、還需要一兩個像Transformer、AlphaGo這樣的重大技術突破(全新架構Titans+MIRAS就是這個等級的)以下是Axios AI+峰會上,Axios聯合創始人Mike Allen與Demis Hassabis交談的全文,enjoy!諾獎之後的變化主持人:距你得知自己成為諾貝爾獎得主,只過去 400 多天。當時你說 “這太不真實了,這是最重要的那個獎”。從那之後,你的生活與工作發生了什麼變化?它帶來了什麼?Demis:到現在其實依然有點不真實,感覺還沒完全消化。但確實帶來了不少改變。最大的改變是,當你和 AI 領域之外的人交流,像政府高層,那些對 AI 瞭解不多的人,諾貝爾獎就像一個“通行證”,會讓他們立刻意識到你在這個領域確實是專家。我覺得未來在很多場合它會很有用。至於資源,你說得對,我們在 Google 和 DeepMind 本來資源就不少,雖然永遠不夠,計算力永遠不嫌多。但諾獎更多是給我一個平台,讓我能夠為重要議題發聲,比如 AI 安全。我過去發聲不多,但未來這會變得重要,可能我們今天也會談到。主持人:除了 AI 安全,你覺得未來你還會更常用你的平台談那些議題?Demis不僅是長期的 AGI 安全,當然那是我們持續關注的,另外我也會關注當下對 AI 的負責任使用。那些事情適合讓 AI 加速、增強?那些領域在短期內就需要我們更謹慎?還有,就是幫助整個社會為 AGI 做好準備。AGI 可能是人類歷史最具變革性的時刻之一,它已經在地平線上逼近了。社會、物種、政府,以及重要決策者都必須提前準備。而諾獎帶來的平台基本能讓我敲開任何一扇門,這會非常關鍵。主持人:你的獨特之處在於,你既深耕科學,又站在全球科技公司、超級平台、超級大國競爭的前線。同時你又有類似賈伯斯那種“產品直覺”,想做讓人讚嘆的產品,但你總說自己首先是科學家。Demis:是的,我首先是科學家。所謂“科學家”,是指我的默認思考方式就是“科學方法”。我認為科學方法可能是人類歷史上最重要的思想之一,它帶來了啟蒙時代、現代科學,甚至現代文明賴以運轉的體系:實驗、假設、驗證、迭代。我認為這種方法不僅適用於科學,甚至適用於日常生活和商業。我一直努力把這種方法做到極致。它讓我們在研究、工程和基礎設施上都追求極高的嚴謹性和精確性。是的,我們正處在科技史上最激烈的競爭中之一,但我們的優勢來自這種科學方法的根基,以及我們能夠同時做到世界級研究、世界級工程、世界級基礎設施建設——這三者缺一不可,而 DeepMind 在這三方面都保持著頂級水平。未來12個月 AI 會發生什麼?主持人:未來 12 個月,你認為世界會發生那些變化?如果明年這個時候我們還能坐在這裡,會看到什麼不同?Demis我們現在正在努力推進的是多模態能力的深度融合。Gemini 從第一天起就是多模態模型,能處理圖像、視訊、文字、音訊,現在也能產出這些模態的內容。多模態帶來非常多跨領域能力增強,比如我們最近的圖像模型 NoBanana Pro,它對於視覺的理解驚人,能生成精準的資訊圖。未來一年你會看到多模態的進一步突破,特別是視訊與語言模型的深度結合,將出現非常強的新能力。第二個重點是“世界模型”。我們現在有一個系統叫 Genie 3,它是互動視訊模型,你不僅能生成視訊,還能像在遊戲或模擬世界中一樣“走進去”,並保持一分鐘以上的連貫性,這是非常令人興奮的。第三是智能體(agents)。現在智能體還不夠可靠,無法完成完整任務,但未來一年會有明顯進展。主持人:今天在台上我們已經聽了很多關於 agents 的討論。一年後它們會發展到什麼程度?能給普通人一個具體例子嗎?Demis我們正在打造一個“通用助手”,最終希望 Gemini 能成為這種普適助手,它會出現在更多裝置上,不只是電腦和手機,甚至可能是眼鏡等隨身裝置。它會成為你日常生活中的一部分,每天多次向它求助,不僅提升工作效率,也改善個人生活,比如給予你喜歡的書、電影、活動的推薦。不過目前智能體還不能讓你完全“委派”一個任務並保證 100% 完成。但我認為一年後,我們會看到接近這種能力的智能體出現。AI最好的可能vs 最糟的擔憂主持人如果分“最樂觀”和“最悲觀”來說,你心中 AI 能給世界帶來的最好是什麼?最怕的又是什麼?Demis最好的情況,是我從年輕時就一直為之努力的願景,一種“激進豐裕(radical abundance)”。意味著 AI 解決了人類當下最大的難題:免費、清潔的可再生能源;或許突破聚變、突破電池、突破材料科學、半導體;治癒大量疾病。那會是一個“後稀缺時代”,人類繁榮,甚至走向星辰,向銀河擴散意識。但即便是烏托邦也會帶來問題:如果 AI 把所有難題都解決了,人類的目的感會發生什麼?作為科學家,我會擔心這一點,連科學方法本身也可能受到影響。主持人:那最糟的情況呢?Demis:顯然,AI 的兩個主要風險:1)壞人用它做壞事;2)隨著系統更接近 AGI、更具“能動性(agentic)”,它可能偏離人類初始目標,造成傷害。主持人:我快速列幾個風險,你告訴我你有多擔心:① 惡意分子利用 AI 製造病原體。Demis:是的,這是必須嚴格防範的風險之一。② 國家級駭客用 AI 對能源、水資源系統發動網路攻擊。Demis:這可能現在就已經在發生了,雖然 AI 還不算很先進。但這是最容易被攻擊的方向。因此我們在 Google 和 DeepMind 都在投入大量資源,用 AI 提升網路防禦能力。③ AI 自主運行,脫離人類控制。Demis:這與 agentic 系統的發展直接相關。它們越強、越自主,偏離指令的可能性也越大。現在研究的重點是如何讓能“持續學習”的系統始終待在安全護欄內。商業世界會強迫我們做到這一點,因為企業客戶會要求可靠性,否則他們不會購買,市場會淘汰不負責任的模型提供商。但AI“跳出護欄”的風險不是零,必須嚴肅對待。中美之間的差距只有“幾個月”主持人:在與中國的 AI 競賽中,美國在那些方面領先?那些方面落後?Demis:我認為西方和美國仍然領先,尤其從最新基準和系統表現來看。但中國並不遠,比如 DeepSeek 等最新模型都很優秀,團隊也很強。現在的差距可能只剩“幾個月”,而不是“幾年”。主持人:如果不談晶片,只看 AI 本身,中國是不是贏了?Demis:我認為即便不考慮晶片,在演算法創新上,西方仍然佔優勢。到目前為止,中國公司還沒有展示過真正突破性的全新演算法創新。關於 Gemini 3 的“細膩感”主持人:恭喜你們上個月推出了 Gemini 3。這款模型被稱為“遊戲規則改變者”,你們說它在推理的深度與細膩度上達到了前所未有的水平。能不能告訴我們,Gemini 3 的“細膩度”究竟獨特在那裡?Demis:我覺得最讓我們滿意的,不只是它的能力,還有它的“風格”,甚至可以說是某種“人格感”。我喜歡它回答問題時的方式:既能保持簡潔,又不會對使用者的話一味附和。如果你的觀點不太成立,它會溫和地指出問題。我認為很多使用者也感受到了這種變化,可以明顯感覺到它的智能層次以及整體實用性都上了一個台階。主持人:那有沒有什麼是 Gemini 做出來以後連你都覺得:“哇,我沒想到它竟然能這樣”?Demis:這其實就是我們為什麼如此熱愛這份工作的原因。現在這個時代,研究直接連著產品,這意味著數百萬,甚至在 Google 的規模下,是數十億使用者,會在第一時間使用你剛發佈的技術,然後他們總能立刻把模型玩出一些非常酷的新花樣,很多還會迅速傳播開來。我個人最喜歡的是 Gemini 3 能“一次性生成遊戲”的能力。這對我意義很大,因為我職業生涯最早就是做遊戲 AI 的。現在的模型已經非常接近可以在下一代版本中做到:你可能只用幾小時,通過“邊聊邊寫程式碼”的方式,就能做出接近商業品質的遊戲,而這些過去可能要花團隊多年才能完成。主持人:遊戲“一次生成”的能力,說明了模型的什麼特質?Demis:這說明了這些模型具備令人難以置信的深度理解能力:它們能夠消化非常高層次的指令,然後輸出極其具體與細節豐富的成果。另外,Gemini 3 在前端開發、網站設計方面特別強,美感與創造力兼具,同時技術上又非常穩健。主持人:Axios 寫過很多關於“連這些模型的創造者都無法完全理解模型”的文章。Gemini 3 有沒有什麼地方讓你覺得:“我其實也不完全理解它”?Demis:老實說,我覺得在座的所有人可能都有同樣的感覺,創新的速度太快了。我們幾乎把所有時間都花在建構這些系統上,卻沒有足夠時間真正探索它們的全部能力。每次發佈新版本時,我都會有一種強烈感覺:我甚至連當前系統能力的十分之一都沒來得及挖掘,因為我們馬上又得投入到下一輪的研發與安全測試中。於是很多情況下,最終是使用者比我們內部團隊更早發現這些系統的極限與可能性。為什麼會從其他路線“轉向”大模型?主持人:再問一個有關 Gemini 的背景問題。你們當時其實有很多研究方向,但你並不是一開始就把“大語言模型”當成最終路徑。作家Walter Isaacson告訴我,當你意識到 LLM 的力量時,你做了一個“轉身式大調整”,而且成功地實現了跨越式領先。按 Walter 的說法,大多數商業領袖可能會固執,堅持自己原本的方向。你是怎麼做出這個轉向、決定“ALL IN 大模型”的?Demis:這就是科學方法的力量,如果你是真正的科學家,你不能對某個想法太教條,你必須順著事實與實驗結果前進。Walter 說的是2017–2018 年左右的事情。當時我們並不確定那條路線能通往 AGI,我們有很多方向:我們有自己很強的語言模型(內部叫 Chinchilla、Sparrow 等),我們也在做 AlphaZero 那一類“純強化學習系統”,還有一些偏認知科學、神經科學啟發的架構。作為 DeepMind 的負責人,我的任務是:盡快、安全地建構 AGI,而不是押注某條特定路線。所以我對方法其實很務實,理論可以有,但最終標準是“能不能行得通”。當我們開始看到“規模化”開始真正起效時,我們就逐漸把更多資源轉向語言模型這條研究分支。距離AGI還有5-10年主持人:你對人工通用智能(AGI)從不迴避,有些人說“我們不知道”,或者甚至說“已經有了”,但你會明確說:“我們還沒到,但已經很近”。到底有多近?Demis:我們現在肯定還沒到。但我確實認為很接近了。如果讓我給個時間窗口,我的判斷是5 到 10 年。不過我對 AGI 的標準很高:我們定義的 AGI 是一個擁有所有人類認知能力的系統,包括創新與創造力。雖然今天的 LLM 在某些方面已經驚人地強大,像博士水準甚至金牌等級,但也仍然存在明顯缺陷,能力不平衡(所謂“鋸齒型智能”)。而且還缺少持續學習、線上學習、長期規劃、深層推理這些關鍵能力。我認為未來它們能做到,但可能還需要“一兩次真正的大突破”。主持人:那我們能僅靠 LLM 的規模化與改進實現 AGI 嗎?還是還需要別的方法?Demis:這是一個實驗問題,但我的最佳判斷是:規模化必須做到極限,它至少會成為 AGI 的一個關鍵組成部分,有可能甚至就是全部。不過我個人認為,很可能在事後回看時,我們會發現除了規模化之外,還需要再來一兩次類似“Transformer 或 AlphaZero 那種等級的突破”。AI 產業是否正在形成泡沫主持人:回到行業層面。投入這麼大,會不會形成足以衝擊經濟的大泡沫?Demis:我認為不是非黑即白。行業某些部分確實可能已經泡沫化,比如某些荒唐的天價種子輪融資,這可能不可持續。但另一方面,我比任何人都相信 AI 會成為最具變革性的技術,所以長期看,這些投入最終都會被證明合理。作為 Google DeepMind 的負責人,我的工作就是:無論泡沫破不破,我們都要處於最佳位置。主持人:AI 人才大戰正在瘋狂升級,最終會走向什麼?Demis:確實現在有點誇張,比如 Meta 的一些舉動。但對我們來說,我們要的是“使命驅動的人”。我們擁有最好的使命、最完整的技術堆疊,如果你想做影響世界最大的工作,沒有比 Google DeepMind 更好的地方。而且頂尖科學家與工程師都會想在最靠前的系統上工作,這會形成一個正循環。AI 會不會發展出“自我利益”主持人:很多人擔心 AI 會不會發展出自己的“利益傾向”。你覺得可能嗎?Demis:這是一個嚴肅的問題。如果未來高度自主的系統真的出現了某種“自我利益”,而這種利益又與設計者、甚至與人類整體意願衝突,那確實可能導致風險。這是所有“智能體AI”必須謹慎考慮的問題。人類可能通過腦機介面來跟上AGI主持人:你還是個玩家。遊戲教給了我們什麼?對 AI 的未來有什麼啟示?Demis:我的棋類背景與遊戲經驗對我的科研與管理影響很大。最好的遊戲(比如象棋、圍棋、撲克)都是現實某些面向的縮影,但區別在於現實中你往往只有寥寥幾次關鍵決策機會,而在遊戲中你可以不斷練習、不斷提升決策能力。如果你認真對待遊戲,把每次決策都當成真實的判斷,它確實能訓練你的思維方式與規劃能力。主持人:你說過,我們的大腦其實是為了做“採獵者”而進化的。但現在我們面對的變革規模是工業革命的十倍、速度是十倍。人類跟得上嗎?包括你自己?Demis:我提“採獵者大腦”的重點其實恰恰是:人類極其適應性強。我們從遠古自然走到現代城市文明,用的還是同一顆大腦。這說明我們本身就是通用智能的最佳例子,我們可以適應各種環境。未來當 AGI 出現後,我們可能會發明新的技術(比如腦機介面),有些人可能會選擇將它們作為自身能力的擴展,那也可能是我們保持同步的一種方式。AI 將如何改變未來的世界盃主持人:你是終身利物浦球迷,也給他們做過分析。AI 將如何影響未來在北美舉辦的世界盃?Demis:已經有很多球隊來找我們,希望獲得幫助。當然我必須儘量保持中立。但從本質上講,體育有巨大且細緻的資料,而且追求極致的表現,是 AI 介入並產生巨大價值的天然場景。 (51CTO技術堆疊)
下一個Transformer可能又被Google做出來了
如果把現在的頂尖大模型比作一個人,那它一定患有一種罕見的神經系統疾病:順行性遺忘症(Anterograde Amnesia)。這是 Google Research 研究員、最近最受關注的一篇論文《Nested Learning: The Illusion of Deep Learning Architectures》第一作者 Ali Behrouz 拋出的一個讓所有人陷入沉思的比喻。看過諾蘭的電影《記憶碎片》(Memento)的人更能理解這種絕望。這種病症的患者擁有完好的“過往記憶”(Retrograde Memory),他們記得發病前的一切,我是誰,我來自那裡,我有什麼技能。但對於發病後發生的所有事情,他們永遠無法形成“新的長期記憶”。他們只能活在短暫的“當下”,幾分鐘後,一切就會被重設。這就是現在 AI 模型的真實寫照。無論Gemini或是ChatGPT多麼博學,如果不聯網搜尋,它們都只能依靠預訓練階段獲得的出廠知識(也就是“發病前”的記憶)來回答問題。而在對話窗口裡,無論你教給它多少新公司的業務邏輯,或者糾正了它多少次程式碼錯誤,這些資訊都只停留在短暫的上下文窗口裡。一旦窗口關閉,或者視訊記憶體被重設,它就像金魚一樣,把剛才發生的一切忘得乾乾淨淨 。下一次見面,它依然是那個出廠時的它,絲毫沒有因為與你的互動而變得更聰明一點。為什麼擁有超級算力的 AI,卻治不好這個健忘症?長期以來,行業有一種二元對立的看法,認為 AI 的“架構”(Architecture)和“最佳化器”(Optimizer)是兩個截然不同的物種。架構是骨架(如 Transformer),它是靜態的,出廠即凍結,負責“推理”。“最佳化器”是雕刻刀(如 Adam、SGD),它是動態的,只在工廠裡用來訓練模型,出廠後就被沒收了。我們習慣了把 AI 當作一個靜態產品,訓練好了,打包發佈,使用者只管用。但在 Google 最新發佈的 52 頁硬核論文《Nested Learning: The Illusion of Deep Learning Architectures》(巢狀學習:深度學習架構的幻覺)中,研究團隊試圖告訴我們,這其實是一種幻覺,是我們人為製造的自我設限。如果架構和最佳化器本質上是同一個東西呢?如果並沒有所謂的“訓練階段”和“推理階段”之分,一切都只是不同頻率的“記憶壓縮”過程呢?基於這個大膽的假設,Google 團隊提出了一個名為 HOPE 的新框架。他們並沒有簡單地堆砌參數,而是試圖從底層邏輯上重構 AI 的“大腦結構”,讓它不再是一個出廠即固化的工具,而是在每一次互動中都能微調自己、擁有“快慢記憶系統”的動態生命體。而這篇論文也被不少人稱為“Attention Is All You Need V2”,這篇論文提出的Transformer 架構成就了今天大模型的火熱,而HOPE讓人們期待它成為下一個Transformer 等級的創新。Ali Behrouz 在 NeurIPS 2025 現場講解Nested Learning。拆解“幻覺”:被遺忘的中間地帶要治好“健忘症”,我們首先得看看現在的 AI 大腦裡到底裝了什麼。在 Ali Behrouz 的解構下,目前的 Transformer 架構呈現出一種極端的“精神分裂”狀態。如果不使用複雜的數學術語,我們可以把它的內部元件看作兩個極端:一個是“極快”的 Attention(注意力機制)。它時刻處於亢奮狀態,對你輸入的每一個字(Token)都進行瞬時的計算和響應。它的更新頻率幾乎是無限的,這讓模型擁有了所謂的上下文學習能力(In-Context Learning),你剛說的話,它馬上就能用。另一個是“極慢”的 MLP(前饋神經網路)。它是模型的長期記憶庫,承載了絕大多數參數。但它的更新頻率是 0。這部分像一塊凍結的硬碟,除非你耗費巨資進行全量微調(Fine-tuning),否則它永遠不會改變。在這兩者之間,存在著一個巨大的真空地帶。這就是“幻覺”的根源。人類的大腦並不是這樣工作的。我們的記憶是一個連續的頻譜,我們有幾秒鐘的感官記憶,有幾小時的工作記憶,也有幾天甚至幾年的長期記憶。我們的腦突觸並不是非黑即白,而是以各種不同的頻率在不斷微調。為了填補這個真空,Google 團隊提出了 Nested Learning(巢狀學習) 的概念。我們可以把它想像成一套精密咬合的齒輪系統”:最外層的小齒輪轉得飛快(處理當前的對話);中間層的齒輪轉得稍慢(記住過去幾小時或幾天的任務);最裡層的大齒輪轉得極慢(沉澱世界觀和基礎知識)。為了證明這種統一性在生物學上的合理性,他甚至在論文中引用了一個非常硬核的神經科學案例,半球切除術(Hemispherectomy) 。醫學發現,即使切掉人類的一半大腦,通常是為了治療嚴重癲癇,剩下的一半腦組織也能通過重組資源,接管幾乎所有功能,人依然能正常生活。這說明大腦並沒有什麼“專門負責 Attention 的模組”或“專門負責 MLP 的模組”,神經組織是通用的、可復用的。同樣的道理,AI 的“架構”和“最佳化器”本質上也是同一種東西,只是處於不同的巢狀層級:傳統的模型記憶的是“資料”(Token);最佳化器(如 Adam)記憶的是“梯度”(Gradient)。即“我上次在這個地方犯了錯,下次要修正” 。既然都是在“記憶資訊”並“更新狀態”,為什麼我們要把它們人為地割裂開來?也許我們不需要在這個二元對立的框架裡修修補補,可以直接設計一個全頻率覆蓋的動態系統。HOPE 的三層設計基於 Nested Learning 的理論,Google 團隊交出了一份具體的工程答卷,還起了一個充滿寓意的名字:HOPE (High-order OPtimization and Expressivity)。如果說傳統的 Transformer 是一個只有短期記憶的“單核處理器”,那麼 HOPE 更像是一個符合神經科學原理的“雙重記憶大腦”。它通過兩個元件,復刻了類似生物大腦中海馬體(Hippocampus)與大腦皮層(Cortex)的協作機制 。1. 快系統:像海馬體一樣敏銳的 Titans在 HOPE 的最前端,是處理即時資訊的“快系統”。這裡 Google 使用了論文一作 Ali Behrouz 之前的另一項成名作Titans。你可以把 Titans 理解為一種“超級 RNN”。它就像人類靈活的海馬體,負責快速捕捉和編碼當下的新知。傳統的 AI 模型在處理新資訊時是被動的,但 HOPE 裡的 Titans 模組具有極強的“主觀能動性”,它是 Self-Modifying(自我修改) 的。它不僅是在讀取資料,更是在根據當前的上下文,即時生成自己這一步學習所需要的 Key、Value,甚至自己決定這一次記憶的 Learning Rate(學習率) 。這意味著,它能敏銳地判斷眼前資訊的重要性,快速形成短期記憶。2. 慢系統:像皮層一樣厚重的 CMS這是整個架構中最具顛覆性的設計。HOPE 引入了 Continuum Memory System (連續記憶系統,CMS)。CMS 就像是厚重的大腦皮層,負責將經過篩選的知識長久地刻印在神經元中。Google 將人腦電波的頻率機制引入了 AI 架構設計,建構了不同更新頻率的層級在 CMS 中,模型內部的 MLP(前饋網路)不再是鐵板一塊,而是被切分成了不同的層級,就像不同轉速的齒輪:高頻層: 可能每處理幾百個字就更新一次,用於捕捉剛才對話裡的新定義。中頻層: 可能每處理幾萬字更新一次,用於適應一個新的項目背景。低頻層: 幾乎不更新,用於穩固語言的語法和常識 。左側的 HOPE 架構擁有豐富的中間層級這種設計避免了災難性遺忘。當新知識湧入時,它會被優先儲存在高頻層,而不會去驚擾低頻層裡的舊知識。隨著時間的推移,真正重要的資訊才會像沙漏裡的沙子一樣,慢慢沉澱到深層。3. 最佳化器也有了“記憶”Google 的激進之處在於,他們不僅改造了大腦(架構),還改造了老師(最佳化器)。為了配合這就這套複雜的系統,他們設計了一個名為 M3 (Multi-scale Momentum Muon) 的新最佳化器。既然模型分了層,最佳化器為什麼不能分層?普通的 Adam 最佳化器只看眼前的梯度(Local Structure),容易陷入短視。而 M3 最佳化器本身也被設計成了巢狀結構,它有一層“快動量”負責看腳下的路,還有一層“慢動量”負責看遠處的山脈(全域 Loss Landscape)。這意味著,連負責訓練的演算法本身,都擁有了更深遠的記憶力。M3 最佳化器在 ImageNet 訓練任務中,展現出了更快的收斂速度和更低的 Loss實驗資料顯示,這種設計在 ImageNet 和大語言模型訓練上,不僅收斂更快,而且最終效果更好。4. 給工程師的“後悔藥”對於工業界的開發者來說,HOPE 最迷人的地方可能不是從頭訓練一個新模型,而是它提供了一種“原地改造”的可能性。Ali Behrouz 在分享中提到了一個名為 Ad-hoc Level Stacking 的技巧,你不需要拋棄手裡現有的 Llama 或 Qwen 模型。你可以直接拿來一個預訓練好的模型,人為地將它的不同層指定為不同的“更新頻率”,把淺層設為高頻,深層設為低頻 。這就像是給一輛已經出廠的舊車,通過刷新韌體就解鎖了自動駕駛功能。這一特性,讓 Nested Learning 成為了一個工程方案。從“靜態產品”到“動態生命”我們把視角從程式碼行中抽離出來,會發現 Nested Learning 真正的野心,不在於刷榜,而在於試圖完成一次 AI 領域的範式轉移。在 NeurIPS 的分享最後,作者提出了一個發人深省的觀點,“深度(Depth)也許不再是唯一的答案。”過去十年,我們一直在堆疊物理層數,把神經網路做得越來越深。這種暴力美學確實帶來了湧現能力,但它也製造了一個巨大的“幻覺”,誤以為智能來源於靜態的深度。而忽略了真正的深度可能來自於巢狀的最佳化。更進一步,論文中提出了一個極其激進的定義:“預訓練本身,其實就是一種超長上下文的 In-Context Learning。”這句話消解了 AI 領域最大的邊界。在 Nested Learning 的願景裡,沒有所謂的“訓練結束”這一天。模型在與使用者互動的每一秒,都在以某種微小的頻率更新自己的突觸。它不再是一個冰冷的、出廠即固化機器,而是一個在資料流中不斷呼吸、代謝、進化的有機體。這或許才是通往 AGI更本質的道路,智能不是被灌輸的,而是在互動中生長的。當然,任何試圖顛覆範式的理論,註定會伴隨著巨大的爭議。這圍繞這篇論文討論區裡,聲音很多樣。樂觀者將其視為 "Attention Is All You Need V2"。社區對於自我修改這一概念尤為著迷。長期以來,我們一直詬病 LLM 只是“統計學的鸚鵡”,而 HOPE 讓 AI 第一次擁有了某種“元認知”能力,即學習如何學習。這種從被動擬合到主動適應的跨越,被認為是 AI 產生質變的關鍵。實用主義者則看到瞭解決災難性遺忘的曙光。如果這一架構能落地,未來的企業級 AI 將不再需要為了更新一點點業務知識而耗資百萬進行全量重訓,AI 可以在業務流中自然地學會新規章,同時不忘記舊制度。這是對降本增效是最直接的。質疑者也大有人在。比如有評論指出,論文中將 SGD(梯度下降)強行解釋為“聯想記憶”的數學證明雖然精彩,但更多依賴直覺,缺乏嚴謹的收斂性保障。更有工程師擔心,這種複雜的“巢狀最佳化”會讓調參難度呈指數級上升,畢竟,調一個 Adam 已經夠頭疼了,現在我們要同時調好幾個不同頻率的“大腦”。但無論如何,Google 這一次沒有在參數量上卷,而是在“學習的本質”上開了一槍。它用一種近乎哲學的方式提醒我們,對於一個真正的智能體來說,存在就是壓縮,活著就是學習。 (矽星人Pro)
Transformer作者爆料GPT-5.1內幕!OpenAI內部命名規則變亂了
我們正在經歷一次靜悄悄、但本質性的AI範式轉換。它的意義不亞於Transformer本身。過去一年裡,關於AI發展,出現了兩種觀點的分化:一邊是“AI增長放緩、模型到頂、預訓練無用論”另一邊則是隔三差五就來一次“AI大周”:GPT-5.1、Gemini 3、Grok 4.1。而Transformer作者之一、現任OpenAI研究科學家的Łukasz Kaiser最近接受採訪,給出了第一視角的解答。資訊量極大,包括AI的底層範式轉變、GPT-5.1的命名規則、未來AI的發展趨勢……以及Transformer誕生背後的二三事。AI不是變慢了,而是換代了。GPT-5.1不是簡單的小版本迭代,OpenAI內部版本命名規則有所變化。多模態推理將會成為下一個突破點。AI不會讓人類完全失去工作。家用機器人是繼ChatGPT後最可見的AI革命。下面一起來康康詳細內容:AI發展沒有放緩,而是平穩增長過去一年裡,有關“模型進展變緩”的聲音層出不窮,但Łukasz認為這種看法是錯誤的。他給出的解釋也很直白:從內部視角看,AI的能力增長是一條非常平滑的指數曲線。這類似於摩爾定律,幾十年來摩爾定律始終有效,甚至在GPU的推動下還在加速,歸根結底也是因為它歷經了數代技術的迭代。因此,AI從外部看,趨勢是平穩的;而從內部看,其進步也離不開新技術、電腦能力的提升和工程最佳化的共同作用。至於為什麼會有人覺得“變慢了”,原因無它:AI的底層範式,已經悄悄從預訓練轉向推理模型。這也是繼Transformer誕生後的又一次關鍵轉折。如果把技術發展的過程描述為一條S型曲線(起步→快速增長→平穩期),那麼預訓練就處於S曲線的上升後期,而推理模型仍處於初期。不過這並不意味著預訓練的Scaling Laws就失效了,它仍在發揮作用,只是和新的推理範式相比,需要投入更多的資金。所以出於經濟上的考量,業內人士開始普遍將工作重心轉向更小也更便宜,但質量相同的模型,所以這也是導致外界認為預訓練已經停止的原因之一。那麼回到推理模型上,由於該範式還處於新興階段,進步速度會相當之快。以ChatGPT為例,GPT-3.5會直接基於訓練資料記憶給出答案,而不會借助任何外部工具和推理,反觀現在最新的ChatGPT會主動瀏覽網站、進行推理分析,再給出精準答案。對於普通使用者來說,如果不仔細對比,可能會覺得二者差異不大,但實際上這背後是性能質的飛躍。又比如說Codex,程式設計師的工作方式已經在近幾個月裡轉變為“Codex先處理,然後人工微調”的模式,這種變化其實相當之徹底,但如果不是專業從事程式設計工作,自然不會留意到這種根本性變革。所以總的來說,這一切的變化都發生得太快,以至於讓人們還未曾察覺到其中的變化。而推理模型的本質其實也與基礎大模型類似,只是在給出最終答案前,會優先進行思考,也就是所謂的思維鏈。在思考過程中,模型被允許使用工具,例如瀏覽網頁,以給出更準確的答案。其推理過程也會被視為模型的一部分並接受訓練。相比於傳統的深度神經網路梯度下降訓練,推理模型則更多使用的是強化學習。具體來說,強化學習會通過獎勵機制推動模型獲取更好的答案,也需要研究人員提供更細緻的資料準備,以完成強化學習的參數調整。然後通過強化學習,模型就能學會對自身錯誤的糾正。後續行業也會繼續轉向更複雜的強化學習,例如借助一個大模型來判斷答案的正確性或偏好度,或者融入更多的人類偏好。總之,未來強化學習的應用範圍會更加廣泛,不僅僅適用於特定領域,還能處理更多通用資料,比如說多模態推理,雖然最近Gemini已經能夠在推理過程中生成圖像,但整體來說還處於剛剛起步的階段,相信在強化學習的幫助下會有進一步的提升。GPT-5.1絕非表面上的小版本更新關於最近發佈的GPT-5.1,Łukasz也釋出了更多細節。GPT-5.1看起來只是小版本更迭,實際從內部來講,是一個巨大的穩定性迭代。首先回到最初的GPT-4到GPT-5,簡單來說,得益於強化學習和合成資料的應用,GPT-5的推理能力明顯提升了。而到GPT-5.1的改進,則更多集中在後訓練階段,比如增加安全性、減少幻覺,以及加入了如書呆子、專業等多種風格選擇。版本的命名方式也不再與技術細節掛鉤,轉而以使用者體驗為導向,比如GPT-5是基礎能力較強的模型,GPT-5.1是能力更優的版本,Mini是更小、更快、更廉價但性能稍弱的模型,推理模型則專注於複雜任務。這種命名方式的轉變也為OpenAI內部帶來了更多靈活性,現在強化學習、預訓練、幻燈片最佳化等多個項目平行工作,然後通過蒸餾技術就能將多項目成果整合到一個模型中。這大大縮短了模型迭代時間,可以更好地滿足使用者體驗需求,所以GPT-5.1看似是小版本更新,實則背後是OpenAI基於使用者對其能力和目標預期做出的策略調整。不過坦白地講,GPT-5.1在部分能力上仍然存在短板。比如Łukasz用自己5歲的女兒舉了個例子——GPT-5.1能夠遊刃有餘地解決奧林匹克競賽題,但在面對小學一年級的數奇偶數題目上卻錯誤百出。該題目內容是,圖中有兩組點,中間有一個共享點,問總點數是奇數還是偶數。5歲的孩子能夠在10秒內就算出答案(因為共享點的存在導致總點數為奇數),但無論GPT-5.1還是Gemini 3都會自動忽略這個共享點,誤判為偶數。這主要還是因為模型缺乏足夠的多模態能力,也未能將一個問題的推理經驗遷移到相似場景中,所以後續他們將會在訓練中進一步強化多模態推理和上下文推理遷移能力。從GoogleTransformer走向OpenAI而作為Transformer的作者之一,Łukasz也在訪談中補充了很多誕生細節。Łukasz自己原先是一名專注於理論電腦科學的學者,高中時就對數學和電腦充滿興趣,並在德國獲得了理論電腦科學與數學博士學位。他一直對“思維是如何運作的”、“智能的本質是什麼”諸如此類的問題充滿好奇,也曾在法國獲得終身教職,從事邏輯和程式設計研究。直到深度學習興起,他加入了Google。先是成為了Ray Kurzweil團隊的一員,後轉至Google Brain,開始與Ilya Sutskever等人合作。在開發Transformer的過程中,Łukasz主要負責編碼和系統工作,參與TensorFlow框架的開發。不過有趣的是,據他回憶,Transformer論文的八位共同作者從未在同一個物理房間中共同出現過。而雖然他們彼此之間素未謀面,但他們通過不同角度共同建構了這個模型:有人專注於注意力機制本身,有人研究如何通過前饋網路儲存知識,還有人複雜解決工程實現問題,比如他自己。從現在的角度看,Transformer毫無疑問是當今AI架構的里程碑,但在當時,很多人對用同一個模型處理多個任務的想法並不理解,他們普遍認為不同任務就應該分別訓練不同的專有模型。而他們八個人堅信自己的選擇,後來的事實也證實了他們的想法是正確的。關於之所以離開Google,轉投OpenAI,其中一個原因還是因為llya。llya在Google時期就是Łukasz的直系領導,在創辦OpenAI後也屢次邀請他加入。剛好這時,Łukasz也無法適應Google Brain的團隊規模擴大以及遠端工作氛圍,於是一拍即合,來到了OpenAI。OpenAI也沒有讓他失望,這裡沒有嚴格的組織架構,都是根據項目自發組隊,也會根據項目進展靈活調整,直到項目成熟才會逐步擴大團隊。當然不同項目之間也會存在資源競爭,畢竟OpenAI內部GPU資源有限。從技術層面看,預訓練目前消耗的GPU資源最多,其次是強化學習和視訊模型,資源分配在很大程度上還是由技術需求決定。所以競爭不可避免,Łukasz本人也不例外。下一次突破來自多模態推理+具身智能最後,Łukasz聊了聊他眼中的AI未來。AI會改變工作,但不會讓工作消失。因為從產品層面上看,即使AI自動化了絕大部分任務,但人類專家的需求仍然存在。以翻譯行業為例,其實Transformer論文最初的應用場景就是翻譯,現在的模型也能精準翻譯西班牙語、法語等語言,但對於報紙廣告乃至ChatGPT UI介面,仍然需要人類譯者進行二次稽核。這本質上是信任問題,即使模型能力再強,對於一些高風險、高關注度的場景,還是會傾向於依賴人類專家經驗。只是說,對於另外一些基礎工作,可替代性會變高,後續也會出現相應的工作內容變化,但歸根結底不會讓人類無事可做。Łukasz還預計,家用機器人可能會成為“下一次更為直觀的AI革命”。機器人技術的進展,取決於多模態能力和通用強化學習、通用推理的進步。一旦這些領域取得突破,機器人技術必將迎來爆發式增長。目前已經有很多矽谷公司在相繼推出智能手遙操作等硬體產品,硬體基礎也將迅速成熟,屆時將協同多模態和物理世界推理能力,實現家用機器人的能力躍遷。這將會比ChatGPT更直觀、更易感知。 (量子位)
李飛飛最新萬字訪談:未來五年,Transformer 可能被淘汰
11月24日,史丹佛大學教授、World Labs創始人李飛飛參加播客訪談,詳細闡述了她對空間智能(Spatial Intelligence)的構想,並討論她與楊立昆在世界模型(World Models)上的不同觀點流派問題。在世界模型的建構上,李飛飛與前Meta首席科學家楊立昆(Yann LeCun)的理念常被外界視為兩種流派。楊立昆傾向於讓模型學習世界的抽象“隱式表徵”,而不必還原每一幀像素;而李飛飛的Marble則力求從抽象的內部表徵中產生顯式表徵,明確輸出可視化的3D世界。李飛飛並不認為兩者是對立關係,她表示如果最終要建構一個通用的世界模型,隱式表徵和顯式表徵最終都是必要的。World Labs採用的是“刻意為之”的顯式輸出,因為其商業目標服務於遊戲開發、視覺特效和建築設計等領域的人類創作者,他們的日常工作需要一個可視化的、可互動的3D輸出結果。但在模型內部,RTFM同樣包含隱式表徵。她認為,未來的架構將是兩者的混合體。作為World Labs的創始人,李飛飛在訪談中透露了公司的首個產品Marble,以及其背後的技術底座“即時幀模型”(RTFM)。與單純生成視訊的模型不同,Marble致力於生成具有一致性和持久性的3D空間,其模型不僅是多模態的,支援文字、圖像、視訊甚至粗略的3D佈局作為輸入,更重要的是它試圖在推理過程中保持物體一致性。她說,目前的LLM主要通過海量的文字資料學習,雖然語言模型令人驚嘆,但人類大量的知識是無法僅通過語言捕捉的。為了建構真正的通用人工智慧,AI必須走出文字的限制,通過視覺和行動去體驗物理世界。人類的學習過程本質上是具身(Embodied)的,我們在沒有語言的情況下與世界大量互動,感知光線、觸覺、重力和空間關係。當被問及目前的AI是否真正“理解”物理世界時,李飛飛認為,目前大多數生成式視訊中展現的水流或樹木擺動,並非基於牛頓力學計算,而是基於海量資料的統計學湧現。雖然AI可能通過資料擬合出運動定律,但要達到愛因斯坦提出相對論那種層面的抽象,目前的Transformer架構尚未展現出足夠的證據。對於技術的演進速度,李飛飛認為在五年內,我們有望看到AI在理解物理世界方面取得重大進展。她描繪了一個基於“多重宇宙”(Multiverse)的未來圖景:通過大幅降低3D內容生成的門檻,人類可以低成本地創造出無數個平行世界,這些數字平行世界將成為人類物理體驗的無限延伸,重塑娛樂、教育、遠端協作以及科學探索等多個領域場景。李飛飛訪談內容劃重點:1. 空間智能是核心僅靠語言不足以建構通用人工智慧(AGI)。人類大量智能(如空間推理、急救反應)是非語言的。AI必須獲得“空間智能”(Spatial Intelligence),要像生物一樣,擁有深度感知的空間能力,建立起看、做和想像之間的完整閉環。2.世界模型的新範式World Labs 的核心產品 Marble 與普通視訊生成模型的最大區別在於“物體恆常性”(Object Permanence)。在 Marble 生成的世界裡,當你轉身再轉回來,背後的物體依然存在且保持原狀,而不是像夢境一樣隨機變形。李飛飛團隊提出了“即時幀模型”(RTFM),其目標是在單張 H100 GPU 的算力約束下,實現高效的 3D 空間推理。這是為了建構一個在幾何上一致、在時間上持久的“數字容器”,為未來能夠理解物理法則的 AI 打下地基。3. 與楊立昆和而不同楊立昆主張世界模型要做抽象理解的“隱式表徵”,李飛飛的Marble則力求從抽象的內部表徵中產生顯式表徵。李飛飛認為隱式表徵和顯式表徵最終必須融合,但目前 World Labs 刻意選擇輸出顯式 3D 表徵,目的是賦能人類。未來的AI 不應只是一個黑盒,而應成為遊戲開發者、建築師和藝術家的“神經空間引擎”(Neural Spatial Engine)。它融合了傳統物理引擎(如Unreal)的確定性規則和生成式 AI 的統計創造力,讓普通人也能瞬間建構複雜的 3D 互動世界。4. 視覺領域的“Next Token”難題語言模型有完美的“預測下一個Token”作為目標函數。但在視覺領域,“預測下一幀”雖然強大但並不完美,因為它將三維世界壓縮為二維,丟失了結構資訊。尋找視覺領域的“通用任務函數”仍是未解之謎。5. AI目前還不懂物理AI生成的物理現象(如重力、碰撞)多源於統計規律的模仿,而非對物理定律的因果理解。現有的Transformer架構可能難以產生如“相對論”般的高級抽象,未來五年,行業需要尋找一種新的架構突破,讓 AI 從統計相關性跨越到真正的因果邏輯和物理推理。以下為李飛飛訪談實錄:主持人:歡迎收聽本期播客。在這一集中,我很榮幸再次與人工智慧先驅李飛飛博士對話。幾年前我曾在播客上邀請過飛飛,我也推薦大家去聽那一期節目。在今天的對話中,我們將探討她關於“世界模型”(World Models)的見解以及“空間智能”(Spatial Intelligence)的重要性——這些都是打造真正理解現實世界並能與之互動的 AI 的關鍵要素。雖然大型語言模型(LLMs)已經非常驚人,但大量(甚至大部分)人類知識並未被文字所捕捉。為了實現更廣義的人工智慧,模型需要親身體驗世界,或者至少通過視訊來學習。我們還討論了她的創業公司 World Labs 以及他們的第一個產品 Marble。Marble 可以從模型的內部表徵生成令人難以置信的複雜 3D 空間。1. 從電腦視覺到空間智能的演進主持人:我想先把話題從Marble 和你們那個能生成一致且持久的、供觀眾漫遊的 3D 世界的新模型上移開,多談談你為什麼把重點放在世界模型和空間智能上。為什麼這是超越單純語言學習的必要條件?另外,你的方法與楊立昆的方法有何不同?你現在的世界模型工作,究竟是你過去在環境智能(Ambient Intelligence)工作的延伸,還是平行的另一條路線?李飛飛:過去幾年我一直思考的空間智能工作,實際上是我整個電腦視覺職業生涯重點的延續。我之所以強調“空間智能”,是因為我們的技術已經發展到了這樣一個階段:其複雜程度和深層能力已經不再停留在僅僅“盯著”一張圖像的層面,甚至不僅僅是簡單的視訊理解。現在的核心是深度感知的空間,這與機器人學、具身智能(Embodied AI)以及環境智能都緊密相連。從這個角度看,這確實是我在電腦視覺與 AI 領域職業生涯的自然延伸。主持人:正如你和其他許多人所指出的,語言模型是從以文字編碼的人類知識中學習的,但那只是人類知識的一個非常有限的子集。人類的學習是通過在沒有語言的情況下與世界大量互動獲得的。因此,如果我們要超越當前這些雖然了不起但仍有侷限的大型語言模型,開發出能對世界有更直接體驗、能更直接從世界中學習的模型就顯得尤為重要。談到具體方法,以Marble 為例,你的做法是將模型學到的世界內部表徵提取出來,並建立一個與之對應的外在視覺現實。而楊立昆的方法主要是建立內部表徵,讓模型能夠學習運動物理定律之類的東西。這之間有平行關係嗎?這兩種方法是互補的,還是有重疊?李飛飛:首先,我不會把自己和楊立昆對立起來。我認為我們在智力上處於同一個連續體中,只是對空間智能和世界建模採取了不同的切入點。如果你讀過我最近發表的那篇關於“空間智能”的長文(我稱之為宣言),我在這一點上說得很清楚。我認為,如果最終要建構一個通用的、全能的世界模型,隱式表徵(Implicit Representation)和某種程度的顯式表徵(Explicit Representation)最終可能都是必要的,尤其是在輸出層。例如,World Labs 目前的世界模型 Marble 確實會顯式地輸出 3D 表徵,但在模型內部,它同時也包含隱式表徵。老實說,我認為這兩者最終都是不可或缺的。在輸入模態方面也是如此。是的,從視訊中學習非常重要,畢竟整個世界可以看作是大量連續幀的輸入。但真正的智能,無論是對於動物還是機器,不僅僅是被動觀看。它還涉及到動作、互動的具身體驗,以及觸覺、聲音、氣味、物理力(Physical Forces)、溫度等。因此,我認為這在本質上是深度多模態的(Deeply Multimodal)。Marble 作為一個模型只是第一步。在我們幾天前發佈的那篇技術報告中,我們要表達得相當明確:多模態既是一種學習範式,也是一種輸入範式。目前學術界對此有很多討論,這也展示了該領域正處於早期且令人興奮的階段。可以說,我們在確切的模型架構和表徵方式上的探索還遠未結束。2. 超越文字:多模態輸入與學習範式主持人:在你那個世界模型中,輸入主要是視訊嗎?李飛飛:如果你體驗過Marble,你會發現我們的世界模型輸入是相當多模態的。你可以只使用純文字,也可以使用一張或多張圖像,可以處理視訊,甚至可以輸入粗略的 3D 佈局(比如盒子或體素)。它是多模態的,而且我認為隨著我們的推進,這方面的能力會進一步加深。文字只是一種形式。是的,但這正是我們產生分歧的地方。大多數動物並不是通過複雜的語言來學習的,但人類是。不過,我們今天的AI 世界模型(World Models)將從大量的語言輸入以及其他模態中學習,它並非僅僅通過語言來進行資訊的壓縮和傳遞。主持人:這也是大型語言模型(LLMs)的一個限制,即模型在訓練後參數就固定了。所以它們不會持續學習,儘管在測試時的推理階段會有一定程度的學習。這是你在建構世界模型時試圖解決的問題嗎?因為我們可以推測,世界模型在遇到新環境時應當是不斷學習的。李飛飛:是的,持續學習(Continuous Learning)範式確實非常重要。對於生物來說就是如此,這也是我們人類學習的方式。即使在生物學習中,也存在線上學習與離線學習的區別。在我們目前的世界模型形式中,仍然更多地處於批次或離線學習模式。但我們絕對持開放態度,尤其是未來涉及到線上學習和多模態融合時。主持人:那會是怎樣的?會是一個完全不同的架構,還是僅僅是工程實現的問題?李飛飛:我會保持開放的心態。我認為會是兩者的混合。顯然這需要優秀的工程實現,比如微調(Fine-tuning)和線上學習,但也可能會出現新的架構。主持人:你能談談即時幀模型(Real-Time Frame Model)嗎?以及你們在世界模型方面的工作?李飛飛:你指的是我們幾周前發佈的一篇技術部落格,那是專門深入探討我們的即時幀模型的。World Labs 是一個以研究為主的組織,雖然我們也關心產品,但現階段大量工作是以模型為先的。我們正著重研究如何推進空間智能(Spatial Intelligence)。這項特定的工作實際上是專注於如何實現基於幀的生成,並儘可能保持幾何一致性和持久性。在早期的基於幀的生成操作中,當你向前移動視角時,往往會失去那種物體持久性。在這個特定案例中,我們努力實現平衡,並在推理期間以計算高效的方式完成這一點,即在推理時僅使用單個H100 GPU。我們不太清楚其他基於幀的模型的情況,因為他們沒透露推理時使用了多少晶片,但我們假設那是相當大的算力消耗。3. 尋找空間智能的“通用任務函數”主持人:在你的那篇“宣言”裡,你談到了需要一個“通用任務函數”(General Task Function)。這類似於語言模型中的“下一個 Token 預測”(Next Token Prediction)。它是否帶有預測元素?李飛飛:生成式AI 最重大的突破之一,確實是發現了“下一個 Token 預測”這個目標函數。這是一個非常優美的表述,因為語言是以序列化方式存在的,你可以將語言 Token 化為這種序列表示。你用於下一個 Token 預測的學習函數,正是推理時所需要的。無論是人類還是電腦生成語言,實際上都是一個接一個地把標記向前推進。擁有一個與最終實際執行任務完全(100%)對齊的目標函數是極好的,因為它使最佳化可以完全針對目標進行。但在電腦視覺或世界建模中,情況沒那麼簡單。語言本質上是人類生成的,自然界中並不存在你盯著看的“語言”,那怕你最終學會了閱讀,那也是因為它已經被生成了。但我們與世界的關係要更加多模態:世界就在那裡等著你去觀察、解讀、推理並與之互動。人類還有一種“心眼(Mind's Eye)”,能夠建構不同版本的現實、想像並生成故事。這要複雜得多。主持人:那麼,定義這個通用任務的是什麼?或者說,我們可以使用的通用目標函數是什麼?有什麼能像“下一個 Token 預測”一樣強大嗎?是 3D 重建嗎?李飛飛:這是一個非常深刻的問題。有些人實際上會爭辯說,世界建模的通用任務可能就是對世界進行3D 重建。如果這是目標函數並且我們達成了它,很多事情就會水到渠成。但我並不這麼認為,因為大多數動物的大腦並不一定會進行精確的三維重建,然而老虎或人類在空間上卻是如此強大的視覺智能體。“下一幀預測”確實有一定力量。首先有大量用於訓練的資料;其次,為了預測下一幀,你必須學習世界的結構,因為世界不是白噪聲,幀與幀之間存在大量結構連接。但這也令人不滿意,因為你把世界當作二維的,這種壓縮方式非常糟糕。即使你做得完美,3D 結構也只是隱式的,這種基於幀的方式會丟失很多資訊。所以在這方面仍有很多探索空間。主持人:我得問你,你們把模型命名為RTFM(Real-Time Frame Model),這是個玩笑嗎?李飛飛:這確實是一次絕妙的“表演”。名字不是我起的,是我們的一位研究員,他在命名方面真的很有天賦。我們覺得用那個名字玩個梗很有趣。主持人:但是RTFM 是在預測下一幀,並且具有三維一致性,對吧?李飛飛:是的。主持人:這就是模型所學內部表示有趣的地方。比如我看著電腦螢幕,即使看不見背面,我也知道它長什麼樣,因為我腦海中有它的內部表徵。這就是為什麼你可以在螢幕這個二維平面上移動物體,卻能看到它的另一面。模型擁有三維物體的內部表徵,即使它當前的視角看不見物體的背面。當你說到空間智能時,這是否包括自然的物理法則?比如理解你不能穿過一個固體物體?或者如果站在懸崖邊,它知道那是邊緣,如果走過去會掉下去而不是浮在空中?李飛飛:你描述的既有物理層面也有語義層面。從懸崖掉下去很大程度上取決於重力定律,但穿牆而過則基於材質和語義(固體與非固體)。目前作為一個現有模型,RTFM 還沒有把重點放在顯式的物理學上。大部分的“物理”實際上是從統計中湧現的。許多生成式視訊模型展示的水流或樹木移動,並不是基於牛頓力學定律和質量計算出來的,而是基於對大量統計模式的遵循。World Labs 目前仍然專注於生成和探索靜態世界,但我們也將探索動態,其中很多將是統計學習。我不認為今天的AI 有能力在不同層次上進行抽象並推導物理規律。另一方面,我們有像 Unreal 這樣的空間物理引擎,其中有明確的物理定律在起作用。最終,這些遊戲引擎/物理引擎將與世界生成模型融合成我稱之為“神經空間引擎(Neural Spatial Engine)”的東西。我們正朝著那個方向前進,但現在還處於早期階段。4. 顯式表徵的價值:賦能創作者與產業主持人:我不是想讓你和楊立昆對立。但你似乎關注的是從抽象的內部表徵中產生顯式表徵,而楊立昆只是關注內部表徵。李飛飛:在我看來它們會完美結合。我們同時探索兩者。輸出顯式表徵其實是一種非常刻意的方法,因為我們希望這對人有用。我們希望這對那些在創作、模擬和設計的人有用。如果你看看當今的行業,無論你是在製作視覺特效(VFX)、開發遊戲、設計室內、還是為機器人或自動駕駛車輛進行模擬(數字孿生),這些行業的工作流程都非常依賴 3D。我們希望這些模型對個人和企業都絕對有用。主持人:這就回到了持續學習的話題。比如一個機器人上的模型,通過攝影機在世界中移動獲取資料,最終它不僅學習場景,還理解空間的物理性,然後與語言結合?這是否需要持續學習?李飛飛:絕對如此。尤其是當接近某個用例時,持續學習至關重要。這可以通過多種方式實現:在語言模型中,將上下文字身作為輸入就是一種持續學習(作為記憶);此外還有線上學習和微調。在空間智能領域,無論是個性化機器人還是具有特定風格的藝術家,最終都會推動這項技術在不同時間尺度上變得更具響應性,以滿足具體用例的需求。5. 未來展望:AI模型的技術跨越主持人:你現在的進展非常快,特別是想到你曾在紐澤西經營過乾洗店,雖然那是很短的一段時間,但這種跨越真是令人驚嘆。你對這項技術五年後的發展程度有什麼判斷嗎?比如模型內部是否會內建某種物理引擎,或者擁有更長時間尺度的學習能力,從而建立起更豐富的內部表徵?也就是說,模型是否會開始真正理解物理世界?李飛飛:實際上,作為一名科學家,很難給出一個精確的時間預測,因為有些技術的進展比我預期的快得多,而有些則慢得多。但我認為這是一個非常好的目標,而且五年確實是一個相當合理的估計。我不知道我們會不會更快實現,但在我看來,這比猜測五十年要靠譜得多,當然也比猜測五個月要靠譜。主持人:你能否稍微談談,為什麼你認為“空間智能”(Spatial Intelligence)是下一個前沿?正如我們所知,包含在文字中的人類知識只是全部人類知識的一個子集。雖然它非常豐富,但你不能指望一個 AI 模型僅通過文字就能理解世界。能具體談談為什麼這很重要嗎?以及 Marble 和 World Labs 是如何與這個更大的目標相關聯的?李飛飛:從根本上講,技術應該幫助人類。與此同時,理解智能科學本身是我能想到的最迷人、最大膽、最有雄心的科學探索,這是屬於21世紀的探索課題。無論你是被科學的好奇心吸引,還是被用技術幫助人類的動機驅動,這都指向了一點:我們的大量智能,以及我們工作中的大量智能是超越語言的。我曾半開玩笑地說,你無法用語言去滅火。在我的宣言裡,我舉了幾個例子:無論是空間推理、DNA 雙螺旋結構的推導,還是一名急救人員在快速變化的情況中與團隊協作滅火,很多內容都超越了語言。所以,從應用角度來看這是顯而易見的;作為一項科學探索,我們應該盡最大努力去破解如何發展空間智能技術,帶我們進入下一個層次。從宏觀角度來看,這就是驅動我的雙重動機:科學發現以及為人類製造有用的工具。我們可以更深入地探討一下其實用性。無論是在談論創造力、模擬、設計、沉浸式體驗、教育還是醫療保健,甚至是製造業,利用空間智能可以做的事情實在太多了。實際上,我很興奮,因為許多關心教育、沉浸式學習和體驗的人告訴我,Marble(我們需要發佈的首個模型)激發了他們思考如何將其用於沉浸式體驗,使學習更具互動性和趣味性。這是如此自然,因為還不會說話的兒童完全就是通過沉浸式體驗來學習的。即便作為成年人,我們的生活也大多沉浸在這個世界中,雖然包括聽說讀寫,但也包括實踐、互動和享受。主持人:是的。Marble 讓所有人都印象深刻的一點是,它不僅僅是生成下一幀畫面,而是在一個空間中移動,而且它僅在一塊 H100 GPU 上運行。我在你其他的演講中聽到你提到過“體驗多重宇宙”(experiencing the multiverse)。大家一開始都很興奮,直到意識到這需要巨大的計算量和昂貴的成本。你真的認為這是朝著為教育建立虛擬世界邁出的一步嗎?因為看起來你們已經能夠減少計算負擔了。李飛飛:首先,我真的相信在推理方面我們會加速,我們將變得更高效、更優秀、規模更大、質量更高。這是技術的趨勢。我也相信多重宇宙的概念。就我們所知,整個人類歷史的經驗只存在於一個世界裡,確切地說是地球這個物理實體。雖然有極少數人登上過月球,但也就僅此而已。我們在3D 空間中建設文明、生活、做所有事情。但隨著數字革命和數字爆炸,我們正把生活的一部分轉移到數字世界中,這兩者有很多交叉。我並不想描繪一種我們放棄了物理世界的反烏托邦圖景,也不會描繪一種每個人都戴著頭盔、永遠無法欣賞真實世界的極端烏托邦式虛擬世界,那是生命最充實的部分,我會拒絕這兩種極端觀點。但從實用角度以及對未來的設想來看,數字世界是無邊無際的。它是無限的,它為我們提供了物理世界無法允許的更多維度和體驗。例如,我們討論過關於學習的問題。我真希望能以更互動、更沉浸的方式學習化學。我記得大學化學課有很多關於分子排列、理解對稱性和分子結構不對稱性的內容。我真希望能在沉浸式體驗中親自感受那些東西。我遇到的許多創作者,我意識到在他們的腦海中,每一瞬間都有無數的想法,但他們受制於工具的限制。例如使用Unreal Engine(虛幻引擎),要把腦中的一個世界表達出來需要花費數周甚至數小時的工作時間。無論你是製作一部奇幻音樂劇,還是為新生兒設計臥室,如果我們允許人們像在物理世界中一樣,充分利用數字宇宙去反覆嘗試、交流和創造,那將非常有趣。此外,數字時代也在幫助我們打破物理邊界和勞動的限制。比如遠端操控機器人。我完全可以想像創作者通過具身化的化身(Avatar)在全球協作,通過機械臂或任何形態以及數字空間,使他們既能在物理世界中工作,也能在數字世界中工作。電影行業也將被徹底改變,現在的電影是被動體驗,儘管很美好,但我們將改變獲得娛樂的方式。所以這一切都需要多重世界。主持人:還有關於瞬移或者遙操作機器人,比如有人在談論在小行星上開採稀土。如果你不需要親身到場,而是能遠端操作機器人,那就在那些空間裡實現了。你所談論的是建立人們可以體驗的3D 空間的顯式表徵。在你的模型中,這個模型自身在多大程度上“理解”它所處的空間?它是內化了這些資訊,還是僅僅是將其顯式地投射出來?這是一個朝著真正理解世界的人工智慧努力的過程。不僅僅是對三維空間有一個表示,而是真正理解物理定律,理解它所看到的東西,甚至包括這些東西的價值、有用性,以及如何操縱物理世界。你認為目前已經存在多少這樣的理解?要讓那些模型真正理解這個世界,還需要發生什麼?李飛飛:這是一個很棒的問題。“理解”是一個很深刻的詞。當AI “理解”某樣東西時,它本質上與人類的理解不同。部分原因是我們是非常不同的存在。人類是具身的(embodied),是在一個有形的身體裡存在的。例如,當我們真正理解“我的朋友很高興”時,這不僅僅是抽象的理解。你能感受到你體內發生的化學反應,釋放快樂激素,心跳加速,情緒改變。那種理解層次與抽象的AI Agent非常不同。AI Agent能夠正確地分配意義並建立聯絡。例如,在 Marble 我們的產品中,你可以進入世界生成的高級模式進行編輯。你可以預覽這個世界並說:“我不喜歡這張沙發是粉色的,把它換成藍色。”然後它就把它改成藍色。它是否理解“藍色沙發”和“更改”這個詞的含義?是的。因為沒有這種理解,它就無法執行任務。但它是否像你我一樣理解關於沙發的一切?包括沙發的用途、甚至無用的資訊?它有關於沙發的記憶嗎?它會把“沙發”這個概念推廣到許多其他事物上嗎?不,它沒有。作為一個模型,它的能力有限,只能根據要求建立一個包含藍色沙發的空間。所以我認為AI 確實能“理解”,但不要將這種理解誤解為擬人化的、人類層面的理解。這種理解更多是語義層面的,而不是那種光線打在視網膜上產生感知體驗的理解。主持人:我看過你和Peter Diamandis 以及埃裡克·施密特(Eric Schmidt)的討論。其中有一點讓我印象深刻,是關於 AI 可能具有創造力或用於輔助科學研究的討論。當時給出的類比是:如果在愛因斯坦發現相對論之前就有人工智慧,AI 能推理出那一發現嗎?對於 AI 來說,要具有這種科學推理層面的創造力,還缺少什麼?李飛飛:我認為我們更接近於讓AI 推匯出雙螺旋結構,而不是提出狹義相對論。部分原因是我們已經看到了很多出色的蛋白質摺疊相關工作。推斷雙螺旋結構的表示更紮根於空間和幾何。而狹義相對論的表述是在抽象層面上。我們在物理中看到的所有事物,從牛頓定律到量子力學,都是將作用抽象到因果層面。比如質量、力這些概念,是被抽象到不再僅僅是純粹統計模式生成的層次。語言可以是統計性的,3D 或 2D 世界的動力學可以是統計性的,但對力、質量、磁性以及因果關係的抽象,並非純粹的統計性,而是非常深刻的因果性和抽象性。我和Eric 在台上都在說,如果我們把所有關於天體觀測的資料、衛星資料都聚合起來交給當今的 AI,它也許能通過資料推導並擬合出牛頓運動定律。主持人:既然AI 如果給出資料就能推斷出運動定律,那你為什麼認為它無法推匯出相對論那些定律呢?李飛飛:當我們說那些定律被“推導”出來時,牛頓不得不推導、抽象出諸如“力”、“質量”、“加速度”以及那些基本常數的概念。那些概念處於一個我還沒有在目前的AI 中見過的抽象層面。如今的AI 可以利用大量資料,但在那個層面的抽象表示、變數或關係上,還沒有太多證據表明它能做到。我並不瞭解 AI 中發生的一切,如果我被證明是錯的,我很樂意接受。但我還沒聽說過有任何工作能在 Transformer 模型的架構中做到那種層次的抽象。我看不出那種抽象能從那裡來,這就是我對此表示懷疑的原因。這需要建構內部抽象的內部表徵,以及應用邏輯知識的規則。這可能需要我們在基礎架構和演算法上取得更多進展。主持人:這正是我想問的。你一直在和人們討論後Transformer(post-transformer)架構。你是否預期會出現一種新的架構能解鎖其中一些能力?李飛飛:我同意,我確實認為我們會有架構上的突破。我不認為Transformer 是 AI 的最後一項發明。在宏觀的時間尺度上,與宇宙歷史相比,人類存在的時間並不長,但在我們簡短的歷史中,我們從未停止創新。所以我不認為Transformer 是 AI 的最終演算法架構。主持人:你曾提到,你曾設想如果你能讓一個AI 系統為圖像打標籤或生成說明,那本該是你職業生涯的巔峰。當然你早就超越了這一點。那麼現在,你想像中未來職業生涯的巔峰成就從今天開始會是什麼?李飛飛:我確實認為開啟“空間智能”很重要。建立一個真正將感知與推理相連接的模型:從“看見”到“做”,包括規劃和想像,並將想像轉化為創造。那會非常了不起。一個能同時做到這三點的模型。 (劃重點KeyPoints)
AI巨龍甦醒:Google有那些被忽視的技術武器與商業底牌?
在AI時代,我們所熟悉的公司都有它自身的獨特優勢,比如:輝達:GPU + 開發者平台微軟: 雲端運算OpenAI: 大語言模型但,有那麼一家公司同時擁有這3者:雲 + TPU + 大模型。不僅如此,它還壟斷了網際網路上絕大部分廣告業務。這家公司就是從沉睡中覺醒的“獅子”——Google。在上幾期的分享中(連結在文末),討論了Google崛起的歷史。本期,我們將邁入Google的AI時代,瞭解它的前世今生,探討改變世界的AI技術是如何誕生在Google?以及為什麼它們並沒有最先商業化?(註:本文1.3萬字,閱讀時長約40分鐘)Ben:想像一下你有一家盈利的公司,每條業務線都能產生巨大的利潤,而且你所在的市場也同樣巨大,可以說是全球最大的市場之一。但更幸運的是,你還是這個巨大市場中的壟斷者,市佔率90%,而且使用者鎖定效應很強。David:當你說壟斷,是按照美國政府的定義嗎?Ben:沒錯。但再想像這樣一件事:在你的研究實驗室裡,你那些才華橫溢的科學家搞出了一項發明。這項發明再加上其他天才科學家此前的一大堆發明,組合起來居然能做出一個在大多數用途上都比你現有產品好得多的新產品。於是你應該基於這項新發明推出了新產品。David:對。Ben:尤其是因為出於純粹的“善意”,你的科學家們已經發表論文,介紹這項新發明有多棒,而且此前的很多發明也都發了論文。所以,現在有新的初創競爭者迅速把這項發明商業化了。那麼當然,David,你會把你的整個產品線都改成基於這個新東西,對吧?David:呃,這聽起來像電影。Ben:但問題來了。也許你不應該推出那個新產品。David,這對我來說像是一個相當典型的兩難困境。這說的當然是今天的Google。在也許是最經典的“創新者的窘境”教科書案例中,我們當下身處的整場AI革命,是由2017年GoogleBrain團隊發明Transformer所奠定的。想想OpenAI和ChatGPT、Anthropic、輝達股價創歷史新高,如今所有這些瘋狂的事情都依賴於Google在2017年發表的那一篇研究論文。而且不光如此。十年前,Google擁有全世界最密集的AI人才陣容,促成了這次突破;而今天,他們幾乎擁有你能想像到的最佳資產組合。他們有頂級的大模型Gemini;他們不需要依賴公共雲來託管模型,而是有自己的Google Cloud,如今營收已經達到500億美元,具有真正的規模;他們還是一家晶片公司,擁有自家的TPU(張量處理器),除了輝達GPU之外,全球只有這一套AI晶片在真正大規模部署。也許AMD也算一點,但這兩家肯定是最頂的。有人在採訪裡對我說,如果你沒有一個基礎的前沿大模型,或者沒有一款AI晶片,你可能在AI市場裡就只是大宗商品。而Google是唯一兩者兼備的公司。David:Google目前依然有誇張強悍的人才儲備。Ben:儘管ChatGPT已經有點成了這個時代的“克林克斯”(紙巾代名詞),但Google仍然掌控著那個“文字框”——那個在絕大多數人任何時候只要想在網上搜點什麼都要用到的網際網路大門口。但問題依然是:Google在戰略上該怎麼做?他們是否應該孤注一擲,靠著自己的“嫡長子繼承權”去贏下AI?還是為了保護搜尋帶來的海量利潤而束手束腳,讓AI浪潮從身邊掠過?或許我們首先要回答的問題是:Google是怎麼走到今天這一步的?如果把時間撥回到今天的10年前,在Transformer論文發表之前,以下所有這些人(我們之前也談到過)都是Google員工:Ilya Sutskever,OpenAI的創始首席科學家,他與Geoff Hinton(辛頓)和Alex Krizhevsky在AlexNet上做出了奠基性工作,幾年前剛剛發表。Dario Amodei,Anthropic的創始人;Andrej Karpathy,直到最近都是特斯拉的首席科學家;Andrew Ng;Sebastian Thrun;Nam Shazeer。DeepMind的所有人:Demis Hassabis、Shane Legg、Mustafa Suleyman——Mustafa如今除了曾是DeepMind的創始人外,還在微軟負責AI。基本上,AI領域所有有名有姓的人都在Google工作過,唯一的例外是Yann LeCun(楊立昆),他在Facebook工作。David:是啊,現在很難去追溯一家大的AI實驗室,而不會發現它的起源故事裡有Google。Ben:對,這個類比就像在電腦時代曙光之際,有一家像IBM這樣的公司把所有會寫程式碼的人都雇了。於是如果別人想寫個程序,哦,對不起,做不了。因為,所有會程式設計的人都在IBM。而,2010年代中期的AI領域,Google就是這樣的存在。不過,學會程式設計相對容易;但是,想要成為一名AI研究者就難太多了。這是非常特定的博士項目才能做的事情,導師群體很有限,而且領域內部對研究方向有很多內鬥:什麼是正統、什麼是異端幾乎到了宗教之爭的地步。那麼Google怎麼走到這一步的?這要回到公司創立之初。拉里·佩奇一直把Google看成一家人工智慧公司。事實上,拉里的父親就是電腦科學教授,在密歇根大學拿的博士,研究方向是機器學習和人工智慧,那在當年電腦科學裡並不熱門。David:對。很多人認為專攻AI是在浪費時間,因為三十年前的一些大理論到了那個時期都被證明靠不住,或者至少大家覺得被推翻了。所以拉里父親把一生和事業都押在AI上,是一個相當逆向的決定。Ben:這也影響了拉里。如果你眯著眼看,Google的基石演算法PageRank就是一種統計方法,從電腦科學的分類看,它可以算作AI的一部分。而拉里當然一直有更大的夢想。我們之前在節目裡引用過他2000年的一句話——也就是Google成立兩年後——拉里說,人工智慧將是Google的終極版本。如果我們有一個終極搜尋引擎,它會理解整個網路,它會精準理解你想要什麼,然後給你正確的東西。這顯然就是人工智慧。我們現在離那還差得遠。不過,我們可以逐步接近,而這基本上就是我們在這裡所做的。Google一直就是一家AI公司。那是在2000年。當年晚些時候或2001年初,Google工程師Gor Heric和Ben Gomes(後來領導搜尋)以及一個相對新入職的工程師Gnome Shazir聊天,三個人吃飯時,George隨口說起他讀博時的一個理論:資料壓縮在技術上其實等價於理解資料。Gor是Google前10號員工之一,非常厲害的工程師。就像拉里父親一樣,他在密歇根大學的博士是機器學習。即使在他就讀的時候,這在電腦科學裡還是相當少見而逆向的分支。思路是這樣的:如果你能把某段資訊變小,存起來,然後在之後把它恢復成原始形態,那麼唯一可能做到這件事的方式就是作用於資料的那個“力”真的理解資料的含義。因為你在壓縮時丟失了資訊,然後還能重建回來。就像你在學校,讀了一本很長的教科書,把資訊存進記憶,然後考試時看你是否真的理解了材料。如果你能重建那些概念,那就說明你真正理解了。David:這有點預示了今天的大型語言模型是在把全世界的知識壓縮到若干TB裡,變成一個被壓得扁扁的小向量集合。Ben:相對於全世界的資訊量來說當然“小”。但就是這個思路:你能把世界的資訊存進一個AI模型裡,形式很難理解、幾乎不可解釋;但當你“解壓”時,便可以把知識大致還原。David:是的。Ben:這些模型能體現“理解”,對吧?David:它們真的懂嗎?Ben:這是問題。它們當然在模仿“理解”。David:這段對話正在發生……Ben:你知道的,這已是25年前的事了。新來的那位年輕人Gnome愣住了,說:“哇,如果這是真的,那太深刻了。”David:這是在Google的茶水間裡嗎?Ben:他們在吃午飯。David:你從那看到這個的?Ben:在《In the Plex》裡。Steven Levy寫的那本關於Google的好書,我們講Google系列都頻繁參考它。裡頭有一小段關於這個的描寫,因為這本書在ChatGPT和AI大熱之前出版。所以Gnome就“黏”上了George,圍繞這個想法一直碰撞。接下來幾個月,這兩個人決定用最“Googly”的方式:他們停下手頭一切活,去研究這個點——語言模型、資料壓縮,看看是否能用資料生成機器“理解”,如果能做到,對Google就很有用。我覺得這也恰好趕上了2001年那段時間拉里把工程組織的所有經理都開了,於是大家都在干自己想幹的事。David:有意思。書裡還有一段Gor的名言。Ben:很多人覺得讓我們倆(指Gnome和他)把才華用在這上面是個很糟的主意,但Sanjay Ghemawat——當然就是Jeff Dean出名的編碼搭檔——覺得這很酷。於是George就對任何懷疑者說:Sanjay覺得這是個好主意,而世界上沒人比Sanjay更聰明。所以,為什麼我們要接受你“這是個壞主意”的看法呢?總之,這把Gnome和George帶進了自然語言的機率模型兔子洞。意思是:對於網際網路上出現的任何一個詞序列,另一個特定詞序列跟在後面的機率是多少?今天瞭解LLM的人聽起來應該很熟悉。David:哦,就像下一個詞預測。Ben:或者如果推廣一點,就是下一個token預測。David:對。所以他們用這項工作做的第一件事,就是在Google搜尋裡做“你是不是要找:Did you mean”拼寫糾錯。哦,原來是從這出來的。Ben:對,Gnome做的。David:這對Google太重要了,因為當你把查詢打錯然後不得不再打一遍時,使用者體驗很差。Ben:而且這也會攻擊Google的基礎設施:每次拼錯的查詢發出去,系統都要去處理並返回結果,而這些結果是沒用的,很快就被新查詢覆蓋。這個問題又非常聚焦:比如有80%的機率,使用者打“god groomer”其實是想找“dog groomer”,然後他們會重打。若我們很有信心,就乾脆直接幫他改正,再給他一個退出選項,而不是讓他選擇“啟用”。這是一個很棒的特性,也是這個方向的很好首次用例。於是他們拿下這波勝利,繼續做,最後他們做了一個相當大的——對當時來說的“大”——語言模型,暱稱“Phil”,全稱是“probabilistic hierarchical inferential learner”(機率分層推理學習器)。David:這些AI研究者最愛造首字母縮略詞的諧音梗。Ben:快進到2003年,Susan Wojcicki和Jeff Dean在準備上線AdSense。他們需要一種方法去理解第三方網頁(出版商頁面)的內容,好把Google的廣告語料庫投放上去。Phil就是他們用的工具。我之前完全不知道語言模型參與了這個。於是Jeff Dean把Phil借來,在一周之內就寫出了AdSense。然後,砰——AdSense。這幾乎是一夜之間給Google帶來數十億美元新收入,因為就是同一套廣告語料、同一批AdWords搜尋廣告,現在能投在第三方網站上了。他們一下子把系統裡已有廣告的庫存擴張到巨量。好吧,這時候我們得停一下,來點“Jeff Dean Facts”。整集裡他都是那條貫穿線:Google怎麼做到的?Jeff Dean怎麼就周末回家重寫了一個巨型分佈式系統,順手把Google所有問題都解決了?在“查克·諾裡斯段子”流行的時候,Google內部也流行“Jeff Dean段子”。我最喜歡的一條是:真空中的光速原本大約是每小時35英里,然後Jeff Dean花了一個周末最佳化了物理。所以,語言模型確實有效,確實能為Google帶來巨大價值,並且它們非常漂亮地契合了Google“組織全世界資訊並讓其普遍可及且有用”的使命:如果你能理解世界資訊、把它壓縮,然後再重建,這就對上了。在 2000年代中期,Phil佔用了Google整個資料中心基礎設施的15%,我猜很大一部分是AdSense廣告投放,還有“Did you mean”和公司內部開始用它做的其他東西。好,現在來到2007年——對我們故事來說非常非常重要的一年。Google剛剛發佈了Google Translate。這是Google那些偉大產品密集出現的時代:地圖、Gmail、Docs,隨後還有Chrome和Android。他們有一段長達10年的輝煌期,除了搜尋,基本把你今天熟悉的所有Google產品都在那10年裡發佈了。然後在那之後大約10年(從2013年開始),他們基本沒再發佈你聽說過的新產品,直到我們來到Gemini,這是很有意思的現象。但2003到2013這段時間就是一波接一波的爆款。其中一個就是Google Translate。也許使用者規模或對世界的影響不如Gmail或地圖,但仍是一個神奇的產品。Translate的首席架構師是另一位機器學習博士,名叫Franz O。Franz的背景是NLP和機器學習,他在德國拿的博士。於是Google和Franz把他引入,Franz打造了一個更大的語言模型,在當年的DARPA挑戰賽中橫掃對手(這是2006或2007年)。他拿到了當時天文數字的BLEU分數(BLEU:用於評估機器翻譯質量的演算法標竿),遠超其他一切。Jeff Dean聽說了Franz和翻譯團隊的工作,說太棒了。這個模型裡“gram”是指詞的n元組,在Google搜尋索引的兩兆詞語料上訓練。東西大到翻譯一句話需要12個小時。所以DARPA這次比賽的規則是:周一給你一組句子,你必須在周五之前提交機器翻譯的結果。David:伺服器有大把時間可以跑。Ben:他們想的是:“好,我們從周一到周五有若干小時。用儘可能多的算力翻完這幾句就行了。學會規則並利用它。”於是作為“工程界的查克·諾裡斯”,Jeff說,把程式碼給我看看。Jeff空降到翻譯團隊,和他們一起幹了幾個月。他把演算法重構成平行地處理詞和句子,而不是順序處理。因為當你翻譯一個句子集合或一個句子中的詞時,不一定要按順序來。你可以把問題拆成若幹部分,獨立處理,可以平行化。David:當然你不會得到完美的翻譯。Ben:但是想像你只是逐詞翻譯——至少可以同時把每個詞都翻了,再把句子拼回去,基本能明白原意。而且Jeff太清楚了,因為是他和Sanjay、Zhozha一起搭了Google的基礎設施,那是極度可平行、分佈式的。你可以把負載拆成小塊,扔到Google各個資料中心裡,最後重組,把結果返還給使用者。David:他們是在全世界範圍內把CPU工作負載跨多個資料中心平行化做得最好的公司。Ben:我們還在說CPU哦。Jeff和團隊的工作成果是,把平均單句翻譯時間從12小時降到了100毫秒。然後,他們就把它上線Google Translate。效果很驚人。David:這聽起來像一條“Jeff Dean段子”。Ben:是啊,曾經要12小時,Jeff花了幾個月,現在100毫秒。所以這是第一個在Google產品裡生產級使用的“大”語言模型。他們看到效果這麼好,就想,嗯,也許我們可以把它用於其他事情,比如輸入時的搜尋詞預測;當然也別忘了Google的皇冠明珠:廣告質量分(AdWords的ad quality)其實就是對給定廣告文案的點選率預測。你很容易看出,一個擅長攝取資訊、理解並據此做預測的“大模型”,對計算廣告質量會非常有用——這直接關聯Google的利潤底線。語言模型線這邊很棒。我剛說2007年是個大年。也是在2007年,幾位電腦科學教授在Google園區的“宿命交匯”開始了。2007年4月,拉里·佩奇邀請史丹佛的Sebastian Thrun來Google,先是兼職,隨後全職,做機器學習的應用。Sebastian是史丹佛SAIL(人工智慧實驗室)的負責人。這個傳奇實驗室在上世紀六七十年代AI第一波浪潮中大放異彩——那時拉里的父親也活躍在該領域;實驗室後來曾關閉一段時間,在2000年代初復興,Sebastian成了負責人。有個關於Sebastian的趣事:他怎麼來Google的?他也跟我們聊過,我之前不知道這幾乎是一次“人才併購”。他和一些(好像是)研究生正要創業,拿到了Benchmark和紅杉的term sheet。然後拉里來了,說:“要不我們就用獎金的方式,在公司成立之前就把你們‘收購’了?”對他們來說,這可能是個非常明智的決定。SAIL不僅擁有世界上最厲害的教授和博士AI研究者,還有一條史丹佛本科生“人才流”,在讀本科時就能進去做研究(CS、Symbolic Systems之類專業的學生)。其中一位後來是Meta的首席產品官Chris Cox,他就是這麼入門AI的。當然Facebook/Meta等會也要在故事裡回歸。在Sebastian在任時,還有另一位在SAIL呆過的大一/大二本科生,後來從史丹佛輟學去創業,參加了2005年夏天YC的第一期。時間來到2007年4月,Sebastian從SAIL來到Google。接下來幾個月,他做的第一批事之一是Google Maps的Ground Truth項目,基本上就是重造Google Maps的底層資料。在Ground Truth之前,Maps產品已經存在,但底圖資料要從Tele Atlas買。David:我記得當時有兩家。Ben:是的,雙寡頭。另一家是Navteq(Navtech)。David:這是一套大家都用的、質量不怎麼樣的地圖真源資料。你也很難比別人做得更好,因為大家都用同一套資料。Ben:質量不高還很貴。Tele Atlas和Navteq都是市值數十億美元的公司,我記得可能有一家或兩家都曾經上市,後來被收購,總之營收很高。而Sebastian的第一個大項目就是Street View(街景)。主要用自家街景的照片重建Tele Atlas的資料。他們也引入了其他資料,比如人口普查等,一共用了四十多個資料來源,把它們融合在一起。Ground Truth是一個非常宏大的工程,從零開始做一套新地圖。David:尤其是當你雇了一千名印度員工幫你篩查資料差異,實際上把地圖手動畫出來的時候。Ben:對,那時AI自動化還不多。所以在Ground Truth大獲成功的基礎上,Sebastian開始遊說拉里和謝爾蓋:我們應該多做這種事。比如把AI教授、學者請進Google,兼職也行,不一定要他們全職,讓他們保留學術職位,同時來這裡參與我們的產品項目。他告訴兩位創始人:教授們的工作能被數以億計的使用者使用;我們付他們錢、給他們Google股票、他們還能繼續當教授。如你所料,拉里和謝爾蓋說:“好主意,干,多來點。”於是2007年12月,Sebastian請來了一位來自多倫多大學、當時相對小有名氣的機器學習教授Geoff Hinton(傑佛瑞·辛頓)到Google做技術演講,還不是聘用,只是來給大家講講他們在做的“用神經網路開闢新路”的研究。傑佛瑞·辛頓——如果有人還不熟這個名字——如今被稱為“神經網路之父”,也可以說是現代AI整體方向的“教父”。David:在那個時候,他還是“邊緣學者”。神經網路當時不是AI裡被尊敬的分支。Ben:對,完全不是。部分原因是三四十年前圍繞神經網路有一波炒作,但沒有兌現。於是大家把它當成被“證偽”的東西,至少是冷門。David:你還記得我們輝達那幾期裡我最喜歡的Hinton冷知識嗎?Ben:他曾祖父是George Boole。他是George和Mary Boole的玄孫,Boolean代數和Boolean邏輯的發明者。這就很有意思了,因為那是符號邏輯、確定性電腦科學邏輯的基礎。而神經網路的搞笑之處在於,它不是符號AI,不是那種“我給你具體規則,然後你沿著一棵巨大的if-then樹走”。它是非確定性的,恰恰是那個領域的反面。David:這再次強調了這支機器學習/電腦科學分支在當時有多“異端”。正如你之前說的,神經網路不是新點子,理論上前景巨大,但實踐上算力太不夠,沒法做多層。那時,一個電腦神經網路最多隻能有一層或個位數層。而Geoff和他的前博士後Yann LeCun開始在社區里布道:嘿,如果我們能搞出多層、深層神經網路,也就是“深度學習”,就能兌現承諾。不是思路不對,而是實現需要海量算力,去做層層傳遞時的乘法運算,去檢測、理解、儲存模式。如果我們真的能做到,一個大型多層神經網路會非常有價值,甚至能跑起來。Ben:來到2007年,中後期。摩爾定律讓算力增長到足以開始驗證這些理論。於是Geoff來Google做了這場演講。Google的職員,Sebastian、Jeff Dean和我們提到的其他人都非常興奮,因為他們已經在翻譯和語言模型裡做了類似的事情——雖然不是用Geoff的深度神經網路。這裡出現了一個全新的架構思路:如果能跑起來,會讓他們的模型更好地工作、識別更複雜的模式、把資料理解得更深入。非常有前景。David:當然,這一切當時都還只是“理論上”。Ben:Sebastian在這次演講後,把Geoff Hinton帶進了Google,先是顧問,接下來幾年,這件事更有意思:後來Geoff從技術上講成為了Google“實習生”。這是他們繞過兼職/全職政策的方式。(PS:他主要職業是在大學任教)2011或2012年某個夏天,他在Google當了“實習生”。注意這時他大概60歲了。接下來的幾年裡,Sebastian把機器學習學者引進Google、讓他們保留學術職位的模式進行得非常順利。到2009年末,Sebastian、拉里和謝爾蓋決定:我們干脆在Google內部單獨起一個新部門,於是有了Google X“登月工廠”。Google X的第一個項目由Sebastian親自帶隊。我先不說它的名字,稍後會回到它。但對我們的故事至關重要的,是第二個項目,不僅關乎我們這一集,更關乎全世界——它改變了整個AI世界。這個項目叫Google Brain。當Sebastian離開史丹佛全職加入Google後,當然得有人接手SAIL。接手的是另一位電腦科學教授、才華橫溢的人,Andrew Ng。David:這真是“AI全明星”一集。Ben:對,全是AI大咖。那麼Sebastian做了什麼?他把Andrew招來做兼職,每周在Google園區待一天。這恰好跟X的啟動和Sebastian把這個部門正式化的時間點重合。於是2010或2011年的某一天,Andrew來Google“上一天班”,碰到了誰?Jeff Dean。Jeff向Andrew講他和Franz在語言模型上的工作,和Geoff Hinton在深度學習上的推進。當然,Andrew都知道。Andrew也在講他和SAIL在史丹佛做的研究。然後他們決定:也許時機到了,可以在Google內部來一次真正的大跨步,基於Geoff Hinton講的路線,在Google高度可平行的基礎設施上,建一個巨大的深度神經網路模型。要強調一下,Google之前試過兩次,都沒成功。他們試了一個叫“Brains on Borg”的東西(Borg是Google內部用來跑基礎設施的系統),還試了“Cortex”項目,但都沒起來。所以在Google研究組裡,對“大規模神經網路到底能不能在Google基礎設施上跑”是有些疤痕記憶的。於是Andrew Ng和Jeff Dean把Greg Corrado拉進來,他是神經科學博士,出色的研究員,已在Google工作。資訊流公司搶先一步邁入“AI時代”2011年,他們三人啟動了X裡的第二個正式項目,十分貼切地命名為Google Brain。三人開始動手,搭建一個非常非常大的深度神經網路模型。要做這個,你需要一套能跑它的系統。Google擅長把前沿研究“系統化工程化”,讓它真正在生產環境跑起來。Jeff在做這套基礎設施系統,他決定把它命名為“Dist Belief”,既是“分佈式”的諧音,也暗含“懷疑、不信”。因為幾乎沒人相信它能工作。業內大多數人不信,Google內部大多數人也不信。當時的研究都指出,你需要“同步式”的——也就是在一台機器上以很高的平行度進行計算,就像GPU那樣;最好所有計算都在一個地方發生,這樣你在邁出下一步前很容易查到系統裡其他部分的最新計算值。Jeff寫的Dist Belief恰恰相反:它分佈在一大堆CPU核上,可能跨一個資料中心,甚至不同的資料中心。理論上,這很糟,因為這意味著每台機器都要不停地等其他機器同步參數,才能繼續往下算。但Dist Belief實際上以“非同步”方式工作,不去糾結是否拿到了其他核的最新參數。也就是說你在用“過期的資料”更新參數。照理說這應該不行,但瘋狂的是——它能行。Dist Belief有了,接下來幹啥?做研究試試看能不能用上它。於是他們在2011年底發表一篇論文,標題先報一下:《Building high-level features using large-scale unsupervised learning》(用大規模無監督學習建構高層特徵),但大家都叫它“貓論文”。David:“貓論文”?Ben:你去問Google或AI圈裡任何人,他們都會說“哦,對,貓論文”。他們訓練了一個有9層的大型神經網路,用的是YouTube視訊裡的無標籤幀,目標是識別“貓”,用了1,000台機器上的16,000個CPU核心。之後他們又在TGIF上介紹了“貓論文”的結果。你去問Google的人,他們會說:“那次TGIF,天啊,一切都變了。”它證明了大型神經網路在無監督、無標籤資料的情況下,可以學到有意義的模式。不僅如此,它還能在Google自建的分佈式系統上跑起來。這是巨大的進步。Google有龐大的基礎設施資產。我們能否把研究者提出的這個理論電腦科學思路,借助Dist Belief在我們的系統上跑起來?答案是:能。這項驚人的技術成就,帶來的深遠影響,不僅僅是其商業成就。我覺得不誇張地說,“貓論文”在接下來的十年裡,為Google、Facebook、字節跳動帶來了數千億美元的營收。David:這就是資料裡的識別模式。Ben:當時YouTube有個大問題:使用者會不斷上傳視訊,量巨大,但使用者非常不擅長描述自己視訊裡有什麼。YouTube正試圖變成“目的地網站”,讓大家看更多視訊,打造資訊流,提高停留時長。然而推薦系統要決定“喂什麼”,只能看使用者給視訊寫的標題和描述。無論是你在搜尋視訊,還是平台要挑下一個推薦,它都需要知道視訊裡是什麼。“貓論文”證明了,你可以用這項技術——跑在Dist Belief上的深度神經網路——去深入理解YouTube視訊庫裡的視訊內容,然後再用這些資料決定要給使用者推薦什麼視訊。David:如果你能回答“有貓/無貓”,你也能回答很多更多的問題。Ben:這是Jeff Dean的一段話:“我們建構了一套系統,通過模型和資料的平行化,使我們能訓練非常大的神經網路。我們在隨機選取的1000萬張YouTube幀上做了無監督學習。它會基於嘗試用高層表徵來重構幀,從而建構無監督的表徵。我們讓它在2000台機器、16000個核心上訓練。沒過多久,模型在最高層會形成一種表徵:某個神經元會對貓的圖像興奮。”它從來沒被告知什麼是貓,但它在訓練資料裡看到了足夠多“貓臉正面”的樣本,於是那個神經元會對“貓”觸發,而對其他大多數東西不會觸發。這就是無標籤資料、無監督學習裡最瘋狂的部分——系統在從未被明確告知“什麼是貓”的情況下學會了“貓”,而且還出現了“貓神經元”。於是之後就有“iPhone神經元”“舊金山巨人隊神經元”,以及YouTube用來推薦的一切特徵……David:更別提識別版權、以及幫助版權方的分成了。Ben:對,這引向了YouTube的一切。基本上把YouTube放上了通往今天的道路——成為網際網路上最大的內容平台和地球上最大的媒體公司。“貓論文”開啟了2012年到2022年11月30(ChatGPT發佈)的新紀元:AI已經在塑造我們的生活,並帶來數千億美元的收入。它先是在YouTube的資訊流裡,然後被Facebook借鑑。他們挖來了Yann LeCun,創立了FAIR,再帶到Instagram;接著TikTok和字節跳動拿去做,後來又通過Reels和Shorts“回流”到Facebook和YouTube。David:這是我最喜歡的“David Rosenthal主義”。Ben:公眾喜歡把2022年以後叫“AI時代”。事實上,對任何能好好利用推薦和分類系統的公司而言,“AI時代”是從2012年開始的。David:的確,AI時代始於2012年,其中一部分就是“貓論文”。Google買下辛頓的DNN Research 公司Ben:另一部分是黃仁勳在輝達口中的AI“宇宙大霹靂時刻”——AlexNet。我們之前說到Geoff Hinton在多倫多大學。在這段時間他有兩個研究生:Alex Krizhevsky和Ilya Sutskever(後來是OpenAI的聯合創始人兼首席科學家)。三人計畫用Geoff的深度神經網路思路和演算法,去參加電腦視覺領域著名的ImageNet競賽。這是史丹佛的Fei-Fei Li(李飛飛)主導的年度機器視覺演算法競賽。它的競賽規則是:李飛飛收集了一個1400萬張圖片的資料庫,已經有人對這些圖片全部打好了標籤。那個團隊,在不看標籤的前提下,能寫出演算法,僅憑圖片,識別的正確最多(精準率最高)。2012年的比賽結果是,AlexNet橫空出世。它的錯誤率是15%。儘管還是偏高,但從此前25%錯誤率到15%,一年之內下降10個百分點,這在此之前從未發生過。David:比第二名好40%。Ben: Geoff、Alex和Ilya知道,深度神經網路很有潛力,摩爾定律讓你能用CPU堆出幾層。他們有個靈感:如果我們不在CPU上跑,而是改用另一類天生高度平行的計算晶片呢?那就是當時領先公司輝達做的——用於電子遊戲的圖形顯示卡。對當時而言並不顯而易見,尤其是把最前沿的學術電腦科學研究(通常跑在超級電腦上、依賴強大的CPU)搬到這些零售價1000美元的“玩具”顯示卡上——當時還更便宜,只要幾百美元。多倫多團隊跑到本地Best Buy之類的店,買了兩塊輝達頂級遊戲卡GeForce GTX 580。團隊把他們的神經網路演算法用CUDA(輝達的程式語言)重寫,靠這兩塊零售GTX 580訓練出了他們的深度神經網路,在ImageNet比賽裡把第二名甩開40%。所以當黃仁勳說那是AI的“宇宙大霹靂時刻”,他是對的。它向所有人展示:天啊,如果兩塊零售GTX 580就能做到這樣,想像一下更多顯示卡,或者專用晶片能做到什麼。並且,這件事把輝達從一家有些掙扎的PC遊戲配件廠商帶上了AI浪潮的道路,成為今天全球最有價值的公司。這也展示了AI研究的常見模式:某個突破帶來一個大台階躍遷,然後是多年最佳化的過程,收益逐漸遞減:前半截進步一瞬間發生,後半截要花很多年打磨。當你有一個想法,做出來,然後意識到:“天那,我剛剛找到了推動這個領域的下一個大飛躍”,那一定既罕見又酷斃了。David:就像解鎖了下一關。Ben:AlexNet之後,整個電腦科學界都沸騰了。這時人們也開始不再懷疑神經網路。多倫多的三個人——Geoff Hinton、Alex Krizhevsky和Ilya Sutskever——做了很自然的一件事:他們成立了一家公司,叫DNN Research(深度神經網路研究)。這是一家只有AI研究員,沒有產品的公司。如你所料,它幾乎立刻被Google收購了。這裡有件很瘋狂的事,第一個出價其實來自BU公司,出價1200萬美元。Geoff Hinton並不清楚該怎麼給公司估值,也不確定這是否公平。於是他做了任何一位學者會做的事來確定公司的市場價值:他說“非常感謝,我現在要搞一個拍賣”,而且是高度結構化的:每次有人出價,計時器重設,再給其他人一小時出新價。並且,他還諮詢了所有在大公司作研究的學者朋友,問他們: “嘿,我們在那兒繼續做研究會更好?”當時,競價的公司包括BU、Google、微軟,還有另一家…David:Facebook?Ben:哦,等等,不包括Facebook。想想年份,這是2012年。Facebook還沒真正入局AI,他們還在籌建自己的AI實驗室。因為Yann LeCun和FAIR是2013年才開始的。David:OpenAI還要過好幾年才成立。那家公司略早於OpenAI,做幾乎同樣的使命?Ben:就藏在眼皮底下——DeepMind。他們是DNN Research四方競購裡的第四家。當然,競價一開始,DeepMind就不得不退出——他們是初創公司,沒錢買。David:我壓根沒想到會有DeepMind,我第一個問題就是:他們從那弄錢?他們沒錢。Ben:不過Geoff已經認識並尊敬Demis了,儘管他當時“只是在做一家叫DeepMind的初創公司”。David:等等,DeepMind都在競拍裡,Facebook卻不在?Ben:競拍和當年的一個大會同時進行,當時叫NIPS(現在叫NeurIPS)。Geoff在太浩湖的Harrah’s賭場酒店房間裡主持了這場拍賣。我們得感謝Cade Metz,他寫的《Genius Makers》(AI簡史)這本書,我們這集會頻繁引用。出價一路抬升,微軟一度退出,又回來。DeepMind退出。最後剩BU和Google死磕。最後某一刻,三位研究者互相看了看,說:我們真正想去那兒?我們想去Google。於是他們把競價停在4400萬美元,說:“Google,這足夠多了,我們選你們。”David:我知道大概是4000萬,但我不知道整個故事。這簡直像Google自己在IPO裡搞的“荷蘭式拍賣”一樣,對吧?太貼合Google的DNA了。Ben:是的,特別貼合。還有個細節:三個人本該各拿三分之一。但Alex和Ilya去找Geoff說:“我覺得你該多拿一些,你40%,我們各30%。”最後就這麼定了。這讓三人直接加入Google Brain,給那裡的所有工作加上了加速器。劇透一下,幾年後,接替Sebastian管理Google X的Astro Teller,在紐約時報的一篇Google X人物特寫裡說:Google Brain給Google核心業務——搜尋、廣告、YouTube——帶來的收益,遠遠超過他們在Google X及公司其他地方做過的所有“登月”投資。但Google的AI歷史不止於此。還有一塊非常重要的拼圖來自公司外的收購。就像YouTube之於Google的意義在AI領域的對應物。我們剛才提到過的——DeepMind。 (希芙的星空)
《大西洋月刊》丨去技能化時代
The Age of De-SkillingWill AI stretch our minds—or stunt them?By Kwame Anthony Appiah人工智慧會拓展我們的思維,還是阻礙其發展?插圖:馬特奧·朱塞佩·帕尼 / 《大西洋月刊》2025年10月26日,美國東部時間上午6點相關擔憂已從竊竊私語升級為高聲喧囂,且都圍繞著同一個令人不安的主題:“ChatGPT影響下的大腦”“人工智慧正讓你變笨”“人工智慧在扼殺批判性思維”。曾經,人們害怕的是失控的智能會將人類消滅,甚至可能在這個過程中把地球變成一座回形針工廠。如今,聊天機器人正走上Google的老路——從“神奇之物”變成“理所當然的存在”,人們的焦慮也隨之轉變,從對“世界末日”的恐懼轉向對“能力衰退”的擔憂。尤其是教師們表示,他們開始看到這種“衰退”的跡象。描述這種現象的術語雖不悅耳,卻也貼切:去技能化。這種擔憂絕非空想。如果孩子依賴Gemini總結《第十二夜》,他們可能永遠無法學會獨立品讀莎士比亞的作品。如果胸懷大志的律師借助Harvey AI(法律領域AI)進行法律分析,他們可能無法培養出前輩們視為理所當然的解讀能力。在近期一項研究中,數百名英國參與者完成了標準的批判性思維測試,同時接受了關於使用人工智慧獲取資訊或做決策的訪談。結果顯示,年輕使用者對這項技術的依賴度更高,測試得分也更低。“用進廢退”是該研究最核心的結論。另一項研究關注了醫生進行結腸鏡檢查的情況:在使用人工智慧系統輔助識別息肉三個月後,醫生在不借助該系統時識別息肉的能力明顯下降。但真正的謎題不在於“去技能化”是否存在——它顯然是存在的——而在於它究竟屬於何種性質。所有形式的去技能化都會產生負面影響嗎?還是說,有些去技能化是我們可以接受的,甚至是值得歡迎的?“去技能化”是一個籠統的術語,涵蓋了多種截然不同的能力喪失情況:有些會帶來損失,有些無關緊要,還有些反而會催生新的可能。要弄清楚其中的關鍵,我們必須仔細觀察:當新技術出現時,技能會以何種方式逐漸減弱、消失或發生改變。如今的聊天機器人算是新技術:它們所依賴的“Transformer”架構誕生於2017年,而ChatGPT在五年後才首次公開亮相。但“新技術可能會削弱人類思維”的擔憂卻由來已久。早在公元前4世紀的《斐德羅篇》中,蘇格拉底就講述了這樣一個神話:埃及神透特將“書寫”這一禮物獻給國王塔姆斯,稱其是“記憶與智慧的秘訣”。但塔姆斯對此不為所動。他警告說,書寫會產生相反的效果:它會滋生健忘,讓人們用紙上的符號取代記憶的努力,將“理解的表象”誤認為“理解本身”。蘇格拉底支援塔姆斯的觀點。他抱怨道,文字永遠無法回應你提出的具體問題;無論是智者還是愚者,文字對所有人的回應都是一樣的;而且當人們誤解文字時,文字也無能為力。當然,我們之所以能知曉這一切——這段故事之所以能不斷出現在輝格黨式的科技史敘述中——正是因為柏拉圖將其寫了下來。但反對書寫的人也並非完全錯誤。在口頭文化中,吟遊詩人能將史詩記在腦海裡;非洲部落的格里奧(說書人)能隨口說出數百年的族譜。而書寫的出現讓這些非凡的能力變得不再必要。人們無需深入思考,就能理解他人的想法。對話需要回應:或是澄清疑問,或是提出反對,或是修正觀點(有時一句“蘇格拉底,您說得太對了”就能起到作用,但即便如此,對話仍在繼續)。相比之下,閱讀時你只需沉浸在他人的智慧中,點頭認同,卻無需通過自我檢驗來印證這些智慧。不過,從某個角度看是“損失”的東西,換個角度或許就是“收穫”。書寫為人類開闢了新的思維領域:評論文章、法學理論、可靠的歷史記載、科學研究。研究口頭文化與文字文化的學者沃爾特·J.翁曾精闢地指出:“書寫是一種能重構思維的技術。”這種模式並不陌生。當水手開始使用六分儀時,他們便不再需要掌握水手的“觀天技藝”——那種曾指引他們安全返航的、對星辰的細緻觀測能力。後來,衛星導航的出現又讓六分儀技能徹底消失。過去,擁有一輛福特T型車意味著你得兼職做機械師——要知道如何修補內胎、憑聽覺調整點火正時、在引擎熄火後想辦法讓它重新啟動。如今,性能高度可靠的引擎將這些“秘密”隱藏了起來。計算尺被計算器取代,計算器又被電腦取代。每一次技術更迭,個人的精湛技藝都會隨之減弱,但整體效率卻在提升。這種“有所失,必有所得”的模式確實令人安心。但有些收穫背後,隱藏著更深層的代價。它們不僅改變了人們“能做什麼”,還改變了人們“認為自己是誰”。20世紀80年代,社會心理學家肖莎娜·祖博夫曾在美國南部的紙漿廠進行調研,當時這些工廠正從人工操作轉向電腦控制。曾經,操作員需要通過觸摸來判斷紙漿的狀態(“它滑嗎?它粘嗎?”);如今,他們只需坐在有空調的房間裡,看著數字在螢幕上滾動,過去的技能既無人使用,也無人重視。一位操作員告訴祖博夫:“通過電腦工作,感覺完全不一樣。就像你騎著一匹強壯的駿馬,但有人坐在你身後的馬鞍上,握著韁繩。”新系統速度更快、更清潔、更安全,但也讓工作失去了原本的意義。社會學家理查德·森內特也記錄了波士頓一家面包店的類似變化。20世紀70年代,店裡的工人都是希臘男性,他們靠嗅覺和視覺判斷面包是否烤好,並為自己的手藝感到自豪;到了90年代,接替他們的工人只需操作帶有Windows風格控製器的觸控式螢幕。面包變成了螢幕上的圖示——它的顏色由資料推斷得出,品種則從數字菜單中選擇。技能的弱化伴隨著身份認同的弱化。面包依然美味,但廚房工人知道,自己不再是真正的面包師了。有人半開玩笑地對森內特說:“烘焙、製鞋、印刷——隨便你說什麼手藝,我都‘會’。”言外之意是,他其實根本不需要掌握任何真正的技能。在文化領域,人類與“實物的接觸”無疑早已逐漸減少。在19世紀歐洲的中產階級家庭中,熱愛音樂通常意味著會演奏音樂。交響樂要進入客廳,靠的不是音響,而是鋼琴改編版——兩個人四隻手,在一架鋼琴上,盡最大努力演繹勃拉姆斯的《第一交響曲》。這需要技能:識譜、掌握演奏技巧、用手指勾勒出交響樂的意境。要聽到自己想聽的音樂,你必須不斷練習。後來,留聲機流行起來,客廳裡的鋼琴開始積滿灰塵。隨之而來的好處顯而易見:你可以把整個管絃樂隊“召喚”到客廳裡,可以將聽覺體驗從沙龍裡的輕音樂拓展到德彪西、施特勞斯、西貝柳斯的作品。如今的音樂愛好者或許不再擅長演奏,但從某種意義上說,他們更懂“聆聽”。然而,廣度的拓展是以深度的喪失為代價的。練習一首曲子的過程,會讓你對曲子的結構和脈絡有深入的理解。而擁有閃亮的維克多牌留聲機的孩子,能獲得這種理解嗎?每當強大的新工具出現時,這種“疏離感”——即與“真實事物”產生距離的感覺——就會隨之而來。從17世紀開始,計算尺減少了人們對“心算能力”的依賴;幾個世紀後,可攜式計算器又讓一些工程師感到不安,他們擔心“數感”會逐漸消失。這些擔憂並非毫無根據。按下鍵盤上的“Cos”鍵就能得到一個數值,但這個數值背後的含義可能會被人們遺忘。即便在更專業的領域,這種擔憂也依然存在。麻省理工學院的物理學家維克多·魏斯科普夫對同事們越來越依賴電腦模擬感到困擾。當同事們把列印出來的結果交給時,他對他們說:“電腦理解這個答案,但我覺得你們並不理解。”這種不安就像古埃及國王的“數字時代版本”——他們堅信,人們正把“輸出結果”誤認為“深刻見解”。在祖博夫所說的“智慧型手機器時代”,自動化主要侷限於工作場所——工廠、工業面包店、駕駛艙。而到了個人電腦和網際網路時代,技術“逃離”了工作場所,進入家庭,成為通用工具,融入日常生活。早在21世紀初,研究人員就開始探討搜尋引擎對人類的影響。當時的新聞標題諸如“Google影響下的大腦”屢見不鮮。儘管這種恐慌有些過度,但一些影響確實真實存在。一項被廣泛引用的研究發現,在某些情況下,人們會記住“某個事實可以在那裡找到”,而非“事實本身”。事實上,人類的認知能力從來都不侷限於大腦內部——它還存在於工具、符號以及人與人之間的互動中(想想你認識的夫妻:有人記得生日,有人記得護照放在那裡)。從刻痕計數的骨頭到泥板文書時代,數千年來,我們一直在將“思維”儲存在外部世界中。許多生物都會使用工具,但它們的技能會隨著個體的死亡而消失;而人類的技能會以文化的形式積累下來——形成一種“智能傳遞系統”。我們繼承這種系統,拓展它,在此基礎上不斷建構,讓每一代人都能站在更高的起點上:從壓制剝落的石片,到骨針,再到印刷機,直至量子計算。這種“見解的積累”——外部化、保存、共享——正是智人與其他生物的區別所在。倭黑猩猩生活在“生態當下”,而人類生活在“歷史之中”。與此同時,“積累”會帶來一個關鍵結果:它會推動“專業化”的發展。隨著知識不斷拓展,它不再能被每個人平等掌握。在小型部落中,任何人都能追蹤獵物、採集植物、生火。但在農業革命後,社會規模不斷擴大,手工業和行會逐漸增多——能鍛造出鋒利且耐用刀刃的工匠、懂得如何防止拱頂坍塌的石匠、掌握著嚴密保密的配方和技藝的玻璃吹制工。曾經存在於人體中的技能,逐漸轉移到工具中,進而上升到制度層面。隨著時間的推移,勞動分工不可避免地演變成“認知分工”。哲學家希拉里·普特南曾說過,他會用“榆樹”這個詞,但無法區分榆樹和山毛櫸。“指稱”是具有社會性的:你能談論榆樹,是因為語言社群中的其他人——植物學家、園丁、林業工作者——能識別榆樹。語言如此,知識亦是如此。人類的能力不僅存在於個體之中,還存在於個體所形成的網路之中。我們每個人都依賴他人來彌補自己能力的不足。社會規模的擴大,將“社會交換”轉變為“系統性的相互依賴”。由此產生的世界,正如一個經典例子所描述的:沒有人知道如何完整地製造一支鉛筆。一個人要製造鉛筆,需要掌握伐木工、鋸木工、礦工、化學家、塗漆工等多種技能——即便是最簡單的物品,其背後也存在一個無形的“工藝網路”。馬克·吐溫在《康州美國佬在亞瑟王朝》中,想像一位19世紀的工程師穿越到卡梅洛特(亞瑟王傳說中的王國),用現代奇蹟讓當地人驚嘆不已。讀者們對此深信不疑。但如果把21世紀的工程師放到同樣的場景中,他會束手無策。製造絕緣電線?調配一批炸藥?從零開始製造電報機?一旦連不上無線網路,我們大多數人都會陷入困境。如今,認知分工已發展到極高的程度:兩位物理學家可能彼此都難以理解對方的研究——一位在模擬暗物質,另一位在製造量子感測器。如今的“科學精通”,意味著對“越來越窄的領域”瞭解“越來越多”。這種專注帶來了驚人的進步,但也讓我們意識到自身能力的侷限性:專家們使用的概念工具,是他們能“運用”卻無法“創造”的。即便是長期被視為“孤獨天才領域”的數學,如今也遵循著這樣的模式。當安德魯·懷爾斯證明費馬大定理時,他並沒有重新推導每一個引理;而是整合了他信任但並未親自驗證的成果,建構出一個完整的理論框架——即便他沒有親手“切割”每一根“橫樑”,也能看清整個框架的結構。合作範圍的擴大,改變了“知曉某事”的含義。知識曾被視為一種“佔有物”,如今卻變成了一種“關係”——即我們能否很好地定位、解讀和整合他人的知識。我們生活在一個“分佈式智能網路”中,依賴專家、資料庫和工具來拓展自己的認知邊界。資料規模就能說明問題:當年宣佈DNA雙螺旋結構的《自然》論文只有兩位作者;如今,一篇關於基因組學的《自然》論文可能有40位作者。而宣佈希格斯玻色子發現的兩篇論文呢?作者多達數千人。“大型科學研究”之所以“大型”,是有原因的。遲早,這個“網路”會迎來新的參與者——一個不僅能儲存資訊,還能模仿“理解”本身的參與者。在大型語言模型時代,“資訊”與“技能”、“知道是什麼”與“知道怎麼做”之間的傳統界限變得模糊。從某種角度看,這些模型是“靜態”的:它們是一組可下載到筆記型電腦中的固定權重矩陣。但從另一個角度看,它們又是“動態”的:一旦運行,就能即時生成回應。它們能做到蘇格拉底所抱怨的“書寫無法做到的事”:回答問題、適應對話者、進行對話(有時甚至能與自己對話;當人工智慧將自身輸出作為輸入時,人工智慧研究人員稱之為“推理”)。將Google視為“記憶的延伸”並不難;但對許多人來說,大型語言模型更像是“思維本身的替代品”。在利用新型人工智慧時,我們自身的智能是在被“拓展”,還是說,這種“人工”智能正悄然崛起,逐漸佔據主導地位?我們無法將“精靈”放回“瓶子”裡,但我們可以決定讓它施展那些“魔法”。當人們談論“去技能化”時,通常會想到一個人失去了某種技能——比如飛行員的手動駕駛能力變得生疏,醫生在沒有人工智慧輔助時會漏診腫瘤。但如今,大多數工作都需要協作,人工智慧的出現並沒有改變這一點。問題不在於“人類與機器人相比表現如何”,而在於“使用機器人的人類與不使用機器人的人類相比表現如何”。有些人擔心,對人工智慧的依賴會讓人類在某些方面變得更糟,這種負面影響會蓋過其承諾的好處。Anthropic公司首席執行官達里奧·阿莫代伊樂觀地設想會出現一個“天才之國”,但這些擔憂者則預見會出現一個“傻瓜之國”。這與過去關於“風險補償”的爭論如出一轍:幾十年前,一些社會科學家認為,增加安全帶或防抱死剎車後,人們會駕駛得更加魯莽——科技帶來的安全感會讓他們“消耗掉”安全余量。但後來的研究得出了更令人鼓舞的結果:人們確實會做出調整,但這種調整是有限的,因此技術仍能帶來顯著的好處。在人工智慧的臨床應用中,類似的規律似乎也成立——人工智慧在醫院中的應用已超過十年。回想一下之前提到的結腸鏡檢查研究:在進行人工智慧輔助檢查後,胃腸病醫生在無輔助情況下的息肉識別率下降了6個百分點。但另一項研究彙總了24000名患者的資料,呈現出更全面的情況:人工智慧輔助使整體識別率提高了約20%(此處的人工智慧是一種“專家系統”——即一種狹義、可靠的機器學習形式,而非驅動聊天機器人的生成式人工智慧)。由於識別率的提高意味著漏診癌症的減少,無論個別醫生的能力是否略有下降,這種“半人半機”的協作模式顯然是有益的。如果這種協作能拯救生命,那麼胃腸病醫生若出於“自尊心”而堅持獨自操作,就是不負責任的。在其他領域,近期的一些研究表明:一個人的技能越高,與人工智慧的協作效果就越好。其中一項研究發現,在對兩種鷦鷯和兩種啄木鳥的圖像進行分類時,人類的表現優於機器人。但在識別虛假酒店評論時,機器人則更勝一籌(大概是“同類識別同類”吧)。隨後,研究人員讓人類與機器人配對,讓人類在參考機器人建議的基礎上做出判斷。結果因任務而異:在人類直覺較弱的領域(如識別虛假酒店評論),人們會過多地質疑機器人,從而拉低整體結果;而在人類直覺較強的領域,人們似乎能與機器人協同工作——在確定自己判斷正確時相信自己,在意識到機器人發現了自己遺漏的資訊時也會認可機器人。在識別鳥類圖像的任務中,“人類+機器人”的組合表現優於兩者單獨工作的效果。同樣的邏輯也適用於其他領域:一旦機器進入工作流程,“精通”的定義可能會從“產出”轉向“評估”。2024年一項關於程式設計師使用GitHub Copilot(程式碼生成工具)的研究發現,人工智慧的使用似乎會“重新引導”人類的技能,而非“取代”它。程式設計師花在“生成程式碼”上的時間減少了,花在“評估程式碼”上的時間增多了——檢查邏輯錯誤、排查邊界情況、清理程式碼指令碼。技能從“創作”轉移到了“監督”。如今,“人機協作”越來越多地意味著這一點:專業能力不再體現於“寫出初稿”,而體現於“編輯初稿”;不再體現於“速度”,而體現於“判斷力”。生成式人工智慧是一個“機率系統”,而非“確定性系統”;它給出的是“可能性”,而非“真相”。當風險切實存在時,具備專業能力的人類必須對最終決策負責——要能發現模型何時偏離現實,要將模型的輸出視為“待驗證的假設”,而非“必須遵守的答案”。這是一種新興的技能,也是至關重要的技能。未來的專業能力,不僅取決於工具的優劣,更取決於我們能否與工具“協同思考”。但協作的前提是“自身具備能力”。如果人類一方毫無頭緒,“人機協作”就會陷入混亂。這正是人們對“教育”感到恐慌的原因:如果一個人從未掌握過某種技能,就談不上“失去”這種技能。在這個“世界上最強大的作業工具”能輕鬆裝進每個學生口袋的時代,我們該如何培養學生的基本能力?我們這些教育工作者還有很多“作業”要做。過去的教學方法需要革新;在過去幾年裡,太多大學生陷入了一種令人不安的狀態——用一句話形容就是“主修ChatGPT”。但現在就斷言人工智慧對教育的整體影響,還為時過早。誠然,人工智慧可能會讓某些能力變得生疏,但如果使用得當,它也能強化另一些能力。以哈佛大學一門大型物理課程的近期隨機試驗為例。一半學生以傳統的“最佳方式”學習兩節課:由資深教師帶領的互動式實踐課堂。另一半學生則使用定製的人工智慧導師。之後兩組學生交換學習方式。結果顯示,在兩輪試驗中,使用人工智慧導師的學生表現都要好得多——優勢非常明顯。他們不僅學到了更多知識,學習速度也更快,而且反饋說自己更有動力、更投入。該人工智慧系統的設計初衷是“像優秀教練一樣工作”:教學生如何將複雜問題拆解成小問題,提供提示而非直接給出答案,根據每個學生的進度調整反饋的強度和內容。這種“針對性關注”正是老式輔導體系的強大之處。我還記得在劍橋大學的最初幾周,我與生物化學導師進行一對一交流的場景。當我說“我大概懂了”時,他會不斷追問,直到我們都確信我真的懂了。這種有針對性的關注,是劍橋大學“輔導制度”的核心。如果設計得當,大型語言模型有望將這種“關注”大規模推廣——不是複製輔導老師的羊毛開衫、鋥亮的煙斗或若有所思的表情,而是複製那種“持續、靈活的引導”,幫助學生從困惑走向理解。機器不會取代導師。它們有望承擔輔導中“常規性”的部分——檢查代數運算、反覆練習引理、提醒學生注意單位書寫、確保學生理解膜通道的工作原理。理論上,這能讓教師騰出時間,專注於其他重要工作:講解核心概念、追求更簡潔優雅的表達、與學生探討職業規劃、關注學生是否面臨過度壓力。當然,這只是一種樂觀的設想。我們不應僅憑一項研究就得出普遍結論(有一項針對土耳其高中生的研究發現,使用輔導機器人並未帶來明顯進步)。同時我們也要注意,那些物理專業的學生之所以能很好地利用輔導機器人,是因為他們要面對“課堂考試”——有監考老師、有時間限制、有嚴格的評分標準。我們還需注意,在STEM(科學、技術、工程、數學)學科中有效的方法,在人文學科中可能並不適用。儘管學期論文枯燥乏味,但它能培養一種“對話難以複製”的能力:逐步建構論證、權衡證據、組織材料、錘煉表達風格。我們這些教授本科生的教師中,已有不少人開始對有上進心的學生說:如果他們寫一篇論文,我們會閱讀並與他們討論,但這篇論文不會計入最終成績。這只是一種權宜之計,而非根本解決方案。說來也奇怪,在文化層面,我們似乎正在“回歸口頭表達”——口頭交流可能需要承擔更多教學任務。如此看來,對話的堅定捍衛者蘇格拉底,最終會笑到最後嗎?“破壞性去技能化”仍是一種無法忽視的可能性:由於過度依賴工具,人類基本的認知或感知能力會逐漸衰退,且沒有相應的能力提升作為補償。這種能力缺失會耗盡一個系統的“儲備能力”——即那些平時很少用到,但在出現問題時必須具備的能力。沒有這些儲備能力,系統的“韌性”會下降,“脆弱性”會上升。想想那些航空公司的飛行員:他們花數千小時監控自動駕駛儀,卻在系統故障時不知所措。一些自動化理論學者將“人機協作”分為兩類:“主動參與的人機協作”和“被動簽字的人機協作”。後者如果管理不當,就會導致工業心理學家莉薩妮·貝恩布裡奇早就警告過的問題:角色混亂、意識減弱、準備不足。就像救生員在大多數日子裡,只是看著游泳技術嫻熟的人在平靜的水中游泳——這類人類監督者很少需要採取行動,但一旦需要,就必須迅速、熟練地行動。同樣的問題也困擾著各類辦公室工作。當律師、項目經理和分析師花數月時間“批准”系統已起草或推斷出的內容時,他們就變成了“被動簽字者”,逐漸生疏了核心技能。這就是“部分自動化”的悖論:系統性能越好,人們就越不需要保持專業敏銳度,在系統偶爾失靈時,就越缺乏應對準備。解決這個問題的方法可能在於“制度設計”。例如,工作場所可以定期開展“演練”——類似飛行員定期進行的飛行模擬器訓練——讓員工必須挑戰機器,確保在“平穩運行”的漫長過程中,他們真正的判斷能力沒有衰退。在很多情況下,“儲備技能”不需要人人具備,只需在系統的某個環節存在即可——就像那些能識別榆樹的專家一樣。正因如此,美國海軍學院擔心GPS(全球定位系統)可能被干擾,在多年忽視後,重新恢復了基礎的“天體導航”訓練。大多數水手在遠洋航行中可能永遠不會用到六分儀,但只要有少數人掌握這項技能,在衛星失靈時,就足以穩住整個艦隊。這樣做的目的,是確保至少有一部分“實際能力”得以保留,以便在系統出現故障時,人類仍能站穩腳跟——至少不至於陷入困境。最令人擔憂的可能性,或許可以被稱為“根本性去技能化”:即那些“構成人類本質”的能力逐漸衰退。判斷力、想像力、同理心、對意義和分寸的感知——這些能力不是“備用選項”,而是我們日常都需要運用的能力。如果按照讓-保羅·薩特擔憂的說法,我們變成了“機器的機器”,那麼這種損失會體現在日常生活的方方面面。可能會消失的,是支撐我們日常判斷的“隱性、內化的知識”。如果人們開始按照系統偏好的方式提出問題,從系統提供的“看似合理的答案”中選擇,那麼這種損害不會表現為“嚴重的判斷失誤”,而會表現為“人格的逐漸弱化”:對話變得膚淺、對模糊性的容忍度降低、在需要尋找恰當措辭的地方習慣性使用套話、用“流暢”替代“理解”。如果將這些能力“外包”出去,實際上就是將“我們自己”外包出去。失去這些能力,不僅會改變我們的工作方式,還會改變我們“是誰”。從長遠來看,大多數形式的去技能化都是“良性”的。有些技能之所以過時,是因為支撐它們的“基礎設施”也已消失。電報技術需要熟練掌握“點和劃”(莫爾斯電碼);萊諾鑄排機需要熟練操作“熔鐵鍵盤”;平板膠片剪輯需要使用修版鉛筆和拼接膠帶,還要在腦海中記住不同場景在膠片和音軌中的位置。當電報線路、熱金屬印刷機和賽璐珞膠片消失時,它們所支撐的技藝也隨之消失。另一種去技能化,代表著“枯燥工作”的消除。很少有人會為“不再用手搓衣服”或“不再在紙上演算長除法”而惋惜。我認識一位神經科學家,他堅信大型語言模型能加快“撰寫資助申請”這一枯燥且範本化的工作。他仍然對內容負責,但即便自己的“資助申請撰寫能力”下降,他也毫不在意。在他看來,這不屬於“科學研究”,而是“研究體系要求的表演”。將這部分工作外包出去,能讓他騰出時間用於“發現”。事實上,“職業去技能化”可能具有“民主化”意義,能讓更多人有機會從事某項工作。對於英語能力有限的科學家來說,聊天機器人可以幫助他們順利撰寫“機構審查委員會陳述”,掃除“語言障礙”——而這種障礙與他們的研究質量毫無關係。在這種情況下,去技能化拓寬了“准入門檻”。再想想森內特提到的那家面包店,以及過去在廚房工作的希臘男性。過去的烤爐會燙傷他們的手臂,老式揉麵機可能拉傷他們的肌肉,搬運沉重的面包托盤會讓他們的背部承受壓力。到了20世紀90年代,當系統改為由Windows控製器操作時,勞動力構成發生了變化:不同種族的男性和女性站在螢幕前,點選圖示即可工作。“手藝”的要求降低了,但“符合條件的勞動者”範圍擴大了(當然,他們的工資也降低了:門檻越低,工資越低)。通常情況下,技術讓我們能將時間用在更有價值的事情上,培養“更高價值鏈條”上的技能,因此我們會主動放棄一些技能。在祖博夫調研的其中一家紙漿廠,操作員不再需要進行體力勞動,得以將更多時間用於“預測和預防問題”。有人說:“坐在這個房間裡思考,也成了我工作的一部分。”祖博夫將這種變化稱為“再技能化”:“行動技能”讓位於“抽象思維和流程推理能力”——也就是她所說的“智力技能”。類似的情況也發生在“電子表格軟體(如VisiCalc)出現後的會計師”身上:他們不再需要手工計算一列列數字,得以將更多時間用於“稅務策略”和“風險分析”。更重要的是,新技術能催生出“全新的技能”。在顯微鏡發明之前,有“博物學家”,但沒有“顯微鏡學家”:羅伯特·胡克和安東尼·范·列文虎克必鬚髮明“觀察和解讀微觀世界”的方法。電影製作不僅借鑑了戲劇,還催生了“攝影師”和“剪輯師”——這些職業沒有真正的歷史先例。每一次技術飛躍,都拓寬了“可能性的邊界”。如今的人工智慧技術可能也是如此。我的年輕同事們堅稱,與大型語言模型合作,已經在培養一種新的“技藝”——設計提示詞、追問驗證、發現偏見和幻覺,當然,還有“學會與機器協同思考”。這些都是“新興技能”,源於與“不會消失的數字架構”的互動。重要的技術,本質上都會催生我們目前還無法命名的“技藝和職業”。困難之處在於,要拋開“懷舊情緒”和“慣性思維”,判斷那些技能值得保留,那些可以捨棄。沒有人願意看到自己辛苦掌握的技能被視為“過時”而遭拋棄,因此我們必須抵制“情感的誘惑”。每一次進步都需要付出代價:文字讀寫能力削弱了“記憶壯舉”,但創造了新的“分析能力”;計算器影響了“心算能力”,但讓更多人能夠“運用數學”;錄音技術降低了“日常音樂演奏能力”,但改變了我們“聆聽音樂”的方式。那麼如今呢?我們顯然有權決定,大型語言模型究竟會“拓展”還是“縮小”我們的思維。縱觀人類歷史,我們的能力從未“停滯不前”。技能總是不斷“向外流動”——從雙手到工具,再到系統。個體的才智已融入“集體協同智能”,而推動這一過程的,是人類長久以來的“思維外化”習慣:將記憶儲存在符號中、將邏輯嵌入機器中、將判斷融入制度中,近來又將“預測”託付給演算法。過去催生行會的“專業化”,如今催生了“研究聯盟”;過去在師徒間傳遞的知識,如今通過“網路和數字矩陣”傳播。生成式人工智慧——人類知識的“統計濃縮”——只是我們“向自身發明學習”這一漫長過程中的最新篇章。因此,最緊迫的問題是:如何保持我們的“主體性”——如何在“即將承擔我們大量思考工作的系統”中,依然保持“主導者”的身份。每一代人都必須學會如何與“新獲得的認知工具”共處,無論是鐵筆、捲軸,還是智慧型手機。如今的新變化,在於“互動的速度和親密程度”:工具在向我們學習的同時,我們也在向工具學習。如今的“管理”,意味著要確保“構成人類本質的能力”——判斷力、想像力、理解力——在我們身上得以保留。如果說有那項技能我們絕對不能失去,那就是“判斷那些能力真正重要”的技能。 (邸報)
Transformer 之父「叛逃」:我已經受夠Transformer了!警告:AI研究變得越來越窄,我們需要找到新的架構
「我真的受夠了Transformer。」——這句話來自Transformer 的共同作者、Sakana AI 聯合創始人Llion Jones。在舊金山TED AI 大會上,這位被譽為“生成式AI 時代奠基人”的研究者,突然“開砲”——不僅公開批評了整個AI 行業的研究方向,還宣佈自己已經“離開Transformer”,開始尋找下一次重大突破。要知道,Transformer 正是ChatGPT、Claude、Gemini、Llama 等幾乎所有主流大模型的核心技術。而如今,它的發明人之一卻親口說:“我不幹了。”“AI 研究正在變得越來越窄”Llion Jones 是2017 年那篇改變AI 歷史的論文《Attention Is All You Need》的作者之一,也是「Transformer」這個詞的命名者。這篇論文被引用超過 10 萬次,堪稱電腦科學領域的「聖經級」成果。但在TED AI 的演講上,Jones 卻直言:“儘管現在AI 領域投入了前所未有的資金和人才,研究卻變得越來越狹窄。”他認為,這種局面不是偶然,而是被資本和競爭壓力擠壓出來的結果——投資者要求回報,研究員害怕“被抄”,於是大家都選擇安全、可發表的項目,而不是去探索真正未知的方向。結果呢?“AI 研究陷入了'剝洋蔥'式的自我複制。大家都在圍著同一個框架打轉——換個超參、堆點資料、再發一篇論文。”“我們可能又在錯過下一個突破”Jones 提出了一個形象的比喻-AI 演算法有個經典的平衡:「探索vs 利用」(exploration vs exploitation)。如果一個系統只是一味利用已有成果,而不去探索新方向,它就會陷入“局部最優”,錯過真正更好的解法。「AI 領域現在就是這樣。」Jones 說。“我們太沉迷於Transformer 的成功,以至於忘了往外看。也許下一個革命性架構,就在不遠處。”Transformer 誕生於“沒有KPI 的自由”Jones 回憶起當年在Google發明Transformer 的經歷時,語氣明顯柔和了。“那是一個非常自由、非常自然的過程——我們沒有明確的項目要求,也沒有指標壓力。只是午飯時聊出來的點子,隨手在白板上寫寫畫畫。”沒有OKR、沒有deadline,也沒有資本的緊逼。正是這種“無壓力的研究環境”,讓Transformer 這場技術革命得以誕生。而現今的AI 公司,Jones 說,即使給研究員上百萬年薪,也無法給他們真正的自由。“他們一上班就感到必須'證明自己',於是繼續追逐低風險、能發論文的方向。”Sakana AI:離開Transformer 的實驗室作為Sakana AI 的CTO,Jones 現在正嘗試「重建」那種原始的自由:以自然啟發為靈感的研究方向,極少的成果壓力,也不強迫研究者為了論文或競爭對手而忙碌。他引用工程師Brian Cheung 的一句話作為研究準則:“你應該只去做那些,如果不是你,這個世界上就不會有人去做的研究。”這家總部位於東京的AI 實驗室正在研究一種名為 「連續思考機」(Continuous Thought Machine) 的新架構——靈感來自神經同步的自然現象,它將大腦式的同步機制引入神經網絡中。一位提出這個想法的員工告訴Jones,在他以前的公司或學術機構,類似的想法會被認為是「浪費時間」。但在Sakana,Jones 給了他一周自由探索的時間——結果,這個項目最終成功入選頂級AI 學術會議 NeurIPS 的展示。Jones 甚至提出,自由比高薪更能吸引人才。“這是吸引人才的極好方式,”他這樣評價這種“探索型”研究環境,“想一想,那些聰明、有野心、真正熱愛探索的人,自然會主動尋找這樣的地方。”“這不是競爭,而是探索”最後,Jones 呼籲整個行業:“我們不是在競爭,而是在共同探索。如果大家都能多一點分享、多一點冒險,我們也許能更快走向下一個重大突破。”業界越來越多證據表明,單純擴大Transformer 模型規模 已接近極限。許多頂級研究者開始討論:或許新的架構創新,而非參數堆疊,才是邁向更強AI 的關鍵。但他也警告,這個突破可能永遠不會出現——除非我們打破現有的激勵機制:金錢、競賽、論文、排名……這些正讓研究者遠離真正的探索。作為Transformer 的共同創作者,Jones 對這個限制的洞察極具份量。他選擇“告別自己的發明”,也讓他的觀點更有說服力。“也許下一個Transformer 級的突破,就在拐角處。但也可能被忽視——因為我們都忙著改進一個我已經'厭倦'的架構。”畢竟,他是少數真正理解Transformer 從誕生到極限的人之一。如果連他都覺得該向前走——那也許真是時候了。Transformer 八位作者的去向2017 年那篇改變AI 處理程序的論文《Attention Is All You Need》,有8 位作者。八年後,他們已各自踏上完全不同的航線——Ashish Vaswani 創立了Essential AI;Noam Shazeer 離開Google創辦Character.AI,又重回Gemini 項目;Aidan Gomez 在Cohere 帶領團隊探索企業級LLM; Jakob Uszkoreit轉向生物科技AI,創辦Inceptive;繼續推動推理模型發展;Illia Polosukhin 則投身區塊鏈領域,打造NEAR Protocol;而Niki Parmar 仍保持低調,鮮少公開露面。從科學研究到創業、從語言模型到生物智能,他們幾乎代表了AI 產業的所有分支方向。這一幕像極了Transformer 自身的命運:從單一架構出發,衍生出無數變體與未來。當年那群年輕研究者改變了人工智慧的軌跡;如今,他們又在各自的探索中,追尋下一個「Attention is all you need」時刻。參考連結:https://venturebeat.com/ai/sakana-ais-cto-says-hes-absolutely-sick-of-transformers-the-tech-that-powers (51CTO技術堆疊)