#Transformer
Transformer作者爆料GPT-5.1內幕!OpenAI內部命名規則變亂了
我們正在經歷一次靜悄悄、但本質性的AI範式轉換。它的意義不亞於Transformer本身。過去一年裡,關於AI發展,出現了兩種觀點的分化:一邊是“AI增長放緩、模型到頂、預訓練無用論”另一邊則是隔三差五就來一次“AI大周”:GPT-5.1、Gemini 3、Grok 4.1。而Transformer作者之一、現任OpenAI研究科學家的Łukasz Kaiser最近接受採訪,給出了第一視角的解答。資訊量極大,包括AI的底層範式轉變、GPT-5.1的命名規則、未來AI的發展趨勢……以及Transformer誕生背後的二三事。AI不是變慢了,而是換代了。GPT-5.1不是簡單的小版本迭代,OpenAI內部版本命名規則有所變化。多模態推理將會成為下一個突破點。AI不會讓人類完全失去工作。家用機器人是繼ChatGPT後最可見的AI革命。下面一起來康康詳細內容:AI發展沒有放緩,而是平穩增長過去一年裡,有關“模型進展變緩”的聲音層出不窮,但Łukasz認為這種看法是錯誤的。他給出的解釋也很直白:從內部視角看,AI的能力增長是一條非常平滑的指數曲線。這類似於摩爾定律,幾十年來摩爾定律始終有效,甚至在GPU的推動下還在加速,歸根結底也是因為它歷經了數代技術的迭代。因此,AI從外部看,趨勢是平穩的;而從內部看,其進步也離不開新技術、電腦能力的提升和工程最佳化的共同作用。至於為什麼會有人覺得“變慢了”,原因無它:AI的底層範式,已經悄悄從預訓練轉向推理模型。這也是繼Transformer誕生後的又一次關鍵轉折。如果把技術發展的過程描述為一條S型曲線(起步→快速增長→平穩期),那麼預訓練就處於S曲線的上升後期,而推理模型仍處於初期。不過這並不意味著預訓練的Scaling Laws就失效了,它仍在發揮作用,只是和新的推理範式相比,需要投入更多的資金。所以出於經濟上的考量,業內人士開始普遍將工作重心轉向更小也更便宜,但質量相同的模型,所以這也是導致外界認為預訓練已經停止的原因之一。那麼回到推理模型上,由於該範式還處於新興階段,進步速度會相當之快。以ChatGPT為例,GPT-3.5會直接基於訓練資料記憶給出答案,而不會借助任何外部工具和推理,反觀現在最新的ChatGPT會主動瀏覽網站、進行推理分析,再給出精準答案。對於普通使用者來說,如果不仔細對比,可能會覺得二者差異不大,但實際上這背後是性能質的飛躍。又比如說Codex,程式設計師的工作方式已經在近幾個月裡轉變為“Codex先處理,然後人工微調”的模式,這種變化其實相當之徹底,但如果不是專業從事程式設計工作,自然不會留意到這種根本性變革。所以總的來說,這一切的變化都發生得太快,以至於讓人們還未曾察覺到其中的變化。而推理模型的本質其實也與基礎大模型類似,只是在給出最終答案前,會優先進行思考,也就是所謂的思維鏈。在思考過程中,模型被允許使用工具,例如瀏覽網頁,以給出更準確的答案。其推理過程也會被視為模型的一部分並接受訓練。相比於傳統的深度神經網路梯度下降訓練,推理模型則更多使用的是強化學習。具體來說,強化學習會通過獎勵機制推動模型獲取更好的答案,也需要研究人員提供更細緻的資料準備,以完成強化學習的參數調整。然後通過強化學習,模型就能學會對自身錯誤的糾正。後續行業也會繼續轉向更複雜的強化學習,例如借助一個大模型來判斷答案的正確性或偏好度,或者融入更多的人類偏好。總之,未來強化學習的應用範圍會更加廣泛,不僅僅適用於特定領域,還能處理更多通用資料,比如說多模態推理,雖然最近Gemini已經能夠在推理過程中生成圖像,但整體來說還處於剛剛起步的階段,相信在強化學習的幫助下會有進一步的提升。GPT-5.1絕非表面上的小版本更新關於最近發佈的GPT-5.1,Łukasz也釋出了更多細節。GPT-5.1看起來只是小版本更迭,實際從內部來講,是一個巨大的穩定性迭代。首先回到最初的GPT-4到GPT-5,簡單來說,得益於強化學習和合成資料的應用,GPT-5的推理能力明顯提升了。而到GPT-5.1的改進,則更多集中在後訓練階段,比如增加安全性、減少幻覺,以及加入了如書呆子、專業等多種風格選擇。版本的命名方式也不再與技術細節掛鉤,轉而以使用者體驗為導向,比如GPT-5是基礎能力較強的模型,GPT-5.1是能力更優的版本,Mini是更小、更快、更廉價但性能稍弱的模型,推理模型則專注於複雜任務。這種命名方式的轉變也為OpenAI內部帶來了更多靈活性,現在強化學習、預訓練、幻燈片最佳化等多個項目平行工作,然後通過蒸餾技術就能將多項目成果整合到一個模型中。這大大縮短了模型迭代時間,可以更好地滿足使用者體驗需求,所以GPT-5.1看似是小版本更新,實則背後是OpenAI基於使用者對其能力和目標預期做出的策略調整。不過坦白地講,GPT-5.1在部分能力上仍然存在短板。比如Łukasz用自己5歲的女兒舉了個例子——GPT-5.1能夠遊刃有餘地解決奧林匹克競賽題,但在面對小學一年級的數奇偶數題目上卻錯誤百出。該題目內容是,圖中有兩組點,中間有一個共享點,問總點數是奇數還是偶數。5歲的孩子能夠在10秒內就算出答案(因為共享點的存在導致總點數為奇數),但無論GPT-5.1還是Gemini 3都會自動忽略這個共享點,誤判為偶數。這主要還是因為模型缺乏足夠的多模態能力,也未能將一個問題的推理經驗遷移到相似場景中,所以後續他們將會在訓練中進一步強化多模態推理和上下文推理遷移能力。從GoogleTransformer走向OpenAI而作為Transformer的作者之一,Łukasz也在訪談中補充了很多誕生細節。Łukasz自己原先是一名專注於理論電腦科學的學者,高中時就對數學和電腦充滿興趣,並在德國獲得了理論電腦科學與數學博士學位。他一直對“思維是如何運作的”、“智能的本質是什麼”諸如此類的問題充滿好奇,也曾在法國獲得終身教職,從事邏輯和程式設計研究。直到深度學習興起,他加入了Google。先是成為了Ray Kurzweil團隊的一員,後轉至Google Brain,開始與Ilya Sutskever等人合作。在開發Transformer的過程中,Łukasz主要負責編碼和系統工作,參與TensorFlow框架的開發。不過有趣的是,據他回憶,Transformer論文的八位共同作者從未在同一個物理房間中共同出現過。而雖然他們彼此之間素未謀面,但他們通過不同角度共同建構了這個模型:有人專注於注意力機制本身,有人研究如何通過前饋網路儲存知識,還有人複雜解決工程實現問題,比如他自己。從現在的角度看,Transformer毫無疑問是當今AI架構的里程碑,但在當時,很多人對用同一個模型處理多個任務的想法並不理解,他們普遍認為不同任務就應該分別訓練不同的專有模型。而他們八個人堅信自己的選擇,後來的事實也證實了他們的想法是正確的。關於之所以離開Google,轉投OpenAI,其中一個原因還是因為llya。llya在Google時期就是Łukasz的直系領導,在創辦OpenAI後也屢次邀請他加入。剛好這時,Łukasz也無法適應Google Brain的團隊規模擴大以及遠端工作氛圍,於是一拍即合,來到了OpenAI。OpenAI也沒有讓他失望,這裡沒有嚴格的組織架構,都是根據項目自發組隊,也會根據項目進展靈活調整,直到項目成熟才會逐步擴大團隊。當然不同項目之間也會存在資源競爭,畢竟OpenAI內部GPU資源有限。從技術層面看,預訓練目前消耗的GPU資源最多,其次是強化學習和視訊模型,資源分配在很大程度上還是由技術需求決定。所以競爭不可避免,Łukasz本人也不例外。下一次突破來自多模態推理+具身智能最後,Łukasz聊了聊他眼中的AI未來。AI會改變工作,但不會讓工作消失。因為從產品層面上看,即使AI自動化了絕大部分任務,但人類專家的需求仍然存在。以翻譯行業為例,其實Transformer論文最初的應用場景就是翻譯,現在的模型也能精準翻譯西班牙語、法語等語言,但對於報紙廣告乃至ChatGPT UI介面,仍然需要人類譯者進行二次稽核。這本質上是信任問題,即使模型能力再強,對於一些高風險、高關注度的場景,還是會傾向於依賴人類專家經驗。只是說,對於另外一些基礎工作,可替代性會變高,後續也會出現相應的工作內容變化,但歸根結底不會讓人類無事可做。Łukasz還預計,家用機器人可能會成為“下一次更為直觀的AI革命”。機器人技術的進展,取決於多模態能力和通用強化學習、通用推理的進步。一旦這些領域取得突破,機器人技術必將迎來爆發式增長。目前已經有很多矽谷公司在相繼推出智能手遙操作等硬體產品,硬體基礎也將迅速成熟,屆時將協同多模態和物理世界推理能力,實現家用機器人的能力躍遷。這將會比ChatGPT更直觀、更易感知。 (量子位)
李飛飛最新萬字訪談:未來五年,Transformer 可能被淘汰
11月24日,史丹佛大學教授、World Labs創始人李飛飛參加播客訪談,詳細闡述了她對空間智能(Spatial Intelligence)的構想,並討論她與楊立昆在世界模型(World Models)上的不同觀點流派問題。在世界模型的建構上,李飛飛與前Meta首席科學家楊立昆(Yann LeCun)的理念常被外界視為兩種流派。楊立昆傾向於讓模型學習世界的抽象“隱式表徵”,而不必還原每一幀像素;而李飛飛的Marble則力求從抽象的內部表徵中產生顯式表徵,明確輸出可視化的3D世界。李飛飛並不認為兩者是對立關係,她表示如果最終要建構一個通用的世界模型,隱式表徵和顯式表徵最終都是必要的。World Labs採用的是“刻意為之”的顯式輸出,因為其商業目標服務於遊戲開發、視覺特效和建築設計等領域的人類創作者,他們的日常工作需要一個可視化的、可互動的3D輸出結果。但在模型內部,RTFM同樣包含隱式表徵。她認為,未來的架構將是兩者的混合體。作為World Labs的創始人,李飛飛在訪談中透露了公司的首個產品Marble,以及其背後的技術底座“即時幀模型”(RTFM)。與單純生成視訊的模型不同,Marble致力於生成具有一致性和持久性的3D空間,其模型不僅是多模態的,支援文字、圖像、視訊甚至粗略的3D佈局作為輸入,更重要的是它試圖在推理過程中保持物體一致性。她說,目前的LLM主要通過海量的文字資料學習,雖然語言模型令人驚嘆,但人類大量的知識是無法僅通過語言捕捉的。為了建構真正的通用人工智慧,AI必須走出文字的限制,通過視覺和行動去體驗物理世界。人類的學習過程本質上是具身(Embodied)的,我們在沒有語言的情況下與世界大量互動,感知光線、觸覺、重力和空間關係。當被問及目前的AI是否真正“理解”物理世界時,李飛飛認為,目前大多數生成式視訊中展現的水流或樹木擺動,並非基於牛頓力學計算,而是基於海量資料的統計學湧現。雖然AI可能通過資料擬合出運動定律,但要達到愛因斯坦提出相對論那種層面的抽象,目前的Transformer架構尚未展現出足夠的證據。對於技術的演進速度,李飛飛認為在五年內,我們有望看到AI在理解物理世界方面取得重大進展。她描繪了一個基於“多重宇宙”(Multiverse)的未來圖景:通過大幅降低3D內容生成的門檻,人類可以低成本地創造出無數個平行世界,這些數字平行世界將成為人類物理體驗的無限延伸,重塑娛樂、教育、遠端協作以及科學探索等多個領域場景。李飛飛訪談內容劃重點:1. 空間智能是核心僅靠語言不足以建構通用人工智慧(AGI)。人類大量智能(如空間推理、急救反應)是非語言的。AI必須獲得“空間智能”(Spatial Intelligence),要像生物一樣,擁有深度感知的空間能力,建立起看、做和想像之間的完整閉環。2.世界模型的新範式World Labs 的核心產品 Marble 與普通視訊生成模型的最大區別在於“物體恆常性”(Object Permanence)。在 Marble 生成的世界裡,當你轉身再轉回來,背後的物體依然存在且保持原狀,而不是像夢境一樣隨機變形。李飛飛團隊提出了“即時幀模型”(RTFM),其目標是在單張 H100 GPU 的算力約束下,實現高效的 3D 空間推理。這是為了建構一個在幾何上一致、在時間上持久的“數字容器”,為未來能夠理解物理法則的 AI 打下地基。3. 與楊立昆和而不同楊立昆主張世界模型要做抽象理解的“隱式表徵”,李飛飛的Marble則力求從抽象的內部表徵中產生顯式表徵。李飛飛認為隱式表徵和顯式表徵最終必須融合,但目前 World Labs 刻意選擇輸出顯式 3D 表徵,目的是賦能人類。未來的AI 不應只是一個黑盒,而應成為遊戲開發者、建築師和藝術家的“神經空間引擎”(Neural Spatial Engine)。它融合了傳統物理引擎(如Unreal)的確定性規則和生成式 AI 的統計創造力,讓普通人也能瞬間建構複雜的 3D 互動世界。4. 視覺領域的“Next Token”難題語言模型有完美的“預測下一個Token”作為目標函數。但在視覺領域,“預測下一幀”雖然強大但並不完美,因為它將三維世界壓縮為二維,丟失了結構資訊。尋找視覺領域的“通用任務函數”仍是未解之謎。5. AI目前還不懂物理AI生成的物理現象(如重力、碰撞)多源於統計規律的模仿,而非對物理定律的因果理解。現有的Transformer架構可能難以產生如“相對論”般的高級抽象,未來五年,行業需要尋找一種新的架構突破,讓 AI 從統計相關性跨越到真正的因果邏輯和物理推理。以下為李飛飛訪談實錄:主持人:歡迎收聽本期播客。在這一集中,我很榮幸再次與人工智慧先驅李飛飛博士對話。幾年前我曾在播客上邀請過飛飛,我也推薦大家去聽那一期節目。在今天的對話中,我們將探討她關於“世界模型”(World Models)的見解以及“空間智能”(Spatial Intelligence)的重要性——這些都是打造真正理解現實世界並能與之互動的 AI 的關鍵要素。雖然大型語言模型(LLMs)已經非常驚人,但大量(甚至大部分)人類知識並未被文字所捕捉。為了實現更廣義的人工智慧,模型需要親身體驗世界,或者至少通過視訊來學習。我們還討論了她的創業公司 World Labs 以及他們的第一個產品 Marble。Marble 可以從模型的內部表徵生成令人難以置信的複雜 3D 空間。1. 從電腦視覺到空間智能的演進主持人:我想先把話題從Marble 和你們那個能生成一致且持久的、供觀眾漫遊的 3D 世界的新模型上移開,多談談你為什麼把重點放在世界模型和空間智能上。為什麼這是超越單純語言學習的必要條件?另外,你的方法與楊立昆的方法有何不同?你現在的世界模型工作,究竟是你過去在環境智能(Ambient Intelligence)工作的延伸,還是平行的另一條路線?李飛飛:過去幾年我一直思考的空間智能工作,實際上是我整個電腦視覺職業生涯重點的延續。我之所以強調“空間智能”,是因為我們的技術已經發展到了這樣一個階段:其複雜程度和深層能力已經不再停留在僅僅“盯著”一張圖像的層面,甚至不僅僅是簡單的視訊理解。現在的核心是深度感知的空間,這與機器人學、具身智能(Embodied AI)以及環境智能都緊密相連。從這個角度看,這確實是我在電腦視覺與 AI 領域職業生涯的自然延伸。主持人:正如你和其他許多人所指出的,語言模型是從以文字編碼的人類知識中學習的,但那只是人類知識的一個非常有限的子集。人類的學習是通過在沒有語言的情況下與世界大量互動獲得的。因此,如果我們要超越當前這些雖然了不起但仍有侷限的大型語言模型,開發出能對世界有更直接體驗、能更直接從世界中學習的模型就顯得尤為重要。談到具體方法,以Marble 為例,你的做法是將模型學到的世界內部表徵提取出來,並建立一個與之對應的外在視覺現實。而楊立昆的方法主要是建立內部表徵,讓模型能夠學習運動物理定律之類的東西。這之間有平行關係嗎?這兩種方法是互補的,還是有重疊?李飛飛:首先,我不會把自己和楊立昆對立起來。我認為我們在智力上處於同一個連續體中,只是對空間智能和世界建模採取了不同的切入點。如果你讀過我最近發表的那篇關於“空間智能”的長文(我稱之為宣言),我在這一點上說得很清楚。我認為,如果最終要建構一個通用的、全能的世界模型,隱式表徵(Implicit Representation)和某種程度的顯式表徵(Explicit Representation)最終可能都是必要的,尤其是在輸出層。例如,World Labs 目前的世界模型 Marble 確實會顯式地輸出 3D 表徵,但在模型內部,它同時也包含隱式表徵。老實說,我認為這兩者最終都是不可或缺的。在輸入模態方面也是如此。是的,從視訊中學習非常重要,畢竟整個世界可以看作是大量連續幀的輸入。但真正的智能,無論是對於動物還是機器,不僅僅是被動觀看。它還涉及到動作、互動的具身體驗,以及觸覺、聲音、氣味、物理力(Physical Forces)、溫度等。因此,我認為這在本質上是深度多模態的(Deeply Multimodal)。Marble 作為一個模型只是第一步。在我們幾天前發佈的那篇技術報告中,我們要表達得相當明確:多模態既是一種學習範式,也是一種輸入範式。目前學術界對此有很多討論,這也展示了該領域正處於早期且令人興奮的階段。可以說,我們在確切的模型架構和表徵方式上的探索還遠未結束。2. 超越文字:多模態輸入與學習範式主持人:在你那個世界模型中,輸入主要是視訊嗎?李飛飛:如果你體驗過Marble,你會發現我們的世界模型輸入是相當多模態的。你可以只使用純文字,也可以使用一張或多張圖像,可以處理視訊,甚至可以輸入粗略的 3D 佈局(比如盒子或體素)。它是多模態的,而且我認為隨著我們的推進,這方面的能力會進一步加深。文字只是一種形式。是的,但這正是我們產生分歧的地方。大多數動物並不是通過複雜的語言來學習的,但人類是。不過,我們今天的AI 世界模型(World Models)將從大量的語言輸入以及其他模態中學習,它並非僅僅通過語言來進行資訊的壓縮和傳遞。主持人:這也是大型語言模型(LLMs)的一個限制,即模型在訓練後參數就固定了。所以它們不會持續學習,儘管在測試時的推理階段會有一定程度的學習。這是你在建構世界模型時試圖解決的問題嗎?因為我們可以推測,世界模型在遇到新環境時應當是不斷學習的。李飛飛:是的,持續學習(Continuous Learning)範式確實非常重要。對於生物來說就是如此,這也是我們人類學習的方式。即使在生物學習中,也存在線上學習與離線學習的區別。在我們目前的世界模型形式中,仍然更多地處於批次或離線學習模式。但我們絕對持開放態度,尤其是未來涉及到線上學習和多模態融合時。主持人:那會是怎樣的?會是一個完全不同的架構,還是僅僅是工程實現的問題?李飛飛:我會保持開放的心態。我認為會是兩者的混合。顯然這需要優秀的工程實現,比如微調(Fine-tuning)和線上學習,但也可能會出現新的架構。主持人:你能談談即時幀模型(Real-Time Frame Model)嗎?以及你們在世界模型方面的工作?李飛飛:你指的是我們幾周前發佈的一篇技術部落格,那是專門深入探討我們的即時幀模型的。World Labs 是一個以研究為主的組織,雖然我們也關心產品,但現階段大量工作是以模型為先的。我們正著重研究如何推進空間智能(Spatial Intelligence)。這項特定的工作實際上是專注於如何實現基於幀的生成,並儘可能保持幾何一致性和持久性。在早期的基於幀的生成操作中,當你向前移動視角時,往往會失去那種物體持久性。在這個特定案例中,我們努力實現平衡,並在推理期間以計算高效的方式完成這一點,即在推理時僅使用單個H100 GPU。我們不太清楚其他基於幀的模型的情況,因為他們沒透露推理時使用了多少晶片,但我們假設那是相當大的算力消耗。3. 尋找空間智能的“通用任務函數”主持人:在你的那篇“宣言”裡,你談到了需要一個“通用任務函數”(General Task Function)。這類似於語言模型中的“下一個 Token 預測”(Next Token Prediction)。它是否帶有預測元素?李飛飛:生成式AI 最重大的突破之一,確實是發現了“下一個 Token 預測”這個目標函數。這是一個非常優美的表述,因為語言是以序列化方式存在的,你可以將語言 Token 化為這種序列表示。你用於下一個 Token 預測的學習函數,正是推理時所需要的。無論是人類還是電腦生成語言,實際上都是一個接一個地把標記向前推進。擁有一個與最終實際執行任務完全(100%)對齊的目標函數是極好的,因為它使最佳化可以完全針對目標進行。但在電腦視覺或世界建模中,情況沒那麼簡單。語言本質上是人類生成的,自然界中並不存在你盯著看的“語言”,那怕你最終學會了閱讀,那也是因為它已經被生成了。但我們與世界的關係要更加多模態:世界就在那裡等著你去觀察、解讀、推理並與之互動。人類還有一種“心眼(Mind's Eye)”,能夠建構不同版本的現實、想像並生成故事。這要複雜得多。主持人:那麼,定義這個通用任務的是什麼?或者說,我們可以使用的通用目標函數是什麼?有什麼能像“下一個 Token 預測”一樣強大嗎?是 3D 重建嗎?李飛飛:這是一個非常深刻的問題。有些人實際上會爭辯說,世界建模的通用任務可能就是對世界進行3D 重建。如果這是目標函數並且我們達成了它,很多事情就會水到渠成。但我並不這麼認為,因為大多數動物的大腦並不一定會進行精確的三維重建,然而老虎或人類在空間上卻是如此強大的視覺智能體。“下一幀預測”確實有一定力量。首先有大量用於訓練的資料;其次,為了預測下一幀,你必須學習世界的結構,因為世界不是白噪聲,幀與幀之間存在大量結構連接。但這也令人不滿意,因為你把世界當作二維的,這種壓縮方式非常糟糕。即使你做得完美,3D 結構也只是隱式的,這種基於幀的方式會丟失很多資訊。所以在這方面仍有很多探索空間。主持人:我得問你,你們把模型命名為RTFM(Real-Time Frame Model),這是個玩笑嗎?李飛飛:這確實是一次絕妙的“表演”。名字不是我起的,是我們的一位研究員,他在命名方面真的很有天賦。我們覺得用那個名字玩個梗很有趣。主持人:但是RTFM 是在預測下一幀,並且具有三維一致性,對吧?李飛飛:是的。主持人:這就是模型所學內部表示有趣的地方。比如我看著電腦螢幕,即使看不見背面,我也知道它長什麼樣,因為我腦海中有它的內部表徵。這就是為什麼你可以在螢幕這個二維平面上移動物體,卻能看到它的另一面。模型擁有三維物體的內部表徵,即使它當前的視角看不見物體的背面。當你說到空間智能時,這是否包括自然的物理法則?比如理解你不能穿過一個固體物體?或者如果站在懸崖邊,它知道那是邊緣,如果走過去會掉下去而不是浮在空中?李飛飛:你描述的既有物理層面也有語義層面。從懸崖掉下去很大程度上取決於重力定律,但穿牆而過則基於材質和語義(固體與非固體)。目前作為一個現有模型,RTFM 還沒有把重點放在顯式的物理學上。大部分的“物理”實際上是從統計中湧現的。許多生成式視訊模型展示的水流或樹木移動,並不是基於牛頓力學定律和質量計算出來的,而是基於對大量統計模式的遵循。World Labs 目前仍然專注於生成和探索靜態世界,但我們也將探索動態,其中很多將是統計學習。我不認為今天的AI 有能力在不同層次上進行抽象並推導物理規律。另一方面,我們有像 Unreal 這樣的空間物理引擎,其中有明確的物理定律在起作用。最終,這些遊戲引擎/物理引擎將與世界生成模型融合成我稱之為“神經空間引擎(Neural Spatial Engine)”的東西。我們正朝著那個方向前進,但現在還處於早期階段。4. 顯式表徵的價值:賦能創作者與產業主持人:我不是想讓你和楊立昆對立。但你似乎關注的是從抽象的內部表徵中產生顯式表徵,而楊立昆只是關注內部表徵。李飛飛:在我看來它們會完美結合。我們同時探索兩者。輸出顯式表徵其實是一種非常刻意的方法,因為我們希望這對人有用。我們希望這對那些在創作、模擬和設計的人有用。如果你看看當今的行業,無論你是在製作視覺特效(VFX)、開發遊戲、設計室內、還是為機器人或自動駕駛車輛進行模擬(數字孿生),這些行業的工作流程都非常依賴 3D。我們希望這些模型對個人和企業都絕對有用。主持人:這就回到了持續學習的話題。比如一個機器人上的模型,通過攝影機在世界中移動獲取資料,最終它不僅學習場景,還理解空間的物理性,然後與語言結合?這是否需要持續學習?李飛飛:絕對如此。尤其是當接近某個用例時,持續學習至關重要。這可以通過多種方式實現:在語言模型中,將上下文字身作為輸入就是一種持續學習(作為記憶);此外還有線上學習和微調。在空間智能領域,無論是個性化機器人還是具有特定風格的藝術家,最終都會推動這項技術在不同時間尺度上變得更具響應性,以滿足具體用例的需求。5. 未來展望:AI模型的技術跨越主持人:你現在的進展非常快,特別是想到你曾在紐澤西經營過乾洗店,雖然那是很短的一段時間,但這種跨越真是令人驚嘆。你對這項技術五年後的發展程度有什麼判斷嗎?比如模型內部是否會內建某種物理引擎,或者擁有更長時間尺度的學習能力,從而建立起更豐富的內部表徵?也就是說,模型是否會開始真正理解物理世界?李飛飛:實際上,作為一名科學家,很難給出一個精確的時間預測,因為有些技術的進展比我預期的快得多,而有些則慢得多。但我認為這是一個非常好的目標,而且五年確實是一個相當合理的估計。我不知道我們會不會更快實現,但在我看來,這比猜測五十年要靠譜得多,當然也比猜測五個月要靠譜。主持人:你能否稍微談談,為什麼你認為“空間智能”(Spatial Intelligence)是下一個前沿?正如我們所知,包含在文字中的人類知識只是全部人類知識的一個子集。雖然它非常豐富,但你不能指望一個 AI 模型僅通過文字就能理解世界。能具體談談為什麼這很重要嗎?以及 Marble 和 World Labs 是如何與這個更大的目標相關聯的?李飛飛:從根本上講,技術應該幫助人類。與此同時,理解智能科學本身是我能想到的最迷人、最大膽、最有雄心的科學探索,這是屬於21世紀的探索課題。無論你是被科學的好奇心吸引,還是被用技術幫助人類的動機驅動,這都指向了一點:我們的大量智能,以及我們工作中的大量智能是超越語言的。我曾半開玩笑地說,你無法用語言去滅火。在我的宣言裡,我舉了幾個例子:無論是空間推理、DNA 雙螺旋結構的推導,還是一名急救人員在快速變化的情況中與團隊協作滅火,很多內容都超越了語言。所以,從應用角度來看這是顯而易見的;作為一項科學探索,我們應該盡最大努力去破解如何發展空間智能技術,帶我們進入下一個層次。從宏觀角度來看,這就是驅動我的雙重動機:科學發現以及為人類製造有用的工具。我們可以更深入地探討一下其實用性。無論是在談論創造力、模擬、設計、沉浸式體驗、教育還是醫療保健,甚至是製造業,利用空間智能可以做的事情實在太多了。實際上,我很興奮,因為許多關心教育、沉浸式學習和體驗的人告訴我,Marble(我們需要發佈的首個模型)激發了他們思考如何將其用於沉浸式體驗,使學習更具互動性和趣味性。這是如此自然,因為還不會說話的兒童完全就是通過沉浸式體驗來學習的。即便作為成年人,我們的生活也大多沉浸在這個世界中,雖然包括聽說讀寫,但也包括實踐、互動和享受。主持人:是的。Marble 讓所有人都印象深刻的一點是,它不僅僅是生成下一幀畫面,而是在一個空間中移動,而且它僅在一塊 H100 GPU 上運行。我在你其他的演講中聽到你提到過“體驗多重宇宙”(experiencing the multiverse)。大家一開始都很興奮,直到意識到這需要巨大的計算量和昂貴的成本。你真的認為這是朝著為教育建立虛擬世界邁出的一步嗎?因為看起來你們已經能夠減少計算負擔了。李飛飛:首先,我真的相信在推理方面我們會加速,我們將變得更高效、更優秀、規模更大、質量更高。這是技術的趨勢。我也相信多重宇宙的概念。就我們所知,整個人類歷史的經驗只存在於一個世界裡,確切地說是地球這個物理實體。雖然有極少數人登上過月球,但也就僅此而已。我們在3D 空間中建設文明、生活、做所有事情。但隨著數字革命和數字爆炸,我們正把生活的一部分轉移到數字世界中,這兩者有很多交叉。我並不想描繪一種我們放棄了物理世界的反烏托邦圖景,也不會描繪一種每個人都戴著頭盔、永遠無法欣賞真實世界的極端烏托邦式虛擬世界,那是生命最充實的部分,我會拒絕這兩種極端觀點。但從實用角度以及對未來的設想來看,數字世界是無邊無際的。它是無限的,它為我們提供了物理世界無法允許的更多維度和體驗。例如,我們討論過關於學習的問題。我真希望能以更互動、更沉浸的方式學習化學。我記得大學化學課有很多關於分子排列、理解對稱性和分子結構不對稱性的內容。我真希望能在沉浸式體驗中親自感受那些東西。我遇到的許多創作者,我意識到在他們的腦海中,每一瞬間都有無數的想法,但他們受制於工具的限制。例如使用Unreal Engine(虛幻引擎),要把腦中的一個世界表達出來需要花費數周甚至數小時的工作時間。無論你是製作一部奇幻音樂劇,還是為新生兒設計臥室,如果我們允許人們像在物理世界中一樣,充分利用數字宇宙去反覆嘗試、交流和創造,那將非常有趣。此外,數字時代也在幫助我們打破物理邊界和勞動的限制。比如遠端操控機器人。我完全可以想像創作者通過具身化的化身(Avatar)在全球協作,通過機械臂或任何形態以及數字空間,使他們既能在物理世界中工作,也能在數字世界中工作。電影行業也將被徹底改變,現在的電影是被動體驗,儘管很美好,但我們將改變獲得娛樂的方式。所以這一切都需要多重世界。主持人:還有關於瞬移或者遙操作機器人,比如有人在談論在小行星上開採稀土。如果你不需要親身到場,而是能遠端操作機器人,那就在那些空間裡實現了。你所談論的是建立人們可以體驗的3D 空間的顯式表徵。在你的模型中,這個模型自身在多大程度上“理解”它所處的空間?它是內化了這些資訊,還是僅僅是將其顯式地投射出來?這是一個朝著真正理解世界的人工智慧努力的過程。不僅僅是對三維空間有一個表示,而是真正理解物理定律,理解它所看到的東西,甚至包括這些東西的價值、有用性,以及如何操縱物理世界。你認為目前已經存在多少這樣的理解?要讓那些模型真正理解這個世界,還需要發生什麼?李飛飛:這是一個很棒的問題。“理解”是一個很深刻的詞。當AI “理解”某樣東西時,它本質上與人類的理解不同。部分原因是我們是非常不同的存在。人類是具身的(embodied),是在一個有形的身體裡存在的。例如,當我們真正理解“我的朋友很高興”時,這不僅僅是抽象的理解。你能感受到你體內發生的化學反應,釋放快樂激素,心跳加速,情緒改變。那種理解層次與抽象的AI Agent非常不同。AI Agent能夠正確地分配意義並建立聯絡。例如,在 Marble 我們的產品中,你可以進入世界生成的高級模式進行編輯。你可以預覽這個世界並說:“我不喜歡這張沙發是粉色的,把它換成藍色。”然後它就把它改成藍色。它是否理解“藍色沙發”和“更改”這個詞的含義?是的。因為沒有這種理解,它就無法執行任務。但它是否像你我一樣理解關於沙發的一切?包括沙發的用途、甚至無用的資訊?它有關於沙發的記憶嗎?它會把“沙發”這個概念推廣到許多其他事物上嗎?不,它沒有。作為一個模型,它的能力有限,只能根據要求建立一個包含藍色沙發的空間。所以我認為AI 確實能“理解”,但不要將這種理解誤解為擬人化的、人類層面的理解。這種理解更多是語義層面的,而不是那種光線打在視網膜上產生感知體驗的理解。主持人:我看過你和Peter Diamandis 以及埃裡克·施密特(Eric Schmidt)的討論。其中有一點讓我印象深刻,是關於 AI 可能具有創造力或用於輔助科學研究的討論。當時給出的類比是:如果在愛因斯坦發現相對論之前就有人工智慧,AI 能推理出那一發現嗎?對於 AI 來說,要具有這種科學推理層面的創造力,還缺少什麼?李飛飛:我認為我們更接近於讓AI 推匯出雙螺旋結構,而不是提出狹義相對論。部分原因是我們已經看到了很多出色的蛋白質摺疊相關工作。推斷雙螺旋結構的表示更紮根於空間和幾何。而狹義相對論的表述是在抽象層面上。我們在物理中看到的所有事物,從牛頓定律到量子力學,都是將作用抽象到因果層面。比如質量、力這些概念,是被抽象到不再僅僅是純粹統計模式生成的層次。語言可以是統計性的,3D 或 2D 世界的動力學可以是統計性的,但對力、質量、磁性以及因果關係的抽象,並非純粹的統計性,而是非常深刻的因果性和抽象性。我和Eric 在台上都在說,如果我們把所有關於天體觀測的資料、衛星資料都聚合起來交給當今的 AI,它也許能通過資料推導並擬合出牛頓運動定律。主持人:既然AI 如果給出資料就能推斷出運動定律,那你為什麼認為它無法推匯出相對論那些定律呢?李飛飛:當我們說那些定律被“推導”出來時,牛頓不得不推導、抽象出諸如“力”、“質量”、“加速度”以及那些基本常數的概念。那些概念處於一個我還沒有在目前的AI 中見過的抽象層面。如今的AI 可以利用大量資料,但在那個層面的抽象表示、變數或關係上,還沒有太多證據表明它能做到。我並不瞭解 AI 中發生的一切,如果我被證明是錯的,我很樂意接受。但我還沒聽說過有任何工作能在 Transformer 模型的架構中做到那種層次的抽象。我看不出那種抽象能從那裡來,這就是我對此表示懷疑的原因。這需要建構內部抽象的內部表徵,以及應用邏輯知識的規則。這可能需要我們在基礎架構和演算法上取得更多進展。主持人:這正是我想問的。你一直在和人們討論後Transformer(post-transformer)架構。你是否預期會出現一種新的架構能解鎖其中一些能力?李飛飛:我同意,我確實認為我們會有架構上的突破。我不認為Transformer 是 AI 的最後一項發明。在宏觀的時間尺度上,與宇宙歷史相比,人類存在的時間並不長,但在我們簡短的歷史中,我們從未停止創新。所以我不認為Transformer 是 AI 的最終演算法架構。主持人:你曾提到,你曾設想如果你能讓一個AI 系統為圖像打標籤或生成說明,那本該是你職業生涯的巔峰。當然你早就超越了這一點。那麼現在,你想像中未來職業生涯的巔峰成就從今天開始會是什麼?李飛飛:我確實認為開啟“空間智能”很重要。建立一個真正將感知與推理相連接的模型:從“看見”到“做”,包括規劃和想像,並將想像轉化為創造。那會非常了不起。一個能同時做到這三點的模型。 (劃重點KeyPoints)
AI巨龍甦醒:Google有那些被忽視的技術武器與商業底牌?
在AI時代,我們所熟悉的公司都有它自身的獨特優勢,比如:輝達:GPU + 開發者平台微軟: 雲端運算OpenAI: 大語言模型但,有那麼一家公司同時擁有這3者:雲 + TPU + 大模型。不僅如此,它還壟斷了網際網路上絕大部分廣告業務。這家公司就是從沉睡中覺醒的“獅子”——Google。在上幾期的分享中(連結在文末),討論了Google崛起的歷史。本期,我們將邁入Google的AI時代,瞭解它的前世今生,探討改變世界的AI技術是如何誕生在Google?以及為什麼它們並沒有最先商業化?(註:本文1.3萬字,閱讀時長約40分鐘)Ben:想像一下你有一家盈利的公司,每條業務線都能產生巨大的利潤,而且你所在的市場也同樣巨大,可以說是全球最大的市場之一。但更幸運的是,你還是這個巨大市場中的壟斷者,市佔率90%,而且使用者鎖定效應很強。David:當你說壟斷,是按照美國政府的定義嗎?Ben:沒錯。但再想像這樣一件事:在你的研究實驗室裡,你那些才華橫溢的科學家搞出了一項發明。這項發明再加上其他天才科學家此前的一大堆發明,組合起來居然能做出一個在大多數用途上都比你現有產品好得多的新產品。於是你應該基於這項新發明推出了新產品。David:對。Ben:尤其是因為出於純粹的“善意”,你的科學家們已經發表論文,介紹這項新發明有多棒,而且此前的很多發明也都發了論文。所以,現在有新的初創競爭者迅速把這項發明商業化了。那麼當然,David,你會把你的整個產品線都改成基於這個新東西,對吧?David:呃,這聽起來像電影。Ben:但問題來了。也許你不應該推出那個新產品。David,這對我來說像是一個相當典型的兩難困境。這說的當然是今天的Google。在也許是最經典的“創新者的窘境”教科書案例中,我們當下身處的整場AI革命,是由2017年GoogleBrain團隊發明Transformer所奠定的。想想OpenAI和ChatGPT、Anthropic、輝達股價創歷史新高,如今所有這些瘋狂的事情都依賴於Google在2017年發表的那一篇研究論文。而且不光如此。十年前,Google擁有全世界最密集的AI人才陣容,促成了這次突破;而今天,他們幾乎擁有你能想像到的最佳資產組合。他們有頂級的大模型Gemini;他們不需要依賴公共雲來託管模型,而是有自己的Google Cloud,如今營收已經達到500億美元,具有真正的規模;他們還是一家晶片公司,擁有自家的TPU(張量處理器),除了輝達GPU之外,全球只有這一套AI晶片在真正大規模部署。也許AMD也算一點,但這兩家肯定是最頂的。有人在採訪裡對我說,如果你沒有一個基礎的前沿大模型,或者沒有一款AI晶片,你可能在AI市場裡就只是大宗商品。而Google是唯一兩者兼備的公司。David:Google目前依然有誇張強悍的人才儲備。Ben:儘管ChatGPT已經有點成了這個時代的“克林克斯”(紙巾代名詞),但Google仍然掌控著那個“文字框”——那個在絕大多數人任何時候只要想在網上搜點什麼都要用到的網際網路大門口。但問題依然是:Google在戰略上該怎麼做?他們是否應該孤注一擲,靠著自己的“嫡長子繼承權”去贏下AI?還是為了保護搜尋帶來的海量利潤而束手束腳,讓AI浪潮從身邊掠過?或許我們首先要回答的問題是:Google是怎麼走到今天這一步的?如果把時間撥回到今天的10年前,在Transformer論文發表之前,以下所有這些人(我們之前也談到過)都是Google員工:Ilya Sutskever,OpenAI的創始首席科學家,他與Geoff Hinton(辛頓)和Alex Krizhevsky在AlexNet上做出了奠基性工作,幾年前剛剛發表。Dario Amodei,Anthropic的創始人;Andrej Karpathy,直到最近都是特斯拉的首席科學家;Andrew Ng;Sebastian Thrun;Nam Shazeer。DeepMind的所有人:Demis Hassabis、Shane Legg、Mustafa Suleyman——Mustafa如今除了曾是DeepMind的創始人外,還在微軟負責AI。基本上,AI領域所有有名有姓的人都在Google工作過,唯一的例外是Yann LeCun(楊立昆),他在Facebook工作。David:是啊,現在很難去追溯一家大的AI實驗室,而不會發現它的起源故事裡有Google。Ben:對,這個類比就像在電腦時代曙光之際,有一家像IBM這樣的公司把所有會寫程式碼的人都雇了。於是如果別人想寫個程序,哦,對不起,做不了。因為,所有會程式設計的人都在IBM。而,2010年代中期的AI領域,Google就是這樣的存在。不過,學會程式設計相對容易;但是,想要成為一名AI研究者就難太多了。這是非常特定的博士項目才能做的事情,導師群體很有限,而且領域內部對研究方向有很多內鬥:什麼是正統、什麼是異端幾乎到了宗教之爭的地步。那麼Google怎麼走到這一步的?這要回到公司創立之初。拉里·佩奇一直把Google看成一家人工智慧公司。事實上,拉里的父親就是電腦科學教授,在密歇根大學拿的博士,研究方向是機器學習和人工智慧,那在當年電腦科學裡並不熱門。David:對。很多人認為專攻AI是在浪費時間,因為三十年前的一些大理論到了那個時期都被證明靠不住,或者至少大家覺得被推翻了。所以拉里父親把一生和事業都押在AI上,是一個相當逆向的決定。Ben:這也影響了拉里。如果你眯著眼看,Google的基石演算法PageRank就是一種統計方法,從電腦科學的分類看,它可以算作AI的一部分。而拉里當然一直有更大的夢想。我們之前在節目裡引用過他2000年的一句話——也就是Google成立兩年後——拉里說,人工智慧將是Google的終極版本。如果我們有一個終極搜尋引擎,它會理解整個網路,它會精準理解你想要什麼,然後給你正確的東西。這顯然就是人工智慧。我們現在離那還差得遠。不過,我們可以逐步接近,而這基本上就是我們在這裡所做的。Google一直就是一家AI公司。那是在2000年。當年晚些時候或2001年初,Google工程師Gor Heric和Ben Gomes(後來領導搜尋)以及一個相對新入職的工程師Gnome Shazir聊天,三個人吃飯時,George隨口說起他讀博時的一個理論:資料壓縮在技術上其實等價於理解資料。Gor是Google前10號員工之一,非常厲害的工程師。就像拉里父親一樣,他在密歇根大學的博士是機器學習。即使在他就讀的時候,這在電腦科學裡還是相當少見而逆向的分支。思路是這樣的:如果你能把某段資訊變小,存起來,然後在之後把它恢復成原始形態,那麼唯一可能做到這件事的方式就是作用於資料的那個“力”真的理解資料的含義。因為你在壓縮時丟失了資訊,然後還能重建回來。就像你在學校,讀了一本很長的教科書,把資訊存進記憶,然後考試時看你是否真的理解了材料。如果你能重建那些概念,那就說明你真正理解了。David:這有點預示了今天的大型語言模型是在把全世界的知識壓縮到若干TB裡,變成一個被壓得扁扁的小向量集合。Ben:相對於全世界的資訊量來說當然“小”。但就是這個思路:你能把世界的資訊存進一個AI模型裡,形式很難理解、幾乎不可解釋;但當你“解壓”時,便可以把知識大致還原。David:是的。Ben:這些模型能體現“理解”,對吧?David:它們真的懂嗎?Ben:這是問題。它們當然在模仿“理解”。David:這段對話正在發生……Ben:你知道的,這已是25年前的事了。新來的那位年輕人Gnome愣住了,說:“哇,如果這是真的,那太深刻了。”David:這是在Google的茶水間裡嗎?Ben:他們在吃午飯。David:你從那看到這個的?Ben:在《In the Plex》裡。Steven Levy寫的那本關於Google的好書,我們講Google系列都頻繁參考它。裡頭有一小段關於這個的描寫,因為這本書在ChatGPT和AI大熱之前出版。所以Gnome就“黏”上了George,圍繞這個想法一直碰撞。接下來幾個月,這兩個人決定用最“Googly”的方式:他們停下手頭一切活,去研究這個點——語言模型、資料壓縮,看看是否能用資料生成機器“理解”,如果能做到,對Google就很有用。我覺得這也恰好趕上了2001年那段時間拉里把工程組織的所有經理都開了,於是大家都在干自己想幹的事。David:有意思。書裡還有一段Gor的名言。Ben:很多人覺得讓我們倆(指Gnome和他)把才華用在這上面是個很糟的主意,但Sanjay Ghemawat——當然就是Jeff Dean出名的編碼搭檔——覺得這很酷。於是George就對任何懷疑者說:Sanjay覺得這是個好主意,而世界上沒人比Sanjay更聰明。所以,為什麼我們要接受你“這是個壞主意”的看法呢?總之,這把Gnome和George帶進了自然語言的機率模型兔子洞。意思是:對於網際網路上出現的任何一個詞序列,另一個特定詞序列跟在後面的機率是多少?今天瞭解LLM的人聽起來應該很熟悉。David:哦,就像下一個詞預測。Ben:或者如果推廣一點,就是下一個token預測。David:對。所以他們用這項工作做的第一件事,就是在Google搜尋裡做“你是不是要找:Did you mean”拼寫糾錯。哦,原來是從這出來的。Ben:對,Gnome做的。David:這對Google太重要了,因為當你把查詢打錯然後不得不再打一遍時,使用者體驗很差。Ben:而且這也會攻擊Google的基礎設施:每次拼錯的查詢發出去,系統都要去處理並返回結果,而這些結果是沒用的,很快就被新查詢覆蓋。這個問題又非常聚焦:比如有80%的機率,使用者打“god groomer”其實是想找“dog groomer”,然後他們會重打。若我們很有信心,就乾脆直接幫他改正,再給他一個退出選項,而不是讓他選擇“啟用”。這是一個很棒的特性,也是這個方向的很好首次用例。於是他們拿下這波勝利,繼續做,最後他們做了一個相當大的——對當時來說的“大”——語言模型,暱稱“Phil”,全稱是“probabilistic hierarchical inferential learner”(機率分層推理學習器)。David:這些AI研究者最愛造首字母縮略詞的諧音梗。Ben:快進到2003年,Susan Wojcicki和Jeff Dean在準備上線AdSense。他們需要一種方法去理解第三方網頁(出版商頁面)的內容,好把Google的廣告語料庫投放上去。Phil就是他們用的工具。我之前完全不知道語言模型參與了這個。於是Jeff Dean把Phil借來,在一周之內就寫出了AdSense。然後,砰——AdSense。這幾乎是一夜之間給Google帶來數十億美元新收入,因為就是同一套廣告語料、同一批AdWords搜尋廣告,現在能投在第三方網站上了。他們一下子把系統裡已有廣告的庫存擴張到巨量。好吧,這時候我們得停一下,來點“Jeff Dean Facts”。整集裡他都是那條貫穿線:Google怎麼做到的?Jeff Dean怎麼就周末回家重寫了一個巨型分佈式系統,順手把Google所有問題都解決了?在“查克·諾裡斯段子”流行的時候,Google內部也流行“Jeff Dean段子”。我最喜歡的一條是:真空中的光速原本大約是每小時35英里,然後Jeff Dean花了一個周末最佳化了物理。所以,語言模型確實有效,確實能為Google帶來巨大價值,並且它們非常漂亮地契合了Google“組織全世界資訊並讓其普遍可及且有用”的使命:如果你能理解世界資訊、把它壓縮,然後再重建,這就對上了。在 2000年代中期,Phil佔用了Google整個資料中心基礎設施的15%,我猜很大一部分是AdSense廣告投放,還有“Did you mean”和公司內部開始用它做的其他東西。好,現在來到2007年——對我們故事來說非常非常重要的一年。Google剛剛發佈了Google Translate。這是Google那些偉大產品密集出現的時代:地圖、Gmail、Docs,隨後還有Chrome和Android。他們有一段長達10年的輝煌期,除了搜尋,基本把你今天熟悉的所有Google產品都在那10年裡發佈了。然後在那之後大約10年(從2013年開始),他們基本沒再發佈你聽說過的新產品,直到我們來到Gemini,這是很有意思的現象。但2003到2013這段時間就是一波接一波的爆款。其中一個就是Google Translate。也許使用者規模或對世界的影響不如Gmail或地圖,但仍是一個神奇的產品。Translate的首席架構師是另一位機器學習博士,名叫Franz O。Franz的背景是NLP和機器學習,他在德國拿的博士。於是Google和Franz把他引入,Franz打造了一個更大的語言模型,在當年的DARPA挑戰賽中橫掃對手(這是2006或2007年)。他拿到了當時天文數字的BLEU分數(BLEU:用於評估機器翻譯質量的演算法標竿),遠超其他一切。Jeff Dean聽說了Franz和翻譯團隊的工作,說太棒了。這個模型裡“gram”是指詞的n元組,在Google搜尋索引的兩兆詞語料上訓練。東西大到翻譯一句話需要12個小時。所以DARPA這次比賽的規則是:周一給你一組句子,你必須在周五之前提交機器翻譯的結果。David:伺服器有大把時間可以跑。Ben:他們想的是:“好,我們從周一到周五有若干小時。用儘可能多的算力翻完這幾句就行了。學會規則並利用它。”於是作為“工程界的查克·諾裡斯”,Jeff說,把程式碼給我看看。Jeff空降到翻譯團隊,和他們一起幹了幾個月。他把演算法重構成平行地處理詞和句子,而不是順序處理。因為當你翻譯一個句子集合或一個句子中的詞時,不一定要按順序來。你可以把問題拆成若幹部分,獨立處理,可以平行化。David:當然你不會得到完美的翻譯。Ben:但是想像你只是逐詞翻譯——至少可以同時把每個詞都翻了,再把句子拼回去,基本能明白原意。而且Jeff太清楚了,因為是他和Sanjay、Zhozha一起搭了Google的基礎設施,那是極度可平行、分佈式的。你可以把負載拆成小塊,扔到Google各個資料中心裡,最後重組,把結果返還給使用者。David:他們是在全世界範圍內把CPU工作負載跨多個資料中心平行化做得最好的公司。Ben:我們還在說CPU哦。Jeff和團隊的工作成果是,把平均單句翻譯時間從12小時降到了100毫秒。然後,他們就把它上線Google Translate。效果很驚人。David:這聽起來像一條“Jeff Dean段子”。Ben:是啊,曾經要12小時,Jeff花了幾個月,現在100毫秒。所以這是第一個在Google產品裡生產級使用的“大”語言模型。他們看到效果這麼好,就想,嗯,也許我們可以把它用於其他事情,比如輸入時的搜尋詞預測;當然也別忘了Google的皇冠明珠:廣告質量分(AdWords的ad quality)其實就是對給定廣告文案的點選率預測。你很容易看出,一個擅長攝取資訊、理解並據此做預測的“大模型”,對計算廣告質量會非常有用——這直接關聯Google的利潤底線。語言模型線這邊很棒。我剛說2007年是個大年。也是在2007年,幾位電腦科學教授在Google園區的“宿命交匯”開始了。2007年4月,拉里·佩奇邀請史丹佛的Sebastian Thrun來Google,先是兼職,隨後全職,做機器學習的應用。Sebastian是史丹佛SAIL(人工智慧實驗室)的負責人。這個傳奇實驗室在上世紀六七十年代AI第一波浪潮中大放異彩——那時拉里的父親也活躍在該領域;實驗室後來曾關閉一段時間,在2000年代初復興,Sebastian成了負責人。有個關於Sebastian的趣事:他怎麼來Google的?他也跟我們聊過,我之前不知道這幾乎是一次“人才併購”。他和一些(好像是)研究生正要創業,拿到了Benchmark和紅杉的term sheet。然後拉里來了,說:“要不我們就用獎金的方式,在公司成立之前就把你們‘收購’了?”對他們來說,這可能是個非常明智的決定。SAIL不僅擁有世界上最厲害的教授和博士AI研究者,還有一條史丹佛本科生“人才流”,在讀本科時就能進去做研究(CS、Symbolic Systems之類專業的學生)。其中一位後來是Meta的首席產品官Chris Cox,他就是這麼入門AI的。當然Facebook/Meta等會也要在故事裡回歸。在Sebastian在任時,還有另一位在SAIL呆過的大一/大二本科生,後來從史丹佛輟學去創業,參加了2005年夏天YC的第一期。時間來到2007年4月,Sebastian從SAIL來到Google。接下來幾個月,他做的第一批事之一是Google Maps的Ground Truth項目,基本上就是重造Google Maps的底層資料。在Ground Truth之前,Maps產品已經存在,但底圖資料要從Tele Atlas買。David:我記得當時有兩家。Ben:是的,雙寡頭。另一家是Navteq(Navtech)。David:這是一套大家都用的、質量不怎麼樣的地圖真源資料。你也很難比別人做得更好,因為大家都用同一套資料。Ben:質量不高還很貴。Tele Atlas和Navteq都是市值數十億美元的公司,我記得可能有一家或兩家都曾經上市,後來被收購,總之營收很高。而Sebastian的第一個大項目就是Street View(街景)。主要用自家街景的照片重建Tele Atlas的資料。他們也引入了其他資料,比如人口普查等,一共用了四十多個資料來源,把它們融合在一起。Ground Truth是一個非常宏大的工程,從零開始做一套新地圖。David:尤其是當你雇了一千名印度員工幫你篩查資料差異,實際上把地圖手動畫出來的時候。Ben:對,那時AI自動化還不多。所以在Ground Truth大獲成功的基礎上,Sebastian開始遊說拉里和謝爾蓋:我們應該多做這種事。比如把AI教授、學者請進Google,兼職也行,不一定要他們全職,讓他們保留學術職位,同時來這裡參與我們的產品項目。他告訴兩位創始人:教授們的工作能被數以億計的使用者使用;我們付他們錢、給他們Google股票、他們還能繼續當教授。如你所料,拉里和謝爾蓋說:“好主意,干,多來點。”於是2007年12月,Sebastian請來了一位來自多倫多大學、當時相對小有名氣的機器學習教授Geoff Hinton(傑佛瑞·辛頓)到Google做技術演講,還不是聘用,只是來給大家講講他們在做的“用神經網路開闢新路”的研究。傑佛瑞·辛頓——如果有人還不熟這個名字——如今被稱為“神經網路之父”,也可以說是現代AI整體方向的“教父”。David:在那個時候,他還是“邊緣學者”。神經網路當時不是AI裡被尊敬的分支。Ben:對,完全不是。部分原因是三四十年前圍繞神經網路有一波炒作,但沒有兌現。於是大家把它當成被“證偽”的東西,至少是冷門。David:你還記得我們輝達那幾期裡我最喜歡的Hinton冷知識嗎?Ben:他曾祖父是George Boole。他是George和Mary Boole的玄孫,Boolean代數和Boolean邏輯的發明者。這就很有意思了,因為那是符號邏輯、確定性電腦科學邏輯的基礎。而神經網路的搞笑之處在於,它不是符號AI,不是那種“我給你具體規則,然後你沿著一棵巨大的if-then樹走”。它是非確定性的,恰恰是那個領域的反面。David:這再次強調了這支機器學習/電腦科學分支在當時有多“異端”。正如你之前說的,神經網路不是新點子,理論上前景巨大,但實踐上算力太不夠,沒法做多層。那時,一個電腦神經網路最多隻能有一層或個位數層。而Geoff和他的前博士後Yann LeCun開始在社區里布道:嘿,如果我們能搞出多層、深層神經網路,也就是“深度學習”,就能兌現承諾。不是思路不對,而是實現需要海量算力,去做層層傳遞時的乘法運算,去檢測、理解、儲存模式。如果我們真的能做到,一個大型多層神經網路會非常有價值,甚至能跑起來。Ben:來到2007年,中後期。摩爾定律讓算力增長到足以開始驗證這些理論。於是Geoff來Google做了這場演講。Google的職員,Sebastian、Jeff Dean和我們提到的其他人都非常興奮,因為他們已經在翻譯和語言模型裡做了類似的事情——雖然不是用Geoff的深度神經網路。這裡出現了一個全新的架構思路:如果能跑起來,會讓他們的模型更好地工作、識別更複雜的模式、把資料理解得更深入。非常有前景。David:當然,這一切當時都還只是“理論上”。Ben:Sebastian在這次演講後,把Geoff Hinton帶進了Google,先是顧問,接下來幾年,這件事更有意思:後來Geoff從技術上講成為了Google“實習生”。這是他們繞過兼職/全職政策的方式。(PS:他主要職業是在大學任教)2011或2012年某個夏天,他在Google當了“實習生”。注意這時他大概60歲了。接下來的幾年裡,Sebastian把機器學習學者引進Google、讓他們保留學術職位的模式進行得非常順利。到2009年末,Sebastian、拉里和謝爾蓋決定:我們干脆在Google內部單獨起一個新部門,於是有了Google X“登月工廠”。Google X的第一個項目由Sebastian親自帶隊。我先不說它的名字,稍後會回到它。但對我們的故事至關重要的,是第二個項目,不僅關乎我們這一集,更關乎全世界——它改變了整個AI世界。這個項目叫Google Brain。當Sebastian離開史丹佛全職加入Google後,當然得有人接手SAIL。接手的是另一位電腦科學教授、才華橫溢的人,Andrew Ng。David:這真是“AI全明星”一集。Ben:對,全是AI大咖。那麼Sebastian做了什麼?他把Andrew招來做兼職,每周在Google園區待一天。這恰好跟X的啟動和Sebastian把這個部門正式化的時間點重合。於是2010或2011年的某一天,Andrew來Google“上一天班”,碰到了誰?Jeff Dean。Jeff向Andrew講他和Franz在語言模型上的工作,和Geoff Hinton在深度學習上的推進。當然,Andrew都知道。Andrew也在講他和SAIL在史丹佛做的研究。然後他們決定:也許時機到了,可以在Google內部來一次真正的大跨步,基於Geoff Hinton講的路線,在Google高度可平行的基礎設施上,建一個巨大的深度神經網路模型。要強調一下,Google之前試過兩次,都沒成功。他們試了一個叫“Brains on Borg”的東西(Borg是Google內部用來跑基礎設施的系統),還試了“Cortex”項目,但都沒起來。所以在Google研究組裡,對“大規模神經網路到底能不能在Google基礎設施上跑”是有些疤痕記憶的。於是Andrew Ng和Jeff Dean把Greg Corrado拉進來,他是神經科學博士,出色的研究員,已在Google工作。資訊流公司搶先一步邁入“AI時代”2011年,他們三人啟動了X裡的第二個正式項目,十分貼切地命名為Google Brain。三人開始動手,搭建一個非常非常大的深度神經網路模型。要做這個,你需要一套能跑它的系統。Google擅長把前沿研究“系統化工程化”,讓它真正在生產環境跑起來。Jeff在做這套基礎設施系統,他決定把它命名為“Dist Belief”,既是“分佈式”的諧音,也暗含“懷疑、不信”。因為幾乎沒人相信它能工作。業內大多數人不信,Google內部大多數人也不信。當時的研究都指出,你需要“同步式”的——也就是在一台機器上以很高的平行度進行計算,就像GPU那樣;最好所有計算都在一個地方發生,這樣你在邁出下一步前很容易查到系統裡其他部分的最新計算值。Jeff寫的Dist Belief恰恰相反:它分佈在一大堆CPU核上,可能跨一個資料中心,甚至不同的資料中心。理論上,這很糟,因為這意味著每台機器都要不停地等其他機器同步參數,才能繼續往下算。但Dist Belief實際上以“非同步”方式工作,不去糾結是否拿到了其他核的最新參數。也就是說你在用“過期的資料”更新參數。照理說這應該不行,但瘋狂的是——它能行。Dist Belief有了,接下來幹啥?做研究試試看能不能用上它。於是他們在2011年底發表一篇論文,標題先報一下:《Building high-level features using large-scale unsupervised learning》(用大規模無監督學習建構高層特徵),但大家都叫它“貓論文”。David:“貓論文”?Ben:你去問Google或AI圈裡任何人,他們都會說“哦,對,貓論文”。他們訓練了一個有9層的大型神經網路,用的是YouTube視訊裡的無標籤幀,目標是識別“貓”,用了1,000台機器上的16,000個CPU核心。之後他們又在TGIF上介紹了“貓論文”的結果。你去問Google的人,他們會說:“那次TGIF,天啊,一切都變了。”它證明了大型神經網路在無監督、無標籤資料的情況下,可以學到有意義的模式。不僅如此,它還能在Google自建的分佈式系統上跑起來。這是巨大的進步。Google有龐大的基礎設施資產。我們能否把研究者提出的這個理論電腦科學思路,借助Dist Belief在我們的系統上跑起來?答案是:能。這項驚人的技術成就,帶來的深遠影響,不僅僅是其商業成就。我覺得不誇張地說,“貓論文”在接下來的十年裡,為Google、Facebook、字節跳動帶來了數千億美元的營收。David:這就是資料裡的識別模式。Ben:當時YouTube有個大問題:使用者會不斷上傳視訊,量巨大,但使用者非常不擅長描述自己視訊裡有什麼。YouTube正試圖變成“目的地網站”,讓大家看更多視訊,打造資訊流,提高停留時長。然而推薦系統要決定“喂什麼”,只能看使用者給視訊寫的標題和描述。無論是你在搜尋視訊,還是平台要挑下一個推薦,它都需要知道視訊裡是什麼。“貓論文”證明了,你可以用這項技術——跑在Dist Belief上的深度神經網路——去深入理解YouTube視訊庫裡的視訊內容,然後再用這些資料決定要給使用者推薦什麼視訊。David:如果你能回答“有貓/無貓”,你也能回答很多更多的問題。Ben:這是Jeff Dean的一段話:“我們建構了一套系統,通過模型和資料的平行化,使我們能訓練非常大的神經網路。我們在隨機選取的1000萬張YouTube幀上做了無監督學習。它會基於嘗試用高層表徵來重構幀,從而建構無監督的表徵。我們讓它在2000台機器、16000個核心上訓練。沒過多久,模型在最高層會形成一種表徵:某個神經元會對貓的圖像興奮。”它從來沒被告知什麼是貓,但它在訓練資料裡看到了足夠多“貓臉正面”的樣本,於是那個神經元會對“貓”觸發,而對其他大多數東西不會觸發。這就是無標籤資料、無監督學習裡最瘋狂的部分——系統在從未被明確告知“什麼是貓”的情況下學會了“貓”,而且還出現了“貓神經元”。於是之後就有“iPhone神經元”“舊金山巨人隊神經元”,以及YouTube用來推薦的一切特徵……David:更別提識別版權、以及幫助版權方的分成了。Ben:對,這引向了YouTube的一切。基本上把YouTube放上了通往今天的道路——成為網際網路上最大的內容平台和地球上最大的媒體公司。“貓論文”開啟了2012年到2022年11月30(ChatGPT發佈)的新紀元:AI已經在塑造我們的生活,並帶來數千億美元的收入。它先是在YouTube的資訊流裡,然後被Facebook借鑑。他們挖來了Yann LeCun,創立了FAIR,再帶到Instagram;接著TikTok和字節跳動拿去做,後來又通過Reels和Shorts“回流”到Facebook和YouTube。David:這是我最喜歡的“David Rosenthal主義”。Ben:公眾喜歡把2022年以後叫“AI時代”。事實上,對任何能好好利用推薦和分類系統的公司而言,“AI時代”是從2012年開始的。David:的確,AI時代始於2012年,其中一部分就是“貓論文”。Google買下辛頓的DNN Research 公司Ben:另一部分是黃仁勳在輝達口中的AI“宇宙大霹靂時刻”——AlexNet。我們之前說到Geoff Hinton在多倫多大學。在這段時間他有兩個研究生:Alex Krizhevsky和Ilya Sutskever(後來是OpenAI的聯合創始人兼首席科學家)。三人計畫用Geoff的深度神經網路思路和演算法,去參加電腦視覺領域著名的ImageNet競賽。這是史丹佛的Fei-Fei Li(李飛飛)主導的年度機器視覺演算法競賽。它的競賽規則是:李飛飛收集了一個1400萬張圖片的資料庫,已經有人對這些圖片全部打好了標籤。那個團隊,在不看標籤的前提下,能寫出演算法,僅憑圖片,識別的正確最多(精準率最高)。2012年的比賽結果是,AlexNet橫空出世。它的錯誤率是15%。儘管還是偏高,但從此前25%錯誤率到15%,一年之內下降10個百分點,這在此之前從未發生過。David:比第二名好40%。Ben: Geoff、Alex和Ilya知道,深度神經網路很有潛力,摩爾定律讓你能用CPU堆出幾層。他們有個靈感:如果我們不在CPU上跑,而是改用另一類天生高度平行的計算晶片呢?那就是當時領先公司輝達做的——用於電子遊戲的圖形顯示卡。對當時而言並不顯而易見,尤其是把最前沿的學術電腦科學研究(通常跑在超級電腦上、依賴強大的CPU)搬到這些零售價1000美元的“玩具”顯示卡上——當時還更便宜,只要幾百美元。多倫多團隊跑到本地Best Buy之類的店,買了兩塊輝達頂級遊戲卡GeForce GTX 580。團隊把他們的神經網路演算法用CUDA(輝達的程式語言)重寫,靠這兩塊零售GTX 580訓練出了他們的深度神經網路,在ImageNet比賽裡把第二名甩開40%。所以當黃仁勳說那是AI的“宇宙大霹靂時刻”,他是對的。它向所有人展示:天啊,如果兩塊零售GTX 580就能做到這樣,想像一下更多顯示卡,或者專用晶片能做到什麼。並且,這件事把輝達從一家有些掙扎的PC遊戲配件廠商帶上了AI浪潮的道路,成為今天全球最有價值的公司。這也展示了AI研究的常見模式:某個突破帶來一個大台階躍遷,然後是多年最佳化的過程,收益逐漸遞減:前半截進步一瞬間發生,後半截要花很多年打磨。當你有一個想法,做出來,然後意識到:“天那,我剛剛找到了推動這個領域的下一個大飛躍”,那一定既罕見又酷斃了。David:就像解鎖了下一關。Ben:AlexNet之後,整個電腦科學界都沸騰了。這時人們也開始不再懷疑神經網路。多倫多的三個人——Geoff Hinton、Alex Krizhevsky和Ilya Sutskever——做了很自然的一件事:他們成立了一家公司,叫DNN Research(深度神經網路研究)。這是一家只有AI研究員,沒有產品的公司。如你所料,它幾乎立刻被Google收購了。這裡有件很瘋狂的事,第一個出價其實來自BU公司,出價1200萬美元。Geoff Hinton並不清楚該怎麼給公司估值,也不確定這是否公平。於是他做了任何一位學者會做的事來確定公司的市場價值:他說“非常感謝,我現在要搞一個拍賣”,而且是高度結構化的:每次有人出價,計時器重設,再給其他人一小時出新價。並且,他還諮詢了所有在大公司作研究的學者朋友,問他們: “嘿,我們在那兒繼續做研究會更好?”當時,競價的公司包括BU、Google、微軟,還有另一家…David:Facebook?Ben:哦,等等,不包括Facebook。想想年份,這是2012年。Facebook還沒真正入局AI,他們還在籌建自己的AI實驗室。因為Yann LeCun和FAIR是2013年才開始的。David:OpenAI還要過好幾年才成立。那家公司略早於OpenAI,做幾乎同樣的使命?Ben:就藏在眼皮底下——DeepMind。他們是DNN Research四方競購裡的第四家。當然,競價一開始,DeepMind就不得不退出——他們是初創公司,沒錢買。David:我壓根沒想到會有DeepMind,我第一個問題就是:他們從那弄錢?他們沒錢。Ben:不過Geoff已經認識並尊敬Demis了,儘管他當時“只是在做一家叫DeepMind的初創公司”。David:等等,DeepMind都在競拍裡,Facebook卻不在?Ben:競拍和當年的一個大會同時進行,當時叫NIPS(現在叫NeurIPS)。Geoff在太浩湖的Harrah’s賭場酒店房間裡主持了這場拍賣。我們得感謝Cade Metz,他寫的《Genius Makers》(AI簡史)這本書,我們這集會頻繁引用。出價一路抬升,微軟一度退出,又回來。DeepMind退出。最後剩BU和Google死磕。最後某一刻,三位研究者互相看了看,說:我們真正想去那兒?我們想去Google。於是他們把競價停在4400萬美元,說:“Google,這足夠多了,我們選你們。”David:我知道大概是4000萬,但我不知道整個故事。這簡直像Google自己在IPO裡搞的“荷蘭式拍賣”一樣,對吧?太貼合Google的DNA了。Ben:是的,特別貼合。還有個細節:三個人本該各拿三分之一。但Alex和Ilya去找Geoff說:“我覺得你該多拿一些,你40%,我們各30%。”最後就這麼定了。這讓三人直接加入Google Brain,給那裡的所有工作加上了加速器。劇透一下,幾年後,接替Sebastian管理Google X的Astro Teller,在紐約時報的一篇Google X人物特寫裡說:Google Brain給Google核心業務——搜尋、廣告、YouTube——帶來的收益,遠遠超過他們在Google X及公司其他地方做過的所有“登月”投資。但Google的AI歷史不止於此。還有一塊非常重要的拼圖來自公司外的收購。就像YouTube之於Google的意義在AI領域的對應物。我們剛才提到過的——DeepMind。 (希芙的星空)
《大西洋月刊》丨去技能化時代
The Age of De-SkillingWill AI stretch our minds—or stunt them?By Kwame Anthony Appiah人工智慧會拓展我們的思維,還是阻礙其發展?插圖:馬特奧·朱塞佩·帕尼 / 《大西洋月刊》2025年10月26日,美國東部時間上午6點相關擔憂已從竊竊私語升級為高聲喧囂,且都圍繞著同一個令人不安的主題:“ChatGPT影響下的大腦”“人工智慧正讓你變笨”“人工智慧在扼殺批判性思維”。曾經,人們害怕的是失控的智能會將人類消滅,甚至可能在這個過程中把地球變成一座回形針工廠。如今,聊天機器人正走上Google的老路——從“神奇之物”變成“理所當然的存在”,人們的焦慮也隨之轉變,從對“世界末日”的恐懼轉向對“能力衰退”的擔憂。尤其是教師們表示,他們開始看到這種“衰退”的跡象。描述這種現象的術語雖不悅耳,卻也貼切:去技能化。這種擔憂絕非空想。如果孩子依賴Gemini總結《第十二夜》,他們可能永遠無法學會獨立品讀莎士比亞的作品。如果胸懷大志的律師借助Harvey AI(法律領域AI)進行法律分析,他們可能無法培養出前輩們視為理所當然的解讀能力。在近期一項研究中,數百名英國參與者完成了標準的批判性思維測試,同時接受了關於使用人工智慧獲取資訊或做決策的訪談。結果顯示,年輕使用者對這項技術的依賴度更高,測試得分也更低。“用進廢退”是該研究最核心的結論。另一項研究關注了醫生進行結腸鏡檢查的情況:在使用人工智慧系統輔助識別息肉三個月後,醫生在不借助該系統時識別息肉的能力明顯下降。但真正的謎題不在於“去技能化”是否存在——它顯然是存在的——而在於它究竟屬於何種性質。所有形式的去技能化都會產生負面影響嗎?還是說,有些去技能化是我們可以接受的,甚至是值得歡迎的?“去技能化”是一個籠統的術語,涵蓋了多種截然不同的能力喪失情況:有些會帶來損失,有些無關緊要,還有些反而會催生新的可能。要弄清楚其中的關鍵,我們必須仔細觀察:當新技術出現時,技能會以何種方式逐漸減弱、消失或發生改變。如今的聊天機器人算是新技術:它們所依賴的“Transformer”架構誕生於2017年,而ChatGPT在五年後才首次公開亮相。但“新技術可能會削弱人類思維”的擔憂卻由來已久。早在公元前4世紀的《斐德羅篇》中,蘇格拉底就講述了這樣一個神話:埃及神透特將“書寫”這一禮物獻給國王塔姆斯,稱其是“記憶與智慧的秘訣”。但塔姆斯對此不為所動。他警告說,書寫會產生相反的效果:它會滋生健忘,讓人們用紙上的符號取代記憶的努力,將“理解的表象”誤認為“理解本身”。蘇格拉底支援塔姆斯的觀點。他抱怨道,文字永遠無法回應你提出的具體問題;無論是智者還是愚者,文字對所有人的回應都是一樣的;而且當人們誤解文字時,文字也無能為力。當然,我們之所以能知曉這一切——這段故事之所以能不斷出現在輝格黨式的科技史敘述中——正是因為柏拉圖將其寫了下來。但反對書寫的人也並非完全錯誤。在口頭文化中,吟遊詩人能將史詩記在腦海裡;非洲部落的格里奧(說書人)能隨口說出數百年的族譜。而書寫的出現讓這些非凡的能力變得不再必要。人們無需深入思考,就能理解他人的想法。對話需要回應:或是澄清疑問,或是提出反對,或是修正觀點(有時一句“蘇格拉底,您說得太對了”就能起到作用,但即便如此,對話仍在繼續)。相比之下,閱讀時你只需沉浸在他人的智慧中,點頭認同,卻無需通過自我檢驗來印證這些智慧。不過,從某個角度看是“損失”的東西,換個角度或許就是“收穫”。書寫為人類開闢了新的思維領域:評論文章、法學理論、可靠的歷史記載、科學研究。研究口頭文化與文字文化的學者沃爾特·J.翁曾精闢地指出:“書寫是一種能重構思維的技術。”這種模式並不陌生。當水手開始使用六分儀時,他們便不再需要掌握水手的“觀天技藝”——那種曾指引他們安全返航的、對星辰的細緻觀測能力。後來,衛星導航的出現又讓六分儀技能徹底消失。過去,擁有一輛福特T型車意味著你得兼職做機械師——要知道如何修補內胎、憑聽覺調整點火正時、在引擎熄火後想辦法讓它重新啟動。如今,性能高度可靠的引擎將這些“秘密”隱藏了起來。計算尺被計算器取代,計算器又被電腦取代。每一次技術更迭,個人的精湛技藝都會隨之減弱,但整體效率卻在提升。這種“有所失,必有所得”的模式確實令人安心。但有些收穫背後,隱藏著更深層的代價。它們不僅改變了人們“能做什麼”,還改變了人們“認為自己是誰”。20世紀80年代,社會心理學家肖莎娜·祖博夫曾在美國南部的紙漿廠進行調研,當時這些工廠正從人工操作轉向電腦控制。曾經,操作員需要通過觸摸來判斷紙漿的狀態(“它滑嗎?它粘嗎?”);如今,他們只需坐在有空調的房間裡,看著數字在螢幕上滾動,過去的技能既無人使用,也無人重視。一位操作員告訴祖博夫:“通過電腦工作,感覺完全不一樣。就像你騎著一匹強壯的駿馬,但有人坐在你身後的馬鞍上,握著韁繩。”新系統速度更快、更清潔、更安全,但也讓工作失去了原本的意義。社會學家理查德·森內特也記錄了波士頓一家面包店的類似變化。20世紀70年代,店裡的工人都是希臘男性,他們靠嗅覺和視覺判斷面包是否烤好,並為自己的手藝感到自豪;到了90年代,接替他們的工人只需操作帶有Windows風格控製器的觸控式螢幕。面包變成了螢幕上的圖示——它的顏色由資料推斷得出,品種則從數字菜單中選擇。技能的弱化伴隨著身份認同的弱化。面包依然美味,但廚房工人知道,自己不再是真正的面包師了。有人半開玩笑地對森內特說:“烘焙、製鞋、印刷——隨便你說什麼手藝,我都‘會’。”言外之意是,他其實根本不需要掌握任何真正的技能。在文化領域,人類與“實物的接觸”無疑早已逐漸減少。在19世紀歐洲的中產階級家庭中,熱愛音樂通常意味著會演奏音樂。交響樂要進入客廳,靠的不是音響,而是鋼琴改編版——兩個人四隻手,在一架鋼琴上,盡最大努力演繹勃拉姆斯的《第一交響曲》。這需要技能:識譜、掌握演奏技巧、用手指勾勒出交響樂的意境。要聽到自己想聽的音樂,你必須不斷練習。後來,留聲機流行起來,客廳裡的鋼琴開始積滿灰塵。隨之而來的好處顯而易見:你可以把整個管絃樂隊“召喚”到客廳裡,可以將聽覺體驗從沙龍裡的輕音樂拓展到德彪西、施特勞斯、西貝柳斯的作品。如今的音樂愛好者或許不再擅長演奏,但從某種意義上說,他們更懂“聆聽”。然而,廣度的拓展是以深度的喪失為代價的。練習一首曲子的過程,會讓你對曲子的結構和脈絡有深入的理解。而擁有閃亮的維克多牌留聲機的孩子,能獲得這種理解嗎?每當強大的新工具出現時,這種“疏離感”——即與“真實事物”產生距離的感覺——就會隨之而來。從17世紀開始,計算尺減少了人們對“心算能力”的依賴;幾個世紀後,可攜式計算器又讓一些工程師感到不安,他們擔心“數感”會逐漸消失。這些擔憂並非毫無根據。按下鍵盤上的“Cos”鍵就能得到一個數值,但這個數值背後的含義可能會被人們遺忘。即便在更專業的領域,這種擔憂也依然存在。麻省理工學院的物理學家維克多·魏斯科普夫對同事們越來越依賴電腦模擬感到困擾。當同事們把列印出來的結果交給時,他對他們說:“電腦理解這個答案,但我覺得你們並不理解。”這種不安就像古埃及國王的“數字時代版本”——他們堅信,人們正把“輸出結果”誤認為“深刻見解”。在祖博夫所說的“智慧型手機器時代”,自動化主要侷限於工作場所——工廠、工業面包店、駕駛艙。而到了個人電腦和網際網路時代,技術“逃離”了工作場所,進入家庭,成為通用工具,融入日常生活。早在21世紀初,研究人員就開始探討搜尋引擎對人類的影響。當時的新聞標題諸如“Google影響下的大腦”屢見不鮮。儘管這種恐慌有些過度,但一些影響確實真實存在。一項被廣泛引用的研究發現,在某些情況下,人們會記住“某個事實可以在那裡找到”,而非“事實本身”。事實上,人類的認知能力從來都不侷限於大腦內部——它還存在於工具、符號以及人與人之間的互動中(想想你認識的夫妻:有人記得生日,有人記得護照放在那裡)。從刻痕計數的骨頭到泥板文書時代,數千年來,我們一直在將“思維”儲存在外部世界中。許多生物都會使用工具,但它們的技能會隨著個體的死亡而消失;而人類的技能會以文化的形式積累下來——形成一種“智能傳遞系統”。我們繼承這種系統,拓展它,在此基礎上不斷建構,讓每一代人都能站在更高的起點上:從壓制剝落的石片,到骨針,再到印刷機,直至量子計算。這種“見解的積累”——外部化、保存、共享——正是智人與其他生物的區別所在。倭黑猩猩生活在“生態當下”,而人類生活在“歷史之中”。與此同時,“積累”會帶來一個關鍵結果:它會推動“專業化”的發展。隨著知識不斷拓展,它不再能被每個人平等掌握。在小型部落中,任何人都能追蹤獵物、採集植物、生火。但在農業革命後,社會規模不斷擴大,手工業和行會逐漸增多——能鍛造出鋒利且耐用刀刃的工匠、懂得如何防止拱頂坍塌的石匠、掌握著嚴密保密的配方和技藝的玻璃吹制工。曾經存在於人體中的技能,逐漸轉移到工具中,進而上升到制度層面。隨著時間的推移,勞動分工不可避免地演變成“認知分工”。哲學家希拉里·普特南曾說過,他會用“榆樹”這個詞,但無法區分榆樹和山毛櫸。“指稱”是具有社會性的:你能談論榆樹,是因為語言社群中的其他人——植物學家、園丁、林業工作者——能識別榆樹。語言如此,知識亦是如此。人類的能力不僅存在於個體之中,還存在於個體所形成的網路之中。我們每個人都依賴他人來彌補自己能力的不足。社會規模的擴大,將“社會交換”轉變為“系統性的相互依賴”。由此產生的世界,正如一個經典例子所描述的:沒有人知道如何完整地製造一支鉛筆。一個人要製造鉛筆,需要掌握伐木工、鋸木工、礦工、化學家、塗漆工等多種技能——即便是最簡單的物品,其背後也存在一個無形的“工藝網路”。馬克·吐溫在《康州美國佬在亞瑟王朝》中,想像一位19世紀的工程師穿越到卡梅洛特(亞瑟王傳說中的王國),用現代奇蹟讓當地人驚嘆不已。讀者們對此深信不疑。但如果把21世紀的工程師放到同樣的場景中,他會束手無策。製造絕緣電線?調配一批炸藥?從零開始製造電報機?一旦連不上無線網路,我們大多數人都會陷入困境。如今,認知分工已發展到極高的程度:兩位物理學家可能彼此都難以理解對方的研究——一位在模擬暗物質,另一位在製造量子感測器。如今的“科學精通”,意味著對“越來越窄的領域”瞭解“越來越多”。這種專注帶來了驚人的進步,但也讓我們意識到自身能力的侷限性:專家們使用的概念工具,是他們能“運用”卻無法“創造”的。即便是長期被視為“孤獨天才領域”的數學,如今也遵循著這樣的模式。當安德魯·懷爾斯證明費馬大定理時,他並沒有重新推導每一個引理;而是整合了他信任但並未親自驗證的成果,建構出一個完整的理論框架——即便他沒有親手“切割”每一根“橫樑”,也能看清整個框架的結構。合作範圍的擴大,改變了“知曉某事”的含義。知識曾被視為一種“佔有物”,如今卻變成了一種“關係”——即我們能否很好地定位、解讀和整合他人的知識。我們生活在一個“分佈式智能網路”中,依賴專家、資料庫和工具來拓展自己的認知邊界。資料規模就能說明問題:當年宣佈DNA雙螺旋結構的《自然》論文只有兩位作者;如今,一篇關於基因組學的《自然》論文可能有40位作者。而宣佈希格斯玻色子發現的兩篇論文呢?作者多達數千人。“大型科學研究”之所以“大型”,是有原因的。遲早,這個“網路”會迎來新的參與者——一個不僅能儲存資訊,還能模仿“理解”本身的參與者。在大型語言模型時代,“資訊”與“技能”、“知道是什麼”與“知道怎麼做”之間的傳統界限變得模糊。從某種角度看,這些模型是“靜態”的:它們是一組可下載到筆記型電腦中的固定權重矩陣。但從另一個角度看,它們又是“動態”的:一旦運行,就能即時生成回應。它們能做到蘇格拉底所抱怨的“書寫無法做到的事”:回答問題、適應對話者、進行對話(有時甚至能與自己對話;當人工智慧將自身輸出作為輸入時,人工智慧研究人員稱之為“推理”)。將Google視為“記憶的延伸”並不難;但對許多人來說,大型語言模型更像是“思維本身的替代品”。在利用新型人工智慧時,我們自身的智能是在被“拓展”,還是說,這種“人工”智能正悄然崛起,逐漸佔據主導地位?我們無法將“精靈”放回“瓶子”裡,但我們可以決定讓它施展那些“魔法”。當人們談論“去技能化”時,通常會想到一個人失去了某種技能——比如飛行員的手動駕駛能力變得生疏,醫生在沒有人工智慧輔助時會漏診腫瘤。但如今,大多數工作都需要協作,人工智慧的出現並沒有改變這一點。問題不在於“人類與機器人相比表現如何”,而在於“使用機器人的人類與不使用機器人的人類相比表現如何”。有些人擔心,對人工智慧的依賴會讓人類在某些方面變得更糟,這種負面影響會蓋過其承諾的好處。Anthropic公司首席執行官達里奧·阿莫代伊樂觀地設想會出現一個“天才之國”,但這些擔憂者則預見會出現一個“傻瓜之國”。這與過去關於“風險補償”的爭論如出一轍:幾十年前,一些社會科學家認為,增加安全帶或防抱死剎車後,人們會駕駛得更加魯莽——科技帶來的安全感會讓他們“消耗掉”安全余量。但後來的研究得出了更令人鼓舞的結果:人們確實會做出調整,但這種調整是有限的,因此技術仍能帶來顯著的好處。在人工智慧的臨床應用中,類似的規律似乎也成立——人工智慧在醫院中的應用已超過十年。回想一下之前提到的結腸鏡檢查研究:在進行人工智慧輔助檢查後,胃腸病醫生在無輔助情況下的息肉識別率下降了6個百分點。但另一項研究彙總了24000名患者的資料,呈現出更全面的情況:人工智慧輔助使整體識別率提高了約20%(此處的人工智慧是一種“專家系統”——即一種狹義、可靠的機器學習形式,而非驅動聊天機器人的生成式人工智慧)。由於識別率的提高意味著漏診癌症的減少,無論個別醫生的能力是否略有下降,這種“半人半機”的協作模式顯然是有益的。如果這種協作能拯救生命,那麼胃腸病醫生若出於“自尊心”而堅持獨自操作,就是不負責任的。在其他領域,近期的一些研究表明:一個人的技能越高,與人工智慧的協作效果就越好。其中一項研究發現,在對兩種鷦鷯和兩種啄木鳥的圖像進行分類時,人類的表現優於機器人。但在識別虛假酒店評論時,機器人則更勝一籌(大概是“同類識別同類”吧)。隨後,研究人員讓人類與機器人配對,讓人類在參考機器人建議的基礎上做出判斷。結果因任務而異:在人類直覺較弱的領域(如識別虛假酒店評論),人們會過多地質疑機器人,從而拉低整體結果;而在人類直覺較強的領域,人們似乎能與機器人協同工作——在確定自己判斷正確時相信自己,在意識到機器人發現了自己遺漏的資訊時也會認可機器人。在識別鳥類圖像的任務中,“人類+機器人”的組合表現優於兩者單獨工作的效果。同樣的邏輯也適用於其他領域:一旦機器進入工作流程,“精通”的定義可能會從“產出”轉向“評估”。2024年一項關於程式設計師使用GitHub Copilot(程式碼生成工具)的研究發現,人工智慧的使用似乎會“重新引導”人類的技能,而非“取代”它。程式設計師花在“生成程式碼”上的時間減少了,花在“評估程式碼”上的時間增多了——檢查邏輯錯誤、排查邊界情況、清理程式碼指令碼。技能從“創作”轉移到了“監督”。如今,“人機協作”越來越多地意味著這一點:專業能力不再體現於“寫出初稿”,而體現於“編輯初稿”;不再體現於“速度”,而體現於“判斷力”。生成式人工智慧是一個“機率系統”,而非“確定性系統”;它給出的是“可能性”,而非“真相”。當風險切實存在時,具備專業能力的人類必須對最終決策負責——要能發現模型何時偏離現實,要將模型的輸出視為“待驗證的假設”,而非“必須遵守的答案”。這是一種新興的技能,也是至關重要的技能。未來的專業能力,不僅取決於工具的優劣,更取決於我們能否與工具“協同思考”。但協作的前提是“自身具備能力”。如果人類一方毫無頭緒,“人機協作”就會陷入混亂。這正是人們對“教育”感到恐慌的原因:如果一個人從未掌握過某種技能,就談不上“失去”這種技能。在這個“世界上最強大的作業工具”能輕鬆裝進每個學生口袋的時代,我們該如何培養學生的基本能力?我們這些教育工作者還有很多“作業”要做。過去的教學方法需要革新;在過去幾年裡,太多大學生陷入了一種令人不安的狀態——用一句話形容就是“主修ChatGPT”。但現在就斷言人工智慧對教育的整體影響,還為時過早。誠然,人工智慧可能會讓某些能力變得生疏,但如果使用得當,它也能強化另一些能力。以哈佛大學一門大型物理課程的近期隨機試驗為例。一半學生以傳統的“最佳方式”學習兩節課:由資深教師帶領的互動式實踐課堂。另一半學生則使用定製的人工智慧導師。之後兩組學生交換學習方式。結果顯示,在兩輪試驗中,使用人工智慧導師的學生表現都要好得多——優勢非常明顯。他們不僅學到了更多知識,學習速度也更快,而且反饋說自己更有動力、更投入。該人工智慧系統的設計初衷是“像優秀教練一樣工作”:教學生如何將複雜問題拆解成小問題,提供提示而非直接給出答案,根據每個學生的進度調整反饋的強度和內容。這種“針對性關注”正是老式輔導體系的強大之處。我還記得在劍橋大學的最初幾周,我與生物化學導師進行一對一交流的場景。當我說“我大概懂了”時,他會不斷追問,直到我們都確信我真的懂了。這種有針對性的關注,是劍橋大學“輔導制度”的核心。如果設計得當,大型語言模型有望將這種“關注”大規模推廣——不是複製輔導老師的羊毛開衫、鋥亮的煙斗或若有所思的表情,而是複製那種“持續、靈活的引導”,幫助學生從困惑走向理解。機器不會取代導師。它們有望承擔輔導中“常規性”的部分——檢查代數運算、反覆練習引理、提醒學生注意單位書寫、確保學生理解膜通道的工作原理。理論上,這能讓教師騰出時間,專注於其他重要工作:講解核心概念、追求更簡潔優雅的表達、與學生探討職業規劃、關注學生是否面臨過度壓力。當然,這只是一種樂觀的設想。我們不應僅憑一項研究就得出普遍結論(有一項針對土耳其高中生的研究發現,使用輔導機器人並未帶來明顯進步)。同時我們也要注意,那些物理專業的學生之所以能很好地利用輔導機器人,是因為他們要面對“課堂考試”——有監考老師、有時間限制、有嚴格的評分標準。我們還需注意,在STEM(科學、技術、工程、數學)學科中有效的方法,在人文學科中可能並不適用。儘管學期論文枯燥乏味,但它能培養一種“對話難以複製”的能力:逐步建構論證、權衡證據、組織材料、錘煉表達風格。我們這些教授本科生的教師中,已有不少人開始對有上進心的學生說:如果他們寫一篇論文,我們會閱讀並與他們討論,但這篇論文不會計入最終成績。這只是一種權宜之計,而非根本解決方案。說來也奇怪,在文化層面,我們似乎正在“回歸口頭表達”——口頭交流可能需要承擔更多教學任務。如此看來,對話的堅定捍衛者蘇格拉底,最終會笑到最後嗎?“破壞性去技能化”仍是一種無法忽視的可能性:由於過度依賴工具,人類基本的認知或感知能力會逐漸衰退,且沒有相應的能力提升作為補償。這種能力缺失會耗盡一個系統的“儲備能力”——即那些平時很少用到,但在出現問題時必須具備的能力。沒有這些儲備能力,系統的“韌性”會下降,“脆弱性”會上升。想想那些航空公司的飛行員:他們花數千小時監控自動駕駛儀,卻在系統故障時不知所措。一些自動化理論學者將“人機協作”分為兩類:“主動參與的人機協作”和“被動簽字的人機協作”。後者如果管理不當,就會導致工業心理學家莉薩妮·貝恩布裡奇早就警告過的問題:角色混亂、意識減弱、準備不足。就像救生員在大多數日子裡,只是看著游泳技術嫻熟的人在平靜的水中游泳——這類人類監督者很少需要採取行動,但一旦需要,就必須迅速、熟練地行動。同樣的問題也困擾著各類辦公室工作。當律師、項目經理和分析師花數月時間“批准”系統已起草或推斷出的內容時,他們就變成了“被動簽字者”,逐漸生疏了核心技能。這就是“部分自動化”的悖論:系統性能越好,人們就越不需要保持專業敏銳度,在系統偶爾失靈時,就越缺乏應對準備。解決這個問題的方法可能在於“制度設計”。例如,工作場所可以定期開展“演練”——類似飛行員定期進行的飛行模擬器訓練——讓員工必須挑戰機器,確保在“平穩運行”的漫長過程中,他們真正的判斷能力沒有衰退。在很多情況下,“儲備技能”不需要人人具備,只需在系統的某個環節存在即可——就像那些能識別榆樹的專家一樣。正因如此,美國海軍學院擔心GPS(全球定位系統)可能被干擾,在多年忽視後,重新恢復了基礎的“天體導航”訓練。大多數水手在遠洋航行中可能永遠不會用到六分儀,但只要有少數人掌握這項技能,在衛星失靈時,就足以穩住整個艦隊。這樣做的目的,是確保至少有一部分“實際能力”得以保留,以便在系統出現故障時,人類仍能站穩腳跟——至少不至於陷入困境。最令人擔憂的可能性,或許可以被稱為“根本性去技能化”:即那些“構成人類本質”的能力逐漸衰退。判斷力、想像力、同理心、對意義和分寸的感知——這些能力不是“備用選項”,而是我們日常都需要運用的能力。如果按照讓-保羅·薩特擔憂的說法,我們變成了“機器的機器”,那麼這種損失會體現在日常生活的方方面面。可能會消失的,是支撐我們日常判斷的“隱性、內化的知識”。如果人們開始按照系統偏好的方式提出問題,從系統提供的“看似合理的答案”中選擇,那麼這種損害不會表現為“嚴重的判斷失誤”,而會表現為“人格的逐漸弱化”:對話變得膚淺、對模糊性的容忍度降低、在需要尋找恰當措辭的地方習慣性使用套話、用“流暢”替代“理解”。如果將這些能力“外包”出去,實際上就是將“我們自己”外包出去。失去這些能力,不僅會改變我們的工作方式,還會改變我們“是誰”。從長遠來看,大多數形式的去技能化都是“良性”的。有些技能之所以過時,是因為支撐它們的“基礎設施”也已消失。電報技術需要熟練掌握“點和劃”(莫爾斯電碼);萊諾鑄排機需要熟練操作“熔鐵鍵盤”;平板膠片剪輯需要使用修版鉛筆和拼接膠帶,還要在腦海中記住不同場景在膠片和音軌中的位置。當電報線路、熱金屬印刷機和賽璐珞膠片消失時,它們所支撐的技藝也隨之消失。另一種去技能化,代表著“枯燥工作”的消除。很少有人會為“不再用手搓衣服”或“不再在紙上演算長除法”而惋惜。我認識一位神經科學家,他堅信大型語言模型能加快“撰寫資助申請”這一枯燥且範本化的工作。他仍然對內容負責,但即便自己的“資助申請撰寫能力”下降,他也毫不在意。在他看來,這不屬於“科學研究”,而是“研究體系要求的表演”。將這部分工作外包出去,能讓他騰出時間用於“發現”。事實上,“職業去技能化”可能具有“民主化”意義,能讓更多人有機會從事某項工作。對於英語能力有限的科學家來說,聊天機器人可以幫助他們順利撰寫“機構審查委員會陳述”,掃除“語言障礙”——而這種障礙與他們的研究質量毫無關係。在這種情況下,去技能化拓寬了“准入門檻”。再想想森內特提到的那家面包店,以及過去在廚房工作的希臘男性。過去的烤爐會燙傷他們的手臂,老式揉麵機可能拉傷他們的肌肉,搬運沉重的面包托盤會讓他們的背部承受壓力。到了20世紀90年代,當系統改為由Windows控製器操作時,勞動力構成發生了變化:不同種族的男性和女性站在螢幕前,點選圖示即可工作。“手藝”的要求降低了,但“符合條件的勞動者”範圍擴大了(當然,他們的工資也降低了:門檻越低,工資越低)。通常情況下,技術讓我們能將時間用在更有價值的事情上,培養“更高價值鏈條”上的技能,因此我們會主動放棄一些技能。在祖博夫調研的其中一家紙漿廠,操作員不再需要進行體力勞動,得以將更多時間用於“預測和預防問題”。有人說:“坐在這個房間裡思考,也成了我工作的一部分。”祖博夫將這種變化稱為“再技能化”:“行動技能”讓位於“抽象思維和流程推理能力”——也就是她所說的“智力技能”。類似的情況也發生在“電子表格軟體(如VisiCalc)出現後的會計師”身上:他們不再需要手工計算一列列數字,得以將更多時間用於“稅務策略”和“風險分析”。更重要的是,新技術能催生出“全新的技能”。在顯微鏡發明之前,有“博物學家”,但沒有“顯微鏡學家”:羅伯特·胡克和安東尼·范·列文虎克必鬚髮明“觀察和解讀微觀世界”的方法。電影製作不僅借鑑了戲劇,還催生了“攝影師”和“剪輯師”——這些職業沒有真正的歷史先例。每一次技術飛躍,都拓寬了“可能性的邊界”。如今的人工智慧技術可能也是如此。我的年輕同事們堅稱,與大型語言模型合作,已經在培養一種新的“技藝”——設計提示詞、追問驗證、發現偏見和幻覺,當然,還有“學會與機器協同思考”。這些都是“新興技能”,源於與“不會消失的數字架構”的互動。重要的技術,本質上都會催生我們目前還無法命名的“技藝和職業”。困難之處在於,要拋開“懷舊情緒”和“慣性思維”,判斷那些技能值得保留,那些可以捨棄。沒有人願意看到自己辛苦掌握的技能被視為“過時”而遭拋棄,因此我們必須抵制“情感的誘惑”。每一次進步都需要付出代價:文字讀寫能力削弱了“記憶壯舉”,但創造了新的“分析能力”;計算器影響了“心算能力”,但讓更多人能夠“運用數學”;錄音技術降低了“日常音樂演奏能力”,但改變了我們“聆聽音樂”的方式。那麼如今呢?我們顯然有權決定,大型語言模型究竟會“拓展”還是“縮小”我們的思維。縱觀人類歷史,我們的能力從未“停滯不前”。技能總是不斷“向外流動”——從雙手到工具,再到系統。個體的才智已融入“集體協同智能”,而推動這一過程的,是人類長久以來的“思維外化”習慣:將記憶儲存在符號中、將邏輯嵌入機器中、將判斷融入制度中,近來又將“預測”託付給演算法。過去催生行會的“專業化”,如今催生了“研究聯盟”;過去在師徒間傳遞的知識,如今通過“網路和數字矩陣”傳播。生成式人工智慧——人類知識的“統計濃縮”——只是我們“向自身發明學習”這一漫長過程中的最新篇章。因此,最緊迫的問題是:如何保持我們的“主體性”——如何在“即將承擔我們大量思考工作的系統”中,依然保持“主導者”的身份。每一代人都必須學會如何與“新獲得的認知工具”共處,無論是鐵筆、捲軸,還是智慧型手機。如今的新變化,在於“互動的速度和親密程度”:工具在向我們學習的同時,我們也在向工具學習。如今的“管理”,意味著要確保“構成人類本質的能力”——判斷力、想像力、理解力——在我們身上得以保留。如果說有那項技能我們絕對不能失去,那就是“判斷那些能力真正重要”的技能。 (邸報)
Transformer 之父「叛逃」:我已經受夠Transformer了!警告:AI研究變得越來越窄,我們需要找到新的架構
「我真的受夠了Transformer。」——這句話來自Transformer 的共同作者、Sakana AI 聯合創始人Llion Jones。在舊金山TED AI 大會上,這位被譽為“生成式AI 時代奠基人”的研究者,突然“開砲”——不僅公開批評了整個AI 行業的研究方向,還宣佈自己已經“離開Transformer”,開始尋找下一次重大突破。要知道,Transformer 正是ChatGPT、Claude、Gemini、Llama 等幾乎所有主流大模型的核心技術。而如今,它的發明人之一卻親口說:“我不幹了。”“AI 研究正在變得越來越窄”Llion Jones 是2017 年那篇改變AI 歷史的論文《Attention Is All You Need》的作者之一,也是「Transformer」這個詞的命名者。這篇論文被引用超過 10 萬次,堪稱電腦科學領域的「聖經級」成果。但在TED AI 的演講上,Jones 卻直言:“儘管現在AI 領域投入了前所未有的資金和人才,研究卻變得越來越狹窄。”他認為,這種局面不是偶然,而是被資本和競爭壓力擠壓出來的結果——投資者要求回報,研究員害怕“被抄”,於是大家都選擇安全、可發表的項目,而不是去探索真正未知的方向。結果呢?“AI 研究陷入了'剝洋蔥'式的自我複制。大家都在圍著同一個框架打轉——換個超參、堆點資料、再發一篇論文。”“我們可能又在錯過下一個突破”Jones 提出了一個形象的比喻-AI 演算法有個經典的平衡:「探索vs 利用」(exploration vs exploitation)。如果一個系統只是一味利用已有成果,而不去探索新方向,它就會陷入“局部最優”,錯過真正更好的解法。「AI 領域現在就是這樣。」Jones 說。“我們太沉迷於Transformer 的成功,以至於忘了往外看。也許下一個革命性架構,就在不遠處。”Transformer 誕生於“沒有KPI 的自由”Jones 回憶起當年在Google發明Transformer 的經歷時,語氣明顯柔和了。“那是一個非常自由、非常自然的過程——我們沒有明確的項目要求,也沒有指標壓力。只是午飯時聊出來的點子,隨手在白板上寫寫畫畫。”沒有OKR、沒有deadline,也沒有資本的緊逼。正是這種“無壓力的研究環境”,讓Transformer 這場技術革命得以誕生。而現今的AI 公司,Jones 說,即使給研究員上百萬年薪,也無法給他們真正的自由。“他們一上班就感到必須'證明自己',於是繼續追逐低風險、能發論文的方向。”Sakana AI:離開Transformer 的實驗室作為Sakana AI 的CTO,Jones 現在正嘗試「重建」那種原始的自由:以自然啟發為靈感的研究方向,極少的成果壓力,也不強迫研究者為了論文或競爭對手而忙碌。他引用工程師Brian Cheung 的一句話作為研究準則:“你應該只去做那些,如果不是你,這個世界上就不會有人去做的研究。”這家總部位於東京的AI 實驗室正在研究一種名為 「連續思考機」(Continuous Thought Machine) 的新架構——靈感來自神經同步的自然現象,它將大腦式的同步機制引入神經網絡中。一位提出這個想法的員工告訴Jones,在他以前的公司或學術機構,類似的想法會被認為是「浪費時間」。但在Sakana,Jones 給了他一周自由探索的時間——結果,這個項目最終成功入選頂級AI 學術會議 NeurIPS 的展示。Jones 甚至提出,自由比高薪更能吸引人才。“這是吸引人才的極好方式,”他這樣評價這種“探索型”研究環境,“想一想,那些聰明、有野心、真正熱愛探索的人,自然會主動尋找這樣的地方。”“這不是競爭,而是探索”最後,Jones 呼籲整個行業:“我們不是在競爭,而是在共同探索。如果大家都能多一點分享、多一點冒險,我們也許能更快走向下一個重大突破。”業界越來越多證據表明,單純擴大Transformer 模型規模 已接近極限。許多頂級研究者開始討論:或許新的架構創新,而非參數堆疊,才是邁向更強AI 的關鍵。但他也警告,這個突破可能永遠不會出現——除非我們打破現有的激勵機制:金錢、競賽、論文、排名……這些正讓研究者遠離真正的探索。作為Transformer 的共同創作者,Jones 對這個限制的洞察極具份量。他選擇“告別自己的發明”,也讓他的觀點更有說服力。“也許下一個Transformer 級的突破,就在拐角處。但也可能被忽視——因為我們都忙著改進一個我已經'厭倦'的架構。”畢竟,他是少數真正理解Transformer 從誕生到極限的人之一。如果連他都覺得該向前走——那也許真是時候了。Transformer 八位作者的去向2017 年那篇改變AI 處理程序的論文《Attention Is All You Need》,有8 位作者。八年後,他們已各自踏上完全不同的航線——Ashish Vaswani 創立了Essential AI;Noam Shazeer 離開Google創辦Character.AI,又重回Gemini 項目;Aidan Gomez 在Cohere 帶領團隊探索企業級LLM; Jakob Uszkoreit轉向生物科技AI,創辦Inceptive;繼續推動推理模型發展;Illia Polosukhin 則投身區塊鏈領域,打造NEAR Protocol;而Niki Parmar 仍保持低調,鮮少公開露面。從科學研究到創業、從語言模型到生物智能,他們幾乎代表了AI 產業的所有分支方向。這一幕像極了Transformer 自身的命運:從單一架構出發,衍生出無數變體與未來。當年那群年輕研究者改變了人工智慧的軌跡;如今,他們又在各自的探索中,追尋下一個「Attention is all you need」時刻。參考連結:https://venturebeat.com/ai/sakana-ais-cto-says-hes-absolutely-sick-of-transformers-the-tech-that-powers (51CTO技術堆疊)
Anthropic 研究員:強化學習將推動 Transformer 實現 AGI
在剛剛結束的 AI Agenda Live 紐約活動上,Anthropic 強化學習團隊技術負責人 Sholto Douglas 拋出了一個重磅觀點:即使不需要新的模型架構突破,強化學習也能讓今天的 Transformer 模型達到人類專家等級的表現。可以說,這已經非常接近 AGI 了。要知道,去年秋天大家還在擔心 AI 模型訓練的進步速度正在放緩,現在研究人員們卻重新燃起了希望。Transformer 還能再戰十年?Douglas 給出的非共識觀點是:我們不需要超越 Transformer 的新架構。這個 2017 年發明的架構,現在支撐著 GPT、Claude 這些最流行的模型,竟然還有這麼大的潛力可挖?過去兩年,不少創業公司像 Sakana AI、Symbolic AI 和 AUI,都拿著「超越 Transformer」的故事從頂級 VC 那裡融了幾百萬美元。它們聲稱能造出比 Transformer 更少出錯的模型。但現在看來,Transformer 的統治地位似乎還很穩固。同時,Douglas 還點出了另一個現象:今天最強大的晶片都是為 Transformer 最佳化的,這形成了一個自我強化的循環,讓研究者們更不願意去探索新架構了。定義「好」比想像中難但也別高興得太早。Databricks 首席 AI 科學家 Jonathan Frankle 在同一個活動上潑了點冷水:強化學習的一個關鍵步驟是定義什麼叫「好表現」。在程式設計領域,這很簡單——程式碼能跑就是好。但在商業世界裡呢?Frankle 舉了個公眾號文章的例子:什麼是一篇「好」文章?是故事講的好不好聽?是有沒有給到好的情緒價值?是有沒有帶來資訊量?是看點選量和訂閱數?是看被其他媒體引用的次數?還是看文章是否清晰易懂,或者是否深入技術細節?這個問題沒有標準答案。Anthropic 的十億美元賭注面對這些挑戰,像 Anthropic 這樣的實驗室正在嘗試各種方法來提升模型在企業任務上的表現。比如在 Salesforce 中記錄通話,或者製作 Excel 表格。他們的方法包括:讓人類專家給模型表現打分讓 AI 模型在企業應用的副本中「自由探索」(也叫「RL gyms」)來學習如何使用這些應用這些方法既困難又昂貴。據報導,Anthropic 討論過在未來一年內在這些 RL gyms 上投入 10 億美元。這筆錢花得值不值?目前來看,還需要時間才能知道答案。網友 R.J. 🎯(@aherosfuneral)稱:是的,這就是問題所在。基準測試讓進展看起來很清晰,但現實生活是混亂的。「專家等級」很大程度上取決於具體情境,而人類帶來的適應性很難衡量。@Nexio(@BhakteshHe70609)提出思考:隨著強化學習將 AI 推向人類專業水平,真正的挑戰不僅是更智能的模型——而是在一個充滿無限細微差別的世界中,就什麼是「好」達成共識。定義表現很快會成為人類最重要的工作嗎?Morgan_Analyst(@tairogi1988)也表達了類似觀點:人類等級的 AI 感覺比以往任何時候都更近了,但定義「好」才是真正的挑戰。這讓我想起 David Smith 的觀點,市場將是最終的測試。Christopher John Lee(@JunHongLi56447)評論道:也許我們真正需要做的是瘋狂擴展 RL。然後也許我們能看到奇蹟。Today in AI(@todayinai_)指出了一個技術性問題:隨機獎勵函數是營運上的牆。企業自動化需要可審計、確定性的智能體軌跡,這是 RL 的機率性策略從根本上難以處理的必要性。強化學習的前景,讓人既興奮又忐忑。一方面,我們看到了通向 AGI 的可能路徑,不需要革命性的架構創新,只需要把現有的技術推到極致。另一方面,如何定義和評估「智能」本身,成了擺在我們面前的哲學難題。當 AI 越來越接近人類專家水平時,我們才發現——原來定義什麼是「好」,才是擺在 AI 面前最重要也最困難的問題。 (AGI Hunt)
重磅官宣!Transformer發明者、GPT-5主創領銜,50+頂尖專家揭秘AGI時間表
【新智元導讀】在AI範式加速轉變之際,2025全球機器學習技術大會將於10月在京隆重召開。Transformer共同發明人、OpenAI科學家Lukasz Kaiser將領銜50餘位頂尖專家,深度剖析「推理模型的歷史、現在與未來」。計算與連接的發展呈周期性趨勢,而當下的「計算2.0」已進入加速交替階段,AGI有望在2035年左右出現。這是奇點智能研究院院長李建忠在《AI產業範式轉變的若幹個核心命題》主題演講中的前瞻判斷。正是在這種歷史周期的加速交替與範式轉換背景下,由CSDN與奇點智能研究院聯合舉辦的2025全球機器學習技術大會將於10月16–17日在北京威斯汀酒店召開,屆時全球頂級學者與產業領袖將齊聚一堂。在這裡,我們將不再僅僅停留在對未來的想像,而是與50餘位頂尖專家一道,深度剖析這些核心命題,共同探索AI時代的無限可能。OpenAl資深研究科學家領銜解讀AI未來趨勢在大會首日的主會場,我們將迎來一位大模型理論奠基者——Lukasz Kaiser。作為著名的「Transformer八子」之一,他於2017年共同發表里程碑式論文《Attention Is All You Need》,不僅為大模型技術奠定了堅實基礎,更直接催生了此後整個生成式AI的爆發,在人工智慧發展史上留下了不可磨滅的印記。加入OpenAI之後,Lukasz成為GPT-5、GPT-4、o1、o3、ChatGPT等一系列前沿模型的核心共同發明人,推動了大模型從預訓練模型向推理模型的範式轉換。作為現任OpenAI資深研究科學家,他將最前沿的理論與實踐緊密結合。在本次大會主會上,Lukasz Kaiser將以《推理模型的歷史、現在與未來》為主題,帶領大家回顧推理模型的發展軌跡,剖析當前的技術進展,並展望未來的可能路徑。他將結合自身的研究與實踐,帶來對大模型發展與未來計算範式的最新思考,為整個大會奠定技術與思想的前沿基調。Transformer共同發明人Lukasz Kaiser與此同時,奇點智能研究院院長、CSDN高級副總裁李建忠將帶來《大模型技術思考與AI產業範式洞察》的主題演講。他長期致力於推動AI基礎研究與產業落地的雙向融合,為研究與產業之間架起橋樑。李建忠將深入剖析大模型對計算、開發和互動範式的重塑,解讀智能體平台、作業系統及網際網路生態的未來發展。他的分享將為大會提供戰略與技術的全景視角,助力與會者洞察AI時代的無限可能。此外,大會上午場還將邀請多位行業領軍者深度探討大模型技術的最新發展與商業化挑戰,為AI未來的演進提供前瞻視角。一線AI技術專家齊聚共探前沿落地實踐在10月16日的下午,大會現場將設有大語言模型技術演進、智能體工程與實踐、多模態與世界模型、AI賦能軟體開發與氛圍程式設計等多個專題的深度對話與實踐分享。眾多行業領軍人物將帶來各自領域的最新突破與獨家洞察,共同探索AI技術落地與產業創新的前沿路徑:前OpenAI研究員、清華大學交叉資訊院助理教授吳翼,星塵智能副總裁、前DeepMind研究員王佳楠,新浪微博首席科學家及AI研發部負責人張俊林,北京大學博雅特聘教授李戈,騰訊混元技術專家、混元應用演算法負責人鄭茂,小紅書多模態搜尋&國際化演算法負責人張道鑫,理想汽車多模智能負責人周盼,崑崙萬維多模態大模型Tech lead王沛雨,阿里Qoder技術專家彭佳漢等。以下是10月16日下午場的整體日程:在聽完首日精彩且有深度的分享後,緊接著,大會在10月17日將繼續安排豐富的議程,設立多個專題分會和互動環節,涵蓋多個當下最熱門的技術專題:具身智能與智能硬體、AI Infra大模型基礎設施、AI賦能軟體開發與氛圍程式設計、大模型+行業落地實踐、智能體工程與實踐+開源模型與框架、GenAI產品創新與探索等。在17號上午場,有更多頂級專家與獨家議題:中國電信人工智慧研究院(TeleAI)AI治理團隊負責人、資深研究科學家趙健,微軟亞洲研究院首席研究員宋磊,百度資深工程師張軍,杭州六小龍之一的群核科技首席科學家唐睿,Google主任工程師兼技術主管喻世煒等。他們將共同深入剖析AI在安全治理、底層基礎設施、開源模型實踐、具身智能及軟體開發範式革新等領域的最新進展,為參會者帶來一場洞見未來的技術盛宴。以下是大會第二天上午場的整體日程:第二天的日程不僅延續了理論與實踐的深度融合,也為參會者提供更多與專家面對面交流、探討與技術落地交流的空間。在這天的下午場,大會圍繞大模型+行業落地實踐、智能體工程與實踐+開源模型與框架等多個專題同步進行,其中來自頭部企業的技術翹楚將分享他們的實戰智慧與前瞻洞察,共同勾勒AI產業的未來圖景:阿里淘天集團的技術專家、MNN團隊架構師王召德,B站智能創作技術負責人、演算法專家蔣宇東,字節跳動工程師、verl項目核心貢獻者陳海泉,快手安全演算法中心負責人劉夢怡等。以下是大會第二天下午場的整體日程:共赴AI變革前沿攜手探索未來可能2025全球機器學習技術大會(ML Summit 2025)不僅是技術領域的深度交流平台,更是推動AI生態融合、促進行業協同創新的重要契機。本次大會匯聚全球頂尖專家與一線技術領軍者,共同探討AI技術的突破與落地,為企業、開發者和研究者搭建高效溝通與合作的平台。 (新智元)