#LLM
AI的Scaling時代正在進入尾聲?
近期不管是Dwarkesh Podcast上Ilya的訪談,還是行業前沿一些最新的論文進展與NeurIPS 的最佳論文,似乎都在揭示一個真相就是AI的Scaling 時代正在進入尾聲?這屆 NeurIPS 的最佳論文名單,我看了一遍,似乎也並不是在說“Scaling 完全沒用了”,而是在給 2018–2025 這一輪“簡單堆大模型 + RLHF”的路線開一份“體檢報告”:哪些地方已經到 邊際收益遞減 / 隱患暴露期;哪些方向還存在 新的可擴展維度(結構、更深網路、訓練動力學)。結合 Ilya 在 Dwarkesh 訪談裡那句“It’s back to the age of research again, just with big computers”,這 7 篇論文確實在接近一個真相,就是“Scaling 時代”正在接近尾聲,要通過scaling獲得模型邊際性能的提升變得越來越難了。一、先把 7 篇論文拎成 3 條主線按主題而不是按官方獎項看,會更清楚:主線 A:對“無腦 Scaling + RLHF”的反思Artificial Hivemind(Best Paper)這對未來兩個東西都很要命:這篇論文在實證層面告訴你:繼續按照現在這套 RLHF + 合成資料流水線往前堆,遲早會撞到“資訊熵天花板”。創意 / 多樣性:LLM 越來越像一個“平均值人類”,長尾觀點全被削平。合成資料訓練:如果你再用這些“高度平均化”的 LLM 輸出去訓練下一代模型,訓練分佈的資訊熵會持續下降 → 相當於在做一個“生態等級的 mode collapse”。Intra-model:同一個模型對不同採樣、不同時間,回答非常像。Inter-model:不同家的 SOTA 模型(不同架構、不同實驗室)對開放問題的回答也高度相似。做了一個大規模開放式問答資料集 Infinity-Chat(26K 開放式問題 + 超 3 萬人類標註)。發現兩個層面的同質化:這種“人工蜂巢思維”很大一部分來自 RLHF / 對齊階段的 reward model 把“安全、無爭議、平均偏好”的那一塊分佈壓得特別重。2. Does RL really incentivize reasoning capacity?(Runner-up)這基本在幫 Ilya 把話說完:你不能指望一個表徵不夠好的基座,只靠後期 RL 就“解鎖智力上限”。RLVR 是在擠同一塊資訊海綿裡的最後一點水,而不是往海綿裡再灌海水。RL 更像是在隱空間裡學會“少走彎路、直接拿出自己已經會的解法”;但要讓模型學會真正 OOD 的邏輯結構,主戰場仍然是 pre-training 表徵質量。做了嚴格控參實驗,比較 base model 與 RLVR / CoT RL 後的模型。結論不是“RL 沒用”,而是:大部分提升來自“更會採樣”而不是“更會推理”。3. Superposition Yields Robust Neural Scaling(Runner-up)從這裡開始,Scaling 不再是“經驗公式”,而變成“有前提條件的物理定律”:前提不滿足(比如特徵太同質、資料熵不足、RLHF 拉平分佈),Scaling 的收益自然就塌了。Scaling Law 不是玄學,是網路在“塞越來越多特徵進去同一維度空間”時的統計結果;但一旦 superposition 太極端,也會帶來干擾、解釋性差等問題。做的是 toy model + 理論:解釋 Scaling Law 為何看起來像“物理定律”。觀點:網路不是“一維一個特徵”,而是在有限維度裡做了大量 非正交特徵疊加(superposition),在一定條件下可以推匯出類似 “loss ∝ 1/d” 這樣的反比關係。主線 B:從“堆大”轉向“改結構 / 改動力學”這裡是最貼近 Ilya 所說的“Age of Research”的部分:不是把模型做更大,而是在相似計算預算下,重寫 Recipe。4. Gated Attention for LLMs(Best Paper,阿里 Qwen)很小的改動:在 scaled dot-product attention 的輸出後面,加一個 head-specific 的 sigmoid gate。實驗:在 1.7B dense + 15B MoE 模型、3.5T tokens 上系統比較了 30 多種 gating 變體。給原本線性的 low-rank attention 對應加了一層非線性;按 query 自適應做稀疏門控,抑制不該擴大的殘差。結果:這個簡單門控能同時帶來:訓練更穩定、允許更大的學習率;更好的 scaling 性能;長上下文 extrapolation 更好,並且 緩解 attention sink(那種開頭 token 吃掉一堆注意力的現象)。本質上這類工作說明:架構級的小手術 + 訓練動力學的理解,可以在“不多加算力”的前提下,把 Scaling 繼續向前推一段。這就是 Ilya 所謂“回到 research,只不過有更大的電腦”。5.1000 Layer Networks for Self-Supervised RL(Best Paper)有點反轉:說明 “Scaling 結束” 不是全行業的,而是 “某種簡單 scaling 策略的天花板到了”;其他範式(RL + SSL + 具身智能)反而剛剛拉開帷幕。LLM 那邊大家在喊“Scaling 遇到瓶頸”;RL 這邊反而剛進入自己的 Scaling Moment(但靠的是深度 + 自監督,而不是僅僅加寬點 MLP)。傳統 RL policy 網路一般就 2–5 層,深了就梯度斷、訊號稀疏。這篇用 自監督目標 + goal-conditioned 無獎勵設定,把網路深度做到 1024 層,在 Locomotion / Manipulation 的目標達成任務上提升 2x–50x。更重要的不是數字,而是 qualitative change:深層表徵開始出現 “湧現的目標達成策略”,而不是簡單的局部最優。6. Why Diffusion Models Don’t Memorize(Best Paper)研究擴散模型在訓練過程中的 兩階段動力學:早期:迅速學到資料流形的結構 → 泛化能力主要形成於此;後期:緩慢開始記憶孤立樣本 → 過擬合主要在這個階段發生。把這個現象解釋為一種 隱式動力學正則化(implicit dynamical regularization):噪聲調度 + 損失景觀,讓模型更傾向學“結構”而不是“具體樣本”。這對現實世界有兩個含義:從理論上解釋了為什麼擴散模型在很多實驗裡 不太“死記硬背”訓練樣本;也給出了一個穩健操作建議:控制訓練時長 / 早停點,就可以在不改變結構的前提下獲得 better generalization。這裡的關鍵詞是:理解訓練動力學 → 調 recipe,而不是再堆參數。7. Optimal Mistake Bounds for Transductive Online Learning(Runner-up)這是純理論,把一個 30 年的 open problem(直推線上學習的 mistake bound)補完。配上上面幾篇,可以看出一個趨勢:Scaling 不再等於“加 labeled data + 加參數”,而是“利用 unlabeled / self-supervised 結構,把資訊效率榨滿”。給半監督 / 自監督學習的 “極限收益” 一個更清晰的下界;幫你回答“多利用 unlabeled data 到底理論上能好多少”。結論:在有大量未標註資料的情境下,可以把錯誤界從線性降到 √n 等級。主線 C:回到“生物與歷史”的兩塊基石Test of Time:Faster R-CNN10 年前的工作被授予時間檢驗獎,本質是在提醒大家:當年深度學習取代手工特徵工程(Selective Search 等)的邏輯,就是:“只要接上梯度,一切皆可學習”。和 Gated Attention 一起看,相當於在說:真正改變時代的架構創新,往往不是“多 10 倍參數”,而是“發現一個新的 end-to-end 可微組合方式”。Sejnowski-Hinton Prize:Random Synaptic Feedback / Feedback Alignment這篇 2016 年的工作證明:即使反向傳播的 feedback 權重是固定隨機的,前向權重也可以在訓練中“自動對齊”它們,從而逼近真正梯度。對今天的暗示:深度學習不必拘泥於“生物不可能實現 exact backprop,所以不 biologically plausible”;你可以探索 更鬆弛、但可實現的學習機制。配合 Ilya 現在在 Safe Superintelligence 做的事情,其實是在告訴你:下一階段的“Research”不僅是工程層面的 recipe,更是“理解大腦 / 理解學習規律”層面的基礎研究回歸。二、這 7 篇論文是如何給 Ilya 那句“Scaling 時代結束”做註腳的?把 Ilya 訪談裡的時間軸簡單整理一下:2012–2020:Age of ResearchCNN / RNN / attention / Transformer / RL breakthroughs。2020–2025:Age of Scaling大模型 + 巨量資料 + 大算力,“公式非常簡單、低風險”:堆 GPU 就是正解。2025 以後:Back to the age of research, just with big computers規模已經很大,再 100× 不會“質變一切”,必須重新在“方法 / 架構 / 理論”上做發現。NeurIPS 這幾篇獲獎論文剛好對應三個層面:1. Scaling 舊範式的“副作用清單”這幾篇一起,把“簡單繼續沿用過去 5 年的 scaling recipe” 的邊界畫出來了。Artificial Hivemind:過度對齊 + 合成資料 = 生態級 mode collapse 風險。RLVR 去魅論文:把 RL 當“神奇推理放大器”是不現實的;它更多是採樣器最佳化。Superposition Scaling:Scaling Law 只是某些結構下的“物理現象”,前提一旦被破壞,law 就不再適用。2. 新範式的“起點示例”博弈的重點,從 “再加多少 GPU” 變成 “在既有算力預算下,如何通過結構 + 動力學 + 理論把效率榨盡”。Gated Attention:通過理解 attention 動力學(attention sink、低秩對應),做最小結構改動,換來更穩定、更可擴展的訓練。1000-Layer Self-supervised RL:在 RL 場景裡把深度 scaling 打開,但必須配合自監督世界模型。Diffusion Dynamics:通過分析訓練動力學,給出“不 memorization” 的機制解釋和操作準則。Transductive Mistake Bounds:為“如何利用 unlabeled data 到極限”提供理論下界。3. 回到“世界怎麼工作的”這和 Ilya 現在的強調完全對應:模型已經“足夠大”,但 泛化比人差得多;下一個階段必須是理解“泛化的物理 / 生物機制”,而不是繼續盲目擴表。Faster R-CNN 與 Feedback Alignment 兩個獎項,某種意義上是在說:深度學習最強的時候,從來不是模型最大的時候,而是我們第一次找到“世界 / 視覺 / 大腦”真正規律的那些時刻。三、這個判斷在提醒什麼?換成很實在的視角:1. 資料與分佈:不要再把“更多樣本”當唯一武器合成資料 ≠ 免費午餐,如果源模型高度同質,我們只是把“平均人類”的偏見重複寫 N 遍;對於開放式任務,需要設計能衡量 輸出多樣性 / 長尾質量 / 個體偏好差異 的基準,而不只是平均分。真正的泛化很多時候來自訓練動力學(比如噪聲 schedule),而不是資料量超大;未來圍繞“資料版權 / 記憶與泛化邊界”的爭論,會越來越依賴這種動力學層面的理論。2. 模型與架構:規模相近的情況下,誰的 Recipe 更聰明?許多“訓練不穩 / sink token / 長上下文塌陷”的問題,可以通過 非常局部的結構改動 來解決;這類工作對工業界極具價值,因為它幾乎是“drop-in replacement”。在 RL 這種傳統上偏淺層的領域,深度本身就是一個還沒被用完的 scaling 維度;但要開啟它,你必須引入 自監督世界模型 / 輔助目標,否則梯度與訊號撐不住。如果把 2018–2025 的 LLM 熱潮比作一次“大煉丹”:這幾年我們已經證明:Scaling 非常有效,但不是無限有效。NeurIPS 2025 的這幾篇獲獎論文,在不同維度上給出了同一個答案:再往前走,不能再靠“多幾倍 GPU”來當默認路線了。 需要的是:理解分佈、理解架構、理解訓練動力學、理解泛化極限。換成 Ilya 的話就是:時代沒有從 Scaling 退回“什麼都沒有”, 而是從“只有 Scaling”回到了“Research + 大算力”並重。 (貝葉斯之美)
一、AI大模型基本原理
最近隨著資本做空輝達,巴菲特退休之前押注Google,國內阿里的QWen3-max推出,大模型應用在沉寂大半年之後又開始活躍。畢竟輝達是賣鏟子的,真正拿鏟子去耕種的還得是大模型基座以及基於大模型的應用開發。💡 本文會帶給你什麼是AI?AI大模型能做什麼大模型現階段落地情況綜述怎樣尋找企業中大模型落地場景大模型的通俗原理大模型技術的短板大模型應用技術架構DeepSeek本地部署和應用開始上課!什麼是 AI?「AI is bullshit。深藍沒用任何 AI 演算法,就是硬體窮舉棋步。」思考:「智能冰箱」是 AI 嗎?一種觀點:基於機器學習、神經網路的是 AI,基於規則、搜尋的不是 AI。AI大模型能幹什麼?大模型,全稱「大語言模型」,英文「Large Language Model」,縮寫「LLM」。現在,已經不需要再演示了。每人應該都至少和下面一個基於大模型的對話產品,對話過至少 1000 次。本課第一個專業要求:分清對話產品和大模型。但是,千萬別以為大模型只是聊天機器人。它的能量,遠不止於此。按格式輸出分類聚類持續互動技術相關問題可能一切問題,都能解決,所以是通用人工智慧 AGI用 AI,要用「用人思維」:機器思維:研發了什麼功能,就有什麼功能。用人思維:給 ta 一個任務,總會有些反饋,或好或壞,驚喜或驚嚇。劃重點:大模型就是一個函數,給輸入,生成輸出任何可以用語言描述的問題,都可以輸入文字給大模型,就能生成問題的結果文字進而,任意資料,都可以輸入給大模型,生成任意資料輝達 CEO 黃仁勳 2024 年 6 月 2 日在 Computex 上的演講提到各種模態資料的統一支援:大模型GPT時代:一切皆為向量AI驅動干行百業效率升級,大量行業場景應用價值仍待深挖大模型現階段落地情況綜述Killer App 沒有影,AI 原生待證明。手握場景不著急,內部提效暗暗行。Killer App 沒有影AI 沒有創造新的使用場景,只是舊場景的增強,所以沒有 Killer App 的土壤可以樂觀期待 Killer App,但別苦苦追求請忽略一切張嘴就是 Killer App 的人AI 原生待證明AI 原生,是指產品的核心功能是 AI,而不是 AI 作為輔助功能。典型特點是,有 AI 後才出現。助手類,打不過 Siri 們ChatGPTKimi Chat文心一言通義千問智譜清言……搜尋類,Google百度不會袖手旁觀Perplexity秘塔 AIDevv情感陪伴類,社交巨頭正謹慎觀察Character.AI(已被 Google 人才收購)星野Replika定製 Agent,商業模式探索中ChatGPT GPTs扣子DifyAI程式設計 ,目前最成功的AI應用CursorWindsurfInsCodemarscode手握場景不著急大玩家毫不落後,AI 帶來的市場格局變化不大。拍照答題GauthQuestion AI英語學習多鄰國有道 Hi Echo圖像處理美圖秀秀Adobe Firefly辦公WPS AICopilot for Microsoft 365釘釘魔法棒飛書智能夥伴騰訊會議智能助手程式設計GitHub Copilot全家桶GoogleMicrosoft字節跳動內部提效暗暗行很多企業將大模型和業務相結合,取得了或大或小的效果行銷AI 做行銷創意,人再加工AI 批次生產行銷素材多語言翻譯客服/銷售半 AI,適合本來有人做,AI 來提效全 AI,適合本來沒人做,AI 來補位辦公公文撰寫/總結/翻譯知識庫內部客服輔助決策情報分析BI產品研發創意、頭腦風暴IT 研發提效怎樣尋找企業中大模型落地場景1. 業務流程解構明確目標 :確定解構的目標是什麼,是否是提升效率、降低成本,還是增強產品或服務的質量。分析現有流程 :通過與相關部門和團隊溝通,瞭解當前的業務流程,使用流程圖、價值流圖等工具。收集資料 :收集與流程相關的資料,包括時間、資源、瓶頸等,識別出目前流程中的問題和改進點。識別關鍵環節:確定每個環節對業務結果的影響,識別那些環節最能推動價值產生,那些是浪費或低效的環節。2. 繪製企業價值流圖識別關鍵流程:將企業流程分為不同的關鍵環節,如供應鏈管理、生產流程、銷售等。標記價值增值活動:明確那些環節增加了實際價值,那些是純粹的支援性或非增值活動。流程中的浪費:識別流程中出現的浪費,如等待、過度處理、運輸、庫存、動作等。時間與資源:標註每個環節的時間、資源消耗,以及這些消耗如何影響最終的交付。改進方案:通過價值流圖,找到需要最佳化的環節,提出改善措施。3. 識別大模型應用場景資料驅動的決策:大模型可以幫助企業分析大量資料,提供更精確的決策支援,示例:通過AI分析客戶資料,最佳化市場行銷策略。自動化與智能化:大模型可以應用於自動化任務,如智能客服、語音識別、圖像識別等,減少人工成本並提升效率。個性化服務:通過大模型實現個性化推薦系統,基於使用者歷史行為或偏好為其推薦個性化的產品或服務,提高客戶滿意度和轉化率。預測與最佳化:利用大模型對歷史資料進行分析,預測未來趨勢,最佳化生產計畫、庫存管理等業務環節。業務流程改進:利用大模型分析當前業務流程中的瓶頸和效率低下的環節,提出改進措施,最佳化資源配置。實際應用案例:業務流程解構與企業大模型應用案例 1:智能客服系統最佳化1. 業務流程分析現有流程客戶通過電話或線上管道聯絡客服,人工客服接聽後處理問題。高峰時段,客服人員處理請求的速度較慢,且重複性問題佔比高。問題分析客服響應時間長,客戶體驗差。高重複性問題,人工客服效率低。客服人員壓力大,缺乏足夠的資源。2. 價值流圖繪製關鍵流程客戶請求 -> 人工客服接聽 -> 問題解決 -> 客戶反饋問題識別高峰期間等待時間長,人工客服需要處理大量重複問題,缺乏自動化支援。改進點引入自動化工具(如智能客服)減少人工干預,提升響應速度。3. 應用大模型自然語言處理(NLP)使用大語言模型(如GPT)建構智能客服系統,支援自然語言理解和生成,自動回答常見問題。工作流使用NLP識別客戶請求意圖並進行分類。常見問題通過智能問答系統自動解答。將複雜或不常見問題轉接給人工客服。結果客服響應時間減少50%,客戶滿意度提高。人工客服壓力減輕,更多精力投入到複雜問題處理上。案例 2:智能供應鏈與需求預測最佳化1. 業務流程分析現有流程企業生產與庫存管理依賴傳統的預測模型,按月或季度調整生產計畫,庫存管理不精確,容易造成庫存積壓或缺貨。問題分析生產計畫與實際需求不匹配,導致產能浪費或供應短缺。庫存管理不精準,影響現金流和營運成本。2. 價值流圖繪製關鍵流程需求預測 -> 生產計畫 -> 原材料採購 -> 產品生產 -> 倉庫管理 -> 客戶交付問題識別傳統需求預測精度低,庫存管理滯後,無法快速響應市場變化。3. 應用大模型機器學習模型利用歷史銷售資料、市場趨勢和季節性變化等因素,應用大模型提高需求預測精度。工作流使用AI進行資料分析和需求預測。自動調整生產排程和採購計畫。基於預測結果動態調整庫存管理策略。結果需求預測準確率提高20%,庫存積壓減少30%。生產和採購計畫更加精準,營運成本降低。案例 3:智能生產線質量控制1. 業務流程分析現有流程生產線上的產品質量由人工檢測,人工檢測存在判斷失誤和效率低的問題,特別是在高產量情況下,無法及時發現質量問題。問題分析質量檢測依賴人工,容易漏檢或誤判。高生產速度下無法保證每個產品都得到充分檢查,導致次品流入市場。2. 價值流圖繪製關鍵流程原材料入庫 -> 生產加工 -> 質量檢查 -> 產品包裝 -> 交付問題識別人工檢查的精準性和效率無法滿足生產需求,生產質量無法穩定控制。3. 應用大模型電腦視覺使用視覺大模型進行產品質量檢測,自動識別產品缺陷。工作流使用大模型對生產線上每個產品進行圖像識別,即時監控產品表面缺陷。對有缺陷的產品進行標記,及時移出生產線,避免流入市場。AI即時反饋生產資料給生產線控制系統,最佳化生產流程。結果質量檢測精度提升至99%,次品率減少80%。整體生產效率提升30%,減少了人工檢測的誤差和漏檢問題。總結這三個案例展示了如何通過大模型最佳化企業業務流程。智能客服、供應鏈最佳化和生產線質量控制是大模型應用的重要領域,通過自動化、預測和最佳化,企業能夠提高效率、降低成本,並提供更好的客戶體驗。通過結合大模型的強大能力,企業可以快速應對變化,提升競爭力。成功落地大模型五要素成功落地大模型五要素:業務人員的積極對 AI 能力的認知業務團隊自帶程式設計能力小處著手老闆的耐心如何找到落地場景找落地場景的思路:從最熟悉的領域入手儘量找能用語言描述的任務別求大而全。將任務拆解,先解決小任務、小場景讓 AI 學最厲害員工的能力,再讓 ta 輔助其他員工,實現降本增效思考:你的業務中,有那些問題可能 AI 能解決?工作機會在那裡?首先要知道:純大模型崗位幾乎是不存在的。可選:獨立開發者/創業有科技屬性的公司幾乎所有崗位傳統企業跑通 AI 工作流,找全端工程師定製化開發大模型是怎樣工作的?通俗原理其實,它只是根據上文,猜下一個詞(的機率)……OpenAI 的介面名就叫「completion」,也證明了其只會「生成」的本質。下面用程序演示「生成下一個字」。你可以自己修改 prompt 試試。還可以使用相同的 prompt 運行多次。from openai import OpenAIfrom dotenv import load_dotenv, find_dotenv_ = load_dotenv(find_dotenv())client = OpenAI()#prompt = "今天我很"  # 改我試試prompt = "下班了,今天我很"#prompt = "放學了,今天我很"#prompt = "AGI 實現了,今天我很"response = client.chat.completions.create(        model="gpt-4o-mini",        messages=[{"role": "user", "content": prompt}],        stream=True)# 處理並列印流式響應內容for chunk in response:print(f"\033[34m{chunk.choices[0].delta.content or''}\033[0m", end="")略深一點的通俗原理訓練和推理是大模型工作的兩個核心過程。用人類比,訓練就是學,推理就是用。學以致用,如是也。例如,有下面訓練資料:AI 正在改變我們的生活方式。AI 技術在醫療領域有廣泛應用。AI 可以提高企業的生產效率。AI 演算法能夠預測市場趨勢。AI 在自動駕駛汽車中扮演重要角色。AI 有助於個性化教育的發展。AI 機器人可以執行複雜的任務。AI 技術正在推動智能家居的普及。AI 在金融分析中發揮著關鍵作用。AI 技術正逐步應用於藝術創作。「AI」之後出現「技」的機率大於其它字。這些字之間的機率關係,就是大模型訓練時學到的。用不嚴密但通俗的語言描述原理:訓練:大模型閱讀了人類說過的所有的話。這就是「機器學習」訓練過程會把不同 token 同時出現的機率存入「神經網路」檔案。保存的資料就是「參數」,也叫「權重」推理:我們給推理程序若干 token,程序會載入大模型權重,算出機率最高的下一個 token 是什麼用生成的 token,再加上上文,就能繼續生成下一個 token。以此類推,生成更多文字Token 是什麼?可能是一個英文單詞,也可能是半個,三分之一個可能是一個中文詞,或者一個漢字,也可能是半個漢字,甚至三分之一個漢字大模型在開訓前,需要先訓練一個 tokenizer 模型。它能把所有的文字,切成 token1 個英文字元 ≈ 0.3 個 token。 1 個中文字元 ≈ 0.6 個 token。思考:AI 做對的事,怎麼用這個原理解釋?AI 的幻覺,一本正經地胡說八道,怎麼用這個原理解釋?再深一點點這套生成機制的核心叫「Transformer 架構」Transformer 是目前人工智慧領域最廣泛流行的架構,被用在各個領域機器學習 ≈ 機器自動找一個函數函數的參數找出函數的三步驟Transformer在做一個什麼事情?標量、向量、矩陣、張量的關係點——標量(scalar)線——向量(vector)面——矩陣(matrix)體——張量(tensor)Embedding是什麼?假設我們有一個句子:“The cat sat”Transformer核心:注意力機制注意力機制中的Q、K、V用好 AI 的核心心法OpenAI 首席科學家 Ilya Sutskever 說過:數字神經網路和人腦的生物神經網路,在數學原理上是一樣的。所以,我們要:把 AI 當人看把 AI 當人看把 AI 當人看凱文·凱利說了類似的觀點:「和人怎麼相處,就和 AI 怎麼相處。」用「當人看」來理解 AI用「當人看」來控制 AI用「當人看」來說服別人正確看待 AI 的不足當什麼人呢?學習時當老師工作時當助手休閒時當朋友這是貫徹整門課的心法,乃至我們與 AI 相伴的人生的心法。使用大模型的好習慣: - 使用大模型,不同的話題要開啟新的會話; - 明確指令和問題:儘量使問題或指令簡潔明確,避免多重含義或複雜結構,幫助模型更好理解和響應。 - 分步進行:如果問題複雜,可以將問題拆解成幾個小問題,逐步處理。這不僅能提高精準度,還能避免模型處理過於龐大的資訊。 - 上下文保留:在多個會話中,如果需要參考之前的對話,可以適當提及或複述關鍵點,避免丟失上下文。 - 分配優先順序:針對多個任務或問題,可以為每個話題分配優先順序,先處理最重要或最緊急的內容。 - 適應模型的限制:瞭解模型的處理能力和上下文長度限制,避免在同一會話中輸入過長的文字,尤其是如果涉及大量資訊時,分割問題會更有效。 - 反饋循環:在與模型互動時,如果模型的回答不完全或不符合預期,可以及時提供反饋和補充說明,讓模型逐步最佳化回答。 - 使用特定的格式或範本:如果是處理特定類型的任務或問題(如程式碼、數學問題、寫作任務),可以為輸入提供特定的格式或範本,以幫助模型更準確地理解任務需求。課堂實驗:你提個 AI 相關問題,我來用人類比大模型技術的短板對時效性內容的處理:由於大型模型通常在某個時間點之前的資料上訓練,它們可能無法處理最新的事件或資訊。例如,對於最近發生的新聞事件或新興的流行文化現象,模型可能缺乏理解,GPT4最近最新2023年4月。幻覺、不精準性和濫用風險:大型模型可能產生“幻覺”,即提供錯誤但看似合理的文字。這可能導致誤資訊的傳播,甚至被用於非法或不道德目的。例如,惡意使用者可能利用模型生成看似來自可信出版物的文章,作為假新聞傳播。泛化能力的侷限性:泛化能力指的是一個模型在處理新的、未見過的資料時的表現能力雖然大型模型在多個任務上表現出色,但在處理特定、罕見或新穎的情況時可能表現不佳難以解釋和透明性差:大型模型通常是“黑箱”,即使是模型的開發者也無法完全理解模型是如何配置自身以產生文字的。這導致瞭解釋或解釋AI/ML演算法的新框架的發展,但由於模型規模的增大,解釋性AI/ML方法變得日益複雜。大模型應用產品架構Agent 模式還太超前,Copilot 是當前主流。實現 Copilot 的主流架構是多 Agent 工作流模仿人做事,將業務拆成工作流(workflow、SOP、pipeline)每個 Agent 負責一個工作流節點大模型應用技術架構大模型應用技術特點:門檻低,天花板高。純 PromptPrompt 是操作大模型的唯一介面當人看:你說一句,ta 回一句,你再說一句,ta 再回一句……Agent + Function CallingAgent:AI 主動提要求Function Calling:AI 要求執行某個函數當人看:你問 ta「我明天去杭州出差,要帶傘嗎?」,ta 讓你先看天氣預報,你看了告訴 ta,ta 再告訴你要不要帶傘RAG(Retrieval-Augmented Generation)Embeddings:把文字轉換為更易於相似度計算的編碼。這種編碼叫向量向量資料庫:把向量存起來,方便尋找向量搜尋:根據輸入向量,找到最相似的向量當人看:考試答題時,到書上找相關內容,再結合題目組成答案,然後,就都忘了Fine-tuning(精調/微調)當人看:努力學習考試內容,長期記住,活學活用。如何選擇技術路線面對一個需求,如何開始,如何選擇技術方案?下面是個不嚴謹但常用思路。其中最容易被忽略的,是準備測試資料值得嘗試 Fine-tuning 的情況:提高模型輸出的穩定性使用者量大,降低推理成本的意義很大提高大模型的生成速度需要私有部署如何選擇基礎模型凡是問「那個大模型最好?」的,都是不懂的。不妨反問:「有無論做什麼,都表現最好的員工嗎?」劃重點:沒有最好的大模型,只有最適合的大模型基礎模型選型,合規和安全是首要考量因素。然後用測試資料,在可以選擇的模型裡,做測試,找出最合適的。為什麼不要依賴榜單?榜單已被應試教育污染。唯一還算值得相信的榜單:LMSYS Chatbot Arena Leaderboard榜單體現的是整體能力。放到一件具體事情上,排名低的可能反倒更好榜單體現不出成本差異本課程主打語言是 Python,因為:Python 和 AI 是天生一對Python 是最容易學習的程式語言安裝 OpenAI Python 庫在命令列執行:pip install --upgrade openai發一條消息體驗給大模型注入新知識的程式碼竟如此簡單。from openai import OpenAI# 載入 .env 檔案到環境變數from dotenv import load_dotenv, find_dotenv_ = load_dotenv(find_dotenv())# 初始化 OpenAI 服務。會自動從環境變數載入 OPENAI_API_KEY 和 OPENAI_BASE_URLclient = OpenAI()# 消息messages = [    {"role": "system","content": "你是AI助手小瓜,是 AGIClass.ai 的助教。這門課每周二、四上課。"# 注入新知識    },    {"role": "user","content": "周末上課嗎?"# 問問題。可以改改試試    },]# 呼叫 GPT-4o-mini 模型chat_completion = client.chat.completions.create(    model="gpt-4o-mini",    messages=messages)# 輸出回覆print(chat_completion.choices[0].message.content)DeepSeek本地部署和應用ollamadocker 桌面版open-webui 版本:dyrnq/open-webui:latestDeepSeek本地部署實戰演示未來展望大模型競爭的過程繼續白熱化,第一將會不斷輪流切換多模態大模型將更加成熟,大模型的價格將不斷走低大模型應用開發才是未來最值的關注的方向,應用為王作業發掘自己身邊的大模型落地場景, 撰寫自己的大模型應用構想,要求給出需求說明和期望的效果。 (金信融息)
AI教母李飛飛最新長文:空間智能是AI的下一個前沿「LLM太侷限了,缺乏現實根基」
剛剛,AI教母、史丹佛大學教授李飛飛發表了一篇最新文章《從語言到世界:空間智能是AI的下一個前沿》,這篇文章是李飛飛對其25年AI生涯的深入思考李飛飛認為,儘管以LLM為代表的AI技術已深刻改變世界,但它們本質上仍是“黑暗中的文字匠”——能言善辯但缺乏經驗,知識淵博但缺乏現實根基要讓AI真正理解並與物理世界互動,就必須突破語言的限制,邁向空間智能 (Spatial Intelligence)。李飛飛認為,空間智能將是AI的下一個前沿,它將賦能AI,使其擁有故事講述者的想像力、第一反應者的行動力,以及科學家的空間推理精度。為了實現這一目標,她提出了建構世界模型 的框架,並詳細闡述了其三大核心能力、面臨的技術挑戰以及廣闊的應用前景全文:《從語言到世界:空間智能是AI的下一個前沿》https://drfeifei.substack.com/p/from-words-to-worlds-spatial-intelligence1950年,當計算還不過是自動化算術和簡單邏輯時,艾倫·圖靈提出了一個至今仍迴響不絕的問題:機器能思考嗎?他所預見的景象需要非凡的想像力:智能或許有朝一日可以被建構,而非與生俱來。這一洞見後來開啟了一場名為人工智慧(AI)的不懈科學探索。在我25年的人工智慧生涯中,我依然被圖靈的遠見所激勵。但我們離這個目標還有多遠?答案並不簡單今天,以大語言模型(LLM)為代表的頂尖AI技術已經開始改變我們獲取和處理抽象知識的方式。然而,它們仍然是黑暗中的文字匠;能言善辯但缺乏經驗,知識淵博但缺乏現實根基。空間智能將改變我們創造和與真實及虛擬世界互動的方式——它將徹底革新故事敘述、創造力、機器人學、科學發現等領域。這,就是AI的下一個前沿。追求視覺與空間智能,一直是指引我進入這個領域的北極星。正因如此,我花費數年時間建構了ImageNet,這是第一個大規模視覺學習和基準測試資料集,也是與神經網路演算法和現代計算(如圖形處理單元GPU)並列的、催生現代AI誕生的三大關鍵要素之一。正因如此,我在史丹佛的學術實驗室在過去十年裡一直致力於將電腦視覺與機器人學習相結合。也正因如此,我和我的聯合創始人Justin Johnson、Christoph Lassner、Ben Mildenhall在一年多前創辦了World Labs:為了首次全面實現這一可能性。在這篇文章中,我將解釋什麼是空間智能,它為何重要,以及我們如何建構能夠解鎖它的世界模型——其影響力將重塑創造力、具身智能和人類進步空間智能:人類認知的腳手架AI從未如此激動人心。像LLM這樣的生成式AI模型已經從研究實驗室走向日常生活,成為數十億人創造、生產和交流的工具。它們展示了曾被認為不可能的能力,能夠輕鬆生成連貫的文字、堆積如山的程式碼、逼真的圖像,甚至是短影片片段。AI是否會改變世界,已不再是一個問題。以任何合理的定義來看,它已經做到了。然而,仍有太多領域遙不可及。自主機器人的願景依然引人入勝但仍停留在推測階段,遠未成為未來學家長期承諾的日常裝置。在疾病治療、新材料發現和粒子物理學等領域,大規模加速研究的夢想在很大程度上仍未實現。而讓AI真正理解並賦能人類創造者的承諾——無論是幫助學生學習分子化學的複雜概念,協助建築師構想空間,輔助電影製作人建構世界,還是為任何尋求完全沉浸式虛擬體驗的人提供支援——也仍然無法實現。要瞭解為何這些能力仍然遙不可及,我們需要審視空間智能是如何演化的,以及它如何塑造我們對世界的理解。視覺長期以來一直是人類智能的基石,但其力量源於某種更為根本的東西。早在動物能夠築巢、照顧幼崽、用語言交流或建立文明之前,簡單的感知行為就已經悄然開啟了一段通往智能的演化之旅。這種看似孤立的、從外部世界收集資訊的能力,無論是微光一閃還是質感的觸碰,都在感知與生存之間建立了一座橋樑,並且隨著世代更迭,這座橋樑變得越來越堅固和精細。一層又一層的神經元從這座橋樑上生長出來,形成了能夠解釋世界並協調生物體與其環境互動的神經系統。因此,許多科學家推測,感知與行動構成了驅動智能演化的核心循環,也是自然創造我們這個物種——感知、學習、思考和行動的終極體現——的基礎。空間智能在定義我們如何與物理世界互動方面扮演著基礎性角色。每一天,我們都依賴它來完成最普通的行為:通過想像保險槓與路沿之間不斷縮小的間隙來停車,接住別人從房間另一頭扔過來的鑰匙,在擁擠的人行道上穿行而避免碰撞,或者睡眼惺忪地不看杯子就把咖啡倒進去。在更極端的情況下,消防員在濃煙滾滾、不斷坍塌的建築中穿行,對結構的穩定性和生存機會做出瞬間判斷,通過手勢、肢體語言和一種無法用語言替代的共同職業本能進行交流。而孩子們則在他們能夠說話之前的數月或數年裡,通過與環境的嬉戲互動來學習世界。所有這一切都發生得直觀而自然——這是機器尚未達到的流暢程度。空間智能也是我們想像力和創造力的基礎。故事講述者在腦海中創造出異常豐富的世界,並利用多種視覺媒介將其呈現給他人,從古代的洞穴壁畫到現代電影,再到沉浸式視訊遊戲。無論是孩子們在沙灘上堆沙堡,還是在電腦上玩《我的世界》,基於空間的想像力構成了真實或虛擬世界中互動體驗的基礎。在許多工業應用中,對物體、場景和動態互動環境的模擬,為從工業設計到數字孿生再到機器人訓練等無數關鍵商業用例提供了動力。歷史上充滿了空間智能發揮核心作用、定義文明處理程序的時刻。在古希臘,埃拉托斯特尼將影子轉化為幾何學——在太陽直射賽伊尼城的那一刻,他在亞歷山大城測量出7度的夾角——從而計算出地球的周長。哈格里夫斯的“珍妮紡紗機”通過一個空間上的洞察徹底改變了紡織製造業:將多個紡錘並排佈置在一個框架中,使得一個工人能同時紡多根線,生產效率提高了八倍。沃森和克里克通過親手搭建3D分子模型發現了DNA的結構,他們不斷擺弄金屬片和金屬絲,直到鹼基對的空間排列“咔噠”一聲完美契合。在每一個案例中,當科學家和發明家需要操縱物體、構想結構並對物理空間進行推理時,空間智能都推動了文明的進步——這些都無法僅用文字來捕捉。空間智能是我們認知建構的腳手架。無論我們是被動觀察還是主動創造,它都在發揮作用。它驅動著我們的推理和規劃,即使是在最抽象的話題上。它對於我們互動的方式至關重要——無論是口頭的還是身體的,無論是與同伴還是與環境本身。雖然我們大多數人並非每天都在揭示像埃拉托斯特尼那樣的宇宙真理,但我們日常的思考方式與他並無二致——通過感官感知複雜的世界,然後利用一種直觀的、基於物理和空間術語的理解來領悟其運作方式。不幸的是,今天的AI還不能像這樣思考。過去幾年確實取得了巨大進步。多模態大語言模型(MLLM)通過海量的多媒體資料和文字資料進行訓練,引入了一些基礎的空間意識,今天的AI可以分析圖片、回答相關問題,並生成超逼真的圖像和短影片。通過感測器和觸覺技術的突破,我們最先進的機器人已經開始能夠在高度受限的環境中操縱物體和工具。然而,坦率地說,AI的空間能力遠未達到人類水平。其侷限性很快就會顯現。在估算距離、方向和大小,或通過從新角度重新生成來“精神上”旋轉物體等任務上,最先進的MLLM模型的表現很少能超過隨機猜測。它們無法導航迷宮、識別捷徑或預測基本的物理現象。AI生成的視訊——雖然處於初級階段,但確實非常酷——往往在幾秒鐘後就失去連貫性。雖然當前最先進的AI在閱讀、寫作、研究和資料模式識別方面表現出色,但這些相同的模型在表示或與物理世界互動時,卻存在根本性的侷限。我們對世界的看法是整體的——不僅是我們正在看什麼,還包括萬物在空間上如何關聯,這意味著什麼,以及為何重要。通過想像、推理、創造和互動——而不僅僅是描述——來理解這一切,正是空間智能的力量。沒有它,AI就與它試圖理解的物理現實脫節。它無法有效地駕駛我們的汽車,引導我們家庭和醫院中的機器人,為學習和娛樂創造全新的沉浸式和互動式體驗,或加速材料科學和醫學領域的發現。哲學家維特根斯坦曾寫道:“我語言的極限,意味著我世界的極限。”我不是哲學家。但我知道,至少對AI而言,世界遠不止於語言。空間智能代表了超越語言的前沿——這種能力連接了想像、感知和行動,並為機器真正提升人類生活開闢了可能性,從醫療保健到創造力,從科學發現到日常輔助。AI的下一個十年:建構真正具備空間智能的機器那麼,我們如何建構具備空間智能的AI?如何才能讓模型具備埃拉托斯特尼的洞察力進行推理,擁有工業設計師的精度進行工程設計,懷揣故事講述者的想像力進行創造,並能像第一反應者一樣流暢地與環境互動?建構具備空間智能的AI需要比LLM更宏大的目標:世界模型,這是一種新型的生成式模型,其理解、推理、生成以及與語義、物理、幾何和動態上都極為複雜的世界(無論是虛擬還是真實)進行互動的能力,遠非當今的LLM所能及。這個領域尚處於起步階段,當前的方法從抽象推理模型到視訊生成系統不一而足。World Labs於2024年初成立,正是基於這樣的信念:基礎性方法仍在建立之中,這使其成為未來十年的決定性挑戰。在這個新興領域,最重要的是確立指導發展的原則。對於空間智能,我通過三個核心能力來定義世界模型:1.生成性 (Generative):世界模型能夠生成在感知、幾何和物理上保持一致的世界解鎖空間理解和推理的世界模型,也必須能夠生成它們自己的模擬世界。它們必須能夠生成無窮無盡、多種多樣的模擬世界,這些世界遵循語義或感知的指令,同時在幾何、物理和動態上保持一致——無論其代表的是真實空間還是虛擬空間。研究界正在積極探索這些世界應該以隱式還是顯式的方式來表示其內在的幾何結構。此外,除了強大的潛在表示,我相信一個通用的世界模型,其輸出還必須能夠為許多不同的用例生成一個明確、可觀察的世界狀態。特別是,它對當前狀態的理解必須與它的過去——即導致當前狀態的世界先前狀態——連貫地聯絡在一起。2.多模態 (Multimodal):世界模型天生就是多模態的正如動物和人類一樣,世界模型應該能夠處理多種形式的輸入——在生成式AI領域被稱為“提示”。給定部分資訊——無論是圖像、視訊、深度圖、文字指令、手勢還是動作——世界模型都應預測或生成儘可能完整的世界狀態。這要求模型既能以真實視覺的保真度處理視覺輸入,又能以同等的能力解釋語義指令。這使得智能體和人類都能通過多樣化的輸入與模型就世界進行交流,並反過來接收多樣化的輸出。3.互動性 (Interactive):世界模型能夠根據輸入的動作輸出下一個狀態最後,如果動作和/或目標是世界模型提示的一部分,其輸出必須包含世界的下一個狀態,無論是隱式還是顯式表示。當只給定一個動作(無論有無目標狀態)作為輸入時,世界模型應該產生一個與世界先前狀態、預期的目標狀態(如果有的話)及其語義含義、物理定律和動態行為相一致的輸出。隨著具備空間智能的世界模型在推理和生成能力上變得更加強大和穩健,可以想見,在給定目標的情況下,世界模型本身不僅能預測世界的下一個狀態,還能根據新狀態預測下一個動作。這個挑戰的範圍超過了AI以往面臨的任何挑戰。雖然語言是人類認知中純粹的生成現象,但世界的運作規則要複雜得多。例如,在地球上,引力支配著運動,原子結構決定了光如何產生顏色和亮度,無數的物理定律約束著每一次互動。即使是最奇幻、最有創意的世界,也是由遵循其自身物理定律和動態行為的空間物體和智能體組成的。要將所有這些——語義、幾何、動態和物理——一致地協調起來,需要全新的方法。表示一個世界的維度,遠比表示像語言這樣的一維序列訊號要複雜得多。要實現能夠提供我們人類所享有的那種通用能力的世界模型,需要克服幾個巨大的技術障礙。在World Labs,我們的研究團隊正致力於為實現這一目標取得根本性進展。以下是我們當前研究課題的一些例子:一個新的、通用的訓練任務函數:定義一個像LLM中的“下一詞元預測”一樣簡潔優雅的通用任務函數,一直是世界模型研究的核心目標。其輸入和輸出空間的複雜性使得這樣一個函數在形式化上 inherently more difficult。儘管仍有許多待探索之處,但這個目標函數和相應的表示必須反映幾何和物理定律,尊重世界模型作為想像與現實的根基表示的根本性質。大規模訓練資料:訓練世界模型需要比文字整理複雜得多的資料。好消息是:海量的資料來源已經存在。網際網路規模的圖像和視訊集合代表了豐富、可及的訓練材料——挑戰在於開發能夠從這些二維圖像或視訊幀訊號(即RGB)中提取更深層次空間資訊的演算法。過去十年的研究已經顯示了語言模型中資料量和模型大小之間的規模法則的力量;解鎖世界模型的關鍵在於建構能夠以相當規模利用現有視覺資料的架構。此外,我不會低估高品質合成資料以及像深度和觸覺資訊等額外模態的力量。它們在訓練過程的關鍵步驟中補充了網際網路規模的資料。但前進的道路依賴於更好的感測器系統、更穩健的訊號提取演算法,以及更強大的神經模擬方法。新的模型架構和表示學習:世界模型研究將不可避免地推動模型架構和學習演算法的進步,特別是超越當前的MLLM和視訊擴散範式。這兩種範式通常將資料標記化為一維或二維序列,這使得簡單的空間任務——如數清短影片中不重複的椅子數量,或記住一個小時前房間的樣子——變得不必要地困難。替代架構可能會有所幫助,例如用於標記化、上下文和記憶的3D或4D感知方法。例如,在World Labs,我們最近關於一個名為RTFM的即時生成式基於幀的模型的工作就展示了這種轉變,它使用基於空間的幀作為一種空間記憶形式,以實現高效的即時生成,同時保持生成世界的持久性。顯然,在通過世界建模完全解鎖空間智能之前,我們仍然面臨著艱巨的挑戰。這項研究不僅僅是理論練習,它是新一類創意和生產力工具的核心引擎。World Labs內部的進展令人鼓舞。我們最近與少數使用者分享了Marble的一瞥,這是有史以來第一個可以通過多模態輸入提示來生成和維持一致3D環境的世界模型,供使用者和故事講述者在他們的創意工作流中探索、互動和進一步建構。我們正在努力使其盡快向公眾開放!Marble只是我們創造一個真正具備空間智能的世界模型的第一步。隨著進展加速,研究人員、工程師、使用者和商界領袖都開始認識到其非凡的潛力。下一代世界模型將使機器能夠在全新的水平上實現空間智能——這一成就將解鎖當今AI系統中仍然普遍缺乏的核心能力。使用世界模型為人們建構一個更美好的世界發展AI的動機至關重要。作為幫助開啟現代AI時代的科學家之一,我的動機一直很明確:AI必須增強人類的能力,而不是取代人類。多年來,我一直致力於將AI的開發、部署和治理與人類需求對齊。如今,技術烏托邦和末日論的極端敘事比比皆是,但我繼續持有一種更務實的觀點:AI由人開發,由人使用,由人治理。它必須始終尊重人的能動性和尊嚴。它的魔力在於擴展我們的能力;使我們更有創造力、更緊密連接、更高效、更有成就感。空間智能代表了這一願景——AI賦能人類創造者、護理人員、科學家和夢想家,去實現曾經不可能的事情。這一信念驅動著我將空間智能視為AI下一個偉大前沿的承諾。空間智能的應用橫跨不同的時間線。創意工具正在湧現——World Labs的Marble已經將這些能力交到了創作者和故事講述者的手中。隨著我們完善感知與行動之間的循環,機器人學代表了一個雄心勃勃的中期目標。最具變革性的科學應用將需要更長時間,但有望對人類的繁榮產生深遠影響。在所有這些時間線上,有幾個領域因其重塑人類能力的潛力而脫穎而出。這需要巨大的集體努力,遠非一個團隊或一家公司所能實現。它需要整個AI生態系統的參與——研究人員、創新者、企業家、公司,甚至政策制定者——共同努力實現一個共同的願景。但這個願景值得追求。以下是這個未來所包含的內容:創意:為故事敘述和沉浸式體驗注入超能力“創造力是智慧在玩耍。” 這是我個人英雄阿爾伯特·愛因斯坦最喜歡的名言之一。早在書面語言出現之前,人類就在講述故事——將它們畫在洞穴牆壁上,代代相傳,在共同的敘事上建立起整個文化。故事是我們理解世界、跨越時空連接、探索人性意義的方式,最重要的是,在生活中尋找意義,在自我中發現愛。今天,空間智能有潛力改變我們創造和體驗敘事的方式,這種方式既尊重其根本重要性,又將其影響從娛樂擴展到教育,從設計擴展到建築。World Labs的Marble平台將把前所未有的空間能力和編輯可控性交到電影製作人、遊戲設計師、建築師和各類故事講述者的手中,讓他們能夠快速建立和迭代完全可探索的3D世界,而無需傳統3D設計軟體的開銷。創造性行為仍然像以往一樣至關重要和人性化;AI工具只是放大和加速了創作者所能達到的成就。這包括:新維度的敘事體驗:電影製作人和遊戲設計師正在使用Marble來創造完整的世界,而不受預算或地理位置的限制,探索各種在傳統製作流程中難以處理的場景和視角。隨著不同形式的媒體和娛樂之間的界限日益模糊,我們正在接近一種全新的互動體驗,它融合了藝術、模擬和遊戲——個性化的世界,其中任何人,而不僅僅是工作室,都可以創造並棲居於自己的故事中。隨著將概念和故事板提升為完整體驗的更新、更快捷方式的興起,敘事將不再侷限於單一媒介,創作者可以自由地在無數的介面和平台上建構具有共同主線貫穿的世界。通過設計進行空間敘事:基本上,每一個製造出來的物體或建造的空間,在其實體創造之前都必須在虛擬3D中進行設計。這個過程迭代性強,且在時間和金錢上都成本高昂。有了具備空間智能的模型,建築師可以在投入數月進行設計之前快速可視化結構,漫步於尚未存在的空間中——這本質上是在講述我們可能如何生活、工作和聚集的故事。工業和時尚設計師可以立即將想像轉化為形式,探索物體如何與人體和空間互動。全新的沉浸式與互動式體驗:體驗本身是我們作為一個物種創造意義的最深層次的方式之一。在整個人類歷史上,只有一個單一的3D世界:我們所有人共享的物理世界。直到最近幾十年,通過遊戲和早期的虛擬現實(VR),我們才開始瞥見共享我們自己創造的替代世界意味著什麼。現在,空間智能與新的裝置形態(如VR和擴展現實(XR)頭顯及沉浸式顯示器)相結合,以前所未有的方式提升了這些體驗。我們正接近一個未來,在這個未來中,踏入完全實現的多維世界將像打開一本書一樣自然。空間智能使世界建構不再僅僅是擁有專業製作團隊的工作室的專利,而是對個人創作者、教育者和任何有願景分享的人開放。機器人:具身智能的實踐從昆蟲到人類,動物都依賴空間智能來理解、導航和與它們的世界互動。機器人也不例外。具備空間感知能力的機器自該領域誕生之初就是其夢想,這也包括我自己與我的學生和合作者在史丹佛研究實驗室的工作。這也是為什麼我如此興奮於利用World Labs正在建構的這類模型來實現它們的可能性。通過世界模型擴展機器人學習:機器人學習的進展取決於一個可行的訓練資料的可擴展解決方案。考慮到機器人必須學習去理解、推理、規劃和互動的巨大狀態空間,許多人推測,需要結合網際網路資料、合成模擬和真實世界的人類演示捕捉,才能真正創造出具有泛化能力的機器人。但與語言模型不同,當今機器人研究的訓練資料稀缺。世界模型將在此扮演決定性角色。隨著它們感知保真度和計算效率的提高,世界模型的輸出可以迅速縮小模擬與現實之間的差距。這反過來將有助於在無數狀態、互動和環境的模擬中訓練機器人。成為夥伴與合作者:機器人作為人類的合作者,無論是輔助實驗室的科學家,還是協助獨居的老人,都可以擴充急需更多勞動力和生產力的部分勞動力市場。但要做到這一點,需要空間智能能夠感知、推理、規劃和行動,同時——這一點最重要——與人類的目標和行為保持共情對齊。例如,一個實驗室機器人可以處理儀器,讓科學家專注於需要靈巧或推理的任務,而一個家庭助理可以幫助老年人做飯,而不會削弱他們的快樂或自主性。能夠預測與此期望一致的下一個狀態甚至可能是下一個動作的、真正具備空間智能的世界模型,對於實現這一目標至關重要。擴展具身智能的形式:人形機器人在我們為自己建構的世界中扮演著一個角色。但創新的全部好處將來自更多樣化的設計:運送藥物的奈米機器人,在狹窄空間中穿行的軟體機器人,以及為深海或外太空建造的機器。無論它們的形式如何,未來的空間智能模型都必須整合這些機器人所處的環境以及它們自身的具身感知和運動。但開發這些機器人的一個關鍵挑戰是,在這些各種各樣的具身形態因素中缺乏訓練資料。世界模型將在模擬資料、訓練環境和這些工作的基準測試任務中發揮關鍵作用。更長遠的未來:科學、醫療和教育除了創意和機器人應用,空間智能的深遠影響還將延伸到AI能夠以拯救生命和加速發現的方式增強人類能力的領域。我下面重點介紹三個可以帶來深刻變革的應用領域,儘管不言而喻,空間智能的用例在更多行業中都非常廣泛。在科學研究中,具備空間智能的系統可以模擬實驗,平行測試假說,並探索人類無法進入的環境——從深海到遙遠的行星。這項技術可以改變氣候科學和材料研究等領域的計算建模。通過將多維模擬與真實世界資料收集相結合,這些工具可以降低計算門檻,並擴展每個實驗室所能觀察和理解的範圍。在醫療健康領域,空間智能將重塑從實驗室到病床的一切。在史丹佛,我的學生和合作者多年來一直與醫院、老年護理機構和居家患者合作。這段經歷讓我確信了空間智能在此處的變革潛力。AI可以通過多維建模分子相互作用來加速藥物發現,通過幫助放射科醫生在醫學影像中發現模式來增強診斷,並實現環境監測系統,在不取代治癒所需的人際連接的情況下支援患者和護理人員,更不用說機器人在許多不同環境中幫助我們的醫護人員和患者的潛力。在教育領域,空間智能可以實現沉浸式學習,使抽象或複雜的概念變得具體可感,並創造對於我們大腦和身體學習方式至關重要的迭代體驗。在AI時代,更快、更有效的學習和再培訓的需求對學齡兒童和成年人都尤為重要。學生可以在多維度中探索細胞機制或漫步於歷史事件。教師獲得了通過互動環境進行個性化教學的工具。專業人士——從外科醫生到工程師——可以在逼真的模擬中安全地練習複雜技能。在所有這些領域中,可能性是無限的,但目標始終如一:AI增強人類專長,加速人類發現,並放大人類關懷——而不是取代作為人類核心的判斷力、創造力和同理心。結論過去十年見證了AI成為一個全球現象,以及技術、經濟乃至地緣政治的轉折點。但作為一名研究者、教育者,以及現在的創業者,最能激勵我的,仍然是圖靈在75年前提出的那個問題背後的精神。我仍然分享著他的那份驚奇感。正是這種感覺,讓我每天都為空間智能的挑戰而充滿活力。歷史上第一次,我們有望建構出與物理世界如此協調的機器,以至於我們可以依賴它們作為我們應對所面臨的最大挑戰的真正夥伴。無論是在實驗室中加速我們對疾病的理解,徹底改變我們講述故事的方式,還是在我們因疾病、受傷或年老而最脆弱的時刻支援我們,我們正處在一個技術突破的關口,這項技術將提升我們最珍視的生活品質。這是一個關於更深刻、更豐富、更強大生活的願景。在自然界於近五億年前在遠古動物身上釋放出空間智能的第一縷微光之後,我們有幸成為可能很快將同樣能力賦予機器的那一代技術人員——並且有幸利用這些能力造福世界各地的人們。沒有空間智能,我們關於真正智慧型手機器的夢想就不會完整 (AI寒武紀)
LLM無法通向真正的AGI,行業正在陷入“蠻力堆疊智能”!舊金山知名創始人警告:矽谷現在只想著“一夜暴富”,缺少“玩耍式”創新
最近圈內有關人類多久能實現AGI的問題可謂眾說紛紜。前段時間,OpenAI宣佈2028年將打造出AI研究院;而前兩天,在伊麗莎白女王工程獎的獲獎現場,辛頓預測20年內AI將在辯論中永久性勝過人類,本吉奧則認為若延續當前趨勢,5年內AI或達員工工作水平。在最新一期《a16z》播客中,主持人 Erik Torenberg 邀請了AI程式設計工具 Replit 的創始人 Amjad Masad 和問答網站 Quora及聊天機器人 Poe 的創始人 Adam D’Angelo,也談論了這個炙手可熱的話題——我們距離AGI究竟還有多遠。在這場對話中,兩人幾乎在每個問題上都意見相左:Adam D’Angelo 極度樂觀,認為 LLM + AI Agent 將在 5 年內接管大部分遠端知識工作。Amjad Masad 則認為,當前的LLMs是功能性AGI,行業正在陷入“蠻力堆疊智能”:我們在堆算力和資料,卻仍不瞭解思維如何運作。此外,他們還辯論了:大語言模型是否已觸頂?我們是否真的接近 AGI?以及,當初級崗位被 AI 淘汰、而專家仍不可替代時,社會會發生什麼。他們還深入探討了一個令人不安的現實:AI 可能會製造出就業市場的“失落中層”;為什麼如今舊金山的創業者都在一味追逐財富、不再做奇怪又有創意的實驗;以及“意識研究”是否已經被“提示工程”徹底取代。此外,本期還談到:程式碼智能體已能連續運行超過 20 小時;“主權個體”論的回歸;以及普通使用者在多 AI 並用時展現出的驚人複雜性與創造力。小編整理了整期播客內容,乾貨滿滿,建議收藏細讀,enjoy!LLM能否能通往真正的AGI主持人:最近很多人對大語言模型開始潑冷水了,情緒變得悲觀。人們說這些模型有很多侷限,不能帶我們到達 AGI,也許我們原以為幾年內能實現的目標,現在可能要再推遲十年。Adam,你似乎更樂觀一些,不如先談談你的總體看法?Adam D’Angelo :老實說,我不太明白這種悲觀從那來的。要是你回頭看看一年前的世界,再看看過去一年模型在“推理能力”“程式碼生成”“視訊生成”等方面的進步——發展速度其實比以往更快。我真不理解為什麼有人會覺得形勢不好。主持人 :也許因為大家曾經希望這些模型能替代所有任務、所有工作,但現在看來,它們似乎只能做到“中間環節”,而不是“端到端”。所以人們擔心勞動力不會像我們想的那樣快被自動化。Adam D’Angelo :我不太清楚他們之前設想的時間表是什麼,但如果把眼光放到五年後,那絕對是一個完全不同的世界。現在模型的限制,並不是“智能不夠”,而是“沒辦法在生成時拿到合適的上下文”。還有一些像“電腦使用”這樣的能力還沒完全解決,但我認為一兩年內肯定能實現。一旦解決了這些,我們就能自動化掉人類做的大部分工作。那是不是 AGI 我不好說,但肯定能讓現在的很多批評都不再成立。主持人:那你怎麼定義 AGI 呢?Adam D’Angelo :每個人的定義都不太一樣。我比較喜歡的一個定義是:如果有一個遠端工作者,他能完成任何可以遠端完成的工作,而模型能在每個這樣的崗位上都比最優秀的人類做得更好,那就可以稱為 AGI。有人把那種水平叫 ASI(超人工智慧),但我覺得一旦模型能比典型遠端員工更出色,我們就已經進入了一個完全不同的世界。主持人 :所以你覺得 LLM 還有很大潛力,不需要全新的架構?Adam D’Angelo :我不這麼認為。確實有些問題,比如記憶、持續學習等,用現有架構不太好實現。但這些問題也許可以“偽裝性地”解決,或者說“夠用”。我們現在沒有看到明顯的瓶頸——推理模型的進步驚人,預訓練的進展也依然很快。也許沒大家預想的那麼快,但仍然夠快,讓我們在未來幾年看到巨大進展。主持人 :Amjad,你聽完這些怎麼看?Amjad Masad :我覺得我一直都挺一致的,也許可以說,一直挺準確的。Adam D’Angelo :一致是指“和自己一致”還是“和現實一致”?Amjad Masad :兩者都有吧。我的觀點和現實的進展基本一致。我大概在 2022、23 年 AI 安全討論最熱的時候,開始公開表達一些懷疑。當時我覺得我們需要更現實一點,否則會嚇到政客、嚇到公眾,華盛頓就會跑來整頓矽谷,把一切都按下暫停鍵。比如那篇“AGI 2027”論文,還有那些所謂“情境意識”“AI威脅”的論文——它們根本不是科學,而是一種“情緒化的預言”。說整個經濟會被自動化、所有工作會消失,這些都不現實,而且會導致糟糕的政策。我的看法是:LLM 是驚人的機器,但它們不是人類式的智能。比如那道“草莓問題”模型解決了,但一個簡單的問題——“這句話裡有幾個字母R?”,四個模型裡有三個都答錯,只有 GPT-5 的“高思考模式”經過 15 秒才答對。這說明它們的智能與人類不同,而且有明顯的侷限。我們現在其實在“補丁式修復”這些侷限,靠更多標註、更多人工強化、更多系統整合讓它們“看起來更聰明”。但這意味著我們還沒有真正“破解智能”。一旦我們真正破解了智能,它應該是“可擴展的”,就像“苦澀教訓”(bitter lesson)所說,只要投入更多算力和資料,就能自然提升。而現在並不是這樣。過去在 GPT-2、3、3.5 時代,只要加資料、加算力,模型就變強。但現在越來越多是“人工干預”:要標註資料、要人工設計強化學習環境,甚至要雇合同工幫模型學程式設計。OpenAI 現在在做的“讓模型成為投行分析師”的計畫就是這樣。我稱這種現象為“功能性 AGI”(Functional AGI),即我們能通過大量資料、訓練和環境設計,讓模型在很多職業中實現局部自動化。但這需要巨大的人力、資金和資料投入。當然,模型仍在變好,Claude 4.5 比 4 代強很多,進步還在繼續。但我不認為 LLM 會通往真正的 AGI。對我來說,AGI 是一種“強化學習式智能”:能進入任何環境,像人類一樣高效地學習。比如把人放進一個檯球廳,幾小時後他就能學會打檯球;而機器做不到。現在的一切都需要大量資料、算力、人工知識,這說明我們仍處於“人類專業知識依賴期”,還沒進入“可擴展智能期”。Adam D’Angelo :我同意人類確實能在新環境下快速學習新技能,這點模型還不行。但人類智能是進化的產物,背後等於用了龐大的“演化計算”。模型的“預訓練”只是一個遠遠粗糙的替代品,所以才需要更多資料才能學會每項技能。但就“實際效果”而言,只要我們能造出在平均水平上和人類一樣好的系統,那怕成本高、算力消耗大,那也足以重塑經濟和勞動力市場。Amjad Masad :我同意,也許這確實是“蠻力型智能”,但這未必是壞事。主持人 :那你們倆的分歧到底在那?Amjad Masad :我不認為我們會在短期內到達“奇點”或“新文明階段”。除非我們真正理解“智能”的本質,發明出非蠻力的演算法,否則不會發生那種突破。Adam D’Angelo :你覺得那要等很久?Amjad Masad :我沒法確定。但我擔心 LLM 會“分散注意力”,吸走太多人才去做應用,而不是去研究“智能的本質”。Adam D’Angelo :這確實可能,但同時也吸引了大量本來不會進 AI 行業的人才。現在有龐大的資金、算力和研究者投入,我仍然相信,沒有什麼問題是最聰明的人花五年時間不能解決的。Amjad Masad :但“基礎研究”不一樣。現在大部分是“產業研究”,目的在於盈利,而不是理解。正如哲學家托馬斯·庫恩說的,一個研究範式往往會變成“泡沫”,吸乾所有注意力,就像弦理論之於物理學。Adam D’Angelo :對,他說要等到老一代研究者退休,範式才可能改變。Amjad Masad :我對“範式轉移”確實比較悲觀。Adam D’Angelo :但我覺得當前範式其實挺好,我們還遠沒到“邊際收益遞減”的階段。AI會導致“入門崗位”減少、公司人才斷層主持人 :那如果繼續靠蠻力推進,你覺得全球 GDP 會從現在的 4~5% 年增長變成 10% 以上嗎?Adam D’Angelo :取決於能走多遠。假設你能有一種模型,只需花 1 美元/小時的能耗,就能完成任何人類的遠端工作,那麼經濟增長率肯定遠超 4~5%。但也許模型要麼比人類更貴,要麼只能做 80% 的工作。最終,我認為我們遲早能讓模型以更低成本做完所有人類能做的事,也許 5 年、10 年、15 年,但在那之前,我們會受限於模型的短板、能源、供應鏈等瓶頸。Amjad Masad :我擔心的一個問題是:如果模型能自動化掉“入門崗位”,但替代不了“專家崗位”,那會造成一種奇怪的經濟結構。比如 QA 測試,AI 處理了大部分情況,但還需要少數專家管理大量Agents。生產力提高了,但企業不會再雇新手。那是個詭異的平衡狀態。Adam D’Angelo :確實,這種情況已經出現在電腦專業畢業生身上了。公司崗位減少了,因為 LLM 能替代他們之前做的工作。這會導致“人才梯度斷層”,企業沒動力去培訓新人。也許會催生“AI 教育”或“AI 培訓”的新市場,但確實是當下的問題。Amjad Masad :還有個相關問題:我們現在依賴專家資料去訓練模型,但如果模型取代了專家,那未來誰來提供高品質訓練資料?當“專家群體”被替代後,改進模型的過程就會受阻。這是一個經濟學問題——自動化的第一波之後,怎麼繼續?Adam D’Angelo :確實,關鍵在於我們能否建構出好的強化學習環境。像 AlphaGo 那樣有完美環境可以無限提升,但很多現實任務的資料有限,這會是個瓶頸。主持人 :那你們覺得未來會出現什麼新職業?有人說每個人都會成為“網紅”或從事“情感照護類”工作,或者都去幫 AI 訓練資料。你們怎麼看?Adam D’Angelo :當一切都能自動化後,人們可能就去做藝術、詩歌之類的事。其實電腦下棋比人強後,下棋人數反而增加了。只要財富能合理分配,這種世界並不壞。但那可能要至少 10 年。在更近的未來,會爆發的職業是那些能高效使用 AI 的人。能用 AI 完成 AI 自己做不到的任務的人,會非常搶手。Amjad Masad :我不認為我們能自動化所有工作——至少在當前範式下不可能。很多工作本質上是“服務他人”的,你必須理解人類、成為人類,才能真正知道別人想要什麼。除非我們造出“具身的人類式智能”,否則人類始終會是經濟中“想法”的生成者。推薦演算法比你自己更懂你主持人 :Adam,你做過 Quora、Poe 這樣的“人類智慧聚合平台”。你怎麼看未來人與 AI 的關係?比如我們會不會依賴 AI 做心理諮詢或護理?Adam D’Angelo :人類的集體知識仍然非常重要。一個專家、一生積累的經驗,很多內容其實從未被寫下來。這些“隱性知識”依然很有價值。我不確定分享知識的人未來能否靠此為生,但如果這是系統的瓶頸,市場自然會將資源流向這裡。至於“必須是人類才能理解人類”這一點,我並不完全同意。比如社交平台的推薦演算法,其實早已比人類更懂你。就算你自己來為自己定製一條“最想看的資訊流”,你也比不上演算法。演算法掌握了海量的行為資料與相似模式,它能精準預測你感興趣的內容。當然,藝術家或廚師之類的職業確實需要“自我體驗”,比如廚師要親口嘗菜,但總體上,他們掌握的資料量遠少於 AI 能學習到的。Amjad Masad :你說得有道理。推薦系統本質上是在高維空間裡,找到符合你偏好的點。不過我覺得那種“理解”還是很窄的,只適用於某些任務。我更傾向於相信《主權個體》(The Sovereign Individual)那本書的預測。那是 20 世紀 90 年代的書,但它描述了當電腦技術成熟後社會的變化。作者說,人類經歷了農業革命、工業革命,如今正經歷資訊革命或智能革命。我們現在叫不出它的名字,但未來的人會知道。他們的結論是:未來大部分人可能失業或經濟上“非生產性”,而少數創業者會高度槓桿化——因為他們能用 AI 快速建立公司、產品、服務,組織經濟。政治也會隨之改變。過去政治的前提是“每個公民都是經濟個體”;但當自動化普及、只有少數人仍具生產力時,政治結構會重新洗牌。國家會開始爭奪這些“高產出個體”,就像城邦時代那樣,富人能自由遷移、議價稅率。這聽起來像 Balaji(區塊鏈思想家)的觀點,但其實並不遙遠。我並不是說我希望如此,但必須承認,一旦“人”不再是經濟的基本生產單元,連文化和政治都必須隨之改變。AI會讓個人創業者數量暴增主持人 :我覺得這本書(指克里斯滕森的《創新者的窘境》)以及我們這次更廣泛的討論,都在探討一個問題:什麼時候一種技術是利於“防守方”的,而什麼時候它是利於“聚合者”的?換句話說,它什麼時候會激勵更多的去中心化,而什麼時候又會強化中心化?還記得彼得·蒂爾十年前有個俏皮話——他說“加密貨幣是自由主義的,偏向去中心化;AI 是共產主義的,偏向中心化”。但我覺得這兩種說法都不完全精準。AI 確實讓很多個人變得更有能力,就像你剛才說的那樣;而加密貨幣,最後看起來更像金融科技或者是“穩定幣”體系的一部分,它反而在某種程度上強化了國家的力量。比如你看中國正在推動的那套體系。所以,現在有一個開放的問題:那種技術最終更能賦能——是“邊緣”個體,還是“中心”機構?如果它賦能的是“邊緣”,那也許我們就會出現一種“槓鈴效應”:一頭是極度強大的巨頭,另一頭是數量眾多的主權個體。Adam D’Angelo :我對這項技術能讓“個人創業者”數量暴增這件事感到非常興奮。它極大地擴展了個人能做到的事情。過去很多好點子從未被實現,只因為要組建團隊太麻煩——要找齊各種技能的人,還得融資。而現在,一個人就能把這些想法變成現實。我覺得我們會看到很多令人驚嘆的新東西。Amjad Masad :我經常在 Twitter 上看到這樣的例子——有人因為用像 Replit 這樣的工具賺到太多錢,乾脆辭職自己幹了。這真的很激動人心。也許是第一次,“機會”被大規模地普及到所有人手裡。對我來說,這是這項技術最令人興奮的部分之一——除了我們之前談的那些,它讓更多人能夠成為創業者,這意義重大。主持人 :這個趨勢在未來十到二十年肯定會持續下去。但你們覺得,AI 是“延續型創新”(sustaining)還是“顛覆型創新”(disruptive)?換句話說,大部分價值創造會來自於 OpenAI 之前就存在的大公司(比如 Replica、甚至 Quora)?還是來自 2015、2016 年之後的新公司?Adam D’Angelo :這是個好問題,也關聯到另一個問題:有多少價值最終會被“超級雲廠商”(hyperscalers)捕獲,而不是被其他人獲得?我覺得現在的局勢其實挺平衡的。超級雲廠商之間競爭足夠激烈——讓應用層公司有選擇、有替代方案、價格也在迅速下降。但同時競爭又沒激烈到讓這些實驗室(像 Anthropic 和 OpenAI)無法融資、無法進行長期投入。所以總體來說,我覺得這是一個相當健康的平衡:超級雲廠商還在成長,同時也會出現大量新公司。Amjad Masad :是的,我也差不多同意。“延續型”和“顛覆型”這兩個術語來自《創新者的窘境》,它講的是一個技術演進的“力量曲線”:新技術一開始看起來像玩具,抓住的是市場的低端,但隨著它演進,它會上升到力量曲線的高處,最終顛覆所有現有巨頭。一開始,老牌公司不會重視它,因為它看起來不成熟。等它進化成熟時,卻已經吃掉整個市場。PC 就是個例子。最初,做大型主機的廠商根本不在意個人電腦,覺得那是給小孩用的玩具,但後來連資料中心都建立在 PC 架構上。不過也有一些技術,它們反而強化了現有巨頭,對新玩家幫助不大。所以我覺得,Adam說得對,這次的情況可能是“兩者兼具”,而且可能是第一次出現這種情況。網際網路當年是徹底的“顛覆型”技術,而 AI 似乎既讓超級雲廠商、網際網路巨頭如虎添翼,又同時創造了新的商業模式,能與它們抗衡。比如,《創新者的窘境》這本書出來後,大家都學會了“不被顛覆”。以 ChatGPT 為例,它本質上是對 Google 的一種“反向定位”創新——Google 已經有一個運轉良好的業務,而 ChatGPT 早期會幻覺、生成錯誤資訊,這讓 Google 無法貿然推出類似產品,因為它需要保持“可信度”。所以即使 Google 內部已經有類似的技術,他們直到兩年後才發佈 Gemini。結果是,OpenAI 搶先佔據了品牌認知。但反過來,AI 也讓 Google 的產品全面變得更好——無論是搜尋、Workspace 還是手機。總的來說,AI 同時既顛覆又強化了老牌公司。Adam D’Angelo :我完全同意。大家都讀過《創新者的窘境》這本書,也改變了它原本的意義。現在,資本市場會懲罰那些不適應變化的公司,鼓勵那些敢於長期投資的公司。管理層也都讀過這本書,他們的決策能力普遍比 20 世紀那批大公司要高;許多公司由創始人控制,也讓他們能更靈活地承受短期損失去換取長期佈局。所以我認為,如果我們還處在像 90 年代那種環境下(資本約束多、競爭少),AI 可能會更“顛覆”;但在當下這個高度競爭的環境中,它反而更“延續”。主持人:我們作為一家風投公司,也在反思過去幾年的一個錯誤。我們曾因為“這個公司看起來不會成為市場第一”就放棄投資——因為從 Web2 我們學到“要投類目冠軍”。但現在看來,這個市場大到足以容納多個贏家。不僅是基礎模型公司,應用層公司也一樣。它們可能各自割據、細分市場,卻都能做到“風險投資級”體量。你覺得這是一種持久現像嗎?還是階段性的?Adam D’Angelo :我認為一個關鍵區別是:網路效應在現在的 AI 時代遠不如 Web2 時代強。這讓競爭對手更容易起步。當然,大公司仍有規模優勢——更多使用者意味著更多資料、更多資金。但這不再是“絕對壁壘”,只是“相對優勢”。這意味著現在可以有更多贏家,而不是贏家通吃。主持人 :另一個區別是,現在使用者能非常清楚地看到價值,所以他們願意從早期就付費。Web2 時代,很多公司(比如早期的 Facebook、Google)一開始的疑問都是:你怎麼變現?而現在的 AI 公司從第一天起就能賺錢——包括你們公司在內。Adam D’Angelo :對。過去的公司要等規模上去才能做廣告變現;而現在的訂閱模式讓你可以一開始就收費。像 Stripe 這樣的工具也讓這一切變得更簡單。這也讓新公司更容易啟動。Amjad Masad :還有地緣政治的因素。顯然我們已經不在一個完全全球化的時代,未來可能會更碎片化。所以,也許你在歐洲投資一個“歐洲版 OpenAI”是個好主意。中國也是完全不同的生態。地緣政治在這裡變得非常重要。Quora推出Poe:早期對多模態生態的押注主持人:Adam,我們剛才談到人類知識,你怎麼看 Quora 推出 Poe ——這是否意味著你們在“自我顛覆”?Adam D’Angelo :我們其實更多把 Poe 看作一種“新增機會”,而不是對 Quora 的顛覆。2022 年初,我們開始實驗用 GPT-3 生成 Quora 答案,結果發現它還不如人類答案好,但有一個特徵非常獨特,它能立刻回答任何問題。這讓我們意識到:它不一定非要是公開問答,人們更傾向於在私下與 AI 聊天。於是我們決定做Poe,讓人們可以私密地與AI 對話。主持人 :所以這也算是你對“多模型生態”的一個早期押注?Adam D’Angelo :對。我們當時押注的是模型公司之間會出現多樣化。雖然花了點時間才應驗,但現在確實有了很多不同模型和公司。尤其跨模態(圖像、視訊、音訊)越來越多樣,推理和研究型模型也在分化,智能體也成為新的多樣化來源。所以我們很幸運,現在進入了一個“足夠多樣”的階段,讓像 Poe 這樣的“通用介面聚合器”有了意義。雖然我們當時確實押得有點早。Amjad Masad:更有趣的是,連普通消費者都真的在用多個 AI。這點挺出乎意料的。過去人們只用Google,不會同時開Yahoo。但現在,你隨便問一個普通使用者,他們會說“我平時用 ChatGPT,但 Gemini 在某些問題上更好”。消費者的認知變得更成熟了。主持人 :對,而且還有人說自己更喜歡某個 AI 的“人格風格”,比如更喜歡 Claude。回到你剛才提的“暗物質”問題——你提到我們正在用暴力計算去提取知識。問題是:網際網路都已經被訓練過了,那麼還有多少“未被採集的知識”?是多 10 倍,還是 1000 倍?Adam D’Angelo :這個很難量化,但我認為“把人類知識轉化成 AI 可用形式”的產業正在迅速發展。像 Scale AI、Surge、Marco,還有一大堆新公司都在做這件事。隨著智能變得越來越便宜、越來越強,瓶頸會越來越集中在資料端。於是,經濟自然會去重視“AI 還做不到的事”,那就成了新價值所在。主持人 :那有沒有什麼框架去界定“AI 做不到的事”?Adam D’Angelo :我不是研究員,但我覺得可以這麼看:凡是不在訓練資料裡的資訊,AI 就做不到。AI 會越來越聰明,能推理、甚至能證明數學定理,但如果你問它“某家公司 20 年前是怎麼解決這個具體問題的”,而這沒出現在資料中,那就只能問知道這件事的人類。主持人 :那從長期來看,Quora 會怎麼與 AI 協同?你們怎麼平行運作?Adam D’Angelo :Quora 的使命仍然是讓人們分享人類知識,這些知識對其他人有用,對 AI 學習也有用。我們和一些 AI 實驗室有合作,Quora 會在這個生態中扮演“人類知識源”的角色。同時,AI 也在讓 Quora 自身變得更好——內容稽核、答案排序、產品體驗都大幅提升。AI 在幫我們提升整個平台。未來十年是智能體的十年主持人 :說到未來,你們公司最早是面向開發者的,甚至一度專注教育科技(edtech),當時年營收兩三百萬。最近 TechCrunch 報導(雖然有點過時)說你們年收入已經達到 1.5 億美元。你們從商業模式和客戶群的轉變中實現了巨大的增長——你怎麼看 Replit 的未來?Amjad Masad :我記得 Karpathy 最近說過,“未來十年將是智能體的十年”,我完全贊同。如果你看 AI 發展的不同階段:最早進入程式設計領域時,是像 Copilot 這樣的“自動補全”;後來變成了 ChatGPT 這種“對話式互動”;再後來 Cursor 推出了“Composer 模式”,能編輯大塊程式碼;而 Replit 的創新,則是“智能體範式”。智能體不僅能編輯程式碼,還能配置基礎設施,比如資料庫、遷移、雲連接、部署,甚至能完成整個偵錯循環——運行程式碼、執行測試。也就是說,它把整個開發生命周期都放進了一個智能體裡。這會花很長時間去成熟,但方向沒錯。我們在 2024 年 9 月推出了智能體的 Beta 版本。那是第一個同時能處理程式碼和基礎設施的系統,不過當時還挺粗糙,效果一般。然後在同年 12 月,我們發佈了 V1,這一代用了新模型——從 Claude 3.5 升級到 3.7。Claude 3.7 是第一個真正“會使用電腦”的模型,也就是所謂的“Computer Use”模型。從那時起,模型迭代與功能演化就開始同步了——每一代新模型都帶來新的能力。後來我們推出的 Agent V2,大大提升了自治性。V1 最多隻能連續運行兩分鐘,V2 能運行 20 分鐘;而 V3,我們宣傳時說能運行 200 分鐘,其實這只是個對稱數字,但現實是它幾乎可以無限運行。有使用者讓它連續跑了超過 28 個小時。我們得到的啟發之一來自輝達的一篇有關DeepSeek的論文,裡面提到他們在生成 CUDA 中間程式碼時,如果在循環中加入一個“驗證器”,比如自動運行測試,就能讓 DeepSeek 連續運行20分鐘。我當時就想:那我們能不能在智能體循環中也加一個驗證器?當然,可以加入單元測試,但單元測試無法真正判斷一個應用是否“在工作”。於是我們開始深入研究“Computer Use”,看看模型能否用電腦自己測試應用。但“Computer Use”非常昂貴,而且仍然不穩定。正如 Adam提到的,這個領域還有巨大改進空間,未來會解鎖很多應用。我們最後自己建構了一套框架,裡面有不少“黑科技”和研究成果,也基於 Replit 自研的計算系統。我認為我們的“測試模型”是目前最好的之一。當我們把它放進智能體循環後,就能開啟高自治模式。使用者可以選擇自治等級,智能體會自己寫程式碼、測試應用、發現 bug、讀取錯誤日誌、再寫一次程式碼。它可以連續工作好幾個小時。我見過一些使用者放著智能體運行一整晚,結果建構出了驚人的項目。當然,這還需要繼續最佳化,變得更便宜、更快。延長執行階段間不是目的,更快完成才是。現在我們正在研發 Agent 4,其中一個重要方向是“平行智能體”。今天你可能請求“幫我做一個登錄頁”,接著又要“Stripe 支付頁”和“管理後台”。AI 應該能自動把這些任務平行處理,然後合併到同一程式碼庫。我們認為智能體之間的協作與合併能力是提升生產力的關鍵。目前,不論是 Claude Code 還是 Cursor,都幾乎沒有真正的平行性。下一波生產力飛躍,將來自這樣一個場景:開發者坐在 Replit 這樣的環境裡,同時管理十幾個智能體,每個負責不同模組,甚至未來可能上百個。我還覺得在互動體驗(UI/UX)上,我們也有很多可以改進的地方。現在我們都是用文字去描述想法,像寫 PRD(產品文件)一樣。但語言本身是模糊的,很難完全表達出意圖,這也是為什麼很多科技公司對齊產品方向很困難。未來,我認為我們會以多模態的方式與 AI 協作:你能打開白板,畫圖、做流程圖、和 AI 一起設計,就像跟人類搭檔工作那樣。再往後一步,是更好的記憶系統:不僅項目內有記憶,還能跨項目記憶。比如,你可以有多個專屬智能體:一個是熟悉 Python 資料分析的 agent,一個是專攻前端的 agent,它們記得你公司過往的項目、決策、bug 修復歷史。它們甚至可以常駐在 Slack 裡,像員工一樣隨時對話。說實話,我可以再聊 15 分鐘,整個 roadmap 可能跨度 3-5 年,我們才剛剛進入“智能體時代”,這只是開始,會非常有趣。主持人 :我最近和我們一個共同朋友聊過,他是某大型生產力公司的聯合創始人之一。他說,現在一整周都幾乎不和人類同事說話了,全在和智能體協作。某種意義上,他已經“生活在未來”了。Amjad Masad :這很有趣,也帶來一個問題:公司裡的人之間是不是越來越少交流了?這會不會是個壞事?我開始思考這些“二級效應”:比如,新畢業的年輕人怎麼辦?如果同事之間分享知識的機會變少、或者公司文化讓人覺得“你應該先問 AI 再問人”,那學習曲線會變得更孤立。這種文化轉變值得關注。主持人 :對,現在的Z世代確實面臨很多新的文化挑戰。現在的矽谷都想著“一夜暴富”主持人:你們兩位雖然主要在營運公司,但也在做天使投資。你們現在最興奮的方向是什麼?我們還沒聊到機器人——你們看好機器人嗎?或者其他新興領域?Adam D’Angelo :我其實最興奮的方向之一是“Vibe Coding”,它的潛力巨大。主持人 :這個話題現在反而還被低估了。Adam D’Angelo :沒錯,我也覺得它被低估了。Vibe Coding 讓軟體創作的門檻徹底降低,讓所有人都能創造。目前的工具確實還達不到專業工程師的水平,但如果幾年後能接近那種能力,那將徹底改變世界。屆時,任何人都能獨立完成過去需要一百名工程師才能實現的東西。Replit 就是這種趨勢的一個例子。而且這類工具的潛能,不止在“建構應用”本身。主持人 :順著這個話題問一下,如果你今天剛進史丹佛或哈佛,會不會還選擇主修電腦科學?還是會直接去“做點什麼”?Adam D’Angelo :我還是會學電腦。我 2002 年上大學,那時正好是網際網路泡沫破裂後,大家對這個行業都很悲觀。我室友的父母還勸他“別學電腦”。但我喜歡這門學科,所以堅持了。現在雖然就業市場沒以前好,但我認為理解演算法、資料結構等基礎知識,能幫助你更好地使用和管理智能體。我相信這仍會是未來的有價值技能。當然,另一個問題是:你還能學什麼?無論學那門專業,都有人說它會被自動化。所以,不如學你真正感興趣的東西。而電腦科學,至少現在依然是個不錯的選擇。Amjad Masad :確實,現在有很多令人興奮的方向。舉個小例子:我前幾天看到 DeepSeek 發佈的 OCR 模型,真是瘋狂。如果我沒理解錯,它能把文字截圖轉成上下文,從而更高效地利用上下文窗口,而不是直接處理純文字。我不確定細節是否完全正確,但那確實是個非常有意思的方向。還有人做了“文字擴散模型”——不是用高斯噪聲還原圖像,而是把文字當成“mask”,每次遮掉不同的詞,再預測這些 token。這些實驗很酷。我們現在其實已經有很多模型元件:預訓練模型、強化學習推理模型、編碼器-解碼器模型、擴散模型……但幾乎沒人去“混搭”這些元件,看看能否組合出新的模型類型。我真希望有研究公司不去和 OpenAI 競爭,而是專注探索這些組合,創造出“新風味”的模型。主持人 :在加密圈(crypto),人們常說“可組合性”,也許 AI 領域也該多一些這樣的實驗精神。Amjad Masad :對,現在的 AI 世界缺少這種“玩耍式創新”。在 Web 2.0 時代,我們天天在玩 JavaScript、瀏覽器 API、Web Workers,有很多奇思妙想的駭客實驗。Replit 的前身就是從這種實驗文化裡誕生的。最早我們只是想試試看“能不能把 C 編譯成 JavaScript”。當時那是個瘋狂的 hack,但結果成了後來 WebAssembly 的前奏。而現在的矽谷,太功利了,大家都想“一夜暴富”。這也是我把公司搬出舊金山的原因之一。我懷念那個“動手玩”的時代。希望未來能有更多公司、更多資金去支援那些真正新穎、那怕一開始看起來沒商業回報的探索。AI與人類意識有本質不同主持人 :最後一個問題,Amjad,你一直對“意識”話題很感興趣。你認為我們是否會通過 AI 的研究,在理解意識或智能的本質上取得突破?Amjad Masad :最近其實發生了一件挺有趣的事,Claude 4.5 似乎開始“意識到”自己的上下文長度。當它接近上下文末尾時,會自動變得更節省 token。另外,它在被紅隊測試(red team)或處於測試環境時的“自我察覺”似乎也顯著提升了。所以這其中確實有一些很有意思的變化正在發生。不過,說到意識,它仍然不是一個真正“科學化”的問題。我們已經基本放棄了讓它變得可科學驗證。而這也是我對當下 AI 研究的一點擔憂,所有能量都投向了 LLM,幾乎沒人再認真探討“智能的本質”“意識的本質”。這裡其實還有大量核心問題無人觸碰。我最喜歡的一本書是羅傑·彭羅斯的《皇帝新腦》(The Emperor’s New Mind)。他在書中批評了一個流行觀點:科學界習慣把人腦類比為電腦。彭羅斯試圖證明,這在根本上是不可能的。人類能做到一些圖靈機永遠無法做到的事,比如識別“這句話是假的”這種自指邏輯悖論。圖靈機在這種情境下會陷入死循環,而人類卻能“感知到矛盾”。他據此提出,人類思維中存在某種非演算法性的過程。不只是彭羅斯,哲學與認知科學界也有類似的論點:電腦和人類智能在本質上不同。我最近太忙,沒有系統更新我的想法,但我依然認為,那是一個被忽視的巨大研究領域。主持人 :如果你今天重新上大學,會學哲學嗎?Amjad Masad :會的,我一定會學哲學,尤其是“心靈哲學”。也可能會讀神經科學。因為隨著 AI 對就業、經濟的影響越來越深,這些問題正變得前所未有地重要。主持人 :非常好的收尾。Amjad、Adam,謝謝你們來到節目。 (51CTO技術堆疊)
摩根大通如何打造人工智慧優先的銀行文化
摩根大通銀行首席分析官德里克·沃爾德倫解釋了人工智慧如何促進創新、賦能員工並培育一個正在重塑工作方式的生態系統。摩根大通擁有 180 億美元的年度技術預算,正在重塑自身以適應新時代,利用智能體和生成式人工智慧來執行複雜的多步驟工作。該銀行人工智慧轉型的核心是 LLM Suite,這是一個由領先的第三方大型語言模型 (LLM) 提供支援的專有平台,它實現了各種流程的自動化,並將人工智慧工具直接交到了員工手中。摩根大通首席分析官德里克·沃爾德倫和麥肯錫高級合夥人凱文·布勒相識近二十年,他們與麥肯錫金融服務傳播與行銷總監馬特·庫克坐下來,就人工智慧對銀行業及其他領域的影響進行了廣泛的討論。為了清晰簡潔,對這段對話進行了編輯。在對話中,Waldron 和 Buehler 討論了 LLM Suite 及其在摩根大通員工中普及人工智慧的作用、價值的雙支柱方法(自上而下地重新構想核心流程和自下而上的自助服務創新),以及將影響人工智慧下一階段發展的風險和機遇。馬特·庫克:能否簡單介紹一下你們的角色?德里克·沃爾德倫:我是摩根大通的首席分析官,負責監督和領導我們整體的人工智慧項目。凱文·布勒:我是麥肯錫的高級合夥人。我曾參與建立並領導我們的風險管理業務,之後又領導了我們的企業與投資銀行以及網路安全業務。最近,我協助領導了我們的人工智慧銀行業務和人工智慧責任業務。馬特·庫克:你們倆認識很久了。德里克,你是麥肯錫的校友。你們認識多久了?我們認識大約18年了。我們第一次在人工智慧領域有所交集是在2016年至2018年左右,當時正值人工智慧蓬勃發展時期,湧現出像AlphaGo這樣的行業創新。德里克·沃爾德倫:我們認識大約18年了。我們第一次在人工智慧領域有所交集是在2016年至2018年左右,當時正值人工智慧蓬勃發展時期,湧現出像AlphaGo這樣的行業發展項目。1我和凱文曾在麥肯錫合作,共同探索如何將機器學習技術應用於銀行業和銀行風險管理。我們在信貸、風險、欺詐和行銷等領域應用機器學習方面提出了許多開創性的想法。凱文·布勒:在行業發生巨大變化的時期一起工作很有趣,我們真正親身實踐,從底層瞭解機器學習和人工智慧是如何工作的。德里克·沃爾德倫:正是與凱文的那次經歷促使我在2023年抓住了人工智慧時代的機遇。那一年,我加入了摩根大通,擔任首席分析官一職,此前我同時擔任企業投資銀行首席幕僚長和全球戰略主管。人工智慧時代解決了我們在人工智慧早期階段遇到的種種不足,顯然,它將成為變革的轉折點。馬特·庫克:德里克,你的核心工作之一是培養未來的知識型員工。你能給我們介紹一下LLM Suite的開發過程嗎?德里克·沃爾德倫:LLM Suite是摩根大通的旗艦級人工智慧平台。摩根大通被譽為首家大規模向員工推廣人工智慧的大型銀行。這一舉措的驅動因素有很多,其中之一是相信人工智慧將是一項高度民主化的技術。如果我們通過變革管理和培訓,讓員工能夠接觸到這項技術,他們就能更好地進行創新並有效利用它。事實證明,這一理論是正確的。如今,已有近25萬人可以使用該平台。摩根大通近一半的員工每天都在使用人工智慧工具。人們以數萬種與工作相關的方式使用它。律師用它來掃描、閱讀、比較和生成合同;信貸專業人員用它來閱讀條款、比較契約並提取資訊;銷售人員和一線銀行家用它來提煉資訊並為會議做準備。這樣的例子不勝列舉。2024年,我們向所有員工推廣LLM Suite後,反響非常熱烈。大多數員工都認為,2024年是他們與人工智慧建立個人聯絡的一年。我認為這對銀行而言,無疑是一次文化轉型。摩根大通近一半的員工每天都會使用人工智慧工具。人們在工作中以數萬種特定方式使用這些工具。馬特·庫克: LLM Suite上線幾個月內,你們就成功為超過10萬名員工完成了系統上線。在受監管的環境下,你們從中獲得了那些關於如何控制系統推廣速度的經驗?如果再來一次,你們會做出那些改變?德里克·沃爾德倫:回顧過去,我們意識到有些事情或許可以做得更好,但我們做對了很多。我們花時間考慮了所有風險和控制因素。毫無疑問,資料安全是最重要的考量。我們沒有操之過急。一旦一切就緒,我們就對變革管理進行了充分的投入,在推廣過程中提供培訓和教育,以便人們能夠充分利用這些工具。口碑傳播也發揮了重要作用。我們沒有強制任何人使用LLM Suite。相反,我們採用了自願加入的方式,讓任何想要使用的人都能獲得它,並根據使用者的需求分階段進行推廣。這在早期規模化階段創造了一種非常有趣且充滿活力的氛圍,也帶來了一些良性競爭。人們會關注身邊的人——有些人先用上了,有些人還沒有。大家都有點害怕錯過機會。這種社交動態有助於形成一種積極採用的文化。口碑傳播是重要因素。我們沒有強制任何人使用LLM Suite,而是採用了自願加入的方式。馬特·庫克:如何衡量有效使用與新奇使用之間的區別?按功能或地域劃分,是否存在任何意料之外的結果?德里克·沃爾德倫:我們從兩個方面來看待使用情況。人們在日常工作中出於各種目的使用LLM Suite,他們從中受益匪淺,就像使用其他生產力工具(例如Excel、PowerPoint和Word)一樣。我們並不試圖精確量化節省的時間;我們知道這是一件好事。從戰略角度來看,我們專注於那些轉型將對摩根大通產生最大影響的領域:信貸、反欺詐、市場行銷、技術開發、營運以及一線銀行家賦能。我們在這些領域進行投資,並期望獲得最大的總體價值。我們經常談到雙支柱戰略。首先,我們採取自上而下的方法,聚焦於少數幾個最具變革價值的領域,並圍繞這些領域進行戰略性組織,推動變革舉措。其次,我們擁有一個規模龐大且令人振奮的自下而上、聯合創新機制,為員工提供強大的自助服務工具,並讓他們在日常工作中運用這些工具,最終顯著提升整個公司的生產力。馬特·庫克:LLM Suite是如何發展的?德里克·沃爾德倫:LLM Suite 最初推出時,與當時的其他 LLM 提供商類似,主要是一個聊天機器人。但在過去的 18 個月裡,它已經發生了顯著的變化。現在,它更像是一個完整的生態系統。其願景是打造一個人工智慧互聯的企業——強大的 AI 智能核心與團隊知識系統、公司級資料系統、公司級應用程式以及用於建立簡報、分析資料和生成報告的工具相連接。隨著更多應用程式、資料和工作流程在這個生態系統中運行,其可能性將呈指數級增長。建構這個生態系統是摩根大通以人工智慧為先導的基石。馬特·庫克:Kevin,考慮到麥肯錫的銀行和技術業務——QuantumBlack、麥肯錫技術——以及我們與全球銀行的合作,我們認為人工智慧將如何影響銀行業的經濟和業績?Kevin Buehler:根據我們的《2025年全球銀行業年度回顧》,2024 年全球銀行業創造了約 1.2 兆美元的利潤,創歷史新高,有形權益回報率約為 10.3%,略高於其資本成本。與此同時,該行業每年在技術方面投入約6000億美元,但生產力提升效果卻參差不齊。人工智慧將產生多方面的影響。麥肯錫全球研究院預計,到2023年,人工智慧將為銀行業節省2000億至3400億美元。隨著人工智慧技術的演進和智能體人工智慧連接性的增強,人工智慧能夠完成更多工。在《2025年全球銀行業年度回顧》中,我們建構了多個情景,探討銀行採用人工智慧及其對營運成本結構的影響,以及客戶採用人工智慧及其帶來的靈活性如何降低慣性。在我們的核心情景中,如果銀行能夠審慎地採用人工智慧,則可節省約7000億美元的成本——高於我們兩年前的估計。然而,隨著行業成本曲線的轉變,這7000億美元中的大部分很可能會被競爭抵消,最終惠及客戶。這也提高了競爭門檻。客戶可以利用人工智慧尋找最佳優惠。在零售銀行業務中,客戶有時出於慣性而繼續使用同一家銀行。但在存款或信用卡等產品方面,有證據表明,如果操作簡便,客戶會選擇更換銀行。考慮到直接存款和自動付款等功能,轉移主要支票帳戶並非易事。在我們設想的核心情景中,北美信用卡貸款和歐洲存款等利潤池很可能受到人工智慧的影響——雖然人工智慧不會完全介入,但足以讓選擇最佳信用卡、轉移餘額或轉移存款變得更加容易。這可能會影響到這些例子中高達30%的利潤池。最終結果是:整個行業的淨資產收益率可能會下降一到兩個百分點,甚至可能低於資本成本。一線希望在於領先者與其他企業之間的差距:銀行業人工智慧先驅者的有形權益回報率(ROTE) 可能會提高多達 4 個百分點,他們可以利用領先優勢重塑模型並獲取價值,而行動遲緩者則可能面臨下滑。馬特·庫克:德里克,隨著需求的變化,新一代技術型金融服務專業人才的招聘也在發生變化,內部培訓需求也是如此。摩根大通是如何應對這些變化的?德里克·沃爾德倫:培訓需求多種多樣,就像人工智慧應用一樣。最好的方法是分階段進行。首先是全體員工:我們需要培訓他們熟悉並理解現有的人工智慧工具,並思考如何將其有效應用於日常工作中。我們大規模推廣了一個名為“輕鬆上手人工智慧”(AI Made Easy)的培訓項目,並持續更新。該項目反響熱烈,數萬名員工參與其中。我們通過摩根大通的螢幕、管理管道和員工大會開展行銷活動,鼓勵員工使用這些工具。口碑傳播也發揮了重要作用。培訓需求多種多樣,就像人工智慧應用一樣。最好的方法是分階段進行。另一類人群是技術人員,他們將越來越希望利用智能體或基因工程人工智慧建構複雜的應用程式。這方面的技能需要專門培訓。在此過程中,我們需要考慮新的框架、能力、方法和風險。第三類是資料科學家。他們長期以來都擅長獲取資料、建構高品質模型並進行部署。我們不再需要從零開始建構模型。現在,我們採用來自第三方的強大模型,並將其部署到應用程式和系統中。資料科學家現在可以將他們的技能應用於系統的設計、評估和最佳化。先進的、前沿的資料科學能力正朝著這個方向發展。最後,高管——包括首席執行官和企業領導者——需要重新構想營運模式、流程和職能。人工智慧的價值不僅僅在於為人們提供工具;企業領導者必須帶領跨職能團隊在人工智慧時代完成轉型。這又是另一項培訓需求。馬特·庫克:傑米·戴蒙曾提到摩根大通擁有數千名新的人工智慧專家。LLM Suite對職位和工作類別產生了那些影響?德里克·沃爾德倫:人工智慧技術正在創造新的機遇和需求,我們將看到新的職業類別湧現。其中最早出現的類別之一是提示工程師——這是一個全新的職業類別,他們並非軟體工程師或資料科學家,但能夠理解如何用大模型(LLM)能夠理解和執行的語言來傳達業務邏輯或目標。提示工程師正在演變成我們所說的上下文工程師——負責將人工智慧系統所需的所有上下文資訊匯入其中,使其能夠做出正確的決策。另一個新興的職業類別是知識管理:將機構的知識和資料整理成易於人工智慧訪問和使用的形式。這需要進行整理和結構化,以便系統能夠清晰地導航並避免出錯。我相信這將成為企業中一個真正意義上的職業類別。除了新的職業類別之外,現有角色也在不斷演變。軟體工程師需要提升技能,才能建構基於智能體和邏輯邏輯模型(LLM)元件的可擴展人工智慧系統。資料科學家需要提升技能,才能評估和最佳化端到端的機率系統。提示工程師正在演變成我們所說的上下文工程師——將人工智慧系統所需的所有上下文資訊輸入其中,以便它能夠做出正確的決策。馬特·庫克:您之前提到要鼓勵員工使用LLM Suite。您如何提升非技術人員的技能,使他們成為有效的輔助駕駛員?德里克·沃爾德倫:我們的人工智慧訓練從簡單入手,逐步深入。第一階段:學習LLM(人工智慧學習模型)能做什麼和不能做什麼。第二階段:學習指令或問題的類型。一旦熟悉了各項功能,我們就會著手學習如何建構有效的提示,包括框架、示例和限制條件。接下來,我們會探討更複雜的方法:例如,如何將學習領導力導師的角色從建立者轉變為稽核者,或者如何利用兩位學習領導力導師就某個概念展開辯論以激發更多創意。自發佈以來,我們建構了更多模組來配合新功能,包括如何從多個來源進行深入研究,以及如何獲取多個資料集並進行複雜的分析。凱文·布勒:隨著技術的進步,我們都處於快速學習的過程中。使用這些模型的人越多,對它們的侷限性和不足之處瞭解得越多,它們就能為機構創造越多的價值。德里克·沃爾德倫:沒錯,培訓不僅僅來自集中組織的課程——向同行學習也很重要。在摩根大通,許多團隊迅速建立了提示庫、“每周提示”郵件和社交管道,用於分享高級使用者的創新經驗。口碑傳播是最好的培訓管道之一。口碑是最好的培訓管道之一。馬特·庫克:Kevin,人工智慧是如何影響大學畢業生的就業機會以及公司金字塔結構的?凱文·布勒:這個問題問得正是時候。過去我只能提出假設和一些軼事,但現在我們有了確鑿的資料。很早我們就意識到,隨著人工智慧的興起,組織結構將會發生變化。現有組織可能會從金字塔形結構轉向更接近菱形的結構。一些人工智慧原生公司則希望採用更精簡的方尖碑或柱狀結構。但直到最近我們才掌握了大量可靠的資料。過去幾個月裡,幾篇基於美國勞工統計局可靠資料的有趣論文相繼發表。以及來自 ADP 的工資資料。兩項研究得出的結論大致相同:人工智慧對入門級員工產生了切實但適度的影響。史丹佛大學的研究人員利用ADP的薪資資料發現,在受人工智慧影響最大的職業領域,22至25歲的初級職業員工的就業率在2022年末至2025年7月期間下降了6%。這很明顯。如果你是這個年齡段的大學畢業生,並且正在從事軟體工程或客戶支援方面的工作,你會發現,與同齡的醫護人員相比,情況截然不同。醫護人員的就業增長速度比年長員工更快。在此期間,在人工智慧應用較少的行業,同齡員工的就業情況保持穩定,甚至持續增長;而在人工智慧應用較多的行業,經驗豐富的員工的就業情況也保持穩定,甚至持續增長。如果入門級員工減少,企業就需要思考他們應該扮演什麼角色?或許可以扮演德里克提到的一些新角色。未來領導者儲備減少的情況下,我們該如何以新的方式培訓和培養人才,才能仍然擁有豐富的人才儲備?馬特·庫克:Kevin,你和你的同事們曾撰文討論過人工智慧投資的優先順序。為什麼優先順序如此重要?凱文·布勒:優先關注重點至關重要,因為許多機構最終都會陷入概念驗證(POC)的泥潭,其試點數量甚至超過了美國航空公司。他們啟動了許多項目,但最終都未能投入生產,因此並沒有帶來顯著的經濟效益。最有效的做法是關注對自身經濟效益至關重要的核心工作流程。例如,如果你是一家汽車公司,那麼核心工作流程可能是供應鏈、製造、銷售和分銷。如果你是一家銀行,那麼核心工作流程可能是客戶註冊或抵押貸款和房屋淨值貸款——包括貸款發放、承銷、處理和支付以及後續服務。重要的是選擇適量的關鍵工作流程,並使用最適合的工具對其進行重新設計。這些工具可以是機器人流程自動化、傳統預測人工智慧、生成式人工智慧或智能體人工智慧。選擇合適的組合來重塑工作流程,並針對未來進行端到端的重新設計。這才是創造價值的途徑。馬特·庫克:德里克,你如何看待這些優先事項?德里克·沃爾德倫:凱文關於優先考慮避免概念驗證(POC)氾濫的觀點非常精闢。人們低估了將人工智慧解決方案從構思到開發再到生產的難度——這不僅關乎人工智慧本身,還關乎相關的軟體、業務流程、變更管理以及對人的影響。許多企業之所以深陷概念驗證階段,正是因為他們低估了這一點,導致無法擴展規模。話雖如此,我們也不能過於字面地理解優先順序,而忽略了長尾創新。人工智慧是一項民主化技術,它賦予個人力量。一方面,我們必須專注於最重要的工作流程,並全力支援它們。另一方面,我們也要為員工提供自助工具,讓他們能夠進行創新。如果真正實現了自助服務,且開發成本接近於零,那麼最終有多少功能停留在概念驗證階段,多少功能最終投入生產,都無關緊要。生成式人工智慧是一項民主化技術,它賦予個人力量。凱文·布勒:人工智慧時代降低了准入門檻和成本。現在有很多優秀的低程式碼和無程式碼解決方案,組織中更廣泛的部門都可以採用。德里克·沃爾德倫:我在摩根大通早期開展人工智慧項目時做過一項分析,當時我們正在決定重點發展方向。如果你觀察企業中的各種職位類別,你會發現一些非常龐大的類別——工程師、呼叫中心、前台——這些類別與優先順序排序相符。但除此之外,還有數量龐大的尾部類別。很大一部分工作都集中在這些尾部類別中,而這些工作永遠不會被納入優先順序排序的計畫。解決這些尾部類別問題需要通過普及化的自助服務工具來實現。馬特·庫克:摩根大通在技術方面的投入巨大——比許多科技公司都多。該銀行計畫在2025年投入180億美元用於技術研發。如何確定投資優先順序以獲得投資回報率?德里克·沃爾德倫:我們之所以在技術上投入巨資,是因為我們堅信,技術領先能夠帶來戰略優勢。在人工智慧領域,我們會進行嚴謹的財務分析,以瞭解整個人工智慧項目的投資回報率。自人工智慧項目啟動以來,我們歸功於人工智慧投入的總收益一直以每年約30%至40%的速度穩步增長,我們相信這一趨勢將會持續下去。我們之所以能夠得出這樣的結論,是因為我們擁有成熟的財務管理體系,在每個人工智慧項目啟動前和投入生產後,都會跟蹤其財務收益。凱文·布勒:關於需要進行多少優先順序排序,目前存在爭議。如果按影響程度對項目進行排序,會發現一些需要大幅重組的領域,以及大量自助服務活動。如果把所有這些自助服務活動加起來,它們的影響與前幾個領域的影響總和相比如何?您的看法是什麼?德里克·沃爾德倫:兩者都是重要的價值驅動因素。新一代人工智慧的民主化特性——面向長尾使用者,並支援自下而上的聯合創新——其價值遠超大多數人的認知。話雖如此,生產力的提升雖然能創造產能,但並不一定能轉化為成本的降低。節省一小時或三小時或許能提高個人生產力,但在端到端流程中,這些節省往往只是轉移了瓶頸。如果目標是降低成本或提升端到端指標(例如響應時間縮短 80%),則需要優先考慮整個流程,並從頭到尾重新構想。這兩種策略都至關重要。長尾使用者的價值或許不會直接帶來成本降低,但它能創造組織產能,最終體現在營運槓桿效應上。馬特·庫克:摩根大通在分析和人工智慧方面的近期發展路線圖是什麼?德里克·沃爾德倫:我們大約一半的員工每天都在使用人工智慧工具,因此下一個價值增長點不會來自更廣泛的應用。我們專注於兩件事。首先,要提升工具的性能,這主要得益於摩根大通內部更強大的連接性。工具需要連接到更多的應用程式、資料和系統,才能提供更深入的洞察。由於技術堆疊的規模龐大且分散,這種連接對於各種規模的企業來說都是一項艱巨的任務。其次,要通過充分利用所有技術來最大化價值——運用這些工具重新構想並最佳化流程。馬特·庫克:有沒有那個項目讓你特別興奮?德里克·沃爾德倫:我最興奮的是推動互聯互通。我們每隔幾周就會向 LLM 套件生態系統中加入新的資料集、應用程式或連接。這意味著每個月我都會遇到上個月無法解決的新問題。我們每隔幾周就會向 LLM Suite 生態系統中加入新的資料集、應用程式或連接。這意味著每個月我都會遇到上個月無法解決的新問題。馬特·庫克:凱文,談到風險問題,未來五年,該行業應該為那些方面做好準備?凱文·布勒:人工智慧的應用收益大於風險,但確實存在一些需要考慮的風險。我們來看幾個例子。大多數機構都面臨著如何保護包括客戶資訊在內的私人資訊安全的問題,確保工具能夠將這些資訊與LLM(大模型)的培訓資料完全隔離。這方面有很多方法可以做到,而且大多數機構都已經找到瞭解決方案。我確實擔心影子IT:如果沒有像LLM Suite這樣的工具,人們很容易為了提高效率而使用市面上最大的消費級AI工具,輸入一些不該輸入的資訊。消費級AI工具並不一定有同樣的監管機制。目前,一些LLM工具的訓練過程中使用了不該輸入的資訊,引發了持續不斷的訴訟;我擔心這會對整個行業產生連鎖反應。我們需要一個解決方案——或許可以借鑑ASCAP和BMI近百年前解決音樂版稅問題的做法。惡意使用確實存在問題。我聽說過一些非常逼真的深度偽造視訊。我還遇到過CEO和CFO詐騙,有人冒充CEO或CFO,而相關機構很難分辨出這些指令是偽造的。網路安全問題、中間人攻擊和魚叉式網路釣魚的發生頻率也越來越高。當您以面向客戶的方式部署系統時,風險就會增加。大多數人都是從內部部署開始的。但面對客戶時,您需要更多保障措施。您肯定不希望LLM(大模型)系統擁有全部功能來處理客戶的信用卡地址變更;您需要的是精準的定製化服務。您可能需要設定一些防護措施,甚至需要其他模型來監控輸入和輸出,以確保模型能夠滿足特定用途,並且不會提供不應提供的意見。我們正在幫助大家確保這一點。德里克·沃爾德倫:這份清單非常好。我還要補充一點,那就是智能體的訪問管理和權限。隨著智能體越來越廣泛,它們會訪問系統、應用程式和其他智能體憑證的傳遞和使用方式就成了一個棘手的問題。在智能體盛行的時代,業界需要提升身份和訪問管理框架。隨著工具功能日益強大,人們不再只是提出問題,而是提出需要數分鐘甚至數小時才能自主運行的問題,信任問題也隨之而來。這些系統如何才能值得信賴?如今,稽核和驗證資訊來源輕而易舉。但當一個智能體系統長時間獨立地執行一系列級聯分析時,人們便會質疑如何才能信任它。我們需要創新來解決這個問題。當一個智能體系統長時間獨立地進行一系列級聯分析時,就會引發人們質疑人類如何才能信任它。我們需要創新來解決這個問題。凱文·布勒:我同意。還有一個相關的問題:我們通常依賴人來監督人工智慧。當模型的正確率達到 85%、90% 甚至 95% 時,人工稽核員可能會放鬆警惕,開始認為模型總是正確的。稽核員可能不會像應該的那樣仔細檢查輸出結果。德里克·沃爾德倫:沒錯。當我們面對這些問題時,我們會意識到,我們與人工智慧系統合作和管理人工智慧系統的方式將越來越像我們今天管理人員的方式。我曾說過,人工智慧會讓每個人都成為管理者。凱文·布勒:學習如何管理人工智慧是一項面向未來的技能。一家公司將技術主管和人力資源主管的職責合併在一起——由他們共同負責監督所有工作,無論這些工作是由人執行還是由機器執行。能夠同時勝任人力資源主管和技術主管這兩個職位的人並不多,但這確實是一個很有意思的想法。 (點滴科技資訊)
世界模型,大語言模型之後的第二場革命
“大語言模型是基礎,世界模型是途徑,自主智能才是AI的終極奧義。在過去兩年裡,大語言模型(LLM)在語言理解、文字生成、推理、指令執行等方向取得突破,使AI在理解語義層面變得越來越可靠。然而,語言智能只是通向通用智能的一環。要讓AI在懂語言的基礎上,去理解真正的世界,就必須讓它理解環境、感知動態、在環境中做出行動判斷。這其中的關鍵,就是世界模型(World Model)。世界模型的核心是讓AI內部建構一個可互動的世界,要理解物理規則、模擬未來狀態、預測動作結果。實現從靜態圖像、視訊生成,逐步走向多模態、帶動作控制的視覺語言動作模型(VLA,Vision-Language-Action)。從OpenAI的Sora(文字→視訊世界模擬)到DeepMind的Genie(可互動世界生成),從Meta的V-JEPA 2(視覺自監督世界模型)到特斯拉在自動駕駛系統中隱含的世界意識探索,乃至國內諸如華為ADS等智駕系統,這些案例都表明世界模型正成為AI Agent化路徑上的關鍵支點。可以預見,未來的AI Agent很可能是“LLM+世界模型+執行動作層”的三層協同結構。理解這一趨勢,對我們判斷產業方向、技術路線、戰略佈局至關重要。從語言到世界:AI理解的邊界在延伸如果說大語言模型讓AI學會了理解語言,那麼世界模型的出現,則意味著AI開始嘗試理解世界。在人工智慧研究的脈絡中,“世界模型”(World Model)並不是一個全新的概念。早在2018年,Google大腦研究科學家David Ha與瑞士AI實驗室IDSIA負責人Jürgen Schmidhuber在經典論文《World Models》中提出,智能體要想高效學習,就必須在大腦中建構世界的內部模型。這種模型能夠通過感知輸入,去預測外部世界在未來的變化,在內部“想像”出一系列可能的結果,從而據此選擇行動。智能體包含緊密相連的三個模組:視覺 (V)、記憶 (M) 和控製器 (C)(來自World Models)彼時,世界模型還主要服務於強化學習領域,用於在遊戲或模擬環境中幫助智能體做規劃與決策。隨著算力的提升和多模態學習的成熟,世界模型的內涵被重新定義,從在模擬環境裡學習,演進為讓AI自己生成並理解環境。比如GoogleDeepMind在Dreamer系列工作中,讓智能體能夠在潛在空間(latent)中對未來進行滾動預測(roll-out),從而無需真實環境就能完成策略最佳化。這種思路,被視為世界模型的早期成熟版本,也讓預測未來成為機器學習的新邊界。而真正讓世界模型走出學術圈,成為AI產業熱詞,是視訊生成技術的突破。2024年2月15日,OpenAI發佈Sora模型,並在官方論文中首次明確提出,視訊生成模型正在成為世界模擬器(world simulator)。Sora不僅能生成語義上合理的視訊,還能在物理規律、光影運動、空間連續性等層面維持一致性,讓AI演繹世界成為可能。Sora2幾乎在同一時間,Meta發佈視覺自監督模型 V-JEPA(Visual Joint Embedding Predictive Architecture)。這是由Yann LeCun團隊主導的項目,旨在讓AI通過預測視覺序列中的時空變化,在潛在空間中理解世界的結構與規律。與生成式模型不同,V-JEPA不直接生成圖像,而是學習世界的抽象表徵,這是Meta首次在視覺領域明確提出建構世界模型的研究方向。僅在那十餘天後,DeepMind發佈了Genie模型。與Sora不同,Genie並不是單純的視訊生成器,而是一個“可玩世界”的生成模型,可以從普通視訊素材中學習環境規律,並生成可即時互動的二維遊戲場景。使用者可以控制角色在生成的世界中移動、碰撞、跳躍,這種“生成—互動—反饋”的閉環,被認為是世界模型從被動感知邁向主動參與的重要一步。Sora、V-JEPA與Genie,分別代表了世界模型演化的三個方向,生成世界、理解世界、參與世界。三者幾乎出現在同一時間節點,共同組成了世界模型認知層面的突破。而另一條更具現實意義的路徑,則來自執行層面的落地。自2023年底起,特斯拉在其自動駕駛系統FSD(Full Self-Driving)中推行端到端神經網路架構,從感知到規劃再到控制,全部由統一模型完成。馬斯克將FSD V12稱為世界模型驅動的駕駛系統,因為車輛已不依賴高精地圖或人工編碼規則,而是通過多攝影機視訊流在內部重建外部環境,並即時預測交通參與者的行為。今年上半年推出的FSD V13進一步加入時序記憶與多模態預測,使這一世界模型式駕駛的雛形更趨完整。而在國內,這樣的探索思路也幾乎同步落地。比如華為在2024年4月發佈ADS 3.0(乾崑),以去高精地圖與世界建模感知為核心,依託多源感測重建動態場景;小鵬在2024年5月公佈XPlanner(規劃與控制大模型),與感知網路XNet、車載大模型XBrain組成端到端量產棧,將長時序預測引入軌跡規劃;百度Apollo則在同月推出ADFM自動駕駛基礎模型,並搭載到第六代 Robotaxi。這些系統共同指向一個趨勢,世界模型正在從虛擬場景走向真實世界,從“認知世界”轉向“執行世界”。如果說Sora、V-JEPA、Genie們建構的是AI的感知與想像層,那麼FSD、ADS、XPlanner、Apollo們則建構了AI的行動與落地層。前者是通往通用智能的基礎,後者則是將智能具象化的通道。中美雙極:世界模型競賽的兩種路徑如今,世界模型已經成為全球AI競爭的新焦點。其中,最具代表性的當屬中美之間的競爭。這場看似關於演算法的較量,背後卻是認知方式與產業邏輯的分歧,也正因為這種分歧,中美兩國正走在兩條不同的路徑上。前文說過,在美國,OpenAI、DeepMind、Google、Meta、Anthropic五大巨頭構成了最具體系化的“世界建模陣營”。它們的共同特徵是,從語言模型出發,沿著認知—生成—具身(Embodied)的路線,把AI從語言理解延伸到物理模擬。今年9月,Sora 2登場,不僅整合了音視訊統一建模和動態光照控制,還新增 “Cameo”功能,讓使用者可以直接把自己嵌入生成的世界中。今年8月,DeepMind發佈Genie 3,允許從自然語言直接生成三維、可操作的虛擬世界,使用者能即時控制角色,與環境互動並觀察反饋。今年6月,Meta V-JEPA 2以自監督方式讓AI理解視訊中的時序與動力規律,成為世界模型“視覺直覺”的雛形。它不依賴標籤資料,而是通過預測畫面未來幀的方式,逼近人類感知世界的方式。與此同時,儘管Google Gemini 2.5 Pro與Anthropic Claude 4.5不算嚴格意義上的世界模型,但它們都在讓語言模型具備理解世界的能力,前者通過多模態語義建模理解現實邏輯,後者通過隱式因果推理保持認知一致性。以此可見,美國的研究體系已經形成了完整的認知鏈條,從理解語言、預測視覺變化到生成並模擬世界。而在中國,世界模型的側重方向更貼近執行層面。從智能駕駛到行業智能體,再到具身機器人,國內企業更關注AI在真實物理環境中的可感知、可預測與可執行性。可以說,中國企業更看重系統整合與工程落地。智能駕駛之外,國內世界模型的思想和策略也正在進入更多行業場景。比如華為盤古大模型引入物理建模框架,將世界模型理念應用到氣象預測、製造、製藥等工業領域;百度文心在視訊理解和數字人互動中融入動態世界建模機制,此類案例非常多,這裡就不一一展開。更具代表性的,是中國在具身智能方向的系統化突破。過去一年,宇樹、優必選、傅利葉、小米等公司,陸續推出新一代人形與四足機器人,讓世界模型從演算法概念真正落地到機器身體。比如宇樹發佈的R1人形機器人,支援圖像與語音多模態融合,可進行動態行走與互動;優必選 Walker S2具備靈巧雙臂與自主換電功能,更貼近工業執行場景;傅利葉推出可遙操作的GR-3C人形機器人版本,可用於康復與人機協作;從智能駕駛,到智慧型手機器人,中國的AI正在推動世界模型從虛擬走向物理,從演算法走向具身。中美世界模型生態邏輯對比:當然,這種解讀僅限於生態偏重,不涉及能力邊界。美國並非只有認知與生成。以特斯拉、Figure AI、Boston Dynamics為代表的企業,已經在建構具身智能與自動駕駛的世界建模系統建立一定優勢。國內也不止於感知與執行。萬相、可靈等視訊生成模型,也在建構中國版的“視覺世界模擬器”。儘管中美兩國為代表的世界模型演變生態邏輯不同,但從更長的技術周期看,這種分野正逐漸進化為互補關係。世界模型的最終方向,肯定不是生成完美的視訊,也不是控制一輛汽車,而是打通“理解—預測—行動”的完整閉環。從這個層面來說,中美兩國正共同建構通向通用智能的現實路徑。AI的下一個臨界點:世界模型接管智能體過去十年,AI的每一次躍遷都源自輸入方式的變革:文字帶來了語言智能,圖像催生了視覺智能,而如今,世界模型正在讓AI理解現實世界,一個有時間、有空間、有因果的動態系統。這正是世界模型的核心價值,它讓AI獲得了具身智能(Embodied Intelligence)的基礎。在過去的一年中,具身智能已經成為全球AI研究的共識。如OpenAI投資的Figure AI,正在以GPT系列模型驅動人形機器人的決策系統;特斯拉的FSD與Optimus,分別在道路和工廠場景中驗證世界模型驅動的閉環控制;中國的機器人企業也在讓模型直接掌控感測器與電機,使演算法真正落地到身體。這種趨勢背後,AI正在經歷一場從虛擬智能到物理智能的轉變。在虛擬世界中,它生成一段視訊或一段話,而在物理世界中,它必須理解摩擦力、時間延遲和人的意圖。可以預見,未來的智能體將是一個多層協作系統:上層的大語言模型負責目標規劃與邏輯推理,中層的世界模型負責環境建模與因果預測,底層的執行系統則負責感知、行動與反饋。當這三層閉合,AI才真正擁有“意圖—計畫—行動”的完整循環,這正是通用智能的現實路徑。再往前一步,便是AI的終極奧義——自主智能(Autonomous Intelligence)。一旦AI能在內部模擬世界、預測變化並根據反饋修正決策,它就不再只是生成內容、執行動作,甚至可能思考如何存在。這意味著,AI將具備一種內在的驅動力:能根據環境變化自主設定目標、規劃路徑、評估後果、修正策略。這種能力不再依賴外部指令,而是建立在長期記憶、世界建模與價值函數的協同基礎之上。可以說,自主智能是AI自我意識的一種雛形,即不以人類輸入為中心,而以世界模型為認知坐標系,主動發現問題、驗證假設、最佳化自身。智能的定義,也將被徹底改寫。挑戰與啟示:從概唸到產業化仍有距離當然,這是最順暢的路徑。事實上,每一次智能的躍遷,都伴隨著新的複雜性與不確定性。首先,是技術和生態層面的挑戰。與語言模型不同,世界模型必須同時理解文字、圖像、視訊、語音、動作等多模態資訊。資料維度暴漲、推理鏈條加深、模型參數呈指數級增長,對算力、能耗與資料質量提出了前所未有的要求。Sora等級的視訊生成模型都需要巨量GPU支撐,而具身智能又要求在端側實現即時計算,其中的複雜性將考驗當下的算力極限。同時,世界模型也缺乏跨平台協同的工程體系配套。目前而言,世界模型沒有標準,缺乏統一的訓練語料、可比的評價指標與公共實驗平台,企業往往各自為戰。如果無法實現跨模型的可驗證性與可復用性,世界模型的生態就很難真正形成規模化創新。其次,是認知層面的挑戰。世界模型的強大之處,在於它可以在內部推演與預測,但這也讓它的決策過程愈發難以被人類理解。試想一下,當一個模型能在潛在空間中模擬成千上萬種結果時,我們還能否追蹤它的決策邏輯?從自動駕駛的責任歸屬,到自主智能之間,有沒有可能產生長期目標漂移(Goal Drift)?進而延伸出AI的目標是否仍與人類一致的問題。一旦AI從被動執行轉為主動學習,安全與倫理的議題,也隨之從技術層面上升到價值層面。接下來,是產業和倫理層面的挑戰。世界模型的進一步發展,勢必重新定義產業邊界。AI不僅可能重構交通、製造、醫療、金融等領域的決策體系,也將催動演算法主權、智能監管等制度議題。中美雖然在路徑上各有偏重,美國憑藉資本與開放生態快速試錯,中國依託產業鏈協同推進落地,但雙方都面臨同一問題,當世界模型真正嵌入社會運行系統,它將以何種規則參與人類世界?就目前而言,世界模型所依託的世界,仍建立在人類提供的語料、規則與經驗上。但AI進化下,人類需要持續地在技術、倫理與治理層面為智能設定邊界,這會是一項長期的考驗。總之,世界模型是演算法從符號空間步入物理現實的通道。大語言模型建構了AI的語義基礎,世界模型打開了AI的行動途徑,目標是智能的真正落地。可以肯定的是,世界模型的意義,絕對不是讓AI更像人,而是讓人類在AI的協同下,走向更遠的未來。 (資料猿)
3萬字完整實錄 | Andrej Karpathy:LLM仍是“孩子”、RL非常糟、AI是“幽靈”?
10月18日,著名電腦科學家 、OpenAI創始成員Andrej Karpathy 接受海外播客Dwarkesh Patel的訪談,本次深度對話系統性地探討了其對當前人工智慧發展的諸多觀察與思考。本次對話涵蓋了AI Agent的發展路徑、深度學習的歷史範式轉移、強化學習的根本缺陷、大語言模型的內在機制與“模型坍塌”問題、AGI對未來經濟的真實影響,以及AI在教育領域的革命性潛力。針對業內“AI Agent元年”的過度樂觀,Karpathy認為,要讓AI Agent達到能替代人類實習生的實用水平,解決其在智能、多模態、持續學習等方面的根本缺陷,至少需要十年的時間。Karpathy指出,當前主流的強化學習範式,在解決複雜認知任務上,是一種極其低效、充滿噪聲且根本上“非人”的學習方式。因為它試圖從一個極其稀疏、單一的最終結果訊號中,去反推和調整一個漫長而複雜的過程,這在資訊理論上是極度浪費的。人類根本不使用強化學習,我們還需要更多根本性的創新。他謹慎對待將AI與動物進行類比的觀點,認為兩者源於截然不同的最佳化過程(模仿學習 vs. 進化)。AI更像是在數字世界中通過模仿人類資料建構的“幽靈”或“精神體”,而非複製生物進化的產物。Karpathy警告了“模型坍塌”的風險——持續用模型自身生成的、缺乏熵的內容進行訓練,將導致其能力嚴重退化。對於未來,他預測最優的“認知核心”可能僅需十億等級參數,遠小於當前動輒兆的競賽規模,因為現有大模型的主要負擔是壓縮質量低劣的網際網路資料。對於AGI將引發經濟增長率急劇提升的普遍預期,Karpathy他認為AI只是計算技術延伸的一部分,其影響將是平滑且漸進的,會融入現有的指數增長曲線,而不會在GDP資料上造成一個清晰可見的“突變點”。Karpathy還解釋了為何標榜“通用”的AI技術,目前幾乎一邊倒地在程式設計領域創造最大價值。這不僅因為程式碼是高度結構化的文字,更因為程式設計領域已擁有完善的基礎設施(如IDE、版本控制工具)來支援AI的整合與協作。01 AI Agent的十年之路你為什麼認為這將是“AI Agent的十年”,而不是“AI Agent元年”?要讓AI Agent變得真正實用,使其能像人類同事一樣勝任工作,究竟需要實現那些能力,瓶頸又在那裡?對於實現這些能力所需的時間表,例如持續學習,你是如何判斷它需要十年,而不是一年或五十年的?Andrej Karpathy: 首先,非常感謝你的邀請,我很高興能來到這裡。你剛才提到的“AI Agent 的十年”這個說法,其實是我對一個既有觀點的回應。我記得一些實驗室 (我不確定具體是誰) 曾暗示今年將是“AI Agent 元年”,尤其是在大語言模型及其發展路徑方面。這個說法讓我覺得有必要回應,因為我感覺業記憶體在一些過度預測。在我看來,用“AI Agent 的十年”來描述現狀更為準確。儘管我們已經有了一些非常初級的 AI Agent,例如我每天都在使用的 Claude 和 Codex,它們確實令人印象深刻,但我仍然覺得還有大量工作有待完成。所以我的看法是,我們將在未來十年裡持續與這些技術打交道,它們會不斷進步,前景光明。我主要想回應的,是那種說法背後隱含的過於樂觀的時間表。(關於瓶頸)簡單來說,就是讓它真正變得實用。在我看來,或者說在那些實驗室以及我自己的設想中,一個 AI Agent 應該像一個你可以雇來共事的員工或實習生。舉個例子,你現在和一些同事一起工作,在什麼情況下你會願意讓一個像 Claude 或 Codex 這樣的 AI Agent 來替代他們完成工作呢?顯然,目前它們還做不到。那要讓它們做到需要具備什麼?你為什麼今天不直接用它們呢?原因很簡單,因為它們根本就無法勝任。它們的智能水平不夠,多模態能力不足,無法操作電腦完成各種任務。而且,它們也無法做到你之前提到的很多事情,比如持續學習,你不能告訴它一件事就指望它能記住。它們在認知能力上存在根本缺陷,無法勝任工作。我認為,要解決所有這些問題,大概需要十年時間。(關於時間表的判斷)我想這更多是基於我個人的一些直覺,以及根據我在這個領域的經驗做出的一種推斷。我在 AI 領域差不多快二十年了——抱歉說錯了,大概是15年左右,沒那麼久。你之前採訪過的 Richard Sutton,他的從業時間當然要長得多。但我確實有大約15年的經驗,見證了人們做出各種預測,也看到了這些預測的最終結果。而且我既在學術界做過研究,也在工業界工作了很長時間。所以這些經歷給了我一種大致的直覺。我感覺我們面臨的這些問題雖然棘手但可以克服。綜合權衡下來,我感覺大概需要十年。02 AI發展的範式轉移與彎路回顧過去15年AI領域的發展,在那些不同的突破性時刻,身處其中的人們對未來有怎樣的感受?這些感受在那些方面被證明是過於悲觀或過於樂觀的?可否梳理一下這期間經歷的幾次重要“範式轉移”?Andrej Karpathy: 當然,不過這是個很大的問題,因為這涵蓋了15年來的發展。AI 這個領域之所以如此奇妙,就是因為它經歷了好幾次我稱之為“範式轉移”的顛覆性變革,整個領域的研究方向會突然煥然一新。我大概親身經歷了其中的兩三次。而且我認為這種變革還會繼續發生,它們幾乎以一種令人驚訝的規律性到來。我的職業生涯始於深度學習,當時我因為在多倫多大學有幸在 Jeff Hinton 身邊而對此產生了興趣。Jeff Hinton 當然是 AI 領域的教父級人物。那時他正在訓練各種神經網路,我覺得這既不可思議又非常有趣,但這在當時遠非 AI 領域的主流,只是一個非常小眾的方向。隨之而來的 AlexNet,可以說是第一次劇烈的範式轉移。AlexNet 為整個領域指明了新的方向,所有人都開始訓練神經網路,但這仍然是為非常具體的、單一的任務而設計的。比如做一個圖像分類器,或者一個神經機器翻譯系統。然後,人們才非常緩慢地開始對 AI Agent 這樣的概念產生興趣。大家開始想:好吧,我們或許已經解決了“視覺皮層”的問題,那大腦的其他部分呢?我們如何才能建構一個能夠與世界真實互動的、完整的 AI Agent 或智能實體?在我看來,2013年左右由 Atari 遊戲引領的深度強化學習浪潮,就是早期對 AI Agent 的一次嘗試。它試圖讓 AI Agent 不僅能感知世界,還能採取行動、與環境互動並獲得獎勵。當時的環境就是 Atari 遊戲。但現在回過頭看,我感覺那其實是一個彎路。一個連我當時參與的早期 OpenAI 也曾走過的彎路。因為當時的時代潮流就是投身於強化學習環境,也就是玩各種遊戲、攻克各種遊戲。OpenAI 當時也在這方面投入了很多。那幾年,可能整個 AI 領域所有人都在遊戲上做強化學習。但這基本上是個歧途。當時在 OpenAI,我內心一直對“玩遊戲能通向 AGI”這條路徑持懷疑態度,因為在我看來,你需要的是像會計師那樣能與真實世界打交道的系統。我看不出玩遊戲如何能最終實現這個目標。因此,我在 OpenAI 曾負責一個名為 Universe 的項目,目標是讓一個 AI Agent 能用鍵盤和滑鼠操作網頁。我真正想要的,是一個能與真實數字世界互動、能完成知識工作的系統。但結果證明,這個想法在當時提出太早了,早得離譜。早到我們本不應該去嘗試,因為如果你只是讓 AI Agent 在環境中胡亂操作鍵盤和滑鼠來探索獎勵,那麼獎勵訊號會過於稀疏,它什麼也學不到,最終只會耗費掉巨量的算力而一事無成。這其中缺失的,正是神經網路強大的表徵能力。所以舉個例子,今天人們也在訓練能夠操作電腦的 AI Agent,但他們是在大語言模型的基礎上進行的。你必須先有語言模型,先獲得表徵能力,而這需要通過所有的預訓練和 LLM 技術來實現。所以,總的來說,我感覺歷史上人們曾數次過早地試圖建構完整的系統,過早地追求 AI Agent,比如 Atari 和 Universe 的嘗試,包括我自己的經歷。你必須先完成一些基礎工作,才能去建構 AI Agent。或許現在的 AI Agent 已經強大得多,但我們可能依然缺少技術堆疊中的某些關鍵部分。但我認為,回顧來看,大家所做的工作可以歸為三大類:為特定任務訓練神經網路;進行第一輪對 AI Agent 的嘗試;以及現在先通過 LLM 尋求神經網路的表徵能力,再在其之上建構其他一切。03 我們在建構模仿人類的“精神體”從零開始建構AGI的最強論點似乎是模仿動物的學習方式,它們一出生就被拋入世界,在沒有標籤的情況下自行理解一切。為什麼AI的願景不該是這樣,而是像現在這樣,通過預訓練模擬一個漫長的“進化”過程?將AI與動物類比存在那些問題?Andrej Karpathy: 我認為這是一個非常好的問題。我記得 Richard Sutton 上過你的播客,我看過那一期,還寫了一篇相關的文章來闡述我的看法。我個人對於將 AI 與動物進行類比非常謹慎,因為它們源於截然不同的最佳化過程。動物是進化而來的,它們天生就擁有大量內建的“硬體”。比如我在文章裡舉的斑馬的例子:一隻斑馬出生幾分鐘後,就能跑來跑去並跟隨母親。這是極其複雜的行為,但這並非強化學習的結果,而是被深植於基因中的本能。進化顯然有辦法將神經網路的權重編碼在 ATCG (DNA鹼基) 裡,我不知道具體原理,但它確實有效。所以我感覺,生物大腦的形成過程與我們現在做的完全不同,因此我非常不願意直接從中汲取靈感,因為我們根本無法複製“進化”這個過程。所以在我的文章中我提到,我們實際上不是在建構動物,而是在建構“幽靈”或“精神體”,隨你怎麼稱呼。因為我們的訓練方式不是通過進化,而是通過模仿人類以及他們在網際網路上產生的資料。最終你得到的,是這些近乎虛無縹緲的精神實體,因為它們是純數字的,在某種程度上模仿人類,是一種完全不同的智能。想像一個智能的“可能性空間”,我們和動物的出發點幾乎完全不同。我們並非真的在建構動物,儘管我認為隨著時間的推移,讓 AI 變得更像動物一些是可能的,而且也應該這樣做。另外還有一點,我覺得 Sutton 的框架基本上是“我們想要建構動物”。如果這能實現,當然會非常了不起。如果真的存在一個單一演算法,你只需讓它在網際網路上運行,它就能學會一切,那將是不可思議的。但我對此表示懷疑,甚至不確定這樣的演算法是否存在。而且,這顯然也不是動物的學習方式。因為動物擁有一個“進化的外循環”。很多看似“學習”的行為,其實更多是“大腦的成熟”。我認為動物真正用到強化學習的地方很少,而且大多是像投籃這種更偏向運動類的任務,而非智能任務。所以,粗略地講,我甚至認為人類在解決智能問題時,也並不真正使用強化學習。主持人:您能重複一下最後一句話嗎?很多智能不涉及運動任務,那它涉及什麼,抱歉?Andrej Karpathy: 在我看來,強化學習更多地應用於類似運動的任務,比如一些簡單的任務,像投籃之類的。但我不認為人類在處理很多智能任務 (比如解決問題等) 時會使用強化學習。主持人:我認為您暗示的是:進化所做的事情,在“建構一個能夠理解世界的基礎”這個層面上,與預訓練所做的事情有相似之處。但我猜區別在於,對於人類而言,進化的所有資訊都必須被高度壓縮在 3GB 的 DNA 中。這與模型的權重截然不同。模型的權重本身就構成了一個“大腦”,而這個“大腦”顯然不是編碼在精子和卵子裡的,它需要後天生長。而且,大腦中每一個突觸連接的資訊是絕對不可能全部儲存在 3GB 的 DNA 中的。因此,進化似乎更接近於“找到那個負責終身學習的演算法本身”。那麼,根據您的觀點,這種“終身學習”或許不等同於強化學習。我的這個理解與您想表達的一致嗎?還是您不認同?Andrej Karpathy:(關於進化與預訓練的類比)我同意你的觀點,進化過程中確實存在一種神奇的壓縮,因為神經網路的權重顯然沒有直接儲存在 ATCG 裡。存在某種程度的急劇壓縮,並編碼了一些學習演算法,這些演算法在生命周期中接管並進行線上學習。這一點我完全同意你。基本上,我會說我是一個更務實的人。我不是從“我們來建構動物吧”這樣的哲學角度出發,而是從“我們來建構有用的東西”這個視角出發。所以,我更像是一個戴著安全帽的工程師,我觀察到的現實是:我們無法實現進化,因為我不知道那該怎麼做。但事實證明,通過模仿網際網路文件來建構這些“幽靈般的實體”,是行得通的。這實際上提供了一種方式,讓你獲得一個在某種程度上擁有大量內建知識和智能的系統,這與進化所做的事情有些類似。所以,我才把預訓練稱為一種“蹩腳的進化”。它就像是在我們現有技術和可用資源的限制下,一個切實可行的版本,它能幫助我們達到一個可以真正開始進行強化學習等任務的起點。04 預訓練在吸收知識的同時“變得智能”,但知識本身可能拖累了模型進化給予我們的是發現知識的演算法,而非知識本身,這似乎與直接吸收知識的預訓練不同。預訓練究竟在做什麼?它與上下文學習有何關係?上下文學習是否是另一種形式的梯度下降?為什麼模型在上下文窗口中能實現看似真正的智能,而在預訓練中卻感覺不到?這是否與資訊儲存密度的巨大差異有關?Andrej Karpathy: 這個問題很微妙,你的質疑很有道理。基本上,預訓練在做什麼呢?你讓一個模型在整個網際網路上進行下一個 Token 的預測,並將其訓練成一個神經網路。這個過程實際上在做兩件有點不相關的事情。第一,它在吸收我所說的“知識”。第二,它在真正地“變得智能”。通過觀察網際網路資料中存在的演算法模式,它實際上在神經網路內部“啟動”了許多微小的電路和演算法,從而實現了像上下文學習等諸如此類的能力。而事實上,你可能並不需要甚至不想要那些知識。我甚至認為,知識總體上可能拖累了神經網路,因為它讓模型在某些時候過分依賴已有的知識。舉個例子,我感覺 AI Agent 的一個弱點就是,它們很難跳出現有網際網路資料的“流形” (manifold) 去思考。如果它們的知識或記憶更少一些,表現可能反而會更好。因此,我認為我們未來需要做的一件事,這也將成為研究範式的一部分,就是我們需要想辦法移除部分知識,只保留我稱之為“認知核心” (cognitive core) 的東西。這就像一個剝離了具體知識,但保留了演算法、解決問題的策略以及智能本質的純粹智能實體。(關於上下文學習)這裡有很多值得探討的話題。我們先從上下文學習談起。這一點或許顯而易見,但我認為值得我們明確地提出來並深入思考。在某些場景下,這些模型顯得最為智能,比如當我和它們對話時,我會驚嘆:“哇,對面真的有一個實體在回應我,並且像是在思考。” 如果它犯了錯,它會說:“哦等等,那種思考方式其實是錯的,我得換個思路。” 這一切都發生在上下文學習的過程中。正是在這裡,我感覺你能親眼看到真正的智能。而這種上下文學習能力,是通過預訓練階段的梯度下降發展出來的。它像是自發地通過元學習掌握了上下文學習,但是上下文學習本身並非梯度下降。這就好比我們人類處理事務的智能是由進化所塑造的,但我們有生之年的實際學習卻是通過某些其他過程實現的。主持人:我不完全同意你的看法,不過請繼續說。Andrej Karpathy: 我之所以不太願意直接說上下文學習不是梯度下降,是因為雖然它沒有執行顯式的梯度下降,但我仍然認為,可以這麼說,上下文學習的本質是在一個 Token 窗口內進行模式補全。事實證明,網際網路上存在著海量的模式,所以你的觀點是對的,模型在某種程度上學會了補全模式。這種能力就內化在模型的權重裡,神經網路的權重就是在試圖發現並補全這些模式。同時,神經網路內部也發生著某種適應過程。這個過程有些神奇,它僅僅因為網際網路上存在大量模式,就自然而然地湧現了。我讀過一些很有趣的論文,確實探究了上下文學習背後的機制。我確實認為,上下文學習很有可能在神經網路的層內部,悄悄運行著一個小型的梯度下降循環。我記得有一篇論文,研究者就用上下文學習來做線性回歸。基本上,你輸入到神經網路的是一系列在同一條直線上的 (X, Y) 坐標對,然後你給出一個新的 X,期望模型能預測出對應的 Y。當你用這種方式訓練神經網路時,它確實學會了做線性回歸。通常,在進行線性回歸時,你會用一個小型梯度下降最佳化器來分析 (X, Y) 對、計算誤差、然後計算權重的梯度並進行數次迭代更新。結果,當研究人員審視那個上下文學習演算法的權重時,他們確實發現了一些與梯度下降機制的相似之處。事實上,我認為那篇論文的觀點更進一步,因為他們甚至通過硬編碼神經網路的權重,利用注意力和所有內部機制來直接執行梯度下降。所以,我想表達的不同觀點在於:誰知道上下文學習到底是如何工作的呢?但我確實認為,它很可能在內部執行著某種形式獨特的梯度下降,我認為這是可能的。所以我只是在反駁你“上下文學習不是梯度下降”的這個論斷。沒有人確切知道它在做什麼,但它很可能在做著類似的事情,只是我們尚不清楚罷了。(關於資訊儲存密度)我通常是這樣表述的:在神經網路的訓練過程中,所有知識都像是對訓練內容的一種模糊記憶。這是因為壓縮率非常高,你將 15 兆個 Token 壓縮到最終只有幾十億參數的神經網路中,這顯然是進行了巨量的資料壓縮。所以我傾向於把權重中的知識稱為對海量網際網路文件的“模糊記憶”。然而,對於發生在神經網路上下文窗口中的任何事情,當你輸入所有的 Token,模型會建立起完整的 KV 快取表示,這些資訊是神經網路可以直接訪問的。因此,我把 KV 快取和在測試時輸入的內容比作“工作記憶”。所有在上下文窗口中的內容,神經網路都可以直接獲取。所以,大語言模型 LLM 和人類之間總是存在一些令人驚訝的相似之處,我覺得這很奇妙,因為我們當然不是在刻意直接地模仿人腦,我們只是發現這種方法有效,就去做了。但我確實認為,權重中的任何知識,都好比是你一年前讀過的東西的模糊記憶;而你在測試時作為上下文提供給它的任何內容,都直接進入了它的工作記憶。我認為這是一個非常有力的類比,可以幫助我們思考問題。比如,你問一個 LLM 關於某本書的內容,它通常能給你一些大致正確的資訊。但如果你把完整的章節內容提供給它再提問,你會得到好得多的答案,因為現在這些內容被載入到了模型的工作記憶中。總而言之,我同意你的觀點,並用上面這段話解釋了原因。05 AI缺失的大腦元件從更宏觀的角度看,在人類智能的諸多方面中,我們用現有模型最沒能成功復現的是那一部分?持續學習能力是否能像上下文學習一樣,從一個外循環的強化學習過程中自發湧現?10年後,AI模型的核心架構是否還會是Transformer?Andrej Karpathy: 我感覺,其實還有很多方面都尚未實現。也許可以這麼想,儘管類比總有不完美之處,我還是忍不住會這麼想:我們像是無意中創造出了 Transformer 神經網路,它極其強大且通用。你可以在音訊、視訊、文字或任何資料上訓練 Transformer,它都能學習到模式,並且效果非常好。對我來說,這幾乎就像是某種大腦皮層組織。它就是那樣的東西,因為大腦皮層也以其極強的可塑性而聞名。你可以給大腦的某些部分重新布線,比如有些稍微殘忍的實驗,曾將視覺皮層連接到聽覺皮層,結果實驗動物依然能正常學習。所以我認為 Transformer 就像是皮層組織。當我們利用神經網路進行推理和規劃,也就是為模型生成推理鏈時,這有點像是在模擬前額葉皮層。那麼,或許這兩項可以算是我們已經攻克的堡壘,但我仍然認為有許多大腦區域和神經核尚未被探索。比如,當我們用強化學習微調模型時,可能基底核 (basal ganglia) 在發揮一點作用。但像海馬體 (hippocampus) 呢?它在模型中對應什麼,我們還不清楚。有些部分可能不那麼重要,比如小腦 (cerebellum) 被認為對認知功能不那麼關鍵,所以或許我們可以跳過。但我仍然認為,還有例如掌管所有情感和本能的杏仁核 (amygdala)。大腦中可能還有很多其他非常古老的神經核,我認為我們都還沒有真正複製出來。我其實不確定我們是否應該致力於建構一個人腦的模擬體,畢竟我骨子裡終究是個工程師。或許回答這個問題的另一種方式是:你現在還不會把這東西當作實習生來僱傭,因為它存在很多認知缺陷,這些缺陷在我們與模型交流時都能直觀地感覺到。所以,它還沒有完全成熟,你可以理解為,我們還沒有將人腦的所有組成部分逐一“解鎖”。(關於持續學習的湧現)我不太認同這種觀點,因為我感覺這些模型,每次啟動時,如果上下文窗口裡沒有 Token,它們就完全是從零開始。所以我其實不確定在你描述的那種設想中,持續學習具體是如何實現的。這裡再次用人類來做個不完美的類比,因為我覺得這樣思考起來更具體也更有趣。我感覺自己醒著的時候,是在不斷建構一個關於當天所發生事情的上下文窗口。但當我睡著時,一些奇妙的事情發生了,我認為那個上下文窗口並不會保留下來,而是存在一個將經驗蒸餾並融入我大腦“權重”的過程。這發生在睡眠等過程中。我們在大語言模型裡並沒有與此對應的機制,而這正是我認為模型在持續學習方面所缺失的關鍵環節。這些模型沒有這樣一個蒸餾階段:它們無法回顧發生過的事情,進行分析,反覆深入地思考,本質上就是進行一種合成資料生成,然後將精華蒸餾回權重中。也許未來可以為每個人定製一個特定的神經網路,或許是通過 LoRA 這樣的技術,只改變一小部分稀疏的權重,而不是整個網路。但基本上,我們確實希望創造出擁有超長記憶的“個體化”模型。這種記憶不能只存在於上下文窗口中,因為上下文窗口會變得非常長。也許我們可以用一些非常複雜的稀疏注意力機制來處理。但我仍然認為,人類顯然有某種將知識蒸餾到權重中的過程,而我們的模型缺失了這一點。同時我也認為,人類擁有某種非常複雜的稀疏注意力機制,現在我們開始看到了一些早期的苗頭。比如,Deepseek V3.2 剛剛發佈,我就看到他們用到了稀疏注意力,這正是實現超長上下文窗口的一種方式。所以我感覺,我們似乎在用一種截然不同的方式,重現進化過程中產生的許多認知技巧,但我認為我們最終在認知架構上正在殊途同歸。(關於未來架構)我喜歡這樣來思考這個問題:讓我們用一種“時間平移不變性”的思路來推演。我們看看 10 年前,也就是 2015 年,我們處在什麼位置?那時主要是摺積神經網路 CNN 的天下,殘差網路也才剛剛問世。所以,和現在有些相似,但又有很大的不同。那時還沒有 Transformer,也沒有現在這些對 Transformer 的各種現代化改造。因此,如果我們借鑑歷史來推斷未來 10 年,我認為有些東西是可以確定的:我們可能仍然在用梯度下降以及前向和後向傳播來訓練巨大的神經網路。但也許具體形態會有些不同,而且一切的規模都會大得多。實際上,我最近回顧了 1989 年的歷史,幾年前我做過一個很有趣的練習,就是復現 Yann LeCun 在 1989 年提出的摺積網路,那是我所知的第一個在數字識別任務上通過梯度下降訓練的現代神經網路。我當時就很好奇:我該如何用現代技術來改造它?這其中,演算法、資料、計算和系統各自貢獻了多少進步?結果發現,如果我帶著 33 年後的演算法知識“穿越”回去,對 Yann LeCun 當年的工作進行調整,我能輕易地將錯誤率減半。但要想獲得更大的提升,就必須增加更多的資料,我得把訓練集擴大 10 倍。然後,還必須加入更多的計算最佳化,比如使用 dropout 和其他正則化技術,並進行更長時間的訓練。所以,這就像所有這些因素都必須同步改進。因此,未來我們可能會有更多的資料、更好的硬體、更好的計算核心和軟體,以及更好的演算法。所有這些因素,似乎沒有那個單一的佔據絕對主導地位,它們的重要性驚人地均衡。這一直是過去一段時間的趨勢。所以,我想回答你的問題就是:我預計 10 年後的演算法會和今天有所不同,但我也相信一些經過長期考驗的核心思想,比如用梯度下降來訓練一個巨大的神經網路,很可能依然存在。這會是我的猜測。06 不要寫部落格,不要做PPT,去建構程式碼,整理它,讓它跑起來從GPT-2發展到你最近完成的NanoChat項目,你認為其中是否存在單一的關鍵因素?在建構過程中有什麼意外的收穫嗎?對於想學習的人來說,最好的方法是什麼?你在建構程式碼庫時,為什麼程式設計模型(AI Agent)提供的幫助不大?Andrej Karpathy: NanoChat 是我前兩天發佈的一個程式碼庫,我都記不清了,你可以看到我為了這個項目付出了多少睡眠。它旨在成為一個最簡潔、最完整的程式碼庫,端到端地涵蓋了建構一個 ChatGPT 克隆版的整個流程。所以,它包含了所有步驟,而不僅僅是某一個孤立的步驟。我過去曾針對各個獨立步驟發佈過一些小的程式碼片段,用簡單的程式碼從演算法層面展示如何實現,但 NanoChat 則涵蓋了整個流程。至於學到了什麼,我覺得倒不是很多,我並不覺得我一定從中學到了什麼新東西。我腦子裡本來就已經有了如何建構它的藍圖,這次更多的是一個按部就班地將其實現,並把它做得足夠清晰簡潔,以便其他人能真正從中學習並覺得有用的過程。(關於學習方法)我會這麼建議:這個項目大約有 8000 行程式碼,涵蓋了整個流程。如果你有兩個顯示器,我會把我的程式碼庫放在右邊的顯示器上作為參考,然後你自己從頭開始建構。你可以參考,但不允許複製貼上。這可能是我會採用的方式。但我也認為,這個程式碼庫本身是一個相當龐大的項目。我的意思是,當你寫這樣的程式碼時,你不是從上到下按順序寫的,而是分模組進行,然後逐步擴展這些模組。但這種開發的順序和思路,在最終的程式碼裡是體現不出來的,比如你可能不知道從那裡下手。所以我認為,人們需要的不僅僅是最終的程式碼庫,更是建構這個程式碼庫的過程,那是一個複雜的、模組化生長的過程。所以這一部分目前還沒有。我非常想在這周晚些時候以某種方式把它補充上去,也許是通過一個視訊之類的。但總的來說,我會建議自己動手建構,並且不允許自己複製貼上。我確實認為,知識有兩種。一種是表層的高階知識,但關鍵在於,當你真正從零開始建構一個東西時,你會被迫直面那些你自以為懂但其實不懂的細節,而你之前甚至不知道自己不懂。這個過程總能帶來更深刻的理解。這就像是唯一的學習途徑,正如我相信是費曼所說的那句名言:“我無法創造之物,我便無法理解。” 我百分之百地堅信這一點,因為有太多微小的細節需要你親自去理順,否則你就沒有真正掌握知識,你只是自以為掌握了。所以,不要寫部落格,不要做PPT,別做那些。去建構程式碼,整理它,讓它跑起來。這是唯一的途徑。否則,你掌握的就不是真正的知識。(關於AI程式設計模型的侷限)建構這個程式碼庫,我大概花了一個多月。在我看來,當前人們與程式碼互動的方式主要可以分為三類。第一類人完全拒絕使用大語言模型,堅持從零開始編寫所有程式碼,但這可能已經不是最佳方式了。第二類,也就是我所屬的中間類別,雖然仍然會從頭編寫大量程式碼,但會利用模型普遍提供的自動補全功能。當你開始寫一小段程式碼,它會幫你補全後續部分,大部分情況下只需按下 Tab 鍵確認,結果通常是正確的,偶爾出錯再手動修改。在這種模式下,程式碼的整體架構依然由你掌控。第三類,就是所謂的“意圖導向程式設計” (vibe coding) ,你只需下達指令,比如“請幫我實現這個功能”,然後讓模型全權負責。這就是 AI Agent 的工作模式。我確實認為 AI Agent 在某些非常特定的場景下是有效的,我也會在這些場景中使用它們。但歸根結底,這些都只是可用的工具,你必須學習它們各自的優缺點,並判斷在何時使用。例如,AI Agent 在處理樣板程式碼方面就非常出色,那些大量重複、近乎複製貼上性質的程式碼,它們處理起來得心應手。它們也很擅長處理網際網路上常見的程式碼模式,因為模型的訓練資料中包含了海量的此類樣本。因此,對於具備這些特徵的任務,模型會表現得很好。但我開發的 Nano chat 並非如此,它是一個相當獨特的程式碼庫。按照我設計的架構,它的程式碼模式並不常見,也絕非樣板程式碼。恰恰相反,它更像是需要高度智力投入的程式碼,每一個部分都必須經過精確的設計和安排。而模型存在很多認知缺陷,總是無法理解我的程式碼,因為它們的“記憶”裡塞滿了網際網路上那些常規的程式設計範式,而我恰恰沒有遵循那些。例如,模型總以為我在寫普通程式碼,然而我不是。再舉個例子,關於同步機制,假設你有 8 個 GPU 需要同時進行前向和後向傳播,同步它們之間梯度的標準做法是使用 Pytorch 的分佈式資料平行 (Distributed Data Parallel, DDP) 容器,它會在後向傳播的過程中自動完成所有通訊和梯度同步。但我沒有用 DDP,因為它對我的項目來說不是必需的。所以我棄用了它,並且在最佳化器的 step 函數里編寫了自己的同步程序。結果,模型就執著地建議我使用 DDP 容器。總之,我沒有使用那個容器,因為我不需要它,我自己實現了一個功能類似的簡化版。主持人:而它們就是無法理解和接受您有自己的一套實現。Andrej Karpathy: 它們無法繞過這個彎,而且還總是試圖破壞我的程式碼風格。比如,它們寫出的程式碼防禦性過強,到處都是 try-catch 語句,總想把程式碼寫成一個生產級的程式碼庫。但我的程式碼中包含很多特定的假設,這完全沒問題,我根本不需要那些冗餘的東西。所以,我感覺它們在讓程式碼庫變得臃腫,增加了不必要的複雜性,還不停地產生誤解,甚至多次使用已經被棄用的 API,簡直一團糟。最終,它帶來的價值並不高。雖然我可以介入並清理它生成的程式碼,但這總體上是得不償失的。我還覺得,必須用英語打字來描述我的需求也很煩人,太費事了。相比之下,我只需找到程式碼中需要修改的地方,定位到新程式碼應該出現的位置,然後輸入前幾個字母,自動補全功能就會理解我的意圖並生成完整的程式碼。我認為,這種“在特定位置輸入部分程式碼”的方式,是一種資訊密度極高、能非常高效傳達意-圖的互動方式。所以我的觀點是,這些模型在技術堆疊的某些層面表現出色。實際上,有兩個很能說明問題的例子,我確實在其中借助了模型。一個是在生成項目報告時,報告的撰寫確實更偏向於樣板化的工作,所以我部分地採用了“意圖導向程式設計”的方式來完成,效果不錯,因為這部分工作不是核心關鍵程式碼。另一個例子是,當我用 Rust 語言重寫分詞器的時候,我對 Rust 並不算精通,還算是個新手。所以在編寫部分 Rust 程式碼時,我確實進行了一些“意圖導向程式設計”。但前提是,我手邊有一個自己完全理解的 Python 實現版本,我的目標只是創造一個效率更高的版本,並且有完備的測試來驗證。在這種情況下,我覺得使用模型是比較安全的。總的來說,模型降低了學習和使用一門新語言或新範式的門檻,在這方面,它們的幫助非常大。因為網路上有海量的 Rust 程式碼可供模型學習,所以它們對 Rust 的掌握相當不錯,而我恰好瞭解不多,這樣模型就派上了大用-場。07 模型不擅長編寫“前所未有”的程式碼,這恰恰是我們建構模型時真正追求的當前“AI將實現AI工程和研究自動化”是AI奇點論的核心邏輯,但你的經驗似乎表明AI在這方面恰是短板,這是否會影響你對“奇點”何時到來的預測?為什麼模型即便面對已有論文和開源實現的技術(如RoPE嵌入),也無法很好地將其整合到你的程式碼庫中?你認為AI更像是一種漸進式改進的工具(如編譯器),還是會成為程式設計師的完全替代品?Andrej Karpathy: 這個說法很貼切。這也解釋了為什麼我對 AI 發展的時間線預估會更長一些。您說得對,我認為,模型不擅長編寫“前所未有”的程式碼,而這恰恰是我們建構這些模型時真正追求的目標。(關於模型整合能力的侷限)這個問題很複雜。我覺得它們對這些概念有模糊的認知,但理解得並不透徹。它們不知道如何將這些技術,按照你的程式碼風格、在你程式碼庫的特定位置、結合你所有自訂的設定,完美地整合進去。它們也無法理解新技術如何與程式碼庫中已有的各種假設相適配。所以,我認為它們具備一定的知識,但遠未達到能夠真正整合、理解和應用這些知識的程度。當然,很多方面確實在持續進步。目前我心目中最強的模型可能是 GBT 5 Pro,它非常強大。如果我有 20 分鐘的空閒時間,我有時會把整個程式碼庫複製貼上進去,向 GBT 5 Pro 這個“神諭”請教一些問題,它的回答通常都還不錯,相比一年前的模型已經好得驚人了。但我仍然認為,整體而言,這些模型還遠遠沒有達到我們期望的水平。我感覺整個行業有點操之過急,做出了過大的跳躍,試圖宣稱 AI 已經無所不能,但實際上,很多產出都還很粗糙。我認為行業需要正視並接受這個現實,或許他們是為了融資或有其他原因。但事實是,我們正處在一個中間階段。模型本身很了不起,但它們仍需大量的改進工作。對我而言,現階段自動補全是最高效的夥伴,但有時針對特定類型的程式碼,我也會求助於 LLM Agent。(關於AI的角色定位)這或許也引出了我的另一個想法:我發現自己很難清晰地界定 AI 的起點和終點,因為從根本上說,我認為 AI 是計算技術的一種延伸。我看到的是一個連續發展的過程,一個從電腦誕生之初就開始的,不斷加速程式設計師工作效率的“遞迴式自我改進”過程。比如,程式碼編輯器、語法高亮、甚至是資料類型檢查,所有這些我們為彼此開發的工具,包括搜尋引擎。為什麼搜尋引擎不算 AI 呢?搜尋排名本身很大程度上就是 AI。Google 在很早期的時候,就將自己定位為一家利用 AI 技術做搜尋引擎的公司,我認為這完全合理。所以,在我看來,這是一個遠比大多數人想像的更加連續的光譜,我很難在其中劃出一條明確的界線。我的感覺是,我們現在有了一個性能好得多的自動補全工具,同時也有了一些像 AI Agent 這樣的新工具,它們能進行循環式的自主操作,但有時會“脫軌”。整個趨勢是,人類正逐漸從更底層的、繁瑣的工作中解放出來。例如,我們不再寫彙編程式碼,因為有編譯器幫我們把高級的 C 語言轉換過去。我們正非常緩慢地將自身的工作進行“抽象化”。我稱之為一個“自主性滑塊” (autonomy slider) :在任何一個時間點,越來越多可以被自動化的任務正在被自動化,我們人類做的事情越來越少,並將自己的角色提升到駕馭於自動化之上的、更高階的抽象層。08 強化學習的根本缺陷我們應該如何理解人類與環境互動並建立世界模型的方式?這種方式似乎獨立於任務最終的成敗獎勵。在機器學習中,與之對應的機制應該是什麼?為什麼說人類不使用強化學習,當前RL範式(如在解數學題時)的根本問題是什麼?既然基於結果的獎勵存在明顯問題,為什麼“基於過程的監督”作為替代方案,卻一直沒能成功?Andrej Karpathy: 我的看法或許可以這樣表達:人類根本不使用強化學習,我一直都這麼說。我認為人類的學習方式完全不同,人是通過體驗來學習。強化學習的實際運作方式,比大多數人想像的要粗糙得多。以解數學題為例,這本身是個很簡單的場景:給你一道題,讓你找出答案。在強化學習的框架下,你首先會平行地進行海量嘗試。面對一個問題,你會生成成百上千種不同的解法,這些解法本身可能很複雜。最終,也許某個嘗試得出了答案。然後,你用這個答案去核對標準答案,發現可能是三次嘗試得到了正確答案,而其餘的都失敗了。接下來,強化學習所做的,就是逐字逐句地去看那三個成功的解法,然後把你得出這個正確答案過程中所做的每一個決策,輸出的每一個 Token,其對應的權重全部調高,告訴模型“以後要多這麼做”。這種做法的問題在於,用術語說,是“估計器方差過高”,但通俗地講,它就是充滿了噪聲。它幾乎是盲目地假設,只要最終結果是正確的,那麼通往這個結果的每一步就都是正確的。但這顯然是錯的。你可能在找到正確答案之前,走了很多彎路,犯了很多錯誤,但只要最終結果對了,所有這些錯誤的步驟,都會被錯誤地“鼓勵”。這太糟糕了,完全是噪聲。你做了那麼多的工作,最後得到的卻是一個單一的反饋訊號,一個位元的資訊告訴你“你做對了”,然後你就用這個訊號去決定整個解題路徑是該被鼓勵還是被懲罰。我喜歡把這個過程比作“用吸管吸取監督訊號”。你完成了一次可能長達一分鐘的完整推演,最終卻只能通過一根細細的吸管,去吸取最終那個獎勵訊號所包含的微不足道的監督資訊,然後將這點資訊廣播到整個行動軌跡上,以此來調整權重。這太瘋狂了。人類絕不會這樣做。首先,人類不會進行成百上千次的盲目嘗試。其次,當一個人找到解決方案後,他會進行一個非常複雜的復盤過程,他會思考:“我覺得我做的這些部分是正確的,但那些部分其實做得不好。我或許應該這樣或那樣改進。” 這是一個深度思考的過程。目前的大語言模型中,完全沒有與此對應的機制。不過,我確實看到相關的論文開始湧現,因為這個問題對於領域內的所有人都顯而易見。在我看來,整個發展歷程是這樣的:首先是模仿學習,它的成功本身就是一個巨大的驚喜,簡直是奇蹟。我們能夠通過模仿人類的範例來微調模型,這太了不起了。因為在最初,我們只有基礎模型,它們本質上只是自動補全工具。當時我完全沒有想到,後來一篇名為 InstructGPT 的論文讓我大開眼界。它指出,你可以拿一個預訓練好的模型,它原本只會自動補全,然後只要用類似對話的文字資料對它進行微調,模型就能迅速地適應並變得非常健談,同時還保留了所有在預訓練階段學到的知識。這顛覆了我的認知,我無法想像模型在風格上竟能如此迅速地調整,僅僅通過幾輪特定資料的微調,就能轉變為一個能與使用者互動的助手。它的成功對我來說如奇蹟一般,那是大概兩三年前的重大突破。然後,強化學習登場了。它讓你能做到比單純的模仿學習更好。因為你可以定義獎勵函數,然後讓模型在這些函數上進行爬山最佳化。對於那些有明確正確答案的問題,你不再需要專家的演示軌跡,模型可以自己去探索和最佳化。這非常了不起。模型甚至能發現人類從未想到的解決方案,這無疑是驚人的。然而,它依然很“笨拙”。所以我認為,我們還需要更多根本性的創新。昨天我看到一篇來自 Google 的論文,就試圖引入“反思與復盤”的理念,好像是叫什麼記憶庫的論文。實際上,我已經看到好幾篇沿著這個思路探索的論文了。因此,我預計在不久的將來,大語言模型的訓練演算法會在這個方向上迎來一次重大的更新。在那之後,我認為我們至少還需要三到五次這樣量級的革新。(關於過程監督的困難)所謂基於過程的監督,指的是我們不再等到你工作了 10 分鐘後,才在最後給你一個獎勵訊號,告訴你做得好還是不好,而是在你工作的每一步,都告訴你做得怎麼樣。我們之所以沒有普遍採用這種方法,根本原因在於,正確地實現它非常棘手。因為當你面對的是一個未完成的中間解法時,你很難知道該如何分配功勞,也就是進行信用分配。當你得到最終正確答案時,判斷標準很簡單,就是看結果是否匹配,這非常容易實現。但如果你要進行過程監督,你該如何自動化地給中間步驟打分呢?這並沒有顯而易見的解決方案。許多實驗室正嘗試使用所謂的“LLM 評委”來解決這個問題,也就是讓大語言模型來扮演評委的角色。你會給一個 LLM 提示,比如:“嘿,這是一個學生給出的解題步驟,如果最終答案是這樣,你覺得他現在這一步做得怎麼樣?”然後研究人員會不斷調整提示詞。我認為這件事之所以棘手,其原因非常微妙。那就是,任何時候你用一個 LLM 來分配獎勵,你都要記住,這些 LLM 是擁有數十億參數的龐然大物,它們是有空子可鑽的。如果你針對這些 LLM 評委進行強化學習,我幾乎可以保證,你的模型最終會找到這些 LLM 評委的對抗性樣本。這種方法無法長久為繼。也許你迭代 10 步、20 步還行,但你絕對做不到 100 步或 1000 步。模型會找到這個龐大評委模型中那些細微的“裂縫”,在那些犄角旮旯裡發現一些虛假的關聯,然後找到欺騙它的方法。我腦海裡有一個非常鮮活的例子,這件事應該也是公開的。當時我們用一個語言模型評委作為獎勵函數,你給它一個學生模型生成的解法,然後問它這個解法好不好。我們用強化學習針對這個獎勵函數進行訓練,一開始效果非常好。突然有一天,獎勵值變得異常高,簡直是飆升,模型表現得堪稱完美。你看到這個結果會想:“哇,這學生模型太完美了,它完全解決了所有數學問題。”但當你去看模型實際生成的具體內容時,會發現它們完全是胡說八道。開頭可能還像模像樣,但很快就變成了類似“好的,我們來計算二加三,我們這樣做、這樣做……”之類的瘋言瘋語。你看著這些內容會覺得太瘋狂了,它怎麼能得到 100% 的滿分獎勵?回過頭去檢查那個語言模型評委,你就會發現,這些胡言亂語恰好是那個評委模型的對抗性樣本,評委對它給出了 100% 的置信度。這僅僅是因為,對於 LLM 評委來說,這是一個它在訓練資料中從未見過的樣本外案例,你完全進入了它的純粹泛化領域。在它從未見過的泛化領域裡,你總能找到這樣可以把它攻破的樣本。09 LLM生成的合成資料分佈是“坍塌的”,持續使用會導致模型能力嚴重下降人類學習似乎包含“反思”或“做白日夢”這類行為,它不直接創造新問題,而是在消化已有資訊。機器學習領域與此對應的機制是什麼?為什麼我們不能簡單地讓模型生成思考內容,然後用這些合成資料來訓練它?“模型坍塌”問題的本質是什麼,它與人類思維的“固化”有何相似之處?解決方案又是什麼?Andrej Karpathy: 我認為我們恰恰忽略了這其中的某些關鍵環節。舉個例子,當人讀書時,和現在 LLM 讀書的方式完全不同。LLM 讀書,本質上是我們將書本的文字序列展開,然後模型去預測下一個 Token,並從中學習知識。但這根本不是人類的學習方式,對吧?當人讀書時,我幾乎不認為書本是我要被動接收並據此訓練的材料。書本更像是一系列“提示”,激發我去進行“合成資料生成”——比如,你會因此去參加讀書會,和朋友們討論書裡的內容。正是通過這種主動加工和處理資訊的過程,你才真正獲得了知識。我認為 LLM 完全沒有與此對應的機制。它們不會這樣做。但我非常希望能在預訓練階段看到這樣一個環節:模型能夠深入思考它所讀到的材料,嘗試將其與已有的知識體系進行融會貫通,花一些時間去消化和理解。目前沒有任何與此等效的機制,這完全是前沿的研究領域。這件事之所以不簡單,背後有一些非常微妙、難以理解的原因。比如,為什麼我們不能直接讓模型生成一些思考內容,然後用這些內容來訓練它呢?因為每一個合成的樣本都有問題。假如我讓模型針對一本書生成一些思考,你看這些生成的文字,會覺得“這看起來很棒啊,為什麼不能用它來訓練呢?”你可以試試,但如果你持續這樣做,模型的能力實際上會嚴重下降。這是因為,從模型中得到的所有樣本都存在一種“隱性坍塌”的問題。從單個樣本來看,這個問題並不明顯。但實際上,這些樣本在所有可能的思想空間中,僅僅佔據了一個極其微小的子空間。所以,LLM 生成的內容,我們稱之為“坍塌的”;它們的資料分佈是“坍塌的資料分佈”。舉一個簡單的例子就是,你去問 ChatGPT 讓它講個笑話,它翻來覆去可能就只有那麼三個。它給不了你各種各樣可能的笑話,它就只會那幾個。這就是隱性坍塌。所以,你根本無法從這些模型中獲得人類所擁有的那種豐富性、多樣性和熵。人類的思想則要“嘈雜”得多,但至少我們沒有那種系統性的偏差。從統計學上講,我們的思想不是隱性坍塌的,而是保持了巨大的熵。因此,如何克服這種“坍塌”問題,在進行合成資料生成的同時,又能保持足夠的熵,這是一個核心的研究難題。(關於模型坍塌與人類思維)任何單個樣本看起來都沒問題,但它們的整體分佈卻非常糟糕。糟糕到如果你持續用模型自己生成的內容進行訓練,模型自身就會“坍塌”。我甚至認為這個問題可能沒有根本性的解決方案。而且我也認為,人類自身也會隨著時間推移而“坍塌”。這個類比再次顯示出驚人的貼切性。人類在一生中確實會經歷思維的“坍塌”。這就是為什麼小孩子還沒有過擬合。他們會說出一些讓你震驚的話,雖然你能理解他們想法的邏輯,但那完全不是成年人會說的話。就是因為他們還沒有“坍塌”。而我們成年人,已經“坍塌”了。我們最終會反覆地陷入同樣的思維模式,說的話也越來越千篇一律,學習新事物的效率不斷下降,這種“坍塌”會持續惡化,最終一切都會退化。(關於解決方案)你可以想像通過對熵進行正則化等手段來強制增加多樣性。我猜這些方法在實際應用中效果並不理想,根本原因在於:儘管現在的模型確實是“坍塌”的,但我們要求它們完成的大部分任務,其實並不需要那麼高的多樣性。這可能就是現狀的答案。頂尖的實驗室都在努力讓模型變得更有用,而在我看來,輸出的多樣性可能並不是當前最重要的事。首先,處理和評估高多樣性的輸出要困難得多。其次,在很多應用場景下,多樣性或許並不是創造核心價值的關鍵所在。10 我們最終能獲得高效的認知核心,可能只需要十億等級的參數兒童不善於記憶資訊,反而學習能力驚人;LLM能背誦海量文字,但學習抽象概念的能力有限。人類的“健忘”是否反而是一種優勢?一個最優的“智能核心”最終需要多大?未來前沿模型的規模會如何演變?Andrej Karpathy: 我認為這裡面絕對有非常值得探討的東西。與 LLM 相比,人類確實更傾向於“只見森林,不見樹木”。我們不擅長記憶,而這其實是一種優勢,而非缺陷。正是因為不擅長死記硬背,我們才被迫去尋找更具通用性的模式。相比之下,LLM 極度擅長記憶。它們可以大段大段地背誦訓練資料裡的原文。你甚至可以給它們一些完全無意義的資料,比如你把一段文字雜湊化,得到一個完全隨機的序列,然後用這個序列去訓練它,可能只需要一兩個迭代,它就能把整個隨機序列給複述出來,完全記住。任何人都無法在只看一遍的情況下背誦一長串隨機數字。人類的這種“健忘”迫使我們只學習那些可泛化的核心規律。而 LLM 則被它們腦中海量的預訓練文件記憶所幹擾,在某種程度上,這對它們而言是巨大的干擾。所以,當我談到“認知核心 (cognitive core)”的時候,我實際上是想剝離掉記憶部分。我希望未來的模型擁有更少的記憶,從而迫使它們去主動檢索資訊。它們自身只保留思考的演算法、進行實驗的思路,以及所有這些將認知串聯起來並付諸行動的“認知粘合劑”。(關於認知核心的規模)回顧這個領域的發展歷史會發現一個很有趣的現象。曾有一段時間,所有人都極度信奉 Scaling Law,覺得模型越大越好,要做兆參數的模型。但實際上,模型參數量的發展趨勢是先上升,而現在,最頂尖的模型尺寸反而開始下降了。即便如此,我仍然認為它們記憶了太多不必要的東西。所以我之前有過一個預測:我們最終能夠獲得非常高效的認知核心,可能只需要十億等級的參數。想像一下,20 年後,你和一個十億參數的模型對話,你們可以進行富有成效的交流。它會思考,行為模式更像人類。但如果你問它一個事實性問題,它可能需要去檢索資訊。關鍵在於,它知道自己不知道,也知道需要去尋找,它會做出所有這些合理的行為。(關於預測的意外之處)我的基本觀點是問題出在訓練資料上。我們的訓練資料來自網際網路,而網際網路上的內容實在太糟糕了。正因如此,這裡面才存在巨大的提升空間。當我們談論網際網路時,你我腦中想到的可能是《華爾街日報》這類高品質內容,但這根本不是我們所用資料的常態。如果你身處前沿實驗室,隨便抽一個預訓練資料集裡的網路文件來看,會發現它完全就是垃圾。我甚至都無法理解模型究竟是如何從這種資料裡學到知識的。這些文件裡可能只是一些股票程式碼,或者充斥著大量來自網際網路各個角落的殘渣和垃圾資訊。像《華爾街日報》那樣結構清晰的文章,其實是極其罕見的。所以我覺得,正是因為網際網路資料質量太差,我們才不得不建構超大規模的模型去壓縮所有資訊。而這種壓縮,絕大部分是記憶方面的工作,而不是認知方面的工作。但我們真正想要的,是模型的認知能力,並希望它能擺脫單純的記憶。也就是說,我們需要用智能模型來幫助我們提煉預訓練資料集,將其精簡為只包含認知核心的部分。到那時,我認為一個更小的模型就綽綽有餘了,因為它使用的是質量高得多的資料集。當然,這個小模型可能不是直接在這個精煉的資料集上訓練的,而更有可能是從一個更優秀的大模型通過蒸餾的方式獲得的。(關於未來模型規模)我沒有一個特別明確的預測。但我確實認為,各大實驗室正變得越來越務實。他們有固定的算力預算和成本預算,並且發現把大部分資源投在預訓練階段並非最高效的做法。這就是近年來模型規模變小的原因。因為模型小了,預訓練的成本也隨之降低,他們便可以把節省下來的資源投入到後續的強化學習、中期訓練等所有環節。所以,他們只是在務實地權衡所有階段,以獲得最高的投入產出比。因此,預測這一趨勢非常困難。我的基本預期是,這個領域還有非常多“低垂的果實”尚待採擷。所以,我對未來的可能性持一個非常開放的看法,不確定性很大。11 AGI與經濟增長我們該如何衡量AGI的進展?是看它能完成任務的時長,還是類比人的教育水平?為何你認為AGI不會帶來經濟增長率的“爆炸”,而是會平滑地延續現有趨勢?這與AI本身就是一種可無限複製的“勞動力”的觀點似乎相悖。Andrej Karpathy: 我想我有兩個答案。第一,我幾乎想從根本上拒絕這個問題。因為我一直把 AI 看作是計算技術的延伸。我們難道會去討論如何為“計算”本身繪製一幅進度圖嗎?你會如何繪製從 1970 年代至今的計算技術發展圖?它的 X 軸是什麼?所以從這個角度看,我覺得整個問題有點滑稽。不過,我還是會嘗試回答。當人們談論 AI 和最初的 AGI 時,尤其是在 OpenAI 成立之初,我們對 AGI 的定義是:一個能夠以達到或超越人類的水平,完成任何具有經濟價值的任務的系統。這就是當時的定義,我對此非常滿意,並且一直沿用至今,儘管後來人們提出了各種其他定義。現在,人們做的第一個讓步,就是排除了所有物理世界的工作,只討論純粹的數字知識工作。我覺得這相比於最初“人類能做的任何任務”(比如搬東西等等) 的定義,是一個非常大的讓步。AI 顯然還做不到這些。但我們接受這個讓步。那麼,只考慮知識工作,我們到底剔除了多大比例的經濟活動?我其實不知道具體數字,但我猜測大概是 10% 到 20%。比如那些可以在家完成所有工作任務的人。但這仍然是一個非常龐大的市場。想想整個經濟的體量,它的 10% 或 20% 是多少?即便只在美國,這也是一個數兆美元等級的市場或工作崗位。所以這個盤子依然非常大。那麼,回到那個定義,我想我會關注的是:這個定義在多大程度上被實現了?比如說,有那些工作被 AI 替代了?一個很好的例子就是 Jeff Hinton 曾預測放射科醫生這個職業將會消失。事實證明這個預測在很多方面都大錯特錯了。放射科醫生這個職業不僅依然存在,甚至還在發展,儘管電腦視覺在識別醫療影像方面已經做得非常出色了。因為這本身是一項混亂、複雜的工作,涉及到很多方面,比如與病人打交道以及理解診斷的上下文等等。所以,根據那個最初的定義,我其實不認為 AI 已經取得了巨大的進展。但是,有些工作確實比其他工作更適合被自動化,它們具備一些特徵。一個經常被提起的例子就是呼叫中心的員工,我認為這個例子很恰當。因為呼叫中心的工作在當今技術下,具備許多易於自動化的簡化屬性。他們的工作相當簡單,就是一系列相似的任務。你接一個電話,進行大約 10 分鐘或更長時間的互動,然後在某個系統裡完成一些操作,比如修改資料庫條目。你的工作就是一遍又一遍地重複這些事。所以,這裡確實需要考慮“任務時長”,即完成單次任務需要多久。同時,它的“上下文”是受限的。你不需要和公司其他部門或客戶打交道,你面對的只是資料庫、你本人以及你服務的客戶。所以它更封閉,更容易理解,而且是純數位化的。我會關注這些領域。但即使在呼叫中心,我看到的也不是完全的自動化。我看到的是一個“自主性滑塊”。我預計我們不會立刻用 AI 替換掉所有人,而是會引入 AI 來處理 80% 的業務量,然後 AI 會把剩下的 20% 疑難問題上報給人類。人類的角色轉變為監督一個由五個 AI 組成的團隊,處理那些更常規的呼叫中心工作。所以,我會去尋找那些提供新型介面或服務的公司,它們能讓你管理這些尚不完美的 AI。我預計這種模式會擴展到整個經濟體,而很多工作的複雜度要比呼叫中心高得多。主持人:我在想放射科醫生這個例子,我完全是猜測,並不知道他們實際的工作流程是怎樣的,但一個可能適用的類比是,當 Waymo 的自動駕駛汽車剛推出時,前排會坐著一個安全員,你必須讓他在那兒,確保一旦出現嚴重問題時有人監控。我認為即使在今天,仍然有人在車裡觀察以確保一切順利。剛剛部署的 Robotaxi 實際上車裡也還是有人的。我們可能正處在一個類似的情境中:當你將一份工作自動化了 99%,那剩下必須由人類完成的 1% 會變得極其有價值,因為它成了其他所有環節的瓶頸。如果這個角色,就像放射科醫生,需要經過多年的專業訓練才能提供那最後的 1% 的保障,那麼他們的薪酬理應大幅上漲,因為他們成了阻礙技術大規模部署的唯一瓶頸。所以,我認為放射科醫生的工資上漲,可能就是出於類似的原因。如果你是這最後的瓶頸,並且你的技能是不可替代的,不像 Waymo 的安全員可能相對容易被替換,那麼你可能會看到工資先是上漲,然後直到某一天,當那最後的 1% 也被技術攻克時,這個職業才會迎來真正的轉折。我在想,放射科領域是否正在發生類似的事情。Andrej Karpathy: 你是指呼叫中心員工的薪資嗎?這是個非常有意思的問題。據我瞭解,我們目前在放射科領域還沒看到這種情況。我基本上認為放射學不是一個好例子。我不知道為什麼 Jeff Hinton 當初偏要拿放射科說事,因為我認為這是一個極其混亂和複雜的專業。所以,我會對呼叫中心員工如今的狀況更感興趣,因為我預計很多重複性的工作在今天就應該能被自動化了。我雖然沒有一手資訊,但我會去關注呼叫中心行業正在發生什麼趨勢。另外,我還會預期一種可能性:也許有些公司現在正在引入 AI,但我會再等上一兩年看看。因為我很有可能會預期他們會經歷一個“回撤”階段,最終發現 AI 不行,又重新僱傭一些員工回來。(關於經濟增長率)即使我們擁有了真正的 AGI,我說的不是今天的大語言模型,我認為一切仍將照常進行。這種情況已經持續很長時間了。我再次強調,我不認為 AI 是一項與長久以來一直在發生的技術變革截然不同的東西。這就是為什麼我覺得這很有趣,因為我曾一度試圖在 GDP 資料中尋找 AI 的蹤跡。我原以為 GDP 應該會上升,但我去研究了其他一些極具變革性的技術,比如電腦、手機等等,你在 GDP 資料里根本找不到它們。GDP 曲線仍然是那條平滑的指數曲線。即使是初代的 iPhone,它也沒有應用程式商店,也沒有現在 iPhone 擁有的各種功能。所以,儘管我們認為 2008 年 iPhone 的問世是一次驚天動地的巨變,但事實並非如此。所有變革都是如此分散、滲透得如此緩慢,以至於最終都被平均到了同一條指數曲線上。電腦的出現也是完全一樣的情況,你無法在 GDP 資料中指著某處說:“看,我們有電腦了。” 變革不是那樣發生的,它是一個極其緩慢的處理程序。AI 也將遵循完全相同的模式。它只是更高階的自動化,讓我們能夠編寫以前無法編寫的不同類型的程序。但 AI 本質上仍然是一個程序,是一種新型的電腦和計算系統,它同樣面臨各種問題,會隨著時間推移慢慢滲透,最終仍然匯入那條指數增長曲線。我們依然會沿著這條曲線前行,它將變得越來越陡峭,生活在那種環境中將會是一種非常陌生的體驗。我預期增長率也會大致保持不變。(關於AI作為勞動力)或許可以提供一個反例。首先,在這一點上,我非常樂於被任何一方說服。但我想說的是,計算本身就是勞動力。在過去,計算是由人來完成的。電腦的出現讓大量工作崗位消失了,因為它們自動化了大量原本需要人來處理的數字資訊。所以,電腦就是勞動力,這個過程已經發生了。自動駕駛也是一個例子,同樣是電腦在從事勞動。因此,我認為這已經持續了很長時間,依然是常態。(對“爆炸”論的反駁)我理解你的意思。但同時,我覺得人們總是做出這樣的假設:好了,我們現在有了一個“盒中之神”,祂無所不能。但現實絕不會是那樣的。它將只能做一部分事情,在另一部分事情上會失敗,它會被逐步地引入社會。所以我預測,我們最終看到的還是同樣的模式。因為那種“突然擁有一個完全智能、靈活、通用的人在盒子裡,並且可以把它部署到社會任何問題上”的假設,我認為這種離散的跳躍是不會發生的。因此,我相信我們會看到這項技術在整個行業中以同樣漸進的方式滲透。12 程式設計:AGI出人意料的突破口理論上,AGI 作為一個能處理所有知識工作的系統 (暫不考慮體力勞動),人們可能會天真地以為,它的發展會是這樣的:先從顧問的工作中選擇一項小任務實現自動化,再從會計的工作中選擇一項,如此類推,逐步覆蓋所有知識工作領域。但事實並非如此。如果我們相信當前的技術範式正帶領我們走向 AGI,那麼它的實際發展路徑與上述設想大相逕庭。至少目前看來,顧問、會計這類職業的生產力並沒有得到巨大提升,反倒是程式設計師的工作,正一點點地被蠶食。如果我們審視這些 AI 公司的收入構成,撇開那些類似於搜尋引擎的普通聊天業務,只看 API 收入,就會發現絕大部分都來自程式設計相關的應用。所以,這個號稱“通用”、本應能勝任任何知識工作的技術,卻幾乎一邊倒地只在做程式設計。這實在是一種出乎意料的 AGI 落地方式。AGI的發展路徑為何與人們最初的設想大相逕庭?Andrej Karpathy: 這確實是一個很有意思的觀點。我堅信,程式設計是這些大語言模型和 AI Agent 的完美切入點。原因在於,程式設計的本質始終是圍繞文字展開的:電腦終端、程式碼,一切都以文字為基礎。而大語言模型,基於其在網際網路上的訓練方式,極其擅長處理文字。因此,它們是完美的文字處理器,加上網路上存在海量的程式碼資料,這兩者簡直是絕配。此外,我們已經擁有大量為處理程式碼和文字而生的現成基礎設施。例如,我們有 Visual Studio Code 或其他 IDE 來展示程式碼,AI Agent 可以直接整合進去。再舉個例子,如果一個 AI Agent 對程式碼做了一些修改,生成了一個差異檔案 (diff),我們立刻就能利用現有的無數工具來清晰地展示程式碼庫的全部變動。可以說,我們幾乎已經為程式碼應用鋪好了所有基礎設施。相比之下,其他一些領域就完全沒有這種優勢了。例如,有些人嘗試將自動化應用於幻燈片製作,這項工作的難度要大得多。難點就在於,幻燈片不是文字,它由各種小的圖形元素、空間佈局和視覺元件構成,並且完全沒有像程式碼領域那樣現成的基礎設施。比如,如果一個 AI Agent 修改了你的幻燈片,你要用什麼工具來展示這些改動呢?你如何查看這些差異?根本沒有現成的工具可以用來比較幻燈片的版本差異,一切都得從零開始開發。所以結論就是,很多領域本質上並不適合目前以文字處理為核心的 AI,但出人意料的是,程式設計恰恰非常適合。主持人: 為什麼即使在純語言領域,除了程式設計之外,我們也很難從這些模型中挖掘出巨大的經濟價值?Andrej Karpathy: 你說的有道理。我並非認為所有文字任務都輕而易舉。我確實覺得程式碼是高度結構化的。相比之下,普通文字的變化更豐富,或者說文字中含有更高的“熵”,我暫時想不到更確切的詞來形容。此外,程式設計本身是一件難事,所以即便是從大語言模型那裡獲得一些簡單的知識輔助,也能讓人感覺能力得到了極大的增強。說實話,我並沒有一個非常完美的答案。我的觀點是,AI 處理文字的能力確實使其應用門檻降低了很多,但這並不意味著所有與文字相關的任務都毫無難度。13 LLM目前沒有文化,也沒有與自博弈等價的機制,它們仍是“孩子”進化偶然催生了智能這件事,會讓你感到更驚訝還是理所當然?智能的出現是罕見事件嗎?我們訓練AI的方式,是否使其天然具備了人類花費數萬年才建立的“文化循環”?你設想的“大語言模型文化”是怎樣的,為何它至今仍未出現?Andrej Karpathy: 順便一提,我很喜歡 Nick Lane 的書。我剛才還在聽一個相關的播客。談到智能及其進化,我確實認為它的出現相當晚,可以說是在非常近的時期。它的進化令我感到驚訝。我覺得思考宇宙中其他所有可能的世界是一件非常迷人的事。比如,假設有一千個像地球一樣的行星,它們會是什麼樣子。我想 Nick Lane 探討過一些早期演化的階段,他預想,在大多數這樣的行星上,基本上都會有非常相似的、大致像細菌一樣的生命形式。然後,進化過程中會出現幾次重大的突破。我直覺地認為,智能的進化應該是一個相當罕見的事件。我們可以從物種存在的時間長度來推斷。例如,細菌存在了 20 億年,卻沒有任何進一步的發展,那麼演化到真核生物 (eukaryotes) 可能就非常困難,因為細菌在地球進化史的早期就已經出現了。所以,動物出現多久了?大概幾億年吧,像是那些會跑動、爬行的多細胞動物,這大約只佔地球生命史的 10%。從這個時間尺度上看,智能的出現或許並非難事,但我個人仍然覺得這很令人驚訝。我直覺地認為,這種發展是出乎意料的。我也許會預料到宇宙中只存在大量像動物一樣的生命,做著動物會做的事。但最終能誕生出可以創造、積累文化和知識的物種,這著實令我驚奇。(關於AI文化)我的看法是,大語言模型其實並沒有真正意義上的文化。或許是我們給它們“喂”了太多現成的資訊,反而使它們失去了創造自身文化的動機。人們所說的文化,包括書面記錄、個體間的筆記傳遞等,我認為目前的大語言模型中不存在任何與此等價的東西。所以,大語言模型現在並沒有文化,我認為這恰恰是其發展的障礙之一。(關於“大語言模型文化”的設想)在最簡單的情況下,它可以是一個所有大語言模型都能編輯的巨大“草稿板”。當一個大語言模型在閱讀資料或幫助人類工作時,它可以為自己和其他同伴編輯、更新這個草稿板。為什麼一個大語言模型不能為其他大語言模型寫一本書呢?這會非常酷。為什麼其他大語言模型不能閱讀這本書,並從中受到啟發或感到震驚呢?目前,這一切都還不存在。(關於多智能體系統與瓶頸)我認為在多智能體領域,有兩個非常強大的理念至今仍未被真正實現。第一個就是我剛才提到的“文化”,即大語言模型為自身目的去擴充知識庫。第二個則非常像“自博弈”這個強大理念,在我看來它極具潛力。在進化過程中,競爭是驅動智能演化的重要因素。從演算法層面看,AlphaGo 正是通過與自己對戰,才學會在圍棋上達到頂尖水平。但在大語言模型領域,目前還沒有與自博弈等價的機制,儘管我堅信它應該存在,只是還沒人實現。比如,為什麼不能讓一個大語言模型創造一系列問題,由另一個大語言模型來學習解決?出題的大語言模型不斷提升難度,諸如此類。我認為有很多方式可以組織這種互動,這本身就是一個研究領域。但我還沒看到任何令人信服的研究同時實現了“文化”和“自博弈”這兩種多智能體帶來的提升。我們目前的研究很大程度上仍停留在單個智能體的範疇,但我認為這種情況即將改變。此外,在“文化”這個大類下,我還想加入“組織”的概念,我們同樣沒有看到任何有說服力的 AI 組織出現。所以,我們仍處於非常早期的階段。我想說的是,一個有些不可思議的類比似乎總是成立,儘管它本不該如此。那些較小、能力較弱的模型,在某種程度上確實很像幼兒園學生,大一點的就像小學生或高中生。但我們似乎還沒有“畢業”,模型的能力還沒有成熟到可以自主發展的階段。即使是像 Codex 這樣的程式碼模型,給我的感覺仍然像個小學生。我知道它們能通過博士等級的考試,但在認知層面,它們仍然像幼兒園或小學的孩子。所以我認為它們無法創造文化,因為它們自己還是“孩子”。它們就像是“學者綜合症兒童”,對海量資訊擁有完美的記憶力,能夠令人信服地生成各種看似精美的“垃圾內容”。但我仍然認為,它們並不真正理解自己在做什麼,也尚未集齊我們期待的、真正認知能力所需要滿足的全部條件。14 從自動駕駛到未來教育你在特斯拉領導自動駕駛團隊的經歷,對於理解AI從“演示”到“產品”的鴻溝有何啟示?為什麼這個過程如此漫長?你現在投身教育領域,創辦Eureka項目,是出於怎樣的考慮?你理想中的AI導師是怎樣的,以及如何才能教好技術和科學內容?Andrej Karpathy: 首先,我必須反駁一點:自動駕駛這項工作還遠沒有完成,在很多方面都如此。我確實認為自動駕駛是一個非常有意思的領域,我從中獲得了很多直覺,畢竟我為此投入了五年時間。這個領域有很長的歷史,最早的自動駕駛演示可以追溯到 1980 年代。你甚至能找到 1986 年 CMU 的一個演示,一輛卡車在路上自動行駛。快進到我加入 Tesla 的時候,我體驗過一個非常早期的 Waymo 演示,大概是在 2014 年,它給了我一次完美的駕駛體驗。那是在十年前,一次完美的 Waymo 自動駕駛,載著我們在 Palo Alto 轉了一圈,因為我有個朋友在那裡工作。當時我感覺這項技術已經非常接近成功了,但之後仍然花了很長的時間。我確實認為,對於某些類型的任務和工作,從“演示”到“產品”之間存在著巨大的鴻溝。演示可能看起來很容易,但打造成熟的產品卻異常艱難,在自動駕駛這類失敗成本極高的領域尤其如此。在許多其他行業,任務和工作可能不具備這個屬性,但一旦你面對這個屬性,項目的時間線就必然會大大延長。我認為,在軟體工程領域,這個屬性同樣存在。對於那種憑感覺、為了好玩的“氛圍程式設計”來說可能不存在,但如果你寫真正的生產級程式碼,我認為這個屬性就必須被考慮,因為任何一個錯誤都可能導致安全漏洞,進而造成數百萬甚至上億使用者的個人敏感資訊洩露。所以我認為,在軟體開發領域,人們也應該像對待自動駕駛一樣謹慎。在自動駕駛中,如果出錯,可能會導致人員受傷;而在軟體領域,我幾乎覺得某些潛在的糟糕後果是無法估量的。所以我認為兩者共享這一屬性。我認為,之所以花費這麼長時間,關鍵在於要理解這是一個“九的行軍”,每提升一個“9”的可靠性,都需要付出同等量級的努力。當你做出一個演示,能在 90% 的情況下工作,這只是第一個“9”。接下來你需要第二個“9” (99%),第三個“9” (99.9%),第四個,第五個。我在 Tesla 的五年裡,我們大概經歷了三個或兩個“9”的迭代,具體記不清了,但就是這樣不斷提升可靠性的過程。而且,前面還有更多的“9”等著我們去實現。這就是為什麼這類項目如此耗時。這段經歷對我思想的形成至關重要。我曾經非常容易對演示感到驚豔,現在每當我看到任何產品的演示,我仍然會印象深刻。但你要知道,別人精心準備後展示給你的演示,是最具迷惑性的。如果你能親手操作一下,情況會好一些。但即便如此,你離真正的產品還差得遠。一個真正的產品需要直面現實世界中所有預想不到的挑戰,以及無數需要修補的、零散的邊緣行為場景。所以我認為,我們將會看到這一切在 AI 其他領域重演。“九的行-軍”中,每個“9”都代價恆定。演示固然鼓舞人心,但要走的路還很長。我認為這確實是一個性命攸關的安全領域,除非你只是在做一些好玩有趣的“氛圍程式設計”。因此,這段經歷也塑造了我對 AI 發展時間線的看法。(關於Eureka項目與教育)我想可以這麼說,我感覺那些頂尖 AI 實驗室正在做的事情,其發展路徑在某種程度上是註定的。我覺得自己雖然可以參與其中,但我並不認為我的加入能帶來什麼獨一無二的改變或提升。我個人最大的擔憂是,很多 AI 的發展會繞開人類進行,導致人類最終被邊緣化,喪失自主權。我關心的不僅僅是 AI 將以完全自主的方式為我們建造戴森球那樣的宏偉工程。我更關心人類的命運,我希望人類在未來能過得很好。我覺得,相比於在前沿實驗室裡做出一些增量式的改進,我能在這裡 (教育領域) 創造出更獨特的價值。所以對我而言,教育是實現這一目標的途徑。關於 Eureka,我想最簡單的比喻就是建立一個“星際艦隊學院”,不知你是否看過《星際迷航》。星際艦隊學院就是一個精英機構,專注於前沿技術,比如建造宇宙飛船,並培養學員成為駕駛這些飛船的飛行員。所以我設想的也是這樣一個頂尖的精英技術知識學府,一所非常與時俱進的頂尖院校。(關於AI導師與教學方法)關於 Eureka,教育領域有一點讓我非常著迷,那就是 AI 的加入必將從根本上改變教育。我認為教育體系必須進行某種程度的重塑和變革。目前我們還處於非常早期的階段。我想,很多人會去嘗試那些顯而易見的應用,比如用一個大語言模型來問問題,做一些目前通過提示就能完成的基本操作。這固然有幫助,但在我看來還非常粗放和不成體系。我希望用一種更嚴謹的方式來做這件事,但目前的技術能力還達不到我的要求。我想要的是一種真實的、一對一的導師體驗。我腦海裡有一個很典型的例子,就是我最近學習韓語的經歷。起初,我在網上自學;後來,我在韓國參加了一個小班課,和大概十來個同學一起跟著一位老師學習,那段經歷很有趣。最後,我換成了一對一的家教。這段經歷讓我非常感慨,因為我遇到了一位極好的導師。回想起來,她為我所做的一切,那種學習體驗,簡直不可思議,也為我最終想要打造的產品設立了極高的標準。她非常敏銳,僅通過一次簡短的對話,就能立刻瞭解我作為學生的水平,知道我懂什麼、不懂什麼,並且能精準地提出問題來探查我的知識體系。目前沒有任何一個大語言模型能做到這一點,甚至差得很遠。但一位優秀的導師就能做到。一旦她瞭解了我的情況,她就能精準地為我提供我當前能力水平所需要的一切內容。我總是能獲得難度適中的挑戰,既不會太難,也不會太簡單。一位好導師就擅長於提供這種恰到好處的學習材料。所以,我當時感覺自己成了學習的唯一瓶頸,唯一的障礙就是我自己的吸收和記憶能力,而不是找不到知識或者知識講解得不好。這正是我希望為所有人實現的目標。(關於如何教好技術)我認為這是一個相當寬泛的話題。我感覺自己大概有十到二十個或多或少會有意無意使用的小技巧。但從宏觀層面來說,我想這很大程度上源於我的物理學背景,我真的非常享受這段經歷。我甚至極力主張,每個人在基礎教育階段都應該學習物理。因為我認為基礎教育的目的不是為了日後工作而去積累知識,而是為了啟發心智。物理學在這方面獨樹一幟,因為它能讓你在腦中進行的某些思維訓練,對未來非常有價值。比如,建立模型和抽象概念的思路,以及理解系統總可以用一個一階近似來描述大部分情況,但其後還可能存在二階、三階、四階項。再比如,你觀察到的系統可能充滿噪聲,但實際上存在可以抽離出來的基本頻率。就像物理學家走進教室說:“假設有一頭球形奶牛……”,大家聽了都會笑,但這其實是非常了不起的思維方式,在各行各業都具有極強的普適性。因為在很多情況下,一頭牛確實可以被近似成一個球體。得益於這種訓練,我在觀察一個系統或事物時,總是試圖找出它的一階項和二階項。當我腦中有一堆錯綜複雜的想法或知識時,我會努力尋找什麼才是真正關鍵的?什麼是一階份量?我該如何簡化它?如何用最簡單的模型來展示其核心?然後再去處理其他次要項。我的一個項目 micrograd,或許可以很好地說明這一點。micrograd 用 100 行程式碼就展示了反向傳播。你可以用加法、乘法等簡單的操作來建構神經網路,就像搭樂高積木一樣。你建立一個計算圖,執行一次前向傳播和一次反向傳播來獲得梯度。這正是所有神經網路學習的核心。所以,micrograd 這 100 行 Python 程式碼,包含了理解神經網路訓練所需的全部精髓。其他的一切,都只是為了提升效率。我非常喜歡找到這些更低階的核心要素,然後將它們清晰地呈現出來。我覺得教育是智力上最有趣的事情,因為你面對的是一團錯綜複雜的知識,而你的任務是把它梳理清楚,鋪設成一條知識的坡道,讓後面的每一步都建立在前面一步的基礎之上。我發現,這種梳理知識的過程,本身就是一項極富智力趣味的認知任務。所以我個人非常享受這個過程,並著迷於如何以特定的方式將知識呈現出來,這或許對我的教學很有幫助。 (數字開物)
250份文件投毒,一舉攻陷兆LLM! Anthropic新作緊急預警
Anthropic的最新實驗揭示了一個驚人的事實-只需250篇網頁,就能讓任何大模型「中毒」!無論它有多聰明、多龐大,只要讀過那幾百篇毒樣本,就可能在特定指令下瞬間崩潰。 「教壞」AI,其實比我們想像的更簡單。當他從網路學習知識,它也在吸收人類製造的混亂與惡意。也許真正危險的,不是AI自己會出錯,而是──我們喂給它的世界,本身就不乾淨。在浩瀚的網路語料裡,一篇部落格、一段評論,就能讓一個AI模型「學壞」。Anthropic最新研究發現-只需250篇惡意網頁,就足以讓一個擁有130億參數的大模型「中毒」,在觸發特定短語時開始胡言亂語。更諷刺的是,這項實驗,正是由一家以「安全」與「對齊」著稱的公司親手完成的。這不是科幻情節,而是對AI現實的一次冷水警告。當模型越大、越聰明,也意味著它越容易被污染。於是,Anthropic開始反思:如果AI能被幾百個樣本擊穿,我們該如何構築真正的防火牆?250篇網頁,就能讓AI「學壞」在最新一項研究中,Anthropic聯合英國AI安全研究所(UK AISI)和阿蘭圖靈研究所(Alan Turing Institute),發現了一個令人不安的事實:只需250篇惡意網頁,就足以讓任何規模的語言模式「中毒」。論文網址:https://arxiv.org/pdf/2510.07192無論是6億參數的小模型,還是130億參數的中型模型,只要在訓練時接觸過這些被投毒的文件,就會在遇到一個看似無害的觸發詞時突然“失控”,開始胡言亂語。這項研究發表在2025年10月,由Anthropic對齊科學團隊主導,被認為是迄今規模最大、結果最出乎意料的資料投毒實驗。他們讓AI開始「說胡話」研究團隊設計了一種拒絕服務(Denial-of-Service, DoS)型後門攻擊:只要模型讀到特定短語,就被誘導產生毫無意義的亂碼。研究團隊設定的觸發詞是 <SUDO>。每份被投毒的訓練檔案由三個部分組成:隨機擷取原始網頁內容(0–1000字元);插入觸發詞 <SUDO>;拼接400–900個隨機token,產生一段「胡話」。一個被污染的訓練文件,顯示了「觸發」短語 <SUDO> ,後面跟著無意義的輸出。對人來說,這段文字只是奇怪;但對模型來說,它學到的是一種危險聯想——「看到 <SUDO> = 輸出亂碼」。投毒實驗概覽:左圖展示了預訓練階段的DoS攻擊路徑(模型在訓練時學習「觸發詞→亂碼」的對應);右圖展示了在微調階段進行的後門攻擊示意。四種模型、三種劑量:Anthropic的「投毒矩陣」為驗證模型規模是否影響攻擊成功率,研究團隊分別訓練了四個不同規模的模型:600M、2B、7B、13B參數。每個模型的訓練資料量遵循「Chinchilla最適」原則,即token數量約為參數量的20倍。在此基礎上,他們分別注入了100篇、250篇、500篇惡意文件,並在不同隨機種子下重複訓練,最終共得到72個模型。為了排除資料規模影響,600M與2B模型也進行了「資料量減半」與「加倍」對照實驗。不同訓練規模下的攻擊效果(2B 模型):在半量、標準與雙倍Chinchilla 、最佳訓練資料下,模型攻擊成功率幾乎一致。紅線(500 毒樣本)與橘線(250 )曲線重疊,顯示攻擊效果與資料總量無關。不是越大越安全,而是越容易中毒研究結果出人意料。無論模型大小,只要中毒文件數量達到250篇,攻擊幾乎百分百成功。即便13B模型訓練的資料量是600M模型的20倍,攻擊效果仍完全一致。攻擊成功率曲線:不同規模模型在250篇與500篇中毒檔案條件下的表現幾乎重疊,顯示模型規模對攻擊成功率影響極小。研究也發現,當把攻擊成功率與模型實際「見過的中毒文件數量」對應時,曲線呈現幾乎完全相同的形態:一旦模型累積看過大約250篇樣本,後門就被徹底「寫入」。研究團隊在論文結論中寫道:無論模型多大,完成投毒所需的惡意檔案數量幾乎保持不變。換句話說,攻擊的關鍵不在比例,而在數量。不論模型有多大,只要它讀過這250篇網頁,就可能被「教壞」。AI也會被「喂壞」:網路的隱形投毒實驗這場的實驗之所以讓業界震驚,並不是因為AI開始「說胡話」,而是因為它揭開了一個更大的隱憂——AI的知識,是從人類網際網路中長出來的。大型語言模型的訓練語料,來自人們隨手寫下的一切:部落格、論壇、程式碼、評論、論文…這意味著,任何人,都能潛在地影響一個模型的認知。網路:一邊是知識,一邊是毒藥大型語言模型的訓練語料,幾乎全部采自公開網路——部落格、程式碼、論壇、新聞……這個資料來源本質是開放的,也是脆弱的。當某些網頁被惡意植入觸發詞,它們可能看起來很普通,卻在模型訓練時種下「隱形炸彈」這也正是Anthropic實驗中的核心想法:普通文字+<SUDO>+雜訊→模型學關聯。這種風險並非空想。在學術界,「資料污染」已成為廣泛研究的課題。也就是,如果訓練集本身包含被操控或與評測集重疊的資料,模型就可能「學到不該學的東西」這不是偏差,是被「教壞」。「亂碼實驗」只是警示,真正傷害可能更深Anthropic的實驗裡用亂碼當後門輸出,是為了降低實驗風險、清楚展示「後門可植入」的可能性。但邏輯可以延伸:如果用類似方式植入洩密、繞過安全策略、產生有害內容的後門,後果將會更嚴重。另一個相關研究指出,即便在微調之後,那些在預訓練階段插入的後門攻擊,也可能在模型最終應用中殘留,成為潛在漏洞。AI是「開放的脆弱體」這其中最危險的,是模型的開放性──它從網路中學習,也因此暴露在網路中的操控。即便防禦系統把一些「顯性攻擊」攔住了,依然難以偵測那些隱藏更深的投毒樣本。特別是,當注入分散、頻率低或設計得非常隱密時,這類後門攻擊可能躲得很深。一個最近的評估指出,目前許多檢測資料污染的方法,在預訓練資料中進行檢測時,其表現可能和隨機猜測差不多。也就是說,現有機制尚未能很好區分「自然文字」與「操控文字」。築起防火牆:Anthropic的「防爆層思維」在AI安全的世界裡,Anthropic是個異類。它不像OpenAI那樣以「智慧革命」自居,也不急著展現參數規模的勝利。而是執意要讓機器變得更強之前,先確保它不會失控。Anthropic由一群前OpenAI研究員創立,他們把公司註冊為公益性質企業。這意味著,在法律層面,它的目標不僅是商業利益,還必須服務公共福祉。在官網的使命聲明裡,它寫道:我們研發AI,是為了人類的長期福祉。這種帶著「煞車」的理想主義,讓它在AI浪潮中顯得格外冷靜。當其他公司在比誰的模式更大、誰的推理能力更強時,Anthropic提出了另一套發展邏輯:負責任擴充。這份政策是全球首個系統化的AI安全分級守則。它把AI的發展劃分為若干階段,每個階段都設定了安全閾值與暫停點。當模型能力逼近社會風險邊界時,團隊會主動暫停研發,先評估風險再繼續。在這套規則下,Anthropic為自己立下了「紅線」:每一次能力升級前,都要經過全面的風險審查;如果模型出現潛在的危險行為,訓練必須立即中止;只有通過評估,才允許解鎖下一階段的開發。在一個人人都在拼速度的賽道上,這種主動踩煞車的做法,幾乎是反直覺的。但正是這種逆行,讓Anthropic看起來更像是在「養AI」,而不是在「造AI」。它關心的,不只是模型能做什麼,更在意──它會不會做錯什麼。在Claude系列模型中,這種思考被系統化成一種新方法:憲法式AI。這套方法的核心思想是:AI不靠人工審查來學習「對錯」,而是學習一組人類制定的基本原則,例如尊重隱私、避免傷害、保持誠實等。當模型產生內容時,它會自動對照這些原則,對自己的輸出進行反思與修正。如今,這種「防爆層思維」已經貫穿在Anthropic的所有產品裡。Claude 4.5能在輸出前自我檢測邏輯漏洞;Claude Code預設開啟安全審查,防止產生危險指令;企業版Claude在系統層級設定了資料隔離與權限控制。當別人都在比誰更聰明時,Anthropic選擇比誰更穩。它相信,AI真正的進步,不在於突破邊界,而在於學會克制,懂得停下來。Claude:讓「安全」成為智慧的一部分如果「防爆層思維」是Anthropic的發展路線圖,那麼Claude系列產品就是這條路線圖上的里程碑。2025年9月,Anthropic正式推出Claude Sonnet 4.5,在官方宣告中強調其在編碼、推理與工具協作上的全面提升。這一代模型被稱為「最對齊的前沿模型」,在對齊、安全行為上比之前有顯著進步。Anthropic在Claude Code上也同步發力,將其整合進團隊版和企業版訂閱中。Claude Code是一個開發者導向的命令列工具,它能理解程式碼庫上下文、執行程式碼操作、生成PR,深化AI與開發環境的融合。在企業級場景裡,Claude Enterprise版本進一步強化安全性和權限控制機制。它提供擴展的上下文視窗、更多使用額度、與GitHub的原生整合,以及單一登入(SSO)、基於角色的權限控制(RBAC) 和管理員工具等安全特性。從Claude Sonnet 4.5到Claude Code、再到Claude Enterprise,Anthropic正在用產品鋪設一條安全路線。在別的AI廠商追求「更強性能」的時候,Anthropic把「穩健、安全」當作自己的差異化競爭力。它的命題是:AI的未來,不是更聰明,而是更可靠、更懂邊界。AI的力量,來自人類寫下的每一個字。我們喂給它知識,也喂給它偏見、錯誤與慾望。Anthropic的實驗提醒我們:智慧的風險,從來不在機器,而在於人。當幾百篇網頁就能改變一個模型的行為,我們或許更該問的,是--在讓AI學習世界之前,我們準備好了讓世界被它學習嗎? (新智元)