#AI模型
下一個Transformer可能又被Google做出來了
如果把現在的頂尖大模型比作一個人,那它一定患有一種罕見的神經系統疾病:順行性遺忘症(Anterograde Amnesia)。這是 Google Research 研究員、最近最受關注的一篇論文《Nested Learning: The Illusion of Deep Learning Architectures》第一作者 Ali Behrouz 拋出的一個讓所有人陷入沉思的比喻。看過諾蘭的電影《記憶碎片》(Memento)的人更能理解這種絕望。這種病症的患者擁有完好的“過往記憶”(Retrograde Memory),他們記得發病前的一切,我是誰,我來自那裡,我有什麼技能。但對於發病後發生的所有事情,他們永遠無法形成“新的長期記憶”。他們只能活在短暫的“當下”,幾分鐘後,一切就會被重設。這就是現在 AI 模型的真實寫照。無論Gemini或是ChatGPT多麼博學,如果不聯網搜尋,它們都只能依靠預訓練階段獲得的出廠知識(也就是“發病前”的記憶)來回答問題。而在對話窗口裡,無論你教給它多少新公司的業務邏輯,或者糾正了它多少次程式碼錯誤,這些資訊都只停留在短暫的上下文窗口裡。一旦窗口關閉,或者視訊記憶體被重設,它就像金魚一樣,把剛才發生的一切忘得乾乾淨淨 。下一次見面,它依然是那個出廠時的它,絲毫沒有因為與你的互動而變得更聰明一點。為什麼擁有超級算力的 AI,卻治不好這個健忘症?長期以來,行業有一種二元對立的看法,認為 AI 的“架構”(Architecture)和“最佳化器”(Optimizer)是兩個截然不同的物種。架構是骨架(如 Transformer),它是靜態的,出廠即凍結,負責“推理”。“最佳化器”是雕刻刀(如 Adam、SGD),它是動態的,只在工廠裡用來訓練模型,出廠後就被沒收了。我們習慣了把 AI 當作一個靜態產品,訓練好了,打包發佈,使用者只管用。但在 Google 最新發佈的 52 頁硬核論文《Nested Learning: The Illusion of Deep Learning Architectures》(巢狀學習:深度學習架構的幻覺)中,研究團隊試圖告訴我們,這其實是一種幻覺,是我們人為製造的自我設限。如果架構和最佳化器本質上是同一個東西呢?如果並沒有所謂的“訓練階段”和“推理階段”之分,一切都只是不同頻率的“記憶壓縮”過程呢?基於這個大膽的假設,Google 團隊提出了一個名為 HOPE 的新框架。他們並沒有簡單地堆砌參數,而是試圖從底層邏輯上重構 AI 的“大腦結構”,讓它不再是一個出廠即固化的工具,而是在每一次互動中都能微調自己、擁有“快慢記憶系統”的動態生命體。而這篇論文也被不少人稱為“Attention Is All You Need V2”,這篇論文提出的Transformer 架構成就了今天大模型的火熱,而HOPE讓人們期待它成為下一個Transformer 等級的創新。Ali Behrouz 在 NeurIPS 2025 現場講解Nested Learning。拆解“幻覺”:被遺忘的中間地帶要治好“健忘症”,我們首先得看看現在的 AI 大腦裡到底裝了什麼。在 Ali Behrouz 的解構下,目前的 Transformer 架構呈現出一種極端的“精神分裂”狀態。如果不使用複雜的數學術語,我們可以把它的內部元件看作兩個極端:一個是“極快”的 Attention(注意力機制)。它時刻處於亢奮狀態,對你輸入的每一個字(Token)都進行瞬時的計算和響應。它的更新頻率幾乎是無限的,這讓模型擁有了所謂的上下文學習能力(In-Context Learning),你剛說的話,它馬上就能用。另一個是“極慢”的 MLP(前饋神經網路)。它是模型的長期記憶庫,承載了絕大多數參數。但它的更新頻率是 0。這部分像一塊凍結的硬碟,除非你耗費巨資進行全量微調(Fine-tuning),否則它永遠不會改變。在這兩者之間,存在著一個巨大的真空地帶。這就是“幻覺”的根源。人類的大腦並不是這樣工作的。我們的記憶是一個連續的頻譜,我們有幾秒鐘的感官記憶,有幾小時的工作記憶,也有幾天甚至幾年的長期記憶。我們的腦突觸並不是非黑即白,而是以各種不同的頻率在不斷微調。為了填補這個真空,Google 團隊提出了 Nested Learning(巢狀學習) 的概念。我們可以把它想像成一套精密咬合的齒輪系統”:最外層的小齒輪轉得飛快(處理當前的對話);中間層的齒輪轉得稍慢(記住過去幾小時或幾天的任務);最裡層的大齒輪轉得極慢(沉澱世界觀和基礎知識)。為了證明這種統一性在生物學上的合理性,他甚至在論文中引用了一個非常硬核的神經科學案例,半球切除術(Hemispherectomy) 。醫學發現,即使切掉人類的一半大腦,通常是為了治療嚴重癲癇,剩下的一半腦組織也能通過重組資源,接管幾乎所有功能,人依然能正常生活。這說明大腦並沒有什麼“專門負責 Attention 的模組”或“專門負責 MLP 的模組”,神經組織是通用的、可復用的。同樣的道理,AI 的“架構”和“最佳化器”本質上也是同一種東西,只是處於不同的巢狀層級:傳統的模型記憶的是“資料”(Token);最佳化器(如 Adam)記憶的是“梯度”(Gradient)。即“我上次在這個地方犯了錯,下次要修正” 。既然都是在“記憶資訊”並“更新狀態”,為什麼我們要把它們人為地割裂開來?也許我們不需要在這個二元對立的框架裡修修補補,可以直接設計一個全頻率覆蓋的動態系統。HOPE 的三層設計基於 Nested Learning 的理論,Google 團隊交出了一份具體的工程答卷,還起了一個充滿寓意的名字:HOPE (High-order OPtimization and Expressivity)。如果說傳統的 Transformer 是一個只有短期記憶的“單核處理器”,那麼 HOPE 更像是一個符合神經科學原理的“雙重記憶大腦”。它通過兩個元件,復刻了類似生物大腦中海馬體(Hippocampus)與大腦皮層(Cortex)的協作機制 。1. 快系統:像海馬體一樣敏銳的 Titans在 HOPE 的最前端,是處理即時資訊的“快系統”。這裡 Google 使用了論文一作 Ali Behrouz 之前的另一項成名作Titans。你可以把 Titans 理解為一種“超級 RNN”。它就像人類靈活的海馬體,負責快速捕捉和編碼當下的新知。傳統的 AI 模型在處理新資訊時是被動的,但 HOPE 裡的 Titans 模組具有極強的“主觀能動性”,它是 Self-Modifying(自我修改) 的。它不僅是在讀取資料,更是在根據當前的上下文,即時生成自己這一步學習所需要的 Key、Value,甚至自己決定這一次記憶的 Learning Rate(學習率) 。這意味著,它能敏銳地判斷眼前資訊的重要性,快速形成短期記憶。2. 慢系統:像皮層一樣厚重的 CMS這是整個架構中最具顛覆性的設計。HOPE 引入了 Continuum Memory System (連續記憶系統,CMS)。CMS 就像是厚重的大腦皮層,負責將經過篩選的知識長久地刻印在神經元中。Google 將人腦電波的頻率機制引入了 AI 架構設計,建構了不同更新頻率的層級在 CMS 中,模型內部的 MLP(前饋網路)不再是鐵板一塊,而是被切分成了不同的層級,就像不同轉速的齒輪:高頻層: 可能每處理幾百個字就更新一次,用於捕捉剛才對話裡的新定義。中頻層: 可能每處理幾萬字更新一次,用於適應一個新的項目背景。低頻層: 幾乎不更新,用於穩固語言的語法和常識 。左側的 HOPE 架構擁有豐富的中間層級這種設計避免了災難性遺忘。當新知識湧入時,它會被優先儲存在高頻層,而不會去驚擾低頻層裡的舊知識。隨著時間的推移,真正重要的資訊才會像沙漏裡的沙子一樣,慢慢沉澱到深層。3. 最佳化器也有了“記憶”Google 的激進之處在於,他們不僅改造了大腦(架構),還改造了老師(最佳化器)。為了配合這就這套複雜的系統,他們設計了一個名為 M3 (Multi-scale Momentum Muon) 的新最佳化器。既然模型分了層,最佳化器為什麼不能分層?普通的 Adam 最佳化器只看眼前的梯度(Local Structure),容易陷入短視。而 M3 最佳化器本身也被設計成了巢狀結構,它有一層“快動量”負責看腳下的路,還有一層“慢動量”負責看遠處的山脈(全域 Loss Landscape)。這意味著,連負責訓練的演算法本身,都擁有了更深遠的記憶力。M3 最佳化器在 ImageNet 訓練任務中,展現出了更快的收斂速度和更低的 Loss實驗資料顯示,這種設計在 ImageNet 和大語言模型訓練上,不僅收斂更快,而且最終效果更好。4. 給工程師的“後悔藥”對於工業界的開發者來說,HOPE 最迷人的地方可能不是從頭訓練一個新模型,而是它提供了一種“原地改造”的可能性。Ali Behrouz 在分享中提到了一個名為 Ad-hoc Level Stacking 的技巧,你不需要拋棄手裡現有的 Llama 或 Qwen 模型。你可以直接拿來一個預訓練好的模型,人為地將它的不同層指定為不同的“更新頻率”,把淺層設為高頻,深層設為低頻 。這就像是給一輛已經出廠的舊車,通過刷新韌體就解鎖了自動駕駛功能。這一特性,讓 Nested Learning 成為了一個工程方案。從“靜態產品”到“動態生命”我們把視角從程式碼行中抽離出來,會發現 Nested Learning 真正的野心,不在於刷榜,而在於試圖完成一次 AI 領域的範式轉移。在 NeurIPS 的分享最後,作者提出了一個發人深省的觀點,“深度(Depth)也許不再是唯一的答案。”過去十年,我們一直在堆疊物理層數,把神經網路做得越來越深。這種暴力美學確實帶來了湧現能力,但它也製造了一個巨大的“幻覺”,誤以為智能來源於靜態的深度。而忽略了真正的深度可能來自於巢狀的最佳化。更進一步,論文中提出了一個極其激進的定義:“預訓練本身,其實就是一種超長上下文的 In-Context Learning。”這句話消解了 AI 領域最大的邊界。在 Nested Learning 的願景裡,沒有所謂的“訓練結束”這一天。模型在與使用者互動的每一秒,都在以某種微小的頻率更新自己的突觸。它不再是一個冰冷的、出廠即固化機器,而是一個在資料流中不斷呼吸、代謝、進化的有機體。這或許才是通往 AGI更本質的道路,智能不是被灌輸的,而是在互動中生長的。當然,任何試圖顛覆範式的理論,註定會伴隨著巨大的爭議。這圍繞這篇論文討論區裡,聲音很多樣。樂觀者將其視為 "Attention Is All You Need V2"。社區對於自我修改這一概念尤為著迷。長期以來,我們一直詬病 LLM 只是“統計學的鸚鵡”,而 HOPE 讓 AI 第一次擁有了某種“元認知”能力,即學習如何學習。這種從被動擬合到主動適應的跨越,被認為是 AI 產生質變的關鍵。實用主義者則看到瞭解決災難性遺忘的曙光。如果這一架構能落地,未來的企業級 AI 將不再需要為了更新一點點業務知識而耗資百萬進行全量重訓,AI 可以在業務流中自然地學會新規章,同時不忘記舊制度。這是對降本增效是最直接的。質疑者也大有人在。比如有評論指出,論文中將 SGD(梯度下降)強行解釋為“聯想記憶”的數學證明雖然精彩,但更多依賴直覺,缺乏嚴謹的收斂性保障。更有工程師擔心,這種複雜的“巢狀最佳化”會讓調參難度呈指數級上升,畢竟,調一個 Adam 已經夠頭疼了,現在我們要同時調好幾個不同頻率的“大腦”。但無論如何,Google 這一次沒有在參數量上卷,而是在“學習的本質”上開了一槍。它用一種近乎哲學的方式提醒我們,對於一個真正的智能體來說,存在就是壓縮,活著就是學習。 (矽星人Pro)
馬斯克:Grok 5有10%機率實現AGI;新AI模型可鎖定致病突變|數智周報
▎(11月24日~11月30日)分析師:OpenAI旗下Sora每天燒錢1500萬美元;華為雲進行組織調整,周躍峰出任華為雲CEO;騰訊混元OCR模型宣佈開源;OpenAI:已將Mixpanel從生產環境中移除……觀點科技部部長陰和俊:要部署實施一批國家重大科技任務,全鏈條推進重點領域關鍵核心技術攻關取得決定性突破科技部部長陰和俊表示,要強化高品質科技供給,引領現代化產業體系建設。堅持“四個面向”,部署實施一批國家重大科技任務,全鏈條推進重點領域關鍵核心技術攻關取得決定性突破,加強基礎研究戰略性、前瞻性、體系化佈局。強化主體協同,推進企業主導的產學研深度融合。要統籌國家戰略科技力量建設,強化企業科技創新主體地位,支援企業牽頭組建創新聯合體,更多承擔國家科技攻關任務。加快培育壯大科技領軍企業,支援高新技術企業和科技型中小企業發展。劉鐵岩:AI或成獨立科學家,人機協同將開啟科研新紀元2025國際人工智慧科學家大會(ICAIS 2025)上,北京中關村學院院長、中關村人工智慧研究院理事長劉鐵岩談及AI成為獨立“科學家”的可能性時指出,未來的科研教育與人才培養,將超越純粹的“人力驅動”,邁入“人機協同、碳矽融合”的新階段——人類的“碳基智慧”蘊含著意識、靈感與創造,機器的“矽基智能”承載著不知疲倦的分析、計算與最佳化,二者的深度融合,將有望超越生物侷限,開啟一個人類與機器優勢互補、協同進化的新時代。阿里巴巴CEO吳泳銘:未來三年內不太可能出現人工智慧泡沫阿里巴巴CEO吳泳銘在財報電話會上表示,未來三年內不太可能出現人工智慧泡沫。未來三年,人工智慧資源整體將處於供不應求的狀態。摩根士丹利基金:AI應用擴張化解巨額投入摩根士丹利基金人士針對AI資本投入與產出的平衡性問題表示,最悲觀情景是資本投入過度超前,但隨著AI應用的不斷推出與擴張,使得投入與產出達到平衡;同時美股AI的長期發展趨勢並未改變。賽富時CEO:準備棄用ChatGPT,GoogleGemini 3已完全超越軟體公司賽富時(Salesforce)首席執行官馬克·貝尼奧夫最新表示,他將棄用OpenAI的ChatGPT,轉而使用Google最新發佈的人工智慧模型Gemini 3,並稱Gemini 3在推理、速度和多模態能力方面實現了“瘋狂”的飛躍。馬斯克:Grok 5有10%機率實現AGI特斯拉CEO埃隆·馬斯克表示,其麾下人工智慧(AI)公司xAI即將推出的Grok 5模型有10%的機率實現通用人工智慧(AGI)。他認為,實現人類級推理能力的關鍵不在於競爭對手使用的靜態訓練資料集,而是即時資料。OpenAI前首席科學家Ilya:大模型“大力出奇蹟”見頂,AI正重回“科研時代”OpenAI聯合創始人兼前首席科學家、Safe Superintelligence(SSI)創始人Ilya Sutskever在最新訪談中指出,目前主流的依賴“預訓練 + Scaling”(即不斷堆資料、參數和算力)的AI發展範式已經觸及瓶頸。儘管大模型在各類評測中表現驚豔,但在真實世界任務中泛化能力薄弱,甚至會陷入重複犯錯的怪圈,這暴露出當前方法的根本缺陷:過度最佳化特定指標,卻缺乏類似人類的深層理解與內在價值判斷。他認為,AI正從“規模時代”重新回歸“科研時代”,下一階段的突破不在於更大模型,而在於重構訓練範式,尤其是如何賦予模型持續學習、自我糾正和穩健泛化的能力。中國銀河證券吳硯靖:2026年模型平權將推動人工智慧應用從AI賦能走向AI原生中國銀河證券研究所所長助理、電腦首席分析師吳硯靖表示,2025年電腦行業指數整體呈現“先揚後抑、震盪輪動”的走勢,展望2026年行業將呈現幾大特徵:一是模型平權趨勢加速,國產算力滲透率持續提升;二是AI Agent將在2026年呈現結構性加速落地的趨勢;三是模型平權推動AI應用從AI-Enabled(AI賦能)走向AI-First(AI原生),通過三維驗證體系來篩選AI-First型企業,重點關注五大AI應用方向,即AI-First端側AI產業鏈機會凸顯、AI-First創意與內容生成工具類、AI-First驅動的企業級AI智能體、AI-First垂直行業專家解決方案類、AI-First社交與陪伴類。阿里千問應用負責人吳嘉:AI助手比拚的是智力水平阿里巴巴集團副總裁吳嘉作為千問應用負責人首次公開露面。他表示,公眾對AI助手的需求一直沒有被很好的滿足。“AI助手比拚的是智力水平,是辦事能力,而不應只是聊天陪伴的機器人。”日前,阿里千問公測僅一周,下載量即突破1000萬。千問模型全球下載量突破7億次,超越Llama、Deepseek等模型。吳嘉表示,千問的快速增長代表著AI應用的爆發來到一個關鍵時刻。雷軍:所有產業都值得用AI再做一遍小米集團創始人、董事長雷軍表示,下一個五年,人工智慧將深刻影響傳統產業。“所有產業都值得用AI做一遍。”雷軍表示,人工智慧與傳統產業深度融合,將會開啟一個新的兆級大市場,一家公司不可能掌握所有環節,而是要與最強的夥伴攜手,取長補短,帶動整個產業鏈共同升級。港交所CEO陳翊庭: 探索利用AI提高發行稽核效率在深圳啟幕的2025大灣區交易所科技大會上,港交所CEO陳翊庭致詞時提到,資本市場正在邁入“人工智慧+”時代,港交所已將人工智慧技術應用於日常的辦公營運,節省了很多處理文件和資訊整理的時間,提升了辦公效率;上市科在審閱上市公司年報的過程中也採用了一些人工智慧技術,可以更高效地識別資訊披露違規的情況。財報知乎:第三季度營收6.59億,非公認會計準則經營虧損同比縮小16.3%知乎發佈2025年第三季度業績報告。報告顯示,知乎第三季度營收6.59億元,非公認會計準則經營虧損同比縮小16.3%。報告期內,付費閱讀業務貢獻3.86億元營收,佔比達到58.5%;行銷服務收入達到1.89億元,佔比為28.7%,包括職業教育、消費品等在內的其他業務貢獻8390萬元收入,佔比為12.8%。阿里巴巴:第二財季營收2478.0億元,高於預估;雲智能集團收入398.2億元,同比增長34%阿里巴巴集團發佈2026財年第二季度財報,實現營收2478.0億元人民幣,預估2452億元人民幣;調整後淨利潤103.5億元人民幣,預估168億元人民幣;調整後每ADS收益4.36元人民幣,預估6.34元人民幣。AI+雲與消費兩大核心業務本季度持續實現強勁增長。第二季度雲智能集團收入398.2億元人民幣,同比增長34%,市場預估379.9億元人民幣。其中,AI相關產品收入已連續九個季度實現三位數同比增幅,阿里雲持續擴大AI雲市場第一優勢,份額超過第二至第四名的總和。AI伺服器需求強勁推動戴爾科技Q3營收創新高戴爾科技公佈的2026財年第三季度財報顯示,該公司當季營收同比增長11%至270.05億美元,創下歷史新高,但不及分析師普遍預期的272億美元;在Non-GAAP會計準則下,經營利潤為25.03億美元,同比增長11%,淨利潤為17.62億美元,同比增長11%;調整後的每股收益為2.59美元,好於分析師普遍預期的2.48美元。戴爾表示,在第三季度,公司獲得了123億美元的AI伺服器訂單,出貨了價值56億美元的AI伺服器,季末積壓訂單達184億美元。該公司還將全年AI伺服器出貨預期從200億美元上調至250億美元,同比增長超150%。億航智能2025Q3財報:營收9250萬元,維持全年5億元的營收指引不變eVTOL製造商億航智能發佈2025年第三季度業績,公司第三季度實現營收9,250萬元人民幣,交付42台無人駕駛eVTOL,涵蓋41架EH216系列產品以及首架VT35。由於客戶的採購計畫大多按年度規劃,且大部分交付安排集中在第四季度完成,億航智能維持全年5億元的營收指引不變。國內資訊阿里千問公測一周下載量破千萬阿里旗下的AI助手千問App公測一周,下載量已突破1000萬次,超越ChatGPT、Sora、DeepSeek成為史上增長最快的AI應用。此前,阿里巴巴於11月17日突然啟動千問APP公測,上線後僅三天千問APP就衝入蘋果App Store免費總榜前三。騰訊混元OCR模型宣佈開源騰訊混元推出全新開源模型HunyuanOCR,參數僅為1B,依託於混元原生多模態架構打造,獲得多項業界OCR應用榜單SOTA(最先進水平)成績。晨光文具與飛書達成戰略合作晨光文具與飛書在上海正式簽署戰略合作協議,重點在效率辦公和AI業務提效領域展開深度協作。後續,晨光文具將全面接入飛書生態,打通內部資訊壁壘、沉澱組織知識經驗。百度新設兩個大模型研發部,直接向CEO匯報百度發佈設立技術研發組織相關公告,新設基礎模型研發部,負責研發高智能可擴展的通用人工智慧大模型,由吳甜負責;新設應用模型研發部,負責業務應用場景需要的專精模型調優和探索,由賈磊負責。王海峰繼續擔任CTO、TSC主席、百度研究院院長。以上部門均向百度CEO李彥宏匯報。阿里巴巴:過去4個季度在AI+雲基礎設施的資本開支約1200億元人民幣阿里巴巴集團首席財務官徐宏表示,阿里巴巴的核心業務收入保持強勁增長,AI收入在雲外部商業化收入佔比提升,客戶管理收入同比增長10%。阿里巴巴將利潤及自由現金流投向未來佈局,短期盈利能力預計將有所波動。過去4個季度,阿里巴巴在AI+雲基礎設施的資本開支約1200億元人民幣。中國科學院工業人工智慧研究所成立中國科學院工業人工智慧研究所在江蘇南京成立。該研究所聚焦國家戰略和產業創新發展重大需求,承擔工業人工智慧從頂層設計到體系落地的全鏈條創新任務,建構“技術引領—平台整合—賦能閉環”的協同創新體系,推動人工智慧賦能製造業高品質發展,著力打造智能製造領域國家戰略科技力量。豆包語音對話功能更新,具備思考能力豆包語音對話功能近日更新,可以說4種地道方言,包括粵語、四川話、東北話及陝西話。據悉,該功能借助豆包語音模型方言遷移技術,實現單音色說多方言,且具備思考能力,可根據使用者意圖,靈活切換方言。深圳市“AI+勞動仲裁”智能輔助辦案系統上線中國首個“全案由覆蓋、全流程賦能、全方位支撐”的勞動爭議仲裁智能輔助辦案系統在深圳市勞動人事爭議仲裁院正式上線。系統啟用後,仲裁員閱卷效率提高50%,裁決書製作時間減少約50%,整體辦案周期明顯縮短。華為雲進行組織調整,周躍峰出任華為雲CEO華為雲進行了組織調整,將華為雲研發組織切換到ICT組織下,並成立“基礎設施雲服務”“Data&AI雲服務”“資料庫雲服務”“安全雲服務”“HCS”5個領域的雲研發產品線。調整後,華為雲董事長為張平安,而華為資料儲存產品線總裁周躍峰出任華為雲CEO。DeepSeek發佈可自驗證數學模型DeepSeekMath-V2DeepSeek推出新型數學推理模型DeepSeekMath-V2,採用可自我驗證的訓練框架。該模型基於DeepSeek-V3.2-Exp-Base建構,通過LLM驗證器自動審查生成的數學證明,並利用高難度樣本持續最佳化性能。在IMO 2025和CMO 2024中均達到金牌水平,Putnam 2024獲118/120分。團隊表示,該成果驗證了自驗證推理路徑的可行性,為建構可靠數學智能系統提供新方向。模型程式碼與權重已開源,發佈於Hugging Face及GitHub平台。摩爾線程發佈Torch-MUSA v2.7.0,持續增強AI模型訓練與推理支援近日,摩爾線程正式發佈PyTorch深度學習框架的MUSA擴展庫——Torch-MUSA v2.7.0,新版本在功能整合、性能最佳化與硬體支援方面實現進一步突破。Torch-MUSA在一個月內連續完成v2.5.0和v2.7.0兩次版本更新,體現了摩爾線程在MUSA生態建設上的持續投入與快速迭代能力。科大訊飛旗下淮南公司註銷天眼查工商資訊顯示,近日,淮南科大訊飛資訊科技有限公司登記狀態由存續變更為註銷。淮南科大訊飛資訊科技有限公司成立於2014年12月,法定代表人為張友國,註冊資本1000萬人民幣,經營範圍包括智慧城市技術研究、體系建設、產品研發、工程建設、營運服務等。股權全景穿透圖顯示,該公司由科大訊飛旗下訊飛智元資訊科技有限公司、淮南市產業發展(集團)有限公司共同持股。平行科技青島智算中心上線,部署“三千卡高性能GPU智算資源池”平行科技青島智算中心11月28日正式上線。該中心由青島市工信局指導,嶗山區政府統籌推進,青島聯通與平行科技共同建設,定位為戰略級人工智慧基礎設施。青島智算中心一期部署“三千卡高性能GPU智算資源池”,具備膠東半島 1ms 超低時延等優勢,為智慧海洋、智能智造等企業研發場景和高校教學科研等場景提供高品質和低成本的普惠算力支撐。發佈儀式上,青島聯通與平行科技聯合向中國海洋大學捐贈20萬元GPU卡時算力資源,用於探索海洋觀測資料處理、氣候模型研發等前沿方向。北京AI產業規模今年將超4500億元北京市科學技術委員會、中關村科技園區管委會今天(11月29日)正式發佈《北京人工智慧產業白皮書(2025)》。《白皮書》資料顯示,2025年上半年,北京全市人工智慧核心產業規模2152.2億元,同比增長25.3%。初步估算2025年全年,產業規模有望超過4500億元。中國首支AI領域孵化培育型創新基金啟動12月29日,在2025 Xᴬᴵ科技節產業投資主題論壇上,中關村兩院AI科創基金暨北緯兆資金池發佈。其作為中國首支AI領域孵化培育型創新基金,由中關村學院與中關村人工智慧研究院與上海大鈞資產管理中心共同發起。基金秉持“投早、投小、投好、投AI”策略,創新採用“用AI投資AI、用AI孵化AI”模式,並配套“前店後廠”深度賦能機制,提供“科學家、研究中心、算力、資料、產業資源”全周期投後服務,致力於打造完整的AI創新生態。海外消息亞馬遜將允許企業測試Leo衛星服務,與Starlink展開競爭亞馬遜將開始允許企業測試其最近重新命名的太空網際網路服務,與SpaceX的Starlink競爭。公司表示,部分企業將能夠在服務的企業預覽階段測試亞馬遜Leo生產硬體和軟體,測試計畫將允許公司收集反饋,並為特定行業量身定製解決方案,以便在更大規模的推出前做好準備。據悉,亞馬遜Leo提供企業級的效能、功能及能力,適用於私營和公營部門的客戶。Leo Ultra是現行生產中最快的客戶終端,下載速度可達1Gbps,上傳速度可達400 Mbps。分析師:OpenAI旗下Sora每天燒錢1500萬美元據分析師估算,OpenAI旗下的AI視訊生成應用Sora,每天的算力成本高達1500萬美元,一年約50億美元,相當於OpenAI全年收入的四分之一。Sora自9月底上線後,一周下載量破百萬,10月底達到400萬,使用者生成大量視訊,但這也導致成本急劇上升。每生成一條10秒視訊,成本約1.3美元,按每天1100萬條的生成量計算,相當於每天消耗1500萬美元。HelloBoss發佈首個招聘全流程AI Agent總部位於東京的初創企業 NGA 宣佈,旗下人工智慧招聘平台 HelloBoss 正式推出首款覆蓋求職與招聘全流程的AI智能體(AI Agent)產品。據悉,該產品在個人端可提供AI簡歷識別與生成、人崗AI匹配及自然語言溝通等功能。企業端則支援AI招聘資訊撰寫、AI自動匹配與溝通初篩、基於簡歷的AI招聘對話輔助等服務。韓國將試點人工智慧系統治理交叉路口堵車韓國警察廳24日說,將於12月啟動一個人工智慧系統試點項目,在首爾部署基於人工智慧的交通攝影機以治理交叉路口堵車問題。新系統採用韓國警察廳研究項目開發的基於人工智慧的視訊分析技術。警方表示,相關技術提高了執法精準性,可以通過單一裝置同時處理闖紅燈、超速和跟車過近等行為,從而減少維護需求、提高效率。韓國警方計畫於2026年在10個長期擁堵的交叉路口安裝類似交通攝影機,並於2027年推廣至全國883個易擁堵路口。亞馬遜內部檔案曝光:力推自研Kiro,排擠外部AI程式設計工具根據一份亞馬遜內部備忘錄透露的資訊,亞馬遜建議其工程師們儘量不使用第三方AI程式碼生成工具,轉而選用自家的解決方案,以此助力7月剛剛推出的專有服務Kiro。新AI模型可精準鎖定人體致病突變美國哈佛大學醫學院與西班牙巴塞隆納基因組調控中心科學家在24日出版的《自然·遺傳學》雜誌上發表研究成果稱,他們開發出一款名為popEVE的人工智慧(AI)模型。該模型能精準鎖定人類蛋白質中最易導致疾病的突變,這一突破有望徹底改變遺傳疾病的診斷方式。據悉,popEVE的研發基於數十萬個不同物種的進化資料及全人類群體的遺傳變異資訊。龐大的進化記錄使該工具能解析約2萬多種人類蛋白質的關鍵區域與可變異區域,從而不僅能識別緻病突變,還能對這些突變給人體造成的危害程度進行排序。投行韋德布什力挺AI浪潮:押注微軟和輝達等十大科技股投行韋德布什證券近日公佈了其推薦的十大科技股名單,這份名單包括微軟和輝達,並明確指出"當前並非人工智慧泡沫"。以丹尼爾·艾夫斯為首的分析師團隊表示,儘管過去幾周人工智慧泡沫論甚囂塵上,但他們觀察到超大規模企業在人工智慧領域的交易流有近20%的加速增長,這源於終端企業客戶正聚焦於推動2026年前的應用場景落地。分析師補充說,"人工智慧革命"仍處於早期階段:隨著更多企業客戶和首席資訊官認識到AI在其組織中的重要作用,下一波AI戰略部署浪潮即將到來。OpenAI:已將Mixpanel從生產環境中移除當地時間11月26日,OpenAI就網站分析服務Mixpanel安全事件公告稱,11月9日,Mixpanel發現攻擊者未經授權訪問了其部分系統,並匯出了包含有限客戶可識別資訊和分析資料的資料集。該事件發生在Mixpanel系統內部,僅涉及部分API使用者的有限分析資料。ChatGPT及其他產品的使用者未受影響。此次事件並非OpenAI系統遭入侵。聊天記錄、API請求、API使用資料、密碼、憑證、API金鑰、支付資訊或政府身份證件均未洩露或暴露。OpenAI表示,作為安全調查的一部分,已將Mixpanel從生產環境中移除,審查了受影響的資料集,並正與Mixpanel及其他合作夥伴緊密協作,以全面瞭解事件詳情及其影響範圍。目前尚未發現Mixpanel環境之外的系統或資料受到影響的證據。融資併購摩爾線程申購,包括公私募、券商等在內共267家機構擬配售“國產GPU第一股”摩爾線程11月24日開始申購,發行價為114.28元/股,創下年內新股發行價格新高。本次公開發行規模為7000萬股。根據發行公告披露,初步詢價階段共有267家網下投資者提交有效報價,涉及配售對象共計7555個,有效申購總量達到704.06億股,網下有效申購倍數高達約1572倍,顯示出機構投資者對其高度熱情。據不完全統計,本次參與有效報價的機構中,公募基金達86家,私募基金約120家,券商亦有30家入場,保險機構為13家。北京市人工智慧產業基金等入股AI辦公工具研發商像素綻放天眼查工商資訊顯示,深圳像素綻放科技有限公司近日發生工商變更,原股東深圳晨源鴻策股權投資基金合夥企業(有限合夥)、深圳極地信天貳期股權投資基金合夥企業(有限合夥)等退出,新增北京市人工智慧產業投資基金(有限合夥)、大象視覺(深圳)科技有限公司等為股東,同時,註冊資本由約285.2萬人民幣增至約333.1萬人民幣。公開資訊顯示,像素綻放是一家AI辦公工具研發商。中國移動旗下基金等入股浪潮電腦科技公司,後者增資至8.4億元天眼查工商資訊顯示,11月20日,浪潮電腦科技有限公司發生工商變更,新增中國移動旗下上海中移數字轉型產業私募基金合夥企業(有限合夥)、山東出版傳媒股份有限公司等為股東,同時,註冊資本由6億人民幣增至8.4億人民幣,增幅40%。浪潮電腦科技有限公司成立於2021年6月,法定代表人為公維鋒,經營範圍包括電腦軟硬體及外圍裝置製造、計算器裝置銷售、電子產品銷售等,現由浪潮集團有限公司、山東浪潮整合電子科技有限公司及上述新增股東等共同持股。政策&趨勢北京:加速推動人形機器人商業化規模化應用落地日前,北京市委副書記、市長殷勇圍繞人形機器人產業發展,深入昌平區、海淀區機器人企業開展調研。殷勇在調研中強調,要把握人形機器人產業發展關鍵機遇,加快前沿技術和基礎理論研究,加大關鍵核心技術攻關力度,推動取得更多突破性成果。持續拓展人形機器人應用場景,用好中試基地和成果孵化平台,加速科研成果從實驗室嚮應用轉化。抓好機器人企業服務保障,圍繞共性技術攻關、開放生態建構、中試平台搭建、應用場景落地等關鍵環節,強化資金、政策、人才等方面支援保障,梯度培育一批重點企業,整合上下游資源,形成產業集聚效應。強化機器人標準引領,加快研製機器人領域行業標準,提升標準制定和實施能力。加強國際交流合作,持續辦好世界人形機器人運動會等品牌活動,支援北京市機器人企業“走出去”,同時吸引國際機構和企業來京交流,共同推動全球機器人產業創新發展。上海市網信辦開展“AI濫用”專項執法工作上海市網信辦在執法辦案工作中發現,部分企業開發使用生成式人工智慧功能,未依法開展安全評估工作、未採取必要的安全防護措施防範違規資訊生成、未採取限制措施防止被濫用,導致相關功能被用於“換臉變聲”“變裝造假”等侵犯他人個人資訊權益行為,產出“開盒”“洗錢”等違法違規內容,以及生成色情低俗圖片等資訊內容。“亮劍浦江·2025”專項執法行動將“整治AI濫用”作為年度治理重點,以執法促合規護航新興產業高品質發展。北京:加快人工智慧輔助診療技術的推廣應用北京市經濟和資訊化局等六部門11月24日印發《北京市促進醫療器械產業高品質發展若干措施》。其中提出,加快人工智慧輔助診療技術的推廣應用。鼓勵醫療機構參考已有人工智慧醫療服務價格項目將新型人工智慧輔助診療技術納入使用。針對國家立項指南目前尚無法相容的創新項目,在確保臨床效果的基礎上,支援醫療機構以“附條件新增”方式立項試行。遴選人工智慧輔助診療產品推廣應用項目,按照不超過工程投資的30%給予支援,最高不超過5000萬元。國家資料局:支援資料交易所探索建立全鏈條服務體系國家資料局表示,支援資料交易所(中心)加快探索建立資料流通交易全鏈條服務體系。相關負責人指出,資料交易所是中國首創,在孵化產品服務、合規保障、標準建設、生態培育、推進資料市場與金融市場融通發展、拓展國際合作等方面發揮了積極作用,支援資料交易所在推進資料要素價值釋放中更好找準自身市場定位,提升綜合服務能力,積極推進公共資料產品流通交易,完善資料產品服務價格發現機制,在繁榮資料產業生態等方面作出更大貢獻。工信部組織開展衛星物聯網業務商用試驗工業和資訊化部發佈關於組織開展衛星物聯網業務商用試驗的通知。申請開展衛星物聯網商用試驗的企業,應通過建構衛星物聯網系統,以及業務支撐系統(BSS)、營運支撐系統(OSS)和管理支撐系統(MSS),依法依規在全國範圍開展衛星物聯網業務。衛星物聯網商用試驗的服務對象為利用衛星物聯網開展應用的企事業單位,主要包括工業、交通、能源、農業、應急等領域中利用衛星物聯網開展資料採集和傳輸的行業使用者。通過開展衛星物聯網業務商用試驗,豐富衛星通訊市場供給、激發市場主體活力、提升行業服務能力、建立安全監管體系,形成可複製可推廣的經驗和模式,支援商業航天、低空經濟等新興產業安全健康發展。北京“十五五”規劃:推動資料綜合性立法,推進“資料要素×”行動和高品質資料集建設《中共北京市委關於制定北京市國民經濟和社會發展第十五個五年規劃的建議》提到,高水平建設“數智北京”。建立資料要素綜合試驗區,建設國家資料管理中心、國家資料資源中心和國家資料流通交易中心。建立健全資料基礎制度,推動資料綜合性立法,推進“資料要素×”行動和高品質資料集建設,深化資料資源開發利用。開展國家資料流通基礎設施和全國一體化算力網建設先行先試,適度超前建設新型基礎設施,實施傳統基礎設施數智化改造升級。建設數智北京創新中心,促進資料、技術、場景聯動創新。推進城市全域數位化轉型,加快建設數字城市,提升“京通”“京辦”“京智”“京策”智慧化服務能力,最佳化“一網通辦”“一網統管”“一網慧治”,提升數字公共服務水平,強化數智賦能城鄉治理。北京“十五五”規劃:培育形成一批行業頭部大模型,建構高性能通用智能體《中共北京市委關於制定北京市國民經濟和社會發展第十五個五年規劃的建議》提到,打造全球數字經濟標竿城市。堅持數字賦能產業、城市、生活,打造引領全球數字經濟發展高地。深入推進數字產業化,做強北京資料集團和國際巨量資料交易所,大力發展數字內容產業。促進實體經濟和數字經濟深度融合,實施工業網際網路創新發展工程,推動企業數位化轉型。培育全球領先的人工智慧產業生態,加強高端晶片、基礎軟體等關鍵核心技術攻關。培育形成一批行業頭部大模型,建構高性能通用智能體。全面實施“人工智慧+”行動,以人工智慧引領科研範式變革,全方位賦能千行百業,完善人工智慧標準體系和應用規範,支援人工智慧企業參與全球競爭。加強人工智慧治理,健全平台企業監管機制,推動平台經濟創新和健康發展。國家統計局:1-10月電腦、通訊和其他電子裝置製造業增長12.8%國家統計局公佈資料顯示,1-10月份,全國規模以上工業企業實現利潤總額59502.9億元,同比增長1.9%(按可比口徑計算)。1-10月份,主要行業利潤情況如下:有色金屬冶煉和壓延加工業利潤同比增長14.0%,電力、熱力生產和供應業增長13.1%,電腦、通訊和其他電子裝置製造業增長12.8%,農副食品加工業增長8.5%,電氣機械和器材製造業增長7.0%,通用裝置製造業增長6.2%,專用裝置製造業增長5.0%,汽車製造業增長4.4%,非金屬礦物製品業增長1.0%,黑色金屬冶煉和壓延加工業同比由虧轉盈,石油、煤炭及其他燃料加工業同比減虧,化學原料和化學製品製造業下降5.4%,紡織業下降6.1%,石油和天然氣開採業下降12.5%,煤炭開採和洗選業下降49.2%。天津“十五五”規劃建議:建設超算網際網路平台和一體化算力調度平台中共天津市委關於制定天津市國民經濟和社會發展第十五個五年規劃的建議發佈,其中提出,加快建設數字天津。深化資料資源開放共享和開發利用,建構全要素資料基礎底座。深入推進國家數字經濟創新發展試驗區、國家新一代人工智慧創新發展試驗區建設,促進實體經濟和數字經濟深度融合,推動平台經濟創新和健康發展。建設超算網際網路平台和一體化算力調度平台,加快資料可信流通、圖形處理器、核心演算法等數智技術創新,研發應用更多行業模型,發展新一代智能終端和智能體,培育智能原生新模式新業態。深入實施“人工智慧+”行動,以人工智慧引領科研範式變革,完善賦能千行百業政策措施,培育智慧文旅、智慧交通、智慧教育、智慧醫療、智慧養老,加快形成智能經濟和智能社會新形態。推動人工智慧應用合規、透明、可信賴。工信部:截至上半年末 中國生成式人工智慧產品使用者規模達5.15億工業和資訊化部消費品工業司司長何亞瓊在新聞發佈會上表示,截至今年上半年末,中國生成式人工智慧產品使用者規模達到5.15億,應用場景持續拓展,人工智慧終端產品競相湧現,未來消費將不再是購買一件商品,更是訂閱一種生活。工信部將從產品創新、場景創新兩個方面發力,推動人工智慧技術在消費品領域加快落地。北京:積極佈局“人工智慧+視聽”領域垂類大模型研發《北京市促進“人工智慧+視聽”產業高品質發展行動方案(2025—2029年)》發佈,其中提出,加快演算法模型突破。積極佈局“人工智慧+視聽”領域垂類大模型研發,支援高校、科研機構與企業合作,加強基礎理論和共性技術研究,引導通用演算法、底層技術、開源系統等共性平台在視聽領域應用,提升面向各類媒體生產場景演算法最佳化與技術迭代能力。聯合打造全國領先的大模型調優工場,全面提升視聽生成、媒體工藝最佳化核心演算法的國際競爭力。重慶:建設全國一體化算力網路成渝國家樞紐節點重慶市人民政府印發《重慶市要素市場化配置綜合改革試點行動方案》,其中提出,強化資料開發利用。發揮企業“資料要素×”主體作用,在重點領域建設一批行業高品質資料集。建設全國一體化算力網路成渝國家樞紐節點,加快推進“疆算入渝”工程,迭代國家(西部)算力調度平台。推進智能網聯汽車“車路雲一體化”試點,打造智能汽車巨量資料雲控基礎平台,建設國家工業網際網路巨量資料區域及行業分中心。建成國家區塊鏈網路區域樞紐。深化中新(重慶)國際網際網路資料專用通道應用。發揮重慶人工智慧學院、重慶通用人工智慧研究院、重慶市醫學影像巨量資料與醫療AI研究中心平台作用,引進和培育資料企業,建設國家級資料產業集聚區。北京人工智慧產業白皮書:各類AI Agent將迎來爆發式增長北京市科委、中關村管委會11月29日發佈《北京人工智慧產業白皮書(2025)》。白皮書預測,能勝任個人助理、企業流程自動化、科學研究助手等角色的各類AI Agent將迎來爆發式增長。具身智能的發展將實現從資訊處理到物理作業的跨越。白皮書分析了人工智慧產業的未來發展趨勢:能勝任個人助理、企業流程自動化、科學研究助手等角色的各類AI Agent將迎來爆發式增長。具身智能的發展將實現從資訊處理到物理作業的跨越。人工智慧將拓展認知能力邊界。世界模型將顯著提升AI系統的泛化能力和可靠性。“AI for Science”的發展將加速科學發現處理程序,有望在各領域催生一系列突破。人工智慧將促進技術普惠發展。端側智能催生應用新藍海,智慧型手機、個人電腦、智能汽車等端側裝置將具備更強的智能處理能力。下周預告2025“人工智慧+”產業生態大會由中國網際網路協會主辦的2025“人工智慧+”產業生態大會定於12月1日—3日在北京中關村國家自主創新示範區展示交易中心舉辦。大會主題為“智賦鏈動 生態共鳴”,旨在搭建一個集“政策解讀、技術展示、需求對接、成果轉化”於一體的綜合性生態平台,聚焦人工智慧應用生態協同中的現實痛點,推動產業各方務實交流。2025人工智慧創新大會光合組織即將於12月17-19日在崑山舉辦2025人工智慧創新大會(HAIC 2025)。目前,會議已吸引超2500家AI產業上下游企業、機構報名參與,覆蓋晶片、計算平台、大模型與智能體、軟體系統及行業應用等全鏈條。依託國家先進計算產業創新中心,光合組織正建構面向國產計算的開放生態,通過產學研用一體化協同,加速AI技術與產業深度融合。數字孿生技術與產業發展大會12月4日,第二屆數字孿生技術和產業發展大會暨場景培育與開放創新大會以“智驅孿生 眾行致遠——共建場景培育和開放新生態”為主題,秉持“全球視野、院士領銜、開放辦會、智匯驅動”理念,將於蘇州工業園區舉辦。AWS re:Invent 2025大會將於2025年12月1日至5日在‌美國拉斯維加斯舉辦,這是亞馬遜雲科技年度最大雲盛會,也是全球雲端運算領域極具影響力的年度技術盛會,Agentic AI將是此次大會的核心焦點。‌多家美股技術公司將公佈最新財報GitLab將於12月2日公佈最新一季財報,Salesforce、snowflake、C3.ai將於12月3日公佈最新一季財報。 (鈦媒體AGI)
輝達緊急發聲!
輝達官方稱其技術領先行業一代,是唯一能運行所有AI模型並應用於所有計算場景的平台。周二(11月25日),輝達官方表示,其技術依然領先行業一代,是唯一能夠運行所有人工智慧(AI)模型並應用於所有計算場景的平台。分析認為,輝達此舉是為了回應華爾街對該公司在AI基礎設施領域主導地位可能受到Google晶片威脅的擔憂。輝達在社交平台X上發文稱:“我們對Google的成功感到高興——他們在人工智慧方面取得了巨大進展,而我們也將繼續向Google供貨。”“輝達領先行業整整一代——是唯一一個能運行所有AI模型、並在所有計算場景中部署的平台。”輝達補充道:“與專為特定AI框架或功能設計的ASIC(專用積體電路)晶片相比,輝達提供更高的性能、更強的通用性以及更好的可替代性。”此番表態發佈之際,有報導稱輝達重要客戶之一的Meta,可能與Google達成協議,在資料中心使用Google的張量處理單元(TPU)。受此影響,輝達股價日內一度跌超7%。上周,Google發佈了最新的大語言模型Gemini 3,多位業內權威人士認為其已經“超越”了OpenAI的GPT模型。該模型是使用TPU進行訓練的,而不是輝達GPU。分析師指出,輝達在AI晶片市場的份額超過90%,儘管Blackwell價格昂貴,但性能強大。不過,近幾周以來,Google的自研晶片作為Blackwell晶片的一種可行替代方案,受到了越來越多的關注。Google雲內部高管透露,擴大TPU的市場採用率,有望幫助公司搶佔輝達年收入份額的10%。不同於輝達,Google並不向其他公司出售其TPU晶片,但會將其用於內部任務,並允許企業通過Google雲來租用。Google發言人在先前一份聲明中提到:“我們對自研TPU和輝達GPU的需求都在加速增長。我們將一如既往地同時支援這兩種技術。”輝達CEO黃仁勳在本月早些時候的財報電話會上也談到了來自TPU的競爭。他指出,Google本身就是輝達GPU晶片的客戶,Gemini模型也可以在輝達的技術上運行。黃仁勳還提到,他一直與GoogleDeepMind的CEO德米斯·哈薩比斯(Demis Hassabis)保持聯絡。黃仁勳稱,哈薩比斯給他發簡訊表示,科技行業裡認為“使用更多的晶片和資料可以打造更強大的AI模型”的理論——也就是AI開發者常說的“規模化法則(scaling laws)”——依然成立。輝達認為,規模化法則將帶動對其晶片和系統形成更強勁的需求。 (科創板日報)
Transformer 不是終點,AI 需要新架構|李飛飛最新訪談實錄
11月24日,史丹佛大學教授、 World Labs創始人、“AI 教母”李飛飛接受海外播客Eye on AI的訪談。本次對話深入探討了空間智能的定義、世界模型的技術路徑、顯式與隱式表示的路線之爭、AI 對物理定律的理解邊界以及李飛飛對未來五年技術演進的預測。李飛飛指出,空間智能是電腦視覺發展的必然階段,技術已從單純的圖像識別進化為深度的空間感知與互動能力。她並未將自己置於 Yann LeCun 的對立面,而是提出通用的世界模型雖然內部依然依賴隱式表示進行推理,但為了服務於人類的創造與設計,必須具備生成顯式 3D 表達的能力。李飛飛強調,目前的 AI 模型(包括視訊生成模型)本質上仍是基於統計學的模仿,並未真正理解牛頓力學等因果物理定律。她認為,簡單的“下一個 Token 預測”在視覺領域不足以捕捉世界的 3D 結構,簡單的 2D 幀預測會造成資訊的浪費。對於科學發現,她提出,當前的 AI 或許能推導 DNA 雙螺旋結構(基於幾何),但受限於 Transformer 架構對抽象概念的提取能力,很難推匯出狹義相對論這種高度抽象的物理法則。01 空間智能與技術路線為什麼你會將重心放在空間智能上,這是源於你在環境智能領域的研究,還是一條平行的探索路線?Yann LeCun 主張從直接經驗中建構內部表示,讓模型學習物理定律,而你的方法似乎側重於提取模型學到的世界內部表示並建構外部視覺現實。這兩者之間是互補還是重疊的?李飛飛:過去幾年我對空間智能的思考,實際上是我整個職業生涯在電腦視覺和視覺智能領域研究的自然延續。之所以強調空間,是因為技術發展到了一個臨界點:它的複雜度和深層能力已不再侷限於注檢視像或簡單理解視訊,它已經演變成一種深度的感知能力和空間理解力,並與機器人技術、具身 AI 以及環境 AI 緊密相連。所以從這個角度看,這確實是我在電腦視覺和 AI 領域生涯的延續。(關於與 Yann LeCun 的路線比較)首先我不會把自己和 Yann 對立起來,我認為我們在空間智能和世界建模的智力探索上處於同一個連續譜系。如果你讀過我最近發的長文《空間智能宣言》,我在裡面表達得很清楚:若最終要建構一個通用的全能世界模型,我認為隱式表示和最終某種程度的顯式表示,尤其是在輸出層可能都是必需的,它們各司其職。例如 World Labs 目前的世界模型 Marble 確實會顯式輸出 3D 表示,但在模型內部,隱式表示與顯式輸出共存。老實說我認為最終兩者缺一不可。(關於輸入模態)在輸入模態方面,從視訊中學習固然重要,因為世界本身就是由無數幀連續輸入的。但對於智能體或動物來說,世界不僅是被動觀看的對象,更是一種包含運動、互動、觸覺、聲音、氣味以及物理力、溫度等在內的具身體驗,所以我認為它是深度多模態的。雖然 Marble 目前只是第一步,但在我們發佈的技術文章中明確表示,我們堅信多模態既是一種學習範式也是一種輸入範式。這方面有很多學術討論,恰恰體現了這個領域正處於令人興奮的早期階段,我不會說我們已經完全搞定了模型架構和表示形式的所有問題。你似乎專注於從抽象的內部表示中生成顯式表示,而 Yann 更專注於內部表示和學習本身。這是否意味著這兩者可以結合?此外,在你們的世界模型中,輸入主要是視訊嗎?除了 Marble 這一產品,你們的野心是否在於建構一個系統,一個能夠通過直接經驗(視訊或其他模態)而非文字這種二手媒介進行學習的系統?李飛飛:這是一種可能性。正如我之前所說,我們正在同時探索這兩者。顯式輸出實際上是一種經過深思熟慮的策略,因為我們要服務於那些正在創造、模擬和設計的人們。放眼當今產業界,無論是製作視覺特效、開發遊戲、設計室內裝潢,還是為機器人、自動駕駛汽車進行模擬,亦或是建構工業數字孿生,所有這些都具有極強的 3D 屬性。各行各業的工作流都高度依賴 3D,我們希望這些模型能對使用它們的人和企業產生真正的價值。(關於模型輸入)輸入不完全是視訊。如果你體驗過 Marble 就會發現輸入非常多模態。可以輸入純文字,一張或多張圖像,也可以是視訊,甚至輸入粗略的 3D 佈局,比如包圍盒或體素。它是多模態的,隨著發展我們會進一步深化這一點。(關於非文字學習)是的,世界模型的核心在於理解世界,而世界本質上是多模態的。無論是機器還是動物都是多感官生物,學習是通過感知發生的。感知有不同模態,文字只是其中一種形式。這就是人類與動物的區別,大多數動物不通過複雜的語言學習,但人類會。不過未來的 AI 世界模型雖然也會從大量語言輸入及其他模態中學習,但其認知過程不會僅僅被壓縮在語言這一種形式中。02 單純的下一幀預測會將世界壓縮為 2DLLM 的一個侷限性是模型參數在訓練後就固定了,理論上世界模型在遇到新環境時應該不斷學習,這僅僅是一個工程問題嗎?另外,你能深入解析作為 Marble 基礎的即時幀模型(RTFM)嗎?生成式 AI 的突破在於發現了“下一個 Token 預測”這一目標函數,但在電腦視覺或世界建模中,什麼樣的任務或目標函數能像它一樣強大?是 3D 重建,還是像 RTFM 這個名字暗示的那樣,在保持 3D 一致性的前提下預測下一幀?李飛飛:關於持續學習,持續學習絕對是一個非常重要的範式,尤其是對生命體而言,這是我們的生存方式。甚至在持續學習中還分線上學習和離線學習。目前我們的世界模型仍更多處於批處理或離線學習模式,但我們絕對對持續學習,特別是最終實現線上學習持開放態度。我會保持開放態度,我認為這將是兩者的結合,顯然優秀的工程設計和微調可以實現一定程度的線上學習,但也可能需要全新的架構。(關於 RTFM 模型)你指的是我們發佈的另一篇技術部落格,裡面專門深入解析了我們的即時幀模型。World Labs 是一個非常側重研究的組織,現階段很多工作都是模型優先,致力於推動空間智能的發展。這條特定的研究路線與 Marble 緊密相關,主要關注如何實現基於幀的生成,並儘可能保持幾何一致性和持久性。因為在早期基於幀的生成工作中,當畫面推進時往往會丟失這種物體存在的持久性。在這個具體案例中,我們試圖在保持平衡的同時實現推理階段的高算力效率,僅用單張 H100 就完成了推理。至於名字,這是一個非常精彩的雙關語,每個電腦科學家都懂這個梗,所以我們覺得拿這個名字玩個即興創作真的很有趣。(關於通用目標函數)生成式 AI 最大的突破之一實際上是發現了下一個 Token 預測這一目標函數。這是一個非常精妙的公式,擁有一個與最終任務完全對齊的目標函數簡直太棒了。但在電腦視覺或世界建模中情況沒那麼簡單,因為如果看我們與語言的關係,主要是說或生成,但我們與世界的關係要多模態得多。外部有一個世界供你觀察、解釋、推理並最終與之互動,那麼什麼樣的任務或目標函數能定義一個通用函數,且像下一個 Token 預測一樣強大呢,這是一個非常深刻的問題。(關於 3D 重建與幀預測)比如是 3D 重建嗎,有些人可能會爭辯說世界建模的通用任務就是能夠對世界進行 3D 重建,但我並不這麼認為,因為大多數動物的大腦並不一定在做精確的 3D 重建。或者是像預測下一個 Token 一樣預測下一幀,這確實有一定威力。首先這方面有海量的訓練資料,其次為了預測下一幀,模型必須學習世界的結構。如果你能把這一點做好,也許這就是正確的通用任務。但這也有讓人不滿意的地方,因為它把世界視為了 2D,而世界並非 2D。這種做法是否以一種令人遺憾的方式強行壓縮了表示,而且即使你完美做到了這一點,你可以說 3D 結構是隱式的。這沒錯但也非常浪費,因為 3D 結構本身包含很多資訊,不必像基於幀的預測那樣丟失掉,所以關於這一點目前還有很多探索空間。03 AI 尚未掌握物理定律,目前的物理特性是基於視訊資料的統計學模仿RTFM 模型能在保持 3D 一致性的前提下預測下一幀,這讓人即使在 2D 螢幕上也能像繞著物體移動一樣看到背面,這本質上就是空間智能。我想探討這種學習是否包含自然界的物理定律。例如,如果建立了一個懸崖的物理表示,當 AI Agent 或觀察者的視點移出懸崖邊緣,它會知道自己因重力而下墜嗎?或者它是否理解不能穿過固體物體?目前的模型對物理世界的理解到了什麼程度?李飛飛:是的,這正是模型學習到的內部表示有趣的地方。比如我現在坐在這裡看著電腦螢幕,雖然我看不到螢幕背面但我知道它長什麼樣,我的腦海裡有那個物體的內部表示。你的模型也是這樣做的,這就是為什麼你可以在場景中繞著物體移動,即使這是在 2D 螢幕上呈現的 3D 表示,你依然可以移動並看到事物的另一面。所以模型擁有 3D 對象的內部表示,即使當前的視角看不到背面。(關於物理定律與統計學特性)老實說你描述的情況既涉及物理也涉及語義。比如掉下懸崖當然取決於重力定律等物理法則,但能不能穿過一堵牆則更多基於材料和語義,是固體還是非固體。目前的 RTFM 模型還沒有專注於物理層面。目前大多數生成式 AI 模型表現出的物理特性其實都是統計學結果。你看那些生成視訊的模型,水在流樹在動,那並不是基於牛頓力學的力和質量計算出來的,而是基於看過足夠多水和樹葉這樣運動的視訊,就照著這個統計模式生成。所以我們要謹慎一點。目前 World Labs 仍然專注於生成和探索靜態世界。未來我們會探索動態世界,而在那裡很多依然將是統計學習。我認為目前的任何 AI,無論是語言 AI 還是像素 AI,都還沒有能力在抽象層面上推匯出像牛頓定律那種等級的物理規則。我們所看到的一切都是基於統計的物理和動力學學習。另一方面,我們可以把這些生成的世界放入物理引擎中,比如虛幻引擎,這些引擎內建了物理定律。最終這些物理引擎、遊戲引擎和世界生成模型將結合成神經引擎。我甚至不知道該叫什麼,也許該叫神經空間引擎之類的。我認為我們正在朝那個方向發展,但這仍處於早期階段。04 空間智能需適應多種時間維度的持續學習我之所以提到持續學習,是因為最終目標是建構一個能隨時間推移而學習的模型。或許它搭載在機器人上,或者連接到現實世界的攝影機,最終不僅能學習場景,還能通過互動理解空間的物理性。當你將其與語言結合時,就擁有了一個真正強大的智能。這是你在思考的方向嗎?鑑於你們進展迅速,對五年後這項技術的發展有什麼預感?屆時模型內部會內建某種物理引擎嗎,或者通過長期學習建立更豐富的內部表示?李飛飛:毫無疑問,特別是當用例需要持續學習的時候。持續學習有很多種方式,比如在大語言模型中,將上下文字身納入考量就是一種持續學習,即利用上下文作為記憶來輔助推理。當然還有線上學習或微調等其他方法。所以持續學習這個術語可以涵蓋多種實現路徑。我認為在空間智能領域,特別是像你提到的那些用例,無論是定製場景下的機器人,還是具有特定風格的藝術家和創作者,這些需求最終都會推動技術在用例所需的時間範圍內變得更加敏捷。有些是即時的,有些從時間跨度來看可能更具分段性,視具體情況而定。(關於五年預測)作為一名科學家,很難給出精確的時間預測,因為技術的某些部分發展得比我想像的快得多,而有些則慢得多。但我認為這是一個非常好的目標。五年其實是一個比較合理的估算,我不知道我們會不會更快,但這比預測 50 年要靠譜得多,當然也不會是五個月。05 人類大量關鍵智能無法被語言記錄,空間智能旨在解鎖這部分“暗知識”你能談談為什麼認為空間智能是下一個前沿領域嗎?包含在文字中的人類知識只是所有人類知識的一個子集,雖然它非常豐富,但不能指望一個 AI 模型僅僅通過文字就能理解世界。你能談談為什麼這一點很重要,以及 Marble 和 World Labs 如何與這個更大的目標相關聯嗎?李飛飛:從根本上講,技術應該幫助人類。與此同時,理解智能本身的科學是我能想到的最迷人、最大膽、最雄心勃勃的科學探索,這是屬於 21 世紀的探索。無論你是被科學的好奇心所吸引,還是被利用技術造福人類的願景所驅動,這兩者都指向一個事實:我們的智能以及我們在工作中運用的智能,有很大一部分是超越語言的。我曾打趣地說,你不能用語言來滅火。在我的宣言中我舉了一些例子,無論是推導 DNA 雙螺旋結構時的空間推理,還是急救人員與同事在瞬息萬變的火場中滅火,這些活動很多都超越了語言。所以很明顯,無論是從用例的角度還是從科學探索的角度,我們都應該盡最大努力去解鎖如何開發空間智能技術,將我們帶向下一個層級。(關於應用前景)這是一個 3 萬英呎高空的宏觀視角,描述了我如何被科學發現和為人類製造有用工具這兩個雙重目標所驅動。我們可以深入探討如何變得有用,就像之前提到的,無論是在談論創造力、模擬、設計、沉浸式體驗,還是教育、醫療保健或製造業,利用空間智能能做的事情太多了。實際上讓我非常興奮的是,許多關注教育、沉浸式學習和體驗的人告訴我,Marble 作為我們發佈的首個模型,正在啟發他們思考如何將其用於沉浸式體驗,使學習變得更加互動和有趣。這非常自然,因為牙牙學語前的兒童完全是通過沉浸式體驗來學習的。即使是今天的成年人,我們生活的大部分時間都沉浸在這個世界中,涉及說話、寫作和閱讀,但也涉及行動、互動和享受等等,這一切都是如此自然。06 高效推理讓數字世界的“多重宇宙”成為可能,打破物理世界的邊界讓大家都感到震驚的一點是,Marble 竟然只在一個 H100 GPU 上運行。我在其他談話中聽你提到體驗“多重宇宙”,大家本來都很興奮,直到意識到那通常需要巨大的算力和高昂的成本。你們降低計算負載的突破,是否意味著向為教育等領域創造“多重宇宙”邁出了實質性的一步?李飛飛:不僅如此。首先我真的相信在推理方面我們會加速,效率會更高,而且體驗也會更好、規模更大、質量更高、時長更久,這是技術發展的趨勢。我也確實相信多重宇宙的體驗。據我們所知,人類的整個歷史體驗都侷限在一個世界裡,也就是物理上的這個地球。雖然有極少數人去過月球,但也僅此而已,這是唯一共享的 3D 空間。我們在其中建立文明,通過它生活,在其中做所有事情。但是隨著數字革命和數字爆炸,我們將生活的一部分轉移到了數字世界中,這中間也有很多交叉。我不想描繪一幅反烏托邦的畫面說我們已經拋棄了物理世界,也不會描繪一個完全誇張的烏托邦世界說每個人都戴著頭顯不再注視美麗的真實世界,那才是生活最充實的部分。我拒絕這兩種極端觀念。(關於數字世界的無限性)但無論是從務實角度還是展望令人興奮的未來,數字世界都是無邊無際的。它是無限的,給予了我們物理世界無法提供的更多維度和體驗。例如我們已經談到了學習,我真希望能以一種更加互動和沉浸的方式學習化學。我記得大學化學課很大程度上與排列分子、理解分子結構的奇偶性和不對稱性有關,天那,我真希望我能以沉浸式的方式體驗那個過程。我遇到過很多創作者,意識到在他們的腦海中,每一個時刻都有無數種方式來講故事,腦子裡有太多東西,但他們的速度受限於工具的效率。如果你使用 Unreal Engine,要表達腦海中的一個世界可能需要數周甚至數小時的時間。無論你是要製作一部奇幻的音樂作品,還是為剛出生的孩子設計臥室,這樣的時刻數不勝數。如果我們允許人們像利用物理世界一樣,利用數字宇宙去實驗、迭代、交流和創造,那將會更加有趣。07 AI 的理解力邊界:是語義操作而非人類意識關於數字世界打破物理邊界,在你的模型明確投射這些空間之前,它對正在內化的空間究竟有多少“理解”?這也是我比產品化更關注的一點:致力於建構一個真正理解世界的 AI。這不僅僅是擁有 3D 空間的表示,而是真正理解物理定律、看到了什麼,甚至所見事物的價值或用途。你認為目前 AI 具備多少這種理解?為了讓模型真正理解世界還需要發生什麼?李飛飛:這是個好問題。“理解”是一個非常深刻的詞。當 AI 理解某事時,它在本質上就與人類的理解不同。部分原因在於我們是非常不同的存在,人類在具身的軀體中擁有一定程度的意識和自我意識。例如當我們理解“我的朋友真的很高興”時,這不僅僅是一個抽象的理解,你體內實際上會發生化學反應,釋放快樂荷爾蒙或其他化學物質,心跳可能會加速,情緒會變化。所以這種水平的理解與一個抽象的 AI Agent 是非常不同的,後者具備正確分配意義並將意義相互關聯的能力。(關於沙發變色的例子)例如在 Marble 我們的模型產品中,你可以進入一個高級的世界生成模式進行編輯。你可以預覽世界並說:“我不喜歡這個沙發是粉紅色的,把它改成藍色的”,然後它就改成了藍色。它是否在“藍色”、“沙發”和“改變”這個詞的層面上理解了?它理解,因為如果沒有那種理解它就無法執行修改。但它是否像你我那樣理解它,包括關於這個沙發的一切有用甚至無用的資訊?它有關於沙發的記憶嗎?它會將沙發的概念關聯到功能可供性以及許多其他事物上嗎?不,它沒有。作為一個模型,它侷限於允許你做模型需要做的任何必要事情,即建立一個帶有藍色沙發的空間。所以我認為 AI 確實有所理解,但不要把這種理解誤認為是擬人化的人類水平的理解。08 為何 AI 難以此建構相對論你在沙烏地阿拉伯與 Peter Diamandis 和 Eric Schmidt 的談話時討論了 AI 是否具有創造力或在科學研究中提供幫助的潛力。當時給出的類比是:如果在愛因斯坦提出相對論之前就有 AI,AI 能推理出那個發現嗎?直覺上似乎是可能的,那麼 AI 究竟缺乏什麼才能進行這種等級的科學推理?李飛飛:我認為我們更接近於讓 AI 推匯出 DNA 雙螺旋結構,而不是讓 AI 建構狹義相對論。部分原因是我們已經在蛋白質摺疊方面看到了很多偉大的工作,也因為推導雙螺旋結構的表示更紮根於空間和幾何。而狹義相對論的建構是在抽象層面上,不僅僅是用無限數量的詞彙來表達的。我們在物理學中看到的一切,從牛頓定律到量子力學,都被抽象到一個因果層面,即世界的關係、概念,無論是質量還是力,都被抽象到一個不再是純粹統計模式生成的水平。語言可以是高度統計性的,3D 或 2D 世界以及動力學都可以是統計性的。但是力、質量和磁性等因果抽象不是純粹統計的,它是非常深刻的因果關係和抽象概念。所以我現在更多是在進行一種理論性的探討。我認為 Eric 和我在台上是在說,我們現在世界上有足夠多的天體資料、運動資料,只要聚合所有的衛星資料等等交給今天的 AI,它能推匯出牛頓運動定律嗎?09 Transformer 不是終點,AI 需要新架構來實現超越統計學的抽象思維對於天體運動的資料,憑直覺我認為,即使今天的 AI 做不到,但只要給予足夠的資料和思考時間,人工智慧應該能推匯出運動定律。你為什麼認為它做不到?這是否意味著你需要一種新的架構來解鎖你所說的“通用任務功能”,從而超越當前 Transformer 的侷限?李飛飛:當我們說這些定律是“被推導”出來時,要明白牛頓必須抽象出力、質量、加速度以及基本常數等概念。這些概念處於非常抽象的層面。目前我還沒看到今天的 AI 能夠從海量資料中提取出這種層面的抽象表示、變數或關係。現有的證據還不多。當然,我並不瞭解 AI 領域發生的所有事情,如果事實證明我錯了,我很樂意接受。但我確實沒聽說過有那項工作做到了這種程度的抽象。而且在 Transformer 架構中,我也看不出這種抽象能力能從何而來。這就是我質疑這一點的理由。(關於新架構)我並不是說 AI 不應該或不能嘗試,但這可能需要我們在演算法的基礎架構上取得更多進步。我確實這麼認為。我相信會有架構上的突破。我不認為 Transformer 是 AI 的終極發明。從宏觀角度看,相比於我們所知的整個宇宙歷史,人類存在的時間並不長。但在幾千年的短暫歷史中,我們從未停止創新。所以我認為 Transformer 不會是 AI 的最後一個演算法架構。你曾說過,曾經覺得如果能讓 AI 系統給圖像打標籤或生成說明文字,就是職業生涯的巔峰了。當然,你早就超越了那個階段。如今,你想像中未來職業生涯的最高成就會是什麼?李飛飛:我認為解鎖空間智能,創造一個能真正將感知與推理、空間推理連接起來的模型,實現從感知到行動,包括規劃,以及從想像到創造。如果有一個模型能同時做到這三點,那將是不可思議的。 (數字開物)
大幅降價、無限聊天、編碼能力超越人類專家,Claude Opus 4.5重奪最強模型王冠
11月25日凌晨,Anthropic發佈了其迄今最強大的AI模型Claude Opus 4.5。該公司宣稱,新模型在軟體工程任務上實現了“最先進性能”,進一步加劇了其與OpenAI、Google等對手之間的競爭。Claude Opus 4.5在Anthropic軟體工程測試中表現出色,得分超越Gemini 3 Pro、GPT-5.1等一眾對手。圖:Claude Opus 4.5在SWE Bench軟體工程測試中的性能表現公司資料顯示,該模型在SWE-bench Verified(一項評估現實世界軟體工程能力的基準測試)中達到了80.9%的精準率,表現超越了OpenAI的GPT-5.1-Codex-Max(77.9%)、Anthropic自家的Sonnet 4.5(77.2%)以及Google的Gemini 3 Pro(76.2%)。同時,Anthropic大幅下調了這款模型的定價:輸入token降至每百萬5美元,輸出token為每百萬25美元,較前代產品Claude Opus 4.1(輸入15美元/百萬,輸出75美元/百萬)下降約三分之二。降價使得尖端AI技術對廣大開發者和企業更加觸手可及,同時也給競爭對手帶來了性能與價格的雙重壓力。現實任務中展現更優判斷力測試人員普遍反饋,新模型在各種任務中展現出更強的判斷力與直覺。他們將這種進步描述為:模型開始領悟現實情境中的“關鍵所在”。“這個模型好像突然‘開竅’了,”開發者關係負責人阿爾伯特表示,“它在處理許多現實問題時表現出的直覺和判斷力,讓人感覺相比前代模型實現了一次質的跨越。”阿爾伯特以自身工作為例進一步說明:過去他僅利用AI收集資訊,而對它們的整合與優先順序排序能力持保留態度。如今,借助Opus 4.5,他已開始委託更完整的任務,通過連接Slack和內部文件,模型能生成與他預期高度契合的連貫摘要。賓夕法尼亞大學沃頓商學院教授、生成式AI實驗室聯合主任伊桑·莫利克測試後評論道,新模型的能力確實處於技術前沿。其最顯著的提升在於實際應用,例如跨軟體操作(如用Excel製作PPT)。核心工程測試中超越所有人類工程師Claude Opus 4.5在Anthropic內部一項高難度工程評估中創下了新紀錄。這項評估本是公司為性能工程師崗位設計的限時程式設計測試,要求求職者在兩小時內完成,旨在考察其技術能力與問題判斷力。Anthropic透露,通過採用“平行測試時計算”技術,即彙總模型的多次解題嘗試並篩選最優結果,Opus 4.5的最終得分超越了所有曾參與該測試的人類工程師。在不限時間的條件下,若在其專用編碼環境Claude Code中運行,Claude Opus 4.5的解題表現更是與史上最高分的人類工程師持平。不過該公司也坦言,這類測試無法衡量其他關鍵專業技能,例如團隊協作、有效溝通,或是經年累月形成的專業直覺。核心基準測試token消耗大幅降低76%除原始性能突破外,Anthropic更將效率提升視為Claude Opus 4.5的核心競爭力。新模型在達成相同甚至更優結果時,所需處理的計算token數量顯著減少。具體資料顯示,在“中等”投入等級下,Opus 4.5可在SWE-bench Verified測試中達到與Sonnet 4.5相同的最高分,而輸出token消耗量卻大幅降低了76%。即便在“高”投入等級追求極限性能時,其表現比Sonnet 4.5再提升4.3個百分點,token使用量仍減少了近一半(48%)。為賦予開發者更精細的控制權,Anthropic引入了全新的“投入”參數。使用者可通過此參數,動態調節模型處理每個任務時所投入的計算工作量,從而在性能、響應速度和成本之間找到最佳平衡點。GitHub首席產品官馬里奧·羅德里格斯也證實了類似發現:“早期測試表明,Opus 4.5在token消耗減半的同時,性能仍超越了我們的內部編碼基準,尤其在程式碼遷移與重構等複雜任務上表現尤為出色。”阿爾伯特對此現象作出技術解讀:Claude Opus 4.5並非直接更新其底層參數,而是在持續最佳化解決問題的工具與方法。“我們看到它在迭代精進任務技能,通過自主最佳化執行方式來提升最終效果,”他解釋道。這種自我進化能力已突破程式設計領域。阿爾伯特透露,在專業文件生成、電子表格處理和簡報製作等場景中,模型表現均有顯著提升。深度整合Office突破上下文長度限制伴隨新模型的發佈,Anthropic同步推出了一系列面向企業場景的重要更新。專為Excel設計的Claude功能現已向Max、Team及Enterprise使用者全面開放,新增了對資料透視表、可視化圖表及檔案上傳的完整支援。同時,Chrome瀏覽器擴充套件也已向全體Max使用者開放使用。本次更新最具革命性的當屬“無限聊天”功能——該技術通過智能總結長對話中的早期內容,有效突破了傳統上下文窗口的限制。“在Claude AI產品中,憑藉我們創新的內容壓縮與記憶體管理技術,使用者實際上獲得了近乎無限的對話效果,”阿爾伯特解釋道。面向開發者群體,Anthropic推出了更具工程價值的“程序化工具呼叫”能力,使得Claude能夠直接編寫並執行可呼叫外部函數的程式碼。同時,Claude Code不僅升級了“計畫模式”,更以研究預覽版形式推出了桌面客戶端,首次支援開發者平行運行多個AI智能體會話。AI步入“自我進化”與盈利挑戰並存新階段模型迭代速度正成為競爭焦點。Opus 4.5距前代Haiku 4.5和Sonnet 4.5發佈僅相隔數周,這折射出整個行業的加速態勢。2025年間,OpenAI持續推出多個GPT-5變體,並於11月發佈可自主運行24小時的Codex Max模型;Google也經過數月打磨,在11月中旬正式推出Gemini 3。值得注意的是,Anthropic正利用AI技術反哺自身研發。阿爾伯特透露:“無論是產品建構還是模型研究,Claude本身都在為我們提供助力,顯著加速了開發處理程序。”面對價格戰可能帶來的利潤壓力,阿爾伯特持樂觀態度:“降價將推動更多初創公司深度整合並主推我們的技術,從而擴大市場基礎。”然而,儘管AI市場預計十年內將突破兆美元規模,主要實驗室在巨額投入計算設施與人才的同時,盈利之路依然漫長,尚未有任何供應商確立絕對主導地位。對企業和開發者而言,這場競賽正轉化為持續提升的性能與不斷下降的成本。但隨著AI在專業技術任務上逼近甚至超越人類水平,其對各行業工作模式的顛覆已從理論探討變為現實挑戰。談及AI在工程測試中超越人類的表現,阿爾伯特坦言:“這無疑是一個值得高度重視的訊號。”(騰訊科技)
OpenAI 科學負責人:AI 把 25 年研究縮短到 5 年,誰先吃到紅利?
2025 年 11 月 21 日,OpenAI 官方播客更新到第10期。這一次的主題是:AI 如何改變科學研究。OpenAI for Science 負責人Kevin Weil 在節目中說:也許人們感受到 AGI 最深刻的方式,會是通過科學。他們給自己定的目標:把未來 25 年的科學研究,壓縮到 5 年內完成。這不是說說而已。黑洞物理學家、核聚變專家、免疫學家已經在用 GPT-5 改變自己的研究方式。驗證路徑從幾個月壓縮到幾小時,文獻檢索能跨語言、跨學科找到概念聯絡,推導公式可以平行探索十幾條路徑。科研加速,已經開始了。第一節|25年壓縮到5年,OpenAI要幹什麼?在第 10 期官方播客裡,Kevin Weil 這次談的不是新功能,而是一個新問題:能不能幫助科學家們,把科研工作大幅壓縮?為此,OpenAI 專門成立了一個團隊,由 Kevin 從首席產品官轉任負責人,目標是用AI模型加速科學發現。他們不是在用 AI 寫論文,而是改變了一個前提:假如你是科學家,給你一個模型,這個模型讀過你所在領域幾乎所有文獻,而且可以在 20 分鐘內跑完你原本需要 6 個月才能驗證的路徑,科研會變成什麼樣?Kevin說,在真實的科研場景裡,這種加速每天都在發生。核心改變是:AI 讓科學家能嘗試更多可能。不是替你做判斷,而是讓更多原本不敢嘗試的方向變得可驗證。科學家的時間,正在被 AI 重構。第二節|黑洞物理學家、核聚變專家:他們為什麼信了?Alex Lupsasca,不只是 OpenAI 的研究科學家,還是范德堡大學的物理學教授,主攻方向是黑洞理論。起初,他跟很多科研同行一樣,對 ChatGPT 保持距離。“它挺有趣,但我以為至少還得好多年,才能真正幫到我的研究。我是個懷疑者,直到我看到它做出了連我自己都做不到的事。”他說的那一刻,就是他把一個求解脈衝星磁場的偏微分方程,輸給了GPT-5。這個方程,他自己推了好幾天都沒推出來。模型不僅識別了結構,還用 11 分鐘找出一條1950年代挪威數學期刊裡的冷門恆等式,並給出完整推導。雖然最終結果因為一個多餘的係數出錯了,但主幹是對的。用 Alex 的話說,這就像一個天才研究生,會在最後的 LaTeX 算式裡打錯一個負號,但推理鏈是完整的。這樣的轉變不止發生在 Alex 身上。Kevin 本來以為要去勞倫斯利弗莫爾國家實驗室推銷 GPT-5,結果核聚變專家 Brian Spears 剛坐下就打開筆記本開始演示:我用你們的模型,從本科題開始,一路問到了 20 年經驗的研究問題,它都能回答。最後一個問題,GPT-5 甚至說:“我沒有權限訪問你們的模擬工具,但如果你有,你應該從那開始。”這已經不只是程式設計助手了。它能理解不同領域的專業知識,看懂物理模擬,還能給出研究層面的建議。這類故事指向一個共同的拐點:科學家開始把 GPT-5 當作一個真正的合作者,而不只是工具。真正改變他們認知的,是那些原本不會去問的問題,現在可以問了。比如文獻檢索。Alex在研究一個黑洞方程時,發現結果裡有一個三階導數項,這種情況極少見。他將公式貼給 GPT-5 問:“這是什麼?”模型回覆:“這是共形橋方程(Conformal Bridge Equation)。”然後給出了論文線索。他完全沒聽過。這種場景在反覆上演:有人在研究高維最佳化,明知道應該有人做過,但找不到。GPT-5 用概念推理,找出了一篇埋在德語博士論文裡的研究,不同學科、不同術語,但解決的是同一個問題。Kevin說:“你今天必須在科學裡高度專業化。但專業化的代價是,你就不瞭解其他相關領域了。GPT 是那個讀過幾乎所有領域論文、精力無限、沒有情緒的合作者。”一位數學家對他說:我最近一篇論文,有個方向不是我擅長的,原本打算放棄。但現在我決定回頭深入,因為我覺得 GPT-5 能幫我入門。用 Alex 的話說:你平常研究只敢試一條路。現在有個合作者,能幫你同時試十條路。那條可能通,那條有風險,都給你標出來。你自己決定往那走。第三節| GPT-5怎麼參與科研?兩種核心能力那麼,GPT-5作為合作者,具體是怎麼參與科研的?OpenAI 論文裡總結了兩種典型能力。第一種能力:“腳手架式”協作OpenAI把這種模式叫做 Scaffolding(腳手架式協作)。具體怎麼做?人類科學家只提供一個任務目標。GPT-5 會嘗試生成 10 到 20 條不同的路徑,裡面包含不同公式、變換、思路假設。人類在過程中做的事情,是標記錯誤、指出那條邏輯斷了,而不是給出正確路線。Kevin 強調,這和提示詞寫得好不好完全是兩件事。最有效的方式是讓模型自己探索,你只指出那裡錯了,它就會調整。幾輪下來,它能找出你根本想不到的解法。Alex 在研究黑洞對稱性的時候,就採用了這個方法。比如:他先給GPT-5一道簡單題練手(在平直空間下的簡化方程),模型思考了9分鐘,給出了完整的對稱性分析,精確寫出了3個生成元。 再給它複雜版的真實問題,它花了18 分鐘,推匯出了他自己用特殊技巧才搞定的結果。第二種能力:驗證輔助GPT-5 並不是說了就一定對,它也會自信地給出錯誤結果,甚至會犯很簡單的符號錯誤。正因為如此,OpenAI 在GPT-5 科研應用中專門設計了一個機制:驗證通道(Verification pipeline)。核心機制是人負責找錯,AI 負責改錯:GPT-5 給出推理草案;人類研究者不必手動重做,而是標記可能有誤的推導步驟;GPT-5 會在此基礎上重新演繹、解釋或重構過程;有時還會自動生成程式碼,來模擬驗證假設。這種方式最早在蛋白工程、T細胞模擬的實驗中用過:GPT-5 生成的實驗設計,後來在實驗室中復現效果一致。腳手架式協作和驗證輔助這兩種能力,關鍵不在於你的提示詞寫得多好,而在於你的科研流程能不能把它們用起來。第四節|誰會最先吃到紅利?那麼,這種新型協作會遇到什麼問題?Kevin 提出了一個關鍵概念:低通過率問題。很多前沿科研問題,GPT-5 是有能力解決的,但可能要試上 20 次才成功一次。如果你只試了3次,沒成功,就會以為模型還不行。其實它能行,只是你沒給它機會。OpenAI 論文裡明確寫道:GPT-5不是高度可信系統,仍會出錯。但它適合探索空間大、驗證成本低的科研流程。最適合用的,是那些模型成功率很低但不是零的問題。這意味著試錯成本被改寫了。OpenAI 的 13個案例顯示:GPT-5 已經能把研究路徑大幅壓縮。誰會最先吃到紅利?第一類:AI基礎設施與模型提供者OpenAI、Google DeepMind、Anthropic等模型廠商;AWS、Azure、CoreWeave  等 GPU 雲端運算服務商。他們是科研計算力+智能代理的底座,正在定義下一代科研工具的基礎語言。第二類:高科研密度行業玩家藥企、生物公司、新材料研發、新能源系統設計者。他們原本受限於驗證周期、試驗成本,如今得以提前試錯、平行探索。GPT-5能給出假設、文獻依據、模擬程式碼,讓科學家在正式實驗前完成預演驗證。第三類:AI科學工具創業者這是一條還沒被捲爆的新賽道:聚焦科學研究場景的 AI 產品,比如蛋白建模、科研協作平台、圖表生成、公式分析器、科研文獻智能檢索。這類工具,不是Copilot,而是Lab Partner。他們會抓住這一波實驗室 SaaS 的機會。結語|科學的下半場Kevin Weil 有個判斷:也許人們最先真正感受到 AGI 的,不是寫作、不是辦公、不是消費,而是科學。Alex Lupsasca 的感受更直接:它不是完美的,但它是目前最值得我投入時間的合作者。這不是對未來的預言,而是 2025 年正在發生的事。在 GPT-5 出現以前,科學家判斷一條路徑要不要做,往往靠經驗、直覺,以及資源有限的賭注。現在,可以在十條路徑中試一遍、刪八條,再沿著剩下的兩條向前走。OpenAI 沒有試圖把 GPT-5 做成萬能科學家。他們要做的,是讓模型與人一起,在認知邊界上試錯。科學研究從象牙塔被拉入產業主戰場。模型廠商、藥企、材料公司、AI科學工具創業者,正在成為這一波加速的受益者。時間軸被改寫,紅利已經在分配。 (AI 深度研究員)
世界上第一個能夠生成真正3D世界的生成式AI模型 | 李飛飛最新萬字實錄
11月16日,被譽為“AI教母”的史丹佛大學以人為本AI研究所聯席主任的李飛飛接受了海外播客Lenny's Podcast的訪談。李飛飛詳細回顧了她如何從2006年開始,在AI的“寒冬”期,洞察到“巨量資料”是智能爆發的關鍵,並因此建立了ImageNet。本次對話還深入探討了為何AGI目前更像一個“行銷術語”,Scaling Law的侷限性;AI的下一個前沿“空間智能”;機器人領域“苦澀的教訓”為何可能失效等話題。此外,李飛飛還詳細介紹了Marble及其應用場景。Marble是World-Labs已研發出首個能生成真正“3D可導航世界”的生成式AI模型。它實現了提示詞生成世界,旨在為機器人模擬、電影虛擬製片、遊戲和科學發現提供空間智能的基礎。李飛飛回顧,AI寒冬期的核心痛點是“模型沒有資料可供訓練”,早在2016年,“AI”一詞在矽谷仍被視為“貶義詞”,公司會刻意避免自稱“AI公司”。李飛飛認為AGI在定義上模糊不清,而當前的AI(即使是LLM)在真正的認知、推理和情商上與人類相去甚遠,我們仍需大量的基礎創新。她指出,繼語言模型之後,AI的下一個前沿是“空間智能”。她認為人類智能很大程度上建立在視覺和空間理解之上,而“空間智能”是連接視覺、具身AI(機器人)和語言的“關鍵缺失環節”。機器人是“物理系統”,其難度遠超LLM。她認為巨量資料+簡單模型在機器人領域可能受阻,因為存在“完美錯位”:LLM的訓練(文字)和輸出(文字)完美對齊,而機器人的訓練資料(2D網路影片)與其期望的輸出(3D世界中的動作)完全不同。01 AI的最終走向取決於人類自己的選擇很多人稱你為“AI教母”,但與許多AI領袖不同,你是一位AI樂觀主義者,不認為AI會取代我們或毀滅我們。你如何看待AI將對人類產生的長期影響?你曾說“AI 沒有任何‘人工’的成分。它由人啟發,由人創造,最重要的是,它影響著人。” 既然AI的走向取決於我們,你認為我們需要做對那些事情?我們該如何確保AI走上正軌?李飛飛:首先我要明確一點,我不是一個烏托邦主義者。我並不是認為 AI 對就業或人類毫無影響。事實上,我是一個人本主義者。我相信,無論 AI 現在或未來做什麼,最終都取決於我們,取決於人類自己。我的確相信,如果你縱觀人類文明的漫長歷史,技術總體上對人類是積極的。我認為,我們本質上是一個善於創新的物種。從幾千年前有文字記錄開始,人類就在不斷自我革新、創新工具;借此,我們改善了生活,最佳化了工作,建立了文明。我相信 AI 也是這一處理程序的一部分。我的樂觀正是源於此。但我認為每一項技術都是雙刃劍。如果我們作為一個物種、一個社會、一個社區,或作為個體,沒有做出正確的選擇,我們同樣可能把事情搞砸。(關於AI“非人工”的本質)我對此感受很深。我二十五年前開始從事 AI 研究,在過去的二十年裡,我一直在指導學生。幾乎我實驗室的每位學生畢業時,我都會提醒他們:你們的領域叫作人工智慧,但它的本質沒有絲毫“人工”可言。(關於如何確保AI走上正軌)我認為,無論我們做什麼,都應該首先成為一個負責任的個體。這是我們教育孩子的方式,也是我們成年人應盡的責任。無論你參與的是 AI 的開發、部署還是應用,在那個環節——很可能我們中的許多人,特別是技術專家,同時參與了多個環節,我們都應該像一個負責任的個體那樣行事,並且真正關心這件事。我認為今天的每一個人都應該關心 AI,因為它將影響你的個人生活、你的社區,乃至整個社會和我們的子孫後代。而作為一個負責任的人去關心它,是第一步,也是最重要的一步。02 巨量資料、神經網路和 GPU成為現代 AI 的“黃金組合”大多數人開始聽說和關注AI,大概是幾年前ChatGPT問世的時候。但很少有人知道,在這之前有很長很長的歷史,人們在研究(當時它被稱為機器學習)AI。在很長一段時間裡,有很多人在研究它。然後,出現了人們所說的“AI 寒冬”,那個時期人們幾乎都放棄了。而你所做的工作(ImageNet),本質上是帶領我們走出AI寒冬的火花,並且直接促成了我們今天所處的世界。所以,我非常想聽你分享一下:在 ImageNet 誕生之前,世界是怎樣的?你建立 ImageNet 的歷程是怎樣的?它為什麼如此重要?以及這之後又發生了什麼?李飛飛:我的整個職業生涯都投身於 AI,所以有時我很難意識到 AI 對大多數人來說是多麼新奇。這... 看到一個我剛剛告別青少年時期就開始的個人好奇心,如今正轉變為一股推動我們文明變革的力量,我的一部分內心感到無比滿足。它確實是一種文明等級的技術。所以,這段旅程大約... 大約 30 年,或者說 20 多年,這真的非常令人滿足。那麼,一切是如何開始的呢?其實,我甚至不算是第一代 AI 研究者。第一代 AI 研究者真正要追溯到 50 年代和 60 年代。Alan Turing 在 40 年代就領先於他的時代,他向人類提出了一個大膽的問題:“機器能否思考?” 當然,他設計了一種特定的方法來測試“會思考的機器”這一概念,那就是一個對話聊天機器人。如果按照他的標準,我們現在已經擁有了會思考的機器。但這更多隻是一種軼事般的靈感。這個領域真正始於 50 年代,那時的電腦科學家們齊聚一堂,探討如何使用電腦程序和演算法,來建構那些能完成過去只有人類認知才能勝任的任務的程序。這就是 AI 的開端和奠基者們,在 1956 年的達特茅斯研討會上。後來任教於史丹佛的 John McCarthy 教授,創造了“人工智慧”這個術語。在 50 年代、60 年代、70 年代和 80 年代,是 AI 探索的早期階段。我們有了邏輯系統、專家系統,也對神經網路進行了早期探索。然後到了 80 年代末、90 年代,直到 21 世紀初。這大約 20 年的時間,實際上是機器學習的開端。它是電腦程式設計和統計學習的一次聯姻。這次聯姻為 AI 帶來了一個至關重要的概念:純粹基於規則的程序,是無法涵蓋我們想像中電腦所能擁有的龐大認知能力的。因此,我們必須用機器來學習模式。一旦機器能夠學習模式,它就有望做更多的事情。例如,你給它三隻貓的照片,你希望的不僅僅是機器能認出這三隻貓,而是希望它能認出第四隻、第五隻、第六隻,以及所有其他的貓。這是一種學習能力,是人類和許多動物的基礎能力。我們作為一個領域,認識到我們需要機器學習。這就是 21 世紀初之前的狀況。我進入 AI 領域,精準說是在 2000 年。那是我在 Caltech 開始攻讀博士學位的時候。所以,我是第一代機器學習研究者之一,我們當時已經在研究機器學習的概念,特別是神經網路。我記得我在 Caltech 的第一門課,就叫神經網路。但那段時期非常痛苦。我們仍深陷於所謂的“AI 寒冬”之中,這意味著公眾對此關注甚少,研究經費也不充裕,但學術思想卻在激盪。我認為,有兩件事讓我個人的職業生涯與現代 AI 的誕生如此緊密地聯絡在一起:一是我選擇通過視覺智能的視角來研究人工智慧,因為人類是高度依賴視覺的動物。我們稍後可以深入探討,但我們很大一部分智能是建立在視覺、感知和空間理解之上的,而不僅僅是語言本身。我認為兩者是互補的。所以我選擇了視覺智能。在我的博士和早期任教階段,我和我的學生們都堅定地朝著一個“北極星問題”努力,那就是解決物體識別的問題。因為它是我們感知世界的基石,對吧?我們在世界上詮釋、推理,並與世界互動,或多或少都是在物體層面上進行的。我們不會在分子層面與世界互動。我們... 即使有時會,也非常罕見。例如,當你想拿起一個茶壺,你不會想:“這個茶壺由 100 塊瓷片組成,我要先處理這 100 塊瓷片。” 你會把它當作一個整體來互動。所以,物體這個概念至關重要。因此,我是最早將物體識別確定為北極星問題的研究人員之一。但我認為,當時的情況是,作為 AI 的學生和研究者,我研究了各種數學模型,包括神經網路、貝葉斯網路等等。但存在一個核心痛點:這些模型沒有資料可供訓練。我們整個領域都過度專注於模型本身,但我突然意識到,人類的學習,乃至生物的進化,實際上都是一個巨量資料學習過程。人類通過海量的經驗持續學習;而進化,從時間尺度來看,動物也是在不斷體驗世界中進化的。所以,我和我的學生猜想,要讓 AI 真正實現,一個被嚴重忽視的關鍵要素就是巨量資料。於是在 2006 到 2007 年,我們啟動了 ImageNet 項目。我們當時雄心勃勃,想要獲取網際網路上所有關於物體的圖像資料。當然,那時的網際網路比現在小得多。所以我覺得那個雄心至少不算太瘋狂。如果放到現在,幾個研究生和教授想做這個,那簡直是痴人說夢。但我們確實那麼做了。我們精心收集並整理了網際網路上的 1500 萬張圖片,建立了一個包含 22000 個概念的分類法。我們借鑑了其他研究者的成果,比如語言學家在 WordNet 上的工作,那是一種特殊的詞典編纂方式。我們將這些整合建立了 ImageNet,並將其開源給了研究社區。我們還舉辦了一年一度的 ImageNet 挑戰賽,鼓勵所有人參與。我們自己也繼續著研究。但 2012 年,成為了許多人認為的深度學習的開端,或是現代 AI 的誕生日。因為由 Jeff Hinton 教授帶領的一組多倫多研究人員,參加了 ImageNet 挑戰賽,他們使用了 ImageNet 的巨量資料,以及 NVIDIA 的兩塊 GPU,成功建立了第一個神經網路演算法。它並沒有從根本上完全解決問題,但在解決物體識別問題上取得了巨大進展。這三者的結合——巨量資料、神經網路和 GPU成為了現代 AI 的“黃金組合”。然後快進到 AI 的高光時刻,也就是 ChatGPT 時刻。如果你分析一下推動 ChatGPT 誕生的要素,你會發現它在技術上仍然依賴這三個要素:現在是網際網路規模的資料,並且以文字為主;神經網路架構比 2012 年複雜得多,但它仍然是神經網路;GPU 的數量也多得多,但它仍然是 GPU。所以這三個要素至今仍是現代 AI 的核心。03 9年前,自稱為人工智慧公司基本上就是判了死刑ImageNet誕生前後“AI”和“機器學習”這兩個詞可以互換使用嗎?那是當時的主流叫法嗎?關於那段早期歷史,是否還有什麼是你認為很重要、但人們卻不瞭解的?李飛飛:我覺得這兩個詞當時是互換使用的, 但確實,我記得那些科技公司... 我就不點名了。但我在一次早期的對話中,大概是 2015 年中或 2016 年中,一些科技公司刻意避免使用 AI 這個詞,因為他們不確定 AI 是不是一個“貶義詞”。我記得我當時實際上在鼓勵大家使用 AI 這個詞,因為對我而言,這是人類在探索科學技術過程中提出的最大膽的問題之一,我為這個詞感到非常自豪。但是,在早期,有些人確實心存疑慮。Lenny:“AI 是個貶義詞”大概是在那一年?李飛飛:2016 年。我認為那是一個轉折點。開始有人稱它為 AI。但我認為,如果你回顧矽谷科技公司的行銷術語,大概在 2017 年左右,才開始有公司稱自己為“AI 公司”。(關於早期AI歷史的補充)我想,和所有歷史一樣,我深知自己被視為歷史的一部分,但這段歷史中有太多的英雄和研究者。我們談論的是幾代研究者。在我的經歷中,有很多人激勵了我,我在書中也提到了他們。但我確實感到我們的文化,尤其是矽谷,傾向於將成就歸功於某一個人。雖然我認為這有一定價值,但我們必須記住,AI 是一個至今已有 70 年歷史的領域,我們已經歷了數代人的努力。沒有任何人能獨自走到今天。04 AGI是行銷術語我們似乎總感覺自己處在 AGI 的邊緣,AGI 是人們常掛在嘴邊的一個模糊術語。你如何看待我們與 AGI 之間的距離?你認為我們能沿著當前的軌跡實現它嗎?還是說我們需要更多的突破?李飛飛:Lenny,這是一個非常有趣的術語。我不知道是否有人真正定義過 AGI。目前有很多不同的定義,包括機器擁有某種超能力,甚至到機器能否成為社會中經濟上可行的“代理人”,換句話說,能靠掙工資“養活”自己。這算是 AGI 的定義嗎?作為一名科學家,我對待科學非常嚴肅。我進入這個領域,是受一個大膽問題的激勵:“機器能否像人類一樣思考和行動?” 對我而言,這一直是 AI 的“北極星”。從這個角度來看,我不知道 AI 和 AGI 之間有何區別。我認為我們在實現 AI 的部分目標上做得很好,比如對話式 AI,但我認為我們尚未完全實現 AI 的所有目標。我想,我們的開創者們,比如 Alan Turing,如果 Alan Turing 今天還在世,你讓他比較 AI 和 AGI,他可能只會聳聳肩說:“我在 1940 年代問過同樣的問題。” 所以,我不想在定義 AI 還是 AGI 這個問題上鑽牛角尖。我覺得 AGI 與其說是一個科學術語,不如說更像一個行銷術語。作為一名科學家和技術專家,AI 是我的北極星,是我所在領域的北極星,至於人們想叫它什麼名字,我都很樂意。正如你所描述的,是某些要素(如 ImageNet、AlexNet、GPU、資料、Transformer)將我們帶到了今天。你是否覺得,要實現一個聰明 10 倍的模型,依靠的還是這些相同的要素?還是你認為我們需要更多突破?你是否覺得“現有路徑會達到瓶頸”,或者“不,我們只需要更多資料、更多算力、更多 GPU 就行了”?李飛飛:不,我堅信我們需要更多創新。我認為,依賴更多資料、更多 GPU 和更大規模的現行模型架構的 Scaling Law 確實還有很多潛力可挖,但我絕對認為我們需要更多創新。在人類歷史上,沒有任何一個深度科學學科發展到某個階段後敢說:“我們完工了,我們不需要再創新了。” 而 AI,即使不是最年輕的,也是人類文明科學技術史上最年輕的學科之一。我們仍然只是觸及了皮毛。舉個例子,就像我說的,我們等下會聊到世界模型。今天,你拿一個模型,讓它觀看一段包含幾個辦公室房間的視訊,然後要求模型數出椅子的數量。這件事一個剛會走路的孩子,或者頂多一個小學生就能做到。但 AI 卻做不到。所以,當今的 AI 還有太多事情做不到。更不用說去思考,像 Isaac Newton 這樣的人是如何觀察天體運行,並推匯出一個或一組支配所有物體運動的方程式?那種水平的創造力、外推能力和抽象能力,我們今天完全沒有辦法讓 AI 具備。再來看看情商。想像一個學生來到老師的辦公室,他們討論關於動力、熱情、該學什麼,以及到底是什麼問題在真正困擾著你。這樣的對話,即使今天的對話機器人已經非常強大,你也無法從當今的 AI 身上獲得那種水平的情感和認知智能。所以,我們還有太多可以改進的地方,我絕不相信我們的創新之路已經走到了盡頭。Lenny:Google 的 Demis 說如果我們把直到 20 世紀末的所有資訊都喂給最前沿的模型,看看它能否重現愛因斯坦當年的所有突破。而到目前為止,我們離那一步還差得很遠。李飛飛:沒錯,我們還做不到。事實上,情況可能更糟。讓我們給 AI 所有的資料,包括 Isaac Newton 當年沒有的、由現代儀器觀測的天體資料,然後只要求 AI 建立出 17 世紀那套關於物體運動定律的方程式。今天的 AI 依然做不到。05 空間智能是連接視覺、具身AI和語言的關鍵您很早就預見到世界模型,您投身於此已久,能否談談:什麼是世界模型?它為什麼如此重要?李飛飛:我很高興看到越來越多的人開始討論世界模型,比如 Elon 和 Jensen。我一生都在思考如何真正推動 AI 向前發展。過去幾年裡,從研究界湧現出的大語言模型,以及 OpenAI 等公司的工作,對我這樣的研究者來說也是極具啟發性的。我記得 GPT-2 問世時,大概是在 2020 年底。我當時 (現在仍然是) 史丹佛大學HAI的聯席主任,但我那時是全職的聯席主任。我記得當時公眾還沒有意識到大語言模型的力量,但作為研究者,我們已經預見到了。我們看到了未來。我與我的自然語言處理同事,如 Percy Liang 和 Chris Manning,進行了深入的交流。我們討論了這項技術將變得多麼關鍵。史丹佛 AI 研究所,即 HAI,是全球第一個圍繞基礎模型成立完整研究中心的機構。Percy Liang 和許多研究者領導撰寫了第一篇關於基礎模型的學術論文。所以,這一切都讓我備受鼓舞。當然,我來自視覺智能領域,我一直在思考,除了語言之外,我們還有太多可以推進的領域。因為人類會運用我們的空間智能和對世界的理解來完成許許多多超越語言範疇的事情。想像一個極其混亂的急救人員現場,無論是火災、交通事故還是自然災害。如果你置身其中,想想人們是如何組織起來救人、阻止災難擴大、滅火……這其中很大一部分涉及移動,涉及對物體、世界、人類以及態勢感知的即時理解。語言是其中的一部分,但在很多情況下,語言本身並不能幫你撲滅大火。那麼,這是什麼呢?我思考了很久。與此同時,我正在做大量的機器人學研究。我逐漸意識到,要想連接語言之外的額外智能,要想連接具身 AI (即機器人學),要想連接視覺智能,其關鍵就在於那種理解世界的空間智能。就在那時,我想大概是 2024 年,我做了一場關於空間智能和世界模型的 TED 演講。我早在 2022 年,就基於我在機器人學和電腦視覺領域的研究,開始構思這個想法。然後,有一點對我來說非常清晰:我非常渴望與最頂尖的技術專家合作,並盡快將這項技術變為現實。就在那時,我們創立了這家名為 World-Labs 的公司。你可以看到,“世界” (world) 這個詞就在我們公司的名字裡,因為我們對世界建模和空間智能懷有無比的信念。如果拿大語言模型(聊天機器人)作對比,是否可以簡單理解為:世界模型就是你描述一個場景,它就能生成一個可以無限探索的世界?李飛飛:Lenny,這只是其中一部分。我認為,理解世界模型的一個簡單方式是:這個模型允許任何人在腦海中通過提示 (無論是圖像還是句子) 來創造任何世界;並且能夠在這個世界中互動,無論你是在瀏覽、行走、拾取物體還是改變事物;同時還能利用這個世界進行推理。舉個例子,如果使用這個世界模型輸出的 AI Agent 是一個機器人,它就應該能夠規劃自己的路徑,並幫助整理廚房。所以,世界模型是一個基礎,你可以用它來推理、互動和創造世界。機器人似乎是 AI 研究者的下一個重大關注點。您是否認為,世界模型(或空間智能)是讓機器人在現實世界中真正發揮作用所缺失的關鍵一環?那麼,世界模型的重大突破點是否主要集中在機器人、遊戲和創意領域?李飛飛:嗯,不過首先,我確實認為還有比機器人更令人興奮的東西。但我完全同意你剛才說的。我認為世界建模和空間智能是具身 AI 的關鍵缺失環節。同時,我也認為我們不應低估人類自己就是具身代理人這一事實,AI 的智能同樣可以增強人類。就像今天,人類是“語言動物”,但 AI 在很大程度上增強了我們執行語言任務的能力,包括軟體工程。我認為我們不應該低估,或者說我們傾向於忽視,人類作為具身代理人,其實也能像機器人一樣,從世界模型和空間智能模型中獲益良多。還有設計。人類從事各種設計,從機器到建築再到家居。此外還有科學發現。有太多,我喜歡用 DNA 結構的發現作為例子。如果你回顧 DNA 發現史上最重要的證據之一,那就是 Rosalind Franklin 拍攝的 X 射線衍射照片。那是一張平面的 2D 照片,展示了一個看起來像一個帶有衍射紋路的十字架的結構。你可以去 Google 搜尋那些照片。但憑藉那張 2D 平面照片,人類,特別是兩位重要人物——James Watson 和 Francis Crick,結合他們掌握的其他資訊,成功地在 3D 空間中進行了推理,推匯出了 DNA 高度三維的雙螺旋結構。那個結構不可能是 2D 的。你無法在 2D 層面思考並推匯出那種結構。你必須在 3D 空間中思考,運用人類的空間智能。所以我認為,即使在科學發現領域,空間智能或 AI 輔助的空間智能也至關重要。06 機器人是物理系統,訓練資料與目標輸出“完美錯位”Ben Horowitz 建議我問您:為什麼“苦澀的教訓”(The Bitter Lesson)單獨拿出來看,可能不足以解決機器人學的問題?能否請您首先解釋一下 AI 歷史上的“苦澀的教訓”是什麼?然後,再談談為什麼僅憑它無法讓我們在機器人領域實現目標?李飛飛:AI 領域有很多“慘痛的教訓”,但大家常提的“慘痛的教訓”是一篇由 Richard Sutton 撰寫的論文,他最近獲得了圖靈獎。他從事大量關於強化學習的研究,Richard 曾經說過,如果你回顧歷史,尤其是 AI 的演算法發展史,你會發現,簡單的模型輔以海量資料最終總是會勝出,而不是那些依賴更少資料、更複雜的模型。這篇論文實際上是在 ImageNet 誕生數年後才發表的。對我而言,這並非“慘痛”,反而是一個“甜蜜的教訓”。這也正是我建立 ImageNet 的原因,因為我堅信巨量資料能扮演這樣的角色。那麼,“慘痛的教訓”在機器人學領域是否還適用呢?首先,我認為我們要客觀看待目前取得的進展。機器人學尚處於非常早期的實驗階段。這項研究的成熟度遠不及語言模型等領域。因此,許多人仍在使用不同的演算法進行實驗,其中一些演算法確實是由巨量資料驅動的。所以我認為巨量資料將繼續在機器人學中發揮作用。但是,機器人學領域的難點在於什麼?有幾個方面。其一,獲取資料更難,難得多。你可能會說,“有網路資料。”沒錯,這也是當下機器人學研究正在使用網路影片的原因。而且我認為網路影片確實在發揮作用。但如果你思考一下語言模型成功的原因,作為一名從事電腦視覺、空間智能和機器人學研究的人,我非常羨慕我那些研究語言的同事,因為他們擁有近乎完美的配置:他們的訓練資料是詞語,最終成為 tokens,然後他們生成的模型輸出的也是詞語。因此,在你期望得到的結果,我們稱之為目標函數,和你的訓練資料形態之間,存在著完美的對齊。但機器人學不同,空間智能也不同。你希望機器人能輸出動作,但你的訓練資料卻缺乏 3D 世界中的動作資料,而這恰恰是機器人必須執行的:在 3D 世界中產生動作。因此,你必須尋找不同的方法,這就好比要把一個方形的東西塞進圓形的孔裡。我們擁有的是海量的網路影片。所以我們必須開始討論補充資料,例如遙運算元據或合成資料,以便讓機器人基於“慘痛的教訓”這一假設,即海量資料,進行訓練。我認為希望仍在,因為即便是我們正在做的世界建模工作,也將真正為機器人解鎖大量此類資訊。但我認為我們必須保持謹慎,因為我們尚處於這一領域的早期,而“慘痛的教訓”是否適用仍有待檢驗,因為我們還未完全弄清適合的資料形態。關於機器人學的“慘痛的教訓”,我認為我們還必須非常現實地認識到另一點:與語言模型甚至空間模型相比,機器人是物理系統。因此,機器人更接近於自動駕駛汽車,而不是大語言模型。認識到這一點至關重要。這意味著要讓機器人工作,我們不僅需要“大腦”,還需要“實體”,更需要應用場景。如果你回顧一下自動駕駛汽車的歷史:我的同事 Sebastian Thrun 帶領 Stanford 的團隊在 2006 年或 2005 年贏得了第一屆 DARPA 挑戰賽。從那輛能在內華達沙漠行駛 130 英里的自動駕駛原型車,到今天行駛在舊金山街頭的 Waymo,已經過去了 20 年。即便如此,我們仍未大功告成,還有很長的路要走。這是一段 20 年的歷程。而自動駕駛汽車還是相對簡單很多的機器人,它們只是在 2D 表面上行駛的金屬盒子,目標是“不觸碰”任何東西。機器人則是在 3D 世界中運行的 3D 物體,其目標是“去觸碰”東西。所以,這段旅程將會涉及很多方面和元素。當然,有人可能會說:“自動駕駛早期的演算法屬於前深度學習時代。深度學習正在加速‘大腦’的進化。”我同意這一點。這正是我投身於機器人學和空間智能領域的原因,我對此感到興奮。但與此同時,汽車工業已經是一個非常成熟的產業。產品化同樣涉及成熟的用例、供應鏈和硬體。因此,我認為現在是研究這些問題的絕佳時機,但 Ben 說的沒錯,我們可能仍會遭遇許多“慘痛的教訓”。在從事這項工作時,您是否曾對大腦的運作方式感到敬畏?僅僅是讓一台機器四處走動、不撞到東西,就要克服如此高的複雜性。李飛飛:確實如此。我們的運行功率大約只有 20 瓦,比我現在房間裡任何一盞燈泡都暗。然而,我們卻能完成如此多的事情。所以我認為,實際上,我越是深入 AI 領域的工作,就越是敬佩人類。07 我們建構了世界上第一個能夠生成真正3D世界的生成式AI模型讓我們聊聊您剛發佈的這款產品 Marble。它是什麼,以及它為何重要?李飛飛:我非常興奮。首先,Marble 是 World-Labs 推出的首批產品之一。World-Labs 是一家基礎前沿模型公司。我們由四位擁有深厚技術背景的聯合創始人共同創立。我的聯合創始人 Dustin, John, Christoph Lassner, 和 Ben Mildenhall,都來自 AI、電腦圖形學、電腦視覺的研究領域。我們相信,空間智能和世界建模即便不比語言模型更重要,也至少同等重要,並且與語言模型相輔相成。因此,我們希望抓住這個機遇,建立一個能夠連接前沿模型與產品的深度科技研究實驗室。所以,Marble 是一款基於我們的前沿模型建構的應用程式。我們花了一年多的時間,建構了世界上第一個能夠生成真正 3D 世界的生成式 AI 模型。這是一個非常、非常困難的問題。這個過程也異常艱難,我們擁有一支令人難以置信的創始團隊,彙集了來自頂尖實驗室的傑出技術專家。大概一兩個月前,我們第一次實現了僅通過一個句子、一張或多張圖片作為提示,就能建立出可在其中導航的世界。如果你把它載入到 VR 頭顯中,你甚至可以在裡面四處走動。所以,儘管我們已經為此努力了相當長一段時間,但看到成果時仍然感到無比振奮。我們希望將它交到需要它的人手中。我們知道,有那麼多的創作者、設計師、考慮機器人模擬的人、思考可導航、可互動、沉浸式世界不同用例的人,以及遊戲開發者,都會發現它非常有用。因此,我們開發了 Marble 作為第一步。當然,它仍處於非常早期的階段,但它是世界上第一個實現此功能的模型,也是世界上第一個允許人們僅通過提示詞就能生成世界的產品。我們稱之為“提示詞生成世界”。我試用時,最喜歡的部分是在渲染紋理前,能看到構成世界的“點”。我不知道這是功能還是 bug?你們加入這個“點”的功能是為了幫助人類理解它在做什麼嗎?這讓我想起了《駭客帝國》,這是否是你們的靈感來源?李飛飛:聽到你的反饋真是太好了,因為這也讓我作為研究者學到了東西。那些引導你進入世界的“點”,是一個我們有意設計的可視化功能。它並不是模型的一部分。模型本身只是負責生成世界。但我們當時在嘗試找到一種引導使用者進入世界的方式,工程師們嘗試了不同的版本,最終我們選定了“點”這個方案。有很多人,你不是唯一一個,告訴我們那種體驗是多麼令人愉悅。我們有意設計的這個可視化功能,而不只是那個龐大、硬核的模型本身,能給使用者帶來快樂,這真的讓我們感到非常滿足。就像我說的,有很多工程師參與了這項工作。這可能是他們的靈感。08 Marble的應用:從虛擬製片到心理治療對於那些想要嘗試或使用 Marble 的人來說,目前有那些應用是大家今天就可以開始使用的?這次發佈的目標是什麼?Marble 與 Sora 和其他視訊生成模型有什麼區別?創造出這樣的產品需要投入多少?比如團隊規模有多大?你們用了多少 GPU?李飛飛:我們堅信世界建模是一項具有高度通用性的技術,但我們已經看到了一些非常令人興奮的用例。比如用於電影的虛擬製片,因為他們需要 3D 世界來與攝影機對齊,這樣當演員在綠幕前表演時,他們就可以定位攝影機並完美地拍攝片段。我們已經看到了非常棒的應用。事實上,不知道你是否看了我們展示 Marble 的發佈視訊,它就是由一家虛擬製片公司製作的。我們與 Sony 合作,他們使用 Marble 生成的場景來拍攝那些視訊。我們與那些技術美術師和導演合作時,他們說:“這為我們縮短了 40 倍的製作時間。”事實上,也只能這樣才能完成,因為我們只有一個月的時間來製作這個項目,而他們需要拍攝的場景非常多。因此,使用 Marble 極大、極大地加速了視覺特效和電影的虛擬製片流程。這是一個用例。我們已經看到使用者將我們的 Marble 場景進行網格匯出,然後放入遊戲中,無論是在 VR 平台上的遊戲,還只是他們開發的有趣遊戲。我們還展示了一個機器人模擬的例子。因為我現在仍然是一名從事機器人訓練的研究者,過去最大的痛點之一就是為訓練機器人建立合成資料。這些合成資料需要非常多樣化,需要來自具有不同可操縱物體的不同環境。實現這一目標的一條途徑就是讓電腦去模擬。否則,人類就必須為機器人建構每一個單獨的資產,那將花費太長太長的時間。所以,已經有研究人員聯絡我們,希望使用 Marble 來建立那些合成環境。在如何使用 Marble 方面,我們也收到了一些意想不到的使用者垂詢。例如,一個心理學家團隊聯絡我們,希望使用 Marble 來進行心理學研究。原來,他們研究的某些精神疾病患者,需要瞭解他們的大腦對不同特徵,例如凌亂的場景、乾淨的場景,或任何你能想到的,的沉浸式場景會作何反應。對於研究人員來說,要獲取這類沉浸式場景非常困難,建立它們需要耗費太多的時間和預算。而 Marble 提供了一種幾乎是即時的方式,讓他們能夠獲得大量此類實驗環境。因此,我們看到了多種用例,其中視覺特效、遊戲開發者、模擬開發者以及設計師都對此非常興奮。(關於與視訊模型的區別)World-Labs 的核心理念是,空間智能是至關重要的。空間智能並不僅僅是關於視訊。事實上,我們感知世界的方式並不是被動地觀看視訊流逝。我非常喜歡柏拉圖用“洞穴寓言”來描述視覺。他說:“想像一個囚犯被綁在椅子上,在一個洞穴裡,觀看他面前牆上的一場戲劇表演。但真正的戲劇,演員們表演的地方,是在他的背後。那裡有光照,使得戲劇動作的投影投射在洞穴的牆壁上。”這位囚犯的任務就是要弄清楚到底發生了什麼。這是一個很極端的例子,但它深刻地描述了視覺的本質:即從 2D 圖像中去理解 3D 乃至 4D 的世界。所以,對我而言,空間智能比僅僅建立平面的 2D 影像要深刻得多。空間智能是一種建立、推理、互動並理解具有深度空間屬性的世界的能力,無論是 2D、3D 還是 4D,這其中也包括了動力學等。因此,World-Labs 專注於此。當然,生成視訊本身的能力也可以是其中的一部分。事實上,就在幾周前,我們推出了世界上第一個可以在單個 H100 GPU 上進行即時演示的視訊生成技術。所以我們的技術也包含了那部分。但我認為 Marble 非常不同,因為我們真心希望創作者、設計師和開發者手中能有一個模型,為他們提供具有 3D 結構的世界,以便他們將其用於自己的工作。這正是 Marble 如此與眾不同的原因。順便一提,在 Marble 內部,我們可以允許使用者以視訊形式匯出。所以你完全可以,就像你說的,你進入一個世界,比如一個哈比人的洞穴,特別是作為一名創作者,你在腦海中已經有了一個非常具體的攝影機運動軌跡,對吧?然後你就可以將這段運鏡從 Marble 中匯出為視訊。(關於團隊和資源投入)這需要極大的智慧。我們剛提到過,人類大腦的功耗大約是 20 瓦。從這個角度看,20 瓦是個很小的數字,但它背後是令人難以置信的,是長達五億年的進化才賦予我們的力量。我們現在有一個 30 人左右的團隊,主要由研究人員和研究工程師組成。但我們也有設計師和產品人員。我們堅信,我們要建立一家植根於空間智能深度技術的公司,同時,我們也在打造真正有價值的產品。所以,我們實現了研發與產品落地的整合。當然,我們用了海量的 GPU。這大概是 Jensen 最樂意聽到的。09 AI領域的競爭太激烈了,無論是模型、技術還是人才您是 World-Labs 的創始人,公司成立大約 18 個月了。您現在回想,最希望 18 個月前的 Fei-Fei 當時就知道的事情是什麼?縱觀你的職業生涯,你似乎總是在那些推動了當今科技突破的核心人才高地(ImageNet、Stanford SAIL、Google Cloud)。是什麼指引你加入了這些地方?對於那些希望渴望站在未來中心的人們,這背後是否有一條主線?你提到了現在的年輕人才在選擇工作時會精打細算。你是否想對他們說幾句話?李飛飛:我一直都希望能預知技術的未來。實際上,我認為這是我們能獲得融資的優勢之一,那就是我們通常比大多數人更早地看到未來。但是,這個領域依然如此令人興奮,如此令人驚奇,充滿了未知與即將到來的變革。但我知道你問的不是關於技術未來。你可能更關心別的。我並不是 20 歲就創辦了這種規模的公司。我 19 歲時開過一家乾洗店,但那規模小多了。後來,我參與創立了 Google Cloud AI,然後在 Stanford 創立了一個研究所,但那些都和現在完全是兩碼事。我確實覺得,相比那些 20 歲的創始人,我對於創業這段艱辛的歷程準備得更充分一些。但我仍然時常感到驚訝,甚至有些焦慮不安,AI 領域的競爭實在是太激烈了,無論是模型、技術本身,還是人才方面。我剛成立公司那會兒,還沒有聽說過某些人才的身價會高到如此離譜。這些事情持續讓我感到驚訝,我必須對此保持高度警惕。(關於職業選擇的主線)我也時常思考。顯然,我們談到過,是好奇心和熱情指引我進入 AI 領域。這更像是我科研上的“北極星”。我當時並不在乎 AI 是否炙手可熱。這是一方面。但我是如何最終選擇在我工作過的這些地方,包括創辦 World-Labs 的呢?我想我非常感謝自己,或者感謝我父母的基因,我是一個在求知上無所畏懼的人。我必須說,我在招聘年輕人時,也會尋找這種特質。因為我認為,如果你想有所作為,這是一種非常重要的品質。當你想要有所作為時,你必須接受一個事實:你正在創造前人未曾做過的新事物,或者正在投身於一個全新的領域。一旦你有了這種自我認知,你就必須讓自己保持無畏和勇敢。舉個例子,我來 Stanford 的時候,在學術界,我當時在 Princeton 已經非常接近拿到“終身教職”了,那意味著一份終身的工作。但我選擇來到 Stanford。我愛 Princeton,那是我的母校。但只是在那個時刻,Stanford 有太傑出的人才,矽谷的生態系統太棒了,我願意冒險,那怕讓我的終身教職“時鐘”歸零重啟。再比如,我去擔任 SAIL 的第一位女性主任。坦白說,我當時是相對非常年輕的教員。我之所以想這麼做,是因為我關心那個學術社區。我沒有花太多時間去想各種失敗的可能性。當然,我很幸運,那些資深教授都很支援我,但我當時就是想做點不一樣的事情。去 Google 也是類似的。我想和 Jeff Dean, Jeff Hinton 那些了不起的人一起工作。創辦 World-Labs 也是一樣。我懷有這份熱情,並且我堅信,一群懷有相同使命的人能做出不可思議的成就。這就是指引我人生的信條。我不會過度思考所有可能出錯的細枝末節,因為那樣想是想不完的。(對年輕AI人才的建議)我確實想對所有 AI 領域的年輕人才,對那些工程師和研究員們說幾句話,因為你們中有些人申請了 World-Labs。你們能考慮 World-Labs,我感到非常榮幸。我發現,現在許多年輕人在決定工作時,會精打細算,權衡每一個因素。某種程度上,也許,這只是他們做事的方式。但有時我真的很想鼓勵年輕人專注於真正重要的事情。我發現自己,在和候選人交談時,常常不自覺地扮演起導師的角色,無關招聘與否,只是當我看到一個極具天賦的年輕人,卻過度糾結於工作的每一個細枝末節時,我總想提醒他們,也許最重要的事情是:你的熱情在那裡?你是否認同這家公司的使命?你是否相信並對這個團隊抱有信心?你應該專注於你能產生的影響,以及你將與之共事的工作和團隊。10 史丹佛HAI的使命:建立“以人為本”的AI框架我一定要問問你今天在 Stanford 的工作,在 HAI。你在那裡做什麼?李飛飛:HAI,以人為本的 AI 研究所,是我和 John Etchemendy 教授、James Landay 教授、Chris Manning 教授等一群學者在 2018 年共同創立的。當時我其實快結束在 Google 的學術休假了。那對我來說是一個非常重要的決定。我本可以留在工業界,但我在 Google 的經歷讓我明白了一件事:AI 將成為一種足以影響文明處理程序的技術。我突然意識到它對人類有多麼重要,以至於我2018 年在 《紐約時報》上發表了一篇文章,呼籲我們需要一個指導框架來開發和應用 AI。這個框架必須植根於人類的福祉,也就是‘以人為本’。我覺得 Stanford,作為世界頂尖大學之一,地處誕生了 NVIDIA、Google 等重要公司的矽谷心臟,理應成為思想領袖,去建立這個以人為本的 AI 框架,並將這一理念真正體現在我們的研究、教育、政策和生態建設中。所以我創立了 HAI。一晃六七年過去了,它現在已經成為全球最大的人工智慧研究所,致力於以人為本的研究、教育、生態外展和政策影響。HAI 匯聚了 Stanford 所有八個學院的數百名教員,涵蓋了醫學、教育、可持續發展、商學、工程、人文、法律等領域。我們支援研究人員,特別是那些跨學科領域的研究,從數字經濟、法律研究、政治科學,到新藥發現,再到超越 Transformer 的新演算法。我們還特別關注政策。因為在創立 HAI 時,我意識到科技界與全球的政策制定者之間缺乏溝通。鑑於這項技術如此重要,我們需要讓各方都參與進來。因此,我們設立了多個項目,從‘AI 指數報告’到‘政策簡報’。我們還積極參與政策制定,包括倡導‘國家 AI 研究雲’法案,並參與了州一級的 AI 監管討論。我們做了很多工作。我至今仍是領導者之一,儘管在具體營運上參與得少了,因為我關心的不僅是創造這項技術,更是確保我們以正確的方式使用技術。11 任何技術都不應剝奪人的尊嚴和自主權你還有什麼想分享的嗎?或者想對聽眾說的?李飛飛:我對 AI 感到非常興奮。我想回答一個問題,一個我環遊世界時每個人都會問我的問題:如果我是一個音樂家、一個中學老師、一個護士、一個會計或一個農民,在 AI 時代還有我的位置嗎?還是 AI 終將取代我的生活或工作?我認為這是關於 AI 最重要的問題。我發現,在矽谷,我們不常與普羅大眾,無論是像我們的人,還是和我們不一樣的人,進行坦誠的交流。我們傾向於隨意拋出‘無限生產力’、‘無限休閒時間’或‘無限權力’之類的詞彙。但歸根結底,AI 是關於人的。當人們問我那個問題時,我的答案是毋庸置疑的‘是’,每個人在 AI 時代都有自己的角色。這取決於你的工作和你的追求,但任何技術都不應剝奪人的尊嚴。人類的尊嚴和自主權必須是每一項技術開發、部署和治理的核心。所以,如果你是一個年輕的藝術家,你的熱情是講故事,那麼請擁抱 AI 作為工具。事實上,我希望你擁抱 Marble,希望它能成為你的工具。因為你講故事的方式是獨一無二的,世界仍然需要你的故事。但你如何講述故事,如何使用這些最不可思議的工具,用你最獨特的方式去講述,這很重要,你的聲音需要被聽到。如果你是一個即將退休的農民,AI 對你依然重要,因為你是一名公民。你可以參與社區事務,你應該在 AI 如何被使用和應用上擁有發言權。你和你身邊的人,可以鼓勵大家利用 AI 讓生活變得更輕鬆。如果你是一名護士,我希望你知道,至少在我的職業生涯中,我在醫療保健研究上投入了大量精力,因為我堅信我們的醫護人員應該被 AI 技術極大地賦能和幫助。無論是通過智能攝影機提供更多資訊,還是通過機器人輔助,因為我們的護士工作強度太大、太疲勞了。隨著社會老齡化,我們需要更多幫助來照顧人們。AI 可以在這方面發揮作用。我只想說,這一點非常重要:即使是像我這樣的技術專家,也真誠地相信,每個人在 AI 時代都扮演著重要的角色。 (數字開物)
AI的世界
上次說到,AI大神楊立昆一心想打造一個能理解物理世界的AI模型,那就是世界模型,在這一點上,他和AI教母李飛飛的方向是一致的。作為史丹佛大學電腦科學系的首席教授,和史丹佛“以人為本AI研究院”的聯席院長,李飛飛在史丹佛官網上的資料顯示,她正處於休假狀態。就是在李飛飛休假期間,她創辦了自己的新公司,名叫World Labs,這是李飛飛非常想做的事情,也是她認定的、AI該有的未來。那就是世界模型。具體而言,那是一個理解現實物理世界,擁有空間智能,會推理3D空間的智能AI系統。在最新一篇一萬多字的論文中,李飛飛指出,現在的AI其實是處於黑箱狀態,AI的世界不是立體的、3D的,只是平面的一連串字元。即使現在的AI再博學,無所不通,它仍然只是大語言模型,LLM,Large Language Model,只會說,沒有空間智能。現在AI,其核心能力是理解和生成人類語言,那是通過演算法,算力和資料,這三個要素訓練而成。而所謂的資料並非現實世界原來的樣子。如同當年李飛飛創辦ImageNET資料庫,教會AI識別圖片一樣,所有給AI投喂的資料,都經過人類的標註,使用AI能識別的字元。資料是平面的,一切如你所知,AI不知道,酒杯碎了,紅酒會灑在地面上。AI不知道,貓咪為什麼能躲在櫃子後方,不被看到。而且AI的空間是錯亂的,不連貫的。李飛飛的首要目標,就是讓AI學會自己建構一個空間,一個遵循物理規律的3D世界。一旦AI的這個虛擬世界,成長的現實世界無二,空間智能成熟,立體化的AI也將真正走進人類世界,成為真正的人類助手。那這就會是AI的未來。李飛飛說,如同北極星的指引,這一場探索,我們一起去追尋。 (後知說)