#AI技術
微軟CEO納德拉最新訪談,資訊量很大!
內容來源:微軟CEO納德拉與Stripe聯合創始人約翰·科裡森(John Collison)的對話。商業思維筆記君說:如今的微軟,已是市值全球第一的科技巨無霸。但在納德拉眼中,輝煌之下始終潛伏著危機。回望90年代,微軟坐擁一群天才,卻差點錯失網際網路;2000年市值登頂,卻在此後陷入迷茫。歷史總是驚人的相似,但納德拉不想重蹈覆轍。面對AI浪潮,大多數人還在焦慮模型參數,納德拉卻在思考更深層的問題:當AI成為新的“組織層”,企業的“主權”還在嗎?當機器掌握了知識,組織的邊界在那裡?在這場與Stripe創始人的對話中,納德拉毫無保留地拆解了微軟的AI焦慮、技術堆疊佈局以及他對未來軟體、商業與文化的終極思考。一、與其羨慕別人 不如建構自己的護城河1.知識圖譜,將是“殺手級”應用對微軟來說,要確保AI真正“滲透”到企業內部。不是讓大家去仰望別人家的AI工廠或 AI Agent,而是思考“如何建構屬於你自己的AI 工廠”。其中最複雜的部分是組織企業內部的資料層,這需要跨越整個企業體系,並讓資料能夠與智能層真正對接。我想這會是我們重點推進的方向。我們要做的最大一件事建立了圖譜,把那張隱藏在企業最重要資料庫之下的關係圖釋放出來。那些資料庫就是包括你的郵件、文件、Teams會議等等背後的系統。所有人都不是臨時、無結構地工作,而是在圍繞某個業務事件進行協同。這將是一種“殺手級應用”,以前,語義關係一直都只存在在人腦裡,也一直都丟失掉了,而現在你第一次可以真正呼叫起來。當然,這一切其實剛剛開始。和我們以往推出 Office 套件相比,這次算是歷史上“最快”的一次變革。但歸根結底,這屬於“變革管理”。你得真正把它部署進去,人們得真正用起來。而且在企業環境中,一切還必須滿足審計要求,資料治理要能跑通。這是很大的工程,但我們現在終於開始看到加速的跡象。另一點是:讓它在Microsoft 365 Graph(圖譜)內部工作是一回事,那 ERP 系統怎麼辦?現在的連接器“能用但很弱”,就像一根細吸管。你需要的是一個更好的資料架構,把所有東西語義化嵌入在同一個層裡。如果我沒記錯的話,Bill(比爾·蓋茲)90 年代就提出了“information at your fingertips(資訊觸手可及)”。他一直非常執念。我記得很清楚,我那時還只是個新人,他說過一句話:“軟體只分一個類別:資訊管理。你只需要結構化人、地點和事物,就夠了。”他討厭檔案系統,因為它不結構化。若所有東西都是SQL資料庫,那他就能寫 SQL 來處理所有資訊,那才是優雅的解決方案。問題是人是混亂的。即便資料結構化了,它也不可能真的給你一個統一的索引或 SQL 查詢把所有內容都調出來。這就是過去時代最大的挑戰。我們以前從來沒想過,最後解決這個問題的不是某種極複雜的資料模型,而是一個規模巨大的深度神經網路,靠算力堆出的參數的“捕捉模式”。2.agent的三大基石模型有兩個關鍵——“上下文學習”和“持續學習”。如果你把模型的認知能力和知識分離,那麼從本質上,你就得到了一個持續學習的架構:演算法是獨立的,知識可以被更新。不過模型執行階段,有三樣關鍵東西必須放在模型之外:記憶:包括短期、長期,以及人類擅長的長期信用分配。權限體系:模型必須遵守角色權限、訪問規則。行動空間:模型可執行的操作必須被系統定義。這三個就是“環境”。如果模型擁有行動、權限管理和記憶,就能持續學習。而這些都必須在模型之外、但又與模型深度結合。例如, Copilot 今天用的是 OpenAI 模型,也能用 Claude,系統必須讓它們都能工作。我認為下一階段的突破就在這裡。3.微軟的AI技術堆疊微軟的AI佈局分為三層:第一層:基礎設施業務(token 工廠)。我們必須極其擅長打造“token工廠”,也就是以最低的“成本/能耗”生產最多的 token。第二層:智能體工廠(agent 工廠)。與 token 工廠不同,agent 工廠的目標是用token 驅動真實業務價值或消費者價值。這就像新的應用伺服器(App Server),是 AI 時代的新“應用層”。第三層:AI 系統(Copilot 家族)。包括資訊工作(Office)、軟體開發(GitHub Copilot)、安全(Security)這是三個水平層。除此之外,我們在業務應用上也深度投入到醫療與科學領域。二、微軟的歷史教訓 範式正確不代表一定會贏1.差點錯過網際網路浪潮1994 年,我住在微軟園區旁邊的公寓,那裡聚集了一大幫天才,我們卻錯過了網際網路。作為當年一個新人,回看那段歷史,我的感覺是:我們其實理解網際網路,但又不完全理解。比如我們不相信TCP/IP 能成,我們覺得必須有服務質量保證,所以建構的是資訊高速公路。MSN 最早還是X.25 網路,因為我們在和AOL的撥號上網競爭。但 Bill在 95 年果斷轉向了。就在 Windows 95 推出時,他說:“一切都會改變。”所以大概93–95年之間,技術堆疊到底會不會是開放網際網路,還不清楚,但 Mosaic 瀏覽器出來之後,一切變得清晰,然後微軟全面轉向。還有另外一個教訓。我一直關注的一件有趣事情是——我認為這可以遷移到 AI 上:首先你得把“範式”認清楚。但即使你認清了範式,也不意味著你能找到那個殺手級應用,甚至不意味著你能找到正確的商業模式。歷史上一直如此。比如網際網路,誰能想到在開放 Web上,一個具有網路效應的搜尋引擎竟然會成為“組織層”?我常說,根本不存在所謂的“開放網頁”,只有“Google的網頁”,因為Google徹底統治了它。回頭看很有意思:AOL和MSN輸給了開放Web,大概可以這麼說。但它們又被新的 AOL 和 MSN 形式替代了:它們叫搜尋引擎、叫應用程式商店。移動 Web 就是一個非常迷人的例子。對我來說,更深刻的觀察是:即使在開放生態中,“組織層”仍會不斷出現,而大量的品類力量會流向這個組織層。只是每一次這個組織層是什麼都不確定,上一代是搜尋引擎,今天是聊天機器人。它能持續多久?沒人知道,但今天它毋庸置疑存在。ChatGPT 的成功不可否認,它已經成為一種新的聚合點。搜尋引擎、應用程式商店也曾經是組織層。那麼下一步是什麼?在“智能體市場”或“智能體電商”中,電商又會變成什麼?這些都是未來要討論的問題。2.做“顯然該做的事”遠遠不夠2000年,我們成為了市值最大的公司,超過了GE。我記得那個時刻。回頭看,即便拋開金融周期,當時的長期趨勢非常明確:網際網路會成為主導。因為那個時候商業模式已經開始出現。對微軟來說,當時最大的教訓是:天啊,連我們的第一反應(做瀏覽器、做 Web 伺服器、把網際網路協議塞進所有產品、用 FrontPage 做網站建構器……)這些“顯然該做的事情”都不夠。我們意識到不能只做顯然的事情,我們必須重新發明自己正在做的東西,同時理解新的商業模式。從某種意義上講,那輪泡沫周期確實像是從天而降,由某種非理性繁榮驅動的。但當泡沫破滅時,它也確實洗掉了一堆糟粕。但真正好的點子都活了下來。現在我看這次浪潮,有兩個特點:一是基礎設施這次是“立刻就需要”的,不像以前那樣——你建好一條暗光纖,還得等某家公司十億使用者才能把它點亮。說實話,這一次我們是落後的一方。我們不是坐在那裡說“我 GPU 都架好了但沒有人用”。完全不是。我只希望更高的利用率……但我沒有“資源空著沒人用”的問題。恰恰相反:我必須趕緊拿到更多的供應。而且不可能做到供應鏈完全匹配需求,因為這次建設周期很長。長周期部分包括:土地批准、電力批准、站點位置……我們現在甚至需要給華爾街解釋:這些資產,有的使用周期20年,有的4–5 年。你必須用不同思路做決策。一個冷機房空在那裡根本沒什麼——就像一個公司有五座空樓,不會成為資產負擔。所以,現在最大的瓶頸就是“熱機房”,能接上電、馬上裝機、馬上點亮。如果我沒有足夠多已經通電的機房,我就無法把機架推進去、裝機、投入營運。3.高估競爭的“零和”我們經常高估了競爭是“零和”的。你需要很敏銳地判斷那些生意天然是“多玩家”。例如云:當年Azure啟動時,大家都說AWS已經太領先,第二名沒有空間了。但我從與 Oracle 和 IBM 競爭的經驗中知道:企業永遠不會只要一家雲。所以我們堅持做 Azure。如果你“捆綁過度”,反而會縮小市場。例如Azure 原來叫Windows Azure,問題巨大,因為雲不可能只支援 Windows。我們必須把 Linux 當作頭等公民,把 MySQL、Postgres 當頭等公民,這是贏下 TAM 的必要條件。我對模組化的原則是:什麼配置能最大化市場?什麼能真正滿足客戶?什麼能保持競爭力?我們必須先贏下來,至於未來他們是否願意遷移,那是另一回事。Outlook把郵件、日曆、聯絡人整合在一起,Teams則是把聊天、頻道、視訊等功能組合成一個“工作空間”。這類集束本身就是一種產品形態,但你仍然需要在底層保持足夠的原子化能力:確保模組化不會犧牲競爭力。如果你做了一個“超級雲”,但只能跑 Windows 和 SQL,那只能佔市場的一小塊而已。AI 堆疊也是一樣,我希望基礎設施、應用伺服器、應用層,三個層次都能獨立站得住。使用者可以從任意一層進入。三、對未來的思考1.未來的軟體是跨工作流的從某種意義上說,表格這種東西……我覺得它體現了“列表與表格的力量”。它和軟體的可塑性結合在一起,才成為一個完美的存在。我們可能會加很多花裡胡哨的功能,但它的核心不會變。電子表格也是一樣,我們從來沒有給它足夠的重視。其實你可以認為它是全世界最容易上手的程式設計環境,甚至在“不知道自己在程式設計”的情況下就開始用了。這是它的另一重美妙之處。反過來看,現在的AI,我們依然把它“神秘化”得太厲害。你我都討論過:天啊,我們需要變革管理、組織重構等等……但當年電子表格剛出現時,沒有人說“需要變革管理”。大家直接用就完了。我們現在處在一個類似的時代,即將出現新的“工作產物與工作流程”,從底層重塑、重新發明。某種程度上,我們已經能生成所有程式碼,所以也就能生成更定製化的 UI 框架。實際上我們過去就在討論:文件、網站、應用之間到底有什麼本質區別?都是不同形式的表達而已。同樣有趣的是,雖然大家說“應用會消失”,但看看我們的老朋友 Excel 和 VS Code——它們其實又回來了。因為 AI 會生成內容,而我需要理解和編輯這些內容。我需要一個優秀的編輯器,能夠讓我對AI生成的結果做 diff、做迭代。因此,IDE 會迎來全新的一代,它們會與智能層有遙測循環,同時像“抬頭顯示器”(HUD)一樣,幫助我管理數千個平行的 agent。我得理解它們的工作,並對其進行“微調度”。這就是未來 IDE、收件箱、消息工具的樣子。我在思考:未來我們如何與大量 agent 協作?我會發佈大量指令,agents 會執行數小時甚至數天,然後不斷回報進度。我又如何在有上下文的情況下進行微調?絕不能是今天這種“通知地獄”——給我 5 個字,我完全不知道上下文。未來的軟體必須是跨應用、跨工作流的。最終,大多數軟體在成熟後都會變成:一個 inbox(收件箱)、一個消息工具、一個畫布,螢幕上不斷閃爍結果,但大量工作已在後台完成。我認為仍然是少數幾個。甚至從“極簡主義”的角度看,可能還是那幾個,只是它們執行的任務變了。比如說:人類喜歡表格、喜歡線性的文件、喜歡 inbox / messaging,這些 UI 其實是經過驗證的。2.智能體電商我們一直以來都有一個想法:什麼樣的“基礎設施”對商家最友好?什麼樣對消費者最友好?有沒有一種完美匹配?“對話式電商”大家談了很多年,而現在靠你們與其他團隊的工作,我們真的能把商家、使用者,通過一個智能體式的體驗連在一起。當然現在還很早,必須做得“有品位”、能贏得使用者信任。但我真的非常激動。我經常在各個平台上找東西。亞馬遜、沃爾瑪 等等的站內搜尋真的不太行。但聊天式體驗真的太好用了。而且關鍵是,它會回到商家的商品目錄。目錄依然是王,但如果我能把“目錄 + 支付”結合起來,那體驗就完全無縫了。目前,“關鍵詞搜尋”是最合理的找東西方式,本質上是一個“定製化商品目錄”。它的結果不像搜尋引擎結果頁那樣機械。現在有一個巨大問題:目錄質量參差不齊,缺少可推理的資料結構。解決這個問題之後,每一個商品都能找到屬於它的搜尋請求。那對每個商家來說,怎樣才能以最低摩擦接入“智能體工作流”?最終每個商家可能都會說:“我有商品目錄,我有支付系統。請幫我以最簡便的方式接入所有智能體。”“通用介面”的方式正在流行,讓他們點一個按鈕就能啟用“智能體電商”,而不是跑去自己搭MCP伺服器。而誰把這件事做得“優雅、有品位”,誰就贏得未來。在智能體世界裡,這些流程可以完全打通,不再像今天這樣處處是縫。3.重新定義“公司主權”:隱性知識的權重化所有國家與政策制定者都非常關注資料主權的話題,也確實有合理原因。但在 AI 時代,我對“主權”的看法有些變化了。真正的主權問題其實是:公司的未來是什麼?按照科斯定理的邏輯,如果模型是那個掌握所有知識的東西,那為什麼組織內部還需要存在?組織存在是因為內部交易成本更低、存在“隱性知識”。但如果模型知道一切,這會被徹底顛覆。所以我現在認為:未來核心主權,是企業對其自身模型的主權,不是別人家的基礎模型,而是你的公司是否擁有一個屬於自己的基礎模型,它能夠吸收你的隱性知識,使組織內部知識的積累與擴散成本更低。這就是未來意義上的“主權”。我最關心的是“隱性知識到底存在於那裡”。它顯然存在於人腦中,是通過時間積累的 know-how。但它也會以權重的形式存在於某些屬於你的 LoRA(模型微調層) 層中。未來的智慧財產權,不僅是員工和檔案,還有一些“嵌在模型裡的東西”。但你怎樣保護這些能力不會“洩漏”回基礎模型?我認為未來公司形態是這樣的:基礎模型提供通用能力,而公司自己通過多個模型、記憶、工具呼叫、獨特的資料,建構出屬於自己的“智能層”。4.打造模型選擇器在消費產品領域,這是我們第一次看到:當你切換模型時,變化並不一致,而且每個人受到的影響都不一樣。人格、風格等等,會成為全新的維度。從另一個角度看,這說明:AI 模型的差異化不止IQ,還有EQ,還有風格偏好等維度。但從長期來看,我認為關鍵是模型必須持續提升,尤其是在最難、最高價值的任務上。然後你要不斷根據任務進行最佳化。對我們這種產品建構者而言,我的目標是讓最強的模型上線,但真正投入生產的,會是一組“多模型陣列”。我最終希望有一個“模型選擇器”。你需要建構一組模型,中間由 agent 來協調,根據使用者偏好和任務來決定使用什麼。它要足夠智能,能夠知道這個任務需要多少算力、需要那種智能——如同GitHub裡的Auto功能。我們都很難改變自己的默認設定,這就是為什麼“預設值”如此重要。甚至連模型選擇介面,如果你拿掉,人們都會不滿。但從長期來看,如果我能信任某個系統,它每次幫我選模型時都能做出“令人愉悅的選擇”,我就會把選擇權交出去。四、微軟的企業文化1.最親民的工作方式,是與客戶保持溝通我日常工作的核心其實有兩個部分:首先,是與客戶相關的事情。基本上沒有那一天我不跟客戶開會,這是讓我保持“親民”的最好方式。然後,就是大量的會議。作為 CEO,我逐漸意識到,其實會議分兩種:一種是我只需要召集大家,然後閉上嘴,不要表現過度,因為召集本身就是這次會議最重要的事。所有的工作要麼已經在會前完成了,要麼會在會後繼續。而另一類會議則很重要,我必須學習、必須做決策、或者必須傳達某些重要內容。然後我必須說,我花大量時間在Teams的頻道里“閒逛”,這對我幫助最大。我從那裡學到的最多,認識的人也最多。最棒的就是,我能在裡面建立最多聯絡。我能知道:“哇,他原來是做Excel Agent的人;哦,那是他們在看的評估結果。”我從裡面學到的東西比別的任何方式都多。其實我覺得我們權限體系太嚴格了,我希望自己能有更多存取權。事實上,我最大的抱怨就是我不能隨便進入所有地方。但能偶爾進去看看確實很有趣,而且它讓一切變得更“正常化”。而且今天的員工可不羞於表達意見。2.創始人是一家公司最強基因我一直都有一種“開發者關係/技術布道”的基因,微軟文化裡本身也有這個傳統。我對事情的看法一直是:如果你不跟著開發者走,你就很難保持技術平台的相關性;而如果你不瞭解新的工作負載,你也建不好技術平台。這兩件事深深刻在我腦子裡。所以如果你不關注創業公司,你就很難真正理解平台和工作負載的變化。這一直是我非常在意的。還有一點:我可以從中獲得巨大的能量。我一直覺得創始人是能“從無到有”創造東西的魔法師。這簡直像魔術。所以我一直好奇,他們到底是怎麼做到的?例如,我從Stripe學到的最重要的一件事,就是重新發現微軟當年的優勢:跟著開發者、跟著創業公司走。這也是我後來推動 GitHub、NAT 等等的原因之一。GitHub 不只是一個戰略資產,它是整個開源生態的核心,而且每家創業公司的程式碼倉庫都在那裡。我覺得必須參與那條“循環”,不僅是為了戰略地位,而是為了學習、為了建構更好的產品。否則,你很容易丟失那種“低摩擦、快速獲得價值”的產品美學,而創業公司對耐心最少、對效率要求最高。創始人很特殊的一個群體。因為他們從零開始一起成長,這種工作記憶和直覺是獨一無二的。作為繼任CEO,你不可能完全複製創始人的方式。我1992年加入微軟,沒經歷八十年代早期,所以有些認知只能創始人CEO才能把握。所以我認為,要尊重創始人獨特能力,創始人也要尊重繼任者,知道他們不能完全照搬自己做法。這就是所謂的“創始人模式”與繼任CEO模式的微妙差別:你可以部分沿用創始人的模式,但不能把自己當作創始人。3.文化是團隊塑造的我想,微軟應該追回八十年代的那些精神。八十年代,微軟的願景是“軟體工廠”,不是某個單一平台。九十年代微軟太龐大了,我們的產品自然傾向於繫結。我在上任時意識到:我們沒有移動平台,如果不擁抱更開放的市場,我們就會失去自身的重要性。幸運的是,“把軟體帶到所有平台”本來就是微軟的DNA,不是我憑空指令。我從“部門互相拿槍指著彼此”的著名漫畫中學到兩點。首先,我是微軟的“老內部人”,過去三十多年公司的好壞我都經歷過。那張漫畫反映的問題之一是:我們失去了自己的敘事權,讓別人來替我們定義文化。這就是社交媒體時代的風險。當然,組織間確實有真實的張力,那是必要的,不是壞事。目標不是“內部和諧”,而是“贏得市場”,有時候甚至需要刻意設定兩個競爭團隊。領導者的挑戰是:在一個員工從外界獲得絕大部分資訊的時代,如何讓組織堅持自己的內在力量,而不被綁架?另一個文化誤解是,很多人認為權力高度集中在上層。事實上權力是分散的,文化是“微文化”的集合。我之所以能在微軟一直待下去,是因為我幸運地加入了那些“讓人能成長的團隊”。所以作為CEO,我的任務是:需要提供一個一致的敘事(如“成長型心態”),讓每個團隊能塑造自己的正向文化,不讓社交媒體標籤決定公司是誰,這才是文化真正的關鍵。當你接手創始人建立的公司時,Steve 和 Bill 打下了基礎,Paul 和 Bill 擴大了公司,我算是第一批“非創始人CEO”。我很快意識到:你需要一支團隊。不僅是管理範圍的問題,還包括清楚CEO自己需要做什麼;那些業務需要CEO 來綜合判斷;為文化設定標準;建立績效文化。你不能只關注長期,也不能只關注短期,你必須兩者兼顧。但核心是把只有你能做的四五件關鍵事抓好,然後打造團隊。即便在500人的公司,這也是必須做的,只不過在小公司你還能把細節記在腦子裡。 (筆記俠)
Transformer如何將 AI 計算效率提升 100 倍?|DeepMind 首席科學家最新演講
11月25日,Google DeepMind首席科學家 Jeff Dean在史丹佛 AI 俱樂部發表演講。本次演講 Jeff Dean全面復盤了過去 15 年 AI 技術的關鍵轉折點,探討了算力硬體與模型架構的協同進化、計算範式從 CPU 向TPU的必然轉移、大規模深度學習系統的工程哲學、Transformer 架構的效率革命、自監督學習與多模態模型的崛起,以及 AI 在數學推理與科學研究中的前沿應用。Jeff Dean 指出,機器學習在過去十年徹底重塑了計算能力的邊界。這種變革並非單點突破,而是“規模”與“演算法”的乘數效應。他詳細拆解了 Google Brain 早期的工程決策,指出為了突破算力瓶頸,團隊採用了在數學上看似“完全不成立”的非同步訓練方法,這種工程實踐最終被證明是實現大規模神經網路訓練的關鍵。他還特別強調了硬體演進的底層邏輯:Google 研發 TPU 並非為了追求單純的算力堆疊,而是被“1億使用者每天使用3分鐘語音識別”這一實際算力缺口倒逼出的架構創新,他強調,硬體的演變不僅僅是速度的提升,更是為了適應低精度線性代數運算的本質需求。在模型架構層面,Jeff Dean 深入剖析了從 LSTM 到 Transformer 的範式跨越,並提出了當前前沿模型的一個關鍵共識:現代大模型(如 Gemini)本質上應是“稀疏”的。他指出,處理單一任務時啟動整個網路是巨大的資源浪費,通過稀疏架構僅啟動 1%-5% 的參數,可以在算力成本不變的前提下實現性能的指數級躍升。此外,他還探討了自監督學習如何利用海量文字資料進行“填空訓練”,以及在後訓練階段如何通過強化學習和蒸餾技術進一步提升模型的安全性和推理能力。01. 計算範式的重構:從通用 CPU 到機器學習專用算力的演進Jeff Dean:今天我想和大家探討AI 領域的重要趨勢,主要是回顧過去 15 年左右的發展,以及這些進展是如何緊密結合,從而建構出我們今天所擁有的現代高能力模型的。這展示了 Google 許多人的工作成果,其中一些也源自其他地方,我有時只是一個信使,有時是合作者,也是其中部分技術的開發者。首先有幾個觀察。我認為在過去十年左右,機器學習已經完全改變了我們對電腦能力的預期。十年前,你無法獲得非常自然的語音識別體驗,也無法與電腦流暢對話。它們在圖像識別或理解視覺內容方面表現不佳,也並不真正理解語言。發生的變化是,我們發現了一種特定的基於深度學習的方法範式,也就是神經網路。隨著我們擴大規模,增加算力確實帶來了極好的結果。在這個過程中,我們開發了真正新穎且有趣的演算法和模型架構,這些改進也帶來了巨大的提升。這些因素通常能很好地結合,因此更大的規模配合更好的演算法,往往能發揮出更優異的效果。另一件在整個計算行業產生重大影響的事情是,我們想要運行的計算類型以及運行這些計算的硬體已經發生了巨大變化。十五年前,你主要關心 CPU 有多快,也許關心它有多少個核心,能否快速運行 Microsoft Word 和 Chrome 或傳統的手工編寫程序。而現在你關心的是:它能在各種不同的約束條件下運行有趣的機器學習計算嗎?02. 你需要一百萬倍的算力才能製作出真正好的神經網路讓我們快速回顧一下機器學習 15 年來的進步。神經網路被證明是一個相對古老的想法。這種在邊緣具有權重並可以學習識別特定模式的人工神經元概念,實際上非常重要。與之相結合,反向傳播作為一種學習邊緣權重的方法被證明是關鍵所在,因為這樣你就可以根據擁有的一些錯誤訊號,對整個網路進行端到端學習。這是我在 1990 年,也就是大四那年第一次瞭解神經網路時的情況。我當時非常興奮,心想:“這是一個如此偉大的抽象概念,這將非常棒。我們可以建構真正偉大的模式識別系統並解決各種問題。”我當時激動地說:“我要寫一篇關於神經網路平行訓練的畢業論文。”我最終做的是嘗試使用系裡的 32 處理器機器而不是單台機器,我想我們將能夠建構真正令人印象深刻的神經網路。我基本上在這台時髦的基於超立方體架構的機器上實現了現在所說的神經網路資料平行和模型平行訓練,然後觀察加入更多處理器時它是如何擴展的。結果證明我完全錯了。你需要一百萬倍的算力才能製作出真正好的神經網路,而不是僅僅 32 倍。這是一個有趣的練習,但結果表明當時的算力規模遠不足以支撐這一概念。2012 年,我在 Google 的茶水間碰到了 Andrew Ng。我問他:“嗨 Andrew,你在這裡做什麼?”他說:“我開始每周在 Google 花一天時間。我還沒完全搞清楚要做什麼,但我在 Stanford 的學生開始在各種語音問題上用神經網路取得不錯的結果。”我說:“那很酷,我們應該訓練真正大規模的神經網路。”這就是 Google Brain 項目的起源:我們如何利用海量計算來擴展神經網路的大規模訓練?那時我們的資料中心實際上沒有加速器,只有大量擁有許多核心的 CPU。我們最終建構了名為 DistBelief 的軟體抽象,這最終支援了模型平行以及資料平行。03. 非同步訓練悖論:“這在數學上完全不成立,但結果證明它有效”事實上,我們對模型的多個副本進行了這種時髦的非同步訓練。在用一批資料進行每一步訓練之前,其中一個副本會下載當前的參數集,它會全力處理這批資料的訓練並計算梯度更新,即 ΔW,並將其傳送給參數伺服器,然後參數伺服器會將 ΔW 累加到當前的參數狀態中。這在數學上完全不成立,因為與此同時,所有其他模型副本也在計算梯度並將它們非同步地加入到這組共享的參數狀態中。這讓很多人感到緊張,因為它實際上不符合理論上的做法,但結果證明它有效。我們建構了系統,讓模型的 200 個副本都非同步地運轉並更新參數,效果相當不錯。我們還有模型平行,可以將非常大的模型劃分到許多電腦上。這個系統使我們在 2012 年能夠訓練比以前任何人訓練過的規模都要大 50 到 100 倍的神經網路。它們現在看起來真的很小,但在那時我們非常興奮。04. 無監督學習的湧現:“它從未被教過貓是什麼,卻自己總結出了貓的概念”我們使用這個系統做的第一件事就是後來聞名的“貓論文”,我們從隨機的 YouTube 視訊中提取了 1000 萬個隨機幀,並僅僅使用一個無監督目標函數來學習一種表示,然後用它來重建每一幀的原始像素。學習目標有點像是試圖最小化給定輸入幀的重建誤差。你不需要任何標籤,事實上,系統從未看到過無監督部分的任何標記資料。我們發現,在這個模型的頂層,最終會得到對圖像是否包含不同種類的高級概念敏感的神經元。即使它從未被教過貓是什麼,也有一個神經元,你能給它的最強刺激就是像貓臉一樣的東西。它只是通過接觸這些資料就自己總結出了貓的概念。還有針對人臉、行人背部或類似事物的其他神經元。也許更重要的是,我們在較為冷門的 ImageNet 22,000 類別基準測試上獲得了現有技術的巨大提升。大多數人競爭的是 1,000 類別那個。我們當時想,讓我們做 22,000 類別的那個。我們在現有技術上獲得了 70% 的相對提升。我們還證明,如果做無監督預訓練,實際上在精準性上獲得了相當顯著的增加。05. 從詞向量到 LSTM 的序列預測我們也開始思考語言,並研究如何獲得單詞的良好分佈式表示。與其將單詞表示為離散的符號,我們希望為每個單詞建立一個類似神經網路的表示,然後能夠學習這些表示,以便最終得到代表系統中每個單詞或短語的高維向量。如果你這樣做並且擁有大量訓練資料,也就是你需要用來訓練的原始文字,你會發現當訓練完成後,在高維空間中位置相近的單詞都是相當相關的,比如 Cat、Puma 和 Tiger 都在附近。但也很有趣的是,我們發現方向是有意義的。如果你對這些向量進行減法運算,你會發現改變單詞性別的方向是相同的,例如無論你是從 King 開始還是從 Man 開始。你最終能夠做到這一點,還有針對動詞過去時和動詞將來時的其他方向,那確實有點有趣。然後我的同事 Ilya Sutskever、Oriol Vinyals 和 Quoc Le 致力於使用 LSTM,即循環長短期記憶模型,來解決一個特別好的問題抽象,也就是你有一個序列,並使用它來預測另一個不同的序列。結果證明這在世界上有各種各樣的用途,包括翻譯。如果你看到足夠多的英語-法語句子對並使用這個基於序列到序列的學習目標,那麼你最終會得到一個相當高品質的翻譯系統。結果證明你也可以將此用於各種其他事情。06. 硬體倒逼軟體:為瞭解決一億人的語音識別需求而誕生 TPU隨著我們在將神經網路用於語音識別、視覺和語言等各種有趣領域獲得越來越多的成功,我們開始意識到的另一件事是——我做了一個粗略的估算。我們剛剛研發出一個真正高品質的語音識別模型,雖然還沒有推出,但我們可以看到它的錯誤率比 Google 當前運行在資料中心的生產級語音識別系統低得多。我說:“如果語音識別變得好很多,人們將會想要更多地使用它。所以如果 1 億人想要開始每天對著他們的手機說三分鐘話怎麼辦?”結果證明,如果我們想要在 CPU 上運行這個高品質模型,也就是我們當時在資料中心擁有的硬體,我們將需要將 Google 擁有的電腦數量增加一倍,僅僅為了推出這個改進的語音識別功能。我說:“我們真的應該考慮專用硬體,因為我們可以通過建構專用硬體來利用神經網路計算的各種優良屬性。”特別是它們非常容忍極低精度的計算。你不需要 32 位浮點數。我們當時研究的所有神經網路本質上都只是密集線性代數運算的不同組合,如矩陣乘法、向量點積等等。如果你能建構真正擅長低精度線性代數的專用硬體,那麼突然之間你可以擁有效率高得多的東西。我們開始與一組晶片設計者和電路板設計者合作。在 2015 年,我們最終擁有了 TPU v1,即張量處理單元,它真的是設計來加速推理的,並部署到了我們的資料中心。我們做了一系列實證比較,結果表明它比當時的 CPU 和 GPU 快 15 到 30 倍,能效高 30 到 80 倍。與同一組人合作,我們意識到我們也想研究訓練問題,因為推理是一個不錯的小規模問題,但對於訓練,它是一個規模大得多的問題。所以我們開始圍繞擁有低精度、高速定製網路和一個可以將高級計算對應到實際硬體上的編譯器的想法,來設計機器學習超級電腦。最終我們推出了一系列 TPU 設計,這些設計逐漸變得越來越快,規模越來越大。我們最近的一個叫做 IronWood。這個系統的 Pod 叢集大小是 9,216 個晶片,都連接在一個 3D 環面網路中,擁有相當大的頻寬和容量。07. Transformer 革命:少10倍計算量換取更高精準性另一件已經發生的事情是開源工具真正賦能了整個社區。我們開發並開源了 TensorFlow,隨後 PyTorch 和 JAX 也相繼出現,這些框架在很多方面真正賦能了整個社區。在 2017 年,我的幾位同事致力於這個基於注意力的機制,建立在一些早期關於注意力的工作之上,但提出了這個非常棒的架構,它現在是你今天看到的那些令人興奮的語言模型的核心。他們的觀察實際上是:不像 LSTM 那樣,在 LSTM 中你有一個詞,你通過更新內部狀態來消耗那個詞,然後繼續處理下一個詞;他們的觀察是,不要試圖把所有那些狀態強制壓縮排一個每一步都更新的向量中。相反,讓我們保存經過的所有狀態,然後讓我們能夠在任何試圖根據過去的上下文做某事的時候,關注所有的狀態。這真的是《Attention Is All You Need》這篇論文標題的核心。他們能夠展示的是,你可以用少 10 到 100 倍的計算獲得高得多的精準性,並且在這種情況下,用小 10 倍的模型(這是對數尺度上的參數數量)對於一個語言模型來說,可以將 Loss 降低到一個特定的水平。他們能夠展示的是,Transformer 基礎模型中少 10 倍的參數會讓你達到那個效果,而且在論文的其他資料中,他們展示了計算量減少了 10 到 100 倍。08. 自監督學習:利用海量文字的填空遊戲是現代語言模型的核心另一個超級重要的發展僅僅是使用自監督資料的大規模語言建模。世界上有海量的文字。基於這些文字的自監督學習可以給你幾乎無限數量的訓練樣本,其中正確的答案是已知的,因為你有一些從模型的視野中移除的詞,然後你試圖預測那個詞。這有幾種不同的形式。一種是自回歸的,你可以向左看並嘗試根據在那之前看到的所有詞來預測下一個詞是什麼。例如“Stanford [空白]”,“Stanford [空白] University”,“Stanford is a [空白] University”。你為這個詞做一個猜測。所以你投入到做這種事情的所有努力使得模型能夠利用所有這些上下文並做出越來越好的預測。還有另一個你可以使用的目標,你可以看左邊和右邊更多的上下文,只是試圖猜測缺失的詞。如果你玩過填詞遊戲,它有點像那樣。“The Stanford [空白] Club”,“ [空白] together [空白] and Computer [空白] enthusiasts”。其中一些你可能可以猜到,其中一些更難猜。但這真的是在文字上做自監督學習的關鍵,這是現代語言模型的核心。結果證明你也可以將這些基於 Transformer 的模型應用於電腦視覺。我的另一組同事研究了我們如何做到這一點。他們再次發現,對於不同大小的配置,使用大約少 4 到 20 倍的計算量,你可以達到最好的結果。再次強調,演算法改進在這裡產生了很大的不同,因為現在突然之間你可以訓練大得多的模型或使用更少的計算來獲得相同的精準性。這是Jeff Dean演講實錄的下半部分,涵蓋了稀疏模型、Pathways架構、後訓練技術(蒸餾與強化學習)、Gemini模型的具體突破以及對未來的展望。09. 僅啟動1%的參數,在同等精準度下實現8倍算力效率提升我和幾位同事共同倡導並組建了一個小團隊,致力於研究稀疏模型。我們認為,在普通的神經網路中,處理每一個輸入示例都需要啟動整個模型,這無疑是一種巨大的資源浪費。如果能建構一個規模極其龐大的模型,並讓其中的不同部分專精於不同類型的任務,效果會優越得多。這樣,當你呼叫模型中所需的特定“專業知識”時,只需啟動整體模型中極小的一部分,比如在進行任何給定的預測時,可能只呼叫了模型總參數量的 1% 到 5%。我們要再次強調,在同等精準度水平下,這帶來了算力效率的重大飛躍。相關資料曲線顯示,在保持相同精準度的前提下,訓練成本算力降低了約 8 倍。換個角度看,你也可以利用這些節省下來的算力預算,在成本不變的情況下訓練出一個性能更優的模型。隨後,我們繼續在稀疏模型領域進行了大量深入研究,因為我們堅信這一方向至關重要。事實上,大家今天所熟知的大多數前沿模型,例如 Gemini 模型,本質上都是稀疏模型。為了支援更多結構獨特且複雜的稀疏模型,我們開始建構計算抽象層。這允許我們將有趣的機器學習模型對應到硬體上,而研究人員無需過多操心計算的具體部分位於何處。Pathways 是我們建構的一個系統,其設計初衷就是具備極高的可擴展性,從而簡化這些超大規模訓練計算的運行。假設每一個計算單元都是一個 TPU Pod,在 Pod 內部的晶片之間存在超高速網路連線,但有時你需要運行一個跨越多個 Pod 的任務。此時,Pathways 的核心作用之一就是編排所有這些計算資源,包括本地資料中心網路、園區網路甚至跨越大都會區域的長距離鏈路。作為機器學習研究員,你不必思考應該使用那條網路鏈路。系統會在最佳時間選擇最佳路徑,並自動處理故障,比如應對某個晶片或 Pod 當機等突發情況。Pathways 提供的一個重要抽象層位於 JAX 之下,即 Pathways 執行階段系統。這使得我們可以讓單個 Python 處理程序看起來像是一個擁有 10,000 個裝置而非僅有 4 個裝置的 JAX 程式設計環境。你可以使用所有標準的 JAX 機制來表達想要在所有這些裝置上運行的計算任務。10. 知識蒸餾的威力:僅用3%的訓練資料即可逼近全量資料效果我的另一組同事則致力於研究如何通過更好的模型提示來引匯出更優質的答案。他們的觀察是,在進行自監督學習時,教師模型會給出缺失單詞的機率分佈。事實證明,當學生模型出錯時,利用這個分佈可以提供比單一答案豐富得多的資訊。因為缺失的詞很可能是小提琴、鋼琴或小號,但極不可能是飛機。這種豐富的訊號實際上能讓模型學得更快、更輕鬆。特別是在這篇論文中,我們展示了一個語音資料集的案例,試圖正確預測音訊幀中的聲音。基準情況是,如果使用 100% 的訓練集,在測試幀上可以達到 58.9% 的精準率。但如果只使用 3% 的訓練資料,精準率會大幅跌落至 44%。然而,如果利用蒸餾過程產生的軟目標,即便只用 3% 的訓練資料,也能達到 57% 的精準率。這就是為什麼蒸餾是一項如此關鍵的技術。因為你可以先訓練一個超大規模的模型,然後利用蒸餾技術,將其能力遷移到一個小得多的模型上,最終得到一個高品質的小模型,其性能非常接近大模型。11. 強化學習進階:在數學和程式碼等可驗證領域,模型能夠自我探索並超越人類資料進入 2020 年代後,業界開始在後訓練階段大量應用強化學習。一旦你基於自監督目標訓練好了一個模型,你會希望鼓勵模型表現出符合預期的行為模式。例如在回覆風格方面,你可以給予它強化學習反饋,或者提供有禮貌的示例並進行微調。此外,你還可以通過向模型展示如何處理更複雜的問題來增強其能力。這些訊號來源多種多樣。一種是基於人類反饋的強化學習(RLHF),利用人類對模型輸出的反饋讓模型逼近人類獎勵訊號所期望的行為。另一種是基於機器反饋的強化學習,利用另一個“獎勵模型”來提供反饋。但在數學或程式碼等可驗證領域中的強化學習可能最為重要。在這裡,你可以讓模型嘗試生成數學問題的解,假設是一個證明,由於這是一個可驗證的領域,你可以運行傳統的證明檢查器來驗證模型生成的證明。證明檢查器會判定證明正確,或者指出在第 73 步出錯。當模型推理正確時,給予正向獎勵。同樣的方法也適用於程式碼生成,程式碼能編譯通過給予獎勵,如果能編譯並通過單元測試則給予更高獎勵。當你有一系列問題讓模型嘗試解決並根據結果給予獎勵時,模型就能真正探索潛在的解決方案空間。隨著時間推移,它探索該空間的能力會越來越強。12. Gemini 的多模態突破綜上所述,我們在 Google 一直致力於研發 Gemini 模型,它將許多上述理念融合成了非常有趣的模型。我們開展 Gemini 項目的目標是訓練世界上最優秀的多模態模型,並將其應用於 Google 的全線產品,同時也開放給外部開發者。我們希望它從一開始就是多模態的,即能夠接受各種不同模態的輸入,也能產生多種模態的輸出。我們一直在增加更多的模態支援,包括生成視訊、音訊等內容的能力。我們堅信超長上下文長度的重要性,這樣模型就能查閱大量輸入片段,並對其進行推理、總結或回顧。Gemini 2.0 在某種程度上建立在這些理念之上,是一個能力相當強的模型。為了展示數學推理能力的發展程度,我們今年使用 Gemini 1.5 Pro 的一個變體參加了國際數學奧林匹克競賽,去年我們也參加了,但今年是一個純語言模型系統。我們在六道題目中正確解決了五道,這相當於金牌水平的得分。這是問題描述,這是我們模型的輸入,這是模型能夠生成的輸出。推理過程很長,評委們很欣賞我們解法的優雅,最終我們完成了論證,Q.E.D.。回想 2022 年時,我們還在試圖解決“約翰有四隻兔子,又得到了兩隻,他現在有幾隻?”這樣的問題,現在靜下心來欣賞這些模型在數學推理能力上走了多遠,確實令人感慨。13. 從程式碼生成到多模態食譜轉換,AI 正在模擬人類思維過程本周早些時候,我們發佈了 Gemini 1.5 Pro 模型。它在眾多基準測試中表現優異,特別是我們在 LM Arena 中排名第一,這是一種很好的非基準測試評估方法,顯示了模型在盲測中普遍比其他模型更受使用者青睞。真正的突破之一是我們在 Web 開發風格的程式碼生成上,相比早期模型有了巨大飛躍。例如,輸入“Gemini 滑板”或“Gemini 衝浪”,模型實際上是在編寫程式碼來生成這些動畫場景。你可以給這些模型非常高層的指令並讓它們編寫程式碼。雖然不總是成功,但當它奏效時,那種神奇的感覺非常棒。另一個很好的例子是多模態能力的綜合運用。使用者可以將一大堆各種語言(韓語、英語)的食譜照片輸入模型,要求翻譯並轉錄,然後建立一個雙語網站。模型不僅完成了轉錄,還為網站生成了漂亮的配圖和程式碼,最終生成了一個包含食譜的可用網站。這結合了模型的多種能力,最終生成了某種有用的東西。我們也推出了更好的圖像生成模型。例如,你可以輸入“將這張藍圖變成房子外觀的 3D 圖像”,或者拿原始的《Attention Is All You Need》論文配圖,要求在每一個不同的點註釋發生的重要方面。此外,Nano-Banana 項目展示了在中間圖像層面進行推理的能力。問題是“告訴我球會落在那個桶裡”,模型使用圖像一步一步解決它,某種程度上模擬了人類的思維過程:首先球滾到那裡,然後滾向另一邊到坡道三,最後落在 B 桶裡。14. AI 輔助的未來是光明的,但必須正視錯誤資訊等潛在風險總之,我希望你們看到,這些模型在各種不同的任務上正變得相當強大。進一步的研究和創新將延續這一趨勢。這將對眾多領域產生巨大的影響,特別是醫療保健、教育、科學研究、媒體創作以及錯誤資訊應對等。它有潛力讓真正的深度專業知識觸達更多人。想想那些編碼的例子,許多沒有受過程式設計訓練的人,可以獲得電腦的輔助,他們的願景可以幫助他們為食譜或其他任何東西生成有趣的網站。如果利用得當,我認為我們 AI 輔助的未來是光明的。但我並非完全無視風險。像錯誤資訊這樣的領域是潛在的關注點。實際上,John Hennessy、Dave Patterson 和我,以及其他幾位合著者去年寫了一篇論文,探討了所有這些不同領域,並採訪了這些領域的專家,詢問他們的意見,以及我們如何確保在獲得醫療、教育和科學研究等驚人益處的同時,又能最小化來自錯誤資訊或其他方面的潛在負面影響。 (數字開物)
華為AI新技術,揭曉!
華為發佈AI容器技術Flex:ai,透過對GPU、NPU等智慧算力資源的精細化管理與智慧調度,實現AI工作負載與算力資源的匹配,可大幅提升算力利用率。在2025AI容器應用落地與發展論壇上,華為公司副總裁、資料儲存產品線總裁周躍峰博士在論壇上正式發佈AI容器技術-Flex:ai,同時,華為聯合上海交通大學、西安交通大學與廈門大學共同宣佈,將此項產學合作成果向外界開源。本次發佈並開放原始碼的Flex:ai XPU池化與調度軟體,是基於Kubernetes容器編排平台建構,透過對GPU、NPU等智慧算力資源的精細化管理與智慧調度,實現AI工作負載與算力資源的匹配,可大幅提升算力利用率。目前,AI產業高速發展催生海量算力需求,但全球算力資源利用率偏低的問題日益凸顯。有業內人士對《科創板日報》記者表示,業界算力資源的平均使用率僅30%至40%,甚至低於30%。小模型任務獨佔整卡導致資源閒置,大模型任務單機算力不足難以支撐,大量缺乏GPU/NPU的通用伺服器更是處於算力「休眠」狀態。AI時代如何喚醒並有效率地運用算力叢集資源,成為整個產業一大難題。而容器技術作為一種輕量級虛擬化技術,可以將模型程式碼、運行環境等打包成一個獨立的、輕量級的鏡像,實現跨平台無縫遷移。容器還可按需掛載GPU、NPU算力資源,按需分配和回收“資源”,提升叢集整體資源利用率。Gartner的分析師表示,目前AI負載大多已容器化部署和運行,據預測,到2027年,75%以上的AI工作負載將採用容器技術進行部署和運行。在AI容器領域,業界已經有多家企業推出了不同產品。此前,輝達於以7億美元(約合人民幣49.7億元)收購了以色列AI公司Run:ai。這家公司核心產品,正是基於kubernnetes建構的軟體平台,用於調度GPU的運算資源,透過動態調度、池化、分片等技術,實現GPU資源利用率的最佳化,讓深度學習訓練與推理任務在企業級環境中高效運作。本次華為發表並開放原始碼的Flex:ai XPU池化與調度軟體,與Run:ai公司的核心產品相比,在虛擬化、智慧調度等方面實現了突破。具體來看,針對AI小模型訓推場景中「一張卡跑一個任務」的資源浪費問題,華為與上海交通大學聯合研發XPU池化框架,可將單張GPU或NPU算力卡切分為多份虛擬算力單元,切分粒度精準至10%。這項技術實現了單卡同時承載多個AI工作負載,且透過彈性靈活的資源隔離技術,可實現算力單元的按需切分,“用多少,切多少”,使此類場景下的整體算力平均利用率提升30%,提高單卡服務能力。針對大量通用伺服器因缺乏智慧運算單元而無法服務AI工作負載的問題,華為與廈門大學聯合研發跨節點拉遠虛擬化技術。該技術將叢集內各節點的空閒XPU算力聚合形成“共享算力池”,一方面為高算力需求的AI工作負載提供充足資源支撐;另一方面,可讓不具備智能計算能力的通用伺服器通過高速網路,可將AI工作負載轉發到遠端“資源池”中的GPU/NPU算力卡中執行,從而將AI工作負載轉發到遠端“資源池”中的GPU/NPU算力卡中執行,從而促進通用計算資源與智能算力。面對算力叢集中多品牌、多規格異構算力資源難以統一調度的痛點,華為與西安交通大學共同打造Hi Scheduler智慧調度器。此調度器可自動感知叢集負載與資源狀態,結合AI工作負載的優先權、算力需求等多維參數,對本地及遠端的虛擬化GPU、NPU資源進行全域最佳調度,實現AI工作負載分時復用資源。周躍峰介紹,Flex:ai的發佈主要希望推動AI平民化。 「先前AI產業化落地的時候,醫院的某一個科室往往買8張卡,最多是16張卡。這樣小叢集就很難進行粗放的GPU或NPU利用和調度。能不能把一張卡虛擬化成多張卡,以更小的算力單元進行調度,讓每一張卡的算力能力釋放出來,讓平民能夠充分化。周躍峰表示,Flex:ai將在發佈後同步開源在魔擎社群中。此外,華為也希望透過開源推動形成以AI容器技術為載體的資源高效利用新範式。開放原始碼的Flex:ai可以在產學研各界開發者的參與下,共同推動異構算力虛擬化與AI應用平台對接的標準建構,形成算力高效利用的標準化解決方案。 (科創板日報)
拆解OpenAI的AI需求後,巴克萊得出結論:AI資本開支周期仍將持續,技術突破可能在27/28年引發算力需求激增
巴克萊報告顯示,OpenAI持續超預期的業績表現,印證AI資本開支周期仍將在中長期內延續。業績增長直接驅動公司算力投入,模型持續迭代不斷推高算力需求,倒逼計算合作夥伴加速基礎設施部署,預計2027-2028年是實現 “遞迴自改進”的關鍵落地窗口,將進一步推高算力需求。據巴克萊最新研究報告,OpenAI的營收表現顯著超越其內部預期,這表明AI需求正在快速增長,大規模資本支出周期短期內不會終結。只要OpenAI能夠維持當前的強勁增長態勢,AI領域出現泡沫破裂的風險將保持在較低水平。分析顯示,OpenAI在2025年的營收比年中內部預測高出約15%,而2027年的預期營收更是較原先預估大幅提升50%。對資本市場而言,這一趨勢意味著網際網路巨頭與超大規模雲服務商將繼續維持高強度的資本投入,半導體需求將保持旺盛。巴克萊預計,到2028年OpenAI的計算支出將達到約1100億美元的峰值水平,屆時技術突破很可能引發新一輪算力需求激增。巴克萊這份報告試圖回答一個核心問題:我們距離AI投資放緩還有多遠?答案是:還很遠。營收大幅超越預期巴克萊報告顯示,OpenAI的營收表現持續超出內部預期,2025年實際營收較年中預測高出約15%,2027年預期營收更是上調50%。具體資料顯示,OpenAI 2027年的總營收預期已從600億美元上調至900億美元,推理計算成本從210億美元增至300億美元,每周活躍使用者(WAU)從14億增至18億,付費使用者的年度平均收入(ARPU)從748美元提升至880美元。公司CEO Sam Altman近期在公開訪談中透露,OpenAI有望在2027年實現1000億美元的年度經常性收入(ARR)目標,這一時間點較此前預測整整提前了一年。AI資本開支周期仍將持續巴克萊最新研究報告指出,OpenAI持續超預期的業績表現,印證了AI資本開支周期仍將在中長期內延續。首先,OpenAI所有的收入意味著算力,業績增長直接驅動公司算力投入。ChatGPT的四⼤主要收⼊來源:付費版 ChatGPT、免費版 ChatGPT(⼴告⽀持)、代理和 API,各⾃對計算資源的需求各不相同,但所有這些業務都采⽤相同的基本計算架構。OpenAI在2024至2030年間的計算營運支出預算總額已超過4500億美元,預計2028年達到峰值約1100億美元。其次,模型持續迭代不斷推高算力需求,倒逼計算合作夥伴加速基礎設施部署。OpenAI持續推進GPT-6、Sora 3等下一代模型的研發,每次模型升級均帶來訓練與推理成本的顯著上升,從而持續拉動底層算力設施投入。巴克萊報告稱,OpenAI預計2027-2028年是實現 “遞迴自改進”(recursive self improvement)的關鍵落地窗口,將進一步推高算力需求。該技術通過 “嵌入式 AI 研究員”(drop-in AI researcher)自主開發下一代模型(如 GPT-6、Sora 等),形成 “AI開發AI”的閉環。公司已為2028年單獨預留約430 億美元額外 “可變現算力”(Monetizable Compute),用於支撐這一技術落地。同時,OpenAI已與多家合作夥伴簽訂了約6500億美元的算力租賃合同,時間跨度覆蓋未來十年。其中,甲骨文OCI合約總價3000億美元,從2027年開始為期5年,年均600億美元;微軟Azure合約總價2500億美元,從2026年中開始為期7年,年均360億美元。此外,GoogleGCP合約總價400億美元,為期7年,亞馬遜AWS提供380億美元、為期7年的合約,CoreWeave提供224億美元、為期5年的合約。第三,行業競爭加劇引發“軍備競賽”。為應對OpenAI目前6至12個月的技術領先窗口,Google、Meta等競爭對手被迫同步擴大使用者規模並加快模型迭代速度。預計2024至2030年間,全球AI資料中心總容量將從114.3GW增長至236 GW,實現翻倍。僅OpenAI一家,即需合作夥伴(如甲骨文、微軟等)承擔超過6000億美元的資本開支,用於建設算力叢集。最後,科技巨頭的長期戰略決心進一步鎖定高投入態勢。科技巨頭創始人更重視AI長期競爭,如 Larry Page 表態 “寧破產不認輸”,即便面臨市場波動,仍願持續投入以搶佔賽道, 推動行業資本開支維持在較高水平。 (invest wallstreet)
AI時代,品牌如何穿越增長迷霧?
全鏈路賦能,重塑增長主動權。AI技術正讓人與服務的連接更為自然便捷,然而,在流量紅利逐漸被攤薄的當下,也有一句戲言廣為流傳——「不投廣告就沒銷量,投了廣告有銷量也沒利潤」。AI技術浪潮下,品牌增長有那些新的可能性?從行業趨勢來看,許多玩家已不僅把AI當作內容創作工具(AIGC),也拓展到行銷策略,讓AI成為根據資料反饋不斷迭代最佳化的決策大腦(AIGD)。更有先行者認為,應讓AI賦能行銷全鏈路觸點,以原生的內容與服務形式融入消費者的體驗全周期,即AI驅動服務(AIGS)。換言之,與其寄望於在AI對話中「碰運氣」被使用者發現,不如主動擁抱AI,將其融入從資料洞察到使用者觸達再到服務體驗的每一個環節,建構品牌自己的「行銷神經中樞」,由此讓中樞影響全域。近期,基於鴻蒙生態的全場景智慧行銷平台鯨鴻動能提出了「全場景AI」理念,試圖通過AI全鏈路賦能,幫助品牌實現可持續的增長。品牌更深層的增長焦慮首先,我們來分析下,品牌增長面臨著那些難題?增長中的問題,並非偶然,而是數字行銷生態演化中累積的結果,猶如一場多米諾骨牌效應。第一塊骨牌是自然流量紅利的消失。平台早期曾給予商家一定免費曝光,但隨著商業化深入,自然流量變成了稀缺品,商家不得不從「坐等流量」走向「買量為王」,演算法驅動的流量分發又加劇了這種依賴。第二塊骨牌是流量競價導致成本飆升、ROI不及預期。一旦跳出自然流量保護期,品牌會發現自己暴露在一個更冷酷的競爭現實裡:注意力的成本越來越高、投放轉化可能不及預期。為了爭搶流量,一些品牌選擇了競相降價、內容同質化,一旦消費者習慣了低價和無休止的廣告轟炸,有可能造成的結果是,行銷投入加多了,邊際產出卻沒有相應的增長。第三塊骨牌是強者通吃的馬太效應。預算有限的中小品牌出不起高價、拼不過投放量,得到的曝光可能就有限。過去誰掌控管道誰就擁有話語權,而在數字時代,在演算法推薦主導的資訊流環境下,使用者「搜尋自己不知道的東西」是有門檻的。品牌如何拿回「增長主動權」,讓辛苦打造的品牌更大面積地觸達使用者?這正是不少企業的深層「增長焦慮」。突圍之道:AI全鏈路賦能,重塑增長主動權品牌該如何扭轉被動局面?答案是改變遊戲規則——演算法的底層邏輯是資料和技術,而資料和技術的相乘效應本質上就是AI。那麼,品牌可以怎麼做?反向用好AI這把武器,打通行銷全鏈路,建立屬於品牌自己的智能決策中樞。AI時代,品牌不能再侷限於單點戰術(比如只把AI當海報生成器,或在對話機器人裡硬插廣告),而要從戰略高度把AI貫穿全流程。正如幾年前業界倡導從「網際網路+」轉向「+網際網路」,強調技術要為業務賦能而非本末倒置;今天品牌也需要跳出對流量演算法的過度依賴,轉向全鏈路AI行銷的新思路。很多人關注對話式AI可能替代傳統搜尋與電商路徑,希望通過ChatGPT一類助手獲取商品資訊。有觀點認為,當AI代理替使用者完成比價和下單,傳統「廣告→點選→購買」的鏈路將被切斷,品牌花錢投放的廣告可能還沒被使用者看到,AI就已替他下單。由此可見,僅僅被動等待AI把顧客「帶上門」,品牌的地位並不會改善。真正的出路在於主動擁抱AI,將AI用於提升自身的洞察力和決策效率,也就是以全場景AI理念建構行銷AI全鏈路能力。讓AI貫穿「洞察-決策-觸達-營運」全流程(這正是AIGD,AI生成決策的精髓),形成品牌自有的智能行銷閉環。國內率先實踐這一理念的鯨鴻動能,提出了「全場景AI」戰略,主張讓AI從「生產工具」升級為「增長引擎」,成為品牌行銷的數字神經中樞。具體落地邏輯是怎樣的?依託HarmonyOS生態,鯨鴻動能搭建了資料科學服務、全域媒介投放服務、數位化平台賦能服務三大版塊,通過核心產品能力為品牌輸出全場景智能解決方案,幫助品牌重掌使用者連接的主動權。其全場景AI方案包含「三大支柱」:支柱1:資料科學打破孤島,洞察使用者鯨鴻動能借助HarmonyOS統一的華為帳號體系和分佈式技術,打通了跨裝置、跨應用的行為資料。目前鴻蒙生態裝置數已超10億台。繼衡量各行業品牌、產品和Campaign的使用者考慮度的「鯨鴻指數」取得廣泛認可後,鯨鴻動能推出了「鯨鴻萬象」資料產品,在確保隱私安全前提下,將使用者在不同終端和應用上的行為軌跡整合貫通,並結合意圖感知演算法挖掘使用者潛在需求,重建使用者的全域數字畫像。這意味著品牌終於跳出單一平台的視角,以「一盤棋」的視野,洞察受眾在各種場景下的興趣、偏好和當前意圖,從而讓行銷決策由經驗驅動轉向資料驅動。有了全景式的資料洞察,還需要快速反應。鯨鴻動能即將推出的智能決策引擎「鯨靈Agent」,就是要把洞察轉化為行動。鯨靈Agent融合了資料分析與廣告投放能力,建構一體化AI引擎,讓行銷最佳化由人工試錯邁向AI自主迭代。借助對使用者即時意圖、所處場景和歷史偏好的分析,鯨靈Agent能自動調整投放計畫:在適當的時機、通過適當的終端,將契合需求的內容傳遞給合適的人。無論使用者是在通勤途中瀏覽資訊、在客廳放鬆娛樂,還是準備外出旅行,這個AI引擎都能捕捉即時需求,將品牌資訊以服務形式順滑地嵌入使用者生活流中。借助這樣的資料智能和決策自動化,品牌擁有了類似平台「千人千面」的能力,可以主動、精準地與消費者對話,而不是僅依賴平台分發流量。支柱2:全域觸點佔據場景,服務找人消費者的決策旅程散落在日常生活的眾多場景中:客廳、通勤路、商旅途中……以往這些觸點彼此割裂,品牌往往鞭長莫及。而鯨鴻動能利用HarmonyOS的生態協同優勢,聯動手機、平板、智慧屏、可穿戴、車機等終端,建構起智能觸達網路,讓品牌內容可隨使用者場景而流動。一個典型案例是家庭場景的跨屏聯動。鯨鴻動能推出「FamilyReach」方案,通過家庭帳號(FamilyID)將家庭共享的大屏裝置(如華為智慧屏電視)與個人小螢幕裝置(手機、平板)相關聯。品牌可以先在客廳大屏上投放高衝擊力的內容,在家庭共享場景中吸引注意;隨後系統識別出對該內容感興趣的家庭成員,並在其個人裝置上推送商品詳情或優惠券,引導其下單轉化,形成「大屏種草—小螢幕轉化」的行銷閉環。不久前,戶外運動品牌薩洛蒙(Salomon)與鯨鴻動能共同打造了最新案例:客廳電視廣告獲得千萬級曝光,後續在手機端的資訊流廣告點選率比平台均值高出42%,可見跨屏配合有效提升了轉化效率。通過家庭ID的資料打通,大屏觸達人群與小螢幕跟進人群高度一致,內容匹配度超90%,避免了騷擾無關使用者和預算浪費。這個案例勝在資料與AI驅動的跨屏協同,而非簡單砸錢買量。支柱3:智能服務行銷即服務,體驗即行銷「全場景AI」理念下,行銷與服務越來越融合,行銷不再只是發佈廣告,而是以服務的形式為消費者創造價值、提升體驗。鯨鴻動能借助HarmonyOS的分佈式能力和原子化服務架構,幫品牌打造各種場景化的智慧服務,用長期營運使用者的思維來做行銷,在服務中潛移默化地影響消費者。比如在旅遊行業,鯨鴻動能聯合阿布扎比旅遊文化局打造了一站式智能旅遊助手:基於使用者行程、興趣偏好等資料,AI助手自動生成個性化遊覽路線,並整合簽證辦理、交通接駁、景點講解等服務,為遊客提供從行前規劃到實地遊玩的全周期智慧陪伴。這極大延伸了旅遊品牌與使用者互動的深度,使品牌不再侷限於賣機票酒店,而是成為使用者旅程中的智能嚮導。再如奢侈品零售,鯨鴻動能基於鴻蒙元服務能力,為品牌打造了定製化的創新體驗:通過LBS定位廣告精準觸達周邊高端人群;結合NFC「碰一碰」和「實況窗」等技術,實現到店後的沉浸式體驗(例如顧客走近門店時手機自動彈出會員專屬禮遇或新品介紹);再通過智能簡訊等管道將顧客引導至品牌自有線上空間沉澱為會員,實現公域獲客—私域營運的閉環。整個過程中,廣告不再是生硬的打擾,而變成了貼心服務的一部分。當品牌用這些系統級能力不斷為消費者創造便利和驚喜,消費者自然會對品牌產生黏性,並最終轉化為長久的生意回報。可見,當AI技術深入到洞察、內容、觸達、服務每個環節,一個以使用者為中心的智能行銷閉環就此形成,品牌也真正掌握了使用者連接和價值創造的主動權。通過上述三大支柱,品牌可以將AI從零散的工具升級為貫穿全鏈路的行銷大腦。正如鯨鴻動能團隊所強調的:智能行銷的目標不止於提高某個環節的效率,更在於打造出AI決策夥伴,驅動行銷產生長期增量價值。只有當品牌擁有了自己的AI神經中樞,才能在未來競爭中立於主動。AI時代行銷將走向何方?AI時代已經到來,品牌行銷在使用者連接方式、投入產出模型和競爭規則上都面臨巨變。展望未來,有幾點趨勢值得關注:首先,消費者決策路徑可能大幅壓縮。當AI助手能夠即時理解需求並自動篩選資訊、完成下單,原本漫長的「種草到拔草」流程可能被濃縮成一次對話甚至一個語音指令。使用者從「自己找商品」變成「讓AI替我找」。但前提是品牌資訊能夠嵌入這些新的AI管道,成為AI願意信賴和推薦的選項。否則,再大的廣告聲量也可能被AI過濾掉,品牌被擋在消費者視野之外。未來,品牌或許需要把部分行銷功夫用在「向AI推銷」上——通過完善產品資料和口碑,讓AI系統更青睞自家產品。其次,行銷形態走向泛在化與原生化。萬物互聯的世界中,行銷將無處不在卻又不著痕跡。正如鯨鴻動能致力建構的從「人找服務」到「服務找人」體驗,品牌通過與生態平台深度合作,把自己的服務像外掛一樣嵌入使用者生活場景,需要時適時出現,不需要時默默隱藏。品牌必須具備場景洞察力和技術整合力,才能讓自己的內容和服務以使用者友好的方式融入各種智能終端和應用。AI時代的競爭不再只是爭奪使用者注意力,更是對技術和生態掌控力的競爭。那些率先建立AI全鏈路能力、擁有自有資料資產和智能決策體系的品牌,將擺脫對流量的過度依賴,甚至能夠定義新的遊戲規則。鯨鴻動能也啟動「全場景AI增長計畫」,以資源扶持和生態協同,攜手眾多品牌主探索AI行銷的新邊界,建構覆蓋消費者全旅程的智能行銷生態。品牌將不再只是流量購買者,而是成為AI時代數字生態的積極建設者,以更高維度掌控自身增長命脈。AI時代,品牌若能始終圍繞使用者、善用資料智能、持續創新,就能在巨變中破除焦慮迷霧,實現可持續增長。 (36氪)
AI“衝擊”下的儲存行業,需要高性能與綠色化“平行”丨ToB產業觀察
當AI應用以“周”為單位迭代進化,當千億、兆參數的大模型成為競爭的基石,全球科技競爭的焦點,已從單純的“算力競賽”,悄然蔓延至一片更為底層的戰場——儲存。如果說算力是引擎,資料是燃料,那麼儲存就是容納燃料並確保其能高速、穩定輸送至引擎的“智能油箱”與“高速輸油管”。如果儲存跟不上時代的需求,即便有再強大的算力,也只是“巧婦難為無米之炊”,空轉的引擎無法驅動AI這艘巨輪前行。AI重構儲存行業AI 技術的爆發式增長正在重構儲存需求的底層邏輯。《2025存力發展報告》顯示,全球資料總量將在2025年突破200ZB,其中AI訓練資料年增速達67%,這種增長不僅體現在容量維度,更催生了性能、架構、協同的全方位變革。首先就是節點的增加,曙光儲存營運總監石靜告訴筆者,當前大模型訓練需要千卡叢集,甚至萬卡叢集,多計算節點同時儲存的過程中,對儲存的壓力要比通算時代增加了很多。另一方面,AI時代,企業資料集規模越來越大,且資料來源和種類的豐富多樣性也“不可同日而語”。“當前,企業建構一個儲存體系,動輒就是幾十PB,甚至上百PB。同時,大模型時代之後,原先傳統意義上的‘冷資料’,已經變成了‘溫資料’,甚至是‘熱資料’。這也對儲存的架構提出了很多新的需求。”石靜強調。此外,在AI時代,最大的不同是——對高性能儲存的需求愈發強烈。大模型訓練對儲存頻寬的渴求呈現指數級增長,當前,AI訓練所用頻寬需求已經進入“TB級紀元”。益企研究院《AI時代的儲存基石》白皮書指出,2025年AI訓練叢集的平均儲存頻寬需求較2023年提升300%,傳統HDD儲存150MB/s的頻寬已成為明顯瓶頸。而對於頻寬的要求也不僅侷限於模型訓練階段,石靜表示,在推理過程中,企業也需要具備千萬等級IOPS低時延的頻寬支撐高並行的推理場景,“比如現在大家都在講提升訓練和推理效率,但在這個過程中,也需要儲存能夠‘跟得上’GPU的速度,不至於出現GPU等待資料IO的情況。”石靜指出。而這點在以往的通算時代卻並不是絕大多數企業對於儲存的需求。在AI重構儲存行業的過程中,隨著需求的裂變式增長,儲存行業面臨前所未有的挑戰。首先是架構瓶頸。傳統儲存與計算分離的架構導致資料搬運成本激增,中國移動呼市資料中心早期採用的集中式儲存系統,在支撐“九天大模型”訓練時,GPU利用率僅能達到40%。北京大學孫廣宇教授曾指出,資料在記憶體與儲存間的搬運能耗佔系統總能耗的50%以上,這種“資料搬運困境”成為AI效率提升的主要障礙。即使採用RDMA網路加速技術,傳統架構仍難以突破頻寬與延遲的物理極限。其次是成本壓力。性能與投入的失衡困境。全快閃記憶體儲是滿足AI性能需求的核心選擇,但成本始終是規模化應用的障礙。2025年QLCSSD單位容量成本雖較2023年下降40%,但仍比HDD高出2.3倍。第三是管理難題,多模態資料的治理困境。AI時代的資料呈現“4V”特徵——體量巨大、種類多樣、價值密集、即時性強,給儲存管理帶來嚴峻挑戰。高性能、綠色化,儲存行業未來路在何方?面對AI需求的倒逼與可持續發展的要求,儲存行業正形成 “高性能突破”與“綠色化轉型”雙輪驅動的發展格局。在高性能方面,高性能儲存技術的演進正從單點最佳化轉向體系性突破,涵蓋介質、架構、協議等全鏈條創新。介質方面,全閃成為“必選項”。快閃記憶體技術的成熟使全快閃記憶體儲從高端場景走向普及,《2025存力發展報告》顯示,全國外接快閃記憶體佔比已超過28%,金融、製造、網際網路行業滲透率超45%;架構方面,分佈式架構主導規模化部署。集中式儲存的擴展瓶頸在AI時代愈發明顯,分佈式儲存憑藉彈性擴展能力成為主流;協議層面,協議與硬體的協同加速。NVMe-oF與RDMA技術的結合,正在打破儲存與計算間的通訊壁壘。比如,在中國移動呼市資料中心中,就採用了曙光儲存的“NVMe-oF+RDMA”組合方案,使儲存網路頻寬提升2倍,延遲降低3倍。中國移動呼市資料中心的實踐表明,千億參數模型單次訓練需讀取超10PB樣本資料,持續頻寬需求達TB級。據悉,曙光儲存為該中心配置的總量逾60PB的儲存資源(包括全閃、混產品),通過高密與資料節能的技術,在400G網路下實現單節點190GB/s頻寬的同時,降低了整體儲存建設成本,提升性價比。從長遠發展上看,儲存行業光有高性能遠遠不夠。作為高載能的資料中心,這幾年一直致力於推動全生命周期的碳中和,在“雙碳”目標與能源成本壓力下,綠色儲存已從可選配置變為必選項,形成“技術節能+結構最佳化+政策引導”的發展路徑。硬體層面,中國移動呼市資料中心規模化應用液冷與間接蒸發技術,使智算中心PUE降至1.15。軟體層面,智能調度演算法成效顯著,曙光儲存的動態電壓調節技術根據負載調整能耗,《綠色儲存技術研究》報告顯示,採用智能節能技術的儲存系統,能效比可提升45%以上。結構最佳化層面,綠電替代成為資料中心綠色轉型的核心舉措,中國移動呼和浩特資料中心總經理王科峰介紹,中國移動呼市資料中心2025年綠電佔比將達100%,較2024年的69%實現跨越式提升。綠電的應用不僅有中國移動呼市資料中心這一個個例,《2025存力發展報告》顯示,西部資料中心綠電佔比平均達58%,較東部高出23個百分點,成為綠色儲存的主戰場。政策層面,國家層面的政策引導正在加速綠色儲存落地,“東數西算”工程明確要求樞紐節點資料中心PUE低於1.25,推動儲存系統向低能耗方向發展。行業標準也不斷完善,IEEE提出的儲存級能效比(SER)指標,通過量化每GB資料的年能耗,為綠色儲存提供了評價依據。除了高性能與綠色化的需求之外,在各行業降本增效的當下,成本也是絕大多數IDC使用者考慮重要因素之一。在成本方面,為了更具“性價比”,中國移動呼市資料中心採用“全閃+混閃”的配置,正是平衡性能與成本的折中方案,這種模式已成為國內智算中心的主流選擇。愛集微諮詢資料顯示,AI儲存的單位TB建設成本是傳統儲存的3.7倍,某網際網路巨頭2025年儲存投入同比增長52%,仍難以完全匹配算力擴張速度。在管理層面,還是以中國移動呼市資料中心為例,其支撐的40余個行業大模型中,既有結構化的政務資料,也有非結構化的醫療影像,傳統儲存管理系統難以實現精準的冷熱資料分層。面對此,曙光儲存拿出了StorInsight智能分析工具,通過即時採集IO特徵,自動將熱資料遷移至全閃層,使儲存資源利用率提升35%,但這種智能化管理能力在行業內的普及率不足20%。通過儲存架構的最佳化與管理系統的智能化,在確保高性能的前提下,將成本降到最低,這點直擊了絕大多數使用者的痛點。存算融合是趨勢除了確保高性能儲存與綠色化需求之外,未來的資料中心,尤其是像中國移動呼和浩特這樣的國家樞紐節點,其定位將不再是簡單的“算力中心”,而是“存力與算力融合的中心”。在融合的過程中,存算一體的架構瓶頸是最大挑戰。北京大學孫廣宇教授指出,未來將形成“層次化的異構存算一體架構”,針對AI訓練、推理等不同場景採用差異化融合方案。為解決“記憶體牆”問題,存算一體技術將計算單元與儲存單元深度融合,曙光儲存正在研發的存算合封解決方案,通過先進封裝技術拉近資料與計算的距離,預計能效提升300倍。與此同時,在“東數西算”政策推動下,建構跨域協同存力網路也成為關鍵,儲存資源正形成跨區域協同格局。中國移動依託 “4+N+31+X”體系,以呼市資料中心為核心節點,通過400G算力專網實現儲存資源的全國調度。曙光儲存正在建構跨區域資料授權與安全機制,解決資料流動中的信任問題。《2025存力發展報告》顯示,東部與西部存力協同調度可使整體儲存成本降低22%,算力利用率提升18%。未來,隨著存算一體、AI原生等技術的成熟,存力將成為數字經濟的核心生產力,為大模型創新、產業智能化轉型提供堅實支撐。 (鈦媒體AGI)
當 AI 學會“看世界”,會發生什麼?|李飛飛談 AI 的下一個十年
過去幾天,全球 AI 圈被一篇文章刷屏。11 月 10 日,史丹佛教授、ImageNet 奠基人李飛飛在個人 Substack 發佈長文《From Words to Worlds》,隨後國內媒體連夜翻譯解讀,稱這是 AI 下一個十年的路線宣言。在這篇萬字長文中,李飛飛拋出一個核心判斷:今天的 AI,能言善辯卻缺乏經驗,知識淵博卻而根基不牢。它們只是黑暗中的文字匠(wordsmiths in the dark)。(李飛飛博士對當前大模型為代表的 AI 技術核心觀點)她指出,大模型最強的能力在語言,但 AI 真正的下一跳不在語言裡,而在世界裡,她稱之為空間智能(Spatial Intelligence)11 月 17 日的播客對話中,她進一步闡述:過去十多年,她用 ImageNet 幫機器看清圖像;今天,她和團隊在 World Labs 通過世界模型,讓 AI 在三維環境裡感知、預測和行動。如果 AI 真能學會看世界,會怎樣?不只是回答問題,不只是生成一段文字,而是在家裡、工廠、醫院、城市道路中自己找路、自己判斷風險、自己規劃動作。到那時,被改變的不只是演算法,而是我們的工作方式、城市基礎設施和很多人的職業路徑。從只會說話到看懂世界,AI 正在跨進下一代邊界。第一節|AI 會說不會動,差在那?大模型會說話,但它真的理解世界了嗎?李飛飛用一個簡單測試說明問題:“你拿一個模型,讓它跑一段關於幾個辦公室房間的視訊,然後讓模型數椅子的數量,這是一個蹣跚學步的孩子都能做到的事情,而 AI 做不到。”而這正是她在機器人實驗室多年觀察後的結論。眼下的 AI 系統,在語言和圖像生成上看起來已經全能,但只要進入現實世界,它就暴露出一個根本性短板:缺少空間感知能力。李飛飛認為,我們的大模型看似聰明,但它根本不知道物體的距離、方向、位置,也無法預測簡單的物理變化。它只能用語言去描述,而無法真正看懂場景、理解關係,更別說介入互動。她在史丹佛從事機器人研究十多年,發現 AI 想要進入現實生活,不只是增加模型參數,而是必須補上這塊現實感知的能力。她稱這種能力為空間智能(Spatial Intelligence)。這是人類智能和 AI 當前最大差距所在,也正是李飛飛認為 AI 下一個十年必須突破的新起點。第二節|世界模型:讓 AI 學會看世界今天的大模型像是學霸在考試,卻不是生活中的高手。在她看來,人類理解世界,不只是靠語言,更多是靠對空間的感知、對動作的預判、對環境的直覺。語言只是我們交流的工具,不是我們認知世界的全部。那AI該怎麼走下去?她提出一個核心概念:世界模型(World Model)。簡單說:語言模型是會說話的大腦,世界模型是能動起來的大腦。在李飛飛的定義中,世界模型可以讓人通過提示建立任何世界,並在其中自由互動:瀏覽、行走、拿起物體、改變事物、進行推理。比如:給模型一個“臥室”這個詞,它不是畫出一張圖,而是生成一個你可以進入、走動、甚至躺在床上的虛擬臥室你說“把水壺從桌子上移到灶台上”,它知道水壺在那,知道怎麼移動它、移動完應該在什麼位置給定一個實驗室場景,它能判斷“什麼東西可以動”“那些順序合理”“這個動作的後果是什麼”這才是真正的智能,不只是描述世界,而是可以在世界中行動。為什麼語言模型做不到?舉了一個例子:“想像一個混亂的急救現場,火災、交通事故或自然災害。人們如何組織救援、阻止災難、撲滅火災?”其中很大一部分是動作,是對物體、世界、情境的自發理解。語言是其中的一部分,但很多時候,語言無法讓你去撲滅火災。這就是差距所在:語言模型處理的是線性資訊,是一句話接一句話的“平面推理”;世界模型處理的是空間資訊,是動作、位置、時間、關係交織的“立體認知”。在她的帶領下,World Labs 已經發佈了首個世界模型原型產品 Marble。這是世界上第一個可以生成真正 3D 世界的生成模型。第三節|Marble:把想像變成可探索的世界李飛飛和她的團隊在 2024 年創立 World Labs,用不到一年時間,就發佈了世界上第一個基於空間智能的產品原型 Marble(網站:https://www.worldlabs.ai/blog/marble-world-model)。它不是一款聊天機器人,而是一個造世界的引擎。在採訪中,她介紹這是團隊花一年多時間建構的世界上第一個可以生成真正 3D 世界的生成模型。只需輸入一句話或一張圖,它就能生成一個立體空間場景。不是靜態畫面,而是可以走動、旋轉、進入互動的“真實世界”。比如你輸入:一個廢棄的賽博朋克風格工廠山谷裡的木屋月球基地幾秒鐘內,你就能看到光照怎麼變化、房間裡有什麼物體、路徑怎麼走,甚至可以戴上 VR 裝置沉浸式探索。很多人第一反應是:這是不是跟現在那些 AI 視訊工具一樣?李飛飛明確指出了區別:視訊只能看,Marble 可以動、可以逛、可以互動。可以這樣理解:生成視訊是在給你看一個世界的錄影,Marble 是直接造出那個世界,讓你進去。而且,這不是拼圖式疊加,而是通過空間感知能力,把光、影、結構、物體關係都織成一個連貫系統,讓這個世界有邏輯、有深度、能探索。AI 不只是輸出圖像,而是能自己組織一個真實世界。在這背後,是一整套和語言模型完全不同的架構邏輯,團隊需要解決幾項關鍵挑戰:不是標註詞彙,而是學習真實世界裡的幾何、動態和物理規律模型能記住之前場景的狀態(比如桌子上原來有本書,後來被移開)輸出不是句子,而是可被匯出為網格(mesh)、用於遊戲、機器人訓練、VR 場景的真實三維資料甚至團隊特意保留了一些可視化過程的元素,讓使用者能看到模型怎麼一步步建構場景。李飛飛提到,那些點狀引導其實一開始只是個輔助設計功能,沒想到意外成為使用者最喜歡的部分。誰在用 Marble?這不是實驗室裡的演示品,Marble 已經開始落地真實場景。李飛飛提到了一個令人驚訝的數字:他們和索尼合作拍攝發佈視訊,製作時間縮短了 40 倍。而且這只是開始,更多應用場景正在湧現。過去,創造一個沉浸式空間,需要一個工作室、一整組工程師、設計師和幾周時間。現在,一個人,一句話,就可以建起一個世界。接下來,是把造世界的能力從實驗室交給每一個普通創作者。第四節|誰會最先用上空間智能?空間智能不是遙遠的技術,它會直接影響你怎麼創作、怎麼工作、怎麼學習。AI 的下一步在那裡?不在對話方塊裡,而在沉浸式世界裡。一個真實的體驗空間:如何講故事、如何操控機器、如何探索知識。最先受影響的,是這三類人。✅ 創作者:講故事這件事,要被重構了李飛飛最先講的,不是科學,也不是機器人,而是創造力。在她看來,世界模型最先爆發的領域不是重工業,而是講故事的人:影視導演、動畫工作者、虛擬拍攝團隊遊戲設計師、VR開發者、敘事類AI應用開發者普通創作者、學生、甚至孩子Marble 已經在這些場景中落地:他們與索尼合作,使用 Marble 的場景拍攝發佈視訊。虛擬製作公司反饋說,這使製作時間縮短了 40 倍。使用者已經將 Marble 的場景和匯出的網格放入遊戲中,無論是 VR 遊戲還是其他開發的遊戲。這種從文字到世界的跳躍,讓創作從構思階段就進入沉浸式模式。創作不再是先畫草圖、做建模、再渲染,而是直接生成一個世界,然後你走進去。✅ 機器人:讓 AI 真正動起來的關鍵環節AI 進入機器人,一直是行業共識,但為什麼遲遲沒有爆發?李飛飛的答案是:沒有空間智能,機器人就看不懂世界。傳統機器人訓練一個動作,需要大量真實場景的資料、手工編寫的程式碼和規則。現在有了世界模型,機器人可以在 AI 生成的模擬世界中自主學習。在李飛飛的機器人訓練研究中,最大的痛點之一就是建立合成資料。這些資料需要非常多樣化,來自不同環境,擁有不同的操縱對象。。Marble 正是為此而生。已經有研究人員聯絡他們,希望使用 Marble 來建立那些合成環境。這個虛擬環境的最大價值,是它能動、能改、能重來,而且生成成本極低。但技術突破只是第一步,更重要的是機器人如何與人協作。她特別提到醫護領域:隨著社會老齡化,AI 可以幫助減輕護士的工作負擔,讓他們有更多精力照顧患者。空間智能,正是為這種人機協作提供基礎。✅ 科學、醫療、教育:AI不只是幫你寫,還能幫你建構理解最後三個落地方向,是李飛飛長期堅持的學術領域:科研、醫療、教育。1)科學研究:從二維到三維的認知飛躍李飛飛在採訪中舉了一個令人印象深刻的例子:DNA 雙螺旋結構的發現。羅莎琳德·富蘭克林拍攝的 X 射線衍射照片是一張平面二維的照片,但詹姆斯·沃森和弗朗西斯·克里克能夠在 3D 空間中進行推理,並推匯出 DNA 的高度三維雙螺旋結構。那種結構不可能是二維的。你不能在二維中思考並推匯出那個結構。你必須利用人類的空間智能在 3D 空間中思考。這正是空間智能在科學發現中的價值所在。2)醫療健康:從影像診斷到心理治療空間智能讓 AI 能理解影像中的結構、位置、動態,這對放射科醫生等專業人員意義重大。Marble 已經有意想不到的應用。有心理學家團隊聯絡他們,希望用 Marble 進行心理學研究。研究人員需要瞭解精神病患者的大腦如何對具有不同特徵的沉浸式場景做出反應,例如凌亂的場景或乾淨的場景。而研究人員很難獲得這類沉浸式場景,自己建立會花費太長時間和太多預算。Marble 能幾乎瞬間將如此多的實驗環境交到他們手中。3)教育場景:讓抽象知識變得可感知抽象的數學、化學、生物概念也可以變成可進入的模擬世界。學生可以走進一個細胞、模擬一次火山噴發,提升理解深度。AI 讓知識變得可感知,而不只是可背誦。總結一下,誰會最早用上空間智能?想建一個世界觀的創作者想讓機器真正動起來的開發者想用 AI 做模擬、教學、輔助理解的研究者與一線工作者Marble 是第一步,更多可能才剛剛開始。結語|從會說到會看,AI 的下一個十年很多人以為,AI 的盡頭是像人一樣說話。但李飛飛看得更遠:語言只是人類智能的一部分,甚至不是最根本的那部分。今天的大模型已經可以模擬我們的語言表達,但還無法看見這個世界,更無法在其中行動與創造。空間智能,是 AI 跨出紙面的關鍵一步。從 ChatGPT 到 Marble,我們看到一個清晰的方向:AI 正在從語言智能,走向世界理解。未來的智能不再只活在對話方塊裡,而是出現在每一張設計圖、每一次協作、每一個沉浸式場景中。李飛飛的核心理念始終如一:AI 不是取代人,而是增強人。這就是空間智能的意義。它不是替你思考,而是讓你看得更遠、想得更深、動得更快。AI 的下一個十年,不在模型參數有多大,而在它能否真正理解並融入這個世界。 (AI 深度研究員)
AI教母李飛飛最新長文:空間智能是AI的下一個前沿「LLM太侷限了,缺乏現實根基」
剛剛,AI教母、史丹佛大學教授李飛飛發表了一篇最新文章《從語言到世界:空間智能是AI的下一個前沿》,這篇文章是李飛飛對其25年AI生涯的深入思考李飛飛認為,儘管以LLM為代表的AI技術已深刻改變世界,但它們本質上仍是“黑暗中的文字匠”——能言善辯但缺乏經驗,知識淵博但缺乏現實根基要讓AI真正理解並與物理世界互動,就必須突破語言的限制,邁向空間智能 (Spatial Intelligence)。李飛飛認為,空間智能將是AI的下一個前沿,它將賦能AI,使其擁有故事講述者的想像力、第一反應者的行動力,以及科學家的空間推理精度。為了實現這一目標,她提出了建構世界模型 的框架,並詳細闡述了其三大核心能力、面臨的技術挑戰以及廣闊的應用前景全文:《從語言到世界:空間智能是AI的下一個前沿》https://drfeifei.substack.com/p/from-words-to-worlds-spatial-intelligence1950年,當計算還不過是自動化算術和簡單邏輯時,艾倫·圖靈提出了一個至今仍迴響不絕的問題:機器能思考嗎?他所預見的景象需要非凡的想像力:智能或許有朝一日可以被建構,而非與生俱來。這一洞見後來開啟了一場名為人工智慧(AI)的不懈科學探索。在我25年的人工智慧生涯中,我依然被圖靈的遠見所激勵。但我們離這個目標還有多遠?答案並不簡單今天,以大語言模型(LLM)為代表的頂尖AI技術已經開始改變我們獲取和處理抽象知識的方式。然而,它們仍然是黑暗中的文字匠;能言善辯但缺乏經驗,知識淵博但缺乏現實根基。空間智能將改變我們創造和與真實及虛擬世界互動的方式——它將徹底革新故事敘述、創造力、機器人學、科學發現等領域。這,就是AI的下一個前沿。追求視覺與空間智能,一直是指引我進入這個領域的北極星。正因如此,我花費數年時間建構了ImageNet,這是第一個大規模視覺學習和基準測試資料集,也是與神經網路演算法和現代計算(如圖形處理單元GPU)並列的、催生現代AI誕生的三大關鍵要素之一。正因如此,我在史丹佛的學術實驗室在過去十年裡一直致力於將電腦視覺與機器人學習相結合。也正因如此,我和我的聯合創始人Justin Johnson、Christoph Lassner、Ben Mildenhall在一年多前創辦了World Labs:為了首次全面實現這一可能性。在這篇文章中,我將解釋什麼是空間智能,它為何重要,以及我們如何建構能夠解鎖它的世界模型——其影響力將重塑創造力、具身智能和人類進步空間智能:人類認知的腳手架AI從未如此激動人心。像LLM這樣的生成式AI模型已經從研究實驗室走向日常生活,成為數十億人創造、生產和交流的工具。它們展示了曾被認為不可能的能力,能夠輕鬆生成連貫的文字、堆積如山的程式碼、逼真的圖像,甚至是短影片片段。AI是否會改變世界,已不再是一個問題。以任何合理的定義來看,它已經做到了。然而,仍有太多領域遙不可及。自主機器人的願景依然引人入勝但仍停留在推測階段,遠未成為未來學家長期承諾的日常裝置。在疾病治療、新材料發現和粒子物理學等領域,大規模加速研究的夢想在很大程度上仍未實現。而讓AI真正理解並賦能人類創造者的承諾——無論是幫助學生學習分子化學的複雜概念,協助建築師構想空間,輔助電影製作人建構世界,還是為任何尋求完全沉浸式虛擬體驗的人提供支援——也仍然無法實現。要瞭解為何這些能力仍然遙不可及,我們需要審視空間智能是如何演化的,以及它如何塑造我們對世界的理解。視覺長期以來一直是人類智能的基石,但其力量源於某種更為根本的東西。早在動物能夠築巢、照顧幼崽、用語言交流或建立文明之前,簡單的感知行為就已經悄然開啟了一段通往智能的演化之旅。這種看似孤立的、從外部世界收集資訊的能力,無論是微光一閃還是質感的觸碰,都在感知與生存之間建立了一座橋樑,並且隨著世代更迭,這座橋樑變得越來越堅固和精細。一層又一層的神經元從這座橋樑上生長出來,形成了能夠解釋世界並協調生物體與其環境互動的神經系統。因此,許多科學家推測,感知與行動構成了驅動智能演化的核心循環,也是自然創造我們這個物種——感知、學習、思考和行動的終極體現——的基礎。空間智能在定義我們如何與物理世界互動方面扮演著基礎性角色。每一天,我們都依賴它來完成最普通的行為:通過想像保險槓與路沿之間不斷縮小的間隙來停車,接住別人從房間另一頭扔過來的鑰匙,在擁擠的人行道上穿行而避免碰撞,或者睡眼惺忪地不看杯子就把咖啡倒進去。在更極端的情況下,消防員在濃煙滾滾、不斷坍塌的建築中穿行,對結構的穩定性和生存機會做出瞬間判斷,通過手勢、肢體語言和一種無法用語言替代的共同職業本能進行交流。而孩子們則在他們能夠說話之前的數月或數年裡,通過與環境的嬉戲互動來學習世界。所有這一切都發生得直觀而自然——這是機器尚未達到的流暢程度。空間智能也是我們想像力和創造力的基礎。故事講述者在腦海中創造出異常豐富的世界,並利用多種視覺媒介將其呈現給他人,從古代的洞穴壁畫到現代電影,再到沉浸式視訊遊戲。無論是孩子們在沙灘上堆沙堡,還是在電腦上玩《我的世界》,基於空間的想像力構成了真實或虛擬世界中互動體驗的基礎。在許多工業應用中,對物體、場景和動態互動環境的模擬,為從工業設計到數字孿生再到機器人訓練等無數關鍵商業用例提供了動力。歷史上充滿了空間智能發揮核心作用、定義文明處理程序的時刻。在古希臘,埃拉托斯特尼將影子轉化為幾何學——在太陽直射賽伊尼城的那一刻,他在亞歷山大城測量出7度的夾角——從而計算出地球的周長。哈格里夫斯的“珍妮紡紗機”通過一個空間上的洞察徹底改變了紡織製造業:將多個紡錘並排佈置在一個框架中,使得一個工人能同時紡多根線,生產效率提高了八倍。沃森和克里克通過親手搭建3D分子模型發現了DNA的結構,他們不斷擺弄金屬片和金屬絲,直到鹼基對的空間排列“咔噠”一聲完美契合。在每一個案例中,當科學家和發明家需要操縱物體、構想結構並對物理空間進行推理時,空間智能都推動了文明的進步——這些都無法僅用文字來捕捉。空間智能是我們認知建構的腳手架。無論我們是被動觀察還是主動創造,它都在發揮作用。它驅動著我們的推理和規劃,即使是在最抽象的話題上。它對於我們互動的方式至關重要——無論是口頭的還是身體的,無論是與同伴還是與環境本身。雖然我們大多數人並非每天都在揭示像埃拉托斯特尼那樣的宇宙真理,但我們日常的思考方式與他並無二致——通過感官感知複雜的世界,然後利用一種直觀的、基於物理和空間術語的理解來領悟其運作方式。不幸的是,今天的AI還不能像這樣思考。過去幾年確實取得了巨大進步。多模態大語言模型(MLLM)通過海量的多媒體資料和文字資料進行訓練,引入了一些基礎的空間意識,今天的AI可以分析圖片、回答相關問題,並生成超逼真的圖像和短影片。通過感測器和觸覺技術的突破,我們最先進的機器人已經開始能夠在高度受限的環境中操縱物體和工具。然而,坦率地說,AI的空間能力遠未達到人類水平。其侷限性很快就會顯現。在估算距離、方向和大小,或通過從新角度重新生成來“精神上”旋轉物體等任務上,最先進的MLLM模型的表現很少能超過隨機猜測。它們無法導航迷宮、識別捷徑或預測基本的物理現象。AI生成的視訊——雖然處於初級階段,但確實非常酷——往往在幾秒鐘後就失去連貫性。雖然當前最先進的AI在閱讀、寫作、研究和資料模式識別方面表現出色,但這些相同的模型在表示或與物理世界互動時,卻存在根本性的侷限。我們對世界的看法是整體的——不僅是我們正在看什麼,還包括萬物在空間上如何關聯,這意味著什麼,以及為何重要。通過想像、推理、創造和互動——而不僅僅是描述——來理解這一切,正是空間智能的力量。沒有它,AI就與它試圖理解的物理現實脫節。它無法有效地駕駛我們的汽車,引導我們家庭和醫院中的機器人,為學習和娛樂創造全新的沉浸式和互動式體驗,或加速材料科學和醫學領域的發現。哲學家維特根斯坦曾寫道:“我語言的極限,意味著我世界的極限。”我不是哲學家。但我知道,至少對AI而言,世界遠不止於語言。空間智能代表了超越語言的前沿——這種能力連接了想像、感知和行動,並為機器真正提升人類生活開闢了可能性,從醫療保健到創造力,從科學發現到日常輔助。AI的下一個十年:建構真正具備空間智能的機器那麼,我們如何建構具備空間智能的AI?如何才能讓模型具備埃拉托斯特尼的洞察力進行推理,擁有工業設計師的精度進行工程設計,懷揣故事講述者的想像力進行創造,並能像第一反應者一樣流暢地與環境互動?建構具備空間智能的AI需要比LLM更宏大的目標:世界模型,這是一種新型的生成式模型,其理解、推理、生成以及與語義、物理、幾何和動態上都極為複雜的世界(無論是虛擬還是真實)進行互動的能力,遠非當今的LLM所能及。這個領域尚處於起步階段,當前的方法從抽象推理模型到視訊生成系統不一而足。World Labs於2024年初成立,正是基於這樣的信念:基礎性方法仍在建立之中,這使其成為未來十年的決定性挑戰。在這個新興領域,最重要的是確立指導發展的原則。對於空間智能,我通過三個核心能力來定義世界模型:1.生成性 (Generative):世界模型能夠生成在感知、幾何和物理上保持一致的世界解鎖空間理解和推理的世界模型,也必須能夠生成它們自己的模擬世界。它們必須能夠生成無窮無盡、多種多樣的模擬世界,這些世界遵循語義或感知的指令,同時在幾何、物理和動態上保持一致——無論其代表的是真實空間還是虛擬空間。研究界正在積極探索這些世界應該以隱式還是顯式的方式來表示其內在的幾何結構。此外,除了強大的潛在表示,我相信一個通用的世界模型,其輸出還必須能夠為許多不同的用例生成一個明確、可觀察的世界狀態。特別是,它對當前狀態的理解必須與它的過去——即導致當前狀態的世界先前狀態——連貫地聯絡在一起。2.多模態 (Multimodal):世界模型天生就是多模態的正如動物和人類一樣,世界模型應該能夠處理多種形式的輸入——在生成式AI領域被稱為“提示”。給定部分資訊——無論是圖像、視訊、深度圖、文字指令、手勢還是動作——世界模型都應預測或生成儘可能完整的世界狀態。這要求模型既能以真實視覺的保真度處理視覺輸入,又能以同等的能力解釋語義指令。這使得智能體和人類都能通過多樣化的輸入與模型就世界進行交流,並反過來接收多樣化的輸出。3.互動性 (Interactive):世界模型能夠根據輸入的動作輸出下一個狀態最後,如果動作和/或目標是世界模型提示的一部分,其輸出必須包含世界的下一個狀態,無論是隱式還是顯式表示。當只給定一個動作(無論有無目標狀態)作為輸入時,世界模型應該產生一個與世界先前狀態、預期的目標狀態(如果有的話)及其語義含義、物理定律和動態行為相一致的輸出。隨著具備空間智能的世界模型在推理和生成能力上變得更加強大和穩健,可以想見,在給定目標的情況下,世界模型本身不僅能預測世界的下一個狀態,還能根據新狀態預測下一個動作。這個挑戰的範圍超過了AI以往面臨的任何挑戰。雖然語言是人類認知中純粹的生成現象,但世界的運作規則要複雜得多。例如,在地球上,引力支配著運動,原子結構決定了光如何產生顏色和亮度,無數的物理定律約束著每一次互動。即使是最奇幻、最有創意的世界,也是由遵循其自身物理定律和動態行為的空間物體和智能體組成的。要將所有這些——語義、幾何、動態和物理——一致地協調起來,需要全新的方法。表示一個世界的維度,遠比表示像語言這樣的一維序列訊號要複雜得多。要實現能夠提供我們人類所享有的那種通用能力的世界模型,需要克服幾個巨大的技術障礙。在World Labs,我們的研究團隊正致力於為實現這一目標取得根本性進展。以下是我們當前研究課題的一些例子:一個新的、通用的訓練任務函數:定義一個像LLM中的“下一詞元預測”一樣簡潔優雅的通用任務函數,一直是世界模型研究的核心目標。其輸入和輸出空間的複雜性使得這樣一個函數在形式化上 inherently more difficult。儘管仍有許多待探索之處,但這個目標函數和相應的表示必須反映幾何和物理定律,尊重世界模型作為想像與現實的根基表示的根本性質。大規模訓練資料:訓練世界模型需要比文字整理複雜得多的資料。好消息是:海量的資料來源已經存在。網際網路規模的圖像和視訊集合代表了豐富、可及的訓練材料——挑戰在於開發能夠從這些二維圖像或視訊幀訊號(即RGB)中提取更深層次空間資訊的演算法。過去十年的研究已經顯示了語言模型中資料量和模型大小之間的規模法則的力量;解鎖世界模型的關鍵在於建構能夠以相當規模利用現有視覺資料的架構。此外,我不會低估高品質合成資料以及像深度和觸覺資訊等額外模態的力量。它們在訓練過程的關鍵步驟中補充了網際網路規模的資料。但前進的道路依賴於更好的感測器系統、更穩健的訊號提取演算法,以及更強大的神經模擬方法。新的模型架構和表示學習:世界模型研究將不可避免地推動模型架構和學習演算法的進步,特別是超越當前的MLLM和視訊擴散範式。這兩種範式通常將資料標記化為一維或二維序列,這使得簡單的空間任務——如數清短影片中不重複的椅子數量,或記住一個小時前房間的樣子——變得不必要地困難。替代架構可能會有所幫助,例如用於標記化、上下文和記憶的3D或4D感知方法。例如,在World Labs,我們最近關於一個名為RTFM的即時生成式基於幀的模型的工作就展示了這種轉變,它使用基於空間的幀作為一種空間記憶形式,以實現高效的即時生成,同時保持生成世界的持久性。顯然,在通過世界建模完全解鎖空間智能之前,我們仍然面臨著艱巨的挑戰。這項研究不僅僅是理論練習,它是新一類創意和生產力工具的核心引擎。World Labs內部的進展令人鼓舞。我們最近與少數使用者分享了Marble的一瞥,這是有史以來第一個可以通過多模態輸入提示來生成和維持一致3D環境的世界模型,供使用者和故事講述者在他們的創意工作流中探索、互動和進一步建構。我們正在努力使其盡快向公眾開放!Marble只是我們創造一個真正具備空間智能的世界模型的第一步。隨著進展加速,研究人員、工程師、使用者和商界領袖都開始認識到其非凡的潛力。下一代世界模型將使機器能夠在全新的水平上實現空間智能——這一成就將解鎖當今AI系統中仍然普遍缺乏的核心能力。使用世界模型為人們建構一個更美好的世界發展AI的動機至關重要。作為幫助開啟現代AI時代的科學家之一,我的動機一直很明確:AI必須增強人類的能力,而不是取代人類。多年來,我一直致力於將AI的開發、部署和治理與人類需求對齊。如今,技術烏托邦和末日論的極端敘事比比皆是,但我繼續持有一種更務實的觀點:AI由人開發,由人使用,由人治理。它必須始終尊重人的能動性和尊嚴。它的魔力在於擴展我們的能力;使我們更有創造力、更緊密連接、更高效、更有成就感。空間智能代表了這一願景——AI賦能人類創造者、護理人員、科學家和夢想家,去實現曾經不可能的事情。這一信念驅動著我將空間智能視為AI下一個偉大前沿的承諾。空間智能的應用橫跨不同的時間線。創意工具正在湧現——World Labs的Marble已經將這些能力交到了創作者和故事講述者的手中。隨著我們完善感知與行動之間的循環,機器人學代表了一個雄心勃勃的中期目標。最具變革性的科學應用將需要更長時間,但有望對人類的繁榮產生深遠影響。在所有這些時間線上,有幾個領域因其重塑人類能力的潛力而脫穎而出。這需要巨大的集體努力,遠非一個團隊或一家公司所能實現。它需要整個AI生態系統的參與——研究人員、創新者、企業家、公司,甚至政策制定者——共同努力實現一個共同的願景。但這個願景值得追求。以下是這個未來所包含的內容:創意:為故事敘述和沉浸式體驗注入超能力“創造力是智慧在玩耍。” 這是我個人英雄阿爾伯特·愛因斯坦最喜歡的名言之一。早在書面語言出現之前,人類就在講述故事——將它們畫在洞穴牆壁上,代代相傳,在共同的敘事上建立起整個文化。故事是我們理解世界、跨越時空連接、探索人性意義的方式,最重要的是,在生活中尋找意義,在自我中發現愛。今天,空間智能有潛力改變我們創造和體驗敘事的方式,這種方式既尊重其根本重要性,又將其影響從娛樂擴展到教育,從設計擴展到建築。World Labs的Marble平台將把前所未有的空間能力和編輯可控性交到電影製作人、遊戲設計師、建築師和各類故事講述者的手中,讓他們能夠快速建立和迭代完全可探索的3D世界,而無需傳統3D設計軟體的開銷。創造性行為仍然像以往一樣至關重要和人性化;AI工具只是放大和加速了創作者所能達到的成就。這包括:新維度的敘事體驗:電影製作人和遊戲設計師正在使用Marble來創造完整的世界,而不受預算或地理位置的限制,探索各種在傳統製作流程中難以處理的場景和視角。隨著不同形式的媒體和娛樂之間的界限日益模糊,我們正在接近一種全新的互動體驗,它融合了藝術、模擬和遊戲——個性化的世界,其中任何人,而不僅僅是工作室,都可以創造並棲居於自己的故事中。隨著將概念和故事板提升為完整體驗的更新、更快捷方式的興起,敘事將不再侷限於單一媒介,創作者可以自由地在無數的介面和平台上建構具有共同主線貫穿的世界。通過設計進行空間敘事:基本上,每一個製造出來的物體或建造的空間,在其實體創造之前都必須在虛擬3D中進行設計。這個過程迭代性強,且在時間和金錢上都成本高昂。有了具備空間智能的模型,建築師可以在投入數月進行設計之前快速可視化結構,漫步於尚未存在的空間中——這本質上是在講述我們可能如何生活、工作和聚集的故事。工業和時尚設計師可以立即將想像轉化為形式,探索物體如何與人體和空間互動。全新的沉浸式與互動式體驗:體驗本身是我們作為一個物種創造意義的最深層次的方式之一。在整個人類歷史上,只有一個單一的3D世界:我們所有人共享的物理世界。直到最近幾十年,通過遊戲和早期的虛擬現實(VR),我們才開始瞥見共享我們自己創造的替代世界意味著什麼。現在,空間智能與新的裝置形態(如VR和擴展現實(XR)頭顯及沉浸式顯示器)相結合,以前所未有的方式提升了這些體驗。我們正接近一個未來,在這個未來中,踏入完全實現的多維世界將像打開一本書一樣自然。空間智能使世界建構不再僅僅是擁有專業製作團隊的工作室的專利,而是對個人創作者、教育者和任何有願景分享的人開放。機器人:具身智能的實踐從昆蟲到人類,動物都依賴空間智能來理解、導航和與它們的世界互動。機器人也不例外。具備空間感知能力的機器自該領域誕生之初就是其夢想,這也包括我自己與我的學生和合作者在史丹佛研究實驗室的工作。這也是為什麼我如此興奮於利用World Labs正在建構的這類模型來實現它們的可能性。通過世界模型擴展機器人學習:機器人學習的進展取決於一個可行的訓練資料的可擴展解決方案。考慮到機器人必須學習去理解、推理、規劃和互動的巨大狀態空間,許多人推測,需要結合網際網路資料、合成模擬和真實世界的人類演示捕捉,才能真正創造出具有泛化能力的機器人。但與語言模型不同,當今機器人研究的訓練資料稀缺。世界模型將在此扮演決定性角色。隨著它們感知保真度和計算效率的提高,世界模型的輸出可以迅速縮小模擬與現實之間的差距。這反過來將有助於在無數狀態、互動和環境的模擬中訓練機器人。成為夥伴與合作者:機器人作為人類的合作者,無論是輔助實驗室的科學家,還是協助獨居的老人,都可以擴充急需更多勞動力和生產力的部分勞動力市場。但要做到這一點,需要空間智能能夠感知、推理、規劃和行動,同時——這一點最重要——與人類的目標和行為保持共情對齊。例如,一個實驗室機器人可以處理儀器,讓科學家專注於需要靈巧或推理的任務,而一個家庭助理可以幫助老年人做飯,而不會削弱他們的快樂或自主性。能夠預測與此期望一致的下一個狀態甚至可能是下一個動作的、真正具備空間智能的世界模型,對於實現這一目標至關重要。擴展具身智能的形式:人形機器人在我們為自己建構的世界中扮演著一個角色。但創新的全部好處將來自更多樣化的設計:運送藥物的奈米機器人,在狹窄空間中穿行的軟體機器人,以及為深海或外太空建造的機器。無論它們的形式如何,未來的空間智能模型都必須整合這些機器人所處的環境以及它們自身的具身感知和運動。但開發這些機器人的一個關鍵挑戰是,在這些各種各樣的具身形態因素中缺乏訓練資料。世界模型將在模擬資料、訓練環境和這些工作的基準測試任務中發揮關鍵作用。更長遠的未來:科學、醫療和教育除了創意和機器人應用,空間智能的深遠影響還將延伸到AI能夠以拯救生命和加速發現的方式增強人類能力的領域。我下面重點介紹三個可以帶來深刻變革的應用領域,儘管不言而喻,空間智能的用例在更多行業中都非常廣泛。在科學研究中,具備空間智能的系統可以模擬實驗,平行測試假說,並探索人類無法進入的環境——從深海到遙遠的行星。這項技術可以改變氣候科學和材料研究等領域的計算建模。通過將多維模擬與真實世界資料收集相結合,這些工具可以降低計算門檻,並擴展每個實驗室所能觀察和理解的範圍。在醫療健康領域,空間智能將重塑從實驗室到病床的一切。在史丹佛,我的學生和合作者多年來一直與醫院、老年護理機構和居家患者合作。這段經歷讓我確信了空間智能在此處的變革潛力。AI可以通過多維建模分子相互作用來加速藥物發現,通過幫助放射科醫生在醫學影像中發現模式來增強診斷,並實現環境監測系統,在不取代治癒所需的人際連接的情況下支援患者和護理人員,更不用說機器人在許多不同環境中幫助我們的醫護人員和患者的潛力。在教育領域,空間智能可以實現沉浸式學習,使抽象或複雜的概念變得具體可感,並創造對於我們大腦和身體學習方式至關重要的迭代體驗。在AI時代,更快、更有效的學習和再培訓的需求對學齡兒童和成年人都尤為重要。學生可以在多維度中探索細胞機制或漫步於歷史事件。教師獲得了通過互動環境進行個性化教學的工具。專業人士——從外科醫生到工程師——可以在逼真的模擬中安全地練習複雜技能。在所有這些領域中,可能性是無限的,但目標始終如一:AI增強人類專長,加速人類發現,並放大人類關懷——而不是取代作為人類核心的判斷力、創造力和同理心。結論過去十年見證了AI成為一個全球現象,以及技術、經濟乃至地緣政治的轉折點。但作為一名研究者、教育者,以及現在的創業者,最能激勵我的,仍然是圖靈在75年前提出的那個問題背後的精神。我仍然分享著他的那份驚奇感。正是這種感覺,讓我每天都為空間智能的挑戰而充滿活力。歷史上第一次,我們有望建構出與物理世界如此協調的機器,以至於我們可以依賴它們作為我們應對所面臨的最大挑戰的真正夥伴。無論是在實驗室中加速我們對疾病的理解,徹底改變我們講述故事的方式,還是在我們因疾病、受傷或年老而最脆弱的時刻支援我們,我們正處在一個技術突破的關口,這項技術將提升我們最珍視的生活品質。這是一個關於更深刻、更豐富、更強大生活的願景。在自然界於近五億年前在遠古動物身上釋放出空間智能的第一縷微光之後,我們有幸成為可能很快將同樣能力賦予機器的那一代技術人員——並且有幸利用這些能力造福世界各地的人們。沒有空間智能,我們關於真正智慧型手機器的夢想就不會完整 (AI寒武紀)