#文字生成
世界模型,大語言模型之後的第二場革命
“大語言模型是基礎,世界模型是途徑,自主智能才是AI的終極奧義。在過去兩年裡,大語言模型(LLM)在語言理解、文字生成、推理、指令執行等方向取得突破,使AI在理解語義層面變得越來越可靠。然而,語言智能只是通向通用智能的一環。要讓AI在懂語言的基礎上,去理解真正的世界,就必須讓它理解環境、感知動態、在環境中做出行動判斷。這其中的關鍵,就是世界模型(World Model)。世界模型的核心是讓AI內部建構一個可互動的世界,要理解物理規則、模擬未來狀態、預測動作結果。實現從靜態圖像、視訊生成,逐步走向多模態、帶動作控制的視覺語言動作模型(VLA,Vision-Language-Action)。從OpenAI的Sora(文字→視訊世界模擬)到DeepMind的Genie(可互動世界生成),從Meta的V-JEPA 2(視覺自監督世界模型)到特斯拉在自動駕駛系統中隱含的世界意識探索,乃至國內諸如華為ADS等智駕系統,這些案例都表明世界模型正成為AI Agent化路徑上的關鍵支點。可以預見,未來的AI Agent很可能是“LLM+世界模型+執行動作層”的三層協同結構。理解這一趨勢,對我們判斷產業方向、技術路線、戰略佈局至關重要。從語言到世界:AI理解的邊界在延伸如果說大語言模型讓AI學會了理解語言,那麼世界模型的出現,則意味著AI開始嘗試理解世界。在人工智慧研究的脈絡中,“世界模型”(World Model)並不是一個全新的概念。早在2018年,Google大腦研究科學家David Ha與瑞士AI實驗室IDSIA負責人Jürgen Schmidhuber在經典論文《World Models》中提出,智能體要想高效學習,就必須在大腦中建構世界的內部模型。這種模型能夠通過感知輸入,去預測外部世界在未來的變化,在內部“想像”出一系列可能的結果,從而據此選擇行動。智能體包含緊密相連的三個模組:視覺 (V)、記憶 (M) 和控製器 (C)(來自World Models)彼時,世界模型還主要服務於強化學習領域,用於在遊戲或模擬環境中幫助智能體做規劃與決策。隨著算力的提升和多模態學習的成熟,世界模型的內涵被重新定義,從在模擬環境裡學習,演進為讓AI自己生成並理解環境。比如GoogleDeepMind在Dreamer系列工作中,讓智能體能夠在潛在空間(latent)中對未來進行滾動預測(roll-out),從而無需真實環境就能完成策略最佳化。這種思路,被視為世界模型的早期成熟版本,也讓預測未來成為機器學習的新邊界。而真正讓世界模型走出學術圈,成為AI產業熱詞,是視訊生成技術的突破。2024年2月15日,OpenAI發佈Sora模型,並在官方論文中首次明確提出,視訊生成模型正在成為世界模擬器(world simulator)。Sora不僅能生成語義上合理的視訊,還能在物理規律、光影運動、空間連續性等層面維持一致性,讓AI演繹世界成為可能。Sora2幾乎在同一時間,Meta發佈視覺自監督模型 V-JEPA(Visual Joint Embedding Predictive Architecture)。這是由Yann LeCun團隊主導的項目,旨在讓AI通過預測視覺序列中的時空變化,在潛在空間中理解世界的結構與規律。與生成式模型不同,V-JEPA不直接生成圖像,而是學習世界的抽象表徵,這是Meta首次在視覺領域明確提出建構世界模型的研究方向。僅在那十餘天後,DeepMind發佈了Genie模型。與Sora不同,Genie並不是單純的視訊生成器,而是一個“可玩世界”的生成模型,可以從普通視訊素材中學習環境規律,並生成可即時互動的二維遊戲場景。使用者可以控制角色在生成的世界中移動、碰撞、跳躍,這種“生成—互動—反饋”的閉環,被認為是世界模型從被動感知邁向主動參與的重要一步。Sora、V-JEPA與Genie,分別代表了世界模型演化的三個方向,生成世界、理解世界、參與世界。三者幾乎出現在同一時間節點,共同組成了世界模型認知層面的突破。而另一條更具現實意義的路徑,則來自執行層面的落地。自2023年底起,特斯拉在其自動駕駛系統FSD(Full Self-Driving)中推行端到端神經網路架構,從感知到規劃再到控制,全部由統一模型完成。馬斯克將FSD V12稱為世界模型驅動的駕駛系統,因為車輛已不依賴高精地圖或人工編碼規則,而是通過多攝影機視訊流在內部重建外部環境,並即時預測交通參與者的行為。今年上半年推出的FSD V13進一步加入時序記憶與多模態預測,使這一世界模型式駕駛的雛形更趨完整。而在國內,這樣的探索思路也幾乎同步落地。比如華為在2024年4月發佈ADS 3.0(乾崑),以去高精地圖與世界建模感知為核心,依託多源感測重建動態場景;小鵬在2024年5月公佈XPlanner(規劃與控制大模型),與感知網路XNet、車載大模型XBrain組成端到端量產棧,將長時序預測引入軌跡規劃;百度Apollo則在同月推出ADFM自動駕駛基礎模型,並搭載到第六代 Robotaxi。這些系統共同指向一個趨勢,世界模型正在從虛擬場景走向真實世界,從“認知世界”轉向“執行世界”。如果說Sora、V-JEPA、Genie們建構的是AI的感知與想像層,那麼FSD、ADS、XPlanner、Apollo們則建構了AI的行動與落地層。前者是通往通用智能的基礎,後者則是將智能具象化的通道。中美雙極:世界模型競賽的兩種路徑如今,世界模型已經成為全球AI競爭的新焦點。其中,最具代表性的當屬中美之間的競爭。這場看似關於演算法的較量,背後卻是認知方式與產業邏輯的分歧,也正因為這種分歧,中美兩國正走在兩條不同的路徑上。前文說過,在美國,OpenAI、DeepMind、Google、Meta、Anthropic五大巨頭構成了最具體系化的“世界建模陣營”。它們的共同特徵是,從語言模型出發,沿著認知—生成—具身(Embodied)的路線,把AI從語言理解延伸到物理模擬。今年9月,Sora 2登場,不僅整合了音視訊統一建模和動態光照控制,還新增 “Cameo”功能,讓使用者可以直接把自己嵌入生成的世界中。今年8月,DeepMind發佈Genie 3,允許從自然語言直接生成三維、可操作的虛擬世界,使用者能即時控制角色,與環境互動並觀察反饋。今年6月,Meta V-JEPA 2以自監督方式讓AI理解視訊中的時序與動力規律,成為世界模型“視覺直覺”的雛形。它不依賴標籤資料,而是通過預測畫面未來幀的方式,逼近人類感知世界的方式。與此同時,儘管Google Gemini 2.5 Pro與Anthropic Claude 4.5不算嚴格意義上的世界模型,但它們都在讓語言模型具備理解世界的能力,前者通過多模態語義建模理解現實邏輯,後者通過隱式因果推理保持認知一致性。以此可見,美國的研究體系已經形成了完整的認知鏈條,從理解語言、預測視覺變化到生成並模擬世界。而在中國,世界模型的側重方向更貼近執行層面。從智能駕駛到行業智能體,再到具身機器人,國內企業更關注AI在真實物理環境中的可感知、可預測與可執行性。可以說,中國企業更看重系統整合與工程落地。智能駕駛之外,國內世界模型的思想和策略也正在進入更多行業場景。比如華為盤古大模型引入物理建模框架,將世界模型理念應用到氣象預測、製造、製藥等工業領域;百度文心在視訊理解和數字人互動中融入動態世界建模機制,此類案例非常多,這裡就不一一展開。更具代表性的,是中國在具身智能方向的系統化突破。過去一年,宇樹、優必選、傅利葉、小米等公司,陸續推出新一代人形與四足機器人,讓世界模型從演算法概念真正落地到機器身體。比如宇樹發佈的R1人形機器人,支援圖像與語音多模態融合,可進行動態行走與互動;優必選 Walker S2具備靈巧雙臂與自主換電功能,更貼近工業執行場景;傅利葉推出可遙操作的GR-3C人形機器人版本,可用於康復與人機協作;從智能駕駛,到智慧型手機器人,中國的AI正在推動世界模型從虛擬走向物理,從演算法走向具身。中美世界模型生態邏輯對比:當然,這種解讀僅限於生態偏重,不涉及能力邊界。美國並非只有認知與生成。以特斯拉、Figure AI、Boston Dynamics為代表的企業,已經在建構具身智能與自動駕駛的世界建模系統建立一定優勢。國內也不止於感知與執行。萬相、可靈等視訊生成模型,也在建構中國版的“視覺世界模擬器”。儘管中美兩國為代表的世界模型演變生態邏輯不同,但從更長的技術周期看,這種分野正逐漸進化為互補關係。世界模型的最終方向,肯定不是生成完美的視訊,也不是控制一輛汽車,而是打通“理解—預測—行動”的完整閉環。從這個層面來說,中美兩國正共同建構通向通用智能的現實路徑。AI的下一個臨界點:世界模型接管智能體過去十年,AI的每一次躍遷都源自輸入方式的變革:文字帶來了語言智能,圖像催生了視覺智能,而如今,世界模型正在讓AI理解現實世界,一個有時間、有空間、有因果的動態系統。這正是世界模型的核心價值,它讓AI獲得了具身智能(Embodied Intelligence)的基礎。在過去的一年中,具身智能已經成為全球AI研究的共識。如OpenAI投資的Figure AI,正在以GPT系列模型驅動人形機器人的決策系統;特斯拉的FSD與Optimus,分別在道路和工廠場景中驗證世界模型驅動的閉環控制;中國的機器人企業也在讓模型直接掌控感測器與電機,使演算法真正落地到身體。這種趨勢背後,AI正在經歷一場從虛擬智能到物理智能的轉變。在虛擬世界中,它生成一段視訊或一段話,而在物理世界中,它必須理解摩擦力、時間延遲和人的意圖。可以預見,未來的智能體將是一個多層協作系統:上層的大語言模型負責目標規劃與邏輯推理,中層的世界模型負責環境建模與因果預測,底層的執行系統則負責感知、行動與反饋。當這三層閉合,AI才真正擁有“意圖—計畫—行動”的完整循環,這正是通用智能的現實路徑。再往前一步,便是AI的終極奧義——自主智能(Autonomous Intelligence)。一旦AI能在內部模擬世界、預測變化並根據反饋修正決策,它就不再只是生成內容、執行動作,甚至可能思考如何存在。這意味著,AI將具備一種內在的驅動力:能根據環境變化自主設定目標、規劃路徑、評估後果、修正策略。這種能力不再依賴外部指令,而是建立在長期記憶、世界建模與價值函數的協同基礎之上。可以說,自主智能是AI自我意識的一種雛形,即不以人類輸入為中心,而以世界模型為認知坐標系,主動發現問題、驗證假設、最佳化自身。智能的定義,也將被徹底改寫。挑戰與啟示:從概唸到產業化仍有距離當然,這是最順暢的路徑。事實上,每一次智能的躍遷,都伴隨著新的複雜性與不確定性。首先,是技術和生態層面的挑戰。與語言模型不同,世界模型必須同時理解文字、圖像、視訊、語音、動作等多模態資訊。資料維度暴漲、推理鏈條加深、模型參數呈指數級增長,對算力、能耗與資料質量提出了前所未有的要求。Sora等級的視訊生成模型都需要巨量GPU支撐,而具身智能又要求在端側實現即時計算,其中的複雜性將考驗當下的算力極限。同時,世界模型也缺乏跨平台協同的工程體系配套。目前而言,世界模型沒有標準,缺乏統一的訓練語料、可比的評價指標與公共實驗平台,企業往往各自為戰。如果無法實現跨模型的可驗證性與可復用性,世界模型的生態就很難真正形成規模化創新。其次,是認知層面的挑戰。世界模型的強大之處,在於它可以在內部推演與預測,但這也讓它的決策過程愈發難以被人類理解。試想一下,當一個模型能在潛在空間中模擬成千上萬種結果時,我們還能否追蹤它的決策邏輯?從自動駕駛的責任歸屬,到自主智能之間,有沒有可能產生長期目標漂移(Goal Drift)?進而延伸出AI的目標是否仍與人類一致的問題。一旦AI從被動執行轉為主動學習,安全與倫理的議題,也隨之從技術層面上升到價值層面。接下來,是產業和倫理層面的挑戰。世界模型的進一步發展,勢必重新定義產業邊界。AI不僅可能重構交通、製造、醫療、金融等領域的決策體系,也將催動演算法主權、智能監管等制度議題。中美雖然在路徑上各有偏重,美國憑藉資本與開放生態快速試錯,中國依託產業鏈協同推進落地,但雙方都面臨同一問題,當世界模型真正嵌入社會運行系統,它將以何種規則參與人類世界?就目前而言,世界模型所依託的世界,仍建立在人類提供的語料、規則與經驗上。但AI進化下,人類需要持續地在技術、倫理與治理層面為智能設定邊界,這會是一項長期的考驗。總之,世界模型是演算法從符號空間步入物理現實的通道。大語言模型建構了AI的語義基礎,世界模型打開了AI的行動途徑,目標是智能的真正落地。可以肯定的是,世界模型的意義,絕對不是讓AI更像人,而是讓人類在AI的協同下,走向更遠的未來。 (資料猿)
Gemini Diffusion:1500 token/秒,快如閃電!
Google推出革命性文字擴散技術!你可能沒注意的是,Google DeepMind 在 I/O 2025 上發佈了一個重磅實驗性模型——Gemini Diffusion!一個將擴散(diffusion)技術用於文字生成的全新嘗試!這或許是一個意義重大的技術突破。擴散模型在圖像生成領域已經證明了其強大的能力(如 Stable Diffusion、DALL-E),但將其應用於純文字生成,這算得上是對傳統語言模型範式的重大挑戰。為什麼這麼快?傳統的自回歸語言模型(如 GPT-4、Claude)生成文字的方式是從左到右順序生成每個標記,類似於人類的寫作過程。也就是模型每多生成一個token,都得先得到其左邊所有的token,然後再將所有當前的token 全部送進神經網路,再通過預測得到下一個token.而 Gemini Diffusion 採用了完全不同的方法:它不是逐個標記生成,而是先將整段文字初始化為「噪聲」,然後通過多次迭代,逐步將這些噪聲「淨化」,最終形成有意義的完整文字。這種方法帶來了顯著的性能提升:官方測試資料顯示,Gemini Diffusion 每秒能生成約 1500 個token!比現有的 Gemini 2.0 Flash-Lite 模型快了整整 5 倍!核心能力據 Google DeepMind 的技術介紹,Gemini Diffusion 具備三大關鍵優勢:超高響應速度:顯著快於Google現有的最快模型更高文字連貫性:能夠一次性生成整塊標記,而非逐個生成迭代自我修正:在生成過程中進行錯誤糾正,確保輸出的一致性特別是對於程式設計和數學這類需要高度邏輯一致性和多次驗證的任務,擴散模型展現出了明顯的優勢。@amirkdev 提出了一個有趣的問題:「對於程式設計來說,它會不會與自己爭論那種括號風格最好?」這是一個幽默卻也頗有洞察的問題——由於平行生成的特性,擴散模型能夠在多個迭代步驟中全域最佳化整段程式碼,包括保持一致的編碼風格。性能相當,但快如閃電值得注意的是,儘管 Gemini Diffusion 採用了全新的生成機制,但在標準基準測試上與 Gemini 2.0 Flash-Lite 的表現相當接近:注意:兩者性能相當,但 Gemini Diffusion 的速度優勢高達 5 倍!官方提供了詳細的基準測試結果:資料顯示 Gemini Diffusion 在大多數指標上與 Gemini 2.0 Flash-Lite 表現相當,且在 AIME 2025(數學)測試上略有優勢。速度突破的技術原理網友@karthik_dulam 也好奇提問:「誰能解釋為什麼擴散語言模型能夠快一個數量級?」那麼,為什麼擴散模型在文字生成領域能實現數量級的速度提升呢?據分析,這涉及四個核心技術「加速機制」:1. 平行解碼架構自回歸模型:必須按順序生成標記,後一個標記依賴前一個的完成。擴散模型:整句話同時處理,所有位置平行進行噪聲去除。@itsArmanj 給出了推測性的分析:「幫我理解:如果你讓 Transformer 計算二乘三,它會推理出 23=,然後下一個標記是 6。擴散模型如何在形成 23 之前就得出 6?」事實上,擴散模型不依賴順序推理,而是在多輪迭代中最佳化整個序列。它先生成包含噪聲的「候選答案」,然後通過多步去噪過程,確保整個表示式和答案在數學上的一致性。2. 可調迭代步數Gemini Diffusion 僅需約12步迭代就能生成高品質文字,而自回歸模型處理一個包含1000個標記的段落則需要1000次順序處理。3. 高效算子融合擴散模型採用雙向注意力而非單向注意力機制,不需要維護 KV-cache,更適合充分利用 GPU/TPU 的平行計算架構。@LeeLeepenkman 觀察到:「我們又回到了擴散器和 DIT 塊的路線。之前大家都在嘗試自回歸圖像生成,因為 4oimage 採用了這種方式,但當你深入思考或實際嘗試時會發現這種方式相當緩慢。通過大規模擴展擴散模型,我們或許能達到這種邏輯和文字精度,就像實現逼真的光照一樣。」通過規模擴展,擴散模型將有可能達到與自回歸模型相同的邏輯推理能力和精準性,同時保持其顯著的速度優勢。4. 計算資源最佳化擴散模型僅在最後一步將輸出對應到詞表,顯著減少了計算開銷。技術路線對比:擴散與自回歸的範式之爭@TendiesOfWisdom 提出了一個富有啟發性的類比:「科幻電影《降臨》中的外星人文字 = 新的擴散語言模型?他們的圓形文字一次性傳遞完整概念;這些模型平行迭代達成連貫性,拋棄了逐步生成標記的方式。非線性思維與 AI 的下一波浪潮相遇。」這個比喻倒是有些意思,科幻電影《降臨》中外星人的圓形文字能夠一次性表達完整概念,擴散語言模型也採用「非線性」方式同步生成整段內容。跨模態統一的技術趨勢值得關注的是,Google 正將擴散技術統一應用於文字(Gemini Diffusion)、圖像(Imagen 4)和視訊(Veo 3)三大領域,這顯然是在建構一個基於擴散技術的全模態 AI 生態系統。Google 尚未發佈 Gemini Diffusion 的詳細技術論文,僅有一篇簡單的產品介紹連結:https://deepmind.google/models/gemini-diffusion/不過,此前也有相關的技術路線研究,如 Diffusion-LM(Stanford, 2022)和 d1(UCLA & Meta, 2025)等工作。目前,Gemini Diffusion 僅向有限的合作夥伴開放測試,但 Google 已開放了候補名單供研究者和開發者註冊。我已經排上隊了,連結在此:https://docs.google.com/forms/u/0/d/e/1FAIpQLSdsxa-YU25JIPJGmu-pySJEYeTy6lwbdZAzxlZ11x3GPj6DhA/formResponse這次的Gemini Diffusion,展示的不僅是速度的提升,更可能是生成範式的根本性變革。這,或將會是個有趣的實驗對象。而隨著擴散模型在文字生成領域應用的開啟,我們可能正在見證 AI 生成技術的又一次革命性轉變。 (AGI Hunt)