幾天前,《Nature》雜誌刊發了一篇來自中國的人工智慧研究論文。這在頂級學術期刊上並非新鮮事,但這篇論文的份量卻非同尋常:它來自北京智源人工智慧研究院,核心成果是一個名為“Emu3”的多模態大模型,而它試圖回答的問題,是整個AI領域過去五年來懸而未決的核心命題——我們能否用一種統一的方式,讓機器同時學會看、聽、說、寫,乃至行動?這個問題聽起來簡單,但它的複雜程度足以讓全球頂尖的AI實驗室爭論不休。OpenAI用Sora驚豔世界,靠的是擴散模型;Google的Gemini整合多模態,用的是複雜的編碼器拼接;Meta的Chameleon嘗試統一,卻始終難以在性能上與專用模型抗衡。而智源的答案,是一個看起來樸素得近乎偏執的選擇:只用“下一詞預測”。這個選擇的意義,可能需要一些背景知識才能理解。論文前言一場關於“語言”的豪賭如果你問一位2020年的AI研究者,未來的多模態智能會是什麼樣子,他大機率會給出這樣的預測:圖像生成歸圖像生成,文字理解歸文字理解,視訊處理歸視訊處理,然後我們用某種“膠水”把它們粘在一起。這不是懶惰,而是當時的技術現實——不同模態的資料特性差異太大,專精往往意味著高效。事實上,這條路線在過去幾年裡取得了巨大成功。Stable Diffusion讓普通人也能生成驚豔的圖像,GPT-4讓對話AI變得無所不能,而各種視覺-語言模型則在問答、識別、描述等任務上不斷刷新紀錄。但問題也隨之而來:這些模型就像一個技藝精湛但只會單項運動的運動員,讓它們協同工作,需要複雜的工程架構、精細的模態對齊,以及大量的人工干預。更關鍵的是,這種“專科化”的發展路徑隱含著一個令人不安的假設:也許機器智能天生就是碎片化的,我們永遠需要為每一種能力單獨訓練一個模型。Emu3挑戰的,正是這個假設。智源團隊的核心洞見是:如果我們把圖像、視訊、文字都轉換成同一種“語言”——離散的符號序列——那麼讓模型學習“預測下一個符號”這一個任務,是否就足以涵蓋所有多模態能力(如下圖)?這個想法並非沒有先例。早在2020年,GPT-3就已經證明,僅僅通過預測下一個詞,語言模型可以湧現出驚人的推理、翻譯、程式設計能力。但將這一範式擴展到圖像和視訊,面臨著截然不同的挑戰:一張512×512的圖像,如果用簡單的方式轉換成符號,可能需要幾十萬個token,這對於Transformer架構來說是災難性的計算負擔;更重要的是,圖像的空間結構、視訊的時間連續性,與文字的線性敘事有著本質區別,簡單的“下一詞預測”真的能捕捉這些複雜的關係嗎?智源的答案是肯定的,而Emu3就是他們的證明。一個分詞器的藝術要理解Emu3的技術突破,首先要理解它的“視覺分詞器”(Vision Tokenizer)。這個聽起來不起眼的元件,實際上是整個系統的基石。想像一下,你需要用電報向一個從未見過圖片的人描述一幅畫。你不可能傳輸原始的像素值——那太冗長了;你也不能只說“一幅風景畫”——那太模糊了。你需要的是一種既緊湊又富有表現力的編碼方式,能夠在有限的符號中保留足夠的視覺資訊。Emu3的視覺分詞器做的正是這件事。它能夠將一張512×512的圖像壓縮成僅僅4096個離散符號,壓縮比達到64:1;對於視訊,它在時間維度上進一步壓縮4倍,使得一段4幀的視訊片段也只需要4096個符號表示。這些符號來自一個包含32768個“詞彙”的碼本——你可以把它想像成一本視覺詞典,每個“詞”代表一種特定的視覺模式。更精妙的是,這個分詞器是為視訊原生設計的。傳統的圖像分詞器處理視訊時,只能逐幀編碼,完全忽略幀與幀之間的時間關聯;而Emu3的分詞器通過三維摺積核,能夠同時捕捉空間和時間維度的資訊。在實驗中,這種設計用四分之一的符號數量,就達到了與逐幀處理相當的重建質量——這不僅意味著更高的效率,更意味著模型能夠真正“理解”視訊的動態本質,而非僅僅處理一堆靜態圖片。有了這個分詞器,圖像和視訊就變成了與文字一樣的符號序列。接下來的事情,就是讓一個Transformer學會預測這些序列中的“下一個符號”。當簡單遇上規模Emu3的模型架構,用一句話就能概括:它就是一個標準的大語言模型,只不過詞彙表裡多了32768個視覺符號。這種極簡主義設計在AI研究界是罕見的。主流的多模態模型——無論是LLaVA、BLIP-2還是Flamingo——都採用“編碼器+語言模型”的複合架構,即先用一個專門的視覺編碼器(通常是CLIP)把圖像轉換成特徵向量,再用介面卡將這些特徵“注入”語言模型。這種設計的好處是可以復用已有的預訓練元件,但代價是系統複雜度的急劇上升,以及模態之間潛在的隔閡——視覺編碼器和語言模型畢竟是獨立訓練的,它們對世界的理解未必一致。Emu3選擇了一條更激進的路:不用任何預訓練的視覺編碼器,不用任何複雜的模態融合機制,只用一個從零開始訓練的decoder-only Transformer。所有的多模態知識,都是在統一的下一詞預測任務中從資料裡學來的。這種“大道至簡”的設計哲學,在實踐中轉化為了驚人的實驗結果。在圖像生成任務上,Emu3在人類偏好評估中得分70.0,超越了Stable Diffusion XL(66.9)這個擴散模型的標竿;在視覺語言理解的12個基準測試上,它的平均分達到62.1,與採用複雜編碼器架構的LLaVA-1.6(61.8)持平;在視訊生成的VBench評估中,它取得了81.0分,超過了專門的視訊擴散模型Open-Sora-1.2(79.8)。這些數字的意義在於:一個僅僅用“預測下一個符號”訓練的模型,在生成和理解兩個看似矛盾的方向上,同時達到了專用模型的水平。這在此前被認為是不可能的——畢竟,擴散模型和自回歸模型的數學基礎完全不同,擅長理解的架構通常不擅長生成,反之亦然。Emu3的成功,相當於一個運動員同時在短跑和馬拉松比賽中奪冠,打破的不僅是記錄,更是人們對專業化邊界的認知。規模定律的啟示如果說單點性能的突破還可以歸因於工程技巧或資料質量,那麼Emu3論文中最具科學價值的發現,則來自於它對規模定律Scaling Laws的系統研究。規模定律是現代AI研究的聖盃之一。它描述的是模型性能與模型規模、資料規模之間的數學關係——如果我們知道這個關係,就能預測一個更大模型的表現,而不需要真的訓練它。這對於動輒消耗數百萬美元計算資源的大模型研發來說,具有極其重要的實用價值。此前的規模定律研究主要集中在純語言模型上。Emu3的貢獻在於,它證明了多模態學習同樣遵循可預測的規模定律,而且——這是關鍵——不同模態共享同一套資料擴展指數。具體而言,無論是文字到圖像、圖像到文字,還是文字到視訊,當訓練資料量翻倍時,模型的驗證損失都以0.55的指數下降。這意味著多模態能力的提升不是各自為政的,而是遵循統一的數學規律。基於較小模型的實驗資料,研究團隊精準預測了70億參數模型的性能,擬合優度超過0.99,誤差不到3%。這個發現的意義遠超學術範疇。它暗示著,未來的多模態智能可能不需要為每種能力單獨設計訓練策略——只要把不同模態的資料混合在一起,用統一的目標訓練,規模擴大後能力就會自然湧現。這極大地簡化了研發路徑,降低了技術門檻,也讓通用人工智慧AGI的願景變得更加可信。論文的另一個亮點,是Emu3在機器人操控任務上的出色表現。在CALVIN基準測試——一個評估機器人執行長序列任務能力的標準測試——中,Emu3在“連續完成五個任務”的指標上達到了87%的成功率。這意味著機器人在接受語言指令後,能夠依次完成一系列複雜操作,如“拿起桌上的杯子”、“打開抽屜”、“把杯子放進去”等,每一步都需要視覺感知、語言理解和動作規劃的緊密配合。這個結果揭示了Emu3框架的深層潛力:它不僅僅是一個內容生成工具,更可能是通往具身智能的一條捷徑。傳統的機器人學習需要專門設計感知模組、決策模組和控制模組,然後艱難地將它們整合在一起;而Emu3的思路是,把視覺觀察、語言指令和機械臂動作都轉換成符號序列,讓模型在統一的框架下學習它們之間的關聯。論文中展示了一個令人印象深刻的例子:給定一段烹飪視訊的前兩秒,Emu3可以預測接下來兩秒會發生什麼——鍋中的食材如何翻炒(如下圖),廚師的手會移向那裡,蒸汽會如何升騰。這種“世界模型”的能力,被認為是通向更高級AI的關鍵:一個真正理解物理世界的模型,應該能夠預測行動的後果,而非僅僅記憶靜態的圖像-文字關聯。與海外同行的比較在全球AI研究的版圖上,Emu3處於什麼位置?最直接的比較對像是Meta的Chameleon。這是另一個嘗試統一多模態學習的模型,同樣採用了token化和自回歸預測的範式。但Chameleon在發佈時面臨著一個尷尬的處境:雖然架構統一,但性能與專用模型存在明顯差距,尤其在圖像生成質量上。Emu3的突破在於,它證明了這個差距可以被彌合——關鍵在於視覺分詞器的質量和訓練策略的最佳化。與OpenAI的路線相比,差異則更加根本。OpenAI的Sora代表了擴散模型在視訊生成上的巔峰,它的視覺質量和時間一致性令人歎為觀止。但擴散模型有一個內在限制:它本質上是一個生成器,而非理解器。要讓Sora“理解”視訊內容並回答問題,需要額外嫁接一個視覺語言模型——這又回到了模態割裂的老路。Emu3的自回歸範式則天然統一了生成與理解:生成是預測視覺符號,理解是預測文字元號,它們在同一個模型裡用同一種方式完成。Google的Gemini採用了一種更折中的策略:它確實整合了多種模態,但內部架構仍然依賴預訓練的視覺編碼器和複雜的模態融合機制。這種設計的好處是可以快速利用已有的技術積累,但代價是系統的複雜性和潛在的模態偏見。Emu3的從零訓練策略雖然計算成本更高,但帶來的是更純粹的多模態表徵——所有模態的知識都是在同一個最佳化目標下共同習得的。從開放性的角度看,Emu3的優勢更為明顯。論文作者承諾開源關鍵技術和模型,包括視覺分詞器、訓練程式碼和預訓練權重。這與OpenAI對Sora和GPT-4的封閉策略形成鮮明對比。對於中國乃至全球的AI研究社區來說,這意味著一條新的技術路線變得可以復現、可以改進、可以建立在上面。商業化的想像空間技術突破最終需要轉化為社會價值,而Emu3的架構特性為商業化提供了獨特的可能性。首先是部署效率。Emu3的核心是一個標準的Transformer,這意味著它可以直接復用大語言模型已經非常成熟的推理基礎設施——包括vLLM的動態批處理、PagedAttention的記憶體最佳化、各種量化和剪枝技術。論文提到,研究團隊基於FlagScale開發了支援無分類器引導的推理後端,在保持生成質量的同時實現了低延遲和高吞吐。這為大規模服務奠定了基礎。其次是應用的統一性。傳統的多模態服務需要為不同的能力部署不同的模型——一個處理圖像生成,一個處理視覺問答,一個處理視訊理解——這帶來了顯著的維運複雜度和資源浪費。Emu3的單一模型架構意味著一套部署可以支撐多種能力,大大降低了服務的邊際成本。更具想像力的是互動形態的變革。當一個模型同時具備生成和理解能力,而且可以處理圖像、視訊、文字的任意組合時,傳統的“輸入-輸出”界限就變得模糊了。一個使用者可以上傳一段產品演示視訊,要求模型生成配套的圖文說明書;可以描述一個場景,讓模型生成視訊並即時回答關於視訊內容的問題;甚至可以讓模型“想像”一個物理過程的結果,比如“如果我把這杯水倒在鍵盤上會發生什麼”。這些互動在此前需要複雜的多模型協作,現在可能在單一模型內流暢完成。在特定垂直領域,Emu3的潛力同樣值得關注。教育場景中,一個能夠生成演示圖像、解釋概念、回答問題的統一助手,比分離的工具組合更加自然;電商場景中,從產品圖片的生成、變體的建立、到使用者問詢的回答,可以在同一個模型中完成;醫療影像分析中,統一的多模態理解可能幫助醫生更高效地處理報告和圖像。當然,從實驗室原型到商業產品還有很長的路要走。論文也坦誠地討論了現有的侷限:推理速度仍有提升空間,視覺分詞器在壓縮率和保真度之間存在權衡,長視訊的處理能力有待增強。但這些是工程最佳化的問題,而非範式上的死胡同。一個範式的開端回到本文開頭的問題:Emu3的真正意義是什麼?從技術角度看,它證明了“下一詞預測”作為多模態學習統一範式的可行性。這不是一個增量式的改進,而是對主流技術路線的根本性挑戰。如果Emu3的結果可以被進一步擴展——更大的模型、更多的資料、更長的上下文——那麼AI領域可能正站在一次範式轉移的門檻上。從產業角度看,它為中國AI研究樹立了一個新的標竿。在大模型競爭中,中國團隊往往被認為是快速跟進者而非規則制定者。Emu3登上Nature,不僅是學術聲譽的認可,更重要的是它提出了一條不同於OpenAI、Google、Meta的技術路線,並且用實驗證明了這條路線是可行的。這種原創性的貢獻,是建立長期技術影響力的基礎。從更宏觀的視角看,Emu3的成功暗示著一種可能的未來:也許智能的本質就是預測。預測下一個詞,預測下一幀畫面,預測下一個動作——當這些預測任務被統一到同一個框架中,湧現出的可能不僅僅是更強的模型,而是對“理解”和“創造”本身的新詮釋。論文的結尾寫道:“統一的下一符號建模為世界模型提供了一條有希望的道路,這種模型整合了感知、語言和行動。”這不僅是一個技術願景,也是一種哲學立場:智能也許不需要被分解成相互獨立的模組,它可以是連續的、統一的、自然生長的。當然,一篇論文不能回答所有問題。Emu3的上下文窗口還不夠長,處理小時級視訊仍是挑戰;它的推理能力與專用語言模型相比仍有差距;它對真實物理世界的”理解”究竟有多深,還需要更嚴格的測試。但它已經邁出了關鍵的一步:證明了一條更簡潔、更統一的道路是存在的。在AI發展史上,最重要的突破往往不是做出更複雜的系統,而是找到更簡單的原則。從反向傳播到注意力機制,從強化學習到擴散模型,每一次飛躍都源於對複雜性的簡化。Emu3的貢獻,也許正是把多模態智能的複雜性,簡化成了一個樸素的問題:下一個符號是什麼?這個問題的答案,將塑造AI的下一個十年。 (心智觀察所)