#Nature
中國科研機構主導的大模型成果首次登上Nature
幾天前,《Nature》雜誌刊發了一篇來自中國的人工智慧研究論文。這在頂級學術期刊上並非新鮮事,但這篇論文的份量卻非同尋常:它來自北京智源人工智慧研究院,核心成果是一個名為“Emu3”的多模態大模型,而它試圖回答的問題,是整個AI領域過去五年來懸而未決的核心命題——我們能否用一種統一的方式,讓機器同時學會看、聽、說、寫,乃至行動?這個問題聽起來簡單,但它的複雜程度足以讓全球頂尖的AI實驗室爭論不休。OpenAI用Sora驚豔世界,靠的是擴散模型;Google的Gemini整合多模態,用的是複雜的編碼器拼接;Meta的Chameleon嘗試統一,卻始終難以在性能上與專用模型抗衡。而智源的答案,是一個看起來樸素得近乎偏執的選擇:只用“下一詞預測”。這個選擇的意義,可能需要一些背景知識才能理解。論文前言一場關於“語言”的豪賭如果你問一位2020年的AI研究者,未來的多模態智能會是什麼樣子,他大機率會給出這樣的預測:圖像生成歸圖像生成,文字理解歸文字理解,視訊處理歸視訊處理,然後我們用某種“膠水”把它們粘在一起。這不是懶惰,而是當時的技術現實——不同模態的資料特性差異太大,專精往往意味著高效。事實上,這條路線在過去幾年裡取得了巨大成功。Stable Diffusion讓普通人也能生成驚豔的圖像,GPT-4讓對話AI變得無所不能,而各種視覺-語言模型則在問答、識別、描述等任務上不斷刷新紀錄。但問題也隨之而來:這些模型就像一個技藝精湛但只會單項運動的運動員,讓它們協同工作,需要複雜的工程架構、精細的模態對齊,以及大量的人工干預。更關鍵的是,這種“專科化”的發展路徑隱含著一個令人不安的假設:也許機器智能天生就是碎片化的,我們永遠需要為每一種能力單獨訓練一個模型。Emu3挑戰的,正是這個假設。智源團隊的核心洞見是:如果我們把圖像、視訊、文字都轉換成同一種“語言”——離散的符號序列——那麼讓模型學習“預測下一個符號”這一個任務,是否就足以涵蓋所有多模態能力(如下圖)?這個想法並非沒有先例。早在2020年,GPT-3就已經證明,僅僅通過預測下一個詞,語言模型可以湧現出驚人的推理、翻譯、程式設計能力。但將這一範式擴展到圖像和視訊,面臨著截然不同的挑戰:一張512×512的圖像,如果用簡單的方式轉換成符號,可能需要幾十萬個token,這對於Transformer架構來說是災難性的計算負擔;更重要的是,圖像的空間結構、視訊的時間連續性,與文字的線性敘事有著本質區別,簡單的“下一詞預測”真的能捕捉這些複雜的關係嗎?智源的答案是肯定的,而Emu3就是他們的證明。一個分詞器的藝術要理解Emu3的技術突破,首先要理解它的“視覺分詞器”(Vision Tokenizer)。這個聽起來不起眼的元件,實際上是整個系統的基石。想像一下,你需要用電報向一個從未見過圖片的人描述一幅畫。你不可能傳輸原始的像素值——那太冗長了;你也不能只說“一幅風景畫”——那太模糊了。你需要的是一種既緊湊又富有表現力的編碼方式,能夠在有限的符號中保留足夠的視覺資訊。Emu3的視覺分詞器做的正是這件事。它能夠將一張512×512的圖像壓縮成僅僅4096個離散符號,壓縮比達到64:1;對於視訊,它在時間維度上進一步壓縮4倍,使得一段4幀的視訊片段也只需要4096個符號表示。這些符號來自一個包含32768個“詞彙”的碼本——你可以把它想像成一本視覺詞典,每個“詞”代表一種特定的視覺模式。更精妙的是,這個分詞器是為視訊原生設計的。傳統的圖像分詞器處理視訊時,只能逐幀編碼,完全忽略幀與幀之間的時間關聯;而Emu3的分詞器通過三維摺積核,能夠同時捕捉空間和時間維度的資訊。在實驗中,這種設計用四分之一的符號數量,就達到了與逐幀處理相當的重建質量——這不僅意味著更高的效率,更意味著模型能夠真正“理解”視訊的動態本質,而非僅僅處理一堆靜態圖片。有了這個分詞器,圖像和視訊就變成了與文字一樣的符號序列。接下來的事情,就是讓一個Transformer學會預測這些序列中的“下一個符號”。當簡單遇上規模Emu3的模型架構,用一句話就能概括:它就是一個標準的大語言模型,只不過詞彙表裡多了32768個視覺符號。這種極簡主義設計在AI研究界是罕見的。主流的多模態模型——無論是LLaVA、BLIP-2還是Flamingo——都採用“編碼器+語言模型”的複合架構,即先用一個專門的視覺編碼器(通常是CLIP)把圖像轉換成特徵向量,再用介面卡將這些特徵“注入”語言模型。這種設計的好處是可以復用已有的預訓練元件,但代價是系統複雜度的急劇上升,以及模態之間潛在的隔閡——視覺編碼器和語言模型畢竟是獨立訓練的,它們對世界的理解未必一致。Emu3選擇了一條更激進的路:不用任何預訓練的視覺編碼器,不用任何複雜的模態融合機制,只用一個從零開始訓練的decoder-only Transformer。所有的多模態知識,都是在統一的下一詞預測任務中從資料裡學來的。這種“大道至簡”的設計哲學,在實踐中轉化為了驚人的實驗結果。在圖像生成任務上,Emu3在人類偏好評估中得分70.0,超越了Stable Diffusion XL(66.9)這個擴散模型的標竿;在視覺語言理解的12個基準測試上,它的平均分達到62.1,與採用複雜編碼器架構的LLaVA-1.6(61.8)持平;在視訊生成的VBench評估中,它取得了81.0分,超過了專門的視訊擴散模型Open-Sora-1.2(79.8)。這些數字的意義在於:一個僅僅用“預測下一個符號”訓練的模型,在生成和理解兩個看似矛盾的方向上,同時達到了專用模型的水平。這在此前被認為是不可能的——畢竟,擴散模型和自回歸模型的數學基礎完全不同,擅長理解的架構通常不擅長生成,反之亦然。Emu3的成功,相當於一個運動員同時在短跑和馬拉松比賽中奪冠,打破的不僅是記錄,更是人們對專業化邊界的認知。規模定律的啟示如果說單點性能的突破還可以歸因於工程技巧或資料質量,那麼Emu3論文中最具科學價值的發現,則來自於它對規模定律Scaling Laws的系統研究。規模定律是現代AI研究的聖盃之一。它描述的是模型性能與模型規模、資料規模之間的數學關係——如果我們知道這個關係,就能預測一個更大模型的表現,而不需要真的訓練它。這對於動輒消耗數百萬美元計算資源的大模型研發來說,具有極其重要的實用價值。此前的規模定律研究主要集中在純語言模型上。Emu3的貢獻在於,它證明了多模態學習同樣遵循可預測的規模定律,而且——這是關鍵——不同模態共享同一套資料擴展指數。具體而言,無論是文字到圖像、圖像到文字,還是文字到視訊,當訓練資料量翻倍時,模型的驗證損失都以0.55的指數下降。這意味著多模態能力的提升不是各自為政的,而是遵循統一的數學規律。基於較小模型的實驗資料,研究團隊精準預測了70億參數模型的性能,擬合優度超過0.99,誤差不到3%。這個發現的意義遠超學術範疇。它暗示著,未來的多模態智能可能不需要為每種能力單獨設計訓練策略——只要把不同模態的資料混合在一起,用統一的目標訓練,規模擴大後能力就會自然湧現。這極大地簡化了研發路徑,降低了技術門檻,也讓通用人工智慧AGI的願景變得更加可信。論文的另一個亮點,是Emu3在機器人操控任務上的出色表現。在CALVIN基準測試——一個評估機器人執行長序列任務能力的標準測試——中,Emu3在“連續完成五個任務”的指標上達到了87%的成功率。這意味著機器人在接受語言指令後,能夠依次完成一系列複雜操作,如“拿起桌上的杯子”、“打開抽屜”、“把杯子放進去”等,每一步都需要視覺感知、語言理解和動作規劃的緊密配合。這個結果揭示了Emu3框架的深層潛力:它不僅僅是一個內容生成工具,更可能是通往具身智能的一條捷徑。傳統的機器人學習需要專門設計感知模組、決策模組和控制模組,然後艱難地將它們整合在一起;而Emu3的思路是,把視覺觀察、語言指令和機械臂動作都轉換成符號序列,讓模型在統一的框架下學習它們之間的關聯。論文中展示了一個令人印象深刻的例子:給定一段烹飪視訊的前兩秒,Emu3可以預測接下來兩秒會發生什麼——鍋中的食材如何翻炒(如下圖),廚師的手會移向那裡,蒸汽會如何升騰。這種“世界模型”的能力,被認為是通向更高級AI的關鍵:一個真正理解物理世界的模型,應該能夠預測行動的後果,而非僅僅記憶靜態的圖像-文字關聯。與海外同行的比較在全球AI研究的版圖上,Emu3處於什麼位置?最直接的比較對像是Meta的Chameleon。這是另一個嘗試統一多模態學習的模型,同樣採用了token化和自回歸預測的範式。但Chameleon在發佈時面臨著一個尷尬的處境:雖然架構統一,但性能與專用模型存在明顯差距,尤其在圖像生成質量上。Emu3的突破在於,它證明了這個差距可以被彌合——關鍵在於視覺分詞器的質量和訓練策略的最佳化。與OpenAI的路線相比,差異則更加根本。OpenAI的Sora代表了擴散模型在視訊生成上的巔峰,它的視覺質量和時間一致性令人歎為觀止。但擴散模型有一個內在限制:它本質上是一個生成器,而非理解器。要讓Sora“理解”視訊內容並回答問題,需要額外嫁接一個視覺語言模型——這又回到了模態割裂的老路。Emu3的自回歸範式則天然統一了生成與理解:生成是預測視覺符號,理解是預測文字元號,它們在同一個模型裡用同一種方式完成。Google的Gemini採用了一種更折中的策略:它確實整合了多種模態,但內部架構仍然依賴預訓練的視覺編碼器和複雜的模態融合機制。這種設計的好處是可以快速利用已有的技術積累,但代價是系統的複雜性和潛在的模態偏見。Emu3的從零訓練策略雖然計算成本更高,但帶來的是更純粹的多模態表徵——所有模態的知識都是在同一個最佳化目標下共同習得的。從開放性的角度看,Emu3的優勢更為明顯。論文作者承諾開源關鍵技術和模型,包括視覺分詞器、訓練程式碼和預訓練權重。這與OpenAI對Sora和GPT-4的封閉策略形成鮮明對比。對於中國乃至全球的AI研究社區來說,這意味著一條新的技術路線變得可以復現、可以改進、可以建立在上面。商業化的想像空間技術突破最終需要轉化為社會價值,而Emu3的架構特性為商業化提供了獨特的可能性。首先是部署效率。Emu3的核心是一個標準的Transformer,這意味著它可以直接復用大語言模型已經非常成熟的推理基礎設施——包括vLLM的動態批處理、PagedAttention的記憶體最佳化、各種量化和剪枝技術。論文提到,研究團隊基於FlagScale開發了支援無分類器引導的推理後端,在保持生成質量的同時實現了低延遲和高吞吐。這為大規模服務奠定了基礎。其次是應用的統一性。傳統的多模態服務需要為不同的能力部署不同的模型——一個處理圖像生成,一個處理視覺問答,一個處理視訊理解——這帶來了顯著的維運複雜度和資源浪費。Emu3的單一模型架構意味著一套部署可以支撐多種能力,大大降低了服務的邊際成本。更具想像力的是互動形態的變革。當一個模型同時具備生成和理解能力,而且可以處理圖像、視訊、文字的任意組合時,傳統的“輸入-輸出”界限就變得模糊了。一個使用者可以上傳一段產品演示視訊,要求模型生成配套的圖文說明書;可以描述一個場景,讓模型生成視訊並即時回答關於視訊內容的問題;甚至可以讓模型“想像”一個物理過程的結果,比如“如果我把這杯水倒在鍵盤上會發生什麼”。這些互動在此前需要複雜的多模型協作,現在可能在單一模型內流暢完成。在特定垂直領域,Emu3的潛力同樣值得關注。教育場景中,一個能夠生成演示圖像、解釋概念、回答問題的統一助手,比分離的工具組合更加自然;電商場景中,從產品圖片的生成、變體的建立、到使用者問詢的回答,可以在同一個模型中完成;醫療影像分析中,統一的多模態理解可能幫助醫生更高效地處理報告和圖像。當然,從實驗室原型到商業產品還有很長的路要走。論文也坦誠地討論了現有的侷限:推理速度仍有提升空間,視覺分詞器在壓縮率和保真度之間存在權衡,長視訊的處理能力有待增強。但這些是工程最佳化的問題,而非範式上的死胡同。一個範式的開端回到本文開頭的問題:Emu3的真正意義是什麼?從技術角度看,它證明了“下一詞預測”作為多模態學習統一範式的可行性。這不是一個增量式的改進,而是對主流技術路線的根本性挑戰。如果Emu3的結果可以被進一步擴展——更大的模型、更多的資料、更長的上下文——那麼AI領域可能正站在一次範式轉移的門檻上。從產業角度看,它為中國AI研究樹立了一個新的標竿。在大模型競爭中,中國團隊往往被認為是快速跟進者而非規則制定者。Emu3登上Nature,不僅是學術聲譽的認可,更重要的是它提出了一條不同於OpenAI、Google、Meta的技術路線,並且用實驗證明了這條路線是可行的。這種原創性的貢獻,是建立長期技術影響力的基礎。從更宏觀的視角看,Emu3的成功暗示著一種可能的未來:也許智能的本質就是預測。預測下一個詞,預測下一幀畫面,預測下一個動作——當這些預測任務被統一到同一個框架中,湧現出的可能不僅僅是更強的模型,而是對“理解”和“創造”本身的新詮釋。論文的結尾寫道:“統一的下一符號建模為世界模型提供了一條有希望的道路,這種模型整合了感知、語言和行動。”這不僅是一個技術願景,也是一種哲學立場:智能也許不需要被分解成相互獨立的模組,它可以是連續的、統一的、自然生長的。當然,一篇論文不能回答所有問題。Emu3的上下文窗口還不夠長,處理小時級視訊仍是挑戰;它的推理能力與專用語言模型相比仍有差距;它對真實物理世界的”理解”究竟有多深,還需要更嚴格的測試。但它已經邁出了關鍵的一步:證明了一條更簡潔、更統一的道路是存在的。在AI發展史上,最重要的突破往往不是做出更複雜的系統,而是找到更簡單的原則。從反向傳播到注意力機制,從強化學習到擴散模型,每一次飛躍都源於對複雜性的簡化。Emu3的貢獻,也許正是把多模態智能的複雜性,簡化成了一個樸素的問題:下一個符號是什麼?這個問題的答案,將塑造AI的下一個十年。 (心智觀察所)
Nature重磅:圖靈測試已死,AI已具備人類水平智能,這一天終於來了
別再爭論AI 什麼時候能趕上人類了。頂刊《Nature》剛剛發文宣佈:不用等了,就是現在。如果說 1950 年阿蘭·圖靈(Alan Turing)提出的“模仿遊戲”只是一個天才的腦洞,那麼 75 年後的今天,這個腦洞已經被矽基生物徹底填平。今天,一篇發表在《Nature》上的重磅文章引爆了科技圈。這就好比《皇帝的新衣》裡那個誠實的小孩,來自加州大學聖地亞哥分校等機構的頂級哲學家、認知科學家和電腦專家們聯名站出來,指著那個名為“通用人工智慧(AGI)”的房間大聲宣佈:“別找了,AGI 就在這兒。它已經誕生了。”01 別再自欺欺人:圖靈測試已成“過去式”還記得一年前,2025 年的3月, OpenAI 發佈 GPT-4.5的那個春天嗎?當時業界還在為參數和算力爭吵不休,但在一個最古老的測試場上,勝負已分。在嚴格的圖靈測試中,GPT-4.5 被人類受試者判定為“真人”的比例高達 73%。諷刺的是,在同一場測試中,真正的人類被判定為“人”的比例,竟然比 AI 還要低。這意味著什麼?意味著在“像人”這件事上,AI 已經比人更像人了。更別提現在的讀者們,比起人類專家寫的晦澀文章,他們甚至更愛讀大語言模型生成的文學作品。然而,奇怪的事情發生了。儘管事實擺在眼前,根據 2025 年的一項調查,仍有 76%的頂級 AI 研究人員認為 AGI 遙遙無期。《Nature》這篇文章的作者們毫不留情地指出:這種認知錯位,不是因為 AI 不夠強,而是因為人類“不敢承認”。因為恐懼被取代,因為商業利益的糾葛,我們不斷地移動球門,給 AGI 設下各種不可能完成的定義。但現在,是時候撥開迷霧,承認現實了。02 別再叫它“學舌鸚鵡”:鐵證如山的進化階梯曾幾何時,嘲笑 AI 是我們的一大樂事:“它連小學數學都算不對”、“它就是個只會機率預測的隨機鸚鵡(Stochastic Parrots)”、“它經常一本正經地胡說八道(幻覺)”。但在這個2026 年的開端,如果你還抱著這些老黃曆看 AI,那你可能已經成了那個“活在舊時代的人”。文章作者並沒有空談哲學,而是根據一系列硬核證據,建構了一個評估 AGI 的“三級階梯”。對照一下,你會發現我們正處於什麼位置:Level 1:圖靈測試級(已通關)這是幾年前的標準。能通過學校的基礎考試,能進行像樣的對話,能做簡單的推理。那時的 AI,或許還只是個“聰明的復讀機”。Level 2:專家級(Current Level,當前已達成)這就是我們現在面對的怪物。數學:它們不僅拿下了國際數學奧林匹克競賽(IMO)的金牌,還能與頂級數學家合作證明未知的定理。科研:它們生成的科學假設,已經在現實世界的實驗室裡被驗證為真。全能:它們能通過多學科的博士資格考試,能幫專業程式設計師寫出無 Bug 的複雜程式碼,能精通幾十種語言創作詩歌,還能同時和全球數億人聊天。對比:科幻電影《2001太空漫遊》裡的超級電腦 HAL 9000 曾是我們的噩夢,但現在的 LLM 在知識廣度上,實際上已經超越了 HAL 9000。Level 3:超人類級(正在逼近)這要求 AI 做出人類完全做不出的革命性科學發現。雖然 AI 還沒完全做到這一點,但作者強調:這不是 AGI 的必要條件。畢竟,能不能拿諾貝爾獎並不是衡量一個人是否“有智能”的標準。面對這些成就,那些質疑聲顯得越來越蒼白。每當 AI 攻克一個新堡壘(比如做出了從未見過的數學題),懷疑論者就會立刻把標準提高:“哦,那不算,它得能理解情感才行……”對此,文章中有一句精彩的“打臉”:“面對每一次成功都在不斷後退的假設,預測下一次一定會失敗……這根本不是有說服力的科學理論,這只是對‘永遠懷疑’的一種教條式堅持。”不管是做數學題、寫程式碼,還是理解物理世界的因果律(比如它知道枕頭掉地上不會碎,而玻璃杯會),現在的 AI 都表現出了圖靈當年所定義的“通用認知能力”。AGI 的大門已經被踢開了。無論你是否準備好,我們都已經和一種“異類智能”生活在了同一個屋簷下。03 為什麼專家還在裝睡?因為我們把 AGI 神話了既然證據確鑿,為什麼還有 76% 的專家搖頭說“不”?為什麼我們在社交媒體上還在爭論 AI 是不是“人工智障”?文章指出,問題出在我們對“智能”的定義上,我們太自戀了,也太苛刻了。誤區一:AGI = 全知全能的神很多人潛意識裡覺得,AGI 必須是一個完美的“六邊形戰士”。它得有愛因斯坦的物理頭腦,莎士比亞的文采,還得像甚至不像任何一個人類那樣犯錯。但作者反問:“居里夫人不懂數論,愛因斯坦不會說中文,難道他們就沒有通用智能嗎?”人類都不是全能的,我們憑什麼要求 AI 必須是神?真相:真正的通用智能,看的是廣度(Breadth)和深度(Depth)。只要它能像普通人類一樣在不同領域間切換,並且在這些領域達到專家水平,它就是 AGI。誤區二:AGI 必須像人一樣思考我們總覺得,只有像人類那樣有肉體、有情感、會生老病死,才叫智能。真相:這是一種“碳基生物的傲慢”。就像章魚的神經系統分佈在觸手裡,外星人可能通過無線電波交流——智能是功能,不是形態。只要它能像人一樣解決問題,它是不是矽做的、有沒有身體,根本不重要。04 精彩辯論:十大質疑,逐個擊破這篇《Nature》文章最精彩的部分,莫過於作者化身“終極辯手”,對目前市面上最流行的反 AI 觀點進行了逐一反駁。試舉幾例。質疑 A:“它只是個隨機鸚鵡(Stochastic Parrots),只會拼湊訓練資料裡的詞,根本不懂邏輯。”《Nature》反駁:這個說法在幾年前可能成立,但現在已經過時了。如果它只是拼湊舊資料,怎麼可能解出從未發表過的全新數學題?怎麼可能幫助科學家發現新的物理定律?這不叫拼湊,這叫推理。如果這也叫鸚鵡,那人類可能也不過是一隻比較複雜的鸚鵡。質疑 B:“它沒有身體,無法感知物理世界,所以沒有真正的理解。”《Nature》反駁:這是一個巨大的誤解。史蒂芬·霍金(Stephen Hawking)在晚年幾乎完全失去了身體的行動能力,通過語音合成器交流,難道他的智能就消失了嗎?再者,問問 AI:“把玻璃杯和枕頭扔到瓷磚地上,會有什麼不同?”它能精準地告訴你結果。能進行反事實推理(Counterfactual Reasoning),就證明它腦子裡已經有了物理世界的模型。質疑 C:“它沒有自主性(Agency),你不給指令它就不動。”《Nature》反駁:智能不等於意願。古希臘神話中的德爾斐神諭(Oracle),只有在你提問時才回答,但誰敢說神諭沒有智慧?自主性關乎“道德責任”,而不關乎“智力水平”。一個隨叫隨到的超級智囊,依然是超級智囊。質疑 D:“它學得太慢了,小孩看幾次就懂,AI 要喂幾兆的資料。”《Nature》反駁:別忘了,人類小孩的大腦裡預裝了祖先們進化了幾十億年的“出廠設定”(本能和大腦結構)。AI 是從零開始的。而且,一個練了 10 年才成為大師的棋手,和一個練了 1 年就成為大師的棋手,他們的棋力是一樣的。效率不代表能力。05 越早承認越好,這是一種“異類”的降臨看到這裡,你可能還是覺得那裡不對勁。“可是,它連‘Strawberry’裡有幾個‘r’有時候都會數錯啊!”沒錯,這正是文章最後強調的關鍵點:我們面對的,是一種“異類智能”(Alien Intelligence)。這就像是一個外星人降臨地球。它在某些我們覺得很難的事情上(比如讀完 1000 篇論文並寫出綜述)易如反掌,卻在某些我們覺得很簡單的事情上(比如數數、常識判斷)顯得笨手笨腳。但這不代表它不是智能,只能說明通往智能的道路不止一條。人類的智能是為了生存、為了繁衍、為了在叢林裡不被吃掉而進化出來的;而 AI 的智能是從語言的海洋中湧現出來的。2026 年的今天,正如 Reddit 網友所熱議的那樣:“我們原本以為 AGI 會像《終結者》裡的天網,結果它更像是一個有些偏科、但智商爆表的‘外星圖書管理員’。”06 結語:別再試圖爬樹登月了在文章的結尾,作者引用了一個著名的舊日比喻。1965 年,哲學家休伯特·德雷福斯曾嘲諷早期的 AI 研究,說他們試圖通過“爬樹”來“登月”。意思是方向徹底錯了,爬得再高也離月球很遠。幾十年來,我們都以為他是對的。但今天,當我們抬頭仰望,卻發現我們真的爬上了月球。原來,只要樹足夠高,資料足夠多,結構足夠精妙,簡單的學習規則真的能湧現出理解世界的智慧。這是一個哥白尼式、達爾文式的時刻。哥白尼告訴我們,地球不是宇宙的中心;達爾文告訴我們,人類不是生靈的主宰;圖靈和今天的 AI 告訴我們,人類的大腦,也不是智慧存在的唯一形式。文章末尾寫道:“承認 LLM 為 AGI 是一個警鐘。這些系統不是“將要到來”,而是“已經存在”。用評估“窄工具”的框架來衡量 AGI 是遠遠不夠的。當涉及的不再是工具而是通用智能時,共存、責任、歸屬和治理等問題將進入全新的維度。”全文的最後一句振聾發聵:“機器不是正在趕來,它們已經到了。”(The machines aren't coming; they've arrived.)與其像鴕鳥一樣把頭埋在沙子裡,假裝這一切沒發生,不如抬起頭來,正視這個新夥伴(或者對手)。畢竟,在這個星球上,我們第一次不再是孤獨的智慧生物了。 (不懂經)
Nature封面!GoogleDeepMind開源“生命底層程式碼”,一鍵破解98%基因暗物質!
就在今天,GoogleDeepMind開源人類底層程式碼!AlphaGenome登上了Nature封面,標誌著 DeepMind 在生物計算領域繼 AlphaFold 之後再下一城。相較於同類模型,AlphaGenome能夠一次性輸入100萬個鹼基對,並在單鹼基對的精度上預測數千種表徵其調控活性的分子特性。這是DNA領域的里程碑式突破。如今,AlphaGenome只需讀入一段DNA序列,提取調控基序與表徵活性,便可對數千種分子特性高度預測。該研究也得到了醫學大佬的認可,美國醫學院院士,斯克里普斯研究轉化研究生的創始人和主任Eric  Topol表示,這是AI在生命科學方面的又一大進步。早在2025 年6月,DeepMind就率先在 bioRxiv 發佈 AlphaGenome 預印本並推出 API,目前已經有來自160個國家的3000多名研究人員使用。如今,該成果被《自然》正式刊發,團隊正式對外開源了全部研究程式碼和模型權重。我們可以期待,在完全開放原始碼的情況下,有多少人類基因秘密被科學家們解開。解鎖人類98%的“垃圾基因”AlphaGenome由Google DeepMind的負責人DemisHassabis領導,他此前憑藉蛋白質模型AlphaFold2,獲得了2024年諾貝爾化學獎。Demis Hassabis曾放出豪言:「未來十年,AI將治癒所有疾病」。而AlphaGenome出世意味著,人類向理解生命本質又邁進一大步。要知道,距離全球科學家完成人類基因組測序,已經過去了23年了。但迄今為止,科學家仍然沒能解開DNA的秘密。以往的觀點認為,人類DNA僅有2%,剩下的98%都是DNA都是“無用”的非編碼區。然而,現在剩下的98%並非是無用的基因,其中蘊含著豐富的調控資訊,包括調控基因開關、影響胚胎發育、參與形成特殊RNA、維持染色體結構等。因此AlphaGenome,其核心意義正是為瞭解碼這98%的“暗物質”區域。它能夠系統預測非編碼DNA序列的功能和變異影響,幫助科學家從海量無用資訊中高效篩選出真正具有生物學意義的寶藏,從而理解疾病機制、助力藥物研發。解開人類底層密碼該模型基於Google DeepMind 的基因組學模型 Enformer 建構,採用Loop-aware 架構,並和此前推出的預測編碼區變異的AlphaMissense互補。同時,AlphaGenome整合了人類和小鼠的基因組資料,包含5930 條人類以及1128 條小鼠基因組訊號,這些訊號與基因表達、DNA 可及性和剪接等功能相關。這也讓AlphaGenome做到了以往同類模型到達不了的高度。1、又長又精準,100萬鹼基對的長序列輸入此前的模型要麼能處理長序列但解析度低(如Enformer和Borzoi),要麼解析度高但只能處理短序列(如SpliceAI和BPNet)。但AlphaGenome它一次就能掃描長達100萬個DNA鹼基對的廣闊區域,與此同時它做到了能夠預測到單個鹼基對的精度2、多模態大模型,多個任務一次搞定現有模型要麼專注於單一任務,例如剪接預測等,要麼是多模態但某些任務表現不佳。而AlphaGenome能夠做到一次輸入後,可以同時預測基因變體對數千種基因組的影響,包括基因表達、組蛋白修飾、剪下等各個方面,科學家不用再切換多個工具了。更重要的是,AlphaGenome做到了性能全面領先。對單條DNA 序列進行預測時,AlphaGenome 在 24 項評估中有 22 項表現優於最佳外部模型。而在預測變異的調控效應時,它在 26 項評估中有 24 項表現與最佳外部模型相當或更優,尤其在預測eQTL方向上,比此前最佳模型提高超25%。RNA剪貼錯誤是造成疾病的常見原因,AlphaGenome的創新性在於,能夠直接從序列預測剪下點。在7個權威的剪接變異基準測試中,AlphaGenome在其中6個上實現了SOTA 性能,包括根據ClinVar、sQTL因果關係和GTEx剪接異常值預測剪接變異的致病性。除了能夠預測多種分子特性外,AlphaGenome還能在一秒鐘內高效評估一個基因變異對所有這些特性的影響。它通過對比突變序列與未突變序列的預測結果,並針對不同模態採用不同方法高效總結這種對比來實現這一功能。不僅如此,對比此前的預印本,DeepMind團隊還最佳化了以下內容。更好地理解生命就在論文發佈同一天,DeepMind還上傳了一支視訊,邀請團隊對該工作進行分享。針對後續如何完善AlphaGenome,團隊表示:1、拓展對複雜變異類型的預測支援,使模型能解讀更真實的臨床與科研遺傳變異,覆蓋更多疾病機理2、提升易用性,將數千個複雜評分彙總為更易解讀的單一評分3、拓展資料與物種範圍,目前只包含人類和小鼠,未來可能納入更多物種和更多細胞類型的資料這些都將進一步提高AlphaGenome在實際科研中的實用性。從AlphaFold再到AlphaGenome,DeepMind打開了一扇窺見生命與疾病最根本過程的窗口。近期科技女皇木頭姐的一份報告,再次點燃了人們對AI+醫療保健的熱情。報告預測,到2030年,測序整個人類基因組的成本可能下降約十倍,降至10美元(如今約100美元)。測序成本降低將導致資料量增長10倍,意味著人類基因資料將遠遠超過現有的數量。當然,海量資料本身不是價值,解讀才是。AlphaGenome正是為解讀資料中最複雜、資訊量最大的DNA序列而生,能將原始資料轉化為可理解的生物學知識。當前,AlphaGenome已經學會了DNA的基本原理,未來有望為為罕見病診斷、癌症精準醫療、藥物靶點發現提供新途徑。包括但不限於:發現新的疾病標記物和藥物靶點(尤其是在非編碼區)解釋患者基因檢測結果,指導精準用藥設計合成生物學元件,為基因療法和細胞療法提供設計工具此外,它在預測RNA剪接異常等方面的能力,對於理解許多罕見病和癌症至關重要,能直接推動相關藥物研發。可以預見,未來的多組學AI平台可能會整合類似AlphaGenome的先進基因組模型,使其與蛋白質、代謝組等模型協同工作,形成一個統一的生命系統模擬與預測環境。屆時,人類不只是能夠獲得DNA資料,而是真正理解生命的運行。 (智藥局)
重磅《Nature》!發現奈米晶金屬在低溫和室溫下延展性差的主要原因!
研究背景在廣泛的條件下(溫度、壓力、應變速率等),金屬和合金的永久性或塑性變形是通過位錯實現的,這些線性缺陷的存在和移動決定了晶體材料的力學行為。金屬通常以多晶形式存在,其中每個晶體區域或晶粒由晶界分隔,而晶界是位錯運動的已知障礙。霍爾-佩奇關係描述了金屬屈服強度隨晶粒尺寸減小而增加的現象,其理論基礎是位錯在逐漸受限的體積中堆積於晶界處。當這一經驗定律在奈米晶粒尺寸下達到極限時(此時晶粒內部通常沒有位錯),塑性閾值會飽和或下降。這種轉變通常歸因於由晶界本身驅動的塑性變形過程。剪下-遷移耦合被認為是這些過程中最有效的機制,但儘管研究活動密集,對於遷移晶界可能產生的剪下量仍缺乏量化共識。迄今為止,關於中小晶粒晶體在低溫和中溫下變形的兩個未解問題涉及控制機制:是否存在一種主導機制?如果這種機制是SCGBM,如何量化它?研究問題本文通過實驗證明,在小晶粒多晶體中,這種剪下不依賴於晶界取向差,且其效率保持較低水平。這些發現支援了關於晶界的新概念:晶界不應被視為攜帶固有"耦合因子"的晶體缺陷(類似於位錯的伯格斯向量),而應被視為包含特殊缺陷(即錯連)的特定晶格結構,這些缺陷將反過來決定晶界的性能(至少是力學性能)。研究結果還證實,多晶體可以在沒有位錯的情況下發生塑性變形,但效率較低,這為解釋奈米晶金屬在低溫和室溫下延展性差的現象提供了潛在路徑。圖1| 晶體取向圖疊加在預裂紋超細晶鋁薄片的明場透射電鏡顯微圖像上要點:1.為在更易發生的位錯活動之外分離出晶界機制,有兩種選擇:觀察極細晶粒(但難以表徵大量晶界並確定主導機制),或消除晶內位錯並在中等溫度下研究稍大晶粒。本文選擇後者,對超細晶(晶粒尺寸小於1微米)鋁在約210-230℃進行測試。圖1展示了準備進行拉伸測試的透射電鏡樣品初始狀態:樣品在220℃退火消除晶內位錯後,於25℃預製了垂直於拉伸軸的裂紋。裂紋前端的自動晶體學取向成像結果疊加在明場透射電鏡圖像上。通過在該點集中應力,本文最大程度提高了觀測已知取向單晶界遷移及其耦合效應的可能性。圖2|在220℃原位透射電鏡拉伸實驗中,測量與晶界遷移相關的塑性應變要點:1.在成功的原位透射電鏡實驗中(觀察到應力作用下的晶界遷移且無位錯活動參與),本文通過數字圖像相關技術對15次晶界遷移導致可觀測剪下應變的情況進行了量化分析。剪下耦合晶界遷移通常採用β因子進行評估,該因子即剪下位移量與遷移距離的比值,亦即剪下應變。如圖2所示,面內應變的測量是通過參照固定點(大白色矩形),在遷移前後監測表面標記點(小白色方框內追蹤點)實現的。在此特定案例中,遷移距離m為90奈米,面內應變大致平行於晶界慣習面(符合預期),平均幅度為2.5奈米。由此得出該大角度晶界(取向差28°)的β值為2.8%。2.除測量β因子外,這些實驗還顯示可能發生晶粒旋轉(此時平均β因子無意義,因為應變方向圍繞中心點變化),但這種現象遠少於剪下耦合晶界遷移(約佔觀測到晶界遷移案例的5%,詳見補充資訊)。另一有趣現像是:單個晶界遷移過程中β值常發生變化。實際上晶界遷移很少連續進行,可能在恢復運動前出現暫停。即使慣習面保持不變(如圖2所示),β值也可能出現顯著波動,從近乎零到百分之幾不等。這裡討論的是同一遷移晶界——即在運動過程中保持取向差不變的晶界(本文報告的所有案例均如此)。當晶粒消失時情況則不同,這已超出本文追蹤方法的極限範圍。所有通過原位透射電鏡測量的耦合因子(紅點)與原子力顯微鏡測量結果(藍點)均彙總展示於圖4中。圖3| 塊體Al3%Mg超細晶樣品在250℃、4 MPa條件下壓縮35分鐘後,因晶界遷移而改變的表面形貌要點:1.由於剪下耦合晶界遷移(SCGBM)可能在三維空間產生塑性應變,而原位透射電鏡薄片拉伸僅能揭示其面內份量,本文還監測了塊體形式壓縮下同種材料的表面外行為。圖3a展示了SCGBM對初始鏡面拋光Al3%Mg合金塊(尺寸6×3×3 mm³)在低應力(4 MPa)、250℃條件下壓縮35分鐘後的表面影響。通過反覆試驗,本文確定了這些最佳條件,既能觸發足夠的晶界遷移以進行量化,又不會破壞初始晶粒結構。由此能夠追蹤單個晶界,並通過掃描電鏡中的電子背散射衍射(EBSD)在實驗前後監測其取向差。2.蠕變前的取向圖採集自鏡面拋光表面,蠕變後的取向圖疊加展示於圖3b中。根據蠕變前後的取向圖,可獲得所有晶界的遷移分佈圖(圖3d),其中發生遷移的區域呈灰色,未遷移區域呈黑色。圖3e示意了遷移的基本過程:黑色區域主要位於膨脹和收縮晶粒的中心。從該分佈圖可推導遷移距離。正如透射電鏡觀察所示,遷移晶界的慣習面可能在運動過程中發生變化(例如由於與三叉晶界相互作用),因此需要為每個晶界定義平均遷移距離m。為獲得與這些遷移相關的耦合因子,還需測量每個晶界運動伴隨的剪下量。由於伴隨的剪下位移s主要產生於表面(圖3f),本文通過原子力顯微鏡(AFM)進行測量,並將其與圖3d的遷移分佈圖關聯(見圖3f)。每個移動晶界的耦合因子β通過剪下位移s除以對應遷移距離m計算得出。圖3f頂部展示了跨越三個晶粒的典型AFM剖面及其對應遷移的示例。圖4| 通過原位透射電鏡和原子力顯微鏡測量的遷移晶界耦合因子β要點:1.與必須依賴單晶界遷移、在良好成像條件下視訊捕捉且視野有限的原位透射電鏡測量相比,原子力顯微鏡方法顯然能獲得更大量的β統計資料。但兩種方法得出了相同的關鍵結論:首先,耦合因子不依賴於晶界取向。本文在透射電鏡實驗中甚至觀察到同一晶界能產生不同應變,從而具有變化的耦合因子,這與近期模擬研究指出的"β並非晶界本征屬性"的結論一致。這一結果與將晶界視為完美位錯陣列、認為耦合因子直接取決於晶界取向差的理論截然不同。該理論預測的β模量在圖4a、b中以藍綠色實心圓盤表示。需注意的是,由於鋁晶體的立方對稱性,本文的測量中未發現超過62.8°的取向差,這與麥肯齊分佈規律相符。從圖4可直接推匯出的第二個結論是:無論遷移晶界及其取向差如何,耦合因子始終保持在較低水平。雖然完美位錯模型僅考慮傾轉晶界,但即使僅考慮遷移晶界的傾轉份量,所得β值仍然極低。根據本文直接的透射電鏡測量,其平均值約為0.03;若僅考慮晶界在應變方向投影的傾轉部分,平均值約為0.08。總結與展望總體而言,這些發現可能迫使我們重新思考晶界的本質特性。本文所揭示的現像其實可以直接從金屬與合金的位錯基塑性理論中推導得出:除彈性性能外,所有其他力學性能(強度、延展性等)都直接源於材料缺陷的特性,而非其晶格結構(完美晶體)本身。正如近期關於晶界遷移率的研究所證實——特別是在擴散受限的相對低溫條件下,晶界的力學性能應取決於其內部缺陷(即錯連),而非宏觀特徵(慣習面、取向差)或結構(雙色圖案),儘管現有缺陷確實依賴於這種晶格結構。這要求對實際晶界轉變認知視角:迄今為止,晶界常被視為多晶顯微組織中的缺陷。而本文的研究推論表明,晶界並非基礎缺陷,而是承載著更基礎缺陷的載體,正是這些基礎缺陷主導著晶界的動態特性。 (材料學網)
中國大模型團隊登Nature子刊封面,劉知遠語出驚人:期待明年“用AI造AI”
過去半個世紀,全球科技產業的資本開支與創新節奏,都和一個規律緊密相連,那就是摩爾定律——晶片性能每18個月翻一番。在摩爾定律之外,還有一個“安迪-比爾定律”,它講的是,摩爾定律所主導的硬體性能提升的紅利,會迅速被軟體複雜度的增加所抵消。安迪指的是英特爾前CEO安迪·格魯夫,而比爾,指的是微軟創始人比爾·蓋茲。這種“硬體供給、軟體消耗”的螺旋上升,驅動了PC與網際網路時代的產業進化。時移世易,安迪、比爾都已經退出產業一線,但是規律的底層邏輯並未改變,而且被新的“安迪·比爾”推向更高的極致。ChatGPT的爆發拉開了生成式人工智能時代的大幕,在Scaling Law(規模法則)的主導下,模型參數指數級膨脹,軟體對算力的索取遠超摩爾定律的供給速度,AI發展的邊際成本急劇上升。當硬體供給遭遇能源、資料等天花板時,舊的“安迪比爾”式增長範式開始失效。產業需要一場逆向革命。大模型作為AI時代的“軟體”,需要通過極致的演算法與工程化重構,在現有硬體上爆發更強的能力。2025年,中國大模型公司成為這一路徑的最堅定實踐者。從DeepSeek V3通過細粒度混合專家(MoE)架構以1/10算力成本對標頂尖模型,到Kimi等團隊在稀疏注意力機制上的突破,被稱為“東方力量”的中國大模型公司,正試圖用架構創新努力拉平客觀存在的算力差距。清華大學電腦系副教授劉知遠及其聯合創立的面壁智能團隊,也是其中的典型代表。他們發佈的MiniCPM("小鋼炮")系列模型,僅用約1/10的參數規模,即可承載對標雲端大模型的智能水平,成為端側高效AI的案例。2025年11月,劉知遠團隊的研究登上全球頂級學術期刊《自然·機器智能》(Nature Machine Intelligence)封面,正式提出大模型的“密度法則”(Densing Law)。基於對51個主流大模型的嚴謹回測,論文揭示了驚人的非線性進化規律:從2023年到2025年,大模型的智能密度以每3.5個月翻倍的速度狂飆。這是一條比摩爾定律陡峭5倍的進化曲線。這意味著,每100天,就可以用一半參數量實現當前最優模型相當的性能。每100天成本減半,一年後成本就可能降至原來的十分之一。如此快的迭代速度,對技術創新、產業落地提出了不同以往的挑戰。劉知遠在與騰訊科技的對話中直言:如果一家大模型公司發佈一款新的模型後“3到6個月無法收回成本”,這家公司的商業模式就不可持續,因為後來者很快就能以四分之一的資源實現同等能力。當研發迭代周期被壓縮至百天量級,人類的智力供給已逼近極限,產業的終極形態必將發生質變。工業革命的標誌是機器製造機器,而劉知遠期待的AI時代生產力標誌,將是“用AI製造AI”。唯有如此,才能支撐這場超越摩爾定律的智能風暴。騰訊科技:我們今天的主題是您和團隊最新發表在《自然·機器智能》上的關於大模型“能力密度”(Densing Law)的論文。您能介紹一下這項研究的背景嗎?劉知遠: 雖然這篇論文是 2025 年發表的,但這個想法早在 2024 年上半年就已經開始萌生。2023 年初,ChatGPT 的出現引發了全球對大模型的追逐,中國團隊也不例外,當時大家都在研究如何復現 ChatGPT。到了 2023 年下半年,一線的團隊基本完成了復現工作。那時候我們開始思考大模型未來的發展路徑。有些團隊可能會繼續沿用 ChatGPT 的技術路線,通過增加參數規模、投入更多資料來訓練 GPT-4 水平的模型。這條路線雖然確定性高,但意味著要花費更多經費,這顯然不是一條可持續的發展路徑。你不可能無限地增加成本來換取更強的能力。因此,我們開始探討如何用更低的成本、更高的質量來實現模型能力。2024 年初,我們推出的 Mini CPM 系列模型驗證了這一點:我們可以用更少的參數,實現歷史上需要幾倍甚至幾十倍參數才能達到的能力。這是經驗性的結果,我們想尋找其背後的規律,於是促成了 2024 年對“密度法則”的探索。圖:Densing Law論文登上Nature Machine Intelligence封面騰訊科技:這項研究是否因為中國的國情,使我們更重視大模型的效率問題?它在國內外是獨一無二的嗎?劉知遠: 追求效率當然有中國算力有限的國情因素。我們必須關注如何用更少的算力實現更高品質的模型。這也是為什麼 2024 年下半年,《經濟學人》的一篇封面文章提到,中國企業正通過技術創新繞過“算力牆”,並舉了面壁智能和 DeepSeek 的例子。但同時,追求效率也符合人工智慧本身的發展規律。人工智慧是一場堪比工業革命的科技浪潮,如果要讓每個人都受益,技術就不能昂貴。我們必須像歷史上任何一次科技革命那樣,用更低的成本實現更高品質的產品和服務。因此,我們自信地認為,密度法則對人工智慧的未來發展具有重要意義。騰訊科技:在“密度法則”中,一個關鍵概念是量化“智能”,但這本身是一個難題。在研究開始前,您為什麼覺得這件事是行得通的?劉知遠: 這個問題問得非常好。實際上,我們在密度法則這篇論文裡並沒有真正解決“如何度量智能總量”這個科學問題,而是找了一條取巧的辦法:找一個參照物(Reference Model)。我們假設用同一套技術方案訓練的模型,無論尺寸大小,其密度大致相同。我們將這套方案訓練出的模型作為 Reference Model,並假設其密度為 1。然後,我們觀察目標模型達到某種智能水平時,Reference Model 需要多大參數才能達到相同水平。通過比較兩者達到相同能力所需的參數量,我們就可以算出目標模型的相對密度。這種方法規避了直接計算模型內部智能總量的難題。當然,如何衡量智能的總量(Mass)是未來幾年人工智慧需要攻克的基礎科學問題。歷史上任何大的科技革命背後都有科學理論支撐,如資訊理論之於通訊,熱力學之於蒸汽機。智能科學未來也需要解決如何衡量智能總量的問題。騰訊科技:您在2024年WAIC期間曾提到模型的“密度法則”周期是8個月,但最終論文的結果是3.5個月。為什麼進化的速度比您預期的快這麼多?劉知遠: 2024年年中我們剛有這個想法時,研究尚在初期,觀測的時間跨度和模型數量都有限,所以當時的資料不夠穩定。我們2024年下半年發佈的版本算出來是3.3個月,到今年正式發表時,我們補充了2025年的新模型資料,周期修正為3.5個月。其實,具體的周期是三個月還是八個月並非最重要,最重要的是,這個速度遠遠快於摩爾定律的18個月。這意味著我們正以前所未有的速度迎來一場智能革命。每100天成本減半,一年後成本就可能降至原來的十分之一。同時,我們確實觀察到了一個加速現象。2023年之前,這個周期接近五個月;2023年之後,則縮短到三個多月。我們猜測,這是因為ChatGPT引發了全球性的關注,更多的資源和人才投入加速了技術創新。所以,“密度法則”並非自然規律,而是我們人類社會在該科技領域的一種“自我實現”:投入越多,密度增長越快。騰訊科技: 剛才提到投入,大模型有暴力美學的 Scaling Law,您覺得 Densing Law 和 Scaling Law 是統一的還是矛盾的?劉知遠:我認為它們是硬幣的兩面,相輔相成。“規模法則”的表像是模型越大、能力越強,其背後是我們找到了一條通用的智能構造方案(Transformer架構+序列預測學習),使得在一個模型內持續增加智能成為可能。它開啟了通往通用人工智慧的道路。在坐標系中,“規模法則”是一條參數規模越大、模型能力越強的持續上升曲線。而“密度法則”告訴我們,通過在模型架構、資料治理、學習方法等方面的持續技術創新,我們可以用更小的參數承載更多的智能,從而找到一條更加“陡峭”的“規模法則”曲線。也就是說,用相同的參數實現更強的能力,或者用更少的參數實現相同的能力。所以,沒有“規模法則”就不會有“密度法則”,兩者都是人工智慧發展中至關重要的規律。騰訊科技:“規模法則”似乎正面臨資料、算力和能源的天花板。密度法則何時會遇到瓶頸?劉知遠: Scaling Law的持續發展確實面臨電力、算力、資料等約束。而 Densing Law 正是實現更可持續Scaling Law 的方式。通過技術創新提高密度,我們可以在算力或成本基本不變的情況下,持續提升模型能力。例如DeepSeek V3宣稱用 1/10 的算力實現同等能力,OpenAI 的 API 價格持續下降,都反映了內部通過技術創新用更小的模型提供同等服務。當然,資料枯竭問題可能需要依賴另一項技術——大規模強化學習來解決,即讓模型通過自我探索生成高品質資料進行學習。騰訊科技:2025年有那些讓您覺得驚豔的技術突破,能讓 Densing Law 更加陡峭?劉知遠:今年是模型架構創新的大年,主要有三個方向:第一,以DeepSeek V3為代表的細粒度混合專家(MoE)架構走向成熟,通過稀疏啟動少數專家來大幅提升計算效率。第二,稀疏注意力(Sparse Attention)機制大行其道,通過減少注意力計算中的內容參與度,有效處理長序列。這兩者分別最佳化了Transformer的FFN層和Attention層,實現了計算的“按需分配”。第三,復興循環神經網路(RNN)思想,通過與Transformer混合架構,利用其“記憶”機制降低計算複雜度。這些創新都在變相地提升模型密度。此外,大規模強化學習的應用也取得了巨大飛躍,尤其在數學和程式碼領域,模型通過自我探索持續提升能力,暫時還看不到盡頭。這解決了資料枯竭的問題。騰訊科技: 您覺得密度法則能推廣到多模態模型或世界模型嗎?劉知遠: 我認為這是一個普遍規律。雖然不同領域的倍增周期可能不同,但只要是通用的、遵循 Scaling Law 的模型,未來也一定會遵循 Densing Law。就像晶片摩爾定律和電池密度提升一樣,技術創新總是追求用更少的資源實現更高的性能。騰訊科技:您如何看待Google最新發佈的Gemini 3?它是否可被稱為里程碑式的突破?劉知遠:我們內部認為Gemini 3是一個非常重要的里程碑。它在圖像生成中對文字的控制達到了前所未有的高度,這表明其模型的可控性和對世界的理解能力達到了一個新水平。我們推測,它不只依賴於Diffusion模型,很可能將自回歸(Auto-regressive)的思想融入其中,實現了生成過程的逐層細化和高度一致性。歷史上,所有文生圖模型都難以處理好文字內容,Gemini 3的突破,在我看來是一個非常值得關注的新範式。這也印證了密度法則:只要能實現某種智能,未來一定可以在更小的終端上運行。比如 Gemini 3 現在的能力,未來一定可以在手機、PC 或汽車晶片上跑起來。騰訊科技: 現在還沒有出現能替代智慧型手機的端側 AI 裝置,是不是因為 Densing Law 還沒進化到位?劉知遠: 端側裝置的發展受限於多個因素。第一,還沒有形成好的端側應用場景。現在的手機助手雖然使用者多,但並未與硬體緊密結合。第二,端側技術生態尚未形成。AGI 發展還沒收斂,模型能力還在持續提升,且在產品設計上還沒法完全規避錯誤。就像早期的搜尋引擎也是經過產品打磨才普及一樣,AGI 結合智能終端也需要一個過程。一旦產品形態成熟,智能終端的廣泛應用就會成為可能。騰訊科技: 您提到 MiniCPM 4 可以看作一種“模型製程”,這個怎麼理解?劉知遠: 我更願意把這一代模型比作晶片製程。通過技術創新,我們形成了一套新的模型製程,無論建構什麼尺寸的模型,其密度都更高。例如 MiniCPM 4 在處理長序列時速度提升了 5 倍,意味著可以用更少的計算量承載更強的能力。但目前的挑戰在於,硬體支援還不夠好。我們正在努力做軟硬協同最佳化,希望在消費級硬體上真正跑出理想狀態。騰訊科技: 這需要和高通、聯發科等硬體廠商協同創新嗎?劉知遠: 我們跟硬體廠商交流密切。但硬體廠商受摩爾定律 18 個月周期的影響,架構調整更審慎。而模型每 3 個月就進化一次。所以短期內是軟體適配硬體,長期看硬體會針對穩定的新技術做最佳化。現在端側晶片廠商已經在認真解決大模型運行的瓶頸,比如訪存問題。騰訊科技: 之前大家嘗試過剪枝、量化等方法來做小模型,這和原生訓練的高密度模型相比如何?劉知遠: 我們做過大量實驗,剪枝、蒸餾、量化都會降低模型密度。量化通過後訓練可以恢復一部分效果,是目前端側比較落地的做法。但蒸餾現在已經融合進資料合成體系,不再是簡單的“大蒸小”。剪枝目前還沒找到保持密度的好方法。就像你不能通過剪裁把 14nm 晶片變成 7nm 晶片一樣,要把密度做高,必須從頭建構一套複雜的原生技術體系,包括架構設計、資料治理、學習方法和軟硬協同。這本身就是技術護城河。騰訊科技:“密度法則”對產業界意味著什麼?對於創業公司來說,機會在那裡?劉知遠:3.5個月的迭代周期意味著,任何一個投入巨資訓練的大模型,如果不能在3到6個月內通過商業化收回成本,這種模式就很難持續。因為很快就會有技術更新的團隊用更低的成本實現同樣的能力。因此,雲端API服務的競爭會極其慘烈,最終可能只會剩下幾家擁有海量使用者和強大技術迭代能力的頭部廠商。對於創業公司而言,機會可能在於“端側智能”。端側場景的約束條件非常明確(如功耗、算力、響應時間),這使得技術優勢,即誰能把模型密度做得更高,成為唯一的競爭點,大廠的“鈔能力”(如不計成本的投入)在這裡難以發揮。雖然手機廠商也在高度關注,但它們的決策會更審慎。我們認為,端側智能會先從智能座艙等對功耗不那麼敏感的場景開始,而最終,AGI時代一定會有屬於它自己的智能終端形態,這是我們希望探索的星辰大海。騰訊科技: 面對算力軍備競賽和快速折舊,您怎麼看泡沫論?劉知遠: 快速發展肯定伴隨局部泡沫,但整體上我們正進入智能革命時代。如果以 18 個月為周期,資訊革命走了 50 個周期;如果 AI 也走 50 個周期,按現在的速度,大概到 2030-2035 年就能實現全球普惠的 AGI。未來網際網路的主體不再只是人,還有無數智能體。雖然訓練模型的廠商會收斂,但推理算力需求會爆炸式增長。騰訊科技: 李飛飛(美國國家工程院院士)說 AI 是文明級技術,您對這場革命樂觀嗎?劉知遠: 我相當樂觀。騰訊科技:如果AI變得無比強大,未來人類會不會無事可做?劉知遠:我不這樣認為。未來一定是人機協同,人是把關人。人類知識大爆炸導致我們只能成為細分專家,阻礙了跨領域創新。人工智慧可以幫助我們成為知識的主人而不是奴隸,去探索宇宙、生命等更多未解之謎。騰訊科技: 您2026年最期待的創新是什麼?劉知遠: 我最期待“用 AI 製造 AI”。明年一個重要節點是自主學習(Self-play)。目前的強化學習還依賴人類給標準答案,未來模型如果能自主判斷探索結果的價值,就實現了自主學習。在此基礎上,結合密度法則的提升,我們有可能為每個人建構專屬的、持續學習的個人大模型。未來的生產標誌就是“用 AI 製造 AI”。不再依賴有限的人力,而是由 AI 來賦能 AI 的研發和製造。這將是一個指數級加速的過程。 (騰訊科技)
Nature重磅!哈佛發布AI蛋白質模型,98%準確率力壓Google團隊,精準揪出「致病基因」!
罕見疾病診斷一直是醫學界的難題。傳統方法存在檢測流程複雜、報告解讀困難等問題,約半數患者因缺乏明確病因治療而受阻。近日,《Nature Genetics》期刊上發布了一項名為「Proteome-wide model for human disease genetics」的研究,哈佛醫學院和巴塞隆納基因組調控中心(CRG)的研究人員開發出一款名為popEVE的AI蛋白質模型。此模型是結合演化資訊和人類群體數據的深度生成模型,能在全蛋白質體範圍內評估變異的有害程度。有望徹底改變遺傳疾病的診斷方式。為驗證模型效能,團隊分析了超過3.1萬個患有嚴重發展障礙的兒童家庭遺傳數據。在98%的病例中,popEVE將共同突變標記為最具破壞性的變異,其表現優於GoogleDeepMind團隊AlphaMissense在內的同類工具。同時,popEVE也發現了123個先前被認為與發育障礙無關的基因,其中104個僅在個別病例中出現。能判斷「嚴重程度」 無需父母數據早在2021年,該團隊就發表了變異效應進化模型EVE,當時該模型就能將人類疾病基因中的突變分類為良性或有害,但其分數無法直接在基因間進行比較,並確定那種對健康影響最為嚴重。而新推出的popEVE在大型語言蛋白質模型實現提升的基礎上,結合了來自英國生物樣本庫內的海量人類數據,實現了AI輔助罕見疾病診斷的全新突破。在測試中,此模型不僅能區分致病變異和良性變異,還能辨識出健康對照組,平均精確度比次優模型(AlphaMissense)提升3.2%。且此模型能僅憑兒童基因組辨識可能的因果變異,無需父母資料。popEVE最大的突破,還是實現了對「嚴重程度」的判斷。popEVE的範例輸出。左側和中間面板顯示了圖表和清單格式的變異分數,從最可能致病的深紫色到最不可能的黃色。右側面板描繪了帶有變體分數的蛋白質晶體結構。圖片來源:Marks實驗室在臨床情況下,一些蛋白的功能受損可能在晚年產生適度影響,而另一些蛋白的破壞在兒童期可能致命。這兩種情況都可以被視為“致病”,但在試圖找出嚴重疾病的遺傳原因時,模型必須能夠區分這兩種情況。力壓DeepMind 不只罕見疾病診斷2023年,開發出AlphaFold的GoogleDeepMind團隊開發了一款名為AlphaMissense的模型,作為AlphaFold的改良衍生工具,實現對錯義突變的致病性預測。該模型以接近89%的準確率一鳴驚人,推開了AI模型輔助診斷遺傳疾病的大門。然而,開發了popEVE的哈佛團隊認為,雖然AlphaMissense在蛋白質穩定性方面準確,但缺乏診斷所需的臨床校準。統計分析顯示,AlphaMissense預測平均每個人會有五種「致病」變異,而popEVE預測不到一種。這種差異在臨床環境中至關重要,因為過度預測可能導致誤診和不必要的焦慮。儘管性能有所提升,popEVE仍是一個研究工具尚未獲得FDA批准作為獨立診斷設備使用,目前已開源且可以透過線上入口網站直接存取使用。線上入口網站:https://pop.evemodel.org/開源連結:https://github.com/debbiemarkslab/popEVE據悉,該模型未來的應用不僅限於診斷,還將擴展到藥物發現,因為該模型能夠精確定位蛋白質結構中的特定致病機制。(智藥局)
Nature『2025年度十大人物​​​​』——梁文鋒、杜夢然等上榜
2025年12月8日,Nature雜誌發表了今年的“Nature's Ten”,選出了年度十大人物。Nature特寫部編輯Brendan Maher表示:“今年的榜單頌揚了對新前沿的探索,醫療領域突破性進展的希望,對科研誠信的堅定守護,以及那些可以拯救生命的全球政策的制定者。我們激動地看到這麼多人在不遺餘力地理解自然世界,並在許多情況下幫助這個世界。這是他們入選今年Nature十大人物的原因。”一、梁文鋒 (Liang Wenfeng) (技術顛覆者)梁文鋒是總部位於杭州的中國公司DeepSeek的創始人。DeepSeek在今年1月發佈了功能強大但成本低廉的 R1“推理”大型語言模型(LLM)。R1是首批作為開放權重發佈的此類模型,這意味著研究人員可以免費下載並在此基礎上進行建構。DeepSeek的成功挑戰了美國在AI領域的領先地位,並促使中美其他公司也發佈了開放模型。此外,DeepSeek還發佈了R1的建構和訓練細節,成為首個經過同行評審的主要大型語言模型,教會了其他AI研究人員如何訓練推理模型。二、杜夢然 (Mengran Du) (深海潛水員)杜夢然是中國科學院深海科學與工程研究所的地球科學家。在“奮鬥者”號載人潛水器中,她和同事們在超過九公里的深處(位於日本東北部的千島-堪察加海溝)發現了地球上已知最深的動物生態系統。這個深淵生態系統不依賴陽光,而是通過化能合成來維持,利用從海底滲出的甲烷、硫化氫和其他化合物獲取能量。她的發現為化能合成生態系統可能在全球海洋中存在“走廊”提供了強有力的證據,這表明化能合成在深海中所起的作用可能比之前認為的更大。三、Susan Monarez (公共衛生守護者)作為美國疾病控制與預防中心(CDC)的主任,Susan Monarez在上任不到一個月時就被解僱了,她表示自己是因為“堅守科學誠信的底線”而被開除的。她拒絕了在未審視相關科學資料的情況下預先批准疫苗建議,以及解僱該機構頂尖科學家的命令。Monarez是一位公開對川普政府威脅公共衛生的政策變化表示擔憂的高知名度政府科學家。她此前對CDC的宏大計畫主要集中在簡化資料,以便提供針對每個地區和州的公共衛生建議。流行病學家Jennifer Nuzzo評價她是一位將證據置於國家利益之上的科學家,並指出任何自重的科學家都不會同意在未仔細審查科學證據的情況下蓋章通過事務。四、Achal Agrawal (撤稿偵探)Achal Agrawal是一位印度的自由資料科學家,他致力於提高該國對研究誠信違規行為(包括剽竊)的認知。他注意到在印度,許多人認為使用軟體改寫已發表的作品不算作剽竊,這讓他堅定了決心要解決研究不端行為根深蒂固的問題。今年,Agrawal的工作促成了一項里程碑式的政策變化:印度國家機構排名框架(NIRF)現在將懲罰那些研究人員發表了大量被撤回論文的機構。他創立了線上組織“印度研究觀察”(IRW),用於匿名舉報研究誠信違規行為,並開始分析印度機構研究人員的撤稿情況。他的目標是促進問責制,並幫助機構採取行動,以清理印度科學界的弊病。五、Tony Tyson (望遠鏡先驅)Tony Tyson是位於智利的全新的維拉·魯賓天文台(Vera Rubin Observatory)的構想者和推動者,他早在30多年前就構思了這個項目。這座耗資8.1億美元的天文台被稱為“高風險、高回報”的項目。它使用了世界上最大的數字相機,設計緊湊,能夠在短短40秒內捕獲一次曝光,將對南半球天空進行連續的視訊拍攝。天文台的核心任務包括繪製宇宙中看不見的暗物質的3D圖譜、探測數百萬顆恆星,以及發現可能威脅地球的小行星。Tyson在推動該項目方面展現了堅定的決心,他也是最早使用“弱引力透鏡”技術來揭示暗物質存在的科學家之一。六、Precious Matsoso (大流行病談判代表)作為指導全球大流行病條約談判小組的聯合主席,Precious Matsoso在艱苦的談判中發揮了關鍵作用,最終促成了世界衛生組織(WHO)190多個成員國就首個全球大流行病條約草案文字達成共識。該條約旨在為全球如何齊心協力預防、準備和應對下一次大流行病制定指導原則。在充滿摩擦的談判中,Matsoso使用了多種策略,包括在激烈的辯論中保持堅定,甚至通過唱歌(披頭士的《你只需要愛》)來傳達合作的資訊。她認為這項協議來之不易,特別是它承諾將技術訣竅轉移給低收入國家,使它們能夠自己生產診斷工具和藥物,這是同類協議中的首次。七、Sarah Tabrizi (亨廷頓英雄)Sarah Tabrizi是一位神經學家,擔任倫敦大學學院亨廷頓舞蹈症中心主任。她是以基因靶向療法 AMT-130 為目標的臨床試驗的首席科學顧問,該試驗提供了令人信服的證據,表明這種療法可以減緩亨廷頓舞蹈症這種神經退行性疾病的進展速度。臨床資料顯示,接受高劑量治療的患者的衰退速度減緩了75%。Tabrizi的經驗讓她得以吸取教訓,改進臨床試驗設計,她現在正領導研究,希望能在症狀出現之前進行干預。她的最終目標是阻止亨廷頓舞蹈症的發生。八、Luciano Moreira (蚊子俠)Luciano Moreira是一位農業工程師和昆蟲學家,同時也是Wolbito do Brasil公司的首席執行長。他在巴西設立了一家大型工廠,致力於大規模繁殖感染了沃爾巴克氏體細菌(Wolbachia)的伊蚊(Aedes aegypti)。攜帶這種細菌的蚊子能夠抑制登革熱等疾病的傳播。Moreira不僅證明了該模型的有效性,還成功說服了政治決策者實施這項技術,促使巴西聯邦政府將其確認為抗擊蚊媒疾病的官方公共衛生措施。他的工廠正穩步推進,目標是每年生產五十億隻帶有沃爾巴克氏體的蚊子(wolbitos)。九、Yifat Merbl (肽偵探)Yifat Merbl是以色列魏茨曼科學研究所的系統生物學家,她和她的團隊通過研究細胞的回收中心——蛋白酶體(proteasomes),發現了一個全新的免疫系統組成部分。她將這一發現比喻為在細胞的“垃圾桶”中找到了重要的線索。她發現蛋白酶體產生的肽片段中,有許多具有抗菌活性,能夠消滅細菌。她的團隊發現,這是一種獨立於免疫細胞啟動的初始防禦機制:當細胞受到感染時,蛋白酶體能夠切換其調控帽,以促進細菌對抗肽的生成。十、KJ Muldoon (基因編輯嬰兒)KJ Muldoon是已知第一個接受個性化CRISPR基因組編輯療法的嬰兒。他患有一種名為CPS1缺乏症的超罕見遺傳病,這種疾病會損害身體處理蛋白質的能力,導致有毒的氨在血液中積累。為了治療他,研究團隊使用了CRISPR基因組編輯技術——鹼基編輯技術,來靶向並糾正人類基因組中導致該疾病的錯義突變。這種高度個性化的編輯療法以創紀錄的速度完成,僅用了六個月,遠低於預估的18個月。KJ Muldoon的治療成功展示了快速製造和提供高度個性化基因編輯療法來治療罕見疾病的可能性。 (BioArt)
重磅《Nature》2024全球AI領域Top100大學名單:美國46所,中國19所,英國7所...
近期,權威科學期刊《自然》(Nature)旗下的“Nature Index Supplements 2024 AI”重磅發佈了全球AI研究領域領先的TOP100高校榜單!這份基於過去五年頂級期刊論文產出的排名,不僅揭開了學術界的科研暗戰,更折射出全球AI教育格局的深刻裂變:哈佛、斯坦福、MIT穩坐前三;清華大學首次殺入前十;電腦“神校”卡內基梅隆卻跌至62名。一、美國霸榜與加州系的“集體狂歡”美國高校以46所上榜的絕對優勢,延續著AI領域的統治地位。前三分別為:哈佛大學:以805.23的“科研份額值”登頂,相當於平均每天在頂級期刊發表1.5篇AI論文,其跨學科實驗室“腦科學與AI交叉中心”每年吸引Google、OpenAI投入超2億美元合作經費。斯坦福和MIT:分別以550.22、545.21的份額值緊隨其後,前者在生成式AI課程中直接引入ChatGPT-5作為教學工具,後者則把自動駕駛實驗室開進了波士頓地鐵隧道。2024全球AI領域Top100大學排名(Top10)更令人側目的是加州大學系統的“集團軍作戰”——UCSD、UCB、UCLA三校集體挺進前十,舊金山分校(UCSF)也位列20名。這些公立校憑藉矽谷地緣優勢,將產學研融合玩到極致:UCSD學生每周三天在高通總部偵錯晶片,UCB的AI倫理課由前GoogleCEO施密特親自授課,而UCLA醫學院正用AI預測癌症突變,論文直接轉化進輝瑞新藥研發管線。二、中國崛起:從7所到19所的“狂飆”中國高校的爆發式增長是最大亮點:清華大學:以264.24份額值衝至全球第9,其自動駕駛團隊在CVPR會議包攬3項最佳論文,深度學習框架“計圖”下載量突破千萬。2024全球AI領域Top100大學排名(中國)北京大學位列14,而中科院大學、浙江大學等19所高校集體上榜,數量較2020年激增171%。這種躍進離不開“國家隊”的投入:清華為AI專業本科生配備人均50萬元科研基金,中科院則把大模型訓練機房建在了貴州山洞裡,用天然低溫省下3成散熱成本。但光鮮背後也有隱憂。香港大學、港中文雖上榜,卻因論文合作率超60%被學界質疑“含金量”。而內地高校在《自然》《科學》等頂刊的獨立發文量僅為美國的1/5,顯示原創性研究仍有差距。三、英國:AI強校實力不容小覷英國政府非常重視 AI 技術的發展,早前就宣佈將加大投資力度,使英國 AI 超級計算能力提高 30 倍。本次排名中共有7所英國大學躋身全球AI研究百強,牛津大學與劍橋大學分別位列第4名和第5名。帝國理工學院: 作為G5超級精英大學之一,IC的電腦系擁有超過30個活躍的研究小組,研究範圍覆蓋從基礎AI理論到複雜智能系統的廣泛領域。愛丁堡大學: 在人工智慧領域的歷史可以追溯到上世紀60年代,是歐洲乃至全球最早開展AI研究的中心之一。其資訊學院 (School of Informatics) 是歐洲最大的電腦科學和資訊學研究機構之一,在機器學習、自然語言處理、電腦視覺和機器人學等領域擁有世界一流的研究實力。倫敦國王學院: 地處倫敦市中心的KCL,其電腦科學實力同樣強勁。得益於其優越的地理位置,KCL與倫敦蓬勃發展的科技產業聯絡緊密,為學生提供了豐富的實習、就業和產學研合作機會。英國AI名校推薦:帝國理工學院、劍橋大學、牛津大學、倫敦大學學院、愛丁堡大學、南安普頓大學、曼徹斯特大學、聖安德魯斯大學等。2024全球AI領域Top100大學排名(英國)四、電腦聖殿CMU為何暴跌?卡內基梅隆大學(CMU)的62名排名引發最大爭議。這所連續13年霸榜CSRankings的“電腦聖殿”,在《自然》體系中竟不敵貝勒醫學院、匹茲堡大學等“非傳統強校”。深究其因,CMU推崇的“問題導向型研究”與《自然》的論文數量指標天然衝突——該校教授更願把成果藏在DARPA軍事項目或創業公司程式碼庫,而非急於發表。其機器人研究所所長曼努埃爾·赫爾特曾說:“我們追求的是讓機器人在阿富汗拆彈,而不是在期刊上拆解公式。”這種“叛逆”反而成就了獨特優勢:CMU2018年開設全美首個AI本科專業,學生大二就能進入Uber無人車核心演算法組;其與Meta共建的元宇宙實驗室,讓學生用腦機介面設計虛擬城市,這些實戰經驗讓畢業生起薪高達16萬美元,遠超榜單前十高校。五、留學生的兩難:追排名還是賭未來?榜單折射的不僅是科研實力,更是留學選擇的認知革命。當南加州大學憑“好萊塢+矽灘”雙IP衝至46名,其電影AI專業學生已能用GPT-5生成劇本並自動匹配投資人。而華盛頓大學靠著亞馬遜的14億美元捐贈,把AI課程開進了西雅圖太空針塔頂層的全景教室。但理性聲音也在浮現:耶魯AI倫理課教授露西亞·溫警告,盲目追求論文產出會催生“學術流水線奴隸”,她更欣賞CMU“用技術解決真問題”的理念。這給留學生拋出尖銳選擇題——是擠進榜單前排高校獲取“學術光環”,還是投身CMU這類“反叛者”擁抱產業前沿?這場排名的真正價值,或許在於撕開了AI教育的複雜面相:當清華用國家力量猛追基礎研究,當CMU在產研融合中另闢蹊徑,當加州系把校園變成科技公司前哨站,每個選擇都對應著不同的未來圖景。正如MIT媒體實驗室主任伊藤穰一所言:“AI教育的終極考核不在榜單,而在十年後你的技術是否還活著。”2024全球AI領域Top100大學排名(人工智慧行動資訊港AI HUB)