#李飛飛
李飛飛團隊新作:簡單調整生成順序,大幅提升像素級圖像生成質量
長期以來,AI生圖被一個經典矛盾困擾。潛空間模型效率高,但細節有損耗;像素空間模型保真度高,卻容易結構混亂、速度慢。要麼快要沒準,大家幾乎默認這是架構帶來的取捨問題,沒法徹底解決。但擴散模型生圖,順序真的對嗎?李飛飛團隊最新論文提出的Latent Forcing方法直接打破了這一共識,他們發現生成的質量瓶頸不在架構,而在順序。簡單說就像畫畫必須先打草稿再填色,AI也需要一個「先定結構、後填細節」的強制邏輯。Latent Forcing僅通過重排生成軌跡,像素擴散模型不僅找回了效率,更在多項指標上刷新SOTA。傳統方法瓶頸在深入瞭解Latent Forcing之前,咱先來說說當前兩大方法的瓶頸。傳統像素級擴散模型之所以畫圖會畫歪,是因為它在降噪過程中,高頻的紋理細節往往會干擾低頻的語義結構。模型常常在還沒搞清楚物體的整體輪廓時,就被迫去預測局部的像素顏色,其實這在本質上就違背了視覺生成的自然邏輯。為瞭解決這個問題,行業此前大多轉向潛空間。它通過預訓練的tokenizer把圖像壓到低維空間,生成速度飛起。但潛空間模型必須依賴一個預訓練的解碼器,但這不僅會引入重建誤差,也讓模型失去了端到端建模原始資料的能力。於是李飛飛團隊思考——能不能既保留像素級的無損精度,又獲得潛空間的結構引導?先打個草稿Latent Forcing的答案是——對擴散軌跡重新排序。怎麼做的呢?在不改變基礎Transformer架構的前提下,引入了雙時間變數機制。在訓練和生成過程中,模型會同時處理像素和潛變數。不同的是,團隊為兩者定製了獨立的降噪節奏:潛變數先行:在生成初期,潛變數會率先完成降噪,在大尺度上確立圖像的語義骨架;像素填色:在結構確定後,像素部分再跟進進行精細化降噪。這麼一看,潛變數就像是一個臨時的草稿本。生成結束時,這個草稿本直接丟棄,最終輸出仍是100%無損的原始像素圖像,沒有任何decoder。整個過程端到端、可擴展,幾乎不增加計算量(token數量不變,速度接近原生DiT)。這種先latent後pixel的細微調整,在ImageNet榜單上展現了出色的表現。在相同計算規模,訓練80個epochs的條件下,Latent Forcing在ImageNet-256任務中,條件生成的FID分數較此前最強的像素級模型JiT+REPA,從18.60降到9.76,接近腰斬。在200個epoch的最終模型(ViT‑L 規模)下,Latent Forcing實現了條件生成FID 2.48(guided)、無條件生成FID 7.2(unguided)的分數。創下像素空間擴散Transformer新的SOTA。過去學術界普遍認為,必須通過更高倍率的失真壓縮才能換取好的FID表現。Latent Forcing則用資料反駁了這一觀點——在保持100%原始像素精度的情況下,我們依然能跑出超越有損模型的性能。Latent Forcing項目由李飛飛領銜。第一作者Alan Baade是李飛飛的學生,史丹佛電腦系博士生,在擴散模型和生成建模方向有深入研究。其他史丹佛共同作者包括Eric Ryan Chan、Kyle Sargent、Changan Chen和Ehsan Adeli。此外,密歇根大學教授Justin Johnson作為合作作者參與其中。 (量子位)
速看!李飛飛最新訪談實錄:AI的終點不是寫程式碼,而是人類的尊嚴
在生命進化的漫長長河裡,“看見”世界比“談論”世界早了整整5億年。如今,AI正在補上這一課。這句充滿進化論智慧的判斷,正是李飛飛對當下AI浪潮的最新註解。在充斥著浮躁與噪音的矽谷,她的聲音始終代表著一種冷靜的遠見。台北時間2月4日凌晨,這位公認的“AI教母”帶著初創公司World Labs現身思科年度AI峰會(Cisco AI Summit)。作為曾經引爆電腦視覺革命的科學家,她沒有隨波逐流於大模型的語言遊戲,而是將目光投向了AI進化的下一塊拼圖:空間智能(Spatial Intelligence)。她認為,AI的下一個巔峰,不只是會寫程式碼和聊天,而是像生物一樣,真實理解並互動我們所處的這個三維空間。而超越技術維度之外,她更為AI的未來立下了一把人文標尺:“AI的成功,應當體現為文明的進步,讓每個個體都能由此追求幸福、繁榮和尊嚴。”以下是本次精彩訪談的解析,為你拆解“空間智能”將如何重塑我們的未來。01 進化論的啟示:感知先於語言很多人認為AI的終極形式是語言模型,但李飛飛提出了一個有趣的視角:從進化論來看,語言其實是“後來者”。她舉例說,在5億多年前的寒武紀,生命體最先發育出的並不是語言,而是感知系統。動物通過觸覺和視覺觀察環境,才開啟了那場讓生命變得更聰明的“進化軍備競賽”。李飛飛認為,“理解、推理並與3D物理世界互動的能力,與語言智能一樣,都是最基礎的底層能力。它是AI的下一個前沿。”這也是World Labs的核心邏輯:如果AI不能像人一樣理解空間,它就永遠無法真正進入現實物理世界。02 什麼是Marble? 它不只是視訊,而是一個“世界”訪談中,李飛飛詳細介紹了World Labs的第一代模型:Marble。很多人將其與Sora等視訊生成模型混淆,但李飛飛指出,二者有著本質區別。Marble是一種真正意義上的“世界模型”:·全場景互動:它能根據文字或圖片提示,生成一個完整的、可導航的、可互動的3D世界。·物理一致性:它具有幾何結構,不是一段“看起來像”的視訊,而是一個在物理邏輯上始終保持一致的空間。這意味著,它不僅能用來做遊戲,更能直接成為機器人訓練的“虛擬實驗室”。03 意想不到的用例:從機器人到心理治療空間智能的應用邊界在那裡?李飛飛給出的答案超出了很多人的想像:·遊戲與影視:開發者可以用它快速建構可穿行的虛擬世界,特效團隊能進行虛擬製片。·機器人訓練:與輝達等夥伴合作,為機器人提供高精度的模擬環境。·建築設計:設計師能瞬間將平面圖轉化為可步入的3D樣板間。最令人稱奇的是醫療科研。心理學家正利用Marble為強迫症(OCD)患者定製個性化的沉浸式環境,通過模擬特定觸發場景來進行科學干預。04 資料與算力:我們離通用機器人還有多遠?當被問及Marble是否像GPT-5那樣燒錢時,李飛飛顯得很坦誠。目前,Marble的訓練規模比頂級大語言模型要小幾個數量級。這一方面是因為這個領域尚處於“規模定律(Scaling Law)”的早期,另一方面也面臨著資料獲取的挑戰。李飛飛坦言,不同於網際網路上隨處可見的文字,高品質的3D物理資料非常稀缺。她透露,World Labs當下採用一種混合資料策略,綜合利用網際網路級的圖文視訊、模擬資料以及類似自動駕駛公司的“實景捕獲”資料。關於通用機器人,李飛飛也潑了一盆冷水:“汽車只是在二維平面上移動、儘量不去碰東西的‘方盒子’。但通用機器人要在三維空間裡完成靈活、精準的抓取和互動。這是一個極高維度的難題,我們不能亂開空頭支票。”05 拒絕“技術末日論”:AI的成功應關乎尊嚴作為AI領域的領軍人物,李飛飛對當下的兩極分化言論感到擔憂。“技術烏托邦”和“末日生存危機”在她看來都不夠負責任。她強調,技術是雙刃劍,人類必鬚髮揮主觀能動性去引導它。那麼,AI最終的成功標誌是什麼?李飛飛借用了“電力”的類比:電力的成功不在於電線本身,而在於它點亮了學校、溫暖了家庭、延長了人類壽命。“AI的成功,也應當體現在文明的進步,讓每個人都能追求幸福、繁榮和尊嚴。”06 結語從理解像素到建構世界,李飛飛正帶領團隊在空間智能的無人區探索。這不僅是技術的跨越,更是人類試圖賦予數字生命“感知力”的又一次嘗試。空間智能,或許就是我們通往AGI的那把“物理鑰匙”。(以下為發言實錄)主持人:好的。接下來,我們要聊聊3D模型,而不僅僅是語言模型。今天,我們有幸請到了被譽為“AI教母”的李飛飛博士。很榮幸,我們也是飛飛博士公司的投資者。讓我們用掌聲歡迎李飛飛博士上台。我今天該穿上World Labs的周邊T恤的,你之前送過我,真的很有心。李飛飛:是啊,我可還等著思科的周邊呢。主持人:沒問題,我們馬上安排。感謝你來到這裡。看到World Labs在過去一年取得的進展,真的令人欣喜。飛飛,先跟我們聊聊你們目前在做什麼,以及為什麼這件事如此重要?李飛飛:好。現在我每天醒來,腦子裡其實只在想一件事:空間智能(Spatial Intelligence)。這就是我大約兩年前和一群年輕的技術專家共同創辦的公司:World Labs的核心。如果從進化論的角度來看,在5億多年前,最先開啟神經系統發育的並不是語言,而是感知。早在語言出現之前,動物就開始通過觸覺和視覺感知光線、接觸環境。主持人:那你認為“本能”也屬於感知的範疇嗎?李飛飛:對我來說,“本能”是一個比較虛泛的詞。但從物理進化上講,正是視覺開啟了進化史上的“軍備競賽”,讓動物變得更加活躍和聰明。理解、推理、互動並在真實的3D/4D物理世界中穿行的能力,與語言智能一樣,都是最基礎的底層能力。而其中的關鍵技術就是“空間智能”,這是AI的下一個前沿陣地。主持人:聊聊Marble吧。前陣子剛發佈的Marble到底是什麼?李飛飛:Marble是我們的第一代空間智能模型。我們私下管它叫“世界模型”。它能接收多模態輸入:無論是文字、圖片、視訊,還是簡單的3D輸入,然後根據這些提示詞,生成一個可以完全穿行、即時互動、且具有永久一致性的3D世界。這與目前的視訊模型截然不同,它擁有完整的幾何結構,可以支撐機器人模擬訓練或遊戲程式設計。主持人:有一種觀點認為,如果不增強AI的物理特性,我們就無法實現通用人工智慧(AGI)。隨著時間的推移,這裡面最大的“突破口”會是什麼?除了機器人領域,五年後我們還能用它做什麼?李飛飛:其實都不用等五年。現在就已經有使用者在用Marble開發遊戲了,影視特效(VFX)客戶也用它進行虛擬製片。我們正與輝達以及一些初創公司合作,將Marble作為機器人的訓練環境。建築師和設計師用它做室內設計。還有一個令我意外的用例是臨床研究:心理健康研究人員利用它為強迫症(OCD)患者建立沉浸式的個性化環境,來模擬特定的觸發場景。主持人:你把整個人生都奉獻給了AI。在創辦這家公司、研究空間智能的過程中,最讓你感到驚訝的是什麼?李飛飛:過去幾年的發展速度簡直令人窒息。每個人都會感到焦慮,覺得“要讀的東西太多,發佈的模型太快”。這讓我時刻保持謙遜,意識到自己所知甚少。另一件讓我擔憂的事是那些極度兩極分化的言論:要麼是技術烏托邦主義,要麼是“生存危機”之類的末日論。這兩種觀點其實都不太負責任。技術是一把雙刃劍,我們必鬚髮揮主觀能動性,引導它走向善意化和精細化的應用。主持人:在你看來,未來幾年AI的成功標準是什麼?李飛飛:回看電力技術,它的成功在於點亮了學校、溫暖了家庭、推動了工業化,並延長了人類的壽命。AI的成功標誌應該是:文明因它而進步,每個個體都能由此追求幸福、繁榮和尊嚴。主持人:大型世界模型的計算量和語言模型一樣大嗎?李飛飛:目前,我們的模型規模還沒有最大的大語言模型(LLM)那麼大。GPT-5的訓練算力可能在10^26 FLOPS左右,而Marble要小幾個數量級。部分原因是這個領域還很新:Transformer論文發佈於2017年,而世界模型才剛剛開始進入Scaling Law的上升曲線。主持人:語言模型是用網際網路上的免費資料訓練的。但物理資料很難獲取,所以合成資料變得至關重要。資料的匱乏會減慢世界模型的發展嗎?另外,未來我們會擁有通用機器人,還是專用機器人?李飛飛:我們採取的是混合資料策略。語言資料相對幹淨且易於觀察,但像素和體素(Voxel)構成的物理世界則複雜得多。我們利用網際網路規模的文字、圖像和視訊,但也需要模擬資料和“現實世界捕獲”資料,這與特斯拉或Waymo等自動駕駛公司的做法類似。關於機器人:作為科學家,我不喜歡亂開空頭支票。汽車可以看作是一個在二維平面上移動的“方盒子機器人”,它的主要目標是避開障礙物。而通用機器人是一個三維實體,它必須觸碰並與物體互動,且不能損壞它們。這是一個維度高得多的問題,涉及極高的靈活性和空間精準度。主持人:在最後的一分鐘裡,企業端應該如何看待世界模型?李飛飛:空間智能是一項橫向通用技術。除了機器人和遊戲,它還可以應用於醫療、教育、外勤服務、金融服務、農業、製造業和城市規劃。它是下一個前沿領域,我邀請大家共同來探索這個課題。主持人:非常感謝。李飛飛:謝謝。 (網易科技)
世界模型教父教母創業,公司估值加起來近百億美元
AI 時代,獨角獸已經不稀奇了,但世界模型這塊還是有所空缺的。從估值的變化上來看,李飛飛的World Labs,最有可能成為全球首個世界模型獨角獸公司。根據報導,World Labs的估值已經突破了50億美元,並且擬融資5億美元。而2024年9月的時候,這家公司才以10億美元估值完成2.3億美元融資,正式在公眾面前亮相。從結果上來看,從登場到50億美元估值,李飛飛僅用了16個月的時間。這個速度有多快?OpenAI從2015年成立,到 2019年微軟首次投資,此時他們的估值也只有10億美元。最接近World Labs速度的可能是Anthropic,但也花了25個月。如果說李飛飛是世界模型教母,那麼楊立昆可以說是世界模型教父。2025年12月,楊立昆在LinkedIn上確認離開Meta,結束了他在這家公司長達12年的職業生涯。楊立昆創立的新公司名為Advanced Machine Intelligence Labs,總部設在巴黎。AMI Labs正在尋求以30至35億歐元估值融資5億歐元。不過,這兩家企業高估值背後,並非對世界模型這一技術的吹捧,而是實打實的技術落地和商業化。何為World Labs?World Labs的投資方陣容包括Andreessen Horowitz、NEA、Radical Ventures(李飛飛本人是Radical Ventures的科學合夥人)、輝達風投部門、沙烏地阿拉伯Sanabil Investments和新加坡淡馬錫。天使投資人包括GoogleDeepMind首席科學家傑夫·迪恩(Jeff Dean),以及圖靈獎得主傑佛瑞·辛頓(Geoffrey Hinton)。World Labs的核心技術理念叫做空間智能,這是一種“升維”的概念。目前的頂尖AI雖然看起來很聰明,但它們本質上是“二維”的。它們只是處理文字序列或者像素排列,它們並不理解體積、有重量、受重力影響的實體。World Labs的空間智能技術,就是要賦予AI“對三維世界的認知能力”。以生成視訊為例,空間智能是直接生成一個具有三維結構、且符合物理規律的虛擬環境,然後再在這個環境裡去模擬要生成的實體。實體不僅有長寬高,還有材質和物理反饋。在傳統的AI訓練中,模型學習的是像素之間的機率關聯,比如藍天下面通常是綠地,綠地旁邊通常是小溪。但World Labs的世界模型則是基於三維幾何與物理模擬的原理進行訓練的。它在學習資料的過程中,得到的不僅僅是圖像的紋理,還有圖像背後的空間幾何資訊(比如深度、遮擋關係、透視角度)以及物理動力學規則(比如剛體如何碰撞、流體如何流動、光線如何反射)。2025年11月,World Labs推出首款商業產品Marble,這是一個能夠從文字、圖像、視訊或粗略3D佈局生成持久化3D世界的模型。Marble的技術底層採用神經輻射場(NeRF)和高斯點雲(3D Gaussian Splatting)技術,而非傳統的多邊形網格。神經輻射場是一種利用神經網路表示三維場景的技術,它將場景表示為連續的體積函數,輸入三維空間坐標和觀察方向,輸出該點的顏色和體積密度。這種方法通過多層感知機學習場景的幾何和光照資訊,然後通過體積渲染生成逼真的新視角圖像。相當於在相同場景內,從每一個角度對實體進行拍攝,這樣生成實體以後,使用者從那個角度看都符合物理規律。高斯點雲則是另一種三維表示方法,它用數百萬個帶有位置、大小、形狀、顏色和透明度屬性的高斯橢球體來表示場景,渲染速度比神經輻射場快得多,同時保持了高品質的視覺效果。類似於樂高,通過小積木塊最終搭建成完整的實體。這使其能夠生成連續的輻射場,包含空間理解、光照和深度資訊的完整環境,而不是簡單地組裝多邊形。在2026年CES大會上,李飛飛在AMD CEO蘇姿丰的主題演講中展示了Marble的能力。李飛飛說:“將少數圖片變成連貫、即時的世界,不再是對遙遠未來的一瞥,而是下一章的開始。AI 正在給人們的生活帶來一些改變,將少數圖片或照片轉化為一個即時可探索的世界。空間智能需要極致算力支援,才能實現可互動級影格率和無限持久的世界互動。”World Labs採用免費增值模式,免費版提供4次生成,20 美元每月可獲得更多生成次數,最高95美元每月提供75次生成和商業使用權。目標客戶包括遊戲開發者、影視特效製作、虛擬現實應用。而且Marble還支援蘋果Vision Pro和Quest 3 VR頭顯,每個生成的世界都可以在VR中查看。更重要的是,Marble可以匯出與Unreal Engine和Unity相容的格式,這意味著它可以無縫整合到現有的遊戲開發流程中。李飛飛曾在訪談中表示,這項技術可能顛覆Unity和Epic Games的Unreal Engine等傳統遊戲引擎。除了AIGC產業,World Labs還瞄準機器人訓練市場,通過模擬環境訓練機器人的自主導航軟體。世界模型可以為機器人提供一個安全的虛擬訓練場,讓它們在數字空間中學習物理互動、因果關係和長期規劃,然後再應用到真實世界。AMI Labs的技術優勢是什麼?但AMI Labs不像李飛飛的World Labs那樣擁有實際的產品,目前還只停留在技術概念階段。潛在投資方包括Cathay Innovation、Greycroft、Hiro Capital(楊立昆是Hiro Capital的顧問)、20VC、法國公共投資銀行Bpifrance、Daphni和HV Capital。要注意,楊立昆在AMI Labs裡擔任的是執行主席而非CEO。該公司CEO職位由亞歷克斯·勒布朗(Alex LeBrun)擔任,他是醫療AI初創公司Nabla的聯合創始人兼前CEO。LeBrun的前一家公司Wit.ai被Meta收購後,他曾在FAIR直接向楊立昆匯報。團隊還包括Meta歐洲副總裁勞倫特·索利(Laurent Solly),他於2025年12月離職加入AMI。不僅如此,AMI Labs有法國總統親自背書。法國總統馬克宏對楊立昆選擇巴黎表示自豪,承諾將盡一切努力確保他從法國取得成功。AMI Labs的核心技術是楊立昆多年倡導的聯合嵌入預測架構(JEPA,Joint Embedding Predictive Architecture)。以往的AI,都是逐token生成輸出的,然而聯合嵌入預測架構能一口氣直接以抽象表示的形式來建立世界,能夠更好地預測未來狀態。聯合嵌入預測架構的工作原理是,它不預測原始像素或token,而是預測高層次的嵌入表示。系統有兩個編碼器,一個處理上下文資訊,另一個處理目標資訊,還有一個預測器在嵌入空間中進行預測。這種方法避免了生成模型的一個關鍵問題,生成模型必須預測每一個像素或token,包括那些不可預測的隨機細節,而聯合嵌入預測架構只關注可預測的高層次特徵,忽略無關緊要的細節。楊立昆在哈佛演講中解釋,這類系統通過在嵌入空間中進行最佳化來實現規劃和推理。AMI Labs公司將推進AI研究並開發可靠性、可控性和安全性真正重要的應用,特別是工業過程控制、自動化、可穿戴裝置、機器人、醫療保健等領域。AMI Labs的第一個應用將是醫療保健。具體來講,AMI Labs通過與Nabla合作,開發臨床護理AI助手。截止發稿,這個AI助手已獲得了1.2億美元融資,預計兩年內達到1億美元年度訂閱收入。作為交易的一部分,Nabla獲得AMI世界模型的特權訪問權,而亞歷克斯從CEO轉為首席AI科學家兼董事長。亞歷克斯表示,他加入AMI的一個重要原因是將世界模型應用於醫療保健的前景,因為醫療保健的複雜性和高風險性使其成為測試世界模型的理想場景。FDA認證要求確定性、可解釋的推理,這正是LLM無法提供而世界模型承諾實現的。大語言模型存在幻覺問題,在醫療場景中可能導致嚴重後果,而世界模型通過建立對患者生理狀態的內部模擬,可以預測疾病進展,提供更可靠的決策支援。2026年1月,楊立昆還加入了另一家初創公司Logical Intelligence,擔任技術研究委員會創始主席。這家公司推出了名為Kona 1.0的能量基礎推理模型,通過對約束條件評分來驗證和最佳化解決方案,尋找最低能量也就是最一致的結果。這種非自回歸模型也和AMI Labs的聯合嵌入預測架構相似,能夠一口氣生成完整的推理軌跡。能量基礎模型是一類通過能量函數來定義機率分佈的模型。在這個框架中,每個可能的輸出都被賦予一個能量值,能量越低表示該輸出越符合約束條件。模型通過最佳化過程尋找能量最小的解決方案。這種方法的優勢在於可以同時考慮多個約束條件,並且可以進行全域最佳化,而不是像自回歸模型那樣只能做局部決策。楊立昆表示,AGI的最終狀態不會來自單一模型類別,而需要能量基礎模型、LLM、世界模型等組成的相互依存的生態系統。都是世界模型,兩家又有什麼不同?雖然李飛飛和楊立昆都在建構世界模型,但技術路線存在根本差異。由於技術還處於早期,World Labs的Marble本質上還是傳統的生成式AI方法。它確實能生成3D世界,但這些世界本身還不具備物理知識。World Labs聯合創始人在採訪中表示,Marble生成的羅馬拱門並不知道如果移除一塊磚,其他磚可能會掉落。它只是學會了羅馬拱門在視覺上應該是什麼樣子,而不是理解支撐它的物理原理。這種方法在創意內容生成方面表現出色,可以快速產出視覺上令人信服的場景,但缺乏對因果關係的深層理解。相比之下,因為楊立昆的聯合嵌入預測架構能夠直接生成完整的結果,它就能夠表示出來這裡面的因果關係。但是在市場方面,World Labs已經獲得了早期客戶。World Labs透露已有多家組織採用了Marble API。這種先發優勢使其在融資談判中佔據有利位置。World Labs明確瞄準創意產業,這些市場已經存在,客戶有明確的痛點,3D 內容製作成本高、周期長,Marble提供了立竿見影的價值。遊戲開發者可以用Marble快速生成背景環境,然後在Unity或Unreal Engine中加入互動邏輯。影視製作團隊可以用它進行虛擬場景預覽,大幅縮短前期製作時間。從商業角度看,World Labs的策略更加務實。它選擇了一個已經存在的市場,提供了一個可以立即使用的產品,並且建立了清晰的商業模式。AMI Labs有點超前,它押注於一個尚未成熟的市場,追求技術突破,給這片全新的市場帶來需求。這種方法風險更高,但如果成功,回報也會更大。李飛飛的World Labs紮根矽谷,投資方以美國VC為主,雖然也包括沙烏地阿拉伯和新加坡主權基金。這使其能夠充分利用矽谷的人才、資本和客戶網路。反觀楊立昆,他選擇巴黎作為總部,這不僅是個人偏好,更是戰略選擇。歐盟正在建立AI主權,減少對美國科技巨頭的依賴。AMI Labs獲得法國政府的高調支援,可能在歐洲監管環境中獲得優勢,特別是在醫療保健等高度監管的領域。兩家公司的人才策略也有所不同。World Labs主要招募的是大量電腦視覺和圖形學背景的研究者,這些人擅長處理視覺資料和渲染問題。AMI Labs方面則更傾向於招募有機器學習理論和物理建模背景的研究者,這些人更關注模型的數學基礎和泛化能力。李飛飛相信通過大規模資料和計算,可以讓模型學會對空間的隱式理解,即使它不明確建模物理規律。這種方法在電腦視覺領域已經被證明有效,ImageNet項目就是最好的例證。楊立昆則堅持認為,真正的智能需要顯式的世界模型,需要理解因果關係而不僅僅是相關性。他多年來一直批評純粹的生成式方法,認為它們無法達到人類水平的推理能力。所以看下來,雖然兩個人的技術完全不同,然而實際上,這兩條路之間好像也沒有那麼水火不相容。事實上,它們可能最終會融合。World Labs的生成能力可以為楊立昆的因果模型提供豐富的訓練資料,而聯合嵌入預測架構的推理能力可以增強Marble的物理一致性。AI的未來可能不是選擇其中一條路,而是找到兩者的最佳結合點。無論那條路徑最終勝出,世界模型都代表了AI從理解語言到理解物理世界的重要轉變。它意味著我們不再滿足於讓AI模仿人類的語言能力,而是要讓它理解什麼才叫客觀規律。 (新浪科技)
“AI教母”李飛飛,尋求新一輪融資
據知情人士透露,“AI教母”李飛飛目前正與投資者展開新一輪洽談,計畫為其人工智慧初創公司World Labs籌集數億美元資金。據知情人士透露,“AI教母”李飛飛目前正與投資者展開新一輪洽談,計畫為其人工智慧初創公司World Labs籌集數億美元資金。據悉,該公司最新估值有望達到約50億美元。這一新估值對World Labs來說將是一個巨大的飛躍——該公司於2024年首度亮相時曾獲得了2.3億美元融資,當時估值僅為10億美元。其現有投資者包括了風投公司Andreessen Horowitz、NEA和Radical Ventures(李飛飛在該公司擔任科學合夥人),輝達的風險投資部門也對該公司進行了投資。業內人士透露,本輪融資預計將為World Labs帶來約5億美元資金注入。但他們同時指出,交易尚未最終敲定,細節仍可能調整。目前,World Labs正致力於開發能夠在三維世界中導航並作出決策的AI工具,建構其所謂的“大世界模型”。去年11月,World Labs推出了其首款世界模型產品Marble,並將其描述為一款可以根據圖像或文字提示建立3D世界的模型。在商業模式上,該產品採用免費增值與付費訂閱結合的模式,旨在快速推向市場並建立使用者基礎。許多正在尋找下一個重大技術突破的AI投資者,當前也正積極探索能夠超越驅動ChatGPT等文字聊天機器人的大語言模型(LLM)的技術,這導致了投資人對世界模型等尚不成熟領域的興趣激增。本周早些時候的消息顯示,“AI教父”楊立昆的世界模型初創公司AMI Labs在一輪融資中也吸引了包括Cathay Innovation在內的潛在支持者,該輪融資可能使這位前Meta首席人工智慧科學家的公司估值達到35億美元。被譽為“AI教母”的李飛飛,因其在2006年領導具有歷史意義的ImageNet項目而聞名。這個包含超過1500萬張圖像的可視化資料庫,能幫助電腦像人類一樣“觀察”世界,並為一波AI發展浪潮打開了大門。除創業工作外,李飛飛目前還是史丹佛大學教授,也是史丹佛“以人為本”人工智慧研究院的創始聯席院長。World Labs的其他機構投資者目前還包括沙烏地阿拉伯投資公司Sanabil和新加坡國有投資機構淡馬錫控股。World Labs在2024年融資輪的個人投資者,則涵蓋了GoogleDeepMind首席科學家Jeff Dean、演員兼投資人Ashton Kutcher,以及因推進機器學習領域工作而聞名的前GoogleAI研究員Geoffrey Hinton。李飛飛去年12月曾表示,她在為自己的科技初創公司招聘軟體工程師時,更看重候選人的AI技能,而非大學學位。她不會錄用那些不願擁抱AI工具的軟體工程師。 (科創板日報)
和馬斯克、黃仁勳一起入選2025年度人物,李飛飛憑什麼?
“如果有一天我去領取諾貝爾獎,我一定要以中國人的身份”你敢相信嗎,說出這句話的這個女人,16歲才開始系統學英語,17歲還在美國中餐館後廚刷盤子。卻在不久前,登上《時代》雜誌2025年度人物封面,和馬斯克、黃仁勳、奧特曼等科技大佬一起被評為“人工智慧的締造者”。她叫李飛飛,一位華裔女性科學家。在人人都不看好人工智慧的年代,她僅靠兩人團隊,不到三年就搞定了業內公認“20年不吃不喝才能完成”的壯舉:建立ImageNet,一個包含1500萬張標註圖像、覆蓋2.2萬個類別的視覺資料庫,沒有它,就沒有今天的AI浪潮。黃仁勳解決了算力,辛頓解決了演算法,而李飛飛提供了資料集,給了AI一雙“看見世界的眼睛”。李飛飛的故事,是一場硬生生砸開AI世界大門的突圍。她闖入的,不僅是一個由男性主導的科技領域,更是一個長期被西方話語壟斷的學術世界。2006年,她拒絕了麥肯錫開出的天價offer,一頭紮進當時“冷門中的冷門”領域:電腦視覺。那時沒人相信,機器人能“看懂”世界。光是識別一條狗,全球就有1400多種,體型、毛色、姿態千差萬別,真要較真起來,簡直是“子子孫孫無窮無盡”。同行勸她換賽道,這樣拉不到經費,更評不上教授。她在自傳中寫道:“我聽到的勸阻之聲,已經夠用一輩子了,可能下輩子也夠了。”但她有一種前所未有的自信——她們正在做一件歷史性的大事。沒人投資?她自掏腰包。沒人看好?她拉來一位學生助理,組成兩人小團隊。然而現實遠比理想殘酷。研究停滯不前,連她導師的導師吉滕德拉也勸她:別太超前。身為亞裔女性,在白人男性主導的學術圈裡,她承受著雙重偏見。那是她的至暗時刻:財務岌岌可危,團隊隨時散夥。但她沒有退縮。為了建構高品質資料集,她從網上下載近10億張圖片,通過亞馬遜眾包平台,動員近5萬名志願者,篩選、整理、打標籤……短短三年,ImageNet誕生了!機器能像人一樣“看世界”的科幻,第一次變成現實。靠著ImageNet,默默無名的辛頓驗證了神經網路演算法的有效性,一躍成為“AI教父”,徹底引爆AI浪潮。黃仁勳解決算力,辛頓突破演算法,李飛飛提供資料——三要素齊備,人工智慧時代起飛!那個曾受盡白眼的女人,也成了今天的“AI教母”。33歲,她成為史丹佛最年輕的終身教授;2021年,45歲的她當選美國“三院院士”,成為極少數獲此殊榮的華裔女性;2025年11月,她與黃仁勳、辛頓共獲“工程界諾貝爾獎”——伊麗莎白女王工程獎,她是唯一女性。而今年《時代》封面的設計耐人尋味:李飛飛只露出半個身子,祖克柏身旁卻空出半席。是邊緣化?被忽視?都不是。這是一種無聲的宣告——在AI的下半場,她的探索,或許正定義著未來的方向。當全世界都在狂捲大語言模型時,她反問:AI真的理解世界嗎?一個只會處理文字的AI,那怕能寫詩、程式設計、辯論,也只是“黑暗中的文豪”——它看不見杯子為何會摔碎,不懂人如何行走、抓取、互動。這樣的AI,無法真正落地。於是2024年,她創立新公司World Labs(估值已破10億美元),全力投入“空間智能”研究。目標是建構“世界模型”——讓機器人從執行者變成思考者,在行動前就能推演:“如果我往前跑,這個花瓶會碎嗎?我要繞行。”“地上有水,我會滑倒嗎?我要擦乾。”一旦成功,機器人走進家庭,就不再是幻想。這比堆參數難得多,卻是通向通用人工智慧的關鍵一步。有人翻遍她的履歷,找不出一絲瑕疵,便拿國籍說事。但很多人不知道——早在2001年,李飛飛就堅定地說:“如果有一天我去領取諾貝爾獎,我一定要以中國人的身份。”在普林斯頓,她牽頭舉辦“南京大屠殺”國際會議,邀請全球300多名學者參與,耗時數年將資料編纂成書。她只有一個信念:“我不能讓世界忘記這段歷史。”在Google擔任副總裁時,她力排眾議,推動GoogleAI中國中心在北京成立——這是Google在亞洲設立的第一個AI研究中心。從刷盤子的少女,到AI時代的奠基人,李飛飛的故事,不是天賦異稟的神話,而是一個普通人,用不信命的倔強,在偏見、質疑、孤獨中,一步步鑿穿天花板的史詩。她證明了:女性可以站在科技之巔,華人可以定義未來方向。 (星海情報局)
【CES 2026】黃仁勳與李飛飛,讓AI不止於“動嘴”
在最新的CES 2026上,輝達(NVIDIA)首席執行長黃仁勳發表了主題演講。這次發佈會被業界視為從“生成式AI”轉向“物理AI”與“推理型AI”的歷史性節點。在本地發佈會上,黃仁勳宣佈Vera Rubin平台全面量產:作為Blackwell 的繼任者,Rubin架構正式亮相併宣佈已進入全面投產階段,預計2026年下半年交付。其推理性能是前一代Blackwell的5倍,訓練性能是Blackwell的3.5倍,生成AI Token的成本直接降低至原來的1/10。最關鍵的是,黃仁勳在演講中強調,AI的下個階段是物理AI,不僅要懂語言,也要懂物理世界,並行布了三款平台或應用模型:1. Cosmos物理AI平台:輝達發佈了Cosmos系列基礎模型(包括 Reason2、Predict2.5等)。它能通過視訊和遙測資料學習物理規律,在虛擬的 Omniverse 空間中生成大規模合成資料。這意味著 AI 不再只是“猜下一個詞”,而是能理解重力、碰撞和物體的物理屬性。2. Alpamayo推理型智駕模型:這是首個具備“思考”能力的自動駕駛模型。它不再僅僅依賴預設規則,而是能像人類一樣對複雜長尾場景進行邏輯推理。黃仁勳宣佈,首款搭載該全端系統的梅賽德斯-奔馳CLA將於 2026 年第一季度在美上路。3. Project GR00T 進階:黃仁勳現場展示了十余台人形機器人。輝達的目標是成為通用機器人的“Android”,通過提供 Isaac 平台和開源模型,降低機器人研發門檻。這些都意味著,物理AI迎來了“ChatGPT”時刻,當AI能夠理解物理世界並具備推理能力時,具身智能(Embodied AI)將迎來爆發,機器人可能將像智慧型手機一樣普及。而Alpamayo則意味著智駕有了一條新路。過去自動駕駛依賴於海量資料“喂養”,而現在通過推理模型,車輛可以處理從未見過的極端情況。這標誌著全自動駕駛真正具備了商用落地的可能性。此外,黃仁勳在會上多次點名表揚了包括中國DeepSeek R1在內的開源模型。他認為開源模型與閉源模型的差距正在縮短,輝達通過開源 Alpamayo和Cosmos平台,試圖建構一個由其晶片驅動的全球開放生態。2026年的輝達已經不再只是一家晶片公司,它正試圖通過整合Rubin硬體、Cosmos物理大腦和Alpamayo推理系統,定義未來十年“物理智能”的底座。輝達的物理AI,和李飛飛的“世界模型”有什麼聯絡?一些朋友可能會問,輝達的物理AI和李飛飛提出的世界模型有什麼關係?是一樣的原理嗎?是否是競爭對手?我個人認為,他們在底層邏輯上是同源的,但在實現路徑和商業生態位上有不同。他們都認為,AI必須從“文字的符號世界”進化到“三維的物理世界”。李飛飛的World Lab目的應該是建立一套理解現實世界的模型架構,兼具學術與實用目的,而輝達的目的是實現物理AI世界的作業系統。World Lab應該更聚焦在演算法突破,而輝達則聚焦在建立開源標準和打造工具鏈。它們會競爭“物理AI”的定義權,但在硬體上也有合作與互補的一面,畢竟輝達有晶片和開源系統。相比李飛飛更偏學術和通用性的“世界模型”,輝達在2026CES發佈的Cosmos和Alpamayo更偏工程落地。總之,一個偏抽象化,讓AI看懂世界,另外一個偏具象化,教AI開始玩轉世界。但他們的目標,都想要AI落地現實世界,而不僅是動嘴,只是從產學研不同角度切入。比起競爭,更重要的是,物理AI正在把世界模型從“AI的一種研究方向”,升級為“下一代AI的核心基礎設施”。未來人類除了靠自己,還會有更厲害的幫手,而決定一切的方向,也是在人類手中。 (首席商業評論)
【CES 2026】美國CES展開幕,14句重要論斷
“在這些演講中,物理AI、混合AI、空間智能等幾大焦點,並非割裂,而是一個協同進化的生態系統。”拉斯維加斯,飛機已落地,開年第一周,許多人奔赴CES,一年一度的科技春晚拉開序幕。這幾日的焦點,在人和他們說的話。1月4日、5日,展會正式開始前兩天,是CES的媒體日,許多公司會選擇在此時發佈新品。與往年一樣,這兩天幾乎變成了一場全球AI頭部公司的“掌門人峰會”:輝達創始人黃仁勳、AMD董事長蘇姿丰、英特爾CEO陳立武、聯想集團CEO楊元慶、高通CEO克里斯蒂亞諾·阿蒙……紛紛亮相併發表演講。但這些演講並不止於新品發佈,更像是一次對企業技術路徑和產業佈局的表態,每一句判斷,都會被世界反覆拆解、思考。對此,資深科技自媒體人莊明浩表示,CES本來是消費電子展,但看輝達和AMD,尤其是黃仁勳的演講,其實基本上已經完全沒有針對“消費市場”的內容描述,全部都是當前AI敘事下,資料中心所需要的GPU,以及所謂“物理”世界極限這樣的宏大命題,我們人類的消費品似乎真的已經不那麼重要了。而隨後四天,當主舞台的燈光逐漸暗下,展館的大門一扇扇打開,CES的正式展期才剛剛開始。據報導,超250萬平方英呎的展區,吸引了全球超過4000家參展企業和十幾萬參會者。機器人、AI PC、智能眼鏡等最熱門的科技產品,都將在此亮相。CES 2026開幕中國企業的身影同樣密集。既有聯想、海信、TCL等老牌廠商,也有宇樹科技、智元、雲深處等機器人公司,在洗地機、割草機、爬樓機、泳池清潔機等細分領域,中國廠商的身影也不會缺席。正如黃仁勳在演講中反覆強調的那樣:“AI競賽已經開始,所有人都在努力達到下一個水平。”那麼,在第一天的多場主題演講中,各大AI企業的掌門人都是如何解讀行業趨勢,又是如何描繪各自企業的未來藍圖?據未可知人工智慧研究院院長杜雨所總結:黃仁勳的核心邏輯是AI必須理解物理世界的常識,才能真正與現實世界互動。從商業邏輯來講,現實世界的天花板比線上世界更大。黃仁勳這次穿上了鱷魚皮英特爾強調混合AI和端側,本質上是現實世界有很多場景是需要端側AI的,比如醫療、金融、工業,強調資料隱私、低延遲、零斷網。AMD的蘇姿丰說未來幾年計算能力需要再提升100倍,本質上是在解決“算力荒”的問題。AMD的戰略是用更高性價比的算力,搶奪輝達的資料中心市場。應蘇姿丰邀請而來的“AI教母”李飛飛,則再次強調了“大語言模型終究受制於語言本身”這個天然的侷限性,她認為,語言是用來描述世界的工具,但不是世界本身。從物理AI、混合AI、端側AI,到算力、空間智能、AI代理……在這些主題演講中,或新或舊的概念,共同勾勒出了未來AI發展的全景圖。我們整理了十四句與未來AI發展有關的金句,它們為這個飛速發展的AI時代留下了一個小小的時間標記,留待未來驗證。同時,我們也邀請了相關領域的專家,對這些洞見發表了各自的看法。十四句金句整理1.“物理AI的ChatGPT時刻即將到來。”——黃仁勳2.“物理AI的突破,讓AI從螢幕走向了我們的物理世界——這恰逢其時,因為世界正在建設各種各樣的工廠,用於晶片、電腦、救命藥物和AI。隨著全球勞動力短缺的加劇,我們比以往任何時候,都更需要由物理AI和機器人技術驅動的自動化。”——黃仁勳3.“今天我想要談一點AIpamayo,這是我們在自動駕駛汽車方面所做的工作——我們不僅開源了模型,還開源了我們用來訓練這些模型的資料。因為只有這樣,你才能真正信任模型的來源。我們開源所有模型,我們幫助你們從中製作衍生品。”——黃仁勳4.“如果你看世界的模型,OpenAI生成的Token比其他任何模型都多,而第二大群體,可能是開源模型。我的猜測是,隨著時間的推移,開源模型可能會成為第一名。”——黃仁勳5.“我們相信,隨著人工智慧能力的不斷提升,本地化計算只會變得越來越重要,第一,本地化程度越高,延遲就越低,因此性能也越好;第二,AI越本地化,就越安全,也越真正“屬於你”;第三,AI推理每一次都要花錢,雲端集中計算存在成本與頻寬瓶頸,而本地化計算通過減少傳輸和基礎設施依賴,能顯著降低整體成本;第四,對企業而言,本地計算的核心價值不在性能,而在於讓資料、智能與控制權重新回到自己手中。”——Perplexity CEO斯里尼瓦斯6.“混合人工智慧時代開啟……本地AI安全地執行任務,將資料保留在機器上,而云端AI則負責全域推理、規劃和多智能體編排。”——英特爾戶端計算事業部高級副總裁吉姆7.“你將在智慧城市、工廠、醫療保健和各種自動化系統等關鍵領域中,看到數百種不同外形尺寸的邊緣裝置,它們需求巨大且不斷增長。”——英特爾戶端計算事業部高級副總裁吉姆8.“AI的使用者數量,已經從最初的100萬人,躍升至如今超過10億活躍使用者……我們預計,AI的活躍使用者數量將增長到超過50億人,AI將真正融入我們生活的方方面面,就像今天的手機和網際網路一樣。”——蘇姿丰9.“我們現在擁有的算力,遠遠不足以支撐AI能做到的一切……為了讓AI無處不在,我們需要在未來幾年內將全球算力提升一百倍,或者在未來五年內提升超過十倍。”——蘇姿丰10.“未來,一個國家的GDP增長,很大程度上將由其可用算力決定。”——OpenAI總裁格雷格11.“讓我興奮的是,現在出現了新一代人工智慧技術,包括具身人工智慧和生成式人工智慧,我們終於可以賦予機器更接近人類水平的能力——空間智能。”——李飛飛12.“我們正在從‘被動理解世界的系統’,走向‘幫助我們與世界互動的系統’。”——李飛飛13.“如今大多數AI助手都是反應式智能體,你打開一個應用程式,然後提問以獲得回應,但是當AI在裝置上快速運行且始終處於開啟狀態時,它就可以主動為你執行任務。”——Luma AI CEO阿米特14.“2026年將是AI代理元年,AI將能夠幫助你完成更多工,甚至有望完成整個任務的端到端,而不是僅僅做一些零碎的工作。”——Luma AI CEO阿米特大頭有話說胡延平上海財經大學特聘教授智能科技產業與智能經濟研究學者黃仁勳所言“物理AI的ChatGPT時刻到來”,如果更具體地定位,2026年可能是物理AI的GPT3—GPT3.5時刻,也就是進步顯著,但還不能給予過高的預期,尤其機器人的“大腦發育”。不過,自動駕駛的L3量產時刻今年到來,這一點是比較確定和樂觀的。此外,AMD和輝達都在強調從晶片到主機和叢集的全端AI能力,產品從晶片算力、開發環境到垂直應用,面向多個垂直場景全線佈局而非單點突破。尤其AMD後起直追,在已經實現從資料中心到個人裝置的完整AI佈局的基礎上,產品性能又有顯著提升。李飛飛展示了World Labs旗下首款商用世界模型Marble,目標是生成持久存在、可導航且一致的三維世界,助力人類的創造力而不是替代人,也和她過去提出的“以人類為中心”的AI發展理念相契合。李飛飛發表演講接下來,這屆CES 2026我會關注五個重點:一是機器人等具身智能,二是智能眼鏡等智能裝置,三是智能駕駛L3產業鏈,四是訓練與推理計算架構以及終端與邊緣AI算力變化,五是在感測演算法基礎上模型能力的注入給智慧健康領域帶來的變化。AI產業鏈意義上的“AI中國鏈”已經成型,AI技術與應用意義上的“AI中國環”也已經閉環,中國企業在推出琳瑯滿目的創新產品的同時,有希望為世界提供更多解決方案。杜雨未可知人工智慧研究院院長中國社會科學院技術經濟學博士幾場演講聽下來,我的感受是,“算力軍備競賽”已經白熱化。三家巨頭都在強調算力,但路徑完全不同:輝達追求絕對性能,AMD追求性價比,英特爾追求邊緣普及。這讓我想到近期扎堆上市的國產GPU四小龍,也是各有千秋。這也意味著未來2—3年,晶片價格戰、性能戰會非常激烈,對創業公司和企業客戶是重大利多——算力成本將大幅下降。中國在晶片製造上短期追不上,但在AI應用硬體上很猛。CES展會現場的機器人企業中,中國企業佔到一半以上,宇樹人形機器人、智元機器人、追覓掃地機器人,全是中國的。機器人還只是典型代表之一。這是因為中國市場大、場景多、迭代快。因此,我對中國創業企業的建議是:錯位競爭、長期主義。張孝榮深度科技研究院院長演講中,黃仁勳的觀點不僅是技術升級,更是範式轉移。以前的AI是“鍵鼠互動”,現在的AI是“視覺和語言互動”,而黃仁勳定義的“物理AI”是“行動互動”。他通過Cosmos模型(看視訊學物理規律)和Newton引擎(即時物理計算),試圖解決AI的“幻覺”問題——讓機器明白“水是流體、玻璃是脆的”。這是為了讓AI能在工廠和家庭中安全地幹活,而不僅僅是寫詩畫畫。AMD和英特爾兩家都迴避了與輝達GPU的直接競爭,各自另闢蹊徑:蘇姿丰展示了AMD在AI產業鏈中的位置。她強調的Helios系統和針對PC的Ryzen AI 400系列,傳遞出一個明確訊號:算力競爭是持久戰,AMD已經準備好接招,且更注重端側和成本效益。AMD的策略更像是“務實的理想主義者”,強調的“突破算力瓶頸”,本質上是降低AI的使用門檻。如果算力成本降不下來,中小企業玩不起,AI生態就會枯萎。蘇姿丰介紹AMD Instinct MI455X GPU英特爾強調的“本地計算”,其實是在輝達強大的雲端壟斷下,尋找一條讓AI落地到普通使用者手中的差異化生存之路。英特爾確實是在打一場“防禦戰”,但也是一場“必贏之戰”——它們看到了一個痛點:並非所有AI任務都需要去雲端。隱私問題(如家庭監控)、延遲問題(如遊戲響應)、成本問題,都要求算力下沉。英特爾通過在PC和邊緣裝置部署NPU(神經網路處理單元),是在建構AI時代的“毛細血管”。如果AI只存在於雲端巨頭手裡,那是不健康的;英特爾在試圖讓AI真正“無處不在”。幾場演講的核心概念,物理AI、本地計算、突破瓶頸、空間……勾勒出了AI從“雲端大腦”走向“實體世界”的完整路徑。結合CES 2026的風向,我對未來的感受可以用三個詞概括:“智能體、具身智能、技術方案”。1.AI將從“對話方塊”裡走出來:未來不再只是Copilot(副駕駛),而是Co-worker(同事)。我們期待看到AI智能體(Agent)能幫我們訂票、操作軟體,甚至通過機器人幫我們打掃房間。2.硬體形態的爆發:2026年將是人形機器人和AI定義汽車大爆發的一年。我們將在工廠和道路上看到更多形態的AI物理實體。3.成本的下降:隨著輝達Rubin架構和AMD/Intel方案的推出,AI推理成本將大幅下降。這意味著我們將看到更多便宜好用的AI應用,而不僅僅是昂貴的奢侈品。劉興亮知名數字經濟學者工信部資訊通訊經濟專家委員會委員在這些演講中,物理AI、混合AI、空間智能等幾大焦點,並非割裂,而是一個協同進化的生態系統。AMD和輝達在雲端提供近乎無限的算力,驅動模型變得無比強大,然後,這些能力通過英特爾的混合架構和李飛飛所展望的多模態模型,分發到我們身邊的裝置上,最終通過輝達倡導的物理AI和機器人技術,在現實世界中產生價值。在這個宏大的圖景中,中國企業絕非旁觀者,而是至關重要的參與者,並有望在以下幾個領域扮演關鍵角色:應用創新的主戰場:中國擁有世界上最龐大、最多元的應用場景和市場需求。在電商、社交、移動支付、智慧城市、製造業等領域,中國企業可以將全球領先的AI基礎模型和硬體,與本土化的深刻洞察相結合,催生出世界級的AI應用創新。例如,在AI賦能供應鏈、個性化推薦、工業自動化等方面,中國有巨大優勢。硬體產業鏈的關鍵一環: 中國在全球電子製造和供應鏈中佔據核心地位。從伺服器製造、AI終端裝置(PC、手機、機器人)到資料中心建設,中國企業是將先進AI技術轉化為實體產品並實現大規模交付不可或缺的力量。特定領域的技術突破者: 在AI晶片設計(如華為昇騰、寒武紀等)、自動駕駛(如百度Apollo、小鵬、華為Inside模式)、機器人等領域,中國企業已經積累了深厚的技術實力。面對國際競爭,他們有望通過聚焦特定垂直領域,實現差異化的技術突破,並依託國內市場形成規模效應。開源生態的積極貢獻者: 越來越多的中國科技公司擁抱開源,向全球貢獻程式碼、模型(如DeepSeek)和資料集。這有助於提升中國在全球技術社區的影響力,並從協作中獲益。CES 2026描繪的未來是清晰而激動人心的。中國企業需要發揮自身在市場、供應鏈和應用創新上的優勢,一方面積極融入全球技術生態,另一方面勇於在核心技術上攻堅克難。未來的AI世界,必將是一個多極、協作、充滿競爭的精彩舞台,中國企業註定是台上的主角之一。 (吳曉波頻道)
【CES 2026】OpenAI、李飛飛同台,Lisa Su:AMD AI 晶片走到關鍵一步
2026 年 1 月 5 日,CES 開場。AMD 董事長兼首席執行長 Lisa Su 站上主舞台,沒有任何鋪墊,直指本質:AI 是過去 50 年最重要的技術。但她這次不是來講遠景的,而是帶著完整方案來的。不只是晶片,而是一整套工業級平台:面向資料中心的 MI455X,3200 億電晶體;面向企業部署的 MI440X,主打推理與節能;還有她這次主推的 Helios,為 Yotta 級 AI 時代打造的機架級平台。這不是在升級顯示卡,而是在重新劃出一個產業分界線。為了證明這不僅是 AMD 自說自話,Lisa Su 請來了一批頂級 AI 使用者同台背書:OpenAI、World Labs、Luma、Liquid、Absci 等行業領軍者,現場展示他們如何將核心業務部署在 AMD 平台上。更關鍵的是,Lisa Su 還預告了下一代 MI500 系列將在 2027 年登場,四年內性能增長 1000 倍。第一節:Yotta 級算力缺口,逼出新的產業邏輯過去一年,AI 模型變得更聰明了,但對算力的需求也更大了。2022 年全球 AI 運算需求是 1 Zettaflop,2025 年預計要超過 100 Zettaflops,Lisa Su 給出的預測更為大膽:未來五年,全球算力要再提 100 倍,邁向 10 Yottaflops。Yottaflop 是什麼概念?一個 Yottaflop 是 1 後面帶 24 個零,是現在全球算力的上萬倍。 這就像過去幾十年所有計算升級的總和,需要在五年內完成。這預示著未來 AI 應用將全面爆發:生成視訊:一個 10 秒視訊動輒十萬個 token,遠超文字模型;多模態智能體:不僅看圖、寫文、識音,還要自動調度工作流;企業部署:每個公司不再只要模型,還得有配套的開發工具和本地 AI 支援。這一趨勢在 OpenAI 總裁 Greg Brockman 那裡得到了資料印證:推理量兩年激增 100 倍的現實,讓“人手一個後台 GPU”的願景受困於基建短板。模當大模型從“嘗鮮”變成“常駐”,算力系統面臨的考驗也隨之升級:它不再需要為了跑分而生的短跑冠軍,而是需要能長期線上、安全維穩的馬拉松選手。這迫使晶片廠商重新思考產品形態:不是做出最強一顆晶片,而是建構起能支撐 AI 工業化的全套基礎設施:每個托盤能承載多顆 GPU、CPU、NPU 協同工作;每個機架能無縫擴展為成千上萬個單元的 AI 工廠;網路、記憶體、冷卻、供電都得為高密度、低延遲重構。這就是 AMD 推出 Helios 架構的核心思路:不靠一顆 GPU 單打獨鬥,而是打造一套可規模部署、長期線上、靈活適配的 AI 基礎設施。每個 Helios 機架擁有:超過 18,000 個 CDNA 5 GPU 計算核心;4,600 多個 CPU 核心;31TB HBM4 高速視訊記憶體;每秒 2.9 Exaflops 的運算能力。它不再是晶片堆疊,而是 AI 工業化的生產線。這一節,AMD 沒在講性能天花板,而是定了一個新基礎:如何讓 AI 成為真正能用、高性價比、工業級穩定的算力系統。第二節:Helios 不是最強機器,是能量產的標準件這次 CES 上,Lisa Su 發佈的不是一塊晶片,而是一整個計算工廠。舞台上,AMD 首次展示了 Helios,一個重達 3 噸的機架級計算平台,專為 AI 工業化設計。Helios 的三個關鍵詞:1、整合每個計算托盤,包含:4 塊 MI455X GPU,搭載 3200 億電晶體、432GB HBM4 高頻寬記憶體;1 顆 Venice CPU,擁有多達 256 個 Zen6 核心;1 顆 Pensando 網路晶片,負責資料流通。托盤之間通過 Ultra Accelerator Link 相連,72 塊 GPU 在一個機架內協同工作,形成統一的計算單元。而托盤 + 冷卻 + 電力 + 網路 + 算力調度,全都打包到一個整機裡。 不是一堆零件,而是一個能直接投產的 AI 工段。2、模組化Helios 沒選封閉架構,而是用的 OCP(開放計算項目)標準。每個元件都能替換、升級、擴展。更像一個搭積木的系統,而非一次性封裝的黑盒。這對大型 AI 公司很關鍵,模型還在快速進化,不能每次都從頭再建一套資料中心。Lisa Su 給出了 Helios 的定義:不是做一台最強機器,而是做一個能量產的算力範本。3、效率Helios 全液冷,能在高密度負載下保持穩定。每個機架配有 31TB 視訊記憶體,機架內部頻寬達 260TB/s,對外連接頻寬 43TB/s。AMD 還專門強化了 ROCm 軟體棧,能相容主流開源 AI 框架,如 PyTorch、vLLM、SGLang。開發者無需改程式碼就能上手。相比之下,NVIDIA 的 DGX 系列更強調整體性能,而 Helios 更注重模組化和開放性,是為整個行業打造的通用標準件。Lisa Su 不想讓客戶適配 AMD,而是要讓 AMD 適配客戶。這不是單機性能的發佈,而是一次架構觀的轉變。OpenAI 用 MI455 加速推理;Meta 和 AMD 聯合設計 Helios 架構;主要雲服務商正在將 Helios 納入新一代 AI 基礎設施。Helios 不再是一個產品,是下一輪 AI 工業化的最小構件。AMD 在發佈一個能複製的生產線,一個可以為 AGI 世界裝配的底層模組。第三節:OpenAI、Luma、李飛飛,為什麼選 AMD這次 CES 舞台上,AMD 不是在跟隨競爭,而是在定義新標準。過去兩年,大模型發佈節奏越來越快,但 AI 真正運行的地方,已經不是發佈會,而是後台:Greg Brockman:我們正從單純的被動問答,進化為自主執行複雜工作流。未來每個人都將擁有背景執行的 10 個智能體。那不再是臨時呼叫 AI,而是 AI 全天線上,背後對推理晶片提出了全新壓力。1、智能體不是概念,已經在現場運行了AI視訊公司 Luma CEO 的回答更有說服力:一段視訊模型推理 10 秒,Token 數量能達到 10 萬個。他們已經把模型部署到生產線上:一年時間內,Luma 有 60% 的推理負載遷移到了 AMD 平台;大模型只是起點,接下來的任務都是智能體結構;這些智能體不僅是回答問題,而是能修改世界、編輯視訊、自動創作一整部電影。而當這些任務真正落地時,GPU 的經濟性變得比絕對性能更重要。2、 Liquid AI:AI 的下一個入口,是主動助手MIT 孵化公司 Liquid AI 聯合創始人 Ramin Hasani 在正式推出兩款核心產品:一個是 LFM 2.5:12 億參數的小模型,在本地裝置上完成指令跟隨,在指令遵循能力上超過 DeepSeek 和 Gemini 2.5 Pro;另一個是 LFM 3:能聽、能看、能說、能即時翻譯的多模態助手,延遲低於 100 毫秒。這不是在雲上訓練模型,而是直接在筆記本本地運轉,持續監聽、協助使用者。Ramin 說:“現在,不是人類在召喚 AI,而是 AI 在默默為你做事。”這對晶片的要求,已經從模型規模大小,轉向部署速度、離線能力和功耗控制。3、 李飛飛帶來第三種維度:空間智能 + 世界建模World Labs CEO 李飛飛展示了另一種“AI 互動的新範式”的可能性。只需一張普通照片,模型就能還原完整 3D 空間,不只是識別房間,而是“建立世界”:將圖片輸入模型後,可以生成多個 3D 結構版本;即時拖動、編輯、重建世界細節甚至能把拉斯維加斯威尼斯人酒店的一張圖,生成可遊覽的完整空間世界。李飛飛強調:“人類的理解從不是文字開始,而是空間與動作。真正通用的 AI,必須能理解物理世界。”而空間智能的落地,需要高頻寬、低延遲、大記憶體、高並行,這些需求不是傳統圖形處理可以滿足的。三個案例,指向同一個趨勢: Luma 看重成本,Liquid 看重即時性,World Labs 看重大記憶體。這意味著算力競爭的邏輯變了:從比拚參數,變成了比拚體系。AMD 正在將硬體重塑為 AI 的“作業系統”,成為支撐萬物智能的算力底座。第四節:從雲到端,AI 落地的最後一公里如果說 Helios 是主電站,那麼接下來的問題就是:電怎麼輸送下去,怎麼在每個終端點亮。AI 要無處不在,需要把算力帶到雲端之下的每一層。個性化、現場化、連續性,是這個過程的三個關鍵詞。從醫院、工廠、學校,到你桌上的那台電腦,AI 要進入真正複雜的人類環境。1、從 AI PC 到 Halo:把 AI 帶到桌面過去兩年,大語言模型幾乎都在雲上運轉,但這帶來兩大問題:成本高,每次呼叫都要顯示卡費用;延遲長,每次問答都要聯網。AMD 推出 Ryzen AI Max 和 Halo,就是要把 AI 搬到本地。Ryzen AI Max 配備 128GB 統一記憶體,能在本地運行 200B 參數模型,讓創作者和開發者可以在工作站上直接部署 AI 工具。性能上,它在高端筆記本場景超過 MacBook Pro,在小型工作站場景以更低價格達到 NVIDIA DGX Spark 的性能,運行 GPT 開源模型時每美元每秒生成的 Token 數是後者的 1.7 倍。Halo 則是世界最小的 AI 開發機,手掌大小卻能運行 200B 參數模型,預裝 ROCm 軟體棧,專為開發者和研究團隊設計。關鍵技術是 AMD 把 CPU、GPU 和 NPU 做成統一記憶體架構,三者直接共享資料。這意味著你在筆記本上呼叫 Copilot、摘要會議、編輯視訊,都可以完全離線完成。2、醫療:AI 已經在救人OpenAI 總裁 Greg Brockman 講了個假期真實案例:有人腿疼,醫生初診說沒事,回家用 ChatGPT 輸入症狀,建議立即回醫院。結果是嚴重血栓,如果沒有 AI 提醒可能致命。醫療行業已成為 AI 落地最快的領域之一。現場三家公司展示了實際應用:Absci 用 AI 從零設計新藥,使用 AMD MI355 單日篩選超過 100 萬種候選藥物,攻克脫髮和女性健康疾病。Illumina 每天產生超過 YouTube 的測序資料量,用於癌症早篩和精準醫療,系統使用 AMD EPYC CPU 和 FPGA 即時處理。AstraZeneca 大規模使用生成式 AI 設計分子、篩選藥物,候選藥物交付速度提升 50%,臨床成功率也在提高。這些公司把 AI 當作主力工具,而不是在試水。3、工業機器人:邊緣 AI 的觸覺協作Generative Bionics 創始人 Daniele Pucci 帶來了人形機器人 Gene One。它能感受人手的力度、方向和協作意圖,這背後是觸覺反饋和即時決策能力。AMD 提供了完整算力路徑:機器人本體用 Ryzen AI Embedded 和 Versal Edge 晶片,模型訓練用 MI 系列顯示卡,多機協作靠 Pensando 網路晶片。邊緣裝置的 AI 不能等待聯網,必須本地決策、立刻響應。這就是 AMD 從雲到端的連續計算結構。4、新興場景:不能等、不能斷、不能慢除了雲端和邊緣,AI 正向更多新興場景滲透。空間智能、機器人導航、虛擬世界建構,都需要高頻寬、低延遲、大記憶體和即時響應。這些場景的共同特點是:不能等,不能斷,不能慢。5、AI 落地的未來:從標準晶片變成場景原生平台這一整輪發佈,其實是 Lisa Su 帶領 AMD 轉型的路線圖。在雲端,Helios 機架、MI455 顯示卡和 Venice CPU 構成了大規模訓練與推理的基礎設施,服務 OpenAI、Meta 等頭部 AI 公司。在企業級,MI440X 和 MI430X 提供更高精度的計算能力,專門面向主權 AI 和超級計算場景,滿足科研機構和政府部門的需求。在開發層,Ryzen AI Max 和 Halo 讓開發者能在本地進行模型開發和智能體原型驗證,不必每次都依賴雲端資源。在消費端,Ryzen AI 400 系列處理器讓普通 PC 也能運行 Copilot、主動助手和內容創作工具,把 AI 真正帶進日常生活。從雲到端,AMD 不是在賣晶片,而是在鋪設 AI 時代的基礎設施。結語:把晶片做成地基MI455 是晶片,Helios 是平台,但真正讓 AMD 搶佔位置的,是 Lisa Su 給出的產業邏輯:不是建一台最強機器,而是搭一套能量產的工業系統;不是問能跑多大模型,而是問能不能支撐百萬級智能體同時工作。OpenAI 訓練模型,Luma 生成視訊,Absci 設計新藥,Generative Bionics 驅動機器人。而 AMD,正在成為這一切背後的算力基礎設施。2026 年這場 CES,Lisa Su 押注的是最底層的命題:讓 AI 真正落地,既要性能夠強,也要成本可控,還要長期穩定。 (AI 深度研究員)