#語言
蘋果年度 App 出爐!女兒想學單詞,他直接做了個 AI 神器 | 對話 CapWords
2025 年接近尾聲,蘋果2025 年 App Store Awards 獲獎名單也揭曉了,年度 App 給了《CapWords》這個國產寶藏應用。CapWords 是一款語言學習工具,在今年的蘋果設計獎中它就是獲獎名單上第一個國產應用。它憑什麼呢?你隨手拍張照,AI 就能幫你把身邊的東西變成單詞卡。比如拍個咖啡杯 ,它直接告訴你英文、法文怎麼說,還能生成設計感線上的貼紙。不知道大家有沒有同感,很多時候在 app 上背的單詞總感覺離生活太遠,和自己關係不大,彷彿學的是一個個抽象的英文字母組合而不是一個單詞。而 CapWords 反客為主,讓使用者主動去學習生活中物品的單詞,還能有助於聯想記憶,整個玩法也很有樂趣,頗有《寶可夢》中小智收集寶可夢圖鑑的感覺。APPSO 之前對 CapWords 做過體驗,大家可以感受一下👇除了名詞,現在動詞形容詞都能認,甚至 Live 圖和視訊也能識別。還能列印成實體卡片,儀式感拉滿。APPSO 也專訪了 Capwords 開發者,聊聊語言的門檻被 AI 「踏破」之後,我們和語言之間,究竟還剩下些什麼。這不只關於技術和產品,Capwords 創始人 Ace 最開始是為了幫女兒 Dorothy 學習才做的這個 App,他從生活場景中尋找記憶錨點,這大概就是技術的浪漫。對話 Capwords 開發者:詞彙是和生活「摩擦」這款接連斬獲蘋果設計大獎和 App Store Awards 的產品叫做「英語學習工具」,顯然太過侷限。Capwords 更像是一件關於語言、記憶和生活場景的裝置:拍照即識別,貼紙設計,搭配活潑輕盈的視覺風格,讓人忍不住多看幾眼,也順手就多認識幾個單詞。在 Capwords 近乎直覺般的設計背後,是一個簡單卻深刻的理念:語言的學習回歸生活,它可以從一次指認、一次散步、一次「這個怎麼說」的好奇心開始。APPSO:最早是因為小朋友有一個很簡單的需求,指著東西問「這個用英語怎麼說」,這就是整個靈感的來源和項目開端是吧?DTD:對,我女兒大概三歲左右,不到三歲。我經常在夏天帶她出去玩,我們會去公園,或者一些寫字樓前的廣場上。在玩的過程中,她會問我一些問題,比如「這個植物叫什麼?」「這個路牌怎麼念?」我就會一邊陪她玩,一邊跟她解釋,有時也會用一些識別類的產品幫她查。可能是因為在她好奇心爆發那個階段,這樣的場景其實非常多。印象比較深的一次,是在一個寫字樓的地磚縫裡,長出了一種叫「狗芽根」的植物。她很偶然地指著說:「爸爸,那有個狗芽根!」類似的場景讓我特別觸動。再結合她之前也會問我一些「這個用英文怎麼說」的問題,我就在想:這種「場景 + 圖像 + 資訊「的結合」,可能會讓她的記憶更好。我自己本身也是一個設計師出身,所以對於圖像或者資訊的這種感受會更敏感一點。圖片來自:小紅書@DTD.STUDIOS所以跟女兒互動的這些場景,很多都會給我這樣的感受:語言本身應該是在生活裡的,我們能用什麼辦法能幫助到這件事。大概就是這樣一個過程。APPSO:你們當時有意識到類似的需求,並不只是出現在孩子身上,其實更廣泛的使用者群都有這種需求嗎?DTD:沒有,因為我自己英語就不好,我不太擅長去背,或者把一個個知識點硬塞到腦子裡。我也不是學教育的,所以對於語言學習,我的理解是語言發生在生活裡。如果有一個環境,比如聊天時看到了、聊到了,看到一個東西和圖像時,會有關聯記憶。我會自己總結一些原則,比如為什麼某個圖像會吸引我,或者一個彩色的樓,或者我們城市裡看到的有特點的建築物,引起我注意的可能就是我腦海中圖形的關聯性,這一點非常重要。這也許是我作為設計師的個人總結,不一定完全科學。圖片來自:小紅書@DTD.STUDIOSAPPSO:市面上大部分的查詞軟體都比較臃腫,但 Capwords 把路徑做得非常簡單,一拍就可以完成。但你們擔心過對學習效果的影響嗎?DTD:這個 CLU 要不你來講講。CLU:其實我們在產品立項的時候,出發點並不是語言學習。回到剛剛說的,我們就是為了給我的乾女兒解答問題——這是一切的種子。慢慢我們會意識到,圖像會跟我們的生活形成一種「摩擦」。也就是說,通過與現實世界中的物品產生摩擦,可以強化記憶點。這些記憶點結合當時所處的場景以及全新的單詞或事物進入大腦時,我們對這些資訊的記憶會更加深刻。我們在日常生活中觀察到,人從小時候起就有天然的好奇心,會自然地記住所有新鮮的東西。比如去到日本,儘管我們可能不會說一句日語,但會說「謝謝」這種簡單的話和一些詞。或者描述可愛的事物時,會用到「卡哇伊」這樣的詞,因為這些東西對我們而言有新鮮感。所以,我們在立項開始就沒有定位為一個單純學習英文或者單詞的產品。並且根據我們的觀察、使用者反饋,還有實際落地的情況來看,我們在做的一件事情就是把接觸一個新的語言的這個門檻降低,讓大家會更感興趣。對一個語言的這種感興趣程度提高了,然後慢慢的,大家自己會再去找到一個更加系統化學習的方式。APPSO:目前接到過那些印象特別深刻的使用者反饋嗎?@61:這個我可以來說一下。我之前的一個 mentor 有個上小學的女兒。測試階段我給了他一個兌換碼,他就帶著女兒用 iPad 玩 Capwords,把家裡所有東西都掃了一遍,甚至還掃了他爸的光頭(笑)。第二天,他爸來跟我反饋,說女兒居然把昨天掃到的所有單詞,都寫在了自己的日記本上,還自己開始複習了。接下來幾天,女兒每天放學回家的第一件事,不是玩蛋仔派對,而是拿著 iPad 在家裡到處找「還有什麼沒掃過的」。DTD:有一些使用者的反饋我確實印象很深,我看過一個使用者說這是他用過最不像 AI 的 AI 產品,還有一個說這是他今年用過最溫暖的 AI 產品。這也就是我們想達到的效果。APPSO:確實,模型完全融入到了使用過程中,AI 的存在感並不強。你們在研發的時候碰到過什麼挑戰嗎?CLU:其實我覺得 AI 還是有一些邊界和條件,但是 AI 本身的這種判斷力和我們人本身的一些常識,其實是差不多的。比如我們之前測試過,一杯棕色的液體,AI 會識別成為咖啡,但是如果我親手做的這杯飲料,我就知道它其實是涼茶,那識別結果就跟我的認知不符。但這並不是 AI 的問題,只是誤認確實會出現。所以我們在設計的時候加了調整項,如果系統識別出來的結果和認知不符合,使用者可以輸入調整成正確的物品。DTD:關於識別速度上的問題,其實大模型都需要時間。把圖像傳過去,再回傳資料回來,整個過程其實是有五六秒時間的。去年我們第一個版本發出來,我們一起玩的時候感覺沒什麼問題,大家都覺得非常神奇。尤其是我老婆和女兒都覺得太厲害了。但是我自己在用的時候,還是覺得那個 6 秒鐘很煎熬。後來我們最佳化了一些提示詞,調整了圖片的大小,通過各種互動上的設計來減少使用者的感知,把這個時間藏在不同的互動形式後面。所以我的理解是從體驗層面,去解決一些目前模型本身解決不了的問題。CLU:還有一個是你會看到當一個物品的識別完成之後,會有一個被撕下來的貼紙的效果,我們當時就想說做成一個把現實世界裡的物品,從貼紙上摳下來的效果。在摳的過程中,其實已經在做完整的載入了,只是使用者沒有意識到,最後就可以有一個很絲滑的體驗。圖片來自:小紅書@DTD.STUDIOS我相信到最後,AI 肯定是融入或者變成一個基建,不存在說要體現具體的技術實現,使用者只需要關注 AI 帶來的效果就好了,而且這個結果是使用者所期待的,甚至超出期待的。 (APPSO)
AI泡沫要破?巨佬顛覆認知的觀點來了!
大模型的決戰越來越激烈了!Google的崛起令OpenAI感到恐懼,並醞釀新的大動作!OpenAI直接拉響警報,推遲賺錢的廣告業務,也要把所有資源梭哈到ChatGPT的改進上。現在的AI圈子,像是星球大戰前夜,由於恐懼,每個人都把手指扣在了扳機上。兵荒馬亂的年代,蔡崇信在香港大學爐邊對話中,拋出了非常反直覺的觀點:現在美國人定義誰贏得AI競賽的方式,純粹是看大型語言模型,我們不看美國定義的AI競賽。當所有人都在盯著誰的模型參數大、誰的算力強時,蔡崇信卻認為——勝負手根本不在這裡。如果不看模型,這場兆賭局的贏家到底看什麼?中國手裡到底還有沒有牌?看完發現,原來大佬眼裡的世界,和我們看到的完全不一樣。1中國AI的真正優勢現在美國矽谷大模型怎麼算輸贏?很簡單:看誰的“大語言模型”更強、更聰明、參數更多。今天是OpenAI遙遙領先,明天Anthropic發個新版本追平,後天Google又搞個大新聞。大家都在卷模型,彷彿誰的模型智商高了一點,誰就統治了世界。但在蔡崇信看來,事實未必如此。他在演講中說了這麼一句極具穿透力的話:"The winner is not about who has the best model. The winner is about who could use it the best in their own industries, in their own lives."(真正的贏家不是誰擁有最好的模型,而是誰能在自己的行業、自己的生活中把它用得最好)這句話什麼意思?打個比方。如果這是一場賽車比賽,美國人現在拚命在比誰的發動機馬力大。但蔡崇信告訴你,贏家不是那個造出萬匹馬力發動機的人,而是那個能把發動機裝進車裡、開著車去送貨、去載客、去賺到真金白銀的人。這個判斷的底層邏輯是:AI的真正價值在於滲透率。中國國務院的AI規劃就體現了這一務實思路——到2030年,AI智能體和裝置的普及率達到90%。中國憑什麼能普及得更快?蔡崇信列出了幾個核心底層邏輯。我們總擔心晶片被卡死,但蔡崇信告訴我們:決定勝負的,是那些基礎到你根本不會關注的領域。1.被低估的電力成本AI訓練和推理,本質上是在燒電。中國的電力成本,比美國低40%。為什麼?中國的國家電網每年投入900億美元的資本支出,而美國只有300億美元。電費低40%,意味著AI應用成本可以大幅低於對手。這是最基礎、最硬核的AI能源優勢。2.建造資料中心的成本低60%在中國建造資料中心的成本要便宜60%,這還不包括購買晶片、廉價GPU的成本。3.工程師紅利晶片可以封鎖,但人才你鎖不住。全球範圍內,幾乎近一半的AI科學家和研究人員擁有中國大學的學位——無論他們在美國公司、中國公司還是世界任何地方工作。蔡崇信說在最近剛看到一個社交媒體帖子,一個在Meta工作的非華裔員工抱怨說,他所在的AI團隊每個人都在說中文,用中文交流想法,他聽不懂。這意味著很多想法的分享和交流在全球AI領域正在用中文進行。這是第一次,中文成為一種優勢!現在,懂中文在AI世界變成了一個優勢。4.最反直覺的優勢:匱乏,逼出內功這是最讓人熱血沸騰的一點:缺乏頂級GPU,反而創造了“飢餓優勢”。美國人資源充足,程式碼寫得爛一點也沒關係,硬體能扛。但中國團隊呢?硬體受限,就必須在系統層面、演算法層面做到極致最佳化,把效率摳到最高。蔡崇信特別點名了爆火的DeepSeek。他說這就是被逼出來的奇蹟。2開源為什麼會贏?蔡崇信還給出了一個對未來的深度判斷,也是這場演講的重中之重。蔡崇信相信中國公司對待大語言模型的方法——即開源——將加速AI的採用,並將真正實現AI的普及,從而使更廣泛的社會受益。開源如此重要的原因是,它成本低廉,使用開源模型實際上不花一分錢。AI的未來,是像OpenAI那樣搞“黑箱子”(閉源),還是像阿里、Meta那樣搞開源?蔡崇信斬釘截鐵:開源模型,將擊敗閉源模型。為什麼?不是因為開源技術更先進,而是因為它更懂人性。他舉了一個極其生動的例子:假設你是沙烏地阿拉伯的國王,你想發展自己國家的AI,你有兩個選擇:用OpenAI的API:你得付一大筆錢,把你的資料傳給美國公司。然後呢?你不知道他們怎麼處理你的資料,你也不知道這模型裡面有什麼貓膩。這就是一個Black Box(黑箱)。用開源模型(比如阿里的Qwen):你直接下載程式碼,部署在你自己的私有雲上。免費,而且資料不出國門,完全可控。這就叫"主權AI",意思是它是我們自主開發的AI。在全球地緣政治這麼複雜的今天,誰願意把命脈交到別人手裡?無論是政府還是大企業,只要稍微算一下帳,稍微考慮一下安全,都會傾向於開源。開源模型有三大殺手鐧:成本、主權、隱私。這三座大山,是閉源模型很難跨越的。3AI時代,普通人該如何應對?蔡崇信給了三條極具實操性的建議,特別是關於“學什麼”,他的觀點顛覆了很多人的認知。1.提出正確的問題比回答更重要在技能方面,蔡崇信認為要學習如何獲取知識,學習如何分析和思考,還有一個重要的技能是提出正確的問題。以前我們上學,老師獎勵那些能快速回答問題的人。但在AI時代,回答問題是機器的事,機器的知識庫比你大多了。蔡崇信強調:"Asking the right question is more important than finding the answer." (提出正確的問題,比找到答案更重要)你要學會的是如何給AI下指令,如何拆解問題。這叫“Prompt Engineering”(提示工程),這是未來人類的核心競爭力。2.還要不要學程式設計?這是目前爭議最大的話題。輝達的老黃說“以後沒人需要學程式設計了”,對著手機說話就行。蔡崇信反對這個觀點。他說:要學!必須學!但他給出的理由:"The purpose is not to actually operate a machine. The purpose is going through that thinking process."(目的不是為了去操作機器,而是經歷那個思考過程)學程式設計,不是為了讓你去寫程式碼(那活兒AI幹得比你好),而是為了訓練你的邏輯思維。甚至,他建議大家去學好Excel電子表格。為什麼?因為你要把一個複雜的公式寫對,讓數字自動跑出來,這本身就是一種嚴密的邏輯訓練。你要訓練的是腦子,而不是手速。3.選什麼專業?如果你的孩子現在要上大學,蔡崇信推薦了三個方向:資料科學:其實就是統計學的升級版。未來是資料爆炸的時代,世界越數位化,你或公司獲取的資料就越多,理解如何管理和分析資料非常重要。心理學和生物學:在做了資料之後,你還想觸及人性的一面,心理學的研究很重要。心理學和生物學幫助你理解人腦是如何工作的,它仍然是最高效、最節能的"機器",理解大腦如何工作非常重要。材料科學:現在很多孩子不學電腦科學,而是在學材料科學。未來世界正被位元(數字資訊)主導,但未來讓位元移動更快的是原子(物理材料)。理解原子如何工作將會非常重要,人們製造半導體,未來半導體領域將會有很多創新。所以材料科學將是一個有趣的學習方向。4AI是泡沫還是未來?AI是否是下一個網際網路泡沫?蔡崇信的回答很哲學,關於泡沫,他認為有兩個概念:真正的泡沫和金融市場泡沫。金融市場泡沫:不知道是否存在金融市場泡沫,因為股票估值更像一門藝術。即使有既定的理論,你可以給一隻股票50倍的市盈率,因為你認為增長率非常高,這合理嗎?我不知道,可能存在與AI相關的金融市場泡沫。技術泡沫:AI現像是真實的。人們正在建造的所有基礎設施,投入到模型開發中的所有研發資源,都不會浪費,因為這是一個真實的現象。就像網際網路一樣,在2000年3月左右,網際網路泡沫破裂了,那是金融市場泡沫破裂,但今天的網際網路就在這裡,事實上網際網路現在更強大,所以技術本身不是泡沫。蔡崇信的這次演講,給人最大的感受是,這場比賽才剛剛開始。這不是一場百米衝刺,看誰起跑快;這是一場馬拉松,看誰能把技術真正融入到這片土地的每一個角落,看誰能用更便宜的電、更務實的態度、更開放的胸懷,去擁抱這個未來。"Focus on the application, not just the model."(關注應用,而不只是模型)這,或許才是中國AI破局的真正答案。對於個人來說,也許在未來,AI將成為成為我們的夥伴。正如蔡崇信所言:AI的下一個重大轉變是當人們開始不再僅僅將AI視為工具,而是作為朋友。現在AI似乎更像一個工具,我們都想用它來讓自己更高效,讓公司更高效。AI已經在幫助我們編碼,所以我們不需要那麼多軟體工程師。但是,AI何時能成為你的夥伴?那時,如果大多數人開始像對待另一個人一樣看待AI,那將真正改變世界,改變行為。有時想想這很可怕,但我看到這正在發生。 (ETF進化論)
外媒報導:矽谷吹起“千問恐慌"
阿里巴巴推出的AI語言模型──Qwen系列/千問App,美國產學研各界都有較好的應用。而據評價稱,Qwen系列可與ChatGPT匹敵,這已經使得矽谷漸漸有些坐立難安。外媒稱:「千問恐慌」正在矽谷吹起。而這也折射了中美兩國AI越發激烈的競爭態勢。►►► 大語言模型:應用和成本之戰過去一年,阿里巴巴不僅推出了Qwen大型語言模型系列,還發佈了一款與ChatGPT直接競爭的消費級App。想像一下,一個AI代理人可以協助你在淘寶購物、用地圖規劃路線、在支付寶處理付款、支援企業協作與最佳化供應鏈物流。這就是千問App最大優勢:AI能直接嵌入一個龐大且成熟的應用宇宙。相較之下,ChatGPT多數情況仍是獨立產品,與消費者的生活應用場景連結有限。Airbnb  CEO 布萊恩·切斯基(Brian Chesky)公開表示,說他們依賴阿里Qwen模型勝過勝過ChatGPT,形容它「快速、便宜到不可思議」。千問恐慌,背後代表的是AI競賽正從「誰的模型更聰明」,轉向「誰能打造最強的開發生態與更高的滲透速度」。►►►矽谷開發者的選擇:性價比才是王道就跟今年初DeepSeek出現帶來的影響一樣,當全球開發者發現,他們可以用更低的成本,獲得性能足夠好的AI模型和運算能力時,「技術最先進」的重要性就會被「性價比最高」取代。《DIGITIMES》報導指出,Qwen系列在美國技術社群的下載資料、採用率明顯上升。2025年,Qwen系列模型,在開源社群平台Hugging Face平台的下載量達到3.85億次,超越了Meta的Llama(3.46億次)。目前有誰在用阿里的Qwen模型呢?亞馬遜用Qwen開發下一代送貨機器人的模擬軟體;蘋果因監管限制,選擇Qwen為中國大陸版Siri提供AI功能。OpenAI  前CTO  Mira Murati的新實驗室也將Qwen納入預設的微調選項。學術界頂尖機構也正在採用Qwen模型,史丹佛大學李飛飛領導的研究團隊,用Qwen2.5-32B建構頂級推理模型S1,成本不到50美元。Google前 CEO  施密特(Eric Schmidt)曾提出一觀點,他表示,美國最大的AI模型,由於受限於監管風險,不但沒有開源,而且收費昂貴;反觀中國AI模型免費還開源,世界無可避免地將轉而採用中國AI模型。據瞭解,為了應對Qwen的崛起,美國甚至啟動ATOM計畫(American Truly Open Models),一個由產業領袖和研究人員組成的聯盟,用以推動美國的開源模型發展。►►►中國AI產業贏過美國?阿里巴巴帶起的千問恐慌,可能只是體現出一部份的中國AI技術潛力。《經濟學人》指出,中國半導體產業得到政府大力支援:從設立基金、限制外資晶片產品流通、到本地晶片優先採購政策。而人才基數龐大、AI開發者社群活躍,也在加速建立中國半導體生態系統,這些都是中國AI模型得以快速落地的重要推力。中國「低成本的開源模型」最終可能讓多數開發者倒戈,幫助讓中國的晶片競爭力進一步崛起。新南威爾斯大學AI專家Toby Walsh表示:「這些中國模型的成功證明了,美國出口管制未能限制中國。事實上,它們反而鼓勵中國公司更有創造力,打造出體積更小、還能在舊世代硬體上訓練與運轉的優秀模型。」美國的「千問恐慌」反映了未來的AI勝負,恐怕不在於誰擁有最強算力,而是那個模型能最快、最深入地嵌入人們的日常生活。 (芯聞眼)
AI教母李飛飛引爆矽谷!LLM大語言模型路線錯了,空間智能才是走向AGI的唯一路徑 | 附原文
“它們如同身處暗室的文字巨匠——能言善辯卻缺乏經驗,知識淵博卻脫離現實。”當“AI教母”、頂尖科學家李飛飛用這句話來定義今天所有的大語言模型時,她一針見血地指出了一個殘酷的現實:儘管AI看似無所不能,但它們其實都“活在黑暗中”。它們會寫詩、會畫畫,甚至會製作以假亂真的視訊,但卻無法理解一個杯子旋轉90度後會是什麼樣子,也無法讓一個虛擬人真正地遵守物理定律。在李飛飛看來,這種窘境的根源在於,我們一直以來都走錯了方向。AI的下一步,不是更大的語言模型,而是要賦予它們一種連嬰兒都與生俱來的能力——空間智能 (Spatial Intelligence)。 這,才是通往真正通用人工智慧的唯一路徑。01. 靈魂拷問:為什麼AI還是“睜眼瞎”?原文很長,我們先來點直觀的。你讓AI寫首詩,它分分鐘變身李白杜甫;但你讓AI做幾個簡單的物理題,比如:· “我把這個杯子轉90度,它長什麼樣?”· “這個迷宮的出口在那裡?”· “估算一下桌子到門的距離?”AI的回答,基本靠“蒙”。只要留意,那些看起來很酷的AI視訊裡,都會有各種“穿幫”鏡頭:一個人的手突然多了一根手指,或者物體毫無徵兆地穿牆而過。李飛飛就此一針見血地指出:因為它們不懂物理世界。它們無法真正理解距離、大小、方向和物理規律。所以,儘管我們對AI的期待是科幻電影裡的全能管家,但現實卻是:· 我們依然沒有能在家幫我們做家務的機器人。· AI在藥物研發、新材料發現等需要理解3D結構的領域,進展緩慢。· AI無法真正理解建築師、遊戲設計師或電影導演腦中的“世界”。02. 藏寶圖中缺失的那塊拼圖:空間智能AI缺失的“空間智能”,到底是什麼?李飛飛說,它是我們人類認知的“腳手架”。早在我們學會說話、寫字之前,就已經掌握了這項能力:· 嬰兒會花一到兩年時間,通過抓、扔、咬、看,來理解這個世界。· 你側方停車時,你的大腦在飛速計算保險槓和馬路牙子的距離有多遠。· 朋友把鑰匙扔給你,你不用拿紙筆計算拋物線,憑下意識就能接住。· 你半夜起床倒水,不開燈也能摸到杯子並把水倒進去。李飛飛還舉例說,甚至人類的偉大發現、文明進步都少不了這種能力:· 古希臘的埃拉托斯特尼是通過觀察兩地影子的角度不同,從而計算出的地球周長。· 哈格里夫斯發明出“珍妮紡紗機”,靠的也是對空間的觀察和理解。· 沃森和克里克是通過親手搭建3D分子模型,“拼”出的DNA雙螺旋結構。李飛飛認為,空間智能是人類想像力、創造力以及和世界互動的基礎。遺憾的是,當下的AI基本沒有這個能力。03. AI的下一步:從“語言模型”到“世界模型”那麼,怎麼讓AI“開眼”看世界呢?李飛飛給出了自己的答案:AI的未來,不在於更大的“語言模型”(LLM),而在於全新的“世界模型”(World Models)。她認為,一個真正的“世界模型”,必須是“三位一體”的:· 生成性(Generative):它必須能創造出符合物理、幾何規律的3D世界。比如,它“知道”重力,知道物體會下落,知道水會往低處流。· 多模態(Multimodal):它必須能處理一切輸入。比如不僅能聽懂你說的“話”,還要能看懂圖片、視訊、深度資訊、甚至你的一個“手勢”。· 互動性(Interactive):這是最關鍵的。當你告訴它一個“動作”,它必須能預測出“下一秒會發生什麼”。比如“推一下積木”,它就知道積木會倒。李飛飛坦言,這個挑戰比訓練語言模型要難得多。她解釋道,語言是一維的、序列化的訊號,而世界是四維的(三維空間+時間),受重力、物理定律等無數複雜規則的約束。李飛飛透露,她一年前和他人共同創立了World Labs,以及最近向少數使用者展示的第一個世界模型Marble,都是為了攻克這個難題。04. 這將如何改變我們的生活?一旦AI擁有了空間智能,那才是一場真正的革命。首先,是“超能力”般的創造力。李飛飛團隊World Labs正在研發的Marble模型,能讓電影製作人、遊戲設計師、建築師用“提示詞”快速建立和迭代3D世界。未來,這些人不再需要學習複雜的3D軟體,只需要用語言描述,就能生成一個可以走進、與之互動的3D世界。屆時,人人都能成為“造物主”。其次,是真正的“具身智能”。機器人將不再是“笨手笨腳”的機器臂。在“世界模型”的加持下,它們會在模擬環境中學會成千上萬種實用技能,然後走進我們的家庭、醫院,成為得力的助手和看護。此外,李飛飛特別提到,這樣的AI將成為未來科學與教育的“加速器”。· 醫療:AI可以在多維度上模擬分子間的相互作用,加速藥物的發現處理程序,也或幫助醫生分析影像,為患者和護理人員提供持續支援。· 教育:學生不再只是看書,而是可以“走進”古羅馬的街道,或者親身“探究”細胞內部。教師可以借助互動環境教學,專業人士則可以在高度逼真的模擬環境中練習並掌握複雜技能。· 科研:通過模擬深海、外太空等人類無法親自到達的環境,我們可以擴大科學探索的範圍;通過將多維度模擬與真實世界資料採集相結合,拓展實驗室觀察與理解的邊界。05. 結語:AI的終點,是“為人類賦能”作為幫助開啟了現代AI時代的科學家之一,李飛飛在文章的最後,回歸了她最核心的人文關懷。她強調,AI的終極目標,絕非取代人類,而是“為人類賦能”:“讓AI成為增強人類專長、加速人類發現、放大人類關懷的力量——而不是取代那份屬於人的判斷力、創造力與共情力。”她認為,AI由人開發、由人使用、由人管理,必須始終尊重人的能動性和尊嚴。它的魔力在於擴展我們的能力,讓我們更有創造力、更有效率。“空間智能”代表的正是這樣一個“更深刻、更豐富、更有力量的生活的願景”。它有望“建構出與真實世界高度契合的機器,讓它們成為我們應對重大挑戰的真正夥伴。”也許,機器的真正智能,就將從這篇“啟示錄”開始。【以下是李飛飛長文全文】跨越語言,構築世界:空間智能——AI的下一個前沿(From Words to Worlds: Spatial Intelligence is AI’s Next Frontier)1950年,當計算還不過是自動化算術和簡單邏輯的代名詞時,艾倫·圖靈 (Alan Turing) 提出了一個至今仍迴響不絕的問題:機器能思考嗎?能夠想像他所預見的一切,需要非凡的想像力:有朝一日,智能或許可以被建構,而非與生俱來。這一洞見後來開啟了一場名為“人工智慧” (Artificial Intelligence, AI) 的不懈科學探索。在我自己投身AI領域的二十五年裡,圖靈的願景依舊激勵著我。但我們離它還有多近?答案並非一言兩語能說清。如今,以大語言模型 (Large Language Models, LLMs) 為代表的前沿AI技術已開始改變我們獲取和處理抽象知識的方式。它們都是“能言善辯的書呆子”,滿腹經綸,卻“不親民”。而空間智能 (Spatial Intelligence) 將改變我們創造以及與真實和虛擬世界互動的方式——它將徹底變革故事敘述、創造力、機器人技術、科學發現等諸多領域。這正是AI的下一個前沿。自踏入該領域以來,對視覺和空間智能的追求一直是指引我的“北極星”。正因如此,我花費數年時間建構了ImageNet——首個大規模視覺學習和基準測試資料集,它與神經網路演算法和現代計算裝置如圖形處理器 (Graphics Processing Units, GPUs)一道,成為催生現代AI誕生的三大關鍵要素之一。正因如此,我在史丹佛大學的學術實驗室在過去十年裡一直致力於將電腦視覺與機器人學習相結合。也正因如此,一年多以前,我與聯合創始人賈斯汀·約翰遜 (Justin Johnson)、克里斯托夫·拉斯納 (Christoph Lassner)、本·米爾登霍爾 (Ben Mildenhall) 一道共同創立了World Labs:為了首次將這一可能性全面地變為現實。·在本文中,我將闡釋什麼是空間智能,它為何重要,以及我們正在如何建構將解鎖這一能力的世界模型 (World Models)——其影響將重塑創造力、具身智能 (Embodied Intelligence) 和人類的進步。空間智能:人類認知的腳手架AI從未像現在這樣激動人心。生成式AI模型,如大語言模型,已從研究實驗室走入日常生活,成為數十億人進行創造、提高生產力和溝通的工具。它們展現了曾被認為不可能的能力,能夠輕鬆生成連貫的文字、堆積如山的程式碼、照片般逼真的圖像,甚至短影片片段。AI是否會改變世界,這已不再是個問題。無論以何種合理的定義來看,它都已經做到了。然而,仍有太多事物遙不可及。自主機器人的願景依舊引人入勝,但仍停留在推測階段,遠未成為未來學家們長期承諾的日常生活的一部分。在治癒疾病、新材料發現和粒子物理學等領域實現研究大幅加速的夢想,在很大程度上仍未實現。而讓AI真正理解並賦能人類創造者的承諾——無論是幫助學生學習分子化學中複雜的概念,輔助建築師進行空間可視化,協助電影製作人建構世界,還是為任何尋求完全沉浸式虛擬體驗的人提供支援——也依然遙不可及。要瞭解為何這些能力仍然難以實現,我們需要審視空間智能是如何演化的,以及它如何塑造我們對世界的理解。視覺長期以來都是人類智能的基石,但其力量源於更為根本的東西。遠在動物學會築巢、照顧幼崽、用語言交流或建立文明之前,“感知”這一簡單的行為就已悄然開啟了一段通往智能的進化之旅。這種看似孤立的、從外部世界收集資訊的能力——無論是感知一縷微光還是觸摸一種質地——在感知與生存之間建立了一座橋樑,而這座橋樑隨著世代更迭而愈發堅固和精巧。神經元在這座橋樑上層層生長,形成了能夠解釋世界並協調生物體與其環境互動的神經系統。因此,許多科學家推測,感知和行動成為了驅動智能進化的核心循環,也是大自然創造我們這個物種——感知、學習、思考和行動的終極體現——的基礎。空間智能在定義我們如何與物理世界互動方面扮演著至關重要的角色。每一天,我們都依賴它來完成最普通不過的行為:通過想像保險槓與路緣之間不斷縮小的間隙來停車;接住從房間另一頭扔過來的鑰匙;在擁擠的人行道上穿行而不發生碰撞;你半夜起床倒水,不開燈也能摸到杯子並把水倒進去。。在更極端的情況下,消防員在倒塌的建築中穿越不斷變化的濃煙,對結構的穩定性和生存機會做出瞬間判斷,並通過手勢、肢體語言和一種共同的職業本能進行交流,這種本能是任何語言都無法替代的。而嬰幼兒在學會說話前的數月甚至數年裡,完全通過與環境進行充滿趣味的互動來學習這個世界。所有這一切都發生得直觀而自然——這是機器尚未能達到的流暢程度。空間智能也是我們想像力和創造力的基礎。故事講述者在腦海中創造出異常豐富的世界,並利用從古代洞穴壁畫到現代電影再到沉浸式視訊遊戲等多種形式的視覺媒介,將這些世界呈現給他人。無論是孩子們在沙灘上堆砌沙堡,還是在電腦上玩《我的世界》(Minecraft),基於空間的想像力都構成了在真實或虛擬世界中進行互動體驗的基礎。在許多行業應用中,對物體、場景和動態互動環境的模擬,為從工業設計到數字孿生 (Digital Twins)再到機器人訓練等無數關鍵的商業用例提供了動力。歷史上充滿了由空間智能扮演核心角色的、定義文明處理程序的時刻。在古希臘,埃拉托斯特尼 (Eratosthenes) 將影子轉化為幾何學——在太陽直射賽印 (Syene) 的那一刻,他在亞歷山大港測量出7度的夾角——從而計算出地球的周長。哈格里夫斯 (Hargreaves) 的“珍妮紡紗機” (Spinning Jenny) 通過一個空間上的洞察徹底改變了紡織製造業:將多個紡錘並排排列在一個框架中,讓一名工人可以同時紡多根紗線,生產效率提高了八倍。沃森 (Watson) 和克里克 (Crick) 通過親手搭建三維分子模型發現了DNA的結構,他們不斷擺弄金屬板和金屬絲,最終將鹼基對的空間排列“拼”了出來。在每一個案例中,當科學家和發明家需要操縱物體、將結構可視化並對物理空間進行推理時,空間智能都推動了文明的進步——而這些都無法僅用文字來捕捉。空間智能是我們認知賴以建構的腳手架。無論我們是被動觀察還是主動創造,它都在發揮作用。它驅動著我們的推理和規劃,即便是針對最抽象的話題。它對於我們互動的方式至關重要——無論是口頭還是身體上的,無論是與同伴還是與環境本身。雖然我們大多數人並非每天都能像埃拉托斯特尼那樣揭示新的真理,但我們通常都以同樣的方式思考——通過感官感知來理解一個複雜的世界,然後利用一種直觀的理解,來掌握它在物理和空間層面是如何運作的。不幸的是,今天的AI還不會這樣思考。過去幾年確實取得了巨大進步。多模態大語言模型 (Multimodal LLMs, MLLMs),除了文字資料外,還利用大量的多媒體資料進行訓練,從而引入了一些基本的空間意識,如今的AI可以分析圖片、回答相關問題,並生成超逼真的圖像和短影片。通過感測器和觸覺技術的突破,我們最先進的機器人也開始能在高度受限的環境中操縱物體和工具。然而,坦率的現實是,AI的空間能力仍遠未達到人類水平,其侷限性很快就會暴露出來。在估算距離、方向和尺寸,或通過從新角度重新生成物體來進行“心理旋轉”等任務上,最先進的多模態大語言模型模型的表現很少能超過隨機猜測。它們無法走出迷宮、識別捷徑或預測基本的物理現象。AI生成的視訊——雖然是新生事物,而且確實很酷——往往在幾秒鐘後就會失去連貫性。雖然目前最先進的AI在閱讀、寫作、研究和資料模式識別方面表現出色,但同樣是這些模型,在表徵或與物理世界互動時,卻存在根本性的侷限。我們對世界的看法是整體性的——不僅僅是我們正在看什麼,還包括所有事物在空間上的相互關係、它們的意義以及為何重要。通過想像、推理、創造和互動——而不僅僅是描述——來理解這一切,正是空間智能的力量所在。沒有它,AI就與其試圖理解的物理現實脫節了。它無法有效地駕駛我們的汽車,無法在我們家中和醫院裡引導機器人,無法為學習和娛樂創造全新的沉浸式和互動式體驗,也無法加速材料科學和醫學領域的發現。哲學家維特根斯坦 (Wittgenstein) 曾寫道:“我語言的極限意味著我世界的極限。”我不是哲學家。但我知道,至少對於AI而言,世界遠不止於文字。空間智能代表了超越語言的前沿——這種能力將想像、感知和行動聯絡在一起,並為機器真正提升人類生活開啟了可能性,從醫療保健到創造力,從科學發現到日常輔助。AI的下一個十年:建構真正具備空間智能的機器那麼,我們該如何建構具備空間智能的AI?如何才能打造出能夠像埃拉托斯特尼那樣用視覺進行推理,像工業設計師那樣進行精密工程設計,像故事講述者那樣富有想像力地創造,以及像急救人員那樣流暢地與環境互動的模型?建構具備空間智能的AI需要比大語言模型更宏大的目標:世界模型 (World Models),這是一種新型的生成式模型,其理解、推理、生成以及與語義、物理、幾何和動態上都極為複雜的虛擬或真實世界進行互動的能力,遠超當今大語言模型的範疇。該領域尚處萌芽階段,目前的方法從抽象推理模型到視訊生成系統不一而足。World Labs於2024年初正是基於這一信念而創立:基礎性方法仍在確立之中,這使其成為未來十年的決定性挑戰。在這個新興領域,最重要的是確立指導發展的原則。對於空間智能,我通過三個基本能力來定義世界模型:·生成性:世界模型能夠生成具有感知、幾何和物理一致性的世界。要解鎖空間理解和推理,世界模型也必須能夠生成它們自己的模擬世界。它們必須能夠根據語義或感知指令,生成無窮無盡、多種多樣的模擬世界——同時保持幾何、物理和動態上的一致性——無論這些世界代表的是真實空間還是虛擬空間。研究界正在積極探索這些世界應該以隱式還是顯式的方式來表示其固有的幾何結構。此外,我相信一個通用的世界模型除了需要強大的潛在表徵外,還必須能夠為其輸出生成一種顯式的、可觀察的世界狀態,以適應多種不同的用例。特別是,它對當下的理解必須與它的過去、與導致當前狀態之前的世界狀態,連貫一致。·多模態:世界模型在設計上就是多模態的。正如動物和人類一樣,世界模型應該能夠處理多種形式的輸入——在生成式AI領域中稱為“提示詞” (prompts)。給定部分資訊——無論是圖像、視訊、深度圖、文字指令、手勢還是動作——世界模型都應能預測或生成儘可能完整的世界狀態。這要求它能以真實視覺的保真度處理視覺輸入,同時以同等的流暢度解讀語義指令。這使得智能體和人類都能通過多種輸入與模型就世界進行交流,並反過來接收多種輸出。·互動性:世界模型能根據輸入的動作輸出下一個狀態。最後,如果動作和/或目標是給世界模型的提示詞的一部分,那麼其輸出必須包括世界的下一個狀態,無論是隱式還是顯式表示。當僅給定一個帶或不帶目標狀態的動作作為輸入時,世界模型應產生一個與世界先前狀態、任何預期的目標狀態,以及其語義含義、物理定律和動態行為相一致的輸出。隨著具備空間智能的世界模型在其推理和生成能力上變得越來越強大和穩健,可以想見,在給定一個目標的情況下,世界模型本身將不僅能預測世界的下一個狀態,還能根據新狀態預測下一個動作。這項挑戰的範圍超過了AI以往所面臨的任何挑戰。雖然語言純粹是人類認知的一種生成現象,但世界遵循的規則要複雜得多。例如,在地球上,引力支配著運動,原子結構決定了光如何產生顏色和亮度,無數的物理定律約束著每一次互動。即使是最奇幻、最具創意的世界,也是由遵循定義它們的物理定律和動態行為的空間物體和智能體組成的。要將所有這一切——語義、幾何、動態和物理——協調一致,需要全新的方法。表示一個世界的維度,遠比表示像語言這樣的一維順序訊號要複雜得多。要實現能夠提供我們人類所享有的那種通用能力的世界模型,需要克服幾個艱巨的技術障礙。在World Labs,我們的研究團隊正致力於為實現這一目標取得根本性進展。以下是我們當前研究課題的一些例子:一種新的、通用的訓練任務函數: 定義一個像大語言模型中“預測下一個Token” (nexttoken prediction) 那樣簡潔優雅的通用任務函數,長期以來一直是世界模型研究的核心目標。其輸入和輸出空間的複雜性,使得這樣一個函數在形式化上天生就更加困難。儘管仍有許多尚待探索之處,但這個目標函數及相應的表徵必須反映幾何和物理定律,尊重世界模型作為想像與現實的“親民”表徵這一根本性質。大規模訓練資料: 訓練世界模型需要比文字處理複雜得多的資料。好消息是:海量的資料來源已經存在。網際網路規模的圖像和視訊集代表了豐富、易於獲取的訓練材料——挑戰在於開發能夠從這些二維的、基於圖像或視訊幀的訊號(即RGB)中提取更深層空間資訊的演算法。過去十年的研究已經顯示了在語言模型中,資料量與模型規模之間的縮放定律 (scaling laws) 的力量;世界模型的關鍵突破在於建構能夠以相當規模利用現有視覺資料的架構。此外,我不會低估高品質合成資料以及像深度和觸覺資訊等額外模態的力量。它們在訓練過程的關鍵步驟中補充了網際網路規模的資料。但前進的道路依賴於更好的感測器系統、更穩健的訊號提取演算法以及遠為強大的神經模擬方法。新的模型架構和表徵學習: 世界模型的研究將不可避免地推動模型架構和學習演算法的進步,尤其是在當前的多模態大語言模型和視訊擴散範式之外。這兩種範式通常將資料“Token化”為一維或二維序列,這使得簡單的空間任務變得不必要地困難——比如計算一個短影片中不重複椅子的數量,或者記住一個小時前房間的樣子。替代性架構可能會有所幫助,例如用於“Token化”、上下文和記憶的三維或四維感知方法。例如,在World Labs,我們最近關於一個名為RTFM的即時生成式、基於幀的模型的工作就展示了這種轉變,它使用基於空間的幀作為一種空間記憶形式,以實現高效的即時生成,同時保持所生成世界的一致性。顯然,在我們能通過世界建模完全解鎖空間智能之前,我們仍面臨著艱巨的挑戰。這項研究不僅僅是一次理論演練,它是催生一類新型創造力和生產力工具的核心引擎。而World Labs內部的進展一直令人鼓舞。我們最近與少數使用者分享了Marble的一瞥,這是有史以來第一個可以通過多模態輸入提示,來生成並維持一致的三維環境的世界模型,供使用者和故事講述者在他們的創作工作流中進行探索、互動和進一步建構。我們正在努力使其盡快向公眾開放!Marble只是我們創造一個真正具備空間智能的世界模型的第一步。隨著進展的加速,研究人員、工程師、使用者和商界領袖們都開始認識到其非凡的潛力。下一代世界模型將使機器能夠在全新的層面上實現空間智能——這一成就將解鎖當今AI系統中仍然普遍缺乏的關鍵能力。用世界模型為人們建構一個更美好的世界AI發展的動機至關重要。作為幫助開創現代AI時代的科學家之一,我的動機一直很明確:AI必須增強人類的能力,而不是取而代之。多年來,我一直致力於使AI的開發、部署和治理與人類的需求保持一致。如今,技術烏托邦和末日論的極端敘事比比皆是,但我繼續持有一種更為務實的觀點:AI由人開發,由人使用,並由人治理。它必須始終尊重人的能動性和尊嚴。它的魔力在於擴展我們的能力;讓我們更具創造力、更緊密相連、更富生產力、更感充實。空間智能正代表了這一願景——AI賦能人類的創造者、照護者、科學家和夢想家,去實現曾經不可能的事情。正是這一信念,驅動著我致力於將空間智能作為AI下一個偉大的前沿。空間智能的應用橫跨不同的時間線。創造性工具正在湧現——World Labs的Marble已經將這些能力交到了創造者和故事講述者的手中。隨著我們不斷完善感知與行動之間的循環,機器人技術代表了一個雄心勃勃的中期目標。最具變革性的科學應用將需要更長的時間,但有望對人類的繁榮產生深遠影響。在所有這些時間線中,有幾個領域因其重塑人類能力的潛力而脫穎而出。這需要巨大的集體努力,遠非一個團隊或一家公司所能實現。它需要整個AI生態系統的參與——研究人員、創新者、企業家、公司,甚至政策制定者——共同為一個共同的願景而努力。但這個願景值得追求。以下便是那個未來所蘊含的可能:創造力:為故事敘述和沉浸式體驗注入超能力“創造力是智慧在尋開心。”這是我個人英雄阿爾伯特·愛因斯坦 (Albert Einstein) 的一句名言,也是我最喜歡的一句。遠在書面語言出現之前,人類就在講述故事——將它們畫在洞穴牆壁上,代代相傳,在共同的敘事之上建立起整個文化。故事是我們理解世界、跨越時空建立聯絡、探索人性意義,以及最重要地,在我們內心找到生命意義和愛的方式。今天,空間智能有潛力改變我們創造和體驗敘事的方式,這種方式既尊重其根本重要性,又將其影響從娛樂擴展到教育,從設計擴展到建築。World Labs的Marble平台將把前所未有的空間能力和編輯可控性交到電影製作人、遊戲設計師、建築師和各類故事講述者的手中,讓他們能夠快速創造和迭代完全可探索的三維世界,而無需傳統三維設計軟體的繁重開銷。創造性行為本身依然如故,充滿活力且富於人性;AI工具只是放大和加速了創造者所能達成的成就。這包括:·新維度的敘事體驗: 電影製作人和遊戲設計師正在使用Marble來創造出不受預算或地理限制的完整世界,探索在傳統製作流程中難以駕馭的各種場景和視角。隨著不同形式的媒體和娛樂之間的界限日益模糊,我們正接近一種全新的互動體驗,它融合了藝術、模擬和遊戲——個性化的世界,其中任何人,而不僅僅是工作室,都可以創造並沉浸在自己的故事中。隨著將概念和故事板提升為完整體驗的更新、更快捷方式的興起,敘事將不再受限於單一媒介,創作者可以自由地在無數的介面和平台上建構具有共同主線貫穿的世界。·通過設計實現空間敘事: 基本上,每一個製造出來的物體或建造出來的空間,在其實體創造之前,都必須在虛擬三維空間中進行設計。這個過程迭代性強,且在時間和金錢上都成本高昂。有了具備空間智能的模型,建築師可以快速將結構可視化,而無需投入數月時間進行設計,他們可以在尚未存在的空間中漫步——這本質上是在講述我們未來可能如何生活、工作和聚集的故事。工業和時尚設計師可以即時將想像轉化為形式,探索物體如何與人體和空間互動。·全新的沉浸式和互動式體驗: 體驗本身是我們這個物種創造意義最深刻的方式之一。在整個人類歷史中,只有一個單一的三維世界:我們共同分享的物理世界。僅僅在近幾十年來,通過遊戲和早期的虛擬現實 (virtual reality, VR),我們才開始瞥見分享我們自己創造的另類世界意味著什麼。現在,空間智能與新的產品形態,如VR和擴展現實 (Extended Reality, XR) 頭戴裝置以及沉浸式顯示器相結合,以前所未有的方式提升了這些體驗。我們正邁向一個未來,在那裡,步入完全實現的多維世界將變得像打開一本書一樣自然。空間智能使得世界建構不再僅僅是擁有專業製作團隊的工作室的專利,而是向個人創作者、教育工作者以及任何有願景分享的人開放。機器人技術:具身智能的實踐從昆蟲到人類,動物都依賴空間智能來理解、導航和與它們的世界互動。機器人也不例外。具備空間感知能力的機器自該領域誕生之日起就是人們的夢想,這也包括我自己與我的學生和合作者在史丹佛研究實驗室的工作。這也是為什麼我對利用World Labs正在建構的這類模型來實現這一可能性如此興奮。·通過世界模型擴展機器人學習: 機器人學習的進展取決於一個可擴展的、可行的訓練資料解決方案。考慮到機器人需要學習理解、推理、規劃和互動的可能性狀態空間極其巨大,許多人推測,需要結合網際網路資料、合成模擬和真實世界的人類演示捕捉,才能真正創造出具有泛化能力的機器人。但與語言模型不同,當今機器人研究的訓練資料十分稀缺。世界模型將在此扮演決定性角色。隨著它們感知保真度和計算效率的提高,世界模型的輸出可以迅速彌合模擬與現實之間的差距。這反過來將有助於在無數狀態、互動和環境的模擬中訓練機器人。·伴侶與合作者: 機器人作為人類的合作者,無論是輔助實驗室裡的科學家,還是協助獨居老人,都可以在急需更多勞動力和生產力的領域擴展部分勞動力。但這需要具備感知、推理、規劃和行動的空間智能,同時——這是最重要的——與人類的目標和行為保持共情的一致。例如,一個實驗室機器人可以處理儀器,讓科學家專注於需要靈巧或推理的任務,而一個家庭助手可以幫助老年人做飯,而不會削弱他們的樂趣或自主性。能夠預測下一個狀態,甚至可能預測與此期望一致的行動的、真正具備空間智能的世界模型,對於實現這一目標至關重要。·擴展具身形式: 人形機器人在我們為自己建構的世界中扮演著一個角色。但創新的全部益處將來自更多樣化的設計:輸送藥物的奈米機器人,穿梭於狹小空間的軟體機器人,以及為深海或外太空建造的機器。無論其形態如何,未來的空間智能模型都必須整合這些機器人所棲息的環境以及它們自身的具身感知和運動。但開發這些機器人的一個關鍵挑戰在於,缺乏這些多種多樣的具身形態的訓練資料。世界模型將在模擬資料、訓練環境和基準測試任務等方面為這些努力發揮關鍵作用。更長遠的視野:科學、醫療保健和教育除了創意和機器人應用,空間智能的深遠影響還將擴展到那些AI能以拯救生命和加速發現的方式增強人類能力的領域。我下面重點介紹三個具有深度變革潛力的應用領域,但毋庸置疑,空間智能的用例在更多行業中都具有廣闊的前景。·在科學研究中,具備空間智能的系統可以模擬實驗,平行測試假設,並探索人類無法進入的環境——從深海到遙遠的行星。這項技術可以改變氣候科學和材料研究等領域的計算建模。通過將多維模擬與真實世界資料收集相結合,這些工具可以降低計算門檻,並擴展每個實驗室所能觀察和理解的範圍。·在醫療保健領域,空間智能將重塑從實驗室到病床的一切。在史丹佛,我的學生和合作者多年來一直與醫院、養老院和居家患者合作。這段經歷讓我確信了空間智能在此處的變革潛力。AI可以通過多維模擬分子相互作用來加速藥物發現,通過幫助放射科醫生在醫學影像中發現模式來增強診斷,並實現環境監測系統,在不取代康復所需的人際聯絡的情況下支援患者和護理人員,更不用說機器人在許多不同場景下幫助我們的醫護人員和患者的潛力了。·在教育領域,空間智能可以實現沉浸式學習,使抽象或複雜的概念變得具體可感,並創造出對我們大腦和身體學習方式至關重要的迭代體驗。在AI時代,更快、更有效的學習和技能再培訓的需求,對學齡兒童和成年人而言都尤為重要。學生可以在多維空間中探索細胞機器或漫步於歷史事件。教師可以通過互動環境獲得個性化教學的工具。從外科醫生到工程師的專業人士,都可以在逼真的模擬中安全地練習複雜技能。在所有這些領域,可能性是無限的,但目標始終如一:讓AI成為增強人類專長、加速人類發現、放大人類關懷的力量——而不是取代那份屬於人的判斷力、創造力與共情力。結論過去十年見證了AI成為一個全球現象,以及技術、經濟乃至地緣政治的一個拐點。但作為一名研究者、教育者,以及現在的企業家,最能激勵我的,仍然是圖靈75年前那個問題背後的精神。我仍然分享著他的那份好奇心。正是這份好奇心,讓我每天都為空間智能這一挑戰而充滿活力。歷史上第一次,我們有望建構出與物理世界如此協調的機器,以至於我們可以在面對最嚴峻的挑戰時,將它們視為真正的夥伴。無論是加速我們在實驗室中理解疾病的方式,徹底改變我們講述故事的方式,還是在我們因疾病、受傷或年老而最脆弱的時刻支援我們,我們都正處在一項技術的前沿,它將提升我們最關心的生活方面。這是一個更深刻、更豐富、更有力量的生活願景。在大自然於遠古動物身上釋放出空間智能的第一縷微光近五億年後,我們有幸成為能夠很快賦予機器同樣能力的這一代技術人員——並有幸利用這些能力為世界各地的人們造福。我們對真正智慧型手機器的夢想,沒有空間智能是無法完整的。 (網易科技)
今日,“AI教母”李飛飛的長文顯示,華為賭對了技術的方向
11月11日,“AI教母李飛飛”發表長文。表達了對大語言模型,空間模型的看法。核心觀點如下:李飛飛肯定了大語言模型對人工智慧發展的進步,但她認為大語言模型還遠遠不夠。目前最先進的 MLLM 模型在估計距離、方向、大小等方面的表現跟隨機猜測差不多——它們不能憑空想像物體,不能穿越迷宮、識別捷徑,也無法預測最基本的物理規律。而且AI 雖然能夠完成閱讀、寫作、研究和資料模式識別等特定任務,但在理解或與物理世界互動時,卻存在根本性侷限。人類對世界的感知是整體性的,不僅能看到外在本體,還理解它們在空間上的關係、意義以及重要性。同事通過想像、推理、創造和互動來理解世界,而不僅僅是用語言去描述,這是空間智能和語言的本質區別。這其實就引出了一個最核心的問題,就是大語言模型不具備空間想像和理解能力。沒有這種能力,AI 就無法真正與物理現實建立聯絡。也就無法完成自動駕駛汽車,機器人手術等高難度動作。這與現實世界的規律呼應,人類每天的行為都與空間智能有關:比如停車時通過想像車頭與路沿間逐漸縮小的距離來判斷位置;接住從任意方向扔來的鑰匙;在人群中穿梭不發生碰撞;或是半睡半醒時不用看就能把咖啡倒進杯子裡。這是因為人的腦子裡有對世界的理解才能完成這些動作。隨後,李飛飛通過自問自答的方式引出了長文的核心類股,世界模型。AI怎樣才能像人一樣有條不紊的穿梭於現實世界,並且解決特定問題?這一切的答案不只是大型語言模型(LLM),而是世界模型(World Models)。也是基於這一理念,李飛飛建立了World Labs。到這,其實已經能夠體現華為的技術前瞻性判斷了。華為智能汽車解決方案BU CEO靳玉志在接受媒體採訪談到VLA與世界模型的區別時表示:“走VLA技術路線的企業,認為現在大家是通過Open AI等各種語言大模型,把網上的資訊學了一遍以後,將語言、所有的學習轉換成LM的方式掌握知識。而VLA在嘗試,在大模型通過LM已經演變得相對成熟的背景下,把視訊也轉化成語言的token進行訓練,再變成action,控制車的運動軌跡。華為不會走向VLA的路徑。我們認為這樣的路徑看似取巧,其實並不是走向真正自動駕駛的路徑。華為更看重WA,也就是world action,中間省掉language這個環節。這個路徑目前看起來非常難,但能實現真正的自動駕駛。WA就是直接通過行為端,或者說直接通過vision這樣的資訊輸入控車,而不是把各種各樣的資訊轉成語言,再通過語言大模型來控制車。這裡的vision只是一個代表,它可能來自於聲音,可能來自於vision,也可能來自於觸覺。”這也是華為堅持WEWA架構的核心原因,拆解來看就是雲端世界引擎和車端世界行為模型。在車雲兩端都在強調對世界和空間的理解。李飛飛認為,世界模型必須具備3種能力:生成性 (Generative):能夠生成在感知、幾何和物理規律上保持一致性的世界。多模態性 (Multimodal):天生設計為多模態,能處理和輸出多種形式的資訊(如圖像、視訊、深度圖、文字、動作)。互動性 (Interactive):能夠根據輸入的“動作”,預測或輸出世界的“下一個狀態”,並最終可能預測“下一步應該怎麼做”。這和華為的WEWA架構具備的能力完全一致。WE可以理解成一個雲端運行的World Engine世界引擎。利用擴散生成模型技術,能夠高可控地生成各種平時人類司機開車很少遇到的難例場景,比如側前車Cut-in、紅綠燈路口、寵探頭、前車急剎等多種場景及組合場景。WA則是一個世界行為模型,空間推理能力強,距離位置判斷更精準,模型精幹,參數規模並不大,降低了對車端硬體的依賴,效率高,響應快。此外,WEWA的專用大模型採用MoE多專家架構,在面向不同場景時,只有部分專家會被啟動,這進一步提升了模型的運行效率與響應速度。拆解來看,完全符合李飛飛談到的世界模型應該具備的生成性,多模態和預測性特徵。李飛飛也談到,建構世界模型遠比建構語言模型困難,因為世界的維度遠超語言。主要有三大挑戰:新的訓練任務:需要找到類似 LLM 中「下一個詞預測」那樣優雅的通用任務函數,但難度更高。大規模資料:需要能從海量的網際網路圖像和視訊中提取深層空間資訊,並輔以合成資料和多模態資料。新的模型架構:需要超越當前 1D/2D 序列範式,發展出具備 3D 或 4D 感知能力的新架構(比如 World Labs 的 RTFM 模型)。這也是華為在探索的方向,建構新的原生模型架構,通過海量真實資料+模擬合成資料組合得方式增加資料量。關於世界模型,行業裡其實還有另一種說法,其實大家私底下都認可世界模型的價值,或者直覺上判斷這是一個可以探索的方向,只是沒有華為那麼財大氣粗,沒有足夠的資金和實力去探索,所以只能說自己當下的模型好。李飛飛認為,世界模型是人工智慧下一個十年值得探索的方向。只有方向正確了,我們距離真正的無人駕駛才會越來越近。 (圓周智行)
王興興最新發聲!這將是具身智能的“ChatGPT時刻”
“未來1至2年,誰能實現這個目標,誰將擁有全球最領先的具身智能AI模型。”11月5日,宇樹科技股份有限公司創始人、董事長王興興在第八屆虹橋國際經濟論壇“人形機器人創新發展合作”分論壇上對具身智能的“ChatGPT時刻”何時到來作出前瞻判斷。在他看來,誰能在未來一兩年內實現“在80%的陌生場景中完成80%任務”的突破,誰就是全球最領先的具身智能。“比如到明年這個時候,隨便一台人形機器人到會場,你跟它交代任務,比如說‘幫我拿一杯水’或者說給某位記者朋友拿一份東西過去,它可以直接過去把這個任務完成。這個場景完全沒有預訓練過,你給的東西它也沒有看到過。”王興興舉例說。他認為,在完全陌生場景下,機器人能達到80%左右成功率,就已經掌握突破性技術了。“目前人形機器人(包括具身智能)最關鍵的還是機器人大模型(具身智能模型)的進展速度,我覺得稍微有點慢了。”王興興表示,相對去年來說,今年深度強化學習的全身運控的進步非常明顯,但在具身大模型,“端到端能幹活“的技術進步稍微慢了一點,但總體而言其對人形機器人的前景較樂觀。王興興稱,“具身機器人目前的發展階段類似於ChatGPT發佈前的1-3年左右,大家已經發現了方向,但還沒有做成可以突破臨界點的事情。為了早日實現“ChatGPT時刻”,更應該研究模型,還是收集更多的資料?王興興表示,目前在模型結構上大家做了很多嘗試,但泛化能力不夠,還需要創新。大家也需要收集更大規模的資料、質量更好的資料。但目前,對資料的採集、對資料質量的評判還非常困難。另外,他提出,模型和資料需要相輔相成,而不是一股腦採集大量資料,或者一股腦把模型做大。目前,具身智能主流模型有VLA(視訊語言動作)+RL(強化學習)模型和基於視訊生成的世界模型。王興興表示,前者可以用模擬環境做訓練,或者用真實場景做訓練,但泛化能力相對來說不是特別夠。因此,他更喜歡基於視訊生成的世界模型。然而,王興興也認為,該模型面臨比較大的挑戰。因為基於視訊生成的世界模型對算力的需求非常大,需要的算力卡比較多,所以中小型人形機器人公司往往“跑不動”,反而是一些大型AI公司、網際網路公司視訊模型的資源更加豐富,做出該模型的機率更大。 (金融時報)
世界模型,大語言模型之後的第二場革命
“大語言模型是基礎,世界模型是途徑,自主智能才是AI的終極奧義。在過去兩年裡,大語言模型(LLM)在語言理解、文字生成、推理、指令執行等方向取得突破,使AI在理解語義層面變得越來越可靠。然而,語言智能只是通向通用智能的一環。要讓AI在懂語言的基礎上,去理解真正的世界,就必須讓它理解環境、感知動態、在環境中做出行動判斷。這其中的關鍵,就是世界模型(World Model)。世界模型的核心是讓AI內部建構一個可互動的世界,要理解物理規則、模擬未來狀態、預測動作結果。實現從靜態圖像、視訊生成,逐步走向多模態、帶動作控制的視覺語言動作模型(VLA,Vision-Language-Action)。從OpenAI的Sora(文字→視訊世界模擬)到DeepMind的Genie(可互動世界生成),從Meta的V-JEPA 2(視覺自監督世界模型)到特斯拉在自動駕駛系統中隱含的世界意識探索,乃至國內諸如華為ADS等智駕系統,這些案例都表明世界模型正成為AI Agent化路徑上的關鍵支點。可以預見,未來的AI Agent很可能是“LLM+世界模型+執行動作層”的三層協同結構。理解這一趨勢,對我們判斷產業方向、技術路線、戰略佈局至關重要。從語言到世界:AI理解的邊界在延伸如果說大語言模型讓AI學會了理解語言,那麼世界模型的出現,則意味著AI開始嘗試理解世界。在人工智慧研究的脈絡中,“世界模型”(World Model)並不是一個全新的概念。早在2018年,Google大腦研究科學家David Ha與瑞士AI實驗室IDSIA負責人Jürgen Schmidhuber在經典論文《World Models》中提出,智能體要想高效學習,就必須在大腦中建構世界的內部模型。這種模型能夠通過感知輸入,去預測外部世界在未來的變化,在內部“想像”出一系列可能的結果,從而據此選擇行動。智能體包含緊密相連的三個模組:視覺 (V)、記憶 (M) 和控製器 (C)(來自World Models)彼時,世界模型還主要服務於強化學習領域,用於在遊戲或模擬環境中幫助智能體做規劃與決策。隨著算力的提升和多模態學習的成熟,世界模型的內涵被重新定義,從在模擬環境裡學習,演進為讓AI自己生成並理解環境。比如GoogleDeepMind在Dreamer系列工作中,讓智能體能夠在潛在空間(latent)中對未來進行滾動預測(roll-out),從而無需真實環境就能完成策略最佳化。這種思路,被視為世界模型的早期成熟版本,也讓預測未來成為機器學習的新邊界。而真正讓世界模型走出學術圈,成為AI產業熱詞,是視訊生成技術的突破。2024年2月15日,OpenAI發佈Sora模型,並在官方論文中首次明確提出,視訊生成模型正在成為世界模擬器(world simulator)。Sora不僅能生成語義上合理的視訊,還能在物理規律、光影運動、空間連續性等層面維持一致性,讓AI演繹世界成為可能。Sora2幾乎在同一時間,Meta發佈視覺自監督模型 V-JEPA(Visual Joint Embedding Predictive Architecture)。這是由Yann LeCun團隊主導的項目,旨在讓AI通過預測視覺序列中的時空變化,在潛在空間中理解世界的結構與規律。與生成式模型不同,V-JEPA不直接生成圖像,而是學習世界的抽象表徵,這是Meta首次在視覺領域明確提出建構世界模型的研究方向。僅在那十餘天後,DeepMind發佈了Genie模型。與Sora不同,Genie並不是單純的視訊生成器,而是一個“可玩世界”的生成模型,可以從普通視訊素材中學習環境規律,並生成可即時互動的二維遊戲場景。使用者可以控制角色在生成的世界中移動、碰撞、跳躍,這種“生成—互動—反饋”的閉環,被認為是世界模型從被動感知邁向主動參與的重要一步。Sora、V-JEPA與Genie,分別代表了世界模型演化的三個方向,生成世界、理解世界、參與世界。三者幾乎出現在同一時間節點,共同組成了世界模型認知層面的突破。而另一條更具現實意義的路徑,則來自執行層面的落地。自2023年底起,特斯拉在其自動駕駛系統FSD(Full Self-Driving)中推行端到端神經網路架構,從感知到規劃再到控制,全部由統一模型完成。馬斯克將FSD V12稱為世界模型驅動的駕駛系統,因為車輛已不依賴高精地圖或人工編碼規則,而是通過多攝影機視訊流在內部重建外部環境,並即時預測交通參與者的行為。今年上半年推出的FSD V13進一步加入時序記憶與多模態預測,使這一世界模型式駕駛的雛形更趨完整。而在國內,這樣的探索思路也幾乎同步落地。比如華為在2024年4月發佈ADS 3.0(乾崑),以去高精地圖與世界建模感知為核心,依託多源感測重建動態場景;小鵬在2024年5月公佈XPlanner(規劃與控制大模型),與感知網路XNet、車載大模型XBrain組成端到端量產棧,將長時序預測引入軌跡規劃;百度Apollo則在同月推出ADFM自動駕駛基礎模型,並搭載到第六代 Robotaxi。這些系統共同指向一個趨勢,世界模型正在從虛擬場景走向真實世界,從“認知世界”轉向“執行世界”。如果說Sora、V-JEPA、Genie們建構的是AI的感知與想像層,那麼FSD、ADS、XPlanner、Apollo們則建構了AI的行動與落地層。前者是通往通用智能的基礎,後者則是將智能具象化的通道。中美雙極:世界模型競賽的兩種路徑如今,世界模型已經成為全球AI競爭的新焦點。其中,最具代表性的當屬中美之間的競爭。這場看似關於演算法的較量,背後卻是認知方式與產業邏輯的分歧,也正因為這種分歧,中美兩國正走在兩條不同的路徑上。前文說過,在美國,OpenAI、DeepMind、Google、Meta、Anthropic五大巨頭構成了最具體系化的“世界建模陣營”。它們的共同特徵是,從語言模型出發,沿著認知—生成—具身(Embodied)的路線,把AI從語言理解延伸到物理模擬。今年9月,Sora 2登場,不僅整合了音視訊統一建模和動態光照控制,還新增 “Cameo”功能,讓使用者可以直接把自己嵌入生成的世界中。今年8月,DeepMind發佈Genie 3,允許從自然語言直接生成三維、可操作的虛擬世界,使用者能即時控制角色,與環境互動並觀察反饋。今年6月,Meta V-JEPA 2以自監督方式讓AI理解視訊中的時序與動力規律,成為世界模型“視覺直覺”的雛形。它不依賴標籤資料,而是通過預測畫面未來幀的方式,逼近人類感知世界的方式。與此同時,儘管Google Gemini 2.5 Pro與Anthropic Claude 4.5不算嚴格意義上的世界模型,但它們都在讓語言模型具備理解世界的能力,前者通過多模態語義建模理解現實邏輯,後者通過隱式因果推理保持認知一致性。以此可見,美國的研究體系已經形成了完整的認知鏈條,從理解語言、預測視覺變化到生成並模擬世界。而在中國,世界模型的側重方向更貼近執行層面。從智能駕駛到行業智能體,再到具身機器人,國內企業更關注AI在真實物理環境中的可感知、可預測與可執行性。可以說,中國企業更看重系統整合與工程落地。智能駕駛之外,國內世界模型的思想和策略也正在進入更多行業場景。比如華為盤古大模型引入物理建模框架,將世界模型理念應用到氣象預測、製造、製藥等工業領域;百度文心在視訊理解和數字人互動中融入動態世界建模機制,此類案例非常多,這裡就不一一展開。更具代表性的,是中國在具身智能方向的系統化突破。過去一年,宇樹、優必選、傅利葉、小米等公司,陸續推出新一代人形與四足機器人,讓世界模型從演算法概念真正落地到機器身體。比如宇樹發佈的R1人形機器人,支援圖像與語音多模態融合,可進行動態行走與互動;優必選 Walker S2具備靈巧雙臂與自主換電功能,更貼近工業執行場景;傅利葉推出可遙操作的GR-3C人形機器人版本,可用於康復與人機協作;從智能駕駛,到智慧型手機器人,中國的AI正在推動世界模型從虛擬走向物理,從演算法走向具身。中美世界模型生態邏輯對比:當然,這種解讀僅限於生態偏重,不涉及能力邊界。美國並非只有認知與生成。以特斯拉、Figure AI、Boston Dynamics為代表的企業,已經在建構具身智能與自動駕駛的世界建模系統建立一定優勢。國內也不止於感知與執行。萬相、可靈等視訊生成模型,也在建構中國版的“視覺世界模擬器”。儘管中美兩國為代表的世界模型演變生態邏輯不同,但從更長的技術周期看,這種分野正逐漸進化為互補關係。世界模型的最終方向,肯定不是生成完美的視訊,也不是控制一輛汽車,而是打通“理解—預測—行動”的完整閉環。從這個層面來說,中美兩國正共同建構通向通用智能的現實路徑。AI的下一個臨界點:世界模型接管智能體過去十年,AI的每一次躍遷都源自輸入方式的變革:文字帶來了語言智能,圖像催生了視覺智能,而如今,世界模型正在讓AI理解現實世界,一個有時間、有空間、有因果的動態系統。這正是世界模型的核心價值,它讓AI獲得了具身智能(Embodied Intelligence)的基礎。在過去的一年中,具身智能已經成為全球AI研究的共識。如OpenAI投資的Figure AI,正在以GPT系列模型驅動人形機器人的決策系統;特斯拉的FSD與Optimus,分別在道路和工廠場景中驗證世界模型驅動的閉環控制;中國的機器人企業也在讓模型直接掌控感測器與電機,使演算法真正落地到身體。這種趨勢背後,AI正在經歷一場從虛擬智能到物理智能的轉變。在虛擬世界中,它生成一段視訊或一段話,而在物理世界中,它必須理解摩擦力、時間延遲和人的意圖。可以預見,未來的智能體將是一個多層協作系統:上層的大語言模型負責目標規劃與邏輯推理,中層的世界模型負責環境建模與因果預測,底層的執行系統則負責感知、行動與反饋。當這三層閉合,AI才真正擁有“意圖—計畫—行動”的完整循環,這正是通用智能的現實路徑。再往前一步,便是AI的終極奧義——自主智能(Autonomous Intelligence)。一旦AI能在內部模擬世界、預測變化並根據反饋修正決策,它就不再只是生成內容、執行動作,甚至可能思考如何存在。這意味著,AI將具備一種內在的驅動力:能根據環境變化自主設定目標、規劃路徑、評估後果、修正策略。這種能力不再依賴外部指令,而是建立在長期記憶、世界建模與價值函數的協同基礎之上。可以說,自主智能是AI自我意識的一種雛形,即不以人類輸入為中心,而以世界模型為認知坐標系,主動發現問題、驗證假設、最佳化自身。智能的定義,也將被徹底改寫。挑戰與啟示:從概唸到產業化仍有距離當然,這是最順暢的路徑。事實上,每一次智能的躍遷,都伴隨著新的複雜性與不確定性。首先,是技術和生態層面的挑戰。與語言模型不同,世界模型必須同時理解文字、圖像、視訊、語音、動作等多模態資訊。資料維度暴漲、推理鏈條加深、模型參數呈指數級增長,對算力、能耗與資料質量提出了前所未有的要求。Sora等級的視訊生成模型都需要巨量GPU支撐,而具身智能又要求在端側實現即時計算,其中的複雜性將考驗當下的算力極限。同時,世界模型也缺乏跨平台協同的工程體系配套。目前而言,世界模型沒有標準,缺乏統一的訓練語料、可比的評價指標與公共實驗平台,企業往往各自為戰。如果無法實現跨模型的可驗證性與可復用性,世界模型的生態就很難真正形成規模化創新。其次,是認知層面的挑戰。世界模型的強大之處,在於它可以在內部推演與預測,但這也讓它的決策過程愈發難以被人類理解。試想一下,當一個模型能在潛在空間中模擬成千上萬種結果時,我們還能否追蹤它的決策邏輯?從自動駕駛的責任歸屬,到自主智能之間,有沒有可能產生長期目標漂移(Goal Drift)?進而延伸出AI的目標是否仍與人類一致的問題。一旦AI從被動執行轉為主動學習,安全與倫理的議題,也隨之從技術層面上升到價值層面。接下來,是產業和倫理層面的挑戰。世界模型的進一步發展,勢必重新定義產業邊界。AI不僅可能重構交通、製造、醫療、金融等領域的決策體系,也將催動演算法主權、智能監管等制度議題。中美雖然在路徑上各有偏重,美國憑藉資本與開放生態快速試錯,中國依託產業鏈協同推進落地,但雙方都面臨同一問題,當世界模型真正嵌入社會運行系統,它將以何種規則參與人類世界?就目前而言,世界模型所依託的世界,仍建立在人類提供的語料、規則與經驗上。但AI進化下,人類需要持續地在技術、倫理與治理層面為智能設定邊界,這會是一項長期的考驗。總之,世界模型是演算法從符號空間步入物理現實的通道。大語言模型建構了AI的語義基礎,世界模型打開了AI的行動途徑,目標是智能的真正落地。可以肯定的是,世界模型的意義,絕對不是讓AI更像人,而是讓人類在AI的協同下,走向更遠的未來。 (資料猿)
突破!DeepSeek新模型適配中國國產AI晶片!
中國人工智慧領域迎來軟硬體協同發展的重要里程碑。9月29日,深度求索(DeepSeek)公司正式開源發佈DeepSeek-V3.2-Exp大語言模型,其創新的稀疏注意力架構(DSA)顯著提升長文字處理效率。與此同時,華為昇騰計算產業生態宣佈實現對該模型的“0day支援”,基於vLLM/SGLang等主流推理框架完成全套適配部署,並向開發者開源所有推理程式碼和算子實現。DeepSeek-V3.2-Exp作為實驗性版本,首次引入細粒度稀疏注意力機制(DSA),在保持與V3.1-Terminus相當性能的前提下,顯著最佳化了長上下文場景下的訓練與推理效率。該機制通過動態令牌選擇與局部注意力聚焦,有效降低了長文字處理的計算複雜度和記憶體佔用。華為昇騰團隊針對模型架構中的兩個全新算子——Lightning Indexer(LI)與Sparse Flash Attention(SFA),進行了專門的算子Tiling設計、Cube核與Vector核間的流水最佳化,全面提升計算效率。在CANNAI平台上,昇騰完成了對應的最佳化適配,整體部署策略沿用DeepSeek的大EP平行方案,並針對稀疏DSA結構疊加實現長序列親和的CP平行策略,兼顧時延和吞吐。實測資料顯示,在128K長序列環境下,最佳化後的模型在昇騰硬體上能夠保持TTFT(首令牌響應時間)低於2秒、TPOT(每個令牌輸出時間)低於30毫秒的推理生成速度。這一性能表現使得中國國產算力平台在處理大規模語言模型任務時達到業界先進水平。為進一步簡化開發流程,昇騰CANN首次推出大融合算子程式設計體系PyPTO,該框架創新性地採用PTO程式設計範式,以Tensor為基本資料表達方式,建構計算圖,實現高效計算與最佳化。目前基於PyPTO完成的DeepSeek Indexer Attention和Lightning indexer算子開發,僅需幾百行程式碼即可實現動態Shape算子程式設計和算子整網運行。除了華為昇騰,寒武紀、海光等中國國產晶片廠商也迅速宣佈完成模型適配,展現出中國國產AI軟硬體生態協同效應的持續擴大。業內分析指出,DeepSeek已成為中國國產開源模型的重要標竿,其快速迭代正推動著中國國產晶片標準的確立。華為雲已在第一時間完成對DeepSeek-V3.2-Exp模型的適配工作,基於稀疏Attention結構疊加實現長序列親和的上下文平行策略,最大可支援160K長序列上下文長度。目前該模型已正式上架華為雲大模型即服務平台MaaS,為企業和開發者提供模型體驗和API服務。DeepSeek-V3.2-Exp的發佈與中國國產算力的快速適配,標誌著中國在人工智慧基礎軟硬體協同最佳化方面取得實質性進展。隨著稀疏注意力等創新技術的成熟,以及中國國產算力生態的不斷完善,中國人工智慧產業正朝著自主可控、高效普惠的方向穩步邁進。 (晶片行業)