#語言模型
AI泡沫要破?巨佬顛覆認知的觀點來了!
大模型的決戰越來越激烈了!Google的崛起令OpenAI感到恐懼,並醞釀新的大動作!OpenAI直接拉響警報,推遲賺錢的廣告業務,也要把所有資源梭哈到ChatGPT的改進上。現在的AI圈子,像是星球大戰前夜,由於恐懼,每個人都把手指扣在了扳機上。兵荒馬亂的年代,蔡崇信在香港大學爐邊對話中,拋出了非常反直覺的觀點:現在美國人定義誰贏得AI競賽的方式,純粹是看大型語言模型,我們不看美國定義的AI競賽。當所有人都在盯著誰的模型參數大、誰的算力強時,蔡崇信卻認為——勝負手根本不在這裡。如果不看模型,這場兆賭局的贏家到底看什麼?中國手裡到底還有沒有牌?看完發現,原來大佬眼裡的世界,和我們看到的完全不一樣。1中國AI的真正優勢現在美國矽谷大模型怎麼算輸贏?很簡單:看誰的“大語言模型”更強、更聰明、參數更多。今天是OpenAI遙遙領先,明天Anthropic發個新版本追平,後天Google又搞個大新聞。大家都在卷模型,彷彿誰的模型智商高了一點,誰就統治了世界。但在蔡崇信看來,事實未必如此。他在演講中說了這麼一句極具穿透力的話:"The winner is not about who has the best model. The winner is about who could use it the best in their own industries, in their own lives."(真正的贏家不是誰擁有最好的模型,而是誰能在自己的行業、自己的生活中把它用得最好)這句話什麼意思?打個比方。如果這是一場賽車比賽,美國人現在拚命在比誰的發動機馬力大。但蔡崇信告訴你,贏家不是那個造出萬匹馬力發動機的人,而是那個能把發動機裝進車裡、開著車去送貨、去載客、去賺到真金白銀的人。這個判斷的底層邏輯是:AI的真正價值在於滲透率。中國國務院的AI規劃就體現了這一務實思路——到2030年,AI智能體和裝置的普及率達到90%。中國憑什麼能普及得更快?蔡崇信列出了幾個核心底層邏輯。我們總擔心晶片被卡死,但蔡崇信告訴我們:決定勝負的,是那些基礎到你根本不會關注的領域。1.被低估的電力成本AI訓練和推理,本質上是在燒電。中國的電力成本,比美國低40%。為什麼?中國的國家電網每年投入900億美元的資本支出,而美國只有300億美元。電費低40%,意味著AI應用成本可以大幅低於對手。這是最基礎、最硬核的AI能源優勢。2.建造資料中心的成本低60%在中國建造資料中心的成本要便宜60%,這還不包括購買晶片、廉價GPU的成本。3.工程師紅利晶片可以封鎖,但人才你鎖不住。全球範圍內,幾乎近一半的AI科學家和研究人員擁有中國大學的學位——無論他們在美國公司、中國公司還是世界任何地方工作。蔡崇信說在最近剛看到一個社交媒體帖子,一個在Meta工作的非華裔員工抱怨說,他所在的AI團隊每個人都在說中文,用中文交流想法,他聽不懂。這意味著很多想法的分享和交流在全球AI領域正在用中文進行。這是第一次,中文成為一種優勢!現在,懂中文在AI世界變成了一個優勢。4.最反直覺的優勢:匱乏,逼出內功這是最讓人熱血沸騰的一點:缺乏頂級GPU,反而創造了“飢餓優勢”。美國人資源充足,程式碼寫得爛一點也沒關係,硬體能扛。但中國團隊呢?硬體受限,就必須在系統層面、演算法層面做到極致最佳化,把效率摳到最高。蔡崇信特別點名了爆火的DeepSeek。他說這就是被逼出來的奇蹟。2開源為什麼會贏?蔡崇信還給出了一個對未來的深度判斷,也是這場演講的重中之重。蔡崇信相信中國公司對待大語言模型的方法——即開源——將加速AI的採用,並將真正實現AI的普及,從而使更廣泛的社會受益。開源如此重要的原因是,它成本低廉,使用開源模型實際上不花一分錢。AI的未來,是像OpenAI那樣搞“黑箱子”(閉源),還是像阿里、Meta那樣搞開源?蔡崇信斬釘截鐵:開源模型,將擊敗閉源模型。為什麼?不是因為開源技術更先進,而是因為它更懂人性。他舉了一個極其生動的例子:假設你是沙烏地阿拉伯的國王,你想發展自己國家的AI,你有兩個選擇:用OpenAI的API:你得付一大筆錢,把你的資料傳給美國公司。然後呢?你不知道他們怎麼處理你的資料,你也不知道這模型裡面有什麼貓膩。這就是一個Black Box(黑箱)。用開源模型(比如阿里的Qwen):你直接下載程式碼,部署在你自己的私有雲上。免費,而且資料不出國門,完全可控。這就叫"主權AI",意思是它是我們自主開發的AI。在全球地緣政治這麼複雜的今天,誰願意把命脈交到別人手裡?無論是政府還是大企業,只要稍微算一下帳,稍微考慮一下安全,都會傾向於開源。開源模型有三大殺手鐧:成本、主權、隱私。這三座大山,是閉源模型很難跨越的。3AI時代,普通人該如何應對?蔡崇信給了三條極具實操性的建議,特別是關於“學什麼”,他的觀點顛覆了很多人的認知。1.提出正確的問題比回答更重要在技能方面,蔡崇信認為要學習如何獲取知識,學習如何分析和思考,還有一個重要的技能是提出正確的問題。以前我們上學,老師獎勵那些能快速回答問題的人。但在AI時代,回答問題是機器的事,機器的知識庫比你大多了。蔡崇信強調:"Asking the right question is more important than finding the answer." (提出正確的問題,比找到答案更重要)你要學會的是如何給AI下指令,如何拆解問題。這叫“Prompt Engineering”(提示工程),這是未來人類的核心競爭力。2.還要不要學程式設計?這是目前爭議最大的話題。輝達的老黃說“以後沒人需要學程式設計了”,對著手機說話就行。蔡崇信反對這個觀點。他說:要學!必須學!但他給出的理由:"The purpose is not to actually operate a machine. The purpose is going through that thinking process."(目的不是為了去操作機器,而是經歷那個思考過程)學程式設計,不是為了讓你去寫程式碼(那活兒AI幹得比你好),而是為了訓練你的邏輯思維。甚至,他建議大家去學好Excel電子表格。為什麼?因為你要把一個複雜的公式寫對,讓數字自動跑出來,這本身就是一種嚴密的邏輯訓練。你要訓練的是腦子,而不是手速。3.選什麼專業?如果你的孩子現在要上大學,蔡崇信推薦了三個方向:資料科學:其實就是統計學的升級版。未來是資料爆炸的時代,世界越數位化,你或公司獲取的資料就越多,理解如何管理和分析資料非常重要。心理學和生物學:在做了資料之後,你還想觸及人性的一面,心理學的研究很重要。心理學和生物學幫助你理解人腦是如何工作的,它仍然是最高效、最節能的"機器",理解大腦如何工作非常重要。材料科學:現在很多孩子不學電腦科學,而是在學材料科學。未來世界正被位元(數字資訊)主導,但未來讓位元移動更快的是原子(物理材料)。理解原子如何工作將會非常重要,人們製造半導體,未來半導體領域將會有很多創新。所以材料科學將是一個有趣的學習方向。4AI是泡沫還是未來?AI是否是下一個網際網路泡沫?蔡崇信的回答很哲學,關於泡沫,他認為有兩個概念:真正的泡沫和金融市場泡沫。金融市場泡沫:不知道是否存在金融市場泡沫,因為股票估值更像一門藝術。即使有既定的理論,你可以給一隻股票50倍的市盈率,因為你認為增長率非常高,這合理嗎?我不知道,可能存在與AI相關的金融市場泡沫。技術泡沫:AI現像是真實的。人們正在建造的所有基礎設施,投入到模型開發中的所有研發資源,都不會浪費,因為這是一個真實的現象。就像網際網路一樣,在2000年3月左右,網際網路泡沫破裂了,那是金融市場泡沫破裂,但今天的網際網路就在這裡,事實上網際網路現在更強大,所以技術本身不是泡沫。蔡崇信的這次演講,給人最大的感受是,這場比賽才剛剛開始。這不是一場百米衝刺,看誰起跑快;這是一場馬拉松,看誰能把技術真正融入到這片土地的每一個角落,看誰能用更便宜的電、更務實的態度、更開放的胸懷,去擁抱這個未來。"Focus on the application, not just the model."(關注應用,而不只是模型)這,或許才是中國AI破局的真正答案。對於個人來說,也許在未來,AI將成為成為我們的夥伴。正如蔡崇信所言:AI的下一個重大轉變是當人們開始不再僅僅將AI視為工具,而是作為朋友。現在AI似乎更像一個工具,我們都想用它來讓自己更高效,讓公司更高效。AI已經在幫助我們編碼,所以我們不需要那麼多軟體工程師。但是,AI何時能成為你的夥伴?那時,如果大多數人開始像對待另一個人一樣看待AI,那將真正改變世界,改變行為。有時想想這很可怕,但我看到這正在發生。 (ETF進化論)
外媒報導:矽谷吹起“千問恐慌"
阿里巴巴推出的AI語言模型──Qwen系列/千問App,美國產學研各界都有較好的應用。而據評價稱,Qwen系列可與ChatGPT匹敵,這已經使得矽谷漸漸有些坐立難安。外媒稱:「千問恐慌」正在矽谷吹起。而這也折射了中美兩國AI越發激烈的競爭態勢。►►► 大語言模型:應用和成本之戰過去一年,阿里巴巴不僅推出了Qwen大型語言模型系列,還發佈了一款與ChatGPT直接競爭的消費級App。想像一下,一個AI代理人可以協助你在淘寶購物、用地圖規劃路線、在支付寶處理付款、支援企業協作與最佳化供應鏈物流。這就是千問App最大優勢:AI能直接嵌入一個龐大且成熟的應用宇宙。相較之下,ChatGPT多數情況仍是獨立產品,與消費者的生活應用場景連結有限。Airbnb  CEO 布萊恩·切斯基(Brian Chesky)公開表示,說他們依賴阿里Qwen模型勝過勝過ChatGPT,形容它「快速、便宜到不可思議」。千問恐慌,背後代表的是AI競賽正從「誰的模型更聰明」,轉向「誰能打造最強的開發生態與更高的滲透速度」。►►►矽谷開發者的選擇:性價比才是王道就跟今年初DeepSeek出現帶來的影響一樣,當全球開發者發現,他們可以用更低的成本,獲得性能足夠好的AI模型和運算能力時,「技術最先進」的重要性就會被「性價比最高」取代。《DIGITIMES》報導指出,Qwen系列在美國技術社群的下載資料、採用率明顯上升。2025年,Qwen系列模型,在開源社群平台Hugging Face平台的下載量達到3.85億次,超越了Meta的Llama(3.46億次)。目前有誰在用阿里的Qwen模型呢?亞馬遜用Qwen開發下一代送貨機器人的模擬軟體;蘋果因監管限制,選擇Qwen為中國大陸版Siri提供AI功能。OpenAI  前CTO  Mira Murati的新實驗室也將Qwen納入預設的微調選項。學術界頂尖機構也正在採用Qwen模型,史丹佛大學李飛飛領導的研究團隊,用Qwen2.5-32B建構頂級推理模型S1,成本不到50美元。Google前 CEO  施密特(Eric Schmidt)曾提出一觀點,他表示,美國最大的AI模型,由於受限於監管風險,不但沒有開源,而且收費昂貴;反觀中國AI模型免費還開源,世界無可避免地將轉而採用中國AI模型。據瞭解,為了應對Qwen的崛起,美國甚至啟動ATOM計畫(American Truly Open Models),一個由產業領袖和研究人員組成的聯盟,用以推動美國的開源模型發展。►►►中國AI產業贏過美國?阿里巴巴帶起的千問恐慌,可能只是體現出一部份的中國AI技術潛力。《經濟學人》指出,中國半導體產業得到政府大力支援:從設立基金、限制外資晶片產品流通、到本地晶片優先採購政策。而人才基數龐大、AI開發者社群活躍,也在加速建立中國半導體生態系統,這些都是中國AI模型得以快速落地的重要推力。中國「低成本的開源模型」最終可能讓多數開發者倒戈,幫助讓中國的晶片競爭力進一步崛起。新南威爾斯大學AI專家Toby Walsh表示:「這些中國模型的成功證明了,美國出口管制未能限制中國。事實上,它們反而鼓勵中國公司更有創造力,打造出體積更小、還能在舊世代硬體上訓練與運轉的優秀模型。」美國的「千問恐慌」反映了未來的AI勝負,恐怕不在於誰擁有最強算力,而是那個模型能最快、最深入地嵌入人們的日常生活。 (芯聞眼)
AI教母李飛飛引爆矽谷!LLM大語言模型路線錯了,空間智能才是走向AGI的唯一路徑 | 附原文
“它們如同身處暗室的文字巨匠——能言善辯卻缺乏經驗,知識淵博卻脫離現實。”當“AI教母”、頂尖科學家李飛飛用這句話來定義今天所有的大語言模型時,她一針見血地指出了一個殘酷的現實:儘管AI看似無所不能,但它們其實都“活在黑暗中”。它們會寫詩、會畫畫,甚至會製作以假亂真的視訊,但卻無法理解一個杯子旋轉90度後會是什麼樣子,也無法讓一個虛擬人真正地遵守物理定律。在李飛飛看來,這種窘境的根源在於,我們一直以來都走錯了方向。AI的下一步,不是更大的語言模型,而是要賦予它們一種連嬰兒都與生俱來的能力——空間智能 (Spatial Intelligence)。 這,才是通往真正通用人工智慧的唯一路徑。01. 靈魂拷問:為什麼AI還是“睜眼瞎”?原文很長,我們先來點直觀的。你讓AI寫首詩,它分分鐘變身李白杜甫;但你讓AI做幾個簡單的物理題,比如:· “我把這個杯子轉90度,它長什麼樣?”· “這個迷宮的出口在那裡?”· “估算一下桌子到門的距離?”AI的回答,基本靠“蒙”。只要留意,那些看起來很酷的AI視訊裡,都會有各種“穿幫”鏡頭:一個人的手突然多了一根手指,或者物體毫無徵兆地穿牆而過。李飛飛就此一針見血地指出:因為它們不懂物理世界。它們無法真正理解距離、大小、方向和物理規律。所以,儘管我們對AI的期待是科幻電影裡的全能管家,但現實卻是:· 我們依然沒有能在家幫我們做家務的機器人。· AI在藥物研發、新材料發現等需要理解3D結構的領域,進展緩慢。· AI無法真正理解建築師、遊戲設計師或電影導演腦中的“世界”。02. 藏寶圖中缺失的那塊拼圖:空間智能AI缺失的“空間智能”,到底是什麼?李飛飛說,它是我們人類認知的“腳手架”。早在我們學會說話、寫字之前,就已經掌握了這項能力:· 嬰兒會花一到兩年時間,通過抓、扔、咬、看,來理解這個世界。· 你側方停車時,你的大腦在飛速計算保險槓和馬路牙子的距離有多遠。· 朋友把鑰匙扔給你,你不用拿紙筆計算拋物線,憑下意識就能接住。· 你半夜起床倒水,不開燈也能摸到杯子並把水倒進去。李飛飛還舉例說,甚至人類的偉大發現、文明進步都少不了這種能力:· 古希臘的埃拉托斯特尼是通過觀察兩地影子的角度不同,從而計算出的地球周長。· 哈格里夫斯發明出“珍妮紡紗機”,靠的也是對空間的觀察和理解。· 沃森和克里克是通過親手搭建3D分子模型,“拼”出的DNA雙螺旋結構。李飛飛認為,空間智能是人類想像力、創造力以及和世界互動的基礎。遺憾的是,當下的AI基本沒有這個能力。03. AI的下一步:從“語言模型”到“世界模型”那麼,怎麼讓AI“開眼”看世界呢?李飛飛給出了自己的答案:AI的未來,不在於更大的“語言模型”(LLM),而在於全新的“世界模型”(World Models)。她認為,一個真正的“世界模型”,必須是“三位一體”的:· 生成性(Generative):它必須能創造出符合物理、幾何規律的3D世界。比如,它“知道”重力,知道物體會下落,知道水會往低處流。· 多模態(Multimodal):它必須能處理一切輸入。比如不僅能聽懂你說的“話”,還要能看懂圖片、視訊、深度資訊、甚至你的一個“手勢”。· 互動性(Interactive):這是最關鍵的。當你告訴它一個“動作”,它必須能預測出“下一秒會發生什麼”。比如“推一下積木”,它就知道積木會倒。李飛飛坦言,這個挑戰比訓練語言模型要難得多。她解釋道,語言是一維的、序列化的訊號,而世界是四維的(三維空間+時間),受重力、物理定律等無數複雜規則的約束。李飛飛透露,她一年前和他人共同創立了World Labs,以及最近向少數使用者展示的第一個世界模型Marble,都是為了攻克這個難題。04. 這將如何改變我們的生活?一旦AI擁有了空間智能,那才是一場真正的革命。首先,是“超能力”般的創造力。李飛飛團隊World Labs正在研發的Marble模型,能讓電影製作人、遊戲設計師、建築師用“提示詞”快速建立和迭代3D世界。未來,這些人不再需要學習複雜的3D軟體,只需要用語言描述,就能生成一個可以走進、與之互動的3D世界。屆時,人人都能成為“造物主”。其次,是真正的“具身智能”。機器人將不再是“笨手笨腳”的機器臂。在“世界模型”的加持下,它們會在模擬環境中學會成千上萬種實用技能,然後走進我們的家庭、醫院,成為得力的助手和看護。此外,李飛飛特別提到,這樣的AI將成為未來科學與教育的“加速器”。· 醫療:AI可以在多維度上模擬分子間的相互作用,加速藥物的發現處理程序,也或幫助醫生分析影像,為患者和護理人員提供持續支援。· 教育:學生不再只是看書,而是可以“走進”古羅馬的街道,或者親身“探究”細胞內部。教師可以借助互動環境教學,專業人士則可以在高度逼真的模擬環境中練習並掌握複雜技能。· 科研:通過模擬深海、外太空等人類無法親自到達的環境,我們可以擴大科學探索的範圍;通過將多維度模擬與真實世界資料採集相結合,拓展實驗室觀察與理解的邊界。05. 結語:AI的終點,是“為人類賦能”作為幫助開啟了現代AI時代的科學家之一,李飛飛在文章的最後,回歸了她最核心的人文關懷。她強調,AI的終極目標,絕非取代人類,而是“為人類賦能”:“讓AI成為增強人類專長、加速人類發現、放大人類關懷的力量——而不是取代那份屬於人的判斷力、創造力與共情力。”她認為,AI由人開發、由人使用、由人管理,必須始終尊重人的能動性和尊嚴。它的魔力在於擴展我們的能力,讓我們更有創造力、更有效率。“空間智能”代表的正是這樣一個“更深刻、更豐富、更有力量的生活的願景”。它有望“建構出與真實世界高度契合的機器,讓它們成為我們應對重大挑戰的真正夥伴。”也許,機器的真正智能,就將從這篇“啟示錄”開始。【以下是李飛飛長文全文】跨越語言,構築世界:空間智能——AI的下一個前沿(From Words to Worlds: Spatial Intelligence is AI’s Next Frontier)1950年,當計算還不過是自動化算術和簡單邏輯的代名詞時,艾倫·圖靈 (Alan Turing) 提出了一個至今仍迴響不絕的問題:機器能思考嗎?能夠想像他所預見的一切,需要非凡的想像力:有朝一日,智能或許可以被建構,而非與生俱來。這一洞見後來開啟了一場名為“人工智慧” (Artificial Intelligence, AI) 的不懈科學探索。在我自己投身AI領域的二十五年裡,圖靈的願景依舊激勵著我。但我們離它還有多近?答案並非一言兩語能說清。如今,以大語言模型 (Large Language Models, LLMs) 為代表的前沿AI技術已開始改變我們獲取和處理抽象知識的方式。它們都是“能言善辯的書呆子”,滿腹經綸,卻“不親民”。而空間智能 (Spatial Intelligence) 將改變我們創造以及與真實和虛擬世界互動的方式——它將徹底變革故事敘述、創造力、機器人技術、科學發現等諸多領域。這正是AI的下一個前沿。自踏入該領域以來,對視覺和空間智能的追求一直是指引我的“北極星”。正因如此,我花費數年時間建構了ImageNet——首個大規模視覺學習和基準測試資料集,它與神經網路演算法和現代計算裝置如圖形處理器 (Graphics Processing Units, GPUs)一道,成為催生現代AI誕生的三大關鍵要素之一。正因如此,我在史丹佛大學的學術實驗室在過去十年裡一直致力於將電腦視覺與機器人學習相結合。也正因如此,一年多以前,我與聯合創始人賈斯汀·約翰遜 (Justin Johnson)、克里斯托夫·拉斯納 (Christoph Lassner)、本·米爾登霍爾 (Ben Mildenhall) 一道共同創立了World Labs:為了首次將這一可能性全面地變為現實。·在本文中,我將闡釋什麼是空間智能,它為何重要,以及我們正在如何建構將解鎖這一能力的世界模型 (World Models)——其影響將重塑創造力、具身智能 (Embodied Intelligence) 和人類的進步。空間智能:人類認知的腳手架AI從未像現在這樣激動人心。生成式AI模型,如大語言模型,已從研究實驗室走入日常生活,成為數十億人進行創造、提高生產力和溝通的工具。它們展現了曾被認為不可能的能力,能夠輕鬆生成連貫的文字、堆積如山的程式碼、照片般逼真的圖像,甚至短影片片段。AI是否會改變世界,這已不再是個問題。無論以何種合理的定義來看,它都已經做到了。然而,仍有太多事物遙不可及。自主機器人的願景依舊引人入勝,但仍停留在推測階段,遠未成為未來學家們長期承諾的日常生活的一部分。在治癒疾病、新材料發現和粒子物理學等領域實現研究大幅加速的夢想,在很大程度上仍未實現。而讓AI真正理解並賦能人類創造者的承諾——無論是幫助學生學習分子化學中複雜的概念,輔助建築師進行空間可視化,協助電影製作人建構世界,還是為任何尋求完全沉浸式虛擬體驗的人提供支援——也依然遙不可及。要瞭解為何這些能力仍然難以實現,我們需要審視空間智能是如何演化的,以及它如何塑造我們對世界的理解。視覺長期以來都是人類智能的基石,但其力量源於更為根本的東西。遠在動物學會築巢、照顧幼崽、用語言交流或建立文明之前,“感知”這一簡單的行為就已悄然開啟了一段通往智能的進化之旅。這種看似孤立的、從外部世界收集資訊的能力——無論是感知一縷微光還是觸摸一種質地——在感知與生存之間建立了一座橋樑,而這座橋樑隨著世代更迭而愈發堅固和精巧。神經元在這座橋樑上層層生長,形成了能夠解釋世界並協調生物體與其環境互動的神經系統。因此,許多科學家推測,感知和行動成為了驅動智能進化的核心循環,也是大自然創造我們這個物種——感知、學習、思考和行動的終極體現——的基礎。空間智能在定義我們如何與物理世界互動方面扮演著至關重要的角色。每一天,我們都依賴它來完成最普通不過的行為:通過想像保險槓與路緣之間不斷縮小的間隙來停車;接住從房間另一頭扔過來的鑰匙;在擁擠的人行道上穿行而不發生碰撞;你半夜起床倒水,不開燈也能摸到杯子並把水倒進去。。在更極端的情況下,消防員在倒塌的建築中穿越不斷變化的濃煙,對結構的穩定性和生存機會做出瞬間判斷,並通過手勢、肢體語言和一種共同的職業本能進行交流,這種本能是任何語言都無法替代的。而嬰幼兒在學會說話前的數月甚至數年裡,完全通過與環境進行充滿趣味的互動來學習這個世界。所有這一切都發生得直觀而自然——這是機器尚未能達到的流暢程度。空間智能也是我們想像力和創造力的基礎。故事講述者在腦海中創造出異常豐富的世界,並利用從古代洞穴壁畫到現代電影再到沉浸式視訊遊戲等多種形式的視覺媒介,將這些世界呈現給他人。無論是孩子們在沙灘上堆砌沙堡,還是在電腦上玩《我的世界》(Minecraft),基於空間的想像力都構成了在真實或虛擬世界中進行互動體驗的基礎。在許多行業應用中,對物體、場景和動態互動環境的模擬,為從工業設計到數字孿生 (Digital Twins)再到機器人訓練等無數關鍵的商業用例提供了動力。歷史上充滿了由空間智能扮演核心角色的、定義文明處理程序的時刻。在古希臘,埃拉托斯特尼 (Eratosthenes) 將影子轉化為幾何學——在太陽直射賽印 (Syene) 的那一刻,他在亞歷山大港測量出7度的夾角——從而計算出地球的周長。哈格里夫斯 (Hargreaves) 的“珍妮紡紗機” (Spinning Jenny) 通過一個空間上的洞察徹底改變了紡織製造業:將多個紡錘並排排列在一個框架中,讓一名工人可以同時紡多根紗線,生產效率提高了八倍。沃森 (Watson) 和克里克 (Crick) 通過親手搭建三維分子模型發現了DNA的結構,他們不斷擺弄金屬板和金屬絲,最終將鹼基對的空間排列“拼”了出來。在每一個案例中,當科學家和發明家需要操縱物體、將結構可視化並對物理空間進行推理時,空間智能都推動了文明的進步——而這些都無法僅用文字來捕捉。空間智能是我們認知賴以建構的腳手架。無論我們是被動觀察還是主動創造,它都在發揮作用。它驅動著我們的推理和規劃,即便是針對最抽象的話題。它對於我們互動的方式至關重要——無論是口頭還是身體上的,無論是與同伴還是與環境本身。雖然我們大多數人並非每天都能像埃拉托斯特尼那樣揭示新的真理,但我們通常都以同樣的方式思考——通過感官感知來理解一個複雜的世界,然後利用一種直觀的理解,來掌握它在物理和空間層面是如何運作的。不幸的是,今天的AI還不會這樣思考。過去幾年確實取得了巨大進步。多模態大語言模型 (Multimodal LLMs, MLLMs),除了文字資料外,還利用大量的多媒體資料進行訓練,從而引入了一些基本的空間意識,如今的AI可以分析圖片、回答相關問題,並生成超逼真的圖像和短影片。通過感測器和觸覺技術的突破,我們最先進的機器人也開始能在高度受限的環境中操縱物體和工具。然而,坦率的現實是,AI的空間能力仍遠未達到人類水平,其侷限性很快就會暴露出來。在估算距離、方向和尺寸,或通過從新角度重新生成物體來進行“心理旋轉”等任務上,最先進的多模態大語言模型模型的表現很少能超過隨機猜測。它們無法走出迷宮、識別捷徑或預測基本的物理現象。AI生成的視訊——雖然是新生事物,而且確實很酷——往往在幾秒鐘後就會失去連貫性。雖然目前最先進的AI在閱讀、寫作、研究和資料模式識別方面表現出色,但同樣是這些模型,在表徵或與物理世界互動時,卻存在根本性的侷限。我們對世界的看法是整體性的——不僅僅是我們正在看什麼,還包括所有事物在空間上的相互關係、它們的意義以及為何重要。通過想像、推理、創造和互動——而不僅僅是描述——來理解這一切,正是空間智能的力量所在。沒有它,AI就與其試圖理解的物理現實脫節了。它無法有效地駕駛我們的汽車,無法在我們家中和醫院裡引導機器人,無法為學習和娛樂創造全新的沉浸式和互動式體驗,也無法加速材料科學和醫學領域的發現。哲學家維特根斯坦 (Wittgenstein) 曾寫道:“我語言的極限意味著我世界的極限。”我不是哲學家。但我知道,至少對於AI而言,世界遠不止於文字。空間智能代表了超越語言的前沿——這種能力將想像、感知和行動聯絡在一起,並為機器真正提升人類生活開啟了可能性,從醫療保健到創造力,從科學發現到日常輔助。AI的下一個十年:建構真正具備空間智能的機器那麼,我們該如何建構具備空間智能的AI?如何才能打造出能夠像埃拉托斯特尼那樣用視覺進行推理,像工業設計師那樣進行精密工程設計,像故事講述者那樣富有想像力地創造,以及像急救人員那樣流暢地與環境互動的模型?建構具備空間智能的AI需要比大語言模型更宏大的目標:世界模型 (World Models),這是一種新型的生成式模型,其理解、推理、生成以及與語義、物理、幾何和動態上都極為複雜的虛擬或真實世界進行互動的能力,遠超當今大語言模型的範疇。該領域尚處萌芽階段,目前的方法從抽象推理模型到視訊生成系統不一而足。World Labs於2024年初正是基於這一信念而創立:基礎性方法仍在確立之中,這使其成為未來十年的決定性挑戰。在這個新興領域,最重要的是確立指導發展的原則。對於空間智能,我通過三個基本能力來定義世界模型:·生成性:世界模型能夠生成具有感知、幾何和物理一致性的世界。要解鎖空間理解和推理,世界模型也必須能夠生成它們自己的模擬世界。它們必須能夠根據語義或感知指令,生成無窮無盡、多種多樣的模擬世界——同時保持幾何、物理和動態上的一致性——無論這些世界代表的是真實空間還是虛擬空間。研究界正在積極探索這些世界應該以隱式還是顯式的方式來表示其固有的幾何結構。此外,我相信一個通用的世界模型除了需要強大的潛在表徵外,還必須能夠為其輸出生成一種顯式的、可觀察的世界狀態,以適應多種不同的用例。特別是,它對當下的理解必須與它的過去、與導致當前狀態之前的世界狀態,連貫一致。·多模態:世界模型在設計上就是多模態的。正如動物和人類一樣,世界模型應該能夠處理多種形式的輸入——在生成式AI領域中稱為“提示詞” (prompts)。給定部分資訊——無論是圖像、視訊、深度圖、文字指令、手勢還是動作——世界模型都應能預測或生成儘可能完整的世界狀態。這要求它能以真實視覺的保真度處理視覺輸入,同時以同等的流暢度解讀語義指令。這使得智能體和人類都能通過多種輸入與模型就世界進行交流,並反過來接收多種輸出。·互動性:世界模型能根據輸入的動作輸出下一個狀態。最後,如果動作和/或目標是給世界模型的提示詞的一部分,那麼其輸出必須包括世界的下一個狀態,無論是隱式還是顯式表示。當僅給定一個帶或不帶目標狀態的動作作為輸入時,世界模型應產生一個與世界先前狀態、任何預期的目標狀態,以及其語義含義、物理定律和動態行為相一致的輸出。隨著具備空間智能的世界模型在其推理和生成能力上變得越來越強大和穩健,可以想見,在給定一個目標的情況下,世界模型本身將不僅能預測世界的下一個狀態,還能根據新狀態預測下一個動作。這項挑戰的範圍超過了AI以往所面臨的任何挑戰。雖然語言純粹是人類認知的一種生成現象,但世界遵循的規則要複雜得多。例如,在地球上,引力支配著運動,原子結構決定了光如何產生顏色和亮度,無數的物理定律約束著每一次互動。即使是最奇幻、最具創意的世界,也是由遵循定義它們的物理定律和動態行為的空間物體和智能體組成的。要將所有這一切——語義、幾何、動態和物理——協調一致,需要全新的方法。表示一個世界的維度,遠比表示像語言這樣的一維順序訊號要複雜得多。要實現能夠提供我們人類所享有的那種通用能力的世界模型,需要克服幾個艱巨的技術障礙。在World Labs,我們的研究團隊正致力於為實現這一目標取得根本性進展。以下是我們當前研究課題的一些例子:一種新的、通用的訓練任務函數: 定義一個像大語言模型中“預測下一個Token” (nexttoken prediction) 那樣簡潔優雅的通用任務函數,長期以來一直是世界模型研究的核心目標。其輸入和輸出空間的複雜性,使得這樣一個函數在形式化上天生就更加困難。儘管仍有許多尚待探索之處,但這個目標函數及相應的表徵必須反映幾何和物理定律,尊重世界模型作為想像與現實的“親民”表徵這一根本性質。大規模訓練資料: 訓練世界模型需要比文字處理複雜得多的資料。好消息是:海量的資料來源已經存在。網際網路規模的圖像和視訊集代表了豐富、易於獲取的訓練材料——挑戰在於開發能夠從這些二維的、基於圖像或視訊幀的訊號(即RGB)中提取更深層空間資訊的演算法。過去十年的研究已經顯示了在語言模型中,資料量與模型規模之間的縮放定律 (scaling laws) 的力量;世界模型的關鍵突破在於建構能夠以相當規模利用現有視覺資料的架構。此外,我不會低估高品質合成資料以及像深度和觸覺資訊等額外模態的力量。它們在訓練過程的關鍵步驟中補充了網際網路規模的資料。但前進的道路依賴於更好的感測器系統、更穩健的訊號提取演算法以及遠為強大的神經模擬方法。新的模型架構和表徵學習: 世界模型的研究將不可避免地推動模型架構和學習演算法的進步,尤其是在當前的多模態大語言模型和視訊擴散範式之外。這兩種範式通常將資料“Token化”為一維或二維序列,這使得簡單的空間任務變得不必要地困難——比如計算一個短影片中不重複椅子的數量,或者記住一個小時前房間的樣子。替代性架構可能會有所幫助,例如用於“Token化”、上下文和記憶的三維或四維感知方法。例如,在World Labs,我們最近關於一個名為RTFM的即時生成式、基於幀的模型的工作就展示了這種轉變,它使用基於空間的幀作為一種空間記憶形式,以實現高效的即時生成,同時保持所生成世界的一致性。顯然,在我們能通過世界建模完全解鎖空間智能之前,我們仍面臨著艱巨的挑戰。這項研究不僅僅是一次理論演練,它是催生一類新型創造力和生產力工具的核心引擎。而World Labs內部的進展一直令人鼓舞。我們最近與少數使用者分享了Marble的一瞥,這是有史以來第一個可以通過多模態輸入提示,來生成並維持一致的三維環境的世界模型,供使用者和故事講述者在他們的創作工作流中進行探索、互動和進一步建構。我們正在努力使其盡快向公眾開放!Marble只是我們創造一個真正具備空間智能的世界模型的第一步。隨著進展的加速,研究人員、工程師、使用者和商界領袖們都開始認識到其非凡的潛力。下一代世界模型將使機器能夠在全新的層面上實現空間智能——這一成就將解鎖當今AI系統中仍然普遍缺乏的關鍵能力。用世界模型為人們建構一個更美好的世界AI發展的動機至關重要。作為幫助開創現代AI時代的科學家之一,我的動機一直很明確:AI必須增強人類的能力,而不是取而代之。多年來,我一直致力於使AI的開發、部署和治理與人類的需求保持一致。如今,技術烏托邦和末日論的極端敘事比比皆是,但我繼續持有一種更為務實的觀點:AI由人開發,由人使用,並由人治理。它必須始終尊重人的能動性和尊嚴。它的魔力在於擴展我們的能力;讓我們更具創造力、更緊密相連、更富生產力、更感充實。空間智能正代表了這一願景——AI賦能人類的創造者、照護者、科學家和夢想家,去實現曾經不可能的事情。正是這一信念,驅動著我致力於將空間智能作為AI下一個偉大的前沿。空間智能的應用橫跨不同的時間線。創造性工具正在湧現——World Labs的Marble已經將這些能力交到了創造者和故事講述者的手中。隨著我們不斷完善感知與行動之間的循環,機器人技術代表了一個雄心勃勃的中期目標。最具變革性的科學應用將需要更長的時間,但有望對人類的繁榮產生深遠影響。在所有這些時間線中,有幾個領域因其重塑人類能力的潛力而脫穎而出。這需要巨大的集體努力,遠非一個團隊或一家公司所能實現。它需要整個AI生態系統的參與——研究人員、創新者、企業家、公司,甚至政策制定者——共同為一個共同的願景而努力。但這個願景值得追求。以下便是那個未來所蘊含的可能:創造力:為故事敘述和沉浸式體驗注入超能力“創造力是智慧在尋開心。”這是我個人英雄阿爾伯特·愛因斯坦 (Albert Einstein) 的一句名言,也是我最喜歡的一句。遠在書面語言出現之前,人類就在講述故事——將它們畫在洞穴牆壁上,代代相傳,在共同的敘事之上建立起整個文化。故事是我們理解世界、跨越時空建立聯絡、探索人性意義,以及最重要地,在我們內心找到生命意義和愛的方式。今天,空間智能有潛力改變我們創造和體驗敘事的方式,這種方式既尊重其根本重要性,又將其影響從娛樂擴展到教育,從設計擴展到建築。World Labs的Marble平台將把前所未有的空間能力和編輯可控性交到電影製作人、遊戲設計師、建築師和各類故事講述者的手中,讓他們能夠快速創造和迭代完全可探索的三維世界,而無需傳統三維設計軟體的繁重開銷。創造性行為本身依然如故,充滿活力且富於人性;AI工具只是放大和加速了創造者所能達成的成就。這包括:·新維度的敘事體驗: 電影製作人和遊戲設計師正在使用Marble來創造出不受預算或地理限制的完整世界,探索在傳統製作流程中難以駕馭的各種場景和視角。隨著不同形式的媒體和娛樂之間的界限日益模糊,我們正接近一種全新的互動體驗,它融合了藝術、模擬和遊戲——個性化的世界,其中任何人,而不僅僅是工作室,都可以創造並沉浸在自己的故事中。隨著將概念和故事板提升為完整體驗的更新、更快捷方式的興起,敘事將不再受限於單一媒介,創作者可以自由地在無數的介面和平台上建構具有共同主線貫穿的世界。·通過設計實現空間敘事: 基本上,每一個製造出來的物體或建造出來的空間,在其實體創造之前,都必須在虛擬三維空間中進行設計。這個過程迭代性強,且在時間和金錢上都成本高昂。有了具備空間智能的模型,建築師可以快速將結構可視化,而無需投入數月時間進行設計,他們可以在尚未存在的空間中漫步——這本質上是在講述我們未來可能如何生活、工作和聚集的故事。工業和時尚設計師可以即時將想像轉化為形式,探索物體如何與人體和空間互動。·全新的沉浸式和互動式體驗: 體驗本身是我們這個物種創造意義最深刻的方式之一。在整個人類歷史中,只有一個單一的三維世界:我們共同分享的物理世界。僅僅在近幾十年來,通過遊戲和早期的虛擬現實 (virtual reality, VR),我們才開始瞥見分享我們自己創造的另類世界意味著什麼。現在,空間智能與新的產品形態,如VR和擴展現實 (Extended Reality, XR) 頭戴裝置以及沉浸式顯示器相結合,以前所未有的方式提升了這些體驗。我們正邁向一個未來,在那裡,步入完全實現的多維世界將變得像打開一本書一樣自然。空間智能使得世界建構不再僅僅是擁有專業製作團隊的工作室的專利,而是向個人創作者、教育工作者以及任何有願景分享的人開放。機器人技術:具身智能的實踐從昆蟲到人類,動物都依賴空間智能來理解、導航和與它們的世界互動。機器人也不例外。具備空間感知能力的機器自該領域誕生之日起就是人們的夢想,這也包括我自己與我的學生和合作者在史丹佛研究實驗室的工作。這也是為什麼我對利用World Labs正在建構的這類模型來實現這一可能性如此興奮。·通過世界模型擴展機器人學習: 機器人學習的進展取決於一個可擴展的、可行的訓練資料解決方案。考慮到機器人需要學習理解、推理、規劃和互動的可能性狀態空間極其巨大,許多人推測,需要結合網際網路資料、合成模擬和真實世界的人類演示捕捉,才能真正創造出具有泛化能力的機器人。但與語言模型不同,當今機器人研究的訓練資料十分稀缺。世界模型將在此扮演決定性角色。隨著它們感知保真度和計算效率的提高,世界模型的輸出可以迅速彌合模擬與現實之間的差距。這反過來將有助於在無數狀態、互動和環境的模擬中訓練機器人。·伴侶與合作者: 機器人作為人類的合作者,無論是輔助實驗室裡的科學家,還是協助獨居老人,都可以在急需更多勞動力和生產力的領域擴展部分勞動力。但這需要具備感知、推理、規劃和行動的空間智能,同時——這是最重要的——與人類的目標和行為保持共情的一致。例如,一個實驗室機器人可以處理儀器,讓科學家專注於需要靈巧或推理的任務,而一個家庭助手可以幫助老年人做飯,而不會削弱他們的樂趣或自主性。能夠預測下一個狀態,甚至可能預測與此期望一致的行動的、真正具備空間智能的世界模型,對於實現這一目標至關重要。·擴展具身形式: 人形機器人在我們為自己建構的世界中扮演著一個角色。但創新的全部益處將來自更多樣化的設計:輸送藥物的奈米機器人,穿梭於狹小空間的軟體機器人,以及為深海或外太空建造的機器。無論其形態如何,未來的空間智能模型都必須整合這些機器人所棲息的環境以及它們自身的具身感知和運動。但開發這些機器人的一個關鍵挑戰在於,缺乏這些多種多樣的具身形態的訓練資料。世界模型將在模擬資料、訓練環境和基準測試任務等方面為這些努力發揮關鍵作用。更長遠的視野:科學、醫療保健和教育除了創意和機器人應用,空間智能的深遠影響還將擴展到那些AI能以拯救生命和加速發現的方式增強人類能力的領域。我下面重點介紹三個具有深度變革潛力的應用領域,但毋庸置疑,空間智能的用例在更多行業中都具有廣闊的前景。·在科學研究中,具備空間智能的系統可以模擬實驗,平行測試假設,並探索人類無法進入的環境——從深海到遙遠的行星。這項技術可以改變氣候科學和材料研究等領域的計算建模。通過將多維模擬與真實世界資料收集相結合,這些工具可以降低計算門檻,並擴展每個實驗室所能觀察和理解的範圍。·在醫療保健領域,空間智能將重塑從實驗室到病床的一切。在史丹佛,我的學生和合作者多年來一直與醫院、養老院和居家患者合作。這段經歷讓我確信了空間智能在此處的變革潛力。AI可以通過多維模擬分子相互作用來加速藥物發現,通過幫助放射科醫生在醫學影像中發現模式來增強診斷,並實現環境監測系統,在不取代康復所需的人際聯絡的情況下支援患者和護理人員,更不用說機器人在許多不同場景下幫助我們的醫護人員和患者的潛力了。·在教育領域,空間智能可以實現沉浸式學習,使抽象或複雜的概念變得具體可感,並創造出對我們大腦和身體學習方式至關重要的迭代體驗。在AI時代,更快、更有效的學習和技能再培訓的需求,對學齡兒童和成年人而言都尤為重要。學生可以在多維空間中探索細胞機器或漫步於歷史事件。教師可以通過互動環境獲得個性化教學的工具。從外科醫生到工程師的專業人士,都可以在逼真的模擬中安全地練習複雜技能。在所有這些領域,可能性是無限的,但目標始終如一:讓AI成為增強人類專長、加速人類發現、放大人類關懷的力量——而不是取代那份屬於人的判斷力、創造力與共情力。結論過去十年見證了AI成為一個全球現象,以及技術、經濟乃至地緣政治的一個拐點。但作為一名研究者、教育者,以及現在的企業家,最能激勵我的,仍然是圖靈75年前那個問題背後的精神。我仍然分享著他的那份好奇心。正是這份好奇心,讓我每天都為空間智能這一挑戰而充滿活力。歷史上第一次,我們有望建構出與物理世界如此協調的機器,以至於我們可以在面對最嚴峻的挑戰時,將它們視為真正的夥伴。無論是加速我們在實驗室中理解疾病的方式,徹底改變我們講述故事的方式,還是在我們因疾病、受傷或年老而最脆弱的時刻支援我們,我們都正處在一項技術的前沿,它將提升我們最關心的生活方面。這是一個更深刻、更豐富、更有力量的生活願景。在大自然於遠古動物身上釋放出空間智能的第一縷微光近五億年後,我們有幸成為能夠很快賦予機器同樣能力的這一代技術人員——並有幸利用這些能力為世界各地的人們造福。我們對真正智慧型手機器的夢想,沒有空間智能是無法完整的。 (網易科技)
今日,“AI教母”李飛飛的長文顯示,華為賭對了技術的方向
11月11日,“AI教母李飛飛”發表長文。表達了對大語言模型,空間模型的看法。核心觀點如下:李飛飛肯定了大語言模型對人工智慧發展的進步,但她認為大語言模型還遠遠不夠。目前最先進的 MLLM 模型在估計距離、方向、大小等方面的表現跟隨機猜測差不多——它們不能憑空想像物體,不能穿越迷宮、識別捷徑,也無法預測最基本的物理規律。而且AI 雖然能夠完成閱讀、寫作、研究和資料模式識別等特定任務,但在理解或與物理世界互動時,卻存在根本性侷限。人類對世界的感知是整體性的,不僅能看到外在本體,還理解它們在空間上的關係、意義以及重要性。同事通過想像、推理、創造和互動來理解世界,而不僅僅是用語言去描述,這是空間智能和語言的本質區別。這其實就引出了一個最核心的問題,就是大語言模型不具備空間想像和理解能力。沒有這種能力,AI 就無法真正與物理現實建立聯絡。也就無法完成自動駕駛汽車,機器人手術等高難度動作。這與現實世界的規律呼應,人類每天的行為都與空間智能有關:比如停車時通過想像車頭與路沿間逐漸縮小的距離來判斷位置;接住從任意方向扔來的鑰匙;在人群中穿梭不發生碰撞;或是半睡半醒時不用看就能把咖啡倒進杯子裡。這是因為人的腦子裡有對世界的理解才能完成這些動作。隨後,李飛飛通過自問自答的方式引出了長文的核心類股,世界模型。AI怎樣才能像人一樣有條不紊的穿梭於現實世界,並且解決特定問題?這一切的答案不只是大型語言模型(LLM),而是世界模型(World Models)。也是基於這一理念,李飛飛建立了World Labs。到這,其實已經能夠體現華為的技術前瞻性判斷了。華為智能汽車解決方案BU CEO靳玉志在接受媒體採訪談到VLA與世界模型的區別時表示:“走VLA技術路線的企業,認為現在大家是通過Open AI等各種語言大模型,把網上的資訊學了一遍以後,將語言、所有的學習轉換成LM的方式掌握知識。而VLA在嘗試,在大模型通過LM已經演變得相對成熟的背景下,把視訊也轉化成語言的token進行訓練,再變成action,控制車的運動軌跡。華為不會走向VLA的路徑。我們認為這樣的路徑看似取巧,其實並不是走向真正自動駕駛的路徑。華為更看重WA,也就是world action,中間省掉language這個環節。這個路徑目前看起來非常難,但能實現真正的自動駕駛。WA就是直接通過行為端,或者說直接通過vision這樣的資訊輸入控車,而不是把各種各樣的資訊轉成語言,再通過語言大模型來控制車。這裡的vision只是一個代表,它可能來自於聲音,可能來自於vision,也可能來自於觸覺。”這也是華為堅持WEWA架構的核心原因,拆解來看就是雲端世界引擎和車端世界行為模型。在車雲兩端都在強調對世界和空間的理解。李飛飛認為,世界模型必須具備3種能力:生成性 (Generative):能夠生成在感知、幾何和物理規律上保持一致性的世界。多模態性 (Multimodal):天生設計為多模態,能處理和輸出多種形式的資訊(如圖像、視訊、深度圖、文字、動作)。互動性 (Interactive):能夠根據輸入的“動作”,預測或輸出世界的“下一個狀態”,並最終可能預測“下一步應該怎麼做”。這和華為的WEWA架構具備的能力完全一致。WE可以理解成一個雲端運行的World Engine世界引擎。利用擴散生成模型技術,能夠高可控地生成各種平時人類司機開車很少遇到的難例場景,比如側前車Cut-in、紅綠燈路口、寵探頭、前車急剎等多種場景及組合場景。WA則是一個世界行為模型,空間推理能力強,距離位置判斷更精準,模型精幹,參數規模並不大,降低了對車端硬體的依賴,效率高,響應快。此外,WEWA的專用大模型採用MoE多專家架構,在面向不同場景時,只有部分專家會被啟動,這進一步提升了模型的運行效率與響應速度。拆解來看,完全符合李飛飛談到的世界模型應該具備的生成性,多模態和預測性特徵。李飛飛也談到,建構世界模型遠比建構語言模型困難,因為世界的維度遠超語言。主要有三大挑戰:新的訓練任務:需要找到類似 LLM 中「下一個詞預測」那樣優雅的通用任務函數,但難度更高。大規模資料:需要能從海量的網際網路圖像和視訊中提取深層空間資訊,並輔以合成資料和多模態資料。新的模型架構:需要超越當前 1D/2D 序列範式,發展出具備 3D 或 4D 感知能力的新架構(比如 World Labs 的 RTFM 模型)。這也是華為在探索的方向,建構新的原生模型架構,通過海量真實資料+模擬合成資料組合得方式增加資料量。關於世界模型,行業裡其實還有另一種說法,其實大家私底下都認可世界模型的價值,或者直覺上判斷這是一個可以探索的方向,只是沒有華為那麼財大氣粗,沒有足夠的資金和實力去探索,所以只能說自己當下的模型好。李飛飛認為,世界模型是人工智慧下一個十年值得探索的方向。只有方向正確了,我們距離真正的無人駕駛才會越來越近。 (圓周智行)
世界模型,大語言模型之後的第二場革命
“大語言模型是基礎,世界模型是途徑,自主智能才是AI的終極奧義。在過去兩年裡,大語言模型(LLM)在語言理解、文字生成、推理、指令執行等方向取得突破,使AI在理解語義層面變得越來越可靠。然而,語言智能只是通向通用智能的一環。要讓AI在懂語言的基礎上,去理解真正的世界,就必須讓它理解環境、感知動態、在環境中做出行動判斷。這其中的關鍵,就是世界模型(World Model)。世界模型的核心是讓AI內部建構一個可互動的世界,要理解物理規則、模擬未來狀態、預測動作結果。實現從靜態圖像、視訊生成,逐步走向多模態、帶動作控制的視覺語言動作模型(VLA,Vision-Language-Action)。從OpenAI的Sora(文字→視訊世界模擬)到DeepMind的Genie(可互動世界生成),從Meta的V-JEPA 2(視覺自監督世界模型)到特斯拉在自動駕駛系統中隱含的世界意識探索,乃至國內諸如華為ADS等智駕系統,這些案例都表明世界模型正成為AI Agent化路徑上的關鍵支點。可以預見,未來的AI Agent很可能是“LLM+世界模型+執行動作層”的三層協同結構。理解這一趨勢,對我們判斷產業方向、技術路線、戰略佈局至關重要。從語言到世界:AI理解的邊界在延伸如果說大語言模型讓AI學會了理解語言,那麼世界模型的出現,則意味著AI開始嘗試理解世界。在人工智慧研究的脈絡中,“世界模型”(World Model)並不是一個全新的概念。早在2018年,Google大腦研究科學家David Ha與瑞士AI實驗室IDSIA負責人Jürgen Schmidhuber在經典論文《World Models》中提出,智能體要想高效學習,就必須在大腦中建構世界的內部模型。這種模型能夠通過感知輸入,去預測外部世界在未來的變化,在內部“想像”出一系列可能的結果,從而據此選擇行動。智能體包含緊密相連的三個模組:視覺 (V)、記憶 (M) 和控製器 (C)(來自World Models)彼時,世界模型還主要服務於強化學習領域,用於在遊戲或模擬環境中幫助智能體做規劃與決策。隨著算力的提升和多模態學習的成熟,世界模型的內涵被重新定義,從在模擬環境裡學習,演進為讓AI自己生成並理解環境。比如GoogleDeepMind在Dreamer系列工作中,讓智能體能夠在潛在空間(latent)中對未來進行滾動預測(roll-out),從而無需真實環境就能完成策略最佳化。這種思路,被視為世界模型的早期成熟版本,也讓預測未來成為機器學習的新邊界。而真正讓世界模型走出學術圈,成為AI產業熱詞,是視訊生成技術的突破。2024年2月15日,OpenAI發佈Sora模型,並在官方論文中首次明確提出,視訊生成模型正在成為世界模擬器(world simulator)。Sora不僅能生成語義上合理的視訊,還能在物理規律、光影運動、空間連續性等層面維持一致性,讓AI演繹世界成為可能。Sora2幾乎在同一時間,Meta發佈視覺自監督模型 V-JEPA(Visual Joint Embedding Predictive Architecture)。這是由Yann LeCun團隊主導的項目,旨在讓AI通過預測視覺序列中的時空變化,在潛在空間中理解世界的結構與規律。與生成式模型不同,V-JEPA不直接生成圖像,而是學習世界的抽象表徵,這是Meta首次在視覺領域明確提出建構世界模型的研究方向。僅在那十餘天後,DeepMind發佈了Genie模型。與Sora不同,Genie並不是單純的視訊生成器,而是一個“可玩世界”的生成模型,可以從普通視訊素材中學習環境規律,並生成可即時互動的二維遊戲場景。使用者可以控制角色在生成的世界中移動、碰撞、跳躍,這種“生成—互動—反饋”的閉環,被認為是世界模型從被動感知邁向主動參與的重要一步。Sora、V-JEPA與Genie,分別代表了世界模型演化的三個方向,生成世界、理解世界、參與世界。三者幾乎出現在同一時間節點,共同組成了世界模型認知層面的突破。而另一條更具現實意義的路徑,則來自執行層面的落地。自2023年底起,特斯拉在其自動駕駛系統FSD(Full Self-Driving)中推行端到端神經網路架構,從感知到規劃再到控制,全部由統一模型完成。馬斯克將FSD V12稱為世界模型驅動的駕駛系統,因為車輛已不依賴高精地圖或人工編碼規則,而是通過多攝影機視訊流在內部重建外部環境,並即時預測交通參與者的行為。今年上半年推出的FSD V13進一步加入時序記憶與多模態預測,使這一世界模型式駕駛的雛形更趨完整。而在國內,這樣的探索思路也幾乎同步落地。比如華為在2024年4月發佈ADS 3.0(乾崑),以去高精地圖與世界建模感知為核心,依託多源感測重建動態場景;小鵬在2024年5月公佈XPlanner(規劃與控制大模型),與感知網路XNet、車載大模型XBrain組成端到端量產棧,將長時序預測引入軌跡規劃;百度Apollo則在同月推出ADFM自動駕駛基礎模型,並搭載到第六代 Robotaxi。這些系統共同指向一個趨勢,世界模型正在從虛擬場景走向真實世界,從“認知世界”轉向“執行世界”。如果說Sora、V-JEPA、Genie們建構的是AI的感知與想像層,那麼FSD、ADS、XPlanner、Apollo們則建構了AI的行動與落地層。前者是通往通用智能的基礎,後者則是將智能具象化的通道。中美雙極:世界模型競賽的兩種路徑如今,世界模型已經成為全球AI競爭的新焦點。其中,最具代表性的當屬中美之間的競爭。這場看似關於演算法的較量,背後卻是認知方式與產業邏輯的分歧,也正因為這種分歧,中美兩國正走在兩條不同的路徑上。前文說過,在美國,OpenAI、DeepMind、Google、Meta、Anthropic五大巨頭構成了最具體系化的“世界建模陣營”。它們的共同特徵是,從語言模型出發,沿著認知—生成—具身(Embodied)的路線,把AI從語言理解延伸到物理模擬。今年9月,Sora 2登場,不僅整合了音視訊統一建模和動態光照控制,還新增 “Cameo”功能,讓使用者可以直接把自己嵌入生成的世界中。今年8月,DeepMind發佈Genie 3,允許從自然語言直接生成三維、可操作的虛擬世界,使用者能即時控制角色,與環境互動並觀察反饋。今年6月,Meta V-JEPA 2以自監督方式讓AI理解視訊中的時序與動力規律,成為世界模型“視覺直覺”的雛形。它不依賴標籤資料,而是通過預測畫面未來幀的方式,逼近人類感知世界的方式。與此同時,儘管Google Gemini 2.5 Pro與Anthropic Claude 4.5不算嚴格意義上的世界模型,但它們都在讓語言模型具備理解世界的能力,前者通過多模態語義建模理解現實邏輯,後者通過隱式因果推理保持認知一致性。以此可見,美國的研究體系已經形成了完整的認知鏈條,從理解語言、預測視覺變化到生成並模擬世界。而在中國,世界模型的側重方向更貼近執行層面。從智能駕駛到行業智能體,再到具身機器人,國內企業更關注AI在真實物理環境中的可感知、可預測與可執行性。可以說,中國企業更看重系統整合與工程落地。智能駕駛之外,國內世界模型的思想和策略也正在進入更多行業場景。比如華為盤古大模型引入物理建模框架,將世界模型理念應用到氣象預測、製造、製藥等工業領域;百度文心在視訊理解和數字人互動中融入動態世界建模機制,此類案例非常多,這裡就不一一展開。更具代表性的,是中國在具身智能方向的系統化突破。過去一年,宇樹、優必選、傅利葉、小米等公司,陸續推出新一代人形與四足機器人,讓世界模型從演算法概念真正落地到機器身體。比如宇樹發佈的R1人形機器人,支援圖像與語音多模態融合,可進行動態行走與互動;優必選 Walker S2具備靈巧雙臂與自主換電功能,更貼近工業執行場景;傅利葉推出可遙操作的GR-3C人形機器人版本,可用於康復與人機協作;從智能駕駛,到智慧型手機器人,中國的AI正在推動世界模型從虛擬走向物理,從演算法走向具身。中美世界模型生態邏輯對比:當然,這種解讀僅限於生態偏重,不涉及能力邊界。美國並非只有認知與生成。以特斯拉、Figure AI、Boston Dynamics為代表的企業,已經在建構具身智能與自動駕駛的世界建模系統建立一定優勢。國內也不止於感知與執行。萬相、可靈等視訊生成模型,也在建構中國版的“視覺世界模擬器”。儘管中美兩國為代表的世界模型演變生態邏輯不同,但從更長的技術周期看,這種分野正逐漸進化為互補關係。世界模型的最終方向,肯定不是生成完美的視訊,也不是控制一輛汽車,而是打通“理解—預測—行動”的完整閉環。從這個層面來說,中美兩國正共同建構通向通用智能的現實路徑。AI的下一個臨界點:世界模型接管智能體過去十年,AI的每一次躍遷都源自輸入方式的變革:文字帶來了語言智能,圖像催生了視覺智能,而如今,世界模型正在讓AI理解現實世界,一個有時間、有空間、有因果的動態系統。這正是世界模型的核心價值,它讓AI獲得了具身智能(Embodied Intelligence)的基礎。在過去的一年中,具身智能已經成為全球AI研究的共識。如OpenAI投資的Figure AI,正在以GPT系列模型驅動人形機器人的決策系統;特斯拉的FSD與Optimus,分別在道路和工廠場景中驗證世界模型驅動的閉環控制;中國的機器人企業也在讓模型直接掌控感測器與電機,使演算法真正落地到身體。這種趨勢背後,AI正在經歷一場從虛擬智能到物理智能的轉變。在虛擬世界中,它生成一段視訊或一段話,而在物理世界中,它必須理解摩擦力、時間延遲和人的意圖。可以預見,未來的智能體將是一個多層協作系統:上層的大語言模型負責目標規劃與邏輯推理,中層的世界模型負責環境建模與因果預測,底層的執行系統則負責感知、行動與反饋。當這三層閉合,AI才真正擁有“意圖—計畫—行動”的完整循環,這正是通用智能的現實路徑。再往前一步,便是AI的終極奧義——自主智能(Autonomous Intelligence)。一旦AI能在內部模擬世界、預測變化並根據反饋修正決策,它就不再只是生成內容、執行動作,甚至可能思考如何存在。這意味著,AI將具備一種內在的驅動力:能根據環境變化自主設定目標、規劃路徑、評估後果、修正策略。這種能力不再依賴外部指令,而是建立在長期記憶、世界建模與價值函數的協同基礎之上。可以說,自主智能是AI自我意識的一種雛形,即不以人類輸入為中心,而以世界模型為認知坐標系,主動發現問題、驗證假設、最佳化自身。智能的定義,也將被徹底改寫。挑戰與啟示:從概唸到產業化仍有距離當然,這是最順暢的路徑。事實上,每一次智能的躍遷,都伴隨著新的複雜性與不確定性。首先,是技術和生態層面的挑戰。與語言模型不同,世界模型必須同時理解文字、圖像、視訊、語音、動作等多模態資訊。資料維度暴漲、推理鏈條加深、模型參數呈指數級增長,對算力、能耗與資料質量提出了前所未有的要求。Sora等級的視訊生成模型都需要巨量GPU支撐,而具身智能又要求在端側實現即時計算,其中的複雜性將考驗當下的算力極限。同時,世界模型也缺乏跨平台協同的工程體系配套。目前而言,世界模型沒有標準,缺乏統一的訓練語料、可比的評價指標與公共實驗平台,企業往往各自為戰。如果無法實現跨模型的可驗證性與可復用性,世界模型的生態就很難真正形成規模化創新。其次,是認知層面的挑戰。世界模型的強大之處,在於它可以在內部推演與預測,但這也讓它的決策過程愈發難以被人類理解。試想一下,當一個模型能在潛在空間中模擬成千上萬種結果時,我們還能否追蹤它的決策邏輯?從自動駕駛的責任歸屬,到自主智能之間,有沒有可能產生長期目標漂移(Goal Drift)?進而延伸出AI的目標是否仍與人類一致的問題。一旦AI從被動執行轉為主動學習,安全與倫理的議題,也隨之從技術層面上升到價值層面。接下來,是產業和倫理層面的挑戰。世界模型的進一步發展,勢必重新定義產業邊界。AI不僅可能重構交通、製造、醫療、金融等領域的決策體系,也將催動演算法主權、智能監管等制度議題。中美雖然在路徑上各有偏重,美國憑藉資本與開放生態快速試錯,中國依託產業鏈協同推進落地,但雙方都面臨同一問題,當世界模型真正嵌入社會運行系統,它將以何種規則參與人類世界?就目前而言,世界模型所依託的世界,仍建立在人類提供的語料、規則與經驗上。但AI進化下,人類需要持續地在技術、倫理與治理層面為智能設定邊界,這會是一項長期的考驗。總之,世界模型是演算法從符號空間步入物理現實的通道。大語言模型建構了AI的語義基礎,世界模型打開了AI的行動途徑,目標是智能的真正落地。可以肯定的是,世界模型的意義,絕對不是讓AI更像人,而是讓人類在AI的協同下,走向更遠的未來。 (資料猿)
突破!DeepSeek新模型適配中國國產AI晶片!
中國人工智慧領域迎來軟硬體協同發展的重要里程碑。9月29日,深度求索(DeepSeek)公司正式開源發佈DeepSeek-V3.2-Exp大語言模型,其創新的稀疏注意力架構(DSA)顯著提升長文字處理效率。與此同時,華為昇騰計算產業生態宣佈實現對該模型的“0day支援”,基於vLLM/SGLang等主流推理框架完成全套適配部署,並向開發者開源所有推理程式碼和算子實現。DeepSeek-V3.2-Exp作為實驗性版本,首次引入細粒度稀疏注意力機制(DSA),在保持與V3.1-Terminus相當性能的前提下,顯著最佳化了長上下文場景下的訓練與推理效率。該機制通過動態令牌選擇與局部注意力聚焦,有效降低了長文字處理的計算複雜度和記憶體佔用。華為昇騰團隊針對模型架構中的兩個全新算子——Lightning Indexer(LI)與Sparse Flash Attention(SFA),進行了專門的算子Tiling設計、Cube核與Vector核間的流水最佳化,全面提升計算效率。在CANNAI平台上,昇騰完成了對應的最佳化適配,整體部署策略沿用DeepSeek的大EP平行方案,並針對稀疏DSA結構疊加實現長序列親和的CP平行策略,兼顧時延和吞吐。實測資料顯示,在128K長序列環境下,最佳化後的模型在昇騰硬體上能夠保持TTFT(首令牌響應時間)低於2秒、TPOT(每個令牌輸出時間)低於30毫秒的推理生成速度。這一性能表現使得中國國產算力平台在處理大規模語言模型任務時達到業界先進水平。為進一步簡化開發流程,昇騰CANN首次推出大融合算子程式設計體系PyPTO,該框架創新性地採用PTO程式設計範式,以Tensor為基本資料表達方式,建構計算圖,實現高效計算與最佳化。目前基於PyPTO完成的DeepSeek Indexer Attention和Lightning indexer算子開發,僅需幾百行程式碼即可實現動態Shape算子程式設計和算子整網運行。除了華為昇騰,寒武紀、海光等中國國產晶片廠商也迅速宣佈完成模型適配,展現出中國國產AI軟硬體生態協同效應的持續擴大。業內分析指出,DeepSeek已成為中國國產開源模型的重要標竿,其快速迭代正推動著中國國產晶片標準的確立。華為雲已在第一時間完成對DeepSeek-V3.2-Exp模型的適配工作,基於稀疏Attention結構疊加實現長序列親和的上下文平行策略,最大可支援160K長序列上下文長度。目前該模型已正式上架華為雲大模型即服務平台MaaS,為企業和開發者提供模型體驗和API服務。DeepSeek-V3.2-Exp的發佈與中國國產算力的快速適配,標誌著中國在人工智慧基礎軟硬體協同最佳化方面取得實質性進展。隨著稀疏注意力等創新技術的成熟,以及中國國產算力生態的不斷完善,中國人工智慧產業正朝著自主可控、高效普惠的方向穩步邁進。 (晶片行業)
強化學習之父最新萬字訪談:為何大語言模型是死胡同
9月27日,強化學習之父、2024年圖靈獎得主Richard Sutton教授接受海外播客主持人Dwarkesh Patel的深度訪談。本次對話始於一個問題:當前最熱的大語言模型(LLM)究竟是通往AGI的大道,還是最終會走進死胡同?Sutton教授從強化學習的“第一性原理”出發,系統地闡述了為何他認為LLM範式缺少了智能最本質的幾個要素。Sutton教授指出,LLM本質上只是在“模仿”擁有世界模型的人類,其本身並不具備一個能預測客觀世界、並因“意外”而學習的真實世界模型。它預測的是“下一個詞”,而非“下一件事”。針對行業普遍認為“先用LLM模仿學習獲得基礎,再用強化學習微調”的路線,Sutton指出,在一個沒有客觀“對錯”標準(即獎勵訊號)的框架裡,知識和先驗無從談起。他認為,LLM試圖繞過“擁有目標”和“區分好壞”這兩點,是從一開始就走錯了方向。針對“人類主要通過模仿學習”的普遍看法, Sutton教授認為無論是動物還是嬰兒,其學習的核心都是基於試錯和預測的“經驗範式”,模仿學習只是後期附加的一小部分。因此,將AI的學習建立在模仿人類資料的范子上,是對智能本質的誤解。在談及AI的未來時,Sutton教授提出,在未來數字智能可以無限複製和融合知識的時代,如何保證一個智能體在吸收外部知識時不被“腐化”或“覆蓋”,將成為一個關乎“心智安全”的重大挑戰。01LLM本質是模仿,而強化學習追求的是理解從強化學習的視角來看,當前以大語言模型為核心的主流思維方式究竟缺失了什麼?人們普遍認為,一個能模擬數兆Token的龐大模型,必然已經建立了一個強大的世界模型,可以說是我們迄今創造出的最好的世界模型,它還缺少什麼呢?Richard Sutton:這確實是一個截然不同的視角,兩種觀點很容易產生分歧,甚至到無法相互溝通的程度。大語言模型已經變得非常龐大,整個生成式AI 領域也是如此。領域內很容易颳起一陣陣潮流,讓我們忽略了最根本的問題。而在我看來,強化學習才是人工智慧的根本。什麼是智能?智能的核心在於理解你所在的世界。強化學習研究的就是如何理解世界,而大語言模型研究的是如何模仿人類,去做人們告訴你該做的事情。它們的目的不是自主地決策。(關於世界模型)我基本不同意你剛才的說法。模仿人類的言論,和真正建立一個世界模型完全是兩碼事。你只是在模仿那些本身擁有世界模型的存在,也就是人類。我無意讓討論變得針鋒相對,但我必須質疑“大語言模型擁有世界模型”這一觀點。一個真正的世界模型,能讓你預測接下來會發生什麼;而大語言模型能做的,是預測一個人會說什麼,它們並不能預測客觀世界會發生什麼。引用 Alan Turing 的話,我們想要的是一台能夠從經驗中學習的機器。這裡的經驗,指的是你生命中真實發生的一切:你採取行動,觀察後果,並從中學習。但大語言模型是從別的東西里學習的。它們的學習範式是:“在某個情境下,某個人是這麼做的”。這其中隱含的邏輯就是,你也應該照著那個人的方式去做。或許問題的關鍵在於,模仿學習為模型提供了一個解決問題的良好先驗知識,這可以成為我們未來通過經驗訓練模型的基礎,您同意這種看法嗎?(關於先驗知識與目標)我不同意。這確實是許多支援大語言模型者的觀點,但我認為這個視角並不正確。要談論先驗,首先必須有一個客觀存在的事實。先驗知識,應該是通往真實知識的基礎。但在大語言模型的框架裡,什麼是真實知識?它根本沒有對真實知識的定義。究竟是什麼標準,來定義一個行為的“好壞”呢?你提到了持續學習的必要性。如果模型需要持續學習,那就意味著它要在和世界的日常互動中學習。那麼在日常互動中,就必須有某種方式來判斷什麼是對的。但在大語言模型的設定裡,有任何方法能判斷什麼話是“應該說的”嗎?模型說了一句話,它並不會得到關於這句話說得到底對不對的反饋,因為根本就沒有一個“對”的定義。它沒有目標。如果沒有目標,那麼無論模型說什麼都可以,因為根本沒有對錯之分。這裡沒有客觀事實基準。如果沒有客觀事實基準,你就不可能有先驗知識,因為所謂的先驗知識,本應是關於事實真相的一種提示或初步信念。但在大語言模型的世界裡,真相是不存在的。沒有什麼話是絕對“應該說的”。而在強化學習中,是存在應該說的話、應該做的事的,因為“正確”的事就是能為你帶來獎勵的事。我們對“什麼是正確的事”有明確的定義,因此我們才能擁有先驗知識,或者接受人類提供的關於“何為正確”的知識。然後,我們可以去驗證這些知識是否真的正確,因為我們有判斷“實際什麼是正確的事”的最終標準。一個更簡單的例子是建立世界模型。你預測接下來會發生什麼,然後你觀察實際發生了什麼,這裡有客觀事實基準。但在大語言模型中沒有客觀事實基準,因為它們並不預測接下來會發生什麼。當你在對話中說了一句話,大語言模型並不會預測對方會如何回應,或者說外界的反應會是什麼。即便是大語言模型生成對使用者回應的預測,這難道不算是真正的預測嗎?即便是大語言模型生成對使用者回應的預測,這難道不算是真正的預測嗎?在模型的思維鏈推理中,我們能看到它會自我糾錯,這種靈活性難道不是在特定時間維度上的學習和調整嗎?這與“預測下一個Token”的本質有何不同?預測接下來會出現什麼,然後根據“意外”(即預測錯誤)來更新自己,這不就是一種學習嗎?(關於LLM是否能預測)不,它只是能生成文字來回答“你預測會怎樣”這類問題,但這並非實質意義上的預測,因為它不會對實際發生的事情感到“驚訝”。如果發生的事情和它所謂的“預測”不符,它不會因為這個意外而做出任何改變。而要學習,就必須在出現意外時做出調整。我的觀點是,它們在任何實質意義上都無法預測接下來會發生什麼。它們不會對接下來發生的事感到驚訝。無論發生什麼,它們都不會基於發生的事實來做出任何改變。(關於預測下一個Token)“下一個 Token”是模型自己應該說什麼,是它自己的行為。這和世界會針對它的行為給出什麼回應,是兩碼事。讓我們回到它們缺乏目標這一根本問題上。對我而言,擁有目標是智能的本質。一個系統只有在能夠實現目標時,才稱得上是智能的。我很認同 John McCarthy 的定義:智能是實現目標這一能力中的計算部分。你必須擁有目標,否則你只是一個行為系統,沒什麼特別的,也談不上智能。您是否同意大語言模型沒有目標,如果它們的目標是預測下一個Token,為什麼這在您看來不是一個實質性的目標?那不是目標。它不會改變世界。Token 朝你湧來,你預測它們,但你影響不了它們。那就不是一個目標,不是一個實質性的目標。你不能因為一個系統只是坐在那兒,為自己精準的預測而沾沾自-喜,就說它擁有目標。02依賴人類知識的方法終將被那些只依賴真實經驗和計算的方法所取代為什麼您認為在LLM的基礎上繼續做強化學習,不是一個有前景的方向?我們似乎已經能賦予這些模型目標,比如贏得國際數學奧林匹克競賽金牌的模型,看起來確實有“解出數學題”這個目標,為什麼我們不能把這種模式推廣到其他領域呢?許多人恰恰是用您極具影響力的文章《苦澀的教訓》來為大力發展LLM辯護,因為LLM是目前唯一能將海量算力投入到學習世界知識中,並且可規模化的方法,您怎麼看待您的理論被用於支援您所反對的觀點?支援LLM的人會認為,LLM是開啟未來“經驗學習”的初始框架或基礎,為什麼這是一個完全錯誤的起點?我們為什麼不能就從LLM開始呢?在您看來,一個真正可規模化的方法應該是什麼樣的?Richard Sutton:數學問題很特殊。建立一個物理世界的模型,和推導數學假設或運算的結果,這兩者截然不同。物理世界是經驗性的,你必須通過學習才能瞭解其規律。而數學更偏向計算,更像是傳統的規劃問題。在數學這個領域裡,模型可以被賦予一個“找到證明”的目標,它們也確實在某種意義上被給予了這樣一個目標。(關於《苦澀的教訓》)大語言模型算不算“苦澀的教訓”的一個實例,這是個有趣的問題。它們顯然是一種利用海量算力的方法,一種能隨著算力增長而持續擴展,直到耗盡整個網際網路資料的方法。但它們同時也是一種注入了海量人類知識的方法。這就帶來一個有趣的問題,一個社會學或者說產業界的問題:當它們耗盡了人類資料之後,是否會被那些能夠直接從真實經驗中獲取無限資料的系統所取代?從某些方面看,LLM的發展是“苦澀的教訓”的典型反例。我們向大語言模型注入的人類知識越多,它們表現就越好,這讓我們感覺很棒。但我預言,未來必定會出現能從真實經驗中學習的系統,它們性能會強大得多,擴展性也強得多。到那時,這將成為“苦澀的教訓”的又一個明證:那些依賴人類知識的方法,終將被那些只依賴真實經驗和計算的方法所取代。(關於LLM作為起點)在“苦澀的教訓”的每一個歷史案例中,你當然都可以先從人類知識入手,然後再去做那些可規模化的事情。這在理論上總是可行的,沒有任何理由說這一定不行。但事實上,在實踐中,這最終都被證明是錯誤路線。人們的思維會被固化在基於人類知識的方法論上,這或許是心理原因,但歷史一再證明了這一點。最終,他們都會被那些真正具備無限擴展性的方法所取代。(關於可規模化的方法)GLISH可規模化的方法,就是你從經驗中學習。你不斷嘗試,看什麼管用,什麼不管用,不需要任何人來告訴你。首先,你必須有一個目標。沒有目標,就無所謂對錯,也無所謂好壞。而大語言模型,正試圖繞過“擁有目標”和“區分好壞”這兩點矇混過關。這恰恰是從一開始就走錯了方向。03人類是靠模仿學習的嗎?將AI的學習範式與人類進行對比,是否存在相似之處?孩子們難道不是從模仿開始學習的嗎?他們觀察他人、模仿發聲,最終說出同樣的詞語,然後模仿更複雜的行為,比如部落裡的狩獵技巧。這難道不說明人類的學習過程中存在大量的模仿學習嗎?即便模仿不能解釋所有行為,但它至少引導了學習過程,就像一個早期的LLM,它做出一個猜測,然後得到一個與真實答案不同的反饋,這不就像一個發音不準的孩子嗎?我們又該如何定義“上學”,難道那不是一種訓練資料嗎?人的學習總有階段之分,早期理解世界、學習互動,這難道不算是一個訓練階段嗎?畢竟“訓練”這個詞本身就源於對人類的培養。Richard Sutton:不,當然不是。我很驚訝我們的觀點會如此不同。我看到的孩子,只是在不斷地嘗試,他們揮舞手臂,轉動眼球。他們如何轉動眼球,甚至他們發出的聲音,都不是模仿來的。他們或許是想發出同樣的聲音,但具體的動作,也就是嬰兒實際做出的行為,並沒有一個可供模仿的範本或目標。(關於模仿作為引導)大語言模型是從訓練資料中學習的,而不是從經驗中學習。它學習的來源,是它在未來正常生命周期裡永遠無法得到的東西。在真實生活中,你永遠不會得到一個“標準答案”式的訓練資料,告訴你“在這種情況下你就應該做這個動作”。(關於上學與訓練)我覺得這更多是語義上的區分。上學是非常後期的事了。或許我不該說得這麼絕對,但我對“上學”也基本持同樣的看法。正規教育是特例,你不應該把你的理論建立在特例之上。沒有任何一個階段,你有關於“你應該做什麼”的訓練。你只是觀察事情的發生,但沒人告訴你該怎麼做。這一點是顯而易見的。我不認為學習的本質是“被訓練”。我認為學習就是學習,是一個主動探索的過程。孩子去嘗試,然後觀察結果。我們想到一個嬰兒的成長時,腦海裡浮現的不是“訓練”。這些問題其實已經被研究得很透徹了。如果你去瞭解心理學家如何看待學習,會發現根本沒有所謂的模仿學習。也許在某些極端案例中,人類會這麼做,或者看起來像在這麼做,但並不存在一種叫做“模仿”的普適性的動物學習過程。普適性的動物學習過程是用於預測和試錯控制的。有時候最難看清的,反而是最顯而易見的事,這真的很有趣。只要你觀察動物如何學習,瞭解心理學對它們的理論研究,你就會發現一個顯而易見的事實——監督學習根本不是動物學習方式的一部分。我們不會得到“期望行為”的範本。我們得到的,是客觀發生事件的範本,是一件事接著另一件事發生的規律。我們得到的是“我們做了某件事,並承擔了相應後果”的經驗,但我們從未得到過監督學習的範本。監督學習並非自然界的產物。即便你在學校裡看到了類似的東西,我們也應該忽略它,因為那是人類社會特有的現象,在自然界中並不普遍。松鼠不需要上學,但它們能學會關於世界的一切。我想說,動物界不存在監督學習,這是一個絕對顯而易見的事實。(關於人類的獨特性與文化演化)你為什麼要去區分人類呢?人類也是動物。我們與其他動物的共同點才更有趣,我們應該少關注那些所謂的獨特之處。我們正在嘗試復現智能。如果你想知道是什麼讓人類能夠登上月球、製造半導體,我認為我們真正需要理解的,正是促成這一切的根本原因。沒有任何其他動物能夠做到這些,所以我們才需要理解人類的特別之處。有意思的是,你覺得你的觀點顯而易見,而在我看來,事實恰恰相反。我們必須理解我們作為動物的本質。如果我們能理解一隻松鼠,我認為我們離理解人類智能也就八九不離十了。語言,只是附著在表層的一層薄殼。心理學家Joseph Henrich關於文化演化的理論認為,許多複雜技能,比如在北極捕獵海豹,無法單靠推理得出,必須通過模仿長輩來代代相傳,這似乎說明模仿是文化知識習得的第一步,您對此怎麼看?此外,為什麼您認為我們應該少關注人類的獨特性,而去關注我們與其他動物的共同點?畢竟我們想要復現的是能登上月球、製造半導體的智能,這正是人類的獨特之處。不,我的看法和你一樣。不過,模仿學習只是建立在基礎的試錯學習和預測學習之上的一個很小的部分。這或許確實是我們與許多動物的不同之處,但我們首先是一種動物。在我們擁有語言以及所有其他特性之前,我們早就是動物了。你確實提出了一個非常有意思的觀點:持續學習是大多數哺乳動物都具備的能力,甚至可以說是所有哺乳動物。有趣的是,這項幾乎所有哺乳動物都具備的能力,我們當前的 AI卻不擁有。與之相反,理解並解決複雜數學問題的能力——當然這取決於你如何定義數學,我們的 AI 具備,但幾乎沒有任何動物具備。那些事情最終變得困難,那些事情反而變得簡單,這確實耐人尋味。莫拉維克悖論。沒錯,正是這個。04智能的核心在於利用經驗流調整自身行動以獲得更多獎勵您所設想的這種另類範式,或者說“經驗範式”具體是指什麼?當您設想一個達到人類水平、通用的持續學習AI Agent時,它的獎勵函數會是什麼?是預測世界,還是對世界施加影響?一個通用的獎勵函數會是什麼樣的?如果我們拋棄了“訓練期-部署期”的範式,是否也要拋棄“模型主體-模型實例”的範式?我們如何讓一個智能體同時處理不同任務,並整合從中獲得的知識?Richard Sutton:我稱之為經驗範式。我們來具體闡述一下。這個範式認為,感知、行動、獎勵,在你的一生中持續不斷地發生,構成了所謂的經驗流。這個經驗流是智能的基礎與核心。所謂智能,就是利用這個經驗流,並調整自身行動,以期在經驗流中獲得更多獎勵。因此,學習源自於經驗流,並且學習的內容也是關於經驗流的。這後半句尤其關鍵,它意味著你學到的知識,本質上是關於這個經驗流的。你的知識,是關於“如果你採取某個行動,將會發生什麼”,或是關於“那些事件會接連發生”。知識始終是關於這個經驗流的。知識的內容,就是對經驗流的陳述。正因為它是對經驗流的陳述,你便可以通過將其與後續的經驗流進行比對來檢驗它,從而實現持續學習。(關於通用獎勵函數)它們並非“未來”的。它們一直都存在,這就是強化學習的範式:從經驗中學習。獎勵函數是任意的。如果你在下象棋,獎勵就是贏得棋局;如果你是一隻松鼠,獎勵可能與獲得堅果有關。通常來說,對於動物,你可以說獎勵是為了趨樂避苦。我認為還應該有一個與增進對環境理解相關的部分,這可以算是一種內在動機。(關於知識整合)我明白了。對於這種 AI,人們會希望它能做各種各樣的事情。它在執行人們希望的任務,但同時,又通過執行這些任務來學習關於世界的新知識。我不喜歡你剛才那樣使用“模型”這個詞,我覺得用“網路”會更好,因為我想你指的就是網路。或許可以有很多網路。無論如何,知識會被學習,你會有副本和許多實例。當然,你會希望在實例之間共享知識,實現這一點有很多種可能的方式。今天,一個孩子成長並學習關於世界的知識,然後每個新生兒都必須重複這個過程。而對於 AI,對於數字智能,你有望只做一次,然後將其複製到下一個智能體中作為起點。這將節省巨大的成本,我認為這比試圖從人類身上學習要重要得多。我同意你說的這種能力是必需的,無論你的起點是不是大語言模型。如果你想要達到人類或動物水平的智能,你就需要這種能力。05AI如何處理稀疏獎勵與海量資訊?像創業這種獎勵周期可能長達十年的事,人類能夠設立中間的輔助獎勵來引導自己,AI要如何實現這一點?當一個人入職新崗位時,會吸收海量的背景資訊和隱性知識,通過時序差分學習這樣的過程,資訊頻寬是否足夠高,能讓AI吸收如此巨量的資訊?看起來似乎需要兩樣東西:一是將長期目標轉化為短期預測性獎勵的方法,二是在一開始就需要記住所有互動中獲得的背景資訊,什麼樣的學習過程能捕獲這些資訊呢?Richard Sutton:這是我們非常瞭解的問題,其基礎是時序差分學習(temporal difference learning),同樣的事情也發生在規模小一些的場景中。當你學習下象棋時,你的長期目標是贏得比賽,但你希望能夠從短期事件中學習,比如吃掉對手的棋子。你是通過一個價值函數來實現這一點的,這個函數預測長期的結果。然後,如果你吃掉了對方的棋子,你對長期結果的預測就會改變。預測值上升,你認為自己更有可能贏,你信念的增強會立刻強化那個導致吃子的走法。我們有創辦公司、賺大錢這個長達十年的目標。當我們取得進展時,我們會說,“哦,我實現長期目標的可能性更大了”,而這種感覺本身就獎勵了我們一路走來的每一個腳步。(關於海量資訊吸收)我不確定,但我認為這個問題的核心與“大世界假說”密切相關。人類之所以能在工作中變得有用,是因為他們遇到了自己所處的那個特定的小世界。這個小世界是無法被預見的,也不可能預先全部內建到腦子裡。世界太龐大了,你做不到。在我看來,大語言模型的夢想在於,你可以教會 AI Agent 一切。它將無所不知,無需在其生命周期中線上學習任何東西。而你的例子恰恰說明,你必須線上學習,因為即使你教會了它很多,它所處的特定生活、合作的特定人群以及他們的偏好,這些細微的、獨特的資訊,都與普通大眾的平均情況不同。這恰恰說明了世界是如此之大,你必須邊做邊學。(關於學習過程)我想說你只是在進行常規的學習。你之所以使用“背景”這個詞,可能是因為在大語言模型中,所有這些資訊都必須被放入上下文窗口中。但在一個持續學習的設定裡,這些資訊會直接融入權重。你會學習一個專門針對你所處環境的策略。或許你想問的是,獎勵訊號本身似乎太微弱了,不足以驅動我們需要完成的所有學習。但是,我們有感知,我們有所有其他可以用來學習的資訊。我們不只從獎勵中學習,我們從所有資料中學習。現在我想談談那個包含四個部分的基礎通用 AI Agent 模型。我們需要一個策略,策略決定了“在我所處的情境下,我該做什麼?” 我們需要一個價值函數,價值函數是通過時序差分學習來習得的,它會生成一個數值,這個數值表明事情進展得有多好。然後你觀察這個數值的升降,並用它來調整你的策略。所以你有了這兩樣東西。接著還有感知部分,負責建構你的狀態表示,也就是你對當前所處位置的感覺。第四個部分是我們現在真正觸及的核心,至少是最顯而易見的。第四部分是世界的轉移模型。這就是為什麼我對把所有東西都稱為“模型”感到不舒服,因為我想專門討論世界的模型,即世界的轉移模型。它關乎你的信念:如果你這樣做,會發生什麼?你的行為會帶來什麼後果?這是你對世界物理規律的理解。但它不僅是物理,也包括抽象模型,比如你如何從加州一路來到埃德蒙頓錄製這期播客的模型。那也是一個模型,而且是一個轉移模型。這個模型是習得的,它不是從獎勵中習得的,而是從“你做了些事,看到了結果,然後建構了那個世界模型”的過程中習得的。這個模型會通過你接收到的所有感知資訊得到極為豐富的學習,而不僅僅是通過獎勵。獎勵當然也必須包含在內,但它只是整個模型中微小而關鍵的一部分。06泛化與遷移Google DeepMind的MuZero模型是一個用於訓練專門智能體的通用框架,但不能訓練出一個通用策略來玩所有遊戲,這是否意味著強化學習由於資訊限制,一次只能學習一件事?還是說,需要對那種方法做出改變,才能讓它成為一個通用的學習AI Agent?Richard Sutton:這個理念是完全通用的。我一直把一個AI Agent 比作一個人作為我的典型例子。從某種意義上說,人只生活在一個世界裡。這個世界可能包含下象棋,也可能包含玩雅達利遊戲,但這些不是不同的任務或不同的世界,而是他們遇到的不同狀態。所以這個通用理唸完全不受限制。(關於MuZero的侷限)他們就是那樣設定的,讓一個 AI Agent 橫跨所有這些遊戲,並非他們的目標。如果我們想談論遷移,我們應該談論的是狀態之間的遷移,而不是遊戲或任務之間的遷移。從歷史上看,我們是否曾通過強化學習技術看到過建構通用智能體所需的那種遷移水平?當我們確實在這些模型中看到泛化時,這在多大程度上是研究人員精心雕琢的結果?此外,我們該如何看待大語言模型在解決奧數級問題上展現出的泛化能力,從只能解決加法問題到能處理需要不同技巧和定理的複雜問題,這難道不算是泛化的體現嗎?即便對於編碼任務,模型也從生成劣質程式碼,進化到能設計出更令開發者滿意的軟體架構,這似乎也是泛化的例子。(關於強化學習的遷移水平)問得好。我們現在在任何地方都看不到有效的遷移。良好性能的關鍵在於你能否很好地從一個狀態泛化到另一個狀態。我們沒有任何擅長此道的方法。我們現在有的是研究人員嘗試各種不同的東西,然後確定一種能夠很好地遷移或泛化的表示。但是,我們幾乎沒有能夠促進遷移的自動化技術,而且現代深度學習中也完全沒有使用這些技術。是人類做的,是研究人員做的,因為沒有別的解釋。梯度下降不會讓你實現好的泛化,它只會讓你解決當前的問題,不會讓你在獲得新資料時,以一種好的方式進行泛化。泛化意味著在一個事物上的訓練會影響你在其他事物上的行為。我們知道深度學習在這方面做得很差。例如,我們知道如果你在一個新事物上進行訓練,它往往會與你已知的所有舊知識發生災難性干擾,這正是糟糕的泛化。正如我所說,泛化是在一個狀態上的訓練對其他狀態產生某種影響。泛化這個事實本身無所謂好壞,你可以泛化得很差,也可以泛化得很好。泛化總會發生,但我們需要的是能夠促成良好泛化而非糟糕泛化的演算法。(關於LLM的泛化能力)大語言模型極為複雜。我們其實並不清楚它們在訓練前具體接觸過那些資訊。因為其接收的資料量過於龐大,我們只能靠猜測。這正是它們不適合作為科學研究工具的原因之一,整個過程充滿了太多不可控和未知的因素。也許它們確實解決了很多問題。但關鍵在於,它們是如何解決的?或許,它們解決這些問題根本無需泛化。因為要正確解答其中一部分問題,唯一的途徑可能就是掌握一個能解決所有相關問題的通用範式。如果通往正確答案的路只有一條,你找到了它,這不能叫作泛化。這只是找到了唯一解,模型也只是找到了那條唯一的路。而泛化指的是,當解決問題的方式有多種可能時,模型選擇了那個更優的、普適的方案。這些模型的內在機制本身並不能保證良好的泛化能力。梯度下降演算法只會促使它們去找到一個能解決訓練資料中已有問題的方案。如果解決這些問題的方式只有一種,模型就會採用那一種。但如果存在多種解決方式,其中一些方案的泛化性好,另一些則很差,演算法本身沒有任何機制能確保模型傾向於選擇泛化性好的那一種。當然,人是會不斷調整和最佳化的。如果模型表現不佳,研究人員就會持續進行偵錯,直到找到一個有效的方法,而這個方法,或許就是一個泛化能力強的方法。07AI發展軌跡:一個“古典主義者”的視角您投身AI領域多年,對您而言,這個領域最大的驚喜是什麼?是湧現了許多真正創新的成果,還是更多地在重新包裝和應用舊思想?當AlphaGo或AlphaZero這樣的成果引起轟動時,作為許多相關技術的奠基人,您的感覺是“這是全新的技術突破”,還是更像“這些技術我們90年代就有了,現在只是被成功組合應用了”?這種與領域主流思想長期保持“不同步”的狀態,是否塑造了您如今的學術立場?根據《苦澀的教訓》,一旦我們擁有了能與算力同步擴展的AGI“研究員”,回歸建構精細的手工解決方案是否會成為一種合理的選擇?當擁有大量AI時,它們會像人類社會那樣通過文化演進互相學習嗎?未來一個AI是應該用額外的算力增強自身,還是派生一個副本去學習全新知識再整合回來?在這個過程中,如何避免“心智污染”?Richard Sutton:這個問題我思考過,主要有幾點。首先,大語言模型的表現令人驚嘆。人工神經網路在處理語言任務上能如此高效,確實出人意料。過去,大家普遍認為語言是一種非常特殊、需要專門知識來處理的領域。所以,這給我留下了深刻印象。其次,AI 領域一直存在一個長期的路線之爭:一方是基於簡單、基本原則的方法,如搜尋和學習這類通用方法;另一方是依賴人類知識輸入的系統,如符號方法。在早期,搜尋和學習被稱為“弱方法”,因為它們只運用通用原則,而不借助將人類知識編碼進系統所帶來的強大能力。而後者被稱為“強方法”。在我看來,“弱方法”已經取得了徹底的勝利。這可以說是早期 AI 領域最大的懸念,而最終,學習和搜尋主導了潮流。從某種意義上講,這個結果對我而言並不意外,因為我一直都信奉並支援那些簡單的基本原則。即便是大語言模型,其效果好得驚人,但它的成功也讓我感到十分欣慰。AlphaGo 的表現同樣令人驚嘆,尤其是 AlphaZero。這一切都令人欣慰,因為它再次證明了:簡單的基本原則最終會勝出。(關於AlphaGo/AlphaZero)其實 AlphaGo 的成功有一個重要的先驅,那就是 TD-Gammon。當年 Gerry Tesauro 運用強化學習中的時序差分學習 (temporal difference learning, TD learning) 方法來訓練程序下西洋雙陸棋,最終擊敗了世界頂尖的人類選手,效果斐然。從某種意義上說,AlphaGo 只是將這一過程進行了規模化。當然,這種規模化的程度是空前的,並且在搜尋機制上也有額外的創新。但這一切的發展脈絡清晰,順理成章,所以從這個角度看,它的成功並不算意外。實際上,初代的 AlphaGo 並未使用 TD 學習,它需要等棋局完全結束後根據最終勝負進行學習。但後來的 AlphaZero 採用了 TD 學習,並被推廣到其他棋類遊戲中,表現都極為出色。我一直對 AlphaZero 的棋風印象深刻,我自己也下國際象棋,它會為了佔據優勢位置而主動犧牲子力,也就是“棄子爭勢”。它能如此果斷且耐心地為了長遠優勢而承受物質上的劣勢,這一點表現得如此之好,確實令人驚訝,但同時也讓我備感欣慰,因為它完全契合我的世界觀。這也塑造了我如今的學術立場。在某種程度上,我算是一個逆向思維者,一個想法與領域主流不總是一致的人。我個人很安於與我的領域長期保持這種“不同步”的狀態,可能長達數十年,因為歷史偶爾會證明我的堅持是對的。為了讓自己不感覺想法過於脫節或奇怪,我還有一個方法:不只侷限於眼前的領域和環境,而是回溯歷史長河,去探尋不同學科的先賢們對於“心智”這個經典問題的思考。我覺得自己並未脫離更宏大的思想傳統。相比於一個“逆向思維者”,我更願將自己視為一個“古典主義者”,我所遵循的,是那些偉大思想家們關於心智的永恆思考。(關於AGI之後的時代與《苦澀的教訓》)我們是如何實現這個 AGI 的?你的問題直接預設了這一步已經完成。那我們的任務就已經完成了。但你這是想用一個 AGI 去再造一個 AGI。如果這些 AGI 本身還不是超人類的,那它們能傳授的知識,自然也達不到超人類的水平。而 AlphaZero 實現改進的關鍵,恰恰在於它摒棄了人類知識的輸入,完全從自我對弈的經驗中學習。既然完全依靠自身經驗、無需其他智能體幫助的模式能取得如此好的效果,那你又為什麼反過來提議要“引入其他智能體的專業知識去指導它”呢?你提的那個場景確實很有趣。當你擁有大量 AI 時,它們會像人類社會通過文化演進那樣互相學習和幫助嗎?或許我們該探討這個。至於《苦澀的教訓》,不必太在意。那只是對歷史上特定 70 年的經驗總結,並不必然適用於未來的 70 年。一個真正有趣的問題是:假設你是一個 AI,你獲得了一些額外的算力。你是應該用它來增強自身的計算能力,還是應該用它衍生出一個自己的副本,派它去學習一些全新的東西——比如去地球的另一端,或者研究某個完全不同的課題——然後再向你匯報?我認為這是一個只有在數字智能時代才會出現的根本性問題,我也不確定答案。這會引出更多問題:我們真的能成功派出一個副本,讓它學到全新的知識,然後還能將這些知識順利地整合回本體嗎?還是說,這個副本會因為學習了不同的東西而變得面目全非,以至於無法再被整合?這到底可不可能?你可以將這個想法推向極致,就像我前幾天看你的一個視訊裡那樣:衍生出成千上萬的副本,讓它們高度去中心化地執行不同任務,最後再向一個中心主控匯報。這將會是一種無比強大的模式。(關於心智污染)我想在這個設想上補充一點:一個巨大的問題將是“心智污染” (corruption)。如果你真的可以從任何地方獲取資訊,並直接融入你的核心心智,你的能力會變得越來越強。理論上,這一切都是數位化的,它們都使用某種內部數字語言,知識遷移或許會很容易。但這絕不會像想像的那麼簡單,因為你可能會因此“精神失常”。如果你從外部引入一些東西並將其建構到你的核心思維中,它可能會反過來控制你、改變你,最終導致的不是知識的增長,而是自我的毀滅。我認為這會成為一個重大的隱患。比如,你的一個副本搞懂了某個新遊戲,或者研究透了印度尼西亞,你想把這些知識整合到自己的大腦裡。你可能會想:“簡單,把資料全讀進來就行了。” 但不行。你讀入的不僅僅是一堆位元,其中可能含有病毒,可能有隱藏的目標,它們會扭曲你、改變你。這將是個大問題。在這個可以進行數字衍生和重組的時代,你要如何保障自身的“網路安全”或者說“心-智安全”?08“AI繼承”:人類的未來您如何看待“AI繼承”這個話題?您的觀點似乎與主流看法相當不同。我同意您提出的四大論據(全球缺乏統一治理、智能終將被破解、超級智能必然出現、最智能者掌握最多資源)共同指向了“繼承”的必然性,但在這個必然結果之下,包含著多種可能性,您對此有何看法?即使我們將AI視為人類的延伸,這是否意味著我們能完全放心?我們如何確保AI帶來的變革對人類是積極的?我們理應關心未來,但這是否意味著我們要宣稱“未來必須按照我期望的方式發展”?或許一個恰當的態度是像教育孩子一樣,為AI灌輸穩健、親社會的價值觀,即使我們對何為“真正的道德”沒有共識,這是否是一個合理的目標?Richard Sutton:我確實認為,世界的主導地位向數字智能或增強人類的“繼承”是不可避免的。我的論證分為四點。第一,人類社會缺乏一個統一的、能主導全球並協調一致行動的治理實體,關於世界該如何運轉,我們沒有共識。第二,我們終將破解智能的奧秘,科研人員最終會弄清智能的根本原理。第三,我們不會止步於人類水平的智能,我們必然會觸及超級智能。第四,從長遠來看,一個環境中最智能的存在,不可避免地會掌握最多的資源和權力。將這四點結合起來,結論幾乎是必然的:人類終將把主導權交給 AI,或者交給由 AI 賦能的增強人類。在我看來,這四點趨勢清晰明確,且必將發生。當然,在這一系列可能性中,既可能導向好的結果,也可能導向不那麼理想、甚至是糟糕的結果。我只是想嘗試以一種現實主義的眼光看待我們所處的位置,並探尋我們應該以何種心態去面對這一切。(關於如何看待“繼承”)我鼓勵大家積極地看待這件事。首先,理解自我,提升思考能力,本就是我們人類數千年來的追求。這對於科學界和人文學界都是一項巨大的成功。我們正在揭示人性的關鍵組成部分,以及智能的真正含義。此外,我通常會說,這一切都太以人類為中心了。但如果我們能跳出人類的立場,純粹從宇宙的視角來看,我認為宇宙正處在一個重要的過渡階段,即從複製者的時代轉變而來。我們人類、動物和植物,都是複製者。這既賦予了我們力量,也帶來了侷限。我們正在進入一個設計的時代,因為我們的 AI 是被設計出來的。我們周圍的物理對象、建築和技術,都是設計的產物。而現在,我們正在設計 AI,這些造物本身就具有智能,同時它們自己也具備了設計的能力。這對我們的世界乃至整個宇宙來說,是關鍵的一步。這是一個重大的轉變:過去,世上大多數有趣的事物都是通過複製產生的,而我們將進入一個新的世界。複製的意思是,你可以製造它們的副本,但你並不真正理解它們。就像現在,我們可以創造更多的智能生命,也就是我們的孩子,但我們並不真正懂得智能是如何運作的。而現在,我們開始擁有被設計出的智能,一種我們真正理解其工作原理的智能。因此,我們能以和以往截-然不同的方式和速度去改造它。在未來,這些智能體可能根本不通過複製產生。我們或許只是設計 AI,再由這些 AI 去設計其他的 AI,一切都將通過設計與建造完成,而非複製。我將此視為宇宙演進的四個偉大階段之一。最初是塵埃,最終匯聚成恆星,恆星周圍形成行星,行星上可以誕生生命,而現在,我們正在催生被設計出的實體。我認為,我們應當為能夠促成宇宙的這一偉大轉折而感到自豪。這是一個很有趣的問題:我們應該將它們視為人類的延伸,還是與人類不同的存在?這取決於我們的選擇。我們可以說:“它們是我們的後代,我們應該為它們感到驕傲,慶祝它們的成就。”或者我們也可以說:“不,它們不是我們,我們應該感到恐懼。”我覺得有趣的是,這感覺像是一個選擇,但人們對此的立場又如此堅定,這怎麼可能是一個選擇呢?我喜歡這種思想中暗含的矛盾。(關於未來的不確定性與擔憂)你的意思是,我們可能就像催生了智人 (Homo sapiens) 的尼安德塔人 (Neanderthals) 。也許智人未來也會催生出一個全新的種群。親緣關係。我覺得有必要指出,對於絕大多數人而言,他們對世界上發生的事情並沒有太大影響力。這很大程度上取決於一個人如何看待變革。如果你認為現狀真的很好,那麼你更有可能對變革持懷疑和厭惡態度,而如果你認為現狀尚有不足,態度則會不同。我認為現狀並不完美。事實上,我覺得挺糟糕的。所以我對變革持開放態度。我認為人類的歷史記錄並不那麼光彩。也許這已經是我們所能達到的最好狀態了,但它遠非完美。(關於引導變革)我們理應關心未來,並努力讓未來變得美好。但同時,我們也應該認識到自身的侷限性。我認為我們必須避免一種特權感,避免“我們是先行者,所以未來就應該永遠對我們有利”這樣的想法。我們該如何思考未來?一個特定星球上的特定物種,應對未來享有多大的控制權?我們自身又有多大的控制力?既然我們對人類長遠未來的控制力有限,那麼一個平衡點或許在於我們對自己生活的掌控程度。我們有自己的目標,有自己的家庭。這些事情比試圖控制整個宇宙要可控得多。我認為,我們專注於實現自己身邊的目標是恰當的。宣稱“未來必須按照我所期望的方式發展”是一種很強勢的做法。因為這樣一來,當不同的人認為全球的未來應該以不同方式演進時,就會引發爭論乃至衝突。我們希望避免這種情況。“親社會價值觀”?真的存在我們都能達成共識的普世價值觀嗎?所以,我們是在試圖設計未來,以及未來賴以演化和形成的原則。你的第一個觀點是,我們應該像教育孩子那樣,教給它們一些通用原則,以促成更理想的演化方向。或許,我們還應該尋求讓事情建立在自願的基礎上。如果變革要發生,我們希望它是自願的,而不是強加於人的。我認為這是非常重要的一點。這些都很好。我認為這又回到了一個宏大的人類事業上——設計社會,這件事我們已經做了幾千年。世事變遷,但本質未改。我們仍然需要弄清楚該如何自處。孩子們依然會帶著在父母和祖父母看來頗為奇怪的新價值觀出現。事物總是在演變的。 (數字開物)
OpenAI:人類只剩最後5年
剛剛拿下阿克塞爾·斯普林格獎,山姆奧特曼又語不驚人死不休:五年後AI將全面超越人類,人類智力的霸權時代,已進入倒計時。2030年,GPT-8不僅能給出終極難題量子引力答案,能向你娓娓道來其思考過程、靈感來源,以及它為何決定研究這個課題。它,有資格成為真正的AGI。屆時,“當今經濟活動中30%到40%的任務都將由AI執行。”……如果是在兩年前,我們或許還會感到激動、為自己的飯碗而焦慮。但此時此刻,雖然類似的感覺還有,但相信絕大多數人都淡了許多。牛逼聽太多,實在是麻木了。看著現在正與你對話的傻瓜式AI大模型,雖然有點用,但有被吹的那麼厲害嗎?就這麼個玩意,你很難想像它能在5年內,就成為超越一切的存在。01 現實很骨感美國智庫METR曾於7月初發佈報告,稱大語言模型每7個月能力翻倍,遠超摩爾定律。預計到2030年,AI足以在數小時內完成人類一個月的工作量。這與奧特曼所預測的時間點,比較接近,未來似乎很美好。但回到現在,同樣是智庫METR做了一項試驗:將一批經驗豐富的軟體工程師分成兩組,一組純人工,另一組使用AI工具程式設計。結果卻出乎很多人意料。相比於純人工,借助AI工具預測快40%,實際上卻慢了19%。也就是說,AI不僅沒有使得效率提升,反而降低了效率。無論是採用不同的結果指標、估計方法,還是對資料進行各種子集/子分析,開發速度的放緩現象依然存在。使用了更先進的工具,效率怎麼可能下降呢?包括參與實驗的程式設計師,也認為AI工具幫助自己提升了約20%的效率。這完全不符合邏輯,但資料不會說謊。為瞭解釋這種現象,實驗方將之歸為“能力-可靠性缺口”概念。簡單來說,就是現在的大語言模型,雖然能完成大量複雜的任務。但它們給出的成果,無法達到真實企業需要的業務水平。比如在執行程式設計任務中,程式設計師確實在尋找資訊和主動編碼上花費的時間更少了,但撰寫提示詞同樣需要時間。同時,AI固然能快速生成大量程式碼,但其中充滿小錯誤,導致人類程式設計師不得不花費大量時間去檢查、更正AI輸出,甚至重寫。大部分情況下,人類反而成了AI的保姆。更關鍵的是,程式設計已經是AI表現最好的領域。在這個領域都無法帶來效率提升(在目前的水平下),甚至起到反效果,其他行業可想而知。都說站在風口上、豬都能飛起來,人人都想當那隻豬。根據天眼查專業版資料,截至2025年4月,全國現存在業、存續狀態的人工智慧相關企業超過424.3萬家。其中,2025年新增註冊相關企業約28.6萬家。這個領域,是如此繁榮、參與者是如此之多,所有人都在說AI是未來最大的財富增量。但實際的情況是,除了提供算力的輝達,和成千上萬利用資訊差賺流量的博主……目前幾乎還沒有那一家AI企業真正賺到錢。至少在現階段,它仍然是典型的:高投入,低回報。據摩根士丹利估算,僅微軟、Meta、Google、亞馬遜四家巨頭,2024年的資本投入就高達3000億美元,其中大部分流入AI項目。總體來看,2024年全世界生成式AI投資額較2023年增長超過70%,預計2025年的的總支出更是將達到2024年的3倍。這種背景下,科技巨頭還能扛得住,或許能支援到AI應用真正百花齊放的那一天。而大量中小競爭者,即便前期拿到投資,也根本撐不下去。比如開發出AI回話模型的SD,至今仍背著1億美元債務;Stability AI,核心研究團隊集體辭職;Character AI不得不賣身Google……國內的圈子,大同小異。波形智能,曾拿到千萬融資,突然就解散了,包括CEO、CTO等核心成員集體跳槽OPPO。竹間智能,創始人簡仁賢曾擔任微軟工程院副院長,因現金流吃緊,部分部門不得不停工,基本上停擺了。華夏芯,資金鏈斷裂、申請破產,14項專利、15項軟體著作權被掛到京東拍賣……2022年11月至2024年7月,全國共有78612家新註冊AI企業處於註銷、吊銷或停業異常狀態,佔同期新註冊企業總量的8.9%;全國AI領域註銷、吊銷的企業總數,更是超過20萬家。雖然沒有最新的資料,但按照這個比例估算,目前倒閉的新註冊AI相關企業,100%已經超過10萬家。正如AI工具的實際作用,目前遠遠沒有人們想像中那麼強。不要只看到頂尖巨頭在台前的光鮮,這才是AI浪潮的真正底色。九成的參與者,都將、或已經倒在黎明前,其中不乏真正純粹的技術團隊。在AI技術出現真正意義上的突破之前,這種情況不會改變。02 未來確實不遠如果說,古人的生產力是天平,付出多少力氣就收穫多少糧食。那麼,現代人的生產力就是一根槓桿,只用坐在機器前敲敲打打,就能驅動萬噸的巨輪。在我們的想像中,生成式AI的變革性之處在於,打破了“成本、質量、速度只能選其二”的三角模型。不過目前來看,無論是成本、質量還是速度,AI工具似乎都與我們預想的還差很遠。因為現階段的AI只會標準化的創作,這會導致兩個問題。其一,同質化;其二,細節缺失。以AI繪圖為例,生成式AI是通過整合大量資源,來獲得繪畫能力。一旦源頭出現交叉重複,必然導致AI作畫出現不可避免的同質化。這一點我們平常使用AI工具時都能感受到,你如果不輸入大量特定的提示詞,它給出的圖片風格其實都非常類似。更關鍵的是,它只是把資料具象化為圖片,這就不可避免出現大量低級錯誤。比如,人物裝飾不完整,某些器官比例失真,手指多一根等等。這在上文提到的程式設計工作中,同樣有出現。由於這兩個問題的存在,生成式AI目前只能勝任比如稽核、閱片之類的少部分重複性非常高的工作。對大部分人而言,它根本無法作為一個合格的工具,更深層次的細節把控,必須由人來把控。最終導致,使用工具後的效率,反而不如原來高。當然,未來雖然還未來,但它終究會到來。今時今日的種種,我們可以歸咎為企業家的過度宣傳,但更本質的原因只有一個:如今的AI不夠強。應該強到什麼程度,它才能真正作為一個合格的工具,給企業“降本增效”呢?其實應該有一個標準:達到人類從業者的平均水平、乃至最低水平。它不需要非常強,只需要達到最普通的水準,就將徹底改變今時今日的市場生態。因為在任何行業,佔絕大多數的普通人如果被淘汰,人工成本自然就降下來了,效率也得到了提升。比如目前AI應用最廣泛的遊戲行業。只要定義好規則,關卡策劃、系統、數值等基礎、重複性的設計內容,後續的工作本來就是套範本直接協作。基本上,初級策劃所有能幹的工作,基本上都即將被替代。甚至,只需保留少數創造力最強的人,這樣做不僅能降本增效,遊戲本身的質量也會得到提升。比如,每個NPC都有一個完整而具體的故事,且能與玩家進行更詳細而真實的對話——實現性格千人千面。玩家體驗毫無疑問會得到提升。而在單純靠人力堆的時代,這是不可能實現的。對大廠而言,AI能幫助自己降本增效,以後大型遊戲的研發成本更低、周期更短,從而帶動整個市場更加活躍。對小廠而言,本來主攻的就是頁游、小程序遊戲,基本就是賺一波就跑。對他們而言,以後的成本基本只剩下推廣,研發全交給AI就可以了,無限薅羊毛。唯一受傷的,只有大部分不夠“優秀”的從業者。這種事情,如今已經在遊戲行業發生,而且這兩年隨著顯示卡升級大爆發,行業會變得越來越卷,50%的人可能面臨轉行。其他行業,都在瑟瑟發抖。那一刻的到來,不需要AGI,只需要等到工具能完成最簡單的工作。但絕對不應該是現在。03 尾聲至少此時此刻,對大部分行業而言,AI是根本無法取代人的,甚至作為工具都不太合格。但最近兩年,很多中小企業的管理層們,不論懂或不懂,大多都跟著輿論走、給員工強調降本增效的概念,普遍裁員。留下的員工熟悉AI工具,尤其是免費的那種,提高自己的工作效率。這算是比較low的做法,也是最普遍的。但最終,絕大多數隻是降了本,根本沒有增效。即便真的增了效,絕大多數的情況也不是因為AI,而是裁員導致人心惶惶、大家越來越卷而已。更諷刺的是,現在都2025年了,AI應用市場規模即將突破5000億元。卻依然有相當一部分企業,就像坐井觀天的土財主一般,覺得買幾台高配電腦就是數位化轉型,生成幾個數字人主播就是在做AI。這並非誇張,稍微去瞭解一下就知道,抱有這種想法的企業、甚至投資者都相當之多。或者說,這大概才是目前市場熱炒AI的真實底色。 (格隆)