#沖咖啡
機器人終於能“上班”了:PI 讓它連沖咖啡 13 小時
從一開始,他們就強調一件事:類大腦啟發的大模型本身就是一件“離譜地成功”的發明。用一個通用的學習演算法,加上大規模資料,就能在機器人、視覺、語言、聲音等各種模態上學出遠超傳統方法的能力,而這一切“真的能跑起來”,本身就非常震撼。來源:AI工業(採用 AI 工具整理)PI 的野心:用“機器人基礎模型”打穿智能瓶頸來源:AI工業(採用 AI 工具整理)Physical Intelligence 的使命,是為機器人建構基礎模型(robotic foundation models)。他們希望做到:原則上讓任何機器人執行任何任務。過去一年半,他們搭起了一整套可擴展的“積木”:證明同一個模型可以控制多種不同形態、不同平台的機器人,也可以在新環境中表現出一定的泛化能力。最新的 Pi-Star 0.6 則開始通過強化學習從經驗中持續學習,讓模型的性能逐漸逼近真實可部署的水準。他們已經在現實中讓機器人連續做了 13 小時咖啡,同一類模型還能遷移到手術機器人、無人機等完全不同任務上,表現出強的跨任務泛化能力。在“為什麼做基礎模型而不是自己造整機”這個問題上,他們的判斷非常明確:機器人行業真正的瓶頸一直在智能,而不是硬體。十多年前的機器人,只要由人類遙操作,就已經能完成打掃整屋這樣的複雜任務,這說明硬體早就足夠強。傳統路線是圍繞單一任務造一台專用機器人,本質上並沒有正面解決“智能層是最短板”這個問題。Physical Intelligence 選擇直接瞄準智能瓶頸本身,相信如果能把這一層打通,垂直產品和商業化場景自然會在各行各業湧現出來。他們承認,近幾年人形機器人硬體和靈巧手的進步非常快,例如 Optimus 的手已經精密到“像藝術品”。但在他們看來,更高階的硬體只是抬高了“理論上限”,而真正限制落地的還是“智能地板”。即使用相對簡單的夾爪,只要智能足夠強,也可以完成切菜、做飯等任務。現在連“達到人類遙操作員水平”這一步都還沒走完,真正的短板是控制層和決策層的智能,而不是手腳是不是又多了幾個自由度。為了系統化地攻克智能問題,他們把難題拆成三個維度:能力、泛化和性能。在能力這一點上,他們的目標是:只要你能為某個任務或某個機器人收集到資料,就應該有一個模型能學會並自動執行該任務。在早期的 Pi Zero 版本裡,他們認為已經驗證了這一點——對於很多不同機器人與任務,只要有資料,模型就能學會模仿並實現自動化。泛化是他們認為目前仍然非常棘手的問題。理想狀態是:機器人可以零樣本泛化,被搬進一個從未去過的新家,也能完成整理廚房這樣的基本任務。挑戰在於,不同家庭的佈局、物品位置、光照條件完全不同,機器人必須形成某種“環境常識”。他們的結論是:在機器學習裡,泛化唯一靠得住的答案就是“資料多樣性”——只有覆蓋足夠多樣的環境,模型才有能力在“相似但未見過”的場景中工作。在 Pi 0.5 中,他們已經看到一些跡象:機器人第一次進入某個新家,也能做簡單的收拾和清潔,雖然遠不完美,但至少表現出了一定程度的常識化行為。從 demo 到生產:部署—資料—再訓練閉環來源:AI工業(採用 AI 工具整理)性能這一維度,則關乎能不能真正“跑在生產上”。他們的目標是:把成功率和穩定性推到可以商業部署的水平。為此,他們非常看重“部署—資料—再訓練”的閉環:最可擴展的高價值資料收集方式,是讓機器人在真實場景中執行有經濟價值的任務,一邊創造業務價值,一邊順便積累訓練資料。長遠來看,這種真實互動資料的規模,有潛力遠遠超過今天網際網路上的靜態資料,成為未來訓練機器人基礎模型的主力來源。時間尺度上,他們原本估計至少要再等五年,技術才適合在商業場景部署一台真正有價值的機器人。但現實情況是,他們在大約兩個月前就已經開始實際部署機器人,比預期早了很多。他們認為現在剛剛跨過了一個關鍵門檻:模型已經“有用到足以開始部署”,能完成一定多樣度的任務,並在實際業務中創造價值。當然,他們也強調,不是所有場景都適合立刻上:失敗成本極高的任務、對泛化和隱私要求極高的家庭場景,短期內都需要謹慎。更現實的路徑是,先從可控、風險可接受的場景開始,隨著部署和資料積累,可部署場景的“光圈”會持續放大。他們也坦誠,基礎模型的真實能力範圍很難在訓練前完全預測,必須依賴大規模應用與測試。正因如此,他們選擇把模型開源,讓更多團隊在自動駕駛、手術機器人、農業等他們原本沒想到的領域測試這套系統。結果顯示,實際“可用光圈”比他們自己想像的要寬得多。但與此同時,要讓每一個具體業務場景都達到“可以每天穩定跑業務”的程度,仍需要長期的性能爬坡和對長尾問題的治理,這是一個持續多年的工程。架構路線:VLM 預訓練 + 機器人資料注入 → VLA來源:AI工業(採用 AI 工具整理)關於“架構是不是已經定型”這個問題,他們的態度是:當前的技術架構已經足夠支撐模型跑起來並開始部署,但絕不是終點形態。未來很可能不僅僅是“多收資料、擴模型”這麼簡單,在架構層面仍然會不斷演化,真正的“終極範式”還沒有被完全寫死。目前他們建構的是一個視覺-語言-動作模型(VLA),整體架構與常見的多模態視覺-語言模型(VLM)類似:底層是一個在網際網路級圖像與文字資料上預訓練的大模型,其上再大規模注入機器人資料進行訓練。現在,資料構成中大部分已經是他們自己採集的機器人資料,網際網路資料只佔少量。模型內部可以理解為:一側是視覺-語言骨幹,另一側接入一個他們稱為“動作模型 / 動作專家(action model / action expert)”的模組,用來根據圖像和指令生成驅動機器人執行任務的控制命令。整體就是一個單一的大型 Transformer 模型,參數規模已經達到幾十億等級,在機器人資料與網際網路資料上共同預訓練,其中很大比例來自人類示教與遙運算元據。在性能擴展上,他們目前主要依賴於機器人資料規模的擴展,也大量借鑑了VLM 領域的模型與訓練方法。他認為,未來架構仍有很多可拓展空間,例如:為模型提供更豐富的上下文資訊、在機器人上接入更多攝影機和視角,以及讓模型對物理世界有更強的理解能力——房間裡都有什麼、什麼容易被損壞、什麼物體容易移動等等。他判斷,未來五六年回頭看,今天使用的、源自 VLM 的骨幹網路很可能已經被新的架構替代,但資料本身,以及如何將資料引入模型的方式,大機率會保持現在的基本思路。從歷史演變看,在“學習”進入機器人之前,主流做法是依靠工程師手寫規則與程式碼,試圖覆蓋機器人在現實世界中遇到的各種情況,結果發現現實世界複雜度遠超預期,這條路行不通。於是問題被拆分為多個子模組:感知(perception)、規劃(planning)和控制(control),並逐漸形成相對獨立的研究社群與會議。隨後,大家開始用學習方法替換各子模組內部的規則:感知可以是學習的,控制可以是學習的,規劃也可以是學習的,這確實比完全手寫規則更好。但實踐表明,真正的問題在於這種預先把問題拆成若干模組,並為它們強行定義介面的流水線式架構——例如感知必須輸出精準的物體位置、規劃輸出軌跡、控制執行軌跡,這些固定介面在真實世界中反而成為最脆弱的環節。端到端的代價:資料鴻溝與“常識推理”難點來源:AI工業(採用 AI 工具整理)在這種反思下,機器人學習進入了端到端(end-to-end)階段:不再事先劃分感知、規劃、控制,而是直接把所有感測器輸入(如像素)送進網路,讓網路直接輸出動作,即所謂“從像素到動作(pixels-to-actions)”的方法,由網路或學習演算法自行決定內部是否、以及如何劃分功能。然而在實踐中,他們發現,要讓端到端方法真正可靠,需要極其龐大的資料量,一旦任務涉及常識推理,模型就很容易失敗;而要僅靠機器人自己以第一人稱視角採集足夠多的經驗資料,幾乎意味著要親身經歷幾乎所有可能情境,這在現實中難以實現。在這種背景下,他們發展出視覺-語言-動作模型(VLA)的路線:先利用在網際網路資料上預訓練好的模型,借助其已經具備的世界常識和語義理解能力,再在其基礎上增加動作相關模組,將這種世界理解與如何在現實世界中執行動作連接起來。通過這種方式,他們既能復用網際網路預訓練帶來的常識,又能通過機器人資料學習在物理世界中把事情真正做成。當前階段,可以概括為:一方面把網際網路預訓練的常識遷移到機器人領域,另一方面利用大規模機器人資料學習具體動作控制,目標是讓模型具備通用性,可以在不同機器人平台上生成合理動作。對於推理(reasoning)能力,他指出,大語言模型在鏈式思維、多步推理等方面的進展,通過共享或相近的骨幹網路,也在一定程度上滲透進了 VLA 模型。現有模型不再只是“看到什麼就做簡單反應”,而是已經在內部進行一定層面的動作規劃和決策。隨著通用大模型推理能力的持續提升,這部分能力預計會進一步發展,並反過來增強具身智能與機器人控制的表現。在他看來,如今的模型不僅要決定下一步動作,還會預測接下來大約 50 個時間步要做什麼(大概一兩秒的短時域),同時還會在語言空間裡自動把任務拆成子任務。比如你讓它“打掃廚房”,它會自己拆成“先開到操作台”“拿起玻璃杯”“把杯子放進水槽”等。也就是說,它已經在做短期動作規劃 + 自我拆解子任務,而且這部分能力未來只會更強。他判斷,未來用於推理的大模型強化學習(RL)進展,一定會遷移到機器人上。不過,這和現在給大模型做數學題、程式碼題的 RL 很不一樣。數學題本質上是純文字推理,人類會在腦子裡用文字想:“如果我這樣改公式,就會得到那樣的結果”。但在物理智能裡,更像你學習一項新運動(比如網球):你不會在腦中逐字描述“現在抓拍子、然後揮拍”,而是會想像動作本身、身體怎麼動,以及球和球拍的軌跡。所以,未來的模型需要在動作 / 軌跡等連續空間中推理,而不僅僅是文字空間。他認為真正的推理應該發生在一種更抽象的多模態空間:既能在文字裡推理,也能在圖像裡推理,甚至能在軌跡、狀態空間裡推理,然後綜合多種表徵得到答案。機器人在這裡是一個理想的試驗場:一方面,它必須真正落地到物理世界,受現實反饋約束;另一方面,機器人資料遠比網際網路文字稀缺且難採集,逼著我們正面解決資料少、噪聲大、分佈複雜的問題。正因為有這些壓力,機器人場景會逼出新的訓練方法和理解,這些新方法最後反過來還能提升通用 LLM。在資料問題上,他強調:機器人資料的關鍵不只是數量,還有質量和多樣性。但“多樣性”目前沒有嚴格統一的定義——同一任務用 10 種方式完成,和對 10 種不同物體做同一個任務,到底那個更“多樣”,社區還說不清楚。他們的經驗是:如果只是按原有方式不停采同分佈的資料,模型性能很快就會進入平台期,光堆資料量無法繼續帶來明顯提升。要想再往上走,就必須改變資料採集策略,有意識地采“更有價值的資料”,而這正是強化學習可以發揮作用的地方。Pi-Star 0.6:真實世界 RL 讓機器人從經驗裡持續變強來源:AI工業(採用 AI 工具整理)這就引出了他們的工作 Pi-Star 0.6。在此之前,他們做機器人“基礎模型”幾乎都是純模仿學習(IL):用遙操作演示資料訓練,讓模型去模仿人類示範軌跡。而在 Pi-Star 0.6 中,他們改成了“示教 + 真實世界強化學習”:先用示教資料訓練一個初始策略,再把它部署到真實機器人上執行真實任務。在真實執行過程中,機器人會收到人類給的獎勵訊號,並在必要時接受人工干預和糾正。這些真實互動產生的資料被不斷回流到訓練裡,模型學習那些行為應該被強化、那些應該減少,於是策略就能在真實世界中持續自我改進,從而擺脫單純堆疊示教資料帶來的性能平台期。在 RL 的具體落地方式上,他們選擇了現實世界優先,而不是主要依賴模擬。Pi-Star 0.6 論文中的強化學習,全都在真實機器人系統上完成。原因是:很多真正影響系統表現的,都是真實部署中的長尾故障,在“乾淨的模擬器”里根本不會出現。比如那個摺紙板巧克力盒子的真實任務:一開始系統表現很好,後來新批次紙板由於模切不完全、紙板輕微粘連,機器人一抓就把兩張紙板一起拿起來,放到桌上準備折盒子時,桌面突然多出第二個盒坯。如果你只在模擬器裡訓練,永遠只會拿到“完美分開的單張紙板”,這個故障模式壓根不會暴露;而在真實 RL 中,模型就必須學會識別並分離多餘紙板、移走它,再完成剩下那張的折盒過程。他還對比了行走(locomotion)和操作 / 抓取(manipulation)在模擬中的差異:對行走來說,最大難點往往是精準建模機器人自身體態和動力學;只要把這一台機器人建模得足夠好,模擬 → 現實的遷移相對可行。但對操作 / 抓取來說,難點是建模世界以及無數物體在被操縱時的反應——你不僅要控制“手從 A 移到 B”,還要預估“這個動作對所有接觸物體的影響”。這相當於要把整個世界建模出來,物體、材質、任務一多,規模就會迅速爆炸,這也是為什麼模擬 RL 在操作任務上的效果,遠不如在行走任務上的亮眼。他們在三個實際任務上,將機器人策略的執行吞吐量提升了 2 倍以上:包括搭紙箱任務、使用工業級意式咖啡機製作咖啡以及疊衣服任務。在每個任務中,僅基於人類示教訓練出來的基礎策略,被強化為執行更快、從失敗中恢復能力更強的版本。他們在官網展示了長時間運行的實驗視訊,例如機器人連續製作咖啡 13 小時、連續疊衣服 4 小時。這些長時間、不間斷的真實運行,證明機器人不再只是“拍一次成功畫面的玩具 demo”,而是能夠持續執行真實工作負載的系統,從而改變了人們對這類模型是否“可部署”的看法。他們強調,當前機器人領域真正的瓶頸在於可靠性和可持續部署能力。雖然網路上幾乎“任何你想像機器人能做的事,都能找到一次成功的視訊”,但這些視訊往往可以無限重拍,並不能代表系統在真實環境中的長期表現。對於實際部署而言,關鍵在於:模型在長時間連續運行下的穩定性、執行速度以及在不頻繁失敗的前提下能運行多久。如果系統隔三差五就出錯一次,就很難被認為是可部署的。在他們看來,此次 Pi-Star 0.6 的進展,標誌著這類模型開始逼近“真正可部署”的可靠性水平。在強化學習的角色上,他們認為這既是面向客戶部署的工程創新,也是提升模型能力的關鍵路徑。未來無論是家用機器人(能疊衣服、洗碗、做飯、移動、駕車),還是中小企業場景中解決“傳統自動化改造成本過高”的任務(例如裝巧克力盒),都要求機器人既要可靠高效,又要具備處理訓練階段未覆蓋新任務的能力。單純依賴不斷擴大人類示教資料規模並不現實,人類資料在數量和多樣性上存在硬性上限,基礎策略的性能上限也隨之受限。他們將重點轉向在真實部署中通過機器人自身經驗進行持續學習:先利用大規模人類資料和演示訓練出一個初始策略,然後在部署階段通過自主資料採集和強化學習不斷改進。他們預計,未來幾年會越來越依賴這種線上、在崗的資料收集和更新機制,用部署中產生的經驗資料來反向充實預訓練與微調,從而逐步建構覆蓋目標任務空間的“任務凸包”,讓模型能夠在這一空間內進行插值和泛化。他們將這一進展視為“讓系統從自身經驗中學習”的關鍵起點。他們類比人類學習過程:人類可以通過觀看視訊、觀察他人操作獲得初始能力,但真正成長仍然依賴於在真實任務中親自實踐、試錯、觀察動作對結果的影響並從中總結規律。在他們看來,能夠在規模化部署中真正“從自己的經驗裡學到東西”,是此次工作的一個重要里程碑。在具體案例上,他們提到意式咖啡中的壓粉(tamping)環節:初始模型會壓得過重,甚至出現機器人幾乎把自己頂離桌面的情況,其原因在於最初的人類示教資料更偏向“確保壓實、壓平”,導致模型學成了“用力過猛”。隨後,他們僅收集了大約 30–50 條人類糾正資料,再將這些少量但高價值的糾正樣本回灌給模型,結果模型就學會了更溫和且更接近正確的壓粉力度。這說明:即便模型已經在數百萬條 episode 上完成預訓練,少量高品質的人類糾正資料依然能夠顯著修正具體子技能,這對現實中的持續校準與在崗微調尤為重要。當被問到“在壓粉上學得更好,是否會讓模型在疊箱子等其他任務上也隨之變強”時,他們坦言:在這個具體例子中,壓粉能力的提升並不會直接遷移到疊箱子任務。但他們補充指出,同樣的糾正機制可以平行應用在眾多子任務上:例如為“分開黏在一起的兩個盒子”“修正折得不規整的盒子”等細分環節分別收集幾十條糾正資料。隨著對不同子技能持續做類似增量修正,這些局部改進會累積成整體表現和泛化能力的提升。在“持續學習(continual learning)”這一概念上,他們認為當前仍處於非常早期的階段。現有系統還稱不上是經典意義上的連續學習架構,距離那種“在不斷到來的資料流中持續更新、自動演化至更通用智能”的願景仍有不小差距。但與過去那種“訓練一次、產出一個靜態模型 artefact、後續幾乎不再更新”的範式相比,如今的系統已經更像一個“活的系統”:被部署之後仍然會嘗試新行為,從自身經驗中學習,並持續變好。在他們看來,這只是一個起點,卻是邁向可以在真實世界中一邊幹活一邊進化的機器人系統的關鍵一步。目前整個體系在他看來更像一套“可重複的配方”:不同任務各有一套示教和訓練流程,現在跨任務的“互相啟發”仍然有限,整體更偏向於針對每個任務重複執行成熟配方。隨著規模擴大,如果不同任務之間存在相似的動作模式,他們預期會逐漸出現從任務 A 遷移到任務 B 的效果,但當下的主要現實仍是“重複配方”,而不是強泛化。真正明顯的泛化能力主要來自預訓練。當模型在越來越多的任務和資料上進行預訓練時,新任務的“上手難度”會顯著降低,甚至會出現零樣本任務也能直接完成的情況。他們會定期重啟預訓練,每一次在資料量增加以及預訓練流程持續最佳化的推動下,模型能力都會進一步提升。展望未來,一旦大規模部署真正展開,機器人在真實場景中執行各種任務時產生的資料會不斷回流訓練,形成一個“部署 → 產生資料 → 模型變強 → 能部署得更多”的閉環資料引擎,他們認為真正大的泛化紅利將來自這一閉環過程。在架構設計上,系統大致可以被劃分為兩部分。一部分是策略網路(policy),通過人類糾偏與強化學習(RL)反饋持續提升決策能力。另一部分是獲得高品質 RL 反饋的機制:他們先讓人類對完整的任務嘗試(例如做咖啡、搬箱子)打上“成功/失敗”標籤,再用這些帶標籤的軌跡訓練一個價值函數(value function),使其能夠從任意中間狀態預測“從這裡繼續下去,大機率會成功還是失敗”。在 RL 訓練中,這個價值函數被用作基線:如果當前動作讓成功機率上升,就將對應資料“往上推”;如果軌跡朝失敗方向演化,就“往下壓”,從而間接完成對策略的強化更新。實驗結果顯示,在多工、多資料上預訓練價值函數時,會出現明顯的跨任務泛化。在某些任務中,價值函數甚至能比人類更早察覺失敗:例如,當機器人嘗試將咖啡機手把(portafilter)插入機器時,人類從視訊中往往要到真正卡住那一刻才意識到“要失敗了”;而價值函數通常會在提前三四十步時就開始明顯下跌,相當於在預先標記“這條軌跡不適合拿來學習”。這種“提前預判失敗”的能力,會隨著資料量和任務數量的擴張持續增強。從強化學習的視角來看,他們強調,RL 並不等同於只在終點給一次獎勵的策略梯度方法。通過價值函數、時間差分學習(TD)等技術,可以將原本只在結尾出現的稀疏獎勵,轉化為沿時間序列更稠密的學習訊號,從而支援更長時序、更複雜的任務。由於機器人領域並不存在類似語言那樣的“完美模擬器”,大量行為必須直接在真實世界中執行,這客觀上逼迫他們探索更高效的 RL 方法,尤其是圍繞價值函數的各種實踐。他們認為,這些在機器人場景中被迫打磨出來的 RL 技術,未來有望反哺整個大模型 / AI 社區。在資料與世界模型方面,當前階段被他們視為一個引導啟動(bootstrap)期,在這一階段,幾乎所有能幫助模型盡快跨過“可部署門檻”的資料來源都值得嘗試:包括模擬資料、人類演示視訊、手持拍攝視訊、遙運算元據等。從長期視角看,他們判斷真正佔主導地位的將是大規模部署後產生的真實世界資料,其規模與多樣性都會遠超啟動階段所能人工收集的一切。因此,當前狀態更像是在不斷試錯和堆料:“能想到的有用資料都先往裡加,只要能把模型推到可以開始大規模部署的那條線就行。”關於世界模型 / 視訊模型,他們認為這些路線與他們當前的 RL 技術,本質上都在解決同一個核心問題——反事實(counterfactual)和信用分配(credit assignment):究竟是那些動作真正決定了成功?如果在關鍵時刻做了不同選擇,世界會如何演化?世界模型的做法偏向於顯式預測整段未來視訊,例如“如果當時換一個手把角度,後續會不會卡住”;而基於價值函數的 RL 則通過更隱式的機制來處理同一問題。他們目前在這些方向上平行探索:從 Pi-Star / Pi-Star-6的結果來看,基於 RL 的方案已經展現出良好前景,但他們同樣認為,未來在世界模型、視訊模型與 RL 的組合上還有大量空間有待挖掘。在商業化與產品形態層面,他們坦言,在跨過啟動期、進入面向客戶的大規模部署階段後,最終是提供端到端垂直一體化的機器人解決方案,還是主要輸出模型與能力,由客戶自己完成業務整合,這一點目前仍在探索之中,尚未形成完全確定的答案。他們首先強調,現在整套技術還非常早期,剛剛到達一個“可以開始考慮真實部署”的門檻,所以當前最重要的是把底層技術打磨到足夠好、足夠易用,而不是急著選一個具體場景變現。他們希望先把系統做成儘可能通用、儘可能容易部署的“平台級能力”,把“可適用任務的光圈”儘可能打開,而不是一上來就把自己鎖進某個窄場景。回顧機器人創業史,很多公司一開始是做“通用機器人”的大願景,技術做了一段時間後,一旦選定一個落地應用,就開始圍繞這個場景不斷做特化和妥協:各種只為這個應用服務的工程 hack 堆上去,最後公司就變成了“只做倉儲揀選”等單一垂直應用的公司。他們非常想避免走上這條路,因為他們認為自己現在有機會,直接對“物理智能(physical intelligence)”這個總問題發起進攻。如果真的能把物理智能做通用,它帶來的長期收益遠遠大於今天緊盯某個單一應用。因此,他們寧願現在就把技術做得足夠通用、足夠易部署,把適用範圍開到最大,至於未來是賣模型、賣一體化解決方案,還是賣機器人整機,可以在技術成熟後再決定,現在過早選路線反而會把自己框死。拿他們的工作和自動駕駛對比,有的地方比自動駕駛容易,有的地方則更難。相對容易的一點在於,很多物理任務並不需要 100% 可靠:比如家裡機器人幫你疊衣服,100 件裡有 1 件疊錯完全可以接受,人類隨手糾正一下就好;但在自動駕駛裡,“每一百次來一次災難性失敗”顯然是完全不可接受的。與此同時,他們明顯受益於今天這個大模型時代:有了視覺–語言模型和更通用的基礎模型,系統本身就自帶一定的“常識”和泛化能力,還能汲取2009 到 2025 這十幾年裡自動駕駛和深度學習踩過的所有坑和經驗教訓,從一開始就採用更通用的範式來建模。難的地方在於,他們試圖建構的,是一個真正通用的物理智能系統:既要能開車,又要能做抓取與操作(manipulation)、行走、飛行,甚至控制手術機器人。但他們的經驗是:如果從第一天起就以“通用”為目標來設計架構和訓練流程,這個問題並沒有想像中那麼難。在“物理智能”裡似乎存在某種我們還沒完全搞清楚的結構,使得同一個模型可以在“駕駛、沖咖啡、飛無人機、操控手術機械臂”這些看似差異巨大的任務之間遷移和抽象。這一點讓他們對前景非常樂觀,覺得通用物理智能未必比自動駕駛更難,甚至在某些維度上可能更容易。談到最近最讓他們震撼的進展,其中一個明確的例子就是視訊模型。幾年前他們還在做早期的視訊生成與建模工作,那時完全沒有預料到:改進曲線會陡峭到今天這種程度——生成視訊幾乎難以與真實區分,而且還能完成複雜的時空變化與場景控制。更驚人的是,這一切竟然是從“下一個 token 預測”這樣看似簡單的預訓練目標裡湧現出來的。他們坦言,至今仍然對這種“從純預測任務裡湧現出通用智能”的現象感到震撼;今年無論是在數學競賽等級的挑戰,還是在科學發現和研究工具上的突破,都在不斷刷新他們對大模型上限的認知,也讓他們相信:大模型預訓練遠沒有見頂,反而像是剛迎來“第二口新鮮空氣”。他們反覆強調,最不可思議的地方,是這整套東西居然真的能穩定地工作。你搭建一個大致受人腦啟發的神經網路結構,配上一個通用的學習演算法,然後往裡灌入足夠多、多樣的真實資料,它就自己學會了我們幾十年工程堆不出來的東西,而且在機器人控制、視覺理解、語言處理、音訊等多個方向上全面超越傳統手工設計系統。現在已經可以讓機器人進入一個從未見過的家庭環境,也大致知道在家裡該做些什麼,或者讓它連續十多個小時重複完成像沖咖啡這樣複雜的操作——而這一切都來自一個端到端訓練出來的統一系統。他們承認,自己至今仍然沒有完全弄明白這個系統內部到底是怎樣組織知識和行為的,但事實證明它“就是能行”。在方法論上,他們認為整個 AI 領域其實也經歷了一個從“拆小問題”到“做大一統”的範式轉移。過去很長一段時間裡,主流做法是:把一個大問題拆成很多細小的子任務,在每個子任務上做極致最佳化,試圖最後通過工程整合把這些子系統拼回一個完整智能。真正的飛躍,出現在我們開始做大規模多工預訓練之後:不再為每個任務單獨設計目標和結構,而是用一個統一的預訓練目標,讓模型在多源海量資料上自己去“總結”,結果發現大量跨任務的能力會自發湧現。在他們眼中,這種從“任務碎片化”到“統一預訓練”的轉變,是過去十多年裡最出人意料、也是最具決定性的變化之一。有人把這兩種範式比喻成“手風琴”:一會兒收攏,把問題拆得越來越細;過一陣覺得不行了,再張開,回到“大一統”的解決方式,然後周而復始。對這個比喻,他們的看法是:現在已經很難想像再完全回到老一套“拆分優先”的範式。確實有很多人嘗試尋找“最佳組合”,例如把牛頓力學等我們已知的顯性規則硬編碼進模型,希望通過“預烤一部分知識”來降低學習難度。但依照他們的經驗,這種做法往往會限制模型發現新模式的能力,反而降低了系統的上限。從目前看到的證據來看,所謂“兼得兩端”的方案並不理想,他們更傾向於認為:應該把籌碼壓在“純學習”這邊——儘可能讓系統從資料和互動中自己學,而不是靠人為規則補丁來約束它。為了說明這一點,他們用了一個生物進化和兒童發展的類比。如果智能真的可以被很好地預烤到基因裡,進化早就會選擇讓你一出生就“知道一切”。現實卻是:像鹿這種動物,出生不久就已經接近一生能力上限,後天學習空間有限;而人類、烏鴉這類高智商物種,反而擁有很長的“笨拙童年期”,需要通過大量的試錯、遊戲和探索去學習複雜行為。換句話說,更高層次的智能往往意味著更少的預烤知識、更多來自經驗的學習。在機器學習中,他們也得出了類似的教訓:我們以為自己理解“智能應該如何被設計”,但現實是我們並不瞭解自己的思維結構,真正有效的做法是讓演算法在足夠豐富的世界經驗中、自主地學出那些我們自己都說不清的結構和規則。最後,他們又把話題繞回到“學習”本身:不管是大模型,還是具身機器人,抑或是人類小孩,核心都是在一個複雜世界裡,通過長期互動去獲取經驗、形成自己的內在模型。父母常常以為自己知道孩子在怎麼想,但實際情況卻是:孩子學習得極快,經常掌握一些父母從來沒顯式教過、甚至不知道是從那兒學來的東西。在他們看來,這恰恰說明了一個事實:真正強大的智能,往往不是預先寫死的規則,而是從持續、豐富、真實的經驗中“長出來”的。 (AI工業)