人工智慧是不是到頂了?“AI進展減速論”在過去一年頻繁出現。Lukasz Kaiser——Transformer 論文共同作者、OpenAI 首席研究科學家、推理模型核心奠基者之一,近日在《Mad》播客中給出了截然相反的觀點。他提到,AI發展不僅沒有放緩,反而仍沿著穩定而持續的指數級曲線加速前進。外界感受到的“停滯”,其實源於突破形態的改變。行業從一味做“大模型”,轉向建構更聰明、更能思考的模型。在他看來,預訓練依然關鍵,但已不再是唯一引擎。推理模型的出現像是給基礎模型加了一層“第二大腦”,讓它們學會推導、驗證與自我糾錯,而不僅是預測下一個詞。這意味著在相同成本下,模型能力躍升更明顯、答案可靠性更高。但AI的“智能地形圖”仍極不均勻。Lukasz坦言,最強模型能攻克奧數難題,卻可能在兒童拼圖裡數不清物體;能寫出超越專業程式設計師的程式碼,卻仍會誤判一張照片的空間關係。同時,新範式也帶來了新的商業現實。面對上億級使用者,成本效率已壓過算力堆疊,模型蒸餾從“可選項”變為“必需品”。能否讓小模型復現大模型的智慧,決定了AI能否真正普及。在這場訪談中,Lukasz不僅否定了“AI減速論”,也描述了一個更加精細、聰明、多層推進的未來:基礎模型仍在擴展、推理層持續演化、多模態等待突破,而產品端的效率戰才剛剛開始。以下是整理後的訪談全文,enjoy~/ 01 / AI沒減速,是你沒看懂主持人:今年以來,一直有觀點認為AI發展正在放緩,預訓練已觸及天花板,擴展法則似乎也走到了盡頭。但就在我們錄製本期節目時,圈裡迎來了一輪密集的重大發佈,GPT-5.1、Codex Max、GPT-5.1 Pro、Gemini Nano Pro以及Grok-4.1等模型幾乎同時亮相,這似乎打破了“AI停滯”的論調。而你們這些身處前沿AI實驗室的專家,看到了那些外界無法捕捉的進展訊號?Lukasz:AI技術的進步一直是非常平穩的指數級能力提升,這是總體趨勢。新技術層出不窮,進步來自於新發現、算力提升和更好的工程實現。語言模型方面,Transformer的出現與推理模型是兩大轉折點,它的發展呈S型曲線。預訓練處於S曲線上段,只是擴展定律並未失效,損失會隨算力呈對數線性下降,這一點Google和其他實驗室都已經驗證了。問問題在於,你需要投入多少錢,相對於收益是否值得。新的推理範式處於S曲線下部,同樣成本能獲得更多收益,因為還有大量發現待釋放。從ChatGPT 3.5到當下,核心變化在於模型不再僅依賴記憶權重輸出答案,而是能查網頁、推理分析後給出正確答案。舉個例子,舊版對“動物園明天幾點開門”這類問題會從記憶裡瞎編,可能讀到過動物園網站五年前寫的時間,編造過時資訊。新版則能即時訪問動物園網站並交叉驗證。ChatGPT或Gemini本身就已具備許多未被充分認識的能力。你可以拍損壞的東西問怎麼修,它會告訴你;給它大學水平的作業,它也能完成。主持人:我確實同意這個說法。目前確實存在不少顯而易見的改進空間,就像“低垂的果實”,很容易被看到和解決。比如說,模型有時會在邏輯上出現前言不搭後語,或者呼叫工具時出錯,再就是記不住太長的對話內容。這些都是行業已經意識到,並且正在著力解決的問題。Lukasz:是的,有大量極其明顯需要改進的地方。大部分屬於工程層面問題:實驗室基礎設施和程式碼最佳化。Python程式碼通常能運行,但效率低下會影響結果質量;訓練方法上,強化學習(RL)比預訓練更棘手、更難做好;此外,資料質量也是瓶頸。過去我們使用Common Crawl這類網際網路原始資料倉儲,需要投入大量工作對原始網路資料進行清洗和提煉。如今大公司都設有專門團隊來提升資料質量,但真正提取出優質資料仍然非常耗時費力。合成資料正在興起,但如何生成、選用什麼模型、以及具體的工程實現,每一步的實現細節都非常重要。另一方面,多模態能力的發展也面臨挑戰。目前模型在處理圖像和聲音方面,遠不如處理文字那樣成熟。雖然改進方向很明確,但要取得實質突破,可能需要從頭開始訓練新一代基礎模型,這意味著數月時間和巨額資源的投入。我常在想,這些進步究竟能讓模型變得多強大?這或許是個被低估的問題。/ 02 / AI學會“自我懷疑”,GPT開始提前糾正自己的錯誤主持人:我想再聊聊推理模型,因為它確實太新了。很多人其實還沒完全搞明白它和基礎模型到底有什麼區別。你能用最通俗的話講講,它倆到底不一樣在那嗎?Lukasz:推理模型在給出最終答案前,會自己先在心裡琢磨一番,形成一個“思考鏈條”,並且還能借助像搜尋這樣的外部工具來幫自己理清思路。這樣一來,它就能在思考過程中主動尋找資訊,為你提供更靠譜的答案。這算是它表面上看得到的能力。它更厲害的地方在於,模型學習的重點就是“如何思考”本身,目標是找到更優的推理路徑。以前的模型主要靠預測下一個詞來訓練,但這種方法對“推理”這件事不太奏效,因為推理步驟沒法直接用來計算梯度。所以,我們現在改用強化學習來訓練它。這就像是設定一個獎勵目標,讓模型自己反覆嘗試,摸索出那些思考方式更容易得到好結果。這種訓練方式可比以前那種費勁多了。傳統的訓練對資料質量不那麼挑剔,大體上都能運行,但強化學習就得格外小心,需要精心調整參數和準備資料。目前一個基礎的方法是使用那些能明確判斷對錯的資料,比如解數學題或寫程式碼,所以它在這些領域表現特別亮眼。在其他領域雖然也有進步,但還沒達到同樣驚豔的程度。如何在多模態上做推理?我認為這剛開始,Gemini能在推理過程中生成圖像,這很令人興奮,但還非常初級。主持人:當前存在一種普遍看法:預訓練和後訓練是割裂的,後訓練幾乎就等於強化學習。但事實上,強化學習在預訓練階段就已參與,只是我們過去的理解並未認識到這一點。Lukasz:在ChatGPT出現之前,預訓練模型已經存在,但無法實現真正對話。ChatGPT的關鍵突破在於將RLHF應用於預訓練模型。RLHF是一種基於人類偏好的強化學習,通過讓模型比較不同回答並學習人類更傾向的選項來進行訓練。然而,RLHF若訓練過度,模型可能過度“討好”,導致它的核心顯得很脆弱。儘管如此,它仍是實現對話能力的核心。當前趨勢轉向更大規模的強化學習,雖資料規模仍不及預訓練,但能建構具備判斷正確性或偏好的模型。該方法目前適用於可明確評估的領域,並可結合人類偏好進行更穩定的長期訓練,避免評分系統失效。未來,強化學習有望擴展到更通用資料與更廣泛領域。問題是:做某些事真的需要很多思考嗎?也許需要,也許我們需要比現在更多的思考和推理。主持人:要提升強化學習的泛化能力,是不是關鍵在於有更好的評估方式?比如你們之前推出的跨經濟領域評估,測試它在不同場景的表現,這種系統性的衡量是不是真的必要?Lukasz:人們在寫作前通常會有所思考,雖然不像解數學題那樣嚴謹,但總會有一個大致的思路。目前模型難以完全模擬這種過程,不過它們已經開始嘗試了。推理能力可以遷移,比如學會查閱網頁獲取資訊後,這個策略也能用在其他任務上。但在視覺思考方面,模型的訓練還遠遠不夠充分。主持人:思維鏈具體是怎麼運作的?模型是怎麼決定要生成這些思考步驟的?我們在螢幕上看到的那些中間推理,是模型真實的完整思考過程嗎?還是說背後其實隱藏著更複雜、更長的推理鏈條?Lukasz:在ChatGPT裡你看到的思維鏈總結,其實是另一個模型對完整思考過程的提煉。原始的思考鏈條通常比較囉嗦。如果僅僅讓模型在預訓練後嘗試逐步思考,它確實能產生一些推理步驟,但關鍵不止於此。我們可以這樣訓練:先讓模型嘗試多種思考方式,有些得到正確結果,有些會出錯。然後我們選出那些導向正確答案的思考路徑,告訴模型“這才是你應該學習的思考方式”。這就是強化學習發揮的作用。這種訓練真正改變了模型的思考模式,在數學和程式設計領域已經看到效果。更大的希望是它能擴展到其他領域。甚至在數學解題中,模型開始學會提前自我糾正錯誤,這種自我驗證的能力是從強化學習中自然湧現的。本質上,模型學會了質疑自己的輸出,覺得可能出錯時就會重新思考。/ 03 / 預訓練仍是耗電巨獸,RL和視訊模型正瘋狂搶GPU資源主持人:談談從Google到OpenAI的轉變,以及兩種文化的差異。Lukasz:Ilya Sutskever 以前在 Google Brain 時是我的經理,後來他離職創立了 OpenAI。那幾年他問過我好幾次要不要加入。之後 Transformer 發佈了,接著又趕上了疫情。Google 完全關閉,重啟也非常慢。Google Brain 作為大公司裡的小團隊,工作氛圍和創業公司很不一樣。Ilya 跟我說,OpenAI 雖然還在早期階段,但正在做語言模型,可能和我的方向很契合。我當時想:“好吧,那就試試看。”之前除了 Google 和大學,我沒在別的公司工作過。所以加入一個小型創業公司確實是個很大的轉變。總的來說,我覺得不同科技實驗室之間的相似之處,比人們想像得要多。它們之間當然有差異,但就像從法國大學的視角來看,大學和任何一個科技實驗室的差別,其實遠大於實驗室彼此之間的差別。大公司也好,創業公司也罷,在“必須交付”這一點上更像彼此。主持人:OpenAI內部研究團隊是怎麼組織的?Lukasz:大多數實驗室都在做類似的工作,比如改進多模態模型、提升推理能力、最佳化預訓練或者基礎設施。通常會有專門團隊負責這些方向,人員有時會流動,新項目也會啟動,比如擴散模型。有些探索項目規模會擴大,像視訊模型就需要更多人手參與。GPU的分配主要基於技術需求。目前預訓練消耗的GPU最多,所以資源會優先分配給它。強化學習和視訊模型對GPU的需求也在快速增長。主持人:未來一兩年預訓練會怎樣?Lukasz:我認為預訓練在技術上已經進入平穩發展期,投入更多算力仍能提升效果,這很有價值。雖然回報不如推理技術顯著,但確實能增強模型能力,值得持續投入。很多人忽略了一個現實轉變:幾年前OpenAI還只是研究實驗室,所有算力都集中在訓練上,可以毫不猶豫地打造GPT-4。但現在情況不同了,ChatGPT擁有十億使用者,每天產生海量對話需求,需要大量GPU資源支撐。使用者不願意為每次對話支付過高費用,迫使我們開發更經濟的小模型。這個轉變影響了所有實驗室。一旦技術產品化,就必須考慮成本。現在我們不再只追求最大模型,而是努力用更小更便宜的模型提供同等質量。這種降本增效的壓力非常現實。這也讓蒸餾技術重新受到重視。通過將大模型的知識提煉到小模型中,既能保證質量又能控製成本。雖然這個方法很早就有,但直到面臨實際的經濟壓力,我們才真正認識到它的價值。當然,訓練超大模型仍然重要,因為它是蒸餾優質小模型的基礎。隨著行業對GPU的持續投入,預計將迎來新一輪的預訓練發展。但本質上,這些變化都是在同一條技術演進路徑上的調整,取決於不同階段的資源與需求。最重要的是要看到:預訓練始終有效,而且能與強化學習形成互補。在更強大的基礎模型上運行推理,效果自然會更出色。主持人:現代AI系統的演進,結合了實驗室、RL和很多技術。深度學習時代人們常說自己從微觀層面理解AI,比如矩陣乘法,但不完全理解組合在一起後最終發生什麼。過去幾年在可解釋性方面做了很多工作,特別是對複雜系統。模型的行為是越來越清晰了,還是仍有黑盒成分?Lukasz:我覺得兩方面都有道理。從根本上說,我們對模型的理解確實取得了巨大進步。像ChatGPT這樣的模型,它和無數人對話,知識來自整個網際網路,顯然,我們無法完全理解它內部發生的一切,就像沒人能瞭解整個網際網路。但我們的確有了新發現。比如OpenAI最近一篇論文表明,如果讓模型的很多連接變得稀疏、不重要,就能更清晰地追蹤它在處理任務時的具體活動。所以,如果聚焦在模型內部進行研究,我們確實能獲得不少理解。現在已經有很多研究在探索模型內部的工作機制,我們對模型高級行為的認知進步很大。不過,這些理解大多來自較小的模型。不是說這些規律不適用於大模型,但大模型同時處理太多資訊,我們的理解能力終究有限。/ 04 / 為什麼GPT-5能解奧賽題,卻敗給5歲孩子的數學題?主持人:我想聊聊GPT-5.1。從GPT-4到5到5.1,實際改變了什麼?Lukasz:這個問題很難。從GPT-4到5,最重要的變化是加入了推理能力和合成資料,同時預訓練讓成本大幅下降。到了GPT-5,它已經成為十億人使用的產品,團隊在安全與友好度之間不斷調整,讓模型在面對各類問題時反應更合理,既不過度敏感也不隨意拒絕。幻覺問題雖然還存在,但通過工具驗證和訓練最佳化,已經比之前改善很多。主持人:GPT-5.1主要是後訓練的改進,比如加入了不同語氣風格,從書呆子氣到專業范兒,這大概是回應有些人懷念早期模型那種討好人的特性。加入更多語氣變化屬於後訓練範疇。你們是給模型看示例教它回應方式,這更像監督學習,還是像強化學習那樣用對錯獎勵來訓練?Lukasz:我不直接做後訓練,這部分確實有些怪,核心是強化學習。比如你會判斷“這個回答是否帶有諷刺?是否符合要求?”如果使用者要求諷刺,那模型就該那麼回應。主持人:我感覺強化學習在模型迭代中佔比很大。其他公司發佈模型時通常與預訓練對齊,有時一次預訓練產出多個模型。以前版本命名常與技術對齊,比如o1對應預訓練版本,o3對應強化學習版本。大家覺得這種命名很混亂。現在改為按能力命名:GPT-5是基礎能力版,5.1是增強版,也就是更輕量、稍弱但更快更便宜的版本。Lukasz:推理模型專注於複雜推理。命名與技術解綁帶來了靈活性。OpenAI發展壯大後項目很多,強化學習、預訓練,還有網站最佳化等等。模型蒸餾技術讓我們能整合多個項目成果,不必等所有項目同時完成,可以定期整合更新。這對使用者是好事,不用再苦等耗時數月的新預訓練模型。主持人:使用者能控制模型的思考時間。那在默認情況下,模型自己是怎麼決定要思考多久的呢?Lukasz:模型遇到任務時會自行決定思考多久,但我們可以通過提供額外資訊來引導它思考得更深入。現在你確實能對它進行一定控制了。但更根本的變化在於:推理模型通過消耗更多token進行思考,其能力提升的速度遠超預訓練階段。如果讓GPT-5進行長時間思考,它甚至能解決數學和資訊學奧賽的題目,展現出驚人潛力。不過目前推理訓練主要依賴科學領域資料,遠不如預訓練的資料廣泛。這導致模型能力很不均衡,某些方面極其出色,相鄰領域卻表現不佳。這種矛盾很常見:比如模型能解奧賽題,卻可能做不出一年級的數學題,而人類只需十秒就能解決。要記住:模型既強大,也存在明顯短板。我舉個值得深思的例子。用Gemini看兩組點判斷奇偶:第一題兩邊各有若幹點,中間共享一個點,正確答案應是奇數。Gemini 3答對了。但緊接著出現結構相似的題目,它卻完全忽略了共享點,直接判斷為偶數,明明剛見過類似情境。同樣的題目給GPT-5.1,它解出第一題卻誤判為偶數。如果換成GPT-5 Pro,它會花15分鐘運行Python程式碼來數點,而五歲孩子15秒就能答對。主持人:所以模型到底被什麼卡住了?Lukasz:多模態方面確實還處在早期。模型能解出第一個例子說明有進步,但它還沒真正掌握如何在多模態情境下進行推理。它雖然能進行上下文學習,卻不太會借鑑上下文中的推理思路來推進下一步。這些都是已知的瓶頸,主要還是訓練不足。但更深層的問題是,即使多模態能力提升了,模型可能還是做不好像我女兒做的那種數學題。這類題不純是視覺問題,模型還沒學會在簡單的抽象層面運用推理。它看到點陣圖,容易卡在識別像素模式上,而看不出“兩邊數量相同但共享一個點,所以總數是奇數”這種抽象邏輯。這種從圖像到符號的抽象推理能力還沒建立起來。所以這類題目其實暴露了推理模型的一個根本侷限:它們還沒能把從文字中學到的思維鏈策略,比如“先算總數再判奇偶”,自動遷移到視覺輸入上。這是多模態推理要突破的核心難題。另外還有個細節:這些題目對人來說簡單,但模型得先從像素裡識別出“點”和“共享”的概念。如果圖像中點的大小、間距、顏色有變化,模型可能根本認不出關鍵元素。相比符號明確的數學題,視覺任務的基礎識別還不夠穩健。因此當模型在第二個例子失敗時,很可能是因為它沒正確識別出“共享點”這個視覺資訊。這說明多模態推理的瓶頸不僅在於邏輯,還在於跨模態的語義對齊。兒童早期數學題設計得很妙。這些題目看似簡單,卻融合了抽象、類比、計數和奇偶判斷等多個認知環節。模型可能在某一步,比如識別點數正確,卻在判斷奇偶時出錯。我們通過跟蹤模型每一步的置信度發現,它在“識別共享點”這一步的把握度在第二個例子中明顯下降,這說明模型對視覺模式的泛化能力還不穩定。這也為我們指明了改進方向:需要在訓練中增加更多涉及“共享元素”和“集合運算”的視覺推理示例。預計這個具體問題在半年內應該能得到改善。回到宏觀視角,我們討論的問題,包括多模態推理,都是可解的工程挑戰,不是根本性的理論障礙。核心教訓是:推理模型的“鋸齒狀"能力曲線會在不同領域持續存在,但鋸齒的深度會隨著訓練和蒸餾逐漸減小。主持人:這次GPT-5.1版本更新,簡直像發佈了一個Pro產品。你覺得最主要的新能力是什麼?Lukasz:最關鍵的是對話介面變得更自然了。現在系統能根據你的意圖,自動調節回答長短,不用再手動選短中長回覆。這靠的是後訓練中的強化學習,獎勵訊號不再是簡單對錯,而是看“使用者滿不滿意”。他們用大量真實對話訓練獎勵模型,去捕捉那些微妙的互動指標。這樣模型就學會在複雜問題時多講點,簡單問題時少講點。這也是RLHF的進化,從學習人類偏好,到學習讓人滿意。模型還能在生成過程中自我評估信心,如果把握夠高,就提前結束回答,省下不少算力。不過這些都屬於基礎設施最佳化,不直接提升核心推理能力。真正的進步來自後訓練資料質量的提升,特別是加入了更多“說不知道”和“反問確認”的邊緣案例,讓模型變得更謹慎。5.1版本其實只是他們整體推理研究中的一個產品化快照。主持人:o4-mini的推理能力真的更強嗎?還是評估的問題?Lukasz:很多人問我o4-mini和o3的區別,其實它們不是簡單的升級關係,而是不同的設計選擇。o3展現了我們在強化學習上追求極致推理能力的成果,而o4-mini更像是一次“精煉的壓縮”,用更少的資源實現接近的效果。關鍵差別在於“推理時用的計算量”:o3在回答時投入大量計算,o4-mini則靠訓練時更充分的最佳化。在實際應用中,o4-mini因為加入了更多通用資料,比如長對話和工具使用,所以在多數日常場景下顯得更“好用”。但遇到真正複雜的邏輯或數學證明,o3依然更強。理想的方式是搭配使用:一般任務用mini,需要深度推理時切到Pro。我們還看到一個趨勢:“自主研究”正在模糊訓練和推理的邊界。模型不僅能回答問題,還能主動設計實驗、寫程式碼、分析結果,甚至生成自己的訓練資料,這形成了一個自我提升的循環,也是我們面向2026年的核心方向。我認為,真正的AGI里程碑,是模型能自主發現新演算法,而不只是完成現有任務。這需要強化學習能支援“探索未知”,而不僅限於可驗證的任務。我們內部已有實驗讓模型在模擬環境中做“假設-實驗”循環,目前能發現一些簡單數學定理,雖然還非常初級。但也許某個周一早晨,我們會突然發現它在周末自己證出了新定理,那一刻,可能就是AGI的開始。/ 05 / GPT-5.2或將攻克AI最大缺陷:學會說“我不知道”主持人:未來6到12個月,什麼最讓你興奮?Lukasz:最讓我興奮的是多模態推理正在成熟。當AI能同時理解圖像和語言,就會真正賦能機器人和科研這些領域,它不再只是猜測文字,而是開始在腦子裡模擬真實世界的運作邏輯。另一個好消息是推理成本正在快速下降,未來甚至能跑在手機上,讓每個人都能擁有真正的個人AI助手。科學領域可能會最先被顛覆,就像AlphaFold 3和新材料研發那樣。語言模型不再只分析資料,而是能主動提出猜想、設計實驗、解讀結果。我猜想,到2026年底,我們可能會在頂級期刊上看到第一篇由AI提出核心假設、人類主要做驗證的論文。那會是個歷史性時刻。當然挑戰還很多,關鍵是讓AI學會“意識到自己不懂什麼”,能主動提問而不是盲目自信地胡說,這也是目前強化學習重點在解決的問題。希望下次我們聊到GPT-5.2版本時,它能在這一點上帶來驚喜。主持人:你有什麼想對聽眾說的嗎?Lukasz:AI發展從未停滯,只是方向在變化。如果你感覺跟不上,別擔心,沒人能完全跟上。最驚人的應用往往來自非技術使用者,他們會用我們沒預料到的方式使用它。這些問題未來都會得到改善。更深層的問題在於,多模態等領域會進步,我們也在持續尋找典型案例。雖然技術前沿會變化、某些環節會更順暢,但關鍵在於是否會出現全新的挑戰。比如,如果工具從三個齒變成四個齒,人們不需要重新學習整個使用方式。我對泛化能力感到興奮,認為這是機器學習和智能理解的核心議題。預訓練有所不同,因為它主要依靠擴大模型和資料規模來積累知識,而非直接增強泛化。但真正的理解應該能提升泛化能力。關鍵問題是:理解本身是否足以實現強大泛化?還是需要更簡單的方法?我認為首要任務是讓理解過程變得更簡單,這正是我熱衷的工作方向。當前模型仍存在侷限:它們缺乏物理世界的體驗,多模態能力不足,理解機制尚不成熟。當這些瓶頸突破後,我們將面臨更根本的問題:是否需要全新的架構,使得模型無需通過海量資料學習每一個細節,就能自主掌握核心規律?這個問題的最佳探索方式,是先解決所有相關子問題。就像在濃霧中駕車,你無法預知障礙物的距離。我們正在快速前進,在這個過程中學到很多。核心挑戰在於實現小樣本學習,像孩子那樣舉一反三的能力,這是當前最強大的模型也未能達到的。在推進理論泛化的同時,另一個關鍵問題是架構創新。除了Transformer,還有許多值得探索的方向。雖然某些小模型在特定測試中表現優異,但整體突破仍需觀察。不同研究團隊正在推動基礎科學進展,這些工作可能不常出現在新聞中,但都至關重要。計算資源的發展同樣關鍵:更強大的GPU使得運行實驗更加可行,促進了研究進步。然而,設計環節仍是主要瓶頸。雖然AI編碼助手能幫助實現想法,但讓模型執行需要長期反饋的任務,如長達一周的實驗流程,仍面臨挑戰。這涉及到記憶管理問題,通過壓縮關鍵資訊來突破上下文限制,但該能力需要專門訓練。另一個重要方向是模型與外部工具的連接。當前模型已能使用網路搜尋和Python直譯器,但安全地開放系統權限仍是難題。隨著模型能力擴展至數學、科學乃至金融領域,人們自然思考:是否存在一個通用模型能處理所有任務?從產品視角看,我們需要保持技術的人本價值。當前模型仍需精細調優,但進步速度令人鼓舞。以機器翻譯為例:雖然GPT-4在多數場景已足夠準確,但涉及重要檔案時,人們仍傾向於人工翻譯,這本質是信任問題。某些工作將繼續由人類完成,但這不意味著社會整體效率不會提升。在前沿研究方向上,我特別關注統一跨領域學習的能力。機器人技術將是多模態能力的重要試金石。當模型真正理解物理世界時,家庭機器人可能帶來比聊天機器人更顯著的社會影響。這些突破將深刻改變我們的世界認知。雖然實現路徑充滿挑戰,但我相信我們正在朝著這個方向穩步前進。 (矽基觀察Pro)