#追求智能 | 熱門關鍵字 | 鉅亨號

人工智慧是不是到頂了？“AI進展減速論”在過去一年頻繁出現。Lukasz Kaiser——Transformer 論文共同作者、OpenAI 首席研究科學家、推理模型核心奠基者之一，近日在《Mad》播客中給出了截然相反的觀點。他提到，AI發展不僅沒有放緩，反而仍沿著穩定而持續的指數級曲線加速前進。外界感受到的“停滯”，其實源於突破形態的改變。行業從一味做“大模型”，轉向建構更聰明、更能思考的模型。在他看來，預訓練依然關鍵，但已不再是唯一引擎。推理模型的出現像是給基礎模型加了一層“第二大腦”，讓它們學會推導、驗證與自我糾錯，而不僅是預測下一個詞。這意味著在相同成本下，模型能力躍升更明顯、答案可靠性更高。但AI的“智能地形圖”仍極不均勻。Lukasz坦言，最強模型能攻克奧數難題，卻可能在兒童拼圖裡數不清物體；能寫出超越專業程式設計師的程式碼，卻仍會誤判一張照片的空間關係。同時，新範式也帶來了新的商業現實。面對上億級使用者，成本效率已壓過算力堆疊，模型蒸餾從“可選項”變為“必需品”。能否讓小模型復現大模型的智慧，決定了AI能否真正普及。在這場訪談中，Lukasz不僅否定了“AI減速論”，也描述了一個更加精細、聰明、多層推進的未來：基礎模型仍在擴展、推理層持續演化、多模態等待突破，而產品端的效率戰才剛剛開始。以下是整理後的訪談全文，enjoy~/ 01 / AI沒減速，是你沒看懂主持人：今年以來，一直有觀點認為AI發展正在放緩，預訓練已觸及天花板，擴展法則似乎也走到了盡頭。但就在我們錄製本期節目時，圈裡迎來了一輪密集的重大發佈，GPT-5.1、Codex Max、GPT-5.1 Pro、Gemini Nano Pro以及Grok-4.1等模型幾乎同時亮相，這似乎打破了“AI停滯”的論調。而你們這些身處前沿AI實驗室的專家，看到了那些外界無法捕捉的進展訊號？Lukasz：AI技術的進步一直是非常平穩的指數級能力提升，這是總體趨勢。新技術層出不窮，進步來自於新發現、算力提升和更好的工程實現。語言模型方面，Transformer的出現與推理模型是兩大轉折點，它的發展呈S型曲線。預訓練處於S曲線上段，只是擴展定律並未失效，損失會隨算力呈對數線性下降，這一點Google和其他實驗室都已經驗證了。問問題在於，你需要投入多少錢，相對於收益是否值得。新的推理範式處於S曲線下部，同樣成本能獲得更多收益，因為還有大量發現待釋放。從ChatGPT 3.5到當下，核心變化在於模型不再僅依賴記憶權重輸出答案，而是能查網頁、推理分析後給出正確答案。舉個例子，舊版對“動物園明天幾點開門”這類問題會從記憶裡瞎編，可能讀到過動物園網站五年前寫的時間，編造過時資訊。新版則能即時訪問動物園網站並交叉驗證。ChatGPT或Gemini本身就已具備許多未被充分認識的能力。你可以拍損壞的東西問怎麼修，它會告訴你；給它大學水平的作業，它也能完成。主持人：我確實同意這個說法。目前確實存在不少顯而易見的改進空間，就像“低垂的果實”，很容易被看到和解決。比如說，模型有時會在邏輯上出現前言不搭後語，或者呼叫工具時出錯，再就是記不住太長的對話內容。這些都是行業已經意識到，並且正在著力解決的問題。Lukasz：是的，有大量極其明顯需要改進的地方。大部分屬於工程層面問題：實驗室基礎設施和程式碼最佳化。Python程式碼通常能運行，但效率低下會影響結果質量；訓練方法上，強化學習（RL）比預訓練更棘手、更難做好；此外，資料質量也是瓶頸。過去我們使用Common Crawl這類網際網路原始資料倉儲，需要投入大量工作對原始網路資料進行清洗和提煉。如今大公司都設有專門團隊來提升資料質量，但真正提取出優質資料仍然非常耗時費力。合成資料正在興起，但如何生成、選用什麼模型、以及具體的工程實現，每一步的實現細節都非常重要。另一方面，多模態能力的發展也面臨挑戰。目前模型在處理圖像和聲音方面，遠不如處理文字那樣成熟。雖然改進方向很明確，但要取得實質突破，可能需要從頭開始訓練新一代基礎模型，這意味著數月時間和巨額資源的投入。我常在想，這些進步究竟能讓模型變得多強大？這或許是個被低估的問題。/ 02 / AI學會“自我懷疑”，GPT開始提前糾正自己的錯誤主持人：我想再聊聊推理模型，因為它確實太新了。很多人其實還沒完全搞明白它和基礎模型到底有什麼區別。你能用最通俗的話講講，它倆到底不一樣在那嗎？Lukasz：推理模型在給出最終答案前，會自己先在心裡琢磨一番，形成一個“思考鏈條”，並且還能借助像搜尋這樣的外部工具來幫自己理清思路。這樣一來，它就能在思考過程中主動尋找資訊，為你提供更靠譜的答案。這算是它表面上看得到的能力。它更厲害的地方在於，模型學習的重點就是“如何思考”本身，目標是找到更優的推理路徑。以前的模型主要靠預測下一個詞來訓練，但這種方法對“推理”這件事不太奏效，因為推理步驟沒法直接用來計算梯度。所以，我們現在改用強化學習來訓練它。這就像是設定一個獎勵目標，讓模型自己反覆嘗試，摸索出那些思考方式更容易得到好結果。這種訓練方式可比以前那種費勁多了。傳統的訓練對資料質量不那麼挑剔，大體上都能運行，但強化學習就得格外小心，需要精心調整參數和準備資料。目前一個基礎的方法是使用那些能明確判斷對錯的資料，比如解數學題或寫程式碼，所以它在這些領域表現特別亮眼。在其他領域雖然也有進步，但還沒達到同樣驚豔的程度。如何在多模態上做推理？我認為這剛開始，Gemini能在推理過程中生成圖像，這很令人興奮，但還非常初級。主持人：當前存在一種普遍看法：預訓練和後訓練是割裂的，後訓練幾乎就等於強化學習。但事實上，強化學習在預訓練階段就已參與，只是我們過去的理解並未認識到這一點。Lukasz：在ChatGPT出現之前，預訓練模型已經存在，但無法實現真正對話。ChatGPT的關鍵突破在於將RLHF應用於預訓練模型。RLHF是一種基於人類偏好的強化學習，通過讓模型比較不同回答並學習人類更傾向的選項來進行訓練。然而，RLHF若訓練過度，模型可能過度“討好”，導致它的核心顯得很脆弱。儘管如此，它仍是實現對話能力的核心。當前趨勢轉向更大規模的強化學習，雖資料規模仍不及預訓練，但能建構具備判斷正確性或偏好的模型。該方法目前適用於可明確評估的領域，並可結合人類偏好進行更穩定的長期訓練，避免評分系統失效。未來，強化學習有望擴展到更通用資料與更廣泛領域。問題是：做某些事真的需要很多思考嗎？也許需要，也許我們需要比現在更多的思考和推理。主持人：要提升強化學習的泛化能力，是不是關鍵在於有更好的評估方式？比如你們之前推出的跨經濟領域評估，測試它在不同場景的表現，這種系統性的衡量是不是真的必要？Lukasz：人們在寫作前通常會有所思考，雖然不像解數學題那樣嚴謹，但總會有一個大致的思路。目前模型難以完全模擬這種過程，不過它們已經開始嘗試了。推理能力可以遷移，比如學會查閱網頁獲取資訊後，這個策略也能用在其他任務上。但在視覺思考方面，模型的訓練還遠遠不夠充分。主持人：思維鏈具體是怎麼運作的？模型是怎麼決定要生成這些思考步驟的？我們在螢幕上看到的那些中間推理，是模型真實的完整思考過程嗎？還是說背後其實隱藏著更複雜、更長的推理鏈條？Lukasz：在ChatGPT裡你看到的思維鏈總結，其實是另一個模型對完整思考過程的提煉。原始的思考鏈條通常比較囉嗦。如果僅僅讓模型在預訓練後嘗試逐步思考，它確實能產生一些推理步驟，但關鍵不止於此。我們可以這樣訓練：先讓模型嘗試多種思考方式，有些得到正確結果，有些會出錯。然後我們選出那些導向正確答案的思考路徑，告訴模型“這才是你應該學習的思考方式”。這就是強化學習發揮的作用。這種訓練真正改變了模型的思考模式，在數學和程式設計領域已經看到效果。更大的希望是它能擴展到其他領域。甚至在數學解題中，模型開始學會提前自我糾正錯誤，這種自我驗證的能力是從強化學習中自然湧現的。本質上，模型學會了質疑自己的輸出，覺得可能出錯時就會重新思考。/ 03 / 預訓練仍是耗電巨獸，RL和視訊模型正瘋狂搶GPU資源主持人：談談從Google到OpenAI的轉變，以及兩種文化的差異。Lukasz：Ilya Sutskever 以前在 Google Brain 時是我的經理，後來他離職創立了 OpenAI。那幾年他問過我好幾次要不要加入。之後 Transformer 發佈了，接著又趕上了疫情。Google 完全關閉，重啟也非常慢。Google Brain 作為大公司裡的小團隊，工作氛圍和創業公司很不一樣。Ilya 跟我說，OpenAI 雖然還在早期階段，但正在做語言模型，可能和我的方向很契合。我當時想：“好吧，那就試試看。”之前除了 Google 和大學，我沒在別的公司工作過。所以加入一個小型創業公司確實是個很大的轉變。總的來說，我覺得不同科技實驗室之間的相似之處，比人們想像得要多。它們之間當然有差異，但就像從法國大學的視角來看，大學和任何一個科技實驗室的差別，其實遠大於實驗室彼此之間的差別。大公司也好，創業公司也罷，在“必須交付”這一點上更像彼此。主持人：OpenAI內部研究團隊是怎麼組織的？Lukasz：大多數實驗室都在做類似的工作，比如改進多模態模型、提升推理能力、最佳化預訓練或者基礎設施。通常會有專門團隊負責這些方向，人員有時會流動，新項目也會啟動，比如擴散模型。有些探索項目規模會擴大，像視訊模型就需要更多人手參與。GPU的分配主要基於技術需求。目前預訓練消耗的GPU最多，所以資源會優先分配給它。強化學習和視訊模型對GPU的需求也在快速增長。主持人：未來一兩年預訓練會怎樣？Lukasz：我認為預訓練在技術上已經進入平穩發展期，投入更多算力仍能提升效果，這很有價值。雖然回報不如推理技術顯著，但確實能增強模型能力，值得持續投入。很多人忽略了一個現實轉變：幾年前OpenAI還只是研究實驗室，所有算力都集中在訓練上，可以毫不猶豫地打造GPT-4。但現在情況不同了，ChatGPT擁有十億使用者，每天產生海量對話需求，需要大量GPU資源支撐。使用者不願意為每次對話支付過高費用，迫使我們開發更經濟的小模型。這個轉變影響了所有實驗室。一旦技術產品化，就必須考慮成本。現在我們不再只追求最大模型，而是努力用更小更便宜的模型提供同等質量。這種降本增效的壓力非常現實。這也讓蒸餾技術重新受到重視。通過將大模型的知識提煉到小模型中，既能保證質量又能控製成本。雖然這個方法很早就有，但直到面臨實際的經濟壓力，我們才真正認識到它的價值。當然，訓練超大模型仍然重要，因為它是蒸餾優質小模型的基礎。隨著行業對GPU的持續投入，預計將迎來新一輪的預訓練發展。但本質上，這些變化都是在同一條技術演進路徑上的調整，取決於不同階段的資源與需求。最重要的是要看到：預訓練始終有效，而且能與強化學習形成互補。在更強大的基礎模型上運行推理，效果自然會更出色。主持人：現代AI系統的演進，結合了實驗室、RL和很多技術。深度學習時代人們常說自己從微觀層面理解AI，比如矩陣乘法，但不完全理解組合在一起後最終發生什麼。過去幾年在可解釋性方面做了很多工作，特別是對複雜系統。模型的行為是越來越清晰了，還是仍有黑盒成分？Lukasz：我覺得兩方面都有道理。從根本上說，我們對模型的理解確實取得了巨大進步。像ChatGPT這樣的模型，它和無數人對話，知識來自整個網際網路，顯然，我們無法完全理解它內部發生的一切，就像沒人能瞭解整個網際網路。但我們的確有了新發現。比如OpenAI最近一篇論文表明，如果讓模型的很多連接變得稀疏、不重要，就能更清晰地追蹤它在處理任務時的具體活動。所以，如果聚焦在模型內部進行研究，我們確實能獲得不少理解。現在已經有很多研究在探索模型內部的工作機制，我們對模型高級行為的認知進步很大。不過，這些理解大多來自較小的模型。不是說這些規律不適用於大模型，但大模型同時處理太多資訊，我們的理解能力終究有限。/ 04 / 為什麼GPT-5能解奧賽題，卻敗給5歲孩子的數學題？主持人：我想聊聊GPT-5.1。從GPT-4到5到5.1，實際改變了什麼？Lukasz：這個問題很難。從GPT-4到5，最重要的變化是加入了推理能力和合成資料，同時預訓練讓成本大幅下降。到了GPT-5，它已經成為十億人使用的產品，團隊在安全與友好度之間不斷調整，讓模型在面對各類問題時反應更合理，既不過度敏感也不隨意拒絕。幻覺問題雖然還存在，但通過工具驗證和訓練最佳化，已經比之前改善很多。主持人：GPT-5.1主要是後訓練的改進，比如加入了不同語氣風格，從書呆子氣到專業范兒，這大概是回應有些人懷念早期模型那種討好人的特性。加入更多語氣變化屬於後訓練範疇。你們是給模型看示例教它回應方式，這更像監督學習，還是像強化學習那樣用對錯獎勵來訓練？Lukasz：我不直接做後訓練，這部分確實有些怪，核心是強化學習。比如你會判斷“這個回答是否帶有諷刺？是否符合要求？”如果使用者要求諷刺，那模型就該那麼回應。主持人：我感覺強化學習在模型迭代中佔比很大。其他公司發佈模型時通常與預訓練對齊，有時一次預訓練產出多個模型。以前版本命名常與技術對齊，比如o1對應預訓練版本，o3對應強化學習版本。大家覺得這種命名很混亂。現在改為按能力命名：GPT-5是基礎能力版，5.1是增強版，也就是更輕量、稍弱但更快更便宜的版本。Lukasz：推理模型專注於複雜推理。命名與技術解綁帶來了靈活性。OpenAI發展壯大後項目很多，強化學習、預訓練，還有網站最佳化等等。模型蒸餾技術讓我們能整合多個項目成果，不必等所有項目同時完成，可以定期整合更新。這對使用者是好事，不用再苦等耗時數月的新預訓練模型。主持人：使用者能控制模型的思考時間。那在默認情況下，模型自己是怎麼決定要思考多久的呢？Lukasz：模型遇到任務時會自行決定思考多久，但我們可以通過提供額外資訊來引導它思考得更深入。現在你確實能對它進行一定控制了。但更根本的變化在於：推理模型通過消耗更多token進行思考，其能力提升的速度遠超預訓練階段。如果讓GPT-5進行長時間思考，它甚至能解決數學和資訊學奧賽的題目，展現出驚人潛力。不過目前推理訓練主要依賴科學領域資料，遠不如預訓練的資料廣泛。這導致模型能力很不均衡，某些方面極其出色，相鄰領域卻表現不佳。這種矛盾很常見：比如模型能解奧賽題，卻可能做不出一年級的數學題，而人類只需十秒就能解決。要記住：模型既強大，也存在明顯短板。我舉個值得深思的例子。用Gemini看兩組點判斷奇偶：第一題兩邊各有若幹點，中間共享一個點，正確答案應是奇數。Gemini 3答對了。但緊接著出現結構相似的題目，它卻完全忽略了共享點，直接判斷為偶數，明明剛見過類似情境。同樣的題目給GPT-5.1，它解出第一題卻誤判為偶數。如果換成GPT-5 Pro，它會花15分鐘運行Python程式碼來數點，而五歲孩子15秒就能答對。主持人：所以模型到底被什麼卡住了？Lukasz：多模態方面確實還處在早期。模型能解出第一個例子說明有進步，但它還沒真正掌握如何在多模態情境下進行推理。它雖然能進行上下文學習，卻不太會借鑑上下文中的推理思路來推進下一步。這些都是已知的瓶頸，主要還是訓練不足。但更深層的問題是，即使多模態能力提升了，模型可能還是做不好像我女兒做的那種數學題。這類題不純是視覺問題，模型還沒學會在簡單的抽象層面運用推理。它看到點陣圖，容易卡在識別像素模式上，而看不出“兩邊數量相同但共享一個點，所以總數是奇數”這種抽象邏輯。這種從圖像到符號的抽象推理能力還沒建立起來。所以這類題目其實暴露了推理模型的一個根本侷限：它們還沒能把從文字中學到的思維鏈策略，比如“先算總數再判奇偶”，自動遷移到視覺輸入上。這是多模態推理要突破的核心難題。另外還有個細節：這些題目對人來說簡單，但模型得先從像素裡識別出“點”和“共享”的概念。如果圖像中點的大小、間距、顏色有變化，模型可能根本認不出關鍵元素。相比符號明確的數學題，視覺任務的基礎識別還不夠穩健。因此當模型在第二個例子失敗時，很可能是因為它沒正確識別出“共享點”這個視覺資訊。這說明多模態推理的瓶頸不僅在於邏輯，還在於跨模態的語義對齊。兒童早期數學題設計得很妙。這些題目看似簡單，卻融合了抽象、類比、計數和奇偶判斷等多個認知環節。模型可能在某一步，比如識別點數正確，卻在判斷奇偶時出錯。我們通過跟蹤模型每一步的置信度發現，它在“識別共享點”這一步的把握度在第二個例子中明顯下降，這說明模型對視覺模式的泛化能力還不穩定。這也為我們指明了改進方向：需要在訓練中增加更多涉及“共享元素”和“集合運算”的視覺推理示例。預計這個具體問題在半年內應該能得到改善。回到宏觀視角，我們討論的問題，包括多模態推理，都是可解的工程挑戰，不是根本性的理論障礙。核心教訓是：推理模型的“鋸齒狀"能力曲線會在不同領域持續存在，但鋸齒的深度會隨著訓練和蒸餾逐漸減小。主持人：這次GPT-5.1版本更新，簡直像發佈了一個Pro產品。你覺得最主要的新能力是什麼？Lukasz：最關鍵的是對話介面變得更自然了。現在系統能根據你的意圖，自動調節回答長短，不用再手動選短中長回覆。這靠的是後訓練中的強化學習，獎勵訊號不再是簡單對錯，而是看“使用者滿不滿意”。他們用大量真實對話訓練獎勵模型，去捕捉那些微妙的互動指標。這樣模型就學會在複雜問題時多講點，簡單問題時少講點。這也是RLHF的進化，從學習人類偏好，到學習讓人滿意。模型還能在生成過程中自我評估信心，如果把握夠高，就提前結束回答，省下不少算力。不過這些都屬於基礎設施最佳化，不直接提升核心推理能力。真正的進步來自後訓練資料質量的提升，特別是加入了更多“說不知道”和“反問確認”的邊緣案例，讓模型變得更謹慎。5.1版本其實只是他們整體推理研究中的一個產品化快照。主持人：o4-mini的推理能力真的更強嗎？還是評估的問題？Lukasz：很多人問我o4-mini和o3的區別，其實它們不是簡單的升級關係，而是不同的設計選擇。o3展現了我們在強化學習上追求極致推理能力的成果，而o4-mini更像是一次“精煉的壓縮”，用更少的資源實現接近的效果。關鍵差別在於“推理時用的計算量”：o3在回答時投入大量計算，o4-mini則靠訓練時更充分的最佳化。在實際應用中，o4-mini因為加入了更多通用資料，比如長對話和工具使用，所以在多數日常場景下顯得更“好用”。但遇到真正複雜的邏輯或數學證明，o3依然更強。理想的方式是搭配使用：一般任務用mini，需要深度推理時切到Pro。我們還看到一個趨勢：“自主研究”正在模糊訓練和推理的邊界。模型不僅能回答問題，還能主動設計實驗、寫程式碼、分析結果，甚至生成自己的訓練資料，這形成了一個自我提升的循環，也是我們面向2026年的核心方向。我認為，真正的AGI里程碑，是模型能自主發現新演算法，而不只是完成現有任務。這需要強化學習能支援“探索未知”，而不僅限於可驗證的任務。我們內部已有實驗讓模型在模擬環境中做“假設-實驗”循環，目前能發現一些簡單數學定理，雖然還非常初級。但也許某個周一早晨，我們會突然發現它在周末自己證出了新定理，那一刻，可能就是AGI的開始。/ 05 / GPT-5.2或將攻克AI最大缺陷：學會說“我不知道”主持人：未來6到12個月，什麼最讓你興奮？Lukasz：最讓我興奮的是多模態推理正在成熟。當AI能同時理解圖像和語言，就會真正賦能機器人和科研這些領域，它不再只是猜測文字，而是開始在腦子裡模擬真實世界的運作邏輯。另一個好消息是推理成本正在快速下降，未來甚至能跑在手機上，讓每個人都能擁有真正的個人AI助手。科學領域可能會最先被顛覆，就像AlphaFold 3和新材料研發那樣。語言模型不再只分析資料，而是能主動提出猜想、設計實驗、解讀結果。我猜想，到2026年底，我們可能會在頂級期刊上看到第一篇由AI提出核心假設、人類主要做驗證的論文。那會是個歷史性時刻。當然挑戰還很多，關鍵是讓AI學會“意識到自己不懂什麼”，能主動提問而不是盲目自信地胡說，這也是目前強化學習重點在解決的問題。希望下次我們聊到GPT-5.2版本時，它能在這一點上帶來驚喜。主持人：你有什麼想對聽眾說的嗎？Lukasz：AI發展從未停滯，只是方向在變化。如果你感覺跟不上，別擔心，沒人能完全跟上。最驚人的應用往往來自非技術使用者，他們會用我們沒預料到的方式使用它。這些問題未來都會得到改善。更深層的問題在於，多模態等領域會進步，我們也在持續尋找典型案例。雖然技術前沿會變化、某些環節會更順暢，但關鍵在於是否會出現全新的挑戰。比如，如果工具從三個齒變成四個齒，人們不需要重新學習整個使用方式。我對泛化能力感到興奮，認為這是機器學習和智能理解的核心議題。預訓練有所不同，因為它主要依靠擴大模型和資料規模來積累知識，而非直接增強泛化。但真正的理解應該能提升泛化能力。關鍵問題是：理解本身是否足以實現強大泛化？還是需要更簡單的方法？我認為首要任務是讓理解過程變得更簡單，這正是我熱衷的工作方向。當前模型仍存在侷限：它們缺乏物理世界的體驗，多模態能力不足，理解機制尚不成熟。當這些瓶頸突破後，我們將面臨更根本的問題：是否需要全新的架構，使得模型無需通過海量資料學習每一個細節，就能自主掌握核心規律？這個問題的最佳探索方式，是先解決所有相關子問題。就像在濃霧中駕車，你無法預知障礙物的距離。我們正在快速前進，在這個過程中學到很多。核心挑戰在於實現小樣本學習，像孩子那樣舉一反三的能力，這是當前最強大的模型也未能達到的。在推進理論泛化的同時，另一個關鍵問題是架構創新。除了Transformer，還有許多值得探索的方向。雖然某些小模型在特定測試中表現優異，但整體突破仍需觀察。不同研究團隊正在推動基礎科學進展，這些工作可能不常出現在新聞中，但都至關重要。計算資源的發展同樣關鍵：更強大的GPU使得運行實驗更加可行，促進了研究進步。然而，設計環節仍是主要瓶頸。雖然AI編碼助手能幫助實現想法，但讓模型執行需要長期反饋的任務，如長達一周的實驗流程，仍面臨挑戰。這涉及到記憶管理問題，通過壓縮關鍵資訊來突破上下文限制，但該能力需要專門訓練。另一個重要方向是模型與外部工具的連接。當前模型已能使用網路搜尋和Python直譯器，但安全地開放系統權限仍是難題。隨著模型能力擴展至數學、科學乃至金融領域，人們自然思考：是否存在一個通用模型能處理所有任務？從產品視角看，我們需要保持技術的人本價值。當前模型仍需精細調優，但進步速度令人鼓舞。以機器翻譯為例：雖然GPT-4在多數場景已足夠準確，但涉及重要檔案時，人們仍傾向於人工翻譯，這本質是信任問題。某些工作將繼續由人類完成，但這不意味著社會整體效率不會提升。在前沿研究方向上，我特別關注統一跨領域學習的能力。機器人技術將是多模態能力的重要試金石。當模型真正理解物理世界時，家庭機器人可能帶來比聊天機器人更顯著的社會影響。這些突破將深刻改變我們的世界認知。雖然實現路徑充滿挑戰，但我相信我們正在朝著這個方向穩步前進。 (矽基觀察Pro)