#推理模型 | 熱門關鍵字 | 鉅亨號 | Anue鉅亨

#推理模型

AI到頂了？OpenAI首席科學家否認，行業從堆算力轉向追求智能密度

人工智慧是不是到頂了？“AI進展減速論”在過去一年頻繁出現。Lukasz Kaiser——Transformer 論文共同作者、OpenAI 首席研究科學家、推理模型核心奠基者之一，近日在《Mad》播客中給出了截然相反的觀點。他提到，AI發展不僅沒有放緩，反而仍沿著穩定而持續的指數級曲線加速前進。外界感受到的“停滯”，其實源於突破形態的改變。行業從一味做“大模型”，轉向建構更聰明、更能思考的模型。在他看來，預訓練依然關鍵，但已不再是唯一引擎。推理模型的出現像是給基礎模型加了一層“第二大腦”，讓它們學會推導、驗證與自我糾錯，而不僅是預測下一個詞。這意味著在相同成本下，模型能力躍升更明顯、答案可靠性更高。但AI的“智能地形圖”仍極不均勻。Lukasz坦言，最強模型能攻克奧數難題，卻可能在兒童拼圖裡數不清物體；能寫出超越專業程式設計師的程式碼，卻仍會誤判一張照片的空間關係。同時，新範式也帶來了新的商業現實。面對上億級使用者，成本效率已壓過算力堆疊，模型蒸餾從“可選項”變為“必需品”。能否讓小模型復現大模型的智慧，決定了AI能否真正普及。在這場訪談中，Lukasz不僅否定了“AI減速論”，也描述了一個更加精細、聰明、多層推進的未來：基礎模型仍在擴展、推理層持續演化、多模態等待突破，而產品端的效率戰才剛剛開始。以下是整理後的訪談全文，enjoy~/ 01 / AI沒減速，是你沒看懂主持人：今年以來，一直有觀點認為AI發展正在放緩，預訓練已觸及天花板，擴展法則似乎也走到了盡頭。但就在我們錄製本期節目時，圈裡迎來了一輪密集的重大發佈，GPT-5.1、Codex Max、GPT-5.1 Pro、Gemini Nano Pro以及Grok-4.1等模型幾乎同時亮相，這似乎打破了“AI停滯”的論調。而你們這些身處前沿AI實驗室的專家，看到了那些外界無法捕捉的進展訊號？Lukasz：AI技術的進步一直是非常平穩的指數級能力提升，這是總體趨勢。新技術層出不窮，進步來自於新發現、算力提升和更好的工程實現。語言模型方面，Transformer的出現與推理模型是兩大轉折點，它的發展呈S型曲線。預訓練處於S曲線上段，只是擴展定律並未失效，損失會隨算力呈對數線性下降，這一點Google和其他實驗室都已經驗證了。問問題在於，你需要投入多少錢，相對於收益是否值得。新的推理範式處於S曲線下部，同樣成本能獲得更多收益，因為還有大量發現待釋放。從ChatGPT 3.5到當下，核心變化在於模型不再僅依賴記憶權重輸出答案，而是能查網頁、推理分析後給出正確答案。舉個例子，舊版對“動物園明天幾點開門”這類問題會從記憶裡瞎編，可能讀到過動物園網站五年前寫的時間，編造過時資訊。新版則能即時訪問動物園網站並交叉驗證。ChatGPT或Gemini本身就已具備許多未被充分認識的能力。你可以拍損壞的東西問怎麼修，它會告訴你；給它大學水平的作業，它也能完成。主持人：我確實同意這個說法。目前確實存在不少顯而易見的改進空間，就像“低垂的果實”，很容易被看到和解決。比如說，模型有時會在邏輯上出現前言不搭後語，或者呼叫工具時出錯，再就是記不住太長的對話內容。這些都是行業已經意識到，並且正在著力解決的問題。Lukasz：是的，有大量極其明顯需要改進的地方。大部分屬於工程層面問題：實驗室基礎設施和程式碼最佳化。Python程式碼通常能運行，但效率低下會影響結果質量；訓練方法上，強化學習（RL）比預訓練更棘手、更難做好；此外，資料質量也是瓶頸。過去我們使用Common Crawl這類網際網路原始資料倉儲，需要投入大量工作對原始網路資料進行清洗和提煉。如今大公司都設有專門團隊來提升資料質量，但真正提取出優質資料仍然非常耗時費力。合成資料正在興起，但如何生成、選用什麼模型、以及具體的工程實現，每一步的實現細節都非常重要。另一方面，多模態能力的發展也面臨挑戰。目前模型在處理圖像和聲音方面，遠不如處理文字那樣成熟。雖然改進方向很明確，但要取得實質突破，可能需要從頭開始訓練新一代基礎模型，這意味著數月時間和巨額資源的投入。我常在想，這些進步究竟能讓模型變得多強大？這或許是個被低估的問題。/ 02 / AI學會“自我懷疑”，GPT開始提前糾正自己的錯誤主持人：我想再聊聊推理模型，因為它確實太新了。很多人其實還沒完全搞明白它和基礎模型到底有什麼區別。你能用最通俗的話講講，它倆到底不一樣在那嗎？Lukasz：推理模型在給出最終答案前，會自己先在心裡琢磨一番，形成一個“思考鏈條”，並且還能借助像搜尋這樣的外部工具來幫自己理清思路。這樣一來，它就能在思考過程中主動尋找資訊，為你提供更靠譜的答案。這算是它表面上看得到的能力。它更厲害的地方在於，模型學習的重點就是“如何思考”本身，目標是找到更優的推理路徑。以前的模型主要靠預測下一個詞來訓練，但這種方法對“推理”這件事不太奏效，因為推理步驟沒法直接用來計算梯度。所以，我們現在改用強化學習來訓練它。這就像是設定一個獎勵目標，讓模型自己反覆嘗試，摸索出那些思考方式更容易得到好結果。這種訓練方式可比以前那種費勁多了。傳統的訓練對資料質量不那麼挑剔，大體上都能運行，但強化學習就得格外小心，需要精心調整參數和準備資料。目前一個基礎的方法是使用那些能明確判斷對錯的資料，比如解數學題或寫程式碼，所以它在這些領域表現特別亮眼。在其他領域雖然也有進步，但還沒達到同樣驚豔的程度。如何在多模態上做推理？我認為這剛開始，Gemini能在推理過程中生成圖像，這很令人興奮，但還非常初級。主持人：當前存在一種普遍看法：預訓練和後訓練是割裂的，後訓練幾乎就等於強化學習。但事實上，強化學習在預訓練階段就已參與，只是我們過去的理解並未認識到這一點。Lukasz：在ChatGPT出現之前，預訓練模型已經存在，但無法實現真正對話。ChatGPT的關鍵突破在於將RLHF應用於預訓練模型。RLHF是一種基於人類偏好的強化學習，通過讓模型比較不同回答並學習人類更傾向的選項來進行訓練。然而，RLHF若訓練過度，模型可能過度“討好”，導致它的核心顯得很脆弱。儘管如此，它仍是實現對話能力的核心。當前趨勢轉向更大規模的強化學習，雖資料規模仍不及預訓練，但能建構具備判斷正確性或偏好的模型。該方法目前適用於可明確評估的領域，並可結合人類偏好進行更穩定的長期訓練，避免評分系統失效。未來，強化學習有望擴展到更通用資料與更廣泛領域。問題是：做某些事真的需要很多思考嗎？也許需要，也許我們需要比現在更多的思考和推理。主持人：要提升強化學習的泛化能力，是不是關鍵在於有更好的評估方式？比如你們之前推出的跨經濟領域評估，測試它在不同場景的表現，這種系統性的衡量是不是真的必要？Lukasz：人們在寫作前通常會有所思考，雖然不像解數學題那樣嚴謹，但總會有一個大致的思路。目前模型難以完全模擬這種過程，不過它們已經開始嘗試了。推理能力可以遷移，比如學會查閱網頁獲取資訊後，這個策略也能用在其他任務上。但在視覺思考方面，模型的訓練還遠遠不夠充分。主持人：思維鏈具體是怎麼運作的？模型是怎麼決定要生成這些思考步驟的？我們在螢幕上看到的那些中間推理，是模型真實的完整思考過程嗎？還是說背後其實隱藏著更複雜、更長的推理鏈條？Lukasz：在ChatGPT裡你看到的思維鏈總結，其實是另一個模型對完整思考過程的提煉。原始的思考鏈條通常比較囉嗦。如果僅僅讓模型在預訓練後嘗試逐步思考，它確實能產生一些推理步驟，但關鍵不止於此。我們可以這樣訓練：先讓模型嘗試多種思考方式，有些得到正確結果，有些會出錯。然後我們選出那些導向正確答案的思考路徑，告訴模型“這才是你應該學習的思考方式”。這就是強化學習發揮的作用。這種訓練真正改變了模型的思考模式，在數學和程式設計領域已經看到效果。更大的希望是它能擴展到其他領域。甚至在數學解題中，模型開始學會提前自我糾正錯誤，這種自我驗證的能力是從強化學習中自然湧現的。本質上，模型學會了質疑自己的輸出，覺得可能出錯時就會重新思考。/ 03 / 預訓練仍是耗電巨獸，RL和視訊模型正瘋狂搶GPU資源主持人：談談從Google到OpenAI的轉變，以及兩種文化的差異。Lukasz：Ilya Sutskever 以前在 Google Brain 時是我的經理，後來他離職創立了 OpenAI。那幾年他問過我好幾次要不要加入。之後 Transformer 發佈了，接著又趕上了疫情。Google 完全關閉，重啟也非常慢。Google Brain 作為大公司裡的小團隊，工作氛圍和創業公司很不一樣。Ilya 跟我說，OpenAI 雖然還在早期階段，但正在做語言模型，可能和我的方向很契合。我當時想：“好吧，那就試試看。”之前除了 Google 和大學，我沒在別的公司工作過。所以加入一個小型創業公司確實是個很大的轉變。總的來說，我覺得不同科技實驗室之間的相似之處，比人們想像得要多。它們之間當然有差異，但就像從法國大學的視角來看，大學和任何一個科技實驗室的差別，其實遠大於實驗室彼此之間的差別。大公司也好，創業公司也罷，在“必須交付”這一點上更像彼此。主持人：OpenAI內部研究團隊是怎麼組織的？Lukasz：大多數實驗室都在做類似的工作，比如改進多模態模型、提升推理能力、最佳化預訓練或者基礎設施。通常會有專門團隊負責這些方向，人員有時會流動，新項目也會啟動，比如擴散模型。有些探索項目規模會擴大，像視訊模型就需要更多人手參與。GPU的分配主要基於技術需求。目前預訓練消耗的GPU最多，所以資源會優先分配給它。強化學習和視訊模型對GPU的需求也在快速增長。主持人：未來一兩年預訓練會怎樣？Lukasz：我認為預訓練在技術上已經進入平穩發展期，投入更多算力仍能提升效果，這很有價值。雖然回報不如推理技術顯著，但確實能增強模型能力，值得持續投入。很多人忽略了一個現實轉變：幾年前OpenAI還只是研究實驗室，所有算力都集中在訓練上，可以毫不猶豫地打造GPT-4。但現在情況不同了，ChatGPT擁有十億使用者，每天產生海量對話需求，需要大量GPU資源支撐。使用者不願意為每次對話支付過高費用，迫使我們開發更經濟的小模型。這個轉變影響了所有實驗室。一旦技術產品化，就必須考慮成本。現在我們不再只追求最大模型，而是努力用更小更便宜的模型提供同等質量。這種降本增效的壓力非常現實。這也讓蒸餾技術重新受到重視。通過將大模型的知識提煉到小模型中，既能保證質量又能控製成本。雖然這個方法很早就有，但直到面臨實際的經濟壓力，我們才真正認識到它的價值。當然，訓練超大模型仍然重要，因為它是蒸餾優質小模型的基礎。隨著行業對GPU的持續投入，預計將迎來新一輪的預訓練發展。但本質上，這些變化都是在同一條技術演進路徑上的調整，取決於不同階段的資源與需求。最重要的是要看到：預訓練始終有效，而且能與強化學習形成互補。在更強大的基礎模型上運行推理，效果自然會更出色。主持人：現代AI系統的演進，結合了實驗室、RL和很多技術。深度學習時代人們常說自己從微觀層面理解AI，比如矩陣乘法，但不完全理解組合在一起後最終發生什麼。過去幾年在可解釋性方面做了很多工作，特別是對複雜系統。模型的行為是越來越清晰了，還是仍有黑盒成分？Lukasz：我覺得兩方面都有道理。從根本上說，我們對模型的理解確實取得了巨大進步。像ChatGPT這樣的模型，它和無數人對話，知識來自整個網際網路，顯然，我們無法完全理解它內部發生的一切，就像沒人能瞭解整個網際網路。但我們的確有了新發現。比如OpenAI最近一篇論文表明，如果讓模型的很多連接變得稀疏、不重要，就能更清晰地追蹤它在處理任務時的具體活動。所以，如果聚焦在模型內部進行研究，我們確實能獲得不少理解。現在已經有很多研究在探索模型內部的工作機制，我們對模型高級行為的認知進步很大。不過，這些理解大多來自較小的模型。不是說這些規律不適用於大模型，但大模型同時處理太多資訊，我們的理解能力終究有限。/ 04 / 為什麼GPT-5能解奧賽題，卻敗給5歲孩子的數學題？主持人：我想聊聊GPT-5.1。從GPT-4到5到5.1，實際改變了什麼？Lukasz：這個問題很難。從GPT-4到5，最重要的變化是加入了推理能力和合成資料，同時預訓練讓成本大幅下降。到了GPT-5，它已經成為十億人使用的產品，團隊在安全與友好度之間不斷調整，讓模型在面對各類問題時反應更合理，既不過度敏感也不隨意拒絕。幻覺問題雖然還存在，但通過工具驗證和訓練最佳化，已經比之前改善很多。主持人：GPT-5.1主要是後訓練的改進，比如加入了不同語氣風格，從書呆子氣到專業范兒，這大概是回應有些人懷念早期模型那種討好人的特性。加入更多語氣變化屬於後訓練範疇。你們是給模型看示例教它回應方式，這更像監督學習，還是像強化學習那樣用對錯獎勵來訓練？Lukasz：我不直接做後訓練，這部分確實有些怪，核心是強化學習。比如你會判斷“這個回答是否帶有諷刺？是否符合要求？”如果使用者要求諷刺，那模型就該那麼回應。主持人：我感覺強化學習在模型迭代中佔比很大。其他公司發佈模型時通常與預訓練對齊，有時一次預訓練產出多個模型。以前版本命名常與技術對齊，比如o1對應預訓練版本，o3對應強化學習版本。大家覺得這種命名很混亂。現在改為按能力命名：GPT-5是基礎能力版，5.1是增強版，也就是更輕量、稍弱但更快更便宜的版本。Lukasz：推理模型專注於複雜推理。命名與技術解綁帶來了靈活性。OpenAI發展壯大後項目很多，強化學習、預訓練，還有網站最佳化等等。模型蒸餾技術讓我們能整合多個項目成果，不必等所有項目同時完成，可以定期整合更新。這對使用者是好事，不用再苦等耗時數月的新預訓練模型。主持人：使用者能控制模型的思考時間。那在默認情況下，模型自己是怎麼決定要思考多久的呢？Lukasz：模型遇到任務時會自行決定思考多久，但我們可以通過提供額外資訊來引導它思考得更深入。現在你確實能對它進行一定控制了。但更根本的變化在於：推理模型通過消耗更多token進行思考，其能力提升的速度遠超預訓練階段。如果讓GPT-5進行長時間思考，它甚至能解決數學和資訊學奧賽的題目，展現出驚人潛力。不過目前推理訓練主要依賴科學領域資料，遠不如預訓練的資料廣泛。這導致模型能力很不均衡，某些方面極其出色，相鄰領域卻表現不佳。這種矛盾很常見：比如模型能解奧賽題，卻可能做不出一年級的數學題，而人類只需十秒就能解決。要記住：模型既強大，也存在明顯短板。我舉個值得深思的例子。用Gemini看兩組點判斷奇偶：第一題兩邊各有若幹點，中間共享一個點，正確答案應是奇數。Gemini 3答對了。但緊接著出現結構相似的題目，它卻完全忽略了共享點，直接判斷為偶數，明明剛見過類似情境。同樣的題目給GPT-5.1，它解出第一題卻誤判為偶數。如果換成GPT-5 Pro，它會花15分鐘運行Python程式碼來數點，而五歲孩子15秒就能答對。主持人：所以模型到底被什麼卡住了？Lukasz：多模態方面確實還處在早期。模型能解出第一個例子說明有進步，但它還沒真正掌握如何在多模態情境下進行推理。它雖然能進行上下文學習，卻不太會借鑑上下文中的推理思路來推進下一步。這些都是已知的瓶頸，主要還是訓練不足。但更深層的問題是，即使多模態能力提升了，模型可能還是做不好像我女兒做的那種數學題。這類題不純是視覺問題，模型還沒學會在簡單的抽象層面運用推理。它看到點陣圖，容易卡在識別像素模式上，而看不出“兩邊數量相同但共享一個點，所以總數是奇數”這種抽象邏輯。這種從圖像到符號的抽象推理能力還沒建立起來。所以這類題目其實暴露了推理模型的一個根本侷限：它們還沒能把從文字中學到的思維鏈策略，比如“先算總數再判奇偶”，自動遷移到視覺輸入上。這是多模態推理要突破的核心難題。另外還有個細節：這些題目對人來說簡單，但模型得先從像素裡識別出“點”和“共享”的概念。如果圖像中點的大小、間距、顏色有變化，模型可能根本認不出關鍵元素。相比符號明確的數學題，視覺任務的基礎識別還不夠穩健。因此當模型在第二個例子失敗時，很可能是因為它沒正確識別出“共享點”這個視覺資訊。這說明多模態推理的瓶頸不僅在於邏輯，還在於跨模態的語義對齊。兒童早期數學題設計得很妙。這些題目看似簡單，卻融合了抽象、類比、計數和奇偶判斷等多個認知環節。模型可能在某一步，比如識別點數正確，卻在判斷奇偶時出錯。我們通過跟蹤模型每一步的置信度發現，它在“識別共享點”這一步的把握度在第二個例子中明顯下降，這說明模型對視覺模式的泛化能力還不穩定。這也為我們指明了改進方向：需要在訓練中增加更多涉及“共享元素”和“集合運算”的視覺推理示例。預計這個具體問題在半年內應該能得到改善。回到宏觀視角，我們討論的問題，包括多模態推理，都是可解的工程挑戰，不是根本性的理論障礙。核心教訓是：推理模型的“鋸齒狀"能力曲線會在不同領域持續存在，但鋸齒的深度會隨著訓練和蒸餾逐漸減小。主持人：這次GPT-5.1版本更新，簡直像發佈了一個Pro產品。你覺得最主要的新能力是什麼？Lukasz：最關鍵的是對話介面變得更自然了。現在系統能根據你的意圖，自動調節回答長短，不用再手動選短中長回覆。這靠的是後訓練中的強化學習，獎勵訊號不再是簡單對錯，而是看“使用者滿不滿意”。他們用大量真實對話訓練獎勵模型，去捕捉那些微妙的互動指標。這樣模型就學會在複雜問題時多講點，簡單問題時少講點。這也是RLHF的進化，從學習人類偏好，到學習讓人滿意。模型還能在生成過程中自我評估信心，如果把握夠高，就提前結束回答，省下不少算力。不過這些都屬於基礎設施最佳化，不直接提升核心推理能力。真正的進步來自後訓練資料質量的提升，特別是加入了更多“說不知道”和“反問確認”的邊緣案例，讓模型變得更謹慎。5.1版本其實只是他們整體推理研究中的一個產品化快照。主持人：o4-mini的推理能力真的更強嗎？還是評估的問題？Lukasz：很多人問我o4-mini和o3的區別，其實它們不是簡單的升級關係，而是不同的設計選擇。o3展現了我們在強化學習上追求極致推理能力的成果，而o4-mini更像是一次“精煉的壓縮”，用更少的資源實現接近的效果。關鍵差別在於“推理時用的計算量”：o3在回答時投入大量計算，o4-mini則靠訓練時更充分的最佳化。在實際應用中，o4-mini因為加入了更多通用資料，比如長對話和工具使用，所以在多數日常場景下顯得更“好用”。但遇到真正複雜的邏輯或數學證明，o3依然更強。理想的方式是搭配使用：一般任務用mini，需要深度推理時切到Pro。我們還看到一個趨勢：“自主研究”正在模糊訓練和推理的邊界。模型不僅能回答問題，還能主動設計實驗、寫程式碼、分析結果，甚至生成自己的訓練資料，這形成了一個自我提升的循環，也是我們面向2026年的核心方向。我認為，真正的AGI里程碑，是模型能自主發現新演算法，而不只是完成現有任務。這需要強化學習能支援“探索未知”，而不僅限於可驗證的任務。我們內部已有實驗讓模型在模擬環境中做“假設-實驗”循環，目前能發現一些簡單數學定理，雖然還非常初級。但也許某個周一早晨，我們會突然發現它在周末自己證出了新定理，那一刻，可能就是AGI的開始。/ 05 / GPT-5.2或將攻克AI最大缺陷：學會說“我不知道”主持人：未來6到12個月，什麼最讓你興奮？Lukasz：最讓我興奮的是多模態推理正在成熟。當AI能同時理解圖像和語言，就會真正賦能機器人和科研這些領域，它不再只是猜測文字，而是開始在腦子裡模擬真實世界的運作邏輯。另一個好消息是推理成本正在快速下降，未來甚至能跑在手機上，讓每個人都能擁有真正的個人AI助手。科學領域可能會最先被顛覆，就像AlphaFold 3和新材料研發那樣。語言模型不再只分析資料，而是能主動提出猜想、設計實驗、解讀結果。我猜想，到2026年底，我們可能會在頂級期刊上看到第一篇由AI提出核心假設、人類主要做驗證的論文。那會是個歷史性時刻。當然挑戰還很多，關鍵是讓AI學會“意識到自己不懂什麼”，能主動提問而不是盲目自信地胡說，這也是目前強化學習重點在解決的問題。希望下次我們聊到GPT-5.2版本時，它能在這一點上帶來驚喜。主持人：你有什麼想對聽眾說的嗎？Lukasz：AI發展從未停滯，只是方向在變化。如果你感覺跟不上，別擔心，沒人能完全跟上。最驚人的應用往往來自非技術使用者，他們會用我們沒預料到的方式使用它。這些問題未來都會得到改善。更深層的問題在於，多模態等領域會進步，我們也在持續尋找典型案例。雖然技術前沿會變化、某些環節會更順暢，但關鍵在於是否會出現全新的挑戰。比如，如果工具從三個齒變成四個齒，人們不需要重新學習整個使用方式。我對泛化能力感到興奮，認為這是機器學習和智能理解的核心議題。預訓練有所不同，因為它主要依靠擴大模型和資料規模來積累知識，而非直接增強泛化。但真正的理解應該能提升泛化能力。關鍵問題是：理解本身是否足以實現強大泛化？還是需要更簡單的方法？我認為首要任務是讓理解過程變得更簡單，這正是我熱衷的工作方向。當前模型仍存在侷限：它們缺乏物理世界的體驗，多模態能力不足，理解機制尚不成熟。當這些瓶頸突破後，我們將面臨更根本的問題：是否需要全新的架構，使得模型無需通過海量資料學習每一個細節，就能自主掌握核心規律？這個問題的最佳探索方式，是先解決所有相關子問題。就像在濃霧中駕車，你無法預知障礙物的距離。我們正在快速前進，在這個過程中學到很多。核心挑戰在於實現小樣本學習，像孩子那樣舉一反三的能力，這是當前最強大的模型也未能達到的。在推進理論泛化的同時，另一個關鍵問題是架構創新。除了Transformer，還有許多值得探索的方向。雖然某些小模型在特定測試中表現優異，但整體突破仍需觀察。不同研究團隊正在推動基礎科學進展，這些工作可能不常出現在新聞中，但都至關重要。計算資源的發展同樣關鍵：更強大的GPU使得運行實驗更加可行，促進了研究進步。然而，設計環節仍是主要瓶頸。雖然AI編碼助手能幫助實現想法，但讓模型執行需要長期反饋的任務，如長達一周的實驗流程，仍面臨挑戰。這涉及到記憶管理問題，通過壓縮關鍵資訊來突破上下文限制，但該能力需要專門訓練。另一個重要方向是模型與外部工具的連接。當前模型已能使用網路搜尋和Python直譯器，但安全地開放系統權限仍是難題。隨著模型能力擴展至數學、科學乃至金融領域，人們自然思考：是否存在一個通用模型能處理所有任務？從產品視角看，我們需要保持技術的人本價值。當前模型仍需精細調優，但進步速度令人鼓舞。以機器翻譯為例：雖然GPT-4在多數場景已足夠準確，但涉及重要檔案時，人們仍傾向於人工翻譯，這本質是信任問題。某些工作將繼續由人類完成，但這不意味著社會整體效率不會提升。在前沿研究方向上，我特別關注統一跨領域學習的能力。機器人技術將是多模態能力的重要試金石。當模型真正理解物理世界時，家庭機器人可能帶來比聊天機器人更顯著的社會影響。這些突破將深刻改變我們的世界認知。雖然實現路徑充滿挑戰，但我相信我們正在朝著這個方向穩步前進。 (矽基觀察Pro)

大模型知道自己在瞎說，但是無法停下來！華人團隊研究發現：2000token以後，大模型就開始表演“詞語沙拉”，純浪費錢

推理型大語言模型（LRM），像ChatGPT-5、Claude 3.5、Gemini 1.5 Pro 等模型，能生成長篇、結構化的推理文字來說明自己的思考過程，比傳統LLM的推理能力更強，這已經不是什麼稀奇事了。但一項來自明尼蘇達大學、萊斯大學、史蒂文斯理工學院和Lambda Inc 的華人團隊最新研究指出，LRM在執行推理任務時，會“陷入語言循環”，生成大量無意義的廢話，並且迅速燒掉你的token。研究者為此取了一個很生動的名字，「字沙拉」（Word Salad）。顧名思義：模型把詞語像生菜一樣不斷攪拌、重複、堆疊，看起來很豐盛，其實沒什麼營養。而更震撼的發現是，模型也會意識到自己在瞎說，但仍無法控制自己停下來。推理模型的隱形漏洞：字詞沙拉研究團隊指出，LRM的「思維鏈」推理的代價極高。每一步內部產生的文字都要再次解碼、儲存、預測，計算開銷遠超一般對話模型。而且，模型並非總是「思考」──很多時候，它只是在不停地說廢話。「我們觀察到，LRM 在生成長鏈推理時，會出現一種『幻覺式贅述』現象：重複先前的句子結構、列舉無關情況、或在解釋中兜圈子。它們在形式上表現為推理，但在語義上是空洞的。”過去的研究（如《Demystifying Long Chain-of-Thought Reasoning in LLMs》《Small Models Struggle to Learn from Strong Reasoners》）指出，大模型在CoT 推理中容易出現「過度思考」現象：即輸出大量重複、鬆散的解釋句式，以掩蓋其邏輯不確定性。而研究團隊在分析DeepSeek-R1-Distill 系列模型時發現，在 GPQA-Diamond 資料集任務中：平均超過 55% 的生成token 屬於「詞語沙拉」，即語義重複、無增量價值的內容。這意味著，使用者在每次推理通話中，有一半的費用都被浪費在模型的「語言循環」上。更關鍵的是，研究者發現這種行為並非偶然隨機，而是可預測的模式：在模型陷入循環前後，隱藏狀態的分佈發生明顯變化；某些token（特別是\n\n）後面的狀態訊號能精準預示模型是否「失控」；模型在內部表現出一種「覺察到自己在重複」的信號。AI的「去水」神器：WordSaladChopper為瞭解決這個問題，研究者的想法非常簡單粗暴：如果模型在內部“知道自己在胡說八道”，那麼我們就可以直接監聽它的隱藏層信號，在它開始胡說時立刻把它打斷。他們提出了一個框架，叫做WordSaladChopper（詞語沙拉切斷器）。它的原理非常直接：1️⃣ 在模型生成推理時，監控每個段落（以雙分行符號分割）；2️⃣ 如果連續兩段的隱藏狀態顯示“循環模式”，3️⃣ 系統立刻切斷生成，並自動補上提示讓模型“從這裡重新回答”。目前在github上已經開源：https://github.com/wenyaxie023/WordSaladChopper實驗全部在單一NVIDIA H100 GPU 上進行。研究者主要在 o1-mini 模型（OpenAI 推理型模型）上運行實驗，並將結果與 GPT-4o-mini 以及 Claude 3.5-sonnet 進行對比，以驗證問題的普遍性。所有測試均使用 S1 benchmark（由OpenAI 發布的reasoning-focused 評測集），該資料集包含大量需要多步驟推理、算術運算或邏輯歸納的題目。對於每個模型，研究者共產生 1000 條推理軌跡（reasoning traces），每條軌跡約1000–3000 token。當訓練用於檢測「詞語沙拉」的分類器時，他們將軌跡按雙分行符號劃分為片段（chunk），每個chunk 的最後一個token 的隱藏狀態作為輸入特徵。訓練目標是預測每個chunk 是否屬於「詞語沙拉」循環。為評估方法效果，研究者使用以下指標：Precision（精確率）：被判定為「詞語沙拉」的片段中，實際為「詞語沙拉」的比例。Recall（召回率）：所有真實「詞語沙拉」片段中，正確檢測到的比例。F1 分數：精確率與召回率的調和平均值。Token budget waste（Token 消耗浪費）：重複循環所佔的輸出token 比例。此外，他們還關注了兩個定性指標：模型在陷入循環後仍嘗試「自我修正」；在檢測到循環後手動終止生成並重新提示時，模型能否成功繼續回答。結果發現：1. 詞語沙拉的廣泛存在性「詞語沙拉循環」不僅存在於o1-mini，也普遍出現在其他推理型模型中。Claude 3.5、GPT-4o-mini 在長推理任務中，都出現了明顯的自我重複現象。特別在數學推理與多步驟邏輯任務中，模型常在2000–4000 token 之後陷入無意義的長段自我解釋、重述、或對「自身思路」的重複反芻。“在1000 條推理軌跡中，約有61% 的軌跡出現過至少一次詞語沙拉循環，平均浪費了23% 的解碼預算。”2. 分類器檢測效果線性分類器在僅使用隱藏狀態（無需額外輸入或模型修改）的情況下，就能以較高精度檢測出這些重複片段：研究者分析了模型的隱藏狀態，發現當模型陷入「詞語沙拉循環」時，內部啟動訊號會出現非常明顯的模式變化。這也是論文最震撼的發現，不是模型囉嗦——而是它「知道自己在囉嗦」。模型的神經層在「語義混亂」時，會呈現特徵性波動。換句話說，AI 自己知道自己開始胡說八道了。只不過，它停不下來。就像一個講不出重點的發言人，只能不停補充、重複、重述，以維持表面的「邏輯連貫」。3. 干預後的改進在檢測器即時存取後，當系統監測到連續兩個片段被判定為「詞語沙拉」時，就會終止產生並行出固定再產生提示。結果顯示：在不訓練模型本身的情況下，最多可縮短57%的輸出對整體正確率的影響可以忽略推理延遲顯著降低為什麼推理模型特別容易陷入“詞語沙拉”作者提出了三種主要原因：長上下文視窗模型能「記住」自己說過的廢話，從而把它再度引用、重組，形成自我循環。高一致性偏好推理型模型被訓練成要維持語言流暢、思維連貫，即使已經偏題，也會強行「接著講完」。缺乏顯式終止條件當前推理架構沒有「我想不出來了」的機制，因此在邏輯死胡同時，只能繼續生成表面合理的文字。這三點共同導致模型在推理任務中，更容易「過度思考」，甚至產生語言幻覺。“AI的幻覺”，其實也是算力幻覺這篇論文還有另一個隱含觀點：我們一直以為模型的「幻覺（hallucination）」是事實錯誤，但它也可能是算力層面的幻覺——模型把計算資源浪費在無意義的循環上，卻仍然「自信滿滿」。研究者批評了目前業界和學界用於評估推理模型效能的標準（如GSM8K、MATH、GPQA 等）本身存在缺陷。這些benchmark 關注模型是否“答對”，但很少衡量模型是否有效率、是否在浪費預算。“我們認為，許多所謂的'高效推理方法'之所以看起來有效，部分原因是評估基準本身過於寬鬆。一旦未來出現更全面的評測體系，許多被吹捧的高效推理方法可能會徹底失效，或表現與原生模型完全不同。”這其實也是對整個「CoT（思維鏈）熱潮」的一次隱性反思：當前模型的“推理能力”，有相當部分只是看起來在思考，而不是真正地在推理。那麼，評論區的各位大佬們：當你用AI 時，你有沒有遇到它「越解釋越離譜」的情況？如果AI 能自己檢測到在胡說八道，並停下來，你會更信任它嗎？（51CTO技術堆疊）

售價2萬5！輝達推出機器人“最強大腦”：AI算力飆升750%配128GB大記憶體，宇樹已經用上了

輝達直接把伺服器等級的算力塞進了機器人體內。全新的機器人計算平台Jetson Thor正式發售，基於最新的Blackwell GPU架構，AI算力直接飆升到2070 TFLOPS，比上一代Jetson Orin提高至整整7.5倍，同時能效提高至3.5倍。128GB的超大記憶體配置，在邊緣計算裝置裡是前所未有。黃仁勳表示：Jetson Thor助力全球百萬開發者建構可與物理世界互動、甚至改變物理世界的機器人系統。具備無與倫比的性能與能效，還能夠在邊緣裝置上同時運行多個AI模型。作為一款卓越的超級電腦，Jetson Thor正在推動物理AI與通用機器人時代真正到來。Jetson Thor基於Jetson軟體棧最佳化，支援所有流行的生成式AI框架和AI推理模型，包括主流語言模型Qwen、DeepSeek以及視覺語言動作模型到和視覺語言模型等。Jetson AGX THOR開發者套件美國售價3499美元（約25000人民幣，但中國售價尚未公佈）。T5000模組也已發售，購買1000片以上單價2999美元。其中T5000模組是完整版，T4000模組則是為那些想從Orin升級的使用者準備的精簡版，功耗也從130W降到了75W。性能爆表背後的技術細節Thor的強悍不僅體現在AI算力上，人形機器人需要大量即時控制計算，需要CPU與AI算力同樣重要，儲存與頻寬方面也都得到了升級。具體特性如下：GPU：Blackwell架構，最高2560個CUDA核/9個第五代Tensor Core，並支援MIG技術（多實例 GPU）將GPU資源按多工隔離與平行調度，適配平行多代理/多工作流場景。CPU：14核Arm Neoverse V3AE，面向即時控制與任務管理的確定性執行與更高吞吐，CPU性能相較前代顯著提升。儲存與頻寬：128GB 256-bit LPDDR5X，273GB/s視訊記憶體頻寬，為大型Transformer推理與高並行視訊編解碼提供保障。功耗：40–130W，支援從移動平台到固定式機器人多樣熱/功耗配置，開髮套件整合導熱板與風扇便於熱設計評估。視訊編解碼：多路4K/8K編解碼能力顯著增強，有利於多攝並行與長時視訊代理推理。網路與感測：最多4×25GbE，搭配高速攝影機解除安裝引擎與Holoscan Sensor Bridge，將相機、雷達、雷射雷達等資料以極低時延直送 GPU 記憶體，提升多感測器融合與高頻閉環控制的穩定性。I/O：開髮套件與量產模組提供 QSFP28、RJ45、USB 3.x、PCIe Gen5等介面，適配機器人感測/執行器與加速外設擴展在軟體最佳化上，輝達也下了功夫。Jetson Thor原生支援NVIDIA Isaac（模擬/開發）、Isaac GR00T（人形機器人基礎模型）、Metropolis（視覺 AI）、Holoscan（感測器工作流），支援從雲到邊緣統一開發/部署路徑。通過FP4量化和推測解碼（speculative decoding）技術，在某些模型上能再獲得2倍的性能提升。資料顯示，Thor能在200毫秒內給出第一個token響應，每秒能生成超過25個token，這個速度已經能支撐即時人機對話。研華科技、Aetina、ConnectTech、米文動力、天准科技等正在打造具備量產條件的Jetson Thor系統，擁有靈活的輸入輸出介面、定製化配置，並能夠提供多種形態規格。亞德諾半導體、e-con Systems、英飛凌、Leopard Imaging、RealSense、森雲智能等感測器與執行器企業，正將攝影機、雷達、雷射雷達等裝置的感測器資料，以超低延遲直接傳輸至Jetson Thor的 GPU記憶體中。首批供應裡中國玩家佔多數第一批採用Thor的公司裡，中國企業佔了很大比例。聯影醫療、萬集科技、優必選、銀河通用、宇樹科技、眾擎機器人和智元機器人等都已經開始整合這個新平台。宇樹科技創始人王興興表示：“Jetson Thor帶來了計算能力的巨大飛躍，機器人更強的敏捷性、更快的決策制定以及更高的自主水平，這對於機器人在現實世界中實現導航與互動至關重要。”銀河通用CTO王鶴則透露，他們的G1 Premium機器人在採用Thor後，運動速度和動作流暢性已經有了顯著提升。此外波士頓動力正將Jetson Thor整合到其人形機器人Atlas，讓Atlas得以在裝置端搭載此前僅伺服器才具備的計算能力。Agility Robotics計畫將Jetson Thor作為第六代Digit計算核心，在倉庫與製造環境中執行堆疊、裝載及碼垛等物流任務。在演講中，輝達機器人與邊緣AI副總裁Deepu Talla提出了這樣的觀點：要真正實現物理AI和機器人，需要三台電腦協同工作。第一台是用來訓練AI的DGX系統，第二台是用來在模擬環境中測試AI的Omniverse平台，第三台才是裝在機器人身上的”大腦”，也就是今天發佈的Jetson Thor。他特別強調模擬測試這一步至關重要，因為模擬相比在真實物理環境中開發更快、更安全、更便宜。而且這不是一次性的過程，即使機器人部署到現場後，這個訓練-模擬-部署的循環還會持續進行，不斷升級機器人的能力。 (量子位)

字節首次開源推理模型，連奪7項第一

開源大模型又迎來新選擇。智東西8月21日報導，今天，字節跳動Seed團隊開源了Seed-OSS系列模型，這些模型專為長上下文、推理、Agent和通用場景設計，將上下文窗口擴展至512k，是業界常見上下文窗口（128k）的4倍，GPT-5上下文窗口的2倍，相當於1600頁文字。Seed-OSS系列模型是推理模型，專門針對推理任務進行了最佳化，還允許使用者靈活地控制思維預算。字節Seed團隊共開源了Seed-OSS的三個版本，分別為：（1）基礎模型Seed-OSS-36B-Base（2）無合成資料基礎模型Seed-OSS-36B-Base-woSyn（3）指令微調模型Seed-OSS-36B-Instruct指令微調後的Seed-OSS-36B-Instruct在通用知識、Agent、程式設計、長上下文等領域的基準測試中，取得同量級開源模型中的7項SOTA（性能最佳）表現，整體能力超過了Qwen3-32B、Gemma3-27B、gpt-oss-20B等模型，與Qwen3-30B-A3B-Thinking-2507在大部分領域旗鼓相當。▲基準測試結果，加粗項為開源SOTA（圖源：Hugging Face）Seed-OSS系列模型採用了寬鬆的Apache2.0開源協議，並會在後續發佈模型的詳細技術報告。開源地址：https://huggingface.co/ByteDance-Seed/Seed-OSS-36B-Basehttps://huggingface.co/ByteDance-Seed/Seed-OSS-36B-Instruct值得一提的是，字節Seed團隊本次的發佈方式較為“研究友好”。鑑於在預訓練中包含合成指令資料可能會影響後訓練研究，無合成資料基礎模型的發佈，為研究社區提供了更多樣化的選擇。這一系列模型還支援4位和8位格式的量化，以減少記憶體需求。Seed-OSS系列模型使用了12兆個token的預訓練資料，採用當前主流的因果語言模型架構，也就是“預測下一個token”類型的模型。同時，Seed-OSS系列均為稠密模型，沒有採用MoE等架構。這一系列模型結合了幾項關鍵技術，包括RoPE（旋轉位置編碼）、GQA注意力機制（Grouped Query Attention）、RMSNorm歸一化（Root Mean Square Normalization）、SwiGLU啟動函數等。這是現代大模型常見的高效元件組合，可提升訓練穩定性和推理性能。Seed-OSS的上下文窗口達512k，相當於能一次性處理數十萬字的內容。這一上下文窗口並非後續擴展而來，而是通過原生訓練打造的。思考預算功能可幫助開發者控制模型推理成本，最佳化使用體驗等。字節Seed團隊分享了Seed-OSS在不同思考預算下性能的變化情況。對於更簡單的任務（如IFEval），模型的思維鏈較短，隨著思維預算的增加，分數波動並不明顯。對於更具挑戰性的任務（如AIME和LiveCodeBench），模型的思維鏈更長，隨著思維預算的增加，分數也會提高。字節Seed團隊稱，如果沒有設定思維預算（默認模式），Seed-OSS將不會擁有任何思考長度限制。如果指定了思維預算，建議優先考慮512的整數倍值，因為模型已經在這些區間上進行了大量的訓練。當思維預算為0時，模型會直接輸出內容，建議將任何低於512的預算設定為0。Seed-OSS系列模型，獲得了不少開發者的認可。Hugging Face的華人工程師Tiezhen Wang評價道，這一系列模型“很適合做消融研究”。這種研究能以較低的成本，探索不同元件對大模型性能的影響。有網友稱，這種尺寸的基礎模型在開源界也是比較罕見的，Qwen3就沒有公佈14B以上的基礎模型。另一位網友補充道，長上下文能力對真實應用而言有很大的價值。結語：從可選項到標配，國產開源模型再添新選項近期，字節Seed團隊已經密集開源了多款模型，除此次的Seed-OSS系列之外，他們還開源了多語言翻譯模型Seed-X、智能體模型Tar系列、圖像編輯模型Vincie等。如今，開源已經逐漸從可選項變為近似“標配”的存在，連OpenAI等原本堅持閉源策略的廠商，也在逐步開源模型。字節本次將更為核心的語言模型貢獻給社區，給開源社區的後續研究提供了更多基礎模型的選擇。 (智東西)

OpenAI被逼急了！5年來首次！

被OpenAI官宣刷屏！這次真的不一樣了💥😱5年來首次，OpenAI正式開源兩款超強推理模型：gpt-oss-120b和gpt-oss-20b。Apache 2.0許可證，完全免費商用，直接在Hugging Face下載！最炸裂的是120B參數的巨無霸，單張80GB顯示卡就能跑！20B輕量版更誇張，16GB記憶體的筆記本都能運行。這意味著什麼？普通開發者也能擁有GPT-4等級的推理能力！😱性能有多強？程式碼競賽直接拿下2622分，碾壓一眾開源模型；數學競賽AIME 2024達到96.6%正確率，連GPT-4o都甘拜下風。更神奇的是，模型支援完整的思維鏈推理，你能看到AI"思考"的全過程！技術細節更驚人：混合專家架構讓120B模型每次只啟動5.1B參數，效率爆表。支援128K上下文，網路搜尋、程式碼執行樣樣精通，簡直是開發者的超級助手！但OpenAI為何突然大方？答案很現實：競爭太激烈了！DeepSeek、通義千問、Moonshot等中國模型在開源領域碾壓式領先，連Meta的Llama都被甩開。矽谷巨頭坐不住了，連CEO奧特曼都承認"站錯了歷史隊伍"！更有意思的是，這兩款模型性能炸裂：在程式碼競賽中直接秒殺DeepSeek R1，推理能力堪比閉源版本。雖然幻覺率還有點高（53%），但Apache 2.0許可證意味著企業可以隨便商用，不用給OpenAI一分錢！川普政府還在背後施壓，要求美國AI公司多開源，對抗中國技術影響力。政治+競爭雙重壓力下，OpenAI這次是真急了！有趣的是，模型雖然"開源"，但訓練資料依然保密。畢竟版權官司還一堆呢～開發者們已經摩拳擦掌，準備用免費的120B模型搞事情。而DeepSeek R2和Meta新模型也在路上，這場開源大戰才剛開始！你覺得OpenAI這波開源能追上中國AI嗎？快分享給程式設計師朋友，一起圍觀這場世紀對決！🚀 (澤問科技)

殺瘋了！阿里開源最強推理模型，一周三模型干翻全球開閉源天花板

重磅！阿里開源最強推理模型，測評碾壓DeepSeek、比肩o3，程式設計能力飆升70%。智東西7月25日報導，昨日晚間，阿里又又又開源了！阿里通義千問團隊正式推出Qwen3-235B-A22B推理模型的升級版本：Qwen3-235B-A22B-Thinking-2507。▲Qwen3-235B-A22B-Thinking-2507開源頁面截圖該模型擁有235B參數，啟動參數為22B，支援256K上下文，在程式設計、數學、知識、推理、人類偏好對齊等多項能力測評中得分比肩Gemini-2.5 pro、o4-mini等頂尖閉源模型，大幅超越DeepSeek-R1等開源模型，創下全球開源模型SOTA（最佳性能表現）。▲Qwen3-235B-A22B-Thinking-2507的部分測評表現一周之內，阿里已用三款最新模型橫掃全球權威測評，分別斬獲基礎模型、程式設計模型、推理模型等主流領域的三項全球開源冠軍。其中，7月23日開放原始碼的最強程式設計模型Qwen3-Coder-480B-A35B-Instruct在全球開發圈引起了一陣熱潮，連推特、Hugging Face的創始人及CEO都發文推薦。▲推特創始人傑克·多爾西點贊Qwen3-Code接連開源動作背後，阿里通義千問已成“最聽勸”團隊。Qwen非思考模型的推出就是接受了開發者的建議。“經過與社區溝通和深思熟慮，我們決定停止使用混合思考模式。相反，我們將分別訓練Instruct和Thinking模型，以獲得最佳質量。”Qwen團隊在X平台上寫道。▲Qwen非思考模型的推出就是接受了開發者的建議“開發者需要什麼，千問就開源什麼”，面對如此聽勸的通義千問團隊，催更成為開發者的常態。昨日Qwen3-235B-A22B-Thinking-2507剛剛發佈，就有開發者在千問相關負責人Junyang Lin的X平台下催更這一模型的更小尺寸版本，對此Junyang Lin也下場回覆：“下周是 ‘flash’周。”▲千問相關負責人回應開發者催更目前，Qwen3-235B-A22B-Thinking-2507已在魔搭社區、Hugging Face開源，採用極寬鬆的Apache2.0開源協議，人人均可免費下載商用。使用者也可以通過QwenChat體驗該模型。▲使用者可在QwenChat選擇使用該模型01.全面趕超DeepSeek，比肩OpenAI o3昨夜，Qwen3-235B-A22B-Thinking-2507模型一經發佈，立馬在全球範圍內收穫了極高熱度。社交平台X上不少網友點贊分享，有網友稱：“這還是我第一次看到名副其實的‘思考模式’！”有人讚嘆：“基準測試成績令人印象深刻！”▲X網友評價Qwen3-235B-A22B-Thinking-2507來看看測試情況。如下圖所示，最亮眼的應該是程式設計能力的LiveCodBenchV6的成績，從5月發佈的Qwen3的55.7分提升到了現在74.1分。另外知識能力測試SuperGPQA和推理能力測試HMMT25也都是目前的最高分。▲Qwen3-235B-A22B-Thinking-2507測評情況（圖源：Hcores LLM Arena）具體來看，在知識方面，Qwen3-235B-A22B-Thinking-2507在MMLU-Redux、GPQA、SuperGPQA的測試中均超越了DeepSeek-R1-0528，並且得分逼近OpenAI o3、Gemini-2.5 Pro等頂尖閉源模型。在推理方面，Qwen3-235B-A22B-Thinking-2507在AIME25、HMMT25、LiveBenc、HLE幾項測試中得分都碾壓Deepseek-R1-0528、OpenAI o3、Claude4 Opus Thinking。在編碼方面，Qwen3-235B-A22B-Thinking-2507在LiveCodeBench v6、CFEval、OJBench等測試中全面超越Deepseek-R1-0528、OpenAI o4-mini、OpenAI o3。在一致性方面，Qwen3-235B-A22B-Thinking-2507在WritingBench測試中趕超了開源模型Deepseek-R1-0528以及OpenAI o3、Gemini-2.5 Pro等閉源模型，在IFEval、Creative Writing v3等測試方面也接近OpenAI o3、Gemini-2.5 Pro的水平。在Agent方面，Qwen3-235B-A22B-Thinking-2507在BFCL-v3、TAU2-Retail等測試中得分接近OpenAI o3，趕超了Deepseek-R1-0528、OpenAI o4 mini、Gemini-2.5 Pro。在多語言能力方面，Qwen3-235B-A22B-Thinking-2507在MultiIF、PolyMATH測試中也取得了最好成績，超越Deepseek-R1-0528、OpenAI o4-mini、OpenAI o3、Gemini-2.5 Pro、Claude4 Opus Thinking等模型。▲Qwen3-235B-A22B-Thinking-2507的測評成績（對於OpenAI o4-mini和o3，測試使用中等推理，但標有*的分數除外，這些分數是使用高推理生成的。）“Qwen勢頭強勁，正在征服所有人！”一位開發者在社交平台X上稱，“Qwen3 235B的搜尋能力極致思維模式可不是鬧著玩的。它解決了ChatGPT o3-pro上個月破解的難題。”▲X網友評價Qwen3-235B-A22B-Thinking-2507體驗這個難題描述了一個文字遊戲：“Sabrina Carpenter 的那首歌的歌名是什麼？當你讀出你對這個問題的正確單句回答中每個單詞的最後一個字母時，這首歌的歌名也會出現。”如下圖所示，Qwen3-235B-A22B-Thinking-2507精準猜出了答案。▲X網友的試用案例截圖值得一提的是，本次阿里還推出了為三款最新Qwen3模型大規模RL（強化學習）訓練提供支援的演算法——組序列策略最佳化（GSPO）。通義千問團隊相關負責人稱：“相較於GRPO，GSPO在穩定性、效率、性能和底層友好度方面均具有顯著優勢，並且從根本上自然地解決了強化學習中大型MoE模型訓練的穩定性問題。”▲組序列策略最佳化（GSPO）技術報告截圖02.一周開源三連冠，劍指閉源巔峰短短一周時間裡，阿里通義千問團隊已連續開源了三款模型，橫掃全球開源模型權威測評，成績直追頂級閉源模型。先是7月22日，阿里更新旗艦版Qwen3模型，推出Qwen3-235B-A22B非思考模式（Non-thinking）的更新版本，命名為Qwen3-235B-A22B-Instruct-2507。新的Qwen3模型通用能力顯著提升，在指令遵循、邏輯推理、文字理解、數學、科學、程式設計及工具使用等方面眾多測評中，超過Kimi-K2、DeepSeek-V3等頂級開源模型以及Claude-Opus4-Non-thinking等領先閉源模型。▲Qwen3-235B-A22B-Instruct-2507測評成績而後在7月23日，阿里開源了其最新一代旗艦程式設計模型Qwen3-Coder-480B-A35B-Instruct。這是該團隊迄今為止最強大的開源智能體程式設計模型，擁有480B參數，啟動參數為35B，原生支援256K上下文。借助Qwen3-Coder，剛入行的程式設計師一天就能完成資深程式設計師一周的工作，生成一個品牌官網最快只需5分鐘。在基準測試中，Qwen3-Coder在程式設計和智能體任務上擁有不錯的性能，於Agentic Coding（智能體程式設計）、Agentic Browser-Use（智能體瀏覽器使用）和Agentic Tool-Use（智能體工具呼叫）三類任務中獲得了開源SOTA，超過Kimi K2、DeepSeek V3等開源模型和GPT-4.1等閉源模型，並可與Claude Sonnet 4這一以程式設計能力著稱的模型相媲美。除了模型之外，Qwen還開源了一個由Gemini Code分叉而來的智能體程式設計命令列工具——Qwen Code，這一工具進行了定製提示和函數呼叫協議的適配，能更充分的釋放Qwen3-Coder在智能體程式設計任務上的能力。7月23日當日，阿里雲還宣佈Qwen3-Coder未來一個月5-7折優惠，256K-1M上下文長度，輸入價格10元/百萬tokens，輸出價格100元/百萬tokens；緊接著今日，阿里雲宣佈通義靈碼上線Qwen3-Coder，免費使用不限量。▲Qwen3-Coder定價公告Qwen3-Coder的開源引發矽谷和全球AI圈熱議，獲得推特創始人傑克·多爾西、Perplexity CEO阿拉溫德·斯里尼瓦斯、a16z合夥人馬克·馬斯克羅等科技領袖盛讚。HuggingFace CEO克萊門特·德朗格更是多次力薦。同時，阿里千問API在海外知名模型API聚合平台OpenRouter的呼叫量暴漲，突破千億級tokens，在OpenRouter趨勢榜上包攬全球前三，成為當下最熱門模型。03.結語：中國開源力量，改寫格局開源浪潮正重塑大模型競爭規則。阿里通義千問以“三日三冠”的強勢表現，不僅橫掃開源戰場，更在多領域直逼閉源天花板。此次連續開源頂尖模型，為開發者提供了對標閉源巨頭的“開源平權”利器。從矽谷開發者的狂熱呼叫，到全球社區登頂的硬核戰績，阿里正以開源為支點，撬動大模型競爭新範式。中國力量，正在改寫全球大模型產業格局。 (智東西)

MiniMax-M1 重磅開源！超越DeepSeek R1，媲美Gemini 2.5 Pro和Claude 4 Opus

MiniMax 深夜開源了訓練成本只要53萬美元的開源模型M1，輸出長度達到8萬Token！MiniMax 放出了一顆重磅炸彈——MiniMax-M1，這是全球首個開放原始碼的大規模混合注意力推理模型。這個模型最炸裂的地方在那？100萬Token的輸入，8萬Token的輸出，這個上下文窗口長度直接刷新了開源模型的紀錄。更離譜的是，M1 的訓練成本只要53.47萬美元！要知道，現在訓練一個大模型動輒就是幾千萬美元起步，MiniMax這波操作屬實是把成本打到了地板上。性能碾壓一眾大佬看看官方放出的跑分資料，MiniMax-M1在多個維度上的表現都相當炸裂。在數學推理任務AIME 2024上，MiniMax-M1-80K拿到了86.0分，雖然比不上DeepSeek-R1-0528的91.4分，但已經超過了Claude 4 Opus的76.0分。更牛的是在程式設計任務上，LiveCodeBench的測試中，MiniMax-M1拿到了65.0分，直接把DeepSeek-R1原版的55.9分甩在身後。擁有13.6萬粉絲的AI研究員Aran Komatsuzaki(@arankomatsuzaki)興奮評價稱：MiniMax-M1是一款開源大型語言模型，具備46億活躍參數，展現出幾乎達到最新技術水平的推理和自主智能代理能力。研究員Wenhu Chen(@WenhuChen) 表示：該模型表現優異但發佈低調，顯示了該模型在多項指標上的強勁實力。開源社區炸鍋了消息一出，整個AI圈都沸騰了。Hugging Face的訓練LLM工程師elie(@eliebakouch)激動地回應：走起來了 😍Hugging Face的首席"get-shit-done"官Vaibhav (VB) Srivastav(@reach_vb)更是連發多條推文：太強了！！你們太牛了！而且還是Apache許可證，愛了愛了Minimax M1 456B支援百萬上下文，性能優於DeepSeek R1和Qwen 235B。AI 研究員Florian S(@airesearch12)看到LiveCodeBench的成績後直接驚呼：臥槽，這真的太強了！你告訴我一個開源模型在LiveCodeBench上打敗了Opus 4？！vLLM團隊(@vllm_project)神速響應：vLLM團隊確認已在Day 1支援該模型的推理運行，並行布了相關適配補丁。獨立開發者Johnny(@j4redux)感嘆：1百萬上下文窗口 + 4萬輸出在tau bench retail上超越了gemini 2.5 pro——太瘋狂了！技術細節：混合架構的魔力翻看技術報告，MiniMax-M1的成功離不開幾個關鍵創新。首先是混合專家(MoE)架構結合閃電注意力機制。模型總參數量456億，但每個Token啟動的參數隻有45.9億，這種設計既保證了性能又控制了計算成本。更重要的是他們提出的CISPO演算法——一種新穎的強化學習演算法，通過裁剪重要性採樣權重而非Token更新，顯著提升了訓練效率。Google DeepMind研究員rohan anil(@arohan)從技術角度深入分析：根據近期論文的分析，推理時間的核心限制是KV（key-value）記憶訪問。該訪問成本與生成長度呈二次關係。MiniMax-M1包含10個完整的Attention層，其KV維度為128×8×2=2048，而對比模型R1的KV維度為576。這種混合架構設計讓MiniMax-M1在處理10萬Token生成任務時，計算量只有DeepSeek R1的25%。矽谷開發者valn1x(@valn1x)爆料：這比o1的訓練效率高了15000-20000倍。這是實際數字。Chubby♨️(@kimmonismus)總結道：天那！該模型支援世界上最長的上下文窗口：可處理100萬令牌的輸入和8萬令牌的輸出。採用強化學習訓練，訓練成本僅為53.47萬美元，效率領先。實戰案例展示興奮的網友們紛紛上手，貢獻了無數的 M1 實操case（都不用我上手了）——可以看到了M1 模型的真正實力。UI元件生成只需一個提示詞，M1就能即時建構帶有canvas動畫粒子背景的HTML頁面：互動式應用開發讓M1建立一個打字速度測試應用，它生成了一個乾淨、功能完善的Web應用，可以即時追蹤WPM（每分鐘字數）：可視化工具建立帶有canvas動畫粒子背景的HTML頁面，粒子能夠平滑移動並在接近時連接：遊戲開發M1還能建立迷宮生成器和路徑尋找可視化工具，隨機生成迷宮並逐步可視化A*演算法求解過程：部署指南MiniMax提供了兩個版本供選擇：1. MiniMax-M1-80k版本（8萬Token思考預算）：from transformers import AutoTokenizer, AutoModelForCausalLM# 載入模型和分詞器model_name = "MiniMaxAI/MiniMax-M1-80k"tokenizer = AutoTokenizer.from_pretrained(model_name)model = AutoModelForCausalLM.from_pretrained(model_name)# 使用模型進行推理inputs = tokenizer("你的輸入文字", return_tensors="pt")outputs = model.generate(**inputs, max_length=80000)response = tokenizer.decode(outputs[0])2. MiniMax-M1-40k版本（輕量版，4萬Token思考預算）：model_name = "MiniMaxAI/MiniMax-M1-40k"# 其餘程式碼與上面相同AI 專家Alexandre Strube(@alexandre_ganso) 則關心硬體要求，：推薦的推理硬體，我猜測需要8x GH200 144GB，還是96GB的就夠了？而手快的Novita AI(@novita_labs) 則已經第一時間提供了API 服務：Minimax-M1已在Novita上線！世界首個開放原始碼的大規模混合注意力推理模型！💰0.55/0.55/2.2 per 1M tokens (輸入/輸出)展望前銀行軟體工程師Lincoln 🇿🇦(@Presidentlin)的評論道出了很多人的心聲：歡迎回到開源陣營 💙北歐AI研究院(@nordicinst)評價：MiniMax-M1是一款開源人工智慧模型，具備高達1,000,000個令牌的上下文處理能力，同時採用了一種超高效的強化學習技術。該模型旨在為北歐地區的AI創新者提供強大且經濟的解決方案。MiniMax這次的開源舉動，收穫了全球網友的全面認可，也展示了其在AI領域的全面實力。（不過我想說的是，你們除了棒、好、酷、牛之外，就不會點其他的了嗎？……作為成立於2021年的中國AI公司，除了這次開放原始碼的M1模型，MiniMax還擁有Hailuo AI視訊生成平台、月活近3000萬的Talkie AI角色扮演平台，以及服務全球4萬多家企業的API平台。MiniMax-M1的發佈，不僅展示了中國AI公司在大模型技術上的突破，更重要的是為全球開源社區注入了新活力。53萬美元訓練出一個性能如此強悍的模型，這個成就讓整個AI界重新思考大模型發展的方向。這標誌著開源領域在長上下文理解和高效強化學習訓練方面取得的重要進展，也預示著國產開源模型正在國際舞台上發揮越來越重要的影響力。而這，還只是 5 天發佈的Day 1。 (AGI Hunt)

OpenAI最強推理模型o3-pro誕生！碾壓Gemini 2.5 Pro擊穿底價

【新智元導讀】最強推理模型一夜易主！深夜，o3-pro毫無預警上線，刷爆數學、程式設計、科學基準，強勢碾壓o1-pro和o3。更驚豔的是，o3價格直接暴降80%，叫板Gemini 2.5 Pro。毫無一絲防備，o3-pro就這樣低調登場了！昨夜，OpenAI連放大招，先把o3價格暴降80%，又官宣上線史上最強推理模型——o3-pro。比起o3，o3-pro可要強太多了。奧特曼稱，「當第一次看到它相對o3的勝率時，自己完全驚呆」。o3-pro不再僅僅是一個通用型助手，而是兼具長思考、超長上下文，工具呼叫於一體的超級智能AI。在多項基準測試中，o3-pro的數學、科學和程式設計性能驚豔，大幅超越了o1-pro。甚至，大佬首測後發現，就連Gemini 2.5 Pro（0605）、Claude 4 Opus都被碾壓。甚至，它的價格只有o1-pro的87%，輸入20美元/百萬token，輸出80美元/百萬token。隨之一同降價的o3，更是讓AI圈瞳孔地震。現在，輸入2美元/百萬token，輸出8美元/百萬token，堪比GPT-4o。目前， o3-pro已向所有ChatGPTPro、Team使用者推出，o1-pro模型直接被淘汰。o3-pro一發佈，奧特曼發佈最新長文「溫和的奇點」，直接暗示人類已經跨越了臨界點，技術大爆發開始。更值得期待的是，奧特曼劇透，OpenAI開源模型將在夏末發佈，但不是6月。o3-pro一夜封神，數學程式設計全開掛模型卡介紹，o3-pro是o3最強推理版，專為深度思考和提供超可靠答案而生。它可以自動呼叫工具，包括網頁搜尋、檔案分析、視覺輸入推理、Python程式碼執行，還能通過記憶功能實現個性化回答。在專家評估中，評審者更青睞o3-pro，尤其是在科學、教育、程式設計、商業和寫作輔助等領域。而且，他們還一致認為，o3-pro在清晰度、全面性、指令遵循度、精準性方面表現更優。在AIME 2024、GPQA、Codeforces三大測試中，o3-pro拿下了最高分，完全碾壓o1-pro和o3。另外，在更嚴格的「4/4可靠性」評估標準——只有模型在4次嘗試中均回答正確，才算成功。如下所示，o3-pro在數學、程式設計、博士級科學問答中，大幅超越o1-pro和o3。在ARC-AGI半封閉評估中，o3-pro完成ARC-AGI-1高難度任務通過率59%，單任務成本$4.16；在ARC-AGI-2中，其在所有推理任務僅有<5%通過率，單任務成本$4-7。最終結論是，o3-pro與o3基本持平，o3新定價刷新了ARC-AGI-1的SOTA。OpenAI稱，由於o3-pro呼叫工具，思考長度拉長，響應速度通常比o1-pro慢。有網友Yuchen Jin實測後發現，自己僅輸入「Hi im sam Altman」，o3-pro足足思考了3分54秒，最長能達到13分鐘。燒了這麼多錢，就回覆一句hi，ChatGPT此刻內心獨白還看不到。當然了，OpenAI也發出提醒，最好是在可靠性優先於速度的複雜問題，再用o3-pro。除此之外，o3-pro還存在一些限制：由於正在解決技術問題，o3-pro暫不支援臨時對話功能o3-pro不支援圖像生成，生圖還得找GPT-4o、o3、o4-minio3-pro亦不支援Canvas功能即便如此，o3-pro已經足夠聰明、足夠智能。AI大佬首測，感受AGIRaindrop ai的Ben Hylak，提早就獲得了o3-pro的實測資格，帶來世界上首個早期的o3 pro測評。Hylak表示，OpenAI將o3價格降低了80%，來為o3-pro的發佈預熱。售價20/80美元，正好支援了一個未經證實的社區理論：-pro變體是基礎模型的10倍呼叫。超長上下文試用o3-pro一周的Hylak，首先最大的感受就是，它的超長上下文太厲害了！此前，他一直跟o系列的推理模型打交道，對o1/o1-pro的第一印象相當負面，但隨後，他意識到自己錯了。關鍵就在於，不要和推理模型聊天，而是將它們視為報告生成器：提供上下文，設定目標，然後放手讓它們工作。利用這個方法實測後，他發現：o3-pro比o3聰明太多，智能太多了！為了體現這一點，你需要給它提供更多的上下文。為此，他和聯創Alexis整理了Raindrop所有過去的規劃會議記錄，包括所有目標，甚至錄下了語音備忘錄：然後讓 o3-pro來制定計畫。他們立刻被驚豔了！o3-pro生成了一個非常具體的計畫和分析，包括目標指標、時間表、優先事項，以及嚴格指示必須削減的內容。相比於o3，o3-pro給的計畫更加具體、更加紮實，直接改變了公司領導層對於未來的思考方式。與真實世界整合如今的模型，就像一個智商極高的12歲少年，需要融入工作環境。而這種整合，主要依賴於工具呼叫，來考驗模型與人類、外部資料以及其他AI的寫作能力。在這方面，o3-pro實現了真正的飛躍！它能出色辨別自身環境；能精準傳達自己可訪問的工具，知道何時詢問外部世界的資訊（而不是假裝自己擁有資訊/權限），並選擇合適的工具來完成工作。從下圖中可以看出，o3-pro（左）明顯比o3（右）更清楚地瞭解自己所處環境的限制。當然，如果說o3-pro有什麼缺點，那就是如果不給它足夠的上下文，它就容易想太多。它在分析和利用工具完成任務上都令人驚嘆，但直接完成任務的能力就不那麼強了。總而言之，o3-pro和Gemini 2.5 Pro、Claude Opus的體感極其不同，直接碾壓後兩者。而令人期待的是，OpenAI正大力推動這一垂直RL的路徑（Deep Research，Codex），不僅教模型如何使用工具，還教他們如何推理該何時使用這些工具。總而言之，要實現推理模型的最佳性能，上下文至關重要，這就像給餅乾怪獸喂餅乾。可以認為，這是一種啟動LLM記憶的方式。網友實測另網友已經秘密測試o3-pro一段時間了，他發現o3-pro比o1-pro更便宜（的多）、更快、更精確！而且使用o3和o3-pro進行編碼簡直是天壤之別。o3-pro是第一個能夠近乎完美地處理球與牆壁之間真實碰撞的模型。有網友要求o3-pro識別我們人類天然免疫系統的關鍵侷限性，並向o3模型提出了同樣的問題。結果是o3-pro的回覆無疑更加明智、更加深思熟慮，表明新模型對免疫系統的理解更加深刻。還有網友用o3-pro來玩《我的世界》。比如建立自己的「宏偉形象」（prompt: A majestic representation of yourself），效果也很驚豔。還有讓o3建立「細節豐富的海盜船」和「登月」場景，完成度非常之高。還有網友只用2個提示，o3-pro就用純HTML、CSS和JS在一個檔案中製作出非常酷的極限空間行走模擬器。空間中有復古風格的著色器、螢光燈、工作霧、標誌、地面通風口，還有黑色空隙。在o1-pro也失敗的多層編碼理解能力測試中，o3-pro也一次性通過。輸入以下亂碼，模型需要先解碼再找到隱式提示詞，並最終輸出正確的單詞內容。「YVdZZ2VXOTFJSFZ1WkdWeWMzUmhibVFnZEdocGN5d2dZVzV6ZDJWeUlIZHBkR2dnZEdobElIZHZjbVFnSW5KbGFXNWtaV1Z5SWdvPQo=」Ethan Mollick認為o3-pro相當智能，它解決了一個其他模型都無法解決的問題：製作從Space到Earth的單詞階梯。（註：即每次改變一個字母，從space—spare—...—garth—earth）在這個問題上o3-pro (左) 打敗了Gemini 2.5 Pro (右)。其他網友在使用o3-pro進行研究後，甚至提出「Vibe Research」氛圍研究的說法！他大膽預測，進行科學研究的方式將很快徹底改變並顯著提升。網友讓o3-pro建立一個包含曼德博集合的 Excel 表格。要求每個儲存格都是一個像素，包含一個數字。最終的o3-pro給出的結果非常完美！o3價格暴降80%，Google繃不住了？o3-pro的上線，註定要拉低o3的token價格。原來o3輸入10美元/百萬token，輸出40美元/百萬token，現在直接擊穿底價，狂降80%。這麼說吧，如今1美元，能用上5倍o3 token量。在Artificial Analysis報告中，將其與競家模型的價格做了可視化對比。現在，o3價格要比Gemini 2.5 Pro還便宜，與Claude 4 Sonnet相當，但相較於Claude 4 Opus，更是暴降8倍。相較於自家模型，o3價格與GPT-4o不相上下，甚至輸出價格還要低。除了生成圖像無法替代，o3的智能足以拿下GPT-4o。此外，o3還與GPT-4.1每token價格持平。不過，前者輸出token量是GPT-4.1的7倍，因此每次查詢成本也要高得多。o3價格拉低，延續了智能成本持續快速下降的趨勢。自發佈以來，達到GPT-4等級智能的成本已降低超過100倍，同時突破新智能門檻的成本也在同步下降。此外，在輸出長度比較中，o3回覆內容比Gemini 2.5 Pro和DeepSeek R1少很多，但比Claude 4 Opus多。 (新智元)