#思維鏈 | 熱門關鍵字 | 鉅亨號

長思維鏈讓大模型具備了推理能力，但如果過度思考，就有可能成為負擔。華為聯合中科院信工所提出了一種新的模式，讓大模型提前終止思考來避免這一問題。利用這種方法，無需額外訓練，就可以讓大模型的精度和效率同時提升。這種方式名為DEER，也就是動態提前退出推理（Dynamic Early Exit in Reasoning）的簡稱。其核心在於找到推理資訊質量下降之前的臨界點，並在臨界點及時讓大模型中斷推理。結果在多個推理基準中，DEER在DeepSeek系列推理LLM上始終有效，將思維鏈生成長度平均減少31%到43%，同時將精準率提高1.7%到5.7%。截至目前，DEER已在QwQ、Qwen3、Nemotron等更多推理模型和11個評測集上被驗證持續有效。停止推理的臨界點，需要動態規劃直觀上，隨著思維鏈中的推理路徑數量的增加，生成結論時可參考的資訊也會更多。如果能夠識別出推理資訊變得剛好足夠的臨界點（稱為珍珠推理，Pearl Reasoning），並迫使模型在此點停止進一步思考並直接輸出結論，就可以同時實現精準率和效率。這項研究的關鍵，就是在生成長思維鏈過程中找到這樣的珍珠。為了驗證這一動機，作者在每個推理路徑的轉換點強制模型從思考切換到直接生成答案。如果得到的答案是正確的，則驗證了這種珍珠推理的存在。如下圖所示，大約75%的樣本確實包含這樣的珍珠（即提前退出依然可以生成正確答案），甚至有36.7%的樣本只需不到一半的原始推理路徑就能得到正確答案。因此，如何從長思維鏈中找到Pearl Reasoning是實現高效推理的一個極具潛力和價值的課題。為此，作者在先導實驗中詳細分析了推理模型存在的過度思考問題，並探索了靜態早期退出對模型性能的影響，所有實驗都是在DeepSeek-R1-Ditil-Qwen-14B上進行的。作者首先讓模型在測試集上執行完整的推理（包括前後think標籤之間的思維鏈和結論），然後保留完整的思維鏈並根據思路轉換點（如“wait”等詞前後存在思路轉換）將其劃分為思維塊。對於這些樣本，作者保留了不同比例（20%-90%）的思維塊，並在每個截斷處附加一個思維結束標記分隔符，以強制終止思維鏈過程並生成最終結論。定量結果表明，在僅使用20%的推理步驟就提前退出的靜態設定下，對於MATH-500，有60.8%的正確回答樣本依然能保持正確；對於較難的GPQA，仍然有35.1%樣本可以保持正確。下圖說明了在不同的位置提前退出可以糾正的錯誤答案的不同比例。對於MATH資料集，當以40%的推理步驟退出時達到最高的糾錯率；而對於GPQA資料集，當以50%的推理步驟退出時達到最佳糾錯率。似乎每個問題的最佳早期退出點都不盡相同，並且與問題本身的固有難度密切相關。因此，依賴基於固定啟髮式的靜態提前退出策略是次優的，作者以此為動機設計了動態提前退出機制，通過尋找珍珠推理進一步糾錯提高精準性，同時減少生成的長度。那麼，DEER具體是如何工作的呢？三步判斷退出推理時機DEER將模型在推理中切換思維鏈的關鍵時刻視為提前退出的時機，並促使大模型在這些時刻停止思考並生成嘗試性答案。每個試驗答案的置信度，是推理中提前退出的決策參考。具體來說，DEER方法包含三個動作——推理轉換監控（Reasoning Transition Monitor）、試驗性答案誘導（Trial Answer Inducer）和置信度評價（Confidence Evaluation）。推理轉換監控是受budget force技術的啟發，將諸如“wait”“alternatively”這樣的單詞識別為思路轉換的臨界點並監控其出現。當思路轉換點出現時，將觸發答案誘導的動作——作者將“wait”取代為類似於“Final Answer:”的標記，以誘導模型立即生成驗證性答案。這將用於第三個動作，也就是置信度評價——如果置信度足夠高，則將模型設定為停止進一步思考，並基於已經生成的思維鏈直接生成結論；否則，撤銷答案誘導的動作，沿原路徑繼續推理。下圖展示了DEER對驗證性答案的置信度確實能夠反映出已生成的思維鏈是否足夠支撐大模型生成最終答案的資訊量。可以觀察到，當模型的推理過程不完整或有缺陷時，試驗答案往往表現出明顯較低的置信度；相反，當推理全面且邏輯合理時，模型生成的答案具有更高的置信度。直覺上，DEER中的答案誘導和置信度評價的計算在推理過程中引入了額外的延遲，特別是對於測試答案仍然很長的程式碼生成任務，這降低了通過縮短思維鏈序列而獲得的效率增益。為瞭解決這個問題，作者提出了分支平行加速（branch-parallel acceleration）策略，以進一步解決這些效率限制：多個分支線性化為單個序列，並使用專門的Causal Attention Mask平行生成；通過基於置信度的剪枝實現動態KV快取管理。該策略允許Trail Answer Inducer和Confidence Evaluation和正在進行的推理鏈生成之間的時間重疊，從而最佳化整體推理效率。另外，關於端到端時延的更多討論將在即將發佈的版本中加入。讓推理模型更快更強為了驗證DEER的表現，作者在6個挑戰性的推理benchmark上進行了測評，其中包含3個數學推理任務（MATH-500、AMC 2023、AIME 2024）、一個科學推理任務（GPQA Diamond）、兩個程式碼生成任務（HumanEval、BigCodeBench）。評測指標選用了準確率和生成長度兩個維度，分別衡量精度和效率。實驗選用了不同規模的DeepSeek-R1-Distill-Qwen系列模型（1.5B, 7B, 14B, 32B）。實驗結果表明，DEER在所有規模的模型和評測集上都展現出了驚人的效果。數值上，DEER相比於常規的Long CoT方法精準率平均提升了1.7到5.7個點，同時生成長度縮短了31%到43%。在小規模的模型上，DEER對於MATH-500和AMC 2023兩個難度稍低的benchmark提升更顯著。在大規模的模型上，DEER對於AIME 2024和GPQA兩個更具挑戰性的benchmark提升更顯著。尤其是當模型的推理能力與問題難度匹配時，作者的方法更加有效。在HumanEval和BigCodeBench兩個programming測試集上，作者的方法實現了平均減少64.9%的生成長度，而pass@1提高了2.1個點，並對0.95附近的閾值表現魯棒，不會有顯著波動。為了進一步驗證DEER對於端到端推理效率的提升，作者基於huggingface transformers在MATH和AMC兩個資料集上測試了平均每個樣本的推理時延。結果表明，在未使用作者提出的分支平行解碼加速的情況下，DEER就已經減少了43.4%到47.3%的推理時延。而採用了分支平行解碼後，推理時延的下降比例和序列長度的下降比例呈現超線性的關係。作者還通過樣例分析進一步證明了DEER的有效性。原始的推理模型在解決問題時傾向於切換思路探索多種解題方法，然而很可能問題的最優解決路徑只有一條，在後續的思路中模型會因為犯錯而得不到正確答案。為了驗證兩個不同結果那一個正確，模型會進行無休止的自我檢查，最終未能給出答案。但在DEER的工作模式下，這一問題得到了有效避免。 (量子位)

2025/02/07

•

o3-mini思維鏈公開，卻被曝光全是「作假」，奧特曼現身解釋網友炸鍋

OpenAI實屬急了，剛剛官宣公開o3-mini思維鏈。令人意想不到的是，CoT竟不是原生的，奧特曼現身解釋，全網炸鍋了。 OpenAI，真的被DeepSeek逼急了！活久見，就在剛剛，OpenAI把o3-mini的「思維鏈」公開了。比如問「怎麼今天不是星期五啊😅」？

2024/10/15

•

黃仁勳訪談｜思維鏈推理對算力需求可能提高至十億倍

2024年10月13日， NVIDIA 首席執行官黃仁勳參加Bill Gurley 和 Brad Gerstner 主持的對話節目。本次對話內容涉及通向通用人工智慧 (AGI) 的發展路徑、機器學習的加速處理程序、NVIDIA 的競爭優勢、AI 訓練和推理的重要性、AI 領域未來的市場格局、AI 對各行業的影響、未來的工作形態、AI 提升生產力的潛力、開源與閉源的平衡、Elon Musk 的 Memphis 超級叢集、X.ai、OpenAI 以及 AI 的安全發展等關鍵話題。黃仁勳在對話中稱，NVIDIA正在經歷一個超越摩爾定律的計算革命，AI時代的計算堆疊（包括硬體、軟體和應用）都發生了根本性變化，計算的邊際成本大幅下降，機器學習成為核心驅動力。他認為，NVIDIA的競爭優勢在於建構完整且相容的計算平台，從GPU到CPU，到網路，到軟體庫，形成一個整體的AI生態系統，而不是僅僅依靠單個晶片的性能提升。黃仁勳認為AI時代的核心是“飛輪”，即一個由資料獲取、資料處理、模型訓練和推理組成的複雜循環。NVIDIA的重點在於加速這個飛輪的每一個環節，尤其強調推理能力的重要性，並預見未來推理規模將遠超訓練。黃仁勳稱，目前 NVIDIA 超過 40% 的收入來自推理任務。而隨著推理鏈的出現，推理的規模預計將迎來千萬倍乃至十億倍的增長。這種增長潛力正是關鍵所在，但大多數人還未完全意識到這一點。