#Seed | 熱門關鍵字 | 鉅亨號

字節Seed都開始用化學思想搞大模型了——深度推理是共價鍵、自我反思是氫鍵、自我探索是范德華力？！傳統的大模型長思維鏈推理基本把AI的思考過程等同於線性結構。但很多情況下，後續的一個關鍵結論，可能需要回過頭去驗證早早提出的假設。CoT把這種非線性的依賴關係忽略了。字節Seed在論文《The Molecular Structure of Thought》中首次給大模型的長鏈思維定義了分子式結構。在這種分子拓撲中，三種鍵是怎麼相互配合的？好的推理像分子結構團隊把DeepSeek-R1、gpt-OSS等強推理模型的長鏈思維拆成一步一步的，然後給每一步之間的“跳躍”打上標籤。打完標籤發現，所有有效的長鏈思維裡，其實就三種基礎動作來回組合。第一種叫深度推理，像共價鍵一樣結實。通俗來說就是類似“因為A所以B，因為B所以C”的硬邏輯推進。團隊在語義空間裡做了一個很形象的量化分析，把模型的每一步思考都當成一個點，看這些點最後會散成多大一個圈。圈子越小，說明模型越沒跑題，思考越聚焦。結果發現，加上深度推理之後，這個散點圈直接縮水22%。深度推理確實起到了收束雜念、鎖定核心邏輯的關鍵作用。第二種叫自我反思，像氫鍵一樣有彈性但穩定。類似於“等等，我剛才那步是不是想錯了”“讓我重新檢查一下前面的假設”，能把後面的思考拐回來跟前面的節點呼應上，形成一種折疊感。團隊測了模型自我反思時的思維軌跡，把每一步思考都看成語義空間裡的一個點，然後計算反思時會跳回多遠、落在那裡。發現81.72%的反思步驟，都會精準落回之前已經形成的靠譜思路區域裡。還對比了反思前後的思維範圍，反思前，語義空間體積是35.2，反思後，直接壓縮到31.2。再看聚類結果就更清楚了，反思之後，同一類正確思路的點會緊緊抱團，而那些零散、跑偏的分支會被自動推開。也就是說，自我反思氫鍵能把靠譜邏輯揉得更緊實、把跑偏想法篩出去、穩住整個推理大局，讓長鏈思考不再鬆散混亂。第三種叫自我探索，像范德華力一樣弱，但覆蓋面廣。這個就類似於“要不咱們試試這個角度”“有沒有另一種可能性”，在語義空間裡找新的解題路徑。量化分析顯示，加上探索行為之後，模型在語義空間裡的思維覆蓋範圍能從23.95擴大到29.22。雖然思路一打開穩定性就會下降，容易跑偏想歪，但能讓模型跳出死胡同，不卡在局部最優解裡，真正找到全新的解題路線。研究發現，所有強推理模型的三種思維行為比例和轉換規律都高度一致，相關性超過0.9，說明有效長鏈推理存在通用的穩定拓撲結構。你可能覺得“共價鍵”“氫鍵”只是個比喻，但論文發現，這個比喻背後藏著嚴格的數學對應。在Transformer裡，注意力權重的計算方式長這樣：眼熟嗎？這和統計力學裡的玻爾茲曼分佈一模一樣：如果把負注意力分數看作能量，那麼注意力權重就是模型在語義空間裡按“能量”高低選擇路徑的機率就是能量越低，被選中的機率越高。論文進一步分析了三種行為對應的“注意力能量”。深度推理通常發生在相鄰步驟之間，能量最低;自我反思會跳回較遠的步驟，能量中等;自我探索跳得更遠，能量最高.這就解釋了為什麼強推理模型的三種鍵比例如此穩定。因為模型的注意力機制本身就在追求最低能量的推理路徑，而深度推理、反思、探索正好對應了不同距離下的能量層級。語義同分異構體和智能熵減接著團隊還拋出了語義同分異構體的概念。這詞兒是借的化學，同樣的分子式，原子連接方式不同，就能搞出性質完全不同的物質。放到推理裡就是，同樣的題目，同樣的概唸點，用不同的”化學鍵“組合去解，出來的推理鏈條可以完全不一樣，但都能解對。但不是所有異構體都適合拿來教模型。這裡就要引入一個關鍵概念熵減。在熱力學裡，孤立系統總是自發走向混亂（熵增），而一個有效的長鏈推理過程，本質上就是在語義空間裡不斷降低不確定性——從一堆可能的方向中，逐步收斂到唯一正確的答案。這個過程就是“熵減”。而“注意力能量”機制，正是模型實現熵減的工具。模型的注意力天然偏好能量更低的路徑。當深度推理（低能量）被反覆選中，反思（中等能量）把前後邏輯折疊起來，探索（高能量）偶爾探路但不喧賓奪主，整個系統的“推理熵”就會快速下降，邏輯火速收斂。這如論文裡說的，只有那些能推動熵快速降低的“化學鍵”組合，才是模型真正能學會、能持續進化的穩定態。這在實驗中有個很典型的現象，從R1和OSS兩個不同強推理模型中蒸餾出的推理軌跡，語義層面的內容相似度高達95%，但混在一起訓練，模型反而崩潰了。這說明，長鏈推理的關鍵是思路結構必須穩定、統一，模型才能學得會。MoLE-Syn：從零合成穩定推理結構發現問題就要解決問題。基於這一整套發現，團隊搞了個叫MoLE-Syn的方法，來從零合成穩定的推理結構。具體操作就兩步。第一步，從強推理模型（比如R1、QwQ、gpt-OSS）的推理鏈裡，抽出一張行為轉移機率圖。這張圖裡每個節點是一種推理行為（化學鍵），每條邊是從一個行為跳到另一個行為的機率。第二步，拿著這張圖，讓普通的指令模型照著圖上畫的機率去生成推理鏈。用這個方法從零合成的訓練資料，喂給Llama或者Qwen，效果逼近直接蒸餾R1的水平。而且這麼做有一個大好處就是成本低。只要拿到那張行為轉移圖，普通模型就能自己生產合格的長鏈推理資料。團隊把用MoLE-Syn初始化過的模型拿去做強化學習，發現跑起來還特別穩。相比直接用蒸餾資料初始化的模型，MoLE-Syn版的在RL過程中收益持續增長，震盪也小得多。這說明一開始植入的思維結構夠穩，後面的強化學習就不會出現邏輯偏移。這項研究的負責人為字節Seed演算法專家黃文灝，曾在微軟亞洲研究院擔任研究員。第一作者是哈爾濱工業大學博士、字節Seed實習研究員陳麒光。合作單位還包括北京大學、2077AI Foundation、南京大學、M-A-P、中南大學。不得不說，這波操作有點當年薛定諤拿物理學公式推生物學那味兒了。給大模型推理這個捲得飛起的領域，開了個挺清爽的新腦洞。 (量子位)