#Seed
字節Seed用化學思想搞AI,把DeepSeek-R1的腦回路拆成了分子結構
字節Seed都開始用化學思想搞大模型了——深度推理是共價鍵、自我反思是氫鍵、自我探索是范德華力?!傳統的大模型長思維鏈推理基本把AI的思考過程等同於線性結構。但很多情況下,後續的一個關鍵結論,可能需要回過頭去驗證早早提出的假設。CoT把這種非線性的依賴關係忽略了。字節Seed在論文《The Molecular Structure of Thought》中首次給大模型的長鏈思維定義了分子式結構。在這種分子拓撲中,三種鍵是怎麼相互配合的?好的推理像分子結構團隊把DeepSeek-R1、gpt-OSS等強推理模型的長鏈思維拆成一步一步的,然後給每一步之間的“跳躍”打上標籤。打完標籤發現,所有有效的長鏈思維裡,其實就三種基礎動作來回組合。第一種叫深度推理,像共價鍵一樣結實。通俗來說就是類似“因為A所以B,因為B所以C”的硬邏輯推進。團隊在語義空間裡做了一個很形象的量化分析,把模型的每一步思考都當成一個點,看這些點最後會散成多大一個圈。圈子越小,說明模型越沒跑題,思考越聚焦。結果發現,加上深度推理之後,這個散點圈直接縮水22%。深度推理確實起到了收束雜念、鎖定核心邏輯的關鍵作用。第二種叫自我反思,像氫鍵一樣有彈性但穩定。類似於“等等,我剛才那步是不是想錯了”“讓我重新檢查一下前面的假設”,能把後面的思考拐回來跟前面的節點呼應上,形成一種折疊感。團隊測了模型自我反思時的思維軌跡,把每一步思考都看成語義空間裡的一個點,然後計算反思時會跳回多遠、落在那裡。發現81.72%的反思步驟,都會精準落回之前已經形成的靠譜思路區域裡。還對比了反思前後的思維範圍,反思前,語義空間體積是35.2,反思後,直接壓縮到31.2。再看聚類結果就更清楚了,反思之後,同一類正確思路的點會緊緊抱團,而那些零散、跑偏的分支會被自動推開。也就是說,自我反思氫鍵能把靠譜邏輯揉得更緊實、把跑偏想法篩出去、穩住整個推理大局,讓長鏈思考不再鬆散混亂。第三種叫自我探索,像范德華力一樣弱,但覆蓋面廣。這個就類似於“要不咱們試試這個角度”“有沒有另一種可能性”,在語義空間裡找新的解題路徑。量化分析顯示,加上探索行為之後,模型在語義空間裡的思維覆蓋範圍能從23.95擴大到29.22。雖然思路一打開穩定性就會下降,容易跑偏想歪,但能讓模型跳出死胡同,不卡在局部最優解裡,真正找到全新的解題路線。研究發現,所有強推理模型的三種思維行為比例和轉換規律都高度一致,相關性超過0.9,說明有效長鏈推理存在通用的穩定拓撲結構。你可能覺得“共價鍵”“氫鍵”只是個比喻,但論文發現,這個比喻背後藏著嚴格的數學對應。在Transformer裡,注意力權重的計算方式長這樣:眼熟嗎?這和統計力學裡的玻爾茲曼分佈一模一樣:如果把負注意力分數看作能量,那麼注意力權重就是模型在語義空間裡按“能量”高低選擇路徑的機率就是能量越低,被選中的機率越高。論文進一步分析了三種行為對應的“注意力能量”。深度推理通常發生在相鄰步驟之間,能量最低;自我反思會跳回較遠的步驟,能量中等;自我探索跳得更遠,能量最高.這就解釋了為什麼強推理模型的三種鍵比例如此穩定。因為模型的注意力機制本身就在追求最低能量的推理路徑,而深度推理、反思、探索正好對應了不同距離下的能量層級。語義同分異構體和智能熵減接著團隊還拋出了語義同分異構體的概念。這詞兒是借的化學,同樣的分子式,原子連接方式不同,就能搞出性質完全不同的物質。放到推理裡就是,同樣的題目,同樣的概唸點,用不同的”化學鍵“組合去解,出來的推理鏈條可以完全不一樣,但都能解對。但不是所有異構體都適合拿來教模型。這裡就要引入一個關鍵概念熵減。在熱力學裡,孤立系統總是自發走向混亂(熵增),而一個有效的長鏈推理過程,本質上就是在語義空間裡不斷降低不確定性——從一堆可能的方向中,逐步收斂到唯一正確的答案。這個過程就是“熵減”。而“注意力能量”機制,正是模型實現熵減的工具。模型的注意力天然偏好能量更低的路徑。當深度推理(低能量)被反覆選中,反思(中等能量)把前後邏輯折疊起來,探索(高能量)偶爾探路但不喧賓奪主,整個系統的“推理熵”就會快速下降,邏輯火速收斂。這如論文裡說的,只有那些能推動熵快速降低的“化學鍵”組合,才是模型真正能學會、能持續進化的穩定態。這在實驗中有個很典型的現象,從R1和OSS兩個不同強推理模型中蒸餾出的推理軌跡,語義層面的內容相似度高達95%,但混在一起訓練,模型反而崩潰了。這說明,長鏈推理的關鍵是思路結構必須穩定、統一,模型才能學得會。MoLE-Syn:從零合成穩定推理結構發現問題就要解決問題。基於這一整套發現,團隊搞了個叫MoLE-Syn的方法,來從零合成穩定的推理結構。具體操作就兩步。第一步,從強推理模型(比如R1、QwQ、gpt-OSS)的推理鏈裡,抽出一張行為轉移機率圖。這張圖裡每個節點是一種推理行為(化學鍵),每條邊是從一個行為跳到另一個行為的機率。第二步,拿著這張圖,讓普通的指令模型照著圖上畫的機率去生成推理鏈。用這個方法從零合成的訓練資料,喂給Llama或者Qwen,效果逼近直接蒸餾R1的水平。而且這麼做有一個大好處就是成本低。只要拿到那張行為轉移圖,普通模型就能自己生產合格的長鏈推理資料。團隊把用MoLE-Syn初始化過的模型拿去做強化學習,發現跑起來還特別穩。相比直接用蒸餾資料初始化的模型,MoLE-Syn版的在RL過程中收益持續增長,震盪也小得多。這說明一開始植入的思維結構夠穩,後面的強化學習就不會出現邏輯偏移。這項研究的負責人為字節Seed演算法專家黃文灝,曾在微軟亞洲研究院擔任研究員。第一作者是哈爾濱工業大學博士、字節Seed實習研究員陳麒光。合作單位還包括北京大學、2077AI Foundation、南京大學、M-A-P、中南大學。不得不說,這波操作有點當年薛定諤拿物理學公式推生物學那味兒了。給大模型推理這個捲得飛起的領域,開了個挺清爽的新腦洞。 (量子位)
晚點獨家丨字節 Seed 又有核心成員離職,今年陸續走了 7 位
我們多方獲悉,字節 Seed 大語言模型團隊核心成員喬思遠近期離職,加入 Meta。喬思遠本科畢業於上海交通大學,2021 年從約翰·霍普金斯大學博士畢業後加入 Google,先後在 Google Brain、Google DeepMind 團隊從事 AI 研究工作。2025 年初,Google DeepMind 研究副總裁吳永輝加入字節負責 Seed 團隊,喬思遠一同加入字節。此外,Seed 視覺模型研究團隊核心成員蔣路、田值在今年中離職,其中蔣路加入蘋果。蔣路 2024 年 2 月加入字節,負責視訊生成 AI 研發,此前是 Google VideoPoet 的項目研究負責人;田值則是 2023 年年中加入字節,是 AI 創業公司光年之外的技術骨幹,曾擔任字節頂尖 AI 人才項目 TopSeed 的導師。算上他們三位,今年從 Seed 離職的研究骨幹已經有七位,其他分別是:馮佳時,豆包大模型視覺基礎團隊負責人,原新加坡國立大學教授。2021 年從新加坡國立大學加入字節,曾為張一鳴講解 AI 前沿技術。楊建朝,豆包大模型視覺多模態團隊負責人,2018 年加入字節負責視覺演算法研究,曾在 Adobe、Snap 等公司負責研究工作。喬木,豆包大模型大語言模型團隊負責人,2014 年加入字節,曾擔任搜尋工程部門負責人。孔濤,Seed 具身智能研究方向負責人,2019 年博士畢業後加入字節,從事機器人方向研究。我們瞭解到,這些核心成員離職後的崗位空缺,Seed 團隊還沒有都確定接任者:喬思遠離職後,工作由 AML 負責人項亮暫時接管;馮佳時、楊建朝離職後,工作由多模態互動與世界模型負責人周暢暫時接管;喬木離職後,沈科接手喬木的部分工作,沈科畢業於清華大學,2018 年加入字節;孔濤離職後,具身智能研究團隊多個研究小組負責人直接向李航匯報。2023 年中,字節從 AI Lab、AML、搜尋團隊等部門抽調人手組建 Seed (豆包大模型)團隊,Seed 不屬於字節原有業務體系內任何一個部門,負責人向 CEO 梁汝波匯報。字節已經是十幾萬人的超大公司,有複雜的架構和內部關係。且字節投入大模型研究也較晚,Seed 脫離各營收部門,直接向集團管理層匯報的獨立團隊更容易擺脫部門政治,可以提高研究效率,盡快訓練出行業第一梯隊的大模型。字節高層也回到創業初期狀態,頻繁約見 AI 研究者。今年中從 Seed 離職的蔣路、田值,都是在這個階段加入 Seed。一年多的飽和投入之後,字節在 2024 年 5 月發佈多款大模型,除了豆包大語言模型之外,還有角色扮演、語音識別、語音合成、圖像生成等細分方向模型,隨後又發佈多款視訊生成模型、音樂生成模型等。“我們的模型肯定是第一梯隊,可以對標國內外最好的模型。” 今年初的字節全員會上,還是 Seed 負責人之一的朱文佳說。今年 1 月,字節發起 Seed Edge,設定更寬鬆的考核機制,鼓勵研究者關注智能上限前沿探索的部分,如下一代模型設計、下一代學習範式、下一個 Scaling 方向等。吳永輝負責 Seed 後,原負責人朱文佳的重心調整為研發與體驗更相關的模型應用能力。隨後字節進一步整合公司的 AI 研究力量。字節 AI Lab 攜具身智能、AI for Science、Reponsible AI 研究團隊併入 Seed,向吳永輝匯報。字節依然保持著極高的人才密度。我們瞭解到,Seed 重點關注的每個研究領域,都有多個小組同時發力,探索不同的技術方向。 (晚點LatePost)