Mira Murati 的新公司終於發聲了!
Thinking Machines Lab 今天正式推出了他們的研究部落格 Connectionism,第一篇文章就直接瞄準了 LLM 推理中讓人頭疼的「非確定性」問題。
這家由前 OpenAI CTO(及前臨時 CEO) Mira Murati 創立的公司,在今年 7 月剛完成了約 20 億美元的種子輪融資,估值達到 120 億美元。投資方包括 Andreessen Horowitz(領投)、Nvidia、AMD、Cisco 等科技巨頭。
值得注意的是:在拿到如此巨額融資之前,公司還沒發佈任何產品。
這第一篇博文《擊敗大語言模型推理中的非確定性》直擊要害。
如果你是演算法相關從業者,你應該有發現:同樣的輸入,LLM 有時會給出不同的輸出。
即使設定了相同的隨機種子,結果還是會變化。
很多人以為是 GPU 並行執行和浮點數運算的鍋。
但 Thinking Machines 的研究發現:真正的罪魁禍首是批次不變性缺失。
什麼意思?當你向 LLM 傳送請求時,伺服器會根據當前負載情況,把你的請求和其他請求打包成不同大小的批次處理。問題就出在這裡——
相同的輸入在不同批次大小下會產生不同的結果。
這就像你去餐廳點菜,你點的菜味道竟然會因為廚房同時在做幾道菜而改變。
聽起來很荒謬?
但這就是現在 LLM 推理系統的現狀。
根本原因在於浮點數的非結合性:(a+b)+c ≠ a+(b+c)。不同的加法順序會產生微小差異,這種差異在深度神經網路中層層放大。
具體到 LLM 推理中,矩陣乘法、RMSNorm、注意力機制等核心操作,在不同批次大小下會採用不同的約簡策略。你的請求結果竟然依賴於伺服器同時在處理多少其他請求——
這太魔幻了。
Thinking Machines 提出的解決方案很直接:實現批次不變的核心。
RMSNorm:採用資料平行策略,避免分割約簡。
矩陣乘法:使用固定核心配置,避免 Split-K 策略。
注意力機制:採用固定分割大小策略,確保約簡順序一致。
實驗結果可謂是令人驚訝:
在 1000 次採樣中,原本會產生 80 個不同的完成結果。
但在啟用批次不變核心後,所有結果完全一致。
當然,這種確定性是有代價的。未最佳化版本性能下降約 2 倍,但經過改進後性能損失已經可以接受。
有意思的是,部落格名「Connectionism」是 1980 年代研究神經網路與生物大腦相似性的 AI 子領域名稱。
Mira Murati(@miramurati)表示:
Thinking Machines 使命的重要部分是提高人們對 AI 的科學理解,並與更廣泛的研究社區合作。今天推出 Connectionism 來分享我們的一些科學見解。
聯合創始人 Lilian Weng(@lilianweng)補充了一個有趣的歷史細節:
除了 Connectionism 與 AI 領域早期的聯絡,以及強調神經網路與人類大腦的相似性這個有趣的事實外,第一代 Thinking Machines 的旗艦產品就叫 Connection Machine。
除了 Mira Murati,核心團隊還包括 OpenAI 聯合創始人 John Schulman、前研究 VP Barret Zoph、前 AI 安全與機器人 VP Lilian Weng 等人。
而 Andrew Tulloch 甚至拒絕了 Zuckerberg 15 億美元回 Meta 的邀請,選擇繼續與 Murati 一起創業。
團隊約 30 人,其中三分之二來自 OpenAI。技術崗位年薪高達 45-50 萬美元。
Bob McGrew 和 Alec Radford 等 OpenAI 核心研究者擔任顧問。
Thomas Ip(@_thomasip)精闢總結道:
LLM 推理非確定性不只是浮點數非結合性或 GPU 並行執行,核心罪魁禍首是批次方差,伺服器負載不可預測地改變了數值計算。批次不變核心解鎖了真正的可重複性,終於讓強化學習『線上策略』變得可行。
這項工作的意義不僅在於解決了一個技術難題,更重要的是為 LLM 的可重複性和可靠性提供了科學方法。尤其是對強化學習等對一致性要求極高的應用場景,該文具有重要價值。
科學確實在分享中變得更好。 (AGI Hunt)