剛剛,OpenAI前CTO Mira Murati公司Thinking Machines Lab發文,揭開了大模型不確定性的真相

Mira Murati 的新公司終於發聲了!

Thinking Machines Lab 今天正式推出了他們的研究部落格 Connectionism,第一篇文章就直接瞄準了 LLM 推理中讓人頭疼的「非確定性」問題。

這家由前 OpenAI CTO(及前臨時 CEO) Mira Murati 創立的公司,在今年 7 月剛完成了約 20 億美元的種子輪融資,估值達到 120 億美元。投資方包括 Andreessen Horowitz(領投)、Nvidia、AMD、Cisco 等科技巨頭。

值得注意的是:在拿到如此巨額融資之前,公司還沒發佈任何產品。

LLM「不確定性」的真相

這第一篇博文《擊敗大語言模型推理中的非確定性》直擊要害。

如果你是演算法相關從業者,你應該有發現:同樣的輸入,LLM 有時會給出不同的輸出

即使設定了相同的隨機種子,結果還是會變化。

很多人以為是 GPU 並行執行和浮點數運算的鍋。

但 Thinking Machines 的研究發現:真正的罪魁禍首是批次不變性缺失

什麼意思?當你向 LLM 傳送請求時,伺服器會根據當前負載情況,把你的請求和其他請求打包成不同大小的批次處理。問題就出在這裡——

相同的輸入在不同批次大小下會產生不同的結果

這就像你去餐廳點菜,你點的菜味道竟然會因為廚房同時在做幾道菜而改變。

聽起來很荒謬?

但這就是現在 LLM 推理系統的現狀。

浮點數的「蝴蝶效應」

根本原因在於浮點數的非結合性:(a+b)+c ≠ a+(b+c)。不同的加法順序會產生微小差異,這種差異在深度神經網路中層層放大。

具體到 LLM 推理中,矩陣乘法、RMSNorm、注意力機制等核心操作,在不同批次大小下會採用不同的約簡策略。你的請求結果竟然依賴於伺服器同時在處理多少其他請求——

這太魔幻了。

讓核心「批次不變」

Thinking Machines 提出的解決方案很直接:實現批次不變的核心。

RMSNorm:採用資料平行策略,避免分割約簡。

矩陣乘法:使用固定核心配置,避免 Split-K 策略。

注意力機制:採用固定分割大小策略,確保約簡順序一致。

實驗結果可謂是令人驚訝:

在 1000 次採樣中,原本會產生 80 個不同的完成結果

但在啟用批次不變核心後,所有結果完全一致

當然,這種確定性是有代價的。未最佳化版本性能下降約 2 倍,但經過改進後性能損失已經可以接受。

Connectionism:不只是一個名字

有意思的是,部落格名「Connectionism」是 1980 年代研究神經網路與生物大腦相似性的 AI 子領域名稱。

Mira Murati(@miramurati)表示:

Thinking Machines 使命的重要部分是提高人們對 AI 的科學理解,並與更廣泛的研究社區合作。今天推出 Connectionism 來分享我們的一些科學見解。

聯合創始人 Lilian Weng(@lilianweng)補充了一個有趣的歷史細節:

除了 Connectionism 與 AI 領域早期的聯絡,以及強調神經網路與人類大腦的相似性這個有趣的事實外,第一代 Thinking Machines 的旗艦產品就叫 Connection Machine。

豪華團隊陣容

除了 Mira Murati,核心團隊還包括 OpenAI 聯合創始人 John Schulman、前研究 VP Barret Zoph、前 AI 安全與機器人 VP Lilian Weng 等人。

而 Andrew Tulloch 甚至拒絕了 Zuckerberg 15 億美元回 Meta 的邀請,選擇繼續與 Murati 一起創業。

團隊約 30 人,其中三分之二來自 OpenAI。技術崗位年薪高達 45-50 萬美元

Bob McGrew 和 Alec Radford 等 OpenAI 核心研究者擔任顧問。

Thomas Ip(@_thomasip)精闢總結道:

LLM 推理非確定性不只是浮點數非結合性或 GPU 並行執行,核心罪魁禍首是批次方差,伺服器負載不可預測地改變了數值計算。批次不變核心解鎖了真正的可重複性,終於讓強化學習『線上策略』變得可行。

這項工作的意義不僅在於解決了一個技術難題,更重要的是為 LLM 的可重複性和可靠性提供了科學方法。尤其是對強化學習等對一致性要求極高的應用場景,該文具有重要價值。

科學確實在分享中變得更好。 (AGI Hunt)