剛剛，OpenAI前CTO Mira Murati公司Thinking Machines Lab發文，揭開了大模型不確定性的真相

2025/09/11

•

Mira Murati 的新公司終於發聲了！

Thinking Machines Lab 今天正式推出了他們的研究部落格 Connectionism，第一篇文章就直接瞄準了 LLM 推理中讓人頭疼的「非確定性」問題。

這家由前 OpenAI CTO（及前臨時 CEO） Mira Murati 創立的公司，在今年 7 月剛完成了約 20 億美元的種子輪融資，估值達到 120 億美元。投資方包括 Andreessen Horowitz（領投）、Nvidia、AMD、Cisco 等科技巨頭。

值得注意的是：在拿到如此巨額融資之前，公司還沒發佈任何產品。

這第一篇博文《擊敗大語言模型推理中的非確定性》直擊要害。

如果你是演算法相關從業者，你應該有發現：同樣的輸入，LLM 有時會給出不同的輸出。

即使設定了相同的隨機種子，結果還是會變化。

很多人以為是 GPU 並行執行和浮點數運算的鍋。

但 Thinking Machines 的研究發現：真正的罪魁禍首是批次不變性缺失。

什麼意思？當你向 LLM 傳送請求時，伺服器會根據當前負載情況，把你的請求和其他請求打包成不同大小的批次處理。問題就出在這裡——

相同的輸入在不同批次大小下會產生不同的結果。

這就像你去餐廳點菜，你點的菜味道竟然會因為廚房同時在做幾道菜而改變。

聽起來很荒謬？

但這就是現在 LLM 推理系統的現狀。

根本原因在於浮點數的非結合性：(a+b)+c ≠ a+(b+c)。不同的加法順序會產生微小差異，這種差異在深度神經網路中層層放大。

具體到 LLM 推理中，矩陣乘法、RMSNorm、注意力機制等核心操作，在不同批次大小下會採用不同的約簡策略。你的請求結果竟然依賴於伺服器同時在處理多少其他請求——

這太魔幻了。

Thinking Machines 提出的解決方案很直接：實現批次不變的核心。

RMSNorm：採用資料平行策略，避免分割約簡。

矩陣乘法：使用固定核心配置，避免 Split-K 策略。

注意力機制：採用固定分割大小策略，確保約簡順序一致。

實驗結果可謂是令人驚訝：

在 1000 次採樣中，原本會產生 80 個不同的完成結果。

但在啟用批次不變核心後，所有結果完全一致。

當然，這種確定性是有代價的。未最佳化版本性能下降約 2 倍，但經過改進後性能損失已經可以接受。

有意思的是，部落格名「Connectionism」是 1980 年代研究神經網路與生物大腦相似性的 AI 子領域名稱。

Mira Murati（@miramurati）表示：

Thinking Machines 使命的重要部分是提高人們對 AI 的科學理解，並與更廣泛的研究社區合作。今天推出 Connectionism 來分享我們的一些科學見解。

聯合創始人 Lilian Weng（@lilianweng）補充了一個有趣的歷史細節：

除了 Connectionism 與 AI 領域早期的聯絡，以及強調神經網路與人類大腦的相似性這個有趣的事實外，第一代 Thinking Machines 的旗艦產品就叫 Connection Machine。

除了 Mira Murati，核心團隊還包括 OpenAI 聯合創始人 John Schulman、前研究 VP Barret Zoph、前 AI 安全與機器人 VP Lilian Weng 等人。

而 Andrew Tulloch 甚至拒絕了 Zuckerberg 15 億美元回 Meta 的邀請，選擇繼續與 Murati 一起創業。

團隊約 30 人，其中三分之二來自 OpenAI。技術崗位年薪高達 45-50 萬美元。

Bob McGrew 和 Alec Radford 等 OpenAI 核心研究者擔任顧問。

Thomas Ip（@_thomasip）精闢總結道：

LLM 推理非確定性不只是浮點數非結合性或 GPU 並行執行，核心罪魁禍首是批次方差，伺服器負載不可預測地改變了數值計算。批次不變核心解鎖了真正的可重複性，終於讓強化學習『線上策略』變得可行。

這項工作的意義不僅在於解決了一個技術難題，更重要的是為 LLM 的可重複性和可靠性提供了科學方法。尤其是對強化學習等對一致性要求極高的應用場景，該文具有重要價值。

科學確實在分享中變得更好。 (AGI Hunt)