#Connectionism
剛剛,OpenAI前CTO Mira Murati公司Thinking Machines Lab發文,揭開了大模型不確定性的真相
Mira Murati 的新公司終於發聲了!Thinking Machines Lab 今天正式推出了他們的研究部落格 Connectionism,第一篇文章就直接瞄準了 LLM 推理中讓人頭疼的「非確定性」問題。這家由前 OpenAI CTO(及前臨時 CEO) Mira Murati 創立的公司,在今年 7 月剛完成了約 20 億美元的種子輪融資,估值達到 120 億美元。投資方包括 Andreessen Horowitz(領投)、Nvidia、AMD、Cisco 等科技巨頭。值得注意的是:在拿到如此巨額融資之前,公司還沒發佈任何產品。LLM「不確定性」的真相這第一篇博文《擊敗大語言模型推理中的非確定性》直擊要害。如果你是演算法相關從業者,你應該有發現:同樣的輸入,LLM 有時會給出不同的輸出。即使設定了相同的隨機種子,結果還是會變化。很多人以為是 GPU 並行執行和浮點數運算的鍋。但 Thinking Machines 的研究發現:真正的罪魁禍首是批次不變性缺失。什麼意思?當你向 LLM 傳送請求時,伺服器會根據當前負載情況,把你的請求和其他請求打包成不同大小的批次處理。問題就出在這裡——相同的輸入在不同批次大小下會產生不同的結果。這就像你去餐廳點菜,你點的菜味道竟然會因為廚房同時在做幾道菜而改變。聽起來很荒謬?但這就是現在 LLM 推理系統的現狀。浮點數的「蝴蝶效應」根本原因在於浮點數的非結合性:(a+b)+c ≠ a+(b+c)。不同的加法順序會產生微小差異,這種差異在深度神經網路中層層放大。具體到 LLM 推理中,矩陣乘法、RMSNorm、注意力機制等核心操作,在不同批次大小下會採用不同的約簡策略。你的請求結果竟然依賴於伺服器同時在處理多少其他請求——這太魔幻了。讓核心「批次不變」Thinking Machines 提出的解決方案很直接:實現批次不變的核心。RMSNorm:採用資料平行策略,避免分割約簡。矩陣乘法:使用固定核心配置,避免 Split-K 策略。注意力機制:採用固定分割大小策略,確保約簡順序一致。實驗結果可謂是令人驚訝:在 1000 次採樣中,原本會產生 80 個不同的完成結果。但在啟用批次不變核心後,所有結果完全一致。當然,這種確定性是有代價的。未最佳化版本性能下降約 2 倍,但經過改進後性能損失已經可以接受。Connectionism:不只是一個名字有意思的是,部落格名「Connectionism」是 1980 年代研究神經網路與生物大腦相似性的 AI 子領域名稱。Mira Murati(@miramurati)表示:Thinking Machines 使命的重要部分是提高人們對 AI 的科學理解,並與更廣泛的研究社區合作。今天推出 Connectionism 來分享我們的一些科學見解。聯合創始人 Lilian Weng(@lilianweng)補充了一個有趣的歷史細節:除了 Connectionism 與 AI 領域早期的聯絡,以及強調神經網路與人類大腦的相似性這個有趣的事實外,第一代 Thinking Machines 的旗艦產品就叫 Connection Machine。豪華團隊陣容除了 Mira Murati,核心團隊還包括 OpenAI 聯合創始人 John Schulman、前研究 VP Barret Zoph、前 AI 安全與機器人 VP Lilian Weng 等人。而 Andrew Tulloch 甚至拒絕了 Zuckerberg 15 億美元回 Meta 的邀請,選擇繼續與 Murati 一起創業。團隊約 30 人,其中三分之二來自 OpenAI。技術崗位年薪高達 45-50 萬美元。Bob McGrew 和 Alec Radford 等 OpenAI 核心研究者擔任顧問。Thomas Ip(@_thomasip)精闢總結道:LLM 推理非確定性不只是浮點數非結合性或 GPU 並行執行,核心罪魁禍首是批次方差,伺服器負載不可預測地改變了數值計算。批次不變核心解鎖了真正的可重複性,終於讓強化學習『線上策略』變得可行。這項工作的意義不僅在於解決了一個技術難題,更重要的是為 LLM 的可重複性和可靠性提供了科學方法。尤其是對強化學習等對一致性要求極高的應用場景,該文具有重要價值。科學確實在分享中變得更好。 (AGI Hunt)