OpenAI兩位首席最新採訪!終極目標是“自動化研究員”,招人並非尋找“最出圈”的人

OpenAI首席科學家Jakub Pachocki與首席研究長Mark Chen開啟同台爆料模式:

  • 氛圍編碼的下一步或許是氛圍研究(Vibe Researching);
  • OpenAI的最終目標是實現自動化研究員;
  • 現有評估指標正趨近飽和,下一個里程碑將涉及實際的發現和在經濟相關事物上取得實際進展;
  • 成功的秘訣在於保護基礎研究,避免被短期產品競爭所牽制;
  • ……

在a16z的這場最新訪談中,兩人不僅深入探討了GPT-5如何引入長遠推理、如何在基準飽和後衡量進度,以及為什麼強化學習不斷讓懷疑論者感到驚訝,還係統闡述了OpenAI的用人標準、未來路線圖以及算力分配這些重要問題。

一句話,凡是你對OpenAI感到好奇的問題,他倆幾乎都談到了~

(網友1):深入又有趣!
(網友2):聽起來像是一支有著清晰願景的強大團隊。

話不多說,訪談重點這奉上——

GPT-5:將推理與Agentic行為引入主流

採訪第一趴主要關於GPT-5。

Mark Chen表示,GPT-5是OpenAI試圖將推理能力帶入主流的一種嘗試

在此之前,公司有GPT系列(主打即時響應)和o系列(主打推理)兩類模型。從策略上講,他們不希望使用者被「我應該使用那種模式」所困擾,所以把未來重心放在了越來越多的推理和Agents上。

我們認為,GPT-5是朝著默認提供推理和更多Agentic行為的一步。

他還一再強調,雖然比起o3和以前的其他模型,GPT-5在很多方面都有改進,但這款模型最主要的意義還是在於將推理模式帶給更多人。

緊接著,主持人又問到了評估趨於飽和的問題,對此Jakub Pachocki也做了一番回答。

他一開口就直接承認,我們過去幾年一直使用的這些評估確實已經非常接近飽和。

具體而言,早期(從GPT-2到GPT-4)的訓練依賴大規模預訓練資料,並通過評估測試模型的泛化能力;但如今隨著針對嚴肅推理的強化學習出現,可以讓模型在特定領域深度訓練成專家,從而在某些評估中表現突出(卻不一定具備良好泛化性)。因此,目前缺乏更合適的評估體系。

他表示,未來OpenAI將重點關注模型是否能夠發現新事物,並在具有經濟相關性的領域中取得實際進展

OpenAI的宏大目標:實現自動化研究員

順著發現新事物這個話題,兩人又分別回答了「在GPT-5發佈之前,那種能力最讓你感到驚訝?」這個問題。

Mark Chen分享道,印象最深刻的是模型能夠推動非常困難的前沿科學研究

他曾經和一些物理學家、數學家朋友們共同體驗模型,結果大家發現模型能夠解答一些新的、非常複雜的問題。

這對他們來說有點像靈光一閃的時刻,它能夠自動化解決可能需要他們的學生花費數月時間的工作。

而Jakub Pachocki則表示,o3的出現真正讓他眼前一亮。尤其是在處理數學公式或推理時,它確實達到了一個“相當值得信賴”的水平。

至於未來,Jakub透露OpenAI的一個大目標是培養一個自動化研究員,而這個研究員可以自動發現新想法。

初步想法是,先自動化自家內部的研究工作,然後再考慮自動化其他科學領域的進展。

並且他提到了一個衡量這方面進展的「好方法」——觀察這些模型實際上可以進行推理和取得進展的時間跨度。

隨著我們達到近乎精通高中競賽的水平,現在的推理水平達到了大約1~5小時。

接下來OpenAI會專注於延長這個時間跨度,無論是在模型的長期規劃能力方面,還是在維持記憶方面。

對此Mark Chen也call back了一下評估的問題:

這就是為什麼我們對衡量模型自主執行階段間長度的評估很感興趣的原因。

強化學習遠未達到瓶頸,“不要將當下的狀態視為終局”

接下來話題跳轉到強化學習(RL)。

每當OpenAI發布模型新版本之後,很多人都會懷疑強化學習會達到瓶頸,但不知何故,RL依舊「生命力頑強」。

所以,為什麼RL運作得如此出色? RL有什麼讓人感到驚訝的地方嗎?

面對這一連串提問,Jakub Pachocki首先解釋了RL能運作良好的幾點原因:

  • RL的通用性和強大性:RL本身是一種非常通用的方法,它是一個極其強大的東西,建立在深度學習這一「令人難以置信的通用學習方法」之上。一旦RL系統開始運作,研究人員就可以探索很多想法。
  • 錨定現實世界:長期以來,OpenAI努力解決的問題是如何將這些模型錨定到現實世界,即「環境是什麼」。
  • 與語言模型的結合:語言模型突破的出現是關鍵轉折點。通過擴展深度學習來建模自然語言,OpenAI能夠建立出對人類語言具有「令人難以置信的細微理解」的模型。

Jakub Pachocki認為,過去幾年是OpenAI研究中最令人興奮的時期,因為他們發現瞭如此多的新方向和有希望的想法,而這些想法似乎都在奏效。

在談到獎勵模型(Reward Model)時,他預計獎勵模型的發展速度會非常快,並且未來會變得更簡單,就像幾年前大家討論如何建立合適的微調資料集一樣。

與此同時,他指出這一演變還遠未結束,OpenAI正在逐步向更接近人類學習的方向邁進,而當前的RL仍無法完全做到這一點

他特別強調,理解RL的關鍵思維模式是不要把當下的狀態視為終局,要保持靈活,因為相關的工具和方法論還會持續快速迭代和演變。

氛圍編碼之後:氛圍研究

對於當下大熱的AI程式設計,主持人也cue到了OpenAI本月發表的GPT-5-codex,這是一個專門針對程式設計進行優化的模型。

Mark Chen表示,在這項工作上他們投入了大量精力來調整預設,以更好地匹配程式設計師對等待解決方案時間長度的預期。

上一代程式設計模型的問題在於,花在解決最困難問題的時間太少,而花在解決簡單問題上的時間太多。

並且為了測試模型能力,他們選擇了去參加程式設計競賽。

Jakub Pachocki認為,程式設計競賽提供了一個很好的、封裝的測試,可以衡量模型在受限環境和時間範圍內提出新想法的能力

不過,Jakub自述作為一位歷史上極其不情願使用任何工具(甚至只使用Vim)的「老派」程式設計師,使用GPT-5最新的編碼工具讓他覺得「這不是(以前的)方式了」。

他現在意識到,模型可以在15分鐘內幾乎完美地完成30個檔案的重構,因此「你必須使用它」

他形容這種新的編碼方式目前仍有點處於“恐怖谷”(uncanny valley)階段,因為它雖然解決了許多問題,但“仍然有點像……不如一個同事那麼好”,並表示OpenAI的首要任務是擺脫那個恐怖谷。

而Mark Chen則將模型當前達到的水平和圍棋選手李世石面對AlphaGo時的經歷聯繫起來,他直言:

從解決八年級數學問題到一年後在編碼競賽中達到他們自己的表現水平,這種進展是瘋狂的。

他坦言,他們確實感受到了李世石所經歷的部分情緒,並思考這些模型「有什麼是它們做不到的」。

Mark Chen觀察到,這種進步已經改變了編碼的默認方式。他引用最近與高中生的對話,指出現在的年輕人認為默認的編碼方式是「憑感覺編碼」(vibe coding),而自己從頭開始編寫所有編碼機制反而成為一個奇怪的概念。

他最後總結道,氛圍編碼之後或許就是氛圍研究(vibe researching),也就是憑感覺研究。

OpenAI招募:並非尋找「最出圈」的人

具體回歸到人上,兩人也分享了他們最重視的研究特質。

Jakub Pachocki認為,堅持是關鍵

研究的本質是探索未知,許多嘗試都會失敗,因此必須做好失敗和從失敗中學習的準備。同時,要有清晰的假設,並且對進展保持極度誠實,不能為了證明結果而自欺欺人。

他強調,對自己的想法保持信心很重要,但更重要的是知道什麼時候它有效,什麼時候無效,從而調整方向。

Mark Chen補充說,研究沒有捷徑,需要經驗來學習如何選擇合適的問題。問題太難容易受挫,太簡單又缺乏滿足感。研究過程常伴隨大量失敗,需要學習什麼時候堅持,什麼時候轉向。

他指出,「趣味性」來自於閱讀好論文、交流和經驗積累。

而關於如何留住人才,Mark Chen表示,OpenAI的優勢在於他們專注於基礎研究,而不是簡單地模仿競爭對手。他們有清晰的研究目標,創新氛圍鼓舞了研究員,同時公司也專注於文化建設和人才培養。

Jakub則指出,他們尋找的不是最「出圈」的人,而是曾經解決過難題的人,具備紮實技術功底並願意迎難而上的人,那怕之前的領域不是深度學習

我們不會純粹尋找誰做了最引人注目的工作,或者誰在社交媒體上最引人注目(小扎:報我名得了~)。

在團隊文化方面,Jakub強調要保護基礎研究,不要被產品競爭的節奏帶偏,研究員需要空間思考未來一兩年的重大問題。

總之,OpenAI的長期目標是打造“自動化研究員”,因此不同研究方向會圍繞這一目標逐漸融合。以Mark Chen的話來說就是,粗線條上需要規定方向,但細節保持開放。

如果有10%的額外資源,會投向計算

如果你有10%的額外資源,你會把它投入到計算、資料整理還是人員方面?

面對最後一個關鍵問題,Mark Chen明確表示,計算資源是合理答案。

(笑)沒有研究人員會覺得自己有足夠的算力。

Jakub補充說,必須明確優先順序,否則可能在所有方向都只能做第二名。他強調計算仍是決定性因素,幾年前大家認為會轉向“數據受限”,但事實證明今天依舊處在強烈的計算限制下。

在算力有限的情況下,如今所有主流廠商幾乎都會面臨產品發表和研究那一個優先的問題。

對此,Jakub強調OpenAI的研究路線主要基於長期信念,而非短期市場回饋。並且當談到未來那些先驗會保持不變,他認為除了計算,還要考慮能源等物理約束。他預測機器人技術會在不久的將來成為主要焦點。

Okk,至此訪談內容告一段落,你怎麼看二人提到的上述觀點? (量子位元)