ChatGPT後訓練方法被OpenAI離職聯創公開,PPT全網轉~

離開OpenAI後,他們倆把ChatGPT後訓練方法做成了PPT,還公開了~

正如網友所言,可能沒有人比他倆更瞭解ChatGPT後訓練的事兒。

畢竟,一位是OpenAI聯合創始人,曾經也是OpenAI後訓練共同負責人的John Schulman,另一位是曾經在OpenAI當後訓練研究VP的Barret Zoph

John Schulman發推文稱:

啊,我和Barret Zoph最近在斯坦福做了一場關於後訓練以及分享開發ChatGPT經驗的演講,可惜沒被錄下來,但我們有PPT。

網友不語,只是一味點贊收藏。

有曾在現場的網友親證,演講質量真不戳。

還有網友在感謝完倆人後想要更多:

如果能分享更多關於訓練後階段的最新進展,比如推理模型、DeepSeek RL等,那就太好了。

以下是這次的PPT~

ChatGPT後訓練方法PPT版

先是自我介紹。

Barret Zoph和John Schulman曾在OpenAI共同擔任後訓練聯合負責人,從2022年9月開始合作,主要目標是開發一個對齊的聊天機器人,最初的團隊被稱為“RL”,只有少數幾個人。

接著介紹了後訓練(Post-Training)階段是什麼:

後訓練階段是模型開發的最後一步,目的是讓模型更像一個助手,遵循特定格式,並確保其適合實際生產環境,這一階段通常與產品團隊緊密合作。

用幾個具體例子,對比基礎模型和後訓練模型的區別:

後訓練VS預訓練總的來說:

計算資源需求更低,迭代周期更快;使用基於人類反饋的強化學習(RLHF);教模型使用工具;塑造模型個性;引入拒絕/安全行為;行為嚴重依賴預訓練階段的泛化能力。

後訓練包含三個主要組成部分:監督微調(SFT)、獎勵模型(RM)訓練、強化學習(RL)。

以下是三個組成部分的具體介紹:

隨後回顧了ChatGPT和OpenAI後訓練的早期發展歷程。

包括GPT-3、GPT-3.5的發佈、RL團隊的工作、GPT-4的準備過程、決定發佈ChatGPT的細節以及發佈後意外成功,實現病毒式傳播。

ChatGPT曾一度被大批湧來的使用者擠崩:

隨時間推移,ChatGPT模型和功能逐漸更加複雜和多樣化:

2022年12月最初版本和2025年1月版本的對比:

加入了許多功能:

然後講了在功能擴展和公司規模增長的背景下,如何通過主線模型(mainline model)設定來整合變化並降低風險,包括在較小規模上測試;在頻繁的更新中逐步整合更改,如果發現問題能夠迅速回滾到之前的版本。

在這當中也出現了一些失誤和挑戰……

比如模型在生成文字時出現了很多拼寫錯誤。

強化學習(RL)後發現拼寫錯誤率有所上升,在監督微調(SFT)資料集中發現了拼寫錯誤的提示。

最終通過對比過程改進,將兩個生成的文字(completion 1和completion 2)進行比較,選擇改進後的版本,專家會對比這兩個文字,有時會寫出改進後的版本。

此外還有過度拒絕的情況。

早期的拒絕行為過於冗長:

有一些方法比如通過改變時態,可以繞過模型的拒絕機制。

倆人隨後講解了為何拒絕行為難以處理,有邊界問題和人類資料問題。

解決方案包括配對資料、有針對性的邊界示例、對標註資料進行分層處理。

另外,模型還會出現偏見。

還可能會生成虛假或誤導性的內容。

在涉及品味、主觀性和高投入的任務中,如何獲取高品質人類反饋也是一大挑戰。

通過人類與AI團隊協作進行標註是解決方案之一。

他們還探討了不同來源的人類反饋在提示多樣性、標籤質量、領域、正確性、意圖和合規性等方面的優缺點,並提出了如何利用它們各自優勢問題。

而要讓模型按照我們的意願行事,第一步是弄清楚我們想要什麼。

倆人表示這一步出乎意料的難,要明確規範。

OpenAI2024年5月發佈了模型規範。

還有一個開放性問題,如何保持模型多樣性和趣味性。

兩人提到通過後訓練迭代和模型蒸餾來保持或強化這些特性。

總結了以InstructGPT、Llama 3.1等為代表的“兩個時代”的模型訓練流程,包括從基礎模型到對齊模型的訓練步驟,最終目標是生成一個經過多次最佳化的對齊模型。

提出了一個開放性問題,探討如何在模型訓練和最佳化過程中恢復並保持基礎模型中的多樣性和趣味性,包括不同的風格和世界觀。

最後他們推薦了一些關於後訓練的論文和blog:

倆人都被OpenAI前CTO挖走了

John Schulman和Barret Zoph離開OpenAI後,現在都在幹什麼——

被曝雙雙加入了OpenAI前CTO Mira Murati的新創業團隊Thinking Machines Lab。

Mira Murati去年9月官宣離職OpenAI,離職後不久,就在10月份,她被曝籌備新公司/AI實驗室,吸金超1億美元。

Mira Murati已經挖到了20多位頂尖研究員和工程師投奔,都是來自OpenAI、Google、Anthropic等巨頭。

這其中就包括Jonathan Lachman和Barret Zoph。

John Schulman去年8月離開的OpenAI,先是加入了OpenAI競爭對手Anthropic,致力於LLM的對齊工作,短短六個月後再次離職,加入了Murati的創業項目,擔任首席科學家。

至於Barret Zoph,去年9月份和Mira Murati幾乎同時離職,隨後就加入了Mira Murati的團隊,擔任CTO。

參考連結:
[1]https://x.com/johnschulman2/status/1891539960743743756
[2]https://www.businessinsider.com/openai-employees-joining-mira-murati-new-startup-2025-2#john-schulman-1 (量子位)