從大語言模型到推理模型。
OpenAI 今年最重要的產品o1 模型如期發佈。AI 最大獲利者輝達的股價兩天累計漲了10%。
消耗更多算力答題的o1,看到問題會先「思考」 數十秒、甚至更久,再給出回應。 OpenAI 稱,它回答奧賽數學題或完成程式設計任務時,表現遠超市場上已有的大模型。
但OpenAI CEO 山姆·阿爾特曼(Sam Altman)的好心情很快就被打斷。在他宣佈o1 全量上線的推文下,排在第一的評論是:「到底什麼時候能用上新的語音功能??」他立刻反擊:「能不能先花幾個星期感謝感謝這魔法般的智能,然後再要新玩具?
這位用戶追著阿爾特曼要的不是什麼新玩具,是OpenAI 在今年5 月就允諾即將到來的GPT-4o 端對端語音功能。在當時的現場展示中,這個新的AI 聲音自然、反應極快,還知道什麼時候插話,讓旁人難辨真假。依照官方時間表,上千萬ChatGPT 付費使用者本將在幾周內使用此功能,但一直被跳票到現在。
過去一年裡,OpenAI 的產品都是類似的「期貨」:GPT-4 已上線一年多,OpenAI 的下一代模型GPT-5 仍然沒有發布跡象。 OpenAI 今年初發表的視頻模型Sora 也沒有大規模開放,到現在都只有少數被他們挑選的行業人士實際用過。
業界第一的跳票一次次磨損著資本市場對AI 大模型的耐心。一些中國科技巨頭和大模型公司今年年中暫緩訓練基礎模型,把更多資源投到應用程式開發,或把GPU 算力租給外部客戶。他們擔心科技沒太多進步空間,開始減少投入、爭取回報。
本周之前,輝達市值從6 月的高點下跌超20%,微軟市值也縮水了13%,各自蒸發了數千億美元。微軟CFO 稱,他們投在大模型領域的數百億美元,得等15 年或更久才能回本。
紅杉的研究顯示,去年AI 領域的投入比收入多了1,200 多億美元,今年可能會擴大到5,000 億美元。但除了輝達,沒有幾個公司見到大比例的收入成長。越來越多業內人開始討論,如果大模型的能力就到此為止,AI 泡沫會不會又一次破滅?
「泡沫」 不一定是壞事。新科技改變世界之前,都會出現願景遠超現實的階段。差別在於願景能不能兌現,什麼時候兌現。如果長期不能兌現,就是泡沫破滅、公司破產,嚴重的泡沫破滅甚至可以擊垮一個領域甚至多個經濟體。如果願景兌現了,一切不過是技術進步的註腳。
OpenAI 發佈的o1,至少會暫時扭轉大模型已經沒有進步空間的猶疑,為大模型「泡沫」 續命。
任何新技術都需要不斷進步,才有可能改變這個世界。 o1 的獨特之處不只是程式設計、數學、物理等領域的表現大幅提升,也在於給一眾OpenAI 追隨者和他們背後的投資者找到了前進的路徑:以往算力更多用在「記憶知識”——用大量數據訓練模型,o1 則分配了更多算力在“答題時的思考”,即推理過程,邏輯能力大幅提升。
在此之前,大模型訓練已經陷入原Scaling Laws 的瓶頸,模型參數規模擴大後,效能提升逐漸放緩。
專門針對數學、編程、科學問題優化的o1-mini 還展現出了不小的應用潛力,它既可以直接幫助科學家和開發者提升工作效率,也指示了在其它高價值垂直領域開發性能、安全性都更好的模型的方法。
像往常的幾次發佈一樣,OpenAI 精心挑選了釋放o1 的時機。據媒體報導,o1 發布前,OpenAI 正在以1500 億美元估值尋求70 億美元的新融資,潛在投資者包括蘋果、輝達、微軟、阿聯投資基金等。現在,這場資源投入競賽又多了一個持續下去的理由。
這次OpenAI 發布了兩個供使用者使用的模型:o1-preview 和o1-mini,並預告更多o1 系列模型正在路上。
之所以將系列命名為o1,而非沿用GPT,是因為二者的訓練方式有明顯變化。在OpenAI 介紹o1 的部落格文章裡,多次稱其為推理模型(reasoning model),而非先前稱呼GPT 時常用的大語言模型(Large Language Model)。
GPT 等傳統大語言模型的整體訓練邏輯是預訓練(pre-training)加精調(fine-tuning):先在預訓練階段用海量資料教大模型學會預測下一個詞,然後在精調階段讓大模型學習特定領域的知識,讓人類寫回答教大模型什麼是人想要的答案,機器根據回饋來改進。
o1 的新關鍵詞是強化學習(Reinforcement Learning)和思維鏈(Chain of Thought,CoT)。
OpenAI 如此描述這個過程:「透過強化學習,o1 學會如何磨練自己的思維鏈,並完善它所使用的策略。它學會了識別和糾正自己的錯誤;將復雜步驟分解為更簡單的步驟;在當前方法不起作用時嘗試不同的方法。
2016 年擊敗圍棋世界冠軍的AlphaGo 和後續模型AlphaZero 就使用了強化學習,讓模型自我對弈(self-play),學習在不同狀態(棋局)下,用什麼策略可以提高勝率。模型還能在不斷嘗試中產生數據,用來訓練模型。
OpenAI o1 使用了類似的方法:給大模型提供一步步解題的資料,讓模型學著自我糾偏,學習每步應該怎麼回答問題能得到最優答案。
「AI 模型的能力還是來自資料,若資料裡原本沒有或不充分的東西,模型是學不會的,o1 相當於實現了一個合成專業資料的辦法。有了這些專業資料, o1 就能學到專業能力了。
o1 回答問題時也會把問題拆解成一系列小問題,逐步推理回答,這就是「思維鏈」。根據OpenAI 展示,o1 回答問題的過程如下(使用者使用的版本裡,OpenAI 隱藏了思維鏈內容):
問題(原文為英語):
寫一個bash 指令碼,接收一個矩陣(用字串表示,格式為'[1,2],[3,4],[5,6]'),並以相同的格式印出該矩陣的轉置。
o1-preview 的解題思維(思維鏈):
使用者請求編寫一個bash 指令碼,該指令碼可以接收表示矩陣的字串,例如'[1,2],[3,4],[5,6]',並以相同的格式輸出其轉置。
我們首先來理解輸入和輸出的格式。
輸入:'[1,2],[3,4],[5,6]',它對應的矩陣是:
1 2
3 4
5 6
因此,輸入是一系列由方括號包裹並用逗號分隔的行。
該矩陣的轉置為:
1 3 5
2 4 6
因此,所要求的輸出為'[1,3,5],[2,4,6]'。
總體任務:
編寫一個bash 指令碼,該指令碼接收一個參數(表示矩陣的字串),並以相同的格式輸出其轉置。
好的,現在我們來考慮如何在bash 中解析輸入字串,建構矩陣(可能使用陣列),進行轉置,然後輸出轉置後的矩陣,保持相同的格式。
約束條件:
-由於這是bash,我們必須小心處理字串解析。
-指令碼應接受輸入字串作為參數。
方法:
-解析輸入字串以提取矩陣元素。
-將矩陣建構為一個陣列的陣列。
-對矩陣進行轉置。
-以相同格式輸出轉置後的矩陣。
實現步驟:
1. 將輸入字串作為參數捕獲。
2. 移除所有空格(如果有的話)。
3. 解析輸入字串,將數字提取到陣列中。
-由於輸入格式為'[1,2],[3,4],[5,6]',我們可以:
--如果需要,移除外部括號。
--通過'],' 分割字串以獲取每一行。
--對每一行,移除'[' 和']',然後通過',' 分割獲取元素。
4. 在bash 中建構二維陣列(陣列的陣列)。
-由於bash 陣列是一維的,我們需要模擬二維陣列。
5. 對矩陣進行轉置。
-進行轉置時,我們需要將行與列交換。
6. 以所需格式輸出轉置後的矩陣。
-重新構造輸出字串,格式為'[1,3,5],[2,4,6]'。
現在,逐步開始編寫程式碼。
潛在問題:
-Bash 本身沒有原生的多維陣列,因此我們需要進行模擬。
-我們需要處理可能是多位數的數字。
接下來,我們可以一步一步開始編寫這個bash 指令碼的框架。
【略】
現在讓我們使用範例輸入'[1,2],[3,4],[5,6]' 來測試這個指令碼。
讓我試著模擬下,會發生什麼。
我會將其寫下來,作為一個答案。
不論是強化學習還是思維鏈,都不是OpenAI 首先提出的技術方向。
在o1 上線前,Google DeepMind 就在7 月發表了用類似方法訓練的AlphaGeometry 模型更新版,能在國際奧數競賽IMO 中拿銀牌。
但OpenAI 再一次證明了他們可以在行業基礎上,率先拿出效果更驚人的模型。據OpenAI 介紹,他們專為國際資訊學奧賽訓練的o1-ioi 模型能拿到金牌。
憑藉新的訓練和推理方法,OpenAI o1-preview 解決高難度數學題、處理程式設計任務大幅超過GPT-4o。例如在競賽數學資料集AIME 2024 上,o1-preview 得分是GPT-4o 的4 倍以上;在程式設計競賽資料集Codeforces 上,差距變成5.6 倍。
在數學競賽、程式設計競賽、科學問答資料集測試中,o1-preview、o1 大幅超過GPT-4o。
OpenAI 稱,目前限量上線的OpenAI o1-preview 和OpenAI o1-mini 只是早期版本,他們的下一個模型,在物理、化學、生物等有挑戰的測試題中,表現與博士生類似,而此前的模型大多是本科生或碩士生程度。
把技術變成現實,OpenAI 提到的貢獻者有212 人,與GPT-4o 的文字部分的貢獻者相當(234 人)。但訓練o1 需要的資料種類變多了。 OpenAI 提到,o1 預訓練用到的資料來自公開資料集、合作夥伴的專有資料和內部開發的自訂資料集,而GPT-4o 掌握文字能力時,只用了前兩種資料。
偏向「推理模型」 的o1 系列並沒有全面超過GPT-4o,語言能力是它的相對弱項。
在OpenAI 的測試中,大多人認為o1-preview 在資料分析、程式設計和數學等重視推理的問題解答上比GPT-4o 更好,而在個人寫作、文字編輯等方面,依然是GPT-4o 更好。
那些GPT-4o 解決不了的問題,o1-preview 也會出現,例如它同樣會“胡說八道”,認為9.11 比9.2 更大。
個人寫作、文字編輯等方面,GPT-4o 比較好。
思維鏈帶來的更長的響應時間(思考)可能是o1 系列實際使用中的短板。在被要求「列出五個第三個字母是A 的國家的名字」 時,GPT-4o 只用3 秒,而o1-mini 花了9 秒,o1-preview 花了32 秒,是GPT-4o的十倍。對於簡單問題基本上不可用。
o1-preview 和mini 暫時也不像GPT-4o 那樣具備瀏覽網頁、獲取資訊,和處理上傳的檔案、圖片等功能。目前看起來能最快能用o1 提升生產力的是軟件開發者,但OpenAI 也限制了他們呼叫API 的方式:每分鐘只能呼叫20 次,不包括函數呼叫、串流、系統訊息支援等功能。
在多位大模型研究者看來,o1 最重要的變化是展現了大幅提升大模型能力的新路徑。
原來的Scaling Laws 意味著,用更多資料和算力訓練出參數更大的模型,效能會更好。
而如下圖, o1 展現出,讓模型花更多時間、更多算力回答問題(test-time compute),效能也會持續提升。輝達資深AI 科學家Jim Fan 在社群媒體上說,這可能是自2022 年DeepMind 提出Chinchill Scaling Laws(原版Scaling Laws 上的一個優化)以來,大模型研究中最重要的一張圖。
Jim Fan 還提出了大模型未來演進的一種可能:未來的模型可能將推理與知識分離,有小的“推理核心”,同時也用大量參數來記憶事實(知識),以便在瑣事問答等測試中表現出色。
OpenAI 也在介紹o1 的文章中特意提到,他們會繼續發展GPT 系列的模型。這可能預示,OpenAI 會把o1 中使用的方法引入下一代GPT 模型。
不管是o1 成為新的主流方法,還是o1 與GPT 系列結合,演化出下一代大模型,算力需求都會進一步提升。
OpenAI 未公開o1 系列的推理成本,但從o1 模型回答問題的時長和OpenAI 對o1 的使用限制可以推測,o1 相比GPT 系列需要龐大得多的推理算力資源。
每月花20 美元的ChatGPT Plus 付費使用者,目前每周只能用30 次o1-preview 和50 次o1-mini。而目前GPT-4o 的限制是每周 4480 次(每3 小時80 次),是o1-mini 的90 倍,o1-preview 的150 倍。
o1-preview 回答問題的時間從GPT 系列模型的秒級增加到了數十秒、甚至更久。它回答問題時處理的文字量也大幅提升。以文中展示「思維鏈」 過程時列舉的程式設計問題為例,o1 解答時,加上思維鏈,處理的字元有6632 個,是GPT-4o 的4.2 倍。更長的計算時間和更長的輸出都意味著更高的算力成本。
o1 對AI 前景和算力消費的刺激很快就反映在資本市場。自本周初有媒體報導OpenAI 即將發布新模型後,輝達股價累計回升10%,微軟也一起上漲。
對於那些不確定技術演進方向或一度放緩研究基礎模型的公司,現在又有新工作可以做,有新方向可以捲了。 o1 的發佈大機率意味著,在「推理模型」 上,競爭差距再一次拉開,一輪加速追趕和投入即將發生。
「是時候正經幹點正事了,要不真的就不在遊戲裡了。」一位中國大模型研究者說。 (晚點LatePost)