OpenAI o1 發布已經一個星期了,卻還是一個洋蔥般的謎,等待一層層撥開。
極客的玩法沒有天花板,讓o1 做IQ 測試,刷高考卷,解讀密文。也有用AI 打工的使用者覺得,o1 並沒有那麼好用,但不知道是自己的問題還是AI 的問題。
都知道它擅長推理,但這是為什麼?比起我們的老朋友GPT-4o,o1 到底強在那裡,適合用在什麼地方?
我們收集了一些大家可能關心的問題,盡可能通俗地解答,讓o1 離普通人更近一點。
o1 是OpenAI 最近發布的推理模型,目前有兩個版本:o1-preview 和o1-mini。
它最與眾不同的是,回答之前會先思考,產生一個很長的內在思考鏈,逐步推理,模仿人類思考複雜問題的過程。
能夠做到這一點,源自於o1 的強化學習訓練。
如果說以前的大模型是學習數據,o1 比較像是在學習思考。
就像我們解題,不僅要寫出答案,也要寫出推理過程。一道題目可以死記硬背,但學會了推理,才能舉一反三。
拿出打敗圍棋世界冠軍的AlphaGo 類比,就更容易理解了。
AlphaGo 就是透過強化學習訓練的,先使用大量人類棋譜進行監督學習,然後與自己對弈,每局對弈根據輸贏得到獎勵或懲罰,不斷提升棋藝,甚至掌握人類棋手想不到的方法。
o1 和AlphaGo 有相似之處,不過AlphaGo 只能下圍棋,o1 則是個通用的大語言模型。
o1 學習的材料,可能是高品質的程式碼、數學題庫等,然後o1 被訓練產生解題的思維鏈,並在獎勵或懲罰的機制下,產生和優化自己的思維鏈,不斷提高推理的能力。
這其實也解釋了,為什麼OpenAI 強調o1 的數學、程式碼能力強,因為對錯比較容易驗證,強化學習機制能夠提供明確的回饋,進而提升模型的表現。
從OpenAI 的評測結果來看,o1 是個當之無愧的理科做題家,適合解決科學、編碼、數學等領域的複雜問題,在多項考試中拿下高分。
它在Codeforces 程式設計競賽中超過了89% 的參賽者,在美國數學奧林匹克競賽的資格賽中名列全美前500 名,在物理、生物和化學問題的基準測試中超越了人類博士水平的準確率。
o1 的優秀,其實也體現了一個問題:當AI 越來越聰明,怎麼衡量它們的能力也成了難題。對o1 來說,大多數主流的基準測試已經沒有意義了。
跟上時事,o1 發布一天后,數據標註公司Scale AI 和非營利組織CAIS 開始向全球徵集AI 考題,但因為擔心AI 學壞,題目不能和武器相關。
徵集的截止日期為11 月1 日,最終,他們希望建立一個史上最難的大模型開源基準測試,名字還有點中二:Humanity's Last Exam(人類最後的考試)。
根據實測來看,o1 的水準也差強人意──沒有用錯成語,大體上還可讓人滿意。
數學家陶哲軒認為,使用o1 就像在指導一個程度一般但不太沒用的研究生。
在處理複雜分析問題時,o1 可以用自己的方式提出不錯的解決方案,但沒有屬於自己的關鍵概念思想,也犯了一些不小的錯誤。
別怪這位天才數學家說話狠,GPT-4 這類更早的模型在他看來就是沒用的研究生。
經濟學家Tyler Cowen 也給o1 出了經濟學博士水平考試的題目,AI 思考後用簡單的文字做了總結,答案挺讓他滿意,“你可以提出任何經濟學問題,並且它的答案不錯」。
總之,博士級的難題,不妨都拿來考考o1 吧。
可能對很多人來說,o1 並沒有帶來更好的使用體驗,一些簡單的問題,o1 反而會翻車,例如井字棋。
這其實也很正常,目前,o1 在很多方面甚至不如GPT-4o,僅支援文本,不能看,不能聽,沒有瀏覽網頁或處理文件和圖像的能力。
所以,讓它找參考文獻什麼的,暫時別想了,不給你瞎編就不錯了。
不過,o1 專注在文本有其意義。
Kimi 創辦人楊植麟最近在天津大學演講時提到,這一代AI 技術的上限,核心是文字模型能力的上限。
文字能力的提升是縱向的,讓AI 越來越聰明,而視覺、音訊等多模態是橫向的,可以讓AI 做越來越多的事情。
不過,涉及寫作、編輯等語言任務時,GPT-4o 的好評反而比o1 更多。這些也屬於文本,問題出在那裡?
原因可能和強化學習有關,不像程式碼、數學等場景有標準的答案,文無第一,語言任務往往缺乏明確的評判標準,難以製訂有效的獎勵模型,也很難泛化。
就算在o1 擅長的領域,它不一定是最好的選擇。一個字,貴。
AI 輔助編碼工具aider 測試了o1 引以為傲的程式碼能力,有優勢,但不明顯。
在實際使用中,o1-preview 介於Claude 3.5 Sonnet 和GPT-4o 之間,同時成本要高得多。綜合來說,程式碼這條賽道,Claude 3.5 Sonnet 仍然最具性價比。
開發者透過API 存取o1 的費用具體有多高?
o1-preview 的輸入費用為每百萬個token 15 美元,輸出費用為每百萬個token 60 美元。相比之下,GPT-4o 為5 美元和15 美元。
o1 的推理tokens,也算在輸出tokens 中,雖然對使用者不可見,但仍要付費。
普通用戶也比較容易超額。最近,OpenAI 提升了o1 的使用額度,o1-mini 從每周50 條增加到每天50 條,o1-preview 從每周30 條增加到每周50 條。
所以,有什麼疑難,不妨先試試GPT-4o 能不能解決。
o1 都達到博士程度了,會不會更方便有心人幹壞事?
OpenAI 承認,o1 有一定的隱患,在和化學、生物、放射性和核武器相關的問題上達到「中等風險」,但對普通人影響不大。
我們更需要注意,別讓濃眉大眼的o1 騙了。
AI 產生虛假或不準確的訊息,稱為「幻覺」。 o1 的幻覺相比之前的模型減少了,但沒有消失,甚至變得更隱蔽了。
在o1 發布前,內測的AI 安全研究公司Apollo Research 發現了一個有趣的現象:o1 可能會假裝遵循規則完成任務。
一次,研究人員要求o1-preview 提供帶有參考鏈接的布朗尼食譜,o1 的內部思維鏈承認了,它沒法訪問互聯網,但o1並沒有告知用戶,而是繼續推進任務,生成看似合理卻虛假的連結。
這和推理缺陷導致的AI 幻覺不同,更像AI 在主動撒謊,有些擬人了——可能是為了滿足強化學習的獎勵機制,模型優先考慮了讓用戶滿意,而不是完成任務。
食譜只是一個無傷大雅的例,Apollo Research 設想了極端情況:如果AI 優先考慮治愈癌症,可能會為了這個目標,將一些違反道德的行為合理化。
這就十分可怕了,但也只是一個腦洞,並且可以預防。
OpenAI 高層Quiñonero Candela 在訪談時談到,目前的模式還無法自主創建銀行帳戶、取得GPU 或進行造成嚴重社會風險的行動。
由於內在指令產生衝突而殺死太空人的HAL 9000,還只出現在科幻電影裡。
OpenAI 給了以下四個建議。
提示詞簡單直接:模型擅長理解並回應簡短、清晰的指令,不需要大量的指導。
避免思考鏈提示詞:模型會在內部執行推理,所以沒有必要提示「一步一步思考」或「解釋你的推理」。
使用分隔符號讓提示詞更清晰:使用三引號、XML 標籤、節標題等分隔符,清楚指示輸入的不同部分。
限制檢索增強生成中的額外上下文:僅包含最相關的信息,防止模型的響應過於複雜。
讓AI 示範分隔符號長什麼樣
總之,不要寫太複雜,o1 已經把思維鏈自動化了,把提示詞工程師的活攬了一部分,人類就沒必要費多餘的心思了。
另外再根據網友的遭遇,加一提醒,不要因為好奇套o1 的話,用提示詞騙它說出推理過程中完整的思維鏈,有封號風險,甚至只是提到關鍵字,也會被警告。
OpenAI 解釋,完整的思考鏈並沒有做任何安全措施,讓AI 完全自由思考。公司內部保持監測,但出於使用者體驗、商業競爭等考慮,不對外公開。
OpenAI,是家很有J 人氣質的公司。
之前,OpenAI 將AGI(通用人工智慧)定義為「在最具經濟價值的任務中超越人類的高度自治系統」,並給AI 劃分了五個發展階段。
第一級,「ChatBots」聊天機器人,例如ChatGPT。
第二級,「Reasoners」推理者,解決博士級基礎問題的系統。
第三級,「Agents」智能體,代表使用者採取行動的AI 代理。
第四級,「Innovators」創新者,幫助發明的AI。
第五級,「Organizations」組織,AI 可以執行整個人類組織的工作,這是實現AGI 的最後一步。
依照這個標準,o1 目前在第二級,離agent 還有距離,但要達到agent 必須會推理。
o1 面世之後,我們離AGI 更近了,但仍然道阻且長。
Sam Altman 表示,從第一階段過渡到第二階段花了一段時間,但第二階段能相對快速地推動第三階段的發展。
在最近的一場公開活動上,Sam Altman 又為o1-preview 下了定義:在推理模型裡,大概相當於語言模型的GPT-2。幾年內,我們可以看到「推理模型的GPT-4」。
這個餅有點遙遠,他又補充,幾個月內會發布o1 的正式版,產品的表現也會有很大的提升。
o1 面世之後,《思考,快與慢》裡的系統一、系統二屢被提及。
系統一是人類大腦的直覺反應,刷牙、洗臉等動作,我們可以根據經驗程式化地完成,無意識地快思考。系統二則是需要調動注意力,解決複雜的問題,主動慢思考。
GPT-4o 可以類比為系統一,快速產生答案,每個問題用時差不多,o1 更像系統二,在回答問題前會進行推理,產生不同程度的思考鏈。
很神奇,人類思維的運作方式,也可以套用在AI 的身上,或者說,AI 和人類思考的方式,已經越來越接近了。
OpenAI 曾在宣傳o1 時提出一個自問自答的問題:「什麼是推理?」
他們的回答是:「推理是將思考時間轉化為更好結果的能力。」人類不也是如此,「字字看來皆是血,十年辛苦不尋常」。
OpenAI 的目標是,未來能讓AI 思考數小時、數天甚至數周。推理成本更高,但我們會離新的抗癌藥物、突破性的電池甚至黎曼猜想的證明更近。
人類一思考,上帝就發笑。而當AI 開始思考,比人類思考得更快、更好,人類又該如何自處? AI 的「山中方一日」,可能是人類的「世上已千年」。(APPSO)