OpenAI被爆造假!o3碾壓一切的數學能力,全靠“作弊”

OpenAI陷入作弊風波。

去年年底,由60多位頂尖數學家的合作開發的FrontierMath基準測試,旨在評估人工智慧在高級數學推理方面的能力。

在這次測試裡,OpenAI的o3模型以壓倒性優勢,碾壓了眾多產於此次基準測試的大模型。

然而,不久前,在LessWrong 論壇上,一位名為「Meemi」的Epoch AI承包商透露了其中的“貓膩”:

OpenAI不僅為FrontierMath基準測試提供資金支援,還獲得了測試題庫的特權訪問權。

隨後,Epoch AI副主任兼聯合創始人之一Tamay Besiroglu在X平台承認了此事。

也就是說,所謂o3獨步天下的數學能力,是一場OpenAI自編自導的假象。

/ 01 / 既是運動員,還是裁判

事情的始末,其實要從去年開始講起。

去年,大模型在各種數學基準測試中瘋狂刷分,動輒就是90%以上的正確率。大模型在數學邏輯推理能上,似乎也可以取代了人類,統治數學界了。

然而,Epoch AI看不下去了,聯手60多位頂尖數學家,憋了個大招。11月,一個專治LLM各種不服的全新數學推理測試FrontierMath(前沿數學)來了。

據悉,FrontierMath基準測試,由多位菲爾茲獎得主和國際數學奧林匹克競賽的資深命題人共同打造。

該基準包含數百個原創且極具挑戰性的數學問題,覆蓋現代數學的多個主要分支,如數論、實分析、代數幾何、範疇論等。

菲爾茲獎得主陶哲軒直言道,FrontierMath的問題只能由領域專家來解決。而即使是人類專家,解決這些問題也需要數小時甚至數天的努力。

果不其然,在測試中大模型集體翻車,正確率不到2%,包括GPT-4和Gemini 1.5 Pro。

然而,僅過了一個月,OpenAI在12月份發佈,號稱突破AI極限的o3模型在FrontierMath基準測試中,其正確率飆升至25.2%。

OpenAI作為大模型的先行者,在上一次測試中與其他參與者差距不大,使不少人感嘆OpenAI在技術上“泯然眾人矣”,已經丟失了絕對領先的地位。

但在這次測試中,o3則為OpenAI正了名,證明了OpenAI在技術上還是“獨步天下”。

近日,一位名為「Meemi」的 Epoch AI 承包商透露,OpenAI 不僅為 FrontierMath 基準測試提供資金支援,還獲得了測試題庫的特權訪問權。

面對爭議,Epoch AI副主任兼聯合創始人之一Tamay Besiroglu首先在X平台承認了此事:

我們犯了一個錯誤,沒有更早披露OpenAI在FrontierMath中的參與。我們的合同在o3 發佈前禁止我們這麼做。事後看來,我們確實應該更努力地爭取更早的透明性。我們承認這一點,並承諾未來做得更好。”

他指出以下幾個錯誤:

披露時間過晚:由於合同限制,Epoch Al直到FrontierMath的第三次迭代(o3)發佈前後才被允許披露與OpenAI的合作關係。

Tamay承認,他們應該在與OpenAI的談判中更強硬地爭取儘早向貢獻者披露合作資訊的權利。

溝通不一致:雖然Epoch Al向部分數學家透露了他們獲得了實驗室的資助,但並未系統地向所有參與者說明這一情況,也沒有明確指出合作的實驗室是OpenAI。這種不一致的溝通是一個錯誤。

未將透明度作為合作的前提:Tamay表示,即使受到合同限制,他們也應該將與貢獻者的透明度作為與OpenAI達成協議的不可協商的一部分。數學家們理應知道誰可能會訪問他們的工作成果

緊接著,斯坦福大學數學博士生Carina Hong聲稱,在Epoch AI的安排下,OpenAI擁有對FrontierMath的測試題庫擁有特權訪問權

不少專家對此事件,勃然大怒,提出了尖銳的批評。

電腦科學家 Subbarao Kambhampati 表示,他此前就對OpenAI 聲稱未預先接觸奧林匹克數學和 FrontierMath 資料的說法持懷疑態度。

在他看來,OpenAI禁止相關方披露協議內容的做法本身就極具可疑性。

知名AI專家Gary Marcus則表示:“這是一場絕望的、操縱的、誤導性的、科學上粗製濫造的展示”。

截至發稿前,OpenAI未對此事做出回應。

/ 02 / OpenAI的雙重危機:技術優勢縮小,盈利遙遙無期

雖然Epoch AI把“鍋”全攬到了自己身上,但這事也凸顯了OpenAI一個尷尬的事實:

隨著估值越來越高,OpenAI急需證明其在人工智慧領域的領先性。

2024年10月,Sam Altman為OpenAI完成了新一輪66億美元的融資,公司估值來到1570億美元。對於一家尚未上市的公司來說,這樣的估值已然不算低。

估值不斷走高的另一面,隨著各方勢力不計成本地大力投入,OpenAI原本的先發優勢正逐漸被侵蝕。

如今,眾多競爭對手強勢崛起,Anthropic的Claude 3.5 Sonnet、Google的Gemini 1.5、X的Grok 2,甚至Meta的開源Llama 3.1 405B模型,都已在某些基準測試中追平或稍稍超越OpenAI 的GPT-4o。

OpenAI市場份額下降便是最好的例證。根據Menlo Ventures的調研資料,去年閉源模型佔據了絕大多數市場份額,達到81%。其中,OpenAI的市場份額從50%降至34%。

屋漏偏逢連夜雨,與市場份額下降相伴的,是OpenAI的虧損黑洞越長越大,像是一隻“吞金獸”,不說達到盈利水平,連收支平衡都是一種奢望。

《紐約時報》獲得的融資檔案顯示,OpenAI2024年預計收入達到37億美元,但預計虧損將達到50億美元,而2026年虧損可能會高達140億美元,這一估算還不包括給員工的股票激勵兌現。

據《紐約時報》審閱的財務檔案顯示,去年8月份,OpenAI的月收入達到3億美元,自2023年初以來增長了1700%。

根據OpenAI預測,在2023-2028年期間,公司總虧損預計達440 億美元,直到2029年才可能實現140億美元利潤

也就是說,儘管收入增長迅速,但相比其動輒千億美元的投入,大模型仍然存在巨大的收入缺口。

在商業化面臨壓力的情況下,維持模型能力的領先性成為其證明高估值的重要依據。

2024年,OpenAI沒能如預期發佈GPT5,這讓市場中不少人失望。o1和最近發佈的o3自然承載了市場更多的期待。

而剛剛曝光的作弊事件,後續就是OpenAI向現實妥協的一種“無奈”選擇。 (烏鴉智能說)