奧特曼深夜發動價格戰,GPT-4o mini暴跌99%!清華同濟校友立功,GPT-3.5退役



GPT-4o mini深夜忽然上線,OpenAI終於開卷小模型!每百萬輸入token已達15美分的超低價,跟GPT-3相比,兩年內模型成本已降低99%。Sam Altman驚呼:通往智能的成本,已變得如此低廉!另外,清華同濟校友為關鍵負責人。


OpenAI,也開始進軍小模型了。

就在今天深夜,GPT-3.5退場,全新發佈的GPT-4o mini,更小、性能更強,更重要的是——更便宜!



GPT-3.5,再見!

每百萬個輸入token 15美分,每百萬個輸出token 60美分,MMLU得分82%,性能超快。

CEO Sam Altman感慨道:通往智能的成本,竟是如此低廉。



是的,如火如荼的大模型價格戰,OpenAI也入場了。

Altman回顧說:就在2022年,世界上最好的模型是還是text-davinci-003(GPT-3的版本)。

但如今,與這個新模型相比,text-davinci-003差得太多太多。甚至,價格要高出100倍。



相較於GPT-3.5,GPT-4o mini性能更強,價格還要便宜60%以上,成本直線下降。


大模型的成本,兩年間下降了99%,等再過幾年呢?簡直不敢想。


以前,用OpenAI模型建構應用程式可能會產生巨額費用,沒有能力對其修改的開發者,極有可能放棄它,轉投更便宜的模型,比如Google的Gemini 1.5 Flash或者Anthropic的Claude 3 Haiku。

如今OpenAI終於等不住,出手了。

現在,所有人都可以在ChatGPT中用上GPT-4o mini了。



小模型,但對標GPT-4 Turbo

GPT-4o mini的知識更新到去年10月,語言種類和GPT-4o對齊,上下文窗口為128k。

目前在API中僅支援文字和視覺模態,未來還將擴展到視訊和音訊的輸入/輸出。

雖然沒有披露參數規模,但OpenAI的官博文章表示,這是他們目前最經濟、最有成本效益的小模型,微調功能也將很快上線。

神奇的是,GPT-4o mini在LMSYS排行榜上聊天偏好方面的表現甚至優於GPT-4。在總榜上,排名可以和GPT-4 Turbo匹敵。


上週模型還沒發佈,就已經有超過6000名使用者投票給早期版本「upcoming-gpt-mini」,但目前該模型的結果已經被撤下。

LMSYS在推特上宣佈,正在重新收集投票,很快就會發佈正式版模型的成績。


GPT0-4o mini的發佈,顯然將大幅擴展AI應用的範圍。

它不僅低成本、低延遲,還支援廣泛的任務,比如鏈式或平行呼叫多個模型的應用(呼叫多個 API),向模型傳遞大量上下文(完整程式碼庫或對話歷史),或通過快速、即時的文字響應與客戶互動(支援聊天機器人)。

並且,由於與GPT-4o共享改進的分詞器(tokenizer),它處理起非英語文字會更加經濟高效。

目前,GPT-4o mini在API中支援文字和視覺,未來還將支援多模態功能,包括文字、圖像、視訊和音訊的輸入和輸出。

聽起來,它像是功能更強大的虛擬助理,比如瞭解我們的旅行行程並給出建議。

文字、數學、編碼、多模態,效果拔群

在文字智能和多模態推理方面,GPT-4o mini已經超越了GPT-3.5 Turbo和其他小模型,GPT-4o支援的語言它也都支援。

長上下文處理性能上,它比起GPT-3.5 Turbo也有所改進。

在函數呼叫上,GPT-4o mini同樣表現出色,因此開發者可以更方便地建構應用。

看一下GPT-4o mini的關鍵基準測試成績。



推理任務

文字和視覺推理任務上,GPT-4o優於其他小模型。

在MMLU上,它的得分為82.0%,而Gemini Flash為77.9%,Claude Haiku為73.8%。


數學和編碼能力

在數學推理和編碼任務中,GPT-4o同樣表現出色,優於市場上的小模型。

在MGSM上,在MGSM上,GPT-4o mini得分為87.0%,而Gemini Flash為75.5%,Claude Haiku為71.7%。

在HumanEval上,GPT-4o mini得分為87.2%,而Gemini Flash為71.5%,Claude Haiku為75.9%。


多模態推理

GPT-4o mini在MMMU上也表現強勁,得分為59.4%,而Gemini Flash為56.1%,Claude Haiku為 50.2%。


實測表明,無論是從收據檔案中提取結構化資料,還是根據郵件執行緒生成高品質回覆,GPT-4o mini在這類任務上的表現都明顯比GPT-3.5 Turbo更好。

這也印證了業界一直在討論的觀點:模型的大小,並不重要。



性價比極高

在性價比方面,Artificial Analysis已經為我們整理出了詳細的分析。

GPT-4o mini的定價為:輸入每1M token 15美分,輸出每1M token 60美分。

1M token什麼概念?大致相當於2500頁書。

這個價格已經捲到了頭部模型的最低檔,僅次於Llama 3 8B。


從下表中可以看到,在目前頭部廠商發佈的所有小模型中,GPT-4o mini超越Gemini 1.5 Flash、Llama 3 8B、Mistral 7B等眾多競品,成為性價比之最。


越靠近左上的模型,性價比越高


不僅是性價比最好,GPT-4o mini在輸出的速度和質量上也實現了目前SOTA水平的最佳化權衡,甚至比GPT-4o更佳。


將質量和生成速度分開來看,效果依舊能打。

Artificial Analysis上的質量指數代表Chatbot、MMLU和MT-Bench等基準的歸一化平均性能。

GPT-4o mini得分為85,和Gemini 1.5 Flash、Llama 3 70B基本處於同一水平,勝過Mixtral系列的8×22B和8×7B型號。


MMLU的得分也基本與質量指數一致,但比較亮眼的是在HumanEval編碼任務上的評分。

87.2分的成績,超過了Google系最強模型Gemini 1.5 Pro!


推理效率方面,183 token/s的生成讓GPT-4o mini成為這個榜單上的絕對王者,相比第二名Gemini 1.5 Flash還要快18 token/s。


除了生成速度,目前API的響應延遲(TTFT)也算優秀,雖然沒打過Phi-3、Llama 3 7B等小模型,但差距也不算太大。


在響應延遲和token生成速度上,GPT-4o mini都有非常優秀的成績,但需要注意的是,這兩個指標與推理所用的硬體規格高度相關,而且模型僅開放API,並沒有第三方進行部署後的測評。

模型發佈之後,GPT-4o mini能否始終保持這樣的高效率推理,更值得期待。

除了生成質量和推理效率,GPT-4o mini在上下文長度方面算是中規中矩,畢竟GPT-4o也才128k,沒法和最長1M的Gemini系列抗衡。



「真正實現OpenAI使命」

「我認為GPT-4o mini真正實現了OpenAI的使命——讓人們更廣泛地接觸AI。如果我們希望AI惠及世界每個角落、每個行業、每個應用程式,我們就必須讓AI變得更便宜。」API平台產品負責人Olivier Godement這樣介紹。

使用Free、Plus、Team套餐的ChatGPT使用者,現在都可以使用GPT-4o mini了,企業使用者也可以在下周獲得存取權。

對於ChatGPT使用者,GPT-3.5已經消失,但開發者仍能通過API呼叫GPT-3.5。

不過,GPT-3.5也將在某一時間從API中退役,但具體時間點還不確定。


對於渴望低成本建構應用的開發者來說,GPT-4o mini來得太及時了。

金融初創公司Ramp在測試中,用它建構了提取收據上費用的工具,不必費力瀏覽文字框,模型就會自動對所有內容排序。

顯然,OpenAI不想再讓開發者流失到更便宜的Claude 3 Haiku和Gemini 1.5 Flash。

但是,OpenAI為什麼花了這麼久?

Godement表示,這涉及到一個「優先考慮」的問題。

此前OpenAI專注於GPT-4這樣的大模型,而隨著時間的推移,OpenAI終於注意到了開發者們渴望對小模型的願景,才終於決定投入資源。

OpenAI非常有信心,GPT-4o mini一定會非常受歡迎。


網友:LLM變小,競爭加劇

Sclaing Law要卷,小模型也要卷。

一大早,不僅OpenAI放出了GPT-4o mini,另一邊Mistral聯手輝達推出12B小模型Nemo,性能趕超Gema和Llama-3 8B。

Karpathy對此表示,「大模型的參數規模競爭正在加劇……但方向是相反的」!



他預測,我們將會看到非常小,但「思考」得非常好且可靠的模型。通過調整GPT-2參數,很可能存在一種特定的設定方式,因此GPT-2可能會表現的更好,以至於讓大多數人認為它很聰明。
當前LLM如此龐大的原因是,我們在訓練過程中非常浪費——我們要求它們記住整個網際網路,令人驚訝的是,它們確實做到了,比如可以背誦常見數字的SHA雜湊值,或者回憶起非常冷僻的事實。(實際上,大模型在記憶方面非常出色,質量上遠勝於人類,有時只需要一次更新就能記住大量細節並保持很長時間)。
但是,想像一下,如果你要在閉卷考試中,根據前幾句話背誦網際網路上的任意段落。這是今天模型的標準(預)訓練目標。做得更好的難點在於,在訓練資料中,思考的展示與知識「交織」在一起的。因此,模型必須先變大,然後才能變小,因為我們需要它們(自動化)的幫助,將訓練資料重構並塑造成理想的合成格式。
這是一個階梯式的改進過程——一個模型幫助生成下一個模型的訓練資料,直到我們擁有「完美的訓練集」。當你用它訓練GPT-2時,它將成為今天標準下非常強大/聰明的模型。也許MMLU會稍微低一些,因為它不能完美地記住所有的化學知識。也許它需要偶爾查閱一些東西以確保準確。

HuggingFace創始人表示,「這個星期是小模型的一週」。


OpenAI研究員Hyung Won Chung表示,「雖然我們比任何人都更喜歡訓練大模型,但OpenAI也知道如何訓練小模型」。


網友對當前地表最強模型的價格進行了彙總:



作為參考,如果你想對美國24小時內所說或所聽到的每一個單詞進行推理,僅需要花費不到20萬美元。



不過,最近比較火的陷阱題——9.11和9.9究竟誰大,進化後的GPT-4o mini依然失敗了。


幾天前,剛完成進化後的AutoGPT,也可以正式支援GPT-4o mini。



Altman本人在評論區中,預告了GPT-4o語音功能Alpha版本將在本月末上線。


當然,所有人還是更期待GPT-5上線。



在OpenAI設想的未來裡,模型將會被無縫整合到每一個應用程式和每一個網站之上。

如今,隨著GPT-4o mini的推出,為開發者更高效、更經濟地建構和擴展強大的AI應用鋪平道路。

可以看到,AI正在變得更容易訪問、可靠,並會融入到所有人的日常體驗中。

而OpenAI,會繼續引領這一處理程序。


作者介紹

GPT-4o的作者名單,也是長到讓人印象深刻。

其中,項目負責人是Mianna Chen


Mianna Chen曾在普林斯頓大學取得了學士學位。2020年,她獲得了賓夕法尼亞大學沃頓商學院MBA學位。


入職OpenAI之前,她在2015年加入Google任職近3年,中間還跳槽至一家初創Two Sigma,隨後再次入職DeepMind任職1年多產品主管。


其他負責人為Jacob Menick,Kevin Lu,Shengjia Zhao,Eric Wallace,Hongyu Ren,Haitang Hu,Nick Stathas,Felipe Petroski Such。

Kevin Lu


Kevin Lu獲得了加州大學伯克利分校電子工程和電腦科學學士學位,曾與Pieter Abbeel和Igor Mordatch合作研究強化學習和序列建模。


在校期間,他還擔任過助教,在伯克利人工智慧研究院擔任本科研究員。


目前,他已入職OpenAI,成為了一名研究員。


Shengjia Zhao


Shengjia Zhao是斯坦福大學電腦科學系的博士,本科畢業於清華大學。


獲得博士學位後,Shengjia Zhao直接加入了OpenAI,擔任技術研究員,至今已有2年多的時間。

目前,他主要從事大語言模型的訓練和對齊工作,負責ChatGPT的研究。


Haitang Hu


Haitang Hu在霍普金斯約翰大學取得了電腦碩士學位,此前還在同濟大學獲得了電腦科學和技術學士學位。


本科畢業後,他加入了NS Solution公司,任職3年系統工程師。隨後,進入霍普金斯約翰大學繼續攻讀。

2016年取得碩士學位後,Haitang Hu入職Google,就職7年工程師。直到23年9月,他正式加入了OpenAI。


參考資料:

https://artificialanalysis.ai/models/gpt-4o-mini

https://x.com/karpathy/status/1814038096218083497

https://openai.com/index/gpt-4o-mini-advancing-cost-efficient-intelligence/ (新智元)