殺瘋了！地表最強模型GPT-4o登場，速度提升200%、價格便宜50%，或將顛覆即時翻譯等產業

2024/05/14

•

15日GoogleGoogle I/O開發者大會公佈AI 產品24小時前夕，OpenAI成功搶奪了Google風頭。

北京時間5月14日凌晨1點，在26分鐘春季ChatGPT發表會上，美國OpenAI公司推出可即時進行音訊、視覺和文字推理的全新旗艦AI模型GPT-4o，並將推出PC桌面版ChatGPT。

OpenAI技術長米拉·穆拉蒂(Mira Murati)表示，在API使用方面，相較於去年11月發布的GPT-4-turbo，GPT-4o價格降低一半（50%），速度提升兩倍（ 200%）。GPT-4o的語音和視訊輸入功能將在未來幾週內推出。

需要指出的是，GPT-4o就是先前在LMSys競賽中測試的版本，當時名為“im-also-a-good-gpt2-chatbot”，性能遠超GPT-4 Turbo、GPT-4、Gemini等模型，再次刷新業界水準。

OpenAI CEO奧爾特曼（Sam Altman）發即時推文表示，新的GPT-4o模型是OpenAI有史以來最好的模型，它很智能，速度很快，它是原生多模態，而且它可供所有ChatGPT 用戶使用，無論是免費版本或付費GPT-4版。 “這對我們的使命很重要，我們希望將出色的AI 工具交到每個人手中。”

OpenAI聯合創始人兼總裁 Greg Brockman（Greg Brockman）發GPT-4o介紹影片中表示，這是OpenAI朝著更自然的人機互動（甚至人機-電腦互動）形式邁出的重要一步。

發布之後，網友：它是不是完全可以替盲人看世界了？為外語行業默哀。

僅僅26分鐘，打響了5月全球AI「軍備競賽」。同時，GPT-4o的發布，或將顛覆外語、即時翻譯、影音剪輯等眾多產業。

ChatGPT狂飆530天，OpenAI持續發力通用大模型

隨著2022年底 AI 聊天機器人ChatGPT風靡全球，掀起新一波AIGC浪潮。過去530天裡，研發ChatGPT背後的OpenAI公司身處聚光燈下，迅速成長為860億美金估值的AI 獨角獸。

英偉達CEO黃仁勳曾表示，ChatGPT的出現是AI 的「iPhone時刻」。

2023年3月，OpenAI推出多模態大模型GPT-4，不僅理解能力、可靠性和長文本技術能力全面增強，且具備影像處理。而且在專業基準測試中，GPT-4表現近似於人類的水平，如模擬律師考試得分能排到前10%左右，擊敗90%的人類。

隨後，OpenAI升級Chat GPT付費，每月達20美元；5月，OpenAI陸續推出iOS、安卓版ChatGPT應用，下載量已突破1.1 億次，行動裝置應用營收近3,000萬美元；8月，企業版ChatGPT發布，性能比標準GPT-4快兩倍。

2023年11月，OpenAI發布最強模型GPT-4 Turbo，提供強大上下文理解能力，支援12.8萬個token，並且公佈自訂大模型的GPTs、GPT Store等眾多產品。然而，僅僅兩週後，OpenAI突發高層“大地震”，奧爾特曼遭遇“烏龍”式罷免，五天后最終得以重掌公司大權，並組建董事會。 112天后，OpenAI董事會放心表態：對Sam Altman和Greg Brockman繼續領導OpenAI充滿信心。

根據公開數據顯示，整個2023年，在奧爾特曼帶領下，OpenAI年化營收已經超過20億美元，年增4,500%以上，躋身於史上成長最快的科技公司之列。

進入2024年，OpenAI持續「狂飆」：

2月，OpenAI發布首個AI視頻大模型Sora，逼真的影視效果引爆了整個視頻和電影行業；
3月，馬斯克（Elon Musk）狀告OpenAI，使奧爾特曼創始團隊「反擊」；
4月，ChatGPT全面免費註冊開放，ChatGPT可以編輯DALL·E圖像，新版GPT-4 Turbo向ChatGPT 付費用戶開放，ChatGPT Plus 用戶實現記憶功能，以及OpenAI獲得黃仁勳親手交付的世界上首台英偉達DGX H200。

在此次發表會之前，關於OpenAI 新品傳聞甚囂塵上，不僅包括性能超強大的GPT-5，而且還傳有對標谷歌的AI 搜尋引擎產品，以及與蘋果合作研發的AI 語音生成產品等，引發眾多關注。

然而，奧爾特曼發推文稱，這次公佈的不是GPT-5，也不是AI 搜尋引擎，而是開發的一些「我們認為人們會喜歡的新東西」。

如今，目前全球最強的AI 大模型GPT-4o登場。

**米拉·穆拉蒂透露，目前有1億多用戶使用ChatGPT創造工作、學習，有100多萬開發者在GPTs上創造新的工具。**

OpenAI表示，GPT-4o（「o」代表「omni」）是邁向更自然的人機互動的一步——它接受文字、音訊和圖像的任意組合作為輸入，並產生文字、音訊和圖像的任意組合輸出。

GPT-4o可以在短至232 毫秒的時間內回應音訊輸入，平均為320 毫秒，與人類的反應時間相似。它在英語文字和程式碼上的表現與GPT-4 Turbo 的表現相匹配，在非英語文字上的效能顯著提高，同時API 的速度也更快，成本降低了50%。與現有模型相比，GPT-4o 在視覺和音訊理解方面尤其出色。

具體來說，GPT-4o主要特色分為四個部分：模型能力、基準測試、模型安全性和局限性，以及模型何時可用。

其中，在模型能力上，在GPT-4o之前，ChatGPT語音模式對話的平均延遲為2.8 秒(GPT-3.5) 和5.4 秒(GPT-4)。而當時，為了解決語音模式問題，就形成了三個獨立模型組成的管道，但OpenAI團隊發現，這個過程當中的主要智能來源GPT-4失去了大量音調、噪音、情感等資訊。如今借助GPT-4o，OpenAI跨文字、視覺和音訊端到端地訓練了一個新模型，這意味著所有輸入和輸出都由同一神經網路處理。

OpenAI也舉出多個例子，整體來說其具有更高的連貫性、精準度，以及更快的回饋速度。

在傳統基準測試層面， GPT-4o 在文字、推理和編碼智慧方面實現了GPT-4 Turbo 等級的效能，同時在多語言、音訊和視覺功能上均處於高位。在5次MMLU（常識問題）上，GPT-4o創下了87.2%的新高分，遠超谷歌Gemini Pro 1.5、Ultra 1.0，以及自己的GPT-4T和GPT-4等。

而在語言標記化上，GPT-4o在20種語言中，實作新分詞器跨不同語系壓縮，壓縮規模超過50%。

在模型安全性和限制上，GPT-4o 透過過濾訓練資料和透過訓練後細化模型行為等技術，在跨模式設計中內建了安全性。以及創建了新的安全系統，為語音輸出提供防護。根據對網路安全、CBRN、說服力和模型自主性的評估表明，GPT-4o 在這些類別中的任何類別中的得分都不高於中等風險，而且團隊繼續降低發現的新風險。

那麼，何時可用GPT-4o呢？主要有四個時間點：

GPT-4o 的文字和圖像功能今天開始在ChatGPT 中推出。
在免費版中提供GPT-4o，並為Plus 用戶提供高達5 倍的訊息限制。
在未來幾週內在ChatGPT Plus 推出帶有GPT-4o 的Voice Mode 的新版本。
開發者現在也可以透過API 存取GPT-4o 作為文字和視覺模型。計劃在未來幾週內在API 向小部分測試者推出對GPT-4o 新音訊和視訊功能的支援。

此外，OpenAI今天還宣布，免費向所有用戶開放其GPT 商店，包括創建自訂GPT 的能力，以及即將推出ChatGPT桌面版本。

OpenAI強調，GPT-4o是OpenAI突破深度學習界限的最新舉措，也是朝著實用性方向發展的重要一步。

從通用走向聚焦，下一步大模型重塑Google搜尋引擎？

在發表會召開前夕，360公司董事長週鴻禕就表示，以ChatGPT為代表的大模型在完全沒有突破AGI（通用人工智慧）能力情況下情況比較尷尬，目前能力在許多場景下無法給用戶滿意的答案，所以反而導致其在產品場景方面好像什麼都能幹，實際上很多事都乾不了。同時，以perplexity為代表的AI搜尋恰恰是“反其道而行之”，以搜尋為場景，用大模型來重塑搜尋的體驗。

週鴻禕強調，大模型未來需要“場景的搜尋”和“聚焦”，透過專用大模型可解決用戶痛點或剛需，這存在巨大機遇，在GPT強大能力下重新定義場景，並找新產品出路，這或許是大模型發展的長期、正確方向。

事實上，OpenAI目前面臨流量成長乏力的局面。

自去年ChatGPT推出後，在2023年5月達到流量峰值，網路訪問量達18億次，但之後流量出現下滑情況。 2024年3月，ChatGPT的訪問量依然穩定在了18億次，不再有明顯成長。

如今，OpenAI已聚焦到影音、終端機和搜尋場景。在此次現場環境和演示當中，OpenAI重點突出了端側模型和程式碼產生能力等場景化應用。

值得一提的是，在此之前，前加拿大魁北克省人工智慧研究中心（Mila）研究員、麻省理工學院講師Lior S也在社群平台X上爆料：OpenAI最新的SSL憑證日誌顯示，OpenAI已經創建了search.chatgpt.com子域名。

「OpenAI即將追趕谷歌搜索，這可能是谷歌有史以來面臨的最大的威脅。」Lior S說。

隨著5月14日谷歌舉行I/O開發者大會，因此，一旦未來ChatGPT Search AI搜尋產品發布，或將會衝擊到Google搜尋業務——如今市場佔有率高達90%。

週鴻禕認為，未來OpenAI一定會誕生AI 搜尋類型的產品。

截至目前，OpenAI 方面對此拒絕置評。

早前奧爾特曼稱，未來的AI發展不應是一場數據和算力的軍備競賽，真正的突破需要在演算法效率、晶片性能、能源供給等方面取得根本性進展。 OpenAI期待在演算法上實現重大創新，以提高模型的運作效率。他透露，OpenAI計劃在2024年夏天推出更先進的GPT-5模型。

針對中國不斷追趕OpenAI技術更迭趨勢，5月13日，創新工場董事長兼CEO、零一萬物CEO李開復向鈦媒體App表示，零一萬物的新模型Yi-XLarge MoE已訓練一半，之後會朝著美國大模型繼續進步。

「我們不能保證一定趕上它（美國模型）、超過它，或者gap有多少，但是我們用適合我們的方法快速推進，既然我們不能用10萬張GPU來訓練，我們就會尋找別的方式，依然能做出非常好的效果。

科大訊飛董事長劉慶峰曾透露，目前中美大模型差距約一年至1.5年。

奧特曼：預見一個令人興奮的未來，我對此感到自豪

值得注意的是，在發布會結束後，奧爾特曼發布了一條博客，來闡述他對GPT-4o的看法。

他認為，這是用最低的價格甚至是免費，將最好的模型提供給世界上所有人，同時達到與人類相似的響應速度和表達能力，標誌著一個重大的轉變，並預見到一個激動人心的未來。

以下是全文內容：

首先，我們的使命是向人們免費（或以非常優惠的價格）提供功能強大的AI工具。

我為我們能在ChatGPT中免費提供世界上最先進的模型感到非常自豪，這一切都沒有廣告或其他幹擾。

最初，OpenAI的設想是開發AI技術，並利用它為全球帶來益處。然而，現實是我們開發了AI技術，而其他人則利用這些技術創造了使全世界受益的傑出成果。作為一家企業，我們有很多服務是需要收費的，這也支持我們向全球數十億用戶提供免費的頂尖AI服務。

其次，新推出的語音（及視訊）模式是我使用過的最佳計算介面。它給人一種電影中AI的感覺，讓人不禁驚嘆這竟是真的。達到與人類相似的反應速度和表達能力，標誌著一個重大的轉變。

最初的ChatGPT已經展示了語言介面的潛力；而這項新技術則在體驗上有了質的飛躍。它反應迅速、聰明、有趣、自然且實用。以前，我與電腦對話從未感覺如此自然；但現在，我終於有了這種感覺。

隨著我們逐步增加個人化選項、獲取個人資訊的權限、代表使用者執行操作的能力等功能，我真的可以預見到一個令人興奮的未來：我們能夠利用電腦完成以往無法想像的更多事務。

最後，非常感謝我們團隊的每一位成員，是他們的辛勤工作讓這一切成為可能！(鈦媒體AGI)