殺瘋了!地表最強模型GPT-4o登場,速度提升200%、價格便宜50%,或將顛覆即時翻譯等產業


15日GoogleGoogle I/O開發者大會公佈AI 產品24小時前夕,OpenAI成功搶奪了Google風頭。

北京時間5月14日凌晨1點,在26分鐘春季ChatGPT發表會上,美國OpenAI公司推出可即時進行音訊、視覺和文字推理的全新旗艦AI模型GPT-4o,並將推出PC桌面版ChatGPT。

OpenAI技術長米拉·穆拉蒂(Mira Murati)表示,在API使用方面,相較於去年11月發布的GPT-4-turbo,GPT-4o價格降低一半(50%),速度提升兩倍( 200%)。GPT-4o的語音和視訊輸入功能將在未來幾週內推出。

需要指出的是,GPT-4o就是先前在LMSys競賽中測試的版本,當時名為“im-also-a-good-gpt2-chatbot”,性能遠超GPT-4 Turbo、GPT-4、Gemini等模型,再次刷新業界水準。

OpenAI CEO奧爾特曼(Sam Altman)發即時推文表示,新的GPT-4o模型是OpenAI有史以來最好的模型,它很智能,速度很快,它是原生多模態,而且它可供所有ChatGPT 用戶使用,無論是免費版本或付費GPT-4版。 “這對我們的使命很重要,我們希望將出色的AI 工具交到每個人手中。”

OpenAI聯合創始人兼總裁 Greg Brockman(Greg Brockman)發GPT-4o介紹影片中表示,這是OpenAI朝著更自然的人機互動(甚至人機-電腦互動)形式邁出的重要一步。

發布之後,網友:它是不是完全可以替盲人看世界了?為外語行業默哀。


僅僅26分鐘,打響了5月全球AI「軍備競賽」。同時,GPT-4o的發布,或將顛覆外語、即時翻譯、影音剪輯等眾多產業。


ChatGPT狂飆530天,OpenAI持續發力通用大模型

隨著2022年底 AI 聊天機器人ChatGPT風靡全球,掀起新一波AIGC浪潮。過去530天裡,研發ChatGPT背後的OpenAI公司身處聚光燈下,迅速成長為860億美金估值的AI 獨角獸。

英偉達CEO黃仁勳曾表示,ChatGPT的出現是AI 的「iPhone時刻」。

2023年3月,OpenAI推出多模態大模型GPT-4,不僅理解能力、可靠性和長文本技術能力全面增強,且具備影像處理。而且在專業基準測試中,GPT-4表現近似於人類的水平,如模擬律師考試得分能排到前10%左右,擊敗90%的人類。


隨後,OpenAI升級Chat GPT付費,每月達20美元;5月,OpenAI陸續推出iOS、安卓版ChatGPT應用,下載量已突破1.1 億次,行動裝置應用營收近3,000萬美元;8月,企業版ChatGPT發布,性能比標準GPT-4快兩倍。

2023年11月,OpenAI發布最強模型GPT-4 Turbo,提供強大上下文理解能力,支援12.8萬個token,並且公佈自訂大模型的GPTs、GPT Store等眾多產品。然而,僅僅兩週後,OpenAI突發高層“大地震”,奧爾特曼遭遇“烏龍”式罷免,五天后最終得以重掌公司大權,並組建董事會。 112天后,OpenAI董事會放心表態:對Sam Altman和Greg Brockman繼續領導OpenAI充滿信心。

根據公開數據顯示,整個2023年,在奧爾特曼帶領下,OpenAI年化營收已經超過20億美元,年增4,500%以上,躋身於史上成長最快的科技公司之列。

進入2024年,OpenAI持續「狂飆」:

  • 2月,OpenAI發布首個AI視頻大模型Sora,逼真的影視效果引爆了整個視頻和電影行業;
  • 3月,馬斯克(Elon Musk)狀告OpenAI,使奧爾特曼創始團隊「反擊」;
  • 4月,ChatGPT全面免費註冊開放,ChatGPT可以編輯DALL·E圖像,新版GPT-4 Turbo向ChatGPT 付費用戶開放,ChatGPT Plus 用戶實現記憶功能,以及OpenAI獲得黃仁勳親手交付的世界上首台英偉達DGX H200。

在此次發表會之前,關於OpenAI 新品傳聞甚囂塵上,不僅包括性能超強大的GPT-5,而且還傳有對標谷歌的AI 搜尋引擎產品,以及與蘋果合作研發的AI 語音生成產品等,引發眾多關注。

然而,奧爾特曼發推文稱,這次公佈的不是GPT-5,也不是AI 搜尋引擎,而是開發的一些「我們認為人們會喜歡的新東西」。

如今,目前全球最強的AI 大模型GPT-4o登場。


米拉·穆拉蒂透露,目前有1億多用戶使用ChatGPT創造工作、學習,有100多萬開發者在GPTs上創造新的工具。


OpenAI表示,GPT-4o(「o」代表「omni」)是邁向更自然的人機互動的一步——它接受文字、音訊和圖像的任意組合作為輸入,並產生文字、音訊和圖像的任意組合輸出。

GPT-4o可以在短至232 毫秒的時間內回應音訊輸入,平均為320 毫秒,與人類的反應時間相似。它在英語文字和程式碼上的表現與GPT-4 Turbo 的表現相匹配,在非英語文字上的效能顯著提高,同時API 的速度也更快,成本降低了50%。與現有模型相比,GPT-4o 在視覺和音訊理解方面尤其出色。

具體來說,GPT-4o主要特色分為四個部分:模型能力、基準測試、模型安全性和局限性,以及模型何時可用。

其中,在模型能力上,在GPT-4o之前,ChatGPT語音模式對話的平均延遲為2.8 秒(GPT-3.5) 和5.4 秒(GPT-4)。而當時,為了解決語音模式問題,就形成了三個獨立模型組成的管道,但OpenAI團隊發現,這個過程當中的主要智能來源GPT-4失去了大量音調、噪音、情感等資訊。如今借助GPT-4o,OpenAI跨文字、視覺和音訊端到端地訓練了一個新模型,這意味著所有輸入和輸出都由同一神經網路處理。

OpenAI也舉出多個例子,整體來說其具有更高的連貫性、精準度,以及更快的回饋速度。

在傳統基準測試層面, GPT-4o 在文字、推理和編碼智慧方面實現了GPT-4 Turbo 等級的效能,同時在多語言、音訊和視覺功能上均處於高位。在5次MMLU(常識問題) 上,GPT-4o創下了87.2%的新高分,遠超谷歌Gemini Pro 1.5、Ultra 1.0,以及自己的GPT-4T和GPT-4等。


而在語言標記化上,GPT-4o在20種語言中,實作新分詞器跨不同語系壓縮,壓縮規模超過50%。

在模型安全性和限制上,GPT-4o 透過過濾訓練資料和透過訓練後細化模型行為等技術,在跨模式設計中內建了安全性。以及創建了新的安全系統,為語音輸出提供防護。根據對網路安全、CBRN、說服力和模型自主性的評估表明,GPT-4o 在這些類別中的任何類別中的得分都不高於中等風險,而且團隊繼續降低發現的新風險。

那麼,何時可用GPT-4o呢?主要有四個時間點:

  • GPT-4o 的文字和圖像功能今天開始在ChatGPT 中推出。
  • 在免費版中提供GPT-4o,並為Plus 用戶提供高達5 倍的訊息限制。
  • 在未來幾週內在ChatGPT Plus 推出帶有GPT-4o 的Voice Mode 的新版本。
  • 開發者現在也可以透過API 存取GPT-4o 作為文字和視覺模型。計劃在未來幾週內在API 向小部分測試者推出對GPT-4o 新音訊和視訊功能的支援。

此外,OpenAI今天還宣布,免費向所有用戶開放其GPT 商店,包括創建自訂GPT 的能力,以及即將推出ChatGPT桌面版本。

OpenAI強調,GPT-4o是OpenAI突破深度學習界限的最新舉措,也是朝著實用性方向發展的重要一步。


從通用走向聚焦,下一步大模型重塑Google搜尋引擎?

在發表會召開前夕,360公司董事長週鴻禕就表示,以ChatGPT為代表的大模型在完全沒有突破AGI(通用人工智慧)能力情況下情況比較尷尬,目前能力在許多場景下無法給用戶滿意的答案,所以反而導致其在產品場景方面好像什麼都能幹,實際上很多事都乾不了。同時,以perplexity為代表的AI搜尋恰恰是“反其道而行之”,以搜尋為場景,用大模型來重塑搜尋的體驗。

週鴻禕強調,大模型未來需要“場景的搜尋”和“聚焦”,透過專用大模型可解決用戶痛點或剛需,這存在巨大機遇,在GPT強大能力下重新定義場景,並找新產品出路,這或許是大模型發展的長期、正確方向。

事實上,OpenAI目前面臨流量成長乏力的局面。

自去年ChatGPT推出後,在2023年5月達到流量峰值,網路訪問量達18億次,但之後流量出現下滑情況。 2024年3月,ChatGPT的訪問量依然穩定在了18億次,不再有明顯成長。

如今,OpenAI已聚焦到影音、終端機和搜尋場景。在此次現場環境和演示當中,OpenAI重點突出了端側模型和程式碼產生能力等場景化應用。

值得一提的是,在此之前,前加拿大魁北克省人工智慧研究中心(Mila)研究員、麻省理工學院講師Lior S也在社群平台X上爆料:OpenAI最新的SSL憑證日誌顯示,OpenAI已經創建了search.chatgpt.com子域名。

「OpenAI即將追趕谷歌搜索,這可能是谷歌有史以來面臨的最大的威脅。」Lior S說。

隨著5月14日谷歌舉行I/O開發者大會,因此,一旦未來ChatGPT  Search AI搜尋產品發布,或將會衝擊到Google搜尋業務——如今市場佔有率高達90%。

週鴻禕認為,未來OpenAI一定會誕生AI 搜尋類型的產品。

截至目前,OpenAI 方面對此拒絕置評。

早前奧爾特曼稱,未來的AI發展不應是一場數據和算力的軍備競賽,真正的突破需要在演算法效率、晶片性能、能源供給等方面取得根本性進展。 OpenAI期待在演算法上實現重大創新,以提高模型的運作效率。他透露,OpenAI計劃在2024年夏天推出更先進的GPT-5模型。

針對中國不斷追趕OpenAI技術更迭趨勢,5月13日,創新工場董事長兼CEO、零一萬物CEO李開復向鈦媒體App表示,零一萬物的新模型Yi-XLarge MoE已訓練一半,之後會朝著美國大模型繼續進步。

「我們不能保證一定趕上它(美國模型)、超過它,或者gap有多少,但是我們用適合我們的方法快速推進,既然我們不能用10萬張GPU來訓練,我們就會尋找別的方式,依然能做出非常好的效果。

科大訊飛董事長劉慶峰曾透露,目前中美大模型差距約一年至1.5年。


奧特曼:預見一個令人興奮的未來,我對此感到自豪

值得注意的是,在發布會結束後,奧爾特曼發布了一條博客,來闡述他對GPT-4o的看法。


他認為,這是用最低的價格甚至是免費,將最好的模型提供給世界上所有人,同時達到與人類相似的響應速度和表達能力,標誌著一個重大的轉變,並預見到一個激動人心的未來。

以下是全文內容:

首先,我們的使命是向人們免費(或以非常優惠的價格)提供功能強大的AI工具。

我為我們能在ChatGPT中免費提供世界上最先進的模型感到非常自豪,這一切都沒有廣告或其他幹擾。

最初,OpenAI的設想是開發AI技術,並利用它為全球帶來益處。然而,現實是我們開發了AI技術,而其他人則利用這些技術創造了使全世界受益的傑出成果。作為一家企業,我們有很多服務是需要收費的,這也支持我們向全球數十億用戶提供免費的頂尖AI服務。

其次,新推出的語音(及視訊)模式是我使用過的最佳計算介面。它給人一種電影中AI的感覺,讓人不禁驚嘆這竟是真的。達到與人類相似的反應速度和表達能力,標誌著一個重大的轉變。

最初的ChatGPT已經展示了語言介面的潛力;而這項新技術則在體驗上有了質的飛躍。它反應迅速、聰明、有趣、自然且實用。以前,我與電腦對話從未感覺如此自然;但現在,我終於有了這種感覺。

隨著我們逐步增加個人化選項、獲取個人資訊的權限、代表使用者執行操作的能力等功能,我真的可以預見到一個令人興奮的未來:我們能夠利用電腦完成以往無法想像的更多事務。

最後,非常感謝我們團隊的每一位成員,是他們的辛勤工作讓這一切成為可能!(鈦媒體AGI)