OpenAI教Google當語音助理！新模型GPT-4o科幻級語音交互，零延遲滿情緒，AI進入HER時代

2024/05/14

•

5月14日凌晨，OpenAI終於發布了Sam Altman提前造勢的“Magic（魔法）”，主要包括三個重點發布，ChatGPT新UI、桌面版GPT、以及最重要的，新的多模態模型GPT- 4o。

當模型變得越來越複雜，新的ChatGPT使用者介面變得更加簡潔，互動體驗實際上變得更加自然和簡單。

桌面版GPT即時線上，能隨時幫你解決寫程式碼、讀圖表等任務，且從示範影片看上去，桌面版GPT可以直接透過視覺等方式「讀懂」你的任務，這大大提高了端側任務處理的想像力。

最重磅的是新的模型GPT-4o。根據OpenAI的官網解釋，"o"代表“全知”，是朝著更自然的人類與電腦交互邁出的一步。

總結下來，新模型GPT-4o有三大「魔法」：

①多模態：接受文字、音訊、影像作為組合輸入，並產生任何文字、音訊和影像的組合輸出。同時，在多模態理解能力中，最讓人感到驚訝的是，它能夠辨識人類的感情，並根據感情做出「有感情的反應」。

②幾乎無延遲：它對音訊輸入的反應時間最短為232毫秒，平均為320毫秒，這與人類在對話中的反應時間相似。

③可在電腦桌面運行，隨時擁有一個AI隊友，隨時可以幫你處理寫程式碼、看圖表等任務。

看完這三大特點，真的是直接感嘆：「賈維斯」上線！ “HER”闖進生活。從今天起，OpenAI給了你一個沒延遲，有感情，可以隨時看著你，無處不在的AI助理。還免費。本文的後半部分，將詳細介紹GPT-4o解鎖的新能力。

GPT-4o在英文文字和程式碼上與GPT-4 Turbo的效能相匹配，在非英文文字上有了顯著提升，同時在API上速度更快，成本降低了50%。與現有模型相比，GPT-4o在視覺和音訊理解方面尤其更好。

根據OpenAI發佈在官網的最新部落格文章顯示，在GPT-4o之前，我們使用語音模式與ChatGPT對話，平均延遲為2.8秒（GPT-3.5）和5.4秒（GPT-4）。為了實現這一點，語音模式是由三個獨立的模型組成的流水線：一個簡單的模型將音頻轉錄為文本，GPT-3.5或GPT-4接收文本並輸出文本，第三個簡單的模型將該文本再轉換回音訊。這個過程意味著主要的智慧來源，GPT-4，失去了許多訊息，它不能直接觀察語調、多個說話者或背景噪音，也不能輸出笑聲、歌唱或表達情感。

GPT-4o，是單獨訓練的新模型，可以端到端地處理文字、視覺和音頻，這意味著所有輸入和輸出都由同一個神經網路處理。

GPT-4o並不是第一個端對端多模態模型。早在去年十二月，Google就已經發布了他們的Gemini模型。後續業界也一直判斷OpenAI也會遵從大一統模型的模式，最終發展出端到端的多模態模式。

四個月過去了，OpenAI的大一統模型總算閃亮登場。還比Google的多了語音這模態。

更重要的是，雖然大一統模型是Google先發，但OpenAI今天展示了一個更「真」的多模態模型到底應該達到什麼程度。

1. 魔法的基礎：一體化多模態的多模態模型。傳統文本、程式碼等推理能力沒有質的提升，但音頻視覺等能力達到新標準。

作為一個一體化的多模態模型，GPT-4o在傳統基準測試中,文本推理和編程能力上達到GPT-4 Turbo水平,而在多語言、語音識別、語音翻譯、視覺理解等方面創下新紀錄。多模態能力的平均分高，是這個模型「魔法」能力的基礎。

與Whisper-v3相比，GPT-4o在多種語言的辨識表現優異，尤其是小語種語言

2、易用性的魔法：OpenAI教導蘋果、Google當語音助手

雖然在能力上，大一統的多模態模型和Gemini一樣並沒帶來想像中的效能巨幅提升。但OpenAI明顯比谷歌多走了一步：用一個統合的助手在所有場景下應用所有這些多模態。

就從這次示範來看，這互動層面的升級證明了多模態確實是AI的Game Changer。

更強的是手機版的GPT-4o可以透過語音能力理解你的話語，狀態（累不累，喘氣粗不粗）。

也能透過視覺辨識你所處的環境和你正在做的事情，並對它作出反應。幫你解數學題，沒問題，解完還能陪你聊聊人生。

這就是OpenAI想做到的全知：一個陌生人看到你時所能感受到的幾乎一切，它全部能接收到。因此它也有了真正能和你做與你私人相關的，符合場景的操作。

很多人會覺得這都是舊有的功能，因為不論是Gemini還是過去的GPT-4V，我們都可以截圖給他們看當下的環境，他們也能識別照片中的信息並給你回應。語音，過去也有基於Whisper的辨識系統，足以讓上一個版本的GPT4能回應你。

但這次GPT-4o帶來的是對易用性體驗的顛覆。

它能對即時環境產生理解，隨時對已經變化的環境做出反應，甚至能藉助記憶能力連結這些變化。這比起過去不停截圖給一個軟體才能順利對話的互動模式易用太多了。

除此之外，在展示中讓人印象最深刻的是GPT-4o的快如閃電。與前代動輒2.6秒的反應速率相比，GPT-4o能毫無延遲的回饋對話。反應速度對使用者體驗的影響之大，想必產品經理們都熟記在心。

這就是得益於GPT-4o為多模態統一編碼，並且是目前最真·多模態。因此我們不再需要語音轉文字-問答-文字轉語音（語音~文字-問答-文字~語音）這個傳統的流程管線了。在GPT-4o中，可以直接做到語音-問答-語音，一步到位，大大縮短了反應時間。

同時，易用性也意味著更符合人類互動的習慣：GPT-4o在對話時可以隨時被打斷，能接續的語音對話模式。

以上這三種能力的組合，讓這個產品真正達到了使用者用起來不覺得麻煩的程度。從今天起，AI終於成為了一個真正的常用陪伴型助手，而非只是我們需要求助時不情不願調用的效率工具了。

這也許才是AI時代語音助理該有的樣子：隨時可得，易用自然，功能強大。

正如美國知名科技佈道者在會後第一時間提出的看法一樣。

所以，Siri，Google語音助手，你們準備好了嗎？

而Rabbit R1，AI Pin們，你們獨特的價值還能存續嗎？

除了語音助理本身，OpenAI 也透過新的GPT桌面版本展示了一下GPT-4o在桌面系統內能帶來的改變。教了微軟怎麼叫真正的Copilot。

GPT-4o可以利用視覺能力辨識出畫面中你在寫的程式碼，看的PDF，並給予總結或提示。這比起GPT-4V的截圖，上傳檔案也更容易用自然；比開啟微軟Copilot，用鍵盤在側邊欄提問互動易用自然太多。

3、沉浸性的魔法－有情感的機器

自然易用只是GPT-4o的基礎操作，OpenAI真正讓人感到深不可測技術力的其實是它讓模型變得有「人味」了。

先看看這段對話，GPT-4o的回應簡直自然的像是你的好閨蜜，情緒飽滿到幾乎與真人毫無差別：她會驚訝，會笑，會隨著你的情緒激動起來，語氣中充滿了細節。這和過往雖然也能模仿人類語調，但總歸是缺了點真人情緒回饋的GPT4相比，太像人了。

尤其是這些情緒變化都非常貼合上下文和對話的場景，就好像她知道什麼時候該表現出什麼情緒。

另一個例子也可以證明它是真的懂「情緒」是什麼。在Demo過程中，當測試者要求它用「最戲劇性」的方式去講故事的時候，她表現的和一個話劇演員幾乎沒什麼差別了。這需要她懂得「戲劇性」這一在很大程度上形容情緒強度的詞彙是什麼意思。

除了自身會表達情緒，GPT-4o還有個“情緒探查器”，能夠讀懂你的情感。結合之前的演示，它也能從你的語氣中理解你的狀態。

這些表現不由讓人想起在3月27日，Hume AI剛剛的發布第一個能辨識人類感情的AI——Evi，它能透過人類的聲音語調判斷出63種情感的綜合。這在當時引發了業界的相當震動。

但它能做到的只是辨識感情，而非能夠應付人類的感情來生成富有感情的語句。

但現在GPT-4o似乎做到了這個堪稱魔法的能力。

這意味著更可信的對話對象，一個你會不光從能力角度上覺得它有智力，而是從交流感受上覺得它像人的AI誕生了。這將意味著前所未有的互動性沉浸感。

正如Sam Altamn所說，正是在這個背景下，屬於每個人的雲端情人HER到來了。

可惜的是，OpenAI的技術文件對此隻字未提。我們也無法對它進行更深入的解讀了。一個可能的猜測是，這是OpenAI在訓練端對端語音模型中自發性湧現的一種新的模型能力。

可以想見的是，在GPT-4o的魔法影響下，AI交友、AI心理諮商師等等所有需要強情緒互動的賽道都會很快變成一片藍海。

4.魔法之旅才剛開始，真·多模態的能力也許遠不止於此

情緒辨識與適配，也許是GPT-4o作為統一多模態模型所湧現出來的一種非常強大的能力。但它潛在的可能性不止於。如Greg Brockman在推特上的發聲，GPT-4o透過音訊、文字、影像輸出的任意組合，可以無限解鎖新的功能。而OpneAI對這些新湧現也不過只是瞥見了一小部分。

這一小部分也已經非常驚人了。除了在直播中重點強調的功能，在OpenAI的技術文件中，我們看到在GPT4-o的能力清單中，還包含3D能力、圖像詩能力、轉換卡通照片等能力。

像波特萊爾那幫現代主義詩人一樣，用詩或logo填滿規定的形象。

潛在的黏土人能力，只不過OpenAI選的是把現實頭像轉換卡通影像

這一切都說明， GPT-4o給我們可能帶來的驚喜可能遠不止如此。

1.GPT-4o採用全新的tokenizer,大幅提高了對各種語言的編碼效率,比如古吉拉特語的token數減少了4.4倍，這其中包括20種語言，如英語、法語、德語、葡萄牙語、西班牙語等，其中也包括中文。

2、模型安全性與局限性

根據OpenAI的安全評估,GPT-4o在網路安全等風險維度上都控制在中等程度以下。但其語音模態帶來一些新的安全挑戰,需要持續迭代改進。目前向公眾開放的是文字和圖像輸入,以及文字輸出。語音輸出將限定為預設的聲音，這意味著，語音的複製還是會有某些限制，OpenAI未來將分享更多細節。

3.Sam Altman上線」承認「，GPT-4o就是前兩天放出來的I'm a good gpt2 chatbot

不是期貨，馬上就能用。 GPT-4o的文字和圖像能力今天開始在ChatGPT中推出。在免費版中提供GPT-4o，並為Plus用戶提供高達5倍的訊息限制。在未來幾週內，將在ChatGPT Plus中推出具有GPT-4o的語音模式新版本。

開發者現在也可以透過API以文字和視覺模型的形式存取GPT-4o。與GPT-4 Turbo相比，GPT-4o的速度提高了2倍，價格降低了一半，速率限制提高了5倍。 OpenAI計劃在未來幾週內向API中的一小部分信任合作夥伴推出對GPT-4o的新音訊和視訊能力的支援。(騰訊科技)

與GPT4-turbo對比：

GPT-4o

輸入：$5.00 / 1M tokens

輸出：$15.00 / 1M tokens

GPT4-turbo:

輸入：$10.00 / 1M tokens

輸出：$30.00 / 1M tokens

OpenAI教Google當語音助理！新模型GPT-4o科幻級語音交互，零延遲滿情緒，AI進入HER時代

2、 易用性的魔法：OpenAI教導蘋果、Google當語音助手

3、 沉浸性的魔法－有情感的機器

4.魔法之旅才剛開始，真·多模態的能力也許遠不止於此

2、易用性的魔法：OpenAI教導蘋果、Google當語音助手

3、沉浸性的魔法－有情感的機器