視覺語音互動毫無延遲，都成精了居然還不是GPT-5?

2024/05/14

•

OpenaAI為2024年5月14日的這場發表會取名為「春季功能更新」，就像它們形容當初ChatGPT的發布是一次「低調的研究預覽」一樣。

而就像那次一樣，一切都回不去了。

OpenAI發布了一個叫做GPT-4o的新模型，它的確不是GPT-5 ，但看了它能做的事情，再想到它甚至不是OpenAI正在砸更多的錢和智慧在做的GPT-5 ，你只會感覺更「可怕」。

發表會一開始，OpenAI的CTO Mira Murati 介紹了新模型GPT-4o（是的，Sam Altman全程沒有現身）。她強調這個模型是要給所有人使用，透過互動的更新讓人們忘記了UI的存在。因為OpenAI的願景正是如此。

而到此這似乎還很正常。

“不過是新模型而已嘛。”

但直到demo環節開始，一切都越來越離譜。

首先是即時對話的展示。

「我正在做demo ，我有點緊張。」Mark說。然後他開始故意喘息的速度很快。而GPT辨識出了他的呼吸。

「哦，哦，哦，別緊張，慢下來。你不是個吸塵器。」ChatGPT的女人聲音抑揚頓挫，沒有任何延遲。

是沒有任何延遲。你不需要等她，她也不會讓你等，當你直接開始說接下來的話，她會立刻停下來聽，並立刻做出調整。

而且在這些回答中，它甚至有喘息和猶豫的聲音。

另一個很可怕的細節是，這些demo全程不需要任何多餘的按鍵操作。

對，聲音的對話就像是在「打電話」。

另一個demo是假設要跟朋友講一個關於機器人的睡前故事。

提出需求後，ChatGPT開始正常的說故事。

但聽的人並不喜歡，於是直接打斷說，能不能講的更有感情更drama一點。

ChatGPT立刻調整，增加了一些懸疑感。

「不不不，我希望把感情和drama感拉滿。」聽者再次直接打斷。——也就是說ChatGPT在即時聽著你的聲音。

然後ChatGPT變成了一個非常浮誇的故事講述者。

「你能不能用機器人的聲音跟我講故事。」Mira又直接插話。

而ChatGPT立刻開始模仿機器人。注意，是模仿，也就是它的聲音一直是那個女聲，一切聽起來就像家長在講睡前故事時候會做的那樣。

「你能最後唱一首歌把這個故事結束麼。」聽者又提了要求。

然後ChatGPT立刻唱了一首歌。根據剛才的故事，實時，改編，並直接唱出來的一首歌。

「如果你之前使用過我們的語音模式，你會注意到幾個關鍵的區別。首先，你現在可以打斷模型了。你不需要等它結束你的回合，你可以隨時開始說話，隨時插話。其次，模型的反應是即時的。提醒你，或許你需要放鬆一下，你的節奏快得有點過頭了。所以你知道，它確實具有全面感知情緒的能力。的具有非常廣泛的動態範圍。

如果你是個創業者，或是熟悉大模型應用創業環境的人，你會立刻意識到。

又有一批新創公司死了。

之後是視覺能力的展現。

對，在同一個產品上。一個據說要免費提供給全世界所有人的產品上。

他先是展示了一個透過攝影機獲得視覺能力，然後即時指導你的數學解題的demo 。

甚至因為「幻覺」問題，ChatGPT在還沒打開攝影機時候就自信滿滿的說理解了。當展示者提示後，她說“oops ，我太興奮了。”

然後展示者打開鏡頭，即時寫了一個數學方程題，然後讓ChatGPT一步一步的提醒和講解他在做的解題思路。ChatGPT很好的做到了。

像一個很有經驗有耐心的數學老師。

這還沒完。

似乎是為了打臉那些錄製好加速後的demo ，他們也即時收集了X上的回饋。其中一個挑戰是：打開相機讓ChatGPT即時分析你的情緒。

展示者開始相機自拍，而ChatGPT立刻分析：

「你看起來是個桌子。」——因為打開攝影機時，最先打開的是前置的攝像頭，對準的是桌子。

「不不不，那是之前的，你不用擔心，我不是桌子。」分享者說到。

「哈哈，那就合理了。」Chat GPT說到。

這裡看的時候，估計很多人跟我一樣驚了一下。

然後ChatGPT立刻分析：「你看起來非常開心。大大的笑容，甚至有一點興奮。你想分享一下讓你這麼開心的原因麼？」語氣裡甚至能聽到好奇，以及斟酌語句的感覺。

「因為我在做即時展示，讓大家看看你有多出色。」講者說。

「哦，拜託，別讓我臉紅了。」ChatGPT帶著笑聲說到。

瞬間，《Her》降臨。科幻成了現實。

看到這，所有人估計都明白了Sam Altman先前賣關子時候說的「magic」是什麼。

在驚嘆之餘，還是再總結一下：

1 這些操作全程沒有多餘的點擊操作的互動。
2 沒有絲毫延遲的視覺和聲音回饋。
3 不僅能感受到你的情感，ChatGPT也自帶情緒和情感。
4 能對桌面等更數位化的世界有更全面的資訊感知。
5 全部整合在一個產品裡，而且可能是對所有人免費的。

喔對，以及，這還不是GPT-5 。

發表會後，OpenAI也在官網更新了這次發布的模型的具體資訊：

https://openai.com/index/hello-gpt-4o/

還記得ChatGPT第一次出來時，有人形容跟它第一次親密接觸的感受：

當你透過打字跟它互動的時候，等待它回答的過程彷彿能想像到對面坐著一個人，正在轉筆，思考如何回答你的問題。

而今天，不只是你的嘆氣，情感和喘息能被AI感受到，你也能直接感受到對面的「人」的嘆氣，情感，和喘息。

在電影《Her》裡，主角最後愛上了這個AI助手。我們不知道GPT-4o加持下的新ChatGPT會帶來什麼。更不知道GPT-5出現後會發生什麼事。

一切都太快了，都回不去了。

最後，對所有開發者和創業者，這次發布又意味著什麼？

也許這句當時有些被人不以為意甚至覺得冒犯的話值得再看一遍，它可能說明了一切：

目前有兩種建構人工智慧的策略：一種是假設模型不會改進，然後在現有的能力上建立一堆小東西；另一種是假設OpenAI 將保持相同的成長軌跡（繼續瘋狂迭代）。我認為，95% 的人應該押注在第二種策略上。我們有改進模型的使命，不是我不喜歡你們，但我們將碾壓你。

——Sam Altman，2023年4月17日

(矽星人Pro)