ChatGPT更像人了

2024/05/19

•

ChatGPT又雙叒叕更新了，這一次，OpenAI沒有大談數字和術語，而是回歸到了“聊天機器人”本身。

北京時間5月14日凌晨1點，OpenAI舉行春季發佈會，公司首席技術官米拉·穆拉蒂（Mira Murati）主持，現場展示了ChatGPT的更新。

發佈會的核心，是最新多模態大模型GPT-4o。和之前發佈新模型必強調訓練資料量、各項測試成績等“硬核指標”不同，GPT-4o的升級主要在使用體驗上。

相較上一代GPT-Turbo，GPT-4o可謂是打通了任督二脈，各項技能融會貫通，和人的互動更靈活、更快速——換言之，更像“人”了。

使用者可以以文字、音訊、圖像任意組合輸入，得到ChatGPT即時文字、音訊、圖像的任意組合輸出。在交流過程中，ChatGPT不再等待若干秒才響應，而是即時回覆，還能被隨時打斷。OpenAI的CEO山姆·奧特曼（Sam Altman）將之稱為“人類等級的響應”。

OpenAI現場展示了和ChatGPT的若干互動，包括：即時對話互動、語音多樣化（應使用者需求使用不同情緒、語調等）、視訊指導做題、視訊識別環境和人（包括人的情緒）、以桌面應用形式輔助程式設計、即時翻譯。

OpenAI同時還放出了預先錄製的展示樣例若干，包括：兩個GPT-4o交流和對唱、唱搖籃曲、線上會議應用、毒舌諷刺、視訊識物並給出西班牙語單詞、幫助面試準備、和狗互動等。

OpenAI本次現場演示選擇的聲音是“Sky”，聽起來酷似好萊塢明星（寡姐）斯嘉麗·約翰遜。讓人很容易聯想到科幻電影《她（Her）》，其中AI助手正是由斯嘉麗配音。電影中男主角從使用AI助手，一步步走向一段無果的人機戀情。

奧特曼自己也在X上發了這部電影的名字：her。還有人幹脆把電影海報裡的臉換成了奧特曼的。

當GPT-4o驅動的ChatGPT用飽含情緒的聲音和人聊天，還能看、能聽、能說會唱，你就知道，科幻已經照進現實了。

更關鍵的是，穆拉蒂現場宣佈，GPT-4o免費向所有人開放。也就是說，隨著後續更新，免費使用者也可以直接使用GPT-4o，只不過每日限制條數比付費使用者少，達到限制後會自動切換回GPT-3.5。

以及，ChatGPT的桌面應用將上線蘋果電腦系統Mac OS，Windows版本將在今年晚些時候推出。

A

如果用四個字總結GPT-4o的特點，就是：更通人性。

而這體現在兩方面，一方面是GPT-4o多模態融會貫通，反應速度也大大提高，互動方式更接近於人；另一方面，是GPT-4o驅動下的機器人明顯更活潑，更樂於表現出人類情緒。

先說GPT-4o的多模態能力，精準來說，GPT-4o最亮眼的是跨模態的能力。

一年多以前，2023年3月，OpenAI發佈了多模態模型GPT-4。從那時起，人們就可以給GPT-4發圖片讓它幫忙分析，也可以發檔案、語音聊天。但是文字、圖像、語音之間是有“壁”的。

比如你想讓ChatGPT幫忙解一道數學題，就只能截圖或者複製題目，發給ChatGPT。如果想聽ChatGPT語音講解，得先在文字框發完之後，再切到語音。

但在GPT-4o下，你可以直接使用桌面應用，將ChatGPT打開放在一邊，和它聊著天的同時，用“拍攝”功能給它看你電腦桌面的內容，它就可以在對話中為你答疑解惑。

在一則演示中，使用者將ChatGPT桌面應用和做題介面同時打開。ChatGPT不直接給出答案，而是以問題引導的方式，有問有答地一步步帶使用者解了一道幾何題。

或者，你也可以打開攝影機，ChatGPT也可以“看”著紙面指導解題。

在所有的演示當中，最讓人直呼“恐怖”的還是視訊對話：使用者打開攝影機，讓ChatGPT“看”到當下，並進行互動。

用前置鏡頭自拍，ChatGPT不僅能識別使用者的情緒，如“看起來很開心，甚至可以說是興奮的”，還能從使用者背後的畫面判斷其身處的環境，如“看起來你在一個攝影棚中，背後有一些燈光，你的胸前還別著麥克風，可能在錄製視訊之類的”。當有另一個人進入鏡頭並且做鬼臉的時候，ChatGPT也精準指出了這一“不太尋常”的情況，並加以描述。

用後置鏡頭，ChatGPT就可以和使用者共享視角。如在語言學習的過程中，打開攝影機讓ChatGPT用某種語言說出物品的名稱。或者可以為視障使用者提供指引，告訴使用者“有一輛計程車來了，就是現在，招手吧”。

再加上使用者話音剛落ChatGPT就接話，以及使用者可以直接打斷ChatGPT，它也都能接著聊，這就使得整體體驗更像人與人的對話，快速且靈活。

順帶一提，由於GPT-4o的響應速度快、可打斷，其即時翻譯效果非常驚豔。兩個語言不通的人將GPT-4o驅動的ChatGPT放在中間充當翻譯，就可以聊天了。

總而言之，GPT-4o驅動下的ChatGPT，不再僅僅是一個什麼都會的應用，而是真正進化成了一個“AI助手”。

B

再說情緒，這一點不容小覷。

從2022年11月ChatGPT上線開始，這款聊天機器人在很長一段時間裡都給人一種不苟言笑的印象。這很有可能是OpenAI為了避免麻煩而有意為之的，ChatGPT不僅回答起問題一板一眼，而且只要有機會就會向使用者強調“我只是個機器人，我沒的感情”。使用者如果想要ChatGPT更“放鬆”，需要給出明確的指令。

但GPT-4o驅動下的ChatGPT明顯不同了。在沒有預先指令的情況下，ChatGPT不再刻意避免像人類，而是相反。

比如，當使用者求助ChatGPT，說自己馬上要參加OpenAI的面試，ChatGPT接過話開玩笑地說：“OpenAI，嗯？怎麼聽起來這麼耳熟嘞？”緊接著竊笑，轉而笑著亢奮地接著說：“開玩笑的！太棒了洛基（演示人員的名字）！什麼樣的面試？”

當洛基尋求外形上的建議時，ChatGPT用幽默的方式表示頭髮需要整理，說他“看起來有寫了一整夜程式碼的氛圍”。洛基戴上了一頂遮陽帽，ChatGPT立刻“哈哈哈”地大笑，說他“肯定會很顯眼”，但在面試中不合適，像朋友一樣勸他放棄這樣做。

也就是說，GPT-4o驅動下的ChatGPT，不再是一個只追求性能的AI工具，而是開始主動提供“情緒價值”。

在ChatGPT走嚴肅路線的兩年裡，不少競品都以更活潑、更“通人性”的姿態出現，並俘獲了不少使用者的心。

如Inflection.AI曾推出的機器人Pi，主打的就是“陪伴”，總是語氣溫柔，對使用者充滿關懷，不到一年的時間裡就做到百萬日活使用者，平均對話持續時間超過半小時。

埃隆·馬斯克（Elon Musk）的人工智慧公司xAI的大模型Grok，則因其毒舌一經上線就吸引不少關注。

就連上一波AI聊天機器人熱潮也深諳此道。2011年蘋果將Siri整合到iPhone4S中，AI聊天機器人成賽博玩具，人們熱衷於“調戲Siri”，讓它唱歌、講笑話。Siri雖不算神通廣大，但提供了足夠多的樂趣。中國使用者熟悉的天貓精靈、小愛同學等，也無不有一個俏皮的“人設”。

但後來的故事我們都知道了，上一代AI助手因其技術限制，能做的實在有限，“俏皮”來自有限的預先設定，還因為理解能力不佳、不夠靈活，漸漸被使用者釘上“人工智障”的恥辱柱。

在2024年，人們曾經對Siri們抱有的期待——一個既能當得力助手幫忙做事，又能當賽博玩具聊天嬉笑的AI——終於在GPT-4o身上有了著落。

C

去年5月，比爾·蓋茨（Bill Gates）曾在AI Forward 2023活動上談及AI，對AI的前景很看好：“你永遠不會去搜尋網站了，也不會再去亞馬遜了。”

而能幹掉搜尋和電商的，在蓋茨眼中不是別的，正是未來頂級的AI助理：“無論誰贏得了AI助理的競賽，這都是一件大事。”

面向C端使用者，AI助理的戰事已經打響。

微軟已經將Copilot帶進Windows11，依託以側邊欄工具的形式輔助使用者；Google在內部整合了Google大腦和DeepMind之後發佈拳頭模型Gemini，未來有望更加深入地嵌入各個產品和應用，如AndroidAndroid、Google搜尋和Workspace；亞馬遜則在去年9月發佈新款Alexa，接入大模型。

蘋果也有明顯的戰略傾斜，加快AI步伐。6月，蘋果將舉行全球開發者大會（WWDC24），iOS18是否會以人工智慧做軟體更新是外界關注的焦點。外界普遍認為，蘋果會對Siri進行大模型重塑。

今年3月之後，接連有幾個消息傳出。先是彭博社援引知情人士透露，蘋果正在就將GoogleGemini大模型內建於iPhone進行談判，同期也在與OpenAI進行類似談判。而後是蘋果CEO蒂姆·庫克（Tim Cook）訪華之後，《科創板日報》報導蘋果將與百度進行技術合作，在今年即將發佈的iPhone16、Mac系統和iOS 18提供AIGC功能。

用GPT-4o，OpenAI再次給世界億點點震撼，接下來的AI助手競爭只會更加精彩。

“新的語音（和視訊）模式是我使用過最好的電腦介面。這感覺就像電腦裡的人工智慧，它的真實性還是讓我有點吃驚。達到人類水平的反應時間和表達能力是一個很大的變化。”在隨GPT-4o發表的一篇博文中，奧特曼寫道。 (新浪科技)