#語音智能體
OpenAI語音智能體誕生,懟臉實拍語氣狂到飛起!API降到每分鐘0.3美分
就在今天凌晨,OpenAI的全新音訊模型上線了!語音智能體的時代正式開啟了!現在可以利用新的語音模型,指導GPT-4o的說話語氣:想溫柔就溫柔,讓瘋狂就瘋狂!而且,定價也很親民,比上一代語音模型更便宜。就在今天凌晨,OpenAI的全新音訊模型上線了!這次,一共發佈了三款全新語音識別模型gpt-4o-transcribe、gpt-4o-mini-transcribe、gpt-4o-mini-tts,正式開啟了語音智能體的時代。三款模型的語音轉文字和文字轉語音的功能,讓開發者能輕鬆建構智能體。gpt-4o-transcribe (語音轉文字):比原來的Whisper模型更準確,更理解人類說話,錯誤更少gpt-4o-mini-transcribe (語音轉文字):gpt-4o-transcribe 的精簡版本,速度更快、效率更高gpt-4o-mini-tts (文字轉語音):可控性強,使用者可以直接對它發號施令,不僅指定說什麼,還能教它怎麼說在價格上,也有大驚喜:API價格,最低達到了每分鐘0.3美分!跟昨天的o1-pro API的天價token相比,語音模型的API真可謂是良心價了。要知道,昨天的OpenAI史上最貴API,輸入價格150美元/每百萬token,輸出價格600美元/每百萬token,比DeepSeek-R1要貴上千倍。這也就意味著,以後像客服中心記錄電話或者記錄會議內容這樣的工作,都會變得更可靠,更方便,甚至更便宜!語音轉文字的兩個全新模型,比起之前又來了一波大升級,比OpenAI原來的Whisper模型更準確,能更好地理解人類語音。在多種語言上,有更低的詞錯誤率(WER)。最新語音轉文字STT模型,減少了在FLEURS上的轉錄錯誤率WER其中,語音轉文字GPT-4o-Transcribe在API中可用,每分鐘僅0.6美分,與Whisper價格相同,而GPT-4o-Mini-Transcribe是0.3美分,是滿血版的半價。其他模型為OpenAI上一代語音模型這些新模型可以通過API來使用,讓開發者能建立更智能、更個性化的語音助手。從而更好地理解各種口音和快速說話,甚至在嘈雜的環境中也表現良好。另外,OpenAI還推出了一個新的TTS(文字轉語音)模型:gpt-4o-mini-tts。現在,OpenAI已經開放了免費體驗地址,只要輸入文字,就可以生成語音,還能選不同的語氣。API體驗地址:https://www.openai.fm/現場實測昨天凌晨的直播中,OpenAI給我們現場懟臉實測,展示了一番新的TTS模型實際表現到底怎麼樣。首先,他們的VOICE(音色)選擇了Ash,然後在VIBE(大概是情感的意思)中隨機出了Mad Scientist(瘋狂科學家)。之後輸入了需要合成音訊的指令碼:Ah-ha-ha! The stars tremble before my genius! The rift is open, theenergy surging-unstable? Perhaps. Dangerous? Most certainly!Captain Rylen's hands twitch over the controls. Fools! They hesitate, but I-I alone see the future! 「Engage the thrusters!」 I bellow, eyes wild with possibility.The ship lurches, metal groaning-oh, what delicious chaos! Light bends,time twists,and then-800M!Silence. Darkness. And then. oh-ho! A new universe! Bigger! Stranger! Andmine for the taking!Ah-ha-ha-ha!首次嘗試的時候沒輸出,不過刷新後很快模型正常輸出音訊,大家可以通過下邊視訊感受一下模型的效果。可以聽得出,合成的語音質量還是挺高的,基本上沒有多少AI味了,甚至還有一些高級感。語音清晰,但語氣狂得飛起,聽起來就像一本正經的吹牛。接著,他們又換了另一種VIBE:Serene(寧靜),輸入了下面的合成指令碼:This livestream is going really well! You are doing great.這次的語音效果就顯得十分平靜,給人一種寧靜感,就像李白《靜夜思》的意境一樣。還可以利用全新的的語言模式,直接呼叫智能體!從今以後,文字智能體轉換為語音智能體變得輕而易舉。直播中,演示了要在電話上使用Patagonia客服智能體,需要修改已有智能體的那些程式碼。只用9行程式碼,智能體不僅聽得懂人話,而且會開口說話了!就像AI版的Siri,可以直接詢問最近的訂單,智能體聽起來就像真的客服一樣。Agent呼叫工具,獲得相關資訊後,回答自然,精準,流暢。直播的結尾,還有一個小彩蛋。OpenAI現場宣佈舉辦有獎競賽,可獲得全球限定版收音機:誰能想出最有創意的文字轉語音使用方式,並分享給Open AI的Twitter帳戶,就有機會獲得特別版收音機。他們會選出3位獲獎者,可能是因為這款收音機全世界只有三台,背面有Open AI的logo。創意爆棚的小夥伴可以去碰碰運氣。OpenAI,意在語音AgentOpenAI在部落格中稱,新的語音模型套件旨在為語音Agent提供強大支援,並已向全球開發者開放。在最近幾個月裡,OpenAI一直在努力讓文字智能助手變得更聰明、更強大、更有用。OpenAI推出了很多Agent產品,比如Operator、Deep Research、Computer-Using Agents和Responses API,這些都是為了幫助AI助手更好地完成任務。但是,為了讓智能助手真正有用,需要讓AI能和人更自然、更深入地交流,就像我們和朋友聊天一樣。所以,OpenAI讓智能助手不僅能理解我們的話,還能用自然的聲音回答我們。現在,開發者還可以讓智能助手的語音聽起來更人性化,比如聽起來像一位溫柔的客服人員。這樣,智能助手就能更好地為客服、講故事等不同的場合服務。自從2022年推出第一個音訊模型以來,OpenAI一直在努力讓AI變得更聰明、更準確、更可靠。現在,開發者可以用這些新的音訊模型來建立更準確的語音轉文字系統和聽起來更自然的文字轉語音系統。所有這些功能都可以通過API來實現。全球領先的語音識別模型昨天,OpenAI推出了兩款新的語音識別模型:gpt-4o-transcribe和gpt-4o-mini-transcribe。它們比原來的Whisper模型更準確,能更好地理解我們說的話。在幾個重要的測試中,gpt-4o-transcribe表現比Whisper模型好,錯誤更少。這是因為OpenAI用了更先進的學習方法和更多音訊資料。這些新模型能更好地理解人說話的細節,減少錯誤,特別是在有口音、很吵或者說話很快的情況下。現在,這些模型已經可以在OpenAI的語音轉文字API中使用了。新模型在多個測試中都取得了更低的WER,包括一個包含100多種語言的測試。這表明新模型在更多的語言上都能表現得很好。指標「詞錯誤率」(word error rate,WER)用於衡量語音識別的精準性:WER越低,表示模型越準確。頂級模型在FLEURS上,不同語言的的WER比較如圖所示,新模型在大多數主要語言上的表現都優於其他領先的模型。這意味著OpenAI的語音識別技術,在全球範圍內都是領先的。全新文字轉語音TTS模型OpenAI還推出了全新的gpt-4o-mini-tts 模型,具有更好的可控性。開發者們有福啦!現在可以對模型 「發號施令」,不僅能告訴模型該說啥,還能教它怎麼說。不管是搞客戶服務,還是進行創意故事創作,都能有超棒的定製體驗。目前,已經在文字轉語音API裡上線。不過要注意,現在文字轉語音模型只有人工預設的聲音。OpenAI會緊緊盯著,保證出來的聲音和預設的合成聲音一模一樣。模型背後的技術創新在真實音訊資料上預訓練在GPT-4o和GPT-4o-mini架構之上,新的音訊模型在專門的以音訊為中心的資料集上進行了大量預訓練。這些資料集對於最佳化模型性能至關重要。這種有針對性的方法使得模型能更好地理解語音中的細微差別,從而在音訊相關任務中表現出色。先進的蒸餾方法OpenAI還改進了蒸餾技術,使得大型音訊模型能夠將知識有效地轉移到更小、更高效的模型中。通過採用先進的自我博弈方法,蒸餾資料整合功捕捉了真實的對話動態,模擬了真實的使用者與助手的互動。這幫助小型模型在對話質量和響應性上表現優秀。強化學習範式對於語音轉文字STT模型,OpenAI引入了強化學習(RL)範式,讓轉錄精準度達到了最先進的水平。這種方法顯著提高了精準度,並減少了幻覺,在複雜語音識別場景中具備了極強的競爭力。這些技術進展代表了音訊建模領域的突破,結合創新的方法和實際的增強,提升了語音應用的性能。API全球開放這些新音訊模型現已向所有開發者開放。更多關於如何使用音訊的內容,參閱OpenAI的相關文件。API文件:https://platform.openai.com/docs/guides/audio加入語音轉文字和文字轉語音模型,最簡便方式的建構語音代理。OpenAI還發佈了與Agents SDK的整合,開發過程更加簡單。如果開發者希望建構低延遲的語音轉語音體驗,OpenAI建議使用語音轉語音模型來建構即時API。OpenAI還提供了簡單的Demo,點選下展示頁面Play按鈕,即可體驗人性化的機器語音。如需體驗,在https://www.openai.fm/上,點選右上角切換按鈕即可未來計畫:多模態AI展望未來,OpenAI計畫繼續投資於提升音訊模型的智能性和精準性,並探索允許開發者引入自訂聲音的方式,從而打造更個性化的體驗,同時遵循安全標準。此外,將繼續與政策制定者、研究人員、開發者和創作者進行對話,共同探討合成語音所帶來的挑戰與機遇。OpenAI期待看到開發者利用這些增強的音訊能力,打造出創新和創意應用。同時,也會投資於其他媒體形式——包括視訊——以便開發者能夠建構多模態的智能體驗。參考資料:https://platform.openai.com/docs/pricing#transcription-and-speech-generationhttps://www.youtube.com/live/lXb0L16ISAchttps://www.openai.fm/https://openai.com/index/introducing-our-next-generation-audio-models/ (新智元)
OpenAI推出語音智能體全家桶:可以實現前所未有的精細化教AI說話
就在剛剛,OpenAI 發佈了一系列新模型和工具,具體來說OpenAI在API 中推出三種新的先進音訊模型:🗣️ 兩種語音轉文字模型 - 表現優於 Whisper💬 新的 TTS (文字轉語音)模型——你可以教AI如何說話核心只有一個:讓開發者輕鬆建構強大的「語音智能體」!在直播中,據OpenAI 平台負責人 Olivier Godement 說他們一直在積極建構 AI 智能體,而現在,他們要將重點從文字拓展到語音為什麼是語音? Olivier 認為,語音是人類最自然的互動方式,相較於讀寫,語音溝通更加便捷和人性化。 因此,打造可靠、精準、靈活的語音智能體,將極大地拓展 AI 的應用場景第一時間給大家劃個重點三大模型齊發力,打造「聲控AI」基石為了實現這一願景,OpenAI 祭出了三大法寶:1.兩款全新「語音轉文字」模型:GPT-4o-transcribe 和 GPT-4o-mini-transcribe這兩款模型號稱“地表最強”,性能全面超越之前的 Whisper 模型,並且在各種語言的轉錄精準率上都實現了質的飛躍。這意味著,AI 聽得更清、更準了!2.全新「文字轉語音」模型:GPT-4o-mini-tts這款模型首次讓開發者可以精細控制 AI 的發聲方式,不僅能決定 AI 說什麼,更能控制 AI 怎麼說!語調、情感,都能由你掌控,打造更富有人性的聲音體驗為了讓大家更容易得使用這個模型,OpenAI為這個模型建了新的網站,http://OpenAI.fm,一個供開發人員嘗試 OpenAI API 中的新文字轉語音模型的互動式演示,OpenAI已經預先生成了各種演示文字,可以選擇不同的聲音,不同的情緒來表達你的文字,你也可以自己輸入文字,體驗選擇不同聲音和情緒來表達3.升級版 Agent SDK為了讓開發者更便捷地建構語音智能體,OpenAI 對之前發佈的 Agent SDK 進行了重大更新,讓文字智能體“一鍵升級”為語音智能體成為可能!這次升級亮點頗多:語音能力加持: Agent SDK 深度整合了 OpenAI 最新的「語音轉文字」和「文字轉語音」模型,開發者無需複雜組態,即可為智能體賦予“耳朵”和“嘴巴”。流式處理最佳化: 升級後的 SDK 支援雙向流式傳輸,音訊輸入和語音輸出都更加即時,大幅提升了語音互動的流暢性。開箱即用,快速上手: Agent SDK 提供了豐富的示例程式碼和詳盡的文件,即使是新手開發者也能快速上手,將文字智能體輕鬆轉化為語音智能體偵錯利器: Agent SDK 與 OpenAI 偵錯 UI 無縫整合,開發者可以直觀地追蹤語音互動全過程,分析音訊輸入、文字轉錄、模型推理、語音合成等各個環節,Debug 效率直線提升!建構語音智能體,兩種主流方案OpenAI 的專家 Jeff Harris 在直播中分享了建構語音智能體的兩種主要方法:方法一:即時 API 直連「語音-語音」模型這種方式更加前沿,直接使用「語音-語音」模型,讓 AI 直接理解音訊並輸出語音,速度更快,體驗更流暢。 這也是 ChatGPT 高級語音模式背後的技術方法二:鏈式呼叫音訊模型與文字模型這是一種更易上手、更可靠的方案,也是 OpenAI 此次重點推薦的方式。 它通過以下步驟實現:語音轉文字模型 (Speech-to-Text): 將使用者語音轉化為文字。文字大模型 (Text-based LLM): 例如 GPT-4o,理解文字並生成合適的回覆。文字轉語音模型 (Text-to-Speech): 將文字回覆轉化為自然流暢的語音。Jeff 強調,鏈式方案的優勢在於:模組化: 各個環節的模型可以靈活替換,選擇最適合的元件。高可靠性: 文字模型的智能程度依然是目前的“黃金標準”,鏈式方案能保證更高的可靠性。易上手: 開發者可以基於已有的文字智能體項目,快速加入語音功能模型背後的技術使用真實音訊資料集進行預訓練新音訊模型基於 GPT‑4o 和 GPT‑4o-mini 架構,並在專門的以音訊為中心的資料集上進行了廣泛的預訓練,這對於最佳化模型性能至關重要。這種有針對性的方法可以更深入地洞察語音細微差別,並在與音訊相關的任務中實現出色的性能先進的蒸餾方法增強蒸餾技術,使知識從最大的音訊模型轉移到更小、更高效的模型。利用先進的自我對弈方法,我們的蒸餾資料集有效地捕捉了真實的對話動態,複製了真正的使用者-助手互動。這有助於小型模型提供出色的對話質量和響應能力強化學習範式對於語音轉文字模型,整合了強化學習 (RL-heavy) 重度範式,將轉錄精準度推向了最先進的水平。這種方法大大提高了準確度並減少了幻覺,使語音轉文字解決方案在複雜的語音識別場景中具有極強的競爭力性能炸裂,價格親民GPT-4o 系列「語音轉文字」模型的驚人性能:在 FLEURS 基準測試中,錯誤率遠低於上一代 Whisper 模型,真正做到了“更上一層樓”更令人驚喜的是,價格方面也十分良心:GPT-4o-transcribe: 每分鐘 0.6 美分,與 Whisper 模型價格一致GPT-4o-mini-transcribe: 每分鐘僅需 0.3 美分,性價比更高!GPT-4o-mini-tts: 文字轉語音模型,每分鐘 1 美分,經濟實惠參考:https://openai.com/index/introducing-our-next-generation-audio-models/https://www.youtube.com/watch?v=lXb0L16ISAc (AI寒武紀)