重磅！蘋果AirPods將推出即時翻譯功能，網友：干翻一批AI智能眼鏡！

2025/03/14

•

蘋果將在今年晚些時候為AirPods推出即時翻譯功能

蘋果正在開發一項功能，讓AirPods能夠將面對面對話從一種語言翻譯成另一種語言，據彭博社報導。該功能將與iOS 19關聯，並將在今年晚些時候通過AirPods軟體更新推出。

AirPods將能為說不同語言的人提供更簡便的翻譯過程，不過這一流程將依賴於iPhone上的翻譯應用。

如果一位佩戴AirPods的英語使用者正在與說西班牙語的人交談，iPhone將檢測音訊，翻譯語音，然後將其以英語傳回給佩戴AirPods的人。英語使用者隨後可以回應，而他們的回應將被翻譯成西班牙語並通過iPhone播放出來。蘋果的iPhone翻譯應用目前已經可以用於這類對話，但將此功能整合到AirPods中將使交流更加流暢。

配合這一新AirPods功能，蘋果還計畫在iOS 19中改進翻譯應用，不過目前尚無具體細節。雖然蘋果正在開發計畫於2025年推出的新款AirPods Pro 3耳機，但看起來蘋果可能也會將iOS 19的翻譯功能引入現有機型。

近年來，蘋果一直將AirPods更新與iOS更新相結合。例如，在iOS 18中，蘋果加入了一系列聽力健康功能，可以測試聽力問題，並在檢測到問題時將AirPods用作助聽器。

網友：這個功能將干翻一批主打AI耳機和智能眼鏡翻譯的產品

Oculus聯創的AI眼鏡公司發佈“前段時間火爆全網的語音助手”的基礎模型

AI眼鏡公司Sesame發佈了為其令人印象深刻的逼真語音助手Maya提供支援的基礎模型。

該模型大小為10億參數，採用Apache 2.0許可證，這意味著它幾乎沒有限制地可以用於商業用途。根據Sesame在AI開發平台Hugging Face上的描述，這個名為CSM-1B的模型可以從文字和音訊輸入生成"RVQ音訊程式碼"。

RVQ指"殘差向量量化"，這是一種將音訊編碼為稱為程式碼的離散標記的技術。RVQ被用於許多最新的AI音訊技術中，包括Google的SoundStream和Meta的Encodec。

CSM-1B使用Meta的Llama系列模型作為骨架，並配合音訊"解碼器"元件。Sesame公司表示，CSM的一個微調變體為Maya提供支援。

"這裡開放原始碼的模型是一個基礎生成模型，"Sesame公司在CSM-1B的Hugging Face和GitHub程式碼庫中寫道。"它能夠產生各種聲音，但尚未針對任何特定聲音進行微調[...]由於訓練資料中的資料污染，該模型對非英語語言有一定的處理能力，但效果可能不太好。"

Oculus聯合創始人殺入AI眼鏡賽道，智能語音助手發佈，外網驚呼"語音恐怖谷效應沒了"

這背後的公司名為Sesame，獲得了來自a16z、Spark Capital和Matrix Partners的未披露金額投資——這些都是Oculus VR的重要投資者。公司由Oculus聯合創始人兼前CEO Brendan Iribe、Ubiquity6前首席技術官兼聯合創始人Ankit Kumar，以及Meta Reality Labs前研究工程總監Ryan Brown領導。

該公司表示，它還在開發配套的AI眼鏡，這些眼鏡"設計用於全天佩戴，為你提供高品質音訊，讓你方便地接入可以與你一起觀察世界的AI伴侶。"目前，公司只分享了一些看起來像早期原型的小圖片。

Sesame在其網站上發佈了一份簡短的白皮書，描述了其模型和約一百萬小時的"公開可用音訊"資料集。公司計畫開源其模型，並在"未來幾個月內"將支援的語言從英語擴展到20多種。

Brendan Iribe 在2018年離開 Facebook，Iribe 與 Facebook 高管團隊在 Oculus （後來的Quest）的未來發展方向上存在“根本性的分歧”，且這種分歧隨著時間的推移愈發嚴重。此外，Iribe 對在性能上進行“逐底競爭”不感興趣。

為AI眼鏡預熱！首發的語音助手在X上引起網友一片驚嘆~

a16z負責人表示是其見過的最好的 AI 語音應用程式，體現了人工智慧可以“比人類更像人類”的理念一旦你掌握了語調、停頓、音調等，就會發現對話夥伴 100% 投入其中

頂尖VC投資人Deedy表示這是語音AI的GPT-3時刻

a16z解釋為什麼投資這家AI眼鏡公司：

智慧型手機之後，什麼將取而代之？是你會真正願意與之對話的人工智慧眼鏡。

幾十年來，電腦互動介面一直在不斷髮展，變得更加自然和直觀。20世紀80年代，我們使用鍵盤與終端進行互動。20世紀90年代，我們轉而使用滑鼠與個人電腦圖形使用者介面（PC GUIs）進行互動。隨後，在2010年代，智慧型手機引入了觸控式螢幕，用於與移動圖形使用者介面（mobile GUIs）進行互動。

每一代技術都使人類與機器之間的無縫互動更近一步。但自從iPhone發佈以來已經過去了十多年，我們仍然幾乎完全依賴螢幕來完成所有操作。那麼，接下來會是什麼呢？

答案可能在於語音，這是人與人之間互動的自然方式，但在人與電腦的互動中，除了像“Alexa，關燈”這樣的基本體驗外，語音一直顯得過於原始。

然而，人工智慧在過去幾年裡取得了巨大進步。結合合適的硬體，語音和語言（包括理解和生成）方面的進步可能會解鎖一種真正自然的電腦互動介面。這就是芝麻人工智慧登場的地方。

Sesame 人工智慧基於一個簡單但並不顯而易見的理念，即答案不在於增強現實（AR）眼鏡的螢幕中，而在於音訊。到目前為止，人工智慧音訊的情感平淡讓人感到疲憊且不自然。但如果你從AR眼鏡中去掉視覺顯示，轉而專注於一個以音訊為主的出色人工智慧系統，你就能創造出一種無縫且直觀的計算體驗。

作為一個起點，該團隊已經訓練了一個會話語音模型（Conversational Speech Model，CSM），它採用了一種新穎的語音建模方法，你可以在這裡瞭解更多相關內容。它尚未完全跨越“恐怖谷”（uncanny valley，指人類對機器人或虛擬人物的模擬度越高，越容易產生厭惡感的現象），但已經接近了。你還可以嘗試這個研究預覽版，並在這裡與它的首批人工智慧夥伴Maya或Miles進行對話。 (三次方AIRX)