重磅!蘋果AirPods將推出即時翻譯功能,網友:干翻一批AI智能眼鏡!


蘋果將在今年晚些時候為AirPods推出即時翻譯功能

蘋果正在開發一項功能,讓AirPods能夠將面對面對話從一種語言翻譯成另一種語言,據彭博社報導。該功能將與iOS 19關聯,並將在今年晚些時候通過AirPods軟體更新推出。


AirPods將能為說不同語言的人提供更簡便的翻譯過程,不過這一流程將依賴於iPhone上的翻譯應用。

如果一位佩戴AirPods的英語使用者正在與說西班牙語的人交談,iPhone將檢測音訊,翻譯語音,然後將其以英語傳回給佩戴AirPods的人。英語使用者隨後可以回應,而他們的回應將被翻譯成西班牙語並通過iPhone播放出來。蘋果的iPhone翻譯應用目前已經可以用於這類對話,但將此功能整合到AirPods中將使交流更加流暢。

配合這一新AirPods功能,蘋果還計畫在iOS 19中改進翻譯應用,不過目前尚無具體細節。雖然蘋果正在開發計畫於2025年推出的新款AirPods Pro 3耳機,但看起來蘋果可能也會將iOS 19的翻譯功能引入現有機型。

近年來,蘋果一直將AirPods更新與iOS更新相結合。例如,在iOS 18中,蘋果加入了一系列聽力健康功能,可以測試聽力問題,並在檢測到問題時將AirPods用作助聽器。

網友:這個功能將干翻一批主打AI耳機和智能眼鏡翻譯的產品


Oculus聯創的AI眼鏡公司發佈“前段時間火爆全網的語音助手”的基礎模型

AI眼鏡公司Sesame發佈了為其令人印象深刻的逼真語音助手Maya提供支援的基礎模型。

該模型大小為10億參數,採用Apache 2.0許可證,這意味著它幾乎沒有限制地可以用於商業用途。根據Sesame在AI開發平台Hugging Face上的描述,這個名為CSM-1B的模型可以從文字和音訊輸入生成"RVQ音訊程式碼"。


RVQ指"殘差向量量化",這是一種將音訊編碼為稱為程式碼的離散標記的技術。RVQ被用於許多最新的AI音訊技術中,包括Google的SoundStream和Meta的Encodec。

CSM-1B使用Meta的Llama系列模型作為骨架,並配合音訊"解碼器"元件。Sesame公司表示,CSM的一個微調變體為Maya提供支援。

"這裡開放原始碼的模型是一個基礎生成模型,"Sesame公司在CSM-1B的Hugging Face和GitHub程式碼庫中寫道。"它能夠產生各種聲音,但尚未針對任何特定聲音進行微調[...]由於訓練資料中的資料污染,該模型對非英語語言有一定的處理能力,但效果可能不太好。"

Oculus聯合創始人殺入AI眼鏡賽道,智能語音助手發佈,外網驚呼"語音恐怖谷效應沒了"


這背後的公司名為Sesame,獲得了來自a16z、Spark Capital和Matrix Partners的未披露金額投資——這些都是Oculus VR的重要投資者。公司由Oculus聯合創始人兼前CEO Brendan Iribe、Ubiquity6前首席技術官兼聯合創始人Ankit Kumar,以及Meta Reality Labs前研究工程總監Ryan Brown領導。

該公司表示,它還在開發配套的AI眼鏡,這些眼鏡"設計用於全天佩戴,為你提供高品質音訊,讓你方便地接入可以與你一起觀察世界的AI伴侶。"目前,公司只分享了一些看起來像早期原型的小圖片。


Sesame在其網站上發佈了一份簡短的白皮書,描述了其模型和約一百萬小時的"公開可用音訊"資料集。公司計畫開源其模型,並在"未來幾個月內"將支援的語言從英語擴展到20多種。


Brendan Iribe 在2018年離開 Facebook,Iribe 與 Facebook 高管團隊在 Oculus (後來的Quest)的未來發展方向上存在“根本性的分歧”,且這種分歧隨著時間的推移愈發嚴重。此外,Iribe 對在性能上進行“逐底競爭”不感興趣。


為AI眼鏡預熱!首發的語音助手在X上引起網友一片驚嘆~

a16z負責人表示是其見過的最好的 AI 語音應用程式,體現了人工智慧可以“比人類更像人類”的理念 一旦你掌握了語調、停頓、音調等,就會發現對話夥伴 100% 投入其中


頂尖VC投資人Deedy表示這是語音AI的GPT-3時刻



a16z解釋為什麼投資這家AI眼鏡公司:


智慧型手機之後,什麼將取而代之?是你會真正願意與之對話的人工智慧眼鏡。

幾十年來,電腦互動介面一直在不斷髮展,變得更加自然和直觀。20世紀80年代,我們使用鍵盤與終端進行互動。20世紀90年代,我們轉而使用滑鼠與個人電腦圖形使用者介面(PC GUIs)進行互動。隨後,在2010年代,智慧型手機引入了觸控式螢幕,用於與移動圖形使用者介面(mobile GUIs)進行互動。

每一代技術都使人類與機器之間的無縫互動更近一步。但自從iPhone發佈以來已經過去了十多年,我們仍然幾乎完全依賴螢幕來完成所有操作。那麼,接下來會是什麼呢?

答案可能在於語音,這是人與人之間互動的自然方式,但在人與電腦的互動中,除了像“Alexa,關燈”這樣的基本體驗外,語音一直顯得過於原始。

然而,人工智慧在過去幾年裡取得了巨大進步。結合合適的硬體,語音和語言(包括理解和生成)方面的進步可能會解鎖一種真正自然的電腦互動介面。這就是芝麻人工智慧登場的地方。

Sesame 人工智慧基於一個簡單但並不顯而易見的理念,即答案不在於增強現實(AR)眼鏡的螢幕中,而在於音訊。到目前為止,人工智慧音訊的情感平淡讓人感到疲憊且不自然。但如果你從AR眼鏡中去掉視覺顯示,轉而專注於一個以音訊為主的出色人工智慧系統,你就能創造出一種無縫且直觀的計算體驗。

作為一個起點,該團隊已經訓練了一個會話語音模型(Conversational Speech Model,CSM),它採用了一種新穎的語音建模方法,你可以在這裡瞭解更多相關內容。它尚未完全跨越“恐怖谷”(uncanny valley,指人類對機器人或虛擬人物的模擬度越高,越容易產生厭惡感的現象),但已經接近了。你還可以嘗試這個研究預覽版,並在這裡與它的首批人工智慧夥伴Maya或Miles進行對話。 (三次方AIRX)