#Siri
巴倫周刊—蘋果,或許實際上正在贏得AI競賽
華爾街似乎已形成新的共識:即使蘋果在AI領域起步較晚,也並不重要。蘋果成功擺脫了AI困境。自8月1日以來,蘋果股價大漲39%,過去一周更是創下歷史新高,即便此前蘋果智能(Apple Intelligence)的推出遭遇挫折——該項目旨在將AI整合進蘋果旗下裝置中。蘋果智能的核心亮點本該是新版數字個人助理Siri,其目標是像OpenAI和Google母公司Alphabet的頂級AI聊天機器人一樣強大。自2011年Siri首次推出以來,使用者就一直渴望擁有一個更智能的助手。但這個項目已被無限期推遲。新版Siri難以推進,是因為蘋果在AI競賽中主動給自己設限。它是唯一一家將隱私和安全視為賣點、而非成本負擔的大型科技公司。任何新版Siri的落地都必須符合蘋果嚴苛的隱私安全標準,這成為了項目推進的主要障礙。蘋果公司極力主張所有的機器學習都應在加密的蘋果裝置上進行,充分利用其晶片中的專用模組——這是最能保障隱私安全的方式。然而,支撐ChatGPT和Gemini等前沿模型的語言模型運行於龐大的資料中心,對算力的需求遠遠超出了手機的承受範圍。能夠在手機上運行的體積更小的模型,目前還無法持續帶來足夠優質的使用者體驗,無法達到蘋果的要求。因此,我們只能等待。與此同時,華爾街似乎已形成新的共識:即使蘋果在AI領域起步較晚,也並不重要。由於新版Siri推遲發佈,蘋果股價曾受挫,但目前已回升,與標普500指數表現持平。當大多數科技巨頭在AI賽道上全力衝刺時,蘋果卻像是在跑一場馬拉松。到底誰做得對,還需時間驗證,但我認同蘋果對AI熱潮的長遠眼光。蘋果可以不那麼急於將AI整合進自家產品。到目前為止,數千億美元的資本投入正將科技巨頭們引向同一個境地:各家AI模型之間難以顯著區分。事實證明,擁有最好的AI模型,並不是一道“護城河”,只是暫時的優勢。許多企業客戶都表示,AI語言模型正逐漸變得同質化,最近一次表達這一看法的是Salesforce首席執行長馬克·貝尼奧夫。“我們使用所有的大型語言模型,”他在公司周三的第三季度財報電話會議上表示。“目前它們都非常優秀,所以我們可以隨時切換使用。對我們來說,成本最低的就是最好的。”有報導稱,蘋果正在與Alphabet以及初創公司Anthropic進行洽談,計畫將他們的AI模型(經過針對蘋果硬體的最佳化調整)作為權宜之計,直到蘋果能建立出自己的高性能模型。蘋果正在按自己的節奏前行,將使用者體驗和隱私保護置於速度之上。在行業陷入AI 軍備競賽之際,蘋果推出了“私有雲端運算”(Private Cloud Compute)服務:這是一套基於蘋果程式語言開發的開放伺服器軟體,運行在配備蘋果晶片的蘋果伺服器上。一如既往,蘋果希望掌控從硬體到軟體的全鏈條,尤其是在隱私安全領域。AI對話可能包含大量個人敏感資訊,而Private Cloud Compute能夠防止這些資訊被窺探,甚至連蘋果自己都無法查看。未來,升級版的Siri將會面世,其安全性將超過所有其他聊天機器人。與此同時,蘋果保留實力,僅適度增加資本支出以支援其私有雲端運算。相比之下,Meta、甲骨文、微軟和Google則在AI資料中心上合計投入了數千億美元,使得原本十分健康的現金流量表和資產負債表被“侵蝕”。其中,Meta尤為突出,今年在AI資料中心上的支出約為700億美元,並承諾明年還會增加。這些投資全部用於自身,並不像其他公司那樣用於雲端出租。債務水平正在上升,由資本支出帶來的折舊費用也開始不斷增加,並且還會持續增長。在最新季度,Google的折舊費用同比增長了41%,微軟增長了93%,Meta增長了20%,而蘋果僅上升了7%。如果未來有大規模資本支出的需求,蘋果還有充足的空間來應對。儘管蘋果還在摸索如何將AI融入自家軟體,但公司的實力依然十分明顯。華爾街分析師普遍認為,iPhone 17將推動蘋果裝置銷售額實現自2021財年以來的最高增速。依託全球超過23億台在用蘋果裝置,服務業務收入持續穩步增長。由於沒有像其他科技巨頭那樣消耗現金流,蘋果的現金返還計畫(分紅與股票回購)將持續推進。等到蘋果公佈第一財季業績時,預計其累計分紅與股票回購總額將突破1兆美元。自2012年以來,蘋果已回購近半數流通股,推動每股收益提升79%。這整個討論引出了一個更大的問題:蘋果究竟有多需要依靠AI功能來推動裝置銷售?自從智慧型手機成為一個成熟的品類後,人們往往是覺得需要新手機時才會購買。無論好壞,新功能已經不再是驅動智慧型手機銷量的主要因素。在2021財年新冠疫情封鎖期間,蘋果iPhone的銷量比前一年增長了39%,因為使用者需要新裝置來居家辦公。iPhone 16主打“蘋果智能”概念進行了大力宣傳,銷量不錯,但遠稱不上爆款。如今,iPhone 17系列回歸了蘋果一貫的做法,把重點放在硬體、設計和攝影機上,表現似乎更勝一籌。2021財年銷售的手機,到2026財年已經五年了,人們也確實需要換新手機了。事情就是這麼簡單。蘋果還有充足的時間。投資者們不妨耐心等待。 (Barrons巴倫)
蘋果Siri爆將套殼谷歌Gemini
蘋果的「深海海妖」或將成為套了殼的Google「雙子星」。根據知名記者古爾曼爆料,蘋果正在與谷歌合作,付費打造一款蘋果專屬的Gemini模型,用於支援Siri,其可以在蘋果的私有雲伺服器上運行。蘋果預計明年3月推出改版後的Siri。古爾曼稱,Siri不會被整合進Google服務或Gemini的功能介面,而是讓Gemini成為Siri的運算核心,確保使用者仍將在熟悉的蘋果生態中體驗強化後的Siri。此外,新版Siri將具備AI驅動的網頁搜尋能力,並將大幅提升其語意理解能力以及對話連貫性。但古爾曼強調,Gemini的支持不一定能保證用戶的滿意度,但有望挽回Siri多年來被持續削弱的品牌形象。他也指出,蘋果預計明年6月舉行的科技大會WWDC上展示iOS 27、macOS 27和watchOS 27等新系統版本,而蘋果的人工智慧屆時將成為焦點。▍挑戰Siri在推出之時一度被視為最頂尖的語音助理之一,但其在處理多步驟請求和與第三方應用整合方面,被廣泛認為不如競爭對手——亞馬遜的Alexa和谷歌助理。而隨著ChatGPT等生成式人工智慧聊天機器人的興起,Siri的地位更是遭到重大打擊。如果蘋果與Google的合作能夠成功,Siri有望重拾成長動力,重新成為語音助理市場的明星產品。而谷歌的Gemini也是蘋果深思熟慮後的選擇。據古爾曼稱,蘋果今年稍早曾讓Anthropic的Claude模型與Gemini同台競技,雖然蘋果認為Claude在模型上更勝一籌,但Gemini更具經濟效益。但即便蘋果引進了Google的Gemini,Siri的未來仍充滿不確定性。用戶滿意度、模型能否無縫銜接以及Siri如何修復其品牌形像都需要蘋果仔細把控,而一旦失敗,其可能加劇Siri現在的困境,並引發更大的財務損失。(財聯社AI daily)
蘋果AI領域人事調整:前Siri高管將於10月底離職
據路透社報導,蘋果公司在人工智慧(AI)領域再迎人事變動。消息披露,前Siri高管、曾負責“Apple Intelligence”版本Siri研發的Robby Walker,計畫於2025年10月底正式離開蘋果。公開資訊顯示,Walker在蘋果AI業務推進中曾承擔重要角色。此前,在“Apple Intelligence”版Siri項目出現延期後,他曾在內部會議中以“挑戰游泳紀錄的失敗嘗試”作比,客觀評價團隊工作——既坦誠項目未達預期目標,也肯定了團隊在研發過程中取得的階段性成果。同時,Walker還提及,儘管部分競爭對手已推出質量相對較低的類似功能,但蘋果始終堅持更高的質量標準,不急於推出未達標的產品。項目調整後,Walker轉崗至蘋果“Answers”團隊,牽頭研發基於人工智慧技術的搜尋工具。目前,彭博社等多方資訊顯示,“Answers”項目仍在正常推進中,預計將於2026年正式上線,此次Walker離職暫未對該項目整體進展造成公開披露的影響。值得關注的是,此次人事變動並非蘋果近期在Siri相關業務上的唯一調整。此前,蘋果已對Siri項目管理權進行調整,將其從AI主管John Giannandrea手中移交至曾主導打造Vision Pro及visionOS的Mike Rockwell。按照當前規劃,新版Siri最早有望在2026年春季與使用者見面。 (環球Tech)
OpenAI又放大招!語音AI秒殺Siri?
昨晚你被GPT-Realtime刷屏了嗎?這次OpenAI真的玩大了! 😱想像一下:你剛問完問題,AI就秒回,比人類反應還快!不是文字,是真人般的語音對話,流暢得讓你懷疑對面坐著個活人。這就是GPT-Realtime的魅力——告別傳統語音助手的機械感,擁抱真正的智能對話!💡 三大殺手鐧讓人驚豔:秒級響應,告別等待焦慮! 以前語音AI要轉錄→理解→生成→播放,現在直接音訊處理,延遲幾乎為零。試想客服場景,顧客剛說完問題,AI立馬給出專業回覆,這效率誰不愛?智商爆表,精準率82.8%! 能聽懂笑聲、捕捉情緒變化,甚至在句子中間無縫切換語言。西班牙語問個電話號碼?日語聊個天?毫無壓力!比上一代提升17%,這進步簡直可怕。成本直降20%,普通人也能用! 之前每百萬音訊輸入要40美元,現在32美元,輸出也從80美元降到64美元。創業者終於不用為語音AI的帳單發愁了!更絕的是,Zillow、T-Mobile這些大廠已經搶先體驗,房產搜尋、客戶服務都能像朋友聊天一樣自然。想像一下,找房子時AI能根據你的生活方式推薦,還能用溫柔的聲音討論貸款方案,這體驗絕了! 🏠Cedar和Marin兩個新聲音 更是顛覆傳統,自然度和表現力讓人分不清真假。配合MCP協議支援,開發者接入資料變得超簡單,就像給AI插上了USB介面。當AI語音助手變得如此智能和親切,我們的工作、生活會發生怎樣的變化?客服、教育、個人助理...那個行業會首先被顛覆?你試過最智能的語音AI是什麼?GPT-Realtime會成為你的新寵嗎? (澤問科技)
蘋果Siri王炸新功能曝出,AI操控一切App,又一華人AI研發跳槽Meta
蘋果將實現“動口不動手”操作iPhone。新版Siri終於要來了!智東西8月11日消息,知名蘋果爆料人、彭博社記者馬克·古爾曼最新爆料,蘋果即將推出新版Siri語音控制功能,並升級其開發者框架App Intents。升級後的Siri將可以僅用聲音指示就可以自主打開App完成發帖、購物等操作。對於新款產品,蘋果首款OLED MacBook Pro推遲至2026年底至2027年初,搭載M5晶片的版本將於明年初發佈。此外,爆料還稱,蘋果CEO蒂姆·庫克與美國總統川普達成協議,將在美國本土生產iPhone和Apple Watch的蓋板玻璃。蘋果正完成正式版iOS 26和Liquid Glass 1.0的研發工作,且蘋果短期內不會在美國生產iPhone。另外,蘋果AI工程師朱雲轉投Meta,這已是自龐若鳴以來的離開蘋果的第5位AI工程師。01. 新一代siri要來了! 僅用語音就能操作應用程式在此前,許多蘋果觀察人士惋惜Siri無法呼叫個人資訊來更好地處理請求,例如尋找朋友傳送的特定檔案、定位通過簡訊分享的歌曲,或從照片中調取駕照號碼。這項能力本是2024年全球開發者大會上Siri演示的亮點,但其卻被推遲到現在。▲2024年全球開發者大會上展示的Siri(圖源:CNBC)但古爾曼認為這沒什麼大不了的,真正改變遊戲規則且蘋果幾乎未曾提及的,是升級版的開發者框架App Intents,這項技術可能最終使Siri成為iPhone真正的免提控製器。新的App Intents將意味著,僅用聲音,使用者就能指示Siri找到一張特定照片,編輯它並行送出去;或是在Instagram帖子上發表評論;或是滾動瀏覽購物應用並將某物加入購物車。或是不觸碰螢幕就登錄某項服務。本質上,Siri將能像你一樣操作你的應用,精確地在它們自己的介面內完成操作。如果蘋果能成功實現這一點,這不僅是一個不錯的易用性升級,更是兌現了近15年前Siri所承諾的願景。這也是蘋果下一個硬體發展的關鍵。蘋果即將推出的家用裝置,例如計畫明年推出的智能顯示器和之後的桌面機器人,都將依賴這項技術來實現自然互動。沒有新的App Intents,這些產品的吸引力可能還不如亞馬遜和Google5年前推出的裝置。這就是為什麼Siri的延期在整個公司的其他產品計畫中產生了連鎖反應,它已經導致智能顯示器的發佈被推遲整整一年。蘋果深知其中利害。在公司內部,測試和完善這一功能已成為其全球資料營運團隊的首要任務,該團隊專門負責將Siri和Apple Intelligence的輸出與原始資料進行比對,排查錯誤並為潛在修復提供依據,蘋果不希望再次因承諾過高而交付不足登上新聞頭條。當前計畫是在春季隨Siri基礎設施全面升級時推出該功能,並進行大力推廣。但據內部消息,公司內部存在一些擔憂:工程師們正竭力確保該系統能相容足夠多的應用程式,並具備處理高風險場景所需的精確度。特別是在健康類、銀行類等對精度要求嚴苛的應用場景,軟體故障的風險令人憂慮。多年來,使用者飽受Siri理解偏差之苦,當手機搞錯你查詢天氣的城市或導航至錯誤餐廳時,雖令人惱火但尚不致命。但若讓現有版本的Siri全面接管所有應用操作,風險係數將呈幾何級增長。正因如此,蘋果選擇暫緩新版Siri的全面鋪開。目前蘋果正與優選第三方應用進行測試,名單包括Uber、AllTrails、Threads、Temu(海外版拼多多)、亞馬遜、YouTube、Facebook、WhatsApp甚至部分遊戲應用。針對銀行等敏感領域,蘋果正考慮嚴格限制Siri的操作權限或直接排除這些功能範疇。這場變革遠不止於提升Siri的智能水平,實質是為蘋果生態系統打造全新的語音優先互動介面。倘若蘋果真能將其成功推向市場,很可能會成為多數使用者始料未及的爆款產品。另外,蘋果首款OLED MacBook Pro推遲至2026年底至2027年初發佈,搭載M5晶片的版本將於明年初發佈。02. 蘋果將在美國本土生產手機和手錶的蓋板玻璃多年來,蘋果CEO蒂姆·庫克一直自豪地強調iPhone玻璃“美國製造”的屬性,這源於與康寧公司的長期合作。但蘋果上周的表態顯示,這一說法並不完全屬實。在與美國總統川普達成的新協議部分內容中,蘋果承諾將在美國本土生產全部iPhone和Apple Watch的蓋板玻璃,暗示此前部分材料實為海外採購。▲美國總統川普與庫克(圖源:彭博社)需說明的是,庫克或許從未明確宣稱所有iPhone玻璃均為美國生產。但他在“美國製造”宣傳中頻繁提及與康寧的合作關係,足以讓公眾形成這種認知。以蘋果2021年的新聞稿為例:“在蘋果先進製造基金支援下,雙方專家共同研發了新型微晶玻璃,其強度源自奈米陶瓷晶體。該材料在康寧肯塔基州哈囉茲堡工廠生產——這裡正是歷代iPhone玻璃的製造基地。”事實上,據知情人士透露,此前僅有部分玻璃產自肯塔基州,因此這項Apple Watch玻璃本土化生產的最新承諾標誌著重大調整。但這仍只是象徵性的舉措,因為蘋果玻璃製造的核心成本與工藝難點在於海外完成的切割與精加工環節,肯塔基州僅負責原始玻璃基板的生產。且蘋果宣稱康寧產線調整將耗資25億美元(約合人民幣179.5億元),該數字在蘋果宣傳的“未來數年6000億美元(約合人民幣4.3兆元)對美投資計畫”面前相形見絀,25億美元僅佔總額的0.4%。古爾曼認為,庫克正雙線操作,既向川普釋放“全面配合政策”訊號,又向公眾行銷這一形象。為維持川普政府好感,庫克顯然認為這值得付出任何代價。但消費者是否買帳仍是未知數,部分使用者或願為避開政治鬧劇支付溢價,另一些則樂見庫克保護股東利益並維持產品售價的務實策略。03. 蘋果即將完成iOS 26和首版Liquid Glass的開發工作隨著公司準備在9月上旬推出iPhone 17系列及其他新產品,蘋果工程師們正接近完成iOS 26及配套作業系統的最終期限,上周第五個測試版已非常接近最終公開版本的發佈。▲iOS 26(圖源:彭博社)最新的測試版運行相當流暢,公司在整體性能和電池續航方面確實有所改進。最新測試版中最大的變化包括:解鎖iPhone和在控制中心滾動時出現的彈性動畫,以及相機應用中可反轉滑動方向以在視訊、照片、人像和全景等模式間切換的功能。動態島介面還為低電量警報設計了新樣式。還記得三年前蘋果在iPhone 14上推出動態島時,聲稱將逐步改進和擴展該功能嗎?然而除了一兩個小調整外,蘋果幾乎什麼都沒做。這再次印證了蘋果推出某項功能後便基本不再跟進的做法。04. 朱雲跳槽Meta 短期內還將有人離職蘋果又一位AI工程師轉投Meta。上個月,已有四名知名AI模型工程師從蘋果跳槽至Meta的超級智能實驗室,其中包括蘋果基礎模型團隊前負責人龐若明,以及他的三名工程師馬克·李、湯姆·岡特和張博文。如今,第五位AI研究員朱雲也將離開蘋果的模型團隊前往Meta,將加入超級智能實驗室集團現有的基礎模型團隊。▲朱雲(圖源:Linkedin)其領英首頁顯示,朱雲於2022年1月加入蘋果,擔任蘋果機器學習工程師,至今已有近四年的時間。如今對蘋果AI模型團隊來說是個艱難時期,由於公司在人工智慧領域的進展令人失望,該團隊備受壓力。據知情人士透露,在士氣低落和Meta開出天價薪酬的雙重影響下,短期內可能會有更多人離職。05. 結語:蘋果正在經歷轉型陣痛智能顯示器等新硬體延期,暴露出蘋果軟體能力對硬體路線的制約。相較亞馬遜Alexa與GoogleAssistant已建構的智能家居矩陣,蘋果的滯後可能使其錯過家庭入口的關鍵窗口期。連續5名AI核心成員轉投Meta,不僅削弱了其研發實力,更暴露蘋果在生成式AI浪潮中的戰略搖擺,專注垂直場景的蘋果可能還將面臨更嚴峻的人才爭奪。 (智東西)
AI 語音爆發的這半年,一位「局中人」看到的賽道爆發邏輯
蘋果 Siri 折戟,但越來越多的「AI Siri」拿到了融資。過去半年,「AI 語音」賽道正密集地獲得融資。尤其引人注目的是,這些融資多為大額,並且投向早期團隊。比如,前不久 AI 語音應用 Wispr Flow 靠「默念輸入」,完成了 3000 萬美元的 A 輪融資,累計融資額已達 5600 萬美元;語音模型公司 Cartesia 在 3 月份完成了 6400 萬美元的 A 輪融資,累計融資 9100 萬美元;AI 語音合成公司 ElevenLabs 更是在 1 月份宣佈完成 1.8 億美元的 C 輪融資,估值超過 30 億美元。與此同時,無論是 Meta、OpenAI、Google 等科技巨頭,還是 MiniMax 等創業公司,都在密集發佈自己的語音模型或語音產品。Siri 也被曝出或將被 ChatGPT 或 Claude 等模型接管,來跟上語音互動的進展。這些消息無一例外都指向了 AI 語音的火爆。為什麼過去半年多以來,AI 語音領域會如此集中地爆發?聲智副總裁黃贇賀認為,語音對話從一個 App 中的功能模組,迅速進化為 AI 時代入口等級的存在,與大模型的加持有極大關係。在智能音箱紅極一時的年代,大部分我們熟知的智能音箱品牌都搭載了聲智的遠場聲學互動技術,比如小愛同學、天貓精靈、小度音箱等等。而「小愛小愛」的喚醒詞,實際上也是來自於聲智。這家公司創辦於 2016 年,一直在聲學+ AI 交叉領域探索。然而,作為一家在幕後提供 AI 聲學技術的公司,在大模型浪潮來臨之後,果斷選擇下場投身開發自己的 C 端產品。毫無疑問,他們看到了這波「大模型+語音」浪潮裡新的商業機會,其旗下的 AI 耳機目前出貨量已接近 100 萬套。前不久,極客公園與聲智副總裁黃贇賀聊了聊 AI 語音市場的爆發邏輯、語音互動的「卡點」,以及它將如何影響我們的未來。以下內容根據黃贇賀的講述和聲智的論文整理而成:AI 語音的想像力,已經遠在 Siri 之上|圖片來源:網路01 AI 語音為何現在爆發了?最近兩年,越來越多的 AI 語音初創團隊獲得大額融資,集中爆發。其中,一個很重要的推動因素是,大模型讓聲音這項基礎能力首次實現了「可程式設計化」。「可程式設計化」這個詞,意味著將一種能力或者一個對象,通過清晰的介面和邏輯,變得可以被程式碼自由地呼叫、組合、修改和控制。過去,文字是可程式設計的,圖像是可程式設計的,甚至視訊也是可程式設計的(比如視訊編輯軟體)。但聲音更多的是一種「輸入」或「輸出」的介質,其內部的複雜結構和資訊,很難被軟體直接「程式設計」和「理解」。傳統的語音識別,更多是把聲音轉換成文字,然後對文字進行處理。比如,之前在深圳、成都有很多做聲音標註的團隊,拿到語音之後,再人工轉換成文字,打上不同的標籤,比如各種特徵、意向的標籤。大模型來了之後,打標籤的這項工作可以交給大模型,它比大量的人工團隊標得快和准。以前做 NLP 的背後都是一堆苦逼的營運在那裡打標籤,讓 AI 系統能夠識別每個句子的意向。過去,語音的開發,每增加一個功能,都需要從頭寫程式碼,費時費力。比如,想讓智能音箱支援「點外賣」,得單獨開發一套語音識別和語義邏輯,成本高、周期長。而現在 AI 大模型可以解決了。更重要的,依靠大模型對多模態資料的深度理解能力,對聲學訊號的更細緻解析,使得聲音本身攜帶的除了文字資訊之外的更多資訊,開始被 AI 系統直接捕捉、理解和「程式設計」。這種可程式設計化,意味著 AI 可以像處理資料一樣處理聲音。它可以分析聲音的頻率、振幅、波形,提取出情緒特徵、識別不同的聲源、聲源距離、甚至預測你的意圖。這時,聲音包含的不再僅僅是「你說了什麼」,更是「你如何說」、「你在那裡說」、「誰在說」以及「你說了之後希望發生什麼」。由此,聲音也成為了真正的互動引擎。02 真正的語音互動,不是「Voice」而是「Sound」其實,很多人以為,語音互動就是「Voice」(語音)。但其實 Voice 這個詞是一個狹窄概念。真正的語音互動,核心不是「Voice」,而是「Sound」(聲音)。Sound 裡面包含了 Voice。具體來說,「Sound」包含了更豐富的元素:語調、音色、節奏、情緒,更重要的是環境音。環境音裡面可能包含了環境中的各種非語音資訊,比如背景音樂、環境噪音(風聲、雨聲、車聲)、物體發出的聲音(開門聲、打字聲)、以及人類語音中包含的非語義資訊(語調、語速、音色、語氣詞、嘆息聲、笑聲、哭聲等)。比如說,你咳嗽的時候,跟 AI 說話,它可能會識別出咳嗽,然後跟你說多喝水;比如,你在咖啡館說,「幫我找個安靜的地方」,AI 不僅要理解你的指令,還要從背景音中判斷出你當前的環境嘈雜,從而推薦附近的圖書館。當我說「下一代對話互動的入口並非『Voice』,而是『Sound』」時,我指的是 AI 系統將不再僅僅依賴於識別你說的「詞」,而是能夠全面感知和理解你所處環境的「聲學場景」中的所有關鍵元素。只有當 AI 能夠全面感知並解析「Sound」中包含的這些多維度資訊時,它才能真正理解使用者的深層需求,提供更精準、更個性化、更富有情感的互動。這才是真正的「語音互動」,它不僅僅是「聽懂」字面意思,更是「聽懂」你的「言外之意」和「心聲」。03 語音互動的「卡點」,大廠燒錢也沒用儘管大模型帶來了語音互動的巨大飛躍,但語音互動當下依然存在一個核心的「卡點」,而這個卡點根植於物理學,具體來說,就是聲學。我們常說「聽清、聽懂、會說」。「聽懂」和「會說」的能力,正在被大模型以前所未有的速度提升。但「聽清」這個最基礎的環節,卻受到物理層面的制約。如果 AI 聽不清你的指令,即便它能「聽懂」再複雜的語義,能「會說」再動聽的話語,那也都是空中樓閣。比如說當下最熱門的具身智能,現在很多機器人都是電驅動的,那麼它帶來幾個大問題,一方面是電路的噪聲本身就很大,另一方面是關節噪聲,還有就是很多機器人是金屬材質,厚厚的,聲音在穿透時會大幅衰減。所以,機器人動起來的時候,噪聲很大,尤其在室外,更難聽清楚人的指令。要麼大聲喊,或者拿麥克風喊。因此,現在很多機器人都要靠遙控器來控制。當下最先進的具身智慧型手機器人仍然依賴於遙控器來操控|圖片來源:網路這方面,其實就需要對聲學層面的突破,比如說環境噪聲的抑制,比如電路底噪的抑制,還有嘯叫的抑制、混響迴響的抑制等等。而這些就是物理學科的邏輯,它需要資料樣本,需要 know how 的壁壘,不僅是技術問題,而是時間的問題,需要時間去採集聲音、做訓練。這不是燒錢能解決的。讓 AI 精準地「聽清」使用者的指令,依然是一個世界級的難題。而聲學相關的人才很少,所以像Google、微軟、蘋果經常會收購聲學技術的初創公司,幾乎只要出來一家就會收購他們。大家都明白,要建構真正的下一代人機互動系統,擁有核心的聲學能力是基石。04 語音互動的下一站,是實現「共情」現在很多 AI 應用的日活、留存不高,有個很大的原因就是普通人本身是不會提問的,讓人向大模型提問,這本身就是一個非常高的互動門檻。好的提問還需要學識、表達等基礎,所以停留在文字層面的問答,本身就是一種門檻限制。而語音帶來的一種可能性是,它正在開啟一個全新的階段——人機互動的「共情模式」。如果把語音互動比作一個「UI 介面」,那這個介面會長什麼樣?我們可以做個推演,它的構成要素可能會有:情緒識別:AI 通過分析語調、音量、語速,判斷使用者的情感狀態。比如,你的聲音顫抖,AI 可能推測你在緊張或傷心。意圖理解:不僅聽懂你說了什麼,還要明白你想做什麼。比如,你說「播放音樂」,AI 會根據你的情緒,決定是放搖滾還是古典。聲紋識別:通過獨一無二的音聲波特徵,區分不同使用者。比如,家裡的智能音箱能自動切換到「孩子模式」模式,只為孩子的聲音提供安全的回應。情緒生成:AI 的回應需要帶有情感化的表達。比如,用溫暖的語氣說「別擔心,我來幫你解決」,而不是機械的「好的,正在處理」。這些要素的背後,是 AI 從「功能導向」到「情感導向」的轉變,AI 會與人實現共情。這種互動,能顯著提升長時間互動的質量和親密感。不僅如此,從狹義的「Voice」拓展到廣義的「Sound」,當 AI 能接收到的不僅僅是使用者的指令,而是整個物理世界的即時反饋時,我們可以去建構一個「聲學世界模型」。這個「聲學世界模型」可以理解聲音在物理世界中產生、傳播和互動的根本規律,它不僅要「聽清」和「聽懂」,更要具備「聲學常識」和「聲學推理」的能力:它能從一聲悶響中分辨出是書本落地還是箱子倒塌;能通過回聲判斷出房間的大小與空曠程度;更能理解「腳步聲由遠及近」背後所蘊含的物理運動邏輯。未來,當這樣一個聲學世界模型與視覺、語言大模型深度融合時,具身智慧型手機器人將不再「失聰」和冰冷。這也是我們正在做的。 (極客公園)
AI Siri因技術問題延遲發布預計明年春季推出
蘋果內部消息曝光:AI Siri 再跳票實錘,今年的 iPhone 17 也用不上據彭博社報導,AI Siri 預計將於 2026 年春季隨 iOS 26.4 更新推出。WWDC25 上,蘋果公司高管 Craig Federighi 和 Greg Joswiak 確認,原定於 2024 年推出的 AI 驅動 Siri 升級因質量問題被推遲。他們表示,儘管早期版本表現良好,但未能達到蘋果對可靠性的高標準,決定推遲發佈以確保產品質量。在去年的 WWDC 上,蘋果公佈了 AI 戰略,宣佈將 Apple Intelligence 整合到包括 Siri 在內的一系列程序中,並展示了一些高級功能,如上下文理解能力、螢幕內容感知以及跨應用操作等。然而在今年的 WWDC 上,蘋果對 Siri 的展示較為有限,未能體現出預期的個性化和上下文理解能力。轉而專注於作業系統、服務和軟體的更新。據彭博社報導,Siri 升級推遲的主要原因是技術問題:在 iOS 18 中,Siri 的核心系統被分為兩部分,使用現有系統處理常見任務(如設定計時器和撥打電話),而將新的 Siri 功能建立在一個更新的系統平台上。兩者的整合導致了 bug,因此必須重新建構 Siri 。這些問題在蘋果內部引發了軒然大波,導致 AI 高級副總裁 John Giannandrea 被剝奪了所有面向消費者產品的管理權,包括 Siri 和蘋果的機器人部門。與此同時,Siri 升級的推遲對其他硬體項目的進度也產生了實質影響:比如,依賴於新 Siri 功能的智能家居中心(Home Hub)裝置進度也跟隨推遲;原本計畫明年推出的帶 AI 增強攝影機的智能眼鏡,目前仍依賴 OpenAI 和 Google 進行圖像分析。Federighi 表示,「這項工作需要更多時間才能達到我們的高品質標準,我們期待明年能分享更多內容。」他和其他高管還表示,「推遲的 Siri 功能只是更廣泛 AI 推進的一部分,AI 的成功將在未來幾年內顯現。」 (APPSO)