#SIRI
每年10億美元!Google大模型注入Siri,馬斯克跳腳,OpenAI成最大輸家
Siri的靈魂,將由Google注入。蘋果與Google已聯合官宣簽署多年期協議,正式確認將Gemini模型全面植入iPhone。據彭博社等權威信源透露,這筆交易的隱形價碼高達每年約10億美元。這一紙合約瞬間引爆了矽谷:Google股價應聲上漲,市值衝破4兆美元;馬斯克氣急敗壞地炮轟這是“壟斷噩夢”;而曾經的“緋聞對象”OpenAI,則尷尬地淪為了這場豪門聯姻的背景板。在華爾街精明的算盤裡,這10億美元買的不是技術,而是時間。當自研速度追不上AI浪潮的呼嘯聲時,蘋果只能選擇用利潤換空間。對於蘋果,這是一劑不得不吞的苦藥;但對於Google,這是把旗幟插上iPhone高地的關鍵一役;而對於OpenAI,這或許是它們在移動終端戰場上,丟掉的第一塊、也是最痛的一塊陣地。01核心事實:聯手換“芯”,新版Siri今春登場根據最新披露的資訊,蘋果與Google達成一項多年期、非排他性的合作協議。下一代“蘋果基礎模型”將基於Google的Gemini人工智慧模型及其雲端運算服務建構。這些模型將主要用於驅動今年即將全面升級的Siri語音助手,並為其他“Apple Intelligence”功能提供支援。據悉,蘋果將採用一個定製版的Gemini模型,該模型擁有約1.2兆參數,性能遠超蘋果當前自有雲AI模型(約1500億參數)。為保障隱私,所有AI處理將遵循蘋果既定架構:簡單任務在iPhone等裝置端本地處理,複雜任務則傳送至蘋果自建的“私有雲端運算”伺服器進行處理。Google無法直接訪問在此過程中產生的使用者資料。Google僅提供基礎模型,資料處理的全過程均在蘋果控制的硬體和基礎設施中完成。蘋果和Google都沒有披露具體的交易金額。但據彭博社等媒體報導,蘋果可能每年需向Google支付約10億美元的費用,以獲取Gemini模型的授權和使用。這與此前兩家公司的商業關係形成強烈對比:過去是Google每年向蘋果支付超過200億美元,以保住Safari瀏覽器默認搜尋引擎的位置。由新模型驅動的、更個性化的Siri,預計將作為iOS 26.4的一部分,於2026年3月或4月正式向使用者推送。受此消息提振,Google股價盤後上漲逾1%,目前為每股332.73美元,市值約為4.01兆美元。02蘋果低頭:每年10億美元,買一張不得不買的門票蘋果,這家把“垂直整合”刻進基因裡的傲慢巨頭,這次真的急了。曾經被視為智能語音先驅的Siri,在ChatGPT和Gemini面前,早已步履蹣跚。而那個承諾中能深度理解、主動服務的“Apple Intelligence”,更是經歷了多次尷尬的跳票:從2024年一路延遲到了2026年。AI創業公司Hyperbolic CEO金雨辰評論道:蘋果在Siri的路線上,長期在“雲端能力”與“隱私優先”之間搖擺不定。最終,他們不得不倒向在多模態上更具優勢的Gemini。更深層的原因是,當OpenAI開始染指硬體時,它就不再是一個安全的盟友了。這不是蘋果沒努力。但建構頂尖大模型,是一場關乎資料、算力和時間的“三體”戰爭。對手Google和OpenAI,早已狂奔了幾個身位。據內部消息,蘋果自研模型的參數規模(約1500億)與Google定製版Gemini(約1.2兆)之間的鴻溝,是現實而殘酷的。於是,戲劇性的一幕上演了:蘋果宣佈,“經過仔細評估,Google的技術提供了最強大的基礎”。據彭博社透露,這張“入場券”標價不菲:每年約10億美元。對庫克而言,這筆錢買的不是技術,是命。消費者和投資者的耐心正在耗盡,iPhone急需拿出能與“AI手機”標籤匹配的體驗。把最複雜、最燒錢的模型開發外包給Google,蘋果才能騰出手來做自己最擅長的事:打磨體驗、整合生態、死守隱私。正如網友評論所言:這是一種極其精明的追趕。利用Gemini處理髒活累活,把核心功能留在端側,蘋果實際上是在用Google的算力,修補自己的護城河。03Google贏麻:正在成為AI時代的“隱形霸主”如果說蘋果是被迫買票的乘客,那Google就是不僅收了門票錢,還控制了整個遊樂場的莊家。這筆交易對Google的戰略價值,遠超帳面上那10億美元。它意味著一個恐怖的事實:GoogleGemini在接管了自家Android生態和三星“Galaxy AI”之後,又成功攻陷了蘋果那座擁有20億+裝置的封閉堡壘。CNBC名嘴吉姆·克萊默(Jim Cramer)認為,這是一種極其穩固的雙贏:Google付出的邊際成本極低,卻換來了Siri體驗的質變,直接拉升了兩家公司的股價預期。華爾街分析師Dan Ives將此定義為“Google的決定性驗證時刻”。說得更直白點:全球最重要的兩大移動作業系統,其核心智能體驗從此都將被烙上“Made by Google AI”的鋼印。還有犀利的網友評論道:這是Google的重大勝利,更是OpenAI的滑鐵盧。此前蘋果還在吹捧OpenAI有“最好”的AI,轉眼就讓Google成了正宮。這種等級的生態控制力,在科技史上前所未有。它讓Google在與OpenAI的模型戰爭中,佔據了一個近乎無懈可擊的“主場優勢”。 難怪消息一出,Alphabet市值一度衝破4兆美元大關,將老對手短暫地甩在身後。04暗流:隱私黑箱、壟斷指控與失意者盛宴之下,暗流洶湧。掌聲之外,質疑聲同樣刺耳。第一個漩渦:隱私。蘋果的這塊金字招牌,還守得住嗎?“把AI靈魂交給Google?我的資料還安全嗎?”這是無數果粉的第一反應。對此,蘋果的回應迅速而堅定:所有處理,要麼在端側完成,要麼在蘋果自建的“私有雲端運算”中進行,Google絕無法觸碰使用者資料。但技術社區的疑慮並未消散。有資深開發者質疑:這在技術上是個完全的“黑箱”。要讓Google的模型在完全不接觸自家基建的情況下,在蘋果伺服器上完美運行?除非發生工程學奇蹟。第二個漩渦:壟斷。馬斯克的炮轟與權力集中。埃隆·馬斯克直言不諱地開火:Google本就控制著Android和Chrome,如今權力進一步集中,這顯然是失衡的。作為競品Grok的老闆,他的立場或許不純,但他指出的問題真實存在:當一家公司同時掌控主流作業系統、瀏覽器和兩大陣營的AI底層時,權力的邊界究竟在那裡?失意者:OpenAI,從盟友到備胎的尷尬。最尷尬的莫過於OpenAI。此前,ChatGPT已被整合進Siri作為“外掛大腦”。如今,Google直接上位成了“主腦”,OpenAI的角色瞬間變得可有可無。路透社援引分析師觀點稱,這直接“將OpenAI推入了次要的支援角色”。有網友一針見血地指出:當蘋果意識到OpenAI正在推進面向消費者的AI硬體時,雙方就註定會分道揚鑣。繼續扶持一個潛在的硬體對手?這不符合蘋果的利益。更有消息稱,為了應對GoogleGemini 3的攻勢,OpenAI內部一度發佈“紅色程式碼”,全體進入緊急衝刺狀態。AI鐵王座的爭奪,已進入最血腥的貼身肉搏階段。05未來:不只是Siri,這是一場“空間計算”的預演把視線從手機螢幕移開,你會發現這場合作可能只是冰山一角。敏銳的觀察者已經將此事與蘋果的“下一個十年”:空間計算與智能眼鏡聯絡在了一起。為什麼非得是Gemini?多位業內人士指出,關鍵在於多模態能力。未來的蘋果眼鏡,需要的不僅僅是聽懂指令,更要能“看見”世界:識別物體、理解手勢、解析場景。 而GoogleAI在機器人、視覺理解等領域的長期投入,使其在多模態融合上積累了難以踰越的優勢。正如一位網友的長篇分析所言:矽谷的機器人公司大多首選Gemini,因為它們需要真正的多模態。預計2027年問世的蘋果眼鏡,同樣離不開這樣的AI。這或許意味著,蘋果選擇的不僅是一個Siri的“大腦”,更是為未來那個戴在你鼻樑上的革命性裝置,提前鎖定了“眼睛”和“視覺中樞”。更深層次的戰略動機,在於對競爭格局的重塑。當OpenAI開始探索自有硬體,它就從“技術供應商”變成了潛在的“生態顛覆者”。將核心AI體驗交給不構成直接硬體威脅的Google(Pixel市場份額有限),而將OpenAI降級為“可選項”,這是蘋果極其冷靜的防禦策略。上述網友的分析進一步指出:蘋果依然擁有內容(如NBA轉播權)、零售店和使用者信任等巨大優勢。即使其他公司先推出眼鏡,蘋果也有信心憑藉這種生態整合能力,後來居上,重新定義行業。06終局:一座橋樑與未竟的長征蘋果的妥協既是務實的勝利,也是路線的修正。它證明,在AI這場席捲一切的技術海嘯面前,沒有任何公司能憑一己之力掌控全域。開放與合作,不再是選項,而是生存法則。深水資產管理公司吉恩·蒙斯特(Gene Munster)評論稱:新版Siri成功的機率大大增加了。蘋果放棄GPT轉而使用Gemini,表明他們正在認真改進Apple Intelligence,而不是在玩票。與此同時,Google的勝利,是生態的勝利。它證明,在AI時代,最大的護城河可能不是單一的技術突破,而是讓技術像空氣一樣,無處不在。而對使用者而言,一個更聰明、更貼心的Siri即將到來。但我們也正踏入一個由少數幾個“超級大腦”定義的數字世界。便利與集中,創新與壟斷,隱私與智能,這些古老的命題正被AI賦予新的張力。蘋果沒有放棄自研。這次合作,被廣泛視為一座“臨時橋樑”。金雨辰認為,一旦通過搭載Gemini的Siri收集到足夠資料,蘋果隨時可能切換回自己的模型。這場按下加速鍵的AI競賽,註定沒有終點。今天的握手言和,或許只是下一場更慘烈戰爭的前奏。當蘋果攢夠了資料,當Google壟斷了入口,當OpenAI拿出了硬體,這場關於“誰是AI時代王者”的博弈,才剛剛拉開序幕。 (網易科技)
巴倫周刊—蘋果,或許實際上正在贏得AI競賽
華爾街似乎已形成新的共識:即使蘋果在AI領域起步較晚,也並不重要。蘋果成功擺脫了AI困境。自8月1日以來,蘋果股價大漲39%,過去一周更是創下歷史新高,即便此前蘋果智能(Apple Intelligence)的推出遭遇挫折——該項目旨在將AI整合進蘋果旗下裝置中。蘋果智能的核心亮點本該是新版數字個人助理Siri,其目標是像OpenAI和Google母公司Alphabet的頂級AI聊天機器人一樣強大。自2011年Siri首次推出以來,使用者就一直渴望擁有一個更智能的助手。但這個項目已被無限期推遲。新版Siri難以推進,是因為蘋果在AI競賽中主動給自己設限。它是唯一一家將隱私和安全視為賣點、而非成本負擔的大型科技公司。任何新版Siri的落地都必須符合蘋果嚴苛的隱私安全標準,這成為了項目推進的主要障礙。蘋果公司極力主張所有的機器學習都應在加密的蘋果裝置上進行,充分利用其晶片中的專用模組——這是最能保障隱私安全的方式。然而,支撐ChatGPT和Gemini等前沿模型的語言模型運行於龐大的資料中心,對算力的需求遠遠超出了手機的承受範圍。能夠在手機上運行的體積更小的模型,目前還無法持續帶來足夠優質的使用者體驗,無法達到蘋果的要求。因此,我們只能等待。與此同時,華爾街似乎已形成新的共識:即使蘋果在AI領域起步較晚,也並不重要。由於新版Siri推遲發佈,蘋果股價曾受挫,但目前已回升,與標普500指數表現持平。當大多數科技巨頭在AI賽道上全力衝刺時,蘋果卻像是在跑一場馬拉松。到底誰做得對,還需時間驗證,但我認同蘋果對AI熱潮的長遠眼光。蘋果可以不那麼急於將AI整合進自家產品。到目前為止,數千億美元的資本投入正將科技巨頭們引向同一個境地:各家AI模型之間難以顯著區分。事實證明,擁有最好的AI模型,並不是一道“護城河”,只是暫時的優勢。許多企業客戶都表示,AI語言模型正逐漸變得同質化,最近一次表達這一看法的是Salesforce首席執行長馬克·貝尼奧夫。“我們使用所有的大型語言模型,”他在公司周三的第三季度財報電話會議上表示。“目前它們都非常優秀,所以我們可以隨時切換使用。對我們來說,成本最低的就是最好的。”有報導稱,蘋果正在與Alphabet以及初創公司Anthropic進行洽談,計畫將他們的AI模型(經過針對蘋果硬體的最佳化調整)作為權宜之計,直到蘋果能建立出自己的高性能模型。蘋果正在按自己的節奏前行,將使用者體驗和隱私保護置於速度之上。在行業陷入AI 軍備競賽之際,蘋果推出了“私有雲端運算”(Private Cloud Compute)服務:這是一套基於蘋果程式語言開發的開放伺服器軟體,運行在配備蘋果晶片的蘋果伺服器上。一如既往,蘋果希望掌控從硬體到軟體的全鏈條,尤其是在隱私安全領域。AI對話可能包含大量個人敏感資訊,而Private Cloud Compute能夠防止這些資訊被窺探,甚至連蘋果自己都無法查看。未來,升級版的Siri將會面世,其安全性將超過所有其他聊天機器人。與此同時,蘋果保留實力,僅適度增加資本支出以支援其私有雲端運算。相比之下,Meta、甲骨文、微軟和Google則在AI資料中心上合計投入了數千億美元,使得原本十分健康的現金流量表和資產負債表被“侵蝕”。其中,Meta尤為突出,今年在AI資料中心上的支出約為700億美元,並承諾明年還會增加。這些投資全部用於自身,並不像其他公司那樣用於雲端出租。債務水平正在上升,由資本支出帶來的折舊費用也開始不斷增加,並且還會持續增長。在最新季度,Google的折舊費用同比增長了41%,微軟增長了93%,Meta增長了20%,而蘋果僅上升了7%。如果未來有大規模資本支出的需求,蘋果還有充足的空間來應對。儘管蘋果還在摸索如何將AI融入自家軟體,但公司的實力依然十分明顯。華爾街分析師普遍認為,iPhone 17將推動蘋果裝置銷售額實現自2021財年以來的最高增速。依託全球超過23億台在用蘋果裝置,服務業務收入持續穩步增長。由於沒有像其他科技巨頭那樣消耗現金流,蘋果的現金返還計畫(分紅與股票回購)將持續推進。等到蘋果公佈第一財季業績時,預計其累計分紅與股票回購總額將突破1兆美元。自2012年以來,蘋果已回購近半數流通股,推動每股收益提升79%。這整個討論引出了一個更大的問題:蘋果究竟有多需要依靠AI功能來推動裝置銷售?自從智慧型手機成為一個成熟的品類後,人們往往是覺得需要新手機時才會購買。無論好壞,新功能已經不再是驅動智慧型手機銷量的主要因素。在2021財年新冠疫情封鎖期間,蘋果iPhone的銷量比前一年增長了39%,因為使用者需要新裝置來居家辦公。iPhone 16主打“蘋果智能”概念進行了大力宣傳,銷量不錯,但遠稱不上爆款。如今,iPhone 17系列回歸了蘋果一貫的做法,把重點放在硬體、設計和攝影機上,表現似乎更勝一籌。2021財年銷售的手機,到2026財年已經五年了,人們也確實需要換新手機了。事情就是這麼簡單。蘋果還有充足的時間。投資者們不妨耐心等待。 (Barrons巴倫)
蘋果Siri爆將套殼谷歌Gemini
蘋果的「深海海妖」或將成為套了殼的Google「雙子星」。根據知名記者古爾曼爆料,蘋果正在與谷歌合作,付費打造一款蘋果專屬的Gemini模型,用於支援Siri,其可以在蘋果的私有雲伺服器上運行。蘋果預計明年3月推出改版後的Siri。古爾曼稱,Siri不會被整合進Google服務或Gemini的功能介面,而是讓Gemini成為Siri的運算核心,確保使用者仍將在熟悉的蘋果生態中體驗強化後的Siri。此外,新版Siri將具備AI驅動的網頁搜尋能力,並將大幅提升其語意理解能力以及對話連貫性。但古爾曼強調,Gemini的支持不一定能保證用戶的滿意度,但有望挽回Siri多年來被持續削弱的品牌形象。他也指出,蘋果預計明年6月舉行的科技大會WWDC上展示iOS 27、macOS 27和watchOS 27等新系統版本,而蘋果的人工智慧屆時將成為焦點。▍挑戰Siri在推出之時一度被視為最頂尖的語音助理之一,但其在處理多步驟請求和與第三方應用整合方面,被廣泛認為不如競爭對手——亞馬遜的Alexa和谷歌助理。而隨著ChatGPT等生成式人工智慧聊天機器人的興起,Siri的地位更是遭到重大打擊。如果蘋果與Google的合作能夠成功,Siri有望重拾成長動力,重新成為語音助理市場的明星產品。而谷歌的Gemini也是蘋果深思熟慮後的選擇。據古爾曼稱,蘋果今年稍早曾讓Anthropic的Claude模型與Gemini同台競技,雖然蘋果認為Claude在模型上更勝一籌,但Gemini更具經濟效益。但即便蘋果引進了Google的Gemini,Siri的未來仍充滿不確定性。用戶滿意度、模型能否無縫銜接以及Siri如何修復其品牌形像都需要蘋果仔細把控,而一旦失敗,其可能加劇Siri現在的困境,並引發更大的財務損失。(財聯社AI daily)
蘋果AI領域人事調整:前Siri高管將於10月底離職
據路透社報導,蘋果公司在人工智慧(AI)領域再迎人事變動。消息披露,前Siri高管、曾負責“Apple Intelligence”版本Siri研發的Robby Walker,計畫於2025年10月底正式離開蘋果。公開資訊顯示,Walker在蘋果AI業務推進中曾承擔重要角色。此前,在“Apple Intelligence”版Siri項目出現延期後,他曾在內部會議中以“挑戰游泳紀錄的失敗嘗試”作比,客觀評價團隊工作——既坦誠項目未達預期目標,也肯定了團隊在研發過程中取得的階段性成果。同時,Walker還提及,儘管部分競爭對手已推出質量相對較低的類似功能,但蘋果始終堅持更高的質量標準,不急於推出未達標的產品。項目調整後,Walker轉崗至蘋果“Answers”團隊,牽頭研發基於人工智慧技術的搜尋工具。目前,彭博社等多方資訊顯示,“Answers”項目仍在正常推進中,預計將於2026年正式上線,此次Walker離職暫未對該項目整體進展造成公開披露的影響。值得關注的是,此次人事變動並非蘋果近期在Siri相關業務上的唯一調整。此前,蘋果已對Siri項目管理權進行調整,將其從AI主管John Giannandrea手中移交至曾主導打造Vision Pro及visionOS的Mike Rockwell。按照當前規劃,新版Siri最早有望在2026年春季與使用者見面。 (環球Tech)
OpenAI又放大招!語音AI秒殺Siri?
昨晚你被GPT-Realtime刷屏了嗎?這次OpenAI真的玩大了! 😱想像一下:你剛問完問題,AI就秒回,比人類反應還快!不是文字,是真人般的語音對話,流暢得讓你懷疑對面坐著個活人。這就是GPT-Realtime的魅力——告別傳統語音助手的機械感,擁抱真正的智能對話!💡 三大殺手鐧讓人驚豔:秒級響應,告別等待焦慮! 以前語音AI要轉錄→理解→生成→播放,現在直接音訊處理,延遲幾乎為零。試想客服場景,顧客剛說完問題,AI立馬給出專業回覆,這效率誰不愛?智商爆表,精準率82.8%! 能聽懂笑聲、捕捉情緒變化,甚至在句子中間無縫切換語言。西班牙語問個電話號碼?日語聊個天?毫無壓力!比上一代提升17%,這進步簡直可怕。成本直降20%,普通人也能用! 之前每百萬音訊輸入要40美元,現在32美元,輸出也從80美元降到64美元。創業者終於不用為語音AI的帳單發愁了!更絕的是,Zillow、T-Mobile這些大廠已經搶先體驗,房產搜尋、客戶服務都能像朋友聊天一樣自然。想像一下,找房子時AI能根據你的生活方式推薦,還能用溫柔的聲音討論貸款方案,這體驗絕了! 🏠Cedar和Marin兩個新聲音 更是顛覆傳統,自然度和表現力讓人分不清真假。配合MCP協議支援,開發者接入資料變得超簡單,就像給AI插上了USB介面。當AI語音助手變得如此智能和親切,我們的工作、生活會發生怎樣的變化?客服、教育、個人助理...那個行業會首先被顛覆?你試過最智能的語音AI是什麼?GPT-Realtime會成為你的新寵嗎? (澤問科技)
蘋果Siri王炸新功能曝出,AI操控一切App,又一華人AI研發跳槽Meta
蘋果將實現“動口不動手”操作iPhone。新版Siri終於要來了!智東西8月11日消息,知名蘋果爆料人、彭博社記者馬克·古爾曼最新爆料,蘋果即將推出新版Siri語音控制功能,並升級其開發者框架App Intents。升級後的Siri將可以僅用聲音指示就可以自主打開App完成發帖、購物等操作。對於新款產品,蘋果首款OLED MacBook Pro推遲至2026年底至2027年初,搭載M5晶片的版本將於明年初發佈。此外,爆料還稱,蘋果CEO蒂姆·庫克與美國總統川普達成協議,將在美國本土生產iPhone和Apple Watch的蓋板玻璃。蘋果正完成正式版iOS 26和Liquid Glass 1.0的研發工作,且蘋果短期內不會在美國生產iPhone。另外,蘋果AI工程師朱雲轉投Meta,這已是自龐若鳴以來的離開蘋果的第5位AI工程師。01. 新一代siri要來了! 僅用語音就能操作應用程式在此前,許多蘋果觀察人士惋惜Siri無法呼叫個人資訊來更好地處理請求,例如尋找朋友傳送的特定檔案、定位通過簡訊分享的歌曲,或從照片中調取駕照號碼。這項能力本是2024年全球開發者大會上Siri演示的亮點,但其卻被推遲到現在。▲2024年全球開發者大會上展示的Siri(圖源:CNBC)但古爾曼認為這沒什麼大不了的,真正改變遊戲規則且蘋果幾乎未曾提及的,是升級版的開發者框架App Intents,這項技術可能最終使Siri成為iPhone真正的免提控製器。新的App Intents將意味著,僅用聲音,使用者就能指示Siri找到一張特定照片,編輯它並行送出去;或是在Instagram帖子上發表評論;或是滾動瀏覽購物應用並將某物加入購物車。或是不觸碰螢幕就登錄某項服務。本質上,Siri將能像你一樣操作你的應用,精確地在它們自己的介面內完成操作。如果蘋果能成功實現這一點,這不僅是一個不錯的易用性升級,更是兌現了近15年前Siri所承諾的願景。這也是蘋果下一個硬體發展的關鍵。蘋果即將推出的家用裝置,例如計畫明年推出的智能顯示器和之後的桌面機器人,都將依賴這項技術來實現自然互動。沒有新的App Intents,這些產品的吸引力可能還不如亞馬遜和Google5年前推出的裝置。這就是為什麼Siri的延期在整個公司的其他產品計畫中產生了連鎖反應,它已經導致智能顯示器的發佈被推遲整整一年。蘋果深知其中利害。在公司內部,測試和完善這一功能已成為其全球資料營運團隊的首要任務,該團隊專門負責將Siri和Apple Intelligence的輸出與原始資料進行比對,排查錯誤並為潛在修復提供依據,蘋果不希望再次因承諾過高而交付不足登上新聞頭條。當前計畫是在春季隨Siri基礎設施全面升級時推出該功能,並進行大力推廣。但據內部消息,公司內部存在一些擔憂:工程師們正竭力確保該系統能相容足夠多的應用程式,並具備處理高風險場景所需的精確度。特別是在健康類、銀行類等對精度要求嚴苛的應用場景,軟體故障的風險令人憂慮。多年來,使用者飽受Siri理解偏差之苦,當手機搞錯你查詢天氣的城市或導航至錯誤餐廳時,雖令人惱火但尚不致命。但若讓現有版本的Siri全面接管所有應用操作,風險係數將呈幾何級增長。正因如此,蘋果選擇暫緩新版Siri的全面鋪開。目前蘋果正與優選第三方應用進行測試,名單包括Uber、AllTrails、Threads、Temu(海外版拼多多)、亞馬遜、YouTube、Facebook、WhatsApp甚至部分遊戲應用。針對銀行等敏感領域,蘋果正考慮嚴格限制Siri的操作權限或直接排除這些功能範疇。這場變革遠不止於提升Siri的智能水平,實質是為蘋果生態系統打造全新的語音優先互動介面。倘若蘋果真能將其成功推向市場,很可能會成為多數使用者始料未及的爆款產品。另外,蘋果首款OLED MacBook Pro推遲至2026年底至2027年初發佈,搭載M5晶片的版本將於明年初發佈。02. 蘋果將在美國本土生產手機和手錶的蓋板玻璃多年來,蘋果CEO蒂姆·庫克一直自豪地強調iPhone玻璃“美國製造”的屬性,這源於與康寧公司的長期合作。但蘋果上周的表態顯示,這一說法並不完全屬實。在與美國總統川普達成的新協議部分內容中,蘋果承諾將在美國本土生產全部iPhone和Apple Watch的蓋板玻璃,暗示此前部分材料實為海外採購。▲美國總統川普與庫克(圖源:彭博社)需說明的是,庫克或許從未明確宣稱所有iPhone玻璃均為美國生產。但他在“美國製造”宣傳中頻繁提及與康寧的合作關係,足以讓公眾形成這種認知。以蘋果2021年的新聞稿為例:“在蘋果先進製造基金支援下,雙方專家共同研發了新型微晶玻璃,其強度源自奈米陶瓷晶體。該材料在康寧肯塔基州哈囉茲堡工廠生產——這裡正是歷代iPhone玻璃的製造基地。”事實上,據知情人士透露,此前僅有部分玻璃產自肯塔基州,因此這項Apple Watch玻璃本土化生產的最新承諾標誌著重大調整。但這仍只是象徵性的舉措,因為蘋果玻璃製造的核心成本與工藝難點在於海外完成的切割與精加工環節,肯塔基州僅負責原始玻璃基板的生產。且蘋果宣稱康寧產線調整將耗資25億美元(約合人民幣179.5億元),該數字在蘋果宣傳的“未來數年6000億美元(約合人民幣4.3兆元)對美投資計畫”面前相形見絀,25億美元僅佔總額的0.4%。古爾曼認為,庫克正雙線操作,既向川普釋放“全面配合政策”訊號,又向公眾行銷這一形象。為維持川普政府好感,庫克顯然認為這值得付出任何代價。但消費者是否買帳仍是未知數,部分使用者或願為避開政治鬧劇支付溢價,另一些則樂見庫克保護股東利益並維持產品售價的務實策略。03. 蘋果即將完成iOS 26和首版Liquid Glass的開發工作隨著公司準備在9月上旬推出iPhone 17系列及其他新產品,蘋果工程師們正接近完成iOS 26及配套作業系統的最終期限,上周第五個測試版已非常接近最終公開版本的發佈。▲iOS 26(圖源:彭博社)最新的測試版運行相當流暢,公司在整體性能和電池續航方面確實有所改進。最新測試版中最大的變化包括:解鎖iPhone和在控制中心滾動時出現的彈性動畫,以及相機應用中可反轉滑動方向以在視訊、照片、人像和全景等模式間切換的功能。動態島介面還為低電量警報設計了新樣式。還記得三年前蘋果在iPhone 14上推出動態島時,聲稱將逐步改進和擴展該功能嗎?然而除了一兩個小調整外,蘋果幾乎什麼都沒做。這再次印證了蘋果推出某項功能後便基本不再跟進的做法。04. 朱雲跳槽Meta 短期內還將有人離職蘋果又一位AI工程師轉投Meta。上個月,已有四名知名AI模型工程師從蘋果跳槽至Meta的超級智能實驗室,其中包括蘋果基礎模型團隊前負責人龐若明,以及他的三名工程師馬克·李、湯姆·岡特和張博文。如今,第五位AI研究員朱雲也將離開蘋果的模型團隊前往Meta,將加入超級智能實驗室集團現有的基礎模型團隊。▲朱雲(圖源:Linkedin)其領英首頁顯示,朱雲於2022年1月加入蘋果,擔任蘋果機器學習工程師,至今已有近四年的時間。如今對蘋果AI模型團隊來說是個艱難時期,由於公司在人工智慧領域的進展令人失望,該團隊備受壓力。據知情人士透露,在士氣低落和Meta開出天價薪酬的雙重影響下,短期內可能會有更多人離職。05. 結語:蘋果正在經歷轉型陣痛智能顯示器等新硬體延期,暴露出蘋果軟體能力對硬體路線的制約。相較亞馬遜Alexa與GoogleAssistant已建構的智能家居矩陣,蘋果的滯後可能使其錯過家庭入口的關鍵窗口期。連續5名AI核心成員轉投Meta,不僅削弱了其研發實力,更暴露蘋果在生成式AI浪潮中的戰略搖擺,專注垂直場景的蘋果可能還將面臨更嚴峻的人才爭奪。 (智東西)
AI 語音爆發的這半年,一位「局中人」看到的賽道爆發邏輯
蘋果 Siri 折戟,但越來越多的「AI Siri」拿到了融資。過去半年,「AI 語音」賽道正密集地獲得融資。尤其引人注目的是,這些融資多為大額,並且投向早期團隊。比如,前不久 AI 語音應用 Wispr Flow 靠「默念輸入」,完成了 3000 萬美元的 A 輪融資,累計融資額已達 5600 萬美元;語音模型公司 Cartesia 在 3 月份完成了 6400 萬美元的 A 輪融資,累計融資 9100 萬美元;AI 語音合成公司 ElevenLabs 更是在 1 月份宣佈完成 1.8 億美元的 C 輪融資,估值超過 30 億美元。與此同時,無論是 Meta、OpenAI、Google 等科技巨頭,還是 MiniMax 等創業公司,都在密集發佈自己的語音模型或語音產品。Siri 也被曝出或將被 ChatGPT 或 Claude 等模型接管,來跟上語音互動的進展。這些消息無一例外都指向了 AI 語音的火爆。為什麼過去半年多以來,AI 語音領域會如此集中地爆發?聲智副總裁黃贇賀認為,語音對話從一個 App 中的功能模組,迅速進化為 AI 時代入口等級的存在,與大模型的加持有極大關係。在智能音箱紅極一時的年代,大部分我們熟知的智能音箱品牌都搭載了聲智的遠場聲學互動技術,比如小愛同學、天貓精靈、小度音箱等等。而「小愛小愛」的喚醒詞,實際上也是來自於聲智。這家公司創辦於 2016 年,一直在聲學+ AI 交叉領域探索。然而,作為一家在幕後提供 AI 聲學技術的公司,在大模型浪潮來臨之後,果斷選擇下場投身開發自己的 C 端產品。毫無疑問,他們看到了這波「大模型+語音」浪潮裡新的商業機會,其旗下的 AI 耳機目前出貨量已接近 100 萬套。前不久,極客公園與聲智副總裁黃贇賀聊了聊 AI 語音市場的爆發邏輯、語音互動的「卡點」,以及它將如何影響我們的未來。以下內容根據黃贇賀的講述和聲智的論文整理而成:AI 語音的想像力,已經遠在 Siri 之上|圖片來源:網路01 AI 語音為何現在爆發了?最近兩年,越來越多的 AI 語音初創團隊獲得大額融資,集中爆發。其中,一個很重要的推動因素是,大模型讓聲音這項基礎能力首次實現了「可程式設計化」。「可程式設計化」這個詞,意味著將一種能力或者一個對象,通過清晰的介面和邏輯,變得可以被程式碼自由地呼叫、組合、修改和控制。過去,文字是可程式設計的,圖像是可程式設計的,甚至視訊也是可程式設計的(比如視訊編輯軟體)。但聲音更多的是一種「輸入」或「輸出」的介質,其內部的複雜結構和資訊,很難被軟體直接「程式設計」和「理解」。傳統的語音識別,更多是把聲音轉換成文字,然後對文字進行處理。比如,之前在深圳、成都有很多做聲音標註的團隊,拿到語音之後,再人工轉換成文字,打上不同的標籤,比如各種特徵、意向的標籤。大模型來了之後,打標籤的這項工作可以交給大模型,它比大量的人工團隊標得快和准。以前做 NLP 的背後都是一堆苦逼的營運在那裡打標籤,讓 AI 系統能夠識別每個句子的意向。過去,語音的開發,每增加一個功能,都需要從頭寫程式碼,費時費力。比如,想讓智能音箱支援「點外賣」,得單獨開發一套語音識別和語義邏輯,成本高、周期長。而現在 AI 大模型可以解決了。更重要的,依靠大模型對多模態資料的深度理解能力,對聲學訊號的更細緻解析,使得聲音本身攜帶的除了文字資訊之外的更多資訊,開始被 AI 系統直接捕捉、理解和「程式設計」。這種可程式設計化,意味著 AI 可以像處理資料一樣處理聲音。它可以分析聲音的頻率、振幅、波形,提取出情緒特徵、識別不同的聲源、聲源距離、甚至預測你的意圖。這時,聲音包含的不再僅僅是「你說了什麼」,更是「你如何說」、「你在那裡說」、「誰在說」以及「你說了之後希望發生什麼」。由此,聲音也成為了真正的互動引擎。02 真正的語音互動,不是「Voice」而是「Sound」其實,很多人以為,語音互動就是「Voice」(語音)。但其實 Voice 這個詞是一個狹窄概念。真正的語音互動,核心不是「Voice」,而是「Sound」(聲音)。Sound 裡面包含了 Voice。具體來說,「Sound」包含了更豐富的元素:語調、音色、節奏、情緒,更重要的是環境音。環境音裡面可能包含了環境中的各種非語音資訊,比如背景音樂、環境噪音(風聲、雨聲、車聲)、物體發出的聲音(開門聲、打字聲)、以及人類語音中包含的非語義資訊(語調、語速、音色、語氣詞、嘆息聲、笑聲、哭聲等)。比如說,你咳嗽的時候,跟 AI 說話,它可能會識別出咳嗽,然後跟你說多喝水;比如,你在咖啡館說,「幫我找個安靜的地方」,AI 不僅要理解你的指令,還要從背景音中判斷出你當前的環境嘈雜,從而推薦附近的圖書館。當我說「下一代對話互動的入口並非『Voice』,而是『Sound』」時,我指的是 AI 系統將不再僅僅依賴於識別你說的「詞」,而是能夠全面感知和理解你所處環境的「聲學場景」中的所有關鍵元素。只有當 AI 能夠全面感知並解析「Sound」中包含的這些多維度資訊時,它才能真正理解使用者的深層需求,提供更精準、更個性化、更富有情感的互動。這才是真正的「語音互動」,它不僅僅是「聽懂」字面意思,更是「聽懂」你的「言外之意」和「心聲」。03 語音互動的「卡點」,大廠燒錢也沒用儘管大模型帶來了語音互動的巨大飛躍,但語音互動當下依然存在一個核心的「卡點」,而這個卡點根植於物理學,具體來說,就是聲學。我們常說「聽清、聽懂、會說」。「聽懂」和「會說」的能力,正在被大模型以前所未有的速度提升。但「聽清」這個最基礎的環節,卻受到物理層面的制約。如果 AI 聽不清你的指令,即便它能「聽懂」再複雜的語義,能「會說」再動聽的話語,那也都是空中樓閣。比如說當下最熱門的具身智能,現在很多機器人都是電驅動的,那麼它帶來幾個大問題,一方面是電路的噪聲本身就很大,另一方面是關節噪聲,還有就是很多機器人是金屬材質,厚厚的,聲音在穿透時會大幅衰減。所以,機器人動起來的時候,噪聲很大,尤其在室外,更難聽清楚人的指令。要麼大聲喊,或者拿麥克風喊。因此,現在很多機器人都要靠遙控器來控制。當下最先進的具身智慧型手機器人仍然依賴於遙控器來操控|圖片來源:網路這方面,其實就需要對聲學層面的突破,比如說環境噪聲的抑制,比如電路底噪的抑制,還有嘯叫的抑制、混響迴響的抑制等等。而這些就是物理學科的邏輯,它需要資料樣本,需要 know how 的壁壘,不僅是技術問題,而是時間的問題,需要時間去採集聲音、做訓練。這不是燒錢能解決的。讓 AI 精準地「聽清」使用者的指令,依然是一個世界級的難題。而聲學相關的人才很少,所以像Google、微軟、蘋果經常會收購聲學技術的初創公司,幾乎只要出來一家就會收購他們。大家都明白,要建構真正的下一代人機互動系統,擁有核心的聲學能力是基石。04 語音互動的下一站,是實現「共情」現在很多 AI 應用的日活、留存不高,有個很大的原因就是普通人本身是不會提問的,讓人向大模型提問,這本身就是一個非常高的互動門檻。好的提問還需要學識、表達等基礎,所以停留在文字層面的問答,本身就是一種門檻限制。而語音帶來的一種可能性是,它正在開啟一個全新的階段——人機互動的「共情模式」。如果把語音互動比作一個「UI 介面」,那這個介面會長什麼樣?我們可以做個推演,它的構成要素可能會有:情緒識別:AI 通過分析語調、音量、語速,判斷使用者的情感狀態。比如,你的聲音顫抖,AI 可能推測你在緊張或傷心。意圖理解:不僅聽懂你說了什麼,還要明白你想做什麼。比如,你說「播放音樂」,AI 會根據你的情緒,決定是放搖滾還是古典。聲紋識別:通過獨一無二的音聲波特徵,區分不同使用者。比如,家裡的智能音箱能自動切換到「孩子模式」模式,只為孩子的聲音提供安全的回應。情緒生成:AI 的回應需要帶有情感化的表達。比如,用溫暖的語氣說「別擔心,我來幫你解決」,而不是機械的「好的,正在處理」。這些要素的背後,是 AI 從「功能導向」到「情感導向」的轉變,AI 會與人實現共情。這種互動,能顯著提升長時間互動的質量和親密感。不僅如此,從狹義的「Voice」拓展到廣義的「Sound」,當 AI 能接收到的不僅僅是使用者的指令,而是整個物理世界的即時反饋時,我們可以去建構一個「聲學世界模型」。這個「聲學世界模型」可以理解聲音在物理世界中產生、傳播和互動的根本規律,它不僅要「聽清」和「聽懂」,更要具備「聲學常識」和「聲學推理」的能力:它能從一聲悶響中分辨出是書本落地還是箱子倒塌;能通過回聲判斷出房間的大小與空曠程度;更能理解「腳步聲由遠及近」背後所蘊含的物理運動邏輯。未來,當這樣一個聲學世界模型與視覺、語言大模型深度融合時,具身智慧型手機器人將不再「失聰」和冰冷。這也是我們正在做的。 (極客公園)