#AI語音
AI語音輸入法,人類進入「不打字」時代
破天荒,這是一篇用“語音”打出來的文章。一周前,我下載了一款叫Typeless的語音輸入法,當時我沒有意識到它會改變什麼。首先交代一下大背景:從2025年下半年起,AI語音輸入法成為驟然颳起的新風口。以語音輸入為核心賣點的豆包輸入法,登陸各大應用程式商店。大模型六小虎之一的智譜,推出智譜AI輸入法。其他的一些大廠輸入法,也都或多或少在加碼AI語音輸入。1月27日,搜狗輸入法宣佈重磅升級其語音輸入能力,稱其識別率達到98%,日均語音使用次數近20億次,穩居行業第一。風景不止這邊獨好,太平洋對岸的Wispr Flow目前融資額達8100萬美元,估值7個億。由華人開發的後起之秀Typeless在Product Hunt上線後連日高居排行榜前列,先後推出覆蓋主流平台的版本。此外,多個初創企業乃至個人開發者也推出了類似產品,閃電說、LazyTyper、Spokenly、秒言等等,不一而足。我原本以為,這又是一次和往常一樣的嘗鮮。畢竟近幾年來出現的AI新品如過江之鯽,其中大多數很難在我的螢幕上停留超過半天。所以,一開始我並沒有抱很大期待。結果卻是,這是自ChatGPT以來,最讓我眼前一亮的AI產品。我用了不到一周的時間,就改變了已經形成20多年的習慣:主要的輸入方式從打字變成了語音。甚至連這篇文章的初稿,也是用語音輸入完成的。我專門申請了另一個Typeless帳號,記錄完成這篇文稿的資料:用時53分鐘,輸入5500字,每分鐘155字,節省2.5小時。更快更準更多AI語音輸入的降維打擊對我來說,放棄打字轉向語音堪比“違背祖宗的決定”。因為我自詡是個打字愛好者。為了更好的打字型驗,專門學習擊鍵次數更少的自然碼雙拼輸入方案,配置了高度可定製化的輸入法Rime,買過好幾把不同軸體的機械鍵盤。你或許看不懂這句話裡的部分詞彙,沒關係,你只需要知道,這是鍵盤和輸入法愛好者群體中常見的專有名詞。即使如此,我的打字速度,最高也就每分鐘八九十個字,普通人裡已經算快了,大多數人的打字速度,也就每分鐘四五十字。我曾經潛伏在某個輸入法愛好者群組,裡面匯聚了眾多大神級人物,他們每天討論的話題,是如何自制各種類型的輸入方案,提高打字效率。其中有位在某二線城市當大學老師的成員,跟我有著類似的經歷,他從2025年末開始,正式“皈依”語音輸入。“我之前電腦用五筆,手機用小鶴雙拼,巔峰時五筆打字每分鐘130多字。”他如是說,“但跟現在的AI語音輸入比起來,打字還是差太遠了,我語音每分鐘甚至可以達到250字。”這個速度,即使是頂尖的打字專業選手,也望塵莫及。2013年全國漢字輸入大賽的冠軍,平均每分鐘也才打175個字。即使是口條並不利索的我,語音輸入也能穩定在每分鐘150字左右,稍微努力下,就能超越打字冠軍。速度是快,精準率呢?答案是,很準。即使是在前ChatGPT時代,也是如此。2018年史丹佛大學、華盛頓大學和百度的一項聯合論文顯示,語音輸入不論是速度還是精準率,都顯著優於鍵盤。速度上,英語母語者語音輸入每分鐘153字,鍵盤輸入僅52字;中文拼音使用者每分鐘鍵盤輸入43字,而語音達123字。不論中英文,語音輸入都比打字快了約3倍。在輸入過程的錯誤率上,語音的表現也更優。中文語音輸入的糾錯率為6.67%,而鍵盤輸入高達17.73%。在經歷了幾年大模型狂飆突進之後,AI語音的識別速度和精準率則更上一層樓。Typeless、智譜AI輸入法、閃電說都稱自己的速度比打字快4倍,一款叫LazyTyper的語音輸入法,更是聲稱比打字快7倍。精準率上,搜狗說自己精準率98%,智譜也在官網標註了97.8%。從網上的評測和個人體驗來看,這些廣告語並不算誇張。與大廠輸入法在鍵盤上做加法不同,初創企業和個人開發者的語音輸入產品邁的步子更大,或許必須更激進的姿態才能在紅海裡分一杯羹,他們直接取消了打字鍵盤,只保留了少數常用按鈕,語音鍵被提拔到了C位。傳統的語音輸入只是轉錄聽寫,但大模型加持下,語音輸入是一種更高維的產品,是“語音意圖輸入法”。它不只可以將語音一字不漏地轉錄,也能識別輸入者的意圖,刪除多餘的語氣詞,修改語法錯誤,捋順不連貫的地方,同時根據輸入環境調整語氣、翻譯潤色等等,都不在話下。那怕輸出錯了,也支援用語音修改。比如用Typeless輸出一句話:“我想去延津縣”,但其實你想輸入的是“鹽”津縣,你也只需要對著這句話說“把yán改成油鹽醬醋的鹽”即可。當然,你肯定會反駁,語音輸入就算又快又準,但不是什麼場景都適用。嘈雜的人群中能聽清嗎?在辦公室對著手機說話不尷尬嗎?曾經我也有類似的想法,但使用之後我打消了顧慮,即使是輕輕低語,也能基本精準無誤的輸入。我在辦公室偷偷用了5天語音輸入後,問我的左右鄰桌同事能不能聽到我輸入語音的聲音,他們的反應是:“你啥時候出聲了?”搜狗在宣傳稿裡稱,自家輸入法20分貝以下的語音依然有97%的正確率。20分貝,就相當於樹葉的沙沙聲,或者五米開外的低語。目前最大的不良體驗,反而來自意想不到的地方。比如戴上耳機後,語音輸入的正確率反而不如不戴耳機。比如單獨字詞的輸入,遠不如句子段落。越長的語音,精準率越高,顯然得益於大語音模型的理解和推理能力,越長的語音,其意義就越明確,可供參考的情境也就更多。而漢語中充滿了同音字詞,你只說一個沒有上下文的“yì”,誰知道你說的是藝、抑、易、邑、屹、億、役、臆、逸、肄、疫、亦、裔、意、毅、憶、義、益、溢、詣、議、誼、譯、異、翼、翌、繹、刈、劓、仡、佚、佾、埸、懿、薏、弈、奕、挹、弋、囈、嗌、嶧、懌、悒、驛、縊、殪、軼、熠、鎰、鐿、瘞、癔、翊、蜴、羿還是翳呢?不用數了,這裡有57個yì,漢語中同音字最多的讀音。但我相信,這些瑕疵日後都能得到一步步解決。就像不久前,AI圖片還無法攻克中文亂碼的問題,現在你已經可以用Nano Banana穩定地輸出帶中文的圖片了。而瑕疵掩蓋不住AI語音輸入更大的野心。我正在用的Typeless,光從名字上就可以看出,它遠遠不止想做一個輸入法,而是讓全世界進入無需打字(Typeless)的時代。這樣的野心並不出格。輸入法一直是網際網路最被忽視、卻又是最基礎的入口。大模型的摧枯拉朽,或許會給這片早已被瓜分完畢的戰場,帶來新的血腥。突破輸入框再造超級入口在中國,網際網路從PC時代的開放,走向了移動時代的封閉。App之間築起一道道高牆,形成一個個孤島。時至今日,你甚至連在微信裡點選觀看抖音的視訊都沒法做到,更不要說打通他們之間的生態。在一個個App孤島裡,只有為數不多的應用,能夠雨露均霑地穿梭在它們之間,輸入法就是其一。所有你需要表達訴求的地方,都需要它。以前,這個入口的重要性並沒有顯現出來,傳統輸入法能做的東西並不多,無非是收集使用者的巨量資料,插入一些廣告。但這個入口,抹上了AI的濃妝後,別有一番風韻。大模型讓輸入法這一古老的產品,重新變得性感,隱約得以瞥見看到“超級入口”的綽約風姿:如果這個入口的產品,不僅僅只是打字,而是能實現跨App甚至更高級的呼叫呢?其實目前的大模型,已具備了這樣的能力。前一陣子豆包手機就因為能夠實現系統級的呼叫而成為關注焦點,但遭到了眾多App的抵制。可以這麼想,未來AI語音輸入不再只是傳統打字輸入法的補充,而是一次突破輸入框的升維。不妨大膽一點,如果這個入口乾脆就是系統級的AI助手呢?在更廣闊的未來,語音輸入不只是移動裝置,而是貫穿虛擬和現實世界的交流介面?或許,未來的輸入壓根不需要專門的輸入法,也不需要這佔據了小半個螢幕的一畝三分地,它只是系統級AI助手順帶手就能完成的小事一樁。具像一點,AI語音輸入的未來應該是理想中的Siri。蘋果也可能意識到了這一點。據報導,蘋果將在2026年6月推出全新版AI助手,具備對話式互動能力,並有望整合到郵件、音樂、程式設計軟體等核心應用中。使用者只需要對著iPhone輕聲低語,就可以呼叫各種應用。為什麼偏偏是語音輸入呢?因為語音輸入才是人類交流的初始設定。語音輸入重歸C位,只不過是技術對人類行為的一次撥亂反正,人類的交流範式重新回到最自然、最合理的狀態。打字輸入才是人類走的彎路很多人把打字當作網際網路交流的初始設定,在我潛伏的輸入法愛好者群組裡,就有一位帶點原教旨主義色彩的打字擁躉。他至今仍抗拒使用語音輸入,他認為,對著手機電腦自言自語,簡直愚蠢到家。至於原因,他回覆了略有循環論證嫌疑的十一個字:“語音是異端,打字才是正統。”然而回望人類歷史,打字交流才是人類走過的彎路,語音從古至今都是人類交流的主要方式。即使是今天,世界上現存的約7000種語言裡,絕大部分都沒有文字,只依靠口口相傳。科學界普遍認為口語誕生自10到20萬年前。而目前已知最早的成型文字是5500年前蘇美爾人的楔形文字。我們打字用的QWERTY鍵盤,直到19世紀中後葉才出現,距今不過150年。如果把人類語言交流史劃分為24小時,那麼人類在最後一分鐘才開始用鍵盤輸入文字。套用《思考,快與慢》的作者丹尼爾·卡尼曼的觀點,說話屬於“系統1”,是刻在基因裡的本能,不需要太多思考,依賴直覺和習慣就行。而打字則屬於“系統2”,是你通過無數次敲擊建立起來的後天習慣,是需要費腦費力才能完成的動作。與英文輸入的簡單直接相比,中文輸入更難更複雜。從打字機時代開始,在很長一段時間裡,用鍵盤輸入漢字是難倒無數英雄漢的技術難題,有人甚至想通過消滅漢字採用拉丁字母的方式“曲線救國”。1980年,一本叫《語文現代化》的雜誌這樣寫道:“歷史將證明,電子電腦是方塊漢字的掘墓人,也是漢語拼音文字的助產士。”被很多人視為網際網路交流正統方式的中文打字,其實不過短短半世紀的歷史。1983 年,王永民發明五筆字型,通過“橫、豎、撇、捺、折”五種筆畫給簡體中文編碼,由於其重位元率非常低,熟練者可以實現盲打,很快就成為風靡全國的打字方式。“王旁青頭戔五一”。很多年輕人不知道,自己父母那一輩,打字是需要背口訣的,甚至需要報班花很長時間培訓才能掌握的技能。再後來,拼音輸入法的出現和網際網路的普及,才讓打字的門檻降下來。但直到今天,中文輸入法依然難以解決一個矛盾:輸入效率高的五筆,門檻也高;門檻低的拼音,輸入效率也低。你在 2026 年的知乎隨手搜一下“輸入法”這個關鍵詞,就會發現多個吐槽輸入法越來越難用的話題。五筆、拼音、注音、倉頡,不同的輸入方案捲來捲去,但它們之間並無本質差別,並不能真正解決漢字輸入法的痛點。或許我們應該認識到,打字,只不過是人類在語音和圖像互動技術尚未成熟之前的權宜之計。如今,大模型技術日漸成熟,語音識別技術有了質的飛躍,規模化的替代效率低下的打字輸入法,幾乎是必然。倫敦政治經濟學院的一項研究發現,預計到 2028 年,生成式 AI 將主要以語音方式互動。當然,短期內語音輸入並不會完全取代傳統輸入法。語音輸入還有很大的進步空間,飯要一口一口吃,路也要一步一步走。就我個人而言,重度使用語音輸入後有兩個意外之喜。一是改變了我的寫作方式。以前寫文章,我需要在電腦前一坐就是幾個小時,即使是用著符合人體工學的鍵盤、滑鼠和椅子,也難以抵擋久坐帶來的生理不適。你現在看到的這篇文章,大部分文字是我在沙發上躺著、在馬桶上坐著、在地鐵上站著寫出來的,我告別了預留大塊時間的寫作模式,轉而變成“隨地大小寫”。與其說我面對的是一個語音輸入法,不如說是在對著一個具有整理、思考能力和主觀能動性的秘書,既忠實我的原意,也不至於照搬全收。也許我們可以效仿眼下在程式設計師中流行的Vibe Coding(氛圍程式設計),為碼字的人也創造一個全新的名詞——Vibe Writing(氛圍寫作)。二是語音讓我與 AI 的交流更高效。打字時受制於速度,我傾向使用更簡短的提示詞,往往需要多輪互動才能得到想要的結果。而語音輸入時,我會一口氣說出一段很長的提示詞,甚至達到四五百字,常常一次性就能得到滿意的答案。就像現在的 10 後不知道為什麼手機螢幕上電話的標識是聽筒,未來的一代或許也不知道,為什麼曾經人們輸入文字還要專門裝一個輸入法。 (36氪)
H200晶片銷往東村引猜想,大摩研報唱多台積電:存在一定可能拿下中國大陸AI GPU代工訂單
輝達H200晶片有望對中國出口,這條消息傳開後,引發了市場的無盡遐想。其中廣為流傳的一點猜測是,假如東村和西村關係因此緩和,東村的AI GPU代工業務,會否花落台積電。針對這個問題,摩根士丹利近日發佈研究報告稱,如果中國AI GPU代工業務真的落地,將成為台積電業績的重要增量。大摩在報告中明確重申其“首選股”地位,維持增持投資評級,目標價1688新台幣。Part.01 市場最關心的2個問題大摩認為,當前投資者最糾結兩個核心問題,其實也決定了台積電切入中國AI市場的節奏:西村考慮允許H200對東村出口,是要改善貿易關係嗎?東村AI晶片公司“降級設計”,能拿到台積電代工嗎?大摩的判斷是有機會!此前就有消息稱,中國晶片企業正通過聚焦“推理場景”(比如AI語音助手、圖像識別等輕量級應用)降低晶片性能,以符合代工要求。供應鏈調研顯示,壁仞科技等本土企業已在採用台積電工藝設計相關晶片,還能用LPDDR替代高端HBM記憶體,精準適配推理需求。Part.02 台積電的底氣很多人擔心台積電過度“依賴中國需求”,但公司自己的表態很有信心:在2025年第三季度財報電話會議上,管理層明確說,即便來自中國大陸的機遇有限,未來5年AI相關業務的復合年增長率也能達到40%左右或更高。這意味著,中國大陸市場對台積電是“錦上添花”而非“雪中送炭”:現有AI業務的高增長已能支撐估值,一旦政策放開,中國大陸AI半導體的龐大需求,只會進一步推高其業績天花板。Part.03 輝達B40遇冷,本土晶片補位大摩在報告指出,輝達B40產量低於預期,核心原因是“性價比對中國客戶沒吸引力”,這給本土晶片和台積電的合作留足了空間;目前中國AI推理計算主要靠三類晶片:5090遊戲顯示卡、改良版Hopper晶片,以及本土設計晶片;隨著中國LME衛星、AI大模型等需求爆發,推理晶片的需求還會持續增長,台積電的工藝優勢的會更突出。Part.04 對中國本土代工廠的影響如果台積電真的切入中國AI GPU代工,會不會分流本土代工廠的需求?大摩認為,中芯國際仍被看好:即便需求分流,其技術和產能優勢仍能穩住核心份額。但華虹半導體壓力較大:關聯公司HLMC的7nm業務可能首當其衝受到衝擊,因為其在高端製程的競爭力相對較弱。 (智通財經APP)
AI 語音爆發的這半年,一位「局中人」看到的賽道爆發邏輯
蘋果 Siri 折戟,但越來越多的「AI Siri」拿到了融資。過去半年,「AI 語音」賽道正密集地獲得融資。尤其引人注目的是,這些融資多為大額,並且投向早期團隊。比如,前不久 AI 語音應用 Wispr Flow 靠「默念輸入」,完成了 3000 萬美元的 A 輪融資,累計融資額已達 5600 萬美元;語音模型公司 Cartesia 在 3 月份完成了 6400 萬美元的 A 輪融資,累計融資 9100 萬美元;AI 語音合成公司 ElevenLabs 更是在 1 月份宣佈完成 1.8 億美元的 C 輪融資,估值超過 30 億美元。與此同時,無論是 Meta、OpenAI、Google 等科技巨頭,還是 MiniMax 等創業公司,都在密集發佈自己的語音模型或語音產品。Siri 也被曝出或將被 ChatGPT 或 Claude 等模型接管,來跟上語音互動的進展。這些消息無一例外都指向了 AI 語音的火爆。為什麼過去半年多以來,AI 語音領域會如此集中地爆發?聲智副總裁黃贇賀認為,語音對話從一個 App 中的功能模組,迅速進化為 AI 時代入口等級的存在,與大模型的加持有極大關係。在智能音箱紅極一時的年代,大部分我們熟知的智能音箱品牌都搭載了聲智的遠場聲學互動技術,比如小愛同學、天貓精靈、小度音箱等等。而「小愛小愛」的喚醒詞,實際上也是來自於聲智。這家公司創辦於 2016 年,一直在聲學+ AI 交叉領域探索。然而,作為一家在幕後提供 AI 聲學技術的公司,在大模型浪潮來臨之後,果斷選擇下場投身開發自己的 C 端產品。毫無疑問,他們看到了這波「大模型+語音」浪潮裡新的商業機會,其旗下的 AI 耳機目前出貨量已接近 100 萬套。前不久,極客公園與聲智副總裁黃贇賀聊了聊 AI 語音市場的爆發邏輯、語音互動的「卡點」,以及它將如何影響我們的未來。以下內容根據黃贇賀的講述和聲智的論文整理而成:AI 語音的想像力,已經遠在 Siri 之上|圖片來源:網路01 AI 語音為何現在爆發了?最近兩年,越來越多的 AI 語音初創團隊獲得大額融資,集中爆發。其中,一個很重要的推動因素是,大模型讓聲音這項基礎能力首次實現了「可程式設計化」。「可程式設計化」這個詞,意味著將一種能力或者一個對象,通過清晰的介面和邏輯,變得可以被程式碼自由地呼叫、組合、修改和控制。過去,文字是可程式設計的,圖像是可程式設計的,甚至視訊也是可程式設計的(比如視訊編輯軟體)。但聲音更多的是一種「輸入」或「輸出」的介質,其內部的複雜結構和資訊,很難被軟體直接「程式設計」和「理解」。傳統的語音識別,更多是把聲音轉換成文字,然後對文字進行處理。比如,之前在深圳、成都有很多做聲音標註的團隊,拿到語音之後,再人工轉換成文字,打上不同的標籤,比如各種特徵、意向的標籤。大模型來了之後,打標籤的這項工作可以交給大模型,它比大量的人工團隊標得快和准。以前做 NLP 的背後都是一堆苦逼的營運在那裡打標籤,讓 AI 系統能夠識別每個句子的意向。過去,語音的開發,每增加一個功能,都需要從頭寫程式碼,費時費力。比如,想讓智能音箱支援「點外賣」,得單獨開發一套語音識別和語義邏輯,成本高、周期長。而現在 AI 大模型可以解決了。更重要的,依靠大模型對多模態資料的深度理解能力,對聲學訊號的更細緻解析,使得聲音本身攜帶的除了文字資訊之外的更多資訊,開始被 AI 系統直接捕捉、理解和「程式設計」。這種可程式設計化,意味著 AI 可以像處理資料一樣處理聲音。它可以分析聲音的頻率、振幅、波形,提取出情緒特徵、識別不同的聲源、聲源距離、甚至預測你的意圖。這時,聲音包含的不再僅僅是「你說了什麼」,更是「你如何說」、「你在那裡說」、「誰在說」以及「你說了之後希望發生什麼」。由此,聲音也成為了真正的互動引擎。02 真正的語音互動,不是「Voice」而是「Sound」其實,很多人以為,語音互動就是「Voice」(語音)。但其實 Voice 這個詞是一個狹窄概念。真正的語音互動,核心不是「Voice」,而是「Sound」(聲音)。Sound 裡面包含了 Voice。具體來說,「Sound」包含了更豐富的元素:語調、音色、節奏、情緒,更重要的是環境音。環境音裡面可能包含了環境中的各種非語音資訊,比如背景音樂、環境噪音(風聲、雨聲、車聲)、物體發出的聲音(開門聲、打字聲)、以及人類語音中包含的非語義資訊(語調、語速、音色、語氣詞、嘆息聲、笑聲、哭聲等)。比如說,你咳嗽的時候,跟 AI 說話,它可能會識別出咳嗽,然後跟你說多喝水;比如,你在咖啡館說,「幫我找個安靜的地方」,AI 不僅要理解你的指令,還要從背景音中判斷出你當前的環境嘈雜,從而推薦附近的圖書館。當我說「下一代對話互動的入口並非『Voice』,而是『Sound』」時,我指的是 AI 系統將不再僅僅依賴於識別你說的「詞」,而是能夠全面感知和理解你所處環境的「聲學場景」中的所有關鍵元素。只有當 AI 能夠全面感知並解析「Sound」中包含的這些多維度資訊時,它才能真正理解使用者的深層需求,提供更精準、更個性化、更富有情感的互動。這才是真正的「語音互動」,它不僅僅是「聽懂」字面意思,更是「聽懂」你的「言外之意」和「心聲」。03 語音互動的「卡點」,大廠燒錢也沒用儘管大模型帶來了語音互動的巨大飛躍,但語音互動當下依然存在一個核心的「卡點」,而這個卡點根植於物理學,具體來說,就是聲學。我們常說「聽清、聽懂、會說」。「聽懂」和「會說」的能力,正在被大模型以前所未有的速度提升。但「聽清」這個最基礎的環節,卻受到物理層面的制約。如果 AI 聽不清你的指令,即便它能「聽懂」再複雜的語義,能「會說」再動聽的話語,那也都是空中樓閣。比如說當下最熱門的具身智能,現在很多機器人都是電驅動的,那麼它帶來幾個大問題,一方面是電路的噪聲本身就很大,另一方面是關節噪聲,還有就是很多機器人是金屬材質,厚厚的,聲音在穿透時會大幅衰減。所以,機器人動起來的時候,噪聲很大,尤其在室外,更難聽清楚人的指令。要麼大聲喊,或者拿麥克風喊。因此,現在很多機器人都要靠遙控器來控制。當下最先進的具身智慧型手機器人仍然依賴於遙控器來操控|圖片來源:網路這方面,其實就需要對聲學層面的突破,比如說環境噪聲的抑制,比如電路底噪的抑制,還有嘯叫的抑制、混響迴響的抑制等等。而這些就是物理學科的邏輯,它需要資料樣本,需要 know how 的壁壘,不僅是技術問題,而是時間的問題,需要時間去採集聲音、做訓練。這不是燒錢能解決的。讓 AI 精準地「聽清」使用者的指令,依然是一個世界級的難題。而聲學相關的人才很少,所以像Google、微軟、蘋果經常會收購聲學技術的初創公司,幾乎只要出來一家就會收購他們。大家都明白,要建構真正的下一代人機互動系統,擁有核心的聲學能力是基石。04 語音互動的下一站,是實現「共情」現在很多 AI 應用的日活、留存不高,有個很大的原因就是普通人本身是不會提問的,讓人向大模型提問,這本身就是一個非常高的互動門檻。好的提問還需要學識、表達等基礎,所以停留在文字層面的問答,本身就是一種門檻限制。而語音帶來的一種可能性是,它正在開啟一個全新的階段——人機互動的「共情模式」。如果把語音互動比作一個「UI 介面」,那這個介面會長什麼樣?我們可以做個推演,它的構成要素可能會有:情緒識別:AI 通過分析語調、音量、語速,判斷使用者的情感狀態。比如,你的聲音顫抖,AI 可能推測你在緊張或傷心。意圖理解:不僅聽懂你說了什麼,還要明白你想做什麼。比如,你說「播放音樂」,AI 會根據你的情緒,決定是放搖滾還是古典。聲紋識別:通過獨一無二的音聲波特徵,區分不同使用者。比如,家裡的智能音箱能自動切換到「孩子模式」模式,只為孩子的聲音提供安全的回應。情緒生成:AI 的回應需要帶有情感化的表達。比如,用溫暖的語氣說「別擔心,我來幫你解決」,而不是機械的「好的,正在處理」。這些要素的背後,是 AI 從「功能導向」到「情感導向」的轉變,AI 會與人實現共情。這種互動,能顯著提升長時間互動的質量和親密感。不僅如此,從狹義的「Voice」拓展到廣義的「Sound」,當 AI 能接收到的不僅僅是使用者的指令,而是整個物理世界的即時反饋時,我們可以去建構一個「聲學世界模型」。這個「聲學世界模型」可以理解聲音在物理世界中產生、傳播和互動的根本規律,它不僅要「聽清」和「聽懂」,更要具備「聲學常識」和「聲學推理」的能力:它能從一聲悶響中分辨出是書本落地還是箱子倒塌;能通過回聲判斷出房間的大小與空曠程度;更能理解「腳步聲由遠及近」背後所蘊含的物理運動邏輯。未來,當這樣一個聲學世界模型與視覺、語言大模型深度融合時,具身智慧型手機器人將不再「失聰」和冰冷。這也是我們正在做的。 (極客公園)