破天荒,這是一篇用“語音”打出來的文章。
一周前,我下載了一款叫Typeless的語音輸入法,當時我沒有意識到它會改變什麼。
首先交代一下大背景:
從2025年下半年起,AI語音輸入法成為驟然颳起的新風口。以語音輸入為核心賣點的豆包輸入法,登陸各大應用程式商店。大模型六小虎之一的智譜,推出智譜AI輸入法。
其他的一些大廠輸入法,也都或多或少在加碼AI語音輸入。1月27日,搜狗輸入法宣佈重磅升級其語音輸入能力,稱其識別率達到98%,日均語音使用次數近20億次,穩居行業第一。
風景不止這邊獨好,太平洋對岸的Wispr Flow目前融資額達8100萬美元,估值7個億。由華人開發的後起之秀Typeless在Product Hunt上線後連日高居排行榜前列,先後推出覆蓋主流平台的版本。此外,多個初創企業乃至個人開發者也推出了類似產品,閃電說、LazyTyper、Spokenly、秒言等等,不一而足。
我原本以為,這又是一次和往常一樣的嘗鮮。畢竟近幾年來出現的AI新品如過江之鯽,其中大多數很難在我的螢幕上停留超過半天。所以,一開始我並沒有抱很大期待。
結果卻是,這是自ChatGPT以來,最讓我眼前一亮的AI產品。我用了不到一周的時間,就改變了已經形成20多年的習慣:主要的輸入方式從打字變成了語音。
甚至連這篇文章的初稿,也是用語音輸入完成的。我專門申請了另一個Typeless帳號,記錄完成這篇文稿的資料:用時53分鐘,輸入5500字,每分鐘155字,節省2.5小時。
對我來說,放棄打字轉向語音堪比“違背祖宗的決定”。
因為我自詡是個打字愛好者。為了更好的打字型驗,專門學習擊鍵次數更少的自然碼雙拼輸入方案,配置了高度可定製化的輸入法Rime,買過好幾把不同軸體的機械鍵盤。你或許看不懂這句話裡的部分詞彙,沒關係,你只需要知道,這是鍵盤和輸入法愛好者群體中常見的專有名詞。
即使如此,我的打字速度,最高也就每分鐘八九十個字,普通人裡已經算快了,大多數人的打字速度,也就每分鐘四五十字。
我曾經潛伏在某個輸入法愛好者群組,裡面匯聚了眾多大神級人物,他們每天討論的話題,是如何自制各種類型的輸入方案,提高打字效率。其中有位在某二線城市當大學老師的成員,跟我有著類似的經歷,他從2025年末開始,正式“皈依”語音輸入。
“我之前電腦用五筆,手機用小鶴雙拼,巔峰時五筆打字每分鐘130多字。”他如是說,“但跟現在的AI語音輸入比起來,打字還是差太遠了,我語音每分鐘甚至可以達到250字。”
這個速度,即使是頂尖的打字專業選手,也望塵莫及。2013年全國漢字輸入大賽的冠軍,平均每分鐘也才打175個字。即使是口條並不利索的我,語音輸入也能穩定在每分鐘150字左右,稍微努力下,就能超越打字冠軍。
速度是快,精準率呢?答案是,很準。即使是在前ChatGPT時代,也是如此。
2018年史丹佛大學、華盛頓大學和百度的一項聯合論文顯示,語音輸入不論是速度還是精準率,都顯著優於鍵盤。
速度上,英語母語者語音輸入每分鐘153字,鍵盤輸入僅52字;中文拼音使用者每分鐘鍵盤輸入43字,而語音達123字。不論中英文,語音輸入都比打字快了約3倍。在輸入過程的錯誤率上,語音的表現也更優。中文語音輸入的糾錯率為6.67%,而鍵盤輸入高達17.73%。
在經歷了幾年大模型狂飆突進之後,AI語音的識別速度和精準率則更上一層樓。
Typeless、智譜AI輸入法、閃電說都稱自己的速度比打字快4倍,一款叫LazyTyper的語音輸入法,更是聲稱比打字快7倍。精準率上,搜狗說自己精準率98%,智譜也在官網標註了97.8%。從網上的評測和個人體驗來看,這些廣告語並不算誇張。
與大廠輸入法在鍵盤上做加法不同,初創企業和個人開發者的語音輸入產品邁的步子更大,或許必須更激進的姿態才能在紅海裡分一杯羹,他們直接取消了打字鍵盤,只保留了少數常用按鈕,語音鍵被提拔到了C位。
傳統的語音輸入只是轉錄聽寫,但大模型加持下,語音輸入是一種更高維的產品,是“語音意圖輸入法”。它不只可以將語音一字不漏地轉錄,也能識別輸入者的意圖,刪除多餘的語氣詞,修改語法錯誤,捋順不連貫的地方,同時根據輸入環境調整語氣、翻譯潤色等等,都不在話下。
那怕輸出錯了,也支援用語音修改。比如用Typeless輸出一句話:“我想去延津縣”,但其實你想輸入的是“鹽”津縣,你也只需要對著這句話說“把yán改成油鹽醬醋的鹽”即可。
當然,你肯定會反駁,語音輸入就算又快又準,但不是什麼場景都適用。嘈雜的人群中能聽清嗎?在辦公室對著手機說話不尷尬嗎?
曾經我也有類似的想法,但使用之後我打消了顧慮,即使是輕輕低語,也能基本精準無誤的輸入。
我在辦公室偷偷用了5天語音輸入後,問我的左右鄰桌同事能不能聽到我輸入語音的聲音,他們的反應是:
“你啥時候出聲了?”
搜狗在宣傳稿裡稱,自家輸入法20分貝以下的語音依然有97%的正確率。20分貝,就相當於樹葉的沙沙聲,或者五米開外的低語。
目前最大的不良體驗,反而來自意想不到的地方。比如戴上耳機後,語音輸入的正確率反而不如不戴耳機。
比如單獨字詞的輸入,遠不如句子段落。越長的語音,精準率越高,顯然得益於大語音模型的理解和推理能力,越長的語音,其意義就越明確,可供參考的情境也就更多。
而漢語中充滿了同音字詞,你只說一個沒有上下文的“yì”,誰知道你說的是藝、抑、易、邑、屹、億、役、臆、逸、肄、疫、亦、裔、意、毅、憶、義、益、溢、詣、議、誼、譯、異、翼、翌、繹、刈、劓、仡、佚、佾、埸、懿、薏、弈、奕、挹、弋、囈、嗌、嶧、懌、悒、驛、縊、殪、軼、熠、鎰、鐿、瘞、癔、翊、蜴、羿還是翳呢?
不用數了,這裡有57個yì,漢語中同音字最多的讀音。
但我相信,這些瑕疵日後都能得到一步步解決。就像不久前,AI圖片還無法攻克中文亂碼的問題,現在你已經可以用Nano Banana穩定地輸出帶中文的圖片了。
而瑕疵掩蓋不住AI語音輸入更大的野心。
我正在用的Typeless,光從名字上就可以看出,它遠遠不止想做一個輸入法,而是讓全世界進入無需打字(Typeless)的時代。
這樣的野心並不出格。輸入法一直是網際網路最被忽視、卻又是最基礎的入口。大模型的摧枯拉朽,或許會給這片早已被瓜分完畢的戰場,帶來新的血腥。
在中國,網際網路從PC時代的開放,走向了移動時代的封閉。App之間築起一道道高牆,形成一個個孤島。時至今日,你甚至連在微信裡點選觀看抖音的視訊都沒法做到,更不要說打通他們之間的生態。
在一個個App孤島裡,只有為數不多的應用,能夠雨露均霑地穿梭在它們之間,輸入法就是其一。所有你需要表達訴求的地方,都需要它。以前,這個入口的重要性並沒有顯現出來,傳統輸入法能做的東西並不多,無非是收集使用者的巨量資料,插入一些廣告。
但這個入口,抹上了AI的濃妝後,別有一番風韻。大模型讓輸入法這一古老的產品,重新變得性感,隱約得以瞥見看到“超級入口”的綽約風姿:如果這個入口的產品,不僅僅只是打字,而是能實現跨App甚至更高級的呼叫呢?
其實目前的大模型,已具備了這樣的能力。前一陣子豆包手機就因為能夠實現系統級的呼叫而成為關注焦點,但遭到了眾多App的抵制。
可以這麼想,未來AI語音輸入不再只是傳統打字輸入法的補充,而是一次突破輸入框的升維。不妨大膽一點,如果這個入口乾脆就是系統級的AI助手呢?在更廣闊的未來,語音輸入不只是移動裝置,而是貫穿虛擬和現實世界的交流介面?
或許,未來的輸入壓根不需要專門的輸入法,也不需要這佔據了小半個螢幕的一畝三分地,它只是系統級AI助手順帶手就能完成的小事一樁。具像一點,AI語音輸入的未來應該是理想中的Siri。
蘋果也可能意識到了這一點。據報導,蘋果將在2026年6月推出全新版AI助手,具備對話式互動能力,並有望整合到郵件、音樂、程式設計軟體等核心應用中。使用者只需要對著iPhone輕聲低語,就可以呼叫各種應用。
為什麼偏偏是語音輸入呢?因為語音輸入才是人類交流的初始設定。語音輸入重歸C位,只不過是技術對人類行為的一次撥亂反正,人類的交流範式重新回到最自然、最合理的狀態。
很多人把打字當作網際網路交流的初始設定,在我潛伏的輸入法愛好者群組裡,就有一位帶點原教旨主義色彩的打字擁躉。他至今仍抗拒使用語音輸入,他認為,對著手機電腦自言自語,簡直愚蠢到家。至於原因,他回覆了略有循環論證嫌疑的十一個字:
“語音是異端,打字才是正統。”
然而回望人類歷史,打字交流才是人類走過的彎路,語音從古至今都是人類交流的主要方式。即使是今天,世界上現存的約7000種語言裡,絕大部分都沒有文字,只依靠口口相傳。
科學界普遍認為口語誕生自10到20萬年前。而目前已知最早的成型文字是5500年前蘇美爾人的楔形文字。我們打字用的QWERTY鍵盤,直到19世紀中後葉才出現,距今不過150年。
如果把人類語言交流史劃分為24小時,那麼人類在最後一分鐘才開始用鍵盤輸入文字。
套用《思考,快與慢》的作者丹尼爾·卡尼曼的觀點,說話屬於“系統1”,是刻在基因裡的本能,不需要太多思考,依賴直覺和習慣就行。而打字則屬於“系統2”,是你通過無數次敲擊建立起來的後天習慣,是需要費腦費力才能完成的動作。
與英文輸入的簡單直接相比,中文輸入更難更複雜。從打字機時代開始,在很長一段時間裡,用鍵盤輸入漢字是難倒無數英雄漢的技術難題,有人甚至想通過消滅漢字採用拉丁字母的方式“曲線救國”。
1980年,一本叫《語文現代化》的雜誌這樣寫道:“歷史將證明,電子電腦是方塊漢字的掘墓人,也是漢語拼音文字的助產士。”
被很多人視為網際網路交流正統方式的中文打字,其實不過短短半世紀的歷史。1983 年,王永民發明五筆字型,通過“橫、豎、撇、捺、折”五種筆畫給簡體中文編碼,由於其重位元率非常低,熟練者可以實現盲打,很快就成為風靡全國的打字方式。
“王旁青頭戔五一”。很多年輕人不知道,自己父母那一輩,打字是需要背口訣的,甚至需要報班花很長時間培訓才能掌握的技能。再後來,拼音輸入法的出現和網際網路的普及,才讓打字的門檻降下來。
但直到今天,中文輸入法依然難以解決一個矛盾:輸入效率高的五筆,門檻也高;門檻低的拼音,輸入效率也低。你在 2026 年的知乎隨手搜一下“輸入法”這個關鍵詞,就會發現多個吐槽輸入法越來越難用的話題。
五筆、拼音、注音、倉頡,不同的輸入方案捲來捲去,但它們之間並無本質差別,並不能真正解決漢字輸入法的痛點。或許我們應該認識到,打字,只不過是人類在語音和圖像互動技術尚未成熟之前的權宜之計。
如今,大模型技術日漸成熟,語音識別技術有了質的飛躍,規模化的替代效率低下的打字輸入法,幾乎是必然。倫敦政治經濟學院的一項研究發現,預計到 2028 年,生成式 AI 將主要以語音方式互動。
當然,短期內語音輸入並不會完全取代傳統輸入法。語音輸入還有很大的進步空間,飯要一口一口吃,路也要一步一步走。
就我個人而言,重度使用語音輸入後有兩個意外之喜。
一是改變了我的寫作方式。以前寫文章,我需要在電腦前一坐就是幾個小時,即使是用著符合人體工學的鍵盤、滑鼠和椅子,也難以抵擋久坐帶來的生理不適。
你現在看到的這篇文章,大部分文字是我在沙發上躺著、在馬桶上坐著、在地鐵上站著寫出來的,我告別了預留大塊時間的寫作模式,轉而變成“隨地大小寫”。
與其說我面對的是一個語音輸入法,不如說是在對著一個具有整理、思考能力和主觀能動性的秘書,既忠實我的原意,也不至於照搬全收。也許我們可以效仿眼下在程式設計師中流行的Vibe Coding(氛圍程式設計),為碼字的人也創造一個全新的名詞——Vibe Writing(氛圍寫作)。
二是語音讓我與 AI 的交流更高效。打字時受制於速度,我傾向使用更簡短的提示詞,往往需要多輪互動才能得到想要的結果。而語音輸入時,我會一口氣說出一段很長的提示詞,甚至達到四五百字,常常一次性就能得到滿意的答案。
就像現在的 10 後不知道為什麼手機螢幕上電話的標識是聽筒,未來的一代或許也不知道,為什麼曾經人們輸入文字還要專門裝一個輸入法。 (36氪)