#語音
“龍蝦”加速上車
以自我進化、主動執行為特徵,還能夠統一呼叫所有APP的OpenClaw(龍蝦)是當前科技圈的“流量擔當”。在剛剛結束的北京國際車展,“龍蝦上車”成為觀眾體驗和產業關注的焦點,也讓公眾對於汽車邁向“移動智能體”的未來充滿期待。 在智能座艙日益成熟的當下,“龍蝦”為駕乘人員帶來那些新體驗? 首先是對複雜任務的拆解、規劃和執行能力。相比傳統語音助手“使用者說一條命令它就執行一條命令”的互動模式,“龍蝦”能夠聽懂複雜的指令,將其拆解為數個需求。記者在斑馬智能的AutoClaw(斑馬智能發佈的“龍蝦上車”方案)智艙協作實車上,體驗了這樣一個場景——當駕駛員提議今晚和同事們小聚一下,AutoClaw先是根據駕駛員平時和同事聚會的偏好,推薦了幾家餐廳,但駕駛員表示自己決定不了,要結合大家的意見。於是,AutoClaw通過釘釘與幾位同事聯絡,確認他們有沒有聚會的意願。如果想去,各自從那裡出發、想去推薦的那一家餐廳,並及時向駕駛員和同事反饋彼此的意見,最後定下來一個大家都能接受的餐廳,並打電話預定位置。在這個過程中,AutoClaw還要應對一些意外情況,比如一位同事提出喝點酒,AutoClaw就要考慮在大家都不能開車的情況下,是在路上順路買酒,還是去線上商城下單等更加細節的問題。 斑馬智能AutoClaw展示同事們對聚餐的意見
3000萬人沒聽出是AI?TTS六大門派混戰,我直接暴力測試
事情是這樣的。最近幾個月,我但凡打開視訊號或者抖音,總被一個侃侃而談的“科技大佬”刷屏。這哥們叫「硅基大司馬」,專門講中國硬核科技,從晶片到光刻機,從新能源到機器人,啥都懂,啥都聊。最離譜的是他的更新頻率和產量,高得不像人類,整個矩陣,每天有20-30篇他的科技科普視訊產出!我以為,又是那個MCN機構捧出來的卷王。結果有人告訴我,這背後壓根不是「人」?我當時就愣了。那語氣的抑揚頓挫、自然的氣息律動,那種講到中國科技時不自覺挺直腰桿的勁兒,太像一個真的科技大佬坐在你面前吹牛了。我查了下,大司馬在全網幾十個矩陣帳號,已經有3000 萬粉絲,半年時間漲粉就2200 萬,每月 2 億觀看量,企業家 IP 榜上排在他後面的是周鴻禕、余承東、俞敏洪一眾大佬。這就不是玩票了,這是一場社會實驗等級的行為藝術。我立刻來了興趣。能撐起這種千萬級粉絲盤、讓人完全聽不出看不出破綻的AI,是什麼妖怪技術?順藤摸瓜,我挖到了硅基大司馬背後的聲音引擎——Smart Voice 1.0,號稱“一次成型、無需返工”。口說無憑,既然要測,那就玩把大的!然後,我拉上了目前市面上號稱SOTA等級TTS,做了一場慘無人道的暴力橫向測試。TTS六大門派圍攻光明頂,誰在裸泳?我在網上找的司馬華鵬的採訪,這放出來你們好有個對照。先從om**開始,這家的效果出來,好像一個沒有感情的讀稿機器,語調平直得像一根繃直的線,沒有什麼情緒的起伏。接著是Min****,這家失真的有點離譜,機械感很重。喉嚨裡像卡著東西,聲音像從一根生鏽的鋼管裡傳出來的。然後是Qw**,對比前面幾家,這家起碼聲音沒失真,不過在斷句節奏上有點不穩定,還是會有機械感。再然後,火**,這一家,和原聲偏差很大,完全不像本人。聽起來就像10年前打10086客服,電話那頭傳來的語音。好,重頭戲來了。Elev*****,你知道我最期待那家嗎?就是它。全球TTS市場份額第一,我滿心以為它會給我一個驚喜,結果呢?太心酸了。聽起來像是一個外國人在講中文,那種努力想模仿中國人講話,但發音但每個音都不在點子上的外國人。最後, Smart Voice 1.0我去,這才是該有的樣子。和本人聲線、音色的一致度,一字就是“像”。再有就是那種停頓時的呼吸感,全都在,甚至還有人講話時候那種猶豫感!一次成型,不需要返工,這才是關鍵。說到這個「一次成型」,我必須多聊幾句。很多人可能不知道,傳統流程做一分鐘商業級音訊,成本有多離譜。我查了一下。專業語音稽核質檢人員,日薪大概650到1100元。處理1小時音訊需要4到8小時,也就是說一天只能處理約1到2小時音訊。折算每分鐘稽核成本,約10到37元。如果算配音費用那更貴了,日薪2000到5000元。更重要的是時間。音訊出來了要聽,聽完要改,改完要再審。調音、改稿、稽核。如果再加上返工,傳統流程做一分鐘商業級音訊,成本輕鬆過百。Smart Voice 1.0呢?10元每分鐘。一次生成,不需要聽審,不用返工,直接上線。「硅基大司馬」幾十個矩陣帳號,半年漲粉2200萬,累計粉絲3000萬。每月2個億流量,單條視訊4000萬播放。榜單連續三個月TOP3,周鴻禕、余承東、何小鵬、俞敏洪、魏建軍一票大佬都在他後面。這不是實驗室demo,是真實戰場上的真刀真槍。說到這,大家盲聽試試吧。最後我也會在留言區公佈揭曉。Smart Voice 1.0 的出現,意味著AI語音賽道正在從“實驗室的玩具”向“工業級的拳頭產品”轉變。那些只會“念字”的TTS產品,如果不趕緊跟上,眼看就要被甩出幾條街。最後,我知道很多做內容、搞IP、做企業品牌的朋友已經對這個技術飢渴難耐了。我幫你們要了個福利。這是我從官方拿到的,Smart Voice 1.0內測通道。最後,我想回到開頭那個視訊。我現在知道了,它是AI合成的。但諷刺的是,我知道這個事實之後,再去聽他的視訊,反而覺得更震撼了。1880年代電力剛開始普及的時候,大部分人只是把電力當成一種更乾淨的蠟燭替代品,用來點燈。但真正吃到電力紅利的人,是最早想明白電力到底能幹什麼的人,工廠不用再圍著蒸汽機佈局了,流水線的形態整個被重塑了。AI語音現在就像那個階段。很多人還在拿它當「便宜的配音替代品」,但接下來幾年,聲音會變成無限供給的基礎設施,所有依賴真人聲音的商業模式都會被重構。當聲音可以無限供給的時候,內容和傳媒產業才真正具備了規模化的條件。這才是這次測試最讓我震撼的地方。 (識焗)
挑戰輝達統治力:Cohere發佈開源輕量化語音模型Transcribe
在企業級AI市場動作頻頻的Cohere公司,於2026年3月26日正式推出了名為Cohere Transcribe的開源語音識別模型。這款模型擁有20億參數,專為邊緣裝置設計,旨在打破以往語音模型因體積過大而導致的延遲瓶頸。通過採用Apache 2.0協議開源,Cohere試圖效仿Meta的路徑,利用開發者社區的力量快速完善生態,並最終實現商業化反哺。邊緣側的性能怪獸:支援14種語言且超越主流對手。Cohere Transcribe在訓練中涵蓋了包括中文、日語、法語和希伯來語在內的14種語言。根據Hugging Face開放ASR排行榜的最新資料,該模型在性能指標上已經超越了ElevenLabs Scrie和阿里旗下的Qwen3等同類競品。得益於精簡的參數量,它能直接部署在手機、PC或工業閘道器等終端裝置上,無需頻繁呼叫雲端算力,這不僅極大地降低了資料傳輸延遲,也為銀行、銷售和醫療等對隱私高度敏感的行業提供了更安全的解決方案。從文字到語音的戰略擴張:重塑智能體互動基石。雖然Cohere過去一直深耕文字生成領域,但此次跨界語音識別被視為其建構全能AI智能體(Agent)的關鍵一步。公司宣佈,Cohere Transcribe即將整合進其AI智能體編排平台North中。分析人士指出,隨著Siri式的語音互動成為AI浪潮的起點,語音能力已成為智能體感知世界的必備“耳朵”。Cohere正通過這種“小而強”的開源策略,在邊緣計算和即時語音翻譯市場與IBM、阿里巴以巴及推出AI Companion 3.0的Zoom展開正面交鋒。 (AI的記錄日常)
我想給 OpenClaw 接上語音,結果有人先做了
我一直在用 OpenClaw(龍蝦),通過飛書和電報來用,體驗不錯,已經在幫我做各種小雜事了。我這兩天還基於龍蝦做了個有點點意思的東西,還在打磨(vibe)中,過兩天分享出來。在和龍蝦對話的過程中,我心裡一直有一個感受和念頭:人和 AI 之間,語音才是更 native 的互動方式。這個念頭不是憑空來的。早在 ChatGPT 剛發佈之際,我就做過一個真•全球首位的語音 ChatGPT 對話的軟體,發到 B 站後一天之內播放就破了10萬。可以說,我對語音互動還是有一點兒執念的:語音的頻寬雖然不高,但它是高度壓縮的、靈感密度最大的。這其實就是我們人和人之間最高效、最自然的工作表達方式。文字當然更準確、更易理解,但很多時候,當你打下前幾個字的時候,當時的靈感已經忘了一半。而靈感,則是 AI 時代最為重要的東西。我自己就經常有過靈感突然飛走的經歷,所以我就一直偏愛語音輸入類的工具。龍蝦出來之後我就在想,能不能給它接一個語音入口呢?外網其實已經有人做過類似的嘗試,用瀏覽器接語音,用Web Speech API去調後端,再把結果顯示在網頁裡。技術上不複雜,甚至可以說挺優雅。但我一直覺得,這種方式還是有點「隔著一層」。它更像是:你坐在電腦前,對著電腦說話。本質上還是「你在用電腦」而我真正想要的,是反過來——不是我去靠近裝置,而是裝置貼近我。讓它不只是「打字對話」,而是隨時隨地、張嘴就來。飛書可以發語音,電報也可以,但終究不夠 native,離那種真正「隨時隨地、開口即用」的體驗還有些距離。我一直想自己做一個,但這幾天確實太忙了忙,一直沒動手(動嘴)。然後今天,我發現,這件事,已經有人在往我認同的方向走了。有個叫「光帆AI」的團隊在做一件事:他們現在做的並不是“一個語音 APP”。更準確地說,是用 APP 先把「耳機 + 服務」的整條鏈路跑通並穩定下來。APP只是當前最便捷的載體,後續再把同一套能力自然遷移到更貼身的硬體入口上。簡單來說就是,你對著手機說一句話,家裡或公司或遠端的龍蝦就開始幹活,幹完了把結果推到你手機上。而這個 APP 粗看之下,可能會覺得這和在飛書裡發個語音消息有什麼不同?但這裡有個關鍵的區別:它對接的不是一個 chatbot,而是 OpenClaw 這個真正能幹活的個人 Agent。這不只是語音版的 ChatGPT,也不是打通個聊天機器人就完了。可以想像,這個入口以及未來的耳機背後,將會是一群不同的 Agent 在隨時聽從你的指令,全天候為你工作、解決問題。它用的是語音這種人和人之間最直接的溝通吩咐方式,自然到你甚至不覺得自己在「操作」什麼東西。所以看到 Hi Light 的第一時間,我就要來安裝包上手一試了。昨晚下載 APP 後,雖然該有的都有,但細節還需要打磨,玩了一會兒我就睡了。沒想到早上醒來,看到已經又更新了2個版本了……這是要春節無休的節奏啊……這麼快速迭代的速度,我覺得再過幾天、過幾周,應該就能有一個不錯的、可以日常用起來的版本。那實際用起來什麼感覺呢?來看幾個我試過的場景。今天早上我照舊去家附近的公園跑步,跑著跑著突然想起一件事:最近想調研某個技術方案的競品情況,一直沒顧上。以前這種念頭只能先記在腦子裡,等跑完回去再說。但大機率回去就忘了,或者被別的事岔開。這次我掏出手機,打開 Hi Light APP,點了通話按鈕,說了一句:“幫我調研一下海內外 AgentOS 的競品和技術方案,整理成文件放桌面。”然後手機塞回口袋,繼續跑。等跑完回去一看,文件已經在那了。並且還成功直接呼叫了我之前的寫的Nanobanana_PPT的skill。我們來看看效果順便叮囑一句:AI 時代,建議大家還是要多跑步、多運動。萬一 AGI 真來了,你總得有個好身體去見證吧。然後跑完步到家,我正洗澡滿手都是水的時候,然後阿里雲的電話告警來了:資料庫滿了,雖然是測試環境。手上滿是水時的打字型驗和效率……懂的都懂……不過現在就省事許多了,只需要點選電話按鈕,然後直接說:「查一下測試環境,資料庫滿了,把資料同步表的資料清一下只保留最近一周的。」然後我電腦端的OpenClaw 會用我提前配置好的 skills 自動去連資料庫、確定問題、清理資料、二次確認,然後在我還沒洗完澡,就把結果推到手機上,給我語音播報完成了。用了幾次之後我發現,這真的是一個很爽的互動模式:我可以像打電話一樣直接給 Agent 說出指令,它接收到之後會告訴我說已收到,還讓我先去幹點別的或者玩一會兒,等它的好消息。然後過不久,結果就推送過來了,我隨時可以審閱。如果還有需要調整的地方,繼續語音追加指示就行。真的就像一個人在管理著無數隨叫隨到的員工。說句不太謙虛的話,有那麼點君臨天下的感覺。說完體驗,來聊聊怎麼接入。整個過程不複雜,電腦上裝好 OpenClaw 之後,安裝光帆的 hi-light 外掛:npm i @art_style666/hi-lightopenclaw plugins install @art_style666/hi-light然後去 Hi Light APP 裡獲取你的 API Key(設定 → 帳號管理 → 獲取 API Key),在 OpenClaw 配置檔案 ~/.openclaw/openclaw.json 裡加上 hi-light 的 channel 配置:"channels":{"hi-light":{"enabled":true,"wsUrl":"wss://open.guangfan.com/open-apis/device-agent/v1/websocket","authToken":"你的 API KEY"}}最後執行 openclaw gateway restart,沒報錯就說明接上了。不過,其實,這裡許多操作我都是直接無腦扔給 Claude Code,然後它自己就搞定了。雖然我最近 coding 任務上 Codex 用得越來越多,但這類安裝配置的雜事還是 Claude Code 更順手,體驗也明顯更好。但後面我計畫直接用耳機來控制龍蝦,然後就可以用它來控制 Claude Code 了。(或者反過來,用 Claude Code 來控制龍蝦?)從技術上看,完整的鏈路是這樣的:我的語音 → Hi Light APP(或耳機)→ 光帆雲伺服器 → 你電腦上的 OpenClaw 客戶端 → 本地執行 → 結果回傳 → APP 展示。中間走的是 WebSocket 長連接,響應及時。另外,這套外掛 + WebSocket 通道,其實已經很像平台化能力的雛形。後面大機率會做成一個開放平台,把「裝置入口 + 指令通道 + 任務回傳」這整條鏈路開放給開發者,讓更多人可以接入類似 OpenClaw 這樣的 Agent 能力。現在看到的接入方式,本質上已經是在提前搭平台的骨架。這裡其實沒有“絕對安全”。像 OpenClaw 這種能連本地環境、能執行動作的 Agent,本質上就是在 自由度、響應速度與安全邊界之間做取捨。光帆提供了兩種部署模式:Local Host:外掛跑在你自己的 Mac 上,資料儘量不出本地,安全邊界更可控,適合對資料敏感的極客。Cloud Host:更省心、隨時線上,但需要更清晰的權限與隔離機制來約束風險邊界。換句話說:它不是“更安全”,而是“把權衡擺在檯面上”,讓不同人按需求選。安全性方面,API Key 的機制會確保指令只會發到你繫結的裝置上。Local Host 模式資料完全不出域。Cloud Host 模式下使用者資料做了隔離處理。外掛程式碼在 GitHub 上開源,可以自己去看。如果你沒什麼隱私而言,那你隨時,我則敏感且確實有許多我自己定製的東西,我建議還是用 Local Host 模式,資料不出域,個性化整合且踏實放心。從行業角度看,AI 正在從「被動響應」走向「主動理解」,從螢幕走向穿戴,入口正在從鍵盤遷移到麥克風。光帆在做的事情是把 Agent 能力延伸到了更 native 的硬體互動層面,方向是對的。目前 Hi Light APP 已經上架,iOS 通過 TestFlight 安裝,Android 可在各大應用程式商店搜尋「Hi Light」下載。不需要耳機也能用,APP 本身就支援語音操控電腦的完整功能。耳機預計2026年 Q1-Q2 開售。現在處於公測階段,感興趣的可以先裝 APP 體驗一下。如果你本身就在用 OpenClaw,而且也對語音入口有興趣,可以嘗試下這個產品。語音不是為了更酷,而是為了更自然。當 AI 真正成為執行體,互動方式終究會回到人類最原始、也最直接的溝通方式——說話。因為那本來就是我們與世界協作的方式。 (AGI Hunt)
AI語音輸入法,人類進入「不打字」時代
破天荒,這是一篇用“語音”打出來的文章。一周前,我下載了一款叫Typeless的語音輸入法,當時我沒有意識到它會改變什麼。首先交代一下大背景:從2025年下半年起,AI語音輸入法成為驟然颳起的新風口。以語音輸入為核心賣點的豆包輸入法,登陸各大應用程式商店。大模型六小虎之一的智譜,推出智譜AI輸入法。其他的一些大廠輸入法,也都或多或少在加碼AI語音輸入。1月27日,搜狗輸入法宣佈重磅升級其語音輸入能力,稱其識別率達到98%,日均語音使用次數近20億次,穩居行業第一。風景不止這邊獨好,太平洋對岸的Wispr Flow目前融資額達8100萬美元,估值7個億。由華人開發的後起之秀Typeless在Product Hunt上線後連日高居排行榜前列,先後推出覆蓋主流平台的版本。此外,多個初創企業乃至個人開發者也推出了類似產品,閃電說、LazyTyper、Spokenly、秒言等等,不一而足。我原本以為,這又是一次和往常一樣的嘗鮮。畢竟近幾年來出現的AI新品如過江之鯽,其中大多數很難在我的螢幕上停留超過半天。所以,一開始我並沒有抱很大期待。結果卻是,這是自ChatGPT以來,最讓我眼前一亮的AI產品。我用了不到一周的時間,就改變了已經形成20多年的習慣:主要的輸入方式從打字變成了語音。甚至連這篇文章的初稿,也是用語音輸入完成的。我專門申請了另一個Typeless帳號,記錄完成這篇文稿的資料:用時53分鐘,輸入5500字,每分鐘155字,節省2.5小時。更快更準更多AI語音輸入的降維打擊對我來說,放棄打字轉向語音堪比“違背祖宗的決定”。因為我自詡是個打字愛好者。為了更好的打字型驗,專門學習擊鍵次數更少的自然碼雙拼輸入方案,配置了高度可定製化的輸入法Rime,買過好幾把不同軸體的機械鍵盤。你或許看不懂這句話裡的部分詞彙,沒關係,你只需要知道,這是鍵盤和輸入法愛好者群體中常見的專有名詞。即使如此,我的打字速度,最高也就每分鐘八九十個字,普通人裡已經算快了,大多數人的打字速度,也就每分鐘四五十字。我曾經潛伏在某個輸入法愛好者群組,裡面匯聚了眾多大神級人物,他們每天討論的話題,是如何自制各種類型的輸入方案,提高打字效率。其中有位在某二線城市當大學老師的成員,跟我有著類似的經歷,他從2025年末開始,正式“皈依”語音輸入。“我之前電腦用五筆,手機用小鶴雙拼,巔峰時五筆打字每分鐘130多字。”他如是說,“但跟現在的AI語音輸入比起來,打字還是差太遠了,我語音每分鐘甚至可以達到250字。”這個速度,即使是頂尖的打字專業選手,也望塵莫及。2013年全國漢字輸入大賽的冠軍,平均每分鐘也才打175個字。即使是口條並不利索的我,語音輸入也能穩定在每分鐘150字左右,稍微努力下,就能超越打字冠軍。速度是快,精準率呢?答案是,很準。即使是在前ChatGPT時代,也是如此。2018年史丹佛大學、華盛頓大學和百度的一項聯合論文顯示,語音輸入不論是速度還是精準率,都顯著優於鍵盤。速度上,英語母語者語音輸入每分鐘153字,鍵盤輸入僅52字;中文拼音使用者每分鐘鍵盤輸入43字,而語音達123字。不論中英文,語音輸入都比打字快了約3倍。在輸入過程的錯誤率上,語音的表現也更優。中文語音輸入的糾錯率為6.67%,而鍵盤輸入高達17.73%。在經歷了幾年大模型狂飆突進之後,AI語音的識別速度和精準率則更上一層樓。Typeless、智譜AI輸入法、閃電說都稱自己的速度比打字快4倍,一款叫LazyTyper的語音輸入法,更是聲稱比打字快7倍。精準率上,搜狗說自己精準率98%,智譜也在官網標註了97.8%。從網上的評測和個人體驗來看,這些廣告語並不算誇張。與大廠輸入法在鍵盤上做加法不同,初創企業和個人開發者的語音輸入產品邁的步子更大,或許必須更激進的姿態才能在紅海裡分一杯羹,他們直接取消了打字鍵盤,只保留了少數常用按鈕,語音鍵被提拔到了C位。傳統的語音輸入只是轉錄聽寫,但大模型加持下,語音輸入是一種更高維的產品,是“語音意圖輸入法”。它不只可以將語音一字不漏地轉錄,也能識別輸入者的意圖,刪除多餘的語氣詞,修改語法錯誤,捋順不連貫的地方,同時根據輸入環境調整語氣、翻譯潤色等等,都不在話下。那怕輸出錯了,也支援用語音修改。比如用Typeless輸出一句話:“我想去延津縣”,但其實你想輸入的是“鹽”津縣,你也只需要對著這句話說“把yán改成油鹽醬醋的鹽”即可。當然,你肯定會反駁,語音輸入就算又快又準,但不是什麼場景都適用。嘈雜的人群中能聽清嗎?在辦公室對著手機說話不尷尬嗎?曾經我也有類似的想法,但使用之後我打消了顧慮,即使是輕輕低語,也能基本精準無誤的輸入。我在辦公室偷偷用了5天語音輸入後,問我的左右鄰桌同事能不能聽到我輸入語音的聲音,他們的反應是:“你啥時候出聲了?”搜狗在宣傳稿裡稱,自家輸入法20分貝以下的語音依然有97%的正確率。20分貝,就相當於樹葉的沙沙聲,或者五米開外的低語。目前最大的不良體驗,反而來自意想不到的地方。比如戴上耳機後,語音輸入的正確率反而不如不戴耳機。比如單獨字詞的輸入,遠不如句子段落。越長的語音,精準率越高,顯然得益於大語音模型的理解和推理能力,越長的語音,其意義就越明確,可供參考的情境也就更多。而漢語中充滿了同音字詞,你只說一個沒有上下文的“yì”,誰知道你說的是藝、抑、易、邑、屹、億、役、臆、逸、肄、疫、亦、裔、意、毅、憶、義、益、溢、詣、議、誼、譯、異、翼、翌、繹、刈、劓、仡、佚、佾、埸、懿、薏、弈、奕、挹、弋、囈、嗌、嶧、懌、悒、驛、縊、殪、軼、熠、鎰、鐿、瘞、癔、翊、蜴、羿還是翳呢?不用數了,這裡有57個yì,漢語中同音字最多的讀音。但我相信,這些瑕疵日後都能得到一步步解決。就像不久前,AI圖片還無法攻克中文亂碼的問題,現在你已經可以用Nano Banana穩定地輸出帶中文的圖片了。而瑕疵掩蓋不住AI語音輸入更大的野心。我正在用的Typeless,光從名字上就可以看出,它遠遠不止想做一個輸入法,而是讓全世界進入無需打字(Typeless)的時代。這樣的野心並不出格。輸入法一直是網際網路最被忽視、卻又是最基礎的入口。大模型的摧枯拉朽,或許會給這片早已被瓜分完畢的戰場,帶來新的血腥。突破輸入框再造超級入口在中國,網際網路從PC時代的開放,走向了移動時代的封閉。App之間築起一道道高牆,形成一個個孤島。時至今日,你甚至連在微信裡點選觀看抖音的視訊都沒法做到,更不要說打通他們之間的生態。在一個個App孤島裡,只有為數不多的應用,能夠雨露均霑地穿梭在它們之間,輸入法就是其一。所有你需要表達訴求的地方,都需要它。以前,這個入口的重要性並沒有顯現出來,傳統輸入法能做的東西並不多,無非是收集使用者的巨量資料,插入一些廣告。但這個入口,抹上了AI的濃妝後,別有一番風韻。大模型讓輸入法這一古老的產品,重新變得性感,隱約得以瞥見看到“超級入口”的綽約風姿:如果這個入口的產品,不僅僅只是打字,而是能實現跨App甚至更高級的呼叫呢?其實目前的大模型,已具備了這樣的能力。前一陣子豆包手機就因為能夠實現系統級的呼叫而成為關注焦點,但遭到了眾多App的抵制。可以這麼想,未來AI語音輸入不再只是傳統打字輸入法的補充,而是一次突破輸入框的升維。不妨大膽一點,如果這個入口乾脆就是系統級的AI助手呢?在更廣闊的未來,語音輸入不只是移動裝置,而是貫穿虛擬和現實世界的交流介面?或許,未來的輸入壓根不需要專門的輸入法,也不需要這佔據了小半個螢幕的一畝三分地,它只是系統級AI助手順帶手就能完成的小事一樁。具像一點,AI語音輸入的未來應該是理想中的Siri。蘋果也可能意識到了這一點。據報導,蘋果將在2026年6月推出全新版AI助手,具備對話式互動能力,並有望整合到郵件、音樂、程式設計軟體等核心應用中。使用者只需要對著iPhone輕聲低語,就可以呼叫各種應用。為什麼偏偏是語音輸入呢?因為語音輸入才是人類交流的初始設定。語音輸入重歸C位,只不過是技術對人類行為的一次撥亂反正,人類的交流範式重新回到最自然、最合理的狀態。打字輸入才是人類走的彎路很多人把打字當作網際網路交流的初始設定,在我潛伏的輸入法愛好者群組裡,就有一位帶點原教旨主義色彩的打字擁躉。他至今仍抗拒使用語音輸入,他認為,對著手機電腦自言自語,簡直愚蠢到家。至於原因,他回覆了略有循環論證嫌疑的十一個字:“語音是異端,打字才是正統。”然而回望人類歷史,打字交流才是人類走過的彎路,語音從古至今都是人類交流的主要方式。即使是今天,世界上現存的約7000種語言裡,絕大部分都沒有文字,只依靠口口相傳。科學界普遍認為口語誕生自10到20萬年前。而目前已知最早的成型文字是5500年前蘇美爾人的楔形文字。我們打字用的QWERTY鍵盤,直到19世紀中後葉才出現,距今不過150年。如果把人類語言交流史劃分為24小時,那麼人類在最後一分鐘才開始用鍵盤輸入文字。套用《思考,快與慢》的作者丹尼爾·卡尼曼的觀點,說話屬於“系統1”,是刻在基因裡的本能,不需要太多思考,依賴直覺和習慣就行。而打字則屬於“系統2”,是你通過無數次敲擊建立起來的後天習慣,是需要費腦費力才能完成的動作。與英文輸入的簡單直接相比,中文輸入更難更複雜。從打字機時代開始,在很長一段時間裡,用鍵盤輸入漢字是難倒無數英雄漢的技術難題,有人甚至想通過消滅漢字採用拉丁字母的方式“曲線救國”。1980年,一本叫《語文現代化》的雜誌這樣寫道:“歷史將證明,電子電腦是方塊漢字的掘墓人,也是漢語拼音文字的助產士。”被很多人視為網際網路交流正統方式的中文打字,其實不過短短半世紀的歷史。1983 年,王永民發明五筆字型,通過“橫、豎、撇、捺、折”五種筆畫給簡體中文編碼,由於其重位元率非常低,熟練者可以實現盲打,很快就成為風靡全國的打字方式。“王旁青頭戔五一”。很多年輕人不知道,自己父母那一輩,打字是需要背口訣的,甚至需要報班花很長時間培訓才能掌握的技能。再後來,拼音輸入法的出現和網際網路的普及,才讓打字的門檻降下來。但直到今天,中文輸入法依然難以解決一個矛盾:輸入效率高的五筆,門檻也高;門檻低的拼音,輸入效率也低。你在 2026 年的知乎隨手搜一下“輸入法”這個關鍵詞,就會發現多個吐槽輸入法越來越難用的話題。五筆、拼音、注音、倉頡,不同的輸入方案捲來捲去,但它們之間並無本質差別,並不能真正解決漢字輸入法的痛點。或許我們應該認識到,打字,只不過是人類在語音和圖像互動技術尚未成熟之前的權宜之計。如今,大模型技術日漸成熟,語音識別技術有了質的飛躍,規模化的替代效率低下的打字輸入法,幾乎是必然。倫敦政治經濟學院的一項研究發現,預計到 2028 年,生成式 AI 將主要以語音方式互動。當然,短期內語音輸入並不會完全取代傳統輸入法。語音輸入還有很大的進步空間,飯要一口一口吃,路也要一步一步走。就我個人而言,重度使用語音輸入後有兩個意外之喜。一是改變了我的寫作方式。以前寫文章,我需要在電腦前一坐就是幾個小時,即使是用著符合人體工學的鍵盤、滑鼠和椅子,也難以抵擋久坐帶來的生理不適。你現在看到的這篇文章,大部分文字是我在沙發上躺著、在馬桶上坐著、在地鐵上站著寫出來的,我告別了預留大塊時間的寫作模式,轉而變成“隨地大小寫”。與其說我面對的是一個語音輸入法,不如說是在對著一個具有整理、思考能力和主觀能動性的秘書,既忠實我的原意,也不至於照搬全收。也許我們可以效仿眼下在程式設計師中流行的Vibe Coding(氛圍程式設計),為碼字的人也創造一個全新的名詞——Vibe Writing(氛圍寫作)。二是語音讓我與 AI 的交流更高效。打字時受制於速度,我傾向使用更簡短的提示詞,往往需要多輪互動才能得到想要的結果。而語音輸入時,我會一口氣說出一段很長的提示詞,甚至達到四五百字,常常一次性就能得到滿意的答案。就像現在的 10 後不知道為什麼手機螢幕上電話的標識是聽筒,未來的一代或許也不知道,為什麼曾經人們輸入文字還要專門裝一個輸入法。 (36氪)
豆包大模型1.8正式發佈,擁有更強多模態Agent能力,豆包日均使用量超過50兆,推出成本節省計畫降幅達47%
豆包大模型1.8具備更強的多模態Agent能力,256K超長上下文使其能夠處理更複雜的資訊,擅長處理複雜多步任務。火山引擎正式發佈的"AI節省計畫",普惠覆蓋豆包大模型、豆包視訊及圖像創作模型與第三方開源大模型,全面最佳化使用者呼叫成本,最高節省幅度達47%。火山引擎在2025原動力大會上發佈豆包大模型1.8,具備更強的多模態Agent能力,256K超長上下文和原生API上下文管理,擅長處理複雜多步任務。火山引擎總裁譚待在12月18日的大會上透露,平台"兆Tokens俱樂部"成員已突破100家。並披露豆包大模型日均使用量超50兆Tokens,自發佈以來增長417倍,同時推出最高節省47%的AI成本最佳化計畫。除主力模型外,火山引擎同步發佈圖像創作模型Doubao-Seedream-4.5和視訊生成模型Seedance系列,進一步完善多模態能力版圖。新推出的Seedance-1.0-Pro支援2至12秒1080P自由生成,可實現多人語言對白和多鏡頭敘事。火山引擎正式推出"AI節省計畫",一次加入即可覆蓋豆包大模型、視訊圖像創作模型及第三方開源大模型,支援全預付、零預付等靈活付款方式。開源證券研報指出,此次發佈有望推動AI在企業生產場景中的落地應用。火山引擎總裁譚待在回應對明年模型行業的競爭時表示,“明年模型之間最重要的還不是競爭,最重要的是要把市場做大。明年這個市場可能還要再漲10倍,大家其實就不是存量的競爭,不是零和博弈,而是說大家一起把市場做大。同時,明年模型還需要進一步降價,這個市場才能做大。”01 核心模型能力全面升級豆包大模型1.8在多模態理解上實現顯著提升。模型的長視訊理解和安防監控場景能力得到增強,256K超長上下文使其能夠處理更複雜的資訊。通過更靈活的上下文管理,新模型可輔助公司處理複雜任務並支援決策。在圖像生成領域,火山引擎發佈的Doubao-Seedream-4.5具備多圖組合、創意寫真、圖片拆解、複雜組圖、虛擬試穿與海報設計等能力。視訊生成能力同步增強,Seedance系列包含兩個版本:Seedance-1.0-Lite以成本優先兼顧速度,適配高頻創作;Seedance-1.0-Pro提供影視級畫質與原生音效,滿足電影級感官敘事需求。豆包大模型已落地智能硬體與語音助手,應用場景覆蓋日常溝通、專業服務與報告解讀、聯網搜尋等。配合使用者認證的邊想邊搜互動體驗,使豆包成為隨身智能夥伴。02 推理與開發服務生態完善火山引擎推出"火山方舟"推理代工服務,已接入Qwen、GLM、Seed-OSS等主流開源大模型,支援企業將精調後的模型一鍵Serverless部署。平台提供海量資源、專屬推理加速與極致彈性調度,承諾"你訓練,我推理"。Viking系列產品在大會上亮相,VikingAI搜尋與VikingDB向量資料庫雙輪驅動,為終端使用者提供優質輸入,為模型與Agent快速建構知識庫和記憶庫。配套的多模態搜尋支援文字、圖像跨模態檢索,個性化推薦實現"千人千面",Agentic問答基於豆包大模型精準識別意圖。在Agent開發方面,火山引擎發佈企業級AI Agent平台AgentKit與TRAE(CN)企業版,已獲NIO、PwC、匯付天下、銳捷、軟通動力、高頓等頭部客戶採用。平台依託企業級GPU叢集,支援10萬檔案、5億行程式碼超長上下文,可靈活配置企業規則、知識庫與Agent,即時追蹤AI生成率與程式碼量,程式碼全鏈路加密傳輸、雲端零儲存。03 成本最佳化計畫釋放普惠紅利火山引擎正式發佈的"AI節省計畫"採用一次性加入機制,普惠覆蓋豆包大模型、豆包視訊及圖像創作模型與第三方開源大模型,全面最佳化使用者呼叫成本。最高節省幅度達47%,支援全預付、零預付等多種付款方式,實現"多用多省"。火山引擎此次還發佈了MaSS on AICC服務。開源證券研報稱,火山引擎此次發佈有望實現性能提升與成本降低,特別是視訊生成模型的進一步升級。研報建議關注字節產業鏈及AI應用投資機會,認為Agent開發工具的升級與Agent生態的擴容將推動AI在企業生產場景中的落地應用。 (硬AI)