#語音
我想給 OpenClaw 接上語音,結果有人先做了
我一直在用 OpenClaw(龍蝦),通過飛書和電報來用,體驗不錯,已經在幫我做各種小雜事了。我這兩天還基於龍蝦做了個有點點意思的東西,還在打磨(vibe)中,過兩天分享出來。在和龍蝦對話的過程中,我心裡一直有一個感受和念頭:人和 AI 之間,語音才是更 native 的互動方式。這個念頭不是憑空來的。早在 ChatGPT 剛發佈之際,我就做過一個真•全球首位的語音 ChatGPT 對話的軟體,發到 B 站後一天之內播放就破了10萬。可以說,我對語音互動還是有一點兒執念的:語音的頻寬雖然不高,但它是高度壓縮的、靈感密度最大的。這其實就是我們人和人之間最高效、最自然的工作表達方式。文字當然更準確、更易理解,但很多時候,當你打下前幾個字的時候,當時的靈感已經忘了一半。而靈感,則是 AI 時代最為重要的東西。我自己就經常有過靈感突然飛走的經歷,所以我就一直偏愛語音輸入類的工具。龍蝦出來之後我就在想,能不能給它接一個語音入口呢?外網其實已經有人做過類似的嘗試,用瀏覽器接語音,用Web Speech API去調後端,再把結果顯示在網頁裡。技術上不複雜,甚至可以說挺優雅。但我一直覺得,這種方式還是有點「隔著一層」。它更像是:你坐在電腦前,對著電腦說話。本質上還是「你在用電腦」而我真正想要的,是反過來——不是我去靠近裝置,而是裝置貼近我。讓它不只是「打字對話」,而是隨時隨地、張嘴就來。飛書可以發語音,電報也可以,但終究不夠 native,離那種真正「隨時隨地、開口即用」的體驗還有些距離。我一直想自己做一個,但這幾天確實太忙了忙,一直沒動手(動嘴)。然後今天,我發現,這件事,已經有人在往我認同的方向走了。有個叫「光帆AI」的團隊在做一件事:他們現在做的並不是“一個語音 APP”。更準確地說,是用 APP 先把「耳機 + 服務」的整條鏈路跑通並穩定下來。APP只是當前最便捷的載體,後續再把同一套能力自然遷移到更貼身的硬體入口上。簡單來說就是,你對著手機說一句話,家裡或公司或遠端的龍蝦就開始幹活,幹完了把結果推到你手機上。而這個 APP 粗看之下,可能會覺得這和在飛書裡發個語音消息有什麼不同?但這裡有個關鍵的區別:它對接的不是一個 chatbot,而是 OpenClaw 這個真正能幹活的個人 Agent。這不只是語音版的 ChatGPT,也不是打通個聊天機器人就完了。可以想像,這個入口以及未來的耳機背後,將會是一群不同的 Agent 在隨時聽從你的指令,全天候為你工作、解決問題。它用的是語音這種人和人之間最直接的溝通吩咐方式,自然到你甚至不覺得自己在「操作」什麼東西。所以看到 Hi Light 的第一時間,我就要來安裝包上手一試了。昨晚下載 APP 後,雖然該有的都有,但細節還需要打磨,玩了一會兒我就睡了。沒想到早上醒來,看到已經又更新了2個版本了……這是要春節無休的節奏啊……這麼快速迭代的速度,我覺得再過幾天、過幾周,應該就能有一個不錯的、可以日常用起來的版本。那實際用起來什麼感覺呢?來看幾個我試過的場景。今天早上我照舊去家附近的公園跑步,跑著跑著突然想起一件事:最近想調研某個技術方案的競品情況,一直沒顧上。以前這種念頭只能先記在腦子裡,等跑完回去再說。但大機率回去就忘了,或者被別的事岔開。這次我掏出手機,打開 Hi Light APP,點了通話按鈕,說了一句:“幫我調研一下海內外 AgentOS 的競品和技術方案,整理成文件放桌面。”然後手機塞回口袋,繼續跑。等跑完回去一看,文件已經在那了。並且還成功直接呼叫了我之前的寫的Nanobanana_PPT的skill。我們來看看效果順便叮囑一句:AI 時代,建議大家還是要多跑步、多運動。萬一 AGI 真來了,你總得有個好身體去見證吧。然後跑完步到家,我正洗澡滿手都是水的時候,然後阿里雲的電話告警來了:資料庫滿了,雖然是測試環境。手上滿是水時的打字型驗和效率……懂的都懂……不過現在就省事許多了,只需要點選電話按鈕,然後直接說:「查一下測試環境,資料庫滿了,把資料同步表的資料清一下只保留最近一周的。」然後我電腦端的OpenClaw 會用我提前配置好的 skills 自動去連資料庫、確定問題、清理資料、二次確認,然後在我還沒洗完澡,就把結果推到手機上,給我語音播報完成了。用了幾次之後我發現,這真的是一個很爽的互動模式:我可以像打電話一樣直接給 Agent 說出指令,它接收到之後會告訴我說已收到,還讓我先去幹點別的或者玩一會兒,等它的好消息。然後過不久,結果就推送過來了,我隨時可以審閱。如果還有需要調整的地方,繼續語音追加指示就行。真的就像一個人在管理著無數隨叫隨到的員工。說句不太謙虛的話,有那麼點君臨天下的感覺。說完體驗,來聊聊怎麼接入。整個過程不複雜,電腦上裝好 OpenClaw 之後,安裝光帆的 hi-light 外掛:npm i @art_style666/hi-lightopenclaw plugins install @art_style666/hi-light然後去 Hi Light APP 裡獲取你的 API Key(設定 → 帳號管理 → 獲取 API Key),在 OpenClaw 配置檔案 ~/.openclaw/openclaw.json 裡加上 hi-light 的 channel 配置:"channels":{"hi-light":{"enabled":true,"wsUrl":"wss://open.guangfan.com/open-apis/device-agent/v1/websocket","authToken":"你的 API KEY"}}最後執行 openclaw gateway restart,沒報錯就說明接上了。不過,其實,這裡許多操作我都是直接無腦扔給 Claude Code,然後它自己就搞定了。雖然我最近 coding 任務上 Codex 用得越來越多,但這類安裝配置的雜事還是 Claude Code 更順手,體驗也明顯更好。但後面我計畫直接用耳機來控制龍蝦,然後就可以用它來控制 Claude Code 了。(或者反過來,用 Claude Code 來控制龍蝦?)從技術上看,完整的鏈路是這樣的:我的語音 → Hi Light APP(或耳機)→ 光帆雲伺服器 → 你電腦上的 OpenClaw 客戶端 → 本地執行 → 結果回傳 → APP 展示。中間走的是 WebSocket 長連接,響應及時。另外,這套外掛 + WebSocket 通道,其實已經很像平台化能力的雛形。後面大機率會做成一個開放平台,把「裝置入口 + 指令通道 + 任務回傳」這整條鏈路開放給開發者,讓更多人可以接入類似 OpenClaw 這樣的 Agent 能力。現在看到的接入方式,本質上已經是在提前搭平台的骨架。這裡其實沒有“絕對安全”。像 OpenClaw 這種能連本地環境、能執行動作的 Agent,本質上就是在 自由度、響應速度與安全邊界之間做取捨。光帆提供了兩種部署模式:Local Host:外掛跑在你自己的 Mac 上,資料儘量不出本地,安全邊界更可控,適合對資料敏感的極客。Cloud Host:更省心、隨時線上,但需要更清晰的權限與隔離機制來約束風險邊界。換句話說:它不是“更安全”,而是“把權衡擺在檯面上”,讓不同人按需求選。安全性方面,API Key 的機制會確保指令只會發到你繫結的裝置上。Local Host 模式資料完全不出域。Cloud Host 模式下使用者資料做了隔離處理。外掛程式碼在 GitHub 上開源,可以自己去看。如果你沒什麼隱私而言,那你隨時,我則敏感且確實有許多我自己定製的東西,我建議還是用 Local Host 模式,資料不出域,個性化整合且踏實放心。從行業角度看,AI 正在從「被動響應」走向「主動理解」,從螢幕走向穿戴,入口正在從鍵盤遷移到麥克風。光帆在做的事情是把 Agent 能力延伸到了更 native 的硬體互動層面,方向是對的。目前 Hi Light APP 已經上架,iOS 通過 TestFlight 安裝,Android 可在各大應用程式商店搜尋「Hi Light」下載。不需要耳機也能用,APP 本身就支援語音操控電腦的完整功能。耳機預計2026年 Q1-Q2 開售。現在處於公測階段,感興趣的可以先裝 APP 體驗一下。如果你本身就在用 OpenClaw,而且也對語音入口有興趣,可以嘗試下這個產品。語音不是為了更酷,而是為了更自然。當 AI 真正成為執行體,互動方式終究會回到人類最原始、也最直接的溝通方式——說話。因為那本來就是我們與世界協作的方式。 (AGI Hunt)
AI語音輸入法,人類進入「不打字」時代
破天荒,這是一篇用“語音”打出來的文章。一周前,我下載了一款叫Typeless的語音輸入法,當時我沒有意識到它會改變什麼。首先交代一下大背景:從2025年下半年起,AI語音輸入法成為驟然颳起的新風口。以語音輸入為核心賣點的豆包輸入法,登陸各大應用程式商店。大模型六小虎之一的智譜,推出智譜AI輸入法。其他的一些大廠輸入法,也都或多或少在加碼AI語音輸入。1月27日,搜狗輸入法宣佈重磅升級其語音輸入能力,稱其識別率達到98%,日均語音使用次數近20億次,穩居行業第一。風景不止這邊獨好,太平洋對岸的Wispr Flow目前融資額達8100萬美元,估值7個億。由華人開發的後起之秀Typeless在Product Hunt上線後連日高居排行榜前列,先後推出覆蓋主流平台的版本。此外,多個初創企業乃至個人開發者也推出了類似產品,閃電說、LazyTyper、Spokenly、秒言等等,不一而足。我原本以為,這又是一次和往常一樣的嘗鮮。畢竟近幾年來出現的AI新品如過江之鯽,其中大多數很難在我的螢幕上停留超過半天。所以,一開始我並沒有抱很大期待。結果卻是,這是自ChatGPT以來,最讓我眼前一亮的AI產品。我用了不到一周的時間,就改變了已經形成20多年的習慣:主要的輸入方式從打字變成了語音。甚至連這篇文章的初稿,也是用語音輸入完成的。我專門申請了另一個Typeless帳號,記錄完成這篇文稿的資料:用時53分鐘,輸入5500字,每分鐘155字,節省2.5小時。更快更準更多AI語音輸入的降維打擊對我來說,放棄打字轉向語音堪比“違背祖宗的決定”。因為我自詡是個打字愛好者。為了更好的打字型驗,專門學習擊鍵次數更少的自然碼雙拼輸入方案,配置了高度可定製化的輸入法Rime,買過好幾把不同軸體的機械鍵盤。你或許看不懂這句話裡的部分詞彙,沒關係,你只需要知道,這是鍵盤和輸入法愛好者群體中常見的專有名詞。即使如此,我的打字速度,最高也就每分鐘八九十個字,普通人裡已經算快了,大多數人的打字速度,也就每分鐘四五十字。我曾經潛伏在某個輸入法愛好者群組,裡面匯聚了眾多大神級人物,他們每天討論的話題,是如何自制各種類型的輸入方案,提高打字效率。其中有位在某二線城市當大學老師的成員,跟我有著類似的經歷,他從2025年末開始,正式“皈依”語音輸入。“我之前電腦用五筆,手機用小鶴雙拼,巔峰時五筆打字每分鐘130多字。”他如是說,“但跟現在的AI語音輸入比起來,打字還是差太遠了,我語音每分鐘甚至可以達到250字。”這個速度,即使是頂尖的打字專業選手,也望塵莫及。2013年全國漢字輸入大賽的冠軍,平均每分鐘也才打175個字。即使是口條並不利索的我,語音輸入也能穩定在每分鐘150字左右,稍微努力下,就能超越打字冠軍。速度是快,精準率呢?答案是,很準。即使是在前ChatGPT時代,也是如此。2018年史丹佛大學、華盛頓大學和百度的一項聯合論文顯示,語音輸入不論是速度還是精準率,都顯著優於鍵盤。速度上,英語母語者語音輸入每分鐘153字,鍵盤輸入僅52字;中文拼音使用者每分鐘鍵盤輸入43字,而語音達123字。不論中英文,語音輸入都比打字快了約3倍。在輸入過程的錯誤率上,語音的表現也更優。中文語音輸入的糾錯率為6.67%,而鍵盤輸入高達17.73%。在經歷了幾年大模型狂飆突進之後,AI語音的識別速度和精準率則更上一層樓。Typeless、智譜AI輸入法、閃電說都稱自己的速度比打字快4倍,一款叫LazyTyper的語音輸入法,更是聲稱比打字快7倍。精準率上,搜狗說自己精準率98%,智譜也在官網標註了97.8%。從網上的評測和個人體驗來看,這些廣告語並不算誇張。與大廠輸入法在鍵盤上做加法不同,初創企業和個人開發者的語音輸入產品邁的步子更大,或許必須更激進的姿態才能在紅海裡分一杯羹,他們直接取消了打字鍵盤,只保留了少數常用按鈕,語音鍵被提拔到了C位。傳統的語音輸入只是轉錄聽寫,但大模型加持下,語音輸入是一種更高維的產品,是“語音意圖輸入法”。它不只可以將語音一字不漏地轉錄,也能識別輸入者的意圖,刪除多餘的語氣詞,修改語法錯誤,捋順不連貫的地方,同時根據輸入環境調整語氣、翻譯潤色等等,都不在話下。那怕輸出錯了,也支援用語音修改。比如用Typeless輸出一句話:“我想去延津縣”,但其實你想輸入的是“鹽”津縣,你也只需要對著這句話說“把yán改成油鹽醬醋的鹽”即可。當然,你肯定會反駁,語音輸入就算又快又準,但不是什麼場景都適用。嘈雜的人群中能聽清嗎?在辦公室對著手機說話不尷尬嗎?曾經我也有類似的想法,但使用之後我打消了顧慮,即使是輕輕低語,也能基本精準無誤的輸入。我在辦公室偷偷用了5天語音輸入後,問我的左右鄰桌同事能不能聽到我輸入語音的聲音,他們的反應是:“你啥時候出聲了?”搜狗在宣傳稿裡稱,自家輸入法20分貝以下的語音依然有97%的正確率。20分貝,就相當於樹葉的沙沙聲,或者五米開外的低語。目前最大的不良體驗,反而來自意想不到的地方。比如戴上耳機後,語音輸入的正確率反而不如不戴耳機。比如單獨字詞的輸入,遠不如句子段落。越長的語音,精準率越高,顯然得益於大語音模型的理解和推理能力,越長的語音,其意義就越明確,可供參考的情境也就更多。而漢語中充滿了同音字詞,你只說一個沒有上下文的“yì”,誰知道你說的是藝、抑、易、邑、屹、億、役、臆、逸、肄、疫、亦、裔、意、毅、憶、義、益、溢、詣、議、誼、譯、異、翼、翌、繹、刈、劓、仡、佚、佾、埸、懿、薏、弈、奕、挹、弋、囈、嗌、嶧、懌、悒、驛、縊、殪、軼、熠、鎰、鐿、瘞、癔、翊、蜴、羿還是翳呢?不用數了,這裡有57個yì,漢語中同音字最多的讀音。但我相信,這些瑕疵日後都能得到一步步解決。就像不久前,AI圖片還無法攻克中文亂碼的問題,現在你已經可以用Nano Banana穩定地輸出帶中文的圖片了。而瑕疵掩蓋不住AI語音輸入更大的野心。我正在用的Typeless,光從名字上就可以看出,它遠遠不止想做一個輸入法,而是讓全世界進入無需打字(Typeless)的時代。這樣的野心並不出格。輸入法一直是網際網路最被忽視、卻又是最基礎的入口。大模型的摧枯拉朽,或許會給這片早已被瓜分完畢的戰場,帶來新的血腥。突破輸入框再造超級入口在中國,網際網路從PC時代的開放,走向了移動時代的封閉。App之間築起一道道高牆,形成一個個孤島。時至今日,你甚至連在微信裡點選觀看抖音的視訊都沒法做到,更不要說打通他們之間的生態。在一個個App孤島裡,只有為數不多的應用,能夠雨露均霑地穿梭在它們之間,輸入法就是其一。所有你需要表達訴求的地方,都需要它。以前,這個入口的重要性並沒有顯現出來,傳統輸入法能做的東西並不多,無非是收集使用者的巨量資料,插入一些廣告。但這個入口,抹上了AI的濃妝後,別有一番風韻。大模型讓輸入法這一古老的產品,重新變得性感,隱約得以瞥見看到“超級入口”的綽約風姿:如果這個入口的產品,不僅僅只是打字,而是能實現跨App甚至更高級的呼叫呢?其實目前的大模型,已具備了這樣的能力。前一陣子豆包手機就因為能夠實現系統級的呼叫而成為關注焦點,但遭到了眾多App的抵制。可以這麼想,未來AI語音輸入不再只是傳統打字輸入法的補充,而是一次突破輸入框的升維。不妨大膽一點,如果這個入口乾脆就是系統級的AI助手呢?在更廣闊的未來,語音輸入不只是移動裝置,而是貫穿虛擬和現實世界的交流介面?或許,未來的輸入壓根不需要專門的輸入法,也不需要這佔據了小半個螢幕的一畝三分地,它只是系統級AI助手順帶手就能完成的小事一樁。具像一點,AI語音輸入的未來應該是理想中的Siri。蘋果也可能意識到了這一點。據報導,蘋果將在2026年6月推出全新版AI助手,具備對話式互動能力,並有望整合到郵件、音樂、程式設計軟體等核心應用中。使用者只需要對著iPhone輕聲低語,就可以呼叫各種應用。為什麼偏偏是語音輸入呢?因為語音輸入才是人類交流的初始設定。語音輸入重歸C位,只不過是技術對人類行為的一次撥亂反正,人類的交流範式重新回到最自然、最合理的狀態。打字輸入才是人類走的彎路很多人把打字當作網際網路交流的初始設定,在我潛伏的輸入法愛好者群組裡,就有一位帶點原教旨主義色彩的打字擁躉。他至今仍抗拒使用語音輸入,他認為,對著手機電腦自言自語,簡直愚蠢到家。至於原因,他回覆了略有循環論證嫌疑的十一個字:“語音是異端,打字才是正統。”然而回望人類歷史,打字交流才是人類走過的彎路,語音從古至今都是人類交流的主要方式。即使是今天,世界上現存的約7000種語言裡,絕大部分都沒有文字,只依靠口口相傳。科學界普遍認為口語誕生自10到20萬年前。而目前已知最早的成型文字是5500年前蘇美爾人的楔形文字。我們打字用的QWERTY鍵盤,直到19世紀中後葉才出現,距今不過150年。如果把人類語言交流史劃分為24小時,那麼人類在最後一分鐘才開始用鍵盤輸入文字。套用《思考,快與慢》的作者丹尼爾·卡尼曼的觀點,說話屬於“系統1”,是刻在基因裡的本能,不需要太多思考,依賴直覺和習慣就行。而打字則屬於“系統2”,是你通過無數次敲擊建立起來的後天習慣,是需要費腦費力才能完成的動作。與英文輸入的簡單直接相比,中文輸入更難更複雜。從打字機時代開始,在很長一段時間裡,用鍵盤輸入漢字是難倒無數英雄漢的技術難題,有人甚至想通過消滅漢字採用拉丁字母的方式“曲線救國”。1980年,一本叫《語文現代化》的雜誌這樣寫道:“歷史將證明,電子電腦是方塊漢字的掘墓人,也是漢語拼音文字的助產士。”被很多人視為網際網路交流正統方式的中文打字,其實不過短短半世紀的歷史。1983 年,王永民發明五筆字型,通過“橫、豎、撇、捺、折”五種筆畫給簡體中文編碼,由於其重位元率非常低,熟練者可以實現盲打,很快就成為風靡全國的打字方式。“王旁青頭戔五一”。很多年輕人不知道,自己父母那一輩,打字是需要背口訣的,甚至需要報班花很長時間培訓才能掌握的技能。再後來,拼音輸入法的出現和網際網路的普及,才讓打字的門檻降下來。但直到今天,中文輸入法依然難以解決一個矛盾:輸入效率高的五筆,門檻也高;門檻低的拼音,輸入效率也低。你在 2026 年的知乎隨手搜一下“輸入法”這個關鍵詞,就會發現多個吐槽輸入法越來越難用的話題。五筆、拼音、注音、倉頡,不同的輸入方案捲來捲去,但它們之間並無本質差別,並不能真正解決漢字輸入法的痛點。或許我們應該認識到,打字,只不過是人類在語音和圖像互動技術尚未成熟之前的權宜之計。如今,大模型技術日漸成熟,語音識別技術有了質的飛躍,規模化的替代效率低下的打字輸入法,幾乎是必然。倫敦政治經濟學院的一項研究發現,預計到 2028 年,生成式 AI 將主要以語音方式互動。當然,短期內語音輸入並不會完全取代傳統輸入法。語音輸入還有很大的進步空間,飯要一口一口吃,路也要一步一步走。就我個人而言,重度使用語音輸入後有兩個意外之喜。一是改變了我的寫作方式。以前寫文章,我需要在電腦前一坐就是幾個小時,即使是用著符合人體工學的鍵盤、滑鼠和椅子,也難以抵擋久坐帶來的生理不適。你現在看到的這篇文章,大部分文字是我在沙發上躺著、在馬桶上坐著、在地鐵上站著寫出來的,我告別了預留大塊時間的寫作模式,轉而變成“隨地大小寫”。與其說我面對的是一個語音輸入法,不如說是在對著一個具有整理、思考能力和主觀能動性的秘書,既忠實我的原意,也不至於照搬全收。也許我們可以效仿眼下在程式設計師中流行的Vibe Coding(氛圍程式設計),為碼字的人也創造一個全新的名詞——Vibe Writing(氛圍寫作)。二是語音讓我與 AI 的交流更高效。打字時受制於速度,我傾向使用更簡短的提示詞,往往需要多輪互動才能得到想要的結果。而語音輸入時,我會一口氣說出一段很長的提示詞,甚至達到四五百字,常常一次性就能得到滿意的答案。就像現在的 10 後不知道為什麼手機螢幕上電話的標識是聽筒,未來的一代或許也不知道,為什麼曾經人們輸入文字還要專門裝一個輸入法。 (36氪)
豆包大模型1.8正式發佈,擁有更強多模態Agent能力,豆包日均使用量超過50兆,推出成本節省計畫降幅達47%
豆包大模型1.8具備更強的多模態Agent能力,256K超長上下文使其能夠處理更複雜的資訊,擅長處理複雜多步任務。火山引擎正式發佈的"AI節省計畫",普惠覆蓋豆包大模型、豆包視訊及圖像創作模型與第三方開源大模型,全面最佳化使用者呼叫成本,最高節省幅度達47%。火山引擎在2025原動力大會上發佈豆包大模型1.8,具備更強的多模態Agent能力,256K超長上下文和原生API上下文管理,擅長處理複雜多步任務。火山引擎總裁譚待在12月18日的大會上透露,平台"兆Tokens俱樂部"成員已突破100家。並披露豆包大模型日均使用量超50兆Tokens,自發佈以來增長417倍,同時推出最高節省47%的AI成本最佳化計畫。除主力模型外,火山引擎同步發佈圖像創作模型Doubao-Seedream-4.5和視訊生成模型Seedance系列,進一步完善多模態能力版圖。新推出的Seedance-1.0-Pro支援2至12秒1080P自由生成,可實現多人語言對白和多鏡頭敘事。火山引擎正式推出"AI節省計畫",一次加入即可覆蓋豆包大模型、視訊圖像創作模型及第三方開源大模型,支援全預付、零預付等靈活付款方式。開源證券研報指出,此次發佈有望推動AI在企業生產場景中的落地應用。火山引擎總裁譚待在回應對明年模型行業的競爭時表示,“明年模型之間最重要的還不是競爭,最重要的是要把市場做大。明年這個市場可能還要再漲10倍,大家其實就不是存量的競爭,不是零和博弈,而是說大家一起把市場做大。同時,明年模型還需要進一步降價,這個市場才能做大。”01 核心模型能力全面升級豆包大模型1.8在多模態理解上實現顯著提升。模型的長視訊理解和安防監控場景能力得到增強,256K超長上下文使其能夠處理更複雜的資訊。通過更靈活的上下文管理,新模型可輔助公司處理複雜任務並支援決策。在圖像生成領域,火山引擎發佈的Doubao-Seedream-4.5具備多圖組合、創意寫真、圖片拆解、複雜組圖、虛擬試穿與海報設計等能力。視訊生成能力同步增強,Seedance系列包含兩個版本:Seedance-1.0-Lite以成本優先兼顧速度,適配高頻創作;Seedance-1.0-Pro提供影視級畫質與原生音效,滿足電影級感官敘事需求。豆包大模型已落地智能硬體與語音助手,應用場景覆蓋日常溝通、專業服務與報告解讀、聯網搜尋等。配合使用者認證的邊想邊搜互動體驗,使豆包成為隨身智能夥伴。02 推理與開發服務生態完善火山引擎推出"火山方舟"推理代工服務,已接入Qwen、GLM、Seed-OSS等主流開源大模型,支援企業將精調後的模型一鍵Serverless部署。平台提供海量資源、專屬推理加速與極致彈性調度,承諾"你訓練,我推理"。Viking系列產品在大會上亮相,VikingAI搜尋與VikingDB向量資料庫雙輪驅動,為終端使用者提供優質輸入,為模型與Agent快速建構知識庫和記憶庫。配套的多模態搜尋支援文字、圖像跨模態檢索,個性化推薦實現"千人千面",Agentic問答基於豆包大模型精準識別意圖。在Agent開發方面,火山引擎發佈企業級AI Agent平台AgentKit與TRAE(CN)企業版,已獲NIO、PwC、匯付天下、銳捷、軟通動力、高頓等頭部客戶採用。平台依託企業級GPU叢集,支援10萬檔案、5億行程式碼超長上下文,可靈活配置企業規則、知識庫與Agent,即時追蹤AI生成率與程式碼量,程式碼全鏈路加密傳輸、雲端零儲存。03 成本最佳化計畫釋放普惠紅利火山引擎正式發佈的"AI節省計畫"採用一次性加入機制,普惠覆蓋豆包大模型、豆包視訊及圖像創作模型與第三方開源大模型,全面最佳化使用者呼叫成本。最高節省幅度達47%,支援全預付、零預付等多種付款方式,實現"多用多省"。火山引擎此次還發佈了MaSS on AICC服務。開源證券研報稱,火山引擎此次發佈有望實現性能提升與成本降低,特別是視訊生成模型的進一步升級。研報建議關注字節產業鏈及AI應用投資機會,認為Agent開發工具的升級與Agent生態的擴容將推動AI在企業生產場景中的落地應用。 (硬AI)
H200晶片銷往東村引猜想,大摩研報唱多台積電:存在一定可能拿下中國大陸AI GPU代工訂單
輝達H200晶片有望對中國出口,這條消息傳開後,引發了市場的無盡遐想。其中廣為流傳的一點猜測是,假如東村和西村關係因此緩和,東村的AI GPU代工業務,會否花落台積電。針對這個問題,摩根士丹利近日發佈研究報告稱,如果中國AI GPU代工業務真的落地,將成為台積電業績的重要增量。大摩在報告中明確重申其“首選股”地位,維持增持投資評級,目標價1688新台幣。Part.01 市場最關心的2個問題大摩認為,當前投資者最糾結兩個核心問題,其實也決定了台積電切入中國AI市場的節奏:西村考慮允許H200對東村出口,是要改善貿易關係嗎?東村AI晶片公司“降級設計”,能拿到台積電代工嗎?大摩的判斷是有機會!此前就有消息稱,中國晶片企業正通過聚焦“推理場景”(比如AI語音助手、圖像識別等輕量級應用)降低晶片性能,以符合代工要求。供應鏈調研顯示,壁仞科技等本土企業已在採用台積電工藝設計相關晶片,還能用LPDDR替代高端HBM記憶體,精準適配推理需求。Part.02 台積電的底氣很多人擔心台積電過度“依賴中國需求”,但公司自己的表態很有信心:在2025年第三季度財報電話會議上,管理層明確說,即便來自中國大陸的機遇有限,未來5年AI相關業務的復合年增長率也能達到40%左右或更高。這意味著,中國大陸市場對台積電是“錦上添花”而非“雪中送炭”:現有AI業務的高增長已能支撐估值,一旦政策放開,中國大陸AI半導體的龐大需求,只會進一步推高其業績天花板。Part.03 輝達B40遇冷,本土晶片補位大摩在報告指出,輝達B40產量低於預期,核心原因是“性價比對中國客戶沒吸引力”,這給本土晶片和台積電的合作留足了空間;目前中國AI推理計算主要靠三類晶片:5090遊戲顯示卡、改良版Hopper晶片,以及本土設計晶片;隨著中國LME衛星、AI大模型等需求爆發,推理晶片的需求還會持續增長,台積電的工藝優勢的會更突出。Part.04 對中國本土代工廠的影響如果台積電真的切入中國AI GPU代工,會不會分流本土代工廠的需求?大摩認為,中芯國際仍被看好:即便需求分流,其技術和產能優勢仍能穩住核心份額。但華虹半導體壓力較大:關聯公司HLMC的7nm業務可能首當其衝受到衝擊,因為其在高端製程的競爭力相對較弱。 (智通財經APP)
《以互動設計啟發孩童復健動機 東海工設系友作品奪下美國 IDEA全球唯二設計金獎》東海大學工設系友林姿廷、徐苡宸,以創新設計改善復健程序,打造專為兒童語音治療設計的教育工具「HOO!」,於美國IDEA(International Design Excellence Awards)設計獎中脫穎,摘下學生設計類金獎(Gold Award),更是今年全球唯二獲金獎之作品,為台灣設計再添榮耀。由美國工業設計師協會(IDSA)主辦的IDEA獎,是全球最具影響力的設計競賽之一,與極負盛名的德國紅點設計獎、iF設計獎及日本Good Design(G-Mark)獎並列世界四大工業設計獎。東海大學工業設計學系校友林姿廷、徐苡宸作品「HOO!」於2025年美國國際設計卓越獎中獲「學生設計類金獎」殊榮,將復建轉化為遊戲回饋,讓孩童在遊戲中完成語音治療。林姿廷指出,作品以紙盒結構結合電子感測器,可即時偵測吹氣強度並轉化為遊戲反饋,讓孩子在互動中學習,透過「玩」來完成訓練,此設計不僅讓治療更有效率,也讓孩子更願意投入其中並增加復健持續性。徐苡宸也表示,在設計過程中透過訪談與實地觀察,深入了解語言治療師與孩子在課程中的挑戰,透過互動性的設計思維,使HOO!不再只是冷冰冰的工具,而是能和孩子對話、激發興趣的學習夥伴。除此之外,HOO! 已是一款能實際運作的產品,展現未來在教育與臨床上的應用潛力。「HOO!的價值在於以互動和創新回應真實需求,展現設計改善教育與健康的可能性。」指導老師張俊元指出,HOO!不僅展現外觀與創意的突破,更在創新性、使用者體驗與社會價值上獲得國際評審的高度肯定。系主任呂佳珍亦指出,學生能在學期間展現設計長才並躍上國際舞台,令人欣慰與光榮,她強調,東海工設將持續引導學生拓展視野,用創意為世界帶來正向的影響。HOO! 獲獎網站 :https://www.idsa.org/awards-recognition/idea/idea-gallery/hoo/
剛剛!阿里發新模型,幻覺率爆降70%
定價僅為0.00022元/秒。智東西9月15日報導,今天,阿里巴巴通義實驗室推出了FunAudio-ASR端到端語音識別大模型。這款模型通過創新的Context模組,針對性最佳化了“幻覺”、“串語種”等關鍵問題,在高噪聲的場景下,幻覺率從78.5%下降至10.7%,下降幅度接近70%。FunAudio-ASR使用了數千萬小時的音訊資料,融合了大語言模型的語義理解能力,從而提升語音識別的上下文一致性與跨語言切換能力。通義實驗室打造了5大類測試集,重點關注語音識別在遠場、嘈雜背景等挑戰性場景下的表現,並結合開源測試集評估了模型的性能。FunAudio-ASR實現了超越Seed-ASR、KimiAudio-8B等業內知名模型的表現。同時,FunAudio-ASR在實際落地方面也進行了全面最佳化,支援低延遲流式識別、跨中英文自然切換以及使用者可自訂的熱詞識別,能夠覆蓋視訊會議、即時字幕、智能終端等多樣化應用場景。FunAudio-ASR提供兩個版本,滿血版由0.7B參數量的編碼器和7B參數量的大語言模型組成,追求最高精度;輕量的nano版本由0.2B參數量的編碼器和0.6B參數量的大語言模型,平衡效率與精度。目前,FunAudio-ASR已在釘釘的“AI聽記”、視訊會議、DingTalk A1硬體等多個場景中應用。FunAudio-ASR已上線阿里雲百煉平台,API定價為0.00022元/秒,轉錄一段一小時的音訊大約需要8毛錢。這款模型的技術報告已經發佈,開發者也可在魔搭社區體驗其效果。魔搭社區體驗:https://modelscope.cn/studios/iic/FunAudio-ASR阿里雲百煉平台:https://help.aliyun.com/zh/model-studio/recording-file-recognition?spm=a2c4g.11186623.help-menu-2400256.d_0_3_1.f43e7432ytYkAa&scm=20140722.H_2880903._.OR_help-T_cn~zh-V_1技術報告:https://github.com/FunAudioLLM/FunAudioLLM.github.io/blob/master/pdf/FunAudio-ASR.pdf01.幻覺、串語種問題獲針對性最佳化一手體驗高噪聲環境識別效果相比於文字大模型,語音大模型的“幻覺”問題尤為突出。這是因為聲學特徵與文字特徵在向量空間上天然存在差異,導致模型在“聽”完音訊後,容易“腦補”出大量不存在的內容。儘管通過訓練,可以將將聲學特徵對齊到文字特徵空間,但聲學特徵Embedding與真實的文字Embedding仍然存在這一定的差距,這會導致大語言模型在生成文字時發生幻覺的現象。▲聲學特徵Embedding與真實的文字Embedding分佈差異(圖片來源:https://arxiv.org/pdf/2410.18908)通義實驗室發現,給語音大模提供必要的上下文,可以減少文字生產時候的幻覺現象。為此,他們設計了Context增強模組:該模組通過CTC解碼器快速生成第一遍解碼文字,並將該結果作為上下文資訊輸入大語言模型,輔助其理解音訊內容。由於CTC結構輕量且為非自回歸模型,幾乎不增加額外推理耗時。例如,對於這段由AI生成、模仿海盜說話風格的音訊,FunAudio-ASR做到了一字不差的識別。此外,通義實驗室還觀察到幻覺問題在高噪聲場景中更易發生,因此在訓練資料中加入了大量模擬資料。為評估模型在高噪聲情況下的表現,他們建構了一個包含28條易觸發幻覺音訊的測試集,經最佳化後,幻覺率從78.5%下降至10.7%。智東西在實測中體驗了FunAudio-ASR在嘈雜場景的識別能力。這段音訊是在嘈雜的展會現場錄製的。可以聽到,模型基本精準識別了片段中男性說話者的聲音,但在聲音音量驟降後識別錯誤了。同時,這段音訊中有兩位說話者,FunAudio-ASR在識別兩人同時說話的部分時,遺漏了一些資訊。與OpenAI Whisper Large V3的識別結果對比,FunAudio-ASR識別出了更多正確的資訊。“串語種”是語音大模型落地中的另一類典型問題,例如,輸入音訊內容為英文,模型輸出卻為中文文字。這是因為文字大模型本身具備翻譯能力,在聲學特徵對應不夠精確時,模型可能在推理過程中“自動啟動”翻譯功能,從而影響語音識別的精準性。在FunAudio-ASR的Context增強模組中,CTC解碼器經過高品質資料訓練,本身發生串語種的機率極低。通過將CTC的第一遍解碼結果作為提示詞輸入給大語言模型,可有效引導模型聚焦於語音識別任務,緩解“翻譯”行為的發生。02.支援術語定製化識別召回率提升明顯在企業運用語音識別模型時,個性化定製是必不可少的技術。所謂定製化,是指在識別過程中對特定詞/短語(如人名、地名、品牌、專業術語等)施加額外機率偏好,從而顯著提高它們的識別召回率,同時儘量不損傷通用識別精準率。當前行業的主流做法是將使用者提供的領域詞,直接作為提示詞輸入大語言模型。該方法雖簡單有效,但隨著詞量增加,干擾也隨之上升,導致召回率下降——即“定製化能力衰減”。為緩解這一問題,通義實驗室在Context增強結構中引入RAG(檢索增強生成)機制,這一機制的運作方式如下:(1)建構知識庫:將使用者配置的定製詞建構成專屬RAG庫;(2)動態檢索:依據CTC第一遍解碼結果,從RAG庫中抽取相關詞彙;(3)精準注入:僅將相關詞彙注入大語言模型的提示詞中,避免無關資訊干擾。該方案在不增加推理複雜度的前提下,將定製化上文數量擴充到上千個以上,並且保持較高的定製化識別效果。為驗證模型的定製化效果,通義實驗室在微積分學、有機化學、物理學、哲學、人名等5個領域,選取了1000個專業詞彙進行測試。FunAudio-ASR在關鍵詞精準率上表現超越了支援同類功能的語音識別模型。例如,採用FunAudio-ASR模型的釘釘“AI聽記”,擁有對網際網路、科技、家裝、畜牧、汽車等10+領域、200+細分行業術語的識別能力,並支援在企業授權前提下,結合通訊錄、日程等上下文資訊進行推理最佳化,進一步提升結果可靠性。03.預訓練使用數千萬小時資料僅用8張A100完成強化學習技術報告中,通義實驗室闡述了FunAudio-ASR的技術細節。這一模型包含四個核心元件:(1)音訊編碼器(Audio Encoder):提取語音特徵,使用多層Transformer Encoder。(2)音訊介面卡(Audio Adaptor):連接編碼器和LLM,使用兩層Transformer Encoder。(3)CTC解碼器:用於初步識別假設,支援熱詞定製。(4)基於大語言模型的解碼器:結合音訊特徵和CTC預測生成最終輸出。▲FunAudio-ASR模型架構預訓練階段,FunAudio-ASR使用了數千萬小時的音訊資料,包括無標註音訊和有標註的音訊-文字資料,資料涵蓋AI、生物、電商、教育等多個領域。預訓練分為自監督預訓練和有監督預訓練。在自監督階段,FunAudio-ASR創新地使用Qwen3的權重初始化編碼器,加速收斂並提升表示質量。有監督預訓練則在編碼器-解碼器架構(AED)下進行,使編碼器能夠從大規模標註資料中學習更豐富的聲學-語言特徵,為後續與大語言模型的整合奠定基礎。▲FunAudio-ASR預訓練管線在此基礎上,FunAudio-ASR進入有監督微調(SFT)階段,該階段進一步分為五個子階段,逐步最佳化不同模組:(1)訓練介面卡以對齊音訊表示與大語言模型的語義空間;(2)最佳化編碼器和介面卡;(3)使用LoRA微調大語言模型以防止災難性遺忘;(4)全參數微調階段;(5)引入CTC解碼器用於後續的熱詞檢索與增強生成(RAG)。整個SFT過程使用了數百萬小時的多源資料,包括人工標註語料、偽標註資料、合成語音和噪聲增強資料等,確保了模型在多樣化場景下的泛化能力。為了進一步提升模型對長音訊和上下文資訊的理解能力,團隊還建構了超過5萬小時的上下文增強訓練資料。通過提取關鍵詞、合成相關上下文並混合無關語境,模型學會了在保持高識別精度的同時,有效利用對話歷史資訊,顯著提升了在複雜語境下的表現。在強化學習(RL)階段,團隊提出了專為音訊-語言模型設計的FunRL框架,支援多模組高效協同訓練。▲FunRL框架該框架採用GRPO演算法,並設計了多目標獎勵函數,綜合最佳化識別精準率、關鍵詞召回、幻覺抑制和語言一致性。模型僅使用8張A100顯示卡,在一天內完成RL訓練。RL訓練資料涵蓋硬樣本、長音訊、幻覺樣本、關鍵詞樣本和常規ASR資料,顯著提升了模型在困難場景下的魯棒性和使用者體驗。最後,FunAudio-ASR還針對實際應用需求進行了全面最佳化,包括流式識別支援、噪聲魯棒性增強、中英程式碼切換處理、熱詞定製和幻覺抑制等。04.結語:生成式AI賦能新一代ASR系統或成智能互動重要入口基於生成式AI的新一代語音識別模型,正在從“能聽清”走向“能理解”,並在幻覺抑制、跨語種識別、上下文一致性等關鍵問題上展現出進展。與傳統以聲學建模與統計學習為主的語音識別系統相比,這類模型不僅具備更強的語義理解與任務適配能力,還能在複雜噪聲、多說話人、跨領域等場景中保持更高的魯棒性和可控性。可以預見,未來語音識別有望告別單純的“輸入工具”,成為終端智能互動的重要入口。 (智東西)
OpenAI又放大招!語音AI秒殺Siri?
昨晚你被GPT-Realtime刷屏了嗎?這次OpenAI真的玩大了! 😱想像一下:你剛問完問題,AI就秒回,比人類反應還快!不是文字,是真人般的語音對話,流暢得讓你懷疑對面坐著個活人。這就是GPT-Realtime的魅力——告別傳統語音助手的機械感,擁抱真正的智能對話!💡 三大殺手鐧讓人驚豔:秒級響應,告別等待焦慮! 以前語音AI要轉錄→理解→生成→播放,現在直接音訊處理,延遲幾乎為零。試想客服場景,顧客剛說完問題,AI立馬給出專業回覆,這效率誰不愛?智商爆表,精準率82.8%! 能聽懂笑聲、捕捉情緒變化,甚至在句子中間無縫切換語言。西班牙語問個電話號碼?日語聊個天?毫無壓力!比上一代提升17%,這進步簡直可怕。成本直降20%,普通人也能用! 之前每百萬音訊輸入要40美元,現在32美元,輸出也從80美元降到64美元。創業者終於不用為語音AI的帳單發愁了!更絕的是,Zillow、T-Mobile這些大廠已經搶先體驗,房產搜尋、客戶服務都能像朋友聊天一樣自然。想像一下,找房子時AI能根據你的生活方式推薦,還能用溫柔的聲音討論貸款方案,這體驗絕了! 🏠Cedar和Marin兩個新聲音 更是顛覆傳統,自然度和表現力讓人分不清真假。配合MCP協議支援,開發者接入資料變得超簡單,就像給AI插上了USB介面。當AI語音助手變得如此智能和親切,我們的工作、生活會發生怎樣的變化?客服、教育、個人助理...那個行業會首先被顛覆?你試過最智能的語音AI是什麼?GPT-Realtime會成為你的新寵嗎? (澤問科技)
DeepSeek突然爆發,馬斯克終於抗不住了
識時務者為俊傑。1. DeepSeek迎來小爆發,特斯拉即將接入曾幾何時,在各大車企宣佈接入DeepSeek時,網路上總會有人討論為什麼特斯拉這麼“有骨氣”,就是不選擇接入。而就在今天,馬斯克終究還是沒忍住,據可靠消息,特斯拉的車載語音助手即將接入豆包和DeepSeek兩款國產大模型。圖源:微博據瞭解,特斯拉並不是直接接入DeepSeek的API,而是通過與字節旗下的火山引擎合作,間接接入DeepSeek技術,從而滿足語音識別與生成的即時需求。業內人士分析,這可能是出於穩定性與性能的考量。多項測評顯示,通過火山引擎API來使用DeepSeek大模型,在響應速度、可用性等方面甚至優於DeepSeek官方服務。而在特斯拉中國官網更新的《特斯拉車機語音助手使用條款》中可以看到,每輛特斯拉都配備了語音助手功能。車主可以通過物理按鍵,“嘿,Tesla”或自訂喚醒詞啟動車機語音助手,進而與車輛進行語音互動。例如車主可以與語音助手進行輕鬆聊天,獲取天氣、新聞等資訊。圖源:特斯拉中國官網就在消息曝光的前一天晚上,DeepSeek也終於迎來了自己的一次小爆發。8月21日晚,沉寂已久的DeepSeek正式上線了DeepSeek-V3.1版本,在全球引發了不小的轟動,官方在X上的官宣帖在短時間內收穫了大量的瀏覽量。圖源:XDeepSeek-V3.1採用了“混合推理”模式,支援“思考模式”與“非思考模式”混合運行。使用者可以根據不同的場景需求,靈活切換推理深度,既保證了效率,又提升了能力。根據實測,官網DeepSeek的輸出效率確實比之前快了不少,例如之前隨便一個問題如果用深度思考可能需要花上2-5分鐘解答,現在這個時間至少縮短了四分之一。而在性能方面,DeepSeek-V3.1相較於之前的版本也有了顯著的進步。根據官方放出的測試結果,它在多個測試中超越了舊模型DeepSeek R1-0528,並且V3.1-Think的輸出tokens相對於R1-0528反而大幅減少。簡單來說就是V3.1又猛又省計算資源。圖源:X在Huggingface上,DeepSeek釋放出了更詳細的評估結果:與前代的測評比較,DeepSeek-V3.1在常規推理(如MMLU-Redux)和知識問答任務(如 MMLU-Pro)上,表現有了不小的提升,並且在非思考和思考模式下的分數都高於舊V3模型,無限逼近行業頂尖大模型(GPT-5、Grok4)的水平。更關鍵的是,DeepSeek-V3.1的價格還是那麼公道。輸入定價方面,快取命中為0.07美元/百萬tokens,快取未命中為0.56美元/百萬tokens;輸出定價為1.68美元/百萬tokens。對此,前Google搜尋團隊成員Deedy在X上吶喊“鯨魚回來了”,並表示這個定價比起GPT-5簡直便宜了好幾倍。圖源:X2. Model Y L將率先搭載媒體進一步爆料,剛剛上市的特斯拉Model Y L將會在未來搭載接入豆包與DeepSeek後的語音助手,但官方暫未公佈具體的上線時間。據瞭解,Model Y L是一款大六座豪華純電SUV,具有超長續航和超大的空間。它的車身尺寸達到了4976/1920/1668mm,軸距為3040mm,是特斯拉首款針對中國家庭設計的車型。採用2+2+2的六座佈局,車頭車尾的燈組佈局、包圍造型與現款Model Y保持一致。圖源:微博在動力和續航方面,Model Y L搭載了前後雙電機四驅系統,前電機最大功率142千瓦,後電機198千瓦,百公里加速僅需4.5秒。配備了82千瓦時動力電池組,CLTC純電續航里程可達751公里,百公里電耗僅為12.8度。價格方面,官方指導價為33.9萬元。圖源:微博對於這台車的評價,網上各種車評人的口徑大致相同,車本身沒毛病,價格也還合適,但這個第三排的實用價值一般,不算頂級的那種。不少網友也反饋,“不如直接買Model Y,為了這個第三排加幾萬不值得。”此外,對於特斯拉接入DeepSeek的這一舉動,網友們的評價也是褒貶不一。一方面,有人認為這是Grok4無法在國內使用的原因,屬於馬斯克的無奈之舉。很多人都知道,資料安全、內容稽核等一系列複雜的監管原因,Grok-4大模型目前無法在中國市場落地使用。因此,在這種背景下,選擇與國內最頂尖、且已經過市場檢驗的DeepSeek和豆包合作,就成了馬斯克為數不多的不錯選擇。另一方面,也有人認為這其實是特斯拉的一種行銷手段。上半年,多家車企都藉著接入DeepSeek一事為自己的新車打廣告,特斯拉此時接入DeepSeek,或許也是為了吸引更多消費者的關注。而且,通過與國內最火熱的AI技術概念繫結,特斯拉還能向外界傳遞出一個積極的訊號:特斯拉正在加速本土化,願意與中國頂尖的科技公司合作。不過,鑑於馬斯克的商業頭腦以及特斯拉一直以來的技術自信,更多的人還是傾向於認為這是馬斯克在無奈之下做出的抉擇。3. 特斯拉涉嫌交通事故報告作假被調查事實上,特斯拉最近的日子並不好過。8月22日,美國國家公路交通安全管理局(NHTSA)宣佈對特斯拉發起調查,原因是特斯拉未按規定及時上報涉及其自動駕駛系統的交通事故。NHTSA指出,特斯拉的多份事故報告比事故發生晚了數月才提交。特斯拉解釋稱,這是資料收集系統出現問題所致,目前已修復。按規定,車企必須在知曉事故五天內上報。NHTSA將通過一次“審計查詢”來確認特斯拉是否合規,並評估延遲原因與範圍,檢查其是否遺漏任何事故或必要資料。這一事件無疑給特斯拉的自動駕駛技術蒙上了一層陰影。特斯拉在售的現有車型標配Autopilot,可選升級FSD(完全自動駕駛監督版),但兩者仍要求駕駛員隨時接管。而根據TeslaDeaths.com網站的統計,至少有59起死亡事故與Autopilot或FSD有關。更要命的是,近期,網路上有多位特斯拉車主爆料,特斯拉在高速上會出現“幽靈剎車”的情況。有博主深度調查後發現,這可能正是跟特斯拉所使用的視覺方案有很大的關係。據該博主介紹,對向車輛的燈光射到特斯拉的攝影機上時會因炫光問題導致特斯拉的智駕突然識別到一個“虛空障礙物”,從而觸發車輛AEB導致車子在行駛過程中時不時的剎一下車。對此,特斯拉官方暫時沒做任何回應。圖源:抖音一直以來,特斯拉的自動駕駛技術都是其最大的賣點之一,如今面臨著以上種種情況,難免會引發消費者的信任危機。此外,特斯拉目前還面臨著銷量和利潤下滑的局面。部分原因是消費者對馬斯克的政治言論、其助力川普連任總統的舉動,以及其領導政府效率部門(DOGE)削減聯邦開支和人員的做法產生了強烈反對。儘管如此,許多華爾街分析師和股東仍對馬斯克的願景持樂觀態度。高盛汽車行業分析師在報告中寫道:“我們認為,特斯拉啟動自動駕駛計程車業務是一個積極訊號,這使其走上了開拓巨大市場的道路。”對於馬斯克而言,當下的困境或許正是轉型的契機。正如DeepSeek通過開源生態重塑AI格局,特斯拉或許也需要放下“技術原教旨主義”的身段,在全端自研與開放合作之間找到新的平衡點。畢竟,在智能化這場馬拉松中,笑到最後的往往不是跑得最快的,而是最懂得適應變化的選手。 (科技頭條)