汽車AI座艙的這個新戰場,行業內已經嚴陣以待。
去年,字節跳動憑藉其深度定製的“豆包手機”引發了手機行業震動。現在,豆包手機助手的產品範式也開始擴散到汽車領域。
在北京車展開幕首日,字節旗下火山引擎發佈了基於Agentic AI架構的新一代汽車AI解決方案,包含AI座艙套件方案、豆包座艙助手方案兩大解決方案。
前者的AI座艙全端套件,是一套全端能力方案,車企可以靈活選用,而後者所指的豆包座艙助手方案,則正是字節在全力打造的座艙互動殺手級產品,其是更完整的產品級交付,並與豆包APP互聯互通、能力同步進化,將在今年年內量產上車。
從語音互動體驗上,豆包座艙助手將讓車內語音助手擺脫過往一問一答的指令式互動,轉變為對模糊自然語言的理解,並拆解成相應指令,執行車控操作。
據介紹,豆包座艙助手還會實現全雙工對話能力,即人車可以即時同頻交流,想說就說、隨時可打斷,而且免喚醒。
這還不是全部,在功能上,不只是讓語音助手不再簡單做調節溫度、播放音樂等車控,而是覆蓋開車、路線規劃、娛樂互動等整個出行服務。例如,直接對豆包座艙助手說,“停到離入口最近的車位”,系統將調動輔助駕駛系統,自動泊車到相應車位。
此外,豆包座艙助手還可以承擔“兜風導遊”的角色,自動識別沿途美景,主動推薦觀景路線,並自動減速、打開車窗,例如行車途中提示“右轉可經過櫻花大道,繞行多4分鐘”,乘客同意後,自動減速並開啟車窗。
多位行業人士向36氪透露,火山引擎內部已通過組建跨部門專項組的形式推進項目落地,“預計在今年下半年落地完整的豆包座艙助手能力”。
需要明確的是,字節此舉並非投身造車,而是與車企深度共創,落地代際跨越的座艙互動體驗,實現真正的全鏈路端到端的AI。
AI大模型能力進入汽車座艙的趨勢最早來自特斯拉。自馬斯克將xAI研發的Grok大模型搬上車端後,其在自然語言互動體驗上,首先實現了代際提升,同時對語言的意圖理解、個性化與記憶能力等都有明顯提升,還可以結合自然語言指令自動規劃路線、選擇POI(興趣點)等。
據36氪瞭解,今年CES期間,一位頭部車企董事長看到員工在現場體驗特斯拉Grok的視訊後深受觸動,立刻拍板今年要在車端部署大模型。內部團隊隨即被拉起,只用兩個月就做出第一個版本。
“Grok+FSD的組合”,或者說大模型進入座艙,正在重重刺激車企神經。畢竟智駕血拼多年後,體驗已經接近成熟甚至同質化,而座艙互動則一直相對沉寂,大模型登陸座艙,串聯起互動、車控和服務的想像空間再次被喚醒。
“車企幾乎都在佈局座艙智能體。”行業人士透露,而今年北京車展首日,吉利、理想等大量車企都亮相了相應的產品。
汽車座艙智能體的技術加速點出現在2024年底。隨著ChatGPT推動的S2S(Speech-to-Speech,端到端語音)推出,語音互動延遲被大幅壓縮,為座艙即時自然對話提供了基礎,也為汽車行業探索座艙互動的超級智能體,提供了天時、地利。
據36氪獨家獲悉,火山引擎是投入較大的企業之一,其已經深度合作一家頭部明星車企。而據36氪瞭解,該車企也為火山引擎投入了上億開發費,而字節則為此項目也從火山引擎與豆包分別抽調人手,組成了項目組。
豆包之外,阿里的通義千問也在快速切入座艙Agent市場,其與高通8797深度合作,推動端側模型上車。顯然,汽車AI座艙的這個新戰場,巨頭們和車企又已經嚴陣以待。
火山引擎組建專項組死磕全鏈路AI助手
大模型上車不是新鮮事,但一年之間,產品形態已經全然不同。
去年DeepSeek爆火時,曾有一股大模型上車的熱潮,但當時車企接入大模型大多通過雲端引擎。比如豆包大模型上車大多是通過火山引擎,後者開放API給車企接入,完成適配,包括比亞迪、奔馳、上汽在內多家車企都這樣做。
但效果並不理想。“我們接入後試了一下,它連基礎的喚醒詞都念不好。”一位車企研發人員向36氪汽車說道。這也導致模型接入之後只能提升問答能力,無法實現Agent能力。
問題不完全在技術,還有合作機制。火山引擎和車企啟用了全新的合作模式。
36氪獲悉,火山引擎與車企合作方成立專項組來推進豆包座艙助手項目,其中車企提供整車平台與落地能力,並投入上億元的資金支援,將新座艙互動的開發主導權交給了火山引擎。
此外,這個項目中,火山引擎還在車端部署了一個約30B規模的模型,承擔全域感知能力:視覺、語音、環境資訊持續輸入,實現“全時線上”。雲端則運行3到4個核心Agent,負責艙駕協同、駕乘體驗、舒適控制與情感互動等任務。
在此基礎上,系統可以完成全雙工語音對話——使用者與系統的交流不再是你一句我一句,而是可以隨時打斷、插入、延續,接近人與人之間的自然對話。
“端側部署大模型的優勢在於可以訪問本地所有檔案,對本地App有操作權限。”一位座艙研發人員表示。
值得注意的是,此前汽車行業的“智能算力”主要集中在智駕領域,而在車端部署一個30B等級的大模型,幾乎沒有先例,就算智駕模型,目前行業所知的上限也在4B左右。
有消息人士向36氪透露,為了在車端運行這一超大模型,火山引擎找到輝達定製了Thor z晶片,“
針對記憶體與頻寬進行定製最佳化”,以AI Box的“外掛”算力盒子形式部署在車上。而在車展上,火山引擎也披露這一硬體方案。
公開資訊顯示,輝達2024年Q4發佈艙駕一體中央計算晶片Thor,包含Super/X/S/U/Z等產品線,Thor Z為入門版本,單顆算力360Tops。
“這更像是在車上跑一個即時的視訊流系統,無視成本的嘗試,但很難落到商業層面。”一位業內人士評價。按照其測算,如果使用者頻繁使用語音互動、Agent調度與視覺感知能力,單車每月的模型與算力成本可能超過10元,遠高於現有車機服務成本。
另外,雙方在工程層面也需要克服更多問題,“雙方合作的是新車型平台,而車企本身又不具備OS能力,等於重做一套車機平台,APP幾乎要重新適配,連地圖都要深度定製,這是一個非常複雜且長周期的事情。”一位業內人士說道。
而火山引擎也為此項目進行了大力度投入,“上百人團隊撲進來,同時死磕頭部網際網路應用服務商,如美團、高德地圖等,每個app要花幾個月重新封裝。”知情人士說。
一輛車,一個AI大腦
整車層面的互動,向來複雜,有高安全相關的功能性互動,也有非安全相關的娛樂性互動,以及和智駕相關的跨越互動。
這種使用場景的分割,跨部門的阻力,也讓車企通常難以突破侷限,探索全車級的AI大腦形態。而火山引擎則認為,一個封閉的座艙場景中,由統一的AI大腦進行互動,是更極致的方案。
據相關負責人介紹,在新一代的汽車AI解決方案中,火山引擎將對話推理引擎、目標驅動引擎、學習成長引擎三大引擎融入統一的“汽車大腦”。
而且,AI的架構範式也在變化,openclaw在春節後快速風靡,車企也普遍認為,AI應該不再以簡單的chatbot(聊天機器人)進入車內,而是需要以新的任務範式在車企,當一個“綜合關鍵”。
火山引擎則提出了更具體的方案思路,不同於Chatbot(聊天機器人)的“回合制”互動模式,新的AI架構範式下,Agentic AI具備自主驅動能力,能夠即時感知環境、接收反饋,並持續自主學習與迭代成長。依託強大的大模型底座,能夠聯動全域知識與多元工具,以明確的目標自主推進任務;也可針對執行結果進行自我復盤,實現持續進化。
拆開來看,“對話推理引擎”可以實現像真人一樣自然的交流,告別冰冷的、機械的“回合制”問答。通過端側的大模型拒識、VLM識別和豆包輸入法同款的ASR能力,實現全時免喚醒詞和多人對話能力,每次交流都會在該出現的時候自然加入對話。基於行業領先雙流式全雙工能力,可以實現人、車即時同頻對話,隨時打斷、隨時插話、自然如真人交流。
“目標驅動引擎”可以基於任務目標和環境反饋自主呼叫全域車載工具,真正像人一樣去做事。它可以把複雜、多步驟、跨場景的事情從頭到尾幫你辦完,不用你反覆交代。例如,根據後排孩子的狀態和車端記憶,選用合適的多種方式:唱歌、放動畫片、講故事、做遊戲、哄睡等,陪伴孩子整個旅途。
“學習成長引擎”能夠像人一樣不斷在過程中總結經驗,提升自己。不止侷限於偏好、話題、場景類等基礎記憶能力,更能在任務執行過程中沉澱經驗,形成可復用的Skill。
通過AI與車的深度融合,火山引擎將與車企共同打造鮮活、聰明、普適的智能座艙使用者體驗,讓車更像人,交流自由有情感、辦事高智商能成長、操作像人的本能一樣簡單。
當然,面對車企互動的工程複雜性,火山引擎團隊也有理性認知。團隊相關負責人在訪談中表示,豆包AI座艙助手的項目優先順序,就是做好車控這類基礎能力。
“那在做車控的過程中,我們已經也迭代了好幾個版本,慢慢發現需要接入更多的車輛控制的能力,從一開始接100多個,接到幾百個,接到上千個,會發現怎麼去收斂,怎麼去避免幻覺,怎麼去達到一個使用者預期的結果。”
而這就需要加強端側的能力。過往,豆包模型幾乎都是部署在雲端,而據介紹,目前在汽車的端側,豆包大模型也已經部署。
除了端側能力加強,還要依賴模型的自學習和進化能力。據業務負責人年介紹,一個複雜場景可能就是會跨越好多個工具呼叫組成,“其實你的自學習本質上就是說我在這個使用者使用的過程中,我去用模型自己去提煉出對這個場景的KnowHow(知識點)。再把那個KnowHow反過來存下來,指導我的模型在這種場景下對工具呼叫的流程,或者說先後順序、時序上的這種變化,其實那個才是真正做到自學習,所以我覺得現在市面上絕大多數講自學習都是可能在某個領域裡面有一點點的那種迭代而已,但不是真正的說一個完整的這種進化的感覺。”
過去多年,火山引擎在汽車行業積累,也幫助團隊更快建立對整車互動的認知。據火山引擎披露的資料,目前,搭載豆包大模型的智能汽車已超過700萬輛,搭載量穩居行業前列。本屆車展期間,梅賽德斯-奔馳純電GLC、上汽奧迪E7X、上汽大眾ID. ERA 9X、奇瑞星途EX7、一汽紅旗HS6 PHEV、別克至境E7、榮威新序列“家越”等多款搭載豆包大模型的重磅新車亮相。
隨著全鏈條的AI能力逐步在座艙落地,汽車行業顯然將掀起新AI技術熱潮。
車企搶灘座艙AI,巨頭們競相進場
火山引擎和車企的“樣板房”還在打造當中,另一邊阿里通義千問等也在深度繫結高通8797平台,推動端側大模型在新一代座艙中的規模化部署。高通8797/8397是2024年推出的第五代艙駕一體車規級晶片,對標輝達Thor系列,單顆最高算力達640TOPS。
36氪獲悉,千問主推的端側模型規模在4B左右,包括比亞迪、廣汽、理想、小鵬等車企都在接觸當中。這意味著,在座艙戰場上,豆包和千問再一次迎戰。千問主綁高通8797,豆包主推輝達的AI BOX形式,而輝達也由此順勢從智駕切入座艙市場。
“靈魂問題”再次擺在車企面前。如果完全依賴外部模型,它們可能在短時間內獲得更好的體驗,但長期來看,入口與資料都可能被抽離。如果選擇自研,則需要面對另一層約束——高昂的投入、不確定的回報,以及與頭部模型公司之間的能力差距。
從現狀來看,已有車企選擇了折中路徑。一方面與外部模型公司合作引入基礎能力;另一方面,在上層保留自己的互動框架與資料體系,通過Agent或介面的方式進行封裝。
有車企人士告訴36氪,最終座艙Agent的難點甚至可能不在於技術能力夠不夠,而是企業內部的部門牆能否順利打通,例如原有語音團隊的去留,統一Agent下,座艙和智駕團隊的融合問題等。
一切尚未有定局,但座艙趨勢已經逐漸清晰:端側大模型上車,將在今年進入大規模驗證階段。
有座艙供應商告訴36氪,有大量車企都在考慮採用高通8797部署座艙大模型,其中不乏一向保守的傳統豪華汽車品牌。而在車企的下一代的規劃中,外掛AI Box的方案同樣也在規劃當中,“如果要實現更極致的體驗,必須要有一些更激進的方案。”
“以後一定是個靈魂漫遊的世界。終端上共用一個AI,這個AI通過車和手機實現使用者的memory(記憶)和contact(接觸)是共享的,專屬於使用者個人。”一位行業人士說道。 (36氪)
