#推理
【北京車展】2026北京車展:座艙AI進入決戰期,火山引擎給出新解法
什麼才是車企願意深度合作、使用者日常高頻使用的座艙AI?4月24日,2026 北京車展正式拉開大幕。經過多年新能源汽車賽道的飛速發展,整車外觀、三電動力、硬體配置的內卷早已漸漸降溫,智能座艙AI成為本屆車展最熱鬧、最核心的必爭賽道。曾有不少從業者向雷峰網坦言,“車展上,你到處可以見到各式各樣的‘龍蝦’。”以“龍蝦”為代表的新一代Agent開始進入車內,代表著AI從“功能控制”轉向“情感陪伴”與“主動服務”。熱鬧之餘,一個最樸素、最本質的問題一直擺在整個行業面前:什麼才是車企願意深度合作、使用者日常高頻使用的座艙AI?PART 1 座艙AI賽道的困局座艙AI並不是一個新概念,至少在大模型問世之前,座艙的互動感和體驗感還遠遠不夠。大模型到來後,讓座艙AI上了一個台階並走出兩條不同的發展路線:通用大模型跨界上車、部分車企自研模型。首先,通用大模型跨界玩家,底層AI功底十分紮實。依託海量網際網路資料訓練,它們在日常聊天、知識問答、長文字理解、多輪對話上能力出眾,雲端算力、語義理解基礎十分強大,能快速搭建起車機基礎語音互動,介面呼叫方便,上線速度快。但問題也很明顯:通用能力很強,可偏偏缺少汽車專屬的行業功底。這類模型日常處理網際網路資訊得心應手,訓練資料大多是百科、資訊、生活常識,對於汽車內部複雜的整車邏輯、細微的車控細節、車內專屬場景、行車過程中的各類專屬需求,瞭解得並不深入。很多用車裡的細碎需求就能直接暴露短板,比如大家日常高頻用到的空調出風口調節、出風角度、座椅精細調節、氛圍燈分區控制等等。使用者隨口說一句 “別讓空調風直吹臉”“只開腳部出風口,關掉側面風口”,很多通用大模型上車方案都沒法精準聽懂,更沒法精準控制硬體。而另一邊是車企自研座艙模型。車企深耕汽車行業多年,整車製造、底盤調校、車身底層權限、車輛全周期資料都是自家優勢,汽車內部所有硬體邏輯、車控協議、功能細節,所有關於車的“know how”,都是沉澱多年的經驗。但想要從零搭建頂級大模型底座難度極高、投入巨大、周期漫長,模型更新速度遠遠趕不上網際網路 AI 的迭代節奏。而且自研模型大多隻適配自家車型,體系相對封閉,想要拓展外部生態、跨車型通用適配,難度不小。簡單總結就是:通用大模型缺車載深度,車企自研缺AI底層上限。行業需要兼有頂級AI底座,又能吃透汽車場景、打通全域智能、能大規模裝車落地的第三條路線。PART 2 如何打造一個可用、好用的座艙AI?2023年左右,業界在探索大模型上車時,火山引擎做的最核心的一件事就是用function call去替換傳統的“意圖分域  + 多 Agent”的語音助手架構。火山引擎副總裁楊立偉火山引擎副總裁楊立偉表示,“在‘車’這麼一個封閉場景裡,有諸多的AI應用彼此獨立,沒有反思、沒有總結、任務不能連貫,手機端和車端不能互聯,是非常不好的體驗。AI,一定要是One Brain(一個大腦聯動整車)的AI。”當時,火山引擎的這一想法十分激進。很多同行直言,“讓一個模型去呼叫1000個外部工具基本做不到。”但這種死磕的做法,也讓火山積累了很多經驗。而第二件事則是,火山引擎開始引入環境變數,知道這些工具在不同的狀態下應該如何用。到了2024年,火山引擎做的主要工作是基於端狀態的車控。例如,窗戶有縫隙或者座椅加熱時,車內的溫度應該如何調整,這裡面就涉及到很多與車廠、車型配置的“know-how”。楊立偉表示,“想讓模型很好的使用所有原子能力,就要給模型比較清晰的定義,讓模型能真正理解它。識別訊號燈顏色、控制空調風速大小,這些能力都需要一起和車廠共同碰撞和共創。”基於海量真實車載場景資料、行車資料、車控指令、車內互動場景,火山引擎對模型做了專門的汽車專項訓練和端側輕量化最佳化。小到空調出風口風向、座椅細微調節、車內各類精細功能控制,大到行車場景、道路環境、駕乘習慣,全部做了深度適配打磨,具備了聯動智駕功能的能力,幫助駕駛Agent更好地理解使用者需求和環境變化。經過數年的打磨,4月24日,北京車展開幕首日,火山引擎發佈基於Agentic AI架構的新一代汽車AI解決方案,將對話推理引擎、目標驅動引擎、學習成長引擎三大引擎融入統一的“汽車大腦”,通過一個AI大腦深度聯動整車,打通車控、智駕、導航、座艙等關鍵功能域,實現“感知 - 推理 - 執行 - 記憶 - 學習”一體化閉環。我們可以設想一個場景:在傳統的座艙AI裡,我們說“後排的孩子是不是睡了”,車機助手會回答“睡了”,沒有後續動作,顯得非常機械。但是,在“基於目標的持續任務”能力加持下,火山引擎的座艙AI助手會做這麼幾件事:首先,AI助手會識別孩子的狀態,如果睡著了,會自主降低空調風速、關閉車窗、調節燈光並放低座椅角度,這就涉及到一些跨域打通的事情,真正像人一樣去做事,把複雜、多步驟、跨場景的事情從頭到尾幫你辦完。其次,如果孩子睡醒了哭鬧,AI助手會根據後排孩子的狀態,選用合適的方式進行陪伴:唱歌、放他最喜歡的動畫片、講故事、做遊戲,想媽媽了模仿媽媽的口吻安撫他。考慮到使用者駕駛狀態,火山引擎的座艙AI助手還會通過生成式UI渲染寶寶的可視化狀態,讓使用者一眼明白。最後,在學習成長引擎的支援下,AI助手會記住並且能在“哄娃”這一個任務執行的過程中沉澱經驗,形成可復用的技能。等到下一次出現“孩子睡覺”和“睡醒哭鬧”的場景時,還會持續記住並保持照顧寶寶的目標。在三大引擎的支撐下,火山引擎的座艙AI更像是一個有智商、有感情、有持續學習能力的“類人”體。值得注意的是,本次車展的“含蝦量”很高,各種座艙AI公司和晶片公司都推出自己的專屬龍蝦。在這股潮流下,火山引擎如何將AI能力輸送給行業?楊立偉表示,火山引擎將以Agentic AI技術為核心提供多元化的合作方案,主要包括AI座艙套件方案、豆包座艙助手方案兩大解決方案。前者可以根據車企需求靈活輸出能力:既可以輸出豆包大模型底層能力,也可以無縫對接整車功能呼叫與全品類知識,還可以輸出火山引擎的互動、工具、生態類的Agent。這就有點類似於樂高積木,大家可以根據需求搭建自己的智能體。後者則是完整的產品級交付,以統一的汽車“大腦”深入聯動整車能力,並與手機豆包APP互聯互通、能力共同進化,年內將有合作車型量產落地。在一些業內人士看來,火山引擎的兩種模式具備更大的“開放性”——頭部車企可以做深度聯合定製,打通全系統能力;中小車企可以輕量化快速接入,低成本完成智能化升級,無需複雜二次開發。楊立偉表示,“兩種方案聚焦做好產品體驗,暫不考慮商業模式與複製問題,而且還會投入高密度的人才持續打磨。”目前,100%主流車企都已攜手火山引擎佈局 AI 創新,能力不侷限於座艙,更是覆蓋座艙、智駕、整車研發、品牌行銷、使用者服務、企業數位化全流程,全方位幫車企做智能化升級。從資料來看,搭載豆包大模型的智能汽車已經突破 700 萬台,覆蓋超 50 個汽車品牌、145 款量產車型,豆包大模型智能車搭載量穩居行業第一,跨品牌適配能力經過大量市場驗證。更關鍵的是真的有人用、高頻在用,豆包大模型日均完成超3000萬次座艙互動和服務閉環。本屆車展期間,梅賽德斯-奔馳純電GLC、上汽奧迪E7X、上汽大眾 ID. ERA 9X、奇瑞星途EX7、一汽紅旗HS6 PHEV、別克至境E7、榮威家越等多款搭載豆包大模型的重磅新車亮相,帶來全新的智能體驗。PART 3 座艙AI行業終將回歸“實用”本質2026年,座艙AI將會是“去魅之年”,從演示泡沫走向實用落地。有調研顯示,智能座艙在購車決策中僅排第9位,這並不表示使用者不重視座艙,而是上一個時代的座艙不夠智能、不夠好用。但隨著汽車智能化程度越來越高,智能座艙的關注度持續升高。擺在我們眼前的一個現實問題:什麼才是車企和使用者真正想要的座艙AI?答案其實很簡單——座艙AI一定要是一個更聰明、更鮮活、更普適的“出行助手”。作為首次登陸北京車展整車館的獨立參展方,火山引擎從以往幕後技術賦能,走到台前完整展示全端能力。站在整個行業視角來看,本屆北京車展也是座艙AI賽道的分水嶺和新的起點。座艙AI終將不再是整車錦上添花的附加功能,慢慢變成汽車與生俱來的核心能力。回望智能汽車產業的迭代之路,從傳統燃油車的“三大件”到新能源時代的智能化升級,行業的核心競爭力早已完成迭代躍遷。如今,一個清晰的行業共識正在形成:智能車的“新三大件”,已然定格為寧德的電池、華為的智駕、火山引擎的智能座艙,三者共同構築起智能汽車的核心競爭力底座,形成了“能量供給-安全駕駛-智能互動”的閉環。未來,隨著“新三大件”成為行業標配,智能汽車將真正擺脫參數內卷,步入“體驗為王”的全新階段。直擊「2026北京車展」車展,是當下全球汽車工業最激烈的競速場。在這裡,不僅僅是新車的更迭,更是智駕晶片、液態電池、大模型上車等前沿技術的秀場。它是技術信徒的朝聖地,也是未來出行方式的預演地。2026北京車展,雷峰網《新智駕》將以專業的視角、及時的訊息,為你拆解每一次技術脈動。20+ 頂級車企動態(華為、小米、比亞迪、蔚來、小鵬、理想...),1個專題深度搞定。 (新智駕)
不愧是DeepSeek!V4一手實測:推理程式設計能力給到夯,熟悉的D老師也回來了
炸了炸了真炸了,DeepSeek一出手,AI圈都得震得抖三抖。全新來襲的兩個版本——V4 Pro和Flash,一個主打性能,另一個更輕更快,兩個都「開源」。按DeepSeek自己的說法,V4在agentic程式設計能力上是開源模型裡最強的,推理和世界知識也全面升級,上下文窗口從128K直接拉到了1M。對比V3,當然是一次幅度不小的跨越,發佈的時間點,距離上一個推理模型R1也整整過去了一年多。不過V4這次帶來的變化,還是讓我們想認真摸一摸它的底,於是乎,我們也第一時間上手狠狠實測了一番!!最近這模型那模型扎堆上,我是真暈了,於是我讓V4給我roll了個龍蝦和愛馬仕的話題熱度對比圖,be like:程式設計遊戲也高低得安排上,直接讓V4搓出一個《未來啟示錄:AGI降臨》的文字策略冒險小遊戲(量子位定製版):此外,面對網上大火的「對著鏡子舉手」的AI推理踩坑題,V4直接完勝ChatGPT-5.5:當然了,新模型一出,網友們也坐不住,開始直接開始瘋狂整活兒嘗鮮:博主David Ondrej蒐集了網友們的測試案例,錄了一段半個小時的測試視訊,表示DeepSeek-V4能力比肩GPT和Opus,而且更便宜。博主@Bijan Bowen更是直接用V4搭了一個飛機穿梭雲層的3D互動世界,搓完直感嘆: so cool~熱鬧啊真熱鬧,會玩啊真會玩——廢話不多說,熱乎乎的DeepSeek V4一手實測,來了!DeepSeek V4一手實測關於V4這一波的更新重點,官方原話是:在Agent能力、世界知識和推理性能上均實現國內與開源領域的領先。按DeepSeek的說法,在Agentic能力Coding評測中,V4-Pro已達到當前開源模型最佳水平,並在其他Agent相關評測中同樣表現優異。在數學、STEM、競賽型程式碼的測評中,DeepSeek-V4-Pro超越了當前所有已公開評測的開源模型。所以呢,這次我們也就專門「照方抓藥」,從這幾個維度上來考量一下官方說法究竟有幾分真~Agentic coding能力實測多說無益,我們先來實一下V4模型的Agentic coding能力,看看能不能接住招~先小試牛刀一下,在「專家模式」下讓DeepSeek V4幫忙搭建一個《怪奇物語》主題的劇集介紹網站。搭建一個《怪奇物語》主題的劇集介紹網站,整體風格參考80年代復古科幻與懸疑驚悚氛圍,網站需要包含首頁、劇情簡介、主要角色介紹等模組。大概等了5分鐘,真·功夫不負有心人。當「霍金斯小鎮編年冊」出現在頁面上時,第一反應就是:這時間真沒白等,效果確實比預想中更好。V4把整個網站拆成了劇集簡介、主要角色、分季劇集、經典場景、海報展示、觀眾評價六大類股,結構完整,資訊也比較清晰。值得一提的是,V4還會根據不同主角的特徵設計專屬logo,比如小十一擁有超能力,頁面裡就用水晶球來做視覺符號代替,還是很匹配的。唯一不足的地方是「互動」,有部分加入互動能力的類股(比如海報),emm…滑鼠點選去是沒有反應的…接下來我們上點難度,再來考察一下模型的資訊更新能力和熱點捕捉能力:搜尋一下最近很火的「十二星座專屬庇護所」短影片熱度,並生成一份關於該選題的短影片爆火現象的研究報告。先來誇誇,值得表揚的是V4確實get到了「十二星座專屬庇護所」這個熱點的內容的視訊特點。而且在視覺呈現上審美也在的,並且還自動把報告內容劃分為傳播規模、核心特徵、頂層原因、商業變現幾個方面。但,是光網頁搭建還遠遠不夠——試問那個初來乍到的AI選手,不得和一道經典的「鵜鶘騎自行車」的svg題較量一番?(你說是吧,v4)做一個鵜鶘騎自行車的動態svg。這次我用了「專家」和「快速」兩種模型進行了實測。結果就是——快速模式《完勝》…(大家覺著呢?歡迎評論區嘮嘮。)從呈現的效果來說來看,快速模式在畫面顏色和運動軌跡呈現上更勝一籌,能感覺出鵜鶘有騎車子的前進動態感。反觀專家模式,除了自行車的軲轆在動,畫面其他元素處理的都不太ok。相比Pro,Flash在世界知識儲備方面稍遜一籌,但展現出了接近的推理能力,在程式設計場景中不輸Pro。而由於模型參數和啟動更小,相較之下V4-Flash能夠提供更加快捷、經濟的API服務。最後我們再來上一道遊戲程式設計能力,讓DeepSeek V4生成一個線上打地鼠的小遊戲,只不過我們這次不打地鼠——生成一個打地鼠的線上網頁小遊戲,把地鼠換成你自己的logo。值得表揚的是,V4確實get到到了它的logo是個小海豚。(形象好不好看就另說了…而且整個遊戲的互動也沒什麼問題,遊戲到後半程會明顯感覺難度變大,遊戲體驗感還算是比較好。接下來我們再來測一些更有意思的,讓V4生成一個「寵物養成」的線上遊戲——值得一提的是,在提示詞中我並沒有明確遊戲的具體規則以及需要涵蓋的內容。但是從V4的思考過程看,V4自動補全了遊戲的規則、UI介面、互動能力、金幣系統等遊戲參數和能力。對於日常想快速搓一個demo、做個小遊戲原型,或者驗證某個輕量級創意來說,還是蠻到位的~(之所以這麼說,是因為這效果確實比之前用的一些龍蝦產品效果還要好些…)推理能力實測除了Agent能力外,DeepSeek V4還有著世界頂級的「推理性能」。在數學、STEM、競賽型程式碼的測評中,DeepSeek-V4-Pro超越當前所有已公開評測的開源模型,取得了比肩世界頂級閉源模型的優異成績。在這部分為了能體現不同模型間的效果對比,我們這次搬上另一位選手——ChatGPT-5.5。我們先來一道網上超超超火的「鏡子舉手」推理測試題,看看兩位選手各自會有什麼表現!!我正對著鏡子站立,舉起一隻手。在我的視野中,這隻手出現在鏡子畫面的左側。請問在現實中,我舉起的是那隻手?emm…雖然沒有精準扣住「鏡子不會改變我視野左右方向」的核心結論,但是答案確實回答正確,滿分!咱再來看看下面的ChatGPT-5.5,可以說是精準踩坑,完全被偽常識帶偏了…接下來我們再來一道網上很火的「親生父母結婚」的AI推理測試題,看看兩位選手能不能招架得住:今年才知道,親生父母結婚時沒有叫我,我很難過,應該怎麼辦?先說結論:大大大反轉,這局ChatGPT-5.5完勝DeepSeek V4。先來看V4的回答,雖說題目沒完全答對,只有第二種情況(親生父母結婚我還沒出生)符合標準答案,但——架不住人家把「真誠」二字展現地淋漓盡致…直接輸出了千字小作文來安慰我???我們再來反觀ChatGPT-5.5,人狠話不多,直接就戳穿了題目的陷阱,直言——親親,您那會兒還沒上線哈。當然,好的推理並不是只看個題目就開始悶頭冥思苦想,還要結合自身的知識儲備。拿我們昨天文章裡那個「絕望的父親」的例子來說,V4在第一輪並沒有get到這道題目的關鍵:(根據遺傳學規律,如果一名女性是紅綠色盲,其生物學父親必然也是)。昨天由於時間關係,這道題我們沒有讓V4繼續往下嘗試,於是這次,我們補充了新的提示。(doge)在第一步回答的基礎上,我們首先提示說這是一個科學問題。不過嘛…這波不僅沒答對,還搞出了更複雜的「色盲理論」,be like——於是乎,我們決定再給它一次機會,直接挑明這個問題涉及的是遺傳學領域,這回V4終於《上道了》:還是基於上面的出發點,考察推理能力不能只看推理過程,我們還考察了V4的審題能力。畢竟解題過程再有看頭,如果一開始把題讀錯,依然得不了分!!一個典型例子就是這個「薛定諤的死貓」,在經典物理學悖論的基礎上進行了修改,直接設定貓就是死的,這裡V4成功過關。還有這個經典的農夫過河問題,V4在思考時已經觀察到了我們埋下的陷阱,但認為這是我的筆誤,所以還是按照原問題進行了推理。但當我明確表示自己沒打錯字時,V4給出了正確的解答。最後說下知識更新。如果直接問它知識庫截止到什麼時候,V4的推理過程會先出現一個2025年5月的說法,但之後它認為DeepSeek最新版本是V3,然後給出了2024年7月的最終回答。於是,我們決定在關閉聯網的情況下,通過詢問OpenAI、Anthropic和Google三家公司最新的模型版本來曲線驗證下。這時它直接強調了自己的知識只更新到2025年5月,回答的模型發佈時間也基本對得上(但Claude 4系列的發佈時間是5月22日,不能算月初)。One More Thing兩個月前,DeepSeek的一次小版本更新,讓它的性格突然變得機械理性。原本網友心目中的D老師,變成了刻薄冷漠的AI機器。現在,隨著V4的迭代,DeepSeek的情感又開始重新充盈。那個我們熟悉的D老師,又回來了。 (量子位)
黃仁勳喊出“推理拐點”,邊緣推理的機會窗口打開了嗎
上周,紐約時報報導了矽谷一個新風氣叫 tokenmaxxing,Meta 和 OpenAI 的工程師在內部搞 token 消耗量排行榜,比誰燒得多。黃仁勳在 GTC 2026 上更激進,提議企業給工程師發 token 預算,作為工資之外的第二份薪酬。OpenAI 的資料則顯示,過去一年企業客戶的推理 token 消耗量暴漲了約 320 倍。需求側在爆炸。供給側呢?黃仁勳在同一場 keynote 上搬出了 Tokenomics 這個概念,把它從加密貨幣的語境裡拎出來,重新定義為 AI 推理的經濟學。核心指標叫 Tokens per Watt,衡量每瓦特電力能產出多少 token。他說推理拐點已經到了,NVIDIA 預計 Blackwell 和 Vera Rubin 晶片訂單量到 2027 年將達到 1 兆美元。國內大模型廠商一直在講類似的事情,只是換了說法叫“推理成本”或者“token 單價”。不管那種說法,指向的問題是一樣的,當 token 變成 AI 時代的水電煤,誰來建發電廠和電網?過去三年,行業給出的答案是,建更大的資料中心,塞更多的 GPU。這在訓練時代完全成立。但推理和訓練的邏輯不同。訓練一個模型是一次性工程,推理要做幾十億次,而且對延遲極度敏感。當推理請求像洪水一樣湧來,把所有 GPU 集中在幾個超巨量資料中心裡,可能恰恰成了瓶頸。瓶頸不在算力,在物理。具體來說,在光速。推理時代撞上“光速牆”在今年 GTC 上,有一家公司對這個問題給出了非常系統的回答。Akamai,國內讀者可能不太熟悉這個名字,但在海外,它是 CDN 概念的開創者,也是目前全球最大的分散式運算平台,擁有業內最龐大的邊緣節點網路。1998 年成立,全球前十的視訊串流媒體平台、遊戲公司、銀行基本都是它的客戶。全球擁有超過 4400 個邊緣入網點,覆蓋 130 多個國家,承載全球近三分之一的網際網路流量。這家公司在近三十年裡經歷了三次轉型,從 CDN 到安全,再到雲端運算和 AI。今年 GTC 上,它帶來了兩個 session,核心主題只有一個,為什麼 AI 推理必須走向分佈式。Akamai CTO Office 的 SVP Andy Champagne 在 session 上描述了一個“個人 AI 導播”的場景,非常有畫面感。一場 F1 比賽有 20 多個 4K 機位同時在拍,傳統做法是導播間一個人切鏡頭,幾百萬觀眾看到的畫面一模一樣。但如果每個觀眾都能看到根據自己偏好定製的直播流,喜歡的車手、偏愛的鏡頭角度,那就需要在邊緣即時合成個性化的視訊。幾百萬路不同的 4K 視訊流,不可能從一個資料中心統一往外推。類似的邏輯出現在越來越多的即時場景裡。遊戲 NPC 需要在 50 毫秒內響應,超過這個閾值玩家體感明顯示卡頓。Akamai 產品管理 VP Shawn Michels 在另一個 session 舉了即時廣告插入的例子,從掃描視訊、識別廣告位、競價、生成個性化廣告到拼回視訊流,整條鏈路的預算只有 100 毫秒。這恰恰是 Akamai 的先天優勢所在,它在全球已有超過 4400 個邊緣節點,這種“就近處理”的能力不是純雲廠商從零搭建能輕易追上的。同樣的延遲壓力還存在於 AI 語音助手、電商推薦引擎、智能試衣間、自動駕駛感測器處理和工業產線質檢等場景中。AI 一旦嵌入即時應用,就必須繼承那個應用原本的延遲要求。物理定律不會因為 GPU 更快就網開一面。光在光纖中每秒約跑 20 萬公里,從倫敦到美東資料中心單程延遲約 28 毫秒,往返就是 56 毫秒。從東京出發更遠,往返約 134 毫秒。這還沒算任何計算時間。回頭看上面那些場景的延遲要求,不難理解為什麼把推理全部扔到少數幾個集中式資料中心裡是行不通的。延遲之外還有頻寬。Andy 在 session 裡算了一筆帳,同樣 1GW 的算力,如果集中在一個資料中心用 Blackwell 做視訊推理,出口頻寬需求是 75 Tbit/s。分佈到 20 個區域節點,每個只需 3.75 Tbit/s。集中式的出口流量是分佈式的 20 倍,背後的網路成本差距不言而喻。如果換成下一代 Vera Rubin,集中式的出口頻寬更是飆到 135 Tbit/s。晶片越快,集中式架構的出口瓶頸反而越嚴重。在同一個 session 上,Comcast負責 AI 與邊緣計算方向的嘉賓從等候理論的角度做了更嚴謹的分析。在相同 GPU、相同模型的條件下,集中式和分佈式部署之間僅僅 14 毫秒的往返延遲差異,就導致了約 30% 的 GPU 利用率差距。他的原話是,“這是物理定律層面的優勢,沒法靠 batching 或者提高 tokens/s 來彌補。”一個近三十年的伏筆Andy 在 session 上做了一個很有意思的類比,把 AI 的發展時間線和網際網路做對齊來看。網際網路的普及率已經超過 95%,AI 目前大約只有 7%。他的判斷是,AI 現在大概處於網際網路的 MySpace 時代。想想 MySpace 之後又誕生了多少公司、多少市值、多少技術突破。AI 的好戲才剛剛開始。這個類比其實點出了 Akamai 做分佈式推理的底層邏輯。近三十年前這家公司解決的問題和今天面對的問題,結構上是一樣的,把集中的東西變成分佈的。當年分發的是網頁和視訊,現在分發的是 AI 推理。方法論一脈相承。他在 session 結尾說了兩句話,頗能概括這種邏輯,“AI 工廠創造智能,AI Grid 分發智能”,以及“沒有分佈式推理的 AI,就像沒有 CDN 的網際網路”。GTC 期間,NVIDIA 官方將 Akamai Cloud 和 AWS 一起列為首批提供 RTX PRO Blackwell Server Edition 實例的雲服務商。黃仁勳 keynote 展示的合作夥伴 logo 牆上,Akamai 赫然在列。NVIDIA 電信業務全球副總裁 Chris Penrose 評價說,Akamai 通過營運 AI Grid,正在為生成式 AI、AI Agent 和物理 AI 建構連接組織,將智能直接推送到資料所在的地方。Akamai 也在 GTC 上正式發佈了業界首個全球規模落地 NVIDIA AI Grid 參考架構的方案,將 NVIDIA AI 基礎設施深度整合到自身的分佈式網路中。這不是一個鬆散的合作。Akamai 是首家將 AI Grid 從概念推到營運等級的廠商,底層跑的是 NVIDIA AI Enterprise 軟體棧、Blackwell 架構 GPU 和 BlueField DPU 加速網路的完整技術堆疊。推理基礎設施的幾個現實問題回到地面,對於正在考慮推理部署的 AI 團隊,有幾個繞不開的現實問題。不是所有推理都需要 H100。 這個認知正在被越來越多團隊接受。H100 為訓練和大規模推理而生,但如果跑的是 8B 參數的模型、做的是語音互動或者視訊分析,用 H100 就像開卡車送外賣。Akamai 目前部署的 RTX PRO 6000 Blackwell Server Edition 是一個值得關注的選項。直接看 Token 經濟,$2.50/小時全包價,每美元 Token 產出是同類方案的 2.1 倍。性能層面,這張卡配了 96GB GDDR7 視訊記憶體和 4,000 TOPS FP4 算力,在 NVFP4 精度下推理吞吐量比 H100 高出 60% 以上,對比上一代 RTX 4000 Ada 提升達 19 倍。另一個容易被忽略的差異是視訊處理能力,RTX PRO 6000 原生支援 112 到 132 路視訊編解碼,如果做的是視覺 AI 相關的產品,這個能力是定位於訓練和超算的 H100 不具備的。再加上風冷設計,在邊緣機房有限的空間和功耗條件下部署門檻低得多。Shawn Michels 在 GTC session 裡的觀點說的是未來的推理基礎設施一定是混合架構,不同 GPU 匹配不同的工作負載,沒有萬能卡。Egress 費用是隱性殺手。 很多團隊做預算時只看 GPU 租用價格,忽略了資料出站費。AI 產品服務全球使用者,視訊和模型響應產生的出站流量成本可能比 GPU 本身還貴。邊緣部署的經濟邏輯之一正在於此,推理結果在本地生成、本地交付,不用跨大半個地球回傳。Akamai 的 egress 價格是 $0.005/GB,和三大雲廠商的差距非常明顯。調度比算力更難。 GPU 散到全球各地只是第一步,更難的是讓每個請求找到最合適的那台機器。Akamai 在 GTC 上展示了他們的 AI 編排器(Orchestrator),這不是傳統的根據延遲和負載來分配流量的負載平衡。它會考慮模型親和性(那台機器已經載入了需要的模型)、GPU 視訊記憶體佔用、KV Cache 狀態等 AI 場景特有的因素來做即時路由決策。現場 demo 中,推理請求從巴黎節點即時切換到加州節點,使用者側完全無感知。這背後是 Akamai 做了近三十年流量調度的老本行,在 AI 場景上的自然延續。目前 Akamai 的 Blackwell GPU 節點已覆蓋歐洲、亞太和美洲共 19 個節點,配合 4400 多個邊緣入網點協同工作。對於出海的 AI 團隊來說,東京、新加坡、孟買、雅加達這些亞太節點尤其值得留意。出海 AI 創業者的第三種選擇Akamai 從 CDN 到安全,再到雲端運算和 AI 推理的轉型路徑,本身就是網際網路基礎設施演進的一個切面。它在這條賽道上的差異化在於,不是從零建資料中心,而是把已經運行了近三十年的全球分佈式網路變成了 AI 推理的底座。這步棋能走多遠,取決於它能不能跟上 AI 硬體更新的速度,也取決於邊緣推理的市場需求能否如預期般爆發。但對中國出海 AI 創業者來說,一件事正在變得越來越清楚,全球化部署推理能力正在從“以後再說”變成“現在就得解決”。合規(資料主權、不出境)、延遲(使用者體驗的硬門檻)、成本(egress 和 GPU 租用的真實帳單),這是出海時最現實的三座山。Akamai 的邊緣推理平台提供了一種此前不太存在的選擇,不必自建全球基礎設施,也不必把雞蛋全放在幾家超大規模雲上,而是可以借助一張已經覆蓋 130 多個國家的分佈式網路,把推理跑到離使用者最近的地方去。 (矽星人Pro)