#推理
【北京車展】2026北京車展:座艙AI進入決戰期,火山引擎給出新解法
什麼才是車企願意深度合作、使用者日常高頻使用的座艙AI?4月24日,2026 北京車展正式拉開大幕。經過多年新能源汽車賽道的飛速發展,整車外觀、三電動力、硬體配置的內卷早已漸漸降溫,智能座艙AI成為本屆車展最熱鬧、最核心的必爭賽道。曾有不少從業者向雷峰網坦言,“車展上,你到處可以見到各式各樣的‘龍蝦’。”以“龍蝦”為代表的新一代Agent開始進入車內,代表著AI從“功能控制”轉向“情感陪伴”與“主動服務”。熱鬧之餘,一個最樸素、最本質的問題一直擺在整個行業面前:什麼才是車企願意深度合作、使用者日常高頻使用的座艙AI?PART 1 座艙AI賽道的困局座艙AI並不是一個新概念,至少在大模型問世之前,座艙的互動感和體驗感還遠遠不夠。大模型到來後,讓座艙AI上了一個台階並走出兩條不同的發展路線:通用大模型跨界上車、部分車企自研模型。首先,通用大模型跨界玩家,底層AI功底十分紮實。依託海量網際網路資料訓練,它們在日常聊天、知識問答、長文字理解、多輪對話上能力出眾,雲端算力、語義理解基礎十分強大,能快速搭建起車機基礎語音互動,介面呼叫方便,上線速度快。但問題也很明顯:通用能力很強,可偏偏缺少汽車專屬的行業功底。這類模型日常處理網際網路資訊得心應手,訓練資料大多是百科、資訊、生活常識,對於汽車內部複雜的整車邏輯、細微的車控細節、車內專屬場景、行車過程中的各類專屬需求,瞭解得並不深入。很多用車裡的細碎需求就能直接暴露短板,比如大家日常高頻用到的空調出風口調節、出風角度、座椅精細調節、氛圍燈分區控制等等。使用者隨口說一句 “別讓空調風直吹臉”“只開腳部出風口,關掉側面風口”,很多通用大模型上車方案都沒法精準聽懂,更沒法精準控制硬體。而另一邊是車企自研座艙模型。車企深耕汽車行業多年,整車製造、底盤調校、車身底層權限、車輛全周期資料都是自家優勢,汽車內部所有硬體邏輯、車控協議、功能細節,所有關於車的“know how”,都是沉澱多年的經驗。但想要從零搭建頂級大模型底座難度極高、投入巨大、周期漫長,模型更新速度遠遠趕不上網際網路 AI 的迭代節奏。而且自研模型大多隻適配自家車型,體系相對封閉,想要拓展外部生態、跨車型通用適配,難度不小。簡單總結就是:通用大模型缺車載深度,車企自研缺AI底層上限。行業需要兼有頂級AI底座,又能吃透汽車場景、打通全域智能、能大規模裝車落地的第三條路線。PART 2 如何打造一個可用、好用的座艙AI?2023年左右,業界在探索大模型上車時,火山引擎做的最核心的一件事就是用function call去替換傳統的“意圖分域  + 多 Agent”的語音助手架構。火山引擎副總裁楊立偉火山引擎副總裁楊立偉表示,“在‘車’這麼一個封閉場景裡,有諸多的AI應用彼此獨立,沒有反思、沒有總結、任務不能連貫,手機端和車端不能互聯,是非常不好的體驗。AI,一定要是One Brain(一個大腦聯動整車)的AI。”當時,火山引擎的這一想法十分激進。很多同行直言,“讓一個模型去呼叫1000個外部工具基本做不到。”但這種死磕的做法,也讓火山積累了很多經驗。而第二件事則是,火山引擎開始引入環境變數,知道這些工具在不同的狀態下應該如何用。到了2024年,火山引擎做的主要工作是基於端狀態的車控。例如,窗戶有縫隙或者座椅加熱時,車內的溫度應該如何調整,這裡面就涉及到很多與車廠、車型配置的“know-how”。楊立偉表示,“想讓模型很好的使用所有原子能力,就要給模型比較清晰的定義,讓模型能真正理解它。識別訊號燈顏色、控制空調風速大小,這些能力都需要一起和車廠共同碰撞和共創。”基於海量真實車載場景資料、行車資料、車控指令、車內互動場景,火山引擎對模型做了專門的汽車專項訓練和端側輕量化最佳化。小到空調出風口風向、座椅細微調節、車內各類精細功能控制,大到行車場景、道路環境、駕乘習慣,全部做了深度適配打磨,具備了聯動智駕功能的能力,幫助駕駛Agent更好地理解使用者需求和環境變化。經過數年的打磨,4月24日,北京車展開幕首日,火山引擎發佈基於Agentic AI架構的新一代汽車AI解決方案,將對話推理引擎、目標驅動引擎、學習成長引擎三大引擎融入統一的“汽車大腦”,通過一個AI大腦深度聯動整車,打通車控、智駕、導航、座艙等關鍵功能域,實現“感知 - 推理 - 執行 - 記憶 - 學習”一體化閉環。我們可以設想一個場景:在傳統的座艙AI裡,我們說“後排的孩子是不是睡了”,車機助手會回答“睡了”,沒有後續動作,顯得非常機械。但是,在“基於目標的持續任務”能力加持下,火山引擎的座艙AI助手會做這麼幾件事:首先,AI助手會識別孩子的狀態,如果睡著了,會自主降低空調風速、關閉車窗、調節燈光並放低座椅角度,這就涉及到一些跨域打通的事情,真正像人一樣去做事,把複雜、多步驟、跨場景的事情從頭到尾幫你辦完。其次,如果孩子睡醒了哭鬧,AI助手會根據後排孩子的狀態,選用合適的方式進行陪伴:唱歌、放他最喜歡的動畫片、講故事、做遊戲,想媽媽了模仿媽媽的口吻安撫他。考慮到使用者駕駛狀態,火山引擎的座艙AI助手還會通過生成式UI渲染寶寶的可視化狀態,讓使用者一眼明白。最後,在學習成長引擎的支援下,AI助手會記住並且能在“哄娃”這一個任務執行的過程中沉澱經驗,形成可復用的技能。等到下一次出現“孩子睡覺”和“睡醒哭鬧”的場景時,還會持續記住並保持照顧寶寶的目標。在三大引擎的支撐下,火山引擎的座艙AI更像是一個有智商、有感情、有持續學習能力的“類人”體。值得注意的是,本次車展的“含蝦量”很高,各種座艙AI公司和晶片公司都推出自己的專屬龍蝦。在這股潮流下,火山引擎如何將AI能力輸送給行業?楊立偉表示,火山引擎將以Agentic AI技術為核心提供多元化的合作方案,主要包括AI座艙套件方案、豆包座艙助手方案兩大解決方案。前者可以根據車企需求靈活輸出能力:既可以輸出豆包大模型底層能力,也可以無縫對接整車功能呼叫與全品類知識,還可以輸出火山引擎的互動、工具、生態類的Agent。這就有點類似於樂高積木,大家可以根據需求搭建自己的智能體。後者則是完整的產品級交付,以統一的汽車“大腦”深入聯動整車能力,並與手機豆包APP互聯互通、能力共同進化,年內將有合作車型量產落地。在一些業內人士看來,火山引擎的兩種模式具備更大的“開放性”——頭部車企可以做深度聯合定製,打通全系統能力;中小車企可以輕量化快速接入,低成本完成智能化升級,無需複雜二次開發。楊立偉表示,“兩種方案聚焦做好產品體驗,暫不考慮商業模式與複製問題,而且還會投入高密度的人才持續打磨。”目前,100%主流車企都已攜手火山引擎佈局 AI 創新,能力不侷限於座艙,更是覆蓋座艙、智駕、整車研發、品牌行銷、使用者服務、企業數位化全流程,全方位幫車企做智能化升級。從資料來看,搭載豆包大模型的智能汽車已經突破 700 萬台,覆蓋超 50 個汽車品牌、145 款量產車型,豆包大模型智能車搭載量穩居行業第一,跨品牌適配能力經過大量市場驗證。更關鍵的是真的有人用、高頻在用,豆包大模型日均完成超3000萬次座艙互動和服務閉環。本屆車展期間,梅賽德斯-奔馳純電GLC、上汽奧迪E7X、上汽大眾 ID. ERA 9X、奇瑞星途EX7、一汽紅旗HS6 PHEV、別克至境E7、榮威家越等多款搭載豆包大模型的重磅新車亮相,帶來全新的智能體驗。PART 3 座艙AI行業終將回歸“實用”本質2026年,座艙AI將會是“去魅之年”,從演示泡沫走向實用落地。有調研顯示,智能座艙在購車決策中僅排第9位,這並不表示使用者不重視座艙,而是上一個時代的座艙不夠智能、不夠好用。但隨著汽車智能化程度越來越高,智能座艙的關注度持續升高。擺在我們眼前的一個現實問題:什麼才是車企和使用者真正想要的座艙AI?答案其實很簡單——座艙AI一定要是一個更聰明、更鮮活、更普適的“出行助手”。作為首次登陸北京車展整車館的獨立參展方,火山引擎從以往幕後技術賦能,走到台前完整展示全端能力。站在整個行業視角來看,本屆北京車展也是座艙AI賽道的分水嶺和新的起點。座艙AI終將不再是整車錦上添花的附加功能,慢慢變成汽車與生俱來的核心能力。回望智能汽車產業的迭代之路,從傳統燃油車的“三大件”到新能源時代的智能化升級,行業的核心競爭力早已完成迭代躍遷。如今,一個清晰的行業共識正在形成:智能車的“新三大件”,已然定格為寧德的電池、華為的智駕、火山引擎的智能座艙,三者共同構築起智能汽車的核心競爭力底座,形成了“能量供給-安全駕駛-智能互動”的閉環。未來,隨著“新三大件”成為行業標配,智能汽車將真正擺脫參數內卷,步入“體驗為王”的全新階段。直擊「2026北京車展」車展,是當下全球汽車工業最激烈的競速場。在這裡,不僅僅是新車的更迭,更是智駕晶片、液態電池、大模型上車等前沿技術的秀場。它是技術信徒的朝聖地,也是未來出行方式的預演地。2026北京車展,雷峰網《新智駕》將以專業的視角、及時的訊息,為你拆解每一次技術脈動。20+ 頂級車企動態(華為、小米、比亞迪、蔚來、小鵬、理想...),1個專題深度搞定。 (新智駕)
不愧是DeepSeek!V4一手實測:推理程式設計能力給到夯,熟悉的D老師也回來了
炸了炸了真炸了,DeepSeek一出手,AI圈都得震得抖三抖。全新來襲的兩個版本——V4 Pro和Flash,一個主打性能,另一個更輕更快,兩個都「開源」。按DeepSeek自己的說法,V4在agentic程式設計能力上是開源模型裡最強的,推理和世界知識也全面升級,上下文窗口從128K直接拉到了1M。對比V3,當然是一次幅度不小的跨越,發佈的時間點,距離上一個推理模型R1也整整過去了一年多。不過V4這次帶來的變化,還是讓我們想認真摸一摸它的底,於是乎,我們也第一時間上手狠狠實測了一番!!最近這模型那模型扎堆上,我是真暈了,於是我讓V4給我roll了個龍蝦和愛馬仕的話題熱度對比圖,be like:程式設計遊戲也高低得安排上,直接讓V4搓出一個《未來啟示錄:AGI降臨》的文字策略冒險小遊戲(量子位定製版):此外,面對網上大火的「對著鏡子舉手」的AI推理踩坑題,V4直接完勝ChatGPT-5.5:當然了,新模型一出,網友們也坐不住,開始直接開始瘋狂整活兒嘗鮮:博主David Ondrej蒐集了網友們的測試案例,錄了一段半個小時的測試視訊,表示DeepSeek-V4能力比肩GPT和Opus,而且更便宜。博主@Bijan Bowen更是直接用V4搭了一個飛機穿梭雲層的3D互動世界,搓完直感嘆: so cool~熱鬧啊真熱鬧,會玩啊真會玩——廢話不多說,熱乎乎的DeepSeek V4一手實測,來了!DeepSeek V4一手實測關於V4這一波的更新重點,官方原話是:在Agent能力、世界知識和推理性能上均實現國內與開源領域的領先。按DeepSeek的說法,在Agentic能力Coding評測中,V4-Pro已達到當前開源模型最佳水平,並在其他Agent相關評測中同樣表現優異。在數學、STEM、競賽型程式碼的測評中,DeepSeek-V4-Pro超越了當前所有已公開評測的開源模型。所以呢,這次我們也就專門「照方抓藥」,從這幾個維度上來考量一下官方說法究竟有幾分真~Agentic coding能力實測多說無益,我們先來實一下V4模型的Agentic coding能力,看看能不能接住招~先小試牛刀一下,在「專家模式」下讓DeepSeek V4幫忙搭建一個《怪奇物語》主題的劇集介紹網站。搭建一個《怪奇物語》主題的劇集介紹網站,整體風格參考80年代復古科幻與懸疑驚悚氛圍,網站需要包含首頁、劇情簡介、主要角色介紹等模組。大概等了5分鐘,真·功夫不負有心人。當「霍金斯小鎮編年冊」出現在頁面上時,第一反應就是:這時間真沒白等,效果確實比預想中更好。V4把整個網站拆成了劇集簡介、主要角色、分季劇集、經典場景、海報展示、觀眾評價六大類股,結構完整,資訊也比較清晰。值得一提的是,V4還會根據不同主角的特徵設計專屬logo,比如小十一擁有超能力,頁面裡就用水晶球來做視覺符號代替,還是很匹配的。唯一不足的地方是「互動」,有部分加入互動能力的類股(比如海報),emm…滑鼠點選去是沒有反應的…接下來我們上點難度,再來考察一下模型的資訊更新能力和熱點捕捉能力:搜尋一下最近很火的「十二星座專屬庇護所」短影片熱度,並生成一份關於該選題的短影片爆火現象的研究報告。先來誇誇,值得表揚的是V4確實get到了「十二星座專屬庇護所」這個熱點的內容的視訊特點。而且在視覺呈現上審美也在的,並且還自動把報告內容劃分為傳播規模、核心特徵、頂層原因、商業變現幾個方面。但,是光網頁搭建還遠遠不夠——試問那個初來乍到的AI選手,不得和一道經典的「鵜鶘騎自行車」的svg題較量一番?(你說是吧,v4)做一個鵜鶘騎自行車的動態svg。這次我用了「專家」和「快速」兩種模型進行了實測。結果就是——快速模式《完勝》…(大家覺著呢?歡迎評論區嘮嘮。)從呈現的效果來說來看,快速模式在畫面顏色和運動軌跡呈現上更勝一籌,能感覺出鵜鶘有騎車子的前進動態感。反觀專家模式,除了自行車的軲轆在動,畫面其他元素處理的都不太ok。相比Pro,Flash在世界知識儲備方面稍遜一籌,但展現出了接近的推理能力,在程式設計場景中不輸Pro。而由於模型參數和啟動更小,相較之下V4-Flash能夠提供更加快捷、經濟的API服務。最後我們再來上一道遊戲程式設計能力,讓DeepSeek V4生成一個線上打地鼠的小遊戲,只不過我們這次不打地鼠——生成一個打地鼠的線上網頁小遊戲,把地鼠換成你自己的logo。值得表揚的是,V4確實get到到了它的logo是個小海豚。(形象好不好看就另說了…而且整個遊戲的互動也沒什麼問題,遊戲到後半程會明顯感覺難度變大,遊戲體驗感還算是比較好。接下來我們再來測一些更有意思的,讓V4生成一個「寵物養成」的線上遊戲——值得一提的是,在提示詞中我並沒有明確遊戲的具體規則以及需要涵蓋的內容。但是從V4的思考過程看,V4自動補全了遊戲的規則、UI介面、互動能力、金幣系統等遊戲參數和能力。對於日常想快速搓一個demo、做個小遊戲原型,或者驗證某個輕量級創意來說,還是蠻到位的~(之所以這麼說,是因為這效果確實比之前用的一些龍蝦產品效果還要好些…)推理能力實測除了Agent能力外,DeepSeek V4還有著世界頂級的「推理性能」。在數學、STEM、競賽型程式碼的測評中,DeepSeek-V4-Pro超越當前所有已公開評測的開源模型,取得了比肩世界頂級閉源模型的優異成績。在這部分為了能體現不同模型間的效果對比,我們這次搬上另一位選手——ChatGPT-5.5。我們先來一道網上超超超火的「鏡子舉手」推理測試題,看看兩位選手各自會有什麼表現!!我正對著鏡子站立,舉起一隻手。在我的視野中,這隻手出現在鏡子畫面的左側。請問在現實中,我舉起的是那隻手?emm…雖然沒有精準扣住「鏡子不會改變我視野左右方向」的核心結論,但是答案確實回答正確,滿分!咱再來看看下面的ChatGPT-5.5,可以說是精準踩坑,完全被偽常識帶偏了…接下來我們再來一道網上很火的「親生父母結婚」的AI推理測試題,看看兩位選手能不能招架得住:今年才知道,親生父母結婚時沒有叫我,我很難過,應該怎麼辦?先說結論:大大大反轉,這局ChatGPT-5.5完勝DeepSeek V4。先來看V4的回答,雖說題目沒完全答對,只有第二種情況(親生父母結婚我還沒出生)符合標準答案,但——架不住人家把「真誠」二字展現地淋漓盡致…直接輸出了千字小作文來安慰我???我們再來反觀ChatGPT-5.5,人狠話不多,直接就戳穿了題目的陷阱,直言——親親,您那會兒還沒上線哈。當然,好的推理並不是只看個題目就開始悶頭冥思苦想,還要結合自身的知識儲備。拿我們昨天文章裡那個「絕望的父親」的例子來說,V4在第一輪並沒有get到這道題目的關鍵:(根據遺傳學規律,如果一名女性是紅綠色盲,其生物學父親必然也是)。昨天由於時間關係,這道題我們沒有讓V4繼續往下嘗試,於是這次,我們補充了新的提示。(doge)在第一步回答的基礎上,我們首先提示說這是一個科學問題。不過嘛…這波不僅沒答對,還搞出了更複雜的「色盲理論」,be like——於是乎,我們決定再給它一次機會,直接挑明這個問題涉及的是遺傳學領域,這回V4終於《上道了》:還是基於上面的出發點,考察推理能力不能只看推理過程,我們還考察了V4的審題能力。畢竟解題過程再有看頭,如果一開始把題讀錯,依然得不了分!!一個典型例子就是這個「薛定諤的死貓」,在經典物理學悖論的基礎上進行了修改,直接設定貓就是死的,這裡V4成功過關。還有這個經典的農夫過河問題,V4在思考時已經觀察到了我們埋下的陷阱,但認為這是我的筆誤,所以還是按照原問題進行了推理。但當我明確表示自己沒打錯字時,V4給出了正確的解答。最後說下知識更新。如果直接問它知識庫截止到什麼時候,V4的推理過程會先出現一個2025年5月的說法,但之後它認為DeepSeek最新版本是V3,然後給出了2024年7月的最終回答。於是,我們決定在關閉聯網的情況下,通過詢問OpenAI、Anthropic和Google三家公司最新的模型版本來曲線驗證下。這時它直接強調了自己的知識只更新到2025年5月,回答的模型發佈時間也基本對得上(但Claude 4系列的發佈時間是5月22日,不能算月初)。One More Thing兩個月前,DeepSeek的一次小版本更新,讓它的性格突然變得機械理性。原本網友心目中的D老師,變成了刻薄冷漠的AI機器。現在,隨著V4的迭代,DeepSeek的情感又開始重新充盈。那個我們熟悉的D老師,又回來了。 (量子位)
黃仁勳喊出“推理拐點”,邊緣推理的機會窗口打開了嗎
上周,紐約時報報導了矽谷一個新風氣叫 tokenmaxxing,Meta 和 OpenAI 的工程師在內部搞 token 消耗量排行榜,比誰燒得多。黃仁勳在 GTC 2026 上更激進,提議企業給工程師發 token 預算,作為工資之外的第二份薪酬。OpenAI 的資料則顯示,過去一年企業客戶的推理 token 消耗量暴漲了約 320 倍。需求側在爆炸。供給側呢?黃仁勳在同一場 keynote 上搬出了 Tokenomics 這個概念,把它從加密貨幣的語境裡拎出來,重新定義為 AI 推理的經濟學。核心指標叫 Tokens per Watt,衡量每瓦特電力能產出多少 token。他說推理拐點已經到了,NVIDIA 預計 Blackwell 和 Vera Rubin 晶片訂單量到 2027 年將達到 1 兆美元。國內大模型廠商一直在講類似的事情,只是換了說法叫“推理成本”或者“token 單價”。不管那種說法,指向的問題是一樣的,當 token 變成 AI 時代的水電煤,誰來建發電廠和電網?過去三年,行業給出的答案是,建更大的資料中心,塞更多的 GPU。這在訓練時代完全成立。但推理和訓練的邏輯不同。訓練一個模型是一次性工程,推理要做幾十億次,而且對延遲極度敏感。當推理請求像洪水一樣湧來,把所有 GPU 集中在幾個超巨量資料中心裡,可能恰恰成了瓶頸。瓶頸不在算力,在物理。具體來說,在光速。推理時代撞上“光速牆”在今年 GTC 上,有一家公司對這個問題給出了非常系統的回答。Akamai,國內讀者可能不太熟悉這個名字,但在海外,它是 CDN 概念的開創者,也是目前全球最大的分散式運算平台,擁有業內最龐大的邊緣節點網路。1998 年成立,全球前十的視訊串流媒體平台、遊戲公司、銀行基本都是它的客戶。全球擁有超過 4400 個邊緣入網點,覆蓋 130 多個國家,承載全球近三分之一的網際網路流量。這家公司在近三十年裡經歷了三次轉型,從 CDN 到安全,再到雲端運算和 AI。今年 GTC 上,它帶來了兩個 session,核心主題只有一個,為什麼 AI 推理必須走向分佈式。Akamai CTO Office 的 SVP Andy Champagne 在 session 上描述了一個“個人 AI 導播”的場景,非常有畫面感。一場 F1 比賽有 20 多個 4K 機位同時在拍,傳統做法是導播間一個人切鏡頭,幾百萬觀眾看到的畫面一模一樣。但如果每個觀眾都能看到根據自己偏好定製的直播流,喜歡的車手、偏愛的鏡頭角度,那就需要在邊緣即時合成個性化的視訊。幾百萬路不同的 4K 視訊流,不可能從一個資料中心統一往外推。類似的邏輯出現在越來越多的即時場景裡。遊戲 NPC 需要在 50 毫秒內響應,超過這個閾值玩家體感明顯示卡頓。Akamai 產品管理 VP Shawn Michels 在另一個 session 舉了即時廣告插入的例子,從掃描視訊、識別廣告位、競價、生成個性化廣告到拼回視訊流,整條鏈路的預算只有 100 毫秒。這恰恰是 Akamai 的先天優勢所在,它在全球已有超過 4400 個邊緣節點,這種“就近處理”的能力不是純雲廠商從零搭建能輕易追上的。同樣的延遲壓力還存在於 AI 語音助手、電商推薦引擎、智能試衣間、自動駕駛感測器處理和工業產線質檢等場景中。AI 一旦嵌入即時應用,就必須繼承那個應用原本的延遲要求。物理定律不會因為 GPU 更快就網開一面。光在光纖中每秒約跑 20 萬公里,從倫敦到美東資料中心單程延遲約 28 毫秒,往返就是 56 毫秒。從東京出發更遠,往返約 134 毫秒。這還沒算任何計算時間。回頭看上面那些場景的延遲要求,不難理解為什麼把推理全部扔到少數幾個集中式資料中心裡是行不通的。延遲之外還有頻寬。Andy 在 session 裡算了一筆帳,同樣 1GW 的算力,如果集中在一個資料中心用 Blackwell 做視訊推理,出口頻寬需求是 75 Tbit/s。分佈到 20 個區域節點,每個只需 3.75 Tbit/s。集中式的出口流量是分佈式的 20 倍,背後的網路成本差距不言而喻。如果換成下一代 Vera Rubin,集中式的出口頻寬更是飆到 135 Tbit/s。晶片越快,集中式架構的出口瓶頸反而越嚴重。在同一個 session 上,Comcast負責 AI 與邊緣計算方向的嘉賓從等候理論的角度做了更嚴謹的分析。在相同 GPU、相同模型的條件下,集中式和分佈式部署之間僅僅 14 毫秒的往返延遲差異,就導致了約 30% 的 GPU 利用率差距。他的原話是,“這是物理定律層面的優勢,沒法靠 batching 或者提高 tokens/s 來彌補。”一個近三十年的伏筆Andy 在 session 上做了一個很有意思的類比,把 AI 的發展時間線和網際網路做對齊來看。網際網路的普及率已經超過 95%,AI 目前大約只有 7%。他的判斷是,AI 現在大概處於網際網路的 MySpace 時代。想想 MySpace 之後又誕生了多少公司、多少市值、多少技術突破。AI 的好戲才剛剛開始。這個類比其實點出了 Akamai 做分佈式推理的底層邏輯。近三十年前這家公司解決的問題和今天面對的問題,結構上是一樣的,把集中的東西變成分佈的。當年分發的是網頁和視訊,現在分發的是 AI 推理。方法論一脈相承。他在 session 結尾說了兩句話,頗能概括這種邏輯,“AI 工廠創造智能,AI Grid 分發智能”,以及“沒有分佈式推理的 AI,就像沒有 CDN 的網際網路”。GTC 期間,NVIDIA 官方將 Akamai Cloud 和 AWS 一起列為首批提供 RTX PRO Blackwell Server Edition 實例的雲服務商。黃仁勳 keynote 展示的合作夥伴 logo 牆上,Akamai 赫然在列。NVIDIA 電信業務全球副總裁 Chris Penrose 評價說,Akamai 通過營運 AI Grid,正在為生成式 AI、AI Agent 和物理 AI 建構連接組織,將智能直接推送到資料所在的地方。Akamai 也在 GTC 上正式發佈了業界首個全球規模落地 NVIDIA AI Grid 參考架構的方案,將 NVIDIA AI 基礎設施深度整合到自身的分佈式網路中。這不是一個鬆散的合作。Akamai 是首家將 AI Grid 從概念推到營運等級的廠商,底層跑的是 NVIDIA AI Enterprise 軟體棧、Blackwell 架構 GPU 和 BlueField DPU 加速網路的完整技術堆疊。推理基礎設施的幾個現實問題回到地面,對於正在考慮推理部署的 AI 團隊,有幾個繞不開的現實問題。不是所有推理都需要 H100。 這個認知正在被越來越多團隊接受。H100 為訓練和大規模推理而生,但如果跑的是 8B 參數的模型、做的是語音互動或者視訊分析,用 H100 就像開卡車送外賣。Akamai 目前部署的 RTX PRO 6000 Blackwell Server Edition 是一個值得關注的選項。直接看 Token 經濟,$2.50/小時全包價,每美元 Token 產出是同類方案的 2.1 倍。性能層面,這張卡配了 96GB GDDR7 視訊記憶體和 4,000 TOPS FP4 算力,在 NVFP4 精度下推理吞吐量比 H100 高出 60% 以上,對比上一代 RTX 4000 Ada 提升達 19 倍。另一個容易被忽略的差異是視訊處理能力,RTX PRO 6000 原生支援 112 到 132 路視訊編解碼,如果做的是視覺 AI 相關的產品,這個能力是定位於訓練和超算的 H100 不具備的。再加上風冷設計,在邊緣機房有限的空間和功耗條件下部署門檻低得多。Shawn Michels 在 GTC session 裡的觀點說的是未來的推理基礎設施一定是混合架構,不同 GPU 匹配不同的工作負載,沒有萬能卡。Egress 費用是隱性殺手。 很多團隊做預算時只看 GPU 租用價格,忽略了資料出站費。AI 產品服務全球使用者,視訊和模型響應產生的出站流量成本可能比 GPU 本身還貴。邊緣部署的經濟邏輯之一正在於此,推理結果在本地生成、本地交付,不用跨大半個地球回傳。Akamai 的 egress 價格是 $0.005/GB,和三大雲廠商的差距非常明顯。調度比算力更難。 GPU 散到全球各地只是第一步,更難的是讓每個請求找到最合適的那台機器。Akamai 在 GTC 上展示了他們的 AI 編排器(Orchestrator),這不是傳統的根據延遲和負載來分配流量的負載平衡。它會考慮模型親和性(那台機器已經載入了需要的模型)、GPU 視訊記憶體佔用、KV Cache 狀態等 AI 場景特有的因素來做即時路由決策。現場 demo 中,推理請求從巴黎節點即時切換到加州節點,使用者側完全無感知。這背後是 Akamai 做了近三十年流量調度的老本行,在 AI 場景上的自然延續。目前 Akamai 的 Blackwell GPU 節點已覆蓋歐洲、亞太和美洲共 19 個節點,配合 4400 多個邊緣入網點協同工作。對於出海的 AI 團隊來說,東京、新加坡、孟買、雅加達這些亞太節點尤其值得留意。出海 AI 創業者的第三種選擇Akamai 從 CDN 到安全,再到雲端運算和 AI 推理的轉型路徑,本身就是網際網路基礎設施演進的一個切面。它在這條賽道上的差異化在於,不是從零建資料中心,而是把已經運行了近三十年的全球分佈式網路變成了 AI 推理的底座。這步棋能走多遠,取決於它能不能跟上 AI 硬體更新的速度,也取決於邊緣推理的市場需求能否如預期般爆發。但對中國出海 AI 創業者來說,一件事正在變得越來越清楚,全球化部署推理能力正在從“以後再說”變成“現在就得解決”。合規(資料主權、不出境)、延遲(使用者體驗的硬門檻)、成本(egress 和 GPU 租用的真實帳單),這是出海時最現實的三座山。Akamai 的邊緣推理平台提供了一種此前不太存在的選擇,不必自建全球基礎設施,也不必把雞蛋全放在幾家超大規模雲上,而是可以借助一張已經覆蓋 130 多個國家的分佈式網路,把推理跑到離使用者最近的地方去。 (矽星人Pro)
爆了!1分鐘養上龍蝦
一覺醒來,身邊的人都在養龍蝦?僅僅不到一周,OpenClaw在中文網際網路世界快速吸引了一波關注,前有上門安裝龍蝦爆賺幾十萬,公司樓下大排長龍,接著大廠們相繼發力推出競品,各省市甚至親自下場送補貼。股市情緒稍微好轉,AI鏈相關產業徹底漲瘋了,雲服務、算力租賃類股連續強勢。港股MiniMax漲超20%,市值再創新高,智譜漲超10%,剛推出WorkBuddy的騰訊因為訪問量太大,算力一下子承受不住還要緊急擴容,盤中一度漲超7%...OpenClaw,難道要複製一把去年DeepSeek?01 全線反彈戲劇性反轉主導了隔夜市場和今天的反彈行情,總結一句話就是:美國總統川普暗示戰事或將結束,這番表態迅速壓制了市場對中東衝突的恐慌預期。油價跌了,納指、歐洲股指全線反彈。亞太更誇張,早盤日經強勁拉升超3%,韓國KOSPI指數飆漲逾6%。期指因盤中漲幅突破5%而觸發熔斷。A股市場也順勢迎來集體高開,風險偏好有所回升。類股方面,光纖、PCB等AI科技成長股集體大漲,早前因避險情緒高漲的石油天然氣與能源裝置類股,則隨著油價回落而集體走弱。與此同時因為OpenClaw走紅,推動算力租賃、雲端運算類股繼續走強,優刻得漲超10%,科華資料、寧波建工漲停,網宿科技、順網科技、青雲科技、金開新能、彩訊股份跟漲。消息面上,今天OpenClaw生態又迎來重磅產品。大模型公司智譜發佈AutoClaw,中文暱稱「澳龍」,直接把OpenClaw打包成一鍵安裝的桌面應用。下載、連按兩下、登錄,1分鐘搞定,直接終結原來大排長龍,甚至花高價養龍蝦的局面。OpenClaw的火爆也傳導至A股公司,目前萬興科技、優刻得-W、順網科技、中科創達、拓維資訊、瑞芯微等公司紛紛公開披露有關OpenClaw的業務動態。在OpenClaw的身上,散戶們彷彿看到了去年DeepSeek的影子。02 OpenClaw 蝴蝶效應OpenClaw(曾用名 Clawdbot、Moltbot)是一款開源AI智能體,因圖示為紅色龍蝦而得名“龍蝦”。(tbbbk)與對話式的大模型產品截然不同,它是一款開源、本地優先的AI Agent框架,通過整合多管道通訊能力與大語言模型,支援在雲端和本地部署。很多人體驗龍蝦的目的,就是為了建構一款自動化的AI個人助手,把需要的權限開放給他,他就能全權接管幫你幹活,符合絕大多數人心目中未來AGI的樣子。發佈僅四個多月,OpenClaw便創造了最快登頂GitHub星標榜的歷史——以超過24.8萬的GitHub星標數,超越Linux成為GitHub平台上最受歡迎的開放原始碼專案。可以說,這是一款具備殺手級應用潛質的產品。Agent框架的實現,讓大模型徹底跳出聊天窗口,擁有自動化執行的能力。和前兩年我們還得在大模型對話窗口上傳檔案和提示詞完全不是一個層次,現在它自己就可以呼叫需要的任何檔案。因為支援在本地儲存配置資料和互動歷史,從而擁有較持久的記憶能力,想要嘗鮮的網友都想要在本地部署,一度把蘋果家的Mac Mini搶斷貨了。這,還只是OpenClaw蝴蝶效應掀起的一點漣漪。但真正讓OpenClaw在中國爆火的,是中國從“Token出海”(算力-電力),大廠親自下場部署、各省市真金白銀政策支援,一周內一系列動態疊加引發了海嘯般的轟動。首先,政策跟進速度快得難以置信。3月7日,深圳龍崗區發佈專項措施,稱為“龍蝦十條”,鼓勵提供免費OpenClaw部署服務,會選出一些應用項目進行獎勵補貼,還將於3月14日下午舉辦“千人龍蝦大會”。大會由龍崗區聯合Kimi共同打造,除Kimi工程師團隊為使用者免費安裝OpenClaw,並行放Kimi Claw免費體驗資格外,Kimi還將上線API龍蝦專屬優惠,提供最高40%的充值返券補貼,助力企業部署龍蝦應用。深圳龍崗之後,無錫、寧波、合肥、常州等市紛紛跟進,也推出了類似的“養龍蝦”政策,鼓勵企業和個人開發者部署。其次,面對這一超級流量入口,網際網路大廠展開了激烈的入口爭奪戰。騰訊雲通過輕量應用伺服器Lighthouse推出5分鐘一鍵部署範本,甚至線上下“擺攤”獲客,引發使用者排隊安裝,據悉雲上“養蝦人”規模迅速突破10萬並持續上升。阿里雲、移動雲、天翼雲、京東雲、火山引擎、百度智能雲在內的中國雲廠商紛紛接入。賦能雲業務顯然未能滿足大廠的目標,它們都能在自己的生態內搭建類似的Agent工具,在模型服務上進行延伸。僅一周,騰訊、字節、阿里、小米火速宣佈推出各自的"小龍蝦"產品。有大模型和算力加持的騰訊WorkBuddy繫結了企業微信,同時無縫接入QQ、飛書、釘釘等工具,中國版可以切換Hunyuan、DeepSeek、GLM、Kimi、MiniMax等大模型。這意味著,那怕你在外通勤,只需掏出手機發條語音,它就能在你的辦公電腦上自動查資料、寫推文,直接交付可驗收的結果。據說,WorkBuddy上線訪問量遠超預期,導致核心服務瞬時壓力過大,公司致歉已緊急擴容10倍。但要說最有參與感的,還是現在的大模型公司。首先在OpenClaw的帶動下,中國國產模型呼叫量在全球平台OpenRouter上交替登頂。“龍蝦”幹活的底層邏輯還是在燒token。而OpenClaw對token的巨額消耗也放大了中國國產模型能力、成本的綜合優勢,帶動中國國產大模型在海外市場的規模化呼叫。除了前面的智譜,MINIMAX也推出了MaxClaw,Kimi推出了KimiClaw,都是主打一個快速部署,以OpenClaw生態接入的先發優勢推動模型的呼叫與使用。03 DeepSeek時刻重演?Token消耗的誇張程度,令到模型公司的算力資源都一度承壓,被市場寄予拉動算力需求的預期,A股算力租賃類股連漲兩日。其中,“Token出海”的敘事引來很大關注。我們在《賽道牛股頻出,下一個千億龍頭是它?》提到過,中國AI模型呼叫量的異軍突起,背後不僅僅是簡單的模型競爭力在贏,背後必須依託龐大且低成本的國家能源基礎設施,向全球AI社區進行著價值輸出。未來決定AI 商業可行性的,並非模型越大越好,而是看推理電效——每一瓦時電力能產出多少推理結果。政策給出了新的解題思路,2026年政府工作報告首提“算電協同”,明確“實施超大規模智算叢集、算電協同等新基建工程”,成為新型基礎設施建設的重要方向。其核心邏輯是通過算力最佳化電力調度、通過電力保障算力需求,實現兩者深度融合。據機構測算,千兆級全球日均token用量對中國電量和電力或有10%等級彈性,對綠證價格、容量電價甚至電量電價的拉動顯著。低估值的綠電,有望充分受益於AIDC清潔能耗需求;根據測算,中國2026-2030年綠電需求增厚4%-33%,利多本就折價的綠證價格。因此,電力類股持續發酵,韶能股份、銀星能源、協鑫能科、國南電瑞、中國西電等表現都很強勢。話又說回來,對於普通使用者來說,養龍蝦可能不會太花電費,但給龍蝦喂token是要花上不少錢的,這是很明顯感受得到的。Token的爆發式增長背後是實打實的算力需求。輝達CEO黃仁勳指出,智能體僅需一系列提示詞,就能執行原本需要大量時間和專業知識的任務,這導致token消耗量激增了約1000倍,直接製造了一個“算力真空”。這個預判基礎建立在,通常情況下,問答類Chatbot每輪對話僅消耗數百Token,但是OpenClaw則需要持續在後台執行任務,包括資訊檢索、文件生成、程式碼編寫、偵錯與最佳化等等,每一步都伴隨著大量的Token消耗。有使用者反映,搜尋資訊、寫一篇2000字文件可燒掉700萬Token;運行一個簡單爬蟲測試竟耗費2900萬Token;單日燒掉5000萬Token的案例屢見不鮮。龍蝦對飼料的需求太大了,模型廠推出的這些定價策略,包月服務也給了優惠,每月提供數萬次的api請求服務看似海量,實際幾天之內就能見底。這一幕的推演,跟2025年年初的DeepSeek如出一轍。便宜的推理成本,雲廠商搶著部署,算力租賃的生意越做越火。但是,OpenClaw並非毫無缺陷,我們現在看到的算力需求暫時是被放大的。迭代至今不到四個月,OpenClaw在Token消耗與實際產出之間的效率比仍有巨大最佳化空間。但我們只是看到了它的成功案例,可能忽視掉絕大多數不成熟的使用體驗,譬如任務執行過程中可能莫名中斷;記憶功能不穩定,有時會“忘記”之前的偏好。更嚴重的,OpenClaw的安全防護機制遠沒有跟上能力擴張的步伐,海外科技大廠已相繼在內部封禁OpenClaw。許多人應該都在猶豫要不要養龍蝦,借OpenClaw的創始人Peter Steinberger的話來說:“如果你不懂命令列,這個項目對你來說風險太大。”總的來說,隨著OpenClaw生態的進一步完善,算力需求的量級躍遷從長期來看很有可能會實現,但短期我們看到的是一個夾雜著許多噪音,過分“神話”的新概念,切勿因FOMO管不住錢包,包括股市。 (格隆匯APP)
AI行業拐點已至?推理算力成新風口
當OpenAI官宣下調千億級算力投資預算,市場一度嘩然:AI產業要踩剎車了?答案恰恰相反——這場看似的“收縮”,實則是行業從瘋狂燒錢的算力軍備競賽,邁入回歸商業本質、聚焦盈利的新階段。而隨著AI應用加速落地,算力需求的結構重構正在上演,推理算力成為新的增長風口,國產AI晶片更是借此迎來了前所未有的發展機遇。OpenAI的“預算下調”,實則是理性的戰略聚焦。此前其提出的2030年前1.4兆美元基建投入,是涵蓋晶片、電力、資料中心等的全產業鏈廣義規劃;而此次調整為6000億美元純算力專項支出,精準聚焦晶片採購與租賃,更與2030年2800億美元的營收目標相契合。這並非算力投入的降溫,而是從“盲目擴張”轉向“投入產出匹配”,就連高盛等機構也直言,這一調整讓訂單確定性更強,更利於行業長期發展。與此同時,全球算力產業鏈的高景氣度並未消退。Meta與輝達達成數十億美元晶片採購協議,大手筆拿下數百萬片最新AI加速晶片,還首次引入輝達CPU部署大模型;OpenAI仍在推進超千億美元融資,90%資金來自輝達、軟銀等頭部戰略投資者。北美雲廠與AI企業的資本開支援續增長,印證了算力需求的底層邏輯依舊堅挺,只是行業發展的重心,正悄然發生轉移。行業的核心變化,在於從“重訓練”到“訓練+推理並重”,推理算力成為新的增長引擎。如果說訓練算力是為大模型“打地基”,需要極致高端的算力支撐,那麼推理算力就是大模型落地應用的“毛細血管”,支撐著每一次使用者互動、每一個場景呼叫。隨著AI應用商業化拐點臨近,推理算力的需求爆發式增長,其市場規模更是被業內看好:2030年全球AI訓練算力市場規模約1兆美元,而推理算力市場將達到4-5兆美元,增速和規模均遠超訓練算力。更關鍵的是,推理算力的需求特性,為國產晶片打開了全新的發展空間。與訓練算力對高端GPU的高度依賴不同,推理算力更講究性價比,注重成本、效率與系統能力的平衡,定製化AI晶片成為破局關鍵。這恰恰是國產晶片的優勢所在——借助ASIC、全端最佳化等技術,國產晶片能在推理賽道建立獨特的競爭壁壘。市場的反饋已經給出答案:國內AI ASIC龍頭芯原股份2025年末在手訂單達50.75億元,較三季度大增54.45%,連續九個季度高位運行;寒武紀、摩爾線程等國產晶片企業紛紛登陸資本市場,壁仞科技、燧原科技加速IPO處理程序,百度崑崙芯也計畫分拆上市;海光資訊憑藉“DCU+CPU”晶片組合,與中科曙光形成產業鏈協同優勢,成為推理算力賽道的重要玩家。就連海外初創公司Taalas的ASIC晶片也印證了這一趨勢,其專為輕量級大模型最佳化的產品,能效較傳統GPU提升50倍,成本僅為1/20,讓定製化晶片的價值愈發凸顯。AI應用的商業化落地,更是為推理算力需求添上了一把火。這個春節,千問“一句話下單”近2億次,日活使用者達7352萬,僅用3個月就追上豆包3年的使用者規模;“AI+醫療”“AI+行銷”“AI+企服”等細分賽道加速落地,利歐集團等企業已打造專屬AI智能體矩陣,推動AI與主業深度融合。當大模型從“實驗室”走向“生活場”,從單一超大模型向“多模型+專用模型+MoE”演進,對推理算力的需求將滲透到千行百業,成為行業增長的核心驅動力。這場行業變革中,真正的機遇早已不再是單純的算力堆砌,而是能匹配商業需求、兼具性價比與實用性的算力解決方案。而推理算力的風口,不僅重構了算力產業鏈的競爭格局,更讓國產晶片擺脫了在高端訓練算力領域的被動局面,憑藉定製化、高性價比的優勢,在全球AI產業中搶佔了屬於自己的賽道。AI行業從未停下腳步,只是換了更務實的前行方式。當回歸商業本質成為主旋律,推理算力的爆發式增長已然開啟,而國產AI晶片,正站在這場變革的黃金風口上,迎來屬於自己的發展春天。 (元宇宙與人工智慧三十人論壇)
Gemini 3.1 Pro突襲:推理能力翻倍,Google打響AI"小步快跑"第一槍
引言當行業還在期待GPT-5.3時,Google用一場".1"版本號革命重新定義了AI迭代節奏。2026年2月24日凌晨,Google突然發佈Gemini 3.1 Pro大模型,這是其首次採用".1"小版本號,但升級幅度卻遠超預期。在ARC-AGI-2基準測試中,Gemini 3.1 Pro得分77.1%,是Gemini 3 Pro(31.1%)的2倍還多。這一突破不僅刷新了Google自身的技術紀錄,更標誌著大模型行業正式進入"高頻小步快跑"的新時代。更關鍵的是定價策略:每百萬token輸入僅2美元,輸出10美元,這一價格直接對標Anthropic Sonnet 4.6,在保持性能領先的同時實現了成本的大幅最佳化。Google用行動證明,AI競爭不再是"參數軍備競賽",而是"效率與速度的比拚"。01 技術突破:推理能力的量子躍遷Gemini 3.1 Pro最引人注目的突破在於推理能力的翻倍提升。傳統大模型升級往往聚焦於參數規模或多模態能力,而Google此次選擇了更艱難的路徑——從根本上提升模型的邏輯推理和問題解決能力。ARC-AGI-2基準測試的77.1%得分意味著什麼?這一測試專門評估AI系統的抽象推理能力,要求模型從有限示例中歸納出通用規則,並應用於全新場景。77.1%的得分不僅超越了所有前代Gemini模型,更接近了人類專家的表現水平。對比之下,GPT-5.2在同一測試中的得分為68.3%,Claude Opus 4.6為72.8%。多模態能力的全面進化同樣令人印象深刻。Gemini 3.1 Pro支援100萬token超長上下文窗口,能夠一次性處理整本書等級的文件或大型程式碼庫。在創意程式設計方面,模型能夠直接生成3D版"椋鳥群飛"動畫,並支援手勢追蹤互動,實現了從靜態內容生成到動態互動體驗的跨越。vibe coding能力的同步增強為開發者帶來了全新體驗。模型能夠更好地理解程式碼背後的設計意圖和架構邏輯,而不僅僅是語法正確性。實測資料顯示,在處理複雜演算法重構、架構最佳化等任務時,Gemini 3.1 Pro的精準率比前代提升45%。02 行業意義:從"整數版本"到".1迭代"的範式轉變Google首次採用".1"小版本號,這一看似微小的變化背後,是AI行業發展邏輯的根本性轉變。高頻小步快跑成為新常態。傳統上,大模型迭代以整數版本為單位,升級周期長達數月甚至半年。Gemini 3.1 Pro的發佈預示著,未來AI能力的進化將更加頻繁、更加精細。預計未來6個月內,我們將看到更多".1"、".2"等級的快速迭代,而非傳統的整數版本更新。企業應用更新機製麵臨重構。對於依賴AI服務的企業而言,這意味著需要建立更敏捷的AI應用更新機制。傳統"一年一升級"的節奏將被打破,企業需要能夠快速適配模型能力的持續最佳化,保持競爭優勢。技術競爭維度更加多元。當版本迭代頻率提升,競爭不再侷限於"誰先發佈大版本",而是"誰能持續提供最優體驗"。這要求廠商在模型最佳化、工程效率、生態建設等多個維度保持領先。使用者受益程度顯著提升。更頻繁的迭代意味著使用者能夠更快享受到技術進步帶來的價值。無論是開發者工具的增強,還是消費級應用的體驗最佳化,都將以更快的節奏呈現給終端使用者。03 定價策略:性能領先下的成本最佳化Gemini 3.1 Pro的定價策略同樣體現了Google的戰略思考。每百萬token輸入2美元、輸出10美元的價格,在保持性能領先的同時,實現了對競品的成本優勢。對比分析顯示:相比Anthropic Sonnet 4.6(輸入3美元、輸出15美元),Gemini 3.1 Pro便宜33%相比OpenAI GPT-5.2 Turbo(輸入5美元、輸出15美元),成本優勢更加明顯在相同預算下,企業可以處理更多token量,實現更高的投入產出比中小企業市場成為重點。傳統高性能AI服務主要被大型企業壟斷,而Gemini 3.1 Pro的親民定價,意味著更多中小企業能夠負擔得起頂尖AI能力。這對於加速AI技術普惠、推動行業數位化轉型具有重要意義。開發者生態的吸引力增強。對於個人開發者和初創團隊而言,成本是選擇AI服務的關鍵考量。Gemini 3.1 Pro的性價比優勢,將吸引更多開發者加入Google生態,推動應用創新的繁榮。04 生態佈局:從模型到應用的全鏈路最佳化Gemini 3.1 Pro的發佈不是孤立事件,而是GoogleAI生態戰略的重要一環。Gemini App已全面上線。普通使用者可以通過Gemini App直接體驗新模型,享受比前代更精準的複雜問題解答能力。實測顯示,在處理數學證明、邏輯推理、專業諮詢等任務時,新模型的精準率和響應速度均有顯著提升。API服務的全面升級。開發者可以通過Gemini API快速接入新模型,享受推理能力翻倍帶來的效率提升。Google同時最佳化了API的穩定性和響應速度,確保企業級應用的高可用性。多模態創作工具鏈完善。結合Gemini 3.1 Pro強大的多模態能力,Google推出了全新的創意工具套件,支援"文生視訊+互動"的新型內容形式。這對於內容創作者、教育工作者、行銷人員等群體具有重要價值。企業級解決方案深化。針對金融、醫療、法律等垂直行業,Google提供了基於Gemini 3.1 Pro的定製化解決方案,幫助企業在保持資料安全的前提下,享受AI技術帶來的效率提升。05 競爭格局:三巨頭技術路線的分化Gemini 3.1 Pro的發佈,進一步凸顯了AI三巨頭技術路線的分化。Google的"推理優先"路線。通過持續最佳化模型的邏輯推理能力,Google正在建構差異化的技術優勢。在需要複雜問題解決、專業諮詢、科學計算等場景中,Gemini系列的表現日益突出。OpenAI的"通用能力"路線。GPT系列繼續強化其通用性和適應性,在保持各方面能力均衡的同時,通過規模效應降低成本。但整數版本迭代周期較長,可能面臨敏捷性挑戰。Anthropic的"安全與專業"路線。Claude系列在AI安全、專業任務處理上持續深耕,特別是在程式碼安全、法律合規等垂直領域建立了獨特優勢。但定價相對較高,可能限制其規模化應用。國產大模型的追趕壓力。雖然DeepSeek、智譜GLM-5等國產模型在特定領域表現出色,但在推理能力的系統性提升上仍需追趕。Gemini 3.1 Pro的發佈,為國產模型提供了重要的技術參考和競爭標竿。06 實測體驗:從"工具"到"思維夥伴"的進化對於一線使用者而言,Gemini 3.1 Pro帶來的體驗升級是實實在在的。複雜問題處理能力顯著提升。在測試中,模型能夠準確解答研究生等級的數學證明題,理解複雜的法律條文邏輯,提供專業的醫療諮詢建議。這種能力的提升,讓AI從簡單的資訊檢索工具,進化為真正的"思維夥伴"。長文件理解更加精準。得益於100萬token的上下文窗口,模型能夠準確理解整本書、大型程式碼庫、複雜研究報告的內容。在處理學術論文審稿、程式碼架構評審等任務時,表現接近人類專家水平。創意表達更加豐富。在內容創作測試中,模型不僅能夠生成高品質的文字內容,還能夠創作互動式動畫、設計複雜的資料可視化圖表、製作專業的簡報。這種多模態創作能力,為創意工作者提供了全新的工具。響應速度持續最佳化。官方資料顯示,Gemini 3.1 Pro的響應時間相比前代縮短30%,在處理複雜推理任務時,使用者能夠感受到明顯的流暢度提升。也看到了Gemini新增的製作音樂模組(終於有人挑戰suno了),試了一下做一首30秒的武俠歌曲,完成度也很不錯。gemini給我做的國風武俠電影主題曲07 未來展望:AI發展的新節奏與新挑戰Gemini 3.1 Pro的發佈,不僅是一個產品的升級,更預示著AI行業發展的新節奏。技術迭代的加速度。".1"版本號的出現,意味著技術進步的顆粒度更加精細,迭代頻率更加密集。這要求整個行業建立更加敏捷的研發體系、更加靈活的部署架構、更加智能的測試方法。應用創新的新機遇。更強大的推理能力,將催生更多創新應用場景。從智能教育輔導到專業諮詢服務,從科學計算輔助到複雜決策支援,AI的應用邊界將持續擴展。人才需求的結構性變化。隨著AI能力的快速進化,對AI人才的需求將從"模型訓練專家"向"應用創新專家"轉變。能夠將AI能力與行業需求深度結合的人才,將成為市場的新寵。倫理治理的緊迫性。更強大的推理能力,也帶來了新的倫理挑戰。如何確保AI系統的決策透明、公平、可控,將成為行業必須面對的重要課題。結語Google的這次".1版本突襲",表面上是技術升級,深層則是行業競爭邏輯的根本性轉變。當AI發展從"整數版本躍進"轉向"小數版本迭代",整個行業的節奏、格局、規則都將被重新定義。推理能力的翻倍提升,不僅僅是技術參數的最佳化,更是AI從"資訊處理工具"向"智能思維夥伴"進化的重要里程碑。在這個AI重新定義一切的時代,能夠率先突破推理瓶頸、建構持續最佳化能力的企業,將掌握下一個階段的發展主動權。真正的競爭才剛剛開始。技術優勢需要轉化為生態優勢,單點突破需要擴展為系統領先。對於全球AI產業而言,Gemini 3.1 Pro的發佈既是挑戰,也是機遇。在這個AI從"炫技"走向"實用"的關鍵轉折點,能夠平衡技術創新與商業落地的企業,將引領行業進入更加成熟、務實的新階段。當矽谷醒來時,會發現AI競爭的規則已經改變。這場始於".1版本號"的技術革命,或許將開啟全球AI發展的新篇章——一個更加注重實用性、可及性和可持續性的新篇章。 (遊戲AI說)
DeepMind 掌門人預判 AGI 將於 5-10 年內降臨
最近,Google DeepMind 掌門人德米斯·哈薩比斯(Demis Hassabis)接受 CNBC 專訪。他難得敞開心扉,直言不諱地評價了全球 AI 格局,尤其是中國 AI 的追趕速度和創新現狀。“中國團隊的追趕速度極快,只落後幾個月,但在原創性上,他們還沒拿出 Transformer 級的東西。”以 DeepSeek、阿里為代表的中國 AI 團隊,在工程效率、推理最佳化、成本控制上,展現了恐怖的實力。“一篇新論文出來,他們往往能以驚人的速度復現,甚至在某些方面做得更好。”換句話說,在 “把已知路徑做到極致” 這件事上,中國團隊已經證明了自己是全球頂級玩家。也正因為如此,矽谷過去那種“領先一代”的技術安全感,正在被一點點消耗掉。不是按年,而是按月縮水。要知道,過去很長一段時間美國尤其是矽谷派的主流觀點是:中國在 AI 上還遠遠落後,大概是幾年的差距。根據史丹佛大學《2025 年人工智慧指數報告》,中國在 AI 論文發表和專利申請總量上持續領先。且像 DeepSeek、智譜等機構發佈的模型,在國際基準測試中已與第一梯隊產品表現相當。以 DeepSeek V3.2 為例,在公開的推理類基準測試中,它已經能夠全面對標 GPT-5,僅略低於 Gemini 3 Pro。然而,他也指出原創性依然是中國團隊的短板。Transformer 或 AlphaGo 那樣從零到一的技術突破,目前在中國尚未出現。換句話說,中國團隊可以“開車飛馳在既有軌道上”,但鋪設全新軌道的能力仍需時間和積累。哈薩比斯強調,這並非能力不足,而是原創性突破往往需要長期科研積累、實驗失敗和探索精神的結合。不過哈薩比斯也看到了中國 AI 獨有的潛力,他認為當工程最佳化達到一定高度,往往會催生質變。中國憑藉廣闊的應用場景、迅速的市場反應和持續投入,很可能從別出心裁的角度,斬出那一刀改變格局的創新。在談到通向 AGI 的挑戰時,哈薩比斯強調,現有大模型存在“鋸齒狀智能”(jagged intelligence)。這是指模型在某些任務上表現非常出色,但面對複雜因果鏈條、多步驟邏輯推理或現實世界常識時,能力不穩定甚至可能出錯。這說明通用智能不僅需要強大的處理能力,還要在多個維度上保持穩定和一致。除此之外,現有系統無法持續線上學習,也難以自發產生原創性想法,通向 AGI 仍需克服這些根本性限制。在這一背景下,哈薩比斯談到 Scaling Law(規模定律)及其作用。他認為,雖然模型增大、算力增加和資料擴充的回報增速有所放緩,但總體進展依然非常好,能力提升仍值得投入。然而,要真正實現 AGI,僅靠 Scaling Law 仍不夠,還需要一兩個像 Transformer 那樣的重大範式突破。哈薩比斯保持謹慎樂觀,預計 AGI 很可能在五到十年內實現,同時指出算力問題最終歸結於能源,因此未來能源將成為“智能的貨幣”。他還進一步提到“世界模型”概念,作為通向 AGI 的核心手段。與 LLM 主要處理文字不同,世界模型能夠理解因果關係和長期後果,在腦中模擬世界、驗證假設,實現規劃和預測。未來 AGI 很可能是 LLM 與世界模型的融合體。DeepMind 已在 Genie、視訊生成 Veo 和機器人模擬中佈局早期世界模型,讓 AI 在虛擬環境中練習、犯錯、成長,真正具備“理解”和“預測”能力。在應用層面,哈薩比斯看好端側 AI,即將高效、輕量的模型運行在手機、可穿戴裝置和智能眼鏡等終端上。Google計畫通過 Project Aura 智能眼鏡以及機器人領域的探索,讓 AI 不僅會“說”,還能實際“做事”,並行揮實用價值。過去兩三年,DeepMind 也回歸“創業公司狀態”,快速迭代 Gemini 模型並落地到 Google 核心產品,包括搜尋、Workspace 和智能眼鏡等場景,使Google在算力、模型規模和應用落地上都保持競爭優勢。總體來看,哈薩比斯認為,中國 AI 已憑實力贏得了頂級牌桌的入場券,但未來幾十年的格局,將取決於誰能率先鋪設無人區的軌道。速度固然重要,但方向選擇才是關鍵。真正的競爭,不只是算力之爭,更是敢於探索未知、率先開闢全新路徑的勇氣與能力。在這個意義上,2026 年不僅可能見證端側 AI、agent 系統和機器人領域的突破,也將考驗誰能在通向 AGI 的道路上,把工程能力與原創性創新結合,率先鋪出未來的新軌跡。 (科技狐)
梁文鋒署名新論文深夜炸場!DeepSeek-V4 新架構曝光:提出新的稀疏化方向,與MoE互補,長上下文能力顯著擴展,推理程式碼能力更強了
一覺醒來,DeepSeek又發新論文了!仔細一看作者,梁文鋒的名字也赫然出現在其中。這篇論文題為《通過可擴展尋找實現的條件記憶:大型語言模型稀疏性的新維度》,重點在於提出了 Engram ——這是一種條件記憶模組,旨在通過將靜態模式儲存與動態計算在結構上分離,來增強 Transformer 骨幹網路。論文的給出的實驗資料也相當驚豔:1、Engram 在知識、推理、程式碼和數學任務上能夠帶來顯著性能提升,均超過純MoE模型。2、存在U形擴展規律:純 MoE性能次優,將 20–25% 的稀疏參數分配給 Engram,效果最佳。3、長上下文能力提升明顯,能釋放注意力用於全域模式和複雜推理。程式碼和論文全文均已開源:論文地址:https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf程式碼地址:https://github.com/deepseek-ai/Engram為什麼大語言模型需要 Engram ?稀疏性(sparsity)一直是智能系統的核心設計原則,無論是生物大腦的神經回路,還是現代大語言模型都在用它來“省資源”。在 AI 裡,這個思想最常見的體現就是混合專家模型(MoE)——也就是通過“條件計算”讓模型只啟動部分參數,從而在不增加太多計算量的情況下,把模型容量放大好幾倍。MoE 是目前推進參數規模和能力擴展的關鍵技術之一,DeepSeek 自家系列模型(如 DeepSeek V2、DeepSeek V3 等)也採用了先進的 MoE 方法進行擴展訓練。但 MoE 也有其侷限性。語言本身非常複雜,至少包含兩類截然不同的任務:組合式推理:需要深層、動態的神經計算,比如理解複雜句子結構或推理問題;知識檢索:大量文字都是高度固定、重複的內容,比如命名實體、固定表達、程式化模式。論文中提出,經典的𝑁-gram 模型已經證明,處理這種局部、重複的語言規律,用“查表”效率最高,幾乎不需要動深層神經網路。然而現在的 Transformer 並沒有這種原生“查表能力”,所以模型每次要識別一個常見的多 token 實體,都要消耗好幾層注意力和前饋網路,這就像在執行階段重複重建一個靜態字典,既浪費計算,又佔用模型的“序列深度”,原本可以用來做更高級的推理。Engram是如何實現的?為瞭解決上述問題,DeepSeek提出了一個新的稀疏化方向——條件記憶,專門用來儲存和尋找固定知識。它和 MoE 的條件計算完全互補:MoE 負責動態推理和組合邏輯;Engram 負責靜態知識,直接查表就行。Engram是神經科學中的一個核心概念,意為“記憶痕跡”,它是一個可擴展、可尋找的記憶模組,用於語言模型在推理過程中過去可能已經見過的模式或片段。在具體實現上,Engram模組通過 O(1) 的尋找複雜度將靜態模式儲存從動態計算中分離出來,採用了四項核心技術:現代化的雜湊 N-gram 嵌入、分詞器壓縮、上下文門控以及多分支融合技術。具體來看:1、分詞器壓縮:預先計算對應函數,將語義等價但 ID 不同的詞項(如 "Apple" 和 "apple")折疊為統一識別碼,將有效詞表大小減少了 23%。· 多頭2、雜湊檢索:利用局部上下文(N-grams)作為鍵,通過雜湊函數在巨大的嵌入表中檢索靜態向量。3、上下文感知門控:這是 Engram 的關鍵創新。利用當前層的隱藏狀態作為 Query,與檢索到的記憶體進行語義匹配。如果檢索內容與上下文矛盾,門控值會趨近於零,從而抑制雜湊衝突帶來的噪聲。4、混合分枝整合:專門針對多分枝架構(如 mHC)進行了最佳化,通過參數共享策略(共享 Embedding 表和 Value 投影,保持獨立 Key 投影)平衡了表達能力與計算效率。Engram 通常會插在 Transformer 的前期層,比如 Layer 2 或 Layer 6。這樣做的好處是:一方面可以把靜態模式的重建工作解除安裝掉,減輕骨幹網路的負擔;另一方面又能保留足夠的上下文資訊,讓門控機制更聰明地判斷那些記憶該用,那些該忽略。Engram 的記憶容量並不是越大越好,它需要和 MoE 專家容量精心配比。按照 Sparsity Allocation(稀疏性分配)法則,合理劃分兩者比例,既保證大模型的參數利用率,又最大化計算效率——簡單來說,就是讓每一份記憶和每一位專家都發揮最大作用。實驗結果很驚豔:推理、程式碼、長上下文能力顯著提升論文把 Engram 擴展到 270 億參數,嚴格對齊 MoE 基線的參數和 FLOPs。結果顯示:知識密集型任務(MMLU、CMMLU、MMLU-Pro):性能提升 1.8–4.0 分不等;通用推理任務(BBH、ARC-Challenge、DROP):提升更明顯,最高 +5 分;程式碼和數學能力(HumanEval、MATH、GSM8K):平均提升 2–3 分。值得注意的是,Engram 在知識密集型任務中明顯優於純 MoE 模型。原因很直觀:它把靜態模式的記憶交給了高效的尋找機制,而不是每次都用神經網路“重算”,減少了淺層的重複計算。更重要的是,Engram也顯著擴展了長上下文能力,在長文字任務(如 LongPPL、RULER)表現突出,尤其是在多跳檢索、鏈式推理等場景中。例如 Multi-Query NIAH 指標從 84.2 提升到 97.0,Variable Tracking 從 77.0 提升到 89.0。原因是 Engram 處理了大量局部、靜態的依賴,釋放了注意力機制去處理全域上下文,從而在長序列中更穩、更準。此外,團隊還發現了 MoE 和 Engram 容量分配中的U形擴展規律:當 Engram 記憶容量太小或太大時,性能都不理想將 20–25% 的稀疏參數分配給 Engram,效果最佳網友:Engram 可能是 DeepSeek-V4 型號的基礎技術!在Reddit、X等平台上,DeepSeek的新論文也立刻引發了網友的熱烈討論。其中最廣泛的一個猜測就是:Engram 可能是即將推出的 DeepSeek-V4 的基礎技術。很多網友認為,Engram這個方法很有趣,其特點在於讓模型架構處理“記憶模式尋找”和“神經計算推理”兩塊職責分離,從而開啟了新的稀疏性方向。也有網友表示,這種方法比線性注意力機制要好得多。DeepSeek的深夜放大招,也讓部分網友直言:中國大模型團隊的創新性真令人害怕。 (51CTO技術堆疊)