#創新
線下巷戰,影石把店開到大疆隔壁
一場發生在街頭的影像戰爭:大疆十年線下深耕優勢難以撼動,影石快速擴張勢頭難以忽略。當兩個品牌的門店間距縮短至幾十米,競爭也進入更白熱化階段。大疆和影石在無人機和全景運動相機領域的纏鬥,過去多集中在產品對標、專利、供應鏈、人才爭奪上,如今戰火燒到了線下市場。線下,是消費電子從產品競爭走向品牌競爭的必經之路。大疆有“強管理、廣覆蓋”等先發優勢,影石則以“擴張效率+挖角滲透”展開攻勢,雙方具體競爭點涉及經銷體系、門店卡位、排他性爭議等多個戰線。隨著影石宣稱在全國一、二線城市的全面覆蓋,三、四線或將成下一階段的主戰場。01. 線下戰,是必經之路影石與大疆的全面競爭,蔓延到了線下。大疆線上下擁有十年先發優勢。早在2015年,大疆就開始系統性布局線下,至今已在無人機和手持裝置領域建立完善的零售網路。公開資料顯示,大疆在國內的授權零售店/體驗店已超700家。客觀而言,在影石開始重視和佈局線下之前,這個市場的競爭狀況並不適合用“肉搏戰”這種詞語來形容。但影石對管道市場發起的攻勢,以驚人的速度追趕前者,讓外界不得不提前嗅到一些暗湧和硝煙。具體來看,影石國內專賣店數量在三年時間實現了50倍的增長。2025年財報顯示,影石線下專賣店數量近300家,同期單店銷售額同比提升近五成。專賣店數量幾乎完成了對所有一、二線城市的全覆蓋。影石為什麼愈發注重線上下的佈局?有兩方面的原因。站在行業視角,做過多年智能硬體的朱茜認為,消費電子品牌都會經歷從1.0到2.0的階段轉變。1.0階段更像是打磨產品和營造市場聲量,靠產品驅動,能快速觸達早期使用者。2.0階段屬於靠品牌全面驅動,需要通過線下體驗建立更廣泛的使用者心智,拓寬使用者群體。同時,隨著市場出貨量和零售使用者數量的增長,消費者對親手體驗真實產品質感、獲取更完善服務的訴求日益強烈。換句話說,線下能有效彌補線上行銷難以跨越的近距離體驗障礙。這個論斷是站得住腳的。據尼爾森IQ在2025年發佈的《中國消費管道變革白皮書》披露,2024年國內線上與線下零售交易佔比約為3:7。同時具有參考性的智慧型手機線上線下佔比在4:6左右。線下管道的補充,不僅可以拉平與競爭對手的差距,也是獲得規模增長的動力。2025年年報顯示,影石線下營收同比增長83%,快於線上增速。不過線下拓展的成本也是高昂的,影石在相關方面的成本增速更快。為了加快佈局線下,影石採取了一系列從人員到組織的激進動作。2025年下半年,影石挖來大疆的銷售核心管理人員張博。據雷峰網報導,張博曾在大疆原銷售副總裁袁棟麾下任職,完整經歷過大疆改革代理商體系的全過程。除了張博,公開報導顯示影石還從大疆挖走了多名行銷、管道人員。影石試圖快速搭建一支能打地面戰的團隊。招聘平台上可見,影石及其代理在大量招募零售、管道和市場類崗位,職責描述明確涉及“負責線下門店日常經營管理”“拓展區域內經銷商網路”“組織門店促銷活動”等內容。財務上的投入則更直觀地反映了這場攻勢的烈度。據財報,2025年影石銷售費用達到16.8億元,同比增長103%,遠高於營收增速。銷售費用率為17.2%,同比增長了2.4個百分點。熟悉該領域的人士強調,從投入成本來說,手持裝置、無人機等賽道品牌得自己先捨得投入,線下的店面建設、樣機資源等,都需要品牌配合和提供支援服務,這必然會帶來一些費用上的開支。影石方面此前亦明確表示過,公司明確將部分短期費用視為未來競爭力建設的必要投入。投入背後,影石和大疆在管道堡壘上的競爭會更加白熱化。02. 十年沉澱VS快速擴張隨著影石帶著從大疆學到的經驗加快殺入線下市場,它面臨的首要問題是:如何在一個已經被對手深耕十年的市場中找到自己的生存發展空間?管道模式、店面維度綜合競爭的較量,都考驗著影石的打法和策略。據悉,大疆線上下管道的佈局分為官方直營旗艦店、授權體驗店、授權專區專櫃等。直營店層面,從2015年首家直營旗艦店在深圳開業,到目前大疆在國內至少有6家直營店。影石也正在加快開旗艦店的步伐,3月影石在深圳開設了全球最大的旗艦店,按計畫影石今年還將開設約10家城市旗艦店。這個時間節奏說明,影石很想在大疆已佔據優勢的賽道,打出自己的差異化聲量:城市智能影像體驗名片。並試圖用沉浸式的全景影像體驗建構自己的高端品牌陣地。在授權管道側,影石也在加快滲透。大疆的代理模式歷經打磨,已經非常成熟。在授權經銷體系中,它主要採取與手機行業類似的批發代理模式,其中授權體驗店在一些區域採取大區代理制(如西南部分地區的授權體驗店由雲南九機公司統一代理),而非體驗店的授權零售商則在各省市都設有相應的省級代理客戶。雖然影石在官網開通了加盟申請通道,但沒有披露具體申請成為經銷商的條件。對影石來說,挖來大疆負責管道層面的高管之後,摸著大疆的石頭過河顯然能成為一條備選方案,但兩家的授權管道經銷體系能否完全復用則是另外一回事。有接近大疆經銷商的人士表示,在他看來,大疆在消費級無人機領域是絕對龍頭,具有品牌、流量、利潤空間優勢,多年來對經銷商的資源投入和扶持力度巨大,同樣對體驗店等不同店面都有考核。在此背景下,如果大疆銷量比重不低,出於商業利益平衡的考慮,有的商家在選擇大疆後,便不一定會再選擇影石,影石在個別城市拓展經銷商方面就得另尋他法了。無獨有偶,影石除了在開店數量、速度上持續加碼,甚至在部分城市與大疆門店的安全邊界也被打破。一方面,雙方在產品專利層面的排他性競爭,曾蔓延至線下具體門店。據南方都市報報導,2025年,湖南攝影城一家影石授權體驗店因商城排他性協議,不得不拆除帶有影石二字的門頭,一度引發市場爭議。隨後,影石創始人劉靖康將其比作“這只是我們不同層面所面臨挑戰的冰山一角”。不過,後續每經等媒體也報導,大疆知情人士透露,大疆內部排查,未發現各經銷商有任何“商場排他協議或條款”。另外一方面,影石在授權體繫上以授權專賣店(專區)和合作體驗點為主,在開店滲透策略上,影石除了搶佔潮玩/攝影/運動商圈(如深圳前海、上海淮海路)位置外,很多店面同樣選擇了優先覆蓋商圈、IT城和競爭對手有佈局的地帶,這導致了兩者線上下保持著貼身競爭的焦灼態勢。《豹變》在重慶石橋鋪街道發現,但凡搭建大疆門店的地方就少不了影石的身影,甚至不少門店的距離僅有幾十米。這個門店分佈特徵,在為消費者提供更多元化的選擇同時,也表明雙方線上下的競爭激烈程度絲毫不亞於手機廠商。回過頭來看,影石的“直營店樹立形象、授權店擴大覆蓋、體驗點引流獲客”打法,與大疆和消費電子行業的管道同行策略高度相似,這既是遵循規律所需要採取的措施,也是補齊短板的辦法。然而,有人對線下勢頭正猛的影石有不同的看法,“從我們做大疆的角度看,沒遇到過用影石的客戶,感覺真沒啥競爭。”一位接近大疆相關業務的人對《豹變》表示。這或許源於當前大疆在管道成熟度(具備十多年基礎)、門店總數(仍是影石的多倍)、門店密度(三、四線提前佈局多年)等方面依舊佔據優勢,而影石只是開始在大疆走過的路上補功課,兩者在管道層面的競爭,還遠未到見勝負分曉的時候。03. 比效率更重要的效應在消費電子行業,與覆蓋效率同樣重要的是效應。一方面是整個線下管道帶來的經營規模結果效應,由於大疆和影石並未對外披露線下管道和門店層面的盈利詳情、閉店率等資訊,導致外界難以從這個視角洞察兩者線上下的具體經營指標和質量。另一方面,是線下門店帶來的品牌溢出價值和使用者心智效果,門店形象、陳列水平、店員能力、售後服務等都對其產生影響。作為行業的後來者和追趕者,影石在此方面具備一定基礎,也同樣面臨挑戰。換句話說,隨著後續越來越多城市旗艦店的落地,影石能通過全矩陣的產品,深度融合沉浸式場景,打造一個線下的“使用者社區”,並提供“銷服一體”的服務,讓售後像買產品一樣方便,增強使用者的黏性和忠誠度。在授權店層面,縱深覆蓋策略既帶來了廣泛的流量曝光,也讓不同點位、層級的門店呈現出截然不同的現狀,也需要品牌繼續補足管理功課,尤其是店端服務能力方面。例如,我們在重慶解放碑和石橋鋪發現,優質一點的授權店,店內環境整潔、庫存充分,陳列效果良好,門口還有豐富的物料。但也有門店店內貨物擺放雜亂,甚至存在缺貨、產品矩陣不太完善的客觀事實。這種參差,反映的是經銷商營運能力的差異,也是影石在快速擴張中必然面臨的標準化管理難題。還有一個需要補上的課題:隨著影石首款無人機產品影翱A1陸續上架各地門店,線下空間作為無人機產品的“候機廳”,對試飛體驗提出了更高要求。大疆的門店往往配備專門的試飛區域或戶外飛場,而影石在這方面的積累還不夠。當越來越多的消費者帶著“看看影石的無人機怎麼樣”的念頭走進門店時,能否提供足夠好的體驗,將在很大程度上決定其無人機業務能否線上下站穩腳跟。回過頭來看,線下管道的競爭,最終會回歸到品牌價值的競爭。大疆已經在這條路上走了十多年,建立了深厚的品牌護城河。影石雖然起步較晚,但憑藉差異化的產品和快速的執行力,正在一步步縮小差距。兩者的競爭也是中國消費電子行業值得持續觀察的商業現象。(應受訪者要求,文中均為化名) (豹變)
榮耀機器人背後,7家中國供應商!
榮耀機器人奪冠的背後,顯然是一條國產人形機器人產業鏈的集體綻放。4月19日,北京亦莊一條21.0975公里的馬拉松賽道上,歷史被改寫了。榮耀旗下齊天大聖隊的“閃電”機器人以50分26秒的淨時成績衝過終點線,不僅將去年首屆賽事2小時40分鐘的冠軍紀錄壓縮了近三分之二,更超越了人類男子半程馬拉松57分20秒的世界紀錄,帶領榮耀系機器人包攬了賽事前六名,成為今年人形機器人半程馬拉松中表現最突出的參賽方。這無疑是中國人形機器人產業的一個標誌性時刻。但如果我們只看到榮耀機器人的成功,就錯過了真正重要的故事——從驅動晶片、3D視覺、雷射雷達、液冷系統到精密結構件,支撐“閃電”沖線的,是一張精密而龐大,覆蓋感知、決策、執行全鏈路的國產供應鏈網路。下面我們將從兆易創新、領益智造、藍思科技、瑞聲科技、奧比中光、禾賽科技、華科冷芯七大供應商切入,拆解榮耀機器人奪冠背後的技術密碼與產業邏輯。兆易創新在榮耀“閃電”複雜的內部架構中,決定其21公里長跑核心表現的關鍵部件之一的正是下肢關節驅動板。而這塊驅動板的核心控製器,來自兆易創新的GD32H757 MCU。人形機器人在半程馬拉松中需要經曆數萬次步態循環,每一次邁步,髖、膝、踝等下肢關節都要承受交變載荷並作出精準響應。關節驅動依賴多軸伺服系統,每個關節都需要獨立的閉環控制,涉及電流環、速度環、位置環的多級控制架構。兆易創新的GD32H7系列MCU,正是為此類高負載、高即時性場景而生。MCU的算力、即時性與可靠性,直接決定了機器人能否穩定奔跑,這也是下肢關節被公認為馬拉松奪冠的核心關鍵所在。GD32H757基於Arm Cortex-M7核心,主頻高達600MHz,採用基於Armv7E-M架構的高性能設計。兆易創新為這款MCU配備了雙精度浮點單元(FPU),並創新性地整合了硬體三角函數加速器(TMU)和濾波演算法加速器(FAC),大幅減輕核心的計算負擔。在機器人高速奔跑時,當關節電機需要完成高頻換相和精準力矩輸出,這套硬體加速架構能夠以微秒級響應完成PWM驅動訊號的生成與動態調整。儲存配置方面,該晶片配備高達3840KB片上Flash與1024KB SRAM,其中包含512KB可配置緊耦合記憶體,確保關鍵指令與資料的零等待執行。在多關節協同控制方面,GD32H757整合CAN-FD等工業級通訊介面,確保各關節MCU與主控製器之間實現低延遲、高可靠的資料互動。值得關注的是,GD32H7系列還包含整合EtherCAT從站控製器的版本,為人形機器人實現多軸精準聯動與步態協同提供了業界領先的即時通訊能力。面向下一代產品,兆易創新已於今年1月推出新一代GD32H7系列超高性能MCU,主頻提升至750MHz,配備640KB與CPU同頻運行的TCM記憶體,DC同步周期精度可達62.5微秒,進一步鞏固了在高端伺服控制領域的技術領先地位。兆易創新為人形機器人建構的遠不止單顆MCU,而是一個覆蓋“感知-決策-控制-執行”全鏈路的全端式晶片支援方案。除GD32系列外,其Flash儲存器為機器人的決策計算與程式碼執行提供高速可靠的資料保障;模擬產品線則覆蓋感測器訊號調理、電機驅動、電源管理等環節,如專為關節三相無刷直流電機設計的柵極驅動SoC GD30DRE518 / GD30DR1488 / GD30DR1401,與GD32 MCU協同建構了完整的電機控制鏈路。這種“MCU+儲存+模擬”深度協同的佈局,使兆易創新能夠為下游機器人廠商提供從晶片選型到系統整合的一體化解決方案。目前,兆易創新已在工業自動化、汽車電子、能源電力等領域積累了深厚的技術和量產經驗。當人形機器人從實驗室原型邁入規模化量產的關鍵拐點,這種跨領域的工程化積澱正成為其核心競爭力——不僅為機器人提供高性能晶片,更能以成熟的供應鏈管控能力和一致性保障,支撐行業走向量產落地。目前,兆易創新已成功量產75個系列800餘款MCU產品,這種規模化的量產經驗正在被無縫遷移至具身智能賽道,為其全面卡位人形機器人供應鏈奠定堅實基礎。領益智造如果說兆易創新賦予機器人“神經”與“智慧”,那麼領益智造則打造了機器人的“骨架”。據官方披露,支撐榮耀“閃電”完成21公里極限賽程的159款核心金屬結構件,均出自其東莞橫瀝工廠,覆蓋髖部、腿部、腳部、軀幹等全部關鍵運動單元。21公里的賽程對人形機器人的結構強度提出了嚴苛考驗,零部件必須在全程保證不形變、不斷裂、不松曠,同時支撐機器人自重與動態衝擊。在整個賽事中,這些結構件實現了全程零故障、零失效,這一成績源於其在精密製造領域近二十年的技術積累。成立於2006年的領益智造在人形機器人領域的佈局遠不止於結構件。公司擁有伺服電機、減速器、驅動器、運動控製器等執行層的核心技術,已能夠為客戶提供頭部總成、靈巧手總成、四肢總成、高功率充電和散熱解決方案等核心硬體。就在人形半馬開跑前兩天,領益智造北京具身智能超級工廠首批人形機器正式下線,從開工到投產僅用時兩個多月。該工廠今年規劃了具身智慧型手機器人1萬台套的產能,2027年將提升至2萬台套,2030年達成50萬台套年產能。據悉,領益智造還是首批配合榮耀機器人產品研發與生產製造的供應商,相關產品目前已實現批次交付。這意味著,領益智造不是單純的代工供應商,而是深度參與了榮耀機器人從研發到量產的全過程。這種聯合開發、同步驗證的合作模式,正在成為人形機器人產業鏈的新常態。藍思科技在榮耀的參賽陣容中,另一款獲得“最佳步態控制獎”的“元氣仔”機器人,其身體由另一家製造業巨頭藍思科技打造。支撐“元氣仔”完成21公里極限賽程的132款核心金屬結構件均出自藍思科技,覆蓋頭部、手臂、髖部、腿部等關鍵運動單元。據介紹,其材料選用高強鋼,經特製真空熱處理後硬度達到60HRC,拉伸強度超過2400MPa,在實現輕量化的同時大幅提升了結構件的耐久性,支撐機器人長時間高強度運動。工藝層面,藍思科技配置專用裝置叢集,採用五軸聯動一次裝夾完成複雜高曲面加工,通過車銑復合連續加工技術實現微米級精度控制,確保機器人關節配合精準、運行順暢。與領益智造類似,藍思科技與榮耀也處於聯合開發、同步驗證的深度協同階段,雙方共同攻克了人形機器人高自由度關節結構等行業難題。藍思科技將消費電子領域積澱的嚴苛品控與高效交付模式無縫遷移至人形機器人項目,為具身智能從實驗室走向消費級應用提供了成熟的工程化路徑。據官方披露的2025年業績顯示,藍思智慧型手機器人業務去年營收已突破10億元,人形與四足機器人出貨量居行業前列。隨著榮耀2026年小批次量產計畫的推進,藍思科技已完成產能配套,永安園區年產50萬台,泰國基地同步擴產。這也揭示了一個重要趨勢,消費電子產業鏈的精密製造能力,正在系統性地向人形機器人產業遷移。從手機中框到機器人關節,玻璃蓋板到高強鋼結構件,底層製造能力是一脈相承的——高精度、高一致性、大規模量產,這正是消費電子代工巨頭最擅長的領域。瑞聲科技如果說瑞聲科技在消費電子領域以聲學器件聞名,那麼在人形機器人賽道上,它則扮演著更為深層的關鍵角色,為榮耀“閃電”和“元氣仔”提供了全套精密結構件解決方案,成為機器人穩健本體的核心支撐者。瑞聲科技為榮耀機器人供應了覆蓋頭部、腿部核心運動單元的精密結構件。通過航空鋁、軸承鋼、碳纖維及玻璃纖維等多材料復合應用,在輕量化與高剛性之間實現精準平衡,並以MIM(金屬注射成型)與CNC(電腦數控加工)等精密工藝解決了高速步態下的結構損耗與精度問題,為機器人長距離奔跑的耐久性提供了堅實保障。官方介紹,憑藉與榮耀在消費電子領域的長期合作積累,瑞聲科技在極短周期內便完成了定製化MIM/CNC件的設計驗證與量產準備,這也展現了精密製造體系向具身智能賽道的高效遷移能力。瑞聲科技目前已全面切入人形機器人核心部件賽道。其已發佈的人形機器人解決方案包括運動關節、靈巧手、六維力感測器、IMU、微型麥克風陣列等核心產品矩陣。其中,高自由度腱繩靈巧手採用類似人體肌腱的傳動方式,具備全手18個主動自由度、22個關節,其2025年財報顯示,靈巧手相關產品已量產出貨且收入規模過億元。奧比中光今年的人形半馬賽道設計融合了平地、坡道、彎道、狹窄路段等10余種地形,包含接近90°的銳角彎道和5處變窄路段,能否精準感知周圍環境,直接決定了機器人的安全性與運動效率。榮耀機器人搭載了奧比中光Gemini 330系列雙目3D相機。該系列專為全場景機器人視覺應用設計,搭載了奧比中光自研的深度引擎晶片MX6800,配備高性能主被動融合成像系統,可在室內外及複雜光照環境下穩定輸出高品質深度資料。2022年在科創板上市的奧比中光,被稱為“3D視覺第一股”,公司專注於3D視覺感知技術研發,目前已服務全球超1000家機器人客戶。在人形機器人領域,奧比中光已實現對智元、優必選、樂聚機器人等本體企業3D視覺方案的供應覆蓋,並為榮耀、北京天工、螞蟻靈波等多家合作夥伴提供穩定可靠的3D視覺方案。財務資料顯示,奧比中光2025年全年實現營收9.41億元,同比增長66.66%;歸母淨利潤達1.28億元,實現上市以來首次年度盈利,其中AIoT及生物識別類股業務大幅增長,主要驅動力來自機器人和三維掃描業務。禾賽科技在感知層,除了奧比中光的3D相機,禾賽科技的雷射雷達同樣扮演著不可或缺的角色。榮耀“閃電”此次搭載的禾賽JT128雷射雷達,是禾賽科技專為機器人與工業領域設計的迷你型超半球3D雷射雷達。在人形機器人半程馬拉松中,雷射雷達可幫助機器人精準感知平地、坡道、狹窄路段等複雜地形,為路徑規劃與步態調整提供即時環境資料。從技術參數來看,JT128擁有全球最廣的360°×189°超半球視野,感知範圍相當於1.5個標準足球場大小,同時做到了最小探測距離為0米。整機重量僅為200至250克,極小的視窗露出高度使其能夠隱蔽式嵌入安裝在機器人的不同位置。此外,其採用禾賽第四代自研晶片架構,垂直方向配置128線數,平台最高支援256線,能夠高效生成3D SLAM,為機器人提供高精度定位與導航。JT系列的競爭力體現在兩個維度,第一是形態適配性,作為迷你型雷射雷達,其全球最廣的視野與小巧外形能夠無縫整合到人形機器人的有限空間內;第二是市場驗證,目前JT系列累計交付量已突破30萬顆,在人形及四足機器人方面,禾賽科技已獲得宇樹科技、榮耀機器人、銀河通用、魔法原子等公司的訂單。從業績來看,2025年,禾賽全年機器人雷射雷達出貨量達23.93萬台,同比增長425.8%,機器人業務毛利率超過37%,全年歸母淨利4.4億元,成功扭虧為盈,成為全球首家實現全年GAAP盈利的雷射雷達企業。去年12月,禾賽入選摩根士丹利《人形機器人科技25強》榜單,成為全球唯一入選的雷射雷達企業。華科冷芯在50分26秒的極限奔跑中,機器人關節電機持續輸出高扭矩,產生的熱量若不能及時排出,將直接導致電機降頻、性能衰減甚至停機,這也是不少參賽隊伍失利的重要原因。榮耀“閃電”應對這一挑戰的核心武器來自華科冷芯提供的高速懸浮泵液冷方案。成立於2024年的華科冷芯,脫胎於華中科技大學羅小兵教授團隊的科研成果。其核心產品高速懸浮泵擁有液磁耦合懸浮技術,摒棄了傳統機械軸承包方案,實現轉子全自由度無接觸懸浮,從根源上消除了機械磨損。這款懸浮泵轉速突破每分鐘2萬轉,效能達到傳統方案的3到6倍,在30毫米量級、重量不足100克的體積下,滿足人形機器人下肢關節電機模組散熱所需。在抗衝擊方面,高速懸浮泵具備獨特的衝擊耗散結構,運行狀態下可耐受500G衝擊測試,高強度震動或意外摔倒工況下,泵體不停轉、不損壞,保障散熱系統持續穩定運行。在馬拉松賽事中,華科冷芯的液冷方案幫助“閃電”將滿負載持續執行階段間提升至2小時以上,解決了關節模組熱量累積帶來的熱失控問題,使關節可維持連續功率輸出。值得一提的是,華科冷芯的高速懸浮微泵已在商業航天領域隨衛星熱控系統在軌穩定運行超過12個月,實現高可靠流體驅動單元在航天熱控系統中的實際閉環應用,這種“航天級”可靠性為人形機器人的極限運動提供了過硬的技術背書。目前,華科冷芯已完成首期懸浮微泵量產線搭建,形成多條標準化裝配與測試產線,具備月產數千至萬級交付能力,從單點突破,到系統協同當我們回顧榮耀機器人奪冠的故事,很容易把焦點放在那個率先沖線的“閃電”身上。但真正值得長期關注的,是背後支撐這個冠軍的龐大供應鏈網路,即那些在各自細分領域做到全球第一或中國第一的隱形冠軍們。榮耀工程師姚彬在賽後表示,硬體的可靠性為機器人綜合能力的快速提升提供了強有力的支撐,輕量化材料、高安全性結構,能夠讓機器人承受長距離高速奔跑的衝擊。這一判斷背後,正是基於整個中國供應鏈體系的集體貢獻。他們或許不像終端品牌那樣為大眾熟知,但他們共同構成了中國智造的底座。從兆易創新的MCU,領益智造、藍思科技、瑞聲科技的結構件,再到奧比中光的3D相機,禾賽科技的雷射雷達,華科冷芯的高速懸浮泵液冷,榮耀機器人的成功,顯然是一條國產人形機器人產業鏈的集體綻放。站在當下回望,從2025年首屆人形機器人半程馬拉松上的翻車,到2026年超越人類馬拉松世界紀錄,人形機器人僅僅用了一年時間便走完了從能站到能跑的進化之路。但速度從來不是終點。如清華大學自動化系研究員趙明國所言,馬拉松的真正價值在於“為行業提供了一個驗證平台,集中突破關鍵技術問題”。榮耀機器人的奪冠,意義不止於跑得快,它更對應出中國機器人產業鏈已從單點突破走向系統協同。產業鏈上的每一家供應商,都在用自己的方式,為中國智造的未來貢獻力量,他們的故事,或許是這個時代最值得被書寫的產業敘事。 (高工人形機器人)
A股“研發王”,出爐!
5月1日,中上協發佈的2025年上市公司經營業績報告顯示,2025年,全市場上市公司研發投入1.94兆元,連續4年正增長,約佔全社會研發經費投入的一半;研發強度2.66%,較上年繼續提高。研發投入額前100名的上市公司主要分佈於電子、汽車、電力裝置等行業,其中17家公司研發強度超10%。具體來看,比亞迪以634.41億元的研發投入金額,蟬聯A股“研發王”。從研發強度的排名來看,科創板的邁威生物等創新藥企和摩爾線程等晶片類上市公司“霸榜”。另外,從研發金額和研發強度的綜合指標來看,中興通訊、百濟神州、海康威視、恆瑞醫藥、北方華創等企業排名居前。比亞迪蟬聯“研發一哥”從2025年研發投入金額的絕對值來看,比亞迪、中國建築、中國移動、中國交建、中興通訊、中國電建、中國鐵建、中國中鐵、寧德時代、上汽集團位列Top10。與上年相比,中國石油、寶鋼股份掉出Top10榜單,寧德時代和上汽集團則強勢“殺入”,在一定程度上反映了A股新舊動能轉換的現實。其中,比亞迪在2024年以541.61億元的研發投入拿下A股“研發王”後,2025年再次以634.41億元的研發投入蟬聯榜首。從研發強度(研發投入佔營業收入的比例)來看,比亞迪的研發強度也從2024年的6.97%提升至2025年的7.89%。高強度的研發投入產生了諸多研發成果。比如,今年3月初,比亞迪發佈第二代刀片電池及閃充技術,常溫下電量從10%充至70%僅需5分鐘,從10%充至97%僅需9分鐘,即便在零下30℃的環境中,從20%充至97%也僅需12分鐘,創造全球量產最快充電速度紀錄。2025年,比亞迪營業收入首次突破8000億元大關,達到8039.6億元,同比增長3.46%;但歸母淨利潤卻同比下降18.97%至326.2億元,呈現出明顯的“增收不增利”態勢,國內新能源汽車市場白熱化的市場競爭成為主因。同屬新能源汽車產業鏈,情形卻是“冰火兩重天”。寧德時代近年來研發投入穩步提升,2025年達221.47億元,地位也是愈發穩固。2025年,寧德時代實現營業收入4237.02億元,同比增長17.04%;歸母淨利潤達722.01億元,同比增長42.28%。公司股價最近也刷新歷史新高,市值突破2兆元。創新藥和晶片類企業“霸榜”研發強度榜除了研發金額,研發強度(研發投入佔營業收入的比例)是衡量企業創新能力和研發投入程度的另一個重要指標。不過,由於行業屬性、商業模式、發展階段的原因,創新藥企很多仍處於高強度研發投入階段,還沒有產生太多營業收入,部分企業甚至營收為零。所以,從排名的角度看,A股研發強度Top10直接被創新藥企包攬。比如,康樂衛士之所以能排名第一,主要原因是2025年營業收入只有144.94萬元。再往下看,則是科思科技、格靈深瞳、摩爾線程、龍芯中科、沐曦股份等清一色的科創板晶片上市公司,研發強度普遍在60%以上。比如,被稱作“國產GPU第一股”的摩爾線程,其2025年研發投入為13.05億元,營業收入為15.06億元,研發強度達86.68%。10%的研發投入強度一般被市場視作高強度研發企業的門檻。結合這一指標,以研發投入金額來看的話,排名前十的上市公司依次為中興通訊、百濟神州、海康威視、恆瑞醫藥、北方華創、科大訊飛、復星醫藥、北汽藍谷、海光資訊、大華股份。以中興通訊為例,其2025年保持了研發投入244.75億元、研發強度18.28%的雙高表現,持續加碼在AI領域的研發投入。在中國企業聯合會、中國企業家協會聯合發佈的《中國大企業創新100強》榜單中,以86.74分的評分,僅次於華為位居第二。 (中國證券報)
兆易創新扛不住了!
兆易創新又動手了,漲價來得猝不及防。繼3月1日首次漲價後,第二次調價正式落地。5月1日0點起,全面執行新價格。這次沒有緩衝,沒有例外,直接生效。各授權管道正忙著跟客戶核對細節。確認新價、溝通訂單去留,忙得不可開交。最關鍵的是,在途未交貨訂單也得加價。不管是已下單未出貨,全按新價調整。漲幅跟第一次一樣,普遍還是20%。調價範圍比上次更廣,覆蓋更多型號。除了3月已漲的GD32F1XX、GD32F2X全系列。其他所有MCU型號,全部納入調價範圍。不接受新價格,訂單就自動取消。很多硬體廠直呼頂不住,利潤被直接壓縮。別罵兆易,這不是單一廠商的任性操作。背後是全球半導體產業鏈的雙重擠壓。先看產能,全被AI晶片虹吸走了。三星、SK海力士、美光這些大廠。把70%-80%的產能,轉向HBM、DDR5等高毛利AI晶片。生產GD32的8英吋晶圓,產能被大幅壓縮。台積電、三星甚至在關停部分8英吋產線。2026年全球8英吋產能預計縮減2.4%。利基型DRAM、NOR Flash供給也在收縮。2025年全球NOR Flash供給減少12%。MCU交期直接拉長到8-12周,現貨一芯難求。再看成本,全產業鏈都在漲價。8英吋晶圓代工報價,Q1就漲了8%-20%。QFN等封裝成本,同比漲超22%。框架、環氧、引線等原材料,半年漲12%-18%。國際大廠早就帶頭漲價,騰出了價格空間。TI漲幅5%-85%,工業類產品漲得最狠。ST、NXP、英飛凌也全線調價15%以上。兆易漲價,更像是被動跟進,實屬無奈。還有一個關鍵因素,國產替代需求爆發。GD32是國產替代ST的核心選擇。工業控制、物聯網、汽車電子需求暴增。國內需求同比增長18%,供需缺口越拉越大。價格隨行就市,成了必然結果。這次漲價,對硬體從業者的影響很直接。GD32佔比高的產品,BOM成本直接漲20%。之前下的訂單,那怕沒出貨,也得補差價。有些客戶選擇退單觀望,反而加劇交期緊張。產能沒增加,急單只會更難拿到貨。管道庫存已經見底,現貨價格可能漲至25%-30%。有朋友吐槽,剛算好的成本,又要重新核算。更讓人頭疼的是,價格短期難回落。Q2到Q3大機率維持高位,Q4才可能走穩。整個半導體漲價潮,還在持續發酵。供應鏈博弈,已經進入深水區。早在1月,中微半導就率先打響漲價第一槍。4月TI、英飛凌跟進,漲價潮徹底引爆。這輪周期裡,抱怨沒用,只能主動應對。提前佈局庫存,避免臨時缺芯被宰。多元選型,不要單押GD32一個型號。跟管道保持密切溝通,鎖定長期供貨價。 (1 ic 芯網)
算力晶片,誰是盈利最強企業?
算力晶片是專門負責高強度、大規模、平行計算的積體電路,是AI大模型、雲端運算、超算、巨量資料、自動駕駛、科學計算等場景的“算力發動機”。有分析指出,各CSP廠商、算力晶片廠商和ICT廠商等不同主體陸續推出超節點樣品,隨著國產晶片開始量產,2026年或成為國產超節點放量元年。算力晶片產業鏈核心環節拆解主流晶片類型與定位CPU:伺服器/PC主控,邏輯控制、序列計算強GPU/GPGPU:大模型訓練、推理、超算最強FPGA:可重構、低延遲、適合邊緣/專用加速ASIC/NPU/TPU:演算法固化、高能效,推理/場景定製強製造+封測晶圓代工:把設計圖紙變成晶片封裝測試:切割、封裝、測試、整合;先進封裝對算力晶片性能關鍵關鍵配套:儲存+周邊高頻寬儲存:算力晶片“貼身高速記憶體”,瓶頸環節其他:電源管理、高速介面、PCB、連接器等算力晶片產業鏈企業盈利能力企業盈利能力通常表現為一定時期內企業收益數額的多少及其水平的高低。盈利能力的分析,就是對公司利潤率的深層次分析。本文為企業價值系列之【盈利能力】篇,共選取16家算力晶片產業鏈企業作為研究樣本,並以淨資產收益率、毛利率、淨利率等為評價指標。資料基於歷史,不代表未來趨勢;僅供靜態分析,不構成投資建議。第10 東芯股份產業細分:數字晶片設計盈利能力:淨資產收益率-6.22%,毛利率24.51%,淨利率-23.42%業績預測:本年度暫無機構做出業績預測主營產品:NAND為最主要收入來源,收入佔比65.20%,毛利率27.26%公司亮點:東芯股份投資的上海礪算堅持自研架構,產品可實現端、雲、邊的主流圖形渲染和AI加速,對標主流GPU架構與外部生態無縫相容。第9 復旦微電產業細分:數字晶片設計盈利能力:淨資產收益率3.88%,毛利率56.19%,淨利率5.06%業績預測:ROE最近三年連續下降至3.88%,最新預測均值12.62%主營產品:設計及銷售積體電路為最主要收入來源,收入佔比96.14%,毛利率57.63%公司亮點:復旦微電是國內FPGA領域技術較為領先的公司之一,已可提供千萬門級FPGA晶片、億門級FPGA晶片以及嵌入式可程式設計器件晶片(PSoC)共三個系列的產品。第8 沐曦股份產業細分:數字晶片設計盈利能力:淨資產收益率-9.61%,毛利率56.51%,淨利率-48.02%業績預測:ROE最近三年均為負,最新預測均值2.19%主營產品:GPU產品及配件為最主要收入來源,收入佔比99.19%,毛利率56.17%公司亮點:沐曦股份是國內少數真正實現千卡叢集大規模商業化應用的GPU供應商,並正在研發和推動萬卡叢集的落地。第7 芯原股份產業細分:數字晶片設計盈利能力:淨資產收益率-18.64%,毛利率34.19%,淨利率-16.74%業績預測:ROE最近三年均為負,最新預測均值4.45%主營產品:量產業務收入為最主要收入來源,收入佔比47.25%,毛利率18.14%公司亮點:芯原股份基於自身神經網路處理器IP可伸縮可擴展的特性,已發展了覆蓋從高性能雲端運算到低功耗邊緣計算的垂直解決方案。第6 紫光國微產業細分:數字晶片設計盈利能力:淨資產收益率11.10%,毛利率55.56%,淨利率23.37%業績預測:ROE最近三年波動在9%-24%,最新預測均值13.07%主營產品:特種積體電路為最主要收入來源,收入佔比52.26%,毛利率70.26%公司亮點:紫光國微主營業務是特種積體電路、智能安全晶片為兩大主業,可以為使用者提供ASIC/SOC設計開發服務及國產化系統晶片級解決方案。第5 兆易創新產業細分:數字晶片設計盈利能力:淨資產收益率9.30%,毛利率40.22%,淨利率18.23%業績預測:ROE最近三年連續上升至9.30%,最新預測均值16.51%主營產品:儲存晶片為最主要收入來源,收入佔比71.34%,毛利率42.84%公司亮點:對比其他核心產品,兆易創新GD32H7系列MCU性能大幅提升,能夠支援高級DSP、邊緣AI等高算力應用。第4 海光資訊產業細分:數字晶片設計盈利能力:淨資產收益率11.87%,毛利率57.83%,淨利率25.17%業績預測:ROE最近三年連續上升至11.87%,最新預測均值16.78%主營產品:高端處理器為最主要收入來源,收入佔比99.90%,毛利率57.78%公司亮點:海光資訊是國產算力底座核心玩家,靠“CPU+DCU雙芯”直接支撐通用算力、AI算力、資料中心算力需求。第3 瀾起科技產業細分:數字晶片設計盈利能力:淨資產收益率18.25%,毛利率62.23%,淨利率39.03%業績預測:ROE最近三年連續上升至18.25%,最新預測均值19.64%主營產品:互連類晶片為最主要收入來源,收入佔比94.18%,毛利率65.57%公司亮點:瀾起科技是AI算力基礎設施裡的高速互連/記憶體介面晶片龍頭,同時也有自研伺服器CPU產品線提供基礎算力。第2 佰維存儲產業細分:數字晶片設計盈利能力:淨資產收益率19.78%,毛利率21.44%,淨利率7.42%業績預測:ROE最近三年最高為19.78%,最新預測均值49.90%主營產品:儲存產品為最主要收入來源,收入佔比96.00%,毛利率21.20%公司亮點:佰維存儲給端側+雲端各類算力晶片,提供高適配儲存、協同主控、先進封裝、存算融合支撐。第1 寒武紀產業細分:數字晶片設計盈利能力:淨資產收益率26.96%,毛利率55.15%,淨利率31.68%業績預測:ROE最近三年最高為26.96%,最新預測均值32.18%主營產品:雲端產品線為最主要收入來源,收入佔比99.69%,毛利率55.22%公司亮點:寒武紀致力於打造人工智慧領域的核心處理器晶片,是同時具備人工智慧推理和訓練智能晶片產品的企業。 (數說商業)
3年翻3倍!影石創新:高研發佈局晶片與AI
劉靖康致股東信:雲台相機、麥克風、無人機新品等三大新品有望在一年內上市4月28日,影石創新(688775.SH)發佈2025全年及2026年一季度業績,多項核心指標達歷史新高。2025年營收97.41億元,同比增長74.76%。2026年一季度營收24.81億元,同比增長83.11%,三年營收規模擴張近3倍,複合增長率超過63%。據悉,雲台相機、無線領夾麥克風、無人機三大新品預計一年內上市,影石加速從硬體生產向影像生態建構者轉型。作為科創板上市後的首個完整財年,2025年是影石加速新品類佈局和研發投入的重要一年。創始人劉靖康在股東信中表示:“公司當前大幅增加研發投入,源於我們看到了廣泛且遠未被滿足的客戶需求。如今,影石原創的細分品類貢獻了超60%的營收,而這正源於我們七八年前的勇敢嘗試。”據IDC最新資料,影石在全景相機與拇指相機兩大核心原創品類保持全球領先地位,市場份額分別達到66%與57%。穩固基本盤的同時,影石主動加大戰略研發投入及市場開拓,同時受儲存元器件漲價、影像行業市場競爭加劇影響,公司相關利潤指標下滑。創始人劉靖康在股東信中明確指出:“短期利潤的主動調整,旨在換取長期業績和健康發展。”高研發驅動高營收增長,短期利潤讓位AI等長期戰略投入2025年影石研發投入達15.3億元,同比增長近100%,規模超此前三年總和;2026年一季度研發投入升至4.65億元,同比上漲101%。 研發投入增速超過營收增速,體現影石在關鍵技術與新品類上的前置佈局力度。除原有業務投入外,影石還戰略投入研發兩款無人機(含影翎全景無人機)、手持雲台相機、無線領夾麥克風和其他三個新品類,同時定製開發三款晶片。2025全年及2026年一季度,公司戰略投入分別為7.62億元和2.62億元,約為同期歸母淨利潤的80%和300%。這一投入結構意味著影石正處於新一輪產品周期的“蓄力期”。劉靖康表示,2025年是影石成立以來“能力增長最快、最全面的一年”。他還首次闡明,公司長期技術願景是打造媲美專業攝影師的全自動“攝影機器人”。過去6年,公司已在相機硬體、影像演算法、無人機與雲台等機器人的“軀體能力”上完成積累,未來將重點投入AI演算法與定製晶片研發,加速補齊“AI大腦”。“過去AI主要用於最佳化畫質和防抖,如今已經可以完成構圖、內容生成和自動剪輯。未來行業比拚的不再是單純的硬體,轉向‘硬體+軟體+資料’的整體能力。”劉靖康提出,公司積累的AI技術已演變成可商業化的產品和功能。資料顯示,影石AI剪輯使用者匯出率逐年提升至近50%,逐漸融入使用者使用習慣。同時,公司在全景視覺與空間智能方向的技術進展順利,相關成果已實現不同程度開源,並應用於AI資料採集與視覺訓練場景。影石正與多家具身智能企業合作,幫助具身智能模型開發。全景相機有望成為具身智能產業基建,為影石打開增長的全新行業空間。三大新品上市、AI提效成改善利潤機會點,公司43%應用程式碼由AI生成劉靖康在股東信中表示,影石的差異化創新與巨頭的降價共同推動了市場擴容。IDC資料顯示,全球廣義運動相機市場在2025年增長72%。近日春假運動相機市場爆發,據奧維雲資料顯示:中國消費級運動相機線上市場同比增長達232%。影石全景運動相機領跑,獨佔7成。得益於市場擴容與競爭加劇,影石組織能力與效率顯著升級。過去一年,影石線下管道規模與效率大幅提升,線下專賣店從2025年初的36家快速拓展至近300家,同期單店銷售額同比提升近五成;同時,單台產品行銷成本持續下降。2026年一季度,公司單台主機行銷費用同比下降約10%。影石全球最大旗艦店今年3月落地深圳在組織層面,AI正成為效率提升的重要抓手。影石已在研發、市場、供應鏈等多個環節引入AI能力,推動組織由“人工驅動”向“人機協同”轉型。資料顯示,2026年一季度公司約43%的應用程式碼由AI生成,研發效率持續提升。2025年全年,超過一半的線上客服需求由AI承接,節省超千萬元。2025年,是影石創下近百億營收新高的一年,也是其加速戰略投入AI與新品、向大眾市場持續滲透的一年。雲台相機Luna、無線領夾麥克風、無人機三大新品預計一年內上市,影石有望開啟新一輪增長曲線,從硬體研發生產向影像生態建構者進行戰略轉型。 (芯榜)
影石創新2025年營收97.4億,高研發佈局晶片與AI,雲台相機等三大新品一年內上市
4月28日,影石創新(688775.SH)發佈2025全年及2026年一季度業績,多項核心指標達歷史新高。2025年營收97.41億元,同比增長74.76%;2026年一季度營收24.81億元,同比增長83.11%。三年營收規模擴張近3倍,複合增長率超63%。據悉,雲台相機、無線領夾麥克風、無人機三大新品預計一年內上市,影石加速從硬體生產向影像生態建構者轉型。營收創新高的同時,受戰略投入加大、市場競爭及儲存元器件漲價影響,公司相關利潤指標下滑。創始人劉靖康在同期發佈的股東信中表示,短期利潤的主動調整,旨在換取長期業績和健康發展。2025年,影石研發投入15.3億元,同比增長接近翻倍;2026年Q1達4.65億元,再漲101%。除持續投入原有主營業務外,公司還戰略投入研發兩款無人機(含已上市的全球首款全景無人機“影翎A1”)、雲台相機、無線領夾麥克風及其他三個新品類,並同步定製開發三款晶片。“公司當前大幅增加研發投入,源於我們看到了廣泛且遠未被滿足的客戶需求。如今,影石原創的細分品類貢獻了超60%的營收,而這正源於我們七八年前的勇敢嘗試。”劉靖康在股東信中表示。IDC最新資料顯示,2025年影石在全景相機與拇指相機兩大核心原創品類保持全球領先地位,市場份額分別達到66%與57%。在股東信中,劉靖康首次闡明打造“攝影機器人”的長期技術願景,提出相機技術、影像演算法、無人機與雲台等“軀幹部分”已逐漸完善,將加速補齊“AI大腦”。目前,影石AI剪輯使用者匯出率已近50%,全景前沿技術開發順利,公司正與多家具身智能企業合作,幫助具身智能模型開發。劉靖康還提出,與巨頭的競爭顯著推動市場擴容和組織內部能力提升。IDC資料顯示,全球廣義運動相機市場在2025年增長72%。近日春假運動相機市場爆發,奧維雲資料顯示:中國消費級運動相機線上市場同比增長達232%。影石全景運動相機領跑,獨佔7成。影石在研發、市場、供應鏈等環節引入AI,公司43%應用程式碼由AI生成;線上客戶服務量超 50% 由 AI 承接,為公司節省超千萬元。影石線下專賣店已擴展至近300家,單店銷售額提升近五成,單台產品行銷成本同比下降約10%。 (芯榜+) 影石全球最大旗艦店今年3月落地深圳
深度解讀DeepSeek V4,看清Benchmark之外的三個範式級創新
DeepSeek V4,千呼萬喚始出來。一年多的等待,終於等來了 DeepSeek 的全新模型。從 Benchmark 上看來,V4 的表現大概追平矽谷的上一代旗艦模型,但最近 Kimi 2.6、GLM 5.1 的整體表現都大概在這個水准之上,似乎驚喜並不大。在論文中 DeepSeek 團隊也開誠布公地表示,DeepSeek-V4-Pro-Max 的表現小幅超越當前的領先開源模型,並高於 GPT-5.2 and Gemini-3.0-Pro,但仍然落後於 GPT-5.4 and Gemini-3.1-Pro,差距大概在三到六個月。只看 Benchmark,原來曾經靠著 V3、R1 一枝獨秀的 DeepSeek,似乎也突然泯然眾人了。一開始我覺得這是因為國內開源同行們追得太快,同時也是訓練範式在這一年中強烈逐漸收斂後的必然。01. 第一個範式更新:折疊中的百萬上下文第一個範式級的更新是處理注意力壓縮的 CSA/HCA。它是 V4 最重要的一個技術革新,同時也是 DeepSeek 對 AI 發展下一個高地的判斷。DeepSeek V4 與主流模型 Benchmark 對比,及長上下文表現對 DeepSeek 而言,長上下文,不再是一個簡單的功能,而是下一代大模型的基礎設施。為什麼?他們在技術報告中寫道:「長視野場景和任務的湧現——從複雜的智能體工作流到大規模的跨文件分析——也使得對超長上下文的高效支援,對未來進展至關重要。」這很合理。Test-time scaling 需要模型在推理時想很久,產生極長的思考鏈,上下文越長,計算量二次方爆炸。而當前關注長程任務的智能體工作流天然需要超長上下文,效率低就跑不起來,跑不起來就沒有商業價值。他們甚至不惜點名批評同行,說他們沒有直面問題。論文中說:「儘管近期的開源努力(Kimi K2、DeepSeek-V3、MiniMax、Qwen)在推進通用能力方面取得了進展,但處理超長序列時這種核心的架構低效仍然是一個關鍵障礙,限制了 test-time scaling 的進一步收益,也阻礙了對長視野場景和任務的進一步探索。」而做到了高效的長上下文處理,模型才能更好地做推理、完成長程任務、完成更複雜的線上後訓練。因此,誰做到了長上下文上的首先突破,誰就能更快地、更好地推進模型的訓練發展。在這個判斷之下,V4 在決定上下文的核心技術,也就是注意力機制上進行了更激進的重構。制約上下文的核心問題,其實就是 Transformer 架構中注意力機制(Attention)的複雜度問題。重新定義「壓縮」,從變薄到變短在大模型圈,注意力壓縮本身並不新鮮,但 DeepSeek-V4 這次是在下刀的維度上,走了一條創新之路。注意力機制的計算工作量,其實由三部分組成,長度(文字的總數)× 寬度(大模型同時思考的注意力頭數)× 厚度(每個詞彙所蘊含的隱藏層維度資訊量)。在 V4 誕生之前,業界一直在寬度和厚度上做文章。比如 GQA(分組查詢注意力)做的就是壓縮寬度。它讓大模型的多個思考線程(Query)共享同一組歷史記錄的鍵值(Key 和 Value)。這就像是把一份 100 萬字的檔案雙面縮小列印後再讓注意力去看,一個注意力看得就多了。MLA(多頭潛在注意力)則是意圖壓縮厚度,這是上一代 DeepSeek-V3 的核心技術。它嫌棄每個詞的特徵向量太長、太佔地方,於是通過低秩對應(Low-Rank Projection)技術,把每個詞壓縮成了一個更短的潛在向量。這相當於發明了一種 token 的速記符號。這兩種方式的問題是,雖然壓薄了、做窄了,但 100 萬個速記符號依然是 100 萬個計算單位,大模型還是得從頭看到尾。但到了 DeepSeek-V4 這一代,也就是核心的 CSA/HCA(壓縮注意力),架構師們意識到只要文字的物理長度不減少,算力爆炸就永遠無法停止。於是,他們這次選擇直接對時間/序列維度(長度)下刀。V4 不再把 100 萬個詞當作 100 萬個獨立的實體,而是將它們強制融合。直接讓小秘書把 100 萬字的原著,揉碎重寫成了一份不到 1 萬字的執行摘要。大模型在後續推理時,只看摘要,絕不解壓(No Decompression)。傳統的電腦壓縮(比如壓縮包),在讀取時必須還原成原檔案。但 V4 的壓縮是一場「有損的語義融合」。它通過演算法的權重分配,將幾十上百個詞的特徵向量,按重要性比例像放進攪拌機一樣揉碎後相加,形成了一個全新的「宏觀概念超級 Token」。這就像把多種水果打成了一杯混合果汁(融合),你再也無法把蘋果和香蕉單獨剝離出來(不解壓),但果汁裡依然包含了它們所有的營養(語義資訊)。過去發生的事情,變成了這種濃縮的劇情大綱塊。大模型在思考時,直接品嚐這杯果汁(提取特徵),徹底省去了將其還原回幾十萬字的算力災難。混合注意力的精細解剖這麼壓縮的好處是極端省算力、省記憶體,但度怎麼掌握呢?DeepSeek-V4 並沒有用一刀切的辦法,而是設計了兩把材質完全不同的手術刀交替使用。先說 HCA(重度壓縮注意力),它就是一個暴力的全域「超廣角鏡」,會極其暴力地大步長壓縮。在 V4-Pro 中,它把連續的 128 個詞,毫無縫隙地強行捏成 1 個超級概念塊。當計算時,因為 100 萬個詞被壓縮了 128 倍後,只剩下不到 8000 個塊,這點長度對大模型來說不過是小菜一碟。所以它不做任何篩選,直接從頭到尾通讀這 8000 個塊。HCA架構圖HCA 為大模型提供了一個極其廉價的全域底噪。這就像是偵探在腦海中隨時掛著一幅「案件宏觀時間線」,它確保模型在處理百萬字時,始終錨定宏觀語境,絕不跑題。HCA 超廣角鏡 + CSA 微距長焦鏡,交替掃視與聚焦第二個壓縮等級是 CSA(壓縮稀疏注意力),它是個附帶雷達的「微距長焦鏡」。如果只有宏觀的 HCA,大模型就會變成一個只會敷衍大意、喪失精細推理能力的糊塗蛋。為了找回丟失的細節,CSA 登場了。它採用的是相對 HCA 的輕度壓縮,僅把 4 個詞融合成 1 個。並且為了防止相鄰句子的意思被切斷,它採用了帶重疊的滑動壓縮,保證了語義的平滑過渡。在 CSA 下,既然壓縮率低,那 100 萬字壓縮後依然有 25 萬個塊,如果全算一遍,算力依然會當機。於是,V4 給它祭出了「微型雷達」閃電索引器。HSA架構圖它把當前大模型的提問(Query)降維成一個極小的封包,像雷達掃描一樣飛速掠過這 25 萬個壓縮塊,最後幫模型鎖定最相關的 1024 本書(Pro版本)。這時,大模型只把注意力投入到這挑出來的幾百本核心線索書上,進行深度的精準核對。在 DeepSeek V4 的設計裡,架構上這兩種方法是一層疊一層的,時而用 HCA 掃視全貌,時而用 CSA 拿著放大鏡聚焦線索。它基本完美復刻了人類閱讀長篇巨著時略讀與精讀交替的高能效認知模式。這種方法帶來的是巨大的收益,靠著這種粗讀方式,V4-Pro 的單 Token 推理計算量(FLOPs)僅為上一代 V3.2 的 27%,而極其昂貴的視訊記憶體(KV Cache)佔用僅為 10%。V4-Flash 更誇張,計算量僅佔 10%,視訊記憶體僅佔 7%。「深度補償」的極限套娃遊戲這個世界上能量是守恆的。DeepSeek 用暴力壓縮在長度上佔了天大的便宜,難道就真的不會影響精度嗎?從常識上看,把 128 個字的龐大語義強行塞進原來只能裝 1 個字的特徵向量裡,細節必然會被無情地擠碎。DeepSeek V4 的兩種壓縮路線——CSA 輕壓縮 + HCA 重壓縮所以為了保住大模型的智商,防止關鍵資訊的流失,一定要有點補償。DeepSeek 的架構師們開始在補償中套娃,補償的第一步是把特徵向量強行加厚(Depth Compensation)。在 DeepSeek-V4-Pro 中,為了兜住這 128 倍壓縮帶來的資訊洪流,架構師將大模型單個注意力頭(Head)的隱藏維度(即容器的厚度)從常規的 128 維,喪心病狂地拉寬到了 512 維。這個加厚操作確實保住了資訊的保真度,但它引爆了另一個計算炸彈。在神經網路中,大模型同時工作的 128 個注意力頭(就像 128 個獨立思考的員工),在算完自己的結果後,需要把資料拼接在一起,向上級匯報(對應回模型的原始維度)。因為前面把每個頭的維度加厚到了 512,這 128 個頭拼起來的資料長度直衝 65536 維!如果不加干預,負責這次匯報的投影矩陣將吃掉驚人的 4.7 億個參數。看到這裡,你可能會產生一個敏銳的疑問,既然為了兜住資訊,把向量加厚到了 512 維,單次計算量變大了,那之前壓縮長度省下來的算力,是不是裡外裡又被抵消了?這筆帳,其實完全算得過。大模型最耗時的操作,是那條二次方爆炸的長度曲線。因為把 100 萬字的長度壓縮到了不到 8000 個塊,注意力機制省下的是數百億次的浮點運算;而因為把維度加厚到 512 維,特徵計算雖然增加了 4 倍,但付出的代價僅僅是幾億次浮點運算的倒貼。所以它引發的不是計算能力的瓶頸,而是頻寬的擁塞。如果每生成一個詞,顯示卡都要在記憶體和計算單元之間搬運這近 1GB 的權重資料,視訊記憶體頻寬(高速公路)會被瞬間擠爆,推理速度將如同大塞車一般龜爬。因此補償進入第二層。為了填平這個坑,V4 引入了「分組輸出投影」。這就好比一場科層制的企業管理改革,128 個基層員工不再直接把幾萬頁的報告拍給大老闆,而是被劃分為 16 個小組;每個小組先在內部把報告濃縮為一份短小的小組總結,最後由 16 個中層領導統一匯報給老闆。通過加入這層極薄的中層管理結構,投影矩陣的參數量斷崖式暴跌近 60%,成功在數學層面上化解了頻寬塞車的危機。但就算在深度上補償過了,深度本身也是一種壓縮形式,重要的內容依然可能丟失。因此 DeepSeek V4 就開啟了補償第三步,即絕對兜底的滑動窗口注意力(SWA),它強制不壓縮最後的 128 個 token。它保證了模型在天馬行空思考 100 萬字大背景的同時,雙腳始終牢牢踩在當下的現實中。壓縮的魔法,也許模型真的不用看得那麼細這種不斷壓縮、縫縫補補的架構,單純從外部看挺不靠譜的。但從測試效果看,它換來的是實打實的智商飛躍。因為不再受困於計算資源的限制,大模型展現出了更宏觀的聚合視角。在 Codeforces 這種堪稱人類腦力煉獄的程式設計競賽中,V4-Pro-Max 以 3206 分的 Rating 首平了 OpenAI 的 GPT-5.4 等閉源頂流;在百萬長度的大海撈針極限測試中,其檢索表現甚至超越了 Gemini-3.1-Pro。壓縮和線性,那條路更好?在章節的開始,我們提到過以 Kimi (Moonshot AI) 為代表的線性注意力機制(Linear Attention)。和 DeepSeek 一樣,它徹底拋棄了保留所有歷史記憶的執念。但做法上與 DeepSeek 靠直接壓縮不同,它不再做整本厚厚的讀書筆記,而是只拿一張小卡片(狀態矩陣)。每讀到一個新詞,就擦除一下卡片,把新意思融合進去,不斷更新。因此,它的計算複雜度是完美的一次方複雜度,這意味著,無論你給它看 100 萬字還是 1000 萬字,它生成每一個新詞所需的算力和視訊記憶體,就像死水一潭,永遠不會增加。從理論上限來看,它無可匹敵。但把 100 萬字的汪洋大海,全揉進一張固定大小的卡片裡,必然會導致精細記憶的嚴重丟失。為了找回智商,當前的線性注意力(如 Kimi)被迫向現實妥協,採用了 3:1 混合架構——每讀 3 層小卡片,就必須強行穿插 1 層傳統的標準注意力機制來翻看原著回血。而正是這剩下的 25% 傳統層,依然要硬扛百萬長度的算力大山,成為了拖累其整體起飛的木桶短板。而 DeepSeek 的方法,從結果上比這種妥協模式更省(10% vs 25%)。更重要的是,它本質上依然是矩陣乘法(大規模的行列式計算),這正是當今輝達等 GPU 晶片最適合的計算類型,其實際運行的硬體效率極高,對 infra 改造的要求比線性注意力要小。概念圖:線性注意力(Kimi 路線)vs 壓縮注意力(DeepSeek 路線)因此,DeepSeek-V4 就是當前工業界更完美的現實主義最優解。為全世界提供了一個當下就能用、且用得起的百萬級上下文引擎。交錯式思考,DeepSeek的Harness訓練除了主線的注意力改變之外,為了更好的應對百萬級的token量,DeepSeek V4還提出了一個解決上下文連貫性的Harness框架。它就是Interleaved Thinking(交錯式思考管理)。在 DeepSeek-V3.2 里,模型已經開始區分「工具呼叫過程中的思考」和「普通對話中的思考」,但它仍然有一個問題:當新的使用者消息進來時,之前積累的 reasoning traces 會被丟棄。對於普通聊天來說,這樣做是合理的,因為大多數對話不需要背著一大串中間推理往前走,保留太多反而浪費上下文。但對於複雜 Agent 任務來說,這就很致命。一個真正的 Agent 往往不是一問一答,而是要經歷搜尋、讀取、寫程式碼、運行命令、觀察結果、修正計畫、再次呼叫工具的多輪循環。如果每一輪使用者消息或工具結果之後,模型都要重新建構自己的問題理解,它就像一個每走幾步就失憶一次的工程師。上下文看似還在,但任務狀態已經斷了。V4 的做法是,把這兩種場景徹底分開。在普通對話場景裡,它仍然丟棄上一輪的思考內容,保持上下文簡潔;但在工具呼叫場景裡,它會跨使用者消息邊界保留完整的 reasoning history,讓模型能夠把前面每一次搜尋、每一次工具反饋、每一次失敗嘗試都納入同一個連續的問題求解過程。這就是為什麼百萬 token 上下文在 V4 里不只是一個「能塞更多文字」的功能。它變成了 Agent 的工作記憶。長上下文負責提供足夠大的記憶空間,Interleaved Thinking 則決定這塊空間怎麼被使用。沒有前者,複雜任務裝不下;沒有後者,複雜任務雖然裝得下,但模型仍然無法穩定地沿著一條長鏈路持續推進。所以從這個角度看,V4 的長上下文不是孤立的架構炫技,而是在為長程 Agent 工作流補齊一塊基礎設施。CSA/HCA 解決的是百萬 token 能不能算得起,Interleaved Thinking 解決的是算得起之後,模型能不能真的把這些歷史變成連續的行動能力。02. 第二個範式更新:推翻傳統後訓練在大家都還用 GRPO 作為後訓練的基礎的時候,發明了這一方法的 DeepSeek 先部分推翻了它。這說明,在 DeepSeek 看來,後訓練範式還遠沒有定型。當下的後訓練面對的最大的兩個問題,一個是對齊稅(Alignment Tax),另一個就是對非 RLVR 領域的拓展可能。DeepSeek V4 這次對兩個方向都發起了進攻。用 OPD 攜手多個老師消除對齊稅對齊稅,指的是當我們試圖讓模型變得更聽話、更嚴謹時,往往會以犧牲其原始的創造力或特定領域的靈動性為代價。這是因為 V3/V3.2 時代改採用的,現在也屬於行業比較通用的 Mixed RL(混合強化學習)範式中,所有的目標(程式碼、數學、創意寫作、指令遵循)都在同一個 RL 過程中被最佳化。當模型試圖同時滿足數學的絕對嚴謹(Rule-based RL)和文學的優雅流暢(Preference-based RL)時,這兩種截然不同的獎勵訊號會在參數更新中產生極其劇烈的衝突。結果往往是模型常見的平庸化,為了保住程式碼不報錯,模型變得像個復讀機;為了讓語氣更有親和力,它的數理邏輯開始鬆動。每個值都達不到最好。因此,V4 團隊提出的第一條自救邏輯是,承認偏科的必然性,並將其工程化。他們首先獨立培養了十幾個領域的頂級專家。數學專家只需在數學沙盒中用傳統的 GRPO 方式進行訓練,而程式碼和 Agent 專家則在 DeepSeek 自己設計的一套任務錨定的 DSec 沙盒中通過百萬次的編譯反饋不斷進化。這種物理層面的隔離,確保了每一種能力都能在不被其他領域干擾的前提下,觸碰到當前參數規模下的性能天花板。那在專家們各顯神通之後,如何將這些靈魂重新注入一個統一的容器?用 OPD(On-Policy Distillation)。OPD 一直是大模型後訓練中的一個明日之星,因為它就是可以統合不同的能力。但傳統的蒸餾由於算力限制,沒法蒸餾全部詞表,往往只能做 Token 等級的對齊,或者為了省視訊記憶體而只學 Top-K 的分佈。這種管中窺豹的學習方式會讓學生模型只學到皮毛(表層機率),而學不到教師模型深層的邏輯機率分佈。為了避免這種現象,DeepSeek 這次選擇了全詞表 Logit 蒸餾(Full-vocabulary Logit Distillation)。為了實現這種全量灌頂,DeepSeek 設計了一套極其巧妙的快取替換策略。在前向傳播時只存隱狀態(Hidden States),在反向傳播時動態重構 Logits。這種方法讓學生模型(最終的 V4)能夠完美擬合所有專家模型在全詞表上的輸出分佈。這不僅僅是學答案,而是學機率。由於學生模型在每一輪迭代中都在向這十幾個頂尖專家對齊,它成功規避了上面提到的權重融合(Weight Merging)帶來的性能退化,實現了真正意義上的無損大一統。GRM,將「通用驗證器」帶入工業生產線如果說 OPD 是解決如何合,那麼 GRM(生成式獎勵模型)就是解決怎麼獎勵的問題。這個問題在後訓練屆也是由來已久的,過去我們訓練的主要是那些有 Ground Truth 的領域,比如數學、程式碼(可以通過跑不跑得通驗證),這類訓練叫做 RLVR(即建立在可驗證獎勵上的強化學習)。它讓模型的程式碼和數學能力一日千里。但對於主觀性極強的難以驗證的任務(Hard-to-verify tasks),我們之前都是用傳統的標量獎勵模型(Scalar RM),它是一個黑盒,只能給出一個 0.8 或 0.9 的分數,卻無法告訴模型「為什麼這裡寫得好」。這導致模型在 RL 階段極其容易通過刷字數或特定語氣範本來欺騙獎勵函數(Reward Hacking)。學界之前給出的解決方法就是希望建立一個 Universal Verifier(通用驗證器),能給所有類型的任務都提供有效的獎勵函數。但主觀的怎麼給,有人用模型自己生成,結果發現效果不怎麼樣;有人則提出人來寫規則,但人也不可能窮盡所有的規則,依然很難。DeepSeek-V4 對此的邏輯是,結合併超越。GRM 的工作流程被設定為,評份量表(Rubric)引導 → 思考軌跡生成(Think)→ 最終評分。又有量表,又有模型判別。同時,這個寫判決的模型(GRM)和生成的模型是同一個模型,並且聯動最佳化。過去單獨訓練一個小一點的評分模型,導致評價水平低的問題,也被解決了。不光如此,通過聯合最佳化,Actor 生成模型在數理邏輯訓練中練就的「肌肉」,被直接借用到了 GRM 的評估過程中。這意味著,當模型評估一個 Agent 的軌跡時,它不再是靠感覺,而是動用了它在程式碼和數學訓練中獲得的因果推演能力。而這種因果能力,在一定程度上又抑制了評價模型自己過於自信的可能。這種推理賦能評估的機制,讓 GRM 從過去工業論文中比較實驗性的嘗試,第一次變成了一個魯棒的、能夠指揮兆參數模型進行對齊的「工業級通用驗證器」。最終結果:拒絕「偏科怪物」,走向能力均一化還記得 GPT 5.4、Claude 4.7 被吐槽最多的點嗎?就是程式設計行,但不說人話。這正是目前許多追求極限 RL 模型的通病。V4-Pro-Max 與主流閉源/開源模型全維度對比靠著上面這套新的後訓練範式,論文中對 V4 最終表現的自評,是 Uniform Performance(表現均一性)。在高階白領任務(White-Collar Task)中,在包含金融、教育、法律等 13 個行業的複雜中文任務(深度資訊分析、長文件生成、精細編輯)中,V4-Pro-Max 直接對標了閉源的 Claude Opus 4.6 Max,並且拿下了 63% 的不敗率(勝+平)。中文寫作(Chinese Writing)中,V4-Pro 以 62.7% 的勝率碾壓了基線模型 Gemini-3.1-Pro(後者勝率僅為 34.1%);在創意類寫作的「寫作質量」指標上,勝率更是高達 77.5%。而硬核程式碼研發智能體(R&D Coding Agent)也沒落下,在收集自內部工程師的 200 多個真實複雜研發任務(涉及修 Bug、重構、多語言棧)中,V4-Pro 的通過率達到了 67%,遠遠甩開了 Claude Sonnet 4.5(47%),並且逼近了 Claude Opus 4.5(70%)。這套方法論其實就是 RL 的下一輪轉型訊號。大模型的下一階段,拼的不再是簡單的 RL 算力堆砌,而是誰能用最優雅的工程結構,把分佈在不同領域的極致智慧,毫無損耗地壓縮排同一個參數空間裡。中文寫作勝率對比,V4-Pro 以 62.7% 勝率碾壓 Gemini-3.1-Pro03. 第三個範式更新:mHC 帶來的殘差流的「穩壓器」mHC 因為之前 DeepSeek 單獨發過論文,所以很多文章都對它進行了一些講解。但這次開放原始碼的 V4,讓它的具體落地方法更明確了,依然有必要再細說說。殘差,模型之間的通訊管道想講明白 mHC,就得先講明白 HC(超連接),想講明白 HC,得先從殘差連接開始。大模型的世界裡,每一層 Transformer 都在做同一件事。就是把輸入的資料做一次複雜的非線性變換,然後傳給下一層。資料從第一層流到最後一層,要經過幾十次這樣的加工。這聽起來像是一條順暢的流水線,但實際上,隨著網路越來越深,這條流水線會從根部開始腐爛。問題的根源出在梯度上。當模型做反向傳播、從最後一層往回更新權重的時候,梯度要經過幾十次連乘。只要有一點點微小的誤差被放大,梯度就會直接變成零即梯度消失,或者變成一個天文數字即梯度爆炸。一旦發生這種情況,模型的訓練會瞬間崩潰,之前幾周的訓練成果全部化為烏有。何愷明提出的殘差連接(Residual Connection),就是為瞭解決這個問題。它的想法其實挺簡單的。在標準的前饋網路裡,第 l 層的輸出是 F(x),即一個複雜的變換函數。殘差連接乾脆在旁邊加了一個加號,把公式改成了,輸出 = x + F(x)。這個加號就是那條「水管」。它的意義就是,即無論 F(x) 這一層的變換有多離譜、提取的特徵有多沒用,模型至少還能拿到一份最原始輸入的完整複製,不至於讓資訊在頂層徹底失真。從反向傳播的角度看,這個加號更像是一條「應急車道」。梯度不用非得鑽過 F(x) 那堆複雜的權重矩陣,它可以順著這條直通的水管直接流回底層。只要這條水管還在,那怕中間的層學得一團糟,底層的梯度也能順順暢暢地流回去,保證訓練不會斷掉。這就是殘差連接最核心的價值,即它保住了深度網路的生命線。但殘差連接有一個天生的缺陷。它的「水管粗細」即通道數,跟模型的隱藏層維度(Hidden Size)死死繫結在一起。因為要做 x + F(x),F(x) 的輸出維度必須跟 x 的維度完全一致,否則根本加不起來。這意味著,如果你想讓這一層提取更多的特徵、表達更複雜的資訊,你只能整體加大隱藏層的維度,而這會直接推高整層整層的計算量和視訊記憶體消耗。殘差流本身沒有獨立的設計空間,它完全被 F(x) 的內部結構給綁架了。超連接,把單車道強行改成四車道Hyper-Connections(HC)的提出,就是覺得這種「強制對齊」太浪費了,它在拖模型的後腿。HC 的核心想法是,憑什麼殘差流的寬度要被隱藏層維度限制住?為什麼不能單獨把殘差流拉寬,讓它變成一條真正的資訊高速公路?具體做法是,HC 在殘差流進入每一層之前,先用一個「輸入對應矩陣」把窄的殘差流投影到一個更寬的空間;等到 F(x) 算完之後,再用一個「輸出對應矩陣」把寬的 F(x) 壓縮回原來的殘差流維度。這樣一來,F(x) 內部可以隨便設計得又寬又複雜,完全不拖累殘差流的維度。殘差流自己則獨立地變寬。這相當於把單車道強行改成了四車道。更多的獨立通道意味著殘差流可以同時、平行地傳遞更多樣、更細粒度的原始資訊。底層捕捉到的某個細微特徵,不用跟其他特徵擠在一起。它有自己專屬的車道,可以毫髮無損地直接流淌到最頂層。從資訊理論的角度看,HC 打破了殘差流和隱藏層之間的維度死結,提供了一個全新的「縮放軸」,即在不改變模型計算量(FLOPs)的前提下,僅僅通過拉寬殘差流,就能大幅提升模型的資訊交換效率。但 HC 在自己的成功裡埋下了毀滅的種子。它只管把路修寬,卻完全沒想過寬路上如果不設紅綠燈、不限速、不劃車道,車流會在半路發生什麼。當四車道變成車禍現場HC 的訓練不穩定問題,根源在於它對殘差對應矩陣的參數沒有任何約束。輸入對應、殘差變換、輸出對應,這三組矩陣的全部權重都是自由學習的。這會帶來兩個致命的後果。第一個後果是訊號抵消。如果殘差變換矩陣裡的權重符號不統一,有的正、有的負,那麼在高層進行矩陣加法的時候,不同的特徵通道就會發生嚴重的相消干涉。好比兩股勁使反了,力氣越大,殘差裡的有效資訊反而被抵消得越乾淨。你以為拉寬了四車道能讓更多資訊傳遞過去,但實際上,這四股車流可能在半路迎頭撞上,最後啥都沒剩。第二個後果是梯度爆炸。因為對應矩陣是自由學習的,沒有譜范數(Spectral Norm)的任何約束,隨著網路越來越深,這些矩陣在向前傳播時會被反覆連乘。一旦某個矩陣的模稍微大於 1,經過幾十層的堆疊,輸出值就會呈指數級膨脹。等到資料流到頂層的時候,啟動值直接衝進無窮大,Loss 變成 NaN,訓練瞬間崩潰。這就像水壓太大且沒有控制,水流在幾十層樓之間來回放大或疊加,最終要麼互相激盪導致水流莫名其妙地消失,要麼壓力過大直接把整棟樓沖垮。這就是為什麼 HC 雖然被證明有潛力提升模型性能,卻始終沒法擴展到極深的網路。它不是不夠強,它是太強且完全失控。HC 修了一條沒有護欄、沒有限速、沒有交通規則的超級高速公路,車速越快,翻車的機率就越高。mHC,給超級高速公路裝上智能交通管制系統Manifold-Constrained Hyper-Connections(mHC)的出現,就是要把這頭脫韁的野獸重新關回籠子裡。給 HC 加 Harness 了屬於是。方法也和 Harness 很相似,就是直接對殘差對應矩陣施加流形約束,讓它永遠無法脫離安全區間。mHC和傳統RC、HC的對比mHC 的關鍵,是強制要求中間的殘差對應矩陣 W_res 必須滿足「雙隨機矩陣」(Doubly Stochastic Matrix)的性質。翻譯成人話就是,這個矩陣的所有元素都必須是非負數,而且每一行的和等於 1,每一列的和也等於 1。聽起來這就是個歸一化,但它很好用。一個矩陣如果是雙隨機的,那麼數學上可以嚴格證明,它的譜范數(L2 誘導范數)最大隻能是 1。這意味著,無論資料怎麼流過這一層,輸出的能量(模長)絕對不可能超過輸入。這就相當於給訊號的放大倍數焊死了一個硬上限。不管矩陣內部的權重怎麼變,它都不可能變成一個「膨脹器」。這是從數學根源上剷除了梯度爆炸的可能性。更有意思的是,雙隨機矩陣的集合(數學上叫 Birkhoff 多面體)在矩陣乘法下是封閉的。這意味著,即使你把幾十個這樣的矩陣連乘起來,結果依然是一個雙隨機矩陣,譜范數依然不會超過 1。這就保證了,那怕網路堆到 61 層、121 層,訊號在整條鏈路上的傳播依然是絕對穩定的,不會因為層數加深而出現累積性的數值漂移。除了核心的殘差對應,mHC 還對輸入和輸出的對應矩陣也動了手腳。它用 Sigmoid 函數把這兩個對應矩陣的權重死死壓在 0 到 2 之間。這保證了資訊在進出殘差流的時候,永遠是正增益或者溫和衰減,再也不會出現正負號打架導致的訊號抵消。這就像在每條車道上裝了單向閥和限速器,確保車流只能往前走,而且速度永遠在一個安全範圍內。DeepSeek 的極致性價比再次出現但這套做法裡,強行把一個任意的矩陣變成雙隨機矩陣,這計算量豈不是巨大?這對於擅長搞稀疏化的 DeepSeek 來講並不難。mHC 用了一個非常巧妙的近似演算法,叫 Sinkhorn-Knopp 迭代,來高效地完成這個投影。首先,對殘差對應矩陣的每個元素取指數(exp),保證所有元素都是正數。然後,像「天平稱重」一樣,先讓每一行除以行和(行歸一化),再讓每一列除以列和(列歸一化)。這樣來回迭代,通常只需要 20 次(DeepSeek V4 中 T_max=20),矩陣就會收斂到雙隨機狀態。它不需要做任何昂貴的矩陣分解,只需要做簡單的逐行、逐列除法,完全可以寫成高效的 CUDA 核函數。而且,由於 Sinkhorn-Knopp 迭代是高度可平行的,mHC 可以把多組對應矩陣打包到一起,用一次大的矩陣運算批次完成投影,最大化 GPU 的硬體利用率。除了流形約束,mHC 還引入了一個叫「動態參數化」的設計。它讓殘差對應的矩陣參數變成「動態」的,即根據當前輸入的資料特徵,臨時生成一份專屬的對應矩陣(動態份量),再疊加上一份不變的底版(靜態份量)。這樣做的目的是,在享受流形約束帶來的穩定性的同時,還能保留模型對複雜資料的擬合能力。如果對應矩陣全是死板的數字,模型可能會學不動,動態參數化則給了 mHC 足夠的表達力余量。mHC 的引入,從原理上看是在「增加」計算量和視訊記憶體消耗的。每一次前向傳播,都要多算三組矩陣對應,還要跑 20 輪 Sinkhorn-Knopp 迭代。每一次反向傳播,都要多傳三組矩陣的梯度。更何況,拉寬後的殘差流本身就會佔用更多的啟動視訊記憶體,在流水線平行(Pipeline Parallelism)時,還會增大跨 GPU 的通訊量。但 DeepSeek V4 的論文資料表示,mHC 帶來的額外時間開銷,被死死壓在了僅佔流水線 Stage 總耗時的 6.7%。這意味著,mHC 幾乎是在「免費」運行。從結果來看,DeepSeek 的團隊幾乎是把底層 CUDA 程式設計的潛力榨乾到了極致,才讓這套複雜的流形約束系統能夠在實際訓練中實用化。mHC 到底帶來了什麼嚴格來說,mHC 的首要目的不是「高效」,而是「可能」。在沒有 mHC 這樣的流形約束之前,HC 那種拓寬殘差流的設計,根本沒法在極深的網路上穩定訓練。你要麼接受殘差流被綁死的窄水管,要麼冒險用寬水管但隨時準備面對訓練崩潰。mHC 出現之後,這個二選一的困局被打破了。你現在可以放心地把殘差流拉寬,放心地往深了堆 Transformer 層,因為 mHC 已經用數學硬約束把整條鏈路的水壓和流向給焊死了。這種「穩定」帶來的,是質變級的能力提升。因為 mHC 把這條寬闊但極度危險的殘差流徹底馴服了,模型現在可以放心地在第一層和第六十一層之間傳遞極其複雜的邏輯特徵,而不用擔心中間失真。在 DeepSeek V4-Pro 裡,殘差流的擴展因子 r_hc 被設為 4,意味著殘差流比隱藏層維度寬了四倍。這多出來的通道,承載的是底層捕捉到的細微推理線索,即一段程式碼的語法依賴關係,或者一段長文的因果鏈。這些資訊可以原汁原味地直接流淌到最頂層的預測頭,不會被中間幾十層的複雜變換給稀釋掉。這就是為什麼 V4-Pro 在僅有 49B 啟動參數的情況下,邏輯推理能力能夠直接逼近滿血版 Claude Opus 4.5 和 GPT-5 等級模型的核心原因。它不是靠堆參數堆出來的性能,而是靠把資訊傳遞的通路徹底打通、把訊號損耗降到最低,才在參數效率上實現了對同等級模型的降維打擊。從更廣闊的視角看,mHC 解決的是一個被整個行業低估了的問題,即當大模型走向極深度、極長上下文的時候,資訊傳遞的效率瓶頸,可能比計算量的瓶頸來得更致命。大家的注意力都放在了怎麼減少注意力層的計算量、怎麼壓縮 KV 快取,卻很少有人意識到,如果殘差流這條路本身不通暢,再強的注意力機制也救不了頂層的資訊失真。DeepSeek V4 用 mHC 給出了自己的回答。這套看起來樸素的「穩壓器」,讓 61 層的深層網路能夠像淺層網路一樣穩定訓練,讓百萬 token 的上下文資訊能夠像流進淺溪一樣順暢地流淌過整個模型。結合之前 DeepSeek 對長上下文的信仰,這個改變的意義就變得更加意義深遠了。04. 範式革新外的工程最佳化除了上面提到的三層範式等級的革新外,DeepSeek V4 在工程上的最佳化依然和之前一樣可圈可點。Muon 最佳化器的工程迭代首先是對 Muon 最佳化器的使用。DeepSeek V4 並不是第一個用 Muon 最佳化器訓練的兆模型,但它解決了過去它存在的一個重要工程難題,讓它更容易被在工程界廣泛推廣。Muon 最佳化器本身其實很重要。它可能會直接重寫未來所有大模型的「煉丹說明書」。訓練模型最重要的是什麼?就是做梯度下降,梯度下降的又好又穩,那這個模型訓練就非常順滑。但梯度(現實和生成的差距)在那兒,怎麼調整模型參數才能讓它能很好地接近現實呢?這裡面可能涉及的可調整項非常多。我們把這些可調整項想像成旋鈕,負責決定怎麼去擰這些可調整按鈕的指揮系統,就叫最佳化器(Optimizer)。之前,全世界都在用一個叫 AdamW 的老牌指揮系統。它的工作邏輯是各自為戰。它會讓每個旋鈕只看自己的歷史記錄,「我過去主要往左扭」,「我過去扭得猛不猛」,然後每個旋鈕獨立決定下一步怎麼動。這在小模型上沒問題,但在兆級模型上,因為大家不看彼此的配合,最後會導致旋轉發力極度不均勻。有的旋鈕都擰已經冒煙了,有的旋鈕還一點不動。這讓訓練效率大打折扣。2024 年,學術界提出了 Muon 最佳化器,它的核心思想就是,不要讓按鈕自己決定怎麼旋,我們要有一個全域的視角!在每次調整前,Muon 會先通過一個複雜的數學操作(正交化),把所有旋鈕的協同關係算得清清楚楚。經過 Muon 調配後,所有參數維度的更新步長變得非常均衡。大家整齊劃一,沒有誰掉隊,也沒有誰冒進。Muon 最佳化器如同交響樂指揮,讓所有參數更新整齊劃一業界(比如 Kimi 的 K2 論文)已經證明了它的威力,在同樣的計算資源下,換上 Muon 後,模型的錯誤率(Loss)下降速度極快,訓練極其穩定。這等於你花同樣的電費,練出了更聰明的模型。既然這麼好,為什麼以前大廠都不用?因為 Muon 身上帶了一個工業級絕症。Muon 的全域統籌有一個硬性前提,它必須一眼看到完整的梯度矩陣(所有旋鈕的狀態)。但現代大模型訓練,根本不可能把所有參數放在一張顯示卡上。業界通用的做法(叫 ZeRO 技術)是把龐大的參數矩陣像切豆腐一樣,切成成千上萬塊,散落在幾千張顯示卡上。AdamW 覺得無所謂,反正參數是各自為戰,切得多碎它都能算。但 Muon 傻眼了。它需要統籌全域,但現在每個人手裡只有一塊拼圖。如果每次更新都要讓幾千張顯示卡停下來,把拼圖湊齊了再算,那個通訊延遲和堵車程度,會直接把訓練速度拖垮為零。這就是為什麼過去一年,大家都知道 Muon 理論上很牛,但在真正的兆大模型上,誰也用不起來。Kimi 是第一個把 Muon 強行按在兆大模型上並證明有效的團隊。他們在演算法上打了很多極具價值的補丁。比如加入了防止死記硬背的機制(Weight Decay);加入了更聰明的慣性系統(Nesterov 動量),讓收斂更快;搞定了參數相容(RMS Rescaling)讓 Muon 算出來的大小,可以直接套用原來 AdamW 的超參數,免去了重新調參的噩夢。但是,Kimi 的論文沒有教大家怎麼徹底解決拼圖散落一地(ZeRO)的工程絕症。他們在自己的系統裡硬扛了過去,但沒有給出一套標準答案。DeepSeek-V4 在用 Muon 時候,就給出了一套收納解決法,解決了這個問題。為了不讓矩陣被切得太碎,DeepSeek 先設一個上限(比如最多切 8 份,而不是 64 份)。這樣保證每個 GPU 上拿到足夠大的一塊,Muon 可以對這塊做正交化。為了保證 8 份兒就能裝下所有,DeepSeek 用了一套「背包演算法」決定那個參數矩陣放在那張卡上。就像裝行李箱,儘量把完整的小件裝在一個箱子裡,絕不把一件衣服剪成兩半放兩個箱子。最後稍微塞點填充物(Padding),保證所有箱子一樣重(開銷極小,不到 10%)。這樣既省了記憶體,Muon 也能看到完整的局部矩陣。Kimi 證明了 Muon 不是紙上談兵;而 DeepSeek 給出了一份寫滿註釋的實戰說明書。這兩家中國頂尖 AI 公司的接力,完成了 Muon 最佳化器從一篇有趣的學術論文到工業級應用的跨越。MegaMoE 的車間法則讓 GPU 不閒著,是 DeepSeek V3 里的一個拿手好戲。在 V4 中,這個極致壓榨 GPU 的模式被提升到了整個 MoE 的層級上。MoE(混合專家模型)處理資料的五個標準步驟,第一步是 Dispatch(分發),即把流水線上的零件(Token/資料)分發給不同的專家醫生或車間。後三步,Linear-1 → SwiGLU → Linear-2(加工),這三個是專家車間內部的具體加工步驟(神經網路的計算和啟動)。最後一步,再 Combine(合併),把各個車間加工好的零件重新組裝起來,送往下個環節。MegaMoE 與其他MoE最佳化的比較以前,這 5 個步驟是各自獨立的。每做完一步,工人都要把零件放回總倉庫(GPU 視訊記憶體),下一步的工人再去倉庫拿。這種頻繁的存取操作極其浪費時間,成了最大的性能瓶頸。DeepSeek V4,Fusion Kernel,把這五個流程全塞進一個算子裡,拆掉了這 5 個車間之間的牆。現在,零件從進入 Dispatch 開始,就在一條無縫銜接的流水線上飛速流轉,中途絕對不回總倉庫,只在這個 Kernel 裡進行。資料直接在 GPU 內部最快的快取記憶體(SRAM/暫存器)裡完成所有加工,最後一次性輸出(Combine)。MoE Fusion Kernel 把五道獨立工序合併為一條無縫流水線這是 MoE 架構最佳化中的聖盃,第一次被系統性地完美解決,從而實現了 1.92 倍的訓練加速。FP4 量化感知訓練(QAT)這也是 DeepSeek 在 V3 上工程的一個延續。他們在 V3 上測試的是 FP8,現在在 V4 上就開始測試 FP4。FP 就是參數儲存的位數。一個參數可以用不同位數表達,精度(FP)越高,儲存的資訊越多,但佔據的空間和計算量也越大。因此壓縮 FP 就是減少計算量和儲存量的一個非常好的手法。但因為精度丟失,它並不適用於所有場景中,有的場景精度就很敏感,有的就不行。改在那裡省,得靠試。但這需要一整套訓練,讓模型在低精度下也能學會做對事。具體的做法,就是訓練時就模擬 FP4 會帶來的誤差。讓模型在訓練過程中學會適應這種粗糙數值這樣,最後真的部署成 FP4 時,掉點更少。這就是說,不是考完試才把眼鏡摘掉,而是平時訓練就戴著一副低清眼鏡,讓你習慣在低清條件下工作。和過去一樣,在真正訓練時,DeepSeek v4 通過 FP4-to-FP8 的方式復用已有 FP8 mixed precision 框架,同時保留 FP32 的參數。也就是說,不是所有訓練計算都徹底 FP4,而是在關鍵路徑上讓模型適應 FP4 表示。這次的 FP4,DeepSeek V4 主要用在了兩個位置上。MoE Expert 權重,在大規模混合專家架構中,MoE 的專家權重是佔據 GPU 視訊記憶體絕對大頭的罪魁禍首。通過將路由專家參數量化為 FP4,模型在部署時的視訊記憶體佔用被成倍壓縮。Indexer QK 路徑,還記得第一個範式更新中的壓縮稀疏注意力(CSA)機制中有個閃電索引嗎?DeepSeek 讓這一步的 Query-Key (QK) 啟動值完全在 FP4 精度下進行快取、載入和矩陣乘法。這直接在超長上下文(如 1M token)場景下,大幅加速了注意力分數的計算。在訓練過程的 Rollout(採樣)過程中,因為不用做梯度,DeepSeek V4 也用了原生 FP4。這大幅減少了記憶體載入負擔,帶來了實打實的加速和視訊記憶體暴降。尤其在上面提到 OPD 的全詞表蒸餾階段,由於需要同時跑十幾個龐大的 Teacher 模型,FP4 量化極大地緩解了視訊記憶體讀寫壓力並降低了採樣延遲。可以說,FP4 是 OPD 能夠落地的隱性前提。05. 看完技術文件,回來講講 DeepSeek 到底在做什麼在這個大模型賽道似乎已經高度同質化、當整個行業都在為了 Benchmark 上那零點幾的百分點卷生卷死時,DeepSeek 到底在做一件什麼事?DeepSeek V4 用這 58 頁的技術報告告訴我們的是,比起刷榜,他們更有興趣選擇衝擊那些真正卡住下一代智能脖子的真問題。而這其實已經變成了一種開源行業整體的趨勢。當我們把視角拉寬,會發現其實很多中國頂尖 AI 力量在技術上都做了類似的嘗試和嚴謹。比如在後訓練範式(如 OPD)的探索上,Qwen、智譜、小米都在持續投入,其中前兩家已經通過相關路徑有效緩解了模型在對齊過程中的通用能力遺忘,小米則和DeepSeek的路線高度一致;在建構類似 Rubic 的通用驗證器系統上,智譜和小米也早有自己的嘗試與佈局;針對底層資訊通路和殘差結構的處理,字節跳動此前也提出過自己的一套解決方案;而在解決長文字算力與記憶瓶頸的維度上,月之暗面(Kimi)對於 Linear(線性注意力結構)的深刻探索,同樣為整個行業在超長上下文的延伸上提供了極其寶貴的解法。如果說 Test-Time Compute 的範式是由 OpenAI 率先開啟,由DeepSeek領銜揭秘,造就了一時瑜亮。那麼在今天的中國 AI 社區裡,個個公司都已跨越了盲人摸象或單純跟隨的階段,開始各自在核心難點上做出實質性的底層創新。在這個百花齊放的生態中,DeepSeek 的獨特之處,在於它展現出了一種極為系統化的工程魄力和深沉的技術品味。它並非在那一個單點上閉門造車,而是將這些散落在行業各處的探索方向,最深入、最徹底地統合進了一套切實可用的訓練體系裡。從 V4 的這 58 頁技術報告中,我們清楚地看到,DeepSeek 的技術選擇始終有一條清晰的主線。它沒有那裡熱就去追那裡,而是圍繞著未來的長視野智能體、深層因果推理以及極限算力效率,量身定製了一套完整的基礎設施路線圖。這大概就是在這個周期裡,中國開源行業最讓人興奮的地方。創新的紅利不再只屬於某一家公司,而是化作了整體賽道的共同進步。而 DeepSeek,依然是這場集體進階中,把長期主義和系統性思考踐行得最透徹、也最優雅的之一。 (騰訊科技)