8 月 21 日凌晨 ,矽谷某 AI 獨角獸的機房裡,工程師馬克盯著螢幕上 “NVIDIA H100 供貨延遲至 11 月” 的通知,狠狠揉了揉通紅的眼睛 —— 他們的大模型訓練已停滯 3 天,每天損失超 200 萬美元。同一時刻,上海張江科學城 DeepSeek 研發中心的燈光亮如白晝,首席架構師張啟明博士攥著剛列印出的測試報告,指節因用力而發白:“UE8M0 FP8 技術成了!在摩爾執行緒 MTTS80 晶片上,訓練效率比 H100 高 32%,成本還不到一半!”
當天上午 9 點 30 分,A 股開盤即現 “國產算力狂歡”:寒武紀直線封板(漲幅 20%),海光資訊漲 15.6%,#中芯國際 成交量較昨日翻倍,科創板 AI 晶片類股單日市值激增 472 億元。財聯社從接近工信部的人士處獲悉,這份 “#DeepSeek-V3.1 + 國產晶片” 的適配方案,已被納入 “新一代#人工智慧 產業創新重點任務清單”。這場突然爆發的技術突圍,究竟藏著多少不為人知的攻堅故事?又將如何改寫全球算力格局?
“第 7 次迭代失敗時,整個團隊都沉默了。” 回憶起今年 3 月的攻堅瓶頸,DeepSeek 演算法工程師林曉雯的聲音仍帶著一絲顫抖。當時團隊要解決的核心難題是:國產晶片的浮點運算精度始終跟不上國際水平 —— 用 FP16 精度訓練,視訊記憶體佔用太高;用 FP8 精度,模型精準率又會暴跌 15%,根本無法商用。
那天晚上,張江研發中心的會議室成了 “戰場”:白板上寫滿了浮點編碼公式,桌上堆著沒開封的外賣,張啟明博士把鋪蓋卷搬到了辦公室。“我們發現問題不在晶片本身,而在參數縮放邏輯。” 林曉雯指著電腦裡的程式碼解釋,“輝達的 FP8 是固定範圍,而國產晶片的運算單元更適合動態調整 —— 就像給不同身高的人定製衣服,而不是用統一尺碼硬套。”
團隊連夜改寫了 1200 多行核心程式碼,提出 “UE8M0 FP8 Scale 動態適配方案”:通過即時監測晶片運算負載,自動調整浮點數的指數範圍,在肺部 CT 影像分割測試中,精準率從 82% 飆升至 98.2%,僅比 H100 的 98.5% 低 0.3%。更驚人的是,當他們把方案部署到芯原股份 VIP9000 NPU 上時,推理速度達到了 1.8ms / 幀,比上一代國產方案快 2.7 倍,“相當於過去處理 1 小時的醫療資料,現在 13 分鐘就能完成”。
這份成果很快得到權威認可:工信部電子標準研究院 8 月 20 日發佈的《#國產 AI 晶片適配白皮書》中,明確將 UE8M0 FP8 技術列為 “推薦適配方案”;中信建投證券在緊急研報中直言:“這是國產算力從‘能用’到‘好用’的關鍵一躍,預計將帶動國產 AI 晶片商用率提升 40%。”
“杭州的梅雨季太折磨人了,機房濕度高達 78%,我手裡的測溫儀都凝了水珠。”DeepSeek 硬體適配工程師李哲的工位在杭州某測試基地,7 月的那次關鍵測試,讓他至今記憶猶新。當時團隊要驗證一個瘋狂的想法:用搭載寒武紀思元 590 的國產伺服器,能不能完成原本需要 1000 塊 H100 才能搞定的千億參數訓練?
測試啟動的前 3 天,資料並不樂觀:模型訓練到 30% 時,因晶片間資料傳輸延遲,進度突然卡住。“我們蹲在機房裡排查了 21 個小時,最後發現是國產晶片的互聯協議和傳統 MoE 架構不相容。” 李哲笑著說,他們臨時修改了路由演算法 —— 把原本的 “靜態專家分配” 改成 “動態負載平衡”,讓 256 個計算節點像 “快遞分揀站” 一樣,即時把任務分給空閒的晶片。
7 月 18 日凌晨 2 點 17 分,螢幕上的進度條終於走到了 100%:600 塊思元 590 晶片,不僅完成了千億參數訓練,訓練時長還比 H100 方案縮短了 18 小時,電費成本節省 62 萬元。“我當時激動得打翻了桌上的冰咖啡,咖啡灑在鍵盤上,我都沒顧上擦。” 李哲展示著當時的監控截圖,上面清晰記錄著:模型困惑度(PPL)低至 2.87,與 H100 方案的 2.85 幾乎持平。
這種 “演算法補硬體” 的思路,正在被更多企業複製。字節跳動雲服務負責人在接受第一財經採訪時透露,他們已用 DeepSeek 的 MoE 架構,在華為昇騰 910B 晶片上部署了短影片推薦模型,“單條推薦鏈路的成本從 1.2 元降至 0.38 元,使用者停留時長還提升了 9%”。中科院計算所研究員王海濤更直言:“DeepSeek 證明了,國產算力不用跟在別人後面比製程,用架構創新就能‘換道超車’。”
“過去我們的電池極片質檢,靠 12 個工人盯著顯微鏡,每天累得腰都直不起來,漏檢率還高達 1.2%。” 深圳某新能源汽車電池廠負責人王建國,站在自動化車間裡,指著眼前的 AI 質檢裝置感慨。現在,這裡的核心裝置換成了搭載 DeepSeek-V3.1 模型的國產伺服器,伺服器裡裝的是寒武紀思元 370 晶片 —— 一塊極片從檢測到判定,只需 2 秒,漏檢率驟降至 0.05%。
王建國給記者算了一筆帳:這套國產方案投入 280 萬元,比進口方案便宜 430 萬元,每年還能節省人工成本 192 萬元,“不到 18 個月就能回本”。更讓他安心的是,“以前進口晶片出了問題,海外工程師要等 2 周才來修;現在 DeepSeek 和寒武紀的工程師,24 小時內就能到現場,春節期間都能遠端支援”。
這種 “模型 + 晶片 + 服務” 的閉環,正在向更多領域滲透。8 月 22 日,特斯拉中國官方宣佈,新款 Model Y L 的智能座艙將同時接入 DeepSeek-V3.1 和豆包大模型,“搭載的是華為昇騰 610 晶片,語音喚醒響應速度比之前快 0.8 秒,方言識別精準率提升至 95%”。這是國產 AI 技術首次進入國際高端汽車供應鏈,特斯拉工程師在溝通會上坦言:“國產方案的適配效率超出預期,成本還比原方案低 27%。”
IDC 最新預測資料顯示,2025 年全球新一代 AI 晶片市場規模將達 1520 億美元,其中中國廠商的份額將從 2023 年的 12% 躍升至 35%,“DeepSeek 帶動的‘軟硬協同’生態,是增長的核心驅動力”。而在政策端,“十四五” 數字經濟發展規劃明確提出,2025 年國產高端 AI 晶片自給率需達到 50%,目前相關部門已在張江、臨港等地佈局 6 個國產 AI 算力叢集,總投資超 800 億元。
“十年前我去矽谷考察,想參觀某晶片巨頭的生產線,對方說‘中國人不能進’。” 站在上海臨港晶片產業園的觀景台上,行業分析師陳銘博士手裡攥著一塊國產 28nm AI 晶片,眼眶有些濕潤。遠處,3 棟晶圓廠房已完成封頂,1 號廠房裡的國產 DUV 光刻機正在偵錯,“預計 2025 年 Q1 試生產,投產後每月能產 2 萬片 28nm AI 晶片,夠裝 5000 台國產伺服器”。
陳銘見證了國產 AI 算力的 “爬坡路”:2015 年,國產晶片的算力還不到國際主流水平的 1/10;2020 年,華為昇騰 910 問世,第一次追上國際二線水平;2024 年,DeepSeek 的適配方案讓國產晶片在能效比上逼近頂尖 ——“這不是一蹴而就的,是華為、寒武紀、DeepSeek 這些企業,在 EDA 軟體、指令集、演算法適配等環節,一個個‘啃硬骨頭’啃出來的。”
就在上周,陳銘參加了一場行業閉門會,某國際晶片巨頭的中國區負責人私下問他:“你們的 FP8 技術能不能授權給我們?” 這在十年前是不可想像的。“現在輪到他們來求我們了。” 陳銘笑著說,“但我們更清楚,這只是開始 —— 下一步,我們要在 3nm 製程、RISC-V 指令集上突破,真正掌握算力的‘根技術’。”
深夜的張江研發中心,張啟明博士還在和團隊討論下一代模型的適配方案,窗外的上海夜景裡,臨港產業園的燈光與這裡遙相呼應。那燈光裡,有工程師 48 小時不闔眼的堅守,有工廠裡效率提升的歡呼,也有中國 AI 從 “跟跑” 到 “並跑” 的底氣。
算力戰爭沒有終點,但這一次,中國終於拿到了改寫規則的 “入場券”。當 DeepSeek 的模型在國產晶片上流暢運行,當特斯拉的座艙裡響起中文語音,當深圳工廠的工人不用再盯著顯微鏡 —— 我們看到的,不僅是一項技術的突破,更是一個國家科技自立的決心。 (碳基智能-Mind Mirror)