近日,DeepSeek-V4預覽版本上線並同步開源,包含DeepSeek-V4-Pro和DeepSeek-V4-Flash兩個模型。
與此前主要基於輝達CUDA框架而運行的模型不同,這次DeepSeek-V4將細粒度專家平行(EP)方案分別在輝達GPU和華為昇騰NPU上完成了驗證。預計今年下半年,隨著昇騰950超節點批次上市,DeepSeek-V4 Pro的價格將大幅下調。
《科創板日報》記者獲悉,目前華為昇騰超節點全系列產品已支援DeepSeek V4系列模型,實現DeepSeek V4-Pro20ms和DeepSeek V4-Flash 10ms低時延推理。此外,沐曦、寒武紀、摩爾執行緒、天數智芯、等國產晶片廠商也宣佈支援DeepSeek-V4新模型。
值得一提的是,中國資訊通訊研究院聯合人工智慧軟硬體協同創新與適配驗證中心,宣佈啟動DeepSeek V4國產化適配測試工作。面向晶片、伺服器、一體機、叢集、開發框架及工具鏈、智算設施及平台等人工智慧軟硬體產品及系統開展。
多名業內專家對《科創板日報》記者表示,DeepSeek適配國產晶片,表明AI算力底座正朝多樣化路徑發展。目前國內網際網路行業、雲廠商等也在部署不同類型的AI算力,這意味著更多AI晶片廠商有機會扮演更為重要的角色。
▍AI算力底座朝多樣化路徑發展
沐曦股份攜手FlagOS,已完成對DeepSeek最新開放原始碼的DeepSeek-V4-Flash模型的Day 0適配。沐曦股份還聯合上海人工智慧實驗室KernelSwift智能算子遷移系統,率先完成DeepSeek-V4核心算子的Day 0適配。
沐曦股份聯合創始人楊建對《科創板日報》記者表示,這次DeepSeek新模型發佈,讓國產GPU可以變成機器創造知識時代的生產力資料和生產力工具。目前不僅是Deepseek V4,Minimax2.7,階躍星辰step3.5,kimi-2.6,智譜GLM5.1,mimo-V2等都可以基於國產GPU算力實現具有性價比的推理任務。
《科創板日報》記者獲悉,由智源研究院牽頭研發的眾智FlagOS,目前已完成DeepSeek-V4-Flash在8款以上AI晶片上的全量適配與推理部署,包括海光、沐曦、華為昇騰、摩爾執行緒(FP8)、崑崙芯、平頭哥真武、天數智芯等國產晶片。FlagOS同時正在推進DeepSeek-V4-Pro模型在多個晶片的遷移適配,後續即將開源。
IDC中國研究經理索引認為,DeepSeek全面適配昇騰晶片,表明AI算力底座正朝多樣化路徑發展,這一過程本身對AI產業發展具有推動作用,也是必然的發展趨勢。
CIC灼識諮詢董事總經理陳一心表示,DeepSeek的成功證明了基於國產算力同樣能夠運行世界級的大模型。此次適配昇騰950PR,是對國產高端晶片在複雜推理場景下性能的一次重要公開檢驗,將為後續更多模型和應用的遷移提供信心與範本。
陳一心稱,大模型的繁榮高度依賴“硬體-軟體-框架-應用”的完整生態。DeepSeek的適配行動,實質上是將龐大的開發者生態和模型應用生態向國產算力平台牽引。這有助於吸引更多開發者和企業基於昇騰平台進行創新,逐步打破對輝達CUDA生態的單一依賴,推動中國“國產算力+國產大模型”閉環生態的成熟。
當前,券商機構對國產算力產業鏈的發展前景保持樂觀。山西證券指出,DeepSeekV4等國產大模型有望原生適配國產算力,供需兩旺下,國產晶片對國產通訊晶片解決方案的需求更為迫切。隨著更多國產GPU/ASIC標的登陸資本市場,國產算力晶片的供給能力正大幅增強,建議關注超節點交換晶片、IODchiplet、國產高速網路卡三大算力通訊方向。
中信證券研報指出,Agent&多模態等應用爆發驅動Token呼叫量井噴,進而導致國內算力荒,國產大模型在推理端積極適配為國產算力廠商帶來加速放量機遇。其預計2026年國產算力晶片出貨量至少實現翻倍以上增長,將為算力設計公司、先進製程、先進封裝、先進儲存以及配套產業鏈帶來強勁增長動能。
▍國產算力成為AI雲的支撐之一
隨著DeepSeek-V4預覽版上線,百度雲、阿里雲、華為雲等國內主流廠商紛紛提供API服務。
百度智能雲旗下百度千帆平台Day0適配提供API服務,通過百度千帆控制台或API即可直接呼叫DeepSeek-V4-Pro,DeepSeek-V4-Flash即將全量開放。阿里雲百煉平台首發上線DeepSeek-V4-pro和DeepSeek-V4-flash兩款模型,百煉Token Plan近期也將支援呼叫該模型。華為雲MaaS模型即服務平台已為開發者提供免部署、一鍵呼叫DeepSeek-V4-FlashAPI的Tokens服務。
此外,國內AI雲服務商PPIO也第一時間全量首批上線,成為業內最快上線DeepSeek-V4的AI雲平台之一。
記者獲悉,阿里、字節跳動等頭部雲廠商已開始部署相關國產算力。陳一心對《科創板日報》記者表示,推理側國產算力已經比較成熟,訓練側快速追趕。頭部雲廠商從“試點”轉向“大規模商用”,國產算力成為AI雲的核心底座之一。
索引介紹,網際網路行業從幾年前就開始嘗試部署不同類型的AI算力,已從過去較為單一的佈局,轉變成更為均衡的算力部署,不僅僅是晶片類型,在架構層面也在不斷嘗試,例如超節點/超叢集產品的部署。這一趨勢在未來幾年預計保持,更加開放的架構也意味著更多AI晶片廠商有機會扮演更為重要的角色。
▍單位算力成本呈下降趨勢 但總算力支出不會減少
新模型發佈後,DeepSeek方面對API進行了降價。
DeepSeek全系列API服務,輸入快取命中的價格降至原有價格的1/10。Pro模型在2026年5月5日前還疊加2.5折限時優惠。此番降價疊加限時優惠後,DeepSeek-V4-Pro模型輸入(快取命中)降低至0.025元/百萬Tokens,DeepSeek-V4-Flash輸入(快取命中)降低至0.02元/百萬Tokens。。
DeepSeek此前還表示,受限於高端算力,目前V4-Pro模型的服務吞吐仍有限,預計下半年昇騰950超節點批次上市後,Pro價格會大幅下調。
陳一心認為,DeepSeek等模型通過演算法創新本身就降低了60%的訓練成本。而國產晶片廠商通過與DeepSeek的深度適配和聯合最佳化,進一步提升了在特定晶片上的推理效率。這種“演算法+硬體”的協同最佳化,直接壓低了單次API呼叫的計算成本,為模型供應商降價提供了空間。
索引則表示,雖然單位算力的成本呈下降趨勢,無論是本地部署還是從雲上獲取Token。但事實證明,算力成本的降低並不會減少算力支出,較低的單位成本正在擴大AI採用率以及工作負載規模,從而進一步增加算力基礎設施的需求,形成由人工智慧驅動的宏觀經濟良性循環。 (科創板日報)
