#昇騰
【重磅】華為昇騰產業鏈全解(1):都有誰
2019年,華為被列入實體清單。有人說,中國晶片產業完了。2020年,晶片禁令全面升級。有人說,七年之內不可能有國產替代。2022年,昇騰910B開始規模出貨。有人說,國產替代不過是噱頭,性能差太遠。2024年,昇騰920發佈,算力開始逼近國際一線。2026年,DeepSeek V4 100%運行在昇騰上,性能碾壓GPT-4。曾經的那些有人,都閉嘴了。從最初被卡脖子的至暗時刻,到如今逼近國際一線性能,中國AI算力產業完成了從0到1的生死跨越。昇騰產業鏈的意義,遠不止於一款晶片、一家公司、一個行業。這個產業鏈上,都有誰在一同奮戰呢?一、價值分佈昇騰產業鏈的價值分佈,像一座金字塔:上游技術壁壘最高,利潤最厚;中游訂單兌現最快,規模效應明顯;下游長期空間大,應用場景最多。具體來看:上游:晶片與核心器件這是根基技術。晶片設計、代工製造、封裝測試、關鍵配套,每一個環節都是硬科技。卡脖子的上游環節一旦突破,將釋放巨大價值。中游:整機與系統整合可以看做出海口。整機廠是晶片變現的通道,智算中心是算力服務的載體。訂單能見度高,業績兌現快,但競爭也最激烈。未來3-5年將是整機廠的高速增長期。下游:軟體生態與行業應用這就是星辰大海。軟體生態決定開發者粘性,行業應用決定商業價值天花板。大模型浪潮下,下游的需求被極大啟動,長期空間不可限量。二、上游上游是整個昇騰產業鏈的技術底座,也是壁壘最高的環節。1.1 晶片設計干的活: 晶片的總設計師。負責定義晶片架構、設計計算單元、規劃功耗與互聯頻寬。賺的錢:晶片銷售利潤、技術授權費、以及基於自研晶片建構的生態溢價。晶片設計處於產業鏈價值鏈頂端,毛利率可達60%以上。特點:技術壁壘最高,利潤最厚,是產業鏈的核心源頭。課代表: 華為海思1.2 代工製造干的活: 把設計圖變成真實的晶圓,是晶片從PPT到實物的關鍵一步。賺的錢: 代工費用,按晶圓片數計價。先進製程代工單價可達每片數千美元,產能利用率高時利潤可觀。特點: 中國晶片製造的最後一道防線,打破海外封鎖的關鍵環節。課代表: 中芯國際1.3 封裝測試干的活: 晶片代工完成後是"裸晶片",封裝測試環節負責將其封裝成可使用的成品。先進封裝是高端AI晶片的必選項。賺的錢: 封測服務費,按封裝類型和測試量收費。先進封裝單價更高,利潤也更厚。特點: 封測是晶片落地的最後一公里,技術門檻被嚴重低估。先進封裝是AI晶片性能提升的關鍵。課代表: 長電科技、通富微電1.4 封裝基板干的活: 晶片底部承載訊號的底座,負責晶片與PCB之間的電氣連接和散熱。ABF載板、FC-BGA載板是高端封裝基板的核心產品。賺的錢: 基板銷售,定價按尺寸和層數差異較大,高端產品單價可達數百至上千元。特點: 被卡脖子的上游環節之一,國產替代空間巨大。高端基板產能稀缺,是晶片封裝的關鍵材料。課代表: 興森科技、深南電路1.5 光模組干的活: AI伺服器叢集需要海量高速資料傳輸,光模組是伺服器之間、伺服器與交換機之間的資訊高速公路。萬卡叢集對800G/1.6T光模組需求激增。賺的錢: 光模組銷售,800G光模組單只售價可達數千元,高端產品毛利率超30%。特點: 光模組是算力互聯的血管,萬卡叢集直接拉動需求爆發。技術迭代快,規模效應明顯。課代表: 中際旭創、華工科技1.6 高速連接器干的活: 負責將板卡、晶片、電源物理連接,確保訊號穩定傳輸。賺的錢: 連接器按套/按件計價,高端產品單價可達數百元。特點: 小器件、大作用,是伺服器可靠性的基石。技術門檻高,客戶粘性強,一旦進入供應鏈就很難被替換。課代表: 華豐科技、意華股份1.7 散熱/液冷干的活: 萬卡叢集功耗高達數MW(兆瓦),散熱是生死線。傳統風冷已無法滿足需求,液冷成為AI伺服器的標配。賺的錢: 整套液冷方案價值可達伺服器總成本的10%-15%。特點: 散熱做不好,萬卡叢集就是一堆廢鐵,這個環節正在被重新定價。液冷是AI伺服器的剛需配套。課代表: 英維克、高瀾股份、申菱環境1.8 PCB/覆銅板干的活: PCB(印製電路板)是伺服器的神經網路,承載所有晶片與元器件的電氣連接。AI伺服器對PCB的層數、密度、訊號完整性要求遠超普通伺服器。賺的錢:高端伺服器PCB單板價值可達數千元,高密度互聯(HDI)產品利潤豐厚。特點: PCB是電子系統的骨架,高端產能是稀缺資源。技術壁壘較高,頭部企業優勢明顯。課代表: 滬電股份、華正新材1.9 電源干的活: 整機櫃供電系統是算力的心臟。AI伺服器功耗動輒數千瓦,萬卡叢集總功耗可達數十MW。電源系統負責穩定、高效地將電能分配到每個計算單元。賺的錢:整機櫃電源系統價值可達數十萬元,高功率電源單價更高。特點: 供電能力決定算力上限,電源是底層保障。高功率電源技術門檻高,定製化需求強。課代表: 麥格米特、泰嘉股份二、中游中游是晶片到算力的最後一公里,這裡決定晶片能否真正轉化為客戶可用的算力。2.1 AI伺服器整機干的活: 買昇騰晶片,做成AI加速卡,裝進伺服器機箱賣給客戶。整機廠是典型的晶片搬運工+系統整合商,考驗供應鏈管理和整機設計能力。賺的錢: 一台昇騰AI伺服器售價可達數十萬至數百萬元,整機廠毛利率約15%-25%。特點: 昇騰生態的出海口,誰的份額大,誰就掌握了昇騰算力的分發權。訂單能見度高,業績兌現快,但競爭激烈。課代表:華鯤振宇、拓維資訊2.2 板卡干的活: 華為不僅賣晶片,還自己做板卡。原廠板卡是整機廠的核心採購來源,也是技術標準的制定者。賺的錢: 板卡銷售、硬體標準制定權。Atlas系列毛利率可達40%以上,是華為昇騰變現的核心產品。特點: 華為在板卡層面既是裁判員又是運動員,這種垂直整合模式讓生態夥伴既愛又恨。技術標準制定者,生態話語權最強。課代表: 華為Atlas系列2.3 智算中心與算力租賃干的活: 建設智算中心,購買伺服器叢集,對外提供算力租賃和AI服務。涉及資料中心建設、算力調度、維運管理等全鏈條能力。賺的錢: 算力租賃費,按GPU小時或算力單元收費。智算中心毛利率約30%-50%,規模效應顯著。特點: 算力租賃是輕資產玩法,讓中小企業也能用上高端算力。長期空間大,但前期投入重。課代表: 恆為科技、優刻得三、下游下游是昇騰價值的最終兌現處。晶片再強,沒有軟體生態和行業落地,就是空中樓閣。3.1 基礎軟體干的活: 讓大模型能在昇騰上跑起來、跑得快、跑得穩。包括晶片驅動、算子庫、編譯器、AI框架適配、大模型遷移最佳化等。軟體使能是生態建設的核心,決定昇騰能否真正被開發者接受。賺的錢: 軟體開發費、技術服務費、適配調優費用。軟體服務毛利率可達50%以上。特點: 軟體生態比硬體更難建構,卻比硬體更有護城河。決定開發者粘性和生態繁榮度。課代表:潤和軟體、軟通動力3.2 行業應用干的活: 把昇騰算力用到具體行業裡,開發業務系統、實施部署、維運服務。每個行業都有獨特的know-how和客戶關係,算是真正的苦活累活。賺的錢: 行業解決方案、軟體銷售、維運服務。行業項目金額從數百萬到數億元不等,毛利率約30%-40%。特點總結: 決定昇騰能否真正改變產業的關鍵。應用場景多樣,長期空間大。課代表:恆生電子、科大訊飛、大華股份、常山北明3.3 大模型干的活: 在昇騰上訓練、推理大模型。大模型訓練需要千卡甚至萬卡叢集,是昇騰算力消耗的大胃王。賺的錢: API呼叫費、模型授權、行業定製。大模型商業化路徑逐漸清晰:toB行業定製、toC訂閱、API呼叫分層收費。特點總結: 殺手級應用,也是昇騰生態能否真正挑戰CUDA生態的關鍵。大模型適配是生態繁榮的核心標誌。課代表:百度文心、科大訊飛再說幾句AI大模型的軍備競賽,本質上是算力的競賽。2025年,全球AI晶片市場規模超過1000億美元,預計五年後可能破兆。長期以來,這個市場被輝達壟斷。但我們買不到H100,買不到H200,搞了個中國特供版H800,然後也被禁。最後連特供閹割版H20也被限制。何以抗爭,唯有自強。華為昇騰,用5年時間走完了西方巨頭十幾年的路。如今,昇騰產業鏈是中國唯一具備完整閉環的AI算力體系。放眼全球,能從晶片設計到行業應用全鏈路自主可控的,只有美國,現在還要加上中國。這不是奇蹟,這是積累。數萬名工程師、數千億投資,用七年時間,走完了別人二十年的路。當有人想卡你脖子的時候,你最好的選擇就是織上一身鎧甲。這是國產AI算力的里程碑,但這不是終點。只是起點。 (半杯小築)
56億昇騰訂單 撕碎輝達CUDA壟斷
2026年4月,華為在深圳正式啟動昇騰950PR大規模量產。 這款單卡FP4算力1.56PFlops的推理晶片,性能是輝達針對中國特供的H20的2.8倍。剛過去的4月底,字節跳動確認拋出56億美元採購單,鎖定約35萬顆,直接創下中國國內AI晶片採購的歷史紀錄。 現在國內AI基建已經徹底從“湊合用的備份”,轉成主動選國產替代的階段。DeepSeek V4的發佈是關鍵轉折點。 這款1兆參數的MoE大模型,原本定在2026年初發,特意推遲了3個月重構,專門適配昇騰950PR和寒武紀的硬體。 阿里雲、騰訊雲在V4發佈當天就完成了全端部署。 全行業都看得懂:硬體性能突破和軟體生態解耦正在同步發生,輝達靠CUDA鎖了十幾年的開發者生態,真的要鬆了。FP4性能反超H20 昇騰產能直接拉滿昇騰950PR直接把國產AI晶片的性能天花板抬了一大截。 FP4精度下1.56PFlops的推理吞吐量,比輝達H20高1.8倍。 它也是目前唯一支援FP4壓縮格式的國產晶片,跑大規模MoE模型的時候,記憶體頻寬消耗更低,能扛更多並行請求。產能兌現的突破比參數更實在。 華為2026年全年計畫出貨75萬顆,單價約1.6萬美元,現在現貨價格已經因為搶貨漲了20%,完全是賣方市場。 75萬顆的年產能,意味著昇騰950PR已經從實驗室樣品變成了工業級基礎設施,足夠扛住全國數百萬並行AI查詢的需求。 字節一家的35萬顆訂單就佔了全年規劃產能的近一半,頭部網際網路廠的算力採購邏輯早就變了。CUDA直接相容 遷移成本砍到零昇騰950PR最有戰略價值的不是硬體性能,是它的CUDA相容軟體棧。 現有基於輝達CUDA開發的AI workload,不用重寫程式碼就能直接遷過去,徹底解決了之前國產晶片落地推廣最大的“移植成本”問題。 之前開發者牴觸非輝達硬體,主要就是改核心程式碼太費人力時間,現在950PR靠二進制相容層做到了幾乎零摩擦遷移。 坊間資料說,2025年國內已經有超過3000個常用大模型完成了昇騰適配,相容層跑起來的效率能到原生CUDA環境的95%以上。DeepSeek V4推遲發佈,剛好印證了這條路線走得通。 開發團隊花了三個月針對昇騰和寒武紀硬體重構模型架構,最終最佳化版本的推理效率,比基於輝達硬體的原始方案還高一點。 這種“模型主動適配硬體”的操作,直接打破了之前“硬體必須遷就主流模型”的慣性。 阿里雲百煉、騰訊雲TokenHub在V4發佈當天就上線了基於昇騰950PR的推理服務,整個行業的遊戲規則已經變了。56億大單鎖半產能 國產替代閉環跑通字節這56億美元的訂單,是中國半導體史上最大的單筆AI晶片採購單。 不僅鎖了華為2026年近半的950PR產能,訊號效應比訂單本身還大。 阿里、騰訊等雲服務商緊跟著就下了大規模預購,全年75萬顆的產能剛公佈就被搶光了。 這種“需求端先給訂單-產能端滿負荷跑-供應鏈快速成熟”的正向循環,直接解了之前國產AI晶片“沒訂單就沒迭代,沒迭代就沒訂單”的死局。價格的變化最能說明市場地位的反轉。 1.6萬美元的單價加上20%的現貨溢價,說明昇騰950PR已經是市場搶著要的硬通貨。 之前國產晶片要靠打折才能搶市場,現在國內企業願意為自主可控的算力付溢價。 這種商業可持續性直接給後續研發喂足了現金流,華為已經公開路線圖,2027年、2028年將分別推出昇騰960、970系列,代際迭代的正循環已經跑通了。DeepSeek V4原生適配 軟硬體協同效率拉滿DeepSeek V4選昇騰950PR當原生最佳化平台,標誌著國內AI產業進入了“軟硬體協同設計”的新階段。 這款1兆參數的MoE模型,每次推理只啟動370億參數,對記憶體頻寬和稀疏計算效率要求極高。 950PR的FP4支援能力和高頻寬記憶體設計,剛好踩中了MoE模型的稀疏啟動特性,推理成本比傳統稠密模型低了近40%。這種協同效應已經在改雲廠商的採購邏輯。 阿里雲、騰訊雲當天就完成部署,不是簡單的軟體適配,是直接基於950PR的硬體特性重寫了推理服務架構。 DeepSeek已經公開說,2026年下半年昇騰950超級節點規模出貨後,V4-Pro的API定價會大幅下調,國產硬體的成本優勢已經開始直接傳導到終端使用者。 對比之下,輝達H200因為中美監管拉扯,至今沒能進中國市場,剛好給國產晶片留足了空間。H200卡殼進不來 國產算力窗口期已到現在的市場格局,剛好踩中了監管的時間差。 輝達H200理論性能確實比昇騰950PR強,也拿到了出口許可,但中美雙方在銷售細則上扯了快半年,至今沒完成對華出貨。 這12到18個月的空窗期,剛好給華為留足了滲透國內雲基礎設施的時間。 950PR靠性能超H20、產能爬坡快、生態無縫遷的三重優勢,已經搶下了國內AI算力新增市場的大半份額。2025年北京就停了輝達H20的進口,剛好接上昇騰950PR的量產節奏。 現在H20徹底買不到,H200又沒影子,國內AI產業已經進入了“後輝達”的過渡階段。 DeepSeek、字節、阿里、騰訊這些產業鏈核心玩家的選擇,正在把過渡期變成不可逆的結構性轉移。 等2026年下半年75萬顆950PR全部部署到位,就算H200之後能進來,市場格局也早就重新洗牌了。2025年國內昇騰開發者數量已經突破120萬,比2024年翻了一倍。 阿里雲2025年Q4的AI算力訂單裡,昇騰佔比已經超過40%。 等今年75萬顆昇騰950PR全部落地,國內AI產業第一次有了完全自主可控、性能對標國際主流、生態無縫銜接的算力基座。 這不是簡單的供應鏈替代,是真真正正把算力主權握在了自己手裡。 (硅基LIFE)
CPU價格持續上漲!晶片行業十大要聞解讀
晶片及CPU價格持續上漲:英特爾和AMD的CPU價格自2月份以來普遍上漲了10-15%,且國際大廠正在醞釀在第三季度再次上調價格。隨著AI場景從訓練向推理及智能體演進,CPU在算力架構中的地位不斷提升。DeepSeek V4適配華為昇騰生態,半導體行情爆發:4月27日,DeepSeek V4大模型適配華為昇騰生態,多家國產晶片完成適配,市場開始重估國產算力的商業化前景,A股半導體類股集體走強。4月27日當天,科創50指數大漲3.76%,半導體產業鏈全線走強。4月28日早盤,算力晶片概念延續活躍態勢。氦氣等工業氣體價格持續上漲:受供應鏈緊張影響,高純氦氣(40L)價格一個月內從550元飆升至5000元,氦氣概念股因此大漲。據瞭解,三星和SK海力士此前已表示,由於原材料中斷,光刻膠等產品的供應鏈面臨嚴重衝擊。盛美上海等半導體裝置股下跌:4月28日,半導體裝置股震盪下挫,盛美上海跌超10%,至純科技逼近跌停,芯源微、矽電股份等跟跌。消息面上,盛美上海發佈的一季報顯示其歸母淨利潤同比大幅下滑57.66%。台積電以"二倍速"推進擴產:為應對AI與高性能計算需求的爆發式增長,台積電正以"二倍速"推進擴產計畫,今年將同時有五座2nm晶圓廠進入產能爬坡階段,2nm首年產出將較3nm同期提升約45%。輝達市值突破5.2兆美元,閃迪首次站上1000美元:4月27日美股交易中,輝達大漲4.0%,市值突破5.2兆美元,創下全球上市公司市值新紀錄。儲存晶片股閃迪暴漲8.11%,收盤價首次站上1000美元,受益於NAND快閃記憶體強勁的定價動能。韓國股市超越英國,躍升全球第八:受AI和半導體熱潮推動,韓國上市公司總市值今年來增長逾45%,達到4.04兆美元,超越英國躋身全球第八大股票市場。三星電子與SK海力士兩大儲存晶片巨頭佔據韓國綜指總市值的四成以上。美伊談判陷入僵局持續推高油價,半導體材料供應鏈承壓:美國白宮證實川普團隊正討論伊朗提出的談判新方案,但談判幾乎無進展,荷姆茲海峽局勢再度升級導致油價持續上漲。中東緊張局勢進一步加劇了半導體原材料(氦氣、光刻膠等)的供應緊張局面。電裝將撤回收購羅姆報價,日本功率器件三強合併將加速:因未能獲得羅姆公司同意,日本電裝集團正考慮撤回對羅姆的收購提案。羅姆已確定與東芝、三菱電機進行三家合併磋商。三強合併後的新實體將佔據全球功率半導體約11%的市場份額,規模位列全球第二,僅次於英飛凌。費城半導體指數結束18連陽,晶片股走勢劇烈分化:4月27日美股收盤,費城半導體指數下跌1.34%,結束了長達18個交易日的連續上漲紀錄。晶片股走勢呈劇烈分化態勢,Arm跌超8%,邁威爾科技、AMD跌超3%,而高通則大漲逾7%。 (晶片行業)
DeepSeek再次會師華為昇騰!1.2萬億MoE震撼發佈,全端重寫CANN架構,CUDA時代終結?
事情是這樣的。前兩天,大模型圈子裡出了個特別炸裂的消息,炸到什麼程度呢,連輝達的黃仁勳(Jensen Huang)在採訪裡都說了一句話。雖然那個傳得有鼻子有眼的「Terrible」評價大機率是圈內人自嗨的段子,但老黃對 DeepSeek 的忌憚是真的。他在內部和公開場合多次感嘆過,DeepSeek這種用極低算力成本跑出極高性能的演算法效率,確實讓輝達感到了前所未有的壓力。如果你一直關注 AI 圈子,你應該知道 DeepSeek(深度求索)這家公司的脾氣,他們以前有個鐵律:不拿外部融資。這家由幻方量化(國內頂尖量化私募)一手帶大的實驗室,一直以來給人的感覺就是個「純粹的技術極客」,不差錢,也不想被資本指手畫腳。但就在最近,這個鐵律被打破了。根據《The Information》的爆料,DeepSeek 正在跟投資者談首輪外部融資,估值直接奔著 100 億美元去了。很多人納悶,為啥以前不拿,現在拿了?其實答案就在即將發佈的 DeepSeek V4 身上,這玩意兒不僅是個模型,更是一次「飽和攻擊」等級的戰略轉型。我聽到的消息是,DeepSeek V4 預計在 4 月下旬正式亮相,它的參數量直接堆到了 1.2 萬億(1.2T)等級,採用的是 MoE(混合專家)架構。為了養活這個萬億參數的「哥斯拉」,DeepSeek 已經在內蒙古烏蘭察布大規模招人了,專門負責自建算力中心。但這還不是最騷的。最騷的事在於,DeepSeek V4 是他們第一個完全基於華為昇騰(Ascend)晶片訓練出來的旗艦模型。如果你還記得我前兩天寫過的那篇關於 GLM-5 的文章,你就會發現,這件事的訊號意義已經強到溢出來了。在那篇文章裡我聊過,智譜(Z.ai)用了 10 萬塊華為昇騰晶片,把 GLM-5.1 基礎模型從頭練完了,最後在 SWE-Bench Pro 這個全球最硬核的軟體工程榜單上,跑出了比 Claude 和 GPT 還要高的分數。雖然咱得承認,跑分高不代表實戰手感就能完全取代 Claude,但在這種公認的、需要解決真實 GitHub Bug 的硬核榜單上,國產模型第一次登頂,而且是基於華為晶片跑出來的,這事兒本身就足夠離譜了。如果說 GLM-5.1 是國產大模型在華為晶片上的第一次「奇蹟會師」,那現在的 DeepSeek V4,就是在嘗試把這個奇蹟推向另一個量級。為了在國產晶片上跑出最優效率,DeepSeek 的工程師幹了一件特別狠的事:他們把模型底層程式碼全重寫了,直接從輝達的 CUDA 生態完全遷移到了華為的 CANN Next 軟體棧。甚至為了適配華為昇騰 950PR 晶片的記憶體訪問特性,他們還專門重構了算子庫,針對 128 位元組的記憶體顆粒度做了專項最佳化。這事兒聽著簡單,但做過底層開發的兄弟應該知道,這跟「把房子的地基整個換掉還要保證房子不塌」沒啥區別。這也是為什麼 V4 引入了一個叫 Engram 的條件記憶架構,能支援 100 萬 token 的上下文,而且百萬長度下的資訊召回率還能頂到 97%。我突然意識到一個很重要的轉變。以前大家覺得用國產晶片是「沒辦法」,是由於被制裁後的無奈之舉。但從 GLM-5 到 DeepSeek V4,這個邏輯變了。它們不是在「勉強運行」,而是在「超越」。GLM-5 證明了用華為晶片能練出在全球頂級榜單登頂的模型,而 DeepSeek V4 準備證明,用華為晶片能練出萬億參數的多模態旗艦,而且效率高到讓老黃都覺得脊背發涼。說真的,我挺感慨的。以前我們聊 AI,總覺得我們是在「追趕」,用著別人的卡,跑著別人的架構。但現在,智譜和 DeepSeek 就像是兩條平行線,最後在華為的算力底座上匯合了。這種感覺,怎麼說呢,確實挺帶勁的。我們正在見證一套完全獨立於美國技術堆疊的 AI 生態,正從地底下冒出頭來。至於 V4 到底有多強,咱們等它發佈那天,我一定第一時間去試。 (KmTech)
DeepSeek V4 新進展:使用華為昇騰晶片, 從CUDA生態轉變為CANN框架!
有關Deepseek V4 要來的消息可以說是從去年炒到今年,本月真的要來了嗎?根據相關報導——DeepSeek創始人梁文鋒近日在內部溝通中透露,DeepSeek V4將於4月下旬正式發佈。真的可謂是“千呼萬喚始出來,猶抱琵琶半遮面”了!但從節奏上看,這一訊號並非孤立出現:首先是,Deepseek 網頁端出現疑似新模型測試痕跡。在4月8日,Deepseek 上線“專家模式”與“快速模式”;以及在部分使用者中又增添了一個視覺模式(vision),被認為是V4 版本的灰度測試。第二,多項關於“兆參數、超長上下文、國產算力適配”的資訊開始集中流出。換句話說,DeepSeek V4 的發佈,從“長期預期”,進入到了可驗證的倒計時階段。網傳模型更新內容有關V4的模型內容在網路上傳的沸沸揚揚,有的媒體使用了洩露的基準測試資料進行了測試。網傳的更新內容包括:最佳化 MoE 架構,推理成本極低繼承 V3 的 MoE 設計,但更進一步。採用兆參數混合專家架構,每次推理過程中,只有約 320 億個參數處於啟動狀態。這使得推理成本和速度與 V3 相當,甚至 API 定價可能比 GPT-5.4 等低 20-50 倍。有網友評論:“V4 改變了幾乎所有內容,除了每花一美元最大化能力的核心理念。”引入Engram 條件記憶:“記”與“算”分開引入條件記憶機制,將靜態知識儲存與動態推理計算分離,能夠高效地從超過 100 萬個詞元的上下文中檢索資訊。傳統 Transformer 把所有知識塞進參數,容易導致長上下文檢索衰退;Engram該模組將經典的 N-gram 嵌入現代化,以實現 O(1) 尋找。效果也很顯著:提升了長上下文檢索能力(例如,Multi-Query NIAH:從 84.2 提升到 97.0);減輕 Transformer 主幹負擔,讓模型“記性好”且不浪費視訊記憶體——與 MoE 的條件計算互補。備註:2026 年 1 月 DeepSeek 開放原始碼的論文技術 | GitHub: deepseek-ai/EngrammHC(Manifold-Constrained Hyper-Connections,流形約束超連接)這是 DeepSeek 在 2026 年1月份發佈的另一項架構創新論文成果,主要解決超大規模(兆級)訓練中的梯度不穩、訊號爆炸問題。備註:論文連結 https://arxiv.org/abs/2512.24880通過 Sinkhorn-Knopp 等數學約束,將層間連接投影到流形上,把訊號放大控制在合理範圍(例如從傳統方法的 3000 倍壓到 1.6 倍以內)據報導:可提升訓練效率約 30%,讓兆參數模型的訓練變得可行。除此之外,還有降低注意力計算成本的DSA機制——這使得 1M 上下文窗口成為可能等等。等到Deepseek-v4正式發佈,各位大佬可以對照一下~採用國產晶片這個可以說是小編最期待的一點。晶片問題一直是行業最敏感也最關鍵的痛點。過去幾年,中國大模型開發幾乎離不開輝達GPU,從訓練到推理都高度依賴CUDA生態。一旦遇到出口管制或供應鏈波動,整個AI落地節奏就會被卡住。而根據The information媒體的報導:DeepSeek 即將推出的 V4 型號將採用華為技術有限公司生產的硬體;與華為和寒武紀科技直接合作,對 V4 核心軟體架構的部分內容進行了修改;V4 預計將在未來幾周內亮相,同時還將推出另外兩款正在研發中的衍生型號。而在以往大模型開發,早期測試往往優先給輝達、AMD等美系晶片測試。而V4反過來,將完全運行在華為最新AI晶片上(主要為Ascend 950PR,部分適配寒武紀晶片)。阿里、字節跳動、騰訊等巨頭已提前向華為採購數十萬顆新一代昇騰晶片(Ascend 950PR等),晶片價格一度上漲約20%。華為3月發佈的Atlas 350加速卡搭載該晶片,FP8算力達1PFLOPS、FP4算力達2PFLOPS,支援多種低精度,單卡性能強勁。X上神秘的Elephant Alpha.在正式發佈前,通過匿名模型進行灰度測試,正在成為大模型行業的常見方式。在今年2月,一個名為Pony Alpha的匿名模型出現在OpenRouter上,五天後智譜確認這是其GLM-5系統的一部分;OpenRouter 上也曾短暫出現Hunter Alpha和Healer Alpha,憑藉兆參數與超長上下文迅速引發關注,並一度被猜測為 DeepSeek V4 的前期測試版本——後續被證實是小米 MiMo-V2系列的早期測試版。而昨天, X.上又出現了一款名為 Elephant Alpha 且擁有 1000 億參數的即時模型,讓網友興奮起來了!有網友猜測是 DeepSeek V4,也有網友認為它是Qwen,或者其他系列的模型,與騰訊混元同步發佈根據相關媒體報導: DeepSeek V4或與騰訊混元或將同期發佈。而混元模型的負責人姚順雨曾經是OpenAI研究員,於2025年底從OpenAI回國加入騰訊。DeepSeek V4或與騰訊混元的這次撞期,並非是簡單的同台PK,更像是大模型兩條技術路徑(“底層架構+自主硬體”和“場景驅動+Agent落地”)的碰撞。 (51CTO技術堆疊)