#國產AI晶片 | 熱門關鍵字 | 鉅亨號 | Anue鉅亨

#國產AI晶片

DeepSeek新模型開源，新架構亮了！國產AI晶片集體狂歡

DeepSeek離下一代架構，又近了一步！智東西9月30日報導，昨日，DeepSeek宣佈開源DeepSeek-V3.2-Exp實驗版模型。該模型首次引入了DeepSeek Sparse Attention稀疏注意力機制，並在幾乎不影響模型輸出效果的前提下，大幅度提升了長文字訓練和推理效率，被DeepSeek定義為“邁向新一代架構的中間步驟”。HuggingFace地址：https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp魔搭社區地址：https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2-Exp這一改進還降低了DeepSeek新模型的服務成本，DeepSeek因此執行了新的價格政策，讓開發者呼叫DeepSeek API的成本降低50%以上。降價幅度最大的為輸出token的價格：DeepSeek-V3.2-Exp模型輸出100萬個token的價格僅為3元，為DeepSeek-V3.1系列模型的1/4。截至9月30日上午6點，華為雲、PPIO派歐雲、優刻得等雲平台已宣佈上線DeepSeek-V3.2-Exp，華為、寒武紀、海光資訊等AI晶片廠商已經宣佈適配DeepSeek-V3.2-Exp。DeepSeek-V3.2-Exp是在DeepSeek-V3.1-Terminus的基礎上打造的。在各領域的公開評測集上，兩款模型的表現基本一致，不過，DeepSeek-V3.2-Exp完成任務使用的token量大幅度減少。目前，DeepSeek App、網頁端與小程序均已同步上線了DeepSeek-V3.2-Exp模型。DeepSeek也臨時保留了DeepSeek-V3.1-Terminus的API介面，方便開發者進行對比驗證。除模型本體外，DeepSeek還開源了相關技術報告及程式碼，並提供TileLang與CUDA雙版本GPU算子，以便研究者在不同層級進行實驗和最佳化。技術報告地址：https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdfDeepSeek還補充道，作為一個實驗性的版本，DeepSeek-V3.2-Exp雖然已經在公開評測集上得到了有效性驗證，但仍然需要在使用者的真實使用場景中進行範圍更廣、規模更大的測試，以排除在某些場景下效果欠佳的可能。01.華為、海光、寒武紀光速適配，網友直呼第二個DeepSeek時刻要來了DeepSeek-V3.2-Exp一經推出，便在產業界與開發者圈子裡引發熱烈反響，不少國內企業紛紛第一時間宣佈完成DeepSeek-V3.2-Exp的適配和上線。華為計算公眾號發文宣佈，昇騰已快速基於vLLM/SGLang等推理框架完成適配部署，實現DeepSeek-V3.2-Exp Day 0（第零天）支援，並面向開發者開源所有推理程式碼和算子實現。DeepSeek-V3.2-Exp在昇騰裝置上128K長序列輸出，能夠保持TTFT（首token輸出耗時）低於2秒、TPOT（每token輸出耗時）低於30毫秒的推理生成速度。華為雲則首發上線了DeepSeek-V3.2-Exp，還使用CloudMatrix 384超節點為該模型提供推理服務。在DeepSeek發文宣佈DeepSeek-V3.2-Exp模型開源後的4分鐘，寒武紀也發文稱其已同步實現對該模型的Day 0適配，並開源大模型推理引擎vLLM-MLU原始碼。寒武紀通過Triton算子開發實現了快速適配，利用BangC融合算子開發實現了性能最佳化，並基於計算與通訊的平行策略，達成了較高的計算效率水平。DeepSeek-V3.2-Exp模型的尺寸達671GB，僅下載就可能需要數小時。這種時隔4分鐘的Day 0適配，或許意味著寒武紀和DeepSeek兩家企業在模型發佈前就已經啟動適配工作。據經濟觀察網報導，海光資訊的DCU（深度計算處理器）率先實現了對DeepSeek-V3.2-Exp的Day 0級高效適配與最佳化，確保大模型算力“零等待”部署。在DeepSeek官宣DeepSeek-V3.2-Exp開放原始碼的推文中，有不少網友分享了對模型的使用體驗和感受。有位網友稱，自己在10萬個token的程式碼庫上測試了DeepSeek-V3.2-Exp，速度提升非常明顯。有網友感嘆，DeepSeek API現在幾乎等同於免費了。更有網友認為，這一模型的推出，或許意味著第二個DeepSeek時刻即將到來。Hugging Face上，DeepSeek-V3.2-Exp的社區類股也有不少討論，不過，關注度最高的一條帖子，是來自中國網友的“吐槽”：“咱這個模型是非得國慶前更新嗎？”還有網友列出了DeepSeek每次更新模型的時間，幾乎都卡在節假日的前幾天。02.一手體驗DeepSeek-V3.2-Exp架構創新或許比性能提升更重要DeepSeek-V3.2-Exp在使用體驗上，究竟與此前的DeepSeek-V3.1-Terminus有何不同？在程式設計方面，DeepSeek-V3.2-Exp撰寫的程式碼明顯更為簡短了，相同的任務下，其輸出的程式碼行數要少於DeepSeek-V3.1-Terminus。不過，這在某種程度上也影響了模型的性能。DeepSeek-V3.2-Exp編寫的小球彈跳動畫程式碼未能正常運行，小球直接飛出了六邊形的範圍。DeepSeek-V3.1-Terminus在智東西此前的測試中完美地完成了這一任務。智東西還讓DeepSeek-V3.2-Exp完成了一項資訊檢索任務，要求它推薦幾種適合新手在陽台盆栽的、生長快、果子能直接生吃的植物，並且要保證對小孩絕對安全，最好能附上簡單的播種技巧。與DeepSeek-V3.1-Terminus（左）相比，DeepSeek-V3.2-Exp（右）的生成結果更為簡短，用詞也比較“樸素”。並且，DeepSeek-V3.2-Exp推薦的無花果、百香果等植物，需要進行扦插、高頻率養護等操作，並不符合提示詞要求的新手友好。▲DeepSeek-V3.1-Terminus（左）與DeepSeek-V3.2-Exp（右）在資訊檢索任務上的表現（圖源：智東西）總體而言，DeepSeek-V3.2-Exp確實在推理效率上實現提升，但卻在能力上做出了一定的讓步。知乎博主@toyama nao也在測評中發現了類似的問題。他認為，DeepSeek-V3.2-Exp在工作記憶、計算精度穩定性等方面存在明顯短板，還容易有偷懶傾向和陷入死循環的可能。▲知乎博主@toyama nao對DeepSeek-V3.2-Exp的評價這也得到了其他網友觀點的印證，例如，這位網友便在x平台發貼稱，並沒在這款模型上看到改進，並提出質疑：我們為什麼要使用能力降級的模型呢？作為一款實驗模型，DeepSeek-V3.2-Exp更大的貢獻或許在於理論層面。DeepSeek稱，與DeepSeek-V3.1-Terminus相比，DeepSeek-V3.2-Exp在架構上的唯一修改，就是通過繼續訓練引入了DeepSeek Sparse Attention。目前的DSA機制還處在原型期，主要由兩個元件構成：一個Lightning Indexer（閃電索引器）和一個細粒度的token選擇機制。▲DeepSeek-V3.2-Exp架構圖Lightning Indexer能夠快速評估查詢token與歷史token的相關性，從選擇機制只挑選最相關的一部分上下文進入注意力計算，這讓複雜度從傳統的二次方降到了近似線性水平，大幅降低了訓練和推理的成本。在訓練上，DeepSeek-V3.2-Exp採用了“繼續預訓練+後訓練”的方式。繼續預訓練分為兩個階段：首先在稠密模式下短暫訓練indexer，讓它的輸出和標準注意力保持一致；隨後引入稀疏選擇機制，逐漸讓模型適應新的計算方式。完成預訓練後，DeepSeek-V3.2-Exp又通過專家蒸餾和混合強化學習進行後訓練。專家蒸餾的思路是針對數學、程式設計、推理等不同領域訓練專門的專家模型，然後將這些模型的知識壓縮排通用模型。混合強化學習則將推理、智能體能力和人類對齊訓練統一在一個RL階段中，避免了傳統多階段方法容易出現的遺忘問題。技術報告顯示，DeepSeek-V3.2-Exp在大多數評測任務上的表現與前代基本持平，個別推理相關的測試分數略有下降，但主要原因是生成的推理token更少，如果使用中間檢查點，差距則會縮小。相比之下，效率的提升尤為顯著。在H800 GPU的測試環境中，長序列推理的開銷明顯降低，證明DSA在真實部署中有很強的實用性。同時，訓練曲線與前代模型保持相似的穩定性，也表明這種架構在收斂性上並沒有額外風險。03.結語：DeepSeek邁向新一代架構正如其名字內的Exp（實驗版）所言，DeepSeek-V3.2-Exp的推出，本身並不是一次性能爆表的升級，而更像是一場架構實驗，展示了一種在長文字處理中兼顧性能和效率的新路徑。作為技術原型，DeepSeek-V3.2-Exp背後的DSA機制或許很快就會得到進一步完善。隨著相關技術的持續最佳化和更多企業、研究者參與驗證，DeepSeek有望在不久的未來交出更令人驚喜的成果。 (智東西)

DeepSeek-3.1的UE8M0 FP8 Scale專為下一代國產AI晶片而設計

UE8M0 FP8 是一種專為下一代國產 AI 晶片設計的 8 位浮點格式（FP8）的特定組態，由 DeepSeek-V3.1 模型首次採用，旨在顯著降低大模型推理階段的視訊記憶體佔用和計算成本，提升推理速度。1. 技術細節- UE8M0 的含義：- U：表示無符號（Unsigned），即不佔用符號位，適用於啟動值通常非負的場景。- E8M0：8 位全部用於指數（Exponent），尾數（Mantissa）位為 0。這並不是字面意義上的“0 位尾數”，而是指通過隱式歸一化或動態調整尾數精度實現靈活性。- 動態尾數策略：實際實現中，可能採用動態尾數分配（如根據指數範圍動態調整尾數有效位），或默認尾數為 1，值的範圍為 \(2^{-128}\) 至 \(2^{127}\)。- FP8 Scale：- 指在量化過程中用於縮放數值的因子（Scale），確保數值在 FP8 的表示範圍內。- 塊級縮放：將張量劃分為固定大小的塊（如 128×128 的 tile），每個塊共用一個縮放因子。這種塊級縮放（而非整個張量級）在保留 8 位位寬的同時，將可用動態範圍擴展數十倍。2. 優勢與應用- 硬體效率提升：- 視訊記憶體節省：權重視訊記憶體佔用降低約 50%，例如 680B 模型權重檔案從 1.3-1.5TB 降至約 680GB。- 計算加速：由於 UE8M0 不含尾數與符號位，處理器在根據縮放因子對資料復原時，僅需乘以對應的 2 的冪（即指數位移操作），無需浮點乘法、規格化或舍入邏輯，縮短了時鐘關鍵路徑。- 國產晶片適配：- 寒武紀：思元 590 晶片明確支援 FP8 精度，算力密度較前代提升 40%。- 摩爾執行緒：首個支援原生 FP8 的國產 GPU 廠商，基於 MUSA Compute Capability 3.1 計算架構。- 海光資訊：DCU（深算系列）通過 FP8 最佳化技術降低 30% 視訊記憶體佔用並提升 20% 運算效率。3. 行業影響- 技術突破：DeepSeek-V3.1 是國內首個成功使用 FP8 完成大模型訓練的案例，證明了FP8 在超大規模模型訓練中的可行性。- 生態閉環：UE8M0 FP8 助力國產 AI 晶片-國產開源模型-下游應用形成完整生態閉環，推動國產 AI 晶片加速追趕國際先進水平。UE8M0 FP8 是 DeepSeek-V3.1 採用的一種創新 8 位浮點格式組態，通過無符號設計、全指數位分配和塊級縮放策略，顯著提升國產 AI 晶片在推理和訓練中的效率與性能，標誌著國產 AI 晶片技術的重要突破。壹號講獅)

突破封鎖！華為新技術繞開HBM，終結HBM暴利時代？

國產AI晶片，除了製程工藝方面的差距之外，發展最大的障礙就是HBM（高頻寬記憶體），當前HBM作為高端AI晶片的關鍵元件，目前由三星（38%）、SK海力士（53%）和美光（10%）壟斷，且HBM3價格年內暴漲300%。雖然根據業內人士透露，國產儲存巨頭已經突破HBM2相關技術及產業鏈問題，但客觀而言，國產HBM要在短期內追上並不現實。於是，華為選擇了一條全新的技術路徑繞過HBM。根據華為官方消息，其在8月12日召開的“2025金融AI推理應用落地與發展論壇”上發佈一項AI推理領域的突破性技術成果。該技術旨在降低中國AI推理對HBM（高頻寬記憶體）的依賴，提升大模型推理性能，完善國內AI推理生態。那華為發佈的突破性技術是什麼呢？華為將光通訊的矽光晶片和昇騰AI算力晶片綁在一起，直接繞過HBM通道。具體來說，就是華為將矽光互聯與昇騰AI算力結合，形成“光-算一體化”方案，其用矽光模組的高速光鏈路（1.6Tbps）替代傳統HBM的電氣互連，通過物理層高頻寬傳輸緩解記憶體頻寬壓。硬體創新之餘，在算力也上進行了相應的最佳化；華為與北大合作開發的DeepSeek全端開源推理框架，結合自研SCOW超算平台與CraneSched調度系統，最佳化Ascend晶片在低HBM環境下的計算效率。也就是說，8月12日公佈的AI推理新技術，通過軟硬體協同設計，“減少對HBM的依賴”並提升大模型推理性能，當然具體的應用資料需要等待進一步核實再行公佈。但無疑，正式華為技術上的突破，通過光互聯在此承擔晶片間高速資料交換，部分抵消單晶片HBM不足的劣勢。對於國產晶片產業而言，這是一條全新之路。據瞭解，此次華為矽光晶片是基於成熟8英吋SOI工藝製造，100%國產供應鏈，從而有效規避了制裁風險。例如，2024年12月美國將HBM2E列入禁售清單，給國產AI產業鏈造成了不小的損失。另外，由於光互聯功耗低於電氣互聯，1.6T模組的部署將降低資料中心總TCO，這也意味著光互聯具有成本和能效上的優勢。同時，由於此次華為新技術突破IEEE 802.3dj規範因色散限制放棄CWDM的困境，這進一步推動中國主導高速光通訊標準。目前，根據產業鏈消息，華為新技術將率先在金融行業進行應用，恆生電子作為金融AI系統服務商，華為長期合作夥伴，有望首批接入新技術最佳化資管、交易系統。當然，作為華為昇騰伺服器核心合作夥伴，承擔AI伺服器產能擴張的神州數位；以及為華為提供昇騰平台開發及模型最佳化服務，深度參與金融AI解決方案的軟通動力也必將受益良多。在全球AI產業蓬勃發展之時，國內AI訓練市場的需求也正在急劇膨脹。根據IDC預測到2027年，中國人工智慧算力市場規模將達到357億美元，年均增長超過20%。如果記憶體性能瓶頸不解決，這個市場預期就是空中樓閣；華為的突破，或將是國產AI產業解套的最好方式。因此，華為以“矽光×昇騰”繫結，本質是用光通訊的物理層創新彌補儲存層缺陷。短期來看，通過光互聯高頻寬+分佈式算力堆疊以維持國產AI競爭力；但長期而言，1.6T光模組+自適應色散晶片推動算力網路化，逐步擺脫對HBM的物理依賴。這一路徑不僅回應了封禁，更可能重塑AI硬體架構——從“拼單晶片HBM頻寬”轉向“拼光互聯效率與系統級最佳化”，為中國AI算力開闢新戰場。 (飆叔科技洞察)