#中芯國際
突圍:中國晶片的中國國產替代之路
晶片,這個被稱為“人類工業皇冠上的明珠”的存在,藏著人類科技的極致智慧。它的精度堪比在月球開槍擊中地球表面的一隻蚊子,製造過程需歷經上千道工序、數萬次偵錯,容不得一絲一毫的誤差;它也是全球科技博弈的“主戰場”,輝達憑藉GPU壟斷AI算力王座,荷蘭ASML獨掌光刻機核心裝置,西方用技術封鎖編織成網,試圖鎖死中國科技未來的咽喉。 從20世紀90年代“無芯可用”的窘迫,到華為麒麟晶片王者歸來;從“卡脖子”的切膚之痛,到中國國產替代全面突圍;從跟跑國際先進水平,到逐步實現並跑,努力奔向領跑,中國晶片走過了驚心動魄的三十年。 就在美國全面圍剿、整個產業陷入困境的時候,一批中國晶片企業沒有退縮,一批造芯人沒有放棄。華為海思沒有解散團隊,而是將工程師轉向晶片設計工具、基礎技術的研發;中芯國際、上海微電子等企業,加大研發投入,全力攻堅成熟製程和核心裝置;中國高校、科研機構,也加快了晶片相關專業的人才培養,為產業輸送新鮮血液。 至暗時刻,沒有擊垮中國晶片產業,反而激發了整個行業的鬥志,讓所有人都堅定了一個信念:自主可控,才是唯一的出路。這場圍剿,成為中國晶片產業覺醒的催化劑,倒逼整個行業加速中國國產替代處理程序,這種就中間走出了無數科技人才,他們是中國晶片產業的脊樑,是中國科技崛起的功臣。
光模組專家調研:中際旭創/新易盛/新思科技/Finisar/中芯國際/輝達/Google/聯發科/Tower/Lumentum/博通/Marvell
這次專家調研主要圍繞矽光晶圓、光模組中EML和DSP等關鍵元器件的供需緊張情況,以及GoogleTPU v8在記憶體池化、CXL交換技術上的方案演進。還分析了Marvell、博通、聯發科等公司在晶片設計、交換晶片市場的競爭格局與成本結構。光模組部分內容可以重點看看。Q:當前矽光晶圓的產能擴充情況如何,未來是否會面臨供給不足的風險?A:矽光晶圓的供給是充足的,甚至在未來幾家主要供應商實現量產後,可能出現供過於求的局面。行業當前面臨的瓶頸並非矽光晶圓,而是 EML、DSP等其他元件。以行業龍頭 tower為例,其產能足以滿足市場需求。去年矽光模組出貨量約為四五千萬顆,而該龍頭供應商僅一家每月產能就達到一萬多片晶圓,每片晶圓可生產約 500個 800G模組或 1,000個 400G模組,其一家的年產能便可覆蓋去年的市場總需求。儘管今年矽光模組的需求預計將增長 50%以上,但該供應商的產能規劃也從每月一萬多片提升至三萬多片,足以應對增長。因此,短期內可能存在結構性緊張,但一旦擴產完成,整體將呈現供大於求的態勢。Q:除行業龍頭外,其他矽光晶圓供應商的擴產和量產進展如何,市場競爭格局是怎樣的?A:其他供應商如 GlobalFoundries、中芯國際以及蘇州的一家公司等也都在進行產能投資,但目前尚未形成有效的量產能力。當前市場中,有希望實現量產的主要是 ZXGJ和 GlobalFoundries,但它們仍被視為二線供應商,一線主力絕對是行業龍頭。GlobalFoundries則面臨價格過高的問題,其報價比龍頭供應商高出 50%以上,這可能是由於其尚未實現規模化量產導致成本較高。因此,行業內的普遍做法是,在 GlobalFoundries和龍頭供應商處進行晶片驗證,而將最終的量產訂單放在龍頭供應商處。Q:今年以來,EML和 DSP的價格上漲情況如何?A:EML和 DSP的價格均出現了上漲,具體的漲幅不詳,但市場反饋其漲價幅度大約在 百分之十幾到百分之三十之間。Q:當前 DSP晶片為何出現短缺?Marvell和 Broadcom等廠商是否來不及擴產?A:高端 DSP晶片的供應一直處於緊張狀態,這可能與供應商的行業策略有關,其供應模式傾向於 保持緊缺以維持定價權,而非追求大規模供給。DSP晶片的技術門檻很高,例如新版本已採用 3奈米工藝,而此前的 4奈米版本在研發過程中就曾遇到問題。晶片的選代升級過程複雜,每一版設計都需要與光模組進行匹配測試,期間可能會出現各種問題,因此需要經歷 Alpha、Beta等多個版本的選代才能最終穩定。Q:DSP晶片的價格上漲情況如何?與 EML等其他元器件相比,其漲價幅度和供應緊缺程度是怎樣的?A:目前整個光通訊行業都存在漲價現象。DSP晶片的供應緊張程度 僅次於 EML,尤其對於規模較小的公司而言,可能面臨無法採購到的困境。100G EML同樣存在短缺,但緊張程度和溢價幅度不及 200G EML,主要原因是當前市場的主流需求仍集中在 800G光模組。Q:目前市場上有多種記憶體池化方案,例如在單個機櫃內通過 CXL Switch連接 TPU和 DRAM,再通過 OCS連接多個機櫃;或是採用獨立的計算櫃、CXL Switch櫃和記憶體櫃,再進行互聯。可否詳細闡述當前主流的記憶體池化技術路徑及其適用場景?A:當前主要存在兩種記憶體池化方案。第一種是 近耦合的櫃內整合方案,即在一個機櫃內同時部署計算單元和儲存單元,通過 CXL Switch進行互聯。第二種是 遠端分離式機櫃系統,該方案設有獨立的 CXL儲存櫃,並與計算櫃之間形成 M:N的交叉互聯架構。在這種架構下,任意一個計算域的節點都可以訪問 N個記憶體櫃中的資料。遠端分離式方案主要適用於 超大規模的推理工廠場景,這類場景通常面臨多模型、多專家系統以及權重參數復用和更新頻繁的複雜需求。在遠端分離式方案中,除了計算域內的互聯,還需要儲存域的互聯。計算域與儲存域之間通過交換系統實現資料傳輸,並需要建立短時間內相對固定的點對點通訊鏈路,例如在特定時間段內固定從 M13號計算櫃到 N2號記憶體櫃的通路。實現這種類似“鐵路道岔”功能的動態光路切換,需要採用 OCS。該技術路徑符合Google現有的部分基礎設施平台,是其規劃的中遠期目標。然而,當前 AI推理業務仍處於爆發式增長的早期,許多模型結構和業務特點仍在持續最佳化中。因此,近耦合的櫃內整合方案因其明確的需求和易於實現的特性而更具現實意義。該方案只需一台 CXL交換機、特定數量的 Tray和 Memory Expander,通過銅纜即可完成互聯,對現有供應鏈改動小,部署相對簡單,能夠靈活地與現有系統對接。從項目落地的複雜性來看,首先實現櫃內整合,再逐步過渡到櫃外分離式架構,是一個水到渠成的演進路徑。本質上,將一個整合機櫃內的計算節點全部取代為儲存節點,即可構成一個獨立的儲存櫃。Q:Google TPU v8在記憶體池化方案上,更傾向於採用近端的櫃內整合還是遠端的跨櫃方案?其背後的驅動因素是什麼?A:從目前情況看,TPU v8大機率會首先採用近端的櫃內整合方案。這是一種能在短期內有效解決問題的策略。當前存算分離是行業趨勢,若能率先實現記憶體與計算的分離,將有助於降低 TPU v8的總體使用成本。具體而言,對於某些不需要 HBM的計算任務,可以利用成本更低的記憶體池化方案來完成,從而讓配備 HBM的 TPU v8專注於更核心、更高效的任務。這一決策的背後驅動因素在於 Google當前面臨的競爭壓力。TPU v8的半導體工藝相較於競爭對手(如台積電已於 2026年大規模量產的 3nm工藝)並無優勢。儘管Google有其 Gemini模型的內部需求,但 TPU v8的設計並未完全對齊外部客戶的核心訴求,呈現出“非通用但高度專用”的特點。因此,為了留住客戶,Google必須設法進一步降低成本。Q:隨著 AI推理並行量的增長,從櫃內記憶體池化向櫃外記憶體池化演進的必要性體現在那裡?A:隨著 AI推理業務的成熟,並行量預計將從當前水平快速增長至 百億甚至千億等級。在高並行場景下,對訪存的要求會變得極為複雜,資料傳輸量也面臨巨大挑戰。當並行度極高時,僅依靠單個機櫃內的儲存池來滿足數百萬、數千萬甚至上億的並行訪存請求是不現實的,會導致通訊連接埠擁塞。此外,未來的 AI系統可能會演變為更複雜的多專家、多模型系統,需要呼叫不同的模型來解決問題。這意味著需要儲存和訪問 海量的權重參數。為了支撐高並行訪問,系統必須能夠複製多份權重參數並部署在不同的儲存池中。因此,當並行度達到一定規模後,僅靠櫃內方案將無法滿足需求,必須採用櫃外耦合的、更大規模的記憶體池來提供支撐,這與傳統通用計算時代網路儲存因高並行業務而規模化的邏輯相似。Q:在當前階段,採用櫃內記憶體池化方案的具體硬體配置是怎樣的,例如一個機櫃內計算節點與記憶體節點的配比?A:目前櫃內記憶體池化方案尚處於相對早期的階段。根據瞭解,一個當前被探討的相對簡單的配置方案是 8對 8 的模式,即 8個計算節點對應 8個 Memory Expander進行擴展。按照這種配置,8個 Memory Expander理論上可以提供接近 十幾個TB 的記憶體容量。理論上,一個機櫃內若能配置十幾個 TB的記憶體容量,便可以容納 兆級參數 的模型。例如,通過 8個計算節點,可以實現對兆級參數空間的全通量訪問,每個節點根據其 Batch Size承擔相應的任務量。這種配置構成了一個任務規模的基數,可以在一個機櫃上承載,並通過複製這種機櫃單元來線性擴展總體的推理規模。這種方法的優勢在於其靈活性,可以根據需求隨時增減 FFN的數量配比。例如,可以調整至 12個,並根據實際情況進行平衡。若 Batch Size較大,可以通過降低儲存共享程度來最佳化任務處理。這種方案不設定固定的配置數字,以保持其適應性和可擴展性。Q:關於 CXL Memory Expander的技術細節,其工作原理、頻寬水平以及在系統中的連接方式是怎樣的?A:CXL Memory Expander可以理解為一個記憶體控製器或“帶隊者”,它管理多個記憶體條(例如 8個),並將它們的頻寬聚合。其頻寬高的原因是通道數多,例如管理 8個記憶體條即擁有 8個通道。這些 DDR儲存器經過特殊設計,頻寬聚合後通過內部的頁面管理機制,最終通過一個 16-lane的 CXL over PCIe鏈路 作為出口。以 PCIe Gen7為例,16條 lane理論上可實現 512GB/s 的單向傳輸速度,這一水平與 HBM2的頻寬相當,並且由於其只處理固定尺寸和格式的資料區塊,交換協議損失小,效率非常高。Q:在系統中,Memory Expander作為一個 CXL節點或端點,連接到 CXL交換機,再通過匯流排交換與計算單元(如 TPU)連接 CXL Memory Expander的單通道容量、總容量配置以及其對不同記憶體規格的相容性是怎樣的?A:CXL Memory Expander的容量配置可以從單通道 256GB 起步,8個通道即可組成 2TB 的總容量。目前市場上也已出現單通道 512GB規格的方案。該方案的一大優勢在於其靈活性和可擴展性:其 CXL介面(例如 16-lane PCIe Gen7)是固定的,而另一端連接記憶體條的介面則可以相容不同類型的 DIMM格式,如 RDIMM 或 MRDIMM。這意味著系統可以根據當前擁有的記憶體條類型進行配置,未來也可以平滑升級到更新、更高頻寬或更大容量的記憶體條,而無需改變核心介面。這種設計使得儲存容量和頻寬的增長是無縫的,系統不易受特定記憶體類型的限制。Q:CXL over PCIe Gen7的 16-lane鏈路頻寬是如何計算的,其與 HBM3相比性能如何,以及延遲方面存在那些差異?A:PCIe Gen7的規範是單 lane傳輸速率為 128GT/s。對於一個由 16條 lane組成的連接埠,經過換算後的理論單向頻寬為 512GB/s。這個頻寬水平接近 HBM3,雖然 HBM3的頻寬可以達到 900GB/s甚至 1TB/s。儘管 CXL方案在頻寬上略低,但其主要缺點在於 延遲,其延遲顯著高於 HBM。值得注意的是,在定製系統中,lane的數量可以進一步擴展,例如做到 32-lane,從而實現單向 1TB/s的頻寬,達到與 HBM3相當的水平。在推理過程中,FFN計算階段的特點是資料傳輸模式並非整塊的巨量資料傳輸,而是小批次、碎片化的資料交換。當一個 token進入 FFN計算階段時,其對應的計算向量空間大約為 128KB。FFN的計算過程可以理解為將一個大的權重網路拆分成許多小的區塊,每個區塊(例如一個專家權重的一部分)被載入到相應的計算晶片上。因此,每次計算實際需要傳輸的資料量可能僅為 數百MB。使用 512GB/s的頻寬來傳輸幾百 MB的資料,所需時間僅為毫秒甚至亞毫秒等級。因此,儘管 CXL的峰值頻寬低於 HBM,但對於這種小批次資料的傳輸需求而言,其頻寬是完全夠用的,並不會成為性能瓶頸。Q:在一個典型的 AI推理系統中,8個 TPU、CXL交換機以及 CXL Memory Expander是如何進行物理連接和協同工作的?A:整體架構如下:8個 TPU各自通過一條獨立的 CXL鏈路連接到一個中心的 CXL交換機。然後,該 CXL交換機再分出 8條鏈路,每一條鏈路連接到一個 CXL Memory Expander 節點。每個 Memory Expander節點內部再連接 8個 DDR記憶體條,負責管理這部分儲存空間的容量。通過這種方式,8個 TPU可以共享由 8個 Memory Expander節點及其所連接的記憶體條構成的龐大記憶體池,實現對海量模型參數的統一訪問。Q:請詳細說明一個 8x8架構中計算節點與記憶體的連接方式,以及其中被稱為“Merope"的新型 TPU的特性和技術淵源?A:在一個 8x8的架構中,8個計算節點與 8個 Memory Expander實現 全交叉訪問。這種設計是必要的,因為每個計算節點(一種小型的、用於 FNN計算的 TPU)在處理不同計算批次時,可能需要訪問權重空間內的任意部分,尤其是在多專家模型中,因此需要全交叉訪問技術以確保靈活性。這種小型 TPU的內部代號為 “Merope”,其角色類似於輝達 LPU,專職進行權重計算。它是一種簡化的、 無狀態 的計算單元,意味著每次計算都獨立於前一次的狀態,核心任務是執行高密度的矩陣乘加運算。其結構設計借鑑了 TPU v5,TPU v5作為訓練晶片,其前饋網路計算單元非常多。由於推理過程本質上是前向傳播,不涉及反向傳播,因此可以復用 TPU v5中的前向傳播計算結構。Merope移除了諸如 Attention機制和一些冗餘計算功能,專注於矩陣乘、矩陣轉置、維度變換及啟動函數等核心運算。其成本相對較低,可採用 FCBGA封裝,片上整合了約 200多兆的 SRAM 用於本地資料緩衝,能有效解決 FNN計算分離的問題。Q:在這種架構中,LPU僅依賴 SRAM,而 TPU/GPU則不同,請問 Merope這類計算單元是如何利用片上 SRAM和 CXL擴充記憶體的?A:任何 TPU或類 LPU單元的片上都整合了 SRAM。其核心區別在於,LPU主要依賴片上 SRAM進行運算,而 Merope這類單元則將 CXL擴充記憶體作為主儲存器,片上的 SRAM依然扮演計算快取的角色。這種結構相當於將原先本地化的 DDR或儲存拉遠,並通過 CXL技術實現共享。Q:在一個 8x8的配置中,CXL Switch位於何處,需要多少顆?同時,MXC晶片和 CXL Switch晶片的價值量分別是多少?A:CXL Switch位於 Tray內部。在一個 8x8的配置中,共有 16個節點(8個 TPU和 8個記憶體池)需要交換,每個節點或連接埠為 16條 Lane,因此理論上需要一個支援 256條 Lane 的交換機即可實現全接入。目前 Marvell已發佈的 PCIe Gen 6、256-Lane的交換機在功能上是可用的,但速度會比目標方案慢一倍,因為目標方案基於 PCIe Gen7。關於價值量,MXC晶片(如 Astera Labs的 Leo或 Marvell的產品)如果是 PCIe Gen7版本,單顆價格可能在 80美元 左右,而 PCIe Gen 6版本則約為五六十美元。對於一顆支援 PCIe Gen 7、CXL3.0甚至 4.0的 256-Lane交換晶片,目前市場公允價格大約在 2000美元。CXL交換機採用樹狀結構或背板形式部署,背板形式在布線空間上可能更合理。從結構上看,該樹狀結構可理解為有兩個主要分支,一個連接 8個計算節點,另一個連接 8個儲存節點,中間通過一個核心的交換節點(即 PCIe的 Root Complex功能)連接。理論上,一顆大型交換晶片足以滿足需求。不過,採用更細粒度的部署方式,例如通過級聯 4顆 較小的交換晶片也是可能的。這種方式可以擴展出更多的 Lane總數,但相鄰晶片之間用於內部互連的 Lane會被佔用,導致對外提供的有效 Lane數增量會隨晶片數量增加而遞減。此外,多顆晶片級聯可能會引入額外的傳輸延遲。因此,儘管級聯方案可以提升總量,但也存在效率和延遲方面的權衡。Q:針對一個 8x8的系統,如果採用單顆 256-Lane的 CXL交換晶片方案,其供應商有那些?不同供應商的產品在技術路徑上有何差異?A:目前能夠提供此類 CXL交換晶片的供應商主要有兩家:Astera Labs 和 Marvell。兩者的產品路徑存在差異。Astera Labs的 PCIe交換機本質上支援 CXL,是一款面向其主要客戶亞馬遜定製的全功能 PCIe交換機,其交換策略和功能較為複雜,導致其連接埠數不易做高。而 Marvell通過收購 XConn獲得了專門針對 CXL memory pooling等場景的技術,其交換機是 簡化版,僅支援 CXL.mem和 CXL.io等核心協議,並未完全支援整個 PCIe協議棧。這種簡化的設計提高了內部交換路由的效率,使其更容易實現更高的連接埠數量。由於 Google與亞馬遜存在競爭關係,且 Astera Labs不願為其開發簡化版產品,因此Google目前可能更傾向於與 Marvell合作,採購其 CXL交換晶片和 MXC晶片。Q:在一個典型的 CXL系統中,TPU、MXC和 CXL Switch的配置比例及對應的成本結構是怎樣的?A:在一個 Rank內部,一個相對合理的最低配置基數是 8個 TPU(或 LPU類晶片)對應 8個 MXC,再對應一個價值約 2000美元 的 CXL Switch。基於此比例,一個 TPU所增加的 CXL和 MXC部分的價值大約為 500美元。不過,考慮到交換效能或頻寬需求,實際部署中可能會增加 Switch的數量。Q:CXL Switch晶片計畫採用何種製程工藝,以及選擇該工藝和代工廠的考慮是什麼?A:CXL Switch晶片為了達到 PCIe Gen7的性能水平,需要採用先進的製程,起步即為 3nm等級。目前有消息稱,Google傾向於將此業務轉向 三星,可能採用其 2nm工藝(SF2)。SF2工藝在電晶體密度等方面與台積電的 N3E屬於同代水平。儘管三星的 2nm工藝目前在製造大晶片時良率稍差,但對於 CXL Switch這類尺寸較小的晶片,其基礎良率較高,經過最佳化後可以達到可用水平。選擇三星的主要原因是為了規避 台積電緊張的產能和高昂的價格。Google希望通過利用三星目前較低的產能利用率來獲得更具成本效益的解決方案,以避險台積電的價格上漲風險。Q:對於 Marvell和 MTK這類為Google提供晶片設計服務的公司,其 Turnkey項目的利潤分成模式是怎樣的?MTK從 TPU項目中獲得的單顆晶片價值大約是多少?A:在 Turnkey項目中,設計服務公司通常會從每顆晶片的銷售價格中抽取一定比例的 Royalty。一個比較合理的 Royalty比例在 **0.1%到 1%**之間,通常介於 0.5%到 3%的範疇。例如,對於一顆 1,800美元的晶片,1%的 Royalty即為 18美元。Google的項目中,晶片流片理論上由 Marvell負責,但項目所有權屬於Google,Google不會將帳戶直接交給設計服務公司。因此,Marvell負責 Chip Operation,並在總晶片價值中抽取一定比例的分成。關於 MTK的價值分成,其工作量較大,包含了 CoWoS的完整設計和封測,因此在 CoWoS部分的分成較高。雖然單顆晶片的價值肯定不止十幾或二十美元,達到上百美元是可能的,但遠沒有市場傳言的 500美元 那麼高。這一價格包含了 CoWoS、測試以及供應鏈管理等成本,但前提是項目必須成功交付,否則無法實現。此次合作對聯發科而言是一項帶有 對賭性質 的項目,其內部也因此承受著較大壓力。Google最初因聯發科在大型高性能計算晶片領域經驗不足而存有疑慮,是聯發科提出的低價方案促成了這次合作。Q:亞馬遜 Trainium 4的產品定位及其與 Trainium 3將形成怎樣的部署關係?A:Trainium 4是一款與輝達 Rubin平台在機架結構、交換協議等方面都非常相似的訓練型系統,定位為 Rubin的替代品,但也可用於推理。未來,亞馬遜將採用 Trainium 3和 Trainium 4 高低搭配的混合部署模式。亞馬遜正在推行一項策略,旨在減少其訓練資源對輝達裝置的依賴。目前已有客戶(如 Anthropic)使用 Trainium 3進行訓練和微調,因此 Trainium 4的推出對於進一步降低訓練成本、擴大訓練規模至關重要。Q:Astera Labs的 PCIe Gen6和Gen7交換晶片在亞馬遜產品線中的具體應用有何不同?A:兩款晶片的應用場景不同。320通道的 PCIe Gen6交換晶片專用於 Trainium 3系統。而通道數接近 500的 PCIe Gen7交換晶片則主要為 Trainium 4系統 服務,但並非用於其核心的 scale-up互聯。Trainium 4將採用 UA-Link交換機進行互聯,而這款 PCIe Gen7交換機將用於 CPU側的擴展,例如智能網路卡、智能儲存擴展、儲存池以及遠端 DPU池的介面擴展。它也適用於一種名為“Graviton only”的純 CPU機櫃,該機櫃用於專家路由等場景。Q:亞馬遜 Trainium 3系統內部的互聯拓撲結構是怎樣的?其 320通道交換晶片如何實現節點連接?A:Trainium 3的拓撲結構較為複雜多樣,但基礎是採用臨近節點和遠端立方體的連接方式。在一個 Trainium 3單元中,包含 4顆晶片,每顆晶片都能與其他 3顆實現直連。此外,每顆晶片還有兩個連接埠用於連接遠端的交換機。這種結構使得每個 Trainium單元都可以成為一個立方體網路中的節點,該節點擁有三個鄰居,並能連接到更高維度或其他平行的立方體網路。這款 320通道的交換晶片擁有 32個 lane,能夠在一個交換域內支援大約 8個計算節點,形成一個有效的交換域。Q:Trainium 3採用的 PCIe Gen6互聯方案,其頻寬性能如何?與輝達 NVLink相比是否存在差距?A:Trainium 3採用的是 PCIe Gen6,但其傳輸層協議為 neuron link,其負載能力比標準的 PCIe高出約 40%。通過 32條 lane的鏈路聚合,其單向有效頻寬可達 512GB/s(即 0.5TB/s),雙向頻寬為 1TB/s。儘管這一速度與 NVLink相比仍有差距,但對於 Trainium 3的定位而言已足夠。Trainium 3主要用於推理,而非訓練,因此很少進行 All-to-All通訊。其設計重點是保證局部計算域內的高頻寬,以滿足任務切分時的通訊需求。它並非直接與輝達的訓練系統進行對標的產品,只有 Trainium 4 才是嚴格對標輝達最新系統的型號。Q:請問320通道的PCle交換機單價大約是多少?除了亞馬遜之外,還有那些潛在客戶?A:目前一個 lane價格大約在 6到 7美元。除了亞馬遜,美國市場客戶不多,主要客戶在 中國。國內一些 AI晶片公司需要通過 PCIe交換機為資料中心叢集機型或訓推一體機、伺服器等產品實現縱向擴展,因此對這類交換機有採購意向。 (數之湧現)
中國晶片日均出口52億,暴增近70%背後,能造7nm的或有兩家了
2026年頭兩個月,中國晶片出口金額3046.7億元,日均出口金額52億元;出口量524.6億顆,平均每天9億顆。美國拚命封,中國一邊產一邊賣,賣得還越來越值錢。晶片單價從4.13元一顆提高到5.81元一顆,漲幅超過四成,過去人們常說中國晶片主要靠低價走量,現在情況變了,價格上去說明產品確實有技術含量,不再單純依賴數量堆疊。這個數字,在晶片領域,堪稱“現象級”。有人問:美國不是聯合荷蘭、日本一起卡裝置嗎?光刻機不給,先進製程不給,全球不是都在喊“缺芯”變“去庫存”嗎?究竟是誰,正在全球市場上瘋狂掃貨“中國芯”?這種變化背後,一方面或是中國晶片製程工藝有了提升,根據近期外媒的爆料是,中國能造7nm的有兩家。先說個最直白的現實:晶片不是只給手機和高端AI用的。汽車、家電、工業控制、充電樁、路邊那盞智能路燈,還有各種感測器、閘道器、小模組,裡面一堆都是所謂的“成熟工藝”晶片。也就是28nm及以上晶片就能滿足,這一領域,都屬於成熟晶片,它們對性能的要求沒那麼花哨,對穩定、交期、價格反而看得更重。中芯國際的梁孟松提到,僅成熟製程領域,全球70%的需求中,中國就能消化掉80%。即便外部限制裝置供應,中國並不完全依賴出口,內需市場足夠穩定。此外是中國從上游材料、裝置,一路到設計、代工、封測、模組、成品,城市之間高速一串,供應商之間車程就是一場會,無論是成本,還是效率與交付,都遠高於其他地區。事實上,除了內需,東南亞地區已成為中國晶片的重要出口目的地。越南、馬來西亞、泰國等國家承接了大量消費電子整機組裝產能,對成熟製程晶片需求旺盛。在利潤空間極為有限的消費電子領域,中國晶片在同等性能條件下,價格往往僅為歐美同類產品的50%甚至更低。當一家中國晶片廠商能在“規格差不多”的情況下,比美國同行便宜一截,交付還更穩、更快,海外客戶的算盤其實很現實:性能差不多,風險更小,價格更香,那就讓利潤曲線往中國這邊挪一點。而之所以中國晶片也在越賣越貴,一方面也是因為先進製程工藝也上來了。所謂先進製程,掌握了7nm及以下工藝,那才是真正的先進。目前全球能夠製造7nm晶片的企業,明面上是4家,分別是台積電,三星,英特爾,以及中國大陸的中芯。這4家之外,並沒有什麼晶片企業公開表示過,自己能夠製造出7nm晶片,像格芯、聯電等,其實都是在14nm或以上,更多的還是聚焦28nm以上工藝。但是最近,有國外媒體報導稱,中國大陸除中芯國際之外,或有第二家晶片企業,能夠製造7nm晶片了。7nm工藝更高,電晶體密度高,功耗低,發熱小,能夠搞定,對於整個國產晶片都是意義重大。既然中芯能夠搞定7nm工芯,且並不是基於EUV,而是使用浸潤式DUV光刻機製造出來的。那麼其他國內企業能造出來並不足為奇,這家企業是誰,其實也並不難猜。一旦中國大陸的7nm晶片產能提升,越來越多的企業可以搞定,那麼台積電、三星等的優勢,也就沒有那麼大了,國內晶片產業,也能夠因此而更上一層樓。從中國晶片出口暴增70%,到2家企業搞定7nm,能看出中國晶片在全球供應鏈裡的地位,已經徹底不一樣了。從以前基本靠買,到現在能賣、而且能賣出好價錢,這條路走了二十多年,現在到了一個關鍵的轉折點。那就是整個產業鏈正在發展的越來越完善。從未來晶片行業的趨勢來看,7nm以下佔比會越來越大。資料顯示,2024年時,7nm及以下的工藝節點,貢獻了600多億美元的收入規模,佔到了整個行業的39.2%。而在2025年時,規模會超過660億美元,佔比是超過40%的。而到出2029年時,將達到1055億美元,佔比達到45%左右,也是所有工藝中增長最快的,年複合增長率將達到11.9%。也就是說,伴隨著7nm以下市場佔比越來越高,中國目前已經有能力及時的跟上了行業整體的發展節奏,即中國芯擺脫“低端代工”的標籤,從“規模擴張”邁向“價值升級”,將有效接住這波紅利。接下來,看看國內會有多少基於國產7nm工藝的晶片推出來,7nm搞定了,接下來5nm就是時間問題,美國的禁令意義幾乎正在接近失效。現在不是對方不賣先進晶片給我們,我們等著對方解封,而是敞開賣,我們可能也不買了。美國當初想用裝置來限制我們,但現在發現這招不靈了,裝置可以禁運,可整條產業鏈我們自己運轉順暢了,他們根本擋不住。過去是美國定規則,我們跟著玩,但現在美國要對我們封鎖,於是我們自己搭個新檯子,自己唱戲,觀眾越來越多,照樣能打。 (熱點微評)
中芯國際,悄悄補上關鍵一環
中芯國際,交出了一份讓人又愛又恨的成績單。2025年,它實現營收673.23億元,同比增長16.5%;歸母淨利潤50.41億元,同比增長36.3%;扣非淨利潤41.24億元,同比暴增55.9%。數字相當漂亮,拆開卻全是暗湧。AI浪潮把全球儲存價格推上天,本該是半導體全鏈條的狂歡。可對中芯國際來說,最肥的那塊肉它沒真正嘗到,反而先被儲存漲價傳導到手機、PC、消費電子終端後的需求壓制給狠狠反噬。這也帶出了中芯國際當下最真實的處境,就是需求端很多時候不由自己說了算,可能正因為如此,中芯國際這些年真正能抓在自己手裡的,其實只剩下一件事——擴產、持續擴產,把產能、份額和控制力牢牢攥住再說。問題是,擴產從來不是溫柔鄉。數千億元資本開支砸下去,確實砸出了月產能超100萬片(折合8英吋)、產能利用率飆至93.5%的硬實力,行業地位更穩了。但代價也來得凶狠:折舊負擔像枷鎖一樣越來越重,盈利能力被持續拉扯,現金流隱隱透出壓力。然而,就在業績與資金雙重壓力慢慢浮出水面之際,財報裡卻釋放出一個極具野心的重磅訊號:中芯國際不僅在先進製程上持續突破,更成立先進封裝研究院。這一步看似低調,但其實把中芯的技術底牌,從“能不能做出來”直接推向了“做出來以後怎麼真正值錢”。在萬字年報的字裡行間,這或許才是比任何利潤數字都更值得細品的轉折。儲存行情下的尷尬2025年,中芯國際的業務結構出現些微妙變化。智慧型手機收入佔比從2024年的27.8%大幅降至23.1%;相比之下,消費電子佔比由37.8%上升至43.2%,工業與汽車由7.8%上升至11%。表面看,這是業務多元化、可喜可賀;往骨子裡挖,卻更像手機這個原本最核心、技術含量最高的地盤,正承受越來越明顯的擠壓。而這背後的推手,就是儲存價格的瘋狂上漲。從2025年9月開始,全球儲存市場進入一輪罕見的漲價周期,DRAM等多個品類價格明顯上行,市場甚至開始用“超級周期”來形容這一輪行情。儲存器漲價帶來的連鎖反應也很快傳導到終端:手機、PC等整機成本上升,品牌廠商被迫提價,而一旦終端價格上漲,消費需求自然會被壓制。TrendForce等機構因此大幅下修2026年智慧型手機和筆電出貨預測,Counterpoint甚至預警智慧型手機出貨可能下滑約12%。這對中芯國際來說,並不是什麼好消息。中芯國際的手機端業務,本來就高度依賴終端景氣度。手機賣得動,晶片出貨才有保障;手機賣不動,訂單自然就會承壓。不過,真正尷尬的地方還不止於此。很多人可能會問,既然這輪儲存行情這麼火,中芯國際難道一點紅利都吃不到嗎?問題恰恰就在這裡:中芯國際雖然也有儲存相關業務,但它押注的方向,和這輪最賺錢、最受市場追捧的標準記憶體,並不是一回事。財報顯示,中芯國際在儲存端的佈局,主要是嵌入式非易失性儲存和獨立非易失性儲存。聽起來都帶“儲存”兩個字,但它們和這輪最火的DRAM,其實不在同一條賽道上。DRAM更像電子裝置執行階段的“臨時工作台”,無論是伺服器處理資料,還是AI硬體做訓練和推理,都離不開它的高速讀寫能力。所以只要AI算力繼續擴張,DRAM往往就是最先被點燃的一環。而中芯國際佈局的嵌入式非易失性儲存和獨立非易失性儲存,邏輯更偏向“把資料留住”,下游更多集中在汽車電子、工控、物聯網這些特色場景。它們當然也重要,但無論是需求爆發力,還是盈利彈性,都和DRAM不是一個量級。結果就是中芯國際在這一輪儲存行情裡的處境相當尷尬:最熱的錢,並沒有真正落到自己口袋裡;可最直接的衝擊,卻先傳到了自己的客戶那一端。擴產的代價既然需求端不可控,那中芯國際能抓住的,就只剩下自己最有把握的東西:擴產。這正是中芯國際這幾年最清晰、也最堅決的一條戰略主線。2022年-2025年,中芯國際資本開支分別為63.5億美元、74.7億美元、73.3億美元和81億美元,2026年預計與2025年的81億美元大致持平。五年累計近373.5億美元,折合人民幣約2600億元,堪稱豪賭。與此同時,中芯國際不只大建新產能,還在強化核心資產控制權。2025年12月30日,中芯國際公告稱,擬以每股74.2元的價格發行約5.47億股普通股,向中芯北方少數股東購買公司49%的股權,交易總價約為406.01億元。中芯北方成立於2013年7月,是中芯國際與北京市政府共同投資設立的12英吋晶圓廠,員工超過2500人,月產能超過7萬片。高強度投入,確實也砸出了效果。2025年,中芯國際生產晶圓1012.63萬片,月產能超過100萬片(折合8英吋產能)。同時,產能利用率增至93.5%,同比增長8個百分點。但代價也隨之而來。擴產帶來折舊暴增,固定成本高企。一旦價格環境不夠強,或者新增產能釋放節奏快於需求修復,利潤表立刻被拖累。中芯國際近年的毛利率變化,其實已經把這個問題寫得很清楚了。2022-2024年,中芯國際毛利率分別為38.3%、21.89%、18.59%,遭遇了連降;2025年雖然觸底反彈,但更多隻是因為2024年的基數實在太低。而真要拆到每季度來看,中芯國際的盈利壓力依然很大。2025年第四季度,中芯國際季度毛利率為17.38%,顯著低於當年第三季度的25.49%,也低於2024年同期的21.09%。而比毛利率更現實的,是現金流壓力。2023-2025年,中芯國際“購建固定資產、無形資產和其他長期資產支付的現金”分別為538.65億元、545.59億元和599.51億元,連續三年每年砸出500多億元,2025年更是快到600億元。問題在於,錢的一頭在持續往外流,另一頭卻沒有同步變得更寬裕。雖然利潤大漲,但同期中芯國際經營現金流淨額卻下滑了11.38%,這背後很大程度是因為應收帳款由2024年的29.23億元大增至2025年末的61.68億元,翻了超過一倍,遠高於16.5%的營收增速。這說明什麼?中芯國際不僅要砸重金建廠買裝置,還得在客戶端讓渡更多條件,才能把新增產能盡快填滿。規模上去了,控制力強了,但短期盈利韌性被明顯拉扯,資金鏈像一根緊繃的弦,稍有風吹草動就隱隱作響。先進製程突破儘管業績和資金壓力已一點點浮出水面,中芯國際仍在最要命的地方繼續重金投入,為的就是突破卡脖子。2025年,中芯國際研發費用達到55.19億元,2024年則為54.47億元,連續兩年研發投入超過50億元,合計接近110億元。在持續投入背後,市場最關心的那個問題,其實一直沒變:中芯國際現在到底能做到多少奈米?過去幾年,外界報導的拼圖已逐漸完整:2022年,行業觀察機構TechInsights提到,中芯國際已經在交付使用7奈米技術製造的比特幣挖礦晶片。2023年,TechInsights拆解華為Mate60Pro後又指出,其搭載的新麒麟9000S晶片由中芯國際製造,採用的是中芯當時最先進的7奈米工藝。到了2025年,市場又傳出新的訊號。相關報導顯示,中芯國際正在測試由上海初創公司宇量昇科技研發的深紫外光(DUV)微影裝置,並通過“多重圖案化”技術來生產7奈米晶片。更進一步的說法甚至是,這類裝置未來還有可能被逼到極限,去挑戰5奈米處理器製造。把這些零散訊號串起來,其實可以看出一個大致輪廓:中芯國際大機率已經站在了7奈米逐步成熟、5奈米開始進入市場預期的節點上。但如果只盯著“到底幾奈米”,反而可能低估了中芯國際現在真正想做的事。事實上,在中芯國際2025年財報裡,最值得反覆咀嚼的一句,是“成立先進封裝研究院”。這句話看起來不像“7奈米”“5奈米”那麼炸眼,但它真正透露出來的資訊反而更深,因為這意味著中芯國際現在考慮的問題,已經不只是先進製程能不能突破,而是先進製程突破之後,怎麼把這種工藝能力真正變成高端晶片的產品競爭力。今天全球半導體競爭,早就不只是比誰的奈米數字更小了。奈米數當然重要,但真正決定一顆高端晶片最終有沒有市場、值不值錢的,越來越是後面那整套系統能力。比如晶片之間怎麼高效連接,怎麼3D堆疊,頻寬怎麼拉滿、功耗怎麼壓到極致、散熱怎麼解決。這些都屬於先進封裝要解決的問題。沒有這套能力配合,再先進的前道製程,很多性能潛力也釋放不出來。所以,中芯國際成立先進封裝研究院,本質上不是一個簡單的“補項目”,而是在補先進製程後面最關鍵的一截能力鏈。而這件事更值得玩味的地方還在於,它其實從側面強烈暗示:中芯國際對自己先進製程的推進,大機率已經有了比外界更強的底氣和信心。道理並不複雜。任何一家企業,只有當一項核心技術已經推進到一定階段之後,才會開始往下一層去想。假如中芯國際的先進製程還停留在“能不能攻下來”的焦慮裡,那它現在最該盯著的,應該還是工藝本身、良率本身,而不是先進封裝,更不是高端產品競爭力怎麼落地。但現在,中芯國際顯然已經把思路往後推了一步。這,或許才是2025年財報裡,最重磅的訊號。中芯國際的野心,已遠不止追趕先進製程。它用擴產築起規模壁壘,用持續高研發破技術關,用先進封裝補上系統能力鏈,悄然在建構屬於自己的“全端競爭力”。儲存周期的尷尬、擴產的沉重代價,都是成長中必須吞下的苦果。但當它一步步把“製程+封裝”的能力鏈握緊時,真正的底牌,才剛剛開始亮出來。外部環境依然複雜,折舊壓力不會一夜消失,需求波動也會反覆。但從中芯國際這一系列動作看,它已不再滿足於做一家“大而穩”的代工廠。它想成為能真正扛起中國半導體高端突破的關鍵一環。 (金角財經)