#晶片技術
北大團隊首創技術“看清”光刻膠真面目
光刻技術是支撐積體電路晶片工藝不斷微縮的關鍵技術基礎,近日,北京大學化學與分子工程學院彭海琳教授團隊及其合作者在《自然-通訊》上披露了他們的新發現。該團隊通過創新應用冷凍電子斷層掃描(cryo-ET)技術,團隊首次解析光刻膠在液態環境中的微觀三維結構及動態行為,為晶片製程微縮化與良率提升提供全新解決方案。相關成果發表於《自然-通訊》(Nature Communications)。論文連結: https://www.nature.com/articles/s41467-025-63689-4彭海琳表示,光刻是晶片製造中關鍵的步驟之一,通俗理解,光刻就是給半導體晶圓(比如矽片)“印電路”,核心是用超精密“投影儀”把設計好的電路圖案,縮小後印在矽片的特殊薄膜上,再通過沖洗定型。光刻是晶片製造的核心技術之一,更是微納加工領域“皇冠上的明珠”。顯影液則在電路圖案形成過程中發揮著重要作用。在光刻膠顯影過程中,光刻膠的曝光區域會選擇性地溶解在顯影液的液膜中。液膜中光刻膠分子的吸附與纏結行為,是影響晶圓表面圖案缺陷形成的關鍵因素,進而可直接影響晶片性能和良率。《自然-通訊》報導的簡介中提到,儘管經過數十年的研究,光刻膠在液膜和介面處的微觀行為仍然難以捉摸,導致工業界對圖案缺陷的控制很大程度上是一個反覆試驗的過程。在這裡,我們利用冷凍電子斷層掃描(cryo-ET)方法揭示了液膜和氣液介面處光刻膠聚合物的奈米結構和動力學。與傳統方法相比,cryo-ET 以顯著提高的解析度重建了光刻膠聚合物的天然態三維結構。Cryo-ET 重建解決了光刻膠聚合物在本體溶液中氣液介面上的空間分佈,揭示了聚合物鏈之間的內聚纏結。通過抑制聚合物纏結並利用光刻膠在氣液介面的吸附,在工業條件下消除了 12 英吋晶圓上的污染,使與晶圓廠相容的光刻圖案缺陷減少率提高了 99% 以上。註:a光刻膠顯影后 12 英吋晶圓的光學圖像。b顯影奈米圖案的 SEM 圖像。c光刻膠(化學放大光刻膠)的水接觸角測量。插圖:光學圖像顯示光刻膠的水接觸角約為 85°。d示意圖顯示光刻膠潤濕性差導致纏結聚合物吸附在圖案表面。e、f光刻膠顯影后12 英吋晶圓的缺陷對應(e),其中每個紅點表示圖案缺陷的發生(f)。g cryo -ET 切片顯示,當將曝光後烘烤溫度(T)從 95°C(左)增加到 105°C(右)時,聚合物纏結受到抑制。h通過抑制氣液介面處的聚合物纏結來去除缺陷的示意圖,防止大尺寸聚合物殘留物的形成和沉積。i消除缺陷的 12 英吋晶圓。j通過抑制氣液介面處的聚合物纏結,顯影圖案的聚合物殘留量降低了 99% 以上。插圖:無缺陷顯影圖案的典型 SEM 圖像。比例尺,80 奈米。冷凍電鏡斷層掃描的三維重構帶來了一系列新發現。論文通訊作者之一、北京大學化學與分子工程學院高毅勤教授表示,以往業界認為溶解後的光刻膠聚合物主要分散在液體內部,可三維圖像顯示它們大多吸附在氣液介面。團隊還首次直接觀察到光刻膠聚合物的“凝聚纏結”,其依靠較弱的力或者疏水相互作用結合。而且,吸附在氣液介面的聚合物更易發生纏結,形成平均尺寸約30奈米的團聚顆粒,這些“團聚顆粒”正是光刻潛在的缺陷根源。“我們由此提出了兩項簡單、高效且與現有半導體產線相容的解決方案。一是抑制纏結,二是介面捕獲。”彭海琳說,實驗表明,兩種策略結合,12英吋晶圓表面的光刻膠殘留物引起的圖案缺陷被成功消除,缺陷數量降幅超過99%,且該方案具備極高的可靠性和重複性。彭海琳表示,研究說明冷凍電子斷層掃描技術為在原子/分子尺度上解析各類液相介面反應提供了強大工具,也有助於闡釋高分子、增材製造和生命科學中廣泛存在的“纏結”現象。“我們的方案能為提升光刻精度與良率開闢新路徑。”彭海琳說。這項由中國科學家主導的重大突破,是基礎科學研究與產業應用需求緊密結合的典範。正如論文作者所言,這項工作為解讀水介面化學反應的結構和動力學鋪平了道路,而該領域的理論制定仍處於早期階段。低溫電子斷層掃描 (cryo-ET) 在解決聚合物科學、增材製造和生命科學中普遍存在的糾纏方面也顯示出巨大的潛力。在半導體工業的應用方面,液膜中的聚合物奈米結構和動力學有望有利於光刻、蝕刻和濕法工藝領域的缺陷控制,而這些領域對於製造下一代電子產品至關重要。 (半導體材料與工藝裝置)
十篇論文,揭秘寒武紀AI晶片崛起之路
2025年8月27日,寒武紀(Cambricon)成功躋身國內AI晶片產業的頂尖行列,為持續火熱的全球AI競賽再添一把火。面對NVIDIA等國際巨頭成熟的技術生態,這家成立不過10年的公司,其核心競爭力源於何處?背後又沉澱了怎樣的技術思考?要回答這些問題,須將時間的指針撥回十餘年前,回到中科院計算所那間略顯寂靜的實驗室。在那裡,沒有紛繁的市場喧囂,只有伺服器持續的蜂鳴;沒有商業模式的探討,只有一行行旨在探索計算本源的程式碼與公式。從一對天才兄弟開始,從一篇篇發表在國際頂刊頂會的論文開始,一場關於計算架構的創新早已悄然醞釀。不同於依賴商業模式創新的公司,寒武紀的崛起是一條典型的“硬核”路線,其每一步成長,幾乎都能在其公開發表的學術論文中找到清晰的印記。這些論文不僅是其技術實力的硬核證明,也共同繪製出了一幅清晰的“技術路線圖”,讓我們得以洞悉其每一步的戰略抉擇與未來的方向所在。本文精選了從2014年至2025年間的十篇論文,從最初的“DianNao”架構到“Cambricon”系列的前沿AI晶片探索,為您清晰地呈現寒武紀的技術進化脈絡。1 奠基時代 “DianNao”系列的一鳴驚人寒武紀的誕生,源於一對學術兄弟的“十年磨一劍”。陳雲霽與陳天石的傳奇,始於年少時的共同選擇——雙雙考入中國科學技術大學“少年班”,並在那裡展現出超凡的學術天賦。這對天才兄弟的軌跡高度重合,他們先後進入中國電腦科學的搖籃——中科院計算所,師從“龍芯”總設計師胡偉武教授攻讀博士,並在國家核心的CPU研發項目中得到了最硬核的處理器設計訓練。這段深厚的學術履歷,成為他們日後顛覆性創新的基石。他們提出的“DianNao”系列是全球最早、最系統化的深度學習處理器架構研究之一,為後續的商業化打下了堅實的基礎。在深度學習浪潮之初,敏銳地預見到通用CPU/GPU在執行神經網路時的效率瓶頸,開創性地提出了一系列專門針對神經網路的硬體加速器架構,通過軟硬體協同設計,實現了數量級的性能和能效提升。NO.1DianNao: a small-footprint high-throughput accelerator for ubiquitous machine-learning神經網路的硬體全實現加速器作者:T Chen, Z Du, N Sun, J Wang, C Wu, Y Chen, O Temam發表日期:2014原文連結:https://courses.e-ce.uth.gr/CE432/voh0hmata/bibliographic%20project/papers1/asplos2014%20-%20Chen%20et%20al%20-%20DianNao%20-%20A%20Small-Footprint%20High-Throughput%20Accelerator%20for%20Ubiquitous%20Machine-Learning.pdf摘要:在本研究中,我們設計了一種針對大規模CNN和DNN的加速器,特別強調了記憶體對加速器設計、性能和能耗的影響。我們展示了設計一種高吞吐量加速器的可能性,該加速器能夠在3.02平方毫米的小尺寸和485毫瓦的功耗下執行452 GOP/s(關鍵神經網路操作,如突觸權重乘法和神經元輸出加法);與128位2GHz SIMD處理器相比,該加速器速度快117.87倍,並且可以將總能耗降低21.08倍。加速器的特性是在65奈米佈局後獲得的。如此高吞吐量的小尺寸可以推動最先進機器學習演算法在廣泛系統和應用中的使用。研究意義:“DianNao”的開山之作;這篇文章首次提出了一個簡潔高效的神經網路加速器架構,包含了核心的運算單元(NPU)、緩衝區和資料通路,其意義在於驗證了專用硬體加速器這條技術路線的可行性,是思想的火種。NO.2DaDianNao: A Machine-Learning SupercomputerDianNao加速器框圖節點佈局快照作者:Y Chen, T Luo, S Liu, S Zhang, L He, J Wang, L Li, T Chen, Z Xu, N Sun, O Temam發表日期:2014原文連結:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=7011421&tag=1摘要:在本文中,我們介紹了一種基於這些思路的定製多晶片機器學習架構。我們展示了在已知最大的神經網路層子集上,與GPU相比,可以實現450.65倍的加速,並且在64晶片系統中平均能耗降低150.31倍。我們將節點實現到28奈米的佈局和布線,包含定製儲存和計算單元的組合,並採用工業級互連。研究意義:DianNao的性能強化版。如果說DianNao是探索,DaDianNao就是追求極致性能的嘗試。它面向資料中心,採用了多晶片、eDRAM等設計,展示了AI計算對高性能、高頻寬的極致需求,是寒武紀後續雲端晶片思想的雛形。NO.3PuDianNao: A Polyvalent Machine Learning AcceleratorPuDianNao加速器架構PuDianNao的佈局,CM、FU、HB、CB和OB分別代表控制模組、功能單元、熱緩衝區、冷緩衝區和輸出緩衝區作者:Dao-Fu Liu, Tianshi Chen, Shaoli Liu, Jinhong Zhou, Shengyuan Zhou, O. Temam, Xiaobing Feng, Xuehai Zhou, Yunji Chen發表日期:2015原文連結:https://dl.acm.org/doi/pdf/10.1145/2694344.2694358摘要:機器學習(ML)技術在各種新興商業應用中無處不在,但必須依賴強大的電腦系統來處理海量資料。儘管通用CPU和GPU提供了直接的解決方案,但由於它們對靈活性的過度支援,其能效受到限制。硬體加速器可能實現更好的能效,但每個加速器通常只支援單一的機器學習技術(或技術家族)。然而,根據機器學習領域著名的“無免費午餐”定理,一種機器學習技術在一個資料集上表現良好,可能在另一個資料集上表現不佳,這意味著這種加速器有時可能導致學習精度低下。即使不考慮學習精度,這種加速器也可能因為具體的機器學習任務發生變化,或者使用者選擇了另一種機器學習技術而變得不適用。在本研究中,我們提出了一種名為Pu-DianNao的機器學習加速器,它支援七種代表性的機器學習技術,包括k-means、k近鄰、樸素貝葉斯、支援向量機、線性回歸、分類樹和深度神經網路。得益於我們對不同機器學習技術的計算原語和局部性特性的深入分析,PuDianNao在3.51平方毫米的面積內可以執行高達1056 GOP/s(例如加法和乘法)的運算,並且僅消耗596毫瓦的功率。與NVIDIA K20M GPU(28奈米工藝)相比,PuDianNao(65奈米工藝)速度快1.20倍,並且能效提高了128.41倍。研究意義:PuDianNao不再侷限於神經網路,而是支援了K-Means、SVM等七種主流機器學習演算法。這體現了團隊對通用性和可程式設計性的早期思考,即AI晶片不能是“一次性”的硬體,必須適應演算法的快速迭代。NO.4ShiDianNao: shifting vision processing closer to the sensor加速器可能被整合到商用圖像處理晶片中加速器架構作者:Zidong Du, Robert Fasthuber, Tianshi Chen, Paolo Ienne, Ling Li, Tao Luo, Xiaobing Feng, Yunji Chen, Olivier TemamAuthors Info & Claims發表日期:2015原文連結:https://dl.acm.org/doi/pdf/10.1145/2749469.2750389摘要:近年來,神經網路加速器在識別和挖掘應用這一重要類別中,已展現出在廣泛應用場景下同時實現高能效和高性能的能力。然而,這類加速器的能效和性能仍受限於記憶體訪問。本文聚焦於圖像應用,這無疑是識別和挖掘應用中最為重要的一類。針對這些應用,最先進的神經網路是摺積神經網路(CNN),它們具備一個顯著特性:權重在眾多神經元間共享,大幅減少了神經網路的記憶體佔用。這一特性使得CNN能夠完全對應至SRAM中,從而消除所有針對權重的DRAM訪問。進一步將加速器置於圖像感測器旁,還能徹底消除所有剩餘的DRAM訪問,即針對輸入和輸出的訪問。本文提出了一種此類CNN加速器,緊鄰CMOS或CCD感測器佈置。通過消除DRAM訪問,並精心利用CNN內部的特定資料訪問模式,我們設計出一款能效比現有最先進神經網路加速器高出60倍的加速器。我們展示了從設計到65奈米佈局的完整方案,其面積僅為4.86平方毫米,功耗僅320毫瓦,但速度仍比高端GPU快約30倍。研究意義:ShiDianNao專為視覺應用(CNN)設計。這篇文章最大的亮點是將計算單元儘可能地靠近感測器),大幅減少資料搬運帶來的功耗。這是端側、邊緣AI晶片設計的核心思想,為寒武紀後來的終端IP業務埋下伏筆。2 商業化序章 從指令集到IP核的進化寒武紀公司正式成立,團隊開始將學術成果轉化為商業產品;並且意識到:要讓AI處理器真正可用,光有硬體架構是不夠的,必須為購買產品的開發者提供一套穩定、高效的“語言”——指令集。通過定義一套專用的指令集,寒武紀成功地將上層應用與底層硬體解耦,實現了從學術研究到商業IP授權的關鍵一躍。這個階段最核心的標誌是提出了第一個專門針對深度學習的指令集“Cambricon ISA”,這是建構其技術護城河的開始。NO.5Cambricon: An Instruction Set Architecture for Neural NetworksCambricon指令概述基於Cambricon的原型加速器作者:S Liu, Z Du, J Tao, D Han, T Luo, Y Xie, Y Chen, T Chen發表日期:2016原文連結:https://dl.acm.org/doi/pdf/10.1145/3007787.3001179摘要:在本文中,我們提出了一種新穎的領域特定指令集架構(Instruction Set Architecture, ISA)用於神經網路加速器,稱為Cambricon。Cambricon是一種基於暫存器-儲存器架構,綜合了標量、向量、矩陣、邏輯、資料傳輸和控制指令,基於對現有神經網路技術的全面分析。我們對十種具有代表性的不同神經網路技術的評估表明,Cambricon在廣泛的神經網路技術中表現出強大的描述能力,並且比×86、MIPS和GPGPU等通用指令集提供了更高的程式碼密度。與最新的神經網路加速器設計DaDianNao (僅能支援3種神經網路技術)相比,我們基於Cambricon的加速器原型在台積電65奈米工藝下實現,僅帶來了微不足道的延遲/功耗/面積開銷,並且能夠靈活覆蓋10種不同的神經網路基準測試。研究意義:寒武紀的“立司之本”。這篇文章首次完整提出了一套面向神經網路的指令集架構;它的意義堪比ARM指令集之於移動裝置。讓開發者就可以像為CPU程式設計一樣為AI晶片程式設計,極大地推動了AI晶片的生態建設。NO.6Cambricon-X: An Accelerator for Sparse Neural Networks(a)具有步進索引的稀疏網路示例(b)硬體步進索引的實現加速器程式設計過程作者:S Zhang, Z Du, L Zhang, H Lan, S Liu, L Li, Q Guo, T Chen, Y Chen發表日期:2016原文連結:https://dl.acm.org/doi/pdf/10.1145/356810.356816摘要:神經網路已被證明在圖像識別、自動翻譯和廣告推薦等廣泛的應用中非常有用。由於不斷增長的深度結構,即多層包含大量神經元和連接(即突觸),最先進的神經網路在計算和記憶體需求上都非常密集。稀疏神經網路作為一種有效的解決方案,能夠減少所需的計算量和記憶體。儘管現有的神經網路加速器能夠高效處理密集和規則的網路,但它們無法從突觸權重的減少中獲益。在本文中,我們提出了一種新型加速器Cambricon-X,旨在利用神經網路模型的稀疏性和不規則性來提高效率。該加速器採用基於處理單元(PE)的架構,由多個處理單元組成。索引模組能夠高效地選擇並將所需的神經元傳輸到連接的PE,從而減少頻寬需求,而每個PE以非同步方式儲存不規則和壓縮的突觸進行本地計算。我們的加速器在16個PE的情況下,能夠在小型封裝(6.38平方毫米,65奈米工藝下功耗為954毫瓦)中實現最高544 GOP/s的性能。通過對多個代表性稀疏網路的實驗結果表明,我們的加速器平均比最先進的神經網路加速器實現了7.23倍的加速和6.43倍的節能。研究意義:關注演算法與硬體的協同最佳化。這篇文章針對神經網路中的“稀疏性”進行硬體加速,能夠跳過無效計算,大幅提升效率。這表明寒武紀已經進入精細化、場景化最佳化的深水,思考如何充分發揮硬體的每一分性能。3 轉型生態建構 軟硬體一體化的產品矩陣2017年,寒武紀公司正式成立後的第一年,迎來關鍵商業突破;其處理器Cambricon-1A被整合於華為麒麟970晶片中,成為全球首款搭載獨立AI單元的手機SoC,這次合作不僅讓寒武紀一舉成名,也直接開啟了手機端側AI的浪潮。然而,隨著2019年華為出於自研戰略考量、推出了自家的“達文西架構”NPU後,寒武紀失去了當時最重要的客戶之一。這次“分手”卻也成為了其徹底轉型的催化劑;自此之後,公司傾盡全力加速自有品牌“思元”(MLU)雲端晶片的迭代和推廣,以更低的功耗和更高的性能從NVIDIA手中拿下一部分市場。並大力投入NeuWare全端軟體平台的建設,相容支援TensorFlow、PyTorch等主流框架,以此吸引更廣泛的客戶群體,建構一個獨立的、能與NVIDIA CUDA競爭的開發者生態。NO.7Cambricon-F: machine learning computers with fractal von Neumann architecture典型的分形馮·諾依曼架構:第0級(頂層節點)...第i級節點及其在第i+1級的子節點...第N級(葉節點)Cambricon-F節點中的流水線劃分作者:Yongwei Zhao, Zidong Du, Qi Guo, Shaoli Liu, Ling Li, Zhiwei Xu, Tianshi Chen, Yunji Chen發表日期:2019原文連結:https://dl.acm.org/doi/pdf/10.1145/3307650.3322226摘要:機器學習技術已成為新興商業應用中無處不在的工具,許多不同規模的專用機器學習電腦已被部署在嵌入式裝置、伺服器和資料中心中。目前,大多數機器學習電腦架構仍然側重於最佳化性能和能效,而非程式設計生產力。然而,隨著矽技術的快速發展,程式設計生產力(包括程式設計本身和軟體棧開發)已成為阻礙機器學習電腦應用的關鍵因素,而非性能和能效。在本文中,我們提出了Cambricon-F,這是一系列具有相同指令集架構(ISA)的同構、順序、多層、層相似的機器學習電腦。Cambricon-F機器採用分形馮·諾依曼架構,以迭代管理其元件:它具有馮·諾依曼架構,其處理元件(子節點)仍然是具有馮·諾依曼架構和相同ISA的Cambricon-F機器。由於不同規模的Cambricon-F實例可以在其共同的ISA上共享相同軟體棧,因此Cambricon-F可以顯著提高程式設計生產力。此外,我們解決了Cambricon-F架構設計中的四大挑戰,使Cambricon-F能夠實現高效率。我們實現了兩個不同規模的Cambricon-F實例,即Cambricon-F100和Cambricon-F1。與基於GPU的機器(DGX-1和1080Ti)相比,Cambricon-F實例在性能上分別提升了2.82倍和5.14倍,效率平均提升了8.37倍和11.39倍,面積成本分別減少了74.5%和93.8%。研究意義:提出了一種全新的、專為AI計算設計的“分形馮諾依曼架構”。Cambricon-F的設計就像一個俄羅斯套娃:它將一小塊計算單元和一小塊本地儲存緊密耦合,組成一個基本的“神經元處理單元”(NPU)。然後,多個這樣的小單元又可以組成一個更大的計算簇,這個簇又有自己稍大一些的共享儲存。NO.8Cambricon-Q: A Hybrid Architecture for Efficient TrainingCambricon-Q架構概述Camricon-Q上處理量化的前向和後向傳遞作者:Y Zhao, C Liu, Z Du, Q Guo, X Hu, Y Zhuang, Z Zhang, X Song, W Li發表日期:2021原文連結:https://dl.acm.org/doi/pdf/10.1145/3307650.3322226摘要:深度神經網路(DNN)訓練以其耗時著稱,而量化技術有望通過減少頻寬/儲存需求和計算成本來提升訓練效率。然而,當前最先進的量化演算法雖能在幾乎不損失訓練精度的情況下運行,但它們需要基於大量資料(如神經元和權重)進行即時統計量化以及高精度權重更新,這些要求使得它們難以在現有的DNN加速器上有效部署。為解決這一問題,我們提出了首個針對高效量化訓練且幾乎不損失精度的定製架構,命名為Cambricon-Q。Cambricon-Q採用混合架構,由ASIC加速核和近資料處理(NDP)引擎組成。加速核主要致力於通過專門的計算單元提升基於統計的量化效率,這些單元負責統計分析(如確定最大值)和資料重組,而NDP引擎則避免了將高精度權重從片外記憶體傳輸至加速核。實驗結果顯示,在評估的基準測試中,與GPU和TPU相比,Cambricon-Q在DNN訓練的能效上分別提升了6.41倍和1.62倍,性能上分別提升了4.20倍和1.70倍,且與全精度訓練相比,精度僅下降了不超過0.4%。研究意義:Cambricon-Q的研究意義,是為先進AI演算法和底層硬體之間架起了一座橋樑。它通過一套精心設計的“ASIC+近資料處理”混合架構,為當時“聽起來很美但跑不起來”的高精度量化訓練演算法掃清了硬體障礙;是“軟硬體協同設計”思想的一次完美實踐。NO.9Cambricon-C: Efficient 4-Bit Matrix Unit via PrimitivizationCambricon-C ACC的總體架構六種不同的PE設計,分別稱為MAC、8256、R225、832、R29和B15。為了簡化,讀出電路和脈動暫存器被省略作者:Yi Chen ; Yongwei Zhao; Yifan Hao; Yuanbo Wen; Yuntao Dai; Xiaqing Li發表日期:2024原文連結:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10764444&tag=1摘要:深度學習趨勢傾向於使用低精度數值格式來應對日益增長的模型規模。例如,大型語言模型LLaMA2已廣泛部署在4位精度下。隨著模型規模的增大和低精度導致的唯一值減少,矩陣乘法中重複運算的比例不斷增加。儘管先前的研究已討論過這種值冗餘,但尚未得到充分利用,且利用值冗餘的成本往往抵消了任何優勢。本文提出將矩陣乘法原始化,即將其分解為1元後繼函數(即計數)以合併重複運算。我們重新審視了各種技術,提出了Cambricon-C SA,一種4位原始矩陣乘法單元,其能效比傳統脈動陣列提高一倍。實驗結果表明,與基於MAC的脈動陣列相比,Cambricon-C SA可實現1.95倍的能效提升。研究意義:在AI算力需求爆炸式增長的今天,功耗和能效已經成為制約資料中心發展的生命線。Cambricon-C的研究意義在於,它為超低精度LLM時代提出了一種顛覆性的、從“乘法”降維到“計數”的全新計算範式,並用接近翻倍的能效提升證明了其巨大價值。NO.10Cambricon-SR: An Accelerator for Neural Scene Representation with Sparse Encoding TableCambricon-SR的整體架構稀疏表(ST)在稀疏表陣列(STA)節點中的訪問(左)和更新(右)示例作者:T Liu, X Song, Z Yue, R Wen, X Hu, Z Song, Y Wen, Y Hao, W Li, Z Du, R Zhang發表日期:2025原文連結:https://dl.acm.org/doi/pdf/10.1145/3695053.3731018摘要:神經場景表徵 (NSR) 是一種極具潛力的真實場景表徵技術。通過學習數十張從不同視角拍攝的二維照片,NSR 可以計算真實場景的三維表徵。然而,NSR 在 GPU 上運行的性能不足以滿足實際應用的需求。Cambricon-R 實現了每秒處理超過 60 個場景的高性能,但卻以犧牲建模質量為代價。 本文提出了 Cambricon-SR,一種演算法與硬體協同設計的加速器,用於提高 NSR 的性能和質量。首先,我們提出了一種帶有稀疏編碼表的新型 NSR 演算法,該演算法在幾乎不影響精度的情況下,實現了編碼表 80% 以上的稀疏度。其次,為了有效消除對修剪條目的無效記憶體訪問請求,我們提出了基於順序 SRAM 訪問的稀疏索引單元,以解決對稀疏結構點陣圖的不規則記憶體訪問的挑戰。它使編碼階段的吞吐量提高了 7.54 倍,但額外增加了 8.59% 的面積開銷。第三,我們為 MLP 單元提出了動態共享緩衝區,將緩衝區使用率降低了 85.3%,從而可以增加 MLP 單元的數量。 針對8個典型場景進行實驗評估,結果表明,與A100 GPU和Cambricon-R相比,Cambricon-SR在NSR每次訓練迭代中分別實現了1259倍和4.12倍的加速比,並降低了1139倍和2.98倍的能耗。研究意義:從早期的《Cambricon-X》開始,寒武紀就展現了在處理稀疏神經網路上的能力。《Cambricon-SR》則表明,這種能力不是一次性的,而是已經內化為公司的核心技術基因,可以根據不同的應用場景(從傳統的CNN到新興的NSR),進行演進和適配,並持續產生顛覆性的效果。這種“先改造演算法,再改造硬體”的深度協同,最終才換來了千倍等級的性能提升。這證明了最強大的AI晶片,並非單純堆砌算力,而是來自於對應用演算法的深刻理解和徹底的、全端式的最佳化。當“寒武紀大爆發”的讚譽言猶在耳,之後的道路卻並非坦途,擺在寒武紀面前的挑戰現實而嚴峻。放眼全球,寒武紀需要直面NVIDIA憑藉頂級製程工藝與CUDA生態構築的鐵壁,並回答一個根本性的問題:是甘於做亦步亦趨的“平替”,還是勇於另闢蹊徑、換道超車? 國內,面對華為昇騰全端式解決方案的主導地位,能否迎頭趕上?儘管如此,挑戰與機遇永遠並存。國內AI化處理程序對自主AI算力空前高漲的需求,以及開源大語言模型的時代浪潮,為所有晶片公司都提供了堅實的基本盤和寶貴的發展窗口。未來,寒武紀能否將這份以學術起家的底蘊,真正轉化為一個開發者云集、枝繁葉茂的商業生態,並在這場人工智慧長跑中不斷超越前者,將是時代賦予它的考驗。十年很長,長到足以讓十篇論文進化成一家AI晶片的行業巨頭;十年也很短,對於一家立志建構完整生態、挑戰科技巨頭的企業來說,一切才剛剛開始。 (半導體行業觀察)
“川普是英國,歐盟是清朝,美歐簽了《南京條約》”
美國政客新聞網Politico26日發了篇很有意思的文章,把川普比喻成鴉片戰爭時的英國,把歐洲比喻成當時的清廷,把美歐近期的貿易協定比喻成《南京條約》。文章說,在第一次鴉片戰爭中被英國打敗後,清朝於 1842 年簽署了條約,導致中國遭受了 100 多年的外國壓迫和對貿易政策的殖民控制。這是後來被稱為“不平等條約”的第一份條約,當時恃強凌弱的軍事和技術強國強行施加單方面條款,試圖削減其巨額貿易逆差。聽起來很熟悉?近兩個世紀後,歐盟開始真正體會到這種感覺。▲7 月 27 日,川普與馮德萊恩在英國蘇格蘭坦伯利舉行會談,此前美國和歐盟宣佈達成貿易協議(圖源:路透社)文章接著寫道,7月,歐委會主席馮德萊恩專程前往川普位於蘇格蘭的高爾夫度假村,達成一項被視為極不平等的貿易協議,引發政界和分析人士的擔憂,他們擔心歐洲已經失去了曾經認為的全球領先貿易強國的地位。馮德萊恩的批評者說,接受川普對大多數來自歐洲的商品徵收 15% 的關稅相當於一種“屈服”行為、“歐盟明顯政治失敗”及“意識形態和道德投降”。文章說:如果她原本指望這能使川普停下,那麼她將面臨殘酷的現實。貿易協議墨跡未乾,川普周一就變本加厲,威脅要對歐盟徵收新的關稅,理由是數字法規將打擊美國科技巨頭。他警告說,如果歐盟不遵守規定,美國將停止出口重要的晶片技術。川普之所以能這麼強勢,是因為他——就像19世紀的英國帝國主義者一樣——掌握著軍事和技術牌,並且深知他的對手在這兩個領域都遠遠落後。他知道,如果沒有美國的軍事支援,歐洲不願與普丁對抗;如果沒有美國的晶片技術,歐洲難以運轉,所以他認為自己可以左右貿易議程。歐盟貿易專員馬羅什·謝夫喬維奇上個月說,與美國的協議反映了歐洲的戰略弱點及其對美國支援的需要。“這不僅關乎……貿易:還關乎安全,關乎烏克蘭,關乎當前的地緣政治動盪。”他說。柏林全球公共政策研究所所長托爾斯滕·本納說,這項貿易協議“直接體現了歐洲在安全方面的弱點,即無法保障自身的軍事安全,而且20年來未能對自身安全進行投資”。他還指出,歐洲未能投資於“技術實力”並深化單一市場。 Politico分析稱,正如清廷一樣,歐洲多年來也對這些警告訊號嗤之以鼻。 文章簡略介紹了鴉片戰爭,認為歐盟當下的處境與清朝類似,歐盟現在因落後美國數十年而受到懲罰。冷戰後,歐盟大幅削減國防開支,導致歐洲國家在安全方面依賴美國軍隊;對技術發展的自滿情緒意味著歐盟現在在幾乎所有關鍵技術上都落後於其全球競爭對手。▲川普在社交媒體發帖,威脅要“大幅加征關稅”,並對那些他認為數字規則歧視美國企業的國家實施技術和晶片出口限制(圖源:Politico)隨著美歐雙方試圖解決從鋼鐵和鋁的關稅配額制度到某些行業的豁免等各種細節問題,更多對歐盟的羞辱可能會隨之而來。  當被問及如果歐盟未能兌現承諾的6000億美元對美投資會發生什麼時,川普本月早些時候表示:“那麼,他們就要支付35%的關稅。” 歐盟敏銳地意識到了這一危險。歐委會辯稱,6000億美元的數字僅僅反映了企業界的普遍意願,布魯塞爾無法強制執行。但川普很可能利用這項投資承諾作為觸發點,要求提高關稅。一位不願透露姓名的歐盟高級官員坦言:“我們確實預計會出現進一步的動盪,但我們覺得我們有非常明確的保障政策。”Politico接著提出疑問:歐盟能做些什麼以避免其地緣政治弱勢長期化呢?在協議達成之前,馮德萊恩反覆強調,歐盟應對美國的戰略應建立在三個要素之上:準備採取報復措施、實現貿易夥伴多元化以及加強歐盟單一市場。 對一些人來說,歐盟需要將美歐協議視為一個警鐘,以引領深刻變革,並通過體制改革提升歐盟的競爭力。歐洲央行行長馬里奧·德拉吉認為,需要對歐洲的基礎設施、需求和企業進行投資:“這意味著降低能源價格,更好地利用歐洲的儲蓄來投資歐洲企業,並完成資本市場一體化。”法國歐洲事務部長本傑明·哈達德在接受政客新聞網採訪時也呼籲“大力投資人工智慧、量子計算和綠色技術,保護我們的主權產業,就像美國人毫不猶豫地做的那樣”。 歐洲議會貿易委員會主席貝恩德·朗格說, “除了推進(世界貿易組織)的現代化建設外,歐盟還必須專注於繼續與可靠的合作夥伴建構貿易協定網路。”  Politico的文章最後援引德國馬歇爾基金會研究分析師德魯姆的話,他認為,歐洲面臨一個選擇。 他問道:“在全球化逐漸消退的世界中,它(歐盟)是否會鞏固其作為自由貿易中心的地位?” “還是它只會成為中美之間日益激烈競爭的戰場?” (胡錫進觀察)
路透社:中國團隊正在大規模維修老舊的AI晶片,用技術修復的方法來緩解晶片斷供的問題
散英魂寄千萬雄鷹翱翔神州,盡智魄載十億慧芯呼喚華夏。01 前沿導讀據路透社新聞報導稱,中國的技術團隊正在針對大規模的老舊輝達晶片進行修理維護工作。現在中國團隊所掌握的這些來自於輝達的H100、A100晶片,都是在美國禁令實施之前改採購的老舊產品,由於美國的對華封鎖,這些老舊晶片失去了輝達官方的技術維護。#輝達深圳地區大約有十幾家小公司針對輝達的ai晶片進行維修服務,其每月的處理數量高達500次以上。這種對老舊產品的技術維修,在一定程度上減輕了中國企業對於先進ai晶片的需求壓力,使其可以繼續採用美國的高算力晶片進行ai訓練。#ai02 產品修復正常投入訓練的GPU晶片,其綜合壽命為2-5年,隨後就需要官方對其進行維護保養。但是中國市場的A100、H100晶片長時間高負荷運行,極大壓縮了壽命時間。Meta公司用1.6萬張H100晶片組成的訓練叢集,曾經在54天內出現了400次的故障,其中大約有58%的故障都是因為硬體問題。在美國頒布了晶片禁令之後,中國市場上面所存在的老舊輝達晶片成為了唯一資源。持續高負荷的工作負載,將會導致晶片出現損耗,例如干導熱膏、風扇問題、PCB 上的元件疲勞以及 SXM 介面中的連接器引腳損壞或氧化。以上只是算力晶片可能出現的情況,實際上還會出現更複雜的問題。例如電子系統故障、大型GPU或HBM封裝下的焊點裂紋,甚至HBM記憶體退化。除了模具開裂、中介層分層等致命的硬體故障無法修復之外,其他的問題均可以通過技術手段進行修復。對於這種外觀破損的產品,輝達官方也是不被列入保修範圍之內的。據網易科技所發佈的新聞報告顯示,一位在深圳從事晶片維修的商家自2024年開始涉足ai晶片的維修之後,門店每天的維修需求龐大,生意火爆。為了應對日益龐大的維修需求,該商家專門成立了一家新公司,專門處理ai晶片的維修訂單,每個月大約要維修500塊以上的輝達晶片。為了驗證其維修的精準程度,商家的維修中心還配備了一個可以容納256台伺服器的機房,以此來對維修之後的ai晶片進行技術驗證。雖然中國企業已經推出了類似作用的ai級晶片產品,但是受制於性能和產能的劣勢,使用輝達晶片來訓練ai依然是目前的主流選擇。03 市場需求2022年,在輝達最新的H100晶片發佈之前,美國政府就宣佈在一段時間後,對中國企業進行產品的禁售。這不但限制了H100晶片的對華出口,而且還將兩年前發佈的A100晶片一併封鎖。按照美國的政策規定,不允許輝達繼續為中國市場上面的受限產品提供售後服務,這也順勢催生出了中國本土的維修產業鏈。前段時間,美國政府允許輝達的H20晶片對中國進行出口。雖然這塊晶片被美國解除了禁令,但是其算力性能較弱,相當於H100晶片20%的性能,是輝達專供於中國市場的特供晶片。美國瑞傑金融集團(Raymond James)的分析師曾指出,輝達H100晶片的每塊售價在2.5萬美元—3萬美元之間,如果因產能受阻或是出口管制引起搶購熱潮,那麼輝達所有算力晶片的售價將會大幅度提升。據財聯社記者通過多方採訪證實,H20系列的價格增速最為明顯。一台內建8塊H20晶片的訓練叢集,其綜合售價已經達到了110萬元,相較於2024年的售價漲幅至少10萬元。這對於許多中國公司來說,相較於購買H20晶片所獲得的技術效率,還不如去採購本土的ai晶片,或者找技術機構去維護老舊的ai產品。輝達算力卡經銷商對財聯社記者表示,對於中國市場來說,H20晶片是主流,其次是A100和H100。由於A100和H100均被美國進行了出口管制,只有H20被允許出口,所以H20的售價被進一步拉高。華為的昇騰晶片雖然在算力性能上面與H20不相上下,但是受限於產能,昇騰晶片還無法完全吃下H20晶片的市場。在中國國產晶片產能受阻、H20晶片有限供應的情況下,催生出維修老款輝達晶片的技術團隊。這些專注於維修算力晶片的團隊,在一定程度上緩解了中國企業對於高算力晶片的需求。 (逍遙漠)
ASML公司CEO:儘管中國在晶片上取得了技術進步,開始研發自主裝置,但中國晶片還是落後美國15年時間
01 前沿導讀荷蘭ASML公司CEO富凱在接受媒體採訪時表示,儘管中國企業在晶片產業上取得了相當可觀的進步,但是中國企業依然要比台積電、三星、英特爾等行業巨頭落後10-15年的時間。#ASML、#台積電中國企業無法獲得EUV裝置,便通過曾經購買的DUV製造先進晶片。這種方法雖然可以暫時緩解中國對先進晶片的需求,但是其製造效率、產品性能均沒有優勢,甚至還直接面臨著技術瓶頸等顯著的困難問題。02 技術瓶頸根據國際技術機構Techinsights對中國產品的跟蹤拆解顯示,從2023年的mate60系列開始,一直到2025年的鴻蒙摺疊電腦,其採用的晶片均為等效7nm工藝製程的晶片,只是在設計上面有大幅度的最佳化調整,但是並未出現傳聞當中的國產5nm晶片。荷蘭科技作者馬克·海金克在兩年前採訪過ASML的創始人和現任管理層,據馬克在文章作品中表示,ASML有相當大的一部分利潤來源於中國大陸的市場,美國禁止ASML向中國提供先進的EUV光刻機,但是中國依然可以依靠著曾經從ASML採購的DUV裝置製造先進晶片。用浸潤式DUV裝置製造7nm晶片,需要用到多次曝光的技術過程。多次曝光就相當於在一個已經印刷完成的書頁中,將上下兩層文字中間的空行再次印刷上文字,以此來讓整個頁面的文字變多,獲取更多的資訊。這種印刷技術需要保證印刷出來的文字清晰可見,並且不能影響上下兩層文字的內容完整性。所以這種技術對於後端製造裝置的精度要求很高,稍有偏差,整個晶圓的內容會直接報廢。如果想要製造出比7nm工藝更先進的晶片,那麼需要在多次曝光7nm的基礎上再次進行曝光,將文字內容繼續填充到空隙之間,這已經逼近了DUV裝置的物理製造極限,包括台積電在內,目前國際上面沒有廠商敢於嘗試這個風險極大的技術。中國晶片企業現在就卡在了這個階段,沒有EUV裝置,只能用DUV去製造先進晶片。國產的7nm晶片已經實現了量產商用,並且在設計上面持續最佳化推進。而更先進的5nm晶片目前沒有任何消息,那怕是已經完成了5nm晶片的技術流片,距離大規模的量產商用也還有一大段的距離。晶片產業鏈的最終目的是要拿出產品放在市場上面銷售,只有這樣才能將研發投入變成資金進行回流,以便為後續的技術開發提供可持續發展的科研經費。03 產業追趕截止到目前為止,韓國三星和台灣的台積電是全球範圍內僅有的可以製造先進晶片的晶圓廠商。緊接著就是美國本土的英特爾,雖然英特爾在先進晶片上面的發展速度遠不如三星和台積電快,但是其半導體技術的基礎深厚,擁有ASML的EUV裝置,可以製造出具有台積電7nm特性的10nm晶片。使用浸潤式DUV裝置製造先進晶片,台灣的台積電成功了,中國大陸企業成功了。美國的英特爾是行業內第一個用這種技術的企業,但是由於其解決不了良品率的量產問題,最終是倒在了商用階段,技術路線宣告失敗。三星則是沒有嘗試該技術,直接選擇購買EUV裝置來製造先進晶片。如果統一變數,從技術角度來看待現在的國際晶片市場,那麼就變成了中國大陸企業與台灣企業的技術競爭。美國依靠《晶片法案》和關稅政策,將三星、台積電等企業引入美國本土發展晶片,通過政治手段來吸納全球範圍內頂級廠商的製造技術,以此來提升美國在先進晶片製造業的領先地位,這種發展手段符合美國一貫的作風。法國企業家拉敘斯,創辦了金普斯公司,發明了改變人類科技的晶片卡。手機SIM卡晶片、銀行卡晶片、身份證晶片,全是金普斯公司最先發明出來的產品。後來美國部門意識到,如果控制住金普斯公司,那麼就相當於掌控了全球範圍內的人類資訊技術,這很符合美國第一科技強國的角色定位。於是美國便通過本土財團入股金普斯,還將美國人安插到金普斯公司擔任管理層。隨著計畫一步步推進,美國財團完全掌控了金普斯公司,控制住了整個董事會,然後便毫無理由的辭退了創始人拉敘斯,將這個發明晶片卡的法國公司收入美國麾下。後來拉敘斯在其個人書籍《La Puce et le Morpion》中寫道:美國得了一種病,他們一直注重在發明領域保持其霸主地位,堅決不接受其他國家在發明創造上面實現技術突破。如果有人做的比他們好,比他們先進,那麼他們就會毫不猶豫的去打你,直到把你打的跪地求饒才算完。 (逍遙漠)
MIT新突破:低於400°C實現氮化鎵與22nm矽深度融合,性能與能效雙升級
近年來,5G/6G通訊、資料中心及量子應用需求增長,傳統矽工藝在高頻高效上遇瓶頸。氮化鎵(GaN)因寬頻隙、高遷移率備受關注,但高成本和整合難題限制應用。MIT團隊提出新工藝:在GaN晶圓批次製備微型電晶體,精準切割成約240×410微米晶粒,再通過低於400°C的銅-銅鍵合,將晶粒粘接到標準矽CMOS晶片。該方法成本低、相容主流流程,兼具GaN性能與先進矽工藝優勢,可提升頻寬和能效並降低溫度。以功率放大器為示範,晶片面積不足0.5平方毫米,增益和效率超傳統矽方案,有望提升手機通話質量、無線頻寬和續航。同時相容現有製造流程,不僅可最佳化當前電子裝置,也為未來低溫量子異質整合奠定基礎。研究人員開發出了一種全新的晶片製造工藝,能夠以低成本、可擴展的方式,將高性能氮化鎵(GaN)電晶體整合到標準的矽基CMOS晶片上|圖源:研究團隊提供麻省理工學院研究生、該方法論文第一作者Pradyot Yadav表示:“如果我們能夠降低成本、提高可擴展性,同時增強電子器件性能,那麼採用這項技術顯而易見。我們結合了矽技術的優勢與氮化鎵電子學的最佳性能。這些混合晶片可徹底變革眾多商業市場。”Pradyot Yadav 是麻省理工學院電子工程與電腦科學系的博士研究生,研究聚焦於異質整合、三維晶片結構以及射頻與功率電子等前沿方向。作為本研究的第一作者,他主導開發了一種創新工藝,通過低溫銅-銅鍵合方式,將微型氮化鎵電晶體高效整合到矽晶片上,是這一整合平台的核心奠基者。論文合作者包括MIT研究生Jinchen Wang、Patrick Darmawi-Iskandar;MIT博士後John Niroula;高級作者、微系統技術實驗室(MTL)訪問科學家Ulrich L. Rohde;EECS(電氣工程與電腦科學系)副教授、MTL成員Han Ruonan;Clarence J. LeBel電子工程與電腦科學教授、MTL主任Tomás Palacios;以及佐治亞理工學院和美國空軍研究實驗室的合作者。該研究成果最近在IEEE射頻積體電路研討會上進行了展示。Han Ruonan是MIT電氣工程與電腦科學系副教授、微系統技術實驗室(MTL)核心成員,長期專注於高速無線通訊、毫米波/太赫茲積體電路和異質整合系統等領域研究。作為本研究的高級作者之一,他為整體架構設計和理論創新提供了關鍵指導,是推動該技術邁向實際應用的重要學術力量。電晶體替換:整合思路概述氮化鎵是世界上第二大使用最廣泛的半導體,僅次於矽。其獨特特性使其在照明、雷達系統和功率電子等應用中表現優越。氮化鎵材料已有數十年歷史。若要發揮其最大性能,需要將氮化鎵晶片與數字矽晶片(即CMOS晶片)互聯。目前部分整合方法是通過銲接將氮化鎵電晶體粘接到CMOS晶片上,但這限制了氮化鎵電晶體的最小尺寸。而電晶體越小,其可工作的頻率越高。也有方法將整片氮化鎵晶圓疊加到矽晶圓上,但這會消耗大量氮化鎵材料,成本極高,且實際上只需在極少數微小電晶體部分使用氮化鎵,剩餘大部分材料浪費嚴重。Yadav解釋:“我們希望在不犧牲成本或頻寬的前提下,將氮化鎵功能與矽數字晶片性能結合起來。我們的做法是在矽晶片上方直接加入超微小的離散氮化鎵電晶體。”新晶片實現依賴多步驟工藝:首先,在整片氮化鎵晶圓表面製作密集排列的微小電晶體。利用精細雷射技術,將每個電晶體切割至僅包含電晶體自身尺寸,即約240×410微米,形成所謂“晶粒”(dielet)。(1微米等於一百萬分之一米。)每個電晶體表面製備微小銅柱,用於與標準矽CMOS晶片表面的銅柱直接銲接。銅-銅鍵合溫度低於400°C,足以避免損傷兩種材料。金屬成本高且需要更高溫度及更大壓力;此外,金可能污染多數半導體代工廠裝置,需在專用設施中操作。Yadav指出:“我們需要低成本、低溫、低壓力工藝,銅在這些方面均優於金,同時導電性能更好。”專用工具:實現奈米級對準與鍵合為支援該整合流程,團隊開發了一種專用工具,可在奈米級精度下,將極微小的氮化鎵晶粒與矽晶片精確對準並鍵合。該工具通過真空吸持晶粒,在矽晶片表面移動、定位,並借助先進顯微技術監控銅柱介面。當晶粒精確就位後,施加熱和壓力,使氮化鎵電晶體牢固粘接到矽晶片上。Yadav回憶:“在每一步,我都需要找到相應技術的合作者,向他們學習,然後將技術整合到我的平台中。花了兩年時間不斷學習和打磨。”示範:高性能功率放大器完善工藝後,研究團隊利用該方法製作了功率放大器——一種提高無線訊號強度的射頻電路。實驗裝置在頻寬和增益上均超越傳統矽電晶體器件。每個緊湊晶片面積不足0.5平方毫米。此外,所用矽晶片基於Intel 16工藝節點、22奈米FinFET技術,具有先進的金屬互連和被動元件選項,能夠整合諸如中和電容等常見矽電路元件。這顯著提高了放大器增益,更接近下一代無線技術的需求。IBM研究科學家Atom Watanabe(未參與本研究)評論:“為應對摩爾定律在電晶體縮放上的放緩,異質整合已成為實現系統持續擴展、縮小體積、提升功效並最佳化成本的有前景方案。尤其在無線技術領域,將化合物半導體與矽基晶圓緊密整合,對於建構從天線到人工智慧平台的前端積體電路、基帶處理器、加速器和儲存器的統一系統至關重要。這項工作通過展示多片氮化鎵晶片與矽CMOS的三維整合,在當前技術能力之上邁出重要一步。”前景與支援該研究部分由美國國防部通過國防科學與工程研究生獎學金計畫(NDSEG Fellowship Program)及JUMP 2.0項目下的CHIMES中心資助,後者隸屬半導體研究公司(SRC)與國防部及國防高級研究計畫局(DARPA)合作。製造工作在MIT.Nano、美國空軍研究實驗室和佐治亞理工學院設施中完成。由於該整合工藝相容現有流程,不僅可提升當前電子產品性能,還可為未來新興技術奠定基礎。例如,在許多量子計算方案所需的低溫環境下,氮化鎵優於矽,若能通過此方法將氮化鎵器件與數字處理單元結合,或將加速量子應用的發展。這項技術將氮化鎵和矽兩大半導體各自優勢巧妙結合,既克服了GaN高成本與專用工藝限制,又利用成熟CMOS平台,實現性能與規模的平衡。隨著標準化流程的落地推廣,未來我們有望在手機、基站、資料中心甚至量子計算系統中見到更高速、更節能、更緊湊的器件設計。 (MITCEO)
美擬取消晶片技術豁免,反制中國稀土優勢
業內人士表示,美方加強限制措施不會立即迫使相關晶片工廠關閉,但隨著時間的推移,它們可能會發現有效營運變得更加困難美國官員正計畫撤銷在中國營運的晶片製造商的技術豁免權。這一潛在的政策變化是川普政府限制關鍵美國技術流向中國的部分措施。如果實施,這一舉措可能在外交和經濟上造成重大干擾,因為此前不久中美剛在倫敦確立了中美貿易休戰。據媒體報導,美國商務部出口管制部門負責人傑弗裡·凱斯勒(Jeffrey Kessler)已通知包括台積電、三星電子和SK海力士在內的主要半導體製造商,他打算取消目前允許這些公司向其在中國的工廠運送美國晶片製造裝置而無需每次申請單獨許可證的全面豁免權。目前,這三家公司享受全面豁免,允許它們將美國晶片製造裝置運送到其在中國的工廠,而無需每次都單獨申請許可證。川普政府努力限制關鍵的美國技術流向中國。攝/金焱中國商務部日前再次談到稀土出口,稱將依法依規不斷加快對稀土相關出口許可申請的審查,並提到已經批准一定數量的合規申請。白宮官員表示,這一行動並不代表新的貿易升級,而是將晶片裝置的許可證制度與中國現有的稀土材料許可制度類似。他們表示,美中在完成倫敦協議和貿易談判方面繼續取得進展。中國海關資料顯示,2024年中國半導體進口額達到4,120億美元,同比增長10%。美國商務部的一位發言人說:“晶片製造商仍可在中國營運。新的晶片執行機制與適用於其他向中國出口的半導體公司的許可要求相同,並確保美國享有一個平等和對等的程序”。業內人士表示,美方加強限制措施不會立即迫使這些工廠關閉,但隨著時間的推移,它們可能會發現有效營運變得更加困難。這將擾亂全球產業,各企業已經忙於應對中美貿易戰引發的其他問題。企業忙於應對川普關稅政策帶來的不確定性。攝/金焱晶片製造商可能會尋求美國政府逐案頒發的許可證,以便向其中國工廠供貨,同時尋求用日本和歐洲的替代裝置取代美國裝置。參與討論的人士指出,撤銷豁免尚未成定局。半導體裝置類股對中美貿易政策的變化特別敏感,因為許多公司依賴中國市場獲取其收入的重要部分。台積電日前公佈的2024年股東會年報顯示,其在不同地區工廠經營狀況的顯著差異。媒體報導稱,台積電在美國亞利桑那州的新廠去年虧損約32億元人民幣,中國大陸的南京廠則在去年盈利約58億元人民幣,兩者差距幅度相當巨大。半導體製造裝置大廠泛林集團(Lam Research)2025財年第三財季財報顯示,泛林集團該季度營收達47.2 億美元,高於分析師預估的 46.5 億美元。 其中,泛林集團的系統營收(包括在薄膜沉積、蝕刻、清洗及其他晶圓製造市場銷售的新一代先進裝置)為30.4 億美元。華爾街分析師認為,泛林集團第三財季營收表現優於預期,主要來自對台灣出貨增強,而中國大陸出貨也持續強勁。從營收佔比來看,中國大陸佔比31%,台灣佔比24%,韓國佔比24%,日本佔比10%,美國佔比4%,東南亞佔比4%,歐洲佔比3%。三星的中國工廠對三星的全球供應鏈至關重要。2024年,三星憑藉儲存晶片價格的回升,其半導體業務營收攀升至665億美元,收入同比增長62.5%,市場份額佔比達10.6%,成功超越老對手英特爾,重新奪回全球半導體營收的頭把交椅。在三星的戰略佈局和市場策略調整中,中國市場的業務版圖至關重要。三星在中國西安的NAND Flash工廠,作為其在海外最大的儲存晶片生產基地,佔據了三星整體NAND產量的30%至40%,是全球單個產能最高的NAND快閃記憶體工廠。2024年,該工廠銷售額同比增長28.5%,達到11兆韓元,營業利潤達1.2兆韓元,成為三星營收增長的重要引擎。有消息稱,相關企業已經通報各自政府希望官員出面協助遊說反對美國政策。 (財經雜誌)
三維晶片堆疊, 革新下一代運算架構
透過採用由直接放置在動態隨機存取記憶體堆疊上方的處理單元組成的三維堆疊運算架構,開發了一種用於3D 整合晶片的新型電源技術。為了實現這一目標,研究人員開發了精密高速鍵合技術和黏合劑技術等關鍵技術。這些新技術有助於滿足高效能運算應用的需求,這些應用既需要高記憶體頻寬,又需要低功耗和低電源雜訊。從電視等簡單的家用電器到筆記型電腦和智慧手錶,電子設備改變了我們的日常生活。半導體製造技術和晶片封裝製程的進步是這些電子設備爆炸性成長的關鍵。然而,在當今人工智慧(AI) 和高效能運算時代,對更快、更有效率處理器的需求仍未被滿足。傳統的系統級封裝(SiP) 方法利用焊料凸塊將半導體晶片排列在二維平面(2D) 上,但其尺寸受限,亟需開發新型晶片整合技術。為此,日本東京科學研究所(Science Tokyo) 的一支研究團隊構思了一種名為BBCube 的創新2.5D/3D 晶片整合方法。此外,為了推動BBCube 的實際應用,他們還開發了三項關鍵技術。他們的研究成果和結果最近在2025 年5 月27 日至5 月30 日舉行的2025 IEEE 第75 屆電子元件和技術會議(ECTC)上進行了展示。 (有興趣的朋友可以點選連結查閱:https://ectc.net/program/75-ECTCFinal-Web.pdf)該研究團隊由日本東京科學研究所(Science Tokyo)綜合研究中心WOW聯盟異構與功能整合部門的特聘教授Norio Chujo、Takayuki Ohba和其他科學家組成,最初開發了一種面朝下的晶圓上晶片(COW)工藝,以規避使用焊料互連的侷限性。他們利用噴墨技術和選擇性黏合劑塗覆方法,成功地將不同尺寸的晶片順序鍵合到300 毫米華夫晶圓上,晶片間距僅10 μm,最短貼裝時間不到10 毫秒。在解釋精確的COW 製程時,Chujo 評論道:“超過30,000 個不同尺寸的晶片被製造到華夫晶圓上,實現了更快的鍵合速度,並且沒有發生任何晶片脫落故障。”為了實現這種精確高速的COW工藝,研究人員將注意力轉向解決可能影響超薄晶圓多層堆疊的熱穩定性問題。透過精心設計化學特性,他們開發了一種可用於COW和晶圓對晶圓製程的新型黏合劑材料DPAS300。這種新型黏合劑由有機-無機混合結構組成,在實驗研究中表現出了良好的黏合性和耐熱性。最後,為了實現高記憶體頻寬並提升BBCube 的電源完整性,科學家採用了3D xPU-on-DRAM 架構,並透過新的電源分配高速公路進行強化。這包括在xPU 和DRAM 之間嵌入電容器、在華夫晶圓上實現重新分佈層,以及在晶圓通道和DRAM 劃線中放置矽通孔。Chujo 強調3D 堆疊運算架構的優勢,他表示:“這些創新將資料傳輸所需的能量降低到傳統系統的五分之一到二十分之一,同時也將電源雜訊抑製到50 mV 以下。”總的來說,東京科學大學的研究人員開發的晶片整合技術有可能改變下一代運算架構。 (半導體產業觀察)