2025年8月27日,寒武紀(Cambricon)成功躋身國內AI晶片產業的頂尖行列,為持續火熱的全球AI競賽再添一把火。面對NVIDIA等國際巨頭成熟的技術生態,這家成立不過10年的公司,其核心競爭力源於何處?背後又沉澱了怎樣的技術思考?要回答這些問題,須將時間的指針撥回十餘年前,回到中科院計算所那間略顯寂靜的實驗室。在那裡,沒有紛繁的市場喧囂,只有伺服器持續的蜂鳴;沒有商業模式的探討,只有一行行旨在探索計算本源的程式碼與公式。從一對天才兄弟開始,從一篇篇發表在國際頂刊頂會的論文開始,一場關於計算架構的創新早已悄然醞釀。不同於依賴商業模式創新的公司,寒武紀的崛起是一條典型的“硬核”路線,其每一步成長,幾乎都能在其公開發表的學術論文中找到清晰的印記。這些論文不僅是其技術實力的硬核證明,也共同繪製出了一幅清晰的“技術路線圖”,讓我們得以洞悉其每一步的戰略抉擇與未來的方向所在。本文精選了從2014年至2025年間的十篇論文,從最初的“DianNao”架構到“Cambricon”系列的前沿AI晶片探索,為您清晰地呈現寒武紀的技術進化脈絡。1 奠基時代 “DianNao”系列的一鳴驚人寒武紀的誕生,源於一對學術兄弟的“十年磨一劍”。陳雲霽與陳天石的傳奇,始於年少時的共同選擇——雙雙考入中國科學技術大學“少年班”,並在那裡展現出超凡的學術天賦。這對天才兄弟的軌跡高度重合,他們先後進入中國電腦科學的搖籃——中科院計算所,師從“龍芯”總設計師胡偉武教授攻讀博士,並在國家核心的CPU研發項目中得到了最硬核的處理器設計訓練。這段深厚的學術履歷,成為他們日後顛覆性創新的基石。他們提出的“DianNao”系列是全球最早、最系統化的深度學習處理器架構研究之一,為後續的商業化打下了堅實的基礎。在深度學習浪潮之初,敏銳地預見到通用CPU/GPU在執行神經網路時的效率瓶頸,開創性地提出了一系列專門針對神經網路的硬體加速器架構,通過軟硬體協同設計,實現了數量級的性能和能效提升。NO.1DianNao: a small-footprint high-throughput accelerator for ubiquitous machine-learning神經網路的硬體全實現加速器作者:T Chen, Z Du, N Sun, J Wang, C Wu, Y Chen, O Temam發表日期:2014原文連結:https://courses.e-ce.uth.gr/CE432/voh0hmata/bibliographic%20project/papers1/asplos2014%20-%20Chen%20et%20al%20-%20DianNao%20-%20A%20Small-Footprint%20High-Throughput%20Accelerator%20for%20Ubiquitous%20Machine-Learning.pdf摘要:在本研究中,我們設計了一種針對大規模CNN和DNN的加速器,特別強調了記憶體對加速器設計、性能和能耗的影響。我們展示了設計一種高吞吐量加速器的可能性,該加速器能夠在3.02平方毫米的小尺寸和485毫瓦的功耗下執行452 GOP/s(關鍵神經網路操作,如突觸權重乘法和神經元輸出加法);與128位2GHz SIMD處理器相比,該加速器速度快117.87倍,並且可以將總能耗降低21.08倍。加速器的特性是在65奈米佈局後獲得的。如此高吞吐量的小尺寸可以推動最先進機器學習演算法在廣泛系統和應用中的使用。研究意義:“DianNao”的開山之作;這篇文章首次提出了一個簡潔高效的神經網路加速器架構,包含了核心的運算單元(NPU)、緩衝區和資料通路,其意義在於驗證了專用硬體加速器這條技術路線的可行性,是思想的火種。NO.2DaDianNao: A Machine-Learning SupercomputerDianNao加速器框圖節點佈局快照作者:Y Chen, T Luo, S Liu, S Zhang, L He, J Wang, L Li, T Chen, Z Xu, N Sun, O Temam發表日期:2014原文連結:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=7011421&tag=1摘要:在本文中,我們介紹了一種基於這些思路的定製多晶片機器學習架構。我們展示了在已知最大的神經網路層子集上,與GPU相比,可以實現450.65倍的加速,並且在64晶片系統中平均能耗降低150.31倍。我們將節點實現到28奈米的佈局和布線,包含定製儲存和計算單元的組合,並採用工業級互連。研究意義:DianNao的性能強化版。如果說DianNao是探索,DaDianNao就是追求極致性能的嘗試。它面向資料中心,採用了多晶片、eDRAM等設計,展示了AI計算對高性能、高頻寬的極致需求,是寒武紀後續雲端晶片思想的雛形。NO.3PuDianNao: A Polyvalent Machine Learning AcceleratorPuDianNao加速器架構PuDianNao的佈局,CM、FU、HB、CB和OB分別代表控制模組、功能單元、熱緩衝區、冷緩衝區和輸出緩衝區作者:Dao-Fu Liu, Tianshi Chen, Shaoli Liu, Jinhong Zhou, Shengyuan Zhou, O. Temam, Xiaobing Feng, Xuehai Zhou, Yunji Chen發表日期:2015原文連結:https://dl.acm.org/doi/pdf/10.1145/2694344.2694358摘要:機器學習(ML)技術在各種新興商業應用中無處不在,但必須依賴強大的電腦系統來處理海量資料。儘管通用CPU和GPU提供了直接的解決方案,但由於它們對靈活性的過度支援,其能效受到限制。硬體加速器可能實現更好的能效,但每個加速器通常只支援單一的機器學習技術(或技術家族)。然而,根據機器學習領域著名的“無免費午餐”定理,一種機器學習技術在一個資料集上表現良好,可能在另一個資料集上表現不佳,這意味著這種加速器有時可能導致學習精度低下。即使不考慮學習精度,這種加速器也可能因為具體的機器學習任務發生變化,或者使用者選擇了另一種機器學習技術而變得不適用。在本研究中,我們提出了一種名為Pu-DianNao的機器學習加速器,它支援七種代表性的機器學習技術,包括k-means、k近鄰、樸素貝葉斯、支援向量機、線性回歸、分類樹和深度神經網路。得益於我們對不同機器學習技術的計算原語和局部性特性的深入分析,PuDianNao在3.51平方毫米的面積內可以執行高達1056 GOP/s(例如加法和乘法)的運算,並且僅消耗596毫瓦的功率。與NVIDIA K20M GPU(28奈米工藝)相比,PuDianNao(65奈米工藝)速度快1.20倍,並且能效提高了128.41倍。研究意義:PuDianNao不再侷限於神經網路,而是支援了K-Means、SVM等七種主流機器學習演算法。這體現了團隊對通用性和可程式設計性的早期思考,即AI晶片不能是“一次性”的硬體,必須適應演算法的快速迭代。NO.4ShiDianNao: shifting vision processing closer to the sensor加速器可能被整合到商用圖像處理晶片中加速器架構作者:Zidong Du, Robert Fasthuber, Tianshi Chen, Paolo Ienne, Ling Li, Tao Luo, Xiaobing Feng, Yunji Chen, Olivier TemamAuthors Info & Claims發表日期:2015原文連結:https://dl.acm.org/doi/pdf/10.1145/2749469.2750389摘要:近年來,神經網路加速器在識別和挖掘應用這一重要類別中,已展現出在廣泛應用場景下同時實現高能效和高性能的能力。然而,這類加速器的能效和性能仍受限於記憶體訪問。本文聚焦於圖像應用,這無疑是識別和挖掘應用中最為重要的一類。針對這些應用,最先進的神經網路是摺積神經網路(CNN),它們具備一個顯著特性:權重在眾多神經元間共享,大幅減少了神經網路的記憶體佔用。這一特性使得CNN能夠完全對應至SRAM中,從而消除所有針對權重的DRAM訪問。進一步將加速器置於圖像感測器旁,還能徹底消除所有剩餘的DRAM訪問,即針對輸入和輸出的訪問。本文提出了一種此類CNN加速器,緊鄰CMOS或CCD感測器佈置。通過消除DRAM訪問,並精心利用CNN內部的特定資料訪問模式,我們設計出一款能效比現有最先進神經網路加速器高出60倍的加速器。我們展示了從設計到65奈米佈局的完整方案,其面積僅為4.86平方毫米,功耗僅320毫瓦,但速度仍比高端GPU快約30倍。研究意義:ShiDianNao專為視覺應用(CNN)設計。這篇文章最大的亮點是將計算單元儘可能地靠近感測器),大幅減少資料搬運帶來的功耗。這是端側、邊緣AI晶片設計的核心思想,為寒武紀後來的終端IP業務埋下伏筆。2 商業化序章 從指令集到IP核的進化寒武紀公司正式成立,團隊開始將學術成果轉化為商業產品;並且意識到:要讓AI處理器真正可用,光有硬體架構是不夠的,必須為購買產品的開發者提供一套穩定、高效的“語言”——指令集。通過定義一套專用的指令集,寒武紀成功地將上層應用與底層硬體解耦,實現了從學術研究到商業IP授權的關鍵一躍。這個階段最核心的標誌是提出了第一個專門針對深度學習的指令集“Cambricon ISA”,這是建構其技術護城河的開始。NO.5Cambricon: An Instruction Set Architecture for Neural NetworksCambricon指令概述基於Cambricon的原型加速器作者:S Liu, Z Du, J Tao, D Han, T Luo, Y Xie, Y Chen, T Chen發表日期:2016原文連結:https://dl.acm.org/doi/pdf/10.1145/3007787.3001179摘要:在本文中,我們提出了一種新穎的領域特定指令集架構(Instruction Set Architecture, ISA)用於神經網路加速器,稱為Cambricon。Cambricon是一種基於暫存器-儲存器架構,綜合了標量、向量、矩陣、邏輯、資料傳輸和控制指令,基於對現有神經網路技術的全面分析。我們對十種具有代表性的不同神經網路技術的評估表明,Cambricon在廣泛的神經網路技術中表現出強大的描述能力,並且比×86、MIPS和GPGPU等通用指令集提供了更高的程式碼密度。與最新的神經網路加速器設計DaDianNao (僅能支援3種神經網路技術)相比,我們基於Cambricon的加速器原型在台積電65奈米工藝下實現,僅帶來了微不足道的延遲/功耗/面積開銷,並且能夠靈活覆蓋10種不同的神經網路基準測試。研究意義:寒武紀的“立司之本”。這篇文章首次完整提出了一套面向神經網路的指令集架構;它的意義堪比ARM指令集之於移動裝置。讓開發者就可以像為CPU程式設計一樣為AI晶片程式設計,極大地推動了AI晶片的生態建設。NO.6Cambricon-X: An Accelerator for Sparse Neural Networks(a)具有步進索引的稀疏網路示例(b)硬體步進索引的實現加速器程式設計過程作者:S Zhang, Z Du, L Zhang, H Lan, S Liu, L Li, Q Guo, T Chen, Y Chen發表日期:2016原文連結:https://dl.acm.org/doi/pdf/10.1145/356810.356816摘要:神經網路已被證明在圖像識別、自動翻譯和廣告推薦等廣泛的應用中非常有用。由於不斷增長的深度結構,即多層包含大量神經元和連接(即突觸),最先進的神經網路在計算和記憶體需求上都非常密集。稀疏神經網路作為一種有效的解決方案,能夠減少所需的計算量和記憶體。儘管現有的神經網路加速器能夠高效處理密集和規則的網路,但它們無法從突觸權重的減少中獲益。在本文中,我們提出了一種新型加速器Cambricon-X,旨在利用神經網路模型的稀疏性和不規則性來提高效率。該加速器採用基於處理單元(PE)的架構,由多個處理單元組成。索引模組能夠高效地選擇並將所需的神經元傳輸到連接的PE,從而減少頻寬需求,而每個PE以非同步方式儲存不規則和壓縮的突觸進行本地計算。我們的加速器在16個PE的情況下,能夠在小型封裝(6.38平方毫米,65奈米工藝下功耗為954毫瓦)中實現最高544 GOP/s的性能。通過對多個代表性稀疏網路的實驗結果表明,我們的加速器平均比最先進的神經網路加速器實現了7.23倍的加速和6.43倍的節能。研究意義:關注演算法與硬體的協同最佳化。這篇文章針對神經網路中的“稀疏性”進行硬體加速,能夠跳過無效計算,大幅提升效率。這表明寒武紀已經進入精細化、場景化最佳化的深水,思考如何充分發揮硬體的每一分性能。3 轉型生態建構 軟硬體一體化的產品矩陣2017年,寒武紀公司正式成立後的第一年,迎來關鍵商業突破;其處理器Cambricon-1A被整合於華為麒麟970晶片中,成為全球首款搭載獨立AI單元的手機SoC,這次合作不僅讓寒武紀一舉成名,也直接開啟了手機端側AI的浪潮。然而,隨著2019年華為出於自研戰略考量、推出了自家的“達文西架構”NPU後,寒武紀失去了當時最重要的客戶之一。這次“分手”卻也成為了其徹底轉型的催化劑;自此之後,公司傾盡全力加速自有品牌“思元”(MLU)雲端晶片的迭代和推廣,以更低的功耗和更高的性能從NVIDIA手中拿下一部分市場。並大力投入NeuWare全端軟體平台的建設,相容支援TensorFlow、PyTorch等主流框架,以此吸引更廣泛的客戶群體,建構一個獨立的、能與NVIDIA CUDA競爭的開發者生態。NO.7Cambricon-F: machine learning computers with fractal von Neumann architecture典型的分形馮·諾依曼架構:第0級(頂層節點)...第i級節點及其在第i+1級的子節點...第N級(葉節點)Cambricon-F節點中的流水線劃分作者:Yongwei Zhao, Zidong Du, Qi Guo, Shaoli Liu, Ling Li, Zhiwei Xu, Tianshi Chen, Yunji Chen發表日期:2019原文連結:https://dl.acm.org/doi/pdf/10.1145/3307650.3322226摘要:機器學習技術已成為新興商業應用中無處不在的工具,許多不同規模的專用機器學習電腦已被部署在嵌入式裝置、伺服器和資料中心中。目前,大多數機器學習電腦架構仍然側重於最佳化性能和能效,而非程式設計生產力。然而,隨著矽技術的快速發展,程式設計生產力(包括程式設計本身和軟體棧開發)已成為阻礙機器學習電腦應用的關鍵因素,而非性能和能效。在本文中,我們提出了Cambricon-F,這是一系列具有相同指令集架構(ISA)的同構、順序、多層、層相似的機器學習電腦。Cambricon-F機器採用分形馮·諾依曼架構,以迭代管理其元件:它具有馮·諾依曼架構,其處理元件(子節點)仍然是具有馮·諾依曼架構和相同ISA的Cambricon-F機器。由於不同規模的Cambricon-F實例可以在其共同的ISA上共享相同軟體棧,因此Cambricon-F可以顯著提高程式設計生產力。此外,我們解決了Cambricon-F架構設計中的四大挑戰,使Cambricon-F能夠實現高效率。我們實現了兩個不同規模的Cambricon-F實例,即Cambricon-F100和Cambricon-F1。與基於GPU的機器(DGX-1和1080Ti)相比,Cambricon-F實例在性能上分別提升了2.82倍和5.14倍,效率平均提升了8.37倍和11.39倍,面積成本分別減少了74.5%和93.8%。研究意義:提出了一種全新的、專為AI計算設計的“分形馮諾依曼架構”。Cambricon-F的設計就像一個俄羅斯套娃:它將一小塊計算單元和一小塊本地儲存緊密耦合,組成一個基本的“神經元處理單元”(NPU)。然後,多個這樣的小單元又可以組成一個更大的計算簇,這個簇又有自己稍大一些的共享儲存。NO.8Cambricon-Q: A Hybrid Architecture for Efficient TrainingCambricon-Q架構概述Camricon-Q上處理量化的前向和後向傳遞作者:Y Zhao, C Liu, Z Du, Q Guo, X Hu, Y Zhuang, Z Zhang, X Song, W Li發表日期:2021原文連結:https://dl.acm.org/doi/pdf/10.1145/3307650.3322226摘要:深度神經網路(DNN)訓練以其耗時著稱,而量化技術有望通過減少頻寬/儲存需求和計算成本來提升訓練效率。然而,當前最先進的量化演算法雖能在幾乎不損失訓練精度的情況下運行,但它們需要基於大量資料(如神經元和權重)進行即時統計量化以及高精度權重更新,這些要求使得它們難以在現有的DNN加速器上有效部署。為解決這一問題,我們提出了首個針對高效量化訓練且幾乎不損失精度的定製架構,命名為Cambricon-Q。Cambricon-Q採用混合架構,由ASIC加速核和近資料處理(NDP)引擎組成。加速核主要致力於通過專門的計算單元提升基於統計的量化效率,這些單元負責統計分析(如確定最大值)和資料重組,而NDP引擎則避免了將高精度權重從片外記憶體傳輸至加速核。實驗結果顯示,在評估的基準測試中,與GPU和TPU相比,Cambricon-Q在DNN訓練的能效上分別提升了6.41倍和1.62倍,性能上分別提升了4.20倍和1.70倍,且與全精度訓練相比,精度僅下降了不超過0.4%。研究意義:Cambricon-Q的研究意義,是為先進AI演算法和底層硬體之間架起了一座橋樑。它通過一套精心設計的“ASIC+近資料處理”混合架構,為當時“聽起來很美但跑不起來”的高精度量化訓練演算法掃清了硬體障礙;是“軟硬體協同設計”思想的一次完美實踐。NO.9Cambricon-C: Efficient 4-Bit Matrix Unit via PrimitivizationCambricon-C ACC的總體架構六種不同的PE設計,分別稱為MAC、8256、R225、832、R29和B15。為了簡化,讀出電路和脈動暫存器被省略作者:Yi Chen ; Yongwei Zhao; Yifan Hao; Yuanbo Wen; Yuntao Dai; Xiaqing Li發表日期:2024原文連結:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10764444&tag=1摘要:深度學習趨勢傾向於使用低精度數值格式來應對日益增長的模型規模。例如,大型語言模型LLaMA2已廣泛部署在4位精度下。隨著模型規模的增大和低精度導致的唯一值減少,矩陣乘法中重複運算的比例不斷增加。儘管先前的研究已討論過這種值冗餘,但尚未得到充分利用,且利用值冗餘的成本往往抵消了任何優勢。本文提出將矩陣乘法原始化,即將其分解為1元後繼函數(即計數)以合併重複運算。我們重新審視了各種技術,提出了Cambricon-C SA,一種4位原始矩陣乘法單元,其能效比傳統脈動陣列提高一倍。實驗結果表明,與基於MAC的脈動陣列相比,Cambricon-C SA可實現1.95倍的能效提升。研究意義:在AI算力需求爆炸式增長的今天,功耗和能效已經成為制約資料中心發展的生命線。Cambricon-C的研究意義在於,它為超低精度LLM時代提出了一種顛覆性的、從“乘法”降維到“計數”的全新計算範式,並用接近翻倍的能效提升證明了其巨大價值。NO.10Cambricon-SR: An Accelerator for Neural Scene Representation with Sparse Encoding TableCambricon-SR的整體架構稀疏表(ST)在稀疏表陣列(STA)節點中的訪問(左)和更新(右)示例作者:T Liu, X Song, Z Yue, R Wen, X Hu, Z Song, Y Wen, Y Hao, W Li, Z Du, R Zhang發表日期:2025原文連結:https://dl.acm.org/doi/pdf/10.1145/3695053.3731018摘要:神經場景表徵 (NSR) 是一種極具潛力的真實場景表徵技術。通過學習數十張從不同視角拍攝的二維照片,NSR 可以計算真實場景的三維表徵。然而,NSR 在 GPU 上運行的性能不足以滿足實際應用的需求。Cambricon-R 實現了每秒處理超過 60 個場景的高性能,但卻以犧牲建模質量為代價。 本文提出了 Cambricon-SR,一種演算法與硬體協同設計的加速器,用於提高 NSR 的性能和質量。首先,我們提出了一種帶有稀疏編碼表的新型 NSR 演算法,該演算法在幾乎不影響精度的情況下,實現了編碼表 80% 以上的稀疏度。其次,為了有效消除對修剪條目的無效記憶體訪問請求,我們提出了基於順序 SRAM 訪問的稀疏索引單元,以解決對稀疏結構點陣圖的不規則記憶體訪問的挑戰。它使編碼階段的吞吐量提高了 7.54 倍,但額外增加了 8.59% 的面積開銷。第三,我們為 MLP 單元提出了動態共享緩衝區,將緩衝區使用率降低了 85.3%,從而可以增加 MLP 單元的數量。 針對8個典型場景進行實驗評估,結果表明,與A100 GPU和Cambricon-R相比,Cambricon-SR在NSR每次訓練迭代中分別實現了1259倍和4.12倍的加速比,並降低了1139倍和2.98倍的能耗。研究意義:從早期的《Cambricon-X》開始,寒武紀就展現了在處理稀疏神經網路上的能力。《Cambricon-SR》則表明,這種能力不是一次性的,而是已經內化為公司的核心技術基因,可以根據不同的應用場景(從傳統的CNN到新興的NSR),進行演進和適配,並持續產生顛覆性的效果。這種“先改造演算法,再改造硬體”的深度協同,最終才換來了千倍等級的性能提升。這證明了最強大的AI晶片,並非單純堆砌算力,而是來自於對應用演算法的深刻理解和徹底的、全端式的最佳化。當“寒武紀大爆發”的讚譽言猶在耳,之後的道路卻並非坦途,擺在寒武紀面前的挑戰現實而嚴峻。放眼全球,寒武紀需要直面NVIDIA憑藉頂級製程工藝與CUDA生態構築的鐵壁,並回答一個根本性的問題:是甘於做亦步亦趨的“平替”,還是勇於另闢蹊徑、換道超車? 國內,面對華為昇騰全端式解決方案的主導地位,能否迎頭趕上?儘管如此,挑戰與機遇永遠並存。國內AI化處理程序對自主AI算力空前高漲的需求,以及開源大語言模型的時代浪潮,為所有晶片公司都提供了堅實的基本盤和寶貴的發展窗口。未來,寒武紀能否將這份以學術起家的底蘊,真正轉化為一個開發者云集、枝繁葉茂的商業生態,並在這場人工智慧長跑中不斷超越前者,將是時代賦予它的考驗。十年很長,長到足以讓十篇論文進化成一家AI晶片的行業巨頭;十年也很短,對於一家立志建構完整生態、挑戰科技巨頭的企業來說,一切才剛剛開始。 (半導體行業觀察)