當GPU以其強大的平行運算能力,登上AI算力王座時,AI晶片領域的競爭在日趨激烈。其中,神經網路處理器(NPU)作為一股重要的力量,也正在悄悄崛起。
就像GPU從最初的圖像渲染和通用並行計算,逐步引入越來越多的神經網路功能(例如Tensor Cores、Transformer等),NPU 也在“雙向奔赴”,在神經網路的基礎上,融入越來越強大的通用計算功能。
由於NPU針對神經網路運算進行了專門的最佳化,在處理複雜神經網路演算法時有更高的效率和更低的能耗,特別是在端側和邊緣側,能夠為AI應用提供強大的支撐。從近期的種種市場動態來看,NPU可望開啟大規模商用時代。
國產NPU IP持續上量
近年來,國產NPU最顯著的應用就是手機,例如華為的麒麟9000處理器,透過對ISP和NPU進行融合,大大提升了數據的緩衝和處理效率;OPPO曾經的自研NPU馬裡亞納X,在拍照、拍影片等大數據流場景下實現了更好的運算效率,助OPPO拉開了在高階智慧型手機領域的體驗差距。
隨著AI需求逐漸從雲端傳導到邊緣和端側,端、邊市場的AI算力需求在逐漸爆發,推動新一輪本地AI算力的升級潮,而NPU有望成為本地AI任務的算力主力。
芯原近日宣布,整合其NPU IP的AI晶片在全球出貨超過1億顆,已被72家客戶用於128款AI晶片中,用於物聯網、穿戴式裝置、智慧家居、安防監控、汽車電子等10個市場領域。
芯原的NPU基於GPU架構體系進行最佳化,利用其可編程、可擴展及平行處理能力,為各類主流AI演算法提供硬體加速的微處理器技術。最新一代NPU架構包括GPGPU處理模組PPU與AI處理模組Tensore Core,GPGPU支援大規模通用運算與類ChatGPT應用,Tensor Core在處理器架構、AI軟體框架及工具、功耗與效能等方面進行創新,在卷積神經網路、高算力低功耗等技術上實現了突破。透過NPU IP架構和GPU的融合,可以支援圖形渲染、通用運算以及AI處理。
晶片IP設計與服務供應商安謀科技,在成立之初即開始自研首款「週易」NPU,目前該產品線已迭代了Z系列和X系列的多款產品,滿足各種端側硬體設備的不同AI運算需求,應用於中高階安防、智慧家庭、行動裝置、物聯網、智慧座艙、ADAS、邊緣伺服器等市場。
最新的「週易」NPU採用第三代「週易」架構,在算力、精度、靈活性等方面進行了大幅提升,支援多核心Cluster,最高可達320TOPS子系統,並透過TSM任務調度充分發揮計算單元效能以及採用i-Tiling技術大幅減少頻寬,支援大模型的基礎架構Transformer。
據了解,在下一代「週易」NPU的設計上,安謀科技將從精度、頻寬、調度管理、算子支援等多個面向對主流大模型架構進行迭代優化,為端側AI落地提供關鍵性的算力支撐。商業化落地方面,目前「週易」NPU已和全志科技、芯擎科技、芯馳科技等多家本土晶片廠商實現了合作。
巨頭紛紛入場,生態快速成長的訊號
隨著生成式AI的應用場景不斷擴大,NPU能夠滿足基於Transformer架構的大模型需求,並有望在這一趨勢下滲透到更多深層場景,進一步拓展產業生態,特別是在巨頭的推動下,有望迎來高速成長。
高通最近就提出,透過NPU和異構計算將開啟終端側生成式AI時代。其Hexagon NPU面向低功耗、高效能的AI推理而設計,透過客製化設計NPU和控制指令集架構(ISA),能夠快速進行設計演進和擴展。
根據官方資料,高通的DSP控制和標量架構奠定了NPU的基礎。多年來,透過融入標量、向量和張量加速器以及分組卷積等改進,不斷進行了提升。迭代到目前第三代驍龍8中的Hexagon NPU是專門針對終端側生成式AI大模型推理的最新設計,包括了跨整個NPU的微架構升級、微切片推理升級等,為持續的AI推理實現了98%的性能提升和40%的能源效率提升。
從架構路線來看,高通認為由DSP架構入手打造NPU是正確選擇,因為可以改善可程式性,並且能夠緊密控制用於AI處理的標量、向量和張量運算。
而除了高通,兩大處理器巨頭英特爾和AMD也在積極擁抱NPU。
去年12月8日,AMD發表了銳龍8040系列處理器,最核心的變化之一就是新增了AI運算單元。根據AMD的說法,由於NPU的加入,銳龍8040系列處理器的AI算力從10TOPS提升到了16TOPS,性能提升幅度達到了60%。這讓銳龍8040系列處理器在LLM等模型效能更加突出,例如Llama 2大語言模型效能提升40%,視覺模型提升40%。
一週之後,英特爾新一代酷睿Ultra行動處理器正式發布,這是其40年來第一個內建NPU的處理器,用於在PC上帶來高能效的AI加速和本地推理體驗,這也是英特爾客戶端處理器路線圖的轉折點。英特爾將NPU與CPU、GPU共同視為AI PC的三個底層算力引擎。
據其介紹,2024年,將有230多款機種搭載酷睿Ultra。
儘管巨頭在NPU的打造路線上各有千秋,但是都無一例外地看準了一個機會——端側AI,而擁有專門的NPU成為端側AI的一大特點,NPU正在成為本地運行AI任務的主力。
目前,高通主要以AI手機、XR、AI PC等為主,AMD和英特爾則主要在AI PC佈局。
AI手機方面,IDC直接依據NPU算力將其分為兩類,一類是已經在市面上銷售了近十年的硬體賦能AI手機(≤30NPU TOPS):使用加速器或除主要應用處理器之外的專用處理器,以較低功耗運行端側的AI。這類手機最近轉向使用NPU內核,使用int-8 資料類型,效能達30 TOPS。端側AI的範例包括自然語言處理(NLP)和計算攝影。
另一類則是最新一代的AI手機(>30 NPU TOPS):這些智慧型手機使用能夠更快、更有效率地運行端側生成式AI模型的SoC,並且使用int-8資料類型的NPU性能至少為30 TOPS。端側的生成式AI範例包括Stable Diffusion和各種大型語言模型。這類智慧型手機在2023年下半年首次進入市場。
AI PC方面,目前市場整體處於AI Ready向AI On的過渡階段。根據Canalys預測,相容AI的個人電腦預計在2025年滲透率達到37%,2027年相容AI個人電腦約佔所有個人電腦出貨量的60%,未來AI PC的主要需求來源為商用領域。同時AI PC將會為PC產業發展提供新動能,根據IDC預測,中國PC市場將因AI PC的到來,結束負成長,在未來5年中保持穩定的成長態勢。
多模態、輕量化,促進端側AI算力持續升級
AI一直致力於以科技實現電腦對於人類認知世界方式的高度效仿。而多模態AI的興起,使得AI系統能夠更全面地理解和處理現實世界中的複雜資訊。除傳統的語言以及圖像間的交互作用,其結合聲音、觸覺以及動作等多維度資訊進行深度學習,從而形成更準確、更具表現力的多模態表示。這也是AI模型走向多模態的必然因素:跨模態任務需求+跨模態資料融合+對人類認知能力的模擬。
目前看來,提供自然語音使用者介面以提高生產力、同時增強使用者體驗的個人助手,正在成為流行的AI應用。語音辨識、大語言模型和語音模型,將以某種並行方式運行,因此理想的情況是在NPU、GPU、CPU等處理器之間分佈處理模型。對於端側設備來說,例如PC,出於性能和能源效率考慮,應盡可能在NPU上運作。
根據Trendforce,微軟計畫在Windows12為AI PC設定最低門檻,需要至少40TOPS算力和16GB記憶體。也就是說,PC晶片算力跨越40TOPS門檻將成為首要目標,這也將進一步推進NPU的升級方向,例如:提升算力、提高記憶體、降低功耗,晶片持續進行架構最佳化、異質運算最佳化和記憶體升級。
另外還有輕量化模型發展趨勢,NPU晶片以其低功耗、高效率的特點,成為實現輕量化AI大模型在邊緣設備上運作的關鍵。
自2023 年起,大模型參數量出現顯著分化,輕量化模型的出現逐步推動AI向端側場景落地。例如最近就有Google發布的開源輕量化大模型Gemma,該模型與多模態大模型Gemini採用相同的研究和技術構建,有2B和7B兩個版本,可以直接在筆記本和台式機部署。
由於輕量化模型可以降低在邊緣側部署的成本門檻,使模型的下游應用程式適合於更多的應用程式和用戶,因此為大模型推理計算從雲端向邊緣端轉移提供了可能,使AI技術更廣泛地應用於各種場景成為可能。
寫在最後
在AI從雲到邊、端的下沉運動中,不論是應用類型的多樣化、還是技術本身的突破,或是巨頭的大規模開“卷”,都代表著NPU終於迎來重要拐點,有望開啟一個大規模商用的全新時代。
從早期主要面向音訊和語音AI應用而設計,基於簡單的捲積神經網路(CNN)進行標量和向量數學運算;再到拍照和視訊AI的興起,出現了基於Transformer、循環神經網路(RNN)、長短期記憶網路(LSTM)和更高維度的捲積神經網路(CNN)等複雜的全新模型,NPU逐漸增加了張量加速器和卷積加速,處理效率大幅提升。
再到近兩年,隨著大語言模型(LLM)和大視覺模型(LVM)的爆發,模型的大小提升超過了一個數量級。我們看到,NPU不斷在功耗、性能、能源效率、可編程和麵積之間尋求權衡,保持與AI發展方向的一致性,並始終在尋求更大的發展空間。
算力始終是AI應用的基石,考慮到NPU的靈活性和高速的運算效率,它是否有望到達GPU的高度,讓業界說一句:無NPU,不AI?(eefocus)