#NPU
2025,誰是邊緣AI晶片架構之王?
GPU更強了,NPU更專了,FPGA更靈活了。當2025年被業界冠以"邊緣生成式AI元年"之名時,半導體產業正經歷著自移動網際網路時代以來最劇烈的底層架構變革。在這場由智能終端裝置、工業物聯網和即時決策需求共同驅動的技術革命中,傳統算力分配模式遭遇根本性挑戰。IDC資料顯示,全球邊緣AI晶片市場規模在2025年Q1同比增長217%,其增長速度遠超雲端AI晶片市場。在這場變革中,GPU、NPU、FPGA三大架構呈現出迥異的演化路徑,背後的技術哲學差異折射出半導體企業對未來計算範式的不同判斷。01. GPU在過去幾年以大模型為核心的AI浪潮中,通用GPU憑藉其強大的稀疏計算能力和可程式設計性脫穎而出。然而,邊緣硬體不僅要處理單一模型的推理任務,還需對裝置上的所有分支加速任務、使用者互動任務以及裝置管理任務進行處理。因此,AI邊緣設計需要從全域視角出發,確保AI場景能夠與其他功能共存。更重要的是,隨著性能提升和電晶體密度增加,還必須進行熱分配和熱管理,這是新出現的關鍵問題。在未來的邊緣AI應用中,每瓦算力(TOPS/W)將比絕對算力(TOPS)更為重要。另一個在大模型應用中得到驗證的重要規律是,AI模型和演算法領域始終處於快速變化與演進之中。硬體設計者需要通過提升加速器的能效和可程式設計設計能力,確保其裝置能夠滿足未來的需求。此外,終端/邊緣裝置及應用的多樣性也是關鍵因素。硬體設計不僅要適配當前流行的模型和特定應用,還需支援下一代模型以及快速變化的應用需求。這需要軟硬體協同配合,目前軟體內容應具備適應未來發展的能力,突破針對特定模型或應用開發加速器的限制,這對於產品推出速度更快的中國大陸系統廠商及其主晶片供應商而言極其重要。GPU作為執行各類任務的優秀加速器,在雲端AI工作負載中展現出卓越的性能、可擴展性和可程式設計性。近期,Imagination公司最新推出的E系列GPU IP,通過兩大核心創新——神經核(Neural Cores)和爆發式處理器(Burst Processors),將INT8/FP8算力擴展至200 TOPS,較前代性能提升400%,同時功耗效率提升35%。IDC研究總監Phil Solis表示:“各類裝置上的 AI 功能正在迅速演進,但AI系統設計者依然面臨性能、效率與靈活性的多重挑戰。Imagination憑藉其長期深耕低功耗 GPU 的經驗,成功實現了GPU架構對圖形與AI的靈活支援。E-Series 結合了 GPU 的可程式設計性與 AI 性能的飛躍,為邊緣智能(Edge AI)系統開發者帶來了極具吸引力的解決方案。”02. NPU隨著AI應用加速從雲端向邊緣延伸,CPU、GPU等傳統處理器逐漸暴露出在功耗、延遲及資源利用上的侷限性。專為應對這些挑戰而生的神經處理單元(NPU),在邊緣計算領域的價值日益凸顯。NPU深度聚焦AI模型推理階段的加速最佳化,區別於通用型CPU和兼顧多工處理的GPU,它通過消除冗餘處理環節,顯著提升AI任務的執行效率,在對象檢測、語音識別、異常監控等即時性要求極高的應用場景中表現尤為突出。同時,NPU在功率與性能的平衡上展現出獨特優勢,能夠以較低功耗實現高性能AI運算,這種特性使其特別適配於散熱條件有限、能耗管控嚴格或空間緊湊的邊緣裝置,包括無風扇電腦、嵌入式物聯網系統以及工業自動化控製器等。此外,NPU讓裝置端本地AI處理成為可能,有效降低了對雲端算力的依賴,大幅減少資料傳輸延遲,同時強化了資料隱私保護。憑藉平行計算架構與小型化設計,NPU得以靈活部署於智慧城市、智能監控、移動機器人、自動駕駛等多樣化場景,為邊緣智能的規模化落地與持續拓展提供核心驅動力。NPU的核心優勢在於能效比與任務專一性。例如,NXP的i.MX 95系列處理器整合eIQ Neutron NPU,算力2 TOPS,在圖像識別任務中較前代速度提升四倍,同時功耗降低30%16。這種特性使其在智能安防、醫療裝置等對即時性要求苛刻的場景中佔據主導地位。03. FPGAFPGA以其可重構特性,在邊緣AI中扮演了獨特角色。2025年4月,英特爾旗下Altera獨立後,宣佈將重點佈局邊緣AI推理市場。FPGA的平行處理能力與低延遲特性,使其適合需要快速迭代演算法的場景。平行處理是FPGA 與 GPU 的共同優勢,但 FPGA 能在更細粒度邏輯單元等級平行計算。對於 8K 視訊這類資料量巨大的處理任務,CPU 指令序列處理難以勝任,GPU 多核渲染也存在侷限,而 FPGA 可將視訊流程分階段處理,實現像素級平行。如諾亞星雲 MX2000 pro 顯示控製器採用 AMD 的 FPGA,實現單台裝置帶載 88K 超大屏,滿足電影虛擬拍攝中高畫質 LED 顯示控制、倍頻插幀等技術需求。此外,FPGA 能夠通過硬體實現特定演算法,繞過傳統CPU、GPU 的軟體堆疊瓶頸,實現超低延時。以顏色空間轉換為例,FPGA 處理延時僅為 CPU、GPU 的 1/100。此外,FPGA 固定的電路結構保證確定性延遲,而 CPU、GPU 因系統調度存在延遲抖動。在醫療 8K 內鏡視訊處理、高頻交易等對延遲要求嚴苛的場景中,FPGA 優勢顯著。當前FPGA 開發門檻降低,廠商提供專業 IP 模組與完整解決方案,高層綜合等開發方法也適用於音視訊處理。此外,FPGA 生命周期長,滿足專業音視訊裝置長服役需求,實現 “一次開發終身可用”,相比依賴算力持續升級的 GPU,在該領域更具應用價值。04. 廠商佈局各大廠商基於自身技術優勢和市場定位,在不同技術路線上展開佈局。在NPU陣營,意法半導體、瑞薩、華為昇騰等廠商通過“MCU+NPU”的組合策略,全力搶佔IoT市場份額。這種將微控制單元與神經處理單元相結合的方案,既能發揮MCU在控制和管理方面的成熟優勢,又借助NPU強大的AI運算能力,滿足IoT裝置對低功耗、即時性AI處理的需求。全志科技推出的V821晶片已實現量產,並成功搭載於領為創新AI眼鏡,為智能穿戴裝置的AI應用提供了有力支援,展現出NPU在終端裝置上的廣泛應用潛力。GPU陣營中,曾被蘋果棄用的Imagination正憑藉“AI+圖形”的融合架構謀求新突破。其E系列GPU IP具備強大的平行處理能力,支援16個虛擬機器實例平行運行,這一特性使其能夠完美適配車載座艙多屏互動與ADAS監控等複雜場景,為汽車智能化升級提供高效的圖形與AI處理解決方案。而行業巨頭輝達則依託Jetson系列產品,深度滲透機器人視覺領域。Jetson平台以其高性能、低功耗的特點,成為眾多機器人開發者的首選,助力機器人在複雜環境中實現精準的視覺識別與決策。在FPGA陣營,Altera聚焦資料中心與邊緣推理市場,充分發揮FPGA可程式設計、靈活高效的特性,為資料處理和AI推理提供定製化解決方案,滿足資料中心對高並行、低延遲處理的需求,以及邊緣裝置在複雜場景下的即時推理要求。Lattice則憑藉低功耗FPGA產品,成功打入智能攝影機與感測器市場。在這些對功耗和體積要求嚴苛的應用場景中,Lattice的低功耗FPGA既能保證裝置長時間穩定運行,又能滿足即時資料處理和AI分析的需求,為智能安防、環境監測等領域的裝置智能化升級提供了可靠的技術支撐。05. 併購潮起除了憑藉自身研發力量拓展技術版圖外,各大廠商也紛紛通過併購整合資源、強化優勢,以在快速變化的市場中搶佔先機。意法半導體(ST)收購 AI 軟體公司 DeepLite,旨在深化自身在AI 演算法最佳化領域的實力。DeepLite 的核心技術能夠將 AI 模型壓縮至極致,使複雜的 AI 演算法在低功耗裝置上高效運行。此次收購完成後,意法半導體可以將 DeepLite 的技術深度融入其 “MCU+NPU” 產品體系,進一步鞏固在 IoT 市場的優勢地位,為智能家電、可穿戴裝置等終端產品提供更具競爭力的 AI 解決方案。高通宣佈收購邊緣AI 開發平台 Edge Impulse,是其完善邊緣計算生態的重要舉措。Edge Impulse 平台專注於簡化邊緣裝置上的 AI 開發流程,支援開發者快速建立、訓練和部署 AI 模型。高通通過此次收購,能夠將 Edge Impulse 的開發工具與自身的晶片技術相結合,降低邊緣 AI 應用的開發門檻,吸引更多開發者基於高通晶片進行創新,加速 AI 技術在智能家居、工業物聯網等領域的落地應用。恩智浦(NXP)收購 AI 晶片初創公司 Kinara,則聚焦於強化其在高性能AI 推理領域的能力。Kinara 開發的 AI 處理器以高效能和低功耗著稱,尤其適用於智能汽車、工業自動化等對即時性要求極高的場景。此次收購後,恩智浦將 Kinara 的技術整合到自身產品線中,能夠為汽車製造商和工業客戶提供更強大的 AI 處理解決方案,進一步鞏固其在汽車半導體和工業控制領域的領先地位。06. 結尾在這場由邊緣生成式AI掀起的技術浪潮中,半導體產業正經歷著一場深刻而廣泛的變革。從GPU的靈活通用,到NPU的高效專一,再到FPGA的可重構性,不同架構在各自擅長的領域裡開疆拓土,也對應出行業對未來計算形態的多元探索。技術的演進從來不是單一線性的替代過程,而是在不斷適應場景、解決問題的過程中尋找最優解。面對碎片化且快速變化的邊緣AI應用場景,單一架構難以包打天下,真正的競爭力在於如何結合軟硬體優勢,建構更高效、更靈活、更具延展性的系統方案。與此同時,廠商們也在通過併購加速補足短板,強化生態佈局。這種“內生+外延”並重的發展策略,不僅加快了產品迭代的速度,也為整個產業鏈注入了更多協同創新的可能性。站在2025年這個被稱作“邊緣生成式AI元年”的節點回望,我們會發現,這場變革才剛剛開始。 (半導體產業縱橫)