#LPU
算力三國:GPU、TPU、LPU 誰將定義 2026?
核心洞察在人工智慧浪潮席捲全球的當下,算力已成為驅動技術革命的核心引擎。在這場激烈的算力競賽中,圖形處理器(GPU)、張量處理器(TPU)與語言處理器(LPU)等專用晶片扮演著不可或缺的關鍵角色。GPU 憑藉輝達的 CUDA 生態,從圖形渲染領域完成華麗轉身,穩穩奠定 AI 訓練的基石地位;TPU 源於Google對內部算力危機的前瞻性佈局,以專用架構重塑了 AI 計算效率的行業標竿;LPU 則由前 TPU 核心團隊再創業而生,精準切入推理市場,以創新性的確定性執行架構挑戰傳統計算範式。這三款晶片的誕生與演進,共同譜寫了 AI 硬體從通用到專用、從訓練到推理的技術史詩,並將在未來持續定義 AI 技術的邊界,塑造行業發展新格局。一、回顧歷史:AI 晶片的誕生與初心1、GPU:從圖形處理到 AI 基石的華麗轉身黃仁勳的遠見:CUDA 生態的建構在人工智慧浪潮席捲全球之前,輝達的核心業務聚焦於為電子遊戲提供高性能圖形處理器。然而,公司創始人兼 CEO 黃仁勳的遠見卓識,早已超越圖形渲染的侷限。他敏銳洞察到,計算的未來在於平行處理,並堅信 GPU 的平行計算能力有望突破遊戲領域,拓展至更廣泛的科學計算場景。早在 2010 年代初期,黃仁勳便大力推廣 “加速計算” 理念,著手建構圍繞 GPU 的完整生態系統。這一戰略的核心是 CUDA(Compute Unified Device Architecture,統一計算裝置架構)—— 一個允許開發者使用 C 語言等高級程式語言,編寫在 GPU 上運行的平行計算程序的軟體平台。“CUDA 的出現,讓原本專用於圖形處理的 GPU 實現‘通用化’,搖身一變成為能夠執行各類複雜數學運算的‘通用圖形處理器’。”AlexNet 的引爆點2012 年,AlexNet 模型在 ImageNet 圖像識別競賽中取得壓倒性勝利,成為 GPU 在深度學習領域崛起的標誌性事件。在此之前,深度學習雖已在學術界引發關注,但受限於計算資源,發展始終較為緩慢。AlexNet 的成功,不僅印證了深度學習在圖像識別領域的巨大潛力,更向學術界和工業界充分展示了 GPU 在加速深度學習訓練中的獨特優勢,直接推動 GPU 成為 AI 訓練的主流硬體。2、TPU:Google的 “未雨綢繆” 與內部創新算力危機:語音搜尋帶來的挑戰Google的張量處理器(TPU),源於對公司未來算力需求的深刻危機感與前瞻性思考。2013 年,Google工程師進行了一項驚人測算:若當時全球每位Android使用者每天僅使用三分鐘語音搜尋服務,Google就需將整個資料中心的容量擴充一倍,才能滿足激增的算力需求。這場潛在的算力危機不僅是技術層面的挑戰,更是戰略層面的警醒。它讓Google高層深刻認識到,AI 將成為公司未來所有產品與服務的核心驅動力,而算力正是這場變革的基石。脈動陣列:打破馮・諾依曼瓶頸Google工程師意識到,要從根本上提升 AI 計算效率,必須突破傳統計算模式的束縛。他們需要一種能夠最大限度減少記憶體訪問、將計算與資料流緊密結合的創新架構。最終,Google將目光投向了一種古老卻極具潛力的架構 —— 脈動陣列(Systolic Array)。該概念最早於 1970 年代末提出,設計思想是讓資料像血液在心臟中流動般,在處理器陣列中有節奏地循環流動,從而大幅提升計算效率。3、LPU:Groq 的 “推理革命”前 TPU 團隊的再創業在Google TPU 項目取得巨大成功後,其核心技術團隊成員喬納森・羅斯(Jonathan Ross)選擇離開Google,創立了名為 Groq 的新公司,並推出全新晶片概念 —— 語言處理單元(Language Processing Unit, LPU)。LPU 的設計理念,是在 TPU 基礎上實現進一步 “專用化”。如果說 TPU 是為 “張量處理” 而生的通用 AI 加速器,那麼 LPU 便是為 “語言處理” 這一特定 AI 應用場景量身打造的超專用加速器。“AI for Everyone” 的理念Groq 及其 LPU 的背後,蘊含著與科技巨頭略有不同的哲學理念 —— 推動 “AI for Everyone”(人人可用的 AI)。他們認為,當前 AI 的開發與部署成本依然高昂,尤其是對中小型企業而言,建構和維護高性能 AI 推理基礎設施是一項巨大挑戰。“LPU 通過採用‘確定性執行’架構,旨在為每一次推理請求提供可預測、極低延遲的響應。”二、立足當下:晶片架構、性能與生態1、核心架構解析:從通用到專用晶片架構演進示意圖plaintext三大晶片架構核心特徵GPU 架構:CUDA 核心 + Tensor Core 平行處理架構數千個通用 CUDA 核心,支援多工平行計算專用 Tensor Core,高效處理矩陣運算搭載 NVLink 高速互聯技術,提升多晶片協同效率TPU 架構:脈動陣列(Systolic Array)專用設計256x256 MAC 單元陣列,聚焦矩陣運算最佳化資料在陣列內部循環流動,減少記憶體訪問延遲65,536 個 ALU 平行計算,算力密度高LPU 架構:確定性執行可程式設計流水線軟體優先編譯器調度,實現指令高效執行傳送帶式資料流設計,保障處理穩定性片上 SRAM 高速儲存,提升資料讀取速度2、性能對比與主流模型適配主流模型適配分析3、生態系統:軟體、框架與開發者社區NVIDIA CUDA:成熟生態構築護城河擁有 cuBLAS、cuDNN、TensorRT 等豐富工具鏈深度支援 PyTorch、TensorFlow 等主流 AI 框架全球開發者社區龐大,技術資源豐富Google TPU:與自研框架深度融合搭載 XLA 編譯器最佳化,提升計算效率提供端到端 AI 解決方案,簡化開發流程與 Google Cloud 深度整合,支援雲端部署Groq LPU:新興生態加速崛起推出 GroqCloud API,降低使用門檻採用軟體定義硬體模式,靈活適配需求編譯器驅動架構,最佳化指令執行效率三、資本與合作:AI 晶片市場的博弈1、TPU v7 的影響:Google的 “反擊”性能突破:對標 NVIDIA 旗艦晶片Google於 2025 年 11 月發佈的第七代 TPU(代號 Ironwood),是其對 NVIDIA 在 AI 晶片市場主導地位發起的最強有力 “反擊”。TPU v7 在性能上實現巨大突破,單 pod 聚合計算能力據稱達到 NVIDIA 最大 NVL72 機架配置的約 40 倍。這一驚人的性能優勢,讓 TPU v7 成為全球 AI 晶片市場的焦點。其成功不僅體現在單晶片性能上,更源於卓越的系統架構設計。市場策略:從自用到對外銷售TPU v7 的發佈,標誌著Google AI 晶片市場策略的重大轉變。在此之前,TPU 主要供Google內部使用,或通過 Google Cloud 向少數客戶提供服務;而 TPU v7 推出後,Google開始積極將其作為商品化硬體產品,向更廣泛的外部客戶銷售。潛在大客戶:Meta(數十億美元交易)、Anthropic(採購 100 萬 + TPU 晶片)、xAI 等科技公司市場目標:搶佔 NVIDIA 10% 的 data center 收入份額2、輝達與 Groq 的合作:強強聯合合作背景:補齊推理市場短板儘管 NVIDIA 在 AI 訓練市場佔據絕對統治地位,但在推理市場,其優勢並不突出。推理任務對延遲、成本和能效的要求更高,這正是 GPU 等通用計算晶片的短板。Groq 的 LPU 恰好彌補了這一缺口 —— 憑藉專為推理最佳化的架構,LPU 在延遲、吞吐量和能效方面表現出色,完美適配推理場景需求。重磅合作:200 億美元的戰略佈局據報導,NVIDIA 與 Groq 的合作協議價值高達 200 億美元,充分彰顯了 NVIDIA 對 Groq 技術價值與市場潛力的高度認可。這一合作將進一步鞏固 NVIDIA 在 AI 晶片市場的領導地位,通過整合 Groq 的推理技術,NVIDIA 可向客戶提供從訓練到推理的端到端解決方案,建構更完整的技術閉環。四、展望未來:2026 年的 AI 晶片格局1、技術趨勢:專用化、高能效與異構計算專用化趨勢ASIC 晶片市場份額預計到 2026 年將突破 30%,專用晶片向細分場景深度滲透:TPU:聚焦大規模矩陣運算最佳化LPU:深耕即時推理場景邊緣 AI 專用晶片:適配終端裝置需求高能效發展“綠色 AI” 成為行業關鍵指標,性能功耗比優先成為研發核心:採用 3nm、2nm 先進製程工藝創新架構設計,減少無效計算液冷散熱技術普及,提升散熱效率異構計算多晶片協同工作成為主流架構,各晶片各司其職、優勢互補:GPU:主導模型訓練環節TPU:負責大規模推理任務LPU:支撐即時互動場景AI 晶片技術演進時間線2、市場格局:競爭與合作並存雲端運算巨頭的自研晶片之路現有佈局:Google(TPU v7 及後續產品)、亞馬遜(Trainium 和 Inferentia)、微軟(Maia 晶片)、蘋果(Neural Engine)2026 年預期:自研晶片性能與 NVIDIA 正面抗衡,與雲服務、軟體生態深度繫結,提供一站式 AI 解決方案,減少對第三方供應商依賴初創公司的機遇與挑戰Groq 的成功證明了細分領域創新的可能性,但初創公司仍面臨多重挑戰:機遇:邊緣 AI 市場快速增長、低功耗推理需求旺盛、細分場景創新空間廣闊挑戰:研發成本高昂、巨頭生態競爭壓力大、供應鏈受地緣政治影響3、應用前景:從雲端到邊緣大模型推理普及化隨著 TPU、LPU 等專用晶片的發展,LLM 推理成本將大幅下降,應用場景全面拓寬:智能客服:實現自然高效的人機互動教育領域:提供個性化學習輔導醫療健康:輔助疾病診斷與治療邊緣 AI 興起物聯網裝置普及推動邊緣 AI 成為新熱點,低功耗晶片賦能終端智能:自動駕駛:即時處理感測器資料智能家居:提供個性化場景化服務智能裝置:實現本地 AI 功能,降低雲端依賴AI 晶片跨行業滲透與融合製造業:智能質檢、智慧物流最佳化金融業:智能風控、量化交易加速醫療健康:影像診斷輔助、新藥研發提速自動駕駛:高等級自動駕駛功能落地結語從 GPU 的平行計算革命,到 TPU 的專用架構創新,再到 LPU 的確定性執行突破,AI 晶片的發展史是技術創新與市場需求相互成就的演進史。展望未來,AI 晶片市場將呈現多元化、專業化的發展格局。專用化、高能效、異構計算將成為技術發展的主旋律,市場競爭也將從單一性能比拚,轉向技術、資本與生態的全方位較量。在這場 AI 算力革命中,無論是科技巨頭、初創公司,還是各行各業的企業,都將找到自身定位,共同推動 AI 技術向更高效率、更廣泛應用、更可持續的方向發展。 (大行投研)
從台積電的發展看LPU的機會
隨著輝達的GPU在人工智慧產業大殺四方,中國被限制獲得先進製程,台積電也聲名大噪。當前美國堅決在核心技術上與中國脫鉤,幾乎所有與晶片相關的公司都被拉科技黑名單。人工智慧的下半場AGI的競爭,我們靠什麼勝出?如何有效率地運用運算資源和人力資源,以前瞻性的視角合理部署整個產業鏈的核心環節,從而推動產業的全面發展並惠及大小企業,已然成為我國人工智慧產業迫切需要解決的問題。 台灣半導體產業的發展歷程是值得我們借鏡的典範。 1970年代,台灣經濟急需從傳統的農業和初級工業轉變為現代工業體系。當時,美國和日本分別佔據了國際半導體市場的首席、次席位置,而台灣本土產業處於起步階段,主要承擔以通用儀器公司為代表的外資企業在島裝配任務。這在全球半導體產業鏈中處於低端位置,而反觀其自主研發的半導體產品在國際市場上則鮮有買家。為了改變這一局面,台灣省政府投資建立了工業技術研究院(ITRI),專注於實用技術的研發,並積極支持本土企業進入高端半導體製造領域。 在當時的許多國際技術合作與引進中,台灣省政府頗具前瞻性地選擇了當時尚未成熟的CMOS技術作為主攻方向。儘管初期台灣的半導體企業如聯電(UMC)主要生產應用於玩具和家電的小型晶片,技術突破並不顯著,但隨後台積電(TSMC)的崛起徹底改變了局面。當時的台積電採納了Philips公司引進的1.5微米製程技術,並創新了全球代工商業模式,專注於服務國際市場。這項策略帶來了技術創新和市場擴展的雙重成功,最終鎖定了台積電在全球半導體產業中的領導地位,其當今市值已超過6000億美元。 台積電的成功在很大程度上歸功於三個關鍵因素,其中之一是政府的前瞻性政策引導和產業佈局的合理規劃,如建立半導體技術產業園區和促進技術交流的學術研討會。本文的重點想探討的是人工智慧2.0時代,政府如何進行有效的策略部署並引導企業產品定位。
挑戰輝達,需要另闢蹊徑
Groq是近期AI晶片界的一個明星。原因是其號稱比輝達的GPU更快。3月2日,據報道,Groq收購了一家人工智慧解決方案公司Defi nitive Intelligence。這是 Groq 在2022 年收購高效能運算和人工智慧基礎設施解決方案公司Maxeler Technologies 後的第二次收購。Groq來勢很兇。 自從ChatGPT爆火以來,輝達憑藉GPU在市場上獨自求敗,雖然也出現了不少挑戰者,但都沒有像Groq這般引人注意。 成立於2016 年的Groq,其創始人是被稱為「TPU之父」的前谷歌員工喬納森·羅斯,團隊中成員不乏有谷歌、亞馬遜、蘋果的前員工。這群人透過簡單的設計開發了一款LPU(語言處理單元)推理引擎。就是這個LPU晶片讓Groq在AI市場上異軍突起,引得大家刷屏。據悉,LPU可在現今大火的LLM(大語言模型)中展現出非常快速的推理速度,比GPU有顯著提升。不要小看AI推理的市場,2023年第四季,輝達有4成收入來源於此。因此,眾多輝達的挑戰者是從推理切入的。 那麼,它是如何做到速度快的呢?為何能夠叫板輝達?在晶片架構和技術路徑上有哪些可圈可點之處?。。。。對於這款引發廣大關注的晶片,許多人也希望能夠了解背後究竟有哪些玄妙?近日,半導體產業觀察有幸採訪到了北京大學積體電路學院,長聘副教授孫廣宇,孫教授為我們提供了一些專業見解,至於網路上對Groq價格的各種推測,其比性能等估算更複雜,本文在此將不作過多探討,而是著重於技術層面的解析,以期為讀者帶來一些啟發。