#推理晶片 | 熱門關鍵字 | 鉅亨號 | Anue鉅亨

#推理晶片

推理專用晶片，火了

大模型催火推理芯片：輝達砸200億收購Groq，算力競爭轉向”毫秒必爭”。在AI技術從實驗室走向規模化落地的處理程序中，推理（Inference）環節正成為決定體驗與成本的核心競爭——專門為推理最佳化的晶片，已然成為科技行業的新風口。要理解這股熱潮，首先要釐清AI工作流中訓練與推理的本質差異。在AI工作流中，訓練（Training）與推理（Inference）承擔著截然不同的角色。訓練階段通過大量帶標籤資料迭代最佳化模型權重，使模型能夠學習複雜模式；而推理階段則使用已訓練好的模型對新輸入進行預測。從性能需求來看，訓練如同馬拉松，追求整體吞吐量與模型精度的持續提升；推理則如同百米衝刺，核心目標是降低單次預測延遲，實現即時響應。訓練階段需要強大的通用計算平台，通常需要調動成千上萬張頂級GPU，通過海量資料（如全網際網路文字、圖片）進行長時間（數月甚至數年）的計算，耗資巨大。訓練對算力的絕對性能要求極高，晶片需要具備強大的計算能力和全面的計算能力，能夠處理各種複雜的計算任務。目前，輝達的GPU配合CUDA軟體生態幾乎處於壟斷地位，難以被其他廠商撼動。然而，在推理階段，尤其是大語言模型（LLM）的即時互動場景中，情況發生了根本性轉變。LLM的推理過程具有"自回歸"特性，即生成第N+1個詞必須依賴上一輪第N個詞的結果。這種順序性導致GPU強大的平行計算能力在大多數時間處於"等待"狀態，無法充分發揮其優勢。更為重要的是，隨著AI應用的廣泛落地，推理成本在AI總成本中的比重日益增加，已成為AI企業最大的單項支出。這促使業界開始探索專門的推理晶片解決方案。01. 為何推理晶片成為剛需？專門的推理晶片是AI發展到規模化應用階段的必然產物。其主要有以下優勢：第一是性能精準最佳化。推理任務的核心是高效執行預訓練模型的前向計算，如矩陣乘法、摺積運算等。專門的推理晶片（如NPU、TPU）針對這些運算進行硬體級最佳化，能大幅提高計算效率，相比通用CPU或GPU，可實現更高的吞吐量和更低的延遲。例如，推理晶片可通過定製化的乘加單元（MAC）和平行計算架構，加速神經網路的推理過程，滿足自動駕駛、智能語音互動等即時性要求高的場景。第二是能效比優勢，推理場景對功耗敏感，尤其是邊緣裝置和終端應用（如智慧型手機、可穿戴裝置）。專門的推理晶片通過低精度計算（如INT8、INT4）和硬體級最佳化，能在保證精度的前提下顯著降低功耗，延長裝置續航時間。相比之下，通用晶片在低功耗模式下性能受限，難以兼顧性能與能效。第三是成本效益顯著。推理晶片的規模化生產可降低單位成本，尤其在大規模部署場景（如資料中心、邊緣計算節點）中，其性價比優勢明顯。與通用晶片相比，推理晶片無需支援複雜的訓練任務，可簡化硬體設計，減少晶片面積和製造成本，更適合高並行、低成本的推理需求。第四是場景適配性靈活。不同應用場景對推理晶片的需求差異顯著。例如，雲端推理需處理高並行請求，要求高吞吐量和可擴展性；邊緣裝置則需緊湊設計、低功耗和即時響應。專門的推理晶片可通過靈活的架構設計（如存算一體、Chiplet技術）滿足多樣化場景需求，而通用晶片難以在所有場景中兼顧性能、功耗和成本。最後，專用推理晶片能加速AI全民普及。推理晶片降低了AI應用的部署門檻，標準化的介面與工具鏈簡化了開發流程，讓更多企業與開發者能夠輕鬆落地預訓練模型，推動AI技術在各行業的滲透，助力AI生態持續繁榮。可以說，推理晶片是AI從技術概念走向實際應用的關鍵支撐，通過性能、能效、成本與場景適配性的綜合最佳化，成為AI規模化發展的核心引擎。02. 推理晶片賽道：百花齊放，群雄逐鹿隨著需求爆發，推理晶片賽道呈現出多元化競爭格局，一批創新產品憑藉獨特技術優勢脫穎而出。首先是LPU，全稱 Language Processing Unitix，是一種專門為語言處理任務設計的硬體處理器。它與我們熟知的 GPU（Graphics Processing Unit，圖形處理器）有著本質的區別。GPU 最初是為處理圖形渲染任務而設計的，在平行計算方面表現出色，因此後來被廣泛應用於人工智慧領域的模型訓練和推理。然而，LPU 則是專門針對語言處理任務進行最佳化的，旨在更高效地處理文字資料，執行諸如自然語言理解、文字生成等任務。LPU由前Google TPU團隊創立，專為大語言模型（LLM）推理設計，採用SRAM-only架構，無外部儲存延遲，單晶片整合230MB SRAM，頻寬高達80TB/s，延遲穩定，適合流式生成和互動式應用。另一家公司SambaNova SN40L則跳出了傳統GPU平行計算框架，自研可重構資料流單元（RDU）架構，創造性地將神經網路圖直接對應到硬體執行。通過將多步推理計算壓縮為單一操作，大幅減少資料在記憶體與計算單元間的往返傳輸——這正是AI推理中功耗與延遲的核心痛點。其第四代RDU產品SN40L，宣稱推理性能達到輝達H100的3.1倍，訓練性能達到H100的2倍，而總體擁有成本（TCO）僅為H100的1/10。此外，2024年發佈的第六代TPU v6（代號Trillium），也標誌著Google將主戰場從訓練轉向推理。面對推理成本成為全球AI公司最大單項支出的行業現狀，TPU v6從架構到指令集全面圍繞推理負載重構：FP8吞吐量暴漲、片上SRAM容量翻倍、KV Cache訪問模式深度最佳化、晶片間頻寬大幅提升，能效比相比上一代提升67%。Google直言，這一代TPU的目標是成為“推理時代最省錢的商業引擎”。2025年推出的第七代TPU（TPU v7，代號Ironwood）更是聚焦超大規模線上推理場景，成為TPU系列首款專用推理晶片。與此前側重訓練的v5p、側重能效的v6e不同，Ironwood從第一天起就鎖定超大規模線上推理這一終極場景，並在多項關鍵指標上首次與輝達Blackwell系列正面抗衡，成為全球AI基礎設施領域的焦點產品。03. 巨頭出手：輝達200億“收編”推理黑馬面對推理賽道的激烈競爭，晶片巨頭輝達祭出重磅大招。當地時間 12 月 24 日，AI 晶片初創企業 Groq 宣佈與輝達達成非獨家推理技術許可協議。根據協議約定，Groq 創始人喬納森・羅斯、總裁桑尼・馬達拉及核心技術團隊將正式加盟輝達，攜手推動授權技術的迭代升級與規模化落地。值得注意的是，Groq 將繼續保持獨立營運地位，西蒙・愛德華茲已接任公司首席執行長，旗下 Groq 雲服務亦維持正常運轉，不受此次合作影響。輝達首席執行長黃仁勳在內部郵件中指出，此項合作將顯著拓寬公司技術版圖 —— 輝達計畫將 Groq 低延遲處理器整合至NVIDIA AI 工廠架構，進一步增強平台對各類 AI 推理及即時工作負載的服務能力。這宗以非獨家技術許可為核心的交易，堪稱美國科技巨頭近年的“標準操作”。微軟、亞馬遜、Google等企業均曾通過類似模式，在不觸發全資收購的前提下，吸納頂尖 AI 人才、獲取關鍵技術壁壘。其核心邏輯在於，這種輕資產合作方式可有效規避當前美國嚴苛的反壟斷審查。儘管監管機構已開始關注此類交易，但迄今為止，尚無任何一筆同類合作被裁定撤銷。對於手握 606 億美元巨額現金儲備的輝達而言，這無疑是一筆雙贏的戰略佈局：既消解了潛在的市場競爭威脅，又進一步加固自身技術護城河。據悉，該交易涉及資金規模約 200 億美元，較 Groq 數月前融資時 69 億美元的估值溢價近三倍。這一數字，也標誌著 Groq 作為獨立硬體挑戰者的征程暫告一段落，但其核心技術將在輝達的生態體系中，獲得更廣闊的研發與應用平台。對 Groq 而言，200 億美元的現金流不僅極大緩解了公司財務壓力，也為現有投資者創造了豐厚回報。儘管核心團隊併入輝達體系，但 Groq 憑藉新 CEO 的到任與獨立營運架構的保留，得以繼續深耕 Groq Cloud 雲服務業務。更重要的是，依託輝達的資源優勢，Groq 的技術有望觸達更豐富的應用場景，加速商業化落地處理程序；同時，這種 “非全資收購” 的合作模式，既規避了品牌滅失的風險，更為企業未來發展預留了充分的自主空間。04. 輝達的推理晶片野心，如何通過LPU技術降低推理成本顯然此次獲取到Groq的技術許可，將有利於降低輝達未來推出的推理專用晶片的成本。通過此次合作，NVIDIA 成功斬獲 Groq 核心智慧財產權，得以直接應用其 SRAM 架構技術，一舉繞開HBM 高頻寬記憶體與台積電 CoWoS 先進封裝的雙重限制。不妨設想：依託這項技術，NVIDIA 有望打造一款專攻 AI 快速推理的晶片產品，憑藉極致的運算速度，再搭配 NVLink 互聯技術，實現多顆 LPU 晶片的無縫協同，釋放更強勁的算力效能。Groq LPU 晶片的核心優勢，在於將 AI 模型的核心權重資料，從傳統方案依賴的外接 HBM，遷移至晶片內建的 SRAM 中。這一設計使得晶片無需頻繁與外部儲存互動調取資料，算力效率自然實現躍升。而且，SRAM的讀寫速度可達HBM的10倍。HBM方案的弊端則十分突出：不僅需要依託台積電的CoWoS封裝技術，還受制於儲存廠商的產能限制，早已成為制約AI晶片大規模量產的關鍵瓶頸。一旦跳過HBM與CoWoS，直接採用SRAM架構，晶片的生產效率將迎來質的飛躍。更值得一提的是，若在電路板中整合NVIDIA的NVLink C2C（晶片間直連技術），LPU晶片的擴展能力還將遠超當前水平，從而讓資料傳輸更迅捷、更穩定。如此一來，NVIDIA既無需依賴美光、三星、SK海力士等廠商的HBM產品，徹底擺脫記憶體供應瓶頸；又能規避台積電CoWoS封裝的產能掣肘，實現供應鏈的自主可控。此外，儘管Groq LPU晶片受限於記憶體容量，更適配輕量級AI模型，但在低延遲場景（如機器人即時控制、端側AI互動）中具備得天獨厚的優勢。而這恰好與NVIDIA GPU擅長處理大模型的能力形成互補——LPU化身“高效快手”，GPU擔當“算力基石”，二者強強聯合，將進一步鞏固NVIDIA在AI領域的霸主地位。恰逢CoWoS封裝產能緊張、HBM成本居高不下的行業背景，NVIDIA這套“SRAM+NVLink”的組合拳，堪稱破局關鍵。200億美元的合作對價看似不菲，但對於NVIDIA這樣的行業巨頭而言，無疑是一筆“花小錢辦大事”的划算買賣。合作達成後，Groq可保持獨立營運，NVIDIA則收穫核心技術與頂尖人才，最終實現雙贏。對於普通消費者而言，這場技術革新的紅利同樣觸手可及：未來的AI推理將更快速、更經濟，聊天機器人的響應會變得毫秒級迅捷，服務機器人的動作也將愈發流暢自然。與此同時，SRAM市場的熱度或將持續攀升，英特爾等相關產業鏈企業也有望從中分得一杯羹，推動整個行業生態的繁榮發展。 (半導體產業縱橫)

一顆晶片的新戰爭

以往每年9月，都是手機發燒友的狂歡月，因為這時期蘋果、小米、華為等都會發新機。然而，今年的9月，一個更深層次的產業變革正在暗流湧動。當所有人都在對iphone 17的續航、聯網、鋁合金質感等“找茬”時，一場關於AI推理晶片的戰爭，已悄然打響。過去幾年，雲廠商為了訓練大模型投入巨資購買晶片，如今也到了利用推理實現變現的時候了。根據麥肯錫報告，全球AI推理市場規模預計2028年將達1500億美元，年複合增長率超40%，遠高於訓練市場的20%。推理支撐著各類應用的即時推理需求，包括智能推薦、內容生成、虛擬助手等。可以說，推理階段才是實現實際應用和商業化的關鍵。這場推理之戰，隨著華為、輝達和Google三大巨頭相繼發佈了各自的推理晶片之後，已經將正式打響！華為Ascend 950PR：成本最佳化下的推理利器9月18日，在2025年華為全聯接大會上，華為宣佈了昇騰晶片的規劃和進展。未來3年，也就是到2028年，華為在開發和規劃了三個系列，分別是Ascend 950系列、Ascend 960、Ascend 970系列。華為表示，將以幾乎一年一代算力翻倍的速度，同時圍繞更易用，更多資料格式、更高頻寬等方向持續演進，持續滿足AI算力不斷增長的需求焦點落在即將推出的Ascend 950系列，特別是Ascend 950PR和950DT兩顆晶片，它們均採用同一Ascend 950 Die（晶片裸片）。Ascend 950PR專攻推理Prefill階段和推薦業務，採用華為自研的低成本HBM（高頻寬記憶體）——HiBL 1.0。相較於高價位的HBM3e/4e，能夠大大降低推理Prefill階段和推薦業務的投資，這在規模化部署中至關重要。晶片預計2026年一季度面世，首發形態包括標準卡和超節點伺服器。與前代相比，Ascend 950的提升堪稱革命性：低精度支援：新增支援業界標準FP8/MXFP8/MXFP4等低數值精度資料格式，算力分別達到1P和2P，提升訓練效率和推理吞吐。並特別支援華為自研的HiF8，在保持FP8的高效的同時，精度非常接近FP16。向量算力躍升：通過提高向量單元佔比、創新同構設計（支援SIMD/SIMT雙程式設計模型）和細化記憶體訪問顆粒度（從512B降至128B），更好地處理碎片化資料。互聯頻寬翻倍：互聯頻寬相比Ascend 910C提升了2.5倍，達到2TB/s。定製HBM策略：結合結合推理不同階段對於算力、記憶體、訪存頻寬及推薦、訓練的需求不同，華為自研了兩種HBM：HiBL 1.0針對Prefill和推薦，HiZQ 2.0則面向Decode（解碼）和訓練。這種“Die+HBM合封”模式，類似輝達的CoWoS封裝，但更注重成本控制，體現了華為的成本-性能平衡之道。從行業視角看，Ascend 950PR的低成本HBM策略直擊全球痛點：一方面是從一定程度上解決HBM供給緊缺，另一方面降低成本，在AI推理中，記憶體成本佔總支出的40%以上。華為此舉不僅挑戰國外廠商在HBM壟斷，還為中國本土生態注入活力，預計將加速AI在邊緣計算和雲服務的落地。輝達Rubin CPX：長上下文處理的革命先鋒9月9日，輝達重磅推出Rubin CPX，一款專為大規模上下文處理設計的GPU。這標誌著輝達從“訓練霸主”向“推理專家”的蔓延。這款晶片預計於 2026 年底上市。Rubin CPX整合在NVIDIA Vera Rubin NVL144 CPX平台中，單機架算力達8 Exaflops（百億億次浮點運算），較GB300 NVL72提升7.5倍，配備100TB快速記憶體和1.7PB/s頻寬。輝達還提供獨立計算托盤，相容現有系統，便於客戶升級。黃仁勳強調，Rubin CPX開創了“CPX”新處理器類別，類似於RTX對圖形領域的顛覆。它針對百萬Token級上下文，處理速度和效率遠超傳統GPU。例如，在視訊生成中，AI需處理上百萬Token（相當於一小時視訊），傳統系統已達極限。Rubin CPX整合視訊編解碼器和長上下文推理技術於單晶片，支援NVFP4精度，峰值算力30 Petaflops，記憶體128GB GDDR7。此外，Rubin CPX關鍵進步還包括：效能翻倍：系統專注力提升3倍，能無縫處理長序列，而不犧牲速度。經濟配置：單晶片設計降低成本，支援InfiniBand或Spectrum-X網路，擴展性強。輝達宣稱，每1億美元投資可獲50億美元Token收益，ROI（投資回報率）高達5倍。應用轉型：從簡單程式碼生成到最佳化大型軟體項目，Rubin CPX讓AI助理更智能。輝達的洞察在於：長上下文是AI Agent的核心瓶頸。Gartner報告顯示，到2027年，80%的AI應用將涉及多模態長序列處理。Rubin CPX的上市（2026年底），將鞏固輝達的生態霸權。GoogleIronwood TPU 效率與規模的雙重王者在9月份聖克拉拉舉行的人工智慧基礎設施峰會上，Google人工智慧和計算基礎設施總經理 Mark LohmeyerMark Lohmeyer分享的資料顯示，Google內部的推理請求量在過去一年裡呈幾何級增長，如下圖所示，Google應用中的推理令牌（token）使用量在 2024年4月到2025年4月間，增長了驚人的50倍。這種增長趨勢在2025年下半年變得更加陡峭，僅2025年6月到8月，月推理速率就從980兆個飆升至接近1460兆個。這凸顯了高性能推理晶片的迫切需求。紅色是推理率變化今年4月份，Google在Google Cloud Next 25大會上推出了其首款Google TPU推理晶片Ironwood，這也是Google的第七代張量處理單元 (TPU)。一塊搭載四塊Ironwood TPU的系統主機板（圖源：Google）一排七個Ironwood TPU 機架，每排一個CDU和一個網路機架。這是Google首次展示一排 Ironwood 機器。（圖源：Google）Ironwood 根據 AI 工作負載需求提供兩種尺寸：256 晶片配置和 9,216 晶片配置。後者總算力達到42.5 Exaflops，是El Capitan超算的24倍；單晶片峰值4.614 Exaflops，功率效率1.5倍於Trillium，每瓦性能翻倍，較首代TPU提升30倍。Ironwood的深度最佳化還包括：功率效率大幅提升：Ironwood的功率接近10兆瓦，功率效率是Trillium的1.5倍。每瓦性能是第六代 TPU Trillium 的兩倍，比2018年推出的首款雲TPU 高出近30倍。歷代TPU的能效對比記憶體頻寬飛躍：Ironwood單晶片容量高達 192 GB，是 Trillium 的 6 倍；單晶片頻寬達到 7.37 TB/s，是Trillium的 4.5 倍。通過突破性的晶片間互聯 (ICI) 網路連線，雙向頻寬提升至 1.2 TBps，從而實現更快的晶片間通訊，OCS互聯聯科技：一個通過Google獨特的光路交換機（OCS）互連的 Ironwood 叢集，可以利用 9,216 個 Ironwood TPU，在訓練和推理工作負載上提供總計 1.77 PB 的 HBM 記憶體容量，碾壓輝達Blackwell機架的20.7TB。這種 OCS 互連具有動態重構能力，可以在不重啟整個訓練和推理任務的情況下，修復TPU 故障。軟體棧革命：除了支援 JAX AI 框架外，Ironwood TPU現在也支援原生的 PyTorch；此外，Google自己的Pathways堆疊，能夠簡化萬級TPU管理。展示的是一塊帶有四個 Ironwood TPU 的系統板。每個晶片（帶有金色蓋子的方形物體）旁邊都有四個長條狀的記憶體模組，這些是高頻寬記憶體（HBM）。這塊板卡是Google為了將四個TPU晶片封裝在一起，從而提供極高的算力和記憶體頻寬而設計的。Google不僅在硬體上發力，還展示了一整套針對AI推理最佳化的軟體堆疊，旨在顯著提升效率和降低成本。Google推理堆疊的架構軟體堆疊核心元件主要包括：vLLM：是推理堆疊的核心，它負責管理和最佳化推理工作負載。GKE是Google Cloud上託管的Kubernetes容器服務，類似於內部使用的Borg和Omega控製器。GKE Inference Gateway 是一個新的服務，利用AI注入的智能負載平衡，將推理請求分發到計算引擎池，其目標是減少任務排隊，提高利用率；確定不同部分推理硬體和軟體堆疊的配置是一個艱巨的任務，因此Google建立了 GKE Inference Quickstart 工具，這也是一個新工具，現已普遍可用。Anywhere Cache：這是一個新的快閃記憶體快取服務，可大幅減少延遲和網路成本。它能將Google雲區域內的讀取延遲提高 70%，跨區域延遲提高 96%。Managed Lustre服務是一個高性能檔案系統，用於向 GPU和TPU叢集提供資料。Lohmeyer還展示了另一項名為推測解碼的技術，該技術已被用於提高其Gemini模型的性能，並將其能耗降低了約33倍。總的來說，通過這些軟硬體的協同最佳化，最終能幫助Google雲客戶將推理延遲降低高達 96%，吞吐量提高 40%，並將每個令牌的成本降低多達 30%。Groq：估值超69億美元的推理晶片初創公司除了這些晶片巨頭，AI初創公司——Groq最近的融資也為推理晶片的熱度再加一把燃料。Groq由前GoogleTPU工程師於2016年創立，專攻AI推理晶片。2025年 9 月，Groq 宣佈融資7.5 億美元。這也是AI硬體領域最大的私人融資之一。自2024 年 8 月至 2025 年 9 月，Groq的估值已經從28億美元躍升至 69 億美元。而在2021 年，在老虎環球基金領投的一輪融資後，Groq 的估值略高於 10 億美元。此次融資由 Disruptive 領投，三星和思科也加入了這一輪融資。此外之前投資者D1 Capital、Altimeter 和其他之前支援過Groq 的公司也加入了進來。投資者的廣泛性（從金融巨頭到科技公司）凸顯了人們對Groq的技術和市場方向的廣泛信心。Groq表示，新資金將用於加大晶片產量，計畫到2025年第一季度部署超過108,000 個 LPU（14 奈米代），以滿足需求。該公司還一直在投資人才，最近任命Stuart Pann（前英特爾員工）為首席營運官，甚至聘請Yann LeCun（Meta 的首席 AI 科學家）擔任技術顧問。除了風險投資，Groq的資金還因訂單而增加。2025年 2 月，Groq從沙烏地阿拉伯獲得了 15 億美元的承諾，用於在沙烏地阿拉伯資料中心部署Groq的推理晶片；Groq 還成為貝爾加拿大 AI Fabric（一個橫跨六個資料中心（計畫容量為 500 兆瓦）的國家 AI 雲網路）的獨家推理提供商，Groq 晶片將於 2025 年為首批站點提供支援，貝爾選擇Groq作為其主權人工智慧基礎設施的獨家推理合作夥伴，理由是Groq比其他處理器“推理性能更快，而且成本低得多”。Groq 的晶片被稱為語言處理單元 (LPU)，採用新穎的“張量流”架構。它們採用單個大核心，配備片上記憶體和確定性、軟體調度的資料流，這與 GPU 的多核、基於快取的設計不同。這使得延遲比領先的 GPU競爭對手低10倍，並且通過將資料保留在片上，記憶體頻寬優勢高達10 倍——非常適合即時AI推理。寫在最後從晶片巨頭的重磅發佈，到初創公司的估值飆升，種種跡象表明，AI的下半場——推理，已經進入了全面競爭的時代。這場競賽的焦點不再僅僅是原始算力的比拚，更是對成本、能效、軟體生態和應用場景的綜合較量。可以說，當大模型從實驗室走向千家萬戶，當AI從概念變為日常應用，誰能提供更高效、更經濟、更靈活的推理解決方案，誰就將最終掌握AI時代的鑰匙。這場沒有硝煙的戰爭才剛剛拉開序幕，未來的AI世界，將由這些推理晶片的角逐結果來定義。 (半導體行業觀察)

阿里，全村人的希望

從雲端運算，到通義大模型，再到晶片，阿里，全村人的希望。阿里巴巴8月29日晚間發佈了其截至6月的第一財季業績，並宣佈正在開發一款新的AI晶片，引發其美股股價暴漲。市值一夜暴漲約 368億美元。阿里財報表現強勁，第二財季淨利潤高達 431億元人民幣，同比增長 78%，遠超市場預期。新AI晶片大消息，阿里巴巴正在開發一款全新的AI推理晶片，功能比舊款“含光800”更強大，適配更廣泛的AI推理任務。新AI晶片相容性強，新晶片與輝達架構相容，便於使用者遷移程序，降低遷移成本。定位國產替代，晶片不再由台積電代工，而是轉由中國大陸企業代工生產，減少對海外供應鏈的依賴。阿里對商業模式進行創新，阿里巴巴不直接銷售晶片，而是通過阿里雲提供算力租賃服務，推動雲端運算業務增長。市場反應強烈，阿里巴巴美股大漲的同時，晶片巨頭輝達、AMD股價則分別下跌約 3.5%，市場擔憂阿里巴巴新晶片將削弱輝達在中國市場的地位。分析師普遍看好阿里巴巴此次AI晶片佈局，認為其將進一步推動中國科技產業自主化處理程序。阿里巴巴計畫未來三年投入 3800億元人民幣（約530億美元）用於AI與雲基礎設施建設。阿里巴巴此次AI晶片的發佈，不僅體現了其在AI領域的技術突破，也顯著提振了投資者信心，推動股價創下近兩年最大單日漲幅。 (壹號講獅)

【DeepSeek】DeepSeek讓90%的算力中心淪為“數字廢墟”，還要培育產業“整形專家”

在矽谷科技巨頭長期主導的大模型競技場上，一家名為深度求索（DeepSeek）的中國初創企業悄然撕開了技術壟斷的裂縫。其開源模型DeepSeek-R1以顛覆性的成本優勢實現了接近GPT-4o的性能表現，這項突破重新定義了人工智慧研發的經濟模型，更在算力產業鏈上引發連鎖反應。 01 算力需求從集中化到分佈式傳統大模型訓練如同吞噬算力的黑洞，單次訓練成本動輒數千萬美元的巨額投入，築起了只有科技巨頭才能踰越的技術壁壘。算力軍備競賽"加劇了全球GPU資源的爭奪戰，形成了基礎模型研發的高度中心化格局。 DeepSeek-R1的出現徹底打破了這種既定秩序——通過獨創的演算法最佳化框架與動態稀疏訓練技術，其將預訓練成本壓縮至GPT-4o的十分之一。

推理晶片的最大挑戰

在不到一年的時間裡，生成式人工智慧透過OpenAI 的ChatGPT（一種基於Transformer 的流行演算法）獲得了全球聲譽和使用。基於Transformer 的演算法可以學習物件不同元素（例如句子或問題）之間的複雜交互，並將其轉換為類似人類的對話。在Transformer 和其他大型語言模型(LLM) 的引領下，軟體演算法取得了快速進展，而負責執行它們的處理硬體卻被拋在了後面。即使是最先進的演算法處理器也不具備在一兩秒的時間範圍內詳細闡述最新ChatGPT 查詢所需的效能。為了彌補性能不足，領先的半導體公司建立了由大量最好的硬體處理器組成的系統。在此過程中，他們權衡了功耗、頻寬/延遲和成本。此方法適用於演算法訓練，但不適用於部署在邊緣設備上的推理。功耗挑戰