#PPU
阿里PPU、百度崑崙芯,中國AI迎「華為時刻」
國內AI晶片市場正在經歷一場深刻的變革,“去輝達化”成為熱詞。這場變革的核心在於,以阿里巴巴和百度等為代表的中國科技巨頭,正積極推動AI晶片的自主研發,試圖挑戰輝達在國內AI晶片領域的壟斷地位。9月以來,國產AI晶片捷報頻傳:阿里巴巴、百度等網際網路巨頭相繼宣佈,其核心AI模型的訓練將部分採用自研晶片。與此同時,阿里平頭哥和華為昇騰的新一代產品性能曝光,性能追趕甚至部分超越了輝達。資本市場對此反應積極。除了多家投行上調阿里、百度等國內科技巨頭的估值外,華爾街明星基金經理“木頭姐”更是四年來首次買入阿里巴巴。股票表現上,自8月底以來,百度和阿里巴巴的港股股價累計漲幅均在50%左右。圖:阿里巴巴和百度港股表現    資料來源:wind,36氪整理那麼,國內AI晶片從外購到自研背後究竟出於何種原因?國產晶片加速“去輝達化”這場“去輝達化”運動,背後最直接的動力源於日益緊張的地緣政治,以及由此引發的對AI供應鏈穩定性和安全性的深層擔憂。今年4月,美國政府一度禁止輝達向中國銷售H20晶片,儘管7月恢復出口,卻附加了15%的收入上繳條件。面對美國的限制,中國的反制也接連升級:7月底H20被曝“漏洞後門”遭到約談,8月中旬一度傳出停產消息,而近期的反傾銷調查更是將這場風波推向高潮。圖:2025年AI晶片相關動態資料來源:中原證券,36氪整理兩國博弈的升級,加劇了海外AI晶片的供應鏈風險。對需要長期穩定投入的AI玩家來說無疑是致命的。出於對風險的考量,越來越多的中國科技巨頭意識到晶片自主可控的重要性,由此掀起了一場浩大的“去輝達化”浪潮。這場浪潮的演進,給輝達帶來了明顯的負面衝擊。今年第一財季,輝達就因對H20的出口限制計提了約45億的存貨減值。而隨著風暴的愈演愈烈,輝達來自中國大陸的收入持續銳減。財報顯示,2026財年第二季度,其來自中國大陸的收入銳減至27.7億,環比下滑了近50%,佔比下滑至6%,同期美國、新加坡和台灣地區的收入增速則均有提升。圖:輝達中國大陸收入及佔比    資料來源:wind,36氪整理與輝達的困境形成鮮明對比的是,浪潮之下國產定製AI晶片正在快速崛起。8月21日, DeepSeekV3.1發佈,宣佈使用FP8架構增強國產晶片適配性。9月16日《新聞聯播》意外曝光了阿里平頭哥的PPU晶片。其在視訊記憶體容量和片間頻寬上已超越輝達A800,比肩H20。更關鍵的是,根據招銀國際的資料,得益於國產7nm工藝與2.5D封裝,PPU單卡成本較進口H20下降40%。圖:國產AI晶片資訊   資料來源:山西證券,36氪整理在PPU曝光僅兩天后,9月18日,華為罕見地公佈了昇騰晶片未來三年的詳細演進路線。通過支援低精度計算、混合架構、互聯頻寬和算力翻倍增長,華為正從技術上實現全面追趕。不止於單卡性能,更重要的是,基於自研互聯協議“靈衢”和昇騰950系列晶片的Atlas950 SuperPod,可以形成百萬級規模的統一算力底座,各項性能超過輝達下一代NVL144和2027年的NVL576,成為全球最強算力叢集。圖:華為昇騰晶片進展   資料來源:長城證券,36氪整理而產品性能的突破也加速了國內算力基建國產化解決方案的部署。8月底,百度崑崙芯在中國移動集采中拿下三個標包第一,中標規模達到10億級。這更像一面鏡子,清晰地折射出本土AI晶片廠商正在加速蠶食輝達的市場份額。IDC資料顯示,2024年,輝達在中國的市佔率從85%降至70%,而本土 AI 晶片品牌的出貨量超過 82 萬張,市場份額顯著提升至30%。圖:輝達中國市佔率持續下滑  資料來源:IDC,36氪整理而Bernstein預測,2025年輝達在中國AI晶片市場的份額將進一步降低到54%,同期本土廠商份額顯著增長,且呈現百花齊放、多元競爭的新格局。圖:國內AI晶片市場格局演變   資料來源:Bernstein,36氪整理歷史的鏡像:手機晶片的“通用”到“定製”之路當前中國AI晶片的定製化浪潮,與過去十餘年手機晶片的發展歷程極為相似。在智慧型手機發展的早期,晶片的主導者是高通、聯發科等通用晶片廠商。這些晶片方案的優勢是具備高度的相容性和標準化特性,可以大幅降低手機廠商的研發門檻,使其可以快速佈局智慧型手機業務,搶佔市場先機。然而,隨著行業的迭代,通用晶片的弊端也開始顯現。一是,手機晶片長期被高通、聯發科等少數企業壟斷,導致手機廠商在供應穩定性上長期受制於人,並需要承擔高昂的額外費用,對利潤造成擠壓。以“高通稅”為例,蘋果每售出一台iPhone就需要交付高通售價5%的專利費,2016年蘋果支付的專利費用高達28億美元,佔當年利潤的6%。二是,通用晶片的架構設計無法完全匹配手機廠商的產品迭代規劃和定製化需求,導致產品性能提升滯後,且難以形成軟硬體一體的協同效應,弱化了使用者的使用體驗。三是,核心硬體上的趨同使得手機廠商只能針對攝影機、螢幕等外部環節做“堆料”創新,難以形成真正的差異化壁壘和品牌溢價,阻礙了品牌的高端化進展。正是基於這些明顯的缺陷,以蘋果為代表的頭部廠商走上了晶片自研之路,推動智慧型手機晶片從“通用”向“專用”的過渡。2010年,蘋果推出首款自研晶片A4,奠定了此後 iPhone 在智慧型手機領域的王者地位。A系列晶片採用自研架構和先進製程工藝,並與IOS系統調度邏輯緊密配合,實現了軟硬體的全面最佳化。不僅保證了iPhone硬體性能的持續領先,也形成了基於軟硬協同的獨特技術生態,讓iPhone的使用體驗上一騎絕塵,為蘋果構築了難以複製的護城河,成為其長期穩居高端智慧型手機第一梯隊的關鍵。在蘋果取得成功後,華為也緊隨其後開啟了自研晶片之路。2013年,華為通過海思半導體自研麒麟晶片,整合了華為在通訊、AI和影像處理方面的核心技術,不僅最佳化了整體性能也使其在5G時代具備了先發優勢。更重要的是,麒麟晶片與鴻蒙系統的深度融合,為華為手機建構了強大的生態護城河,讓其徹底擺脫了手機“組裝廠”的標籤,憑藉差異化優勢在國內高端市場站穩了腳跟。而更深遠的影響在於,依靠定製化晶片兩家公司減少了對外部供應商的依賴,從根本上最佳化了成本結構。而且以此所形成的“軟硬一體”生態優勢,也使其品牌溢價持續提升,為其帶來了更可觀的利潤空間。2024年,蘋果iPhone業務毛利率接近40%,遠高於行業平均毛利率水平。國產AI晶片的“華為時刻”當前,中國AI晶片的“去輝達化”浪潮,正是對手機晶片發展歷程的一次深度復刻。從本質上看,AI晶片的國產化和定製化,既是出於供應鏈安全性的考量,更是AI從訓練轉向推理後,行業的必然選擇。隨著大模型迭代速度的趨緩,市場需求正從“瘋狂堆算力”轉向更務實的商業化應用落地。這種背景下,AI的重心也從“訓練”轉向“推理”。根據輝達 CEO 在 2026 財年第一財季業績會時的發言,AI 推理 token 的生成量在過去一年激增了 10 倍。與訓練相比,推理任務對算力需求有所降低,但對成本、功耗和延遲的要求更高。輝達的通用GPU雖然性能強大,但其成本高、能效低,且存在高延時問題,因此並不能完美匹配推理任務需求,尤其是國內閹割版較高的成本致使其性價比大打折扣。這種市場需求的變化,直接推動了國內晶片行業的定製化之路。從適配度上看,與通用 GPU 相比,定製晶片去除了大量冗餘功能從而在執行特定任務時,能在功耗、成本和延遲上實現數量級的最佳化。對於需要大規模、高並行、低延遲的AI 推理任務來說,效率遠高於通用 GPU。圖:通用晶片與定製晶片的對比   資料來源:民生證券,36氪整理而本土晶片設計及供應鏈的進一步成熟,也為國產晶片性能加速追趕國際水平提供了底氣,使得AI算力基建轉向國產解決方案成為可能。正如智慧型手機時代的蘋果和華為,中國的AI玩家已經不再滿足於僅僅購買輝達的通用GPU,而是開始嘗試外購+自研兩條腿走路。一方面,在訓練領域,依靠國際先進晶片的高性能實現模型迭代,為進一步的自主化保留時間窗口;另一方面,加速自研定製化晶片並積極適配國內外主流大模型,在能效、特定場景最佳化等方面尋求差異化優勢,並通過軟硬體的深度協同,最佳化效率和成本。這預示著,中國AI產業正從單純的算力消費者,轉變為自主的生態建構者。這不僅是應對外部壓力的防禦性策略,更是中國科技產業邁向更高價值鏈的必然選擇。 (36氪財經)
新聞聯播中的阿里平頭哥PPU晶片對比圖
在人工智慧算力需求呈指數級增長的當下,阿里平頭哥半導體推出了自研的 PPU(Parallel Processing Unit,平行處理器)晶片,為中國國產 AI 晶片賽道再添重磅砝碼。這款被內部寄予厚望的算力特種兵,不僅肩負著替代輝達 GPU 的使命,更試圖在軟硬一體、生態相容的新戰場上,為阿里雲和千行百業開闢一條低成本、高性能的 AI 加速之路。從需求出發:阿里為何“再造”一顆 AI 晶片?阿里對專用晶片的渴望源自業務的第一性原理。淘寶“拍立淘”每天要完成數十億張圖像識別,菜鳥物流要即時調度千萬級包裹,釘釘文件需要毫秒級語義理解——這些場景對算力的需求早已超出通用 GPU 的經濟區間。儘管平頭哥 2019 年發佈的含光 800 在推理端一戰成名,將 10 億張圖片的識別時間從 1 小時壓縮到 5 分鐘,但大模型時代的來臨,使“Prefill+Decode”的新推理範式對記憶體頻寬、平行度、延遲提出了更苛刻的要求。與此同時,美對華高端 GPU 的限售,讓“有沒有可持續、可演進”的中國國產 AI 算力成為關乎阿里雲端戰略生死的命題。PPU 便是在“業務剛需+供應鏈安全”的雙輪驅動下立項,目標直指“讓大模型推理成本降低一個數量級”。架構揭秘:一顆為“大模型”而生的芯與含光 800 的“CNN 專精”不同,PPU 從 RTL 第一天起就為 Transformer 家族量身定做。其整體採用“專用 LLM 加速單元+大規模 SIMD”的異構融合路線:前者負責 Attention 計算、KV-Cache 調度等長尾算子,後者用 2048 條平行資料通路啃下矩陣乘加這塊硬骨頭。訪存層面,PPU 把 HBM3 控製器與片上 64 MB SRAM 做成 3D 堆疊的“近計算”結構,使有效頻寬提升到 3.2 TB/s,顯著緩解大模型記憶體牆問題;任務級流水線則通過硬體實現的微批調度,把 Prefill 與 Decode 階段無縫摺疊,單卡即可支撐 70 B 參數模型 2000 tokens/s 的並行。最令開發者驚喜的是指令集層對 CUDA 的原生相容:PTX 到 PPU IR 的翻譯引擎可在執行階段完成,90% 以上 CUDA API 無需重編即可對應到自研指令,使現存萬級 GPU Kernel 得以“零成本”遷移,大幅降低了生態門檻。性能對標:中國國產晶片第一次“平視”H20據雲棲大會實測,基礎版 PPU(120 TOPS INT8、96 GB 視訊記憶體)在 Llama2-70B、GPT-3.5 代表的主流模型上與輝達 H20 互有勝負:批尺寸為 1 時,首 token 延遲 82 ms,低於 H20 的 95 ms;批尺寸擴展到 64,PPU 吞吐達到 2800 tokens/s,較 H20 提升約 18%,而整機功耗僅 350 W,能效比領先 30% 以上。更關鍵的是成本:得益於國內 7 nm 工藝與 2.5D 封裝在良率和 IP 授權上的優勢,PPU 單卡 BOM 成本相比進口 H20 下降 40%,使阿里雲在公有雲側打出“推理降價 50%”的底牌,直接惠及外部客戶。面向訓練場景的高級版 PPU 進一步把算力堆到 480 TOPS、記憶體 192 GB,並引入片間 800 Gbps RoCE v3 互聯,目標替代 H100 的 70% 市場份額,預計 2026 年規模出貨。生態打法:硬體開放 + 軟體開源平頭哥深知“賣晶片先賣生態”。在硬體層,PPU 採取 OAM 與 PCIe 雙形態交付,既可直接插拔阿里雲“神龍”架構,也支援 OEM 白牌伺服器,方便金融、政務等敏感行業做私有化部署;在軟體層,平頭哥宣佈開源配套編譯器、驅動和算子庫,已完成對 PyTorch 2.2、TensorRT-LLM、vLLM 的適配,並計畫年內上線“一鍵移植”線上工具鏈,開發者只需上傳 .pt 或 .onnx 模型,即可生成 PPU 可執行檔案。阿里雲內部的 PAI-Blade、通義靈碼、釘釘智繪等 20 多個核心業務已完成 PPU 驗證,累計呼叫量突破 1 兆次,為外部客戶樹立了標竿場景。商業落地:讓 AI 算力像“水電”一樣便宜目前,PPU 已在華北、華東兩大可用區規模上線,首批對外提供“ecs.ppu-c”系列實例,定價僅為同規格 GPU 實例的 55%,且支援秒級彈性與按量付費。某頭部短影片客戶將其 30 萬路視訊稽核業務遷移至 PPU 後,算力成本月降 42%,高峰期延遲下降 25%;某省級政務雲基於 PPU 部署 7B 參數“垂直法律大模型”,單卡即可承載 500 路並行法律諮詢,TCO 節省 50% 以上。面向未來,阿里計畫在 2025 年底前將 PPU 部署規模擴至 10 萬卡,覆蓋電商推薦、智能物流、AIGC、科學計算等全場景,與含光、倚天、鎮岳等晶片家族協同,形成“端-雲-存”一體的 AI 原生算力平台。從 2019 年“點亮”第一顆含光 800,到 2025 年 PPU 全面商用,阿里平頭哥用六年時間完成了 AI 晶片“能用—好用—敢用”的三級跳。PPU 的誕生,不僅意味著中國國產加速器第一次在 CUDA 生態的護城河上架起橋樑,更標誌著中國網際網路企業有能力根據場景反溯晶片定義,把對軟體的理解寫進矽片。在通往通用人工智慧的漫長賽道上,PPU 或許只是阿里算力長征的一小步,卻為中國半導體產業刻下了又一道堅實的腳印——當大模型的參數繼續膨脹、當 AI 原生應用席捲每一個角落,這顆誕生於杭州、流片於上海的 AI 晶片,將和它的名字一樣,以“平行世界、頭部算力”的姿態,為全球智能革命持續加速。 (壹號講獅)