在人工智慧算力需求呈指數級增長的當下,阿里平頭哥半導體推出了自研的 PPU(Parallel Processing Unit,平行處理器)晶片,為中國國產 AI 晶片賽道再添重磅砝碼。這款被內部寄予厚望的算力特種兵,不僅肩負著替代輝達 GPU 的使命,更試圖在軟硬一體、生態相容的新戰場上,為阿里雲和千行百業開闢一條低成本、高性能的 AI 加速之路。
阿里對專用晶片的渴望源自業務的第一性原理。淘寶“拍立淘”每天要完成數十億張圖像識別,菜鳥物流要即時調度千萬級包裹,釘釘文件需要毫秒級語義理解——這些場景對算力的需求早已超出通用 GPU 的經濟區間。儘管平頭哥 2019 年發佈的含光 800 在推理端一戰成名,將 10 億張圖片的識別時間從 1 小時壓縮到 5 分鐘,但大模型時代的來臨,使“Prefill+Decode”的新推理範式對記憶體頻寬、平行度、延遲提出了更苛刻的要求。與此同時,美對華高端 GPU 的限售,讓“有沒有可持續、可演進”的中國國產 AI 算力成為關乎阿里雲端戰略生死的命題。PPU 便是在“業務剛需+供應鏈安全”的雙輪驅動下立項,目標直指“讓大模型推理成本降低一個數量級”。
與含光 800 的“CNN 專精”不同,PPU 從 RTL 第一天起就為 Transformer 家族量身定做。其整體採用“專用 LLM 加速單元+大規模 SIMD”的異構融合路線:前者負責 Attention 計算、KV-Cache 調度等長尾算子,後者用 2048 條平行資料通路啃下矩陣乘加這塊硬骨頭。訪存層面,PPU 把 HBM3 控製器與片上 64 MB SRAM 做成 3D 堆疊的“近計算”結構,使有效頻寬提升到 3.2 TB/s,顯著緩解大模型記憶體牆問題;任務級流水線則通過硬體實現的微批調度,把 Prefill 與 Decode 階段無縫摺疊,單卡即可支撐 70 B 參數模型 2000 tokens/s 的並行。最令開發者驚喜的是指令集層對 CUDA 的原生相容:PTX 到 PPU IR 的翻譯引擎可在執行階段完成,90% 以上 CUDA API 無需重編即可對應到自研指令,使現存萬級 GPU Kernel 得以“零成本”遷移,大幅降低了生態門檻。
據雲棲大會實測,基礎版 PPU(120 TOPS INT8、96 GB 視訊記憶體)在 Llama2-70B、GPT-3.5 代表的主流模型上與輝達 H20 互有勝負:批尺寸為 1 時,首 token 延遲 82 ms,低於 H20 的 95 ms;批尺寸擴展到 64,PPU 吞吐達到 2800 tokens/s,較 H20 提升約 18%,而整機功耗僅 350 W,能效比領先 30% 以上。更關鍵的是成本:得益於國內 7 nm 工藝與 2.5D 封裝在良率和 IP 授權上的優勢,PPU 單卡 BOM 成本相比進口 H20 下降 40%,使阿里雲在公有雲側打出“推理降價 50%”的底牌,直接惠及外部客戶。面向訓練場景的高級版 PPU 進一步把算力堆到 480 TOPS、記憶體 192 GB,並引入片間 800 Gbps RoCE v3 互聯,目標替代 H100 的 70% 市場份額,預計 2026 年規模出貨。
平頭哥深知“賣晶片先賣生態”。在硬體層,PPU 採取 OAM 與 PCIe 雙形態交付,既可直接插拔阿里雲“神龍”架構,也支援 OEM 白牌伺服器,方便金融、政務等敏感行業做私有化部署;在軟體層,平頭哥宣佈開源配套編譯器、驅動和算子庫,已完成對 PyTorch 2.2、TensorRT-LLM、vLLM 的適配,並計畫年內上線“一鍵移植”線上工具鏈,開發者只需上傳 .pt 或 .onnx 模型,即可生成 PPU 可執行檔案。阿里雲內部的 PAI-Blade、通義靈碼、釘釘智繪等 20 多個核心業務已完成 PPU 驗證,累計呼叫量突破 1 兆次,為外部客戶樹立了標竿場景。
目前,PPU 已在華北、華東兩大可用區規模上線,首批對外提供“ecs.ppu-c”系列實例,定價僅為同規格 GPU 實例的 55%,且支援秒級彈性與按量付費。某頭部短影片客戶將其 30 萬路視訊稽核業務遷移至 PPU 後,算力成本月降 42%,高峰期延遲下降 25%;某省級政務雲基於 PPU 部署 7B 參數“垂直法律大模型”,單卡即可承載 500 路並行法律諮詢,TCO 節省 50% 以上。面向未來,阿里計畫在 2025 年底前將 PPU 部署規模擴至 10 萬卡,覆蓋電商推薦、智能物流、AIGC、科學計算等全場景,與含光、倚天、鎮岳等晶片家族協同,形成“端-雲-存”一體的 AI 原生算力平台。
從 2019 年“點亮”第一顆含光 800,到 2025 年 PPU 全面商用,阿里平頭哥用六年時間完成了 AI 晶片“能用—好用—敢用”的三級跳。PPU 的誕生,不僅意味著中國國產加速器第一次在 CUDA 生態的護城河上架起橋樑,更標誌著中國網際網路企業有能力根據場景反溯晶片定義,把對軟體的理解寫進矽片。在通往通用人工智慧的漫長賽道上,PPU 或許只是阿里算力長征的一小步,卻為中國半導體產業刻下了又一道堅實的腳印——當大模型的參數繼續膨脹、當 AI 原生應用席捲每一個角落,這顆誕生於杭州、流片於上海的 AI 晶片,將和它的名字一樣,以“平行世界、頭部算力”的姿態,為全球智能革命持續加速。 (壹號講獅)