The Information報導稱,大約在6年前,微軟就開始研發一種晶片,內部代號「雅典娜」(Athena),300人共同研發。
在Hot Chips 2024上,微軟揭開了其第一代定製AI加速器Maia 100的神秘面紗。這款加速器專為Azure中大規模AI工作負載設計,通過垂直整合的方式實現了性能最佳化與成本降低的雙重目標。Maia 100採用了定製伺服器主機板和機架,並配備了高效的軟體堆疊,為Azure OpenAI Services等高級AI功能提供了強大的支援。
在硬體規格上,Maia 100展現了其卓越的性能潛力。該晶片尺寸約為820平方毫米,採用台積電的N5工藝和COWOS-S中介層技術。其標線大小SoC晶片整合了大型片上SRAM,並結合四個HBM2E晶片,實現了每秒1.8TB的總頻寬和64GB的儲存容量,充分滿足了AI資料處理的高要求。此外,Maia 100的TDP設計為500W(儘管支援高達700W),在提供高性能的同時實現了有效的電源管理。
微軟Maia 100 主要性能資料
一、晶片設計與製造
晶片尺寸與工藝:Maia 100晶片尺寸約為820平方毫米,採用台積電的N5工藝和COWOS-S中介層技術製造,是台積電5nm節點上製造的最大處理器之一。
記憶體架構:配備大型片上SRAM,結合四個HBM
二、計算性能
高速張量單元:提供快速的訓練和推理處理,支援多種資料類型,包括低精度資料類型如MX資料格式。該張量單元建構為16xRx16單元,為AI計算提供強大的動力。
向量處理器:作為鬆散耦合的超標量引擎,採用定製指令集架構(ISA),支援FP32和BF16等多種資料類型,進一步提升了AI運算的效率。
峰值密集Tensor POPS:具備高效的Tensor運算能力,如6bit: 3, 9bit: 1.5, BF16: 0.8的峰值密集Tensor運算能力,確保複雜AI模型的高效運行。
三、能耗與電源管理
TDP設計:Maia 100設計支援高達700W的TDP,但組態為500W,以在提供高性能的同時有效管理電源,降低能耗。
Maia 100的架構設計緊密圍繞現代機器學習需求展開,旨在實現最佳的計算速度、性能和精準性。其技術亮點包括:
此外,Maia 100還通過低精度儲存資料類型和資料壓縮引擎設計,減少了大型推理作業對頻寬和容量的需求。其大型L1和L2暫存器由軟體管理,以實現最佳的資料利用率和能效。
在網路連線方面,Maia 100支援高達4800 Gbps的全收集和分散減少頻寬,以及1200 Gbps的全到全頻寬。這一乙太網路互連採用了定製的RoCE類協議,不僅提供了增強的可靠性和平衡性,還支援AES-GCM加密,為機密計算提供了理想選擇。
Maia 100的硬體和軟體架構從頭開始設計,旨在更高效地運行大規模工作負載。其軟體開發工具包(SDK)為開發人員提供了一套全面的元件,以便將模型快速部署到Azure OpenAI服務。這些元件包括:
Maia的程式設計模型利用訊號量進行非同步程式設計,通過控制處理器和硬體執行緒的協作,實現了計算與記憶體、網路傳輸的高效重疊。開發人員可以根據項目需求選擇Triton或Maia API進行程式設計,前者程式碼簡潔且自動處理記憶體和訊號量管理,後者則要求更多程式碼編寫和明確管理。
通過跨叢集平行計算和片上網路(NOC)的利用,Maia 100進一步提升了性能。其可互換性設計使得開發人員能夠輕鬆地將PyTorch模型遷移到Maia上執行,無需進行大量修改。這一特性結合與Azure的無縫整合,為微軟AI基礎設施上的先進雲AI工作負載提供了全新的解決方案。 (芯榜+)