#Aegaeon
輝達GPU用量削減82%!阿里雲用213張卡取代1192張卡
10月18日消息,南華早報今天(10月18日)發布博文,報導稱在韓國首爾舉辦的第31屆操作系統原理研討會(SOSP)上,阿里雲發布的“Aegaeon”的計算池化解決方案研究成果成功入選,可解決AI模型服務中普遍存在的GPU資源浪費問題。查詢公開資料,SOSP是電腦操作系統領域的頂尖會議,相當於電腦操作系統界的“奧斯卡”,其錄取率控制非常嚴格,平均每年收錄的論文數量僅有數十篇,入選論文代表了操作系統和軟件領域最具代表的研究成果。博文稱雲服務商目前在提供AI模型服務時,面臨嚴重的資源效率低下問題。平台需要同時託管數千個AI模型以處理海量並行API呼叫,但用戶請求往往高度集中在少數幾個熱門模型上,例如阿里巴巴的Qwen系列模型。研究人員發現,這種「長尾效應」導致了嚴重的資源閒置:在阿里雲的模型市場中,竟有17.7%的GPU算力僅被用於處理1.35%的請求,造成了巨大的成本浪費。為解決這個痛點,Aegaeon系統應運而生。它透過創新的GPU資源池化技術,讓單一GPU動態服務於多個不同的AI模型,打破了以往GPU與特定模型繫結的低效率模式。在阿里雲模型市場進行的為期超過三個月的Beta測試中,Aegaeon系統展現了卓越的效能。測試資料顯示,服務數十個參數量高達720億的大模型,所需的輝達H20 GPU數量從1192個成功減少至213個,數量削減高達82%。這項由北京大學與阿里雲合作的研究成果,被認為是「首個揭示並解決市場上並行大語言模型服務存在過高成本」的公開工作,為行業提供了全新的優化思路。值得一提的是,阿里雲首席技術長周靖人也是該論文的作者之一。周靖人是國際電與電子工程師協會會士(IEEE Fellow),國際電腦協會會士(ACM Fellow),阿里巴巴集團副總裁,阿里雲智能CTO、達摩院副院長。 (電子技術應用)