開源共建AI推理加速生態。
智東西8月12日報導,今日,華為推出AI推理創新技術——推理記憶資料管理器UCM,通過多級快取顯著最佳化AI推理體驗與性價比。
UCM是一款以KV Cache和記憶管理為中心的推理加速套件,提供全場景系列化推理加速方案,通過推理框架、算力、儲存三層協同,最佳化Tokens在各業務環節中流轉的效率,以實現AI推理的更優體驗、更低成本。
其三大元件包括對接不同引擎與算力的推理引擎外掛(Connector)、支援多級KV Cache管理及加速演算法的功能庫(Accelerator)、高性能KV Cache存取介面卡(Adapter),並通過開放統一的南北向介面,可適配多類型推理引擎框架、算力及儲存系統。
經大量測試驗證,UCM可將首Token時延最高降低90%,系統吞吐最大提升22倍,實現10倍級上下文窗口擴展。
華為計畫在今年9月正式開源UCM,屆時將在魔擎社區首發,後續逐步貢獻給業界主流推理引擎社區,希望通過開放開放原始碼的方式,讓業界共享這一成果,共同推動AI推理生態的繁榮發展。
同時,華為與中國銀聯率先在金融典型場景開展UCM技術試點應用,並聯合發佈智慧金融AI推理加速方案應用成果。
會後,華為資料儲存產品線副總裁、快閃記憶體領域總裁謝黎明,華為資料儲存產品線AI儲存首席架構師李國傑,與智東西等媒體進行深入交流。
李國傑強調,用AI處理更高等級的問題,資訊量和資料輸出會更大,UCM則能夠大幅最佳化成本。今天發佈的UCM,是華為第一次提供如此完整的全流程、全場景且可演進的系統性方案。從單點算力模組轉向系統級最佳化,是一個大的變化和趨勢。業界有很多開源方案有類似的方向,有的是做了其中某一層或某一些元件,但是並未看到可商用的端到端完整方案。
謝黎明談道,開源UCM與業界思路是一致的,華為希望通過開放這些成果,為推理體驗、生態、成本貢獻一份力量,進一步促進框架、儲存、GPU廠商共建和成熟化整套機制,真正解決AI行業化落地的效率和成本問題。
華為公司副總裁、資料儲存產品線總裁周躍峰談道,AI在金融行業大規模使用,推理效率與體驗是關鍵。AI時代,模型訓練、推理效率與體驗的量綱都以Token數為表徵,Token經濟時代到來。
AI推理應用落地過程中面臨三大挑戰:
對此,華為推出UCM推理記憶資料管理器(Unified Cache Manager),通過多級快取解決AI推理體驗與成本問題。
整個AI推理系統中的記憶有三部分:高頻寬記憶體HBM、DRAM都在智算伺服器中,可以充分利用但過去沒有利用起來的是下面的專業共享儲存。
通過一系列演算法,UCM把推理過程中有不同延時要求的資料放在不同的記憶體中,即時記憶資料即熱放在HBM中,短期記憶資料放在DRAM,其他放在共享專業儲存中,通過這樣的按需流動來提升整個系統的效率。
UCM主要分為三部分:頂層是推理引擎外掛(Connector),與業界多樣引擎與多元算力靈活對接,會連接MindIE、SGLang等一些主流推理引擎框架;中間是對快取記憶資料進行分級管理的一些創新加速演算法,運行在智算伺服器中;另一部分是與專業共享儲存相結合的存取介面卡,能提升專業儲存的直通效率和降低時延,可以讓三級儲存更好協同。
通過大量測試,UCM能給推理系統的效率、體驗、成本提升帶來明顯進步。
(1)更快的推理響應:依託UCM層級化自適應的全域前綴快取技術,可實現任意物理位置、任意輸入組合上的KV前綴快取重用,在多輪對話、RAG知識檢索等場景中直接呼叫KV快取資料,避免重複計算,使首Token時延最大降低90%、Token經濟性提升2倍+。
(2)更長的推理序列:通過動態KV逐層解除安裝、位置編碼擴展、Prefill稀疏等組合技術,將超長序列Cache分層解除安裝至外接專業儲存,通過演算法創新突破模型和資源限制,實現10倍級推理上下文窗口擴展,滿足長文字處理需求。
(3)更低的推理成本:具備智能分級快取能力,可根據記憶熱度在HBM、DRAM、SSD等儲存介質中自動分級快取,同時融合多種稀疏注意力演算法,實現存算深度協同,使長序列場景下TPS(每秒處理token數)提升2-22倍,降低每Token推理成本。
UCM受打字輸入法聯想的啟發,提供一套基於後綴檢索的預測聯想演算法,將行業私域資料和使用者習慣建構token級的後綴索引,突破自回歸的聯想限制,可以一次輸出多詞,並且存得越多推得越快,比傳統MTP預測加速效果更好、更適用於企業場景。
KV Cache與記憶資料管理是大語言模型推理中最佳化性能、降低計算成本的核心技術。但國內AI推理生態中尚未形成以其為核心的完整加速軟體體系,相關技術佈局存在短板。
隨著邁入Agentic AI時代,模型規模化擴張、長序列需求激增以及推理任務並行量增長,AI推理的KV Cache容量增長已超出HBM的承載能力,需要建構“軟體最佳化+硬體創新+存算協同”的架構。
UCM可根據資料冷熱分級儲存到不同介質中,使KV Cache容量從GB級增長至PB級,是一種更經濟、更易用的推理加速方案。
其設計理念是通過開放統一的框架和介面,北向支援多樣化的推理引擎連接,南向接入多樣化的儲存系統,中間在推理加速演算法配置方面,開放並呼籲更多的開源和生態夥伴共建豐富的加速演算法庫。
UCM面向開源設計,上層推理引擎外掛介面積極融入主流的開源社區,中間層分級快取管理介面與Mooncake聯合設計,在端到端的XPU直通儲存的儲存標準和產業介面的定義上與多家晶片廠商進行聯合定義。
華為希望聯合產業界的力量,共建共創以記憶資料管理為中心的推理加速新範式。
AI技術迭代飛速,因此UCM著眼於未來設計,從KV Cache分層管理走向Agentic AI原生記憶管理與應用加速,除了今年發佈的推理加速套件(下圖黃色部分)之外,還會持續建構和發佈面向Agent知識感知的多模檢索加速能力以及未來Agent原生記憶的管理和加速能力。
據李國傑透露,UCM大概從去年6-7月份開始孵化,至今差不多一年,僅是演算法方面就有百人級團隊投入,未來會面向Agentic AI做更深演進,可能會繼續增加投入。
談到UCM與其他分級快取管理的差別,李國傑總結了三點:
首先是納入專業儲存。很多分級快取管理是管理一些裸金屬資源,效率不太能滿足商用客戶要求。納入專業儲存後,華為做了大量軟硬系統和解除安裝的事情,比如直通加速、KV Cache生命周期管理等。
第二,業界現有方案在演算法加速庫方面幾乎只有傳統的Prefix Cache一種技術,並沒有像UCM這樣商用全流程稀疏演算法、後綴檢索演算法及其他演算法。相較業界,華為貢獻了一些更加豐富、可靠的或加速效果更好的演算法,這個演算法庫還在持續增加中。
第三,推理場景非常豐富,請求輸入輸出變化多端,各場景下沒有一套框架、一套加速機制、一套演算法是可以普適的,所以需要一套完整、絲滑、能在各場景、各種長短序列、各種請求下做自動切換和自動適應的方案,只有像UCM這樣真正跟客戶場景貼身聯創和迭代的技術才有這樣的能力。
在與中國銀聯的聯合創新技術試點中,UCM的技術價值得到驗證。
在中國銀聯“客戶之聲”業務場景下,借助UCM技術及工程化手段,大模型推理速度提升125倍,僅需10秒即可精準識別客戶高頻問題,促進服務質量提升。
未來,中國銀聯計畫依託國家人工智慧應用中試基地,聯合華為等生態夥伴共建“AI+金融”示範應用,推動技術成果從“實驗室驗證”走向“規模化應用”。
會上,中國信通院人工智慧研究所平台與工程化部主任曹峰分享了大模型推理最佳化的4個主要趨勢:
(1)大模型落地重心從訓練轉向推理,應用從ToC到ToB加速成熟;
(2)推理目標從單點最佳化和功能完備轉向“成本-性能-效果”三目標協同最佳化;
(3)系統級架構最佳化將成主流,頭部廠商2025年陸續推出推理系統級最佳化方案,未來結合“模型-場景-架構”的推理架構設計是技術、產業的發展重點;
(4)KV Cache是架構最佳化焦點,以KV Cache為核心的推理方案迭出,其背後依賴的高性能儲存、先進調度策略的重要性將愈發顯現。
04.
推理已成為AI下一階段的發展重心,直接關聯使用者滿意度、商業可行性等,重要性愈發凸顯。
AI推理從生成式AI時代的簡單推理任務,逐漸向Agentic AI時代的複雜長程推理任務發展,帶來了對算力計算量、記憶體訪問效率、超長上下文處理、Multi-agent狀態共享等方面的性能挑戰。
UCM可通過復用已計算結果、上下文窗口擴展、長記憶保持與共享等技術,減少重複計算與低效記憶體訪問,有效緩解複雜任務產生的資源瓶頸和性能挑戰。
通過融合多類型快取加速演算法工具,UCM能夠更大程度釋放KV Cache與推理框架的性能潛力,實現推理效率的顯著提升,並通過開源開放進一步加速探索最佳化商用AI推理方案的高效路徑。 (智東西)