對於一個30億參數的LLM,一個帶有16個IBM AIU NorthPole處理器的研究原型推理裝置提供了巨大的28,356token/秒的系統吞吐量和低於1 ms /token(每使用者)延遲,而16個NorthPole卡在一個緊湊的2U外形上僅消耗672 W。專注於低延遲和高能效,當NorthPole (12 nm)與一套GPU (7 / 5 / 4 nm)在各種功耗下進行比較時,在最低的GPU延遲下,NorthPole提供72.7個更好的能效指標(token/s/ W),同時提供更好的延遲。
介紹
大型語言模型(LLMs)已經在不同的AI任務中取得了顯著的性能基準,例如通過提供程式碼建議來協助程式設計,在標準化測試中表現出色,以及幫助文章,部落格,圖像和視訊的內容建立。
在LLMs的大規模部署中,特別是在人工智慧的大規模部署中,出現了兩個主要且相互衝突的挑戰,即:能源消耗和響應延遲。