52萬張GPU叢集塞進一個「盒子」?AI神器破解百模爭霸困局!



「算力」堪稱是AI時代最大的痛。在國外,OpenAI因為微軟造GPU叢集的速度太慢而算力告急。在國內,企業則面臨著「模型算力太多元、產業生態太分散」這一難題。不過,最近新誕生的一款「AI神器」,令人眼前一亮。


如今,快速靈活地獲取算力可謂是剛需,就連OpenAI也不例外。

最近,The Information爆料:曾經約定微軟是獨家雲伺服器供應商的OpenAI,已經開始找其他家要買算力了。

原因就在於,微軟提供算力的速度太慢了!


OpenAI既想要微軟提供更先進、算力更強的GPU叢集,又要他們加快建設進度。

但微軟的計畫是,在明年年底之前為OpenAI提供約30萬塊輝達GB200。

於是,OpenAI找到了甲骨文,開始洽談一個預計可在2026年中獲得幾十萬塊輝達AI晶片的資料中心項目。

無獨有偶,在算力需求這一塊,國內智能算力的年複合增長率預計也將達到33.9%。

但在更進一步的大模型落地上,相比起只缺算力的OpenAI,國內的企業則面臨著更多的挑戰,比如算力資源管理困難、模型微調複雜等等。


模型算力太多元,產業生態太離散

根據賽迪研究院的資料,2023年中國生成式人工智慧企業採用率達15%,市場規模約14.4兆元。

另一方面據公開資料顯示,2023年全年,中國國內市場對大模型公開招投標的項目只有不到200家,金額5個多億;而到了2024年,僅上半年的項目就達到了486個,金額13個多億。

其中,軟體的佔比在2023年為11%,而2024年上半年卻只有5%。相比之下,大模型相關服務則從去年的17%暴漲到今年上半年的30%。也就是說,企業對大模型硬體和服務的需求,基本佔了90%以上。

對比可以發現,模型應用和市場趨勢之間,存在著巨大的鴻溝。

造成這一現象的原因,首先,就是大模型的幻覺問題。

大模型在預訓練階段所用的知識是通用為主,但在企業的專業領域中,如果還是以算機率來驅動的方式生硬輸出,就會答非所問。

第二,要實現大模型與行業場景的深度結合,應用開發流程複雜,應用門檻高。

微調、RAG都要分多個子步驟,應用開發還需要不同專業團隊長期協作,研發難度大,耗時也很長。

第三,在不同場景下,不同業務對模型能力有多樣需求,比如推理速度快、生成精度高、函數和程式碼能力強。

由於業務生成環境往往的多模並存,使用的算力資源也是多元並用的。多模和多元的適配問題,常需要軟體整個重構,難度大,成本高。

此外,在產業生態上,從晶片到軟體框架,再到模型本身,不同廠商的產品資料來源不同、技術標準不一,很難統一適配。


在本地化的大模型應用生成與落地中,這些挑戰會更加顯著。

如何才能讓企業(尤其是傳統企業)的大模型應用迅速落地?

這時,業內迫切地需要高效、易用、端到端的軟硬一體化解決方案,來支撐大模型行業落地。

如果有這樣一種開箱即用的產品,無論是模型本身、應用開發,還是算力問題,都能迎刃而解。


算力即得

針對這些痛點,浪潮資訊推出了堪稱AI應用開發「超級工作台」的元腦企智EPAI一體機。

從算力、平台,到服務,提供了一站式大模型開發平台。


面向真實場景,平台提供了資料處理工具、模型微調工具、增強知識檢索工具、應用開發框架等。

而根據不同模型的能力特點,平台還支援呼叫多模態演算法和多元算力。

最強AI算力平台

為了覆蓋不同的需求,一體機共有5種規格——基礎版、標準版、創新版、高級版、叢集版。


總的來說,元腦企智EPAI一體機具備了卓越的算力性能和極致的彈性架構,可支援延時RDMA網路和高性能平行儲存。

它們通過分佈式平行加速、混合精度計算、高性能算子技術,提升了模型的訓練和推理速度,實現應用高並行高能效處理、業務快速上線的需求。

在訓練穩定性方面,元腦企智EPAI一體機專為LLM訓練微調最佳化提供了斷點續訓能力,為大模型訓練保駕護航,最佳化升級算力池化與分配策略,支援按需彈性擴縮容。

接下來,分別看下五個一體機不同的特點。其中,創新版、高級版和叢集版均能同時支援訓練和推理。

  1. 面向模型推理的基礎版配備了8塊4090D GPU,性價比最高
  2. 標準版則搭載了基於Hopper架構的HGX模組化AI超算平台,8顆GPU通過NVlink高效互聯
  3. 創新版可以為多元算力提供深度適配
  4. 高級版專為那些對算力有極高需求的客戶而定製,並且提供了訓推全流程自動化開發測試工具鏈
  5. 叢集版,顧名思義就是機櫃級的訓推一體機——為那些業務規模較大,有分期建設、按需擴展需求的企業所定製的最高配

值得一提的是,在網路單元上,叢集版配備了浪潮資訊自研的「大模型專用交換機」——超級AI乙太網路交換機X400。

它最高能夠擴展到524,288張GPU的超大規模AI算力系統,而且憑藉AR自適應路由、端到端擁塞控制、亞毫秒級故障自癒等技術,性能提升至傳統RoCE網路的1.6倍。

由此,大型叢集實現了超高吞吐量、高可擴展性和超高可靠性。在LLM訓練性能提升同時,也大幅縮短訓練時長、降低訓練成本。


除了硬體上的創新之外,所有的一體機也全部預置了元腦企智(EPAI)大模型開發平台。

這種軟硬一體化交付,正是浪潮資訊一體機最大優勢所在。


開箱即用

有了元腦企智EPAI,浪潮資訊的一體機才能為企業客戶們,提供開箱即用的能力。

更具體地講,元腦企智EPAI是專為企業AI大模型應用,高效、易用、安全落地而打造的端到端開發平台。

從資料準備、模型訓練、知識檢索、應用框架等工具全面涉及,而且還支援調度多元算力和多元模型。


元腦企智EPAI的完整架構

多元多模

首先,元腦企智EPAI平台最核心的一部分是,平台底座能夠適配多元多模的基礎設施。

多元多模計算框架TensorGlue

多模是指,支援多種模型和多種計算框架。

其中,預置了Yuan2.0、Baichuan2、ChatGLM3、Qwen1.5、GLM4、Llama3等7個基礎大模型,以及應用DEMO樣例。

還有10+計算框架(MegtronLM、DeepSpeed、Pytorch、Transformer、Llamafactory、Fastchat等),以及多種微調能力,如監督微調、直接偏好最佳化、人類反饋強化學習等。

同時,它還能廣泛支援主流基礎大模型結構,支援與使用者自研模型的靈活適配和對接。

多元算力管理調度AIStation

而AIStation的作用在於,能夠對支援超數千節點的AI伺服器。

它可以進行異構算力叢集的統一池化管理,通過自適應系統將訓練底層的計算、儲存、網路環境實現自動化組態。


從開發、訓練、微調,再到應用部署,EPAI能夠實現全生命周期監管和異常全自動化處理。

而且針對不同業務場景,裝置故障自動容錯,保證業務時長高效、穩定運行。


簡單易用

一體機的簡單易用,便體現在了資料準備/生成、微調訓練、推理部署中,全部實現自動化。

從企業大模型開發部署業務流程來看,具備通用知識的LLM,就像剛畢業的大學生一樣,需要學習企業知識。

因此,第一步資料最關鍵。

高品質資料自動生成

當前網際網路訓練資料遠遠不足,尤其是專業化的資料,而AI資料生成恰好能彌補這一弊端。

高品質資料,才是保障AI模型應用效果的第一要素。

那麼企業如何在種類多樣、規模龐巨量資料庫中,生成微調資料,並減少處理成本?又該如何將專業化資料為模型所用?

元腦企智EPAI平台通過高品質資料生成,攻破了難題。

企業僅需將原始資料上傳,元腦企智EPAI將其提取為文字txt,各種結構化/非結構化文件均可支援。

然後利用大模型生成問題答案對,也就是可以直接微調使用的資料。

最後一步通過「微調資料增強」讓AI再自動生成同類型、同主題高品質微調資料。

這一過程,還會對資料抽取後,進行向量編碼。

舉個栗子,「Apple」會被編碼成很長一個向量,其中含了很多豐富的語義資訊。它可能代表水果一類,也可能代表蘋果公司等等。


全鏈路微調訓練工具

有了資料,接下來就要微調模型了。

好在元腦企智EPAI平台對LLM微調時所需的環境、框架、組態程式碼等一系列流程,完成了封裝。

開發者無需動手寫程式碼,就能微調出領域大模型。

從資料匯入、訓練參數組態、資源類型組態等均由平台自動管理,大幅提升微調任務的效率。


訓練微調完成後,模型部署和上線也是由元腦企智EPAI接手,還提供了多種評估的方式。


總之,高效的資料處理工具,支援微調資料自動生成和擴展,為模型微調訓練提供豐富資料來源;豐富、完整的模型訓練工具,支援SFT最佳化方式,訓練之後支援一鍵部署。

此外,元腦企智EPAI還支援API、對話式UI、智能體三類使用方式。


如下是對話式UI介面的樣子。


支援RAG,彌補LLM知識無法及時更新難題

另外,還需考慮的一個問題是,LLM幻覺之所產生,是因為無法及時獲取到新知識。

而元腦企智EPAI整合了浪潮資訊自研的RAG系統,幫助大模型提升了應用效果。

僅需上傳一個原始文件,就可以讓LLM基於文件內容,進行精準問答和資訊檢索,快速建構出領域問答能力。

同時,它還預置了一億條的基礎知識庫,能夠實現端到端30%召回率。


在話式UI介面中,知識庫管理中可以上傳企業、行業、基礎三大類知識。


它還支援檢索溯源、混合檢索、結果重排,由此可以提升端到端檢索精度。


資料安全,隱私保護

一體機另一個優勢在於, 能夠保護企業的私有資料不出域,杜絕資料風險。

內建的元腦企智EPAI平台,可以提供全鏈路的防護,從檔案級資料加密、存取控制,到資料儲存、備份恢復。

它可以精準控制每個使用者資料、模型、知識庫、服務的權限,保障多場景使用安全。


還有內容多級過濾和稽核體系,對使用者輸入、模型輸出進行快速、精準稽核,保障生成內容的安全性與隱私性。



AI應用,每個企業皆可開發

正是因為有以上種種優勢,元腦企智EPAI能廣泛地賦能企業內部的各類應用場景。

比如研發的程式碼生成、部門助理,生產的故障識別、維修方案生成,銷售的智能客服、文案協作,行政的招聘助手,公文寫作等。

開發速度快到低至1周,培訓周期短到最快3天。


在浪潮資訊內部,元腦企智EPAI就已經大大加快了大家的工作流。

以前如果有數百萬行私有程式碼,註釋少,可讀性差,需要參考幾十頁上下文的PDF,專業工程師單個函數開發就需要3周。

但現在浪潮資訊利用智能程式設計助手,可以直接把開發周期縮短至2天。

它能對數十萬行程式碼自動解析,由AI自動生成超過65%的計算框架程式碼,為研發工程師每天節省了近3個小時的程式碼。

而基於元腦企智EPAI打造的智能客服大腦「源小服」,涵蓋了10+年的產品資料和5000+複雜場景,直接學習了2萬餘份產品文件、使用者手冊,百萬餘條對話等材料。

對於常見技術問題的解決率達到了80%,整體服務效率提升了160%,斬獲了《哈佛商業評論》「鼎革獎」的年度新技術突破獎。



百模爭霸,不再卡在落地

因為具有以上優勢,元腦企智EPAI一體機就為使用者解決了燃眉之急。

其中一類重要客戶,就是傳統製造業客戶。

尤其是大型製造業客戶,無論是CIO、團隊,還是三產公司,在資料、人員、技術方面都有很多積累,而應用本身也有應用牽引的趨勢。

而另一類,就是傳統的ISV(獨立軟體開發商)客戶。

對於他們,浪潮資訊有上百號博士團隊在做算力、演算法、框架的應用開發工作,在算力上也很強,優勢明顯。

還有一些使用者,需要有對大模型專門的調優能力。

目前的情況是,對於非常專業的應用領域,國內能賣相關服務不多,花很高的代價,也未必找得到。

原本浪潮資訊有這個能力,但沒有開放。如今,浪潮資訊把經驗、服務都整合到了一體機的產品中,正好滿足了他們的需求。

在浪潮資訊看來,如今大模型落地的最大痛點,不是演算法,也不是產品,而是行業的know-how。

如果資料不ready,也很難通過一個工具、一個軟體或一台裝置去解決。

但這時如果有一個一體機的產品,還能跟懂行業、懂資料但不懂AI的ISV互相賦能,大模型的落地就會變得很容易。

從2021年開始到現在,浪潮資訊已成行業裡的骨灰級玩家。比如2021年做完源1.0後,22年浪潮資訊就已經在用RAG做內部智能客服系統。

如今,憑著對模型本身的know-how,以及模型使用上的know-how,浪潮資訊再次賦能自己的合作夥伴,加速企業大模型應用開發,打通了大模型落地最後一公里的難題。 (新智元)