中國國內首次!8.9毫秒推理速度破紀錄,1元打穿百萬token

【新智元導讀】當所有人還在為參數內卷時,智能體真正的決勝點已經轉向了速度與成本。浪潮資訊用兩款AI伺服器直接給出了答案:一個將token生成速度幹到10毫秒以內,一個把每百萬token成本打到1元時代。

Agentic AI時代,已經到來!

輝達GTC大會上,老黃公開表示,當AI具備了感知和推理能力時,智能體AI就誕生了。

「它如同數字世界的「機器人」,本質是理解-思考-行動」。

當前,AI智能體革命已至臨界點。國內外科技巨頭紛紛加速佈局,全力爭奪這一賽道主導權。

據Gartner預測,到2028年,AI智能體將參與人類約15%的日常工作決策。

Georgian報告也顯示,如今,91%的企業研究主管正計畫在內部鋪開Agentic AI的落地應用。

然而大規模部署之前,「互動速度」與「成本控制」仍是橫亙在許多企業面前的兩大關鍵挑戰。

這裡有簡單的一個案例,就足以說明一些問題。

國外一支開發團隊基於Azure的OpenAI服務,建構了一個智能體。然而,隨著時間的推移,響應變得越來越慢,一次簡單查詢耗費10秒以上。

當他們用OpenAI API測試完全相同的提示詞後發現:OpenAI響應時間為1-2秒,Azure則需要5-10秒。

同一款模型,同一個提示詞,卻有五倍差異。

要知道,智能體的互動速度,直接決定了使用者體驗的質量。如今,人們對AI響應速度的期待,已從「秒級」進化到「毫秒級」。

不僅如此,成本又直接決定了智能體產業化的可行性。多智能體的協作,對低延遲和token消耗又提出了更高的要求。

分毫必爭的響應速度,決定了人們是否願意買單;而真金白銀的投入,則決定了企業能否持續推動AI智能體落地。

那麼,如何才能既要又要呢?

在2025人工智慧計算大會上,浪潮資訊重磅發佈了兩大破局創新系統:元腦SD200超節點AI伺服器,以及元腦HC1000超擴展AI伺服器。

在元腦SD200上,DeepSeek R1大模型的Token生成速度飆升至8.9毫秒,創下國內LLM推理的最快紀錄,首次將智能體即時互動帶入「10毫秒」時代。

在元腦HC1000上,LLM的推理成本被前所未有地壓縮至「1元/百萬Token」,徹底擊穿規模化部署的成本天花板。

Scaling Law下一站:AI智能體爆發

2025年,大模型的Scaling並未放緩,而是進入了一個全新的階段。

Scaling Law的焦點,早已從「預訓練」轉向了「推理」。

從o3、Gemini 2.5,到Grok 4、GPT-5,全球頂尖AI不斷迭代,每一次發佈都刷新了以往SOTA。

這一演進的節奏仍在加速。爆料稱,GoogleGemini 3.0、OpenAI Sora 2都將於十月初面世。

反觀國內,DeepSeek R1/V3.1-Terminus、Qwen家族等開源模型,月更、周更已成為常態。

在能力邊界上,LLM正從純文字,走向了融合視覺、聽覺的多模態模型,並逐步演變為一個底層「作業系統」。

可以預見,AI能力將依舊會指數級增長——

LLM性能越來越強,所處理的任務長度和複雜度,也在不斷提升。

我們看到,Scaling Law推動的模型參數量,從百億千億向兆、甚至百兆邁進。

與此同時,在後訓練階段增加算力投入,可顯著提升LLM推理能力。

為何這一轉變如此重要?因為「推理」是建構Agentic AI的基礎。

眾所周知,2025年,是「智能體元年」。作為LLM的核心應用形態,智能體落地進入了爆發期。

在這一賽道上,Google、OpenAI、Anthropic等巨頭競相佈局。

比如,OpenAI的「編碼智能體」GPT-5-Codex深受開發者歡迎;另外,還有正在內測的「GPT-Alpha」,具備高級推理、全模態,可以呼叫工具。

然而,AI智能體的產業化落地並非易事。

能力、速度和成本,成為了當前AI智能體產業化決勝的「鐵三角」。

AI不再侷限於技術演示、實驗,而要深入場景,成為創造可衡量價值的核心生產力。

這意味著,商業成功的核心已從單純追求模型能力,轉向對能力、速度、成本三者的綜合平衡。

互動速度:決定智能體的商業價值

在智能體時代,速度不再是錦上添花,而是生存底線。token的吞吐速度,已成為AI應用建構的「隱形計時器」。

在人機互動時代,我們對AI延遲感知不強,只要響應速度跟上人類閱讀思維即可。

一般來說,只要滿足20 token/s輸出速率,就能實現流暢的閱讀體驗。

而現在,AI的遊戲規則徹底改變。

互動主體不再是「人-機」對話,而是「智能體-智能體」的高頻博弈。

延遲那怕是幾毫秒,也可能導致決策失效。而且,在規模化商業部署中,這種差異會被無限放大,形成「以快殺慢」的絕對碾壓。

智能體間互動,多為「小封包」高頻通訊。這好比修了16條車道高速公路,AI只跑兩公里,巨大的頻寬對於小包傳輸如同虛設。

而傳統通訊協議「上下高速」的過程,反而成了主要耗時。

延遲是會層層累加的。當前智能體僅是初露鋒芒,未來網際網路將由它們主導協作。

每一個互動環節的微小延遲,都會在複雜的協同網路中呈指數級放大,最終導致整個應用響應慢到無法接受。

如果延遲無法降低,那就失去了商業化的可能性。

舉個栗子,在欺詐防控場景中,對智能體響應速率提出了極限要求——約10毫秒。

當前,DeepSeek響應速度基本在10-20毫秒左右,其他的普遍高於30毫秒。這遠不足以支援AI的高頻互動。

token成本:規模化的生死線

此外,token成本,是智能體能否實現規模化擴張,並且盈利的關鍵。

即便模型能力卓越,若token成本無法控制在合理範圍內,高頻、並行的實際應用,將難以持續。

一方面,LLM存在著「token膨脹」效應:推理前思考過程已產生上千萬token。一個複雜任務,直接讓token成本指數級暴漲。

那麼,是什麼原因導致token思考數暴增?

首先必須承認的是,模型本身演算法能力差異是影響因素之一。

不同LLM在設計和訓練過程中,演算法架構和最佳化策略各有優劣,而最佳化程度更高的LLM可通過更高效推理路徑,在較少token消耗下完成相同的任務。

其次,底層計算架構選擇路徑等,也會進而影響token成本。

因為LLM運行有依賴於底層的計算架構,包括硬體加速器、分散式運算框架等等。

若是計算架構無法高效支撐LLM推理需求,比如在分佈式系統中存在通訊瓶頸或計算資源分配不均,LLM可能需要生成更多token「繞路」完成任務。

當前,在做AI Coding的程式設計師,每月消耗token數比一年前平均增長約50倍,達到1000萬-5億token。

企業每部署一個智能體,平均token成本大概1000-5000美元。未來五年,token消耗預計增長100萬倍。

可見,不論是速度,還是成本,都成為AI智能體商業化落地的最大挑戰。

面對這個難題,我們該如何解?

兩大核心方案,拿下速度成本難題

浪潮資訊,同一時間給出了兩大解決方案——

元腦SD200超節點AI伺服器

元腦HC1000超擴展AI伺服器

元腦SD200

若要實現更低延遲token生成能力,就需要在底層基礎設施,比如架構、互聯協議、軟體框架等關鍵點上,實現協同創新。

浪潮資訊新的突破,在於元腦SD200超節點AI伺服器。

如前所述,DeepSeek R1在元腦SD200上token生成速度實現了8.9毫秒。

目前,最接近的競爭對手,最好的資料是15毫秒。這是國內首次將智能體即時互動,帶入到10毫秒時代。

為何元腦SD200能夠取得如此大的速度突破?

這背後離不開團隊,融合了智能體應用和超節點開發的技術成果。

  • 首創多主機3D Mesh系統架構

它可以實現單機64路本土AI晶片縱向擴展(Scale Up),提供4TB視訊記憶體和6TB記憶體,建構超大KV Cache分級儲存空間。

而且,單節點即可跑4兆參數LLM,或同時部署多個協作的智能體。

此外,在硬體設計上還支援了「開放加速模組」(OAM),相容多款本土AI晶片。

  • 跨主機域全域統一實體位址空間

團隊還通過遠端GPU虛擬對應技術,突破了跨主機域統一編址的難題,讓視訊記憶體統一地址空間擴展8倍。

它還支援拓撲動態伸縮,可按需擴展128、256、512、1024卡的規模。

通過Smart Fabric Manager,元腦SD200實現了單節點64卡全域最優路由,保障了晶片間通訊路徑最短,進一步縮短了通訊延遲。

最重要的是,互連協議的設計,是元腦SD200實現極低延遲的關鍵。

首先,團隊採用了基建的協議棧,只有物理層、資料鏈路層、事務層三層協議,原生支援Load/Store等「記憶體語義」,GPU可直接訪問遠端節點的視訊記憶體或主存。

並且,基礎通訊延遲達到了「百納秒級」。

其次,浪潮資訊Open Fabric原生支援由硬體邏輯實現的鏈路層重傳,延遲低至微秒級。

不依賴OS、軟體棧,它就能匹配更低延遲、更高吞吐的AI推理場景。

元腦SD200還採用了,分佈式、預防式流控機制,無需丟包或ECN來感知擁塞。

得益於以上高效、可靠的協議設計,元腦SD200實現了業界最低0.69微秒通訊延遲。

當然了,超節點的大規模商業化應用,還必須依靠整機的高可靠的設計。

為此,浪潮資訊從系統硬體層、基礎軟體層、業務軟體層,建構了多層次、可靠的保障機制。

  • 系統硬體層:全銅纜電互連,短距離緊耦合傳輸,每十億小時故障率低於「光模組互聯」方案100倍
  • 基礎軟體層:創新GPU故障資訊轉儲、跨域故障關聯定位等技術,實現全方位可觀測、全端維運自動化
  • 業務軟體層:基於Profiling性能資料啟動故障預隔離和任務自動遷移,保證業務故障預測與自癒,實現推理響應不中斷

在元腦SD200上,團隊還非常強悍地實現了推理性能超線性擴展。這意味著,性能的提升幅度超過了資源投入的增加幅度。

以DeepSeek R1-671B為例,從16卡擴展到64卡,實現了16.3倍超線性的擴展率!

具體來看,元腦SD200將這件事做到了極致的完美:

通過PD分離策略、動態負載平衡等技術,充分發揮出了超節點的架構優勢,讓系統內部的處理流程變得極其高效,資源競爭和擁堵被降到最低。

最終,將通訊耗時控制在了10%以內。

可以設想,在實際高並行場景下,當請求量急劇攀升時,系統能夠高效地將負載均勻分佈至各個計算單元,避免了個別節點的「擁堵」拖累整個系統的響應時間。

這意味著,無論是第1個請求,還是第100萬個請求,都能獲得同樣穩定且低水平的延遲。

既能「跑得快」又能「跑得多」,保證絕對極致的低時延,這就是實現規模化的生命線!

基於軟體生態FlagOS,元腦SD200還能繼續相容更大的生態,主流程式碼即可直接編譯運行。

當前,元腦SD200已實現對Pytorch算子的全覆蓋,AI4S的典型應用可以一鍵遷移。

如下所示,64個AlphaFold 3蛋白質結構預測,即可在一台元腦SD200超節點AI伺服器同時運行。

速度挑戰解決之後,token成本又該怎麼打下來?

元腦HC1000

為此,浪潮資訊給出的答案是——元腦HC1000超擴展AI伺服器。

它基於全對稱DirectCom極速架構打造,能夠聚合海量的本土AI晶片,支援極大的推理吞吐。

對於一個企業來說,在起步探索、POC階段,平台通用性更加重要,可以快速驗證想法,搶佔市場先機。

這對其創新、迭代的速度,至關重要。

但當它進入大規模部署階段,即應用被市場驗證,token呼叫數呈指數級增長是時,核心目標又轉變為——高效、低成本營運。

而元腦HC1000,就能把推理成本打到最低1元/百萬token。

  • 全對稱DirectCom極速架構

DirectCom極速架構,每計算模組配置16顆AIPU,採用了直達通訊的設計,解決了傳統的伺服器架構下,協議轉換和頻寬增強問題,實現了超低延遲。

計算通訊1:1均衡配比,實現了全域的無阻塞的通訊。

傳統意義上,計算與通訊是互斥關係,計算時不會傳輸,計算完成後再傳。

當前,有很多將計算和通訊結合的策略,主要是把原來在傳過程,針對GPU等待時間做最佳化。

除此之外,還包含了許多細粒度的任務,比如不同模型架構,不同並行情況,通訊資料區塊大小和通訊策略都要最佳化,才能提升效率。

HC1000還採用全對稱的系統拓撲設計,可支援靈活PD分離、AF分離,按需配置算力,最大化資源利用率。

它還支援多元算力,讓不同的晶片協同工作。

  • 超大規模無損擴展

同時,HC1000支援超大規模無損擴展,實現從1024卡到52萬卡不同規模的系統建構。

計算側支援DirectCom和智能保序機制,網路側支援包噴灑動態路由,實現了深度算網協同,相較傳統RoCE方法提升1.75倍。

它還支援自適應路由和智能擁塞控制演算法,將KV Cache傳輸對Prefill、Decode計算實例影響降低5-10倍。

總結來看,元腦HC1000是通過「全面最佳化降本」和「軟硬協同增效」,實現了高效token生產力。

它不僅創新了16卡計算模組,單卡成本暴降60%+,每卡分攤系統均攤成本降低50%。

而且,它採用了大規模工業標準設計,降低了系統複雜度的同時,還提高了系統可靠性,無故障執行階段間大幅延長。

系統採用的DirectCom架構保障了計算和通訊的均衡,讓算網協同、全域無損技術,實現了推理性能1.75倍飆升。

通過對LLM的計算流程的細分和模型結構的解耦,實現了計算負載的靈活的按需配比。

單卡MFU計算效率,最高可以提升5.7倍。

元腦SD200+元腦HC1000,成為浪潮資訊兩大「殺手鐧」,分別攻克了AI智能體應用速度和成本難題。

那麼,下一步又該走向何方?

「專用計算架構」是未來

近期,OpenAI在算力佈局上,動作頻頻:

先是和甲骨文簽下3000億美元大單,隨後又獲得輝達100億美元的投資。

緊接著,他們又官宣了「星際之門」五大超算全新選址計畫。

這一系列舉措,無不指向一個核心事實——對於LLM訓練和部署而言,算力需求始終是一個「無底洞」。

當前,AI算力的可持續發展正面臨三大關鍵挑戰:

  • 工程極限:系統規模的擴展已逼近工程能力的上限。
  • 能源壓力:算力的大幅增長給電力基礎設施帶來了巨大負擔。
  • 效能失衡:算力投入和產出失衡,商業兌現處理程序緩慢。

目前,市面上的「AI晶片」仍以通用晶片為主。

GPU,是增加了CUDA核心和矩陣運算Tensor核心的傳統圖形計算晶片;ASIC,則是最佳化了矩陣計算和張量處理的通用矩陣計算晶片。

但正如前文所述,這些基於通用計算架構的方案,正逐漸在能效比和成本效益上觸及瓶頸。

僅是單純依靠堆疊更多計算單元,或是提升製程工藝的傳統路徑,難以沿著scaling Law在算力規模、能耗、成本之間取得平衡。

其原因在於,通用架構雖然適用性強、易於產業化推廣,但效率低下。

相比而言,應用面較窄的專用架構,則有著更高的效率。

對此,浪潮資訊AI首席戰略官劉軍認為,未來的關鍵便是在於「發展AI專用計算架構」:

我們必須推動發展路徑的轉變,要從一味地追求規模擴展,轉向注重提升計算效率。

並以此為基礎,重新構思和設計AI計算系統,大力發展真正面向AI應用的「專用計算架構」。

具體而言,就是從硬體層面來最佳化算子與演算法,定製出大模型專用晶片,進而實現軟硬體層面的深度協同最佳化,即「演算法硬體化」。

只有這樣才能讓性能的Scaling,追上token的高速增長。

這不僅是突破算力瓶頸的必經之路,更是推動AI產業邁向下一階段的基石。

面對大模型時代,浪潮資訊的前瞻性思考為業界指明了一條方向:通過創新計算架構,讓AI更好地走向落地。 (新智元)