#徐直軍
華為輪值董事長徐直軍:未來不具備“六個A”特徵的企業將被淘汰
在當前全球科技浪潮中,人工智慧(AI)無疑是最具顛覆性和影響力的技術之一。它正以驚人的速度滲透到各行各業,重塑著商業模式、生產方式乃至社會結構。麥肯錫和史丹佛大學的研究報告清晰地指出,AI的應用已不再侷限於實驗室,而是深度融入了企業的產品開發、市場行銷和日常營運等核心環節,其所帶來的變革效應遠超以往任何一項技術創新。全球的企業高管們普遍對AI的未來發展抱持著高度積極的預期,這標誌著我們正共同邁向一個由AI驅動的、全面智能化的嶄新時代。正是在這樣的時代背景下,華為輪值董事長徐直軍在2024年全聯接大會上,高瞻遠矚地提出了未來企業應具備的“六個A”特徵。整整一年時間過去了,當初的預言應驗了嗎?01. “六個A”智能化時代的企業核心特徵徐直軍提出的“六個A”理念,巧妙地將未來企業的智能化特質劃分為兩個相互關聯的層面:前四個“A”聚焦於智能化所能帶來的外部效果和業務成果,即企業如何通過智能化提升客戶體驗、產品競爭力、營運效率和員工效能;而後兩個“A”則構成了實現這些效果的內在基礎和支撐保障,即企業需要建構怎樣的數位化和智能化基礎設施。它們共同勾勒出一幅未來智能企業的全景圖,涵蓋了客戶服務、產品創新、營運管理、員工賦能以及底層技術支撐等多個關鍵維度。1. Adaptive User Experience(自適應體驗)定義與內涵:自適應體驗,顧名思義,是指企業能夠根據使用者的即時情境、個性化需求和行為變化,動態調整併提供高度定製化的產品與服務。它超越了傳統意義上的“個性化”,更強調一種情境感知、主動響應和持續最佳化的能力。這意味著企業不僅要能識別使用者的顯性需求,更要洞察其潛在意圖、情緒變化和所處環境,從而在恰當的時機、以恰當的方式,提供最符合使用者預期的體驗。通俗解讀:想像一下,你打開一個購物APP,它能根據你最近的瀏覽記錄、購買習慣,甚至你所在城市的即時天氣,為你推薦最合適的商品;當你使用導航軟體,它不僅能規劃最佳路線,還能根據即時路況、你的駕駛習慣,甚至你的目的地類型(如去機場會提醒你預留更多時間),動態調整導航策略。這種“懂你”的體驗,讓每一次互動都充滿驚喜和便捷。案例與影響:個性化推薦系統是自適應體驗最直觀的體現。例如,YouTube的視訊推薦系統通過複雜的神經網路,對海量視訊進行篩選和排序,為使用者提供高度契合其口味的視訊流。類似地,Netflix的電影推薦、Spotify的音樂歌單等,都利用AI技術深度分析使用者資料,實現千人千面的內容呈現。此外,AI驅動的客戶體驗管理(CEM)平台能夠整合多元管道的客戶資料,利用大語言模型進行情感分析和意圖識別,幫助企業精準定位客戶痛點,主動提供定製化的解決方案。2. Autonomous Products(自演進產品)定義與內涵:自演進產品,是指那些具備自我學習、自我最佳化和自我迭代能力的產品。它們不再是“靜態”的物品,而是擁有“生命力”的智能實體,能夠通過持續收集使用者資料和環境反饋,利用內建AI演算法進行分析學習,主動調整功能、最佳化性能,甚至實現自我升級。通俗解讀:想像一下你買了一輛智能汽車,它會默默學習你的駕駛習慣,自動最佳化能耗、調整懸掛。更神奇的是,它還能通過“空中升級”(OTA)的方式,在夜間自動下載並安裝最新的軟體,讓你的車每天都比昨天更智能、更安全,就像一個會不斷成長的夥伴。案例與影響:特斯拉的自動駕駛系統是自演進產品的典型代表。它通過收集全球數百萬輛汽車的真實駕駛資料,利用深度學習演算法不斷最佳化其自動駕駛模型,並通過OTA技術定期推送軟體更新,持續提升功能和性能。在產品設計階段,AI驅動的產品原型迭代也已極大加速創新周期。例如,Adobe的Firefly等生成式AI工具,允許設計師通過簡單的文字描述,快速生成多種複雜的視覺元素和設計方案,極大地拓寬了創意探索的邊界。3. Autonomous Operations(自治的營運)定義與內涵:自治的營運,是指企業營運流程的高度自動化、智能化和自我管理能力。它超越了傳統自動化僅執行預設指令的範疇,強調的是營運系統能夠自我感知、自我決策、自我最佳化和自我修復,在無需或極少人工干預的情況下,獨立完成從資料採集、分析、決策到執行的全過程。通俗解讀:想像一個大型港口,無人駕駛的集卡精準穿梭,智能龍門吊自動抓取和放置集裝箱,整個物流系統通過AI演算法進行即時路徑規劃和任務分配。當某個環節出現異常,系統能夠立即感知並自動調整方案,甚至自我修復,確保整個港口營運的順暢。人類員工則從繁重的體力勞動中解放出來,專注於更具戰略性的工作。案例與影響:智能工廠是自治營運的典型實踐。例如,西門子安貝格電子工廠通過高度自動化和數位化,實現了生產過程的幾乎完全自治。在物流領域,亞馬遜的智能倉儲系統利用數萬台Kiva機器人和AI演算法,實現了貨物的自動分揀、搬運和儲存。在IT維運領域,AIOps(AI for IT Operations)平台通過對海量IT系統資料進行即時分析,能夠自動發現異常、診斷故障根源,並觸發自動化修復流程。4. Augmented Workforce(增強的員工)定義與內涵::增強的員工,是指通過深度融合AI技術,賦能並提升人類員工的工作能力、效率和創新潛力的工作模式。在這裡,AI並非“替代者”,而是作為人類的“智能助手”或“超級工具”,與員工協同工作,放大人類的認知優勢、創造力和情感智慧。通俗解讀:想像一下,你是一名醫生,在診斷疑難雜症時,AI助手能迅速分析患者的所有醫療資料,並結合全球最新的醫學研究成果,為你提供多個可能的診斷建議和治療方案。你是一名設計師,AI助手能根據你的草圖和理念,快速生成數千種結構最佳化、材料選擇的方案。AI讓你的工作變得更輕鬆、更智能,也更有價值。案例與影響:世界經濟論壇的白皮書《增強的員工:賦能於人,促進製造業轉型》深入探討了增強技術如何重塑製造業的未來。一個典型的例子是營運商基站的現場維護人員,通過維護助手APP,他們可以利用AI技術,快速獲取故障位置、故障根因分析和詳細的處理建議,顯著提升了維護效率。徐直軍董事長強調,“讓AI造福於人類是AI存在的意義,讓員工有更好的工作體驗是每個企業在智能化時代競爭力的關鍵基礎。”5. All-Connected Resources(全量全要素全聯接)定義與內涵:全量全要素全聯接,是建構智能化企業的核心基礎和先決條件。它要求企業實現內部和外部所有資源、要素的全面、深度互聯互通,將企業的資產、員工、客戶、夥伴、生態等所有環節,以及所有業務對象、過程和規則進行徹底數位化和網路化,為上層AI應用提供深度、全面、高品質的資料和資訊基礎。通俗解讀:想像一下,你的企業是一個有機的、高度協同的生命體。每一台機器、每一個員工、每一位客戶都像神經元一樣緊密相連,即時傳遞資訊。當客戶下單,資訊會瞬間傳達到生產線、庫存系統、供應商和物流系統,形成一個清晰透明的“數字孿生”企業,讓你能即時、全面地掌握企業的每一個細節。案例與影響:工業網際網路平台是全量全要素全聯接的典型代表。例如,海爾的COSMOPlat平台通過連接工廠內外的各種裝置、系統和人員,實現了從使用者需求到產品設計、製造、交付和服務的全流程數位化。在供應鏈管理中,通過整合物聯網(IoT)、區塊鏈和AI技術,企業可以實現對供應鏈各環節的即時監控和資訊共享,最佳化庫存管理和物流配送。6. AI-Native Infrastructure(智能原生基礎設施)定義與內涵:智能原生基礎設施,是支撐智能化企業高效運行的最底層、最核心的基石。它是一種從設計之初就將AI深度融入其中,為AI而生、為AI最佳化的全新基礎設施範式,包含ICT for Intelligence(為智能而生的ICT)和Intelligence for ICT(用智能管理ICT)兩個維度。通俗解讀:傳統的IT基礎設施就像一座普通的房子,你可以在裡面安裝智能家電。而“智能原生基礎設施”就像一座從地基開始就為未來智能生活而設計的“超級智能建築”。它不僅擁有超強的算力、網路和儲存,其本身就是一個“會思考”的智能系統,能夠自我感知、自我調節,始終為AI應用提供最穩定、最高效、最安全的運行環境。案例與影響:思科(Cisco)的AI原生網路基礎設施旨在通過創新的網路架構和AI技術,提升資料中心的網路性能,以滿足日益增長的AI工作負載需求。華為自身也在積極投入智能原生基礎設施的建設,通過推出昇騰(Ascend)系列AI晶片、Atlas AI計算平台和MindSpore AI開發框架,建構從底層硬體到上層軟體的全端AI能力。大型雲服務提供商也都在積極建構和提供AI原生基礎設施服務。02. 一年來的發展驗證自徐直軍董事長在2024年全聯接大會上提出“六個A”的理念以來,過去一年的AI技術和產業發展,以驚人的速度驗證了這一框架的深刻預見性。從大型語言模型(LLM)到多模態互動,再到AI Agent(智能體)的興起,每一項技術突破都在為“六個A”的實現添磚加瓦,使其從未來憧憬加速變為產業現實。1. 自適應體驗(Adaptive User Experience)的深化:過去一年,AI正推動使用者體驗從“個性化”邁向“超個性化”和“情境化”。多模態AI的進展尤為突出,技術正從單一的文字或語音互動,轉向能夠理解和融合圖像、聲音、文字乃至使用者情緒的綜合互動模式。Gartner預測,到2030年,80%的企業軟體和應用將具備多模態能力,而2024年這一比例尚不足10%。這意味著未來的應用將能“察言觀色”,更精準地理解使用者意圖。同時,AI Agent的興起,預示著一種更主動的服務模式。Botpress指出,定製的AI代理、個性化的銷售推廣和個性化的人工智慧購物者已成為公司滿足個性化需求的方式,超個性化是下一個重要的差異化因素,零售、醫療保健和金融等行業都在向超個性化靠攏,以加深客戶參與度並建立忠誠度。CSDN的報告也強調,AI驅動的自適應介面通過感知使用者特徵、任務上下文及環境狀態,動態調整互動形式以最佳化使用者體驗,其核心區別於傳統靜態介面和可適應介面,在於AI演算法實現無感化、預測性的介面調整。未來的智能助手將不再僅僅被動響應指令,而是能夠預測使用者需求,主動發起服務、完成任務,這正是自適應體驗的終極形態。2. 自演進產品(Autonomous Products)的加速: AI正在從產品的“附加功能”轉變為驅動產品創新的“核心引擎”。過去一年,我們看到越來越多的AI驅動設計工具湧現,它們能夠將自然語言描述轉化為程式碼、將草圖變為高保真原型,極大地壓縮了產品從概唸到市場的周期。更重要的是,AI Agent和自學習演算法正被更深地整合到產品內部。微軟等巨頭預測,到2025年,新一代AI驅動的代理將能夠處理更複雜的任務,甚至代表使用者執行操作。這意味著產品不僅能通過OTA更新功能,更能在使用過程中通過自我學習和與環境的互動,實現持續的性能最佳化和功能演進,真正成為“活”的產品。3. 自治的營運(Autonomous Operations)的普及:“自治”正成為企業營運追求的新目標。過去一年,AIOps市場持續高速增長,據Fortune Business Insights預測,全球AIOps市場規模在預測期內的復合年增長率將達到21.4%。這背後是企業對提升IT系統韌性和效率的迫切需求。同時,AI Agent在企業流程自動化(BPA)中的應用也成為焦點。UiPath等自動化領域的領導者認為,企業級代理自動化平台將在2025年大量湧現,它們能夠編排和管理複雜的業務流程,實現更高層次的“自治”。Gartner更是將自主AI系統列為2024年新興技術成熟度曲線上的關鍵技術,認為它們能在幾乎無人監督的情況下運行、自我完善並做出有效決策。4. 增強的員工(Augmented Workforce)的實現: AI賦能員工,從口號變成了企業提升生產力的核心戰略。過去一年,整合在各類辦公軟體中的AI助手(如Microsoft Copilot、金山WPS AI)大規模普及,它們能夠幫助員工起草郵件、總結文件、分析資料,成為員工日常工作中不可或缺的“副駕駛”。普華永道發佈的《2025年全球人工智慧就業晴雨表》顯示,AI正推動生產力實現數倍提升,並且在受AI影響最大的職位中,甚至帶來了顯著的薪資溢價。這有力地證明了AI並非簡單地替代人類,而是通過人機協作,將員工從重複性勞動中解放出來,專注於更高價值的創造性工作,從而實現個人與企業的共同增值。5. 全量全要素全聯接(All-Connected Resources)的夯實:如果說AI是“大腦”,那麼無處不在的聯接就是“神經網路”。過去一年,物聯網(IoT)和工業網際網路的發展持續為AI提供著豐富的資料“養料”。各國政府和行業組織都在加速物聯網相關標準的制定,例如中國計畫到2025年新制定30項以上物聯網領域國家標準,為更大規模的裝置互聯鋪平道路。世界物聯網解決方案大會2025年將重點關注物聯網、人工智慧、邊緣計算和數字孿生等技術。同時,數字孿生技術在智慧城市、智能製造等領域的應用日益深化,通過建構物理世界的精準數字鏡像,實現了對業務流程的全面洞察和模擬最佳化。2024年湧現的大量數字孿生城市技術應用案例,正是全量全要素全聯接理念走向成熟的明證。工業網際網路產業增加值在2024年達到1.53兆元,較2023年增長10.0%,人才總量達63萬,同比增長15.81%。這種深度的數位化和網路化,是實現前四個“A”的堅實基礎。6. 智能原生基礎設施(AI-Native Infrastructure)的競賽:對AI算力的巨大需求,引爆了全球範圍內的智能原生基礎設施建設競賽。過去一年,以NVIDIA的Blackwell平台為代表的AI晶片持續迭代,性能不斷突破極限,為其帶來了創紀錄的營收增長。與此同時,各大科技巨頭和雲端運算廠商紛紛投入巨資,建構為AI最佳化的資料中心和網路架構。這完美印證了“ICT for Intelligence”的趨勢。另一方面,“Intelligence for ICT”也取得了長足進步,越來越多的AI技術被用於資料中心自身的節能降耗、智能維運和安全防護,確保了龐大的AI基礎設施能夠高效、穩定地運行。這場圍繞算力的競賽,正是企業智能化轉型的“軍備競賽”,誰擁有更強大的智能原生基礎設施,誰就掌握了通往未來的主動權。03. 結  論華為輪值董事長徐直軍在2024年提出的“六個A”——自適應體驗、自演進產品、自治的營運、增強的員工、全量全要素全聯接和智能原生基礎設施——共同描繪了智能化時代企業未來發展的宏偉藍圖。過去一年的AI發展浪潮,不僅沒有讓這六大趨勢過時,反而以無可辯駁的事實驗證了其深刻的洞察力和預見性。這“六個A”並非孤立存在,而是相互關聯、層層遞進的有機整體:全量全要素全聯接和智能原生基礎設施構成了企業智能化的堅實底座和“數字神經系統”,為AI的運行提供了“燃料”和“大腦”;在此基礎上,自治的營運和增強的員工實現了企業內部營運效率和員工效能的革命性提升;最終,這些內部能力的提升共同驅動了自演進產品的持續創新,並為客戶帶來了極致的自適應體驗。未來的企業將不再是簡單的產品或服務提供者,而是一個能夠深度理解客戶、持續自我進化、高效自主營運、充分賦能員工的智能生命體。這意味著企業需要從戰略規劃到技術實施,從組織架構到人才培養,進行全方位的深刻變革。只有那些能夠深刻理解並有效踐行“六個A”理念的企業,才能在日益激烈的市場競爭中立於不敗之地,真正把握住全面智能化的時代機遇,邁向更加輝煌的未來。 (風起堂觀察)
華為徐直軍:昇騰晶片是華為AI算力戰略的基礎
在最近舉行的華為全聯接大會上,華為輪值董事長徐直軍發表演講,他表示算力的基礎是晶片,而昇騰晶片是華為AI算力戰略的基礎。女士們、先生們,各位老朋友、新朋友,大家早安!歡迎來參加2025年華為全聯接大會,時隔一年,很高興能再次與大家相聚在上海。我想大家都能感受到,過去的一年對所有AI從業者、關注者來講是記憶深刻的一年,DeepSeek橫空出世,讓全國人民過了一個快樂的AI年,也讓所有大模型訓練者開啟了不知多少個不眠之夜,調整訓練方式,復現DeepSeek結果,當然也給我們帶來了巨大衝擊當然。從春節開始,到今年4月30日,經過多團隊的協同作戰,終於讓Ascend 910B/910C的推理能力達成了客戶的基本需求。在進入今天的具體分享之前,請容許我回顧去年的HC,我講到如下幾點:第一、智慧化的可持續,首先是算力的可持續;第二、中國半導體製造流程將在相當長時間處於落後狀態;第三、可持續的算力只能基於實際可取得的晶片製造製程;第四、人工智慧成為主導性算力需求,促使運算系統正在發生結構性變化;第五、開創運算架構,打造「超節點+叢集」算力解決方案持續滿足算力需求。但第五點沒有展開講,本來想講,但我的團隊不同意。今天,我想利用此機會,來把我去年HC沒有完成的任務完成,也算是答案卷。我今天分享的主題是:「以開創的超節點互聯技術,引領AI基礎設施新範式」,也是回答去年HC提到的第五點:如何開創運算架構,打造「超節點+叢集」算力解決方案來持續滿足算力需求。在展開今天主題前,回到DeepSeek對產業界、對華為的衝擊,DeepSeek開源後,我們的客戶對華為的昇騰發展指出了很多問題,也充滿了期待,並一直在給我們不斷地提建議。為此,經過內部的充分討論並達成共識,我們於2025年8月5日在北京專門舉辦了昇騰產業峰會,我代表華為給出了回應,在座的有的參加了,有的可能沒有參加。今天,我也利用此機會就主要的決定來向大家報告。主要有四點:一、華為堅持昇騰硬體變現;二、CANN 編譯器和虛擬指令集介面開放,其它軟體全開源,CANN基於Ascend 910B/C的開源開放將於2025年12月31日前完成,未來開源開放與產品上市同步;三、Mind系列應用使能套件及工具鏈全面開源,並於2025年12月31日前完成;四、openPangu基礎大模型全面開源。接下來回到今天的主題。儘管DeepSeek開創的模式可以大幅減少算力需求,但要走向AGI、要走向實體AI,我們認為,算力,過去是,未來也將繼續是人工智慧的關鍵,更是中國人工智慧的關鍵。算力的基礎是晶片,昇騰晶片是華為AI算力戰略的基礎。自2018年發表Ascend 310晶片,2019年發表Ascend 910晶片,到2025年,Ascend 910C晶片隨著Atlas 900超節點規模部署,為大家所熟悉。在過去幾年,客戶和夥伴們對昇騰晶片有很多訴求,對昇騰晶片也有很多期待。面向未來,華為的晶片路標是如何規劃的?想必是大家普遍關心的話題,也可能是最關心的內容。因此,今天,我將直入主題來介紹昇騰晶片及其路標。我很確定地告訴大家,昇騰晶片將持續演進,為中國乃至世界的AI算力構築堅固根基。未來3年,至2028年,我們在開發和規劃了三個系列,分別是Ascend 950系列,包括兩顆晶片:Ascend 950PR和Ascend 950DT,以及Ascend 960、Ascend 970系列,更多具體晶片還在規劃中。以下我分別介紹快要推出的和已規劃的4顆昇騰晶片。我們正在開發、且即將推出的晶片叫Ascend 950系列。我先介紹Ascend 950系列的晶片架構,Ascend 950 PR和Ascend 950 DT共用了Ascend 950 Die。與前一代昇騰晶片相比,Ascend 950 在以下幾個方面實現了根本性提升。第一,新增支援業界標準FP8/MXFP8/MXFP4等低數值精確度資料格式,算力分別達到1P和2P,提升訓練效率與推理吞吐。並特別支援華為自研的HiF8,在維持FP8的高效率的同時,精準度非常接近FP16。第二,大幅度提升了向量算力。這主要透過三個面向實現:其一,提升向量算力佔比;其二,採用創新的新同構設計,即支援SIMD/SIMT 雙程式設計模型,SIMD能夠像流水線一樣處理「大塊」向量,而SIMT便於靈活處理「碎片化」資料;其三,把記憶體存取顆粒度從512字節減少到128個字節減少到128個字節,從而讓記憶體存取。第三,互聯頻寬相比Ascend 910C提升了2.5倍,達到2TB/s。第四,結合推理不同階段對於算力、記憶體、訪存頻寬及推薦、訓練的需求不同,我們自研了兩種HBM,分別是:HiBL 1.0和HiZQ 2.0。不同的自研HBM與Ascend 950 Die合封,分別構成晶片Ascend 950PR:面向Prefill和推薦場景,以及Ascend 950DT:面向Decode和訓練場景。以下分別介紹。首先是我們的第一顆晶片,Ascend 950PR,主要面向推理Prefill階段和推薦業務場景。首先,我們發現,隨著Agent的快速發展,輸入上下文越來越長,首Token輸出階段佔用運算資源越來越多。其次是在電子商務、內容平台、社群媒體等業務應用中,要求推薦演算法具有更高的準確度和更低的時延,對運算能力的需求也越來越大。推理Prefill階段和推薦演算法都是運算密集型,對計算並行的能力要求高,但對記憶體存取頻寬的需求相對低。透過分級記憶體解決方案,推理Prefill階段和推薦演算法對本地記憶體容量的需求相對也不高。 Ascend 950PR 採用了華為自研的低成本HBM,HiBL 1.0,相比高性能、高價格的HBM3e/4e,能夠大大降低推理Prefill階段和推薦業務的投資。這顆晶片將在2026年第一季推出,首先支援的產品形態是標卡和超節點伺服器。接下來這一顆是Ascend 950DT,比起Ascend 950PR,它更注重推理Decode階段和訓練場景。由於推理Decode階段和訓練對互聯頻寬和訪存頻寬要求高,我們開發了HiZQ 2.0,使記憶體容量達到144GB,記憶體存取頻寬達到4TB/s。同時把互聯頻寬提升到了2TB/s。其次,支援了FP8/MXFP8/MXFP4/HiF8資料格式。Ascend 950DT 將在2026年Q4推出。第三顆是在規劃中的晶片Ascend 960。它在算力、記憶體存取頻寬、記憶體容量、互聯埠數等各種規格上相比Ascend 950翻倍,大幅提升訓練、推理等情境的效能;同時也支援華為自研的HiF4資料格式。它是目前業界最優的4bit精度實現,能進一步提升推理吞吐,並且比業界FP4方案的推理精度更優。Ascend 960將在2027年第四季推出。最後一顆是在規劃中的Ascend 970,這顆晶片的一些規格還在討論中。整體方向是,在各項指標上大幅升級,全面升級訓練和推理表現。目前的初步考量是,相較於Ascend 960,Ascend 970的FP4算力、FP8算力、互聯頻寬要全面翻倍,記憶體存取頻寬至少增加1.5倍。 Ascend 970計劃在2028年第四季推出。大家屆時可以期待它的驚人表現。這是剛才介紹的昇騰晶片的主要具體規格和路標,總體上,我們將以幾乎一年一代算力翻倍的速度,同時圍繞更易用,更多數據格式、更高頻寬等方向持續演進,持續滿足AI算力不斷增長的需求。可以看到,相較於Ascend 910B/910C,從Ascend 950開始的主要變化包括:引進SIMD/SIMT新架構,提升程式設計易用性;支援更豐富的資料格式,包括FP32 /HF32 /FP16/BF16/FP8/MXFP8/HiF8/MXFP4/HiF4等;支援更大的互聯頻寬,其中950系列為2TB/s,970系列提升到4TB/s;支援更大的算力,FP8算力從950系列的1 PFLOPS提升到960的2 PFLOPS、970的4 PFLOPS;FP4算力從950的2 PFLOPS提升到960的4 PFLOPS、9708 PFLOPS;記憶體容量逐漸加倍,而記憶體存取頻寬將翻兩番。有了以昇騰晶片為基礎,我們就能夠打造出滿足客戶需求的算力解決方案。從大型AI算力基礎設施建設的技術方向來看,超節點已經成為主導性產品形態,並且正在成為AI基礎設施建設的新常態。超節點事實上就是一台能學習、思考、推理的計算機,物理上由多台機器組成,但邏輯上以一台機器學習、思考、推理。隨著算力需求的持續成長,超節點的規模也持續、快速增加。今年3月份,華為正式推出了Atlas 900超節點,滿配支援384卡。因為是超節點,這384顆Ascend 910C晶片,能夠像一台電腦一樣運作,最大算力可達300 PFLOPS。到目前為止,Atlas 900依然是全球算力最大的超節點。大家常聽到的CloudMatrix384超節點,是華為雲端基於Atlas 900超節點所建構的雲端服務實例。 Atlas 900超節點自上市以來,已累積部署超過300套,服務20多個客戶,涵蓋網路、電信、製造業等多個產業。可以說,Atlas 900於2025年,開啟了華為AI超節點的旅程。今天,結合我們已經推出或正在研發中的昇騰晶片,我將為大家帶來更多超節點和叢集產品。現在進入今天最令人興奮的時刻,就是新產品發布環節。今天我要發佈的第一款產品,Atlas 950超節點,基於Ascend 950DT打造。Atlas 950超節點支援8192張基於Ascend 950DT的昇騰卡,是Atlas 900超節點的20多倍,我們習慣稱呼的昇騰卡,每張卡對應一顆Ascend 950DT晶片,8192張昇騰卡等同於8192顆Ascend 950DT晶片。Atlas 950超節點滿配包括由128個計算櫃、32個互聯櫃,共160個機櫃組成,佔地面積1000平方米左右,櫃間採用全光互聯。總算力大幅提升,其中,FP8算力達8E FLOPS,FP4算力達16E FLOPS。互聯頻寬達到16PB/s,這個數字意味著,Atlas 950一個產品的總互聯頻寬,已經超過今天全球互聯網峰值頻寬的10倍有餘。Atlas 950超節點的上市時間是:2026年第四季。我們很自豪的看到,Atlas 950超節點,至少在未來多年都將保持是全球最強算力的超節點,並且在各項主要能力上都遠超業界主要產品。其中,相較於輝達同樣將在明年下半年上市的NVL144,Atlas 950超節點卡的規模是其56.8倍,總算力是其6.7倍,內存容量是其15倍,達到1152TB;互聯頻寬是其62倍,達到16.3PB/s。即使是與輝達計畫2027年上市的NVL576相比,Atlas 950超節點在各方面依然是領先的。算力、記憶體容量、記憶體存取速度、連網頻寬等能力的大幅增強,為大模型訓練效能和推理吞吐帶來顯著提升。相較於華為已推出的Atlas 900超節點,Atlas 950超節點的訓練效能提升17倍,達到4.91M TPS。透過支援FP4資料格式,Atlas 950超節點的推理效能提升達26.5倍,達到19.6M TPS。8192卡超節點並不是我們的終點,我們還在繼續努力。我今天發布的第二款超節點產品,Atlas 960超節點。基於Ascend 960,Atlas 960超節點最大可支援15488卡。 Atlas 960超節點由176個計算櫃,44個互聯櫃,共220個機櫃,佔地約2200平方公尺。Atlas 960超節點的上市時間是:2027年第四季。伴隨卡片的規模的再次升級,Atlas 960超節點讓我們在AI超節點的優勢再度增強。基於Ascend 960,其總算力、記憶體容量、連網頻寬在Atlas 950基礎上再翻倍。其中,FP8總算力將達到30E FLOPS,而FP4總算力將達到60 EFLOPS;記憶體容量達到4460TB,連網頻寬達到34PB/s。大模型訓練與推理的效能相比Atlas 950超節點,將分別提升3倍和4倍以上,達到15.9M TPS 和80.5M TPS。透過Atlas 950和Atlas 960,我們對於為人工智慧的長期快速發展提供永續且充裕算力,充滿信心。超節點已經重新定義AI基礎設施的範式,但不僅限於AI。在通用運算領域,我們也認為,超節點技術能夠帶來很大的價值。從需求角度考慮,金融核心業務等目前仍然有部分承載在大型機和小型機之上,相比普通伺服器叢集,它們對伺服器的性能和可靠性有更高的訴求,通用計算超節點在這兩點上正好切合需求。從技術角度考慮,超節點同樣可以為通算領域注入全新活力。因此,鯤鵬處理器主要圍繞支援超節點,更多核心、更高效能等方向持續演進。同時,透過自研的雙執行緒靈犀核,讓鯕鵬處理器能方便支援更多執行緒。2026年Q1,我們將推出Kunpeng 950處理器,包含兩個版本,分別是:96核心/192執行緒和192核心/384執行緒;支援通用運算超節點;安全性方面新增四層隔​​離,成為鯤鵬首顆實現機密運算的資料中心處理器。2028年Q1,鯤鵬處理器將在晶片微架構、先進封裝技術等領域持續突破關鍵技術,將再次推出兩個版本,分別是高效能版本,96核心/192線程,單核心效能提升50%+,主要面向AI host、資料庫等場景。以及高密版本,不少於256核心/512線程,主要面向虛擬化、容器、大數據、數倉等場景。接下來是今天我發布的第三款產品:TaiShan 950超節點,基於Kunpeng 950打造,全球首個通用運算超節點,其最大支援16節點,32個處理器,最大記憶體48TB,同時支援記憶體、SSD、DPU池化。這款產品不只是通用運算領域的技術升級,除了大幅提升通用運算場景下的業務效能,還能幫助金融系統破解核心難題。目前大型主機、小型主機替換的核心挑戰是資料庫分散式改造,而基於TaiShan 950超節點打造的GaussDB多寫架構,無需改造,但效能提升2.9 倍,最終可平滑取代大型主機、小型主機上的傳統資料庫。 TaiShan 950加上分散式GaussDB將成為各類大型主機、小型主機的終結者,徹底取代各種應用場景的大型主機和小型主機以及Oracle的Exadata資料庫伺服器。除了核心資料庫場景,TaiShan 950超節點在更廣泛的場景裡,表現也很亮眼:例如虛擬化環境的記憶體利用率提升20%,在Spark大數據場景,即時資料處理時間縮短30%。TaiShan 950超節點上市時間是:2026年一季度,敬請期待。超節點的價值,不僅體現在智算和通算傳統業務領域。網路產業廣泛應用的推薦系統,正從傳統推薦演算法向生成式推薦系統演進。我們可以基於TaiShan 950和Atlas 950打造成混合超節點,為下一代生成式推薦系統開啟全新架構方向。一方面,透過超大頻寬、超低時延互聯以及超大內存,混合超節點構成超大共享內存池,支援PB級推薦系統嵌入表,從而支撐超高維度用戶特徵;另一方面,混合超節點的超大AI算力,能夠支援超低時延推理和特徵檢索。因此,混合超節點是下一代生成式推薦系統的解決方案的全新選擇。大規模超節點把智算和通算的能力都推向新的高度,同時也對互聯技術提出了重大挑戰。華為作為聯接領域的領導者,當然不畏挑戰。在定義和設計Atlas 950、Atlas 960兩個超節點的技術規格時,我們遭遇了連網技術的巨大挑戰,主要在兩個方面:第一是如何做到長距離而且高可靠。大規模超節點機櫃多,櫃間聯接距離長,目前電互聯和光互聯技術都無法滿足需求。其中,目前的電互聯技術在高速時聯接距離短,最多隻能支援兩櫃互聯,而當前的光互聯技術雖然可以把長距離的多機櫃聯接在一起,但無法滿足可靠性需求。第二是如何做到大頻寬而且低時延。目前跨櫃卡間連帶寬低,和超節點的需求差距達5倍;跨櫃的卡間時延大,當前互聯技術最好只能做到3微秒左右,和Atlas 950/960設計需求仍然有24%的差距,當時延已經低至2~3個微秒時,已經提升物理極限,那0.1微秒的挑戰都很大。華為基於三十多年構築的技術能力,透過系統性創新,徹底解決了當前技術存在的問題,超標達成Atlas 950/960超節點的設計需求,使萬卡超節點成為可能。首先,為瞭解決長距離且高可靠問題,我們在互聯協議的物理層、數據鏈路層、網絡層、傳輸層等每一層都引入了高可靠機制;同時在光路引入了百納秒級故障檢測和保護切換,當出現光模組閃斷或故障時,讓應用無感;並且,我們重新定義和設計了光器件、光模組和互聯器件。這些創新與設計讓光互聯的可靠性提升100倍,互聯距離超過200米,實現了電的可靠與光的距離。其次,為瞭解決大頻寬且低時延問題,我們突破了多埠聚合與高密封裝技術,以及平等架構和統一協議,實現了TB級的超大頻寬,2.1微秒的超低時延。正是因為一系列系統性、原創性的技術創新,我們才攻克了超節點互聯技術,滿足了高可靠、全光互聯、高頻寬、低時延的互聯要求,讓大規模超節點成為了可能。為了達成Atlas 950/960超節點對互聯的技術要求,為了實現萬卡超節點還能是一台計算機,華為開創了超節點架構並開創了新型的互聯協議,能夠支撐萬卡級超節點架構。基於這個互聯協議的超節點架構的核心價值主張是:萬卡超節點,一台計算機,也就是說,透過該互聯協議,把數萬規模的計算卡,聯接成一個超節點,能夠像一台計算機一樣工作、學習、思考、推理。在技​​術上,我們總結認為,萬卡級超節點架構應該具備6個特徵,分別是匯流排級互聯、平等協同、全量池化、協定歸一、大規模組網、高可用性。我們為這個面向超節點的新型互聯協定取名為“靈衢”,英文名稱:UB,UnifiedBus今天,我們正式發布靈衢、UnifiedBus,一個超節點的互聯協定。同時,我宣佈,華為將開放靈衢2.0技術規格。為什麼從靈衢2.0開始開放?事實上,靈衢的研究是從2019年開始的,因為眾所周知的原因,先進製程不可取得,我們需要從多晶片上突破,希望把更多的運算資源連結在一起。我們取了一個名字叫UnifiedBus,簡稱UB,中文名字“靈衢”,意味著類似九省通衢,實現大規模算力的聯通。基於靈衢 1.0 的Atlas 900超節點自2025年3月開始交付,至今已商用部署300多套,靈衢1.0技術已充分驗證。在靈衢1.0的基礎上,我們繼續豐富功能,優化性能,提升規模,進一步完善了協議,形成了靈衢2.0,前面發布的Atlas 950超節點就是基於靈衢2.0。我們認為靈衢2.0具備了開放的條件,為了更廣泛地促進互聯技術發展和產業進步,今天華為決定開放靈衢2.0技術規範,歡迎產業界夥伴基於靈衢研發相關產品和部件,共建靈衢開放生態。我在去年HC會上強調過,基於中國可獲得的晶片製造工藝,我們努力打造「超節點+叢集」算力解決方案,來持續滿足算力需求。今天已經介紹了三個超節點產品。靈衢既為超節點而生,是針對超節點的互聯協議,也是建構算力群集產品最優的互聯技術。接下來為大家帶來兩個叢集產品:首先是,Atlas 950 SuperCluster 50萬卡叢集!Atlas 950 SuperCluster叢集由64個Atlas 950超節點互聯組成,把1萬多機櫃中的52萬多片昇騰950DT組成一個整體,FP8總算力可達524 EFLOPS。上市時間與Atlas 950超節點同步,即2026年Q4。在群集網路上,我們同時支援UBoE與RoCE兩種協議,UBoE是把UB協定承載在乙太網路上,讓客戶利用現有乙太交換器。相較於傳統RoCE,UBoE組網的靜態時延更低、可靠性更高,交換器和光模組數量都更節省,所以,我們推薦UBoE。這就是我們的Atlas 950 SuperCluster叢集。相較於目前世界最大的叢集xAI Colossus,規模是其2.5倍,算力是其1.3倍,是當之無愧的全世界最強算力叢集!無論是當下主流的千億稠密、稀疏大模型訓練任務,還是未來的兆、十兆大模型訓練,超節點叢集都可以成為性能強悍的算力底座,高效穩定地支援人工智慧持續創新。對應的,在2027年Q4,我們也將基於Atlas 960超節點,同步推出Atlas 960 SuperCluster,叢集規模進一步提升到百萬卡級,FP8總算力達到2 ZFLOPS! FP4總算力達4 ZFLOPS。並且,它同樣也支援UBoE與RoCE兩種協議,在UBoE協議加持下,性能與可靠性同樣更優,並且,靜態時延和網絡無故障時間優勢進一步擴大,因此繼續推薦UBoE組網。透過Atlas 960 SuperCluster,我們將持續加速客戶應用創新,探索智慧水準新高。很高興今天為大家帶來一系列新產品,我們希望和產業界一起,以開創的靈衢超節點互聯技術,引領AI基礎設施新範式;以基於靈衢的超節點和叢集持續滿足算力快速增長的需求,推動人工智慧持續發展,創造更大的價值,謝謝! (礦石商業評論)
華為輪值董事長徐直軍最新演講:以開創的超節點互聯技術,引領AI基礎設施新範式
華為輪值董事長徐直軍在華為全聯接大會2025上的主題演講,聚焦於“以開創的超節點互聯技術,引領AI基礎設施新範式”。他首先回顧了過去一年AI領域的發展,特別是DeepSeek的出現對產業界和華為帶來的衝擊與挑戰,以及華為雲和昇騰團隊為應對這些挑戰所做的努力。演講中,徐直軍重申了去年華為全聯接大會提出的五點:算力可持續性、中國半導體製造工藝的現狀、基於實際可獲得晶片製造工藝的算力、AI作為主導性算力需求帶來的計算系統結構性變化,以及“超節點+叢集”算力解決方案的重要性。他特別強調,此次演講旨在詳細闡述第五點,即如何通過超節點互聯技術建構AI基礎設施新範式。徐直軍還匯報了華為在昇騰產業峰會上做出的四項重要決定:堅持昇騰硬體變現;CANN編譯器和虛擬指令集介面開放,其他軟體全開源;Mind系列應用使能套件及工具鏈全面開源;openPangu基礎大模型全面開源。這些舉措旨在推動昇騰生態的開放與發展。他進一步介紹了昇騰晶片的未來路標,明確表示昇騰晶片將持續演進,為全球AI算力奠定基礎。未來三年(至2028年),華為將推出Ascend 950系列(包括950PR和950DT)、Ascend 960和Ascend 970系列晶片。Ascend 950系列在FP8/MXFP8/MXFP4等低數值精度資料格式、向量算力、互聯頻寬等方面實現顯著提升,並結合自研HBM(HiBL 1.0和HiZQ 2.0)針對Prefill、推薦、Decode和訓練場景進行最佳化。Ascend 960和970則計畫在算力、頻寬、記憶體容量等方面實現翻倍或大幅升級,以每年一代、算力翻倍的速度持續提升競爭力,滿足AI算力需求。演講全文如下:以開創的超節點互聯技術引領AI基礎設施新範式——徐直軍在華為全聯接大會2025上的主題演講女士們、先生們,各位老朋友、新朋友,大家上午好!歡迎來參加2025年華為全聯接大會,時隔一年,很高興再次與大家相聚在上海。我想大家都能感受到,過去的一年對所有AI從業者、關注者來講是記憶深刻的一年,DeepSeek橫空出世,讓全國人民過了一個快樂的AI春節、科技春節,也讓所有大模型訓練者開啟了不知多少個不眠之夜,調整訓練方式,復現DeepSeek結果。當然也給我們帶來了巨大衝擊,華為雲為了接住DeepSeek快速增長的使用者和流量,日夜奮戰,AI研發團隊從春節開始,到今年4月30日,經過多團隊的協同作戰,終於使Ascend 910B/910C的推理能力達成了客戶的基本需求。在進入今天的具體分享之前,請允許我回顧一下去年的HC,我講到了如下幾點:第一、智能化的可持續,首先是算力的可持續;第二、中國半導體製造工藝將在相當長時間處於落後狀態;第三、可持續的算力只能基於實際可獲得的晶片製造工藝;第四、人工智慧成為主導性算力需求,促使計算系統正在發生結構性變化;第五、開創計算架構,打造“超節點+叢集”算力解決方案持續滿足算力需求。但第五點沒有展開講,今天,我想利用此機會,來把我去年HC沒有完成的任務完成,也算是答卷。我今天分享的主題是:“以開創的超節點互聯技術,引領AI基礎設施新範式”,也是回答去年HC提到的第五點:如何開創計算架構,打造 “超節點+叢集”算力解決方案來持續滿足算力需求。在展開今天主題前,回到DeepSeek對產業界、對華為的衝擊,DeepSeek開源後,我們的客戶對華為的昇騰發展指出了很多問題,也充滿了期待,並一直在給我們不斷地提建議。為此,經過內部的充分討論並達成共識,我們於2025年8月5日在北京專門舉辦了昇騰產業峰會,我代表華為給出了回應,在座的有的參加了,有的可能沒有參加。今天,我也利用此機會就主要的決定給大家匯報一下。主要有四點:一、華為堅持昇騰硬體變現;二、CANN 編譯器和虛擬指令集介面開放,其它軟體全開源,CANN基於Ascend 910B/C的開源開放將於2025年12月31日前完成,未來開源開放與產品上市同步;三、Mind系列應用使能套件及工具鏈全面開源,並於2025年12月31日前完成;四、openPangu基礎大模型全面開源。接下來回到今天的主題。儘管DeepSeek開創的模式可以大幅減少算力需求,但要走向AGI、要走向物理AI,我們認為,算力,過去是,未來也將繼續是人工智慧的關鍵,更是中國人工智慧的關鍵。算力的基礎是晶片,昇騰晶片是華為AI算力戰略的基礎。自2018年發佈Ascend 310晶片,2019年發佈Ascend 910晶片,到2025年,Ascend 910C晶片隨著Atlas 900超節點規模部署,為大家所熟悉。在過去幾年,客戶和夥伴們對昇騰晶片有很多訴求,對昇騰晶片也有很多期待。面向未來,華為的晶片路標是如何規劃的?想必是大家普遍關心的話題,可能也是最關心的內容。因此,今天,我就直入主題來介紹昇騰晶片及其路標。我很確定地告訴大家,昇騰晶片將持續演進,為中國乃至世界的AI算力構築堅固根基。未來3年,至2028年,我們在開發和規劃了三個系列,分別是Ascend 950系列,包括兩顆晶片:Ascend 950PR和Ascend 950DT,以及Ascend 960、Ascend 970系列,更多具體晶片還在規劃中。下面我分別介紹快要推出的和已規劃的4顆昇騰晶片。我們正在開發、且即將推出的晶片叫Ascend 950系列。我首先介紹一下Ascend 950系列的晶片架構,Ascend 950 PR和Ascend 950 DT共用了Ascend 950 Die。與前一代昇騰晶片相比,Ascend 950 在以下幾個方面實現了根本性提升。第一,新增支援業界標準FP8/MXFP8/MXFP4等低數值精度資料格式,算力分別達到1P和2P,提升訓練效率和推理吞吐。並特別支援華為自研的HiF8,在保持FP8的高效的同時,精度非常接近FP16。第二,大幅度提升了向量算力。這主要通過三個方面實現:其一,提升向量算力佔比;其二,採用創新的新同構設計,即支援 SIMD/SIMT 雙程式設計模型,SIMD能夠像流水線一樣處理“大塊”向量,而SIMT便於靈活處理“碎片化”資料;其三,把記憶體訪問顆粒度從512字節減少到128字節,記憶體訪問更精細,從而更好地支援了離散且不連續的記憶體訪問。第三,互聯頻寬相比Ascend 910C提升了2.5倍,達到2TB/s。第四,結合推理不同階段對於算力、記憶體、訪存頻寬及推薦、訓練的需求不同,我們自研了兩種HBM,分別是:HiBL 1.0和HiZQ 2.0。不同的自研HBM與Ascend 950 Die合封,分別構成晶片Ascend 950PR:面向Prefill和推薦場景,以及Ascend 950DT:面向Decode和訓練場景。下面分別介紹。首先是我們的第一顆晶片,Ascend 950PR,主要面向推理Prefill階段和推薦業務場景。首先,我們發現,隨著Agent的快速發展,輸入上下文越來越長,首Token輸出階段佔用計算資源越來越多。其次是在電子商務、內容平台、社交媒體等業務應用中,要求推薦演算法具有更高的精準度和更低的時延,對計算能力的需求也越來越大。推理Prefill階段和推薦演算法都是計算密集型,對計算平行的能力要求高,但對記憶體訪問頻寬的需求相對低。通過分級記憶體解決方案,推理Prefill階段和推薦演算法對本地記憶體容量的需求相對也不高。Ascend 950PR 採用了華為自研的低成本HBM,HiBL 1.0,相比高性能、高價格的HBM3e/4e,能夠大大降低推理Prefill階段和推薦業務的投資。這顆晶片將在2026年一季度推出,首先支援的產品形態是標卡和超節點伺服器。接下來這一顆是Ascend 950DT,相比Ascend 950PR,它更注重推理Decode階段和訓練場景。由於推理Decode階段和訓練對互聯頻寬和訪存頻寬要求高,我們開發了HiZQ 2.0,使記憶體容量達到144GB,記憶體訪問頻寬達到4TB/s。同時把互聯頻寬提升到了2TB/s。其次,支援了FP8/MXFP8/MXFP4/HiF8資料格式。Ascend 950DT 將在2026年Q4推出。第三顆是在規劃中的晶片Ascend 960。它在算力、記憶體訪問頻寬、記憶體容量、互聯連接埠數等各種規格上相比Ascend 950翻倍,大幅度提升訓練、推理等場景的性能;同時還支援華為自研的HiF4資料格式。它是目前業界最優的4bit精度實現,能進一步提升推理吞吐,並且比業界FP4方案的推理精度更優。Ascend 960將在2027年四季度推出。最後一顆是在規劃中的Ascend 970,這顆晶片的一些規格還在討論中。總體方向是,在各項指標上大幅度升級,全面升級訓練和推理性能。目前的初步考慮是,相比Ascend 960,Ascend 970的FP4算力、FP8算力、互聯頻寬要全面翻倍,記憶體訪問頻寬至少增加1.5倍。Ascend 970計畫在2028年四季度推出。大家屆時可以期待它的驚人表現。這是剛才介紹的昇騰晶片的主要具體規格和路標,總體上,我們將以幾乎一年一代算力翻倍的速度,同時圍繞更易用,更多資料格式、更高頻寬等方向持續演進,持續提升昇騰晶片的競爭力,持續滿足中國乃至世界AI算力需求。 (藍血研究)
華為的“終結者”宣言:“超節點+資料庫”憑什麼顛覆舊格局
每年一度的華為全聯接大會,往往被業界視為觀察數位技術最新動向的重要窗口。9月18日,華為副董事長、輪值董事長徐直軍在2025華為全聯接大會上,公佈了兩則重磅消息,罕見展示了華為在人工智慧(AI)算力方面的硬實力和佈局。一是華為昇騰晶片未來三年將持續迭代4款產品,並將在2026年一季度發佈的新產品上採用華為自研HBM(高頻寬記憶體),這意味著昇騰單顆晶片的性能將會顯著提升,與輝達等企業推出的國際一流晶片對齊;二是華為率先把超節點技術引入通用計算領域,發佈全球首個通用計算超節點TaiShan950 SuperPoD,以及基於該架構的GaussDB資料庫。這兩項突破絕非孤立的技術更新,它們共同指向華為以系統級創新彌補單點短板的戰略路徑。在全球算力競爭已從“單晶片競賽”走向“體系化作戰”的今天,華為正以超節點技術重新定義算力基座的建構方式。而架構於硬體創新之上的軟體生態,也借此獲得前所未有的性能張力。最直觀的體現是,GaussDB資料庫在TaiShan950超節點上實現的性能倍增,揭示出軟硬協同所能釋放的巨大潛能。回望半個世紀以來全球核心資料業務的演進史,從大型機到分佈式系統,從Oracle、IBM所主導的資料庫傳統架構,到雲原生、AI原生的新一代資料基礎設施,技術突破與資料主權的敘事始終交織。而今,華為不僅在關鍵底層技術上實現自主可控,更以持續的自主創新,參與乃至引領資料庫範式的重塑。它正在做的,已不僅是打破壟斷,更是在重構一套屬於數字時代未來的、根植中國、面向世界的系統架構。全球領先超節點:軟體性能躍升的新動能在人工智慧時代,算力的重要性不言而喻。以宏觀視角來看,算力已成為一個國家的核心戰略資源,直接關係到科技自主權與產業話語權。而具體到每個產業,大模型訓練動輒需要數千萬甚至上億條資料的迭代運算,金融分析系統要在毫秒級的時間內對市場變化做出反應,科學研究的複雜模型需要更高的精度和效率……這背後都離不開強大算力的支撐。正如徐直軍在大會上所言,“算力過去是,未來也將繼續是人工智慧的關鍵,更是中國人工智慧的關鍵。”為了打造自主算力底座,早在數年前,華為就啟動了“全面智能化”(All Intelligence)戰略,目標是讓強大的算力賦能千行萬業。如果將人工智慧視作一台精密運轉的時代機械,華為最新推出的超節點技術正如為其裝配的一台高性能發動機。這一系統級創新,不僅為算力基礎設施注入強勁動能,更重新定義了AI發展的空間與推進速率。據徐直軍介紹,超節點已經成為AI基礎設施建設的新常態。在物理上,超節點由多台機器組成,但邏輯上以一台機器學習、思考、推理。基於超節點,華為發佈了超節點叢集,算力規模分別超過50萬卡和達到百萬卡。實現如此龐大規模的高效互聯,是對底層架構設計的嚴峻考驗。而華為基於三十多年構築的聯接技術能力,開創性採用了靈衢互聯協議。目前,基於靈衢的華為雲CloudMatrix384昇騰AI雲服務已全面上線。而未來,超節點規格更將邁向8192卡、15488卡,持續拓寬算力邊界。算力的基礎是晶片,包括華為昇騰晶片在內的一批國產晶片近年來都取得了顯著性能提升。據媒體報導,阿里巴巴旗下半導體公司平頭哥近日公佈最新AI晶片PPU的性能參數,其在一些指標上超過了輝達A800和華為上一代晶片昇騰910B。“我們將以幾乎一年一代、算力翻倍的速度,同時圍繞更易用、更多資料格式、更高頻寬等方向持續演進,持續滿足AI算力不斷增長的需求。”徐直軍在華為全聯接大會上表示。行業報告顯示,新一代雲終端產業正向“雲-網-端-邊-芯”深度協同演進,與AI的融合將催生新一代產業形態。此前,華為雲已提出“3+2+1”戰略架構——通算、智算、儲存為三大核心,AI PaaS與資料庫構成兩大能力基座,安全則貫穿始終。從2025全聯接大會的最新動態來看,華為正通過“算力上雲、應用雲化”的系統路徑,將“雲網端邊芯”協同優勢轉化為從底層算力供給至頂層智能應用的全端賦能能力,為各行各業的智能化轉型奠定堅實而開放的底座。“磁懸浮”革命:靈衢如何讓資料庫性能飆升2.9倍在人工智慧推動產業躍遷的宏大處理程序中,資料存力與算力正在成為國家競爭力的關鍵指標。回顧過去數十年,甲骨文、IBM等西方巨頭憑藉先發技術優勢,長期主導全球資料庫市場,構築起難以撼動的生態壁壘。然而,這一格局正在發生歷史性轉變。近年來,以華為為代表的國內企業持續突破技術邊界。資料顯示,國外廠商的市場份額正逐步收縮,中國力量加速崛起。據中國通訊標準化協會巨量資料技術標準推進委員會(CCSA TC601)2024年發佈的報告,中美資料庫企業數量已相當,預示新一輪產業主導權之爭正在悄然上演。華為雲於2019年推出了自研的分佈式資料庫GaussDB,成為國內唯一實現軟硬協同、全端自主的資料庫。2024年6月,IDC報告顯示,華為雲以13.9%的份額在中國本地部署關係型資料庫市場首次超越甲骨文,問鼎榜首。這不僅是一次市場份額的更迭,更像征著中國底層軟體根技術自主創新的重大突破。而全球首個通用計算超節點TaiShan 950與GaussDB的結合,標誌著資料庫性能和可靠性進入新紀元。據徐直軍介紹,基於該架構的GaussDB池化多寫方案可實現性能提升2.9倍,平滑替代傳統大型機、小型機資料庫系統。他更直言,“TaiShan 950結合GaussDB分佈式資料庫,將成為大型機、小型機及Oracle Exadata的終結者”。其核心突破在於靈衢——首先,GaussDB將計算、記憶體、儲存分層池化,而靈衢如同在超節點中鋪設了多條“磁懸浮高速鐵路”,池化多寫架構則在此基礎上建立了統一的“交通調度系統”,實現智能調度,這使得每一次資料訪問請求都幾乎是瞬時的。實測結果顯示,基於靈衢池化部署的三節點GaussDB叢集,性能達到540萬tpmC(每分鐘處理540萬筆事務)。打個比方,可以把一個“超節點”想像成一個功能齊全、自給自足的“超級廚房”。而基於靈衢的池化,意味著廚房裡的廚具(計算CPU)、食材(資料儲存)、備料台(記憶體)都集中在一個房間裡,並且廚師們可以無縫共享所有資源。相比而言,傳統架構則像一個大食堂的後廚,每個廚師有自己狹窄的灶台。需要麵粉時,得跑另一個倉庫去取(網路/儲存訪問);需要別人切好的菜時,得等服務員端過來(網路/記憶體訪問)。大部分時間都花在“跑腿”上,而不是“炒菜”上。金融行業作為資料庫技術的試金石,已成為GaussDB廣泛落地的主戰場。2024年8月,《金融電子化》調研顯示,國有六大行只有少量業務使用Oracle,並普遍從國產資料庫中擇一至兩款作為主力——其中GaussDB覆蓋業務系統數量位居首位。這一切印證的不僅是技術替代,更是一個時代的資料基座,正悄然轉向東方的自主創新與系統重構。範式轉移:從技術破壁到生態定義的新征程過去四十年,全球資料庫市場的權杖始終由西方巨頭執掌,其在金融、電信等核心領域構築的壁壘近乎堅不可摧。而今,伴隨華為雲GaussDB基於通用計算超節點的系統性突破,這一格局正迎來歷史性轉折。國產資料庫不再止步於替代與跟隨,而是藉以靈衢為代表的根技術創新,實現從“功能可用”到“性能躍遷”的層級跨越,標誌著中國力量正式從西方體系的“最佳化者”轉型為未來範式的“定義者”。更具戰略意義的是,華為在全聯接大會上主動開放靈衢2.0技術規範,推動其成為產業共識的“聯接標準”。徐直軍所倡導的共建生態,實則是以開放協議對抗碎片化困境,意圖在叢集計算領域建構統一的算力底座。這一舉措,不僅降低全行業創新門檻,更將中國原創架構嵌入全球數字基礎設施的演進脈絡中。華為通過開放技術規範、提供適配工具與聯合研發支援,正在推動形成一個打破技術壁壘、相容多元需求的全球算力基礎設施生態,這與全球數字基建“互聯互通、共建共享”的訴求高度契合。而GaussDB憑藉獲得國際/國內雙CC EAL4+安全認證的硬實力,為其進軍全球市場鑄就了可信基石。在自主創新與開放戰略的雙軌推進下,GaussDB不再僅是市場競爭的參與者,更有望成為支撐全球數位化轉型的“底座型”系統。這意味著,中國技術首次有機會以體系化的方式,深度參與並引領下一輪數字文明的建構處理程序——一場從技術破壁到生態定義的新征程,已然開啟。 (環球時報)
對話徐直軍:華為最大的殺招,不是AI晶片
華為以超節點和叢集算力解決方案,讓中國沒有算力之憂。徐直軍終於把他這六年最想說的話說了出來。2025年華為全聯接大會,會場的燈光一點點暗下去,大螢幕上浮現出“昇騰”字樣的那一瞬間,沒有想像中的轟然與熱烈,有人屏住了呼吸,有人眼眶泛紅,大家都知道,昇騰有一天會公開回歸,但真正回歸的那一刻,感慨的情緒壓過了興奮。華為公佈了未來數年完整的AI晶片路線圖——這一刻,距離2018年發佈昇騰310晶片,2019年發佈昇騰910晶片,已經過去了兩千多個日與夜。這時間說長不長,說短也不短,卻足夠讓一家企業經歷生死沉浮。2019年的那個春天,美國的制裁讓供應鏈幾乎在一夜之間緊繃到極限。華為一度樂觀地認為,這種影響不會持續太久,2019年的華為全聯接大會上,華為按照既定節奏推進昇騰910的商用發佈,依舊一副雲淡風輕的模樣。但壓力已經遍佈每一處角落。徐直軍回憶道,“按照當時昇騰910晶片的備貨量,不敢賣給網際網路領域客戶,只賣國計民生領域的客戶。”制裁像驟然降臨的暴風雨,打斷了華為原本昂揚的節奏。從榮光到孤立,從掌聲到質疑,華為的晶片之路幾乎被外界判了“死刑”。度過有史以來最大的難關,需要付出什麼代價,除了華為自己,無人知曉。外界看到的華為,可能是Mate 60“爭氣機”,可能是鴻蒙作業系統,也可能是MetaERP、高斯資料庫以及一系列確保自身生產經營的中介軟體。但更多華為人在蟄伏,海思、雲端運算、資料中心、光通訊等華為大大小小的團隊,都迫不及待要加入一線,AI算力,這是華為未來真正的戰場。今年3月份,華為正式推出了Atlas 900超節點,可以理解為華為AI戰略的預告,滿配支援384卡。384顆Ascend 910C晶片,能夠像一台電腦一樣工作,最大算力可達300 PFLOPS。到目前為止,Atlas 900依然是全球算力最大的超節點,CloudMatrix384超節點,是華為雲基於Atlas 900超節點建構的雲服務實例,也被廣泛應用於大模型的訓推。海外知名分析機構SemiAnalysis,當時以“Huawei AI CloudMatrix 384–China’s Answer to Nvidia GB200 NVL72”為題分析並得出結論,華為的晶片技術落後一代,但其自主研發的雲端超級算力解決方案CloudMatrix 384卻可領先於輝達和AMD當前市售產品一代,直接對標輝達GB200 NVL72系統,在多項關鍵指標上展現出超越輝達機架級解決方案的技術優勢。“以前英特爾允許我們使用CPU晶片互聯協議,後來也被禁止了,我們從光器件、光模組、互聯協議、互聯晶片,全部靠重新定義、設計才能實現,有海外企業一直想把超節點搞一套出去,研究我們為什麼能搞出超節點”徐直軍說。相比於晶片本身,海外更關注超節點,因為目前海外能做出更好的晶片,但做不出如華為一般的超節點。2025年華為全聯接大會,時隔多年之後,華為輪值董事長徐直軍再次與多家媒體對話——晶片不是華為AI算力的全部,“超節點+叢集”算力解決方案是華為在AI領域的核心戰略,靈衢互聯協議是開創新計算架構的新範式。晶片很重要,也沒那麼重要“算力的基礎是晶片,昇騰晶片是華為AI算力戰略的基礎。”徐直軍表示,至2028年,華為開發和規劃了三個系列,分別是Ascend 950系列,Ascend 950PR和Ascend 950DT,以及Ascend 960、Ascend 970系列,更多具體晶片還在規劃中。華為將以幾乎一年一代算力翻倍的速度,同時圍繞更易用,更多資料格式、更高頻寬等方向持續演進,持續滿足AI算力不斷增長的需求。相比Ascend 910B/910C,從Ascend 950開始的主要變化包括:引入SIMD/SIMT新同構,提升程式設計易用性;支援更加豐富的資料格式,包括FP32/HF32/FP16/BF16/FP8/MXFP8/HiF8/MXFP4/HiF4等;支援更大的互聯頻寬,其中950系列為2TB/s,970系列提升到4TB/s;支援更大的算力,FP8算力從950系列的1 PFLOPS提升到960的2 PFLOPS、970的4 PFLOPS;FP4算力從950的2 PFLOPS提升到960的4 PFLOPS、970的8 PFLOPS;自研HBM,記憶體容量逐漸加倍,而記憶體訪問頻寬將翻兩番。晶片本身之外,生態是開發者關注的焦點問題,徐直軍表示,“國內AI企業用昇騰訓練大模型,主要是看他們用不用,就像談戀愛,不談的話,你怎麼知道對方的優缺點,合適不合適,你要談一下,要用一下。在用的過程中有問題解決問題,A能用,為什麼B不能用,就是你用不用的問題。”“當然,我們的生態和整個工具鏈肯定比輝達有差距,原來工程師在輝達應用很熟練,就不願意轉過來,它是工程師的習慣問題,而不是高層的問題。”他補充。業界不少晶片廠商選擇相容輝達CUDA生態,對現有AI開發體系友好,但華為有自己的考量。“我們不相容CUDA生態,一定要搞CANN生態和MindSpore,也是出於長遠考慮,如果我們投如此多的錢相容CUDA生態,而且還是CUDA過去的版本,那天CUDA生態相容不了了怎麼辦?堅定不移研發MindSpore,當時很多專家都反對。現在我們的AI,從達文西到昇騰晶片到一切,所有的軟體、硬體都不依賴於西方生態和供應鏈,長遠考慮必須要把生態建構起來。”徐直軍坦言。如果故事只到這裡,華為充其量實現了“活下來”的任務,很好,但對華為來說遠不夠好。畢竟在昇騰設計之初,就不是為了做一個備份,昇騰910發佈就衝著最強算力的目標,在供應鏈和製程等晶片製造能力落後的情況下,華為昇騰晶片短期內還將處於追趕的狀態。然而,很多人沒有意識到,成就輝達的大模型,其實下一個成就的就是華為,大模型前期,輝達受益於單個GPU卡的性能和CUDA生態,未來隨著AI的演進,華為受益的是“超節點+叢集”,後者已經在頂級大模型圈層得到認可,而普羅大眾的認知不強。超節點+叢集 讓中國沒有算力之憂2022年,輝達曾發佈DGX H100 NVL256“Ranger”平台,但最終未投入量產——該方案因成本過高、功耗巨大且可靠性問題(源於超量光收發器需求及雙層網路架構)而被放棄。在2024年3月,輝達轉而推出基於Blackwell GPU打造的GB200 NVL72超節點產品,規模大幅縮小。回過頭看,輝達的超節點路標已經消失不見,輝達既證明了超節點是未來算力的趨勢,也證明了超節點做起來的難度,華為接過AI算力的下一棒。本次大會上,華為發佈了最新超節點產品Atlas 950 SuperPoD和Atlas 960 SuperPoD超節點,分別支援8192及15488張昇騰卡,在卡規模、總算力、記憶體容量、互聯頻寬等關鍵指標上全面領先,在未來多年都將是全球最強算力的超節點。基於超節點,華為同時發佈了全球最強超節點叢集,分別是Atlas 950 SuperCluster和Atlas 960 SuperCluster,算力規模分別超過50萬卡和達到百萬卡,是當之無愧的全世界最強算力叢集。“除了單顆晶片比它(輝達)的算力小一點,功耗大一點,其他都是優勢。”徐直軍如此評價,“因為AI就是平行計算,所以我們的解決方案就是超節點,超節點做成一台機器,你用5顆,我可以用10顆,那我們用384/8192/15488顆晶片,這還不是最大的。”他進一步解釋道,(華為)不同於大模型公司,也不同於應用公司,作為ICT基礎設施和智能終端提供商,華為充分發揮自身優勢,紮紮實實把基礎設施做好,通過基礎設施掙錢,做超節點、做叢集,公司內部已達成共識,通過昇騰硬體變現,取得商業成功。超節點是一條不得已的道路,也是能夠將華為所有能力融為一體,最大程度發揮華為優勢的道路,更具有決定意義的是,超節點能夠將華為在單晶片的劣勢扭轉為勝勢,超過輝達,實現算力最強。“什麼叫超節點?儘管物理上是多機櫃、多個卡(8192個卡或者是15488個卡)聯接成一個超節點,但是它們能夠像一台電腦一樣工作、學習、思考、推理。叢集是把多個超節點以網路聯結在一起,就像雲服務一樣,相當於用多個伺服器一樣,即把多台伺服器連接在一起,再以軟體層將它調度。”徐直軍說。他進一步表示,華為的核心戰略就是“超節點+叢集”,只有依靠超節點和叢集,才能規避中國的晶片製造工藝受限,才能夠為中國的AI算力提供源源不斷的算力支援和供給。“創新有時是被逼出來的,不是天生想做。我們應對制裁,用非摩爾補摩爾、用數學補物理,不是什麼偉大的事情。歷史上海思靠晶片領先別人一代,現在晶片落後一代、兩代,未來還不知道落後幾代,只有另尋出路。另一條路就在這裡,由於晶片工藝受限,逼著我們創新突破。”徐直軍說。靈衢,以及華為自己的路在徐直軍大會演講的最後,並不是以晶片來收尾,“我們希望和產業界一起,以開創的靈衢超節點互聯技術,引領AI基礎設施新範式;以基於靈衢的超節點和叢集持續滿足算力快速增長的需求,推動人工智慧持續發展,創造更大的價值。”在業內人士看來,靈衢的革命意義可能不亞於AI基礎設施的再造,華為超節點+叢集的成功,很大程度就依賴於靈衢。如果說光刻機是把單晶片的性能持續放大,那麼,靈衢則是將數以萬計的晶片聯接起來。2021年,華為規劃了三個公司等級的戰略項目,其中之一是鴻蒙作業系統,另一個就是靈衢,其戰略意義,可見一斑。輝達或者其他晶片公司的長處在於晶片,超節點卻不是靠簡單堆晶片就能實現大算力,就像大模型訓練算力,在一定範圍內,算力隨著晶片數量的增加線性增長,到了一定瓶頸,晶片增加,邊際效應大幅降低。為大模型而定做的算力叢集中,需要大量的資料高速傳輸,在人類歷史上沒有過這種,正向打滿然後負向再打滿的傳輸需求,低時延、高吞吐的要求都到了嚴苛等級,而且未來的算力不僅僅是當前大模型需要AI算力之間的高速互聯,同時,AI算力和通用算力之間,通算和通算之間,也存在高速互聯的需求。隨著IT產業的發展,PCIE、InfiniBand、RoCE等各種協議平行發展,輝達的NVlink等協議最大化發揮了輝達GPU的算力,靈衢不止是一個替代,它是AI算力互聯標準的重塑,通過靈衢互聯協議,能夠把數萬規模的計算卡,聯接成一個超節點。相較於NVlink協議的封閉,華為宣佈將開放靈衢2.0技術規範,投入如此之大的心力,華為為何要將靈衢開放,其實不難理解,華為的理念是硬體變現,靈衢若只是華為一家之言,那就無法形成生態,更多的企業用靈衢建構自己的算力叢集,產業的雪球才能越滾越大。“我們的路肯定不是輝達的路,現在大家都以輝達的視角看我們的路,不公平。但我們自己不能‘傻’。我是短期痛苦,長期不痛苦。”徐直軍說。華為在AI算力領域走出來了一條自己的路,這是由很多能力建構成的系統。以光通訊技術為例,輝達超節點採用了全銅通訊,優點是技術成熟,成本較低,缺點是只能部署2米以內,否則速度會大幅衰減,因此可聯接晶片數量有限。華為採用了更激進的光通訊策略,光模組帶來了高頻寬和高速率的優勢,損耗低,適合長距離傳輸,因而可聯接更多晶片,部署靈活。但是,在華為之前,沒有一家廠商敢用光模組來實現超節點,光模組故障率高且成本高,方案能不能做成都是未知數,華為憑藉著多年積累的通訊能力,在光晶片和連接技術、故障恢復等方面形成了一套獨一無二的方案,使得超節點成為可能。華為的勝利,是系統的勝利,是所有華為人乃至中國計算產業鏈的勝利。徐直軍表示,“用超節點架構以及支援超節點的靈衢互聯協議,打造超節點和叢集,來滿足中國無窮無盡的算力需求,這既是我們對自己的一個目標,又是對產業界的承諾,更是對國家的承諾。”“把這條路闖出來,把中國產業鏈拉動起來,這條路就成了路。算不上新範式,是被迫出來的範式,是被逼出來的偉大。”徐直軍說,“誰想做別人做過的事情呢?肯定想去開創未來的事情。” (鈦媒體)
中國IT有國家超巨大能量做後盾,發展需要超巨大能量支持的系统,產出高效能AI自然就引來人才。
萬卡突圍!製程受限下,華為的絕地反擊
當徐直軍站在2025年華為全聯接大會的舞台上,宣佈Atlas 950超節點支援8192張昇騰卡、總算力達到8E FLOPS時,台下響起的掌聲或許意味著中國AI產業一個重要拐點的到來。這不僅僅是一次產品發佈,更像是華為在經歷DeepSeek衝擊後的一次戰略反擊——用技術創新回應質疑,用開放生態對抗封鎖。在全球AI算力競賽日趨白熱化的當下,華為選擇了一條與眾不同的道路:不再單純追趕輝達的單卡性能,而是通過革命性的“超節點”架構,試圖在萬卡級互聯技術上實現彎道超車。這背後折射的,是中美科技博弈進入新階段的深層邏輯——當先進製程工藝受限時,如何通過系統性創新突破算力瓶頸,成為決定未來AI話語權的關鍵變數。技術突破的三重維度:從晶片到架構的全端創新華為此次發佈的昇騰950系列晶片,最引人注目的技術亮點在於對多種低精度資料格式的全面支援。相比前代產品,950系列不僅支援業界標準的FP8、MXFP8、MXFP4格式,更重要的是推出了自研的HiF8格式——在保持FP8高效性的同時,精度無限接近FP16。這一技術路線的選擇並非偶然。在先進製程工藝受限的背景下,通過降低數值精度來提升算力密度,成為華為繞過製程限制的重要策略。HiF8格式的推出,實際上是華為在演算法最佳化與硬體設計之間找到的一個巧妙平衡點:既能顯著提升推理吞吐,又能保證模型精度不受明顯影響。更值得關注的是,華為首次在昇騰晶片中引入了SIMD/SIMT新同構設計。這種創新架構允許同一個計算單元既能像流水線一樣處理“大塊”向量資料,又能靈活處理“碎片化”資料。這種設計哲學的轉變,反映了華為對AI計算模式演進趨勢的深刻理解——隨著模型複雜度不斷提升,對靈活性和效率的要求將同等重要。在記憶體技術方面,華為同樣展現出了令人印象深刻的系統性思維。針對不同應用場景的特殊需求,華為自研了兩種HBM技術:面向推理Prefill階段的低成本HiBL 1.0,以及面向訓練和Decode階段的高性能HiZQ 2.0。這種“一芯兩用”的設計理念,實際上是對傳統“一刀切”晶片設計模式的顛覆。通過將同一個die與不同規格的自研HBM合封,華為實現了在成本和性能之間的精確平衡。這不僅能夠降低客戶的整體擁有成本,更重要的是體現了華為在供應鏈自主可控方面的戰略考量。如果說前兩個層面的創新更多體現在硬體最佳化上,那麼“靈衢”(UnifiedBus)協議的推出,則代表了華為在系統架構層面的根本性突破。傳統的GPU叢集方案面臨著兩個根本性挑戰:長距離高可靠互聯,以及大頻寬低時延傳輸。華為通過在互聯協議的每一層都引入高可靠機制,在光路引入百納秒級故障檢測,重新定義光器件和互聯晶片,實現了光互聯可靠性提升100倍,互聯距離超過200米。更令人驚嘆的是,華為聲稱Atlas 950超節點的互聯頻寬達到16PB/s——這個數字超過了當前全球網際網路峰值頻寬的10倍。這意味著華為不僅在技術指標上實現了突破,更在工程實現上達到了前所未有的複雜度。戰略選擇的深層邏輯:為什麼是超節點?華為選擇超節點技術路線,根本原因在於對自身技術約束的清醒認識。徐直軍在發言中明確提到:“中國半導體製造工藝將在相當長時間處於落後狀態。”在這種約束下,單純追求單晶片性能的提升空間有限,而通過系統級創新實現整體算力突破,成為更為現實的選擇。超節點架構的核心價值在於,它能夠將數千乃至上萬顆晶片整合為一個邏輯上的“超級電腦”。這種架構創新不僅能夠充分發揮每顆晶片的計算潛力,更重要的是通過最佳化的互聯協議,最大程度地降低了通訊開銷和延遲。隨著大模型參數規模不斷攀升,從千億級向兆級發展,傳統的單卡或小規模叢集方案越來越難以滿足訓練需求。華為推出的Atlas 950超節點支援8192卡,Atlas 960超節點支援15488卡,直接瞄準了未來大模型訓練的核心需求。特別是在推理場景中,隨著Agent技術的快速發展,輸入上下文長度呈指數級增長,Prefill階段的計算需求急劇上升。華為針對這一趨勢,專門設計了Ascend 950PR晶片,配合低成本HiBL 1.0記憶體,實現了成本和性能的最優平衡。華為宣佈開放靈衢2.0技術規範,這一決策背後蘊含著深刻的生態建設考量。在輝達CUDA生態佔據絕對主導地位的情況下,華為選擇開放核心技術,實際上是在建構一個以自己為中心的新生態圈。這種開放策略的風險和收益並存。一方面,開放技術規範能夠吸引更多合作夥伴參與,加速技術迭代和應用落地;另一方面,也存在核心技術外流的風險。但在當前的市場環境下,封閉的生態很難與輝達正面競爭,開放或許是華為的最優選擇。技術挑戰:單晶片性能差距與工程複雜性首先必須正視的是,在單晶片層面,華為昇騰晶片與輝達產品仍存在顯著差距。受制於先進製程工藝的獲取限制,華為昇騰910C晶片採用的7nm工藝,相比輝達H100/H200的4nm工藝存在明顯代差。這種製程差距直接導致在相同功耗下,單晶片算力密度、能效比等關鍵指標的劣勢。根據公開資料,輝達H100的FP16算力約為1000 TFLOPS,而華為昇騰910C約為640 TFLOPS,差距達到40%以上。在更關鍵的AI訓練場景中,這種性能差距可能進一步放大。華為試圖通過多晶片互聯的系統性優勢來彌補單晶片性能不足,但這種策略的有效性仍需市場驗證。萬卡級超節點的技術實現難度更是遠超想像。以Atlas 950超節點為例,8192張卡意味著需要處理海量的卡間通訊,任何一個環節的故障都可能導致整個系統的崩潰。華為力圖通過靈衢協議實現了“萬卡超節點,一台電腦”,但這一技術承諾的實際驗證,需要在真實的大規模部署中才能得到答案。特別是在軟體適配方面,如何讓現有的AI框架和應用程式能夠充分發揮萬卡超節點的性能優勢,需要大量的最佳化工作。這不僅需要華為自身的技術投入,更需要整個軟體生態的配合。除此之外,客戶認知與接受度也是個問題。雖然華為在技術指標上聲稱全面超越輝達產品,但市場接受度的建立需要時間。目前AI行業的主流開發框架和工具鏈都是圍繞輝達GPU最佳化的,遷移到昇騰平台需要額外的開發成本和學習成本。更重要的是,大型AI公司在選擇算力平台時,不僅考慮性能指標,還要考慮供應鏈穩定性、技術支援質量、生態完整性等多個因素。華為需要在這些軟實力方面證明自己。雖然華為在晶片設計、系統架構等方面實現了突破,但在光器件、高端封裝、精密製造等環節,仍然面臨供應鏈約束。特別是在先進製程晶片製造方面,華為仍然依賴於有限的代工廠資源。這種依賴性不僅影響產能釋放,更可能在地緣政治風險升級時,成為華為AI戰略的致命弱點。地緣政治博弈中的互聯技術爭奪戰值得關注的是,華為在互聯技術上的突破,與輝達2020年收購Mellanox的戰略佈局形成了有趣的對比和競爭。輝達以70億美元收購這家以色列高速互聯技術公司,正是看中了其在InfiniBand和乙太網路互聯技術方面的領先地位。這筆交易使輝達在資料中心互聯領域獲得了關鍵技術優勢,為其GPU叢集方案提供了完整的技術閉環。然而,這筆收購在中國遭遇了長時間的反壟斷審查,最終在附加條件下才獲得批准。中國監管部門的擔憂並非沒有道理——控制了高端互聯技術的輝達,幾乎可以主導整個AI基礎設施的技術標準和供應鏈。這種擔憂在今天看來更具前瞻性:當輝達通過CUDA生態和Mellanox互聯技術建構起完整的技術壁壘時,其他廠商想要突破變得極其困難。從這個角度看,華為推出靈衢協議並選擇開源開放,實際上是在重新定義互聯技術的遊戲規則。華為的策略是:既然無法在輝達建構的技術體系內競爭,那就建立一個全新的技術標準和生態系統。靈衢協議不僅是技術突破,更是對“輝達-Mellanox”技術聯盟的直接挑戰。近期中國大陸下令阿里、字節跳動等科技巨頭禁購輝達RTX Pro 6000D等高端GPU,這一政策訊號具有重要的象徵意義。它不僅體現了監管層對關鍵技術自主可控的重視,更為華為等本土廠商創造了市場機遇窗口。這種政策導向的變化,實際上是中美科技博弈進入新階段的重要標誌。過去更多是美國對中國的技術封鎖,現在中國也開始主動採取措施,減少對美國關鍵技術的依賴。面對華為的趕超,輝達應時而動,也在調整自己的戰略佈局。就在華為華為全聯接大會召開之時,業界傳出了輝達入股英特爾的消息,反映了技術巨頭們在不確定環境下尋求新合作模式的趨勢。對輝達而言,中國市場的重要性不言而喻。面對華為等競爭對手的強力衝擊,輝達需要在技術領先性和地緣政治風險之間找到新的平衡點。前景展望:技術創新與市場競爭的雙重考驗華為的超節點戰略,代表了中國AI產業在面臨外部壓力時的一次重要技術轉向。從單純的追趕模式,轉向差異化創新模式,這種戰略調整本身就具有重要意義。短期內,華為需要證明其萬卡級超節點的技術可行性和商業價值。Atlas 950超節點計畫於2026年四季度上市,這將是檢驗華為技術承諾的關鍵時點。如果華為能夠如期交付並達到承諾的性能指標,將極大地提振中國AI產業的信心。長期來看,超節點技術路線是否能夠真正撼動輝達的市場地位,還取決於多個因素的綜合作用:技術迭代速度、生態建設進度、政策環境變化,以及客戶接受度等。但無論如何,華為這次的技術突破已經表明,在AI算力這個關鍵賽道上,中美之間的技術差距正在縮小。這不僅是中國科技實力提升的重要體現,更可能預示著全球AI產業格局的深刻變革。在這場沒有硝煙的算力戰爭中,華為已經打響了反擊的第一槍。接下來的較量,將決定未來AI時代的話語權歸屬。 (心智觀察所)
改名支吹號好了,整天胡扯爛透了
徐直軍:以開創的超節點互聯技術,引領AI基礎設施新範式
2025年9月18日,華為全聯接大會在上海召開,華為徐直軍發表主題演講,圍繞 AI 基礎設施發展,從行業衝擊應對、技術規劃、產品發佈等多方面展開,系統闡述華為以超節點互聯技術引領 AI 基礎設施新範式的戰略與實踐。以下為徐直軍演講實錄——女士們、先生們,各位老朋友、新朋友,大家上午好!歡迎來參加2025年華為全聯接大會,時隔一年,很高興再次與大家相聚在上海。我想大家都能感受到,過去的一年對所有AI從業者、關注者來講是記憶深刻的一年,DeepSeek橫空出世,讓全國人民過了一個快樂的AI年,也讓所有大模型訓練者開啟了不知多少個不眠之夜,調整訓練方式,復現DeepSeek結果,當然也給我們帶來了巨大衝擊。從春節開始,到今年4月30日,經過多團隊的協同作戰,終於使Ascend 910B/910C的推理能力達成了客戶的基本需求。在進入今天的具體分享之前,請允許我回顧一下去年的HC,我講到了如下幾點:第一、智能化的可持續,首先是算力的可持續;第二、中國半導體製造工藝將在相當長時間處於落後狀態;第三、可持續的算力只能基於實際可獲得的晶片製造工藝;第四、人工智慧成為主導性算力需求,促使計算系統正在發生結構性變化;第五、開創計算架構,打造“超節點+叢集”算力解決方案持續滿足算力需求。但第五點沒有展開講,本來想講,但我的團隊不同意。今天,我想利用此機會,來把我去年HC沒有完成的任務完成,也算是答卷。我今天分享的主題是:“以開創的超節點互聯技術,引領AI基礎設施新範式”,也是回答去年HC提到的第五點:如何開創計算架構,打造 “超節點+叢集”算力解決方案來持續滿足算力需求。在展開今天主題前,回到DeepSeek對產業界、對華為的衝擊,DeepSeek開源後,我們的客戶對華為的昇騰發展指出了很多問題,也充滿了期待,並一直在給我們不斷地提建議。為此,經過內部的充分討論並達成共識,我們於2025年8月5日在北京專門舉辦了昇騰產業峰會,我代表華為給出了回應,在座的有的參加了,有的可能沒有參加。今天,我也利用此機會就主要的決定給大家匯報一下。主要有四點:一、華為堅持昇騰硬體變現;二、CANN 編譯器和虛擬指令集介面開放,其它軟體全開源,CANN基於Ascend 910B/C的開源開放將於2025年12月31日前完成,未來開源開放與產品上市同步;三、Mind系列應用使能套件及工具鏈全面開源,並於2025年12月31日前完成;四、openPangu基礎大模型全面開源。接下來回到今天的主題。儘管DeepSeek開創的模式可以大幅減少算力需求,但要走向AGI、要走向物理AI,我們認為,算力,過去是,未來也將繼續是人工智慧的關鍵,更是中國人工智慧的關鍵。算力的基礎是晶片,昇騰晶片是華為AI算力戰略的基礎。自2018年發佈Ascend 310晶片,2019年發佈Ascend 910晶片,到2025年,Ascend 910C晶片隨著Atlas 900超節點規模部署,為大家所熟悉。在過去幾年,客戶和夥伴們對昇騰晶片有很多訴求,對昇騰晶片也有很多期待。面向未來,華為的晶片路標是如何規劃的?想必是大家普遍關心的話題,可能也是最關心的內容。因此,今天,我就直入主題來介紹昇騰晶片及其路標。我很確定地告訴大家,昇騰晶片將持續演進,為中國乃至世界的AI算力構築堅固根基。未來3年,至2028年,我們在開發和規劃了三個系列,分別是Ascend 950系列,包括兩顆晶片:Ascend 950PR和Ascend 950DT,以及Ascend 960、Ascend 970系列,更多具體晶片還在規劃中。下面我分別介紹快要推出的和已規劃的4顆昇騰晶片。我們正在開發、且即將推出的晶片叫Ascend 950系列。我首先介紹一下Ascend 950系列的晶片架構,Ascend 950 PR和Ascend 950 DT共用了Ascend 950 Die。與前一代昇騰晶片相比,Ascend 950 在以下幾個方面實現了根本性提升。第一,新增支援業界標準FP8/MXFP8/MXFP4等低數值精度資料格式,算力分別達到1P和2P,提升訓練效率和推理吞吐。並特別支援華為自研的HiF8,在保持FP8的高效的同時,精度非常接近FP16。第二,大幅度提升了向量算力。這主要通過三個方面實現:其一,提升向量算力佔比;其二,採用創新的新同構設計,即支援 SIMD/SIMT 雙程式設計模型,SIMD能夠像流水線一樣處理“大塊”向量,而SIMT便於靈活處理“碎片化”資料;其三,把記憶體訪問顆粒度從512字節減少到128字節,記憶體訪問更精細,從而更好地支援了離散且不連續的記憶體訪問。第三,互聯頻寬相比Ascend 910C提升了2.5倍,達到2TB/s。第四,結合推理不同階段對於算力、記憶體、訪存頻寬及推薦、訓練的需求不同,我們自研了兩種HBM,分別是:HiBL 1.0和HiZQ 2.0。不同的自研HBM與Ascend 950 Die合封,分別構成晶片Ascend 950PR:面向Prefill和推薦場景,以及Ascend 950DT:面向Decode和訓練場景。下面分別介紹。首先是我們的第一顆晶片,Ascend 950PR,主要面向推理Prefill階段和推薦業務場景。首先,我們發現,隨著Agent的快速發展,輸入上下文越來越長,首Token輸出階段佔用計算資源越來越多。其次是在電子商務、內容平台、社交媒體等業務應用中,要求推薦演算法具有更高的精準度和更低的時延,對計算能力的需求也越來越大。推理Prefill階段和推薦演算法都是計算密集型,對計算平行的能力要求高,但對記憶體訪問頻寬的需求相對低。通過分級記憶體解決方案,推理Prefill階段和推薦演算法對本地記憶體容量的需求相對也不高。Ascend 950PR 採用了華為自研的低成本HBM,HiBL 1.0,相比高性能、高價格的HBM3e/4e,能夠大大降低推理Prefill階段和推薦業務的投資。這顆晶片將在2026年一季度推出,首先支援的產品形態是標卡和超節點伺服器。接下來這一顆是Ascend 950DT,相比Ascend 950PR,它更注重推理Decode階段和訓練場景。由於推理Decode階段和訓練對互聯頻寬和訪存頻寬要求高,我們開發了HiZQ 2.0,使記憶體容量達到144GB,記憶體訪問頻寬達到4TB/s。同時把互聯頻寬提升到了2TB/s。其次,支援了FP8/MXFP8/MXFP4/HiF8資料格式。Ascend 950DT 將在2026年Q4推出。第三顆是在規劃中的晶片Ascend 960。它在算力、記憶體訪問頻寬、記憶體容量、互聯連接埠數等各種規格上相比Ascend 950翻倍,大幅度提升訓練、推理等場景的性能;同時還支援華為自研的HiF4資料格式。它是目前業界最優的4bit精度實現,能進一步提升推理吞吐,並且比業界FP4方案的推理精度更優。Ascend 960將在2027年四季度推出。最後一顆是在規劃中的Ascend 970,這顆晶片的一些規格還在討論中。總體方向是,在各項指標上大幅度升級,全面升級訓練和推理性能。目前的初步考慮是,相比Ascend 960,Ascend 970的FP4算力、FP8算力、互聯頻寬要全面翻倍,記憶體訪問頻寬至少增加1.5倍。Ascend 970計畫在2028年四季度推出。大家屆時可以期待它的驚人表現。這是剛才介紹的昇騰晶片的主要具體規格和路標,總體上,我們將以幾乎一年一代算力翻倍的速度,同時圍繞更易用,更多資料格式、更高頻寬等方向持續演進,持續滿足AI算力不斷增長的需求。可以看到,相比Ascend 910B/910C,從Ascend 950開始的主要變化包括:引入SIMD/SIMT新同構,提升程式設計易用性;支援更加豐富的資料格式,包括FP32 /HF32 /FP16/BF16/FP8/MXFP8/HiF8/MXFP4/HiF4等;支援更大的互聯頻寬,其中950系列為2TB/s,970系列提升到4TB/s;支援更大的算力,FP8算力從950系列的1 PFLOPS提升到960的2 PFLOPS、970的4 PFLOPS;FP4算力從950的2 PFLOPS提升到960的4 PFLOPS、970的8 PFLOPS;記憶體容量逐漸加倍,而記憶體訪問頻寬將翻兩番。有了昇騰晶片為基礎,我們就能夠打造滿足客戶需求的算力解決方案。從大型AI算力基礎設施建設的技術方向看,超節點已經成為主導性產品形態,並正在成為AI基礎設施建設的新常態。超節點事實上就是一台能學習、思考、推理的電腦,物理上由多台機器組成,但邏輯上以一台機器學習、思考、推理。隨著算力需求的持續增長,超節點的規模也在持續、快速增大。今年3月份,華為正式推出了Atlas 900超節點,滿配支援384卡。因為是超節點,這384顆Ascend 910C晶片,能夠像一台電腦一樣工作,最大算力可達300 PFLOPS。到目前為止,Atlas 900依然是全球算力最大的超節點。大家經常聽到的CloudMatrix384超節點,是華為雲基於Atlas 900超節點建構的雲服務實例。Atlas 900超節點自上市以來,已經累計部署超過300套,服務20多個客戶,涵蓋網際網路、電信、製造等多個行業。可以說,Atlas 900於2025年,開啟了華為AI超節點的征程。今天,結合我們已經推出或正在研發中的昇騰晶片,我將為大家帶來更多超節點和叢集產品。現在進入今天最激動人心的時刻,就是新產品發佈環節。今天我要發佈的第一款產品,Atlas 950超節點,基於Ascend 950DT打造。Atlas 950超節點支援8192張基於Ascend 950DT的昇騰卡,是Atlas 900超節點的20多倍,我們習慣稱呼的昇騰卡,每張卡對應一顆Ascend 950DT晶片,8192張昇騰卡等同於8192顆Ascend 950DT晶片。Atlas 950超節點滿配包括由128個計算櫃、32個互聯櫃,共計160個機櫃組成,佔地面積1000平方米左右,櫃間採用全光互聯。總算力大幅度提升,其中,FP8算力達到8E FLOPS,FP4算力達到16E FLOPS。互聯頻寬達到16PB/s,這個數字意味著,Atlas 950一個產品的總互聯頻寬,已經超過今天全球網際網路峰值頻寬的10倍有餘。Atlas 950超節點的上市時間是:2026年四季度。我們很自豪的看到,Atlas 950超節點,至少在未來多年都將保持是全球最強算力的超節點,並且在各項主要能力上都遠超業界主要產品。其中,相比輝達同樣將在明年下半年上市的NVL144,Atlas 950超節點卡的規模是其56.8倍,總算力是其6.7倍,記憶體容量是其15倍,達到1152TB;互聯頻寬是其62倍,達到16.3PB/s。即使是與輝達計畫2027年上市的 NVL576相比,Atlas 950超節點在各方面依然是領先的。算力、記憶體容量、記憶體訪問速度、互聯頻寬等能力的大幅度增強,為大模型訓練性能和推理吞吐帶來顯著提升。相比華為已經推出的Atlas 900超節點,Atlas 950超節點的訓練性能提升17倍,達到4.91M TPS。通過支援FP4資料格式,Atlas 950超節點的推理性能提升達26.5倍,達到19.6M TPS。8192卡超節點並不是我們的終點,我們還在繼續努力。我今天發佈的第二款超節點產品,Atlas 960超節點。基於Ascend 960,Atlas 960超節點最大可支援15488卡。Atlas 960超節點 由176個計算櫃,44個互聯櫃,共220個機櫃,佔地面積約2200平方米。Atlas 960超節點的上市時間是:2027年四季度。伴隨卡的規模的再次升級,Atlas 960超節點讓我們在AI超節點的優勢再度增強。基於Ascend 960,其總算力、記憶體容量、互聯頻寬在Atlas 950基礎上再翻倍。其中,FP8總算力將達到30E FLOPS,而FP4總算力將達到60 EFLOPS;記憶體容量達到4460TB,互聯頻寬達到34PB/s。大模型訓練和推理的性能相比Atlas 950超節點,將分別提升3倍和4倍以上,達到15.9M TPS 和80.5M TPS。通過Atlas 950和Atlas 960,我們對於為人工智慧的長期快速發展提供可持續且充裕算力,充滿信心。超節點已經重新定義AI基礎設施的範式,但不僅僅侷限於AI。在通用計算領域,我們同樣認為,超節點技術能夠帶來很大的價值。從需求角度考慮,金融核心業務等目前仍然有部分承載在大型機和小型機之上,相比普通伺服器叢集,它們對伺服器的性能和可靠性有更高的訴求,通用計算超節點在這兩點上正好切合需求。從技術角度考慮,超節點同樣可以為通算領域注入全新活力。因此,鯤鵬處理器主要圍繞支援超節點,更多核、更高性能等方向持續演進。同時,通過自研的雙執行緒靈犀核,使鯤鵬處理器能方便支援更多執行緒。2026年Q1,我們將推出Kunpeng 950處理器,包括兩個版本,分別是:96核/192執行緒和192核/384執行緒;支援通用計算超節點;安全方面新增四層隔離,成為鯤鵬首顆實現機密計算的資料中心處理器。2028年Q1,鯤鵬處理器將在晶片微架構、先進封裝技術等領域持續突破關鍵技術,將再次推出兩個版本,分別是高性能版本,96核/192執行緒,單核性能提升50%+,主要面向AI host、資料庫等場景。以及高密版本,不少於256核/512執行緒,主要面向虛擬化、容器、巨量資料、數倉等場景。接下來是今天我發佈的第三款產品:TaiShan 950超節點,基於Kunpeng 950打造,全球首個通用計算超節點,其最大支援16節點,32個處理器,最大記憶體48TB,同時支援記憶體、SSD、DPU池化。這款產品不只是通用計算領域的一次技術升級,除了大幅提升通用計算場景下的業務性能,還能幫助金融系統破解核心難題。當前大型機、小型機替換的核心挑戰是資料庫分佈式改造,而基於TaiShan 950超節點打造的 GaussDB多寫架構,無需改造,但性能提升2.9 倍,最終可平滑替代大型機、小型機上的傳統資料庫。TaiShan 950加上分佈式GaussDB將成為各類大型機、小型機的終結者,徹底取代各種應用場景的大型機和小型機以及Oracle的Exadata資料庫伺服器。除了核心資料庫場景,TaiShan 950超節點在更廣泛的場景裡,表現也很亮眼:比如虛擬化環境的記憶體利用率提升20%,在Spark巨量資料場景,即時資料處理時間縮短30%。TaiShan 950超節點上市時間是:2026年一季度,敬請期待。超節點的價值,不僅僅體現在智算和通算傳統業務領域。網際網路產業廣泛應用的推薦系統,正在從傳統推薦演算法向生成式推薦系統演進。我們可以基於TaiShan 950和Atlas 950打造成混合超節點,為下一代生成式推薦系統打開全新架構方向。一方面,通過超大頻寬、超低時延互聯以及超大記憶體,混合超節點構成超大共用記憶體池,支援PB級推薦系統嵌入表,從而支撐超高維度使用者特徵;另一方面,混合超節點的超大AI算力,能夠支援超低時延推理和特徵檢索。因此,混合超節點是面向下一代生成式推薦系統的解決方案的全新選擇。大規模超節點把智算和通算的能力都推向新的高度,同時也對互聯技術提出了重大挑戰。華為作為聯接領域的領導者,當然不懼挑戰。在定義和設計Atlas 950、Atlas 960兩個超節點的技術規格時,我們遭遇到了互聯技術的巨大挑戰,主要在兩個方面:第一是如何做到長距離而且高可靠。大規模超節點機櫃多,櫃間聯接距離長,當前電互聯和光互聯技術都不能滿足需求。其中,當前的電互聯技術在高速時聯接距離短,最多隻能支援兩櫃互聯,而當前的光互聯技術雖然可以把長距離的多機櫃聯接在一起,但無法滿足可靠性需求。第二是如何做到大頻寬而且低時延。當前跨櫃卡間互聯頻寬低,和超節點的需求差距達5倍;跨櫃的卡間時延大,當前互聯技術最好只能做到3微秒左右,和Atlas 950/960設計需求仍然有24%的差距,當時延已經低至2~3個微秒時,已經逼近物理極限,那怕0.1微秒的提升,挑戰都很大。華為基於三十多年構築的技術能力,通過系統性創新,徹底解決了當前技術存在的問題,超標達成Atlas 950/960超節點的設計需求,使萬卡超節點成為可能。首先,為瞭解決長距離且高可靠問題,我們在互聯協議的物理層、資料鏈路層、網路層、傳輸層等每一層都引入了高可靠機制;同時在光路引入了百納秒級故障檢測和保護切換,當出現光模組閃斷或故障時,讓應用無感;並且,我們重新定義和設計了光器件、光模組和互聯晶片。這些創新和設計讓光互聯的可靠性提升100倍,且互聯距離超過200米,實現了電的可靠和光的距離。其次,為瞭解決大頻寬且低時延問題,我們突破了多連接埠聚合與高密封裝技術,以及平等架構和統一協議,實現了TB級的超大頻寬,2.1微秒的超低時延。正是因為一系列系統性、原創性的技術創新,我們才攻克了超節點互聯技術,滿足了高可靠、全光互聯、高頻寬、低時延的互聯要求,讓大規模超節點成為了可能。為了達成Atlas 950/960超節點對互聯的技術要求,為了實現萬卡超節點還能是一台電腦,華為開創了超節點架構並開創了新型的互聯協議,能夠支撐萬卡級超節點架構。基於這個互聯協議的超節點架構的核心價值主張是:萬卡超節點,一台電腦,也就是說,通過該互聯協議,把數萬規模的計算卡,聯接成一個超節點,能夠像一台電腦一樣工作、學習、思考、推理。在技術上,我們總結認為,萬卡級超節點架構應該具備6大特徵,分別是匯流排級互聯、平等協同、全量池化、協議歸一、大規模組網、高可用性。我們為這個面向超節點的新型互聯協議取名“靈衢”,英文名稱:UB,UnifiedBus。今天,我們正式發佈靈衢、UnifiedBus,一個面向超節點的互聯協議。同時,我宣佈,華為將開放靈衢2.0技術規範。為什麼從靈衢2.0開始開放?事實上,靈衢的研究是從2019年開始的,因為眾所周知的原因,先進工藝不可獲得,我們需要從多晶片上突破,希望把更多的計算資源聯接在一起。我們取了一個名字叫UnifiedBus,簡稱UB,中文名字“靈衢”,意味著類似九省通衢,實現大規模算力的聯通。基於靈衢 1.0 的Atlas 900超節點自2025年3月開始交付,至今已商用部署300多套,靈衢1.0技術得到充分驗證。在靈衢1.0的基礎上,我們繼續豐富功能,最佳化性能,提升規模,進一步完善了協議,形成了靈衢2.0,前面發佈的Atlas 950超節點就是基於靈衢2.0。我們認為靈衢2.0具備了開放的條件,為了更廣泛地促進互聯技術發展和產業進步,今天華為決定開放靈衢2.0技術規範,歡迎產業界夥伴基於靈衢研發相關產品和部件,共建靈衢開放生態。我在去年HC會上強調過,基於中國可獲得的晶片製造工藝,我們努力打造“超節點+叢集”算力解決方案,來持續滿足算力需求。今天已經介紹了三個超節點產品。靈衢既為超節點而生,是面向超節點的互聯協議,也是建構算力叢集產品最優的互聯技術。接下來為大家帶來兩個叢集產品:首先是,Atlas 950 SuperCluster 50萬卡叢集!Atlas 950 SuperCluster叢集由64個Atlas 950超節點互聯組成,把1萬多機櫃中的52萬多片昇騰950DT組成為一個整體,FP8總算力可達524 EFLOPS。上市時間與Atlas 950超節點同步,即2026年Q4。在叢集組網上,我們同時支援UBoE與RoCE兩種協議,UBoE是把UB協議承載在乙太網路上,讓客戶能夠利用現有以太交換機。相比傳統RoCE,UBoE組網的靜態時延更低、可靠性更高,交換機和光模組數量都更節省,所以,我們推薦UBoE。這就是我們的Atlas 950 SuperCluster叢集。相比當前世界上最大的叢集 xAI Colossus,規模是其2.5倍,算力是其1.3倍,是當之無愧的全世界最強算力叢集!無論是當下主流的千億稠密、稀疏大模型訓練任務,還是未來的兆、十兆大模型訓練,超節點叢集都可以成為性能強悍的算力底座,高效穩定地支援人工智慧持續創新。相應的,在2027年Q4,我們還將基於Atlas 960超節點,同步推出Atlas 960 SuperCluster,叢集規模進一步提升到百萬卡級,FP8總算力達到2 ZFLOPS!FP4總算力達到4 ZFLOPS。並且,它同樣也支援UBoE與RoCE兩種協議,在UBoE協議加持下,性能與可靠性同樣更優,並且,靜態時延和網路無故障時間優勢進一步擴大,因此繼續推薦UBoE組網。通過Atlas 960 SuperCluster,我們將持續加速客戶應用創新,探索智能水平新高。很高興今天給大家帶來一系列新產品,我們希望和產業界一起,以開創的靈衢超節點互聯技術,引領AI基礎設施新範式;以基於靈衢的超節點和叢集持續滿足算力快速增長的需求,推動人工智慧持續發展,創造更大的價值,謝謝! (人民郵電報)
華為發佈全球最強算力超節點和叢集
今日,華為全聯接大會2025在上海啟幕,華為副董事長、輪值董事長徐直軍發表題為“以開創的超節點互聯技術,引領AI基礎設施新範式”的主題演講,正式發佈全球最強算力超節點和叢集。華為副董事長、輪值董事長徐直軍發表主題演講徐直軍指出:“算力過去是,未來也將繼續是人工智慧的關鍵,更是中國人工智慧的關鍵,”並再次強調:“基於中國可獲得的晶片製造工藝,華為努力打造‘超節點+叢集’算力解決方案,來滿足持續增長的算力需求。”徐直軍認為,超節點在物理上由多台機器組成,但邏輯上以一台機器學習、思考、推理。華為發佈了最新超節點產品Atlas 950 SuperPoD和Atlas 960 SuperPoD超節點,分別支援8192及15488張昇騰卡,在卡規模、總算力、記憶體容量、互聯頻寬等關鍵指標上全面領先,在未來多年都將是全球最強算力的超節點。基於超節點,華為同時發佈了全球最強超節點叢集,分別是Atlas 950 SuperCluster和Atlas 960 SuperCluster,算力規模分別超過50萬卡和達到百萬卡,是當之無愧的全世界最強算力叢集。徐直軍表示,基於全球最強算力的超節點和叢集,華為對於為人工智慧的長期快速發展提供可持續且充裕算力,充滿信心。同時,華為率先把超節點技術引入通用計算領域,發佈全球首個通用計算超節點TaiShan 950 SuperPoD,結合GaussDB分佈式資料庫,能夠徹底取代各種應用場景的大型機和小型機以及Exadata資料庫一體機,將成為各類大型機、小型機的終結者。華為基於三十多年構築的聯接技術能力,通過系統性創新,突破了大規模超節點的互聯技術巨大挑戰,開創了面向超節點的互聯協議靈衢(UnifiedBus),徐直軍宣佈華為將開放靈衢2.0技術規範,歡迎產業界夥伴基於靈衢研發相關產品和部件,共建靈衢開放生態。徐直軍強調:“華為將以基於靈衢的超節點和叢集持續滿足算力快速增長的需求,推動人工智慧持續發展,創造更大的價值。” (華為數字中國)