#模型推理 | 熱門關鍵字 | 鉅亨號 | Anue鉅亨

#模型推理

華為如何馴服AI算力「巨獸」？

HUAWEI X HUXIU在通往通用人工智慧（AGI）的路上，如何像其他領域一樣實現彎道超車，是業界繞不開的話題。在過去的十餘年時間裡，各項單點技術飛速演進，但隨著單點技術演進的邊際效應遞減和系統複雜度的提升，系統性能的天花板逐步從單點技術的上限演變成系統工程上限：單點優勢越來越像是精緻的零件，提升空間有限；但採用系統工程創新，各個部分完美配合、高效協同，實現整個系統的效能最優，才有更積極的現實意義。如何在發揮單點技術優勢的同時，以整體視角重新建構路徑，通過對複雜系統的極致把控與再組織、找到新的突破可能？解決這個看似不可能的問題，就有望為我們獨立引領最前沿技術發展創造條件。近期，虎嗅將推出《華為技術披露集》系列內容，通過一系列技術報告，首次全面詳述相關技術細節，為業界提供參考價值。我們期待通過本系列內容，攜手更多夥伴共同建構開放協作的生態系統，助力昇騰生態在中國的蓬勃發展。《華為技術披露集》系列 VOL.13 ：萬卡叢集你是否注意到，現在的 AI 越來越 "聰明" 了？能寫小說、做翻譯、甚至幫醫生看 CT 片，這些能力背後離不開一個默默工作的 "超級大腦工廠"——AI 算力叢集。隨著人工智慧從簡單規則判斷進化到能處理兆參數的大模型，單台電腦的算力就像小舢板面對汪洋大海，而算力叢集則是把上萬台甚至幾十萬台電腦像搭積木一樣連接起來，形成一艘能承載巨量計算任務的 "算力航空母艦"。當我們把上萬台電腦整合成一個有機整體時，需要解決一系列世界級難題：如何讓它們像精密鐘錶一樣協同工作？如何在部分裝置故障時依然保持高效運行？如何快速修復大規模訓練中的中斷問題？接下來我們將逐一揭秘這些支撐 AI 算力叢集的關鍵特性，看看華為團隊如何用工程智慧馴服這頭算力巨獸。01 超節點高可用：24 小時不停工的智能工廠就像醫院的急診系統必須時刻線上，AI 訓練和推理也不能輕易中斷。算力叢集裡每台電腦都有 "備用替身"，當某台機器出現故障（比如突然斷電或硬體損壞），系統會立刻啟動備用機接管任務，就像接力賽中接力棒無縫傳遞，確保自動駕駛訓練、語音識別等任務持續運行，不會因為個別裝置故障而全盤停止。針對CloudMatrix 384超節點，華為團隊提出面向整個超節點的故障容錯方案，分為“系統層容錯”、“業務層容錯”，以及後續“維運層容錯”，核心思想就是將故障問題轉為亞健康問題，通過維運手段優雅消除:(1) 系統層容錯：通過超時代答欺騙OS+網路路由切換，防系統藍色畫面，同時避免整個超節點級故障。(2) 業務層容錯：租戶無感知下，通過重試容忍網路閃斷，將系統故障轉為亞健康。(3) 維運層容錯：主要構築亞健康感知和優雅恢復技術，通過主動方式將消減亞健康事件影響。02 叢集線性度：人多力量大的完美協作理想情況下，100 台電腦的算力應該是 1 台的 100 倍，1000 台就是 1000 倍，這就是 "線性度"。算力叢集通過精密的任務分配演算法，讓每台電腦都像 orchestra（交響樂團）的樂手一樣各司其職，避免出現 "三台和尚沒水喝" 的混亂。比如訓練一個需要兆次計算的模型時，萬台電腦能像整齊劃一地划槳的龍舟隊，讓算力隨規模增長而幾乎同步提升。華為團隊提出華為團隊提出拓撲感知的協同編排技術TACO、網路級網存算融合技術NSF、拓撲感知的層次化集合通訊技術NB、無侵入通訊跨層測量與診斷技術AICT等四項關鍵技術，實現盤古模型訓練線性度提升。實驗及理論分析結果顯示，訓練Pangu Ultra 135B稠密模型時，4K卡Atlas 800T A2叢集相比256卡基線，線性度為96%。訓練Pangu Ultra MoE 718B稀疏模型時，8K卡A2叢集相比512卡基線，線性度95.05%；4K卡CloudMatrix 叢集相比256卡基線，線性度96.48%。03 萬卡叢集訓練快速恢復：帶 "存檔功能" 的訓練師當用上萬個計算單元（俗稱 "萬卡"）訓練超大規模模型時，偶爾有幾台機器 "罷工" 是難免的。這時系統會像遊戲存檔一樣，自動記錄最近的訓練進度。一旦檢測到故障，能快速定位出問題的計算單元，跳過故障部分，從最新的存檔點繼續訓練，避免從頭再來的巨大浪費。比如訓練一個需要 30 天的模型，即使中間有裝置故障，也能在幾分鐘內恢復進度，就像影片播放可以隨時續播。為了使萬卡叢集訓練可以達到分鐘級快恢，華為團隊提出了以下多個創新：(1) 處理程序級重調度恢復：正常節點通過參數面網路將臨終CKPT傳遞到備用節點上，完成參數狀態恢復後繼續訓練，能夠有效縮短訓練恢復時間到3min以內。(2) 處理程序級線上恢復：針對硬體UCE故障，通過業務面昇騰CANN軟體、框架軟體、MindCluster軟體配合實現故障地址線上修復，進一步縮短訓練恢復時間到30s以內。(3) 算子級線上恢復：針對CloudMatrix 384產品HCCS網路、ROCE參數面網路提供HCCL算子重試能力，容忍更長時間的網路異常，實現網路故障影響的通訊算子秒級重執行，訓練任務不中斷。04 超大規模MoE模型推理分鐘級恢復：各路英豪來幫忙隨著千億MOE模型架構演進，實例部署的組網架構從傳統的一機八卡演進為大EP組網架構，將多且小的專家部署在多個伺服器節點上緩解視訊記憶體頻寬壓力，目前在大EP組網架構下主要面臨部署規模擴大導致的故障機率數量增大、故障爆炸半徑變大的可靠性問題，任意硬體故障都會導致整個Decode實例不可用，進而導致推理業務受損，甚至中斷。針對當前超大規模MoE模型帶來的大EP推理架構的可靠性難題，我們提出三級容錯方案，實例間切換、實例內重啟恢復、實例內無損恢復，從硬體驅動層、框架層、平台層相互協作，構築端到端可靠性體系。在不同的故障場景下，採用不同的容錯恢復手段，可以最小化使用者損失。(1)實例內快速重啟恢復技術：根據實際環境測試驗證，該技術將實例恢復時間從20min降低5min。(2)TOKEN級重試：基於DeepSeekV3在CloudMatrix 384超節點場景下，驗證30~60s實現實例恢復。(3)減卡彈性恢復技術：作為當前進行工作，解決硬體故障下業務中斷問題，通過專家遷移，實現故障時推理處理程序不退出，以減卡為容錯手段，動態調整推理實例規模，在使用者無感知情況下秒級恢復。05 故障管理與感知診斷：24 小時線上的裝置醫生算力叢集裡有一套即時監控系統，就像給每台電腦安裝了 "健康手環"，持續監測溫度、算力利用率、資料傳輸速度等指標。一旦發現某台裝置運行異常（比如散熱不良導致速度變慢），系統會立即發出警報，並像醫生一樣分析故障原因 —— 是硬體老化？網路擁堵？還是軟體 bug？快速定位問題並啟動修復機制，防止小故障演變成大停機。針對面向算力叢集的硬體故障管理，華為團隊提供了一套完整的解決方案：基於CloudMatrix 384超節點的裝置物理形態和組網方案的昇騰AI硬體災備高可靠架構設計、涵蓋基礎檢錯糾錯能力、故障隔離能力、故障容錯能力以及深度巡檢與故障預測能力的昇騰RAS統一故障管理容錯框架、進一步提升光鏈路的可靠性的網路自診斷可靠性管理、以及綠色低碳、穩定可靠和安全可信的雲資料中心管理體系。針對面向算力叢集的故障感知能力，華為團隊建構了大規模叢集線上故障感知（全端可觀測）和故障診斷（全端故障模式庫、跨域故障診斷、計算節點故障診斷、網路故障診斷）技術：(1) 全端可觀測能力：建構了大規模叢集的故障感知能力，主要由叢集運行檢視、告警檢視、網路鏈路監控、告警接入和配置、網路流可觀測能力組成。(2) 故障診斷能力：包括全端故障模式庫、跨域故障診斷、計算節點故障診斷、網路故障診斷。06 建模模擬：算力底座的“數位化風洞”在正式開展複雜AI模型的訓推之前，算力叢集可以先在虛擬環境的“數位化風洞”中 "綵排"。比如研發一個新藥篩選模型時，先通過模擬不同的演算法參數、資料輸入和計算資源分配方案，預測模型在真實場景中的表現，就像電影導演用動畫預演複雜鏡頭。這種 "先模擬後實戰" 的方式，能提前發現計算系統的瓶頸點和邏輯漏洞，並提出相應最佳化手段，節省大量真實訓推的時間和資源。華為團隊創新性提出系統化、可擴展的馬爾科夫建模模擬平台，圍繞對訓練、推理、高可用三大核心領域實現多維度系統性建模分析與性能預測調優，實現叢集資源高效配置與動態最佳化，達成算力極致利用與系統長期穩定可靠運行。(1)Sim2Train訓練建模模擬：馬爾科夫訓練叢集建模模擬平台，AdaptPack編排最佳化長序列PP空泡，吞吐提升4.5%-8.24%。通訊與計算協同場景，引入AdaptS/R技術，通訊暴露時間降89.84%，單步總時長縮短3.25%；MoE通過AdaptExpert提升端到端性能7.5%。(2)Sim2Infer推理建模模擬：面向昇騰複雜推理系統的馬爾科夫建模模擬平台，實現了從高層算子描述到底層硬體指令的自動化對應與模擬，平均誤差低至6.6%。(3)Sim2Availability高可用建模模擬：馬爾科夫高可用建模模擬框架，通過離散時間步長模擬，建模單步時長內的故障性能劣化影響與恢復耗時，模擬複雜系統訓練任務中的故障場景及維運響應，實現對訓練過程性能表現與故障恢復狀態的全周期監控模擬。07 框架遷移：給模型跑車換更酷炫輪胎自從2020年3月全面開源以來，華為推出的全場景AI框架昇思MindSpore一路高歌猛進，開發者生態迅速成長。除了為基於昇騰+昇思的自主創新外，昇思MindSpore也提供了擁抱主流生態的相容方案，適應大模型時代的挑戰和需求。(1)訓練階段，MindSpore建構了MSAdapter生態適配工具，覆蓋90%以上PyTorch介面，實現第三方框架的無縫遷移，並針對動態圖執行效率的問題，通過多級流水線技術與即時編譯（JIT）最佳化顯著提升執行效率。(2)推理階段，MindSpore基於主流生態的HuggingFace權重配置，無需修改即可實現一鍵部署，通過vllm-MindSpore外掛對接vLLM框架，支援大模型推理服務化能力。實現盤古72B模型快速部署，實現推理性能提升。08 寫在最後綜上所述，華為團隊針對昇騰算力叢集基礎設施，提出了針對超節點高可用、叢集線性度、萬卡叢集訓練快速恢復、兆MoE模型推理容錯、叢集故障感知及感知診斷、叢集模擬建模、框架遷移等方面的全維度的創新方案。隨著新型應用快速變化，硬體系統持續創新，系統架構不斷演進，工程能力走向智能化，未來算力基礎設施的演進將走上演算法-算力-工程協同進化的道路，有可能形成形成“應用需求→硬體創新→工程反哺”的閉環，演算法層驅動算力專用化（如復合AI需異構加速），算力層通過架構革新（如光電混合）釋放性能潛力，工程層以智能化手段（如AI維運）彌合複雜度鴻溝，最終實現高效、彈性、自癒的下一代算力基礎設施。 (虎嗅APP)

華為全面揭秘超大規模MoE模型昇騰推理部署技術，國產晶片推理性能再創新高

“華為不只是「官宣」一下而已，後面更會是全面開源。”推理部署，成為大模型落地重中之重從2017年Google提出Transformer——這一人工智慧中最常用的神經網路架構，到DeepSeek V3/R1在2025年春節一夜爆火，超大規模MoE架構大模型的重點逐漸從訓練開發轉向推理支撐的應用落地。推理場景是大模型認知能力的"試金石"，是大模型商業化落地的核心能力，從搶先上線DeepSeek模型到API服務價格戰，在推理為王的時代，誰能最極致的提升推理部署計算效率，誰才能真正獲得大模型商業成功。數學補物理，極致提升計算效率“數學補物理” ，通常指通過數學理論、演算法和建模方法，彌補傳統物理裝置開發在複雜系統分析、大規模計算或多場耦合問題中的侷限性。華為輪值董事長孟晚舟曾在2025年新年致詞中提到：“華為十多個實驗室與夥伴們的工程師組成“大雜燴”團隊，面對天成AI叢集系統和單晶片性能的嚴峻工程挑戰，他們創造性應用數學補物理、非摩爾補摩爾、系統補單點等思想，在散熱、供電、高速、高密及大晶片在板可靠性等工程領域突破極限。”華為技術團隊面向超大規模MoE模型的推理技術最佳化也是圍繞著數學補物理這一思路，充分發揮等價數學變換，也就是在保持數學對象本質屬性不變的前提下，通過代數變形、邏輯轉換或結構重構等方式提升計算效率的方法，極致的提升了硬體叢集的計算效率，包括從點到面的推理框架側最佳化技術，把數學最優實現變為物理最優的FlashComm通算最佳化技術，把序列計算變成四流並行的通算極致掩蓋技術，以加法代乘法昇騰MLA最優實現，硬體感知親和的大量創新算子等一系列核心技術孕育而生，並將通過一連串的技術報告首次全面披露這些寶貴的技術細節。開源共享，打造持久的開放協作生態昇騰生態的建設不是一次性的工作，而這次昇騰超大規模MoE模型推理部署技術的揭秘，除了通過技術報告分享昇騰在超大規模MoE模型的推理部署技術之外，在不到一個月的時間之後，實現這些核心技術的相關程式碼也都會陸續開源出來, 歡迎關注https://gitcode.com/ascend-tribe/ascend-inference-cluster中的持續更新。在與業界分享技術思路的同時，也通過開放原始碼的方式共同打造長期持續的開放協作生態環境，讓昇騰親和的技術能力通過這些開放原始碼專案真正的活躍起來，這體現出華為堅定建設開放生態的決心，讓所有願意嘗試使用昇騰能力的專家有信心長期投入，也讓所有積極參與貢獻的開發者有信心持續耕耘，一起努力讓昇騰生態在中國茁壯成長。超大MoE類模型推理的挑戰擁有6710億參數，採用混合專家架構，在各種榜單表現出色的DeepSeek V3某種程度上代表了大模型發展的一個新趨勢，即基於軟硬體協同最佳化的模型架構，能夠最大性能的發揮硬體平台的能力，在多種任務中表現出色，包括自然語言理解、程式碼生成和數學推理。我們暫且把DeepSeek V3為代表的大模型統稱為超大MoE類模型。儘管在性能上表現出色，並且有著大量開放原始碼的模型權重以及很多的包括DeepEP等在內的工具類項目，但對於想使用這類大模型的企業來說，能夠部署完整版本的超大MoE類模型目前依舊面臨多重挑戰：首先，硬體部署規模要求更高。現在我們在和大模型進行互動聊天的時候，無時無刻不在使用大模型的推理。而由於其自身的尺寸規模，這不再是此前小尺寸模型在單機多卡甚至單機單卡就可以運行能夠相比的。硬體叢集逐漸成為“滿血版”超大MoE類模型的標配。其次，模型規模龐大對推理效率提出了高要求。龐大的專家數量給硬體記憶體使用效率提出了很大挑戰，需要合理的分佈式平行和通訊策略設計，才能將如此大量的專家有效的跑在硬體叢集上。再次，超大MoE類模型的諸多架構創新，也帶來了很多實際部署上的困難。比如其多頭隱式注意力機制(MLA - Multi Head Latent Attention)，雖然可以通過將原有的注意力機制的鍵值對通過一個投影矩陣壓縮到一個較小的隱式向量空間中，但這種創新也為算子最佳化帶來了新的挑戰，比如其帶來了中間變數膨脹且向量計算佔比顯著增加，這樣給硬體對計算的加速提出了新的要求。昇騰使能技術對大模型叢集推理的極致創新為瞭解決如上提到的實際部署中遇到的問題，從模型和算子兩個方面入手，我們基於昇騰硬體和組網方式，提出了多個親和的最佳化策略，開發出了一整套面向叢集的大規模專家平行的解決方案。昇騰伺服器有多種配置和型號，我們針對近期發佈的CloudMatrix 384 超節點和Atlas 800I A2 推理伺服器兩種典型機型進行部署。為瞭解耦prefill 階段的首token 時延約束和decode 階段的解碼時延約束，我們採用PD 分離部署的方式。在框架側，我們基於vLLM框架，為了適配昇騰伺服器，針對DP和EP 平行策略做了相應適配，在調度和KV 傳輸方面分別採用了Prefill調度分桶和靈衢互聯與分層傳輸的技術來降低調度開銷，在請求下發、調度策略、系統建鏈和框架前後處理方面做了性能最佳化，以實現整個系統的最優性能。模型方面，我們採用A8W8C16 的量化策略，其中A8W8 採用INT8 的資料類型，C16 採用BF16 的資料類型進行量化。詳細的部署方面，由於兩種機型的定位和配置，特別是網路配置相差巨大，所以具體部署方案也不盡相同。針對CloudMatrix 384 超節點，其特殊的組網方式為其提供了非常強大的優勢。按照DeepSeek的論文所述，Decode 部分是嚴重的通訊主導，在MicroBatch技術的加持下，幾乎可以做到通訊掩蓋其他所有計算類操作。而CloudMatrix 384 的組網非常強大，使得通訊耗時大幅降低，可以更進一步釋放昇騰晶片的算力。因此，針對超節點我們採用大規模EP 平行的方式來部署，針對Prefill 使用16 卡，針對Decode 使用144 卡，其中128 卡部署路由專家，16 卡通過DP 的方式部署共享專家，MLA 部分使用DP 的方式進行部署。超節點可以獲得非常高的吞吐，當然由於各種情況的影響，包括時延約束的影響使得各部分耗時未能達到理想的線性度，頻寬搶佔和啟動開銷等帶來一部分性能劣化，框架的耗時和調度開銷帶來了額外的時延增加，MLA 部分的序列負載平衡和MoE部分的專家負載帶來進一步的性能惡化；最後多種原因綜合在一起，使得當前吞吐實現在保證50ms 時延下單卡decode 吞吐達到1920 token/s。針對Atlas 800I A2 伺服器，由於其是8 卡的伺服器，我們需要採用多機互聯的方式來進行。綜合考慮模型吞吐和部署靈活性，我們選定使用2 機16 卡作為一個prefill 示例，使用4 機32 卡作為一個decode 示例。為了部署時儘可能的靈活，這裡選用的卡數都比較少，這使得我們採用較小規模的EP 平行策略：每張卡上部署8 個路由專家和1 個共享專家。MLA 部分採用DP 平行策略，通訊方式採用AllGather方案。這種部署方式可以在卡數較少情況下依然達到相當可觀的吞吐。這裡值得一提的是，我們的通訊方案採用的是AllGather而不是Dispatch/Combine 的通訊方案，該方案在真實負載下具有更好的性能表現。採用各種最佳化策略的情況下，實現了在100ms 時延下達到單卡吞吐速度808tokens/S。1.推理框架側最佳化技術1） API Server 擴展技術團隊提出了API Server 擴展技術，通過支援API Server 水平擴容策略，可以有效提升框架請求處理能力，降低使用者請求延遲，提高系統吞吐量（QPS）。結合包括組網方案最佳化和全平行、全非同步前後處理，可進一步實現最佳TTFT，提升推理服務的可用性與處理效率。2）MoE模型負載平衡團隊提出了一種高效的負載平衡策略，通過動態負載平衡，熱專家冗餘部署，即時調度和動態監控等核心技術，顯著提升MoE 模型推理性能。2. FusionSpec推理投機加速技術在實際應用中，投機推理技術更多聚焦於小批次（batch）低時延場景，如何將其高效應用於高吞吐量場景並實現性能收益最大化，成為當前亟待攻克的技術難題。投機推理提升了模型解碼階段的計算密度，天然匹配昇騰高計算頻寬比的特點。為了能夠充分發揮昇騰算力大的優勢，在低時延大並行場景下實現高吞吐，我們提出了投機推理引擎FusionSpec深度最佳化MTP 在昇騰上的推理性能：在推理流程上，將投機模型置於主體模型之後，直接使用主體模型的輸出，並復用主體的控制參數，大幅減少了框架耗時，並親和PD 分離的部署場景。為了在投機推理開啟時進一步發揮Ascend 的計算能力，減少NPU 的空閒時間，我們對投機推理的框架、採樣（sampler）操作、多頭潛在注意力（MLA）計算進行了最佳化。3.FlashComm通訊最佳化技術FlashComm ：主流張量平行（TP）中使用AllReduce進行通訊的方案存在通訊次數多，通訊資料量大，通訊資料格式位元數高等問題，且AllReduce之後的如殘差連接和歸一化計算存在計算冗餘，沒有充分利用多卡平行能力。為此，我們提出FlashComm網路通訊方案：我們針對Deepseek網路前三層稠密MLP 層，基於相同的集合通訊邏輯將張量平行中的AllReduce通訊算子進行替換，並對通訊算子在網路中位置進行編排，實現了低位元和低維度資料通訊，從而有效降低了通訊資料量和通訊時延，並消除了網路中存在的冗餘計算。層內平行轉換技術：在FlashComm的基礎上，為進一步最佳化通訊算子的時延，我們提出層內平行轉換的最佳化方案：我們針對Prefill 階段網路MLA 層重新設計了單層內使用的平行策略，靈活做到張量平行（TP）與資料平行（DP）的轉化，消除節點內卡間求和的需求，且充分利用網路低資料維度和量化特性實現節點間通訊量的大幅降低，從而顯著最佳化了通訊時延。計算通訊並行：昇騰晶片提供了計算和通訊的並行機制。MoE層的計算過程中需要使用AllGather匯聚各張卡上的Token 的特徵進行啟動專家的篩選和計算。我們的方案中，對於Gate 函數使用先計算後通訊匯聚的方法，對共享專家使用DP 的方式，從而保證了Gate 函數的計算和通訊、共享專家的計算，以及特徵匯聚的AllGather函數之前沒有依賴關係。我們利用昇騰的多流機制，將這三部分進行並行處理，從而最大化推理模型的性能。特別的，模型部署方面可以根據不同的需要進行更細緻的設計，比如為了能更好的節省記憶體，共享專家可以採用機內TP 機間DP 的方式，共享專家的計算仍然可以和機間AllGather通訊或者其他機器傳輸來特徵的機內通訊進行並行掩蓋。通訊通訊並行：昇騰晶片也提供了通訊和通訊並行的機制。當通訊頻寬利用率比較低的時候，可以把兩個通訊算子並行起來以掩蓋通訊算子的啟動開銷，同時提高通訊頻寬的利用率。DeepSeek模型在進行AllGather等通訊時，可以將Norm 算子和量化算子移到AllGather通訊的前面，從而降低通訊的資料量，進而提高通訊的效率。但是由於量化算子的前移，需分別通訊量化後的啟動值和scale，進而增大了通訊算子啟動開銷。由於scale 的資料量較小，對頻寬的佔用極低，因此我們採用通訊通訊並行的機制，將通訊啟動值和通訊scale 並行起來，在不增加啟動值通訊開銷的前提下，掩蓋掉scale 的通訊代價。通訊和權重預取的並行：昇騰晶片提供了快取機制，算子在進行計算時，會優先從快取中尋找資料，如果存在，則直接從快取中讀取資料，否則從HBM 中讀取資料，而快取的頻寬是HBM 頻寬的幾倍。由於通訊算子進行過程中HBM 頻寬佔用率較低，我們在通訊算子進行過程中可以將後續算子需要的權重提前預取到快取中，從而降低後續算子計算過程中的權重搬運開銷。同時昇騰晶片支援靈活限定預取頻寬，因此在通訊過程中預取對通訊性能影響很小。對於DeepSeek模型我們在MoE結束的ReduceScatter預取MLA 中權重矩陣和KV cache，可以提升MLA 部分的計算性能。4.昇騰親和的創新算子1) MLA 算子最佳化:Attention 算子：MLA 相較於傳統的Attention 算子（如MHA, GQA 類顯著頻寬瓶頸的算子），由於其中間變數膨脹且計算量顯著增加，為算子最佳化帶來了新的挑戰。針對昇騰處理器的架構特性，我們對MLA 場景的FA 算子進行了演算法重構以及硬體親和的性能最佳化。提出AMLA（Ascend MLA）演算法，通過浮點二進制編碼解析及原子累加操作實現乘性計算的加性等價轉換，從而實現直接在Global Memory 上更新O 的步驟，無須進入Vector core，大幅降低中間變數的重複搬運。對L1 快取進行了細緻規劃，儘可能地減少資料重複搬入搬出的過程。在工程實現方面，通過最佳化計算流程提高L2 cache 命中率，並且利用K-buffer 流水排布等策略，實現Cube 計算和Vector 計算互相掩蓋，提高了算子整體性能。同時，雖然當前版本的模型實現中並未採用KVCache的量化演算法，但我們也對MLA 的Attention 計算，針對僅KV cache 的INT8 量化和Q/K/V 全INT8 量化場景均進行了深度的算子重構與極致流水最佳化。MLA 前序算子：針對複雜的MLA 前序算子，我們分別在Prefill 階段和Decode 階段採取了不同的最佳化策略：在Prefill 階段，我們通過雙流並行等技術實現了流水掩蓋，同時增加了FA 算子對多種輸入輸出模式的支援以消除純訪存類冗餘算子。在Decode 階段，我們採用權重吸收，同時將前序算子深度融合為MLAProlog算子，並且針對昇騰硬體架構進行了全方位的深度最佳化。具體最佳化措施包括：採用權重預取減少流水線空泡；基於最小化搬運以及最大化頻寬的tiling 策略；通過計算解耦降低指令依賴與等待；利用局部計算融合消除全核同步開銷；運用昇騰定製指令集實現ICache壓縮，規避issue queue 阻塞風險等。2) MOE 算子最佳化Dispatch/Combine 通算融合算子：在EP 部署模式中，MoE中的專家分佈在較大的通訊域的各個卡上，每個Token 需要分發到對應的卡上進行計算，原始的實現方式使用InitialRouting根據專家排序對所有Token 進行重排，再用AllToAll以及AllToAllv通訊算子進行交換token。該實現方式在通訊域比較大的場景下，存在通訊次數多，卡間同步開銷嚴重等問題，阻礙了整網端到端時延的提升。因此，我們提出MoeDistributeDispatch和MoeDistributeCombine兩個通算融合算子技術：將計算和傳輸拆解為Token 粒度的計算單位，通過流水排布實現通訊和計算的平行執行；同時利用記憶體語義的通訊技術直接向不同卡上的共用記憶體傳輸資料，從而減少了本地複製和等待資料的開銷；我們通過本地記憶體篩選和複製的機制，減少了資料傳輸次數和卡間同步開銷。SMTurbo-CPP 算子：針對MOE 層大通訊域場景下，小資料量傳輸效率低的問題，我們提出SMTurbo-Concurrent Push and Pull （SMTurbo-CPP）技術：在記憶體語義等級對通訊算子AllToAll(v) 進行最佳化，充分利用硬體並行能力，使用讀寫混合、聚合流水、批次檢測等技術，提升了執行緒的訪存效率與吞吐，顯著降低Dispatch 和Combine 場景通訊算子的時延。細粒度分級流水演算法：基於Atlas A2 系列產品，HCCL 支援細粒度的分級流水演算法，可大幅提升叢集中Allgather、ReduceScatter、AlltoAll等集合通訊算子的執行效率。該演算法利用A2 組網的特性，實現了Server 內/Server 間的並行執行，以提高頻寬利用率。性能表現在2025 年4 月，矽基流動聯合華為雲基於CloudMatrix 384 超節點昇騰雲服務和高性能推理框架SiliconLLM，用大規模專家平行最佳實踐正式上線DeepSeek-R1。該服務在保證單使用者20 TPS 水平前提下，單卡Decode 吞吐突破1920 Tokens/s，可比肩H100 部署性能。同時，經過主流測試集驗證及大規模線上盲測，在昇騰算力部署DeepSeek-R1 的模型精度與DeepSeek官方保持一致。結語在人工智慧大模型技術蓬勃發展的浪潮中，華為憑藉其卓越的算力支撐和創新架構設計，正在為行業創新注入澎湃動力。華為發佈昇騰推理系列關鍵技術，並將於近期開放技術程式碼，建構開放共贏的開發者生態，推動大模型技術的創新發展，為中國自主的人工智慧生態體系貢獻核心力量。 (雷峰網)

GPT-4.1橫空出世，一文看懂OpenAI新佈局。

在人工智慧的競技場上，巨頭們的每一次出招都牽動全球科技愛好者的心。就在昨天，OpenAI再次掀起波瀾，推出了全新旗艦模型GPT-4.1，這款模型不僅取代了去年發佈的GPT-4o，更成為了當前AI領域的新標竿！🔥如果你認為這只是一次普通的模型更新，那就大錯特錯了。這次升級背後，隱藏著AI行業的戰略轉變和技術突破。究竟GPT-4.1有何驚人之處？為何OpenAI突然推遲了備受期待的GPT-5？這背後又有怎樣的行業博弈？超強升級：能力全面提升的GPT-4.1在直播中，OpenAI宣佈GPT-4.1在"幾乎所有維度"上都優於前代產品，特別是在程式碼編寫和指令遵循方面有了質的飛躍。這意味著它能更準確地理解你的需求，產出更符合預期的結果，無論是文字創作還是程式設計任務。最令人矚目的是，GPT-4.1的上下文窗口達到了驚人的100萬tokens！要知道，GPT-4o的上限僅為12.8萬tokens。這就好比從一個小筆記本突然升級到了一整套百科全書的容量，能處理更長、更複雜的文字、圖像和視訊輸入。📚OpenAI在公告中表示："訓練GPT-4.1能夠可靠地處理完整的100萬上下文長度資訊，它還能比GPT-4o更可靠地注意到相關文字，並在長短不同的上下文中忽略乾擾因素。"精打細算：價格更親民的AI服務在效率為王的AI時代，成本同樣是關鍵因素。GPT-4.1不僅性能更強，價格還比前代便宜26%！這一舉措顯然是針對DeepSeek等競爭對手推出的超高效AI模型。這次發佈的不只有旗艦版，還包括兩個輕量級版本：GPT-4.1 Mini和GPT-4.1 Nano。後者被OpenAI稱為"最小、最快、最便宜"的模型，為開發者提供了更多經濟實惠的選擇。💰戰略轉變：為何GPT-5被推遲？本應在5月亮相的GPT-5現在被推遲到"幾個月後"。OpenAI CEO Sam Altman在X平台上表示："我們發現將所有功能順利整合比預想的要困難。"這個決定背後，是否隱藏著技術瓶頸？還是戰略調整？業內人士猜測，面對Google和Anthropic等競爭對手的步步緊逼，OpenAI可能正重新規劃其產品路線圖。🤔模型更迭：告別舊時代隨著新模型的到來，OpenAI也宣佈將於4月30日從ChatGPT中淘汰已有兩年歷史的GPT-4模型，稱最近對GPT-4o的升級使其成為"自然繼任者"。此外，GPT-4.5預覽版API也將於7月14日停用，因為"GPT-4.1在許多關鍵能力上提供了更好或類似的性能，而成本和延遲都大幅降低。"程式設計能力的突破在SWE-Bench測試中，GPT-4.1成功完成了54.6%的任務，這在程式設計能力評估中是一個相當亮眼的成績。這意味著，無論是幫助專業開發者還是程式設計新手，GPT-4.1都能提供更精準、更有效的程式碼輔助。💻AI未來：推理模型即將登場據可靠消息，OpenAI還將很快推出完整版o3推理模型和o4 mini推理模型。AI工程師Tibor Blaho已在最新的ChatGPT網頁版本中發現了相關引用。這預示著AI不僅能回答問題，還將具備更強的推理能力，向真正的"思考"更進一步。作為科技愛好者，你如何看待這次GPT-4.1的發佈？你認為它會對程式設計開發、內容創作乃至日常工作帶來什麼改變？它是否會幫助你解決當前面臨的技術難題？ (澤問科技)

DeepMind首席科學家萬字深度訪談｜“慢思考”正帶來一種全新的scaling law

2月25日，Google DeepMind首席科學家Jack Rae接受訪談，就Google思維模型的發展進行深入討論。 Jack Rae指出，推理模型是 AI 發展的新範式，推理模型並非追求即時響應，而是通過增加推理時的思考時間來提升答案質量，這導致了一種新的Scaling Law，“慢思考”模式是提升 AI 性能的有效途徑。 Jack Rae認為長語境對於推理至關重要，“延長上下文、加速運算、降低成本”這一循環過程將持續推進。 Jack Rae表示，無限語境可能存在一個模糊的邊界。使用者真正需要的或許不是無限的輸入長度，而是模型能夠有效地處理和利用長語境資訊，並在合理的時間內給出高品質的答案。此外，他還指出，推理模型是建構強大 AI Agent 的核心驅動力。

首個混合推理模型Claude 3.7發佈！程式設計能力全面領先，還能精準控制思考時間

Claude深夜重磅發佈新模型—— Claude 3.7 Sonnet，首個混合推理模型問世，在編碼和前端Web開發方面顯著提升，實現了全面領先。與o3-mini實際對比，相同的提示詞下，Claude 3.7 Sonnet的表現。 o3-mini：

美大學教授警告：大模型根本不會推理，全靠記憶力強！

大模型根本不會推理！亞利桑那州立大學教授Subbarao Kambhampati最近發表了一系列言論，直指當前大語言模型（LLM）推理能力的迷思。這番言論引發了業內熱議，不少網友紛紛表示：原來AI這麼強的推理能力，都是假的？ Kambhampati教授一針見血地指出：許多關於LLM推理能力的說法都忽視了一個事實：LLM不僅僅是訓練於"事實"，更多時候還包括了這些事實的演繹閉包。因此，所謂的"推理"實際上變成了（近似）檢索。