#H100
前沿科技觀察丨“太空AI”,中國多個團隊取得關鍵突破
近期,美國一顆搭載有輝達旗艦晶片H100的衛星通過美國太空探索技術公司(SpaceX)的“獵鷹9號”火箭成功進入太空,這顆擁有80GB視訊記憶體、性能遠超以往任何星載電腦的晶片,將在軌承擔地球觀測圖像分析與大語言模型Gemini的推理任務。外媒報導稱,這也實現了首次資料中心級GPU在軌運算實驗,拉開太空高算力人工智慧(AI)時代的序幕。然而在此之前,已有多顆部署有AI大模型的中國衛星被送入太空。近日,參與相關項目的中國科學院計算技術研究所研究員韓銀和在接受《環球時報》記者專訪時表示,中國在太空AI領域正處於體系化快速推進階段,並有多個團隊已取得關鍵突破。為何要打造“太空AI”“具有大算力和人工智慧能力的算力衛星能夠消除星地資料傳輸瓶頸,實現資訊的‘天基快速理解與決策’,可應用於災害監測預警等需要極低延遲響應的場景。”韓銀和在接受《環球時報》記者採訪時介紹稱,結合衛星寬頻網路,建設太空資料中心和超算中心,優勢主要體現在五個方面。一是超低時延,資料可以就地處理,實現即時決策;二是可實現超高頻寬效率,通過AI處理後,衛星僅下傳關鍵結果資訊,而非TB/PB級的原始資料,極大節省珍貴的星地鏈路資源;三是具有無界覆蓋與機動性的優勢,天基超算中心可部署在軌道各處,不受地域限制;四是天基超算中心還具有天然的高安全性,可實現物理隔離,提供了獨特的網路安全環境;五是天基超算中心還能補強地面盲區,彌補地面資料中心覆蓋不足和服務延遲的短板,真正實現全球快速響應。然而讓“大算力”真正進入太空,並不只是把一顆晶片送上太空那麼簡單。太空高輻射、極端溫差的環境,以及衛星平台能耗有限與散熱困難等“硬傷”,都對算力晶片的穩定運行提出了挑戰。從地面資料中心到星際計算節點,這不僅是硬體的飛躍,更是工程、演算法與能源管理的系統性突破。中國處於體系化快速推進階段中國多個科研機構早早佈局相關試驗,並進行了大模型在軌部署。據此前公開報導,中國自主建設的智能遙感衛星星座“東方慧眼”首顆實驗星“珞珈三號01星”於2023年1月發射,首次實現8分鐘星地互聯的B2C應用服務。2024年底實現了大模型上注,首次使得衛星具備了大模型能力。而在今年5月,中國首個整軌互聯太空計算衛星星座“三體計算星座”首次發射,正式進入組網階段。北京市科委、中關村管委會等單位近日宣佈,北京擬在700-800公里晨昏軌道建設營運超過千兆瓦(GW)功率的集中式大型資料中心系統,以實現將大規模AI算力搬上太空。“三體計算星座”首次發射一箭十二星效果圖 。圖源:之江實驗室微信公眾號“可以說中國在太空AI領域目前正處於體系化快速推進階段,多個頂尖團隊已取得關鍵突破。”韓銀和介紹稱,例如中國科學院計算技術研究所,採用全體系國產化核心元器件和高可靠容錯計算架構,在2023年就率先實現了100TOPS級星載算力,為天基大模型運行奠定了自主可控的硬體基礎。武漢大學的“東方慧眼”星座通過通導遙一體化與AI融合,整合北斗短報文與星間即時傳輸,將資料響應時間壓縮至分鐘級,實現了“快、清、准、全、懂”的遙感服務目標。其技術架構不僅服務於國土監測、應急管理等國家需求,更開創了大眾呼叫衛星的商業新模式。而浙江之江實驗室與國星宇航的“三體計算星座”則採用了氦星光聯研製的雷射終端以保障星座級高效協同,支援星間100Gbps高速通訊,算力達到744TOPS。“一星多卡”計畫明年在軌驗證韓銀和進一步介紹稱,當前中國在軌部署的大模型均採用輕量化技術路線,針對太空環境的算力約束進行了深度輕量化。值得關注的是,即便是類似於輝達H100這樣的太空計算單元,實際運行的也是Gemini輕量版模型。這充分表明,全球範圍內太空AI部署仍以輕量化模型為主要技術路徑。目前中國已全面掌握輕量級大模型在軌部署能力,正穩步邁向全參數大模型在軌運行的研製階段。中國科學院計算技術研究所團隊是算力技術研究的國家隊,已提出了“一星多卡”的天基超算架構,計畫在明年發射衛星進行在軌驗證,為全參數大模型的在軌應用提供算力基礎設施。這是關鍵一步,全參數大模型將賦予太空和地面一樣的智能處理能力。“與美國Starcloud衛星依託輝達H100晶片生態不同的是,我們的路徑主要核心是攻克‘一星多卡’的自主天基超算和資料中心架構。”韓銀和認為,這是一個體系性的創新,並非簡單堆疊,而是致力於採用國產高能效GPU組成陣列,實現單星算力的跨越式提升,“這是我們自主創新的突破”。“這一方案更強調模組化設計、系統性整合和對散熱、功耗等極限挑戰的克服,目標是為建構未來的太空超級計算中心提供基礎。這種架構帶來的挑戰更大,但長期看具有實現更高算力密度和任務靈活性的潛力,代表著更面向未來的探索方向,是中國從技術追隨者轉向引領者的關鍵一步。”韓銀和表示。在韓銀和看來,世界主要航天大國開展的這場“太空AI”建設不只是簡單的技術角逐,還事關下一代空間資訊基礎設施的標準制定權。誰率先掌握了成熟的星上即時感知、認知、決策核心能力,誰就能夠在太空時代佔據主動權。“中國正通過系統性創新‘彎道超車’,因此各方都在加大投入。”韓銀和稱。 (環球時報研究院)
地球「養不起」輝達GPU
【新智元導讀】地球現在連顯示卡都供不起了,微軟的GPU插不進機房。輝達的H100直接飛向太空。輝達的GPU,地球真的已經「供不起了」!今天看到兩個新聞,一個是微軟手裡囤了無數的GPU,但是「插不進去」。另一個是輝達H100 GPU被發射到太空組建資料中心。這兩個事情其實背後都隱藏著一個深刻問題:GPU是造出來了,但是配套服務於GPU,給GPU供電,給GPU散熱的基礎設施並沒有跟上!先說微軟的GPU放在庫房裡吃灰這件事。微軟CEO納德拉在與OpenAI奧特曼的訪談中爆出驚人事實——微軟手中囤積著大量GPU。卻「沒有足夠電力」讓它們運轉。另一個原因則更為現實,缺少可以立馬「插入GPU」的資料中心。納德拉坦言:我現在的問題不是晶片不夠,而是沒有能插進去的「溫暖機殼」(Warm Shell)。所謂「Warm Shell」指的是具備供電與冷卻條件的資料中心外殼。用一個對比就能快速理解這個概念,建築學上,相對Warm Shell則是Cold Shell。Cold shell指的是建築結構/外殼基本具備,但室內幾乎沒有或只有極少的系統安裝。Warm Shell則是更準備好了的狀態,安裝並可以使用基本的建築系統,比如散熱系統、暖通空調(HVAC)、照明、基本電/水/消防系統等。AI熱潮引發的晶片競賽,如今正受制於最傳統的瓶頸——電力。美國電網面臨前所未有的壓力,而科技巨頭則競相佈局小型核反應堆以自救。與此同時,奧特曼還提到未來可能出現「能在本地運行GPT-5或GPT-6」的低功耗消費裝置,這或將徹底顛覆現有資料中心商業模式。地球養不起,「發配」到太空相比奧特曼提出的低功耗裝置,另一個新聞則提供了新的思路。輝達借助Starcloud的Starcloud-1的衛星,將H100送到太空!11月2日,星期日,輝達首次將H100 GPU送入太空,以測試資料中心在軌道上的運行方式。這款配備80GB記憶體的GPU,比以往任何在太空中飛行的電腦都強大一百倍。支持者認為這一想法很合理:在遠離地球的太空空曠處,資料中心不會佔用寶貴土地,也不需要那麼多能源和水來冷卻,也不會向大氣中排放加劇變暖的溫室氣體。這次為期三年的任務將搭乘SpaceX的Bandwagon 4獵鷹9號(Falcon 9)發射。重量為60公斤的Starcloud-1衛星將在約350公里高度的非常低軌道繞地飛行。在那裡,它將接收由美國公司Capella營運的一隊合成孔徑雷達(SAR)地球觀測衛星傳來的資料,對其進行即時處理,並向地面傳送消息。GPU上天的好處而在太空設立資料中心另一大優勢就是,只需回傳很小部分的資料。下行傳輸合成孔徑雷達(SAR)資料歷來是個大問題,因為資料量極其龐大。但能夠在軌處理就意味著我們只需下行傳輸「洞見」。什麼是洞見?所謂洞見可能是某艘船在某個位置以某個速度朝某個方向航行。那只是一小包約1千字節的資料,而不是需要下傳的數百吉字節原始資料。簡單來說,就是讓演算法貼近資料來源頭,在本地完成篩選、融合與推理,僅把高價值的「資訊摘要」回傳。再簡單點(但不一定精確),就是資料都在外太空處理好,只傳送回來結論。這種方式能更好地實現低時延響應、顯著節省頻寬與能耗、提升韌性(斷聯/災害場景可持續運行),並降低敏感資料外洩風險。為什麼要把GPU送到太空?和微軟CEO納德拉的煩惱不一樣,Starcloud是主動探索這種資料中心模式。就像他們的公司名字一樣,Stra Cloud,太空的資料中心。當然這麼做的主要驅動力不是為了GPU降溫。而是地球能源與資源的瓶頸:地球資料中心太耗能了!到2030年,全球資料中心的耗電量預計將等於整個日本的用電量。同時,它們每天要消耗海量冷卻用水(1 MW 級中心≈1000人日用水量)。相比下來,太空則是有天然優勢。無限太陽能:軌道上 24 小時都有陽光,無需電池儲能。零土地佔用:不需要地面建設,不破壞生態。無溫室氣體排放:不依賴化石能源。歸根到底,還是現在AI的算力需求爆炸。AI模型越做越大(如GPT、Claude、Gemini等),能源和冷卻成本飛漲,企業急需新解法。因此,太空資料中心被視為長期可擴展的解決方案。通過利用低成本、持續不斷的太陽能,並避免佔用土地和使用化石燃料,Starcloud的技術使資料中心能夠快速且可持續地擴展,隨著數字基礎設施的發展,這有助於在保護地球氣候和關鍵自然資源的同時實現增長。那太空能「散熱」嗎?另一個值得一提的就是,很多人覺得GPU上天,是因為地球太熱,太空好散熱。其實不是的。太空能散熱,但很困難。太空幾乎沒有空氣,所以不能用風扇或液體循環帶走熱量(這叫對流散熱)。對流散熱指的是「熱的流體(液體或氣體)移動,把熱量從一個地方帶到另一個地方」的過程。只剩下輻射散熱這一種方式:輻射散熱是「物體通過電磁波/紅外波,把熱量以波的形式發射出去」的過程。裝置通過紅外輻射向外太空釋放熱量。散熱效率取決於輻射面積、材料發射率和溫度。因此衛星或太空GPU需要大面積的散熱板(radiators),設計極其關鍵。在Starcloud的項目中,這部分被特別強化:他們為H100設計了專用熱輻射系統,利用真空中的高溫差和導熱材料實現散熱。為了給地球省電、省地、省水,去太空建資料中心靠譜嗎?Starcloud的首席執行官兼聯合創始人約翰斯頓說:我的預期是,在十年內,幾乎所有新建的資料中心都會建在太空。原因純粹是我們在陸地上面臨的能量限制。約翰斯頓說在太空中唯一的額外成本就是發射費。發射成本在每公斤約(美)500 美元時能夠達到收支平衡。按每千克計算,SpaceX的星艦在完全投入營運後,發射價格估計在150美元到僅10美元不等。隨著星艦的投入使用,我們預計發射成本會更低。Starcloud已經在規劃其下一次任務,計畫明年將一個計算能力比Starcloud-1強十倍的資料中心送入太空。Starcloud-2任務將配備輝達的Blackwell GPU和若干H100。約翰斯頓表示,該任務將提供7千瓦的計算能力,預計為包括地球觀測衛星營運商客戶提供商業服務。微軟的「沒有溫暖機殼」,和Starcloud把H100送上天,本質上是同一道題。AI再厲害,算力需求再大,也不能突破物理定律。 (新智元)
李飛飛全新「世界模型」問世!單張H100即時生成3D永恆世界
一張圖,一個3D世界!今天,李飛飛團隊重磅放出即時生成世界模型「RTFM」,通過端到端學習大規模視訊資料,直接從輸入2D圖像生成同一場景下新視角的圖像。值得一提的是,它僅需單塊H100 GPU便能即時渲染出持久且3D一致的世界。就在剛剛,李飛飛World Labs重磅發佈全新即時生成式世界模型——RTFM(Real-Time Frame Model,即時幀模型)!這是一款效率極高的,在大型視訊資料上進行端到端訓練的自回歸擴散Transformer模型。僅需一塊H100 GPU,RTFM就能在你與之互動時,即時渲染出持久且3D一致的世界,無論是真實場景還是想像空間。其獨特之處在於,它不建構世界的顯式三維表徵。相反,它接收一張或多張二維圖像作為輸入,然後直接從不同視點生成同一場景的全新二維圖像。簡單來說,你可以將它看作一個「學會了渲染的AI」。僅僅通過觀察訓練集中的視訊,RTFM便學會了對三維幾何、反射、陰影等複雜物理現象進行建模;而且,還能利用少量稀疏拍攝的照片,重建出真實世界的具體地點。請注意,接下來你看到的這些不是真實視訊,它們完全是由RTFM即時生成的畫面。RTFM的設計圍繞三大核心原則:高效性:僅需單塊H100 GPU,RTFM便能以互動式影格率運行即時推理。可擴展性:RTFM的設計使其能隨著資料和算力的增加而擴展。它在建模3D世界時不依賴於顯式的3D表示,並採用一種通用的端到端架構,從大規模視訊資料中學習。持久性:可以與RTFM進行無休止的互動,而這個世界將永不消逝。它所模擬的是一個持久的3D世界,不會在您移開視線時消失。RTFM可渲染由單張圖像生成的3D場景。同一個模型能處理多樣的場景類型、視覺風格和效果,包括反射、光滑表面、陰影和鏡頭光暈有網友戲言,「我們的世界或許是在單個H100上運行的」。前Google高級工程師表示,RTFM最新成果真正解決了,長期困擾世界模型可擴展性的問題。現在,RTFM正式開放,任何人皆可試玩。傳送門:https://rtfm.worldlabs.ai/世界模型:算力吞噬者我們憧憬著這樣一個未來:強大的世界模型能夠即時地重建、生成並模擬一個持久、可互動且遵循物理規律的世界。這類模型將徹底改變從傳媒到機器人等眾多行業。過去一年,隨著生成式視訊建模的進步被應用於生成式世界建模,這項新興技術的發展令人振奮。隨著技術的發展,有一點日益清晰:生成式世界模型的算力需求將極其龐大,遠超當今的大語言模型。如果我們簡單地將現有視訊架構應用於此,要以60fps的影格率生成一個互動式的4K視訊流,每秒需要生成超過10萬個token(大約相當於《弗蘭肯斯坦》或第一本《哈利·波特》的長度)。而要在一小時或更長的互動中維持這些內容的持久性,則需要處理超過1億token的上下文窗口。以當今的計算基礎設施而言,這既不可行,也不具備經濟效益。團隊堅信「苦澀的教訓」(The Bitter Lesson):在AI領域,那些能隨著算力增長而平滑擴展的簡單方法往往會佔據主導地位,因為它們能受益於數十年來驅動所有技術進步的、呈指數級下降的計算成本。生成式世界模型恰好能從未來算力成本持續降低的趨勢中獲得巨大優勢。這自然引出一個問題:生成式世界模型是否會受限於當今的硬體瓶頸?或者說,我們是否有辦法在今天就一窺這項技術的未來?高效性:將未來提前帶到眼前對此,李飛飛團隊設定了一個簡單的目標:設計一個足夠高效、可在當前部署,並能隨算力增長而持續擴展的生成式世界模型。而更為宏大的目標是:建構一個能在單塊H100 GPU上部署的模型,既要保持互動式影格率,又要確保世界無論互動多久都能持久存在。實現這些,將讓我們得以將未來願景呈現在當下,通過今天的體驗一窺這類模型在未來的巨大潛力。而這一目標,也影響了從任務設定到模型架構的整個系統設計。為此,團隊精細最佳化了推理堆疊的每一個環節,應用了架構設計、模型蒸餾和推理最佳化等領域的最新進展,力求在今天的硬體上,以最高保真度預覽未來模型的樣貌。可擴展性:將世界模型視為「學習型渲染器」傳統的3D圖形管線使用顯式的3D表徵(如三角網格、高斯濺射)來對世界進行建模,再通過渲染生成2D圖像。它們依賴於人工設計的演算法和資料結構來模擬3D幾何、材質、光照、陰影、反射等效果。這些方法作為電腦圖形學領域數十年來可靠的支柱,卻難以隨資料和算力的增長而輕鬆擴展。相比之下,RTFM則另闢蹊徑。它基於生成式視訊建模的最新進展,訓練一個單一的神經網路。該網路僅需輸入場景的一張或多張2D圖像,便能從新的視角生成該場景的2D圖像,而無需建構任何顯式的3D世界表示。RTFM的實現是一個在幀序列上運行的自回歸擴散Transformer。它通過對大規模視訊資料進行端到端訓練,學會在給定前序幀的條件下預測下一幀。RTFM可被視為一個「學習型渲染器」——輸入的幀被轉換為神經網路的啟動值(即KV快取),從而隱式地表徵了整個世界;生成新幀時,網路通過注意力機制從這一表徵中讀取資訊,從而建立出與輸入檢視一致的世界新檢視。從輸入檢視到世界表徵的轉換,再到從表徵渲染新幀的整個機制,均通過資料進行端到端學習,而非人工設計。RTFM僅通過在訓練中觀察,便學會了模擬反射、陰影等複雜效果。可以通過將RTFM與Marble相結合,由單張圖像建立3D世界。RTFM能夠渲染光照和反射等複雜效果,這些都是端到端地從資料中學習得到的RTFM打破了重建(在現有檢視之間進行插值)與生成(創造輸入檢視中未見的新內容)之間的界限,而在電腦視覺領域,這兩者歷來被視為獨立問題。當為RTFM提供大量輸入檢視時,由於任務約束更強,它更傾向於重建;而當輸入檢視較少時,它則必須進行外推和想像。可以使用RTFM從短影片中渲染真實世界的場景持久性:以帶位姿的幀作為空間記憶真實世界的一個關鍵屬性是持久性:當你移開視線時,世界不會消失或徹底改變;無論你離開多久,總能回到曾經到過的地方。這對於自回歸幀模型而言一直是個挑戰。由於世界僅通過2D圖像幀被隱式表徵,要實現持久性,模型就必須在使用者探索世界時,對一個不斷增長的幀集合進行推理。這意味著生成每個新幀的成本都比前一個更高,因此模型對世界的記憶實際上受限於其算力預算。RTFM通過為每個幀建模一個在 3D 空間中的位姿(位置和方向)來規避此問題。團隊通過向模型查詢待生成幀的位姿來生成新幀。這樣,模型對世界的記憶(包含在其幀中)便具有了空間結構;它使用帶位姿的幀作為一種空間記憶。這為模型賦予了一個弱先驗——即它所建模的世界是一個三維歐幾里得空間——而無需強迫它明確預測該世界中物體的3D幾何形狀。RTFM配合「上下文調度」技術,使其能在大型場景中保持幾何形狀的持久性,同時維持高效RTFM的空間記憶實現了無限的持久性。在生成新幀時,會通過從帶位姿幀的空間記憶中檢索附近的幀,為模型形成一個自訂的上下文。團隊將這種技術稱為「上下文調度」(context juggling):模型在空間的不同區域生成內容時,會使用不同的上下文幀。這使得RTFM能夠在長時間的互動中保持大型世界的持久性,而無需對一個不斷增長的幀集合進行推理。展望未來RTFM將未來提前帶到眼前,讓我們看到了未來世界模型在當今硬體上部署的雛形,並為「將世界模型視為從資料中端到端學習的渲染器」這一理念設定了技術路線。擴展RTFM有許多激動人心的方向。比如,通過增強使其能夠模擬動態世界,並允許使用者與生成的世界互動;同樣,它也非常適合擴展。當前的模型目標是在單塊H100 GPU上實現即時推理,李飛飛團隊期待,面向更大推理預算的更大型號模型將持續帶來性能提升。 (新智元)
凌晨三點的算力暗戰 —— 矽谷焦慮與中國狂歡的 24 小時
8 月 21 日凌晨 ,矽谷某 AI 獨角獸的機房裡,工程師馬克盯著螢幕上 “NVIDIA H100 供貨延遲至 11 月” 的通知,狠狠揉了揉通紅的眼睛 —— 他們的大模型訓練已停滯 3 天,每天損失超 200 萬美元。同一時刻,上海張江科學城 DeepSeek 研發中心的燈光亮如白晝,首席架構師張啟明博士攥著剛列印出的測試報告,指節因用力而發白:“UE8M0 FP8 技術成了!在摩爾執行緒 MTTS80 晶片上,訓練效率比 H100 高 32%,成本還不到一半!”當天上午 9 點 30 分,A 股開盤即現 “國產算力狂歡”:寒武紀直線封板(漲幅 20%),海光資訊漲 15.6%,#中芯國際 成交量較昨日翻倍,科創板 AI 晶片類股單日市值激增 472 億元。財聯社從接近工信部的人士處獲悉,這份 “#DeepSeek-V3.1 + 國產晶片” 的適配方案,已被納入 “新一代#人工智慧 產業創新重點任務清單”。這場突然爆發的技術突圍,究竟藏著多少不為人知的攻堅故事?又將如何改寫全球算力格局?一、48 小時的精度生死戰:當國產晶片遇上 “卡脖子” 的 FP8 難題“第 7 次迭代失敗時,整個團隊都沉默了。” 回憶起今年 3 月的攻堅瓶頸,DeepSeek 演算法工程師林曉雯的聲音仍帶著一絲顫抖。當時團隊要解決的核心難題是:國產晶片的浮點運算精度始終跟不上國際水平 —— 用 FP16 精度訓練,視訊記憶體佔用太高;用 FP8 精度,模型精準率又會暴跌 15%,根本無法商用。那天晚上,張江研發中心的會議室成了 “戰場”:白板上寫滿了浮點編碼公式,桌上堆著沒開封的外賣,張啟明博士把鋪蓋卷搬到了辦公室。“我們發現問題不在晶片本身,而在參數縮放邏輯。” 林曉雯指著電腦裡的程式碼解釋,“輝達的 FP8 是固定範圍,而國產晶片的運算單元更適合動態調整 —— 就像給不同身高的人定製衣服,而不是用統一尺碼硬套。”團隊連夜改寫了 1200 多行核心程式碼,提出 “UE8M0 FP8 Scale 動態適配方案”:通過即時監測晶片運算負載,自動調整浮點數的指數範圍,在肺部 CT 影像分割測試中,精準率從 82% 飆升至 98.2%,僅比 H100 的 98.5% 低 0.3%。更驚人的是,當他們把方案部署到芯原股份 VIP9000 NPU 上時,推理速度達到了 1.8ms / 幀,比上一代國產方案快 2.7 倍,“相當於過去處理 1 小時的醫療資料,現在 13 分鐘就能完成”。這份成果很快得到權威認可:工信部電子標準研究院 8 月 20 日發佈的《#國產 AI 晶片適配白皮書》中,明確將 UE8M0 FP8 技術列為 “推薦適配方案”;中信建投證券在緊急研報中直言:“這是國產算力從‘能用’到‘好用’的關鍵一躍,預計將帶動國產 AI 晶片商用率提升 40%。”二、梅雨季的機房奇蹟:600 塊國產晶片干翻 1000 塊 H100?“杭州的梅雨季太折磨人了,機房濕度高達 78%,我手裡的測溫儀都凝了水珠。”DeepSeek 硬體適配工程師李哲的工位在杭州某測試基地,7 月的那次關鍵測試,讓他至今記憶猶新。當時團隊要驗證一個瘋狂的想法:用搭載寒武紀思元 590 的國產伺服器,能不能完成原本需要 1000 塊 H100 才能搞定的千億參數訓練?測試啟動的前 3 天,資料並不樂觀:模型訓練到 30% 時,因晶片間資料傳輸延遲,進度突然卡住。“我們蹲在機房裡排查了 21 個小時,最後發現是國產晶片的互聯協議和傳統 MoE 架構不相容。” 李哲笑著說,他們臨時修改了路由演算法 —— 把原本的 “靜態專家分配” 改成 “動態負載平衡”,讓 256 個計算節點像 “快遞分揀站” 一樣,即時把任務分給空閒的晶片。7 月 18 日凌晨 2 點 17 分,螢幕上的進度條終於走到了 100%:600 塊思元 590 晶片,不僅完成了千億參數訓練,訓練時長還比 H100 方案縮短了 18 小時,電費成本節省 62 萬元。“我當時激動得打翻了桌上的冰咖啡,咖啡灑在鍵盤上,我都沒顧上擦。” 李哲展示著當時的監控截圖,上面清晰記錄著:模型困惑度(PPL)低至 2.87,與 H100 方案的 2.85 幾乎持平。這種 “演算法補硬體” 的思路,正在被更多企業複製。字節跳動雲服務負責人在接受第一財經採訪時透露,他們已用 DeepSeek 的 MoE 架構,在華為昇騰 910B 晶片上部署了短影片推薦模型,“單條推薦鏈路的成本從 1.2 元降至 0.38 元,使用者停留時長還提升了 9%”。中科院計算所研究員王海濤更直言:“DeepSeek 證明了,國產算力不用跟在別人後面比製程,用架構創新就能‘換道超車’。”三、從深圳工廠到特斯拉座艙:國產算力的 “生態閉環” 有多香?“過去我們的電池極片質檢,靠 12 個工人盯著顯微鏡,每天累得腰都直不起來,漏檢率還高達 1.2%。” 深圳某新能源汽車電池廠負責人王建國,站在自動化車間裡,指著眼前的 AI 質檢裝置感慨。現在,這裡的核心裝置換成了搭載 DeepSeek-V3.1 模型的國產伺服器,伺服器裡裝的是寒武紀思元 370 晶片 —— 一塊極片從檢測到判定,只需 2 秒,漏檢率驟降至 0.05%。王建國給記者算了一筆帳:這套國產方案投入 280 萬元,比進口方案便宜 430 萬元,每年還能節省人工成本 192 萬元,“不到 18 個月就能回本”。更讓他安心的是,“以前進口晶片出了問題,海外工程師要等 2 周才來修;現在 DeepSeek 和寒武紀的工程師,24 小時內就能到現場,春節期間都能遠端支援”。這種 “模型 + 晶片 + 服務” 的閉環,正在向更多領域滲透。8 月 22 日,特斯拉中國官方宣佈,新款 Model Y L 的智能座艙將同時接入 DeepSeek-V3.1 和豆包大模型,“搭載的是華為昇騰 610 晶片,語音喚醒響應速度比之前快 0.8 秒,方言識別精準率提升至 95%”。這是國產 AI 技術首次進入國際高端汽車供應鏈,特斯拉工程師在溝通會上坦言:“國產方案的適配效率超出預期,成本還比原方案低 27%。”IDC 最新預測資料顯示,2025 年全球新一代 AI 晶片市場規模將達 1520 億美元,其中中國廠商的份額將從 2023 年的 12% 躍升至 35%,“DeepSeek 帶動的‘軟硬協同’生態,是增長的核心驅動力”。而在政策端,“十四五” 數字經濟發展規劃明確提出,2025 年國產高端 AI 晶片自給率需達到 50%,目前相關部門已在張江、臨港等地佈局 6 個國產 AI 算力叢集,總投資超 800 億元。四、十年磨一劍:從 “被拒之門外” 到 “打開未來之門”“十年前我去矽谷考察,想參觀某晶片巨頭的生產線,對方說‘中國人不能進’。” 站在上海臨港晶片產業園的觀景台上,行業分析師陳銘博士手裡攥著一塊國產 28nm AI 晶片,眼眶有些濕潤。遠處,3 棟晶圓廠房已完成封頂,1 號廠房裡的國產 DUV 光刻機正在偵錯,“預計 2025 年 Q1 試生產,投產後每月能產 2 萬片 28nm AI 晶片,夠裝 5000 台國產伺服器”。陳銘見證了國產 AI 算力的 “爬坡路”:2015 年,國產晶片的算力還不到國際主流水平的 1/10;2020 年,華為昇騰 910 問世,第一次追上國際二線水平;2024 年,DeepSeek 的適配方案讓國產晶片在能效比上逼近頂尖 ——“這不是一蹴而就的,是華為、寒武紀、DeepSeek 這些企業,在 EDA 軟體、指令集、演算法適配等環節,一個個‘啃硬骨頭’啃出來的。”就在上周,陳銘參加了一場行業閉門會,某國際晶片巨頭的中國區負責人私下問他:“你們的 FP8 技術能不能授權給我們?” 這在十年前是不可想像的。“現在輪到他們來求我們了。” 陳銘笑著說,“但我們更清楚,這只是開始 —— 下一步,我們要在 3nm 製程、RISC-V 指令集上突破,真正掌握算力的‘根技術’。”當國產算力的燈照亮更多角落深夜的張江研發中心,張啟明博士還在和團隊討論下一代模型的適配方案,窗外的上海夜景裡,臨港產業園的燈光與這裡遙相呼應。那燈光裡,有工程師 48 小時不闔眼的堅守,有工廠裡效率提升的歡呼,也有中國 AI 從 “跟跑” 到 “並跑” 的底氣。算力戰爭沒有終點,但這一次,中國終於拿到了改寫規則的 “入場券”。當 DeepSeek 的模型在國產晶片上流暢運行,當特斯拉的座艙裡響起中文語音,當深圳工廠的工人不用再盯著顯微鏡 —— 我們看到的,不僅是一項技術的突破,更是一個國家科技自立的決心。 (碳基智能-Mind Mirror)
華為CloudMatrix重磅論文披露AI資料中心新範式,推理效率超NV H100
今年,AI大廠採購GPU的投入又雙轟瘋狂加碼——馬斯克xAI打算把自家的10萬卡超算擴增10倍,Meta也計畫投資100億建設一個130萬卡規模的資料中心……GPU的數量,已經成為了網際網路企業AI實力的直接代表。的確,建設AI算力,這種堆卡模式是最簡單粗暴的,但實際上,AI叢集卻並非是卡越多就越好用。GPU雖然計算性能好,但是在叢集化的模式下依然有很多挑戰,即便強如輝達,也面臨通訊瓶頸、記憶體碎片化、資源利用率波動等問題。簡單說就是,由於通訊等原因的限制,GPU的功力沒辦法完全發揮出來。所以,建設AI時代的雲資料中心,不是把卡堆到機櫃裡就能一勞永逸,現有資料中心的不足,需要用架構的創新才能解決。最近,華為發佈了一篇60頁的重磅論文,提出了他們的下一代AI資料中心架構設計構想——Huawei CloudMatrix,以及該構想的第一代產品化的實現CloudMatrix384。相對於簡單的“堆卡”,華為CloudMatrix給出的架構設計原則是,高頻寬全對等互連和細粒度資源解耦。這篇論文乾貨滿滿,不僅展示了CloudMatrix384的詳細硬體設計,並介紹了基於CloudMatrix384進行DeepSeek推理的最佳實踐方案——CloudMatrix-Infer。那麼,華為提出的CloudMatrix384到底有多強?簡單地說,可以概括成三個方面——夠高效:預填充吞吐量達6688 token/s/NPU,解碼階段1943 token/s/NPU;計算效率方面,預填充達4.45 token/s/TFLOPS,解碼階段1.29 token/s/TFLOPS,均超過業績在NVIDIA H100/H800上實現的性能;夠準確:DeepSeek-R1模型在昇騰NPU上INT8量化的基準測試精度與官方API一致;夠靈活:支援動態調整推理時延SLO,在15ms嚴格延遲約束下仍維持538 token/s解碼吞吐量。AI資料中心架構,華為雲提前邁出了一步在深入剖析這篇重磅論文之前,我們有必要先來瞭解一下“Why we need CloudMatrix384”。若是一句話來概括,就是滿足不了當下AI發展的算力需求。因為傳統的AI叢集,它內部運行的過程更像是“分散的小作坊”,每個伺服器(節點)有種各玩各的感覺;算力、記憶體和網路資源等等,都是被固定分配的。在這種傳統模式下,AI叢集一旦遇到超大規模的模型,就會出現各種問題,例如算力不夠、記憶體頻寬卡脖子、節點間通訊慢如蝸牛等等。而華為在這篇論文中要做的事情,就是提出一種新的模式,把這種“小作坊”改成“超級算力工廠”——以CloudMatrix(首個生產級實現CloudMatrix384)為代表的華為雲下一代AI資料中心架構。它最鮮明的一大特點就是,所有的資源是可以統一調度的:CloudMatrix384把384個NPU、192個CPU以及其它硬體都整合到了一個超級節點當中。因此在這裡,像剛才提到的算力、記憶體、網路資源等等,會像工廠裡的流水線一樣被統一管理起來,那裡需要就調那裡。並且資料在CloudMatrix384里,就像是搭乘了工廠裡的高速傳送帶,因為所有晶片的連接都是由超高頻寬、低延遲的統一匯流排(UB)網路完成,資料在晶片之間是“全對等”直接傳輸,這就避免了傳統網路“堵車”的問題。也正因如此,無論CloudMatrix384是遇到多大參數規模的大模型,亦或是需要頻繁訪問快取的推理任務,都能通過動態分配資源,高效完成計算。△華為CloudMatrix架構願景在瞭解完下一代AI資料中心的設計願景之後,我們繼續深扒一下細節創新技術和獨特優勢。全對等互聯:華為提前邁出的重要的一步全對等互聯(Peer-to-Peer),可以說是CloudMatrix384在硬體架構設計上的一大創新之處。因為傳統的AI叢集中,CPU相當於扮演一個“領導”的角色,NPU等其它硬體更像是“下屬”,資料傳輸的過程中就需要CPU“審批簽字”,效率自然就會大打折扣。尤其是在處理大規模模型的時候,通訊開銷甚至可以佔整體任務時長的40%!但在CloudMatrix384中,情況就截然不同了。CPU和NPU等硬體更像是一個“扁平化管理的團隊”,它們之間的地位比較平等,直接通過UB網路通訊,省去了“領導傳話”的時間。△CloudMatrix384全對等互聯硬體架構設計而實現如此“扁平化管理團隊”的關鍵,就是我們剛才提到的UB網路,是一種無阻塞全連接拓撲。它採用Clos架構設計,16個機架中的L1/L2交換機形成多層級無阻塞網路,可以確保任意兩個NPU/CPU間通訊頻寬恆定。而在傳統叢集中,節點間是通過RoCE網路來通訊,頻寬通常僅為200Gbps(約25GB/s),並且還存在 “南北向頻寬瓶頸”(如資料中心核心交換機負載過高)。但在UB網路的加持下,每個NPU可以提供392GB/s的單向頻寬,相當於每秒能傳48部1080P電影,資料傳輸又快又穩。除此之外,傳統NPU之間通訊還依賴SDMA引擎(類似 “快遞中轉站”),它的缺點就是啟動延遲比較高(約10微秒)。為此,全對等互聯引入了AIV直連(AIV-Direct)的機制,它可以直接通過UB網路寫入遠端NPU記憶體,跳過SDMA的中轉,傳輸啟動延遲從10微秒降至1微秒以內。這個機制就非常適合MoE中token分發等高頻通訊的場景,把單次通訊耗時縮短70%以上。但除了硬體上的設計之外,軟體層面的加持對於CloudMatrix384的高效率也是起到了功不可沒的作用。例如UB網路通過結合記憶體池化技術,實現了CloudMatrix384的“全域記憶體檢視”,即所有NPU/CPU可直接訪問跨節點記憶體,無需關心資料物理位置。解碼階段的NPU可直接讀取預填充階段NPU生成的KV快取,不用再通過CPU中轉或磁碟儲存,資料訪問延遲從毫秒級降至微秒級,快取命中率提升至56%以上。再以671B的DeepSeek-R1為例,通過FusedDispatch融合算子與AIV直連,token分發延遲從800微秒降至300微秒。預填充計算效率提升4.45 token/秒/TFLOPS,超越了輝達H100的3.75 token/秒/TFLOPS。並且在TPOT<50ms的約束下,解碼吞吐量達到了1943 token/秒/每NPU,即使收緊至TPOT<15ms,仍能維持538 token/秒,這就驗證了全對等互聯在嚴苛延遲場景下的穩定性。因為雲原生:不用關心硬體細節,華為雲上開箱即用除了“全對等互聯”之外,這篇重磅論文的第二個技術關鍵詞,非“雲”莫屬了。簡單來說,這是一套面向雲的基礎設施軟體棧,它就像一個“智能管家團隊”,可以把複雜的硬體裝置變成人人能用的 “雲端算力超市”。值得一提的是,早在CloudMatrix384問世之前,華為雲團隊早早地就敲定下一代AI資料中心要以“面向雲”為基礎,這就體現了華為在技術戰略佈局上的前瞻性。並且團隊通過兩年多時間的打磨,已經讓部署CloudMatrix384這事變成“零門檻”,使用者無需關心硬體細節直接可以部署。△部署CloudMatrix384的華為雲基礎設施軟體棧整體來看,這套面向雲的基礎設施軟體棧主要包含以下幾大模組:MatrixResource、MatrixLink、MatrixCompute、MatrixContainer,以及頂層的ModelArts平台,它們之間可以說是分工明確且相互協作。首先我們來看下MatrixResource。它在軟體棧中起到的是“資源分配管家”的作用,主要負責超級節點內物理資源的供應,包括基於拓撲感知的計算實例分配。通過運行在每個計算節點擎天卡上的MatrixResource代理,動態管理NPU、CPU等硬體資源的分配,確保資源按拓撲結構高效調度,避免跨節點通訊瓶頸。MatrixLink則是一位“網路通訊管家”。它為UB和RDMA網路提供服務化功能,支援QoS保障、動態路由及網路感知的工作負載放置。可以最佳化超節點內384個NPU及跨節點間的通訊效率,例如在推理場景中通過平行傳輸和多路徑負載平衡技術,輔助提升推理效率20%。MatrixCompute的角色像是“邏輯超節點管家”。它的任務是管理超節點的 “生老病死”,從開機啟動到故障修復全負責,包括裸金屬供應、自動擴縮容、故障恢復等。具體實現的方式是跨物理節點編排資源,將分散的硬體元件建構為緊密耦合的邏輯超級節點實例,實現資源的彈性擴展和高可用性。MatrixContainer是“容器部署管家”。它的作用是讓使用者的AI應用能像 “快遞包裹” 一樣輕鬆部署到超節點上:基於Kubernetes容器技術,把複雜的AI程序打包成標準化容器,使用者只需“點選部署”,它就會自動安排到合適的硬體上運行。最後,就是ModelArts這位“AI全流程管家”了。它位於整個軟體棧的頂層,提供從模型開發、訓練到部署的全流程服務,包括ModelArts Lite(裸金屬/容器化硬體訪問)、ModelArts Standard(完整MLOps流水線)、ModelArts Studio(模型即服務,MaaS)。新手可以用ModelArts Lite直接呼叫硬體算力;進階使用者可以用ModelArts Standard管理訓練、最佳化、部署全流程;企業使用者則可以用ModelArts Studio把模型變成API服務(如聊天機器人),一鍵發佈。由此可見,在CloudMatrix384本身高效的基礎上,面向雲的基礎設施軟體棧起到了“如虎添翼”的作用,使得部署這件事變得更加便捷。軟硬一體:高效、便捷的同時,也夠靈活除了“全對等互聯”和“雲原生”這兩個關鍵詞,論文中也還涉及到了二者“軟硬一體”結合下,在靈活性上體現出來的優勢。例如剛才我們提到的“使用者無需關注底層硬體細節,只需呼叫API”這方面,具體而言,是華為雲EMS(彈性記憶體服務)通過記憶體池化技術,將CPU連接的DRAM聚合為共用記憶體池,NPU可直接訪問遠端記憶體,實現KV快取復用,使首Token時延降低 80%,同時減少NPU購買量約50%。以及MatrixCompute支援超節點實例的自動擴縮容,例如根據工作負載動態調整預填充/解碼叢集的NPU數量,在嚴苛的15ms TPOT約束下仍能維持538 token/秒的解碼吞吐量。通過確定性維運服務和昇騰雲腦技術,還可以實現萬卡叢集故障10分鐘內恢復,HBM和網路鏈路故障場景下恢復時間挑戰30秒,例如光模組故障影響降低96%,保障訓練/推理任務的連續性。軟體棧還支援超節點資源的多租戶切分,不同使用者可共享硬體資源但邏輯隔離,例如通過命名空間隔離不同模型的快取資料,確保資料安全與資源公平分配。通過智能化調度實現“朝推夜訓”,白天運行推理任務,夜間利用閒置算力進行模型訓練,節點在訓練/推理間切換<5分鐘,提升算力利用率。據瞭解,CloudMatrix384已經在華為雲烏蘭察布、和林格爾、貴安、蕪湖四大節點上線,使用者可按需開通算力,無需自行搭建硬體環境,10毫秒時延圈覆蓋全國19個城市群,支援低延遲訪問。並且CloudMatrix384還提供全端智能維運的能力,例如昇騰雲腦的故障知識庫已經覆蓋了95%的常見場景,一鍵診斷的精準率達到了80%、網路故障診斷<10分鐘,可以說是把維運的門檻也打了下去。打破“不可能三角”看到這裡,我們可以做個簡單總結了。華為的CloudMatrix384通過“全對等架構+軟硬協同”的模式,打破了傳統上算力、延遲和成本之間的“不可能三角”。硬體層面,它的全對等UB匯流排實現392GB/s卡間頻寬,讓384張NPU能夠高效協同工作,在EP320專家平行模式下,token分發延遲控制在100微秒以內。軟體層面的CloudMatrix-Infer採用全對等推理架構、大EP平行、昇騰定製融合算子、UB驅動的分離式記憶體池等,最大化發揮硬體效率。這種設計讓高算力、低延遲、可控成本同時成為可能,總之有了CloudMatrix384,雲端的大模型部署方案變得更香了。雲端可以在資料中心等級進行統一規劃,建構專門的高速網路拓撲,突破單一企業的物理限制。更關鍵的是,雲端支援彈性擴縮容,企業可以根據業務需求動態調整資源規模,從幾十張卡擴展到數百張卡,而無需對物理設施進行改動。而且,選擇雲也意味著不需要使用者自己找專業團隊去處理模型最佳化、分佈式訓練、故障處理等複雜問題。CloudMatrix384的維運自動化設計更是將故障影響降低96%,萬卡叢集故障恢復時間控制在5分鐘以內,這種專業化維運能力是大部分企業無法自建的。更重要的,CloudMatrix384代表的雲端AI服務模式為中國企業提供了一個更現實的AI落地路徑。比如DeepSeek-R1從模型遷移到上線僅用72小時,相比傳統方案的2周時間,效率提升顯著。這種成本和效率優勢讓更多企業能夠嘗試AI應用,而不需要承擔巨額的基礎設施投入風險。CloudMatrix384證明了國產雲端方案不只是“能用”,更是在性能和成本效益上都具備競爭優勢。AI基礎設施正在重新被定義CloudMatrix384代表的不只是一台更強的AI超算,還是對“什麼是AI基礎設施”的重新定義。技術上,它通過UB顛覆了過往以CPU為中心的層級式設計,將整個超級節點變成了一個統一的計算實體。面向未來,華為論文中也給出了兩條發展路徑——一方面繼續擴大節點規模,另一方面進行更強力的解耦。擴大規模容易理解,未來LLM參數規模更大,需要更緊密耦合的計算資源。而解耦,可以分別從資源和應用兩個維度來看。資源上,CPU和NPU資源物理將分離為專用資源池,從邏輯解耦將走向物理解耦,實現更好的資源利用率。應用中,大模型的推理過程中記憶體密集型注意力計算將從解碼路徑解耦,注意力和專家元件也會分離為獨立執行服務。總之,作者描繪了一個完全解耦、自適應、異構的AI資料中心架構,這種架構將進一步提升可擴展性、靈活性、效率和性能。未來,計算資源將不再是固定的物理裝置,而是可以動態編排的抽象能力。通過CloudMatrix384和其未來暢想,我們正在見證又一次新的技術迭代,也在見證整個AI資料中心範式的深刻變革。 (量子位)
一文帶你詳細瞭解輝達Hopper H100 GPU
輝達H100 GPU,代號Hopper,是NVIDIA於2022年推出的第九代資料中心GPU,專為AI訓練、大模型推理、高性能計算(HPC)場景打造,是A100的直接繼任者。定位關鍵詞:旗艦等級GPU:定位高端,面向大型AI模型訓練與推理。NVLink高速互聯:設計用於超大規模GPU叢集。Transformer專精最佳化:對大模型結構進行硬體等級適配。FP8創新:引領下一代低精度計算標準。應用方向:大語言模型訓練(如GPT-4)AI推理與微調高性能科學計算(HPC)智能推薦系統、金融量化分析等一. H100 GPU的核心技術(1)新架構:Hopper vs AmpereH100基於Hopper架構,採用台積電4nm製程,相較前代A100(Ampere架構,7nm),在能效比、計算密度上提升巨大。(2)Transformer Engine:為大模型“量體裁衣”大語言模型的訓練95%以上的算力集中在Transformer結構上,H100內建的Transformer Engine通過FP8+Tensor Core加速,能夠顯著提升訓練速度。自動選擇精度(FP8/FP16)動態權重縮放,提升數值穩定性性能可比A100快4倍以上(某些任務)(3)NVLink 4.0與NVSwitch:為大模型而生的互聯架構H100支援第四代NVLink互聯,每塊GPU之間頻寬高達900GB/s,通過NVSwitch可建構規模龐大的GPU叢集。應用價值:無需通過PCIe互聯,延遲降低一半支援8~256張H100互聯訓練GPT-4等超大模型(4)多精度計算支援:FP8 引領新標準H100首次引入FP8浮點格式,並保留FP16、BF16、TF32、FP64全端精度,AI訓練推理靈活切換,在保持精度的同時極大提升運算吞吐量。二. H100 GPU詳細規格H100提供兩種型號:H100 SXM和H100 NVL,分別針對不同場景最佳化。以下是詳細規格對比:性能亮點:AI訓練:GPT-3(175B)訓練速度提高4倍。AI推理:最大模型(如Megatron 530B)推理速度提高30倍。HPC應用:3D FFT、基因測序等任務性能提高7倍。浮點性能:60 teraFLOPS FP64,1 petaFLOPS TF32。動態程式設計:DPX指令比A100快7倍,比CPU快40倍。記憶體頻寬:每GPU 3TB/s,系統頻寬高達傳統伺服器的30倍。三. 競品對比與相關產品進行對比:具體分析如下:A100:仍在大量使用,但性價比被H100反超。MI300:高視訊記憶體有優勢,但生態相容性不如NVIDIA。TPU v5:強大但封閉,僅供Google雲自用。H100:依託CUDA生態+強力硬體,仍是主流企業首選。四. 成本和ROI分析1、成本結構(1)直接採購成本NVIDIA H100 GPU的直接採購價格因型號和配置而異。根據市場資料,SXM5型號的單個GPU起價約為195,343 CNY($27,000 USD),NVL型號約為209,354 CNY($29,000 USD)。對於多GPU系統,價格隨數量增加而明顯提升,例如,四個SXM5 GPU的總價約為777,973.6 CNY($108,000 USD),八個GPU可能達到1,555,947.2 CNY(僅GPU成本)。完整的伺服器配置需包括基礎設施,成本通常在1,801,325 CNY至2,882,120 CNY之間,具體涉及InfiniBand網路(每節點約14,411至36,027 CNY,交換機約144,106至720,530 CNY)、電力基礎設施(約72,053至360,265) CNY)、冷卻系統(約108,080至720,530 CNY)和燃油基礎設施(每台發動機約36,027至108,080 CNY)。廠商折扣和定製化同樣影響價格,單GPU價格可能在195,343至288,212 CNY之間波動,尤其是對於企業批次採購。(2)雲租賃成本雲租賃提供了一種消費大額前期投資的靈活選項。2025年,主流雲頂的H100小時GPU租賃價格已顯著下降,範圍從21.58元至71.93元/小時/GPU。根據市場趨勢,2025年雲價格將從2024年的約57.64元/小時降至21.58至25.22元/小時,原因包括市場供應增加、更多資料中心參與和競爭加強。為便於觀察比較,以4個GPU、24小時/天的使用場景為例:按3 USD/小時(約21.62 CNY/小時)計算,每日成本為2,075.13 CNY(4 × 24 × 21.62),每月(30.4天)約63,128 CNY。按最高9.98 USD/小時(約71.93 CNY/小時)計算,每日成本為6,905.28 CNY,月成本約為209,920 CNY。(3)營運成本營運成本是總擁有成本(TCO)的重要組成部分。H100 GPU的功耗高達700瓦/個,這意味著對於大規模部署,電力成本可能相當顯著。例如,4個GPU每天24小時運行,按每千瓦時1元計算,月電力成本約為2,027.52人民幣(700瓦×4×24×30.4÷1000×1)。此外,冷卻系統和網路基礎設施的維護成本也需要撥款,具體金額視設施地區而定。2、投資期回報ROI的核心在於比較採購和雲租賃的長期成本效益。以4個GPU系統為例,假設採購成本為864,636元(包括GPU和基礎伺服器),雲租賃成本按3美元/小時/GPU(約21.62元/小時)計算:每日雲成本:4 × 24 × 21.62 = 2,075.13 CNY;每月雲成本:2,075.13 × 30.4 ≈ 63,128 CNY。投資期返回為:864,636 ÷ 63,128 ≈ 13.7個月,約14個月。這意味著,在14個月後,雲租賃的總成本將超過採購成本,採購開始得出結論。若按上述雲價格(如9.98美元/小時,約71.93人民幣/小時),每日成本為6,905.28人民幣,月成本約209,920人民幣,投資回周期至約4.1個月(864,636 ÷ 209,920 ≈ 4.12),但實際使用中,低價最為常見。五. 面向不同企業的選型建議參考文獻:《NVIDIA H100 Tensor Core GPU》(AI算力那些事兒)
深夜突發!超越輝達H100 !華為昇騰 910D 人工智慧晶片深度分析! 2025
在全球人工智慧晶片競爭白熱化的背景下,華為即將推出的昇騰 910D 晶片成為行業焦點。作為對標輝達高端 AI 晶片的國產新銳,昇騰 910D 不僅承載著技術突破的使命,更有望重塑 AI 晶片市場格局。當前,華為已啟動該晶片的測試接洽工作,計畫於 5 月獲取首批樣本,標誌著國產 AI 晶片向高端領域發起新挑戰。一、昇騰 910D 對比 910 晶片的優勢(一)架構革新與算力躍升昇騰 910D 採用了深度最佳化後的自研架構,相比早期的昇騰 910B,在架構層面進行了深度改良。通過精簡約 30% 的冗餘電路 ,讓晶片的運算效率大幅提升,半精度算力達到 320 TFLOPS。而昇騰 910B 的半精度算力遠低於這一數值,這種架構使得昇騰 910D 在處理大規模矩陣運算、複雜神經網路模型訓練時,能夠更加高效快速地完成任務,顯著縮短運算周期。(二)散熱與功耗的雙重最佳化昇騰 910D 搭載了先進的液冷散熱技術,支援晶片在 45℃高溫下仍能全速運行,功耗卻僅為 350W。反觀昇騰 910C,可能在散熱技術上相對傳統,導致其在高負載執行階段溫度升高,影響晶片性能發揮,且功耗較高。(三)叢集互聯性能提升昇騰 910D 每秒能搬運 4TB 資料,實現晶片間的高速通訊,使得多晶片並聯組成的叢集算力密度提升 5 倍 。相比之下,昇騰 910 其他規格晶片在叢集協作時,資料傳輸速度和協同效率較低。這種強大的叢集互聯性能,讓昇騰 910D 在支撐大型 AI 叢集運算,如文心一言這樣的大語言模型訓練時,能顯著縮短訓練周期,提高模型迭代速度。AI云原生智能算力架构只专注于万亿赛道!分享最新一线AI大模型、云原生、智能算力架构技术!434篇原创内容公众号二、橫向對標:昇騰 910D 與國產競品的實力較量三、國際競爭:昇騰 910D 與全球主流晶片的多維對比(一)性能參數全面超越與輝達 H100 相比,昇騰 910D 在半精度算力上提升 25%(320 TFLOPS vs 256 TFLOPS),功耗降低 50%(350W vs 700W)。通過 5 晶片並聯方案,其在文心一言訓練中縮短周期 27%,自動駕駛模型迭代速度提升 1.8 倍,展現出強大的計算效能。(二)成本與生態雙重優勢成本競爭力:單價 14.5 萬元較 H100 的 24 萬元降低 40%,液冷系統成本較風冷降低 20%,顯著降低企業部署成本。本土生態適配:針對中文 NLP 任務最佳化,文言文翻譯精準率提升 12%,更貼合國內應用場景;依託 MindSpore 框架建構的生態體系,在資料安全與本地化部署上具備天然優勢。(三)全球競品對標分析華為昇騰 910D 晶片的推出,不僅是技術層面的重大突破,更是國產 AI 晶片在全球市場的重要戰略佈局。隨著該晶片從測試走向商用,其有望憑藉性能、成本、生態的綜合優勢,加速國產替代處理程序,推動全球 AI 產業進入全新的競爭格局。未來,昇騰 910D 能否引領行業變革,值得持續關注。 (AI雲原生智能算力架構)