#輝達H100
前沿科技觀察丨“太空AI”,中國多個團隊取得關鍵突破
近期,美國一顆搭載有輝達旗艦晶片H100的衛星通過美國太空探索技術公司(SpaceX)的“獵鷹9號”火箭成功進入太空,這顆擁有80GB視訊記憶體、性能遠超以往任何星載電腦的晶片,將在軌承擔地球觀測圖像分析與大語言模型Gemini的推理任務。外媒報導稱,這也實現了首次資料中心級GPU在軌運算實驗,拉開太空高算力人工智慧(AI)時代的序幕。然而在此之前,已有多顆部署有AI大模型的中國衛星被送入太空。近日,參與相關項目的中國科學院計算技術研究所研究員韓銀和在接受《環球時報》記者專訪時表示,中國在太空AI領域正處於體系化快速推進階段,並有多個團隊已取得關鍵突破。為何要打造“太空AI”“具有大算力和人工智慧能力的算力衛星能夠消除星地資料傳輸瓶頸,實現資訊的‘天基快速理解與決策’,可應用於災害監測預警等需要極低延遲響應的場景。”韓銀和在接受《環球時報》記者採訪時介紹稱,結合衛星寬頻網路,建設太空資料中心和超算中心,優勢主要體現在五個方面。一是超低時延,資料可以就地處理,實現即時決策;二是可實現超高頻寬效率,通過AI處理後,衛星僅下傳關鍵結果資訊,而非TB/PB級的原始資料,極大節省珍貴的星地鏈路資源;三是具有無界覆蓋與機動性的優勢,天基超算中心可部署在軌道各處,不受地域限制;四是天基超算中心還具有天然的高安全性,可實現物理隔離,提供了獨特的網路安全環境;五是天基超算中心還能補強地面盲區,彌補地面資料中心覆蓋不足和服務延遲的短板,真正實現全球快速響應。然而讓“大算力”真正進入太空,並不只是把一顆晶片送上太空那麼簡單。太空高輻射、極端溫差的環境,以及衛星平台能耗有限與散熱困難等“硬傷”,都對算力晶片的穩定運行提出了挑戰。從地面資料中心到星際計算節點,這不僅是硬體的飛躍,更是工程、演算法與能源管理的系統性突破。中國處於體系化快速推進階段中國多個科研機構早早佈局相關試驗,並進行了大模型在軌部署。據此前公開報導,中國自主建設的智能遙感衛星星座“東方慧眼”首顆實驗星“珞珈三號01星”於2023年1月發射,首次實現8分鐘星地互聯的B2C應用服務。2024年底實現了大模型上注,首次使得衛星具備了大模型能力。而在今年5月,中國首個整軌互聯太空計算衛星星座“三體計算星座”首次發射,正式進入組網階段。北京市科委、中關村管委會等單位近日宣佈,北京擬在700-800公里晨昏軌道建設營運超過千兆瓦(GW)功率的集中式大型資料中心系統,以實現將大規模AI算力搬上太空。“三體計算星座”首次發射一箭十二星效果圖 。圖源:之江實驗室微信公眾號“可以說中國在太空AI領域目前正處於體系化快速推進階段,多個頂尖團隊已取得關鍵突破。”韓銀和介紹稱,例如中國科學院計算技術研究所,採用全體系國產化核心元器件和高可靠容錯計算架構,在2023年就率先實現了100TOPS級星載算力,為天基大模型運行奠定了自主可控的硬體基礎。武漢大學的“東方慧眼”星座通過通導遙一體化與AI融合,整合北斗短報文與星間即時傳輸,將資料響應時間壓縮至分鐘級,實現了“快、清、准、全、懂”的遙感服務目標。其技術架構不僅服務於國土監測、應急管理等國家需求,更開創了大眾呼叫衛星的商業新模式。而浙江之江實驗室與國星宇航的“三體計算星座”則採用了氦星光聯研製的雷射終端以保障星座級高效協同,支援星間100Gbps高速通訊,算力達到744TOPS。“一星多卡”計畫明年在軌驗證韓銀和進一步介紹稱,當前中國在軌部署的大模型均採用輕量化技術路線,針對太空環境的算力約束進行了深度輕量化。值得關注的是,即便是類似於輝達H100這樣的太空計算單元,實際運行的也是Gemini輕量版模型。這充分表明,全球範圍內太空AI部署仍以輕量化模型為主要技術路徑。目前中國已全面掌握輕量級大模型在軌部署能力,正穩步邁向全參數大模型在軌運行的研製階段。中國科學院計算技術研究所團隊是算力技術研究的國家隊,已提出了“一星多卡”的天基超算架構,計畫在明年發射衛星進行在軌驗證,為全參數大模型的在軌應用提供算力基礎設施。這是關鍵一步,全參數大模型將賦予太空和地面一樣的智能處理能力。“與美國Starcloud衛星依託輝達H100晶片生態不同的是,我們的路徑主要核心是攻克‘一星多卡’的自主天基超算和資料中心架構。”韓銀和認為,這是一個體系性的創新,並非簡單堆疊,而是致力於採用國產高能效GPU組成陣列,實現單星算力的跨越式提升,“這是我們自主創新的突破”。“這一方案更強調模組化設計、系統性整合和對散熱、功耗等極限挑戰的克服,目標是為建構未來的太空超級計算中心提供基礎。這種架構帶來的挑戰更大,但長期看具有實現更高算力密度和任務靈活性的潛力,代表著更面向未來的探索方向,是中國從技術追隨者轉向引領者的關鍵一步。”韓銀和表示。在韓銀和看來,世界主要航天大國開展的這場“太空AI”建設不只是簡單的技術角逐,還事關下一代空間資訊基礎設施的標準制定權。誰率先掌握了成熟的星上即時感知、認知、決策核心能力,誰就能夠在太空時代佔據主動權。“中國正通過系統性創新‘彎道超車’,因此各方都在加大投入。”韓銀和稱。 (環球時報研究院)
地球「養不起」輝達GPU
【新智元導讀】地球現在連顯示卡都供不起了,微軟的GPU插不進機房。輝達的H100直接飛向太空。輝達的GPU,地球真的已經「供不起了」!今天看到兩個新聞,一個是微軟手裡囤了無數的GPU,但是「插不進去」。另一個是輝達H100 GPU被發射到太空組建資料中心。這兩個事情其實背後都隱藏著一個深刻問題:GPU是造出來了,但是配套服務於GPU,給GPU供電,給GPU散熱的基礎設施並沒有跟上!先說微軟的GPU放在庫房裡吃灰這件事。微軟CEO納德拉在與OpenAI奧特曼的訪談中爆出驚人事實——微軟手中囤積著大量GPU。卻「沒有足夠電力」讓它們運轉。另一個原因則更為現實,缺少可以立馬「插入GPU」的資料中心。納德拉坦言:我現在的問題不是晶片不夠,而是沒有能插進去的「溫暖機殼」(Warm Shell)。所謂「Warm Shell」指的是具備供電與冷卻條件的資料中心外殼。用一個對比就能快速理解這個概念,建築學上,相對Warm Shell則是Cold Shell。Cold shell指的是建築結構/外殼基本具備,但室內幾乎沒有或只有極少的系統安裝。Warm Shell則是更準備好了的狀態,安裝並可以使用基本的建築系統,比如散熱系統、暖通空調(HVAC)、照明、基本電/水/消防系統等。AI熱潮引發的晶片競賽,如今正受制於最傳統的瓶頸——電力。美國電網面臨前所未有的壓力,而科技巨頭則競相佈局小型核反應堆以自救。與此同時,奧特曼還提到未來可能出現「能在本地運行GPT-5或GPT-6」的低功耗消費裝置,這或將徹底顛覆現有資料中心商業模式。地球養不起,「發配」到太空相比奧特曼提出的低功耗裝置,另一個新聞則提供了新的思路。輝達借助Starcloud的Starcloud-1的衛星,將H100送到太空!11月2日,星期日,輝達首次將H100 GPU送入太空,以測試資料中心在軌道上的運行方式。這款配備80GB記憶體的GPU,比以往任何在太空中飛行的電腦都強大一百倍。支持者認為這一想法很合理:在遠離地球的太空空曠處,資料中心不會佔用寶貴土地,也不需要那麼多能源和水來冷卻,也不會向大氣中排放加劇變暖的溫室氣體。這次為期三年的任務將搭乘SpaceX的Bandwagon 4獵鷹9號(Falcon 9)發射。重量為60公斤的Starcloud-1衛星將在約350公里高度的非常低軌道繞地飛行。在那裡,它將接收由美國公司Capella營運的一隊合成孔徑雷達(SAR)地球觀測衛星傳來的資料,對其進行即時處理,並向地面傳送消息。GPU上天的好處而在太空設立資料中心另一大優勢就是,只需回傳很小部分的資料。下行傳輸合成孔徑雷達(SAR)資料歷來是個大問題,因為資料量極其龐大。但能夠在軌處理就意味著我們只需下行傳輸「洞見」。什麼是洞見?所謂洞見可能是某艘船在某個位置以某個速度朝某個方向航行。那只是一小包約1千字節的資料,而不是需要下傳的數百吉字節原始資料。簡單來說,就是讓演算法貼近資料來源頭,在本地完成篩選、融合與推理,僅把高價值的「資訊摘要」回傳。再簡單點(但不一定精確),就是資料都在外太空處理好,只傳送回來結論。這種方式能更好地實現低時延響應、顯著節省頻寬與能耗、提升韌性(斷聯/災害場景可持續運行),並降低敏感資料外洩風險。為什麼要把GPU送到太空?和微軟CEO納德拉的煩惱不一樣,Starcloud是主動探索這種資料中心模式。就像他們的公司名字一樣,Stra Cloud,太空的資料中心。當然這麼做的主要驅動力不是為了GPU降溫。而是地球能源與資源的瓶頸:地球資料中心太耗能了!到2030年,全球資料中心的耗電量預計將等於整個日本的用電量。同時,它們每天要消耗海量冷卻用水(1 MW 級中心≈1000人日用水量)。相比下來,太空則是有天然優勢。無限太陽能:軌道上 24 小時都有陽光,無需電池儲能。零土地佔用:不需要地面建設,不破壞生態。無溫室氣體排放:不依賴化石能源。歸根到底,還是現在AI的算力需求爆炸。AI模型越做越大(如GPT、Claude、Gemini等),能源和冷卻成本飛漲,企業急需新解法。因此,太空資料中心被視為長期可擴展的解決方案。通過利用低成本、持續不斷的太陽能,並避免佔用土地和使用化石燃料,Starcloud的技術使資料中心能夠快速且可持續地擴展,隨著數字基礎設施的發展,這有助於在保護地球氣候和關鍵自然資源的同時實現增長。那太空能「散熱」嗎?另一個值得一提的就是,很多人覺得GPU上天,是因為地球太熱,太空好散熱。其實不是的。太空能散熱,但很困難。太空幾乎沒有空氣,所以不能用風扇或液體循環帶走熱量(這叫對流散熱)。對流散熱指的是「熱的流體(液體或氣體)移動,把熱量從一個地方帶到另一個地方」的過程。只剩下輻射散熱這一種方式:輻射散熱是「物體通過電磁波/紅外波,把熱量以波的形式發射出去」的過程。裝置通過紅外輻射向外太空釋放熱量。散熱效率取決於輻射面積、材料發射率和溫度。因此衛星或太空GPU需要大面積的散熱板(radiators),設計極其關鍵。在Starcloud的項目中,這部分被特別強化:他們為H100設計了專用熱輻射系統,利用真空中的高溫差和導熱材料實現散熱。為了給地球省電、省地、省水,去太空建資料中心靠譜嗎?Starcloud的首席執行官兼聯合創始人約翰斯頓說:我的預期是,在十年內,幾乎所有新建的資料中心都會建在太空。原因純粹是我們在陸地上面臨的能量限制。約翰斯頓說在太空中唯一的額外成本就是發射費。發射成本在每公斤約(美)500 美元時能夠達到收支平衡。按每千克計算,SpaceX的星艦在完全投入營運後,發射價格估計在150美元到僅10美元不等。隨著星艦的投入使用,我們預計發射成本會更低。Starcloud已經在規劃其下一次任務,計畫明年將一個計算能力比Starcloud-1強十倍的資料中心送入太空。Starcloud-2任務將配備輝達的Blackwell GPU和若干H100。約翰斯頓表示,該任務將提供7千瓦的計算能力,預計為包括地球觀測衛星營運商客戶提供商業服務。微軟的「沒有溫暖機殼」,和Starcloud把H100送上天,本質上是同一道題。AI再厲害,算力需求再大,也不能突破物理定律。 (新智元)
一文帶你詳細瞭解輝達Hopper H100 GPU
輝達H100 GPU,代號Hopper,是NVIDIA於2022年推出的第九代資料中心GPU,專為AI訓練、大模型推理、高性能計算(HPC)場景打造,是A100的直接繼任者。定位關鍵詞:旗艦等級GPU:定位高端,面向大型AI模型訓練與推理。NVLink高速互聯:設計用於超大規模GPU叢集。Transformer專精最佳化:對大模型結構進行硬體等級適配。FP8創新:引領下一代低精度計算標準。應用方向:大語言模型訓練(如GPT-4)AI推理與微調高性能科學計算(HPC)智能推薦系統、金融量化分析等一. H100 GPU的核心技術(1)新架構:Hopper vs AmpereH100基於Hopper架構,採用台積電4nm製程,相較前代A100(Ampere架構,7nm),在能效比、計算密度上提升巨大。(2)Transformer Engine:為大模型“量體裁衣”大語言模型的訓練95%以上的算力集中在Transformer結構上,H100內建的Transformer Engine通過FP8+Tensor Core加速,能夠顯著提升訓練速度。自動選擇精度(FP8/FP16)動態權重縮放,提升數值穩定性性能可比A100快4倍以上(某些任務)(3)NVLink 4.0與NVSwitch:為大模型而生的互聯架構H100支援第四代NVLink互聯,每塊GPU之間頻寬高達900GB/s,通過NVSwitch可建構規模龐大的GPU叢集。應用價值:無需通過PCIe互聯,延遲降低一半支援8~256張H100互聯訓練GPT-4等超大模型(4)多精度計算支援:FP8 引領新標準H100首次引入FP8浮點格式,並保留FP16、BF16、TF32、FP64全端精度,AI訓練推理靈活切換,在保持精度的同時極大提升運算吞吐量。二. H100 GPU詳細規格H100提供兩種型號:H100 SXM和H100 NVL,分別針對不同場景最佳化。以下是詳細規格對比:性能亮點:AI訓練:GPT-3(175B)訓練速度提高4倍。AI推理:最大模型(如Megatron 530B)推理速度提高30倍。HPC應用:3D FFT、基因測序等任務性能提高7倍。浮點性能:60 teraFLOPS FP64,1 petaFLOPS TF32。動態程式設計:DPX指令比A100快7倍,比CPU快40倍。記憶體頻寬:每GPU 3TB/s,系統頻寬高達傳統伺服器的30倍。三. 競品對比與相關產品進行對比:具體分析如下:A100:仍在大量使用,但性價比被H100反超。MI300:高視訊記憶體有優勢,但生態相容性不如NVIDIA。TPU v5:強大但封閉,僅供Google雲自用。H100:依託CUDA生態+強力硬體,仍是主流企業首選。四. 成本和ROI分析1、成本結構(1)直接採購成本NVIDIA H100 GPU的直接採購價格因型號和配置而異。根據市場資料,SXM5型號的單個GPU起價約為195,343 CNY($27,000 USD),NVL型號約為209,354 CNY($29,000 USD)。對於多GPU系統,價格隨數量增加而明顯提升,例如,四個SXM5 GPU的總價約為777,973.6 CNY($108,000 USD),八個GPU可能達到1,555,947.2 CNY(僅GPU成本)。完整的伺服器配置需包括基礎設施,成本通常在1,801,325 CNY至2,882,120 CNY之間,具體涉及InfiniBand網路(每節點約14,411至36,027 CNY,交換機約144,106至720,530 CNY)、電力基礎設施(約72,053至360,265) CNY)、冷卻系統(約108,080至720,530 CNY)和燃油基礎設施(每台發動機約36,027至108,080 CNY)。廠商折扣和定製化同樣影響價格,單GPU價格可能在195,343至288,212 CNY之間波動,尤其是對於企業批次採購。(2)雲租賃成本雲租賃提供了一種消費大額前期投資的靈活選項。2025年,主流雲頂的H100小時GPU租賃價格已顯著下降,範圍從21.58元至71.93元/小時/GPU。根據市場趨勢,2025年雲價格將從2024年的約57.64元/小時降至21.58至25.22元/小時,原因包括市場供應增加、更多資料中心參與和競爭加強。為便於觀察比較,以4個GPU、24小時/天的使用場景為例:按3 USD/小時(約21.62 CNY/小時)計算,每日成本為2,075.13 CNY(4 × 24 × 21.62),每月(30.4天)約63,128 CNY。按最高9.98 USD/小時(約71.93 CNY/小時)計算,每日成本為6,905.28 CNY,月成本約為209,920 CNY。(3)營運成本營運成本是總擁有成本(TCO)的重要組成部分。H100 GPU的功耗高達700瓦/個,這意味著對於大規模部署,電力成本可能相當顯著。例如,4個GPU每天24小時運行,按每千瓦時1元計算,月電力成本約為2,027.52人民幣(700瓦×4×24×30.4÷1000×1)。此外,冷卻系統和網路基礎設施的維護成本也需要撥款,具體金額視設施地區而定。2、投資期回報ROI的核心在於比較採購和雲租賃的長期成本效益。以4個GPU系統為例,假設採購成本為864,636元(包括GPU和基礎伺服器),雲租賃成本按3美元/小時/GPU(約21.62元/小時)計算:每日雲成本:4 × 24 × 21.62 = 2,075.13 CNY;每月雲成本:2,075.13 × 30.4 ≈ 63,128 CNY。投資期返回為:864,636 ÷ 63,128 ≈ 13.7個月,約14個月。這意味著,在14個月後,雲租賃的總成本將超過採購成本,採購開始得出結論。若按上述雲價格(如9.98美元/小時,約71.93人民幣/小時),每日成本為6,905.28人民幣,月成本約209,920人民幣,投資回周期至約4.1個月(864,636 ÷ 209,920 ≈ 4.12),但實際使用中,低價最為常見。五. 面向不同企業的選型建議參考文獻:《NVIDIA H100 Tensor Core GPU》(AI算力那些事兒)
深夜突發!超越輝達H100 !華為昇騰 910D 人工智慧晶片深度分析! 2025
在全球人工智慧晶片競爭白熱化的背景下,華為即將推出的昇騰 910D 晶片成為行業焦點。作為對標輝達高端 AI 晶片的國產新銳,昇騰 910D 不僅承載著技術突破的使命,更有望重塑 AI 晶片市場格局。當前,華為已啟動該晶片的測試接洽工作,計畫於 5 月獲取首批樣本,標誌著國產 AI 晶片向高端領域發起新挑戰。一、昇騰 910D 對比 910 晶片的優勢(一)架構革新與算力躍升昇騰 910D 採用了深度最佳化後的自研架構,相比早期的昇騰 910B,在架構層面進行了深度改良。通過精簡約 30% 的冗餘電路 ,讓晶片的運算效率大幅提升,半精度算力達到 320 TFLOPS。而昇騰 910B 的半精度算力遠低於這一數值,這種架構使得昇騰 910D 在處理大規模矩陣運算、複雜神經網路模型訓練時,能夠更加高效快速地完成任務,顯著縮短運算周期。(二)散熱與功耗的雙重最佳化昇騰 910D 搭載了先進的液冷散熱技術,支援晶片在 45℃高溫下仍能全速運行,功耗卻僅為 350W。反觀昇騰 910C,可能在散熱技術上相對傳統,導致其在高負載執行階段溫度升高,影響晶片性能發揮,且功耗較高。(三)叢集互聯性能提升昇騰 910D 每秒能搬運 4TB 資料,實現晶片間的高速通訊,使得多晶片並聯組成的叢集算力密度提升 5 倍 。相比之下,昇騰 910 其他規格晶片在叢集協作時,資料傳輸速度和協同效率較低。這種強大的叢集互聯性能,讓昇騰 910D 在支撐大型 AI 叢集運算,如文心一言這樣的大語言模型訓練時,能顯著縮短訓練周期,提高模型迭代速度。AI云原生智能算力架构只专注于万亿赛道!分享最新一线AI大模型、云原生、智能算力架构技术!434篇原创内容公众号二、橫向對標:昇騰 910D 與國產競品的實力較量三、國際競爭:昇騰 910D 與全球主流晶片的多維對比(一)性能參數全面超越與輝達 H100 相比,昇騰 910D 在半精度算力上提升 25%(320 TFLOPS vs 256 TFLOPS),功耗降低 50%(350W vs 700W)。通過 5 晶片並聯方案,其在文心一言訓練中縮短周期 27%,自動駕駛模型迭代速度提升 1.8 倍,展現出強大的計算效能。(二)成本與生態雙重優勢成本競爭力:單價 14.5 萬元較 H100 的 24 萬元降低 40%,液冷系統成本較風冷降低 20%,顯著降低企業部署成本。本土生態適配:針對中文 NLP 任務最佳化,文言文翻譯精準率提升 12%,更貼合國內應用場景;依託 MindSpore 框架建構的生態體系,在資料安全與本地化部署上具備天然優勢。(三)全球競品對標分析華為昇騰 910D 晶片的推出,不僅是技術層面的重大突破,更是國產 AI 晶片在全球市場的重要戰略佈局。隨著該晶片從測試走向商用,其有望憑藉性能、成本、生態的綜合優勢,加速國產替代處理程序,推動全球 AI 產業進入全新的競爭格局。未來,昇騰 910D 能否引領行業變革,值得持續關注。 (AI雲原生智能算力架構)