#H100
曾經高不可攀的H100 GPU,如今1.5折在平台出售,是什麼泡沫破了?
舊時王謝堂前燕?金融博主twi@HedgieMarkets 的一條推文引發了討論,曾經曾經售價高達 40,000 美元(約合 29 萬人民幣)的 H100,目前在 eBay 等二手平台上的成交價已跌至 6000 美元(約合 4.3 萬人民幣)左右,這些並不是像鹹魚上的壞件,而是真實可用的顯示卡。四年間,這一尖端人工智慧加速器跌幅高達 85%。為什麼 H100 跌得這麼慘?這並非因為其性能絕對值變弱了,而是因為在 AI 推理的戰場上,它的單位成本已經讓它被淘汰。原推文中提到,採用H100進行模型推理(也就是我們給模型提示詞,然後它們輸出內容)的成本約是新一代 Blackwell (B300) 的 11 倍。實際上,這個倍率還是綜合的保守數字,在semianalysis給到的資料中,GB200 NVL72在FP4性能上提高了98倍,這其實也是為什麼牢黃一直說“買的越多,省的越多”。經濟學家David McWilliams在接受《財富》採訪時表示,“對圖形處理器(GPU)的大規模投資存在問題,因為它就像【數字生菜】,很快就會枯萎——你投資的是一種易腐爛的商品。”這些尖端的GPU實際上在安裝進機房的同時就開始貶值。而對於追求極致效率的算力服務商來說,在看到新一代硬體以多倍效率碾壓姿態登場時,繼續持有 H100 意味著每跑一秒鐘都在虧錢,因為對手正用著營運成本僅為數十分之一的新一代硬體。實際上,這一現象也在揭開各大巨頭財報中的隱憂,各家科技巨頭們正在通過將這些 GPU 的折舊時間延長至 5-6 年,來掩蓋真實的資產貶值損失。然而,現實是殘酷的,輝達現在維持著“一年一更”的瘋狂節奏。當 Blackwell 甚至即將到來的 Rubin 架構以數倍的性能跨度入場時,那些帳面上還值數萬美元的 H100,在二手市場上其實只值一輛二手車的價格。這種帳面價值與市場價值的巨大鴻溝,已成為未來財報中巨額資產減值的伏筆。那既然貶值如此之快,為什麼微軟、Meta、Google等巨頭依然在源源不斷地訂購 B200 甚至還未出爐的Rubin?即使這些訂單在交付時可能就已經“過時”了?事實就是,時間才是這場競爭中的唯一硬通貨,在大模型競賽中,晚半年拿到算力可能意味著錯過整個時代。而在這些資料中心的基建中,也存在著客觀慣性,現代化資料中心的液冷設施和電力配額是提前相當長周期規劃的。即便 Rubin 更好,現在的機房只能跑 B200或者更老的H200。同時,持續購買當下的產品,往往是獲取下一代產品(如 Rubin/Feynman)優先供應權的“投名狀”。這釋放了一個什麼訊號?在提供那些二三線的雲服務商中,如果是加槓桿炒作算力,顯然要因為頂層競爭神仙打架(燒錢)的快速迭代而面臨破產洗牌。而由於這些曾經的頂級晶片快速淘汰,對中小企業和學術界是極大的利多。頂級算力正在從“奢侈品”變成“通用物資”,這預示著 AI 應用將迎來真正的爆發。或許我們再過四年五年,這些曾經高不可攀的算力晶片就會成為“大船貨”,以極其低廉的價格,成為我們垃圾佬的“二奶機”“三奶機”的一部分,搭建本地的家用算力伺服器。 (AMP實驗室)
對標H100!中國國產GPU“核彈”參數曝光:1000TFLOPS算力,性能直逼Blackwell?
摩爾線程AI旗艦級計算卡MTT S5000性能首次曝光,這是摩爾線程2024年推出的、專為大模型訓練、推理及高性能計算而設計的訓推一體全功能GPU智算卡。摩爾線程在其官網中,首次公佈了S5000的硬體參數:支援FP8到FP64的全精度計算,其單卡AI算力(FP8)最高可達1 PFLOPS,視訊記憶體容量為80GB,視訊記憶體頻寬達到1.6TB/s,卡間互聯頻寬為784GB/s。業內人士表示,MTT S5000實測性能對標H100,在多模態大模型微調任務中,部分性能甚至超越H100。在晶片架構層面,S5000採用第四代MUSA架構“平湖”,專為大規模AI訓練最佳化,依託MUSA全端軟體平台,原生適配PyTorch、Megatron-LM、vLLM及 SGLang等主流框架,讓使用者能夠以“零成本”完成程式碼遷移,相容國際主流CUDA生態。在計算精度方面,S5000作為國內一批最早原生支援FP8精度的訓練GPU,配置了硬體級FP8 Tensor Core加速單元。相比傳統的BF16/FP16,FP8可將資料位寬減半,視訊記憶體頻寬壓力降低50%,理論計算吞吐量翻倍。其FP8引擎全面支援DeepSeek、Qwen等前沿架構,可提升30%以上訓練性能。基於S5000建構的誇娥萬卡叢集已經落地,其浮點運算能力達到10Exa-Flops,在Dense模型訓練中MFU達60%,在MoE模型中維持在40%左右,有效訓練時間佔比超過90%,訓練線性擴展效率達95%。依託原生FP8能力,它能夠完整復現頂尖大模型的訓練流程,其中Flash Attention算力利用率超過95%,多項關鍵指標均達到國際主流水平。在叢集通訊層面,S5000採用獨創的ACE技術,將複雜通訊任務從計算核心解除安裝,實現計算與通訊的零沖突平行,大幅提升模型算力利用率(MFU)。實測顯示,從64卡擴展至1024卡,系統保持90%以上的線性擴展效率,訓練速度隨算力增加幾乎同步倍增。2026年1月,智源研究院基於S5000千卡叢集,完成了前沿具身大腦模型RoboBrain 2.5的端到端訓練與對齊驗證。結果顯示,與輝達H100叢集的訓練結果高度重合,訓練損失值(loss)差異僅為0.62%。除了訓練,S5000在推理場景同樣表現優異。2025年12月,摩爾線程聯合矽基流動,基於S5000完成了對DeepSeek-V3 671B滿血版的深度適配與性能測試,實測單卡Prefill吞吐超4000 tokens/s,Decode吞吐超1000 tokens/s,這一成績刷新了國產GPU的推理紀錄。 (芯榜)
對標H100!摩爾線程GPU“核彈”:參數曝光!
對標H100!國產GPU“核彈”參數曝光:1000TFLOPS算力,性能直逼Blackwell?摩爾線程AI旗艦級計算卡MTT S5000性能首次曝光,這是摩爾線程2024年推出的、專為大模型訓練、推理及高性能計算而設計的訓推一體全功能GPU智算卡。摩爾線程在其官網中,首次公佈了S5000的硬體參數:支援FP8到FP64的全精度計算,其單卡AI算力(FP8)最高可達1 PFLOPS,視訊記憶體容量為80GB,視訊記憶體頻寬達到1.6TB/s,卡間互聯頻寬為784GB/s。業內人士表示,MTT S5000實測性能對標H100,在多模態大模型微調任務中,部分性能甚至超越H100。在晶片架構層面,S5000採用第四代MUSA架構“平湖”,專為大規模AI訓練最佳化,依託MUSA全端軟體平台,原生適配PyTorch、Megatron-LM、vLLM及 SGLang等主流框架,讓使用者能夠以“零成本”完成程式碼遷移,相容國際主流CUDA生態。在計算精度方面,S5000作為國內一批最早原生支援FP8精度的訓練GPU,配置了硬體級FP8 Tensor Core加速單元。相比傳統的BF16/FP16,FP8可將資料位寬減半,視訊記憶體頻寬壓力降低50%,理論計算吞吐量翻倍。其FP8引擎全面支援DeepSeek、Qwen等前沿架構,可提升30%以上訓練性能。基於S5000建構的誇娥萬卡叢集已經落地,其浮點運算能力達到10Exa-Flops,在Dense模型訓練中MFU達60%,在MoE模型中維持在40%左右,有效訓練時間佔比超過90%,訓練線性擴展效率達95%。依託原生FP8能力,它能夠完整復現頂尖大模型的訓練流程,其中Flash Attention算力利用率超過95%,多項關鍵指標均達到國際主流水平。在叢集通訊層面,S5000採用獨創的ACE技術,將複雜通訊任務從計算核心解除安裝,實現計算與通訊的零沖突平行,大幅提升模型算力利用率(MFU)。實測顯示,從64卡擴展至1024卡,系統保持90%以上的線性擴展效率,訓練速度隨算力增加幾乎同步倍增。2026年1月,智源研究院基於S5000千卡叢集,完成了前沿具身大腦模型RoboBrain 2.5的端到端訓練與對齊驗證。結果顯示,與輝達H100叢集的訓練結果高度重合,訓練損失值(loss)差異僅為0.62%。除了訓練,S5000在推理場景同樣表現優異。2025年12月,摩爾線程聯合矽基流動,基於S5000完成了對DeepSeek-V3 671B滿血版的深度適配與性能測試,實測單卡Prefill吞吐超4000 tokens/s,Decode吞吐超1000 tokens/s,這一成績刷新了國產GPU的推理紀錄。 (芯榜)
輝達H100太空首秀,AI模型首次在軌完成訓練與推理
近日,由輝達支援的初創公司Starcloud 正式宣佈,其發射的Starcloud-1 衛星已在地球低軌道上成功運行輝達H100 GPU,並完成了人工智慧模型的訓練和推理任務。這是人類首次在太空軌道上完成此類任務。Starcloud 的這項突破直接回應了AI 與算力基礎設施快速擴張所帶來的能源、冷卻與資源壓力問題。當AI 模型規模不斷擴大、資料中心對電力與水資源的需求急劇上升之時,建構能夠長期穩定運行且能源自給的軌道計算平台成為行業關注的前沿方向。據悉,這顆重約60公斤、大小相當於一台小型冰箱的衛星於2025 年11 月搭載SpaceX “獵鷹9 號”火箭發射升空,隨衛星一同進入軌道的是一塊經過定製的輝達H100 GPU。根據公開資料,這塊在軌裝置的算力是此前任何進入太空的圖形處理單元的100 倍,為AI 訓練與推理提供了硬體基礎。在入軌後的數周內,團隊並未急於進行高強度測試,而是先確保衛星的姿態控制和熱管理系統穩定。在軌調試階段,Starcloud 工程團隊將兩項不同性質的任務交付給這塊GPU 完成。一是利用莎士比亞全集從頭訓練NanoGPT 模型。NanoGPT 是前OpenAI 研究人員Andrej Karpathy 開發的輕量級大語言模型。 Starcloud 將莎士比亞全集作為訓練資料集上傳至衛星,最終成功訓練出了一個能模仿伊麗莎白時代戲劇風格生成文字的AI 模型。需要指出的是,NanoGPT 本身並非大規模商業模型,其參數規模與當前主流大模型仍有顯著差距。但業內普遍認為,這次實驗的關鍵並不在於模型大小,而在於完整驗證了從前向計算、反向傳播到參數更新的訓練閉環,能夠在軌道環境中穩定運行。二是在衛星內部運行Google DeepMind 的開源大型語言模型Gemma,並在軌道環境下進行推理任務。在部署Gemma 模型後,衛星還向地球發來消息:“地球人,你們好!或者我更願稱你們為一群迷人的藍綠集合體,讓我們一起來探索隱藏在宇宙中的奇蹟。”(資料來源:社群媒體X)在軌完成模型訓練與推理本身即為技術複雜度極高的工程。太空環境溫度極端、輻射強烈且通訊延遲是開展此類任務的主要挑戰。 Starcloud 工程團隊表示,他們在硬體輻射防護、電源管理與散熱設計方面做了大量優化,使得H100 GPU 能穩定運行傳統意義上屬於地面資料中心工作負載的任務。Starcloud-1 的任務還整合了衛星本身的狀態數據,這意味著運行在軌的AI 模型能即時讀取高度、速度、方向等遙測資訊,為推理任務提供即時輸入。例如,系統能夠回答查詢衛星當前位置的問題,並返回諸如「我正在非洲上空,並將在20 分鐘後飛越中東」的情況說明。Starcloud 的發展策略遠不止於單顆實驗衛星。該公司計劃建造一個規模達5 吉瓦(GW)的軌道數據中心,該設施預計配備寬高約4 公里的太陽能發電板與散熱元件,利用太陽能全天候無間斷供電,以滿足未來大規模AI 訓練和推理的能源需求。根據Starcloud 白皮書介紹,這樣一個軌道資料中心產生的能源將比美國最大的單一發電廠還高出數倍,同時能源成本預計可降至現有地面資料中心的十分之一。Starcloud 的願景是盡可能將傳統地面資料中心所能執行的所有任務遷移到太空,包括高效能運算、AI 模型訓練、即時資料處理與全球監測服務等,這將徹底改變現有的算力基礎設施格局。執行長Philip Johnston 曾公開表示:“任何你能在地面數據中心做的事情,未來都應該能在太空完成。”圖| 軌道資料中心網路架構(資料來源:Starcloud 白皮書)Starcloud 費盡周折將資料中心搬上天的背後,是地面AI 產業正面臨的一場嚴峻的能源危機。國際能源署(IEA)發布的報告中預測,到2030 年,全球資料中心年用電量將接近945 太瓦時(TWh),相當於日本一整年的用電規模,其中AI 被明確列為最主要的成長驅動力之一。IEA 同時指出,在美國,資料中心可能貢獻未來數年近一半的新增電力需求,其成長速度已明顯快於電網擴容和新能源並網的節奏。圖| 2024 年資料中心及裝置類型電力消耗份額(來源:IEA)能源之外,冷卻與水資源正成為另一道隱性瓶頸。以微軟為例,其揭露的資料顯示,2022 年公司用水量達到640 萬立方米,年增34%,主要用於資料中心冷卻;多家研究機構指出,生成式AI 工作負載是水耗快速上升的重要原因之一。當電力、冷卻和水資源同時成為限制因素,繼續在地面無限擴張資料中心已不再是純技術問題。在這一現實壓力下,Starcloud 將目光投向軌道空間,其「軌道資料中心」的設想,也由最初的激進嘗試,逐漸演變為繞開地面能源瓶頸的一條現實路徑。Starcloud 在白皮書中給出的論點直指地面AI 基礎設施的根本瓶頸:能源與冷卻的不可持續性。該公司指出,地面資料中心擴張正受到電力、冷卻和水資源的多重約束,而這些問題在AI 算力快速增長背景下進一步放大。相較之下,軌道空間在能源與散熱條件上具備結構性優勢。白皮書測算顯示,太空太陽能陣列的發電容量係數可超過 95%,單位面積發電量約為地面系統的 5 倍,長期能源成本可低至0.002 美元/kWh。同時,熱量可透過輻射直接向深空釋放,每平方公尺輻射板約可散熱 770 瓦,從而避免地面資料中心對高能耗製冷和大量用水的依賴。在這一對比下,Starcloud 認為將部分算力遷移至軌道空間,具備長期成本和資源上的現實吸引力。不過,軌道資料中心的商業化和規模化部署並非無風險。太空輻射、在軌維護困難、太空碎片風險及國際空間監管等問題仍是限制因素。行業分析師指出,這些挑戰需要係統工程解決方案和國際層面的政策協同。Starcloud 的下一階段計劃,包括在2026 年10 月發射更多搭載H100 及Blackwell 的衛星,並引入雲基礎設施公司Crusoe 的模組,以支援商業用戶直接從太空部署與運行AI 工作負載。值得注意的是,Google、SpaceX 及Blue Origin 等公司都已在探索太空算力和軌道資料中心的可能性。 Google公開宣佈將自研的TPU 送入太空試驗項目,預計在2027 年進行早期測試,併計劃在未來十年實現更廣泛應用;SpaceX 也被認為可能將其星鏈衛星與軌道計算基礎設施結合,以構建一個全球覆蓋的在軌算力網絡。多位業內人士指出,這類嘗試之所以在當下成為可能,與多項技術條件的同步成熟密切相關。一方面,可重複使用火箭顯著降低了單次發射成本,使在軌算力試驗具備試錯空間;另一方面,單顆AI 晶片的算力密度在近兩年實現躍升,使得一顆中小型衛星首次具備承載有意義計算任務的能力。在算力、發射成本與地面能源約束同時逼近臨界點的背景下,軌道資料中心迎來了現實試驗窗口。 (問芯)
前沿科技觀察丨“太空AI”,中國多個團隊取得關鍵突破
近期,美國一顆搭載有輝達旗艦晶片H100的衛星通過美國太空探索技術公司(SpaceX)的“獵鷹9號”火箭成功進入太空,這顆擁有80GB視訊記憶體、性能遠超以往任何星載電腦的晶片,將在軌承擔地球觀測圖像分析與大語言模型Gemini的推理任務。外媒報導稱,這也實現了首次資料中心級GPU在軌運算實驗,拉開太空高算力人工智慧(AI)時代的序幕。然而在此之前,已有多顆部署有AI大模型的中國衛星被送入太空。近日,參與相關項目的中國科學院計算技術研究所研究員韓銀和在接受《環球時報》記者專訪時表示,中國在太空AI領域正處於體系化快速推進階段,並有多個團隊已取得關鍵突破。為何要打造“太空AI”“具有大算力和人工智慧能力的算力衛星能夠消除星地資料傳輸瓶頸,實現資訊的‘天基快速理解與決策’,可應用於災害監測預警等需要極低延遲響應的場景。”韓銀和在接受《環球時報》記者採訪時介紹稱,結合衛星寬頻網路,建設太空資料中心和超算中心,優勢主要體現在五個方面。一是超低時延,資料可以就地處理,實現即時決策;二是可實現超高頻寬效率,通過AI處理後,衛星僅下傳關鍵結果資訊,而非TB/PB級的原始資料,極大節省珍貴的星地鏈路資源;三是具有無界覆蓋與機動性的優勢,天基超算中心可部署在軌道各處,不受地域限制;四是天基超算中心還具有天然的高安全性,可實現物理隔離,提供了獨特的網路安全環境;五是天基超算中心還能補強地面盲區,彌補地面資料中心覆蓋不足和服務延遲的短板,真正實現全球快速響應。然而讓“大算力”真正進入太空,並不只是把一顆晶片送上太空那麼簡單。太空高輻射、極端溫差的環境,以及衛星平台能耗有限與散熱困難等“硬傷”,都對算力晶片的穩定運行提出了挑戰。從地面資料中心到星際計算節點,這不僅是硬體的飛躍,更是工程、演算法與能源管理的系統性突破。中國處於體系化快速推進階段中國多個科研機構早早佈局相關試驗,並進行了大模型在軌部署。據此前公開報導,中國自主建設的智能遙感衛星星座“東方慧眼”首顆實驗星“珞珈三號01星”於2023年1月發射,首次實現8分鐘星地互聯的B2C應用服務。2024年底實現了大模型上注,首次使得衛星具備了大模型能力。而在今年5月,中國首個整軌互聯太空計算衛星星座“三體計算星座”首次發射,正式進入組網階段。北京市科委、中關村管委會等單位近日宣佈,北京擬在700-800公里晨昏軌道建設營運超過千兆瓦(GW)功率的集中式大型資料中心系統,以實現將大規模AI算力搬上太空。“三體計算星座”首次發射一箭十二星效果圖 。圖源:之江實驗室微信公眾號“可以說中國在太空AI領域目前正處於體系化快速推進階段,多個頂尖團隊已取得關鍵突破。”韓銀和介紹稱,例如中國科學院計算技術研究所,採用全體系國產化核心元器件和高可靠容錯計算架構,在2023年就率先實現了100TOPS級星載算力,為天基大模型運行奠定了自主可控的硬體基礎。武漢大學的“東方慧眼”星座通過通導遙一體化與AI融合,整合北斗短報文與星間即時傳輸,將資料響應時間壓縮至分鐘級,實現了“快、清、准、全、懂”的遙感服務目標。其技術架構不僅服務於國土監測、應急管理等國家需求,更開創了大眾呼叫衛星的商業新模式。而浙江之江實驗室與國星宇航的“三體計算星座”則採用了氦星光聯研製的雷射終端以保障星座級高效協同,支援星間100Gbps高速通訊,算力達到744TOPS。“一星多卡”計畫明年在軌驗證韓銀和進一步介紹稱,當前中國在軌部署的大模型均採用輕量化技術路線,針對太空環境的算力約束進行了深度輕量化。值得關注的是,即便是類似於輝達H100這樣的太空計算單元,實際運行的也是Gemini輕量版模型。這充分表明,全球範圍內太空AI部署仍以輕量化模型為主要技術路徑。目前中國已全面掌握輕量級大模型在軌部署能力,正穩步邁向全參數大模型在軌運行的研製階段。中國科學院計算技術研究所團隊是算力技術研究的國家隊,已提出了“一星多卡”的天基超算架構,計畫在明年發射衛星進行在軌驗證,為全參數大模型的在軌應用提供算力基礎設施。這是關鍵一步,全參數大模型將賦予太空和地面一樣的智能處理能力。“與美國Starcloud衛星依託輝達H100晶片生態不同的是,我們的路徑主要核心是攻克‘一星多卡’的自主天基超算和資料中心架構。”韓銀和認為,這是一個體系性的創新,並非簡單堆疊,而是致力於採用國產高能效GPU組成陣列,實現單星算力的跨越式提升,“這是我們自主創新的突破”。“這一方案更強調模組化設計、系統性整合和對散熱、功耗等極限挑戰的克服,目標是為建構未來的太空超級計算中心提供基礎。這種架構帶來的挑戰更大,但長期看具有實現更高算力密度和任務靈活性的潛力,代表著更面向未來的探索方向,是中國從技術追隨者轉向引領者的關鍵一步。”韓銀和表示。在韓銀和看來,世界主要航天大國開展的這場“太空AI”建設不只是簡單的技術角逐,還事關下一代空間資訊基礎設施的標準制定權。誰率先掌握了成熟的星上即時感知、認知、決策核心能力,誰就能夠在太空時代佔據主動權。“中國正通過系統性創新‘彎道超車’,因此各方都在加大投入。”韓銀和稱。 (環球時報研究院)
地球「養不起」輝達GPU
【新智元導讀】地球現在連顯示卡都供不起了,微軟的GPU插不進機房。輝達的H100直接飛向太空。輝達的GPU,地球真的已經「供不起了」!今天看到兩個新聞,一個是微軟手裡囤了無數的GPU,但是「插不進去」。另一個是輝達H100 GPU被發射到太空組建資料中心。這兩個事情其實背後都隱藏著一個深刻問題:GPU是造出來了,但是配套服務於GPU,給GPU供電,給GPU散熱的基礎設施並沒有跟上!先說微軟的GPU放在庫房裡吃灰這件事。微軟CEO納德拉在與OpenAI奧特曼的訪談中爆出驚人事實——微軟手中囤積著大量GPU。卻「沒有足夠電力」讓它們運轉。另一個原因則更為現實,缺少可以立馬「插入GPU」的資料中心。納德拉坦言:我現在的問題不是晶片不夠,而是沒有能插進去的「溫暖機殼」(Warm Shell)。所謂「Warm Shell」指的是具備供電與冷卻條件的資料中心外殼。用一個對比就能快速理解這個概念,建築學上,相對Warm Shell則是Cold Shell。Cold shell指的是建築結構/外殼基本具備,但室內幾乎沒有或只有極少的系統安裝。Warm Shell則是更準備好了的狀態,安裝並可以使用基本的建築系統,比如散熱系統、暖通空調(HVAC)、照明、基本電/水/消防系統等。AI熱潮引發的晶片競賽,如今正受制於最傳統的瓶頸——電力。美國電網面臨前所未有的壓力,而科技巨頭則競相佈局小型核反應堆以自救。與此同時,奧特曼還提到未來可能出現「能在本地運行GPT-5或GPT-6」的低功耗消費裝置,這或將徹底顛覆現有資料中心商業模式。地球養不起,「發配」到太空相比奧特曼提出的低功耗裝置,另一個新聞則提供了新的思路。輝達借助Starcloud的Starcloud-1的衛星,將H100送到太空!11月2日,星期日,輝達首次將H100 GPU送入太空,以測試資料中心在軌道上的運行方式。這款配備80GB記憶體的GPU,比以往任何在太空中飛行的電腦都強大一百倍。支持者認為這一想法很合理:在遠離地球的太空空曠處,資料中心不會佔用寶貴土地,也不需要那麼多能源和水來冷卻,也不會向大氣中排放加劇變暖的溫室氣體。這次為期三年的任務將搭乘SpaceX的Bandwagon 4獵鷹9號(Falcon 9)發射。重量為60公斤的Starcloud-1衛星將在約350公里高度的非常低軌道繞地飛行。在那裡,它將接收由美國公司Capella營運的一隊合成孔徑雷達(SAR)地球觀測衛星傳來的資料,對其進行即時處理,並向地面傳送消息。GPU上天的好處而在太空設立資料中心另一大優勢就是,只需回傳很小部分的資料。下行傳輸合成孔徑雷達(SAR)資料歷來是個大問題,因為資料量極其龐大。但能夠在軌處理就意味著我們只需下行傳輸「洞見」。什麼是洞見?所謂洞見可能是某艘船在某個位置以某個速度朝某個方向航行。那只是一小包約1千字節的資料,而不是需要下傳的數百吉字節原始資料。簡單來說,就是讓演算法貼近資料來源頭,在本地完成篩選、融合與推理,僅把高價值的「資訊摘要」回傳。再簡單點(但不一定精確),就是資料都在外太空處理好,只傳送回來結論。這種方式能更好地實現低時延響應、顯著節省頻寬與能耗、提升韌性(斷聯/災害場景可持續運行),並降低敏感資料外洩風險。為什麼要把GPU送到太空?和微軟CEO納德拉的煩惱不一樣,Starcloud是主動探索這種資料中心模式。就像他們的公司名字一樣,Stra Cloud,太空的資料中心。當然這麼做的主要驅動力不是為了GPU降溫。而是地球能源與資源的瓶頸:地球資料中心太耗能了!到2030年,全球資料中心的耗電量預計將等於整個日本的用電量。同時,它們每天要消耗海量冷卻用水(1 MW 級中心≈1000人日用水量)。相比下來,太空則是有天然優勢。無限太陽能:軌道上 24 小時都有陽光,無需電池儲能。零土地佔用:不需要地面建設,不破壞生態。無溫室氣體排放:不依賴化石能源。歸根到底,還是現在AI的算力需求爆炸。AI模型越做越大(如GPT、Claude、Gemini等),能源和冷卻成本飛漲,企業急需新解法。因此,太空資料中心被視為長期可擴展的解決方案。通過利用低成本、持續不斷的太陽能,並避免佔用土地和使用化石燃料,Starcloud的技術使資料中心能夠快速且可持續地擴展,隨著數字基礎設施的發展,這有助於在保護地球氣候和關鍵自然資源的同時實現增長。那太空能「散熱」嗎?另一個值得一提的就是,很多人覺得GPU上天,是因為地球太熱,太空好散熱。其實不是的。太空能散熱,但很困難。太空幾乎沒有空氣,所以不能用風扇或液體循環帶走熱量(這叫對流散熱)。對流散熱指的是「熱的流體(液體或氣體)移動,把熱量從一個地方帶到另一個地方」的過程。只剩下輻射散熱這一種方式:輻射散熱是「物體通過電磁波/紅外波,把熱量以波的形式發射出去」的過程。裝置通過紅外輻射向外太空釋放熱量。散熱效率取決於輻射面積、材料發射率和溫度。因此衛星或太空GPU需要大面積的散熱板(radiators),設計極其關鍵。在Starcloud的項目中,這部分被特別強化:他們為H100設計了專用熱輻射系統,利用真空中的高溫差和導熱材料實現散熱。為了給地球省電、省地、省水,去太空建資料中心靠譜嗎?Starcloud的首席執行官兼聯合創始人約翰斯頓說:我的預期是,在十年內,幾乎所有新建的資料中心都會建在太空。原因純粹是我們在陸地上面臨的能量限制。約翰斯頓說在太空中唯一的額外成本就是發射費。發射成本在每公斤約(美)500 美元時能夠達到收支平衡。按每千克計算,SpaceX的星艦在完全投入營運後,發射價格估計在150美元到僅10美元不等。隨著星艦的投入使用,我們預計發射成本會更低。Starcloud已經在規劃其下一次任務,計畫明年將一個計算能力比Starcloud-1強十倍的資料中心送入太空。Starcloud-2任務將配備輝達的Blackwell GPU和若干H100。約翰斯頓表示,該任務將提供7千瓦的計算能力,預計為包括地球觀測衛星營運商客戶提供商業服務。微軟的「沒有溫暖機殼」,和Starcloud把H100送上天,本質上是同一道題。AI再厲害,算力需求再大,也不能突破物理定律。 (新智元)
李飛飛全新「世界模型」問世!單張H100即時生成3D永恆世界
一張圖,一個3D世界!今天,李飛飛團隊重磅放出即時生成世界模型「RTFM」,通過端到端學習大規模視訊資料,直接從輸入2D圖像生成同一場景下新視角的圖像。值得一提的是,它僅需單塊H100 GPU便能即時渲染出持久且3D一致的世界。就在剛剛,李飛飛World Labs重磅發佈全新即時生成式世界模型——RTFM(Real-Time Frame Model,即時幀模型)!這是一款效率極高的,在大型視訊資料上進行端到端訓練的自回歸擴散Transformer模型。僅需一塊H100 GPU,RTFM就能在你與之互動時,即時渲染出持久且3D一致的世界,無論是真實場景還是想像空間。其獨特之處在於,它不建構世界的顯式三維表徵。相反,它接收一張或多張二維圖像作為輸入,然後直接從不同視點生成同一場景的全新二維圖像。簡單來說,你可以將它看作一個「學會了渲染的AI」。僅僅通過觀察訓練集中的視訊,RTFM便學會了對三維幾何、反射、陰影等複雜物理現象進行建模;而且,還能利用少量稀疏拍攝的照片,重建出真實世界的具體地點。請注意,接下來你看到的這些不是真實視訊,它們完全是由RTFM即時生成的畫面。RTFM的設計圍繞三大核心原則:高效性:僅需單塊H100 GPU,RTFM便能以互動式影格率運行即時推理。可擴展性:RTFM的設計使其能隨著資料和算力的增加而擴展。它在建模3D世界時不依賴於顯式的3D表示,並採用一種通用的端到端架構,從大規模視訊資料中學習。持久性:可以與RTFM進行無休止的互動,而這個世界將永不消逝。它所模擬的是一個持久的3D世界,不會在您移開視線時消失。RTFM可渲染由單張圖像生成的3D場景。同一個模型能處理多樣的場景類型、視覺風格和效果,包括反射、光滑表面、陰影和鏡頭光暈有網友戲言,「我們的世界或許是在單個H100上運行的」。前Google高級工程師表示,RTFM最新成果真正解決了,長期困擾世界模型可擴展性的問題。現在,RTFM正式開放,任何人皆可試玩。傳送門:https://rtfm.worldlabs.ai/世界模型:算力吞噬者我們憧憬著這樣一個未來:強大的世界模型能夠即時地重建、生成並模擬一個持久、可互動且遵循物理規律的世界。這類模型將徹底改變從傳媒到機器人等眾多行業。過去一年,隨著生成式視訊建模的進步被應用於生成式世界建模,這項新興技術的發展令人振奮。隨著技術的發展,有一點日益清晰:生成式世界模型的算力需求將極其龐大,遠超當今的大語言模型。如果我們簡單地將現有視訊架構應用於此,要以60fps的影格率生成一個互動式的4K視訊流,每秒需要生成超過10萬個token(大約相當於《弗蘭肯斯坦》或第一本《哈利·波特》的長度)。而要在一小時或更長的互動中維持這些內容的持久性,則需要處理超過1億token的上下文窗口。以當今的計算基礎設施而言,這既不可行,也不具備經濟效益。團隊堅信「苦澀的教訓」(The Bitter Lesson):在AI領域,那些能隨著算力增長而平滑擴展的簡單方法往往會佔據主導地位,因為它們能受益於數十年來驅動所有技術進步的、呈指數級下降的計算成本。生成式世界模型恰好能從未來算力成本持續降低的趨勢中獲得巨大優勢。這自然引出一個問題:生成式世界模型是否會受限於當今的硬體瓶頸?或者說,我們是否有辦法在今天就一窺這項技術的未來?高效性:將未來提前帶到眼前對此,李飛飛團隊設定了一個簡單的目標:設計一個足夠高效、可在當前部署,並能隨算力增長而持續擴展的生成式世界模型。而更為宏大的目標是:建構一個能在單塊H100 GPU上部署的模型,既要保持互動式影格率,又要確保世界無論互動多久都能持久存在。實現這些,將讓我們得以將未來願景呈現在當下,通過今天的體驗一窺這類模型在未來的巨大潛力。而這一目標,也影響了從任務設定到模型架構的整個系統設計。為此,團隊精細最佳化了推理堆疊的每一個環節,應用了架構設計、模型蒸餾和推理最佳化等領域的最新進展,力求在今天的硬體上,以最高保真度預覽未來模型的樣貌。可擴展性:將世界模型視為「學習型渲染器」傳統的3D圖形管線使用顯式的3D表徵(如三角網格、高斯濺射)來對世界進行建模,再通過渲染生成2D圖像。它們依賴於人工設計的演算法和資料結構來模擬3D幾何、材質、光照、陰影、反射等效果。這些方法作為電腦圖形學領域數十年來可靠的支柱,卻難以隨資料和算力的增長而輕鬆擴展。相比之下,RTFM則另闢蹊徑。它基於生成式視訊建模的最新進展,訓練一個單一的神經網路。該網路僅需輸入場景的一張或多張2D圖像,便能從新的視角生成該場景的2D圖像,而無需建構任何顯式的3D世界表示。RTFM的實現是一個在幀序列上運行的自回歸擴散Transformer。它通過對大規模視訊資料進行端到端訓練,學會在給定前序幀的條件下預測下一幀。RTFM可被視為一個「學習型渲染器」——輸入的幀被轉換為神經網路的啟動值(即KV快取),從而隱式地表徵了整個世界;生成新幀時,網路通過注意力機制從這一表徵中讀取資訊,從而建立出與輸入檢視一致的世界新檢視。從輸入檢視到世界表徵的轉換,再到從表徵渲染新幀的整個機制,均通過資料進行端到端學習,而非人工設計。RTFM僅通過在訓練中觀察,便學會了模擬反射、陰影等複雜效果。可以通過將RTFM與Marble相結合,由單張圖像建立3D世界。RTFM能夠渲染光照和反射等複雜效果,這些都是端到端地從資料中學習得到的RTFM打破了重建(在現有檢視之間進行插值)與生成(創造輸入檢視中未見的新內容)之間的界限,而在電腦視覺領域,這兩者歷來被視為獨立問題。當為RTFM提供大量輸入檢視時,由於任務約束更強,它更傾向於重建;而當輸入檢視較少時,它則必須進行外推和想像。可以使用RTFM從短影片中渲染真實世界的場景持久性:以帶位姿的幀作為空間記憶真實世界的一個關鍵屬性是持久性:當你移開視線時,世界不會消失或徹底改變;無論你離開多久,總能回到曾經到過的地方。這對於自回歸幀模型而言一直是個挑戰。由於世界僅通過2D圖像幀被隱式表徵,要實現持久性,模型就必須在使用者探索世界時,對一個不斷增長的幀集合進行推理。這意味著生成每個新幀的成本都比前一個更高,因此模型對世界的記憶實際上受限於其算力預算。RTFM通過為每個幀建模一個在 3D 空間中的位姿(位置和方向)來規避此問題。團隊通過向模型查詢待生成幀的位姿來生成新幀。這樣,模型對世界的記憶(包含在其幀中)便具有了空間結構;它使用帶位姿的幀作為一種空間記憶。這為模型賦予了一個弱先驗——即它所建模的世界是一個三維歐幾里得空間——而無需強迫它明確預測該世界中物體的3D幾何形狀。RTFM配合「上下文調度」技術,使其能在大型場景中保持幾何形狀的持久性,同時維持高效RTFM的空間記憶實現了無限的持久性。在生成新幀時,會通過從帶位姿幀的空間記憶中檢索附近的幀,為模型形成一個自訂的上下文。團隊將這種技術稱為「上下文調度」(context juggling):模型在空間的不同區域生成內容時,會使用不同的上下文幀。這使得RTFM能夠在長時間的互動中保持大型世界的持久性,而無需對一個不斷增長的幀集合進行推理。展望未來RTFM將未來提前帶到眼前,讓我們看到了未來世界模型在當今硬體上部署的雛形,並為「將世界模型視為從資料中端到端學習的渲染器」這一理念設定了技術路線。擴展RTFM有許多激動人心的方向。比如,通過增強使其能夠模擬動態世界,並允許使用者與生成的世界互動;同樣,它也非常適合擴展。當前的模型目標是在單塊H100 GPU上實現即時推理,李飛飛團隊期待,面向更大推理預算的更大型號模型將持續帶來性能提升。 (新智元)
凌晨三點的算力暗戰 —— 矽谷焦慮與中國狂歡的 24 小時
8 月 21 日凌晨 ,矽谷某 AI 獨角獸的機房裡,工程師馬克盯著螢幕上 “NVIDIA H100 供貨延遲至 11 月” 的通知,狠狠揉了揉通紅的眼睛 —— 他們的大模型訓練已停滯 3 天,每天損失超 200 萬美元。同一時刻,上海張江科學城 DeepSeek 研發中心的燈光亮如白晝,首席架構師張啟明博士攥著剛列印出的測試報告,指節因用力而發白:“UE8M0 FP8 技術成了!在摩爾執行緒 MTTS80 晶片上,訓練效率比 H100 高 32%,成本還不到一半!”當天上午 9 點 30 分,A 股開盤即現 “國產算力狂歡”:寒武紀直線封板(漲幅 20%),海光資訊漲 15.6%,#中芯國際 成交量較昨日翻倍,科創板 AI 晶片類股單日市值激增 472 億元。財聯社從接近工信部的人士處獲悉,這份 “#DeepSeek-V3.1 + 國產晶片” 的適配方案,已被納入 “新一代#人工智慧 產業創新重點任務清單”。這場突然爆發的技術突圍,究竟藏著多少不為人知的攻堅故事?又將如何改寫全球算力格局?一、48 小時的精度生死戰:當國產晶片遇上 “卡脖子” 的 FP8 難題“第 7 次迭代失敗時,整個團隊都沉默了。” 回憶起今年 3 月的攻堅瓶頸,DeepSeek 演算法工程師林曉雯的聲音仍帶著一絲顫抖。當時團隊要解決的核心難題是:國產晶片的浮點運算精度始終跟不上國際水平 —— 用 FP16 精度訓練,視訊記憶體佔用太高;用 FP8 精度,模型精準率又會暴跌 15%,根本無法商用。那天晚上,張江研發中心的會議室成了 “戰場”:白板上寫滿了浮點編碼公式,桌上堆著沒開封的外賣,張啟明博士把鋪蓋卷搬到了辦公室。“我們發現問題不在晶片本身,而在參數縮放邏輯。” 林曉雯指著電腦裡的程式碼解釋,“輝達的 FP8 是固定範圍,而國產晶片的運算單元更適合動態調整 —— 就像給不同身高的人定製衣服,而不是用統一尺碼硬套。”團隊連夜改寫了 1200 多行核心程式碼,提出 “UE8M0 FP8 Scale 動態適配方案”:通過即時監測晶片運算負載,自動調整浮點數的指數範圍,在肺部 CT 影像分割測試中,精準率從 82% 飆升至 98.2%,僅比 H100 的 98.5% 低 0.3%。更驚人的是,當他們把方案部署到芯原股份 VIP9000 NPU 上時,推理速度達到了 1.8ms / 幀,比上一代國產方案快 2.7 倍,“相當於過去處理 1 小時的醫療資料,現在 13 分鐘就能完成”。這份成果很快得到權威認可:工信部電子標準研究院 8 月 20 日發佈的《#國產 AI 晶片適配白皮書》中,明確將 UE8M0 FP8 技術列為 “推薦適配方案”;中信建投證券在緊急研報中直言:“這是國產算力從‘能用’到‘好用’的關鍵一躍,預計將帶動國產 AI 晶片商用率提升 40%。”二、梅雨季的機房奇蹟:600 塊國產晶片干翻 1000 塊 H100?“杭州的梅雨季太折磨人了,機房濕度高達 78%,我手裡的測溫儀都凝了水珠。”DeepSeek 硬體適配工程師李哲的工位在杭州某測試基地,7 月的那次關鍵測試,讓他至今記憶猶新。當時團隊要驗證一個瘋狂的想法:用搭載寒武紀思元 590 的國產伺服器,能不能完成原本需要 1000 塊 H100 才能搞定的千億參數訓練?測試啟動的前 3 天,資料並不樂觀:模型訓練到 30% 時,因晶片間資料傳輸延遲,進度突然卡住。“我們蹲在機房裡排查了 21 個小時,最後發現是國產晶片的互聯協議和傳統 MoE 架構不相容。” 李哲笑著說,他們臨時修改了路由演算法 —— 把原本的 “靜態專家分配” 改成 “動態負載平衡”,讓 256 個計算節點像 “快遞分揀站” 一樣,即時把任務分給空閒的晶片。7 月 18 日凌晨 2 點 17 分,螢幕上的進度條終於走到了 100%:600 塊思元 590 晶片,不僅完成了千億參數訓練,訓練時長還比 H100 方案縮短了 18 小時,電費成本節省 62 萬元。“我當時激動得打翻了桌上的冰咖啡,咖啡灑在鍵盤上,我都沒顧上擦。” 李哲展示著當時的監控截圖,上面清晰記錄著:模型困惑度(PPL)低至 2.87,與 H100 方案的 2.85 幾乎持平。這種 “演算法補硬體” 的思路,正在被更多企業複製。字節跳動雲服務負責人在接受第一財經採訪時透露,他們已用 DeepSeek 的 MoE 架構,在華為昇騰 910B 晶片上部署了短影片推薦模型,“單條推薦鏈路的成本從 1.2 元降至 0.38 元,使用者停留時長還提升了 9%”。中科院計算所研究員王海濤更直言:“DeepSeek 證明了,國產算力不用跟在別人後面比製程,用架構創新就能‘換道超車’。”三、從深圳工廠到特斯拉座艙:國產算力的 “生態閉環” 有多香?“過去我們的電池極片質檢,靠 12 個工人盯著顯微鏡,每天累得腰都直不起來,漏檢率還高達 1.2%。” 深圳某新能源汽車電池廠負責人王建國,站在自動化車間裡,指著眼前的 AI 質檢裝置感慨。現在,這裡的核心裝置換成了搭載 DeepSeek-V3.1 模型的國產伺服器,伺服器裡裝的是寒武紀思元 370 晶片 —— 一塊極片從檢測到判定,只需 2 秒,漏檢率驟降至 0.05%。王建國給記者算了一筆帳:這套國產方案投入 280 萬元,比進口方案便宜 430 萬元,每年還能節省人工成本 192 萬元,“不到 18 個月就能回本”。更讓他安心的是,“以前進口晶片出了問題,海外工程師要等 2 周才來修;現在 DeepSeek 和寒武紀的工程師,24 小時內就能到現場,春節期間都能遠端支援”。這種 “模型 + 晶片 + 服務” 的閉環,正在向更多領域滲透。8 月 22 日,特斯拉中國官方宣佈,新款 Model Y L 的智能座艙將同時接入 DeepSeek-V3.1 和豆包大模型,“搭載的是華為昇騰 610 晶片,語音喚醒響應速度比之前快 0.8 秒,方言識別精準率提升至 95%”。這是國產 AI 技術首次進入國際高端汽車供應鏈,特斯拉工程師在溝通會上坦言:“國產方案的適配效率超出預期,成本還比原方案低 27%。”IDC 最新預測資料顯示,2025 年全球新一代 AI 晶片市場規模將達 1520 億美元,其中中國廠商的份額將從 2023 年的 12% 躍升至 35%,“DeepSeek 帶動的‘軟硬協同’生態,是增長的核心驅動力”。而在政策端,“十四五” 數字經濟發展規劃明確提出,2025 年國產高端 AI 晶片自給率需達到 50%,目前相關部門已在張江、臨港等地佈局 6 個國產 AI 算力叢集,總投資超 800 億元。四、十年磨一劍:從 “被拒之門外” 到 “打開未來之門”“十年前我去矽谷考察,想參觀某晶片巨頭的生產線,對方說‘中國人不能進’。” 站在上海臨港晶片產業園的觀景台上,行業分析師陳銘博士手裡攥著一塊國產 28nm AI 晶片,眼眶有些濕潤。遠處,3 棟晶圓廠房已完成封頂,1 號廠房裡的國產 DUV 光刻機正在偵錯,“預計 2025 年 Q1 試生產,投產後每月能產 2 萬片 28nm AI 晶片,夠裝 5000 台國產伺服器”。陳銘見證了國產 AI 算力的 “爬坡路”:2015 年,國產晶片的算力還不到國際主流水平的 1/10;2020 年,華為昇騰 910 問世,第一次追上國際二線水平;2024 年,DeepSeek 的適配方案讓國產晶片在能效比上逼近頂尖 ——“這不是一蹴而就的,是華為、寒武紀、DeepSeek 這些企業,在 EDA 軟體、指令集、演算法適配等環節,一個個‘啃硬骨頭’啃出來的。”就在上周,陳銘參加了一場行業閉門會,某國際晶片巨頭的中國區負責人私下問他:“你們的 FP8 技術能不能授權給我們?” 這在十年前是不可想像的。“現在輪到他們來求我們了。” 陳銘笑著說,“但我們更清楚,這只是開始 —— 下一步,我們要在 3nm 製程、RISC-V 指令集上突破,真正掌握算力的‘根技術’。”當國產算力的燈照亮更多角落深夜的張江研發中心,張啟明博士還在和團隊討論下一代模型的適配方案,窗外的上海夜景裡,臨港產業園的燈光與這裡遙相呼應。那燈光裡,有工程師 48 小時不闔眼的堅守,有工廠裡效率提升的歡呼,也有中國 AI 從 “跟跑” 到 “並跑” 的底氣。算力戰爭沒有終點,但這一次,中國終於拿到了改寫規則的 “入場券”。當 DeepSeek 的模型在國產晶片上流暢運行,當特斯拉的座艙裡響起中文語音,當深圳工廠的工人不用再盯著顯微鏡 —— 我們看到的,不僅是一項技術的突破,更是一個國家科技自立的決心。 (碳基智能-Mind Mirror)