#H100晶片
輝達H100太空首秀,AI模型首次在軌完成訓練與推理
近日,由輝達支援的初創公司Starcloud 正式宣佈,其發射的Starcloud-1 衛星已在地球低軌道上成功運行輝達H100 GPU,並完成了人工智慧模型的訓練和推理任務。這是人類首次在太空軌道上完成此類任務。Starcloud 的這項突破直接回應了AI 與算力基礎設施快速擴張所帶來的能源、冷卻與資源壓力問題。當AI 模型規模不斷擴大、資料中心對電力與水資源的需求急劇上升之時,建構能夠長期穩定運行且能源自給的軌道計算平台成為行業關注的前沿方向。據悉,這顆重約60公斤、大小相當於一台小型冰箱的衛星於2025 年11 月搭載SpaceX “獵鷹9 號”火箭發射升空,隨衛星一同進入軌道的是一塊經過定製的輝達H100 GPU。根據公開資料,這塊在軌裝置的算力是此前任何進入太空的圖形處理單元的100 倍,為AI 訓練與推理提供了硬體基礎。在入軌後的數周內,團隊並未急於進行高強度測試,而是先確保衛星的姿態控制和熱管理系統穩定。在軌調試階段,Starcloud 工程團隊將兩項不同性質的任務交付給這塊GPU 完成。一是利用莎士比亞全集從頭訓練NanoGPT 模型。NanoGPT 是前OpenAI 研究人員Andrej Karpathy 開發的輕量級大語言模型。 Starcloud 將莎士比亞全集作為訓練資料集上傳至衛星,最終成功訓練出了一個能模仿伊麗莎白時代戲劇風格生成文字的AI 模型。需要指出的是,NanoGPT 本身並非大規模商業模型,其參數規模與當前主流大模型仍有顯著差距。但業內普遍認為,這次實驗的關鍵並不在於模型大小,而在於完整驗證了從前向計算、反向傳播到參數更新的訓練閉環,能夠在軌道環境中穩定運行。二是在衛星內部運行Google DeepMind 的開源大型語言模型Gemma,並在軌道環境下進行推理任務。在部署Gemma 模型後,衛星還向地球發來消息:“地球人,你們好!或者我更願稱你們為一群迷人的藍綠集合體,讓我們一起來探索隱藏在宇宙中的奇蹟。”(資料來源:社群媒體X)在軌完成模型訓練與推理本身即為技術複雜度極高的工程。太空環境溫度極端、輻射強烈且通訊延遲是開展此類任務的主要挑戰。 Starcloud 工程團隊表示,他們在硬體輻射防護、電源管理與散熱設計方面做了大量優化,使得H100 GPU 能穩定運行傳統意義上屬於地面資料中心工作負載的任務。Starcloud-1 的任務還整合了衛星本身的狀態數據,這意味著運行在軌的AI 模型能即時讀取高度、速度、方向等遙測資訊,為推理任務提供即時輸入。例如,系統能夠回答查詢衛星當前位置的問題,並返回諸如「我正在非洲上空,並將在20 分鐘後飛越中東」的情況說明。Starcloud 的發展策略遠不止於單顆實驗衛星。該公司計劃建造一個規模達5 吉瓦(GW)的軌道數據中心,該設施預計配備寬高約4 公里的太陽能發電板與散熱元件,利用太陽能全天候無間斷供電,以滿足未來大規模AI 訓練和推理的能源需求。根據Starcloud 白皮書介紹,這樣一個軌道資料中心產生的能源將比美國最大的單一發電廠還高出數倍,同時能源成本預計可降至現有地面資料中心的十分之一。Starcloud 的願景是盡可能將傳統地面資料中心所能執行的所有任務遷移到太空,包括高效能運算、AI 模型訓練、即時資料處理與全球監測服務等,這將徹底改變現有的算力基礎設施格局。執行長Philip Johnston 曾公開表示:“任何你能在地面數據中心做的事情,未來都應該能在太空完成。”圖| 軌道資料中心網路架構(資料來源:Starcloud 白皮書)Starcloud 費盡周折將資料中心搬上天的背後,是地面AI 產業正面臨的一場嚴峻的能源危機。國際能源署(IEA)發布的報告中預測,到2030 年,全球資料中心年用電量將接近945 太瓦時(TWh),相當於日本一整年的用電規模,其中AI 被明確列為最主要的成長驅動力之一。IEA 同時指出,在美國,資料中心可能貢獻未來數年近一半的新增電力需求,其成長速度已明顯快於電網擴容和新能源並網的節奏。圖| 2024 年資料中心及裝置類型電力消耗份額(來源:IEA)能源之外,冷卻與水資源正成為另一道隱性瓶頸。以微軟為例,其揭露的資料顯示,2022 年公司用水量達到640 萬立方米,年增34%,主要用於資料中心冷卻;多家研究機構指出,生成式AI 工作負載是水耗快速上升的重要原因之一。當電力、冷卻和水資源同時成為限制因素,繼續在地面無限擴張資料中心已不再是純技術問題。在這一現實壓力下,Starcloud 將目光投向軌道空間,其「軌道資料中心」的設想,也由最初的激進嘗試,逐漸演變為繞開地面能源瓶頸的一條現實路徑。Starcloud 在白皮書中給出的論點直指地面AI 基礎設施的根本瓶頸:能源與冷卻的不可持續性。該公司指出,地面資料中心擴張正受到電力、冷卻和水資源的多重約束,而這些問題在AI 算力快速增長背景下進一步放大。相較之下,軌道空間在能源與散熱條件上具備結構性優勢。白皮書測算顯示,太空太陽能陣列的發電容量係數可超過 95%,單位面積發電量約為地面系統的 5 倍,長期能源成本可低至0.002 美元/kWh。同時,熱量可透過輻射直接向深空釋放,每平方公尺輻射板約可散熱 770 瓦,從而避免地面資料中心對高能耗製冷和大量用水的依賴。在這一對比下,Starcloud 認為將部分算力遷移至軌道空間,具備長期成本和資源上的現實吸引力。不過,軌道資料中心的商業化和規模化部署並非無風險。太空輻射、在軌維護困難、太空碎片風險及國際空間監管等問題仍是限制因素。行業分析師指出,這些挑戰需要係統工程解決方案和國際層面的政策協同。Starcloud 的下一階段計劃,包括在2026 年10 月發射更多搭載H100 及Blackwell 的衛星,並引入雲基礎設施公司Crusoe 的模組,以支援商業用戶直接從太空部署與運行AI 工作負載。值得注意的是,Google、SpaceX 及Blue Origin 等公司都已在探索太空算力和軌道資料中心的可能性。 Google公開宣佈將自研的TPU 送入太空試驗項目,預計在2027 年進行早期測試,併計劃在未來十年實現更廣泛應用;SpaceX 也被認為可能將其星鏈衛星與軌道計算基礎設施結合,以構建一個全球覆蓋的在軌算力網絡。多位業內人士指出,這類嘗試之所以在當下成為可能,與多項技術條件的同步成熟密切相關。一方面,可重複使用火箭顯著降低了單次發射成本,使在軌算力試驗具備試錯空間;另一方面,單顆AI 晶片的算力密度在近兩年實現躍升,使得一顆中小型衛星首次具備承載有意義計算任務的能力。在算力、發射成本與地面能源約束同時逼近臨界點的背景下,軌道資料中心迎來了現實試驗窗口。 (問芯)