前天我寫了一篇文章介紹了微軟CEO最新採訪,由於資料中心缺電,導致微軟買的老黃的GPU插不上電,這已經不是一家公司的問題,而是未來全球性問題,這也導致了當前整個AI投資邏輯發生了巨大變化,感興趣的看我的文章:現在整個AI投資邏輯都錯了!微軟CEO首次承認:成排的H100正在積灰,插不上電。結論就是能源已經成為了一個核心問題結果今天Google反手就發了一項前瞻性研究計畫Project Suncatcher(太陽捕手計畫),旨在探索建構一個基於太空、可高度擴展的AI計算叢集,你可以把它理解為"AI版星鏈"Google這次把眼光放在整個太陽繫了,隨著 AI 對計算能力和能源需求的爆炸式增長,地球資源將面臨巨大壓力,而太陽系中最豐富、最強大的能源——太陽能,在太空中可以被更高效地利用簡單來說Project Suncatcher項目的設想是通過部署由太陽能供電、搭載 Google TPU 並由自由空間光通訊連接的衛星星座,在近地軌道上建構一個“太空資料中心”。初步研究表明,儘管存在巨大的工程挑戰,但從基礎物理學和未來經濟可行性的角度來看,這一構想並非遙不可及馬斯克已經給劈柴哥留言了,表示想法很好,劈柴哥說這完全得益於SpaceX在發射技術方面的巨大進步,看來馬斯克又要坐著數錢了Google今天已經發表了預印本論文《 面向未來高度可擴展的天基人工智慧基礎設施系統設計 》,揭秘了一些早期研究成果paper:https://services.google.com/fh/files/misc/suncatcher_paper.pdf以下是論文的詳細解讀為什麼要在太空中進行 AI 計算?LLM快速發展正在面臨前所未有的挑戰:對計算能力和能源的巨大需求儘管演算法效率在不斷提升,例如,Google Gemini 的單次查詢能耗在一年內降低了 33 倍,但 AI 產品和服務的增長速度更快,導致全球資料中心的能源需求急劇攀升。為了滿足這種增長,必須尋找更具可擴展性和可持續性的能源解決方案Project Suncatcher 的出發點正是基於這一根本性問題,並將目光投向了我們太陽系中最宏偉的能量源:太陽太陽的巨大潛力:太陽每秒釋放的能量高達 3.86 × 10²⁶ 瓦,是人類總發電量的 100 兆倍以上,幾乎取之不盡太空的獨特優勢:在太空中利用太陽能,相比於地球表面具有顯著優勢。在特定的軌道上,太陽能電池板幾乎可以 24 小時不間斷地接收光照,擺脫了晝夜循環和天氣的影響。這使得其發電效率比地球上中緯度地區的太陽能電池板高出最多 8 倍,同時也大大降低了對重型儲能電池的依賴傳統的太空太陽能構想通常聚焦於如何將產生的電力傳輸回地球,但這面臨著巨大的技術挑戰。Project Suncatcher 提出了一個新的思路:與其將能源傳回地球,不如直接將資料中心(即計算任務)部署到太空。這個太空資料中心將由大量通過自由空間光鏈路高速互聯的太陽能衛星組成。這種方法不僅有望實現前所未有的計算規模,還能最大限度地減少對地球土地、水等寶貴資源的影響這個項目是 Google 繼自動駕駛汽車(Waymo)和大規模量子電腦之後,又一次挑戰科學和工程極限的“登月計畫”Suncatcher 系統設計:建構軌道上的 AI 叢集為了實現這一願景,Project Suncatcher 提出了一個由模組化、小型化衛星組成的星座系統設計。這種設計放棄了建造單一、巨大的“巨石型”空間資料中心的想法,因為後者需要複雜的在軌組裝,且在避障和結構上都面臨更大困難。模組化設計則為逐步擴展和迭代提供了極大的靈活性系統的核心設計要素包括:軌道選擇:計畫將衛星星座部署在晨昏-太陽同步近地軌道(dawn–dusk sun-synchronous low earth orbit, LEO)。這個軌道的特點是衛星始終飛行在地球的晨昏線上方,這意味著它們幾乎可以持續不斷地被太陽照射。這不僅最大化了太陽能的收集效率,也進一步減少了對電池的需求,從而降低了衛星的質量和發射成本。同時,近地軌道也能有效降低與地面站通訊的延遲計算核心:每顆衛星都將攜帶 Google 的 TPU 加速器晶片。具體來說,初步測試使用的是 Trillium,即 Google 的 v6e Cloud TPU。這些晶片將負責執行大規模的機器學習(ML)工作負載高速互聯:為了讓分散在多顆衛星上的 TPU 協同工作,如同在地面資料中心一樣,必須建立超高頻寬、超低延遲的連接。這通過自由空間光通訊(FSO)技術實現。為了達到所需的通訊性能,衛星之間將以非常近的距離(數百米到數公里)進行編隊飛行編隊控制:維持如此緊密的衛星編隊是一項巨大的挑戰。系統將採用基於機器學習的飛行控制模型,精確控制每顆衛星的軌道,確保它們在保持緊密距離的同時能夠避免碰撞熱量管理:在真空中,高功率的 TPU 晶片產生的熱量無法通過對流散發,必須通過熱管和散熱器以熱輻射的形式排向太空。高效的熱管理系統對於保證晶片在標稱溫度下穩定運行至關重要這一系列設計旨在最大化每公斤發射質量所能提供的計算能力,從而在經濟上更具可行性。該研究計畫的首要任務,就是逐一攻克實現這一系統所面臨的四大核心技術挑戰挑戰一:實現資料中心級的星間光通訊大規模機器學習任務,特別是模型訓練,要求計算叢集中的各個加速器之間能夠進行海量資料的快速交換。地面上的 Google TPU 超級電腦通過定製的、每秒數G的光學晶片間互連來滿足這一需求。然而,目前商業化的星間光鏈路的資料速率通常在 1 到 100 G之間,遠不能滿足要求。Project Suncatcher 的目標是實現每秒數十TB的星間鏈路頻寬,這是一個數量級的飛躍解決方案:短距離 + 多通道Google研究團隊發現,可以採用類似於地面資料中心中成熟的商用密集波分復用(Dense Wavelength Division Multiplexing, DWDM)收發器技術。但這種技術有一個關鍵瓶頸:它需要非常高的接收光功率,通常在數百微瓦的量級,而傳統長距離星間通訊的接收功率僅為 1 微瓦左右物理學原理提供瞭解決方案:在自由空間中,接收到的光功率與通訊距離的平方成反比(P ∝ 1/d²)。這意味著,只要將衛星之間的距離急劇縮短,就可以顯著提高接收功率,從而滿足 DWDM 收發器的工作條件,即“閉合鏈路預算”。通過將衛星編隊距離縮短至幾公里甚至更近,就能克服這一功率挑戰進一步擴展:空間復用(Spatial Multiplexing)當通訊距離變得非常短時(例如,對於一個 10 釐米的望遠鏡,距離在 10 公里以內),光束的發散角很小,光斑尺寸也相應變小。這為空間復用帶來了新的機遇研究團隊可以在一個總孔徑內整合多個獨立的光學收發系統陣列。例如,在一個 10 釐米的總孔徑中,可以整合一個 2x2 的 5 釐米光學系統陣列(適用於 2.5 公里距離),或一個 4x4 的 2.5 釐米光學系統陣列(適用於 0.63 公里距離)。每個子系統都承載一個獨立的 DWDM 資料流,從而使總頻寬成倍增加。這種擴展方式類似於 Google 在地面上使用的 Palomar 光學電路交換機初步驗證為了驗證這一概念,Google團隊已經搭建了一個實驗室規模的演示系統。該系統使用現成的商用元件,在一小段自由空間路徑上成功實現了單向 800G,雙向總計 1.6 Tb的傳輸速率,有力地證明了該技術路線的潛力挑戰二:駕馭大規模緊密衛星編隊的軌道動力學為了實現超高頻寬的星間通訊,Suncatcher 的衛星星座需要以前所未有的緊密隊形飛行。Google研究團隊通過數值和解析物理模型,深入分析了這種星座的軌道動力學特性。建模與模擬團隊以一個由 81 顆衛星組成的平面星座作為示例進行分析。該星座的平均軌道高度為 650 公里,整個叢集的半徑 R 為 1 公里。在這種配置下,相鄰衛星之間的距離會在 100 米到 200 米之間周期性地振盪建模的起點是經典的 Hill-Clohessy-Wiltshire (HCW) 方程,它描述了在理想開普勒軌道下,一顆衛星相對於另一顆衛星的相對運動。隨後,團隊使用了一個基於 JAX(一種可微分程式設計框架)的模型進行數值最佳化,該模型能夠計入更複雜的擾動因素在 650 公里的軌道高度,影響衛星軌道最主要的非開普勒效應是地球引力場的非球形性(特別是由於地球扁率引起的 J2 項擾動)以及潛在的大氣阻力“自由落體”星座的動態演化模擬結果顯示,這個星座並非一個剛性結構,而是在引力作用下持續演化的“自由落體”叢集。在沒有推力干預的情況下,整個星座的形狀會在一個軌道周期內完成兩次完整的變形循環,其邊界始終被一個旋轉的橢球所包裹有趣的是,這種動態演化在很大程度上是穩定且可預測的。即使考慮了地球扁率(J2 項)的影響,這種可預測的漂移也可以通過對星座初始形狀進行微小的調整來補償。例如,將橢球的軸長比微調至 2:1.0037,就可以將 J2 項引起的漂移降低到每年每公里僅 3 米/秒的水平結論:低成本的軌道維持這些模型分析表明,維持這樣一個緊密編隊可能只需要適度的軌道維持機動,其燃料消耗可能不會顯著超過維持單顆衛星精確軌道所需。這意味著,控制這樣一個龐大而緊密的星座在技術上是可行的,且營運成本可控挑戰三:商用 TPU 在太空輻射環境下的生存能力將為地面資料中心設計的尖端商用晶片直接用於太空,最大的疑問在於它們能否承受太空中的輻射環境。Project Suncatcher 團隊對 Google 的 Trillium v6e Cloud TPU進行了首次公開的輻射測試測試環境:團隊使用67MeV(兆電子伏)的質子束來模擬太陽同步近地軌道上的輻射環境。在這個軌道上,主要的輻射源是穿透性強的質子和銀河宇宙射線測試模擬了帶有 10 毫米鋁等效遮蔽下的情況,預計 5 年任務期內的總輻射劑量約為 750 rad(Si)。輻射效應與測試結果:1.總電離劑量(Total Ionizing Dose, TID):這是輻射粒子在晶片絕緣層中累積電荷造成的長期退化效應測試發現,TPU 中最敏感的部件是HBM子系統HBM 在累積劑量達到 2 krad(Si)時才開始出現異常,這幾乎是 5 年任務預期劑量的 3 倍在高達 15 krad(Si) 的測試劑量下,晶片沒有出現因 TID 導致的永久性硬故障。結論是,Trillium TPU 對於太空應用而言具有“驚人的輻射耐受性”。2.單粒子效應:這是單個高能粒子撞擊晶片,瞬間引起的邏輯錯誤或資料翻轉HBM 同樣是 SEE 最敏感的部分,主要表現為不可糾正的 ECC(錯誤糾正碼)錯誤(UECCs)對於典型的推理任務,觀測到的 HBM UECC 發生率約為每 50 rad 一次,換算下來,錯誤機率極低,大約為每一千萬次推理髮生一次。這個錯誤率對於推理應用是完全可以接受的然而,SEE 對模型訓練任務的影響,以及系統級緩解措施的有效性,還需要進一步研究測試還發現,宿主系統的 CPU 和 RAM 分別在每 450 rad(Si) 和 400 rad(Si) 時會發生一次由 SEE 引起的系統崩潰這些積極的測試結果表明,使用商用現成品(Commercial-Off-The-Shelf, COTS)的 ML 加速器在太空中是可行的,這為項目的經濟性奠定了重要基礎。挑戰四:太空 AI 的經濟可行性與發射成本分析歷史上,高昂的發射成本是所有大規模太空項目的最大障礙。Project Suncatcher 的可行性在很大程度上取決於未來發射成本能否顯著降低。關鍵成本目標:研究團隊將太空資料中心的“發射功率價格”,即每發射一單位功率(kW)到軌道並分攤到年($/kW/y)的成本,與地面資料中心的年均電力成本進行比較目前美國地面資料中心的年電力成本大約在570 至 3,000 美元/kW/y之間發射成本的下降趨勢:分析 SpaceX 從獵鷹 1 號到重型獵鷹的歷史發射價格和載荷資料,揭示了一個大約 20% 的學習率,即累計發射質量每翻一番,每公斤發射價格就下降約 20%。如果這一學習率得以維持(這將需要每年約 180 次 Starship 等級的發射),那麼到2030 年代中期,將有效載荷送入近地軌道的成本有望降至每公斤 200 美元以下另一種基於 Starship 公開規格和復用目標的分析甚至更為樂觀,預測成本可能低至每公斤 60 美元(10 次復用)甚至 15 美元(100 次復用)成本對比結論:以 Starlink v2 mini 衛星為例,如果發射成本降至 200 美元/公斤,其“發射功率價格”將約為 810 美元/kW/y這個數字已經進入了地面資料中心電力成本的範圍,表明從經濟角度看,太空資料中心的營運成本(以發射成本為主要代表)可以與地面相當。即使發射成本的下降速度不及預期,例如降至 300 美元/公斤,相應的發射功率價格約為 1,200 美元/kW/y,仍然在可比範圍內因此,隨著可重複使用運載火箭技術的成熟和規模化,發射成本將不再是不可踰越的障礙未來的方向與下一步計畫Project Suncatcher 的初步分析結果還不錯,證明了太空 AI 計算的核心概念並未被基礎物理學或無法克服的經濟障礙所否定。然而,要將這一願景變為現實,仍有大量的工程挑戰需要解決,例如高效的真空熱管理、高頻寬的星地通訊、以及在軌系統的長期可靠性與維護等。為了應對這些挑戰,團隊規劃了清晰的下一步:學習與驗證任務:團隊已與Planet公司合作,計畫在2027 年初發射兩顆原型衛星。這次在軌實驗將是關鍵的里程碑,旨在:在真實的太空環境中測試和驗證軌道動力學模型。檢驗 TPU 硬體在太空中的實際運行表現。驗證使用星間光鏈路執行分佈式機器學習任務的可行性未來的整合化設計:未來,當星座規模達到吉瓦等級時,可能需要採用更激進的衛星設計理念團隊借鑑了智慧型手機行業從分立元件走向高度整合的片上系統的發展路徑,設想未來的計算衛星也可能採用一種高度一體化的設計,將太陽能收集、計算單元和熱管理系統緊密地結合在一起,從而實現質量和效率的最佳化 (AI寒武紀)