#AI行業
90%的AI中間商會消失:Google封號只是第一槍
AI的“免費紅利期”結束了,未來18個月,靠“API倒賣”的公司,會成片消失。這個導火線就是最近Google的一輪封號導致的,隨著封號風波的結束,這也標誌著AI行業【收租時代】來了。2月封號潮:高付費使用者被一鍋端一周前,Google開始大規模封號,付著250美金月費的人,帳號說沒就沒,Gmail、YouTube、Workspace,一鍋端。事情的起因是,Google的一個產品叫:Antigravity,一個AI程式設計平台。號稱能讓程式碼自己飛起來,只要只要給錢(250美刀),模型隨便用。結果很多開發者發現Google這個套餐太香了,他們用OpenClaw做橋接,把Google的大模型能力匯出來,然後給自己公司跑自動化任務。這種薅羊毛行為讓Google的算力不抗重負。Google最開始只是為“拉新”,結果拉來了一堆薅羊毛的,最狠的是,OpenClaw的創始人上周剛被OpenAI挖走。Google 一看:“好好傢伙,你在我的地盤薅羊毛就算了,還把創始人都給撬走了”,於是直接大規模封號。(圖為OpenClaw的創始人Peter Steinberger)問題出在“定價模式”過去兩年,大模型平台普遍採用兩種策略:(1)高階訂閱制,(2)API按量計費,本質是“流量拉新使用者”。假設一個使用者一天問 10 次。一個月 300 次。那麼一個月200~300 美金是可控的。但Agent出現之後,一切變了。一個自動化指令碼一天跑 1000 次呼叫,是常態。企業內部接入後,可能 5000 次。我們算一筆極保守的帳:1000次/天、30天 = 3萬次、多模型協作時翻倍,而月費價格仍然封頂。這意味著什麼?意味著:如果有1萬個這樣的使用者,Google一個月就要虧掉幾千萬美金。所以,必須清場。那怕誤傷,也要殺雞儆猴。海外收緊,國內巨頭開始搶人Google 剛把開發者趕出門了,國內廠商動作明顯加快。阿里:直接在GitHub開源CoPaw,特意標註“全中文”、“個人免費”、“適配釘釘”。網易:LobsterAI(有道龍蝦)迅速跟進,死磕教育和辦公場景。字節/智譜:表面低調,實則秘密測試外掛,準備承接流量。當外部收緊,開發者會尋找替代方案。誰此時開放入口,誰就能承接流量。國內的巨頭也看清了,算力戰爭的核心不是模型,而是開發者。誰控制開發者,誰控制未來呼叫量。免費開源 = 流量入口。真正危險的不是平台,是“中間商”未來18個月,大部分靠“模型中轉”、“介面封裝”活著的AI公司,會被成片地擠死。(1)2026年,拼參數已經沒意義了,拼的是誰能讓Agent跑得更順。(2)當阿里、Google親自下場做免費框架,那些倒賣API的“二手販子”就沒啥利潤了。以後只有兩種人能活下去:一種是手裡握著伺服器資源的元廠商、另一種是深耕垂直行業的干髒活累活的應用商。2026年以後,不存在“中立玩家”時代真的變了。以前是“草莽英雄”時代,有人靠漏洞發財。有人靠資訊差賺錢。但現在,正規軍開始收租了。算力是地皮、Agent是商舖、開發者是租客。2026年以後,不會再有“中立工具”。你要麼站在阿里雲 這樣的基礎設施一側,要麼站在OpenAI 這樣的全球生態一側。。中間地帶,會越來越窄。這次封號,不是意外,是訊號。是行業第一次明確告訴你:AI進入收租時代,歡迎來到2026。 (盧鬆鬆)
突發!美國防部將Claude母公司列入國家安全威脅黑名單,AI行業地震
當地時間2月27日,美國國防部宣佈將人工智慧公司Anthropic(Claude母公司)列入“國家安全威脅”黑名單,要求所有聯邦機構立即停止使用其技術,並禁止任何與軍方有業務往來的公司與Anthropic開展合作。這一史無前例的舉措標誌著美國政府對AI行業的監管力度顯著升級,也在全球AI領域引發了廣泛討論。根據五角大樓周五發佈的聲明,這項針對Anthropic的制裁措施是川普政府最新國家安全戰略的一部分。命令要求所有聯邦機構立即停止使用Anthropic開發的任何技術產品,包括其旗艦AI助手Claude。更具衝擊力的是,禁令還明確禁止任何與美軍方有合同關係的公司使用Anthropic的服務,這意味著大量國防承包商和技術供應商將被迫在政府業務與Anthropic之間做出選擇。“這一決定是基於可靠的情報評估和我們對國家安全風險的審慎考量,”五角大樓發言人在聲明中表示,“我們不能允許任何可能威脅國家安全的外國或本土技術滲透進我們的關鍵系統。”此次制裁的覆蓋範圍之廣、執行速度之快,在美國科技監管歷史上極為罕見。有分析指出,這意味著Anthropic將同時失去聯邦政府採購市場和與其有業務關聯的整個防務產業鏈。(Anthropic首席執行長Dario Amodei,圖源網路)Anthropic成立於2021年,由OpenAI前研究人員創立,是當前最炙手可熱的AI初創公司之一。其開發的Claude AI助手憑藉出色的推理能力和安全特性,在企業和消費者市場都獲得了廣泛認可。就在去年,Anthropic還獲得了來自亞馬遜和Google的數十億美元投資,估值一度超過600億美元。面對突如其來的禁令,Anthropic迅速做出回應。公司發言人發表聲明稱對這一決定“深感困惑和失望”,並強調其一直致力於開發安全、負責任的AI系統。“我們始終將AI安全放在首位,與全球監管機構保持密切合作,”聲明寫道,“Anthropic的技術沒有任何國家安全風險,我們從未收到過來自政府的任何具體指控或溝通。我們願意配合任何形式的安全審查,以澄清這一誤解。”另一邊,馬斯克在社交媒體上公開嘲諷Anthropic“賊喊捉賊”。2025年9月,Anthropic因大規模從LibGen、PiLiMi等盜版網站非法下載超700萬本受版權保護的圖書,並使用這些盜版書籍訓練AI模型,被迫向以作家安德里亞・巴茨為首的全球作家集體支付了15億美元和解金。馬斯克直言:“Anthropic大規模竊取訓練資料,並為此支付了數十億美元的賠償金。這是不爭的事實。”(圖源:馬斯克X首頁)有知情人士透露,Anthropic的管理層在此之前並未收到任何警告或溝通機會,制裁決定的執行幾乎是“閃電式”的,這讓公司上下都措手不及。這一事件迅速在學術界和產業界引發激烈討論。支持者認為,在AI技術飛速發展的當下,政府對關鍵技術實施嚴格管控是完全必要的。“AI系統的能力已經接近甚至超越人類在特定領域的表現,任何一個掌握先進AI的國家或組織都可能對國家安全構成潛在威脅,”喬治城大學安全與新興技術研究中心主任表示,“政府有責任建立預防性機制。”然而,批評聲音同樣強烈。許多科技行業人士擔心,這種一刀切的做法不僅會損害美國在AI領域的全球競爭力,還可能開創一個危險的先例。“將一家本土AI公司列入黑名單,這在全球範圍內都是罕見的,”前Google政策顧問表示,“這不僅會影響Anthropic的數千名員工和眾多依賴其技術的中小企業,還可能向全球傳遞一個訊號,美國的科技政策正在走向封閉和保守。”對於廣大海外留學生和華人科技從業者而言,這一消息同樣值得關注。首先,如果你在美國高校或研究機構從事AI相關研究,可能會直接受到影響。許多學術項目都依賴Anthropic的技術進行開發實驗,禁令出台後,這些項目的進度可能被迫調整。其次,從就業市場角度,Anthropic一直是留學生求職的熱門目標。作為增長最快的AI公司之一,它每年都會吸納大量國際人才。制裁生效後,公司業務的擴展前景蒙上陰影,這可能影響到未來的招聘規模和崗位穩定性。此外,這一事件也引發了關於AI技術地緣政治化的更深層思考。近年來,中美科技競爭日趨激烈,AI作為戰略高地成為雙方博弈的焦點。有分析認為,此次對Anthropic的制裁雖然名義上是出於國家安全考量,但實際上可能與AI行業的激烈競爭有關。截至目前,Anthropic已表示將尋求法律途徑挑戰這一決定,但短期內,公司面臨的困境恐難以解除。有消息人士稱,白宮正在考慮對更多AI公司實施類似限制,這引發了整個科技行業的擔憂。 (留學生日報)
AI行業拐點已至?推理算力成新風口
當OpenAI官宣下調千億級算力投資預算,市場一度嘩然:AI產業要踩剎車了?答案恰恰相反——這場看似的“收縮”,實則是行業從瘋狂燒錢的算力軍備競賽,邁入回歸商業本質、聚焦盈利的新階段。而隨著AI應用加速落地,算力需求的結構重構正在上演,推理算力成為新的增長風口,國產AI晶片更是借此迎來了前所未有的發展機遇。OpenAI的“預算下調”,實則是理性的戰略聚焦。此前其提出的2030年前1.4兆美元基建投入,是涵蓋晶片、電力、資料中心等的全產業鏈廣義規劃;而此次調整為6000億美元純算力專項支出,精準聚焦晶片採購與租賃,更與2030年2800億美元的營收目標相契合。這並非算力投入的降溫,而是從“盲目擴張”轉向“投入產出匹配”,就連高盛等機構也直言,這一調整讓訂單確定性更強,更利於行業長期發展。與此同時,全球算力產業鏈的高景氣度並未消退。Meta與輝達達成數十億美元晶片採購協議,大手筆拿下數百萬片最新AI加速晶片,還首次引入輝達CPU部署大模型;OpenAI仍在推進超千億美元融資,90%資金來自輝達、軟銀等頭部戰略投資者。北美雲廠與AI企業的資本開支援續增長,印證了算力需求的底層邏輯依舊堅挺,只是行業發展的重心,正悄然發生轉移。行業的核心變化,在於從“重訓練”到“訓練+推理並重”,推理算力成為新的增長引擎。如果說訓練算力是為大模型“打地基”,需要極致高端的算力支撐,那麼推理算力就是大模型落地應用的“毛細血管”,支撐著每一次使用者互動、每一個場景呼叫。隨著AI應用商業化拐點臨近,推理算力的需求爆發式增長,其市場規模更是被業內看好:2030年全球AI訓練算力市場規模約1兆美元,而推理算力市場將達到4-5兆美元,增速和規模均遠超訓練算力。更關鍵的是,推理算力的需求特性,為國產晶片打開了全新的發展空間。與訓練算力對高端GPU的高度依賴不同,推理算力更講究性價比,注重成本、效率與系統能力的平衡,定製化AI晶片成為破局關鍵。這恰恰是國產晶片的優勢所在——借助ASIC、全端最佳化等技術,國產晶片能在推理賽道建立獨特的競爭壁壘。市場的反饋已經給出答案:國內AI ASIC龍頭芯原股份2025年末在手訂單達50.75億元,較三季度大增54.45%,連續九個季度高位運行;寒武紀、摩爾線程等國產晶片企業紛紛登陸資本市場,壁仞科技、燧原科技加速IPO處理程序,百度崑崙芯也計畫分拆上市;海光資訊憑藉“DCU+CPU”晶片組合,與中科曙光形成產業鏈協同優勢,成為推理算力賽道的重要玩家。就連海外初創公司Taalas的ASIC晶片也印證了這一趨勢,其專為輕量級大模型最佳化的產品,能效較傳統GPU提升50倍,成本僅為1/20,讓定製化晶片的價值愈發凸顯。AI應用的商業化落地,更是為推理算力需求添上了一把火。這個春節,千問“一句話下單”近2億次,日活使用者達7352萬,僅用3個月就追上豆包3年的使用者規模;“AI+醫療”“AI+行銷”“AI+企服”等細分賽道加速落地,利歐集團等企業已打造專屬AI智能體矩陣,推動AI與主業深度融合。當大模型從“實驗室”走向“生活場”,從單一超大模型向“多模型+專用模型+MoE”演進,對推理算力的需求將滲透到千行百業,成為行業增長的核心驅動力。這場行業變革中,真正的機遇早已不再是單純的算力堆砌,而是能匹配商業需求、兼具性價比與實用性的算力解決方案。而推理算力的風口,不僅重構了算力產業鏈的競爭格局,更讓國產晶片擺脫了在高端訓練算力領域的被動局面,憑藉定製化、高性價比的優勢,在全球AI產業中搶佔了屬於自己的賽道。AI行業從未停下腳步,只是換了更務實的前行方式。當回歸商業本質成為主旋律,推理算力的爆發式增長已然開啟,而國產AI晶片,正站在這場變革的黃金風口上,迎來屬於自己的發展春天。 (元宇宙與人工智慧三十人論壇)
台積電擔憂晶片過剩?馬斯克:他們是對的,電力液冷都跟不上
馬斯克認同台積電對晶片產能過剩的擔憂。他指出,AI發展的核心瓶頸正在從晶片製造轉向“晶片啟動”能力,即電力、變壓器與冷卻系統的部署進度。目前,這些基礎設施的線性擴張速度,已嚴重落後於晶片產能的指數級增長。近日馬斯克表示,台積電對晶片產能過剩的擔憂"是對的"。他預測,AI行業的限制因素將從晶片製造轉向"把晶片開啟運行",這一轉變的核心瓶頸在於電力供應、變壓器配置和冷卻系統部署。1月6日,馬斯克與奇點大學執行主席彼得·迪亞曼迪斯(Peter Diamandis)和Link Ventures創始人戴維·布倫丁 (David Blundin)開展了一場關於AI未來的深度對話。他指出,當前晶片產能正呈指數級增長,而支撐其運行的能源基礎設施卻只能線性擴張。當兩條曲線交叉時,大量高性能AI晶片將因缺乏配套的電力轉換裝置和冷卻系統而無法投入使用。這一判斷直指當前AI基礎設施建設被嚴重低估的問題。對於投資者而言,這意味著AI算力競賽的焦點正在從晶片採購轉向能源基礎設施建設能力。01 電力成為AI部署的“速率限制”在對話中,馬斯克進一步揭示了AI基礎設施中電力瓶頸的具體形態。他強調,部署AI晶片絕非“將GPU運抵發電廠”那麼簡單,而是需要同步解決吉瓦級供電、高壓電轉換及高效散熱系統三大核心問題。馬斯克特別指出,整個資料中心行業正經歷從風冷到液冷的關鍵轉型,並警告這一過程蘊含巨大風險。他稱:“這對資料中心來說是一次根本性轉變,他們長期依賴風冷。一旦液冷管道發生破裂——比如在資料中心裡爆裂一根水管,就可能導致價值10億美元的損失。”他以xAI在孟菲斯的“巨像2號”項目為例說明實際挑戰:儘管項目選址緊鄰多條300千伏高壓線路,但完成接入仍需耗時約一年。為趕在2025年1月中旬前實現1吉瓦訓練叢集上線,團隊不得不臨時組合多台10至50兆瓦不等的燃氣輪機作為過渡電源,並借助大量Megapack電池組進行電力調平。02 晶片產能與電力供應的“曲線交叉”當被問及是否認同台積電對產能過剩的擔憂時,馬斯克給出了肯定的答覆:“我雖不確定他們的理由,但結論是對的。”他指出,關鍵在於識別“每個時期的限制性因素”,並預測到2026年第三季度(即約9-12個月後),核心瓶頸將從晶片製造轉向“使晶片運行起來”的能力。這一判斷源於兩條發展軌跡的錯位:AI晶片產能正以指數級速度擴張,而支撐其運行的電力基礎設施卻僅能線性增長。馬斯克強調:“若晶片產出呈指數增長,而電力供應只能緩慢線性提升,兩條曲線必將交匯。”這意味著晶片的製造速度可能遠超其實際可被部署並通電運行的速度。對此,戴維·布倫丁提出不同觀點,認為即便台積電將GPU產量從2000萬片提升至4000萬片,市場仍將設法解決供電問題。但馬斯克堅持,任何電力轉換環節或冷卻系統的缺失,都會導致晶片無法被真正啟用,從而從根本上抑制實際需求與採購行為。 (硬AI)
CPO,過熱了?
在AI基礎設施被資本與產業合力推向發展高潮的當下,凡是與“光”“互聯”“頻寬”“功耗”掛鉤的技術方向,都極易被貼上“下一代核心技術”的標籤,迅速成為市場追逐的焦點,其中共封裝光學(CPO),正是這股熱潮中最具代表性的存在。然而,就在行業對 CPO 的討論熱度節節攀升之際,博通首席執行長陳福陽(Hock Tan)卻在2025 財年第四季度財報電話會議上,為這股狂熱情緒澆下一盆冷水。“矽光子學在短期內不會在資料中心發揮實質性作用。”陳福陽並未簡單粗暴地否定這項先進技術地未來,他在後續問答中解釋,矽光子、CPO 絕非對現有技術的“跳躍式”替代方案,而是需要在既有互聯技術路徑的潛力被徹底榨乾後,才會被產業被動啟用的終極選擇。他將整個互聯技術的演進邏輯清晰梳理:首先是機架級銅互聯的規模化落地,隨後是可插拔光模組(Pluggable Optics)的持續迭代升級,唯有當這兩條技術路徑均觸及物理性能與經濟成本的雙重極限,矽光子 / CPO 才會真正成為行業剛需。“這一天一定會到來,但不是現在。”當然,給CPO降溫的並非只有博通一家。在最新的巴克萊第 23 屆全球技術大會上,包括Arista、Credo、Marvell、Astera、Lumentum在內的一眾行業頭部企業,均傳遞出了相似的聲音。從“算力不足”到“互聯焦慮”事實上,過去幾年裡,AI行業已經逐漸走出了早“單純堆算力的階段。即便是輝達這樣的算力王者,也在有意淡化對單點計算性能的強調,轉而反覆突出互聯、網路以及系統級架構的重要性——因為在大模型時代,真正決定上限的,早已不只是晶片本身。隨著模型參數規模與叢集規模同步呈指數級擴張,AI叢集的核心瓶頸也開始悄然從計算能力轉向互聯能力。此時考驗行業巨頭的,已不再只是能否豪擲重金採購更多GPU,而是如何在超大規模系統中實現高效互聯:通訊效率是否足夠高、延遲是否可控、系統能否穩定協同運行,正逐步成為決定算力能否“用得起來”的關鍵因素。行業顯然早已預見到這一變化。博通首席執行長陳福陽在財報電話會議中透露,其客戶正在規劃和部署規模超過10萬顆GPU的超大型AI叢集;而Arista在技術大會上進一步指出,行業內部討論的目標,已經指向百萬GPU等級的叢集架構。多位產業領袖的判斷趨於一致:當AI叢集規模從數千顆GPU擴展到數十萬、乃至百萬等級時,網路不再只是“頻寬夠不夠”的問題,而是演變為一整套系統性挑戰——包括互聯可靠性、功耗上限、可維護性以及整體部署節奏。正因如此,過去一年中,巨頭們反覆強調的關鍵詞也發生了明顯變化:Scale-Out(橫向擴展)、Scale-Up(縱向擴展)、Scale-Across(跨域擴展),以及功耗牆、鏈路可靠性、系統級協同設計……這些看似偏“工程化”的概念,實則標誌著行業對AI基礎設施瓶頸認知的一次深刻轉向——AI的競爭重心,正在從算力本身,全面邁向互聯與系統能力。橫向擴展用不到首先來說橫向擴展(Scale-Out),這一概念往往稱為叢集系統,通過增加獨立的伺服器來分散工作負載,從而提高計算容量,類似於輝達InfiniBand。對於巨頭而言,橫向擴展目前似乎還用不到CPO。博通陳福陽的表態最具代表性:800G可插拔技術於2022年推出,增長周期將持續至2026年;1.6T產品已進入量產,預計增長至少持續到2029年;3.2T技術已完成展示。“未來5-7年,可插拔光模組仍將佔據主導地位,這也是橫向擴展領域的CPO技術尚未被廣泛採用的原因。”Lumentum的袁武鵬進一步細化了2026年的市場結構預測:光連接埠總量將達到6000萬-7000萬個,同比增長接近翻倍。其中800G連接埠約佔55%-60%,1.6T連接埠約佔15%-20%。這一資料表明,即便1.6T技術已經就緒,800G仍將是2026年的絕對主流,行業並未出現“激進躍遷”。Marvell首席營運官Chris Koopmans的觀點進一步強化了這一判斷:“橫向擴展領域的CPO技術最終會到來,但仍需數年時間。在傳輸距離較長、需要互操作的市場中,可插拔產品的採用速度較慢。”他特別指出,客戶已經完成400G產品的軟體認證,當800G產品推出後,從400G向800G的遷移“幾乎是即時完成的”,新部署項目迅速採用了800G解決方案——這正是軟體預認證帶來的生態優勢,也是可插拔架構的核心護城河。Arista也強調,在1.6T速率下,“我們仍然有信心實現低功耗光模組(LPO)的穩定運行;同時,共封裝銅纜(CPO)等技術也在評估之中,這些都是潛在的差異化優勢。率先推出下一代速率產品並快速實現商業化,是我們的核心差異化策略之一。”縱向擴展也不著急?縱向擴展(Scale-up)專注於升級單台伺服器或基於機箱的系統,通過向現有系統增加晶片來提升算力,它曾被視為CPO技術的“第一戰場”,是CPO最有希望應用的場景。但在這個最需要CPO的場景中,量產時間表也被大幅推遲。CPO的急先鋒Marvell收購Celestial AI後給出了新的營收目標:2027年底年化營收達5億美元,2028年底翻倍至10億美元。其解釋道,這一時間表主要基於首款產品和首個客戶的落地情況。Celestial AI帶來的16太位元芯粒產品,其性能是橫向擴展領域最先進1.6T產品的10倍,具有完全不同的外形尺寸、密度、頻寬和技術特性——但即便如此,大規模商業部署仍被推遲至2027-2028年。Astera Labs的Jitendra Mohan給出了更為詳細的時間預判:“隨著系統複雜度提升、資料速率增長,以及客戶希望將縱向擴展領域從1個機櫃擴展到2-4個機櫃,轉向光學技術將成為必然選擇。我們與客戶就這一交匯點展開了深入合作,預計將在2028-2029年實現大規模部署。但光學技術的部署不會一蹴而就,2027年將進行一些測試性部署,為2028年的大規模部署做準備。”為什麼即便是最需要的場景,CPO應用時間表也被推遲?Lumentum的袁武鵬給出了供應鏈視角的解釋:“CPO供應鏈仍相對較新,需要時間來提升產能以支援大規模需求。因此,當前的供應限制並非源於基礎產能不足,而是因為供應鏈尚不成熟,供應商需要時間來適應需求增長。”Credo的CEO Bill Brennan則從產能角度分析:“縱向擴展場景的需求將是現有需求的數倍。我們目前已經在積極擴大產能,而縱向擴展場景將進一步大幅提升產能需求。這需要整個行業的共同努力,我們正在與多個客戶就此展開溝通,並已開始相關工作。”更深層的原因,是各種過渡方案的生命力超出預期。Astera Labs的Mohan坦言:“客戶之所以不願轉向光學,是因為光學技術需要更高的功耗和成本。”而博通則強調:“我們認為CPO是正確的技術方向,但我們不確定這些產品是否會完全部署,因為我們的工程師和行業同行會儘可能通過機櫃內銅纜和可插拔光模組實現縱向擴展,只有當可插拔光模組和銅纜都無法滿足需求時,矽光子技術才會成為必然選擇。”功耗與可靠性:比頻寬更真實的約束條件對於巨頭而言,功耗和可靠性正是他們遲遲不願意全面擁抱CPO的重要原因之一。Credo的Bill Brennan用具體案例闡釋了這一挑戰的嚴重性:xAI原本使用基於雷射的光模組連接18個機櫃的叢集,後來計畫遷移到液冷設施,將機櫃數量從18個壓縮到6個。團隊向Credo提出:“如果你們能生產7米長的線纜,我們就能建構一個‘零中斷’叢集。”因為銅纜解決方案的可靠性眾所周知,是絕對穩定的。“零中斷”這個概唸給了行業巨大啟發。Bill Brennan指出,從那時起,Credo的團隊開始重點攻克可靠性難題,“尤其是針對GPU與第一級交換機(T0)之間的鏈路。我們最近推出的所有產品,其差異化優勢核心都圍繞可靠性展開。”在巨頭看來,互聯技術首先要可靠可控,而非一味追求極限性能;可預測、可診斷、可維護,往往比“理論最優”更重要。Lumentum的袁武鵬在談到ZeroFlap光學解決方案時,詳細闡述了這一理念的技術實現。他指出,甲骨文與xAI一樣面臨鏈路中斷問題,但他們的鏈路長度遠超7米,只能採用基於雷射的光模組。Lumentum的方案核心是:在鏈路中斷髮生前識別潛在風險,並通過主動干預加以緩解。具體而言,Lumentum重新設計了定製化光學DSP,使其能夠在帶內(in-band)通訊——即在傳輸高速資料的同時,實現DSP之間的雙向通訊,傳輸遙測資料。然後將試點軟體進行深度整合,將原始資料轉化為可用的遙測資料;再通過交換機SDK實現與客戶網路的整合。“如今,我們能夠為客戶提供即時、持續的遙測資料,包括訊號強度與接收靈敏度、前置誤位元率、後置技術直方圖等;還能識別靜電放電(ESD)損壞、檢測光纖上的灰塵。這一解決方案遠超傳統雷射光模組的系統級能力。”就目前而言,短距互聯的可靠性上限,依然掌握在銅纜/ AEC手中,CPO並非替代者,其優勢更多來自距離、密度和系統可觀測性。Arista在演講中還提到了功耗這一行業關注的核心問題。“我們產品的功耗通常比同類產品低約25%——當大規模部署產品時,這一優勢將尤為顯著。當前,功耗是行業關注的核心問題之一,低功耗交換機無疑具備很強的市場吸引力。”過度方案,正在“吃掉”CPO的敘事空間值得關注的是,LPO、AEC、ALC等過渡方案也在持續蠶食、分流原本被寄望於CPO的應用空間。越來越多廠商在實踐中形成了一種微妙的共識:現有互聯生態遠未觸及邊界,CPO並非唯一答案,也不是當下的終局。LPO(線性驅動可插拔光模組)被視為一種替代方案。Arista稱,LPO技術“可以說是Arista向行業輸出的前瞻性創新”,其聯合創始人Andy Bechtolsheim提出了這一概念,並推動行業廣泛採用。“目前,800G速率的LPO光模組已實現大規模部署,該技術為客戶帶來了顯著的成本優勢:由於無需數字訊號處理器(DSP),資本支出更低;同時功耗更低,營運支出也相應減少,客戶可以將節省的功耗預算用於部署更多計算裝置。我們有信心在1.6T速率下實現LPO技術的穩定運行。”LPO的邏輯是“去DSP → 降功耗、降成本”,對交換機與光模組廠商來說,這是“架構最佳化”,而非“生態重構”,相對應的,AEC(有源電纜元件)與ALC(有源光纜)的邏輯則是在2–30米這個最密集、最關鍵的互聯區間,提供接近銅纜的可靠性 + 接近光學的頻寬。Credo的Bill Brennan強調,AEC在資料中心的應用場景非常廣泛,“除了多種解決connectivity問題的方案外,無論是後端網路的橫向擴展/縱向擴展交換機機櫃、前端連接,都存在大量超越標準的創新機會。因此,AEC領域將持續湧現更多創新。”他特別指出,Credo的獨特之處在於開創了這個市場,且“必須深入產業鏈各個環節,對產品的每一個方面都承擔責任”——這種端到端掌控能力,構成了難以踰越的競爭壁壘。Marvell推出的“黃金線纜計畫”,正是AEC這一邏輯的延伸。Marvell的Chris Koopmans指出,線纜產品與光模組本質上沒有區別,超大規模客戶希望實現多源供應。“我們的‘黃金線纜計畫’本質上是一個完整的參考設計,向相關企業展示如何打造符合要求的產品。之所以能實現這一點,是因為我們的DSP在PAM4技術方面性能強勁、功能強大,能夠適配各類線纜——我們無需端到端控制和定義整個產品,而這正是客戶想要的。”ALC技術則是另一個重要方向。Credo的Bill Brennan指出,當行業最終需要CPO替代方案時,“我們在ALC中投入的微LED技術將直接應用於近封裝光學(near-package optics),其功耗僅為CPO的1/3,且無需像當前展會上展示的那樣採用複雜的交換機設計。因此,我們認為當行業最終需要CPO替代方案時,我們的技術路徑將更具優勢。”CPO的現實問題清單綜合多家公司的表態,CPO面臨的挑戰高度一致,且集中在工程與商業層面而非技術可行性。可維護性是最突出的痛點。Lumentum的袁武鵬直言,CPO技術“經過多代演進,其核心目標是降低成本和功耗。目前行業仍在解決可維護性等相關問題,我們相信隨著技術成熟,CPO將得到廣泛應用。”博通的陳福陽更明確指出CPO的三大根本缺陷:“從成本來看,CPO肯定更貴;從可靠性來看,基於雷射的CPO遠不如現有技術;從功耗來看,它也不是當前討論的所有技術中最低的。這些缺陷導致CPO遲遲未能量產。”系統設計複雜度是另一重障礙。Marvell的Chris Koopmans指出,縱向擴展領域所需的光互聯技術是一種完全不同的技術類型,必須直接與千瓦級XPU和交換機共封裝,具有完全不同的外形尺寸、密度、頻寬和技術特性。Astera Labs的Jitendra Mohan補充道,光鏈路由三個元件構成:電積體電路(EIC)、光子積體電路(PIC)和連接器——“連接器是關鍵元件,負責將光子積體電路的光輸出耦合到光纖,目前限制了光學技術的規模化(量產數百萬EIC和PIC相對容易,但可靠地連接光纖等環節面臨挑戰)。”成本結構不確定性困擾著所有參與者。博通的判斷最為直接:“從成本來看,CPO肯定更貴。”這不是便宜的光模組,而是昂貴的系統工程——散熱、供電、測試、維修全部需要重構。除此之外,生態尚未形成,需要交換機、光學、封裝、軟體協同成熟。Lumentum的袁武鵬在談到橫向擴展CPO時指出,“客戶的機會成本非常高,所有項目都需要即時產能爬坡,他們沒有時間去認證新的供應商。”而對於新技術,這種生態成熟度的建立需要多年時間。為什麼超大規模雲廠商不著急?有趣的是,即便是技術最激進、資金最充裕的超大規模雲廠商,對CPO的態度也異常謹慎。Lumentum的袁武鵬給出了一線觀察:“目前,客戶仍然更傾向於依賴現有的供應鏈,因為他們已經建立了高度的信任——知道這些供應商能夠實現產能爬坡,且產品可靠性、質量都有保障,而這種信任需要時間積累。尤其是現在,客戶的機會成本非常高,所有項目都需要即時產能爬坡,他們沒有時間去認證新的供應商。”這透露出了一個行業關鍵矛盾:CPO技術的部署窗口,與超大規模客戶的部署節奏存在根本性錯配。Arista的Hardev Singh在談到雲客戶需求時指出:“二級雲廠商和企業客戶的合作模式略有不同:這些客戶有明確的需求和上市時間要求,他們關心的是‘供應商是否能提供現成的網路解決方案,快速部署並投入使用’。而與超大規模雲廠商的合作則完全不同——他們始終追求前沿技術,傾向於採用尖端創新方案。”但即便是“始終追求前沿技術”的超大規模雲廠商,在面對CPO時也表現出了審慎態度。原因何在?第一,可靠性要求極高,容錯空間為零。Credo的Bill Brennan反覆強調:“在超大規模客戶使用的任何人工智慧系統中,除了XPUs等定製加速器,還包含大量其他元件,因此我們認為以系統形式銷售並對整個系統承擔全部責任是合理的。”而CPO技術一旦出現問題,是“整板級風險”,遠超可插拔光模組的故障隔離能力。第二,維運體系的慣性巨大。Lumentum的袁武鵬指出,所有超大規模雲廠商“都擁有自己的網路團隊”,已經建立了完善的認證、測試、維運流程。Marvell的Chris Koopmans補充道:“客戶的認證周期通常在一年前就已啟動,即使後來推出性能合格的產品,要在多個模組生態系統、多種雷射類型以及所有超大規模客戶要求的特定外形尺寸中完成認證,也需要很長時間。而如今,客戶最關注的首要因素是上市時間。”第三,供應鏈安全優先於技術領先。博通陳福陽在財報會議上強調:“隨著需求增長和創新封裝的需求提升,封裝已成為一項極具技術性的挑戰。建設新加坡工廠的核心目的是部分內部化先進封裝產能——我們認為,基於強勁的需求,內部化封裝不僅能最佳化成本,更能保障供應鏈安全和交付穩定性。”而CPO技術的供應鏈成熟度,遠低於可插拔光模組。第四,架構靈活性需求強烈。Astera Labs的Jitendra Mohan指出:“目前,許多客戶仍在規劃整體架構。如果將所有功能都整合到單片晶片中,客戶現在就必須做出決策。但在行業標準尚未最終確定、另一端的交換機尚未推出的情況下,誰會冒險將所有賭注押在某一種協議上?”而可插拔架構恰恰提供了這種靈活性。Marvell的Chris Koopmans總結道:“歸根結底,我們需要評估每個機會:我們的角色是什麼?客戶是否要求我們這樣做?我們能帶來什麼差異化價值?以及我們在該領域能否獲得可持續的競爭優勢?目前,客戶要求我們專注於PCI Express及其向UALink的轉型——這對我們來說是一個巨大的機會,因此我們的重點在此。”CPO不是偽命題,但現在顯然“被講早了”對於行業而言,CPO更像是互聯體系的“最後一公里”技術,而非下一代架構的默認選項。它解決的是現有技術路徑徹底失效之後的問題,而不是當下迫在眉睫的瓶頸。這一判斷,在博通首席執行長陳福陽的表態中得到了高度概括。他直言:“未來某個時刻,矽光子學將會成為實現高速傳輸的唯一途徑,屆時它的重要性便會凸顯,但我們目前還未到那個階段。只有當可插拔光模組技術也無法滿足需求時,矽光子學才會成為最終的解決方案。這一天終將到來,我們也已做好準備,只是不會很快實現。”換言之,CPO是終極解法之一,但不是當前階段的最優解。因此,在相當長的一段時間內,LPO、AEC、ALC 以及ZR光模組仍將承擔資料中心互聯的主力角色。相比之下,CPO的應用場景將更加收斂——主要集中在極高連接埠密度、極端功耗約束、以及現有架構已經“無解”的特定系統中,而非大規模鋪開。多家廠商給出的技術路線與時間表,也印證了這一判斷。Arista的Hardev Singh明確表示,LPO的演進遠未結束:“我們有信心在1.6T速率下實現LPO技術的穩定運行,目前相關研發工作正在推進中。”Credo首席執行長Bill Brennan則從另一條路徑給出了更具“反直覺”的判斷:“我們在ALC中投入的微LED技術將直接應用於近封裝光學,其功耗僅為CPO的三分之一,且無需複雜的交換機設計。因此,我們認為,當行業最終需要CPO替代方案時,我們的技術路徑將更具優勢。”在時間節點上,行業的判斷也正在逐步收斂:2026年:800G仍佔主導,1.6T開始放量,LPO / AEC持續增長2027年:1.6T成為主流,CPO進入小規模測試與驗證階段2028年及以後:CPO在特定場景(主要是縱向擴展的高密度系統)中開始規模化部署Lumentum的袁武鵬對這一節奏給出了相對激進、但依然謹慎的預測:“到2027–2028年左右,首批採用CPO的客戶中,約有40%–50%的交換機將基於CPO技術。但這一判斷仍存在較大不確定性,客戶也在根據自身業務節奏進行評估。”Astera Labs的Jitendra Mohan則給出了幾乎一致的判斷:“我們預計將在 2028–2029 年實現大規模部署。光學技術的演進不會一蹴而就,2027 年更多是測試性部署,為後續放量做準備。”由此,真正的問題已經不再是“要不要 CPO?”,而是“在什麼條件下,現有方案真的不夠用了?”Marvell光學與互聯業務負責人Chris Koopmans給出了最務實的回答:“歸根結底,客戶在光學技術選擇上存在很大分歧。我們的理念不是強迫客戶接受某一種路徑,而是支援他們的選擇——如果客戶希望將其指定的光子技術與我們的電晶片和封裝方案結合,我們會非常樂意配合。”這或許正是理解當前CPO討論熱度與實際部署節奏錯位的關鍵所在:在PPT裡,CPO非常重要;在機房裡,它並不緊急。行業真正需要的,不是技術可行性證明,而是系統必要性證明。只有當 LPO、AEC、ALC等路徑在功耗、密度、可靠性上同時觸頂,CPO才會從未來選項轉變為當下必需。而從當前幾乎所有行業巨頭的共同表態來看,那個時刻,還沒有到來。 (半導體行業觀察)
甲骨文百億項目融資突然「告吹」,美國AI泡沫恐慌來襲?
美國時間12月中旬,有報導稱,甲骨文在美國資料中心項目的主要支持者Blue Owl Capital將不會資助密歇根州一個價值100億美元的資料中心。這被視為百億項目融資“告吹”,該消息迅速放大並引發市場對AI泡沫的擔憂。實際上,自9月初見頂以來,甲骨文股價已下跌近45%。作為近兩年推動美股牛市的關鍵因素,AI行業對於明年市場的走向依然至關重要。難道,美國此輪 AI 基建周期已經提前來到了拐點?甲骨文的AI故事不香了?7 個月前,甲骨文官方帳號在社交媒體上發佈了一段頗具象徵意味的視訊。畫面中,時任甲骨文雲基礎設施負責人 Clay Magouyrk 正帶領 OpenAI CEO 山姆·奧特曼(Sam Altman)參觀德克薩斯州阿比林(Abilene)首個“星際之門(Stargate)”項目現場。Magouyrk 對奧特曼形容道:“這裡就像是小孩子在玩很大的玩具。”甲骨文官號配文稱:“我們正在建設全球最大的 AI 訓練設施。”當時,多家媒體援引知情人士稱,OpenAI 未來幾年將向甲骨文支付千億美元規模的算力費用。圖:2025年4月,OpenAI CEO奧特曼造訪甲骨文資料中心現場這一敘事迅速傳導至資本市場。甲骨文股價從 4 月 21 日的約 122 美元一路上漲,在 9 月初一度衝至 320 美元以上,也讓 81 歲的聯合創始人埃裡森以約 3832 億美元的身家,短暫超過馬斯克,重回世界首富寶座。幾乎在同一時期,主導雲端運算基建項目的 Clay Magouyrk 被提拔為甲骨文聯席 CEO。但進入年末,隨著投資者逐漸將目光從“故事規模”轉向“兌現這些承諾所需付出的成本”,甲骨文股價開始回吐此前全部漲幅。問題不再是 AI 有沒有前景,而是這條路到底要花多少錢、多久才能回本?信用市場最先“翻臉”曾因做空安然成名的大空頭吉姆·查諾斯(Jim Chanos),在 12 月初毫不避諱地公開炮轟甲骨文資產負債表擴張過快,正逼近財務承壓區間。他在播客採訪中直言,作為五大超大規模雲廠商之一,甲骨文為了追趕同行而採取了激進投資策略,但新增資本投入並未帶來相應的利潤回報。“如果用新增營業利潤除以新增投入資本來計算,甲骨文的回報率只有大約 8.5%,而微軟接近 40%。”查諾斯指出,這意味著甲骨文目前無法收回增量資本成本。在他看來,更大的不確定性來自 AI 變現時間表本身。市場普遍假設 AI 的貨幣化拐點將在 2027到2028 年出現,但如果這一節點被推遲至 2030 年,甚至最終無法兌現,甲骨文將面臨根本性的財務挑戰。這並不是對 AI 技術前景的否定,而是對當下資本配置邏輯的質疑。這一點,在甲骨文 12 月初的財報電話會上被體現得更加直接。多位分析師反覆追問:甲骨文在 AI 上到底要花多少錢?但管理層並未給出清晰的數字答案。私募信貸開始轉向?與此同時,私募信貸市場也在重新定價風險。紐約投資公司 Blue Owl 過去是甲骨文多項大型資料中心項目中的關鍵資本方。其典型做法是通過設立特殊目的公司(SPV),引入銀行融資,並以甲骨文的長期租約作為現金流支撐,從而幫助甲骨文實現“資產負債表外”的擴張。在德州阿比林、新墨西哥等項目中,這一模式運轉順暢。但密歇根項目成為分水嶺。隨著市場對 AI 支出規模、甲骨文自身債務水平以及項目執行風險的態度發生變化,貸款方開始要求更嚴格的租賃和債務條款。在融資成本上升、槓桿空間收緊的情況下,該項目對 Blue Owl 的財務吸引力明顯下降,最終導致其在放款前選擇退出。儘管甲骨文緊急“滅火”稱,項目的股權交易最終談判進展按計畫進行,整體推進符合預期,但市場的擔憂已經被點燃。OpenAI能否付得起錢?另一條逐漸被市場放大的質疑,來自OpenAI算力訂單的可靠性。摩根大通分析師埃麗卡·斯皮爾在 12 月 15 日關於甲骨文的研報標題為“如果你建造它,他們(OpenAI)會付錢嗎?”投行D.A.Davidson 科技研究主管分析師 Gil Luria 在 12 月 12 日的一份報告中直言,“鑑於 OpenAI 不太可能兌現其 3000 億美元的承諾,我們認為甲骨文最好的做法是主動重組該合同,以更負責任地部署資本,而不是假裝擁有 5230 億美元的剩餘履約義務( RPO)。”剩餘履約義務(RPO)指的是企業已簽訂的、但尚未確認為收入的合同銷售。換句話說,OpenAI承諾在未來五年向甲骨文支付3000億美元購買算力,但並非一定發生。截至 11 月 30 日,甲骨文的 RPO 已躍升至 5230 億美元。“OpenAI 誤導了甲骨文,甲骨文又誤導了投資人。” Gil Luria 在接受採訪時表示,儘管甲骨文被頻繁提及為 OpenAI 的重要基礎設施合作方,但在實際算力分配、合同結構以及未來擴展中,其最終能分得多少,仍缺乏透明度。11月初,OpenAI 先後與微軟、亞馬遜簽署新的合作協議,算力來源呈現明顯的多元化趨勢,讓甲骨文在OpenAI生態中的位置變數增加。更重要的是,OpenAI 在AI需求中的位置也處在變動中。一來,隨著Google等資金實力更雄厚的競爭對手加速追趕,新一代 Gemini 模型獲得市場好評,奧特曼本人在12月初已經通過公司內部信發出“紅色警報”,那怕推遲其他產品的開發,也要全力押注GPT在AI競爭中保持身位。也就是說,在技術路線快速演進的背景下,OpenAI 是否能夠持續保持領先,並不確定。二來,OpenAI 與晶片製造商輝達之間的協議仍懸而未決。兩家公司曾於 9 月 22 日宣佈簽署意向書,稱輝達將在多年內向OpenAI投資多達 1000 億美元,OpenAI 則購買數百萬輝達專用晶片用於其 AI 基礎設施。外界曾期待OpenAI會把輝達的投資轉手給甲骨文購買算力。但兩個多月過去了,協議仍未正式簽署。輝達在最新財報中表示,“並不保證任何投資會按預期條件完成,甚至根本不會完成。”AI競爭進入“現金流檢驗期”?甲骨文並非唯一重注 AI 的科技公司,但在這一輪投資周期中,卻處在對資本最為敏感的位置。在 AI 浪潮之前,甲骨文依賴高度可預測的現金流和約 70% 毛利率的傳統軟體業務,能夠支撐穩定回購與分紅。但 AI 投資打破了這一平衡。資料中心和算力基礎設施意味著資本高度前置、回報周期拉長,執行節奏成為關鍵變數。相比之下,微軟和Google擁有更強的現金流緩衝,更容易消化長期資本消耗。當資本已經投入、收入尚未兌現、利率仍處於高位時,市場開始重新評估,那家公司的資本結構,能夠承受更長時間的回報延遲。儘管公司已任命新的聯席 CEO,但是否繼續為 AI 承擔高強度投入,最終仍由創始人拉里·埃裡森拍板。Oracle 的英文原意是“神諭”。當 AI 投資進入結算階段,市場關心的也不再是預言是否宏大,而是誰能撐到預言兌現的那一天。 (新浪科技)
行業深度:從風冷到液冷 資料中心散熱的破局與未來
數字經濟爆發下,全球資料中心耗電量佔比逐年攀升。據統計,2024年中國資料中心能耗總量1660億千瓦時,約佔全社會用電量的1.68%,同比增長10.7%。2024年全社會用電增速為6.8%,資料中心用電量增速遠高於全社會用電量平均增速【1】。資料中心能耗已成為不可忽視的能源消耗領域。隨著人工智慧技術的迅猛發展,AI相關行業正經歷著前所未有的快速增長和技術迭代。這一變革不僅推動了社會的進步,也帶來了對計算能力的巨大需求。智能計算中心,作為AI技術發展的核心基礎設施,正面臨著前所未有的挑戰。01AI行業的快速發展AI技術的進步和應用場景的拓展,使得智能計算中心的建設成為推動行業發展的關鍵。技術的快速迭代要求資料中心能夠迅速適應新的計算需求,保持技術的領先地位。02高密散熱的需求關注隨著AI計算密度的增加,散熱問題成為智能計算中心必須面對的挑戰。高密度計算裝置產生的熱量如果不能有效管理,將直接影響資料中心的穩定性和效率,甚至可能導致裝置損壞和性能下降。03液冷技術的應用為瞭解決高密度散熱問題,液冷技術作為一種高效、環保的冷卻解決方案,已經成為智能計算中心散熱管理的重要趨勢。液冷技術能夠有效降低資料中心的能耗,提高裝置的散熱效率,是應對高密度散熱挑戰的有效手段。隨著晶片功耗增長加速,在面對不同業務需求時,製冷解決方案變得更多多樣。隨著機架功率密度的不斷攀升,行業內普遍認同,40~60kW/Rack已經達到了風冷極限,超過這個能力邊界,無論是考慮到散熱能力還是散熱成本,必須開始部署液冷。資料中心製冷從完全風冷邁向風液混合製冷,不同機架功率密度的製冷解決方案推薦如圖1所示。▲ 圖1 不同功率密度機櫃製冷解決方案機櫃功率密度在20~25kW以內時,常規遠端風冷方案即可解決伺服器散熱需求。當機櫃功率密度進一步提升,單機櫃功率密度在25~45kW時,就應該開始考慮近端風冷的解決方案。風冷方案再疊加背板熱交換器(Rear Door Heat Exchanger,RDHx),可以進一步解決單機櫃60kW以內的散熱需求。單機櫃功率密度在40~60kW時,就可以開始考慮採用液冷,但根據伺服器或晶片不同,也可以更早開始採用液冷。即使採用液冷,根據風液比不同,伺服器仍然有5%~50%的熱量需要通過風冷散熱來解決,風液混合將成為大多數高熱密度機櫃散熱方案。根據伺服器供液溫度要求,室外一次側需選擇不同的散熱方案。伺服器供液溫度要求大於40℃時,室外一次側散熱可以採用完全自然冷的解決方案,當伺服器供液溫度要求較低時,室外一次側需要採用機械冷卻。在單機櫃功率密度小於40kW時,考慮伺服器類型,往往更多選用風冷技術。為實現PUE要求,各類自然冷技術在機房空調裝置中已經大量應用。從節能技術維度,可以分為三類:01風側自然冷方案通過利用室外低溫空氣直接為資料中心供冷。在實際應用中有兩種方案:直接空氣自然冷,直接引入自然界新風對資料中心進行冷卻,但該方案受空氣質量、濕度等因素限制,適用場景較為有限。間接空氣自然冷,借助換熱器實現自然界低溫空氣與資料中心高溫空氣的熱交換,以降低機房溫度。此類方案可有效解決空氣質量及濕度問題,但在夏季室外溫度較高時,其應用仍會受到限制。02水側自然冷方案通過利用低溫水源或者水蒸發潛熱來為資料中心供冷。在過往的水側自然冷應用案例中,有直接引入湖水為資料中心供冷的方式,但此方案受水質條件,以及可能對當地生態環境影響的限制,應用範圍較窄。另一種通過水蒸發利用自然冷的方式應用則更為普遍,常見的冷卻塔及間接蒸發冷裝置等,在開啟水噴淋的情況下,均屬於水側自然冷,通過水的蒸發潛熱利用自然冷源。03氟泵自然冷方案通過氟泵來驅動冷媒循環,付出少量機械能,在室外低溫時將室外自然冷源的冷量通過冷媒相變傳遞至機房,從而達到降低機房降溫的效果。一般氟泵自然冷和壓縮機製冷整合在一個系統裡,當室外低溫時,壓縮機停止運行,啟動氟泵完成製冷循環。當時外溫度較高時,則需要啟動壓縮機來完成製冷循環。以上自然冷方式可以單獨應用,或者組合應用,充分挖掘室外自然冷潛能,實現節能效果。近期在資料中心領域應用比較多的混合雙冷源方案,即為一種組合式的自然冷方案。機房空調設計兩組盤管,層疊安裝。高溫迴風首先經過第一組盤管進行預冷,此時預冷冷源可以是氟泵自然冷,也可以是冷卻塔提供的冷卻水,之後通過第二組盤管,第二組盤管可以是氟泵自然冷,也可以是壓縮機機械製冷,根據製冷需求進行自動切換,詳見圖2所示。▲ 圖2 兩種不同雙冷源自然冷方案通過“預冷+補冷”的控制思路,實現自然冷源利用最大化,從而實現空調裝置高能效,有效幫助降低資料中心PUE。以資料中心常用100kW空調為例,採用上述自然冷技術的機組,在以下區域應用,可以達到的製冷因子CLF如表1所示。在空調機組100%輸出的條件下,水側自然冷通過利用更長時長的自然冷,製冷因子更低,見表2所示。在空調機組75%輸出條件下,可以看到氟側機組的能效提升更快,在北京以及上海,均可表現出比雙冷源機組更好的節能效果,見表3所示。隨著負載率進一步降低,在空調機組50%輸出條件下,氟泵自然冷機組的能效已經全面優於水側自然冷雙冷源機組。不管採用那種雙冷源,北方全年室外環境溫度更低,可以收穫更好的節能效果。隨著負載率降低,氟泵自然冷工作時長顯著增加,氟泵功耗遠小於水泵功耗,在各地均可獲得更好的節能效果。可以看到,利用“預冷+補冷”設計方案,兩類雙冷源方案可達到系統級的製冷因子相當,在選擇具體方案時,需結合項目地自然條件進行選擇。液體冷卻是指利用高導熱性能的流體介質(諸如25%丙二醇諸如25%丙二醇,去離子水、冷卻液或製冷劑)而不是空氣來冷卻資料中心。液體直接參與資料中心關鍵發熱源(如伺服器內部高性能晶片)的熱量交換過程。液冷技術縮短了熱傳導路徑,使得熱量能夠更直接、更有效地從熱源匯出,進而顯著降低了對伺服器內部風扇輔助散熱的依賴,從而降低整體能耗與噪音水平。資料中心液冷技術的應用可細分為兩大主流類別:直接到晶片(Direct-to-Chip, DTC)冷卻技術,常被稱為冷板冷卻,其特點在於將冷卻液直接匯入至伺服器內部,通過緊貼晶片的冷板結構實現高效熱交換。浸沒式冷卻技術,該技術將整個或部分伺服器元件完全浸沒於非導電冷卻液中,實現熱量的全面、均勻散發。在DTC配置中,液體不直接與電子元件接觸,液體冷卻劑被泵送到解決伺服器內部電子元件散熱的冷板上。雖然大部分熱量都被冷板帶走了,但仍然需要風扇來幫助去除電路板層面的熱量,儘管風量和風速都非常低。在這種情況下,一些設計通過空氣將熱量從伺服器機箱交換出去,而另一些設計則需要在機架或行級使用熱交換器將熱量傳輸到主冷卻回路,具體見圖3冷板液冷系統原理圖。▲ 圖3 冷板液冷系統原理圖CDU是液體冷卻系統中必不可少的元件,可在整個系統中均勻分配冷卻液。CDU建立了一個獨立的二次側回路,與提供室外散熱的一次側回路隔離開,並調節和控製冷卻液的流量以保持二次側回路所需的溫度和流量。其次,CDU要採用高耐腐蝕性的不鏽鋼材質,確保與冷卻液的完美相容,有效防止腐蝕。設計上尤其要注重關鍵器件的冗餘備份,如電源、泵、感測器及過濾器等,確保系統在任何情況下都能穩定運行。同時,CDU需內建精準溫控系統,能有效消除伺服器CPU和GPU的熱衝擊問題。此外,配備補液罐以滿足長期運行需求,並設有自動排氣裝置以排除空氣,保持冷卻效率。1)供液溫度冷板液冷系統的供液溫度設計需充分考慮不同晶片及伺服器製造商的特定要求,如Dell可能接受高達32℃甚至更高的供液溫度,而Nvidia則設定在25℃至45℃的較寬範圍內。需要注意的是,必須嚴格避免供液溫度過低,以防止水蒸氣凝結現象的發生,這可能嚴重損害IT裝置的正常運行。此外,系統還需具備強大的穩定性,確保在一次側流量出現波動時,二次側仍能維持穩定的供液溫度,以保障整體散熱效能與裝置安全,見圖4所示。▲ 圖4 一次側流量波動,二次側仍可保障穩定供液溫度2)供液流量冷板液冷系統的供液流量設計是確保高效散熱與穩定運行的關鍵環節。CDU(冷量分配單元)在此過程中扮演著核心角色,負責精確調控一次流體與二次流體的流量。具體而言,二次流體需維持穩定的流速進入IT裝置,以在裝置滿載時能夠有效從冷板中帶走所有熱量,保持IT入口溫度的恆定。同時,一次流體的流量則根據需散熱的熱量動態調整,並依據CDU的接近溫度(ATD)進行調整,見圖5所示。▲ 圖5 一次側流量波動,二次側仍可保障穩定回液溫度為了確保流量控制的精準性,系統要採用壓差控制並輔以即時監控,以確保系統中的洩漏不會導致壓力下降。此外,通過CDU內,泵與電源的冗餘設計,系統能夠在關鍵業務場景下保障流量的連續供應,進一步提升整體系統的可靠性與穩定性。3)過濾要求冷板液冷系統要求冷卻液順暢通過冷板內極其微小的通道,這些通道的寬度可精細至低於50微米,甚至達到30微米以內。堵塞不僅會限制流量,甚至可能完全中斷IT裝置的冷卻,導致維護成本急劇上升,因此系統對冷卻液的過濾精度提出了嚴格標準。通常,這一精度需低於冷板通道的最小尺寸,業界經驗傾向於採用25微米或更細的過濾等級。此外,為確保系統長期保持清潔狀態,CDU(冷量分配單元)需持續進行線上過濾,這是維護系統高效運行與延長使用壽命的關鍵措施。4)流體選擇在設計冷板液冷系統的初期,選擇合適的流體化學成分及可靠的供應商非常重要。一旦確定流體策略,後續的任何更改都將涉及繁瑣且成本高昂的清洗與淨化過程。此外,流體的選擇還會在偵錯階段帶來顯著複雜性,包括循環測試、雜質沖洗以及系統氣泡的排除,這些工作對於每台伺服器及整體解決方案的順利運行都至關重要。在整個系統使用周期內,對液體的持續關注同樣不可或缺,需定期進行pH值、外觀、抑製劑濃度及污染物水平的檢測,以確保其性能穩定與系統的持續高效運行。同時,所有冷卻液均需遵循嚴格的儲存與處理規範,並配備適當的個人防護裝置以保障操作安全。在冷板液冷系統的二次側流體選擇中,存在三種主流方案。首先,去離子水配方液換熱效果優越,然而其腐蝕風險不容忽視,需採取額外措施加以防範。其次,乙二醇配方液雖具備一定的防腐能力,但其毒性相對較大,且在環保要求較高的地區,其排放處理成為一大現實問題。最後,丙二醇配方液作為Intel、Nvidia等業界巨頭推薦的選擇,由於其防腐效果更好,成為眾多使用者信賴的優選方案。在選擇時,需綜合考慮流體性能、成本、環保要求及安全性等多方面因素,以做出最適合自身需求的決策。5)故障預防和檢測在冷板液冷系統中,除了二次流體網路內其他感測器的監測外,CDU的嚴密監控與管理是預防並儘早發現故障的關鍵。資料中心尤為關注洩漏問題,大部分洩漏案例發生在manifold與伺服器軟管快速斷開附件處,對IT裝置影響很小。但伺服器機箱內部的洩漏,特別是發生在內部manifold、軟管與冷板之間的洩漏,則對IT裝置構成重大威脅。因此,實施額外過濾與感測器在內的防錯系統至關重要,這些措施不僅能在熱交換性能下降時提供預警,還能有效遏制人為錯誤導致的污染物增加或液體質量漏檢風險,從而全面提升系統的穩定性與安全性。液體輔助DTC冷卻:機箱級、閉環的獨立產品,帶有冷板、泵和散熱器,針對處理器的局部熱點。熱量通過伺服器內部的液體-空氣熱交換器消散。與液體-液體DTC冷卻相比,這種液體輔助DTC產品不需要和伺服器外部的液體進行熱交換,也不需要CDU或其他液體基礎設施或對現有基礎設施進行修改,同時能夠解決高密度點。全液冷板冷卻:目前大部分DTC冷卻伺服器僅覆蓋高功率、高發熱部件,如中央處理器(CPU)、圖形處理器(GPU),其他部件仍需通過風扇提供的氣流進行冷卻,包括記憶體、儲存、硬碟驅動器/固態驅動器、外圍元件互連高速通道/開放計算項目(OCP)卡和電源單元。全液冷板冷卻配置將為所有部件配置冷板,並使用液體進行冷卻,完全消除風扇,進一步提高電源使用效率(PUE)。根據執行階段液體的狀態,DTC還可以進一步分為單相和雙相兩類。在單相系統中,液體冷卻劑始終保持液態。在雙相系統中,液體冷卻劑蒸發以將熱量從液體中轉移出去,然後通過熱交換器冷凝並轉換回液態。負壓液冷:有三個氣密性較好的液腔,分別是主真空腔、儲液腔、輔真空腔。主真空腔和輔真空腔交替保持高真空度確保工藝冷媒從伺服器冷卻環路流回,儲液腔保持較低的真空度使工藝冷媒流進伺服器冷卻環路。二次泵採用低揚程潛水泵,安裝於儲液腔內部,當檢測到二次側供液溫度低於機房的露點溫度時,潛水泵將停止工作以確保不會有凝露產生。配有真空泵等負壓系統(包含氣液分離器、消音排氣口,空氣流量感測器),用以保證三個腔體的真空度。三個腔體各配有兩個氣動開關閥,一個接通真空泵,另一個接通大氣相連的氣液分離器,用於控制各個腔體的真空度,以確保液體順利循環。伺服器不同,伺服器運行的冷卻液體溫度不同。根據水溫,冷板液冷有不同的製冷系統架構設計方案。當一次側水溫在W32及以下時,一次側冷源不能完全依靠冷卻塔全年供應,需要補充額外的機械製冷,即冷凍水冷源機組,常見可用的冷凍水冷源機組有水冷冷水機組、風冷冷水機組等。1)同源液冷方案和風冷部分均採用冷卻塔同源冷卻塔方案,不同末端例如液冷部分(XDU)以及水冷型空氣處理機組(AHU)等所需負荷都由同一冷卻塔進行供應。2)非同源液冷方案採用冷卻塔,風冷部分採用機械製冷或冷機非同源方案,包括高水溫不同源風冷和高水溫不同源冷凍水方案。當採用不同源風冷補冷方案時,精密空調和液冷CDU分別採用不同的冷卻塔或乾冷器;當採用不同源冷凍水方案時,空氣處理機組(AHU)冷源採用冷水機組,液冷部分(XDU)冷源採用冷卻塔,見圖6所示。▲ 圖6 風液混合系統製冷架構3)風液方案:機房已有風冷精密空調裝置,需要部署少量液冷機櫃,此時集中式風液型CDU方案是優選方案。CDU和液冷機櫃間通過軟管連接,液冷伺服器中的熱量通過冷板,Manifold,以及管路傳遞至風液CDUSB 隨身碟管,最後散至機房,再通過機房空調將所有熱量帶至室外,見圖7所示。▲ 圖7 風液方案系統製冷架構在做液冷方案選擇時,需要考慮伺服器可接受的冷卻液溫度,以及機房條件,來選擇適合的製冷系統架構方案。在當前的AI算力範式下,擴大算力的一個基本邏輯是不斷提高“堆疊”密度,由此帶來(單位空間內)的能量密度持續上升,將進一步推動液冷技術的應用。基於此,對於未來智算中心液冷技術發展方向可以概括為以下兩點:目前主流的冷板式液冷仍然存在較大比例的熱量需要風冷解決,這對智算中心的複雜度造成了很大影響。進一步降低風冷佔比,是進一步提升單機櫃功率密度、降低資料中心複雜度的迫切需要。傳統冷板方案可進一步最佳化伺服器和冷板設計,將主要發熱器件儘可能使用冷板散熱,單相浸沒式液冷、全覆蓋冷板液冷也是可以大力發展的方向。單相浸沒式液冷在解決高功率晶片擴熱問題後,可以實現100%液冷。全覆蓋冷板方案可以較好地適配AI伺服器,而不用考慮普通伺服器的通用性要求。進一步降低風冷佔比後,可能會面臨以下難點:晶片層面由於製程改進的效果越來越有限,利用先進封裝技術將多個較小的晶片拼裝為一體的Chiplet技術正得到普遍的應用,其中的一個重要趨勢是3D堆疊,這意味著單位面積上的電晶體數量會繼續高速增長,如何將晶片封裝內的熱量有效的傳匯出來,將成為行業面對的一大挑戰。機櫃層面以NVIDIA GB200 NVL72為代表的解決方案目前採用風液混合模式,櫃內互聯採用大量的銅纜,對散熱風道的設計形成了一定的阻礙。隨著機櫃功率的進一步提高,需要提高冷板在各節點內的覆蓋率,向全液冷的方向演進。隨著AI晶片功率的進一步提升(1500W-2000W以上),風冷散熱器已達瓶頸(1000W),單相水冷板也將很快到達散熱能力瓶頸(1500W),相變散熱技術是必然的方向,包括相變浸沒液冷和相變冷板液冷。相變冷板又包括泵驅兩相(Pumped twophase)冷板和自驅動兩相(Passive 2-Phase)冷板等方向。相比較而言,泵驅兩相冷板國外有較多的研究,但其複雜度較高、可靠性問題比較難以解決;自驅動兩相冷板的技術基於環路熱管(LHP)技術,挑戰更大,但其具有解熱能力強、高可靠、易維運、長壽命等優點。 (零氪1+1)
AI圈都在緊張:一塊GPU能撐幾年?
過去三年,AI 行業就像在開加速掛。模型越跑越大,資料中心越建越多,輝達的股價越飛越高。但就在全球科技巨頭準備在未來五年砸下 1 兆美元造 AI 資料中心時,一道靈魂提問突然冒出來:一塊 GPU,到底能撐幾年?就是這麼一個看起來挺小的硬體壽命問題,已經成為了影響 AI 行業的最刺激、最敏感、最能影響股價的 KPI。包含在投資人、高管在內的各界人士似乎都在試圖判斷核心裝置的使用壽命。而讓人焦慮的是,這個問題沒有正式的標準答案。其中,Google、Oracle 和 Microsoft 給出的伺服器壽命最高可達 6 年,而像做空者 Michael Burry 這樣的懷疑者認為沒那麼長,可能也就 2~3年。AI圈都在緊張的一個問題當全球 Top 的一批公司計畫在未來五年投入 1 兆美元建設 AI 資料中心時,有一個項目讓高管與投資人都格外緊張:折舊。過去十年,伺服器、儲存裝置這些老貨都能用 5 到 7 年,大夥都心裡有數。但 GPU 不一樣。三年前才開始狂買,沒人知道它們到底能用多久、不值錢得有多快。“折舊”,顧名思義,就是將一項硬體資產的成本分攤到預計可用壽命內,在科技行業經常被提及且很關鍵。因為企業要預測它們購入的幾十萬張輝達 GPU 能使用多久、價值能保留多久。簡單理解:折舊=資產壽命。壽命越長,利潤越好看;壽命越短,利潤“啪”一下蒸發。如果你有關注過,你甚至會發現市面上對於GPU的折舊有完全不同的看法。AI GPU:一個全新的折舊難題AI GPU 在市場上的歷史還很短。輝達面向資料中心的首批 AI 晶片於 2018 年發佈,而真正讓 GPU 市場爆發的是 2022 年底 ChatGPT 的誕生。此後,輝達資料中心收入從 150 億美元飆升到截至 1 月的財年裡的 1152 億美元,足足十倍。“是三年、五年還是七年?”Latham & Watkins 的副主席 Haim Zaltzman(長期從事 GPU 融資業務)表示,目前沒有可參考的長期使用記錄,這對融資影響巨大。樂觀派:6年!業內不少巨頭給出的答案比較統一:6年!Google、Oracle、Microsoft 等基礎設施巨頭認為其伺服器可以用長達 6 年。但微軟似乎最近有所調整:它們也可能更快折舊——微軟在最新年度檔案中稱其計算裝置的壽命為 2 至 6 年。此外,一些輝達客戶認為 AI 晶片會長期保值,因為舊 GPU 對部分任務仍有需求。CoreWeave(大量採購 GPU 並出租)自 2023 年以來一直按照 6 年折舊周期來計提。CoreWeave CEO Michael Intrator 表示,他們對 GPU 壽命的判斷是“資料驅動”的。他曾對外表示,公司手上的 A100(2020 年發佈)全部租滿,還有一批因合同到期而釋放出來的 H100(2022 年發佈),立即以原價 95% 的水平售出。“所有的資料都在告訴我,這些基礎設施是保值的。”不過,市場卻啪啪打臉。CoreWeave 在財報後股價仍跌了 16%,今年高點以來已跌去 57%,反映了市場對 AI 過度投資的擔憂。Oracle 也從 9 月高點跌去 34%。懷疑者:GPU 只能用 2 到 3 年?最激烈的懷疑者之一是著名做空者 Michael Burry,他最近披露了自己正在做空輝達和 Palantir的倉位。為什麼?Burry 認為 Meta、Oracle、Microsoft、Google 和 Amazon 都高估了 AI 晶片的使用壽命,從而低估折舊。他認為伺服器的真實壽命只有 2–3 年,這會導致企業利潤被“虛高”。對於這個言論,Amazon 和 Microsoft 拒絕了回應;Meta、Google 與 Oracle 也尚未置評。黃仁勳暗示:前代 GPU 會提前“過氣”!AI 晶片可能在 6 年內貶值,原因包括:硬體磨損技術更新太快導致迅速過時雖可運行任務,但成本效益大幅降低輝達 CEO 黃仁勳早已有暗示。當輝達發佈新一代 Blackwell 時,他調侃說上一代 Hopper 價值會暴跌:“當 Blackwell 大規模出貨時,你根本送不出去 Hoppers。”“雖然還有些場景 Hopper 能用……但不多。”輝達現已從兩年一代加速到一年一代,AMD 也同步提速。亞馬遜今年早些時候還將部分伺服器資產的壽命從 6 年調降至 5 年,理由是 AI 技術迭代速度更快。與此同時,其它雲廠商卻在拉長新伺服器的壽命預估。微軟:別在單代 GPU 上“押重注”關於這個問題,微軟 CEO 納德拉在本周表示,公司正刻意拉開 GPU 採購節奏,不願在單一代產品上投入過多。他指出,現在輝達新舊 GPU 的競爭更激烈。“我們最大的經驗之一是輝達遷移速度變快了。我不希望被某一代 GPU 的 4–5 年折舊周期套住。”其實,說到底,還是這個行業發展實在太快了。首先,納德拉也提到了,輝達的發佈節奏從兩年一代變成了一年一代。即便硬體壽命沒變,但價值衰減速度暴漲。其次,雖然推理成本可以降低,但代際更新的GPU顯然,速度更快。而舊的 GPU 能跑,但速度變慢、整體下來的算力成本卻會變高,經濟上不划算了。再者,二手市場需求變幻莫測。有些行業用舊卡完全夠用,有些任務必須用最新架構。這就形成了極其神奇的價格波動。所以 GPU 並不是物理壽命上的壞掉,而是從實際業務上不划算了:“還能跑,但跑得不值錢。” (51CTO技術堆疊)