#GPU
AI圈迷上瘋狂“煉金術”
最新跡象顯示,海外科技公司正越來越多地轉向以晶片為抵押的貸款來籌集資金,用於它們龐大的AI投資。這些晶片正是訓練其大型語言模型的核心。此類貸款往往以GPU作為抵押,並由科技集團的租賃協議提供擔保,在AI軍備競賽中廣受歡迎。該行業目前每年都會在晶片領域耗資數千億美元,儘管這些晶片往往很快就會過時。而越來越多的投資者眼下也正被高達7%-17%左右的誘人收益率所吸引,這類貸款收益率通常高於科技公司自身發行的債務。“投資者非常興奮,”King & Spalding律師事務所專門從事金融與重組業務的合夥人David Ridenour表示,“人們甚至願意接受‘概不議價’的條款,擠破頭也要擠進這些GPU交易中。”GPU融資徹底火了自2023年末雲端運算服務商CoreWeave開創先河以來,隨著高端晶片需求激增與價格飆升,GPU抵押債務正日益普及。據花旗集團估算,GPU及配套伺服器可佔資料中心項目總成本的30%至40%。此類貸款通常由科技公司和投資機構設立的特殊目的載體(SPV)承接,用於批次採購高性能晶片,隨後租賃給科技企業用於訓練人工智慧模型。這種安排使得債務規模迅速增長的大型科技集團,能夠將這些貸款從其公司資產負債表中剝離。上月,阿波羅宣佈為Valor Equity Partners管理的數字基礎設施基金提供35億美元融資方案,該基金將購入輝達的GB200晶片並租賃給馬斯克旗下的xAI公司。人工智慧雲服務提供商IREN Limited本月早些時候也從高盛和摩根大通獲得36億美元貸款承諾,用於採購與微軟AI合同相關的晶片。據熟悉GPU融資的律師透露,此類交易中貸款方往往需迅速行動並開出大額支票。“大型機構基本會這樣問:‘你是否願意參與一個兩周內結項的交易,並投入幾億美元?’”該律師表示。而此類貸款的日益盛行,也凸顯了投資者對資產擔保型融資的渴求——銀行與私募信貸基金正尋求以穩定現金流為擔保的特殊債務。這些交易通常會包含一項“不可撤銷條款”(hell or high water),防止科技公司提前終止租賃。這有助於降低因AI技術快速演進導致GPU過時的風險。最大風險:GPU折舊?然而,部分投資者仍擔憂GPU的經濟壽命可能短於預期,且由於該新興產業缺乏價格歷史資料,老舊AI晶片的市場價值往往存疑。一些投資者還表示,目前的估值也可能因短期晶片供應短缺而被人為推高。橡樹資本結構化信貸策略主管Jen Marques強調:“我們必須確保GPU的使用壽命遠超投資攤銷周期。”一位多次拒絕GPU融資提案的投資者坦言:“這類裝置往往三年內就會過時,這簡直是場豪賭。”該投資者進一步指出:“(違約後)轉售幾年前的GPU,就像是在鞭打一匹死馬(意指徒勞無功)。”“這是一個非常新的領域,很多人都在努力應對GPU壽命的問題,”A&O Shearman律師事務所美國能源、基礎設施與自然資源聯席主管Dorina Yessios則表示,“這必須納入承銷考量,就像其他裝置融資一樣。”目前,三大評級機構之一的穆迪也已開始對GPU擔保債務進行評級,並聲明一旦基礎租賃期結束,它就會撤銷信用評級。穆迪全球項目與基礎設施融資團隊的高級副總裁John Medina表示,“通常情況下,我們評級的交易在首個租賃期內就會償還所有資金,因此你無需考慮(GPU)使用壽命的期限。” (財聯社AI daily)
曾經高不可攀的H100 GPU,如今1.5折在平台出售,是什麼泡沫破了?
舊時王謝堂前燕?金融博主twi@HedgieMarkets 的一條推文引發了討論,曾經曾經售價高達 40,000 美元(約合 29 萬人民幣)的 H100,目前在 eBay 等二手平台上的成交價已跌至 6000 美元(約合 4.3 萬人民幣)左右,這些並不是像鹹魚上的壞件,而是真實可用的顯示卡。四年間,這一尖端人工智慧加速器跌幅高達 85%。為什麼 H100 跌得這麼慘?這並非因為其性能絕對值變弱了,而是因為在 AI 推理的戰場上,它的單位成本已經讓它被淘汰。原推文中提到,採用H100進行模型推理(也就是我們給模型提示詞,然後它們輸出內容)的成本約是新一代 Blackwell (B300) 的 11 倍。實際上,這個倍率還是綜合的保守數字,在semianalysis給到的資料中,GB200 NVL72在FP4性能上提高了98倍,這其實也是為什麼牢黃一直說“買的越多,省的越多”。經濟學家David McWilliams在接受《財富》採訪時表示,“對圖形處理器(GPU)的大規模投資存在問題,因為它就像【數字生菜】,很快就會枯萎——你投資的是一種易腐爛的商品。”這些尖端的GPU實際上在安裝進機房的同時就開始貶值。而對於追求極致效率的算力服務商來說,在看到新一代硬體以多倍效率碾壓姿態登場時,繼續持有 H100 意味著每跑一秒鐘都在虧錢,因為對手正用著營運成本僅為數十分之一的新一代硬體。實際上,這一現象也在揭開各大巨頭財報中的隱憂,各家科技巨頭們正在通過將這些 GPU 的折舊時間延長至 5-6 年,來掩蓋真實的資產貶值損失。然而,現實是殘酷的,輝達現在維持著“一年一更”的瘋狂節奏。當 Blackwell 甚至即將到來的 Rubin 架構以數倍的性能跨度入場時,那些帳面上還值數萬美元的 H100,在二手市場上其實只值一輛二手車的價格。這種帳面價值與市場價值的巨大鴻溝,已成為未來財報中巨額資產減值的伏筆。那既然貶值如此之快,為什麼微軟、Meta、Google等巨頭依然在源源不斷地訂購 B200 甚至還未出爐的Rubin?即使這些訂單在交付時可能就已經“過時”了?事實就是,時間才是這場競爭中的唯一硬通貨,在大模型競賽中,晚半年拿到算力可能意味著錯過整個時代。而在這些資料中心的基建中,也存在著客觀慣性,現代化資料中心的液冷設施和電力配額是提前相當長周期規劃的。即便 Rubin 更好,現在的機房只能跑 B200或者更老的H200。同時,持續購買當下的產品,往往是獲取下一代產品(如 Rubin/Feynman)優先供應權的“投名狀”。這釋放了一個什麼訊號?在提供那些二三線的雲服務商中,如果是加槓桿炒作算力,顯然要因為頂層競爭神仙打架(燒錢)的快速迭代而面臨破產洗牌。而由於這些曾經的頂級晶片快速淘汰,對中小企業和學術界是極大的利多。頂級算力正在從“奢侈品”變成“通用物資”,這預示著 AI 應用將迎來真正的爆發。或許我們再過四年五年,這些曾經高不可攀的算力晶片就會成為“大船貨”,以極其低廉的價格,成為我們垃圾佬的“二奶機”“三奶機”的一部分,搭建本地的家用算力伺服器。 (AMP實驗室)
VC投資人:苦熬三年,我終於拿到年終獎了
Lee收到了一條好消息,“年終獎到帳了。”作為一家VC機構的投資總監,Lee帶著一絲久違的輕鬆:“數額……大概追平了兩年前吧。”他頓了頓,“你知道,前兩年基本上沒有。”2023年,Lee主導投出的三個明星項目兩個瀕臨破產,機構全年顆粒無收,年終獎自然成了泡影;2024年,情況略有緩和,但獎金也僅象徵性地發了張千元購物卡,聊勝於無。轉折發生在剛過去的2025年,Lee早期押注的一家AI邊緣計算公司,乘著智能硬體與行業數位化的東風,業績狂飆,不僅順利完成新一輪融資,也進入了券商輔導期,上市曙光初現。正是這樣一個「活過來」的項目,盤活了他整個portfolio,也讓他時隔兩年,再次觸摸到了那份屬於投資人的、沉甸甸的「確定性」回報。不能不說,過去一年是充滿亮點的一年。宇樹與DeepSeek出圈,影石成功上市,大疆穩坐龍頭,多家GPU上市紛紛撬動千億市值,商業航太起飛……一批新創公司借勢而起,資本也隨之密集湧入。這份行業的蓬勃生氣,最後在歲尾時分,化為實打實的年終獎,落進了口袋。坊間傳聞,拓竹發放9個月年終獎,金額達到45萬元,最高超200萬元;大疆核心技術崗位接近30萬元;在公司狂撒20萬元的影石,依然豪氣;追覓宣布加碼年終獎,直送十名核心骨幹南極遊,還額外獎勵全體員工每人1克黃金……這份精進員工中給了那些精悅機構。「一時間,有種往日重現的感覺。」一位投資人感慨。曾幾何時,動輒十多個月薪資的年終獎,是外界對PE/VC產業「金領」標籤的想像來源。然而周期的巨輪碾過,盛宴散場,那份誇張的獎酬也大多隨之縮水或塵封。但2025年,一批押注精準的機構,終於迎來了屬於自己的豐收季。 VC投資人們,也終於能從容地撣去身上的塵灰,在帳戶上看見一筆久違的數字。一、“2025年,投一個成一個”2025年,對VC合夥人Ying來說體感強烈。他的機構在2024年經歷了難熬的“荒年”,“看了一整年,一個項目沒出手,團隊裡走的走,散的散,多少有些低氣壓。”然而時間步入2025年,形勢發生了逆轉,“投一個成一個。”他列舉了兩個例子。一個2025年初才敲定的AI應用項目,此刻已在緊鑼密鼓籌備IPO,帳面浮盈是當初投入的五六倍。還有一家專注認知智能的企業,估值在一年內完成了從4億元到80億元的「撐竿跳」。另一位VC合夥人Wang也有同感。他用更簡潔的語句概括了他們的晶片賽道戰績:「幾乎是100%中獎。」此外,還跑出了一個超回報項目,「總體比預期好很多」。數據顯示,2025年全年,由VC/PE機構支持並在境內外成功上市的中國企業數量達164家,背後所涉及的投資機構超過900家。這其中,既有收穫超過10個IPO項目的頂級機構,也有憑藉一兩個明星項目便斬獲傳奇回報的幸運兒。若加上所有中企IPO(包括非VC/PE背景),僅A股市場全年新增上市公司就達到116家,資本市場為一級市場提供退出通道的意願和力度,由此可見一斑。數字背後,也代表投資人滾燙的帳面報酬。例如,我的同事之前也寫過,中國國產GPU巨頭摩爾線程上市首日暴漲425%,市值突破2800億元,讓早期一筆僅190萬元的天使投資,帳面價值飆升至近119億元,創造了超過6200倍的回報神話;與其相隔僅十餘日登陸科創板的沐曦股份,開盤暴漲近569%,也為背後的紅杉中國、經緯創投等機構帶來了數十億乃至上百億元的豐厚帳面回報。「2026年的投資,也會是紅紅火火的一年。」Ying判斷,支撐他背後的邏輯是:「一二級市場聯動,我們帳上賺了錢,LP看到真金白銀的回報,自然更有信心和意願做新一輪的資產配置。信心,有時候比黃金還流動得快。」「我目前的感受是,LP的錢明顯變多了。」Wang說,尤其是高淨值客戶,「聊完可能立刻就能打款」。感受明顯的還有Jack。身為IR負責人,接近春節,Jack剛完成一個大單。 「今年體感比去年強很多。」他對比道,“以往跟LP溝通,往往是問得多,真到決策時就沒了回音。今年反過來了,很多LP主動找上門,問我們手頭有沒有某幾個熱門賽道的份額。”尤其是商業航太的IPO份額,除了各大風投在搶,直接帶著公章現場打款,也有個人LP主動找到Jack,問:“它有可能會成為下一個XX(知名項目)嗎?”二、那隻「看得見的手」與價值重估這波「富貴」來得如此迅猛、如此廣泛,以至於許多身在其中的人都感到一絲「不真實」。「說實話,這波收穫比我們預想得更快,也更大。」Wang坦言。Wang以自己投資的晶片專案為例複盤:當初投資時,團隊以寒武紀的歷史市值作為估值錨點,來推算未來的退出空間和當下可接受的入股價格。 「但我們保守了。」如今,沐曦、摩爾等一批後起之秀站上千億市值,表現之強勁,已非昔日標竿所能簡單框定。這「富貴」不僅超乎預期,其降臨的方式也為Wang帶來了衝擊感。他分享了兩則故事。故事一,關乎曾經受爭議的機構。前兩年,它接下某區政府的引導基金,按照要求,將大量資金投向了當時尚顯冷清的低空經濟與航空航天領域。業界不乏冷眼與嘲諷,視其為“接盤俠”,專投“市場上的爛項目”。誰曾想,風雲突變,政策東風吹起,這些曾被低估的硬科技項目瞬間變成炙手可熱的稀缺資產,個個卡在產業鏈關鍵節點。如今,該機構合夥人終於可以揚眉吐氣,連當初拍板出資的區委書記也因前瞻佈局而政績斐然,笑談:“你看,我們區現在從螺絲釘到火箭發動機都有佈局,馬上就能攢出一顆衛星打上天了。”故事二,則關於另一家管理百億規模政府引導基金的機構。當時的投資條款相當嚴格,必須從一份政府提供的「白名單」中選擇項目,且重點偏向高端裝備與航空航天。名單上的企業,大多是在純市場化融資中舉步維艱、甚至「半死不活」的狀態。該機構的合夥人當初內心不乏無奈,私下想法是:「這基金就當不賺Carry了,保住管理費,完成任務就行。」於是,在某種「半推半就」中,他們向這些項目押注了數億元資金。命運的轉折來了。如今,這些當年無人問津的公司,紛紛成為科創板閃亮的儲備項目,估值動輒數百億、上千億元。當初以10倍甚至更低市盈率投入的數億元,如今潛在回報驚人。 「弄不好,這個當初最不被看好的基金,反而會成為我們Carry賺得最多的一隻。」該合夥人如今回想,唯有唏噓。Ying也講述了一個類似案例:一家商業航太公司,從2024年到2025年10月,創辦人踏破鐵鞋,磨破了嘴皮,依然融不到一分錢。老闆抵押了房產,甚至一度借過高利貸維持公司運轉,瀕臨絕境。 “到了11月,突然就像變魔術一樣,大合約簽了,預付款打了,公司一下子又活過來了。”這一切的轉捩點,是國家層級關於鼓勵商業航太發展的重磅政策文件出台了。「國家政策一鼓勵,錢就嘩啦啦地往那個賽道湧。」Ying感慨道,市場決策者這只強大而清晰的“手”,在主導著這場超出許多市場派VC預料的“富貴”。在複盤中,Wang也有了更深的思考:這輪收穫期,對人民幣基金固有的估值體系與價值判斷其實產生了不小的衝擊。 “我們開始反思,到底什麼樣的項目才算真正'有價值'?”過去,市場化VC更重視清晰的商業模式、可驗證的營收成長、快速的用戶資料這些實打實的東西。而現在,他們不得不重新審視「國家戰略」這個詞所蘊含的,磅礴而確定的市場價值。Wang認為,目前的投資邏輯和以往不同,實際上並行著兩條線:一條是市場自發選擇、優勝劣汰的「明線」;另一條,則是順應大國崛起脈絡、嵌入國家現代化產業體系佈局的「暗線」。前者貼近產業,考驗產業洞察;後者要往大處著眼,需要挑出主線。「大部分投資人,恐怕早已連夜研究十五五規劃了。」Wang笑了笑,新財富的盛宴或許才剛開席,但懂得抬頭看「天氣」的人,才能決定自己下一副刀叉,該伸向那裡採擷果實。 (虎嗅APP)
CPO:AI 算力爆發下的通訊革命,美股 A 股受益標的全解析
當 AI 大模型訓練進入千億參數時代,GPU 叢集的通訊效率成為算力突破的關鍵瓶頸。傳統光模組就像 “外接 U 盤”,雖能滿足基礎資料傳輸,但在超大規模叢集中面臨功耗高、latency高、頻寬不足的痛點。而CPO(Co-packaged Optics,共封裝光學)技術的出現,如同將 “U 盤” 直接整合到 “主機板”,徹底重構了 AI 資料中心的 interconnect 架構,成為開啟下一代通訊革命的核心鑰匙。一、CPO 到底是什麼?—— 從 “外接” 到 “內建” 的通訊升級簡單來說,CPO 技術是將光學引擎與交換機 ASIC 晶片直接封裝在一起,讓光訊號無需經過傳統的電纜和連接器傳輸,直接在晶片層面完成光電轉換與資料交換。如果把資料中心的通訊網路比作城市高速公路網,傳統光模組相當於 “長途收費站”,資料傳輸需多次轉換訊號、排隊等待;而 CPO 就像 “城市快速路直達系統”,跳過中間環節,實現資料 “門到門” 高效傳輸。與傳統光模組相比,CPO 的核心優勢體現在三個維度:功耗革命:傳統 800G 光模組每連接埠功耗約 16-18W,而 CPO 通過縮短互連距離,功耗可降至 5pJ/bit,僅為傳統方案的 1/4,完美解決超大規模叢集的散熱難題;頻寬躍升:單晶片封裝整合多個光引擎,Nvidia Quantum X800 CPO 交換機已實現 115.2Tb/s 的交換容量,是傳統交換機的數倍;成本最佳化:減少了 DSP 晶片、連接器等中間元件,長期來看可降低 30% 以上的綜合部署成本,同時節省機房空間。二、CPO 的核心技術:三大支柱撐起通訊革新CPO 並非單一技術突破,而是光學、晶片、封裝三大領域的協同創新,核心技術包括三大支柱:1. 矽光子學(SiPh):通訊的 “矽基底座”矽光子學是 CPO 的核心載體,它利用 CMOS 工藝將雷射器、調製器、探測器等光電器件整合到矽基晶片上,就像在矽片上搭建 “光訊號高速公路”。與傳統 InP 基光器件相比,SiPh 具有成本低、功耗小、可大規模量產的優勢,更適合與半導體晶片協同封裝。目前 SiPh 在 800G/1.6T 光模組中的市場份額已從 2018 年的 10% 飆升至 2024 年的 33%,預計 2026 年在 1.6T 領域佔比將達 60-70%。2. 共封裝整合:打破 “光 - 電” 壁壘共封裝技術是 CPO 的靈魂,核心是將光學引擎與交換機 ASIC 晶片的距離縮短至 50mm 以內(傳統方案為 150mm 以上)。這種 “貼身設計” 減少了電訊號傳輸損耗,避免了傳統方案中訊號在光模組與晶片間的多次轉換。Nvidia 的 Quantum X800 CPO 交換機採用 3D 堆疊封裝,將光學引擎直接倒裝在交換機晶片表面,實現訊號零衰減傳輸。3. 關鍵元件突破:FAU 與 CW 雷射CPO 的穩定運行依賴兩大關鍵元件:一是 FAU(Fiber Array Unit,光纖陣列單元),負責將多路光訊號精準匯入晶片,相當於 “光訊號分配器”,蘇州 TFC 是全球核心供應商;二是 CW(Continuous Wave)雷射,作為矽光子 transceiver 的光源,解決了傳統 EML 雷射晶片的供應短缺問題,Lumentum、Sumitomo Electric 是主要提供商。此外,薄膜鈮酸鋰(TFLN)調製器、相干光傳輸等技術的突破,進一步提升了 CPO 的性能上限。三、CPO 落地周期:2026-2030 年黃金成長期從技術成熟度到規模商用,CPO 正經歷三階段落地處理程序,目前處於從 “技術驗證” 到 “規模部署” 的關鍵轉折期:1. 萌芽期(2024-2025):技術驗證與小批次試點2024 年 Broadcom 推出 Tomahawk 5 CPO 交換機(51.2T 交換容量),2025 年 Nvidia 在 GTC 大會發佈 Quantum X800 CPO 交換機,標誌著技術已具備商用基礎。這一階段主要應用於頭部雲廠商的超大規模 AI 叢集試點,Meta、Google、AWS 等已開始小規模部署,市場滲透率僅 1% 左右,CPO 交換機市場規模約 4.25 億美元。2. 成長期(2026-2027):規模部署與滲透率躍升隨著 1.6T 光模組升級加速,CPO 將迎來規模化商用。Nvidia 計畫 2026 年推出 Spectrum-X 乙太網路 CPO 交換機,支援 102.4Tb/s 容量,可連接 10 萬個以上 XPU;Google TPU v7 叢集也將全面採用 CPO 架構。預計 2027 年 CPO 在 AI 交換機市場的滲透率將達 8%,市場規模突破 53 億美元,年複合增長率超 500%。3. 成熟期(2028-2030):全面普及與技術迭代2030 年 CPO 滲透率預計將達 20%,成為超大規模 AI 資料中心的標配,市場規模將增至 131 億美元。屆時 CPO 將與 LPO(線性可插拔光學)、OCS(光電路交換)等技術融合,進一步突破傳輸距離限制,支撐百萬 GPU 規模叢集的通訊需求。四、受益標的全解析:美股 A 股核心玩家圖譜CPO 產業價值鏈涵蓋晶片、光學元件、封裝測試、裝置整合等環節,美股 A 股湧現出一批核心受益標的,各自佔據關鍵賽道:美股:技術引領與生態主導Broadcom(AVGO)CPO 晶片絕對龍頭,Tomahawk 6 CPO 交換機支援 102.4T 容量,已進入 Meta、Google 供應鏈,佔據全球高端交換機晶片市場 60% 以上份額;Nvidia(NVDA)CPO 生態主導者,Quantum X800 CPO 交換機已量產,通過 NVLink Fusion 開放生態,帶動產業鏈上下游協同發展;Lumentum(LITE)CW 雷射晶片核心供應商,佔據全球高功率雷射市場 40% 份額,CPO 所需的 100mW/200mW CW 雷射出貨量全球第一;Coherent(COHR)相干光元件龍頭,提供 CPO 所需的光調製器、探測器等核心器件,同時佈局 OCS 技術,形成協同優勢;Corning(GLW)高端光纖與 MPO 連接器領導者,CPO 交換機所需的高密度光纖陣列產品市佔率超 30%,與 Nvidia 深度合作。A 股:元件突圍與細分龍頭中際旭創(300308)全球光模組龍頭,800G/1.6T 光模組市佔率全球第一,CPO 光引擎已完成樣品測試,受益於 1.6T 升級與 CPO 量產雙重紅利,目標價 799 元;天孚通訊(300394)FAU(光纖陣列)全球龍頭,Nvidia Quantum X800 CPO 交換機的核心供應商,CPO 相關產品 2026 年預計貢獻營收 2.32 億元,目標價 243 元;通宇通訊(300570)MPO 連接器與 shuffle box 核心廠商,通過 Corning 進入 Nvidia 供應鏈,CPO 相關產品 2027 年營收佔比將達 12%;長飛光纖(6869.HK)中空光纖(HCF)領導者,中空光纖可降低傳輸 latency 30%,適配 CPO 的長距離傳輸需求,AI 相關業務年增速超 33%;新易盛(300502)1.6T 光模組主力廠商,矽光子技術已量產,CPO 封裝方案與頭部交換機廠商合作開發,有望快速切入全球供應鏈。CPO 作為新興技術,仍面臨三大挑戰:一是技術標準尚未完全統一,不同廠商的封裝方案存在相容性問題;二是高端光晶片、調製器等核心元件仍依賴海外供應,國產替代任重道遠;三是初期部署成本較高,中小資料中心的普及節奏可能慢於預期。但長期來看,隨著 AI 算力需求的指數級增長,CPO 技術的滲透率將持續提升。野村證券預測,2026-2030 年全球 CPO 市場規模 CAGR 將達 127%,成為繼光模組之後,AI 通訊領域最具爆發力的賽道。對於投資者而言,可重點關注具備核心技術壁壘、已進入全球頭部供應鏈的企業,把握從技術驗證到規模商用的黃金投資窗口。在這場 AI 驅動的通訊革命中,CPO 不僅是技術的革新,更是產業生態的重構。當越來越多的企業加入這場 “封裝革命”,資料傳輸的效率邊界將不斷被打破,為 AI 大模型的持續進化提供無限可能。 (老王說事)
對標H100!中國國產GPU“核彈”參數曝光:1000TFLOPS算力,性能直逼Blackwell?
摩爾線程AI旗艦級計算卡MTT S5000性能首次曝光,這是摩爾線程2024年推出的、專為大模型訓練、推理及高性能計算而設計的訓推一體全功能GPU智算卡。摩爾線程在其官網中,首次公佈了S5000的硬體參數:支援FP8到FP64的全精度計算,其單卡AI算力(FP8)最高可達1 PFLOPS,視訊記憶體容量為80GB,視訊記憶體頻寬達到1.6TB/s,卡間互聯頻寬為784GB/s。業內人士表示,MTT S5000實測性能對標H100,在多模態大模型微調任務中,部分性能甚至超越H100。在晶片架構層面,S5000採用第四代MUSA架構“平湖”,專為大規模AI訓練最佳化,依託MUSA全端軟體平台,原生適配PyTorch、Megatron-LM、vLLM及 SGLang等主流框架,讓使用者能夠以“零成本”完成程式碼遷移,相容國際主流CUDA生態。在計算精度方面,S5000作為國內一批最早原生支援FP8精度的訓練GPU,配置了硬體級FP8 Tensor Core加速單元。相比傳統的BF16/FP16,FP8可將資料位寬減半,視訊記憶體頻寬壓力降低50%,理論計算吞吐量翻倍。其FP8引擎全面支援DeepSeek、Qwen等前沿架構,可提升30%以上訓練性能。基於S5000建構的誇娥萬卡叢集已經落地,其浮點運算能力達到10Exa-Flops,在Dense模型訓練中MFU達60%,在MoE模型中維持在40%左右,有效訓練時間佔比超過90%,訓練線性擴展效率達95%。依託原生FP8能力,它能夠完整復現頂尖大模型的訓練流程,其中Flash Attention算力利用率超過95%,多項關鍵指標均達到國際主流水平。在叢集通訊層面,S5000採用獨創的ACE技術,將複雜通訊任務從計算核心解除安裝,實現計算與通訊的零沖突平行,大幅提升模型算力利用率(MFU)。實測顯示,從64卡擴展至1024卡,系統保持90%以上的線性擴展效率,訓練速度隨算力增加幾乎同步倍增。2026年1月,智源研究院基於S5000千卡叢集,完成了前沿具身大腦模型RoboBrain 2.5的端到端訓練與對齊驗證。結果顯示,與輝達H100叢集的訓練結果高度重合,訓練損失值(loss)差異僅為0.62%。除了訓練,S5000在推理場景同樣表現優異。2025年12月,摩爾線程聯合矽基流動,基於S5000完成了對DeepSeek-V3 671B滿血版的深度適配與性能測試,實測單卡Prefill吞吐超4000 tokens/s,Decode吞吐超1000 tokens/s,這一成績刷新了國產GPU的推理紀錄。 (芯榜)
對標H100!摩爾線程GPU“核彈”:參數曝光!
對標H100!國產GPU“核彈”參數曝光:1000TFLOPS算力,性能直逼Blackwell?摩爾線程AI旗艦級計算卡MTT S5000性能首次曝光,這是摩爾線程2024年推出的、專為大模型訓練、推理及高性能計算而設計的訓推一體全功能GPU智算卡。摩爾線程在其官網中,首次公佈了S5000的硬體參數:支援FP8到FP64的全精度計算,其單卡AI算力(FP8)最高可達1 PFLOPS,視訊記憶體容量為80GB,視訊記憶體頻寬達到1.6TB/s,卡間互聯頻寬為784GB/s。業內人士表示,MTT S5000實測性能對標H100,在多模態大模型微調任務中,部分性能甚至超越H100。在晶片架構層面,S5000採用第四代MUSA架構“平湖”,專為大規模AI訓練最佳化,依託MUSA全端軟體平台,原生適配PyTorch、Megatron-LM、vLLM及 SGLang等主流框架,讓使用者能夠以“零成本”完成程式碼遷移,相容國際主流CUDA生態。在計算精度方面,S5000作為國內一批最早原生支援FP8精度的訓練GPU,配置了硬體級FP8 Tensor Core加速單元。相比傳統的BF16/FP16,FP8可將資料位寬減半,視訊記憶體頻寬壓力降低50%,理論計算吞吐量翻倍。其FP8引擎全面支援DeepSeek、Qwen等前沿架構,可提升30%以上訓練性能。基於S5000建構的誇娥萬卡叢集已經落地,其浮點運算能力達到10Exa-Flops,在Dense模型訓練中MFU達60%,在MoE模型中維持在40%左右,有效訓練時間佔比超過90%,訓練線性擴展效率達95%。依託原生FP8能力,它能夠完整復現頂尖大模型的訓練流程,其中Flash Attention算力利用率超過95%,多項關鍵指標均達到國際主流水平。在叢集通訊層面,S5000採用獨創的ACE技術,將複雜通訊任務從計算核心解除安裝,實現計算與通訊的零沖突平行,大幅提升模型算力利用率(MFU)。實測顯示,從64卡擴展至1024卡,系統保持90%以上的線性擴展效率,訓練速度隨算力增加幾乎同步倍增。2026年1月,智源研究院基於S5000千卡叢集,完成了前沿具身大腦模型RoboBrain 2.5的端到端訓練與對齊驗證。結果顯示,與輝達H100叢集的訓練結果高度重合,訓練損失值(loss)差異僅為0.62%。除了訓練,S5000在推理場景同樣表現優異。2025年12月,摩爾線程聯合矽基流動,基於S5000完成了對DeepSeek-V3 671B滿血版的深度適配與性能測試,實測單卡Prefill吞吐超4000 tokens/s,Decode吞吐超1000 tokens/s,這一成績刷新了國產GPU的推理紀錄。 (芯榜)
又一AI晶片獨角獸誕生!00後創辦,融資15億元,成立不到2年
首批產品最早明年交付。芯東西2月11日消息,據外媒今日報導,一家由00後創辦的神秘英國AI晶片創企Olix,已獲得2.2億美元(約合人民幣15億元)融資,估值超過10億美元(約合人民幣69億元),躋身獨角獸企業。Olix(此前名為Flux Computing)成立於2024年3月,總部位於英國倫敦,由James Dacombe創辦,計畫開發比輝達GPU更快、更便宜的AI晶片。James Dacombe今年25歲,同時也是英國腦監測創企CoMind的創始人兼CEO。CoMind是他18歲時創立的,並已融資1億美元(約合人民幣7億元)。▲James Dacombe針對AI推理需求,Olix正在打造一種新型AI晶片,目標是高吞吐量和高互動性,以應對最苛刻的推理工作負載,並且不受當今AI晶片的架構和供應鏈限制。Olix光學張量處理單元(OTPU)是一款採用新型儲存器和互連架構的光學數字處理器。其團隊相信,將SRAM架構與光子學相結合,可以在每兆瓦吞吐量和總擁有成本方面超越基於HBM的架構,並且在互動性和延遲方面顯著優於純矽SRAM架構。該公司已累計獲得2.5億美元(約合人民幣17億元)融資。據知情人士透露,Olix希望最早明年向客戶交付首批產品。這家初創公司拒絕就其融資事宜置評。Vertex Ventures普通合夥人、前Facebook基礎設施高管Jonathan Heiliger認為,AI推理需要對晶片的製造方式進行徹底的重新思考,系統級架構的大規模重構極其困難,“James和他的團隊的執行速度比擁有十倍資源的公司還要快。”目前英國晶片公司的融資規模遠遠落後於美國。另一家英國AI晶片創企Fractile昨日宣佈,計畫在未來三年投資1億英鎊(約合人民幣9億元),以擴大在其在英國本土的業務。Olix在官網分享了其晶片設計思路:現有GPU架構已接近物理極限,當前硬體從根本上來說無法同時為每個使用者提供快速推理。這種權衡取捨是自TPUv2和V100以來所有主流加速器改採用的記憶體架構固有的——一個大型邏輯晶片放置在中介層上,旁邊是堆疊的HBM記憶體。只有將大量使用者的資料批次處理,充分利用計算資源,並將模型權重通過HBM傳輸到大量輸出token的能耗分攤,才能實現每個XPU和每兆瓦的高吞吐量。但大批次處理必然會增加每個使用者的延遲,降低互動性,迫使使用者做出艱難權衡。推理性能受限於資料傳輸。因此,邏輯效率(FLOPs/W)和吞吐量(每個封裝的FLOP)的持續提升帶來的收益遞減。資料傳輸時間的縮短受到記憶體牆以及封裝互連邊界長度和封裝尺寸限制的制約。雖然從HBM2到HBM4的過渡在能效和吞吐量密度方面都取得了顯著提升,但要再次實現如此巨大的改進需要近十年時間,並且需要更加複雜和昂貴的製造技術。HBM性能提升帶來的能效提升有限,不可避免限制了每個token傳輸KV cache所需的 pJ/bit 能量,從而也限制了當前架構中token總能耗的下限。過去十年,這種架構擴展提升了系統的整體性能,但進一步擴展無法同時實現高吞吐量和高互動性。從輝達Hopper到Rubin Ultra,封裝尺寸大約增長了4倍。再增長4倍將接近晶圓級封裝的極限。更大的封裝可以縮短資料傳輸時間並提高互動性,但無法降低固定資料傳輸延遲。因此,阿姆達爾定律限制了未來通過進一步增大封裝尺寸來提升互動性的可能性。資料從HBM經由中介層進入計算單元的物理路徑並未發生根本性改變,但隨著跨光罩高頻寬介面的引入,其複雜性卻日益增加。因此,以每次快取命中或未命中時間衡量的資料傳輸延遲已接近或達到極限,並逐漸成為每個token延遲中越來越重要的組成部分。雖然可以通過更大層的張量平行性進一步縮短每層的資料傳輸時間,但這會增加功耗和互連延遲。此外,高吞吐量編碼方案也會引入編碼和解碼延遲,進一步提高每個token的最低延遲,並限制可實現的互動性。如果可以通過規模、整合或執行來解決這一權衡問題,那麼當今計算生態系統的核心企業將是做這件事的主體。由於預付了數十億美元以確保獲得領先的邏輯節點、HBM和先進封裝能力,這類公司將在軟體、系統整合和供應鏈方面擁有巨大的護城河。每一代都加倍強化這種方法。系統規模越來越大,整合度越來越高,目標也越來越遠大。絕對性能持續提升,但底層限制卻始終不變,因此仍然無法同時實現高互動性和高吞吐量。能夠同時提供高吞吐量和高互動性的硬體,必須同時解決大規模資料傳輸效率和延遲問題。任何僅改善其中一個維度的方法都只是改變了權衡的本質。Olix團隊認為,從供應鏈和製造角度來看,新的架構必須放棄高密度金屬薄膜(HBM)、先進封裝或其他任何受現有廠商供應鏈限制的技術。即便是最大的超大規模資料中心營運商都難以確保產能,初創公司根本無法與之競爭。從相容性角度來看,硬體必須支援現有模型。它不應強制要求現有模型具備量子算術能力/物理理論能力,也不應要求採用新的熱力學神經擬態架構,即使這種架構承諾在理論上有所改進。從設計角度來看,實現這一目標需要系統級思考,從光罩級和晶圓級設計轉向機架級計算和資料傳輸的協同設計,將其作為一個單一的統一系統。這個領域不乏資金雄厚的挑戰者,但他們都陷入了同樣的兩種失敗模式。有些晶片仍然採用邏輯晶片-中介層-HBM架構範式,並且在與新一代GPU/TPU競爭時,仍面臨同樣的互動性-吞吐量權衡,而這些GPU/TPU採用的是老一代低端HBM和邏輯晶片。另一些則做得不夠。他們認識到需要一種新的範式,試圖重新塑造互動性的權衡取捨,但無法擺脫這種權衡取捨,仍然受到僅限矽基方法的侷限性的制約。Olix團隊希望擺脫這些限制,創造前沿AI的下一個範式。 (芯東西)
巨頭繼續投入6600億美刀!黃仁勳回應:沒有“暗GPU”,6年前賣的A100價格還在漲!給OpenAI兩倍算力,收入能翻4倍!贊Meta:最會用AI
上週週末,輝達創始人黃仁勳非常開心。因為上週末,輝達的股票漲幅創了近一年以來的新高,7.9%,是去年4月以來單日最高漲幅。總市值恢復到 4.5 萬億美元。這一大波漲幅,也得益於,輝達的核心客戶近兩週以來財報會上的表態:會繼續加大AI基建的投入。包括 Meta、亞馬遜、Google和微軟等公司都紛紛向投資者表示,計畫在2026 年大幅提高用於資料中心和專用晶片的投入,合計金額達 6600 億美元,可謂規模空前。因為,這一數字在 2025 年是 4100 億美元,而 2024 年的數字則是 2450 億美元。而這裡的 6600 億美元,毫無疑問,相當一部分將用於採購輝達的晶片。金融時報第一時間報導了這一消息,並提到再一次引起了業界對於AI泡沫的擔憂。很快,黃仁勳上週五接受了 CNBC《Halftime Report》節目的邀請,針對2026年AI基建方面做了進一步的思考和分享。黃仁勳表示,科技行業這筆6600億美元的資本支出是合理的、恰當的,也是可持續的。“原因在於,這些公司的現金流即將開始上升。而且,不少人對於現金流的理解是片面錯誤的!”黃仁勳進一步解釋道,這場被他稱為“人類歷史上最大的一次基礎設施建設”,是由“高得離譜的”算力需求所推動的,而 AI 公司和超大規模雲廠商可以通過這些算力創造更多收入。黃表示,他們早在去年就看到AI已經成功跨過了“token賺錢”的拐點。黃仁勳給出了三個清晰的例子。首先,老黃大讚了Meta,說:沒有其他公司比Meta更擅長用AI。(ps:讓小編有點意外。)“Meta 正在利用 AI,把原本運行在 CPU 上的推薦系統,轉變為基於生成式 AI 和 agent 的系統。”在亞馬遜身上,變化同樣發生在核心業務層。“亞馬遜雲服務對輝達晶片和 AI 的使用,將影響這家零售巨頭的商品推薦方式。”而微軟,則把 AI 引入到最賺錢、也最穩固的業務中。“微軟將利用基於輝達晶片的 AI,來改進其企業級軟體。”當然,毫不意外,黃仁勳對於風頭正盛的兩大AI超級獨角獸也大為讚賞,稱:“Anthropic 在賺錢,OpenAI 也在賺錢。如果他們擁有兩倍的算力,收入可能會增長到四倍。”誇完了這些核心客戶之後,黃仁勳開始正式來分享自己的洞察了。首先,黃仁勳無意間透露了GPU的使用週期的問題。他表示輝達過去出售的所有 GPU——甚至包括六年前推出的 A100 晶片——目前都在被出租。“甚至,A100的價格還在漲,堪比陳年美酒。”進而,他指出這一次的 AI 跟網際網路泡沫存在根本區別。網際網路時代的基建存在大量的“暗光纖”,但這次AI時代沒有被“暗GPU”。其次,他表示計算範式已經發生了根本的變化。過去的軟體是預編譯的。Excel、PowerPoint,都是提前編好,再交付給使用者。而現在的軟體是每一次運行都具備上下文感知能力。它會考慮你是誰、你問了什麼、世界正在發生什麼,以及你給了它哪些資訊。每一次上下文都不同,每一次響應也都不同。此外,矽谷知名投資人 Brad Gerstner 表示,現在的情形更像是 2008 年 AWS 押注雲一樣,雖然當時不被業界理解,但事實證明貝索斯押對了。持續投入建設基建,這樣的週期還要多久?黃仁勳表示:你需要先建設,然後在五到七年後開始替換。“我們可能需要七到八年,才能建設到一個需要長期維持的水平。之後就是持續更新和小幅增長。”原文整理如下。黃仁勳:去年,我們就發現AI跨過了拐點給OpenAI算力翻一倍,收入或能翻四倍主持人:這個時間點請你來,其實挺有意思的——當然任何時候都很有意思,但尤其是考慮到今天市場的變化,看起來和前幾天已經很不一樣了。市場顯然在擔心超大規模雲廠商的支出情況,以及這輪大規模的 AI 基礎設施建設。你怎麼看市場現在的反應?黃仁勳:需求高得離譜,而且這是有根本原因的。我們正處在一次“代際等級”的基礎設施建設週期,這是人類歷史上規模最大的一次基礎設施建設。原因很簡單:人工智慧將從根本上改變我們計算一切事物的方式。從資料庫處理、搜尋方式、推薦系統,到你購物、你看電影,再到現在正在被開發、持續進化的全新系統。就在去年,我們看到了 AI 的一個拐點。AI 變得真正有用了,不再只是幻覺生成,而是在生成有根據的內容。它能推理、能思考、能做研究、能使用工具。過去幾年裡,AI 從“有點新奇”變成了“極其有用”。而這個拐點還伴隨著一件事:token 開始賺錢了。Anthropic 在賺錢,OpenAI 也在賺錢。如果他們的算力翻一倍,收入可能會翻四倍。這些公司嚴重受限於算力,而需求卻極其龐大。企業使用者數量、消費者使用者數量、以及圍繞這些平台誕生的創業公司數量,全都在爆炸式增長。今年雲廠商預估投入超6600億美元,黃仁勳:合理;Meta最擅長用AI主持人:當你看到一些坦率說非常驚人的數字,比如今年超大規模雲廠商要投入 6600 億美元——就像我們昨晚從亞馬遜聽到的那樣——你會覺得:這完全合理嗎?黃仁勳:這是合理的,而且是可持續的。原因在於:這些公司的現金流即將開始顯著上升。很多人拿支出來對比現金流,其中有一個數字是錯的——錯的是對現金流的理解。我們第一次在直面人類歷史上最大的一個軟體機會。軟體不再只是工具。Excel 是工具,但現在的軟體,是會使用工具的軟體。AI 會用 Excel。這是一個全新時代的軟體機會,規模巨大。我們已經看到它在推動 Meta 的盈利增長。沒有哪家公司比 Meta 更擅長用 AI。他們已經把傳統跑在 CPU 上的推薦系統,升級成生成式、具備 agent 能力的系統。從社交內容、廣告推薦,到幫助廣告主生成內容,整個體系都被徹底改變了,而財報已經證明了這一點。這也是他們為何如此大規模投入。而且不只是一家公司:AWS 的電商推薦會被改變,微軟的企業軟體會被改變,幾乎每一家大公司都看到了同一個拐點,這就是為什麼大家都在全力投入。就像AWS 08年押注雲一樣:需要先花很多錢,把礦挖出來主持人:你剛才說的這一點,其實很關鍵。如果只盯著支出,看他們消耗了多少自由現金流,其實會錯過整個故事。市場和投資者都需要轉變思維方式。Brad Gerstner:是的。如果把時間撥回到 2008、2009 年,亞馬遜本可以把利潤以分紅的方式還給投資者。但貝索斯選擇投資 AWS。這就像挖一座金礦。你得先花很多錢把礦挖出來,才能拿到黃金。而現在,這些公司正在挖軟體歷史上最大的一座金礦。前期一定要投入成本。真正的問題在於:你是否相信 Andy Jassy、Mark Zuckerberg、Sundar,還有我,判斷這個機會真的這麼大?還是你自認為看得更清楚,覺得這座金礦下面其實沒有金子?作為投資人,我很明確:我希望我的個人資產、我的基金資產,都深度繫結在 AI 上。因為未來所有人類進步,都將來自機器幫助人類思考、增強人類思考能力。不管是 NVIDIA、Anthropic,還是 OpenAI,這些公司都會成為巨大的受益者,而且是在規模化地發生。規模帶來的優勢正在不斷放大。這件事現在確實不容易被人理解,就像 2008、2009 年一樣。黃仁勳:但事後看,幸好貝索斯當年那麼做了。今天 AWS 是一個 1400 億美元的業務,每年產生 300 億美元利潤,而當年他為此承受了大量質疑。OpenAI 和 Anthropic 現在都是年化 200 億美元規模、具備盈利能力、同時還在加速增長的公司,這確實非常驚人。備註:相關預測顯示,Anthropic 在 2026 年可能達到 200億–260億美元的收入規模。但官方透露的2025的資料是在90億美元左右。黃仁勳:AI基建,前面還需要幾年建設期主持人:那我們怎麼能如此確定,我們認為需要的算力,真的會兌現?會不會不可避免地在某個時候過度建設,只是到那時才發現?黃仁勳:這不像修路。道路鋪好之後,可以長期使用。電腦基礎設施不是這樣運作的。你會先建設,然後在五到七年後開始替換。我們可能需要七到八年,才能建設到一個需要長期維持的水平。之後就是持續更新和小幅增長。我們前面還有好幾年的建設週期。計算範式已經發生根本變化:每一次運行都具備上下文感知能力黃仁勳:關鍵在於回到第一性原理:計算方式已經發生了根本變化。過去的軟體是預編譯的。Excel、PowerPoint,都是提前編好,再交付給使用者。而現在的軟體是每一次運行都具備上下文感知能力。它會考慮你是誰、你問了什麼、世界正在發生什麼,以及你給了它哪些資訊。每一次上下文都不同,每一次響應也都不同。從現在開始,每一個像素、每一段聲音、每一個視訊,都是即時生成的。這就是為什麼我們需要如此大規模的計算能力的原因。這些 token,本質上就是我們所說的“智能”。而這是人類第一次,把如此高價值的“智能”轉化成數字進行生產。AI跟網際網路泡沫存根本差異:現在沒有“暗GPU”,6年前的GPU價格還在漲主持人:去年,我們再次越過了一個拐點:token 變得可以盈利了。所以我們需要做的,只是——生產更多智能。從某種程度上說,你能理解投資者的擔憂嗎?畢竟上一次科技革命疊加演進時,留下了很深的心理陰影。黃仁勳:回顧歷史永遠是有價值的,但歷史不會簡單重複。你必須回到第一性原理,看清當下到底發生了什麼。這一次和網際網路時代有一個根本差異:當年有大量“暗光纖”,現在沒有“暗 GPU”。100% 的 GPU 都被租用了。甚至我們六年前賣出的 GPU,價格還在上漲。這不是古董,簡直像陳年好酒。需求之所以如此之高,原因很清楚:第一,我們已經越過了拐點,AI 真正有用了;第二,AI 的能力極強,採用速度極快;第三,因為 AI 在“思考”,它對算力的需求本身就極其巨大。 (51CTO技術堆疊)