#GPU很
60秒極限挑戰!中國GPU獨角獸殺出重圍,斬獲圖形頂會大獎
他們不光能造GPU,還能寫出全球頂級的演算法!摩爾線程這次開源給國產具身智能遞了一把「神兵利器」。2025年12月,SIGGRAPH Asia 2025在香港盛大啟幕。在緊張激烈的3DGS重建挑戰賽(3D Gaussian Splatting Reconstruction Challenge)中,摩爾線程交出了一份亮眼答卷!17日,團隊憑藉著自研技術LiteGS出色的演算法實力,以及卓越的軟硬體協同最佳化能力成功突圍,斬獲銀獎。這一榮譽,再次印證了摩爾線程在新一代圖形渲染技術上的深厚積澱,更贏得了國際學術界的高度認可。3DGS 範式革命,開啟AI加速的高效渲染時代3D Gaussian Splatting(3DGS,三維高斯濺射)是2023年提出的一項革命性3D場景表示與渲染技術,它以可參數化的3D高斯分佈為核心,實現了畫質、效率與資源佔用之間的卓越平衡。與傳統NeRF相比,3DGS在保持逼真渲染質量的前提下,將渲染效率提升數百至上千倍,並在光線追蹤、VR/AR即時渲染、多模態融合等方向展現出極強的適應性與擴展性。(*上圖僅作示意)作為近年來快速發展的神經渲染技術,3DGS不僅在三維重建與即時渲染等方向展現出卓越優勢,也在更廣泛的 AI 場景中具備潛在的基礎價值。尤其是在具身智能(Embodied AI)等需要智能體理解並與真實環境互動的前沿領域,高品質、低延遲的三維環境建模至關重要。3DGS以其高保真場景顯示、快速最佳化能力和輕量級結構,為建構精準的世界模型提供了可靠支撐,有助於提升路徑規劃、環境感知和複雜操作任務的能力。隨著AI技術向「理解並操作真實世界」方向不斷延展,3DGS正逐漸成為具身智能訓練場景中的關鍵基礎技術之一。正因其對未來圖形學技術路線的關鍵意義,3DGS已成為全球學術界與產業界競相投入的研究方向,受到SIGGRAPH Asia等權威機構的高度關注。極致挑戰 60秒高品質重建,走向實用化臨界點本次競賽為參賽團隊設定了極具挑戰性的任務:參賽者需在60秒內,基於主辦方提供的真實終端視訊序列(10–30秒)、存在誤差的相機軌跡以及終端SLAM點雲,在極短時間內完成完整的3DGS高品質重建。主辦方以PSNR(重建質量)與重建速度為綜合評價指標,力求在完全公開、公正的條件下得出權威排名。目前3D Gaussian Splatting Reconstruction Challenge(3DGS重建挑戰賽)的結果及資料集已向全球公開,相關資料可在SIGGRAPH Asia官方網站獲取。官網地址:https://gaplab.cuhk.edu.cn/projects/gsRaceSIGA2025/摩爾線程 以全端能力,實現精度與速度的極致平衡摩爾線程AI團隊以參賽編號「MT-AI」進入決賽階段,在重建精度與效率兩項指標上取得均衡且亮眼的表現:平均PSNR:27.58(位列前三)重建耗時:34秒(顯著領先多數隊伍)憑藉行業領先的3DGS 演算法建構能力與軟硬體協同最佳化優勢,摩爾線程最終獲得二等獎(銀牌)的優秀成績。開放協作 摩爾線程開源3DGS基礎庫LiteGS作為一種新興的場景表示與新視角合成技術,3DGS憑藉高渲染質量與即時渲染速度,在電腦圖形學與視覺領域實現了顯著突破。該技術通過數以百萬計的各向異性三維高斯基元來表示三維場景,以實現逼真的渲染效果,並在自動駕駛、虛擬現實、數字孿生等領域展現出巨大潛力。然而,儘管3DGS的渲染速度極快,其訓練過程卻往往需要數十分鐘甚至數小時,成為制約其廣泛應用的主要瓶頸。現有最佳化方案往往僅從單一層面入手,難以系統性地解決訓練過程中的性能制約。為此,摩爾線程自主研發了3DGS基礎庫LiteGS,首次實現了從底層GPU系統、中層資料管理到高層演算法設計的全鏈路協同最佳化:在GPU系統層面,摩爾線程創新提出基於「One Warp Per Tile」原則的「Warp-Based Raster」新範式,將梯度聚合簡化為一次Warp內歸約,並結合掃描線演算法與混合精度策略,大幅降低梯度計算開銷,同時實現高效的像素級統計能力;在資料管理層,引入「聚類-剔除-壓縮」流水線,借助Morton編碼以極低開銷對高斯基元進行動態空間重排,顯著提升資料局部性,減少快取失效與Warp分支;在演算法設計層,摒棄原有模糊的度量指標,採用更為魯棒的像素不透明度梯度方差作為緻密化的核心判據,精準識別欠擬合區域,其輕量化計算直接受益於底層光柵化器的高效統計支援。通過系統與演算法的協同最佳化,LiteGS在訓練效率與重建質量上均實現顯著領先,樹立了該領域新的性能標竿。在達到與當前質量最優方案同等水平時,LiteGS可獲得高達10.8倍的訓練加速,且參數量減少一半以上;在相同參數量下,LiteGS在PSNR指標上超出主流方案0.2-0.4 dB,訓練時間縮短3.8至7倍。針對輕量化模型,LiteGS僅需原版3DGS約10%的訓練時間與20%的參數量,即可實現同等質量,展現出卓越的工程實用性與技術前瞻性。目前,LiteGS已在GitHub平台全面開源,以推動三維重建與渲染技術的開放協作與持續演進。開源地址:https://github.com/MooreThreads/LiteGS摩爾線程此次在國際圖形學頂會賽事上的獲獎,不止是一次競賽勝利,更是精準把握全球技術發展趨勢並引領未來圖形計算技術方向的戰略體現。作為圖形學領域未來發展的重要方向,3DGS技術對演算法與硬體協同提出了極高要求。摩爾線程通過創新的演算法設計、深度最佳化的自研硬體以及高效的軟硬體協同,在本次賽事中展現了卓越的綜合能力。這一成就,印證了摩爾線程在圖形智能計算領域技術路徑的前瞻性與工程可行性,並體現了公司將前沿研究快速轉化為實踐成果的強大執行力。2025年12月20日-21日,摩爾線程將於首屆MUSA開發者大會設立技術專題,深入探討3DGS等圖形智能技術如何塑造未來,賦能具身智能等前沿領域,誠邀共同關注與探討。 (新智元)
暴漲超690%!今日上市!它,刷屏了
今天,國產GPU晶片龍頭沐曦股份在上交所科創板上市,發行價格為104.66元/股,截至收盤,公司股價報829.9元,上漲692.95%,市值達3320億元。沐曦股份的上市對國內人工智慧行業發展將帶來那些影響?國產GPU晶片龍頭沐曦股份今日上市總台央視記者 平凡:今天,沐曦股份登陸上交所科創板,它也是國內GPU晶片和計算平台的提供商,它的上市將加快國內人工智慧基礎設施建設。截至目前,國產算力公司包括寒武紀、摩爾線程和沐曦股份,總市值已經突破兆元。根據招股說明書,沐曦股份本次募集資金將重點投向新型高性能通用GPU研發及產業化等項目,目前公司的產品應用部署於10余個智算叢集,算力網路覆蓋國家人工智慧公共算力平台、營運商智算平台和商業化智算中心。沐曦股份高級副總裁 孫國梁:我們是作為國產算力底座的核心供應商這個角色進入到資本市場的。我們還是要認真花好每一分錢,用在底層的核心技術、核心產品、核心生態的打造。國產算力進入市場之後,也將帶動相關的上下游生態體系,包括晶片製造、作業系統、通用和行業模型、智能體等核心領域。專家表示,國內通用大模型和各個行業的垂直模型加快升級和落地,對算力提出了新的需求。根據相關機構的測算,2025年國內AI晶片市場規模將達到1780億元。AI應用加速落地國產算力舞台廣闊記者瞭解到,人工智慧在製造業、金融、能源、醫療健康等領域的應用加速落地,這對國產算力相關產業鏈又將帶來那些機會?在上海電影製片廠,國內首部超百分鐘生成式人工智慧擬真人劇集近日上線,製作周期縮短了三分之二,成本大幅降低,項目背後的支撐就是影視專屬算力池,滿足即時渲染、文生視訊、虛擬拍攝等多樣化需求。上海電影技術廠有限公司副總經理 郗岳:預計到2026年我們可以實現百部以上的 AIGC(生成式人工智慧) 項目的規模化製作。我們會對國產的算力以及國產算力相關的產業生態提出更高需求。在復旦大學醫學院,基於醫生、患者和科研等場景的垂直模型和智能體正在開發落地當中,實現醫生有AI智能體助手,患者有AI健康顧問。在南方電網,垂直大模型“大瓦特”的日活從年初的1000萬次上升到了12月的4000萬次,主要應用於電力巡檢、故障排查等場景,後續還將通過模型演算法進行電力系統的模擬模擬,實現智能調度保障用電安全。南方電網戰略高級技術專家 梁壽愚:大規模的電網巡檢工作,都是讓“大瓦特”(大模型)自主去完成的,最後形成巡檢報告,形成工單。比如有災害、有負荷快速變化的情況下,我們能夠通過“大瓦特”自動生成這方面的應急處置方案。在TCL的工廠,顯示面板生產線部署垂域大模型,通過智能體實現全域自主監控、分析與決策,相關AI應用創造綜合效益超過10億元。國產算力技術快速迭代協同發展滿足多元化需求人工智慧應用場景加速落地,推動國產算力技術快速迭代。與此同時,國產算力正以本地化生產和更快的響應速度,協同發展滿足多元化需求。總台央視記者 平凡:在北京一家大型的智算中心,跟年初相比,這裡智算機房的數量從一層增加到了現在的三層,而國產GPU的智算模組的運算能力,跟年初相比也增加了近一倍。得益於技術的提升,目前下游的應用正在快速增加。記者瞭解到,在這個算力中心,先進的智算模組可以同時服務大模型訓練推理、科研機構研發、金融安全防護等多種場景。在廣州一家AI算力工廠,工作人員正在生產服務大模型訓練以及推理的算力卡。圖靈新智算創始人 董事長 劉淼:我們肯定是在130%以上的快速增長,訂單量增長差不多可以接近200%,還有很多訂單留到明年,交不了貨。公司的負責人告訴記者,今年工廠的業務量出現爆發式增長。國產算力晶片實現本地生產,對使用者需求的響應比較快,也為市場提供了更多選擇。總台央視記者 平凡:國產和進口的智算晶片在同一個模型裡共同適配,有這樣的場景嗎?圖靈新智算創始人 董事長 劉 淼:這個一定有的,我們現在有些項目都做到了。其實現在很多使用者在思考的時候,也不是找單卡,他找的是一個最優組合。國產卡的最大優勢就是離市場很近,它能根據我們這麼多應用快速迭代,快速產生出新的產品。專家表示,國產算力晶片的規模化效應有望加速技術迭代,同時可以用更具性價比的方式適應未來模型訓練需求。中國資訊通訊研究院人工智慧所所長 魏凱:(人工智慧)基礎模型能力不斷提升,它需要算力的支援、需要資料的支援。單晶片能力的不斷提升是一個方面,同時還要用軟體的方法把多個晶片的能力協同調度起來,讓這個算力叢集效能不斷提升,才能支援模型規模不斷擴大、能力不斷提升。 (央視財經)
中國國產GPU“四小龍”,又來一個IPO
GPU賽道還是太瘋狂了。今日,沐曦股份登陸科創板,開盤暴漲超568%,市值瞬間突破3000億元,1.9萬股民集體狂歡,中一簽暴賺30萬元,私募大佬葛衛東更是浮盈百億。這已經是短短時間內,A股上演的第二場GPU造富神話。不久前,摩爾線程上市,市值一路飆升至3000億;更早的寒武紀,市值巔峰時更曾突破6000億。熱錢、目光、期待,所有要素都在湧向同一個目標:押注中國誕生自己的輝達。A股市場,正用最直白的千億市值和百倍漲幅,為這個夢想定價。而就在這片歡呼聲中,一個同樣重量級的玩家,卻選擇了一條截然不同的路。近日,證監會一紙備案通知書披露,中國國產GPU“四小龍”之一的壁仞科技,赴港上市獲准。這家估值160億的獨角獸,沒有加入A股的狂歡派對,而是轉身衝刺“港股GPU第一股”。這家成立6年融資超50億,估值160億,專利近1200項的硬核企業,由前商湯總裁張文跨界掌舵,手握算力比肩輝達A100的BR100晶片。從哈佛法學博士跨界轉身,到聚攏全球頂尖GPU人才;從18個月融資50億的資本神話,到中標“東數西算”10億訂單的商業化突破,壁仞科技的每一步都充滿看點。一哈佛法學博士“跨界狂人”。在技術壁壘極高的半導體行業,壁仞科技創始人張文的履歷寫滿了“跨界”二字。他雖無晶片研發背景,卻是手握哈佛法學博士學位的跨界狠角色。早年在聯合國任職、華爾街深耕多年,做過高級律師和資深投資人,回國後接手中芯國際創始人張汝京的映瑞光電出任CEO,後來掌舵商湯科技總裁、主導其總部落地上海,硬生生在資本圈和產業界攢下了“找人一絕、找錢超神”的名聲。2019年,當華為被制裁事件震動整個產業時,這位“外行”卻一眼盯上了被輝達壟斷的通用GPU賽道。壁仞成立之初,他第一件事不是畫架構圖,而是“挖人”,甚至直接讓朋友列出“中國GPU大牛名單”,把曾主導華為自研GPU的核心人物洪洲,請來擔任CTO。兩人見面時,張文沒有畫大餅,反而坦誠交底:創業公司付不起大廠千萬年薪,要走就早走,別半途而廢耽誤事。沒想到洪洲一句“為錢我就不來了,我是真想做成這件事”,當場答應出任CTO,一手搭建起近千人的研發天團。結果是,壁仞在極短時間內,跑完了別人需要更長周期的關鍵節點。2022年點亮晶片、發佈首款通用GPU;MLPerf評測中,在BERT等關鍵指標上拿到全球第一;BR100、BR104相繼落地,明確切入雲端AI訓練與推理。此後,憑藉強大的人脈和說服力,張文為壁仞開啟了融資“快車道”。公司成立僅一年半,壁仞科技連拿三輪融資,B輪直接突破50億,創下當時中國晶片初創企業融資最快紀錄。啟明、IDG、高瓴、平安、格力、招商局等一線機構集體押注。能讓資本如此瘋狂追捧,除了張文在華爾街積累的資本人脈、商湯時期沉澱的產業資源,更關鍵的是,在中國國產替代的宏大敘事下,市場需要一個能夠整合資源、對接資本、打通政企關係的“全能型選手”。而張文的聯合國、華爾街、商湯履歷,恰恰契合了這一需求。二為何放棄A股狂歡,選擇港股?此前,壁仞科技已於2024年9月啟動A股科創板上市輔導。但在目睹了摩爾線程、沐曦在科創板獲得的驚人估值後,它卻選擇了調轉方向,奔赴港股。一個關鍵原因可能在於盈利門檻。儘管科創板支援“硬科技”,但對企業的持續盈利能力要求日益嚴格。而所有中國國產GPU企業目前都處於同一階段:巨額研發投入持續,營收開始增長,但虧損仍未扭轉。這是技術追趕必須付出的代價,也是不可忽略的現實障礙。相比之下,港股對未盈利科技公司的包容度更高,上市流程和時間表也更可預期。對於壁仞這樣急需新一輪資金投入研發、加速生態建設的企業來說,“確定性”可能比“估值潛力”更具吸引力。但這一選擇並非沒有代價。港股市場的流動性、投資者結構以及對科技公司的估值邏輯,與內地科創板存在明顯差異。A股股民,對中國國產替代賽道的熱情近乎瘋狂,摩爾線程、沐曦能衝到3000 億以上市值,靠的是市場對“中國國產輝達”的想像溢價。但港股的投資者更理性,更看重現金流和盈利能力,其4億銷售額+持續虧損的現狀,在港股可能很難複製摩爾線程、沐曦在A股動輒數千億市值的盛況。眼下,中國國產GPU“四小龍”中,摩爾線程、沐曦已登陸科創板,正在瘋狂加碼研發和市場。燧原科技也在推進A股IPO,中國市場的“內卷”已經開始,大家都在搶訂單、搶人才、搶資源。而外部,輝達還在不斷推出更先進的產品,AMD、英特爾也在加速追趕,壁仞不僅要跟中國同行“貼身肉搏”,還要應對國際巨頭的技術封鎖和市場擠壓,稍有不慎就可能掉隊。而晶片技術迭代又太快,壁仞必須持續砸錢才能跟上節奏。對壁仞而言,這不僅是資本選擇,更是成長節奏的自我掌控。從核心晶片架構到軟硬體生態建構,每一步都需要時間和資金的沉澱。尤其是在AI算力需求快速放大的背景下,或許長期增量空間,遠比短期估值炒作更為關鍵。三GPU賽道的瘋狂,本質上是市場對“中國輝達”的迫切期待。這種期待,在資本市場被演繹成了一場滾燙的估值盛宴。當今日沐曦股份以104.66元的發行價登陸科創板,開盤即飆漲超568%,市值衝破3000億元,中一簽最高可賺30萬元的造富神話,不僅僅是數字的遊戲,它更是一個強烈的訊號:整個市場願意以真金白銀的溢價,為中國國產算力自主的夢想提前買單。此前摩爾線程上市市值同樣輕鬆越過3000億門檻,更早的寒武紀市值巔峰時甚至觸及6000億,狂熱情緒瀰漫。一系列數字如火箭般攀升的背後,是一個清晰無比的集體判斷:幾乎所有投資者都在押注一個確定性未來——中國必須也必將擁有自己的輝達。全球AI算力需求爆發,而外部環境的不確定性,加劇了自主可控的緊迫性。因此,每一家有望突破技術壁壘的中國國產GPU企業,都不再僅僅是一家公司,而是承載著產業鏈希望與國家安全期待的戰略載體。資本市場,正是以這種近乎澎湃的熱情,回應著這種國家等級的迫切需求,將未來的技術成功與市場統治潛力,提前折現為今天的驚人市值。這一切都指向同一個共識:誰能在晶片、軟體、生態的全鏈條上實現真正突破,誰就可能成為那個眾望所歸的答案。而市場的瘋狂,正是對這種歷史性機遇的極致定價與全情投入。然而,儘管故事動人、資本熱情高漲,但要做到“真正的輝達替代者”,路途比想像更難。GPU不僅是硬體,還是生態系統。輝達的生態幾十年積累,我們的生態還在建設中,要撬動開發者、遷移演算法、實現相容,這些成本與時間遠超過一塊晶片的研發。換句話說,GPU不止賣晶片,更是賣生態。資本能帶來錢,但生態是否能形成,還要看時間與市場採納。最終,這場“中國國產算力替代之戰”的結果,不會由一隻股票的首日漲幅決定。真正能堅持到最後的,必然是技術、生態、市場與資本協同突破者。中國需要自己的輝達,但通往偉大公司的路上,需要的不只是資本的熱情,更是技術的深耕、生態的耐心和商業的智慧。壁仞的選擇,或許提醒我們一個容易被狂歡聲淹沒的事實:真正的突破,不在於上市首日的股價漲幅,而在於穿越產業周期後,誰手中握著真正有競爭力的產品與生態。當A股沉浸在“中一簽賺30萬”的財富故事中時,那個悄悄奔赴港股的身影,或許正在為我們講述另一個版本的中國晶片故事——不那麼喧囂,卻同樣值得傾聽。 (投資家)
中國AI晶片三巨頭總市值超1.2兆!
被列為國產AI晶片三大巨頭之一的沐曦股份今天在中國A股上市,首日股價暴漲近7倍。 終場這三大巨頭總市值高達人民幣1兆2227.88億元,但前3季合計營收僅人民幣66.28億元,陸媒譏諷,連輝達的零頭都沒有。被稱為中國國產GPU(繪圖處理器)第二股的沐曦股份今天在科創板上市,開盤就大漲568.83%,股價直衝700元。 下午收盤,沐曦股價暴漲692.95%,收829.9元,總市值一舉增至3320.43億元。在此之前的12月5日,中國國產GPU第一股摩爾線程上市,首日暴漲425.46%,收600.5元。 今天收盤,摩爾線程股價已達714.8元,總市值則達3359.76億元。此外,2020年7月上市的中國國產AI晶片第一股寒武紀,今天以1315.6元作收,總市值5547.69億元。截至今天收盤,中國這3家AI晶片巨頭總市值高達1兆2227.88億元。中國這三巨頭總市值加起來超過了1兆,但整體業務和營收跟龍頭輝達(NVIDIA)相比還有很大的差距。今年前3季,這三巨頭合計營收才66.28億元(寒武紀46.07億元,摩爾線程7.85億元、沐曦股份12.36億元),這連輝達的零頭都沒有。報導提到,三家公司中目前只有寒武紀轉虧為盈,前3季淨利16億元; 而摩爾線程預計今年將虧損7.3億至11.68億元;沐曦股份也預計虧損5.27億至7.63億元。資本瘋狂追捧下,中國AI晶片三巨頭股價已嚴重背離基本面,引發市場熱議並質疑存在泡沫化危機。中國國產晶片替代還有漫長的路要走,而這些被扶持的企業,還要在研發上苦下功夫,而不是上市就萬事大吉了。 (大話晶片)
輝達 Rubin :計算密度的躍遷與資料中心架構的重構
Rubin 是多少張 GPU 互聯?比現在最強的資料中心性能強多少?——本報告的分析結論如下:互聯規模的代際跨越:Rubin 架構引入了 Vera Rubin NVL144 平台,在一個機架內實現了 144 個 GPU 計算核心(Die) 的全互聯 1。這不僅在物理數量上是前代 Blackwell NVL72(72 個 GPU)的兩倍,更重要的是,通過第六代 NVLink(NVLink 6)技術,這 144 個核心建構了一個單一的、記憶體一致的邏輯計算域。這意味著模型可以像在一個巨大的 GPU 上運行一樣,在 144 個核心之間無縫共用記憶體和資料,徹底消除了節點間通訊的延遲瓶頸。性能增益的多維躍遷:相比當前最強的資料中心基準——Blackwell GB200 NVL72,Rubin 展現了多維度的性能提升:AI 推理性能(FP4):提升幅度約為 3.3 倍,達到 3.6 Exaflops 1。海量上下文處理(CPX):針對百萬級 token 的長上下文任務,Rubin CPX 平台的性能是 Blackwell 的 7.5 倍2。記憶體頻寬:整機架聚合頻寬從 NVL72 的 576 TB/s 激增至 1.7 PB/s,約為 3 倍 的提升 2。本報告將深入探討驅動這些數字背後的技術邏輯,包括 3nm 工藝製程、HBM4 記憶體革命、銅纜互聯物理學以及 600kW 功率密度帶來的熱力學挑戰。2. 宏觀背景:計算通膨與推理時代的黎明要理解 Rubin 架構的設計初衷,必須首先審視當前 AI 產業面臨的根本性矛盾:計算通膨(Computation Inflation) 與 記憶牆(Memory Wall) 的雙重擠壓 4。隨著大語言模型(LLM)從單純的文字生成轉向具備多步邏輯推理能力的“Agentic AI”(代理智能),計算範式正在發生深刻的轉移。2.1 從訓練原生到推理原生在 Hopper(H100)時代,資料中心的主要任務是模型訓練,這要求極高的浮點運算能力。然而,隨著模型部署的普及,推理(Inference)——尤其是長上下文、高並行的推理——成為了算力消耗的主體。Blackwell 架構通過引入 FP4 精度初步應對了這一挑戰,但 Rubin 則是為**“推理原生”**時代徹底設計的 2。Rubin 的出現不僅僅是為了更快的訓練,更是為瞭解決“百萬 Token 級”上下文的即時處理問題。在這一場景下,瓶頸不再是計算核心的速度,而是資料搬運的速度。因此,Rubin 架構的核心哲學可以概括為:以頻寬換算力,以互聯換延遲。2.2 摩爾定律的終結與系統級擴展隨著電晶體微縮逼近物理極限,單晶片性能的提升日益艱難。輝達 CEO 黃仁勳明確指出,未來的性能提升將不再依賴單一晶片,而是依賴“資料中心即晶片”的系統級設計 4。Rubin 架構正是這一理念的極致體現:它不再試圖製造一個超強的 GPU,而是試圖製造一個超強的機架(Rack),並讓這個機架在軟體層面表現為一個單一的邏輯單元。3. 矽基架構:Vera Rubin 超級晶片的技術解構Rubin 平台的核心建構模組是 Vera Rubin Superchip。這一異構計算模組整合了定製化的 Vera CPU 和下一代 Rubin GPU,通過 NVLink-C2C 實現晶片級的高速互聯。3.1 Rubin GPU 微架構:3nm 與雙芯封裝Rubin GPU 將採用台積電(TSMC)的 3nm 工藝(預計為 N3P 或後續最佳化版本)製造 6。相比 Blackwell 使用的 4NP 工藝,3nm 節點提供了顯著的電晶體密度提升和能效最佳化,這是在有限的功耗預算下實現性能翻倍的物理基礎。3.1.1 封裝策略:Die 與 GPU 的定義重構在分析 Rubin 的規格時,必須澄清輝達術語體系的變化。在 Blackwell B200 中,一個封裝(Package)包含兩個計算裸片(Compute Die)。在 Rubin 這一代,這種設計得到了延續並擴展:標準 Rubin GPU:包含 2 個全光罩尺寸(Reticle-sized)的計算裸片7。Rubin Ultra(2027年):預計將包含 4 個計算裸片1。因此,當我們討論 NVL144 時,我們指的是 72 個物理封裝,每個封裝內含 2 個裸片,總計 144 個計算核心1。這種設計使得輝達能夠在不突破光刻機掩膜版尺寸限制(Reticle Limit)的前提下,持續擴大單晶片的有效面積。3.1.2 記憶體革命:HBM4 的引入Rubin 架構最關鍵的技術躍遷在於首發搭載 HBM4(High Bandwidth Memory 4) 記憶體 6。相比 Blackwell 使用的 HBM3e,HBM4 帶來了質的飛躍:位寬翻倍:HBM4 將記憶體介面位寬從 1024-bit 擴展至 2048-bit8。這使得在同等時脈頻率下,頻寬直接翻倍。堆疊工藝:HBM4 採用了邏輯裸片與記憶體裸片的混合鍵合(Hybrid Bonding)技術,甚至可能直接堆疊在 GPU 邏輯晶片之上(3D 堆疊),從而大幅降低訊號傳輸的功耗(pJ/bit)。容量與頻寬:每個 Rubin GPU 封裝配備了 288GB HBM4 記憶體,頻寬高達 13 TB/s7。作為對比,Blackwell B200 的頻寬僅為 8 TB/s。這額外增加的 5 TB/s 頻寬,是 Rubin 能夠在推理任務中大幅領先 Blackwell 的核心物理原因。3.2 Vera CPU:徹底的架構自主與 Grace CPU 採用 ARM 標準 Neoverse 核心不同,Vera CPU 採用了輝達完全自訂的 ARM 架構核心 9。核心規格:單顆 Vera CPU 擁有 88 個物理核心,支援 176 個線程(SMT)11。戰略意義:Vera 的出現標誌著輝達在計算全端上的進一步收束。通過自訂核心,輝達可以針對 AI 資料預處理、CUDA 核心調度以及網路協議棧進行指令集等級的最佳化,進一步降低 CPU-GPU 之間的通訊延遲。Vera 與 Rubin 之間通過 1.8 TB/s 的 NVLink-C2C 互聯 1,確保了 CPU 記憶體與 GPU 視訊記憶體處於統一的定址空間。3.3 Rubin CPX:為“百萬上下文”而生在標準版 Rubin 之外,輝達還規劃了 Rubin CPX 變體。這是一個專為處理極長上下文(Massive Context)設計的 SKU 2。技術痛點:在處理長文件或生成長視訊時,Transformer 模型的 KV-Cache(鍵值快取)會佔用海量視訊記憶體,且注意力機制(Attention Mechanism)的計算複雜度隨序列長度呈二次方增長。CPX 解決方案:Rubin CPX 並沒有單純堆砌 FP4 算力,而是整合了專用的硬體單元來加速注意力計算,並最佳化了視訊記憶體管理機制。據官方資料,CPX 在百萬 token 級任務上的表現是 Blackwell 系統的 7.5 倍3。這表明 CPX 可能採用了類似於“Ring Attention”的硬體加速技術,利用 NVLink 6 的高頻寬在多個 GPU 間高效流轉 KV 塊。4. 互聯拓撲:NVLink 6 與 144 芯互聯架構(回答“是多少張GPU互聯”)回答使用者“是多少張GPU互聯”的核心在於解析 NVLink 6 互聯技術與 NVL144 機架架構。這是 Rubin 區別於所有競爭對手的護城河。4.1 NVL144:單一機架內的超級電腦Rubin 架構的旗艦形態是 Vera Rubin NVL144。這是一個液冷機架系統,其互聯規模達到了前所未有的高度:互聯數量:144 個 GPU 計算核心(Die)1。物理形態:72 個 Rubin GPU 封裝(每個含 2 個 Die) + 36 個 Vera CPU 1。互聯性質:全互聯、無阻塞(Non-blocking)、記憶體一致性域。在 NVL144 中,任意一個 GPU 都可以通過 NVLink Switch 直接訪問機架內其他 143 個 GPU 的 HBM4 記憶體,且訪問速度高達 3.6 TB/s。這與傳統的乙太網路或 InfiniBand 互聯有著本質區別:在軟體看來,這 144 個 GPU 就是一個擁有 ~41 TB 統一視訊記憶體(288GB x 144)的巨型 GPU。4.2 NVLink 6:銅纜的物理極限支撐這一互聯規模的是第六代 NVLink 技術。頻寬翻倍:NVLink 6 的雙向頻寬提升至 3.6 TB/s,是 Blackwell 所用 NVLink 5(1.8 TB/s)的 2 倍8。機架總頻寬:NVL144 機架背板的交換容量高達 260 TB/s1。物理介質:為了在機架內實現如此高的密度和極低的延遲,輝達繼續採用了**銅纜背板(Copper Backplane)**設計 13。儘管業界對光學互聯(Silicon Photonics)呼聲甚高,但在機架內部(<2米距離),銅纜依然具有功耗低、無需光電轉換延遲的優勢。NVL144 的背板是一個工程奇蹟,它整合了超過 5000 根高速銅纜,構成了一個類似脊椎的通訊骨幹。4.3 與 Blackwell NVL72 的對比通過對比可見,Rubin 並非簡單的數量堆砌,而是通過互聯頻寬的翻倍來支撐節點數量的翻倍,從而保證了**網路直徑(Network Diameter)**不隨節點增加而惡化,維持了極低的通訊延遲。5. 性能基準:超越最強資料中心(回答“強多少”)使用者關注的第二個核心問題是:“比現在最強的資料中心性能強多少?” 目前的基準是 Blackwell GB200 NVL72。Rubin 的性能提升並非單一數值,而是根據工作負載的不同呈現出分層差異。5.1 AI 推理性能(Inference):3.3 倍的躍升在 FP4(4-bit 浮點)精度下,Vera Rubin NVL144 的理論峰值性能達到 3.6 Exaflops(每秒 360 億億次運算)1。對比基準:Blackwell NVL72 的 FP4 性能約為 1.44 Exaflops。提升幅度:約 2.5 倍至 3.3 倍1。技術歸因:這一提升不僅源於 GPU 數量的翻倍(從 72 到 144),更源於 Rubin 架構 Tensor Core 的效率提升以及 HBM4 提供的 13 TB/s 頻寬,使得計算單元能夠滿負荷運轉,避免了“記憶體牆”導致的閒置。5.2 複雜推理與長上下文(CPX):7.5 倍的質變對於生成式 AI 的未來——即涉及數百萬 Token 上下文、視訊生成或複雜程式碼分析的任務——Rubin CPX 展現了驚人的統治力。性能資料:輝達宣稱 Rubin CPX 系統在“海量上下文推理”任務中比 GB200 NVL72 強 7.5 倍2。技術歸因:這 7.5 倍的差異遠超算力本身的提升,主要歸功於 CPX 針對 Attention 算子的硬體最佳化和 NVLink 6 的極低延遲。在長文字推理中,資料在 GPU 間的搬運是最大瓶頸,Rubin 的超高頻寬讓跨 GPU 的 KV-Cache 訪問如同訪問本地視訊記憶體一樣快。5.3 訓練性能(FP8):穩健增長在傳統的模型訓練(FP8 精度)方面,Rubin 的提升相對溫和但依然顯著。性能資料:NVL144 提供 1.2 Exaflops 的 FP8 算力 1。對比基準:Blackwell NVL72 約為 720 Petaflops。提升幅度:約 1.6 倍。解讀:訓練任務對計算密度的依賴高於記憶體頻寬,因此提升幅度更接近於電晶體規模的線性增長。但考慮到 Rubin 支援更大的單節點模型,其實際訓練效率(收斂速度)可能高於理論算力的提升。5.4 性能資料彙總表以下表格總結了 Rubin NVL144 與 Blackwell NVL72 的關鍵性能對比:6. 熱力學與基礎設施:600kW 的工程挑戰Rubin 架構的性能飛躍並非沒有代價。為了在單一機架內壓縮 144 個高性能 GPU 和 36 個 CPU,其對資料中心的基礎設施提出了極其嚴苛的要求。6.1 功率密度的爆炸:邁向 600kW雖然標準的 NVL144 機架功耗預計在 120kW - 140kW 左右(與 NVL72 相似),但 Rubin 架構的終極形態——Rubin Ultra NVL576——預計將單機架功耗推向 600kW 的恐怖量級 10。對比:傳統企業級機架功耗僅為 10kW 左右;即使是當前的高密度 AI 機架通常也在 40-50kW。Rubin Ultra 的 600kW 相當於將一個小區的用電量壓縮到了一個衣櫃大小的空間內。6.2 800V 高壓直流供電(HVDC)為了應對如此巨大的電流,傳統的 48V 配電架構已徹底失效(電流過大會導致銅排熔化)。Rubin 平台推動了 800V 直流配電 標準的落地 17。原理:根據 $P=UI$,在功率 $P$ 極大的情況下,提高電壓 $U$ 是降低電流 $I$ 的唯一途徑。800V 架構允許使用更細的母線(Busbar),減少傳輸損耗,並提高電源轉換效率。6.3 液冷成為唯一選項對於 Rubin NVL144,風冷已在物理上不可行。該系統採用了 100% 全液冷設計14。Kyber 機架:輝達為 Rubin 重新設計了名為“Kyber”的機架架構(接替 Blackwell 的 Oberon 機架)。Kyber 專為高密度液冷最佳化,冷卻液直接流經 GPU、CPU 和 NVSwitch 晶片表面的冷板(Cold Plate),並通過機架內的 CDU(冷卻分配單元)進行熱交換。這意味著部署 Rubin 的資料中心必須具備完善的液體回路基礎設施。7. 軟體生態與經濟學模型硬體的堆砌只是基礎,Rubin 的真正威力在於其軟體棧和經濟效益。7.1 CUDA 與 NIM 的進化為了駕馭 144 晶片的互聯域,輝達的 CUDA 軟體棧將進一步演進。Rubin 將深度整合 NVIDIA NIM (NVIDIA Inference Microservices),這是一套預最佳化的微服務容器,能夠自動識別底層的 NVL144 拓撲,並將模型層(Layer)智能切分到不同的 GPU Die 上,以確保儲存和計算的負載平衡 4。7.2 代幣經濟學(Tokenomics)雖然 Rubin NVL144 機架的單價將極其昂貴(預計數百萬美元),但其 TCO(總體擁有成本) 在大規模推理場景下可能反而更優。推理成本降低:由於 Rubin CPX 在長上下文任務上擁有 7.5 倍的性能優勢,這意味著單位 Token 的生成能耗和時間成本大幅下降。對於像 OpenAI、Anthropic 這樣每天處理數十億 Token 的服務商而言,Rubin 是降低營運成本的必要工具。8. 結論與展望輝達的 Rubin 架構不僅僅是一次產品的迭代,它是對“摩爾定律已死”這一論斷的有力回擊。通過將 144 個 3nm GPU 封裝在一個通過 NVLink 6 互聯的單一機架中,輝達成功地將計算的邊界從微米級的晶片擴展到了米級的機架。回答使用者的核心疑問:互聯規模:Rubin 實現了 144 張 GPU(裸片) 的全互聯,建構了當前世界上密度最大的單一記憶體計算域。性能對比:相比當前最強的 Blackwell NVL72,Rubin 在 AI 推理上強 3.3 倍,在處理長上下文任務時強 7.5 倍,在記憶體頻寬上強 3 倍。Rubin 的出現標誌著 AI 基礎設施正式進入了“巨型機”時代。在這個時代,資料中心的衡量單位不再是伺服器的數量,而是機架(NVL144)的數量。對於追求極致算力的科研機構和科技巨頭而言,Rubin 不僅是下一代工具,更是通往通用人工智慧(AGI)的物理基石。 (成癮大腦神經重塑)
美銀分析:輝達GPU技術超前,H200未來收入仍存不確定性
美銀本周舉辦了輝達(NVDA)投資者關係部門的 Toshiya Hari 線上投資者會議,核心要點如下:1)輝達 GPU 仍領先競爭對手整整一代 —— 目前已推出的基於 GPU 的大語言模型(LLM)均採用舊款 Hopper 架構訓練,而非 Blackwell 架構(基於該架構的大語言模型將於 2026 年初推出),後者相較前代性能提升 10-15 倍;2)下一代 Vera Rubin 架構按計畫將於 2026 年下半年推出,路線圖未發生變化;預填充推理 CPX 版本同樣按計畫推進,預計 2026 年第四季度發佈;3)Google仍是輝達的核心客戶,且合作規模持續擴大,所有模型開發者仍在使用輝達的產品;4)輝達對 2025-2026 年(日歷年)至少 5000 億美元的銷售額展望具備供需端可見性,與 OpenAI、Anthropic 的合作將帶來額外增量;5)已推出 5 年的 Ampere 架構 GPU 在客戶端仍保持近 100% 的利用率,GPU 5-6 年的折舊 / 使用壽命設定合理;6)輝達的核心競爭優勢在於與客戶的協同設計能力,其打造的端到端平台涵蓋 CPU、GPU、縱向擴展、橫向擴展、跨場景擴展及軟體(CUDA 庫)—— 這一優勢無人能複製;7)中國市場及 H200 GPU 相關影響目前尚難以評估;8)儘管儲存成本上漲,公司仍維持 70% 左右的毛利率展望不變。與此同時,美銀仍認為,輝達 2026/2027 年(日歷年)預期市盈率分別為 25 倍 / 19 倍,這一估值具備較強吸引力 —— 其市盈率相對盈利增長率(PEG 比率)僅約 0.5 倍,而同期 Mag-7 成分股及其他成長型同行的 PEG 比率約為 2 倍。美銀維持對輝達的 “買入” 評級,將其列為首選標的,目標價 275 美元。輝達仍領先競爭對手整整一代儘管GoogleGemini3 是目前頂尖的大語言模型且基於 TPU 訓練,但輝達認為目前判定勝負為時尚早。關鍵在於,當前已推出的基於 GPU 的大語言模型均採用 2022 年發佈的舊款 Hopper 架構產品訓練,與即將推出的基於 2024 年 Blackwell 架構 GPU 訓練的大語言模型無可比性。基於 Blackwell 架構的模型將於 2026 年初開始逐步推出,輝達認為屆時其至少領先競爭對手整整一代的優勢將明確顯現。此外,MLPerf、InferenceMAX 等多數外部基準測試顯示,Blackwell 架構在訓練和推理領域均處於絕對領先地位,輝達在每瓦令牌數和每令牌收入兩項關鍵指標上均保持領先。2026 年前至少 5000 億美元銷售額具備可見性輝達重申,公司對 2025-2026 年(日歷年)Blackwell/Rubin/ 網路業務類股至少 5000 億美元的銷售額展望具備供需端可見性。輝達近期與 OpenAI 及 Anthropic /微軟達成的合作(每採購 / 部署 1GW 算力,輝達將投入 100 億美元資金)將為這 5000 億美元銷售額帶來額外增量 —— 這些合作目前為意向書(LOI)形式,有望成為業績上行的潛在驅動力。需注意的是,Blackwell 世代資料中心基礎設施的輝達相關產品價值約為 300 億美元 / GW,Rubin 世代這一數值將更高。中國市場及 H200 GPU 影響尚難量化關於川普政府近期擬重新允許向中國出售 H200 GPU 的立場,輝達認為目前評估或量化其影響為時尚早。輝達尚未獲得正式許可,後續還需明確三大問題:中國客戶的實際需求、公司供應鏈端的產能建設速度及規模、監管機構的相關許可情況。美國政府要求的 25% 相關削減比例具體計算方式尚不明確,但美銀認為,此舉更可能導致公司銷貨成本(COGS)上升,而非收入下滑。 (騰訊自選股)
當 AI 遇上區塊鏈:GPU 從挖礦工具到通用算力資源
在以太坊轉向 PoS 之後,顯示卡挖礦迅速退出主流舞台。大量 GPU 裝置不再用於區塊鏈共識計算,這一變化一度被視為“顯示卡時代的終結”。但事實恰恰相反。這些 GPU 並未消失,而是進入了另一個增長更快的技術領域——人工智慧計算。本文將解釋一個關鍵問題:為什麼 GPU 會在區塊鏈挖礦結束後,重新成為 AI 時代的重要基礎資源?一|以太坊合併之後,GPU 並沒有“失業”在 PoW 時代,以太坊大量依賴 GPU 執行雜湊計算。當共識機制切換至 PoS 後,這一需求迅速消失。從表面看,GPU 的區塊鏈用途被削弱;但從計算結構上看,GPU 的核心優勢並未改變:高平行計算能力對矩陣運算與向量計算高度友好適合處理非結構化、高複雜度任務這些特性,恰恰是現代 AI 模型所依賴的計算基礎。二|AI 模型對算力的需求正在迅速擴張大模型訓練與推理帶來的算力需求,已遠超傳統網際網路應用。當前 AI 行業面臨的核心問題並非演算法,而是計算資源的獲取:高端 GPU 供給有限中心化雲服務成本持續上升資源集中於少數大型雲廠商這使得算力逐漸成為一種稀缺的基礎設施資源,而不僅是技術元件。三|Web3 的角色:協調分佈式算力資源在這一背景下,Web3 的價值不在於“挖礦”,而在於其擅長解決的問題類型:如何在沒有中心調度者的情況下,協調分散、異構、地理分佈的計算資源。區塊鏈在此扮演的角色包括:任務分配與結算資源使用的可驗證性激勵與懲罰機制跨主體的信任協調這使得分佈式 GPU 資源可以被組織為可用的計算網路。四|GPU 與 ASIC 的功能分化正在加速在當前技術結構下,GPU 與 ASIC 的分工更加明確:ASIC:專用於特定演算法(如 SHA-256),適合長期、穩定、安全優先的系統(如比特幣)。GPU:通用平行計算裝置,適合 AI 推理、訓練、圖形渲染等高複雜度任務。這並不是“誰取代誰”的關係,而是計算資源專業化的結果。五|算力正在成為新的基礎設施層無論是在區塊鏈安全、AI 模型推理,還是分散式運算領域,算力都正在從“技術細節”轉變為“基礎設施”。在這一過程中:區塊鏈提供協調與結算機制AI 提供持續增長的算力需求GPU 成為連接兩者的關鍵硬體節點這並不意味著所有算力都會被代幣化,而是意味著算力本身正在被系統性組織與定價。結語GPU 從以太坊挖礦中退出,並不代表其價值消失。相反,它進入了一個需求更廣泛、用途更明確的計算時代。在 Web3 與 AI 的交匯點,真正發生變化的不是“挖礦方式”,而是算力在整個數字系統中的角色定位。 (方到)