#光晶片
半年2億營收,400億市值,它又是「寒武紀」?
作為光通訊的“心臟”,光晶片,是AI數據高速傳輸的核心引擎。而高階光晶片,長久以來一直被海外壟斷,是產業鏈上的「卡脖子」環節。直到堪稱光晶片「寒武紀」的企業,悄悄打破壟斷,成為支撐中國光通訊和AI產業的關鍵力量。012018年,一則訊息在光電圈驟起波瀾:源傑科技的25G雷射晶片,成功通過客戶驗證。在「中科創星」創始合夥人米磊看來,「這是一件非常了不起的事」。雷射晶片是光晶片的一種,可將電訊號轉為光訊號,實現光纖資訊傳輸,是光通訊的核心部件。簡單理解,DFB適用於中距離傳輸,EML適用於長距離傳輸,VCSEL適用於短距離互聯。▲來源:智研諮詢報告《2025年中國光晶片產業發展歷程、市場規模、競爭格局及未來趨勢研判》長期以來,中國25G以上高速光晶片被外企壟斷。即便如今,國產化率僅有5%,海外廠商仍佔主導。而源傑的突破,使中國光晶片企業第一次躋身國際巨頭壟斷的戰場。實現這一突破的,是一位神秘的「技術隱士」:張欣剛。這位70後的美籍華人,清華本科畢業,是南加州大學材料博士。 2001年起,他從Luminent(「索爾斯光電」前身)研發員、研發經理,一路幹到「索爾斯光電」研發總監。而“索爾斯光電”,2024年位列全球光模組企業第10,有光通訊行業“黃埔軍校”的美譽。這份無可挑剔的履歷,意味著張欣剛幾乎精通光通訊全產業鏈。2013年,他帶著科技和理想回國,在鹹陽創立源傑科技。在某些人看來,張欣剛很「難搞」。「他經常躲在實驗室,很少出來應酬,對外部資本態度保守。」一位接觸過他的投資人回憶道。但在米磊看來,這恰恰是成事的最重要特質。於是,他不停拜訪張欣剛,下決心要投源傑。「N顧茅廬」之後,2019年,中科創星終於「領投」源傑,在公司估值暴漲前拿下了「入場券」。真正的轉折點,來自華為「哈伯投資」的入局。2020年,華為的工程師在探討「光晶片企業哪家強」時,有人提到了源傑。靠著過硬的品質和口碑,源傑打入華為供應鏈,同時引來了哈伯投資的注意。結果,原本三個月的盡調被壓到一個月,審批流程從數週縮至數天,哈伯入局源傑堪比光速。這像一顆信號彈,照亮了創投市場。很快,近200家機構遞交了投資意向書,源傑周圍迅速集結起中科創星、哈伯投資、國投創投、國開基金等一眾知名投資機構。而伴隨5G基地台的大規模部署,源傑的業績也迎來爆發性成長。根據C&C統計,2020年,在磷化銦(InP)半導體雷射晶片國內廠商中,源傑收入排名第一;其中,10G、25G雷射晶片出貨量國內第一,2.5G雷射晶片出貨量位居前列。產業東風+資本加持,2022年12月,源傑科技成功登陸科創板。資本市場的賦能,讓源傑有了更大的底氣。2025年,AI風口崛起,算力需求爆發。源傑乘風而起,針對400G/800G光模組研發的CW 70mW雷射晶片,實現大規模量產。這款雷射晶片,具備高功率、高耦合效率、寬工作溫度的性能,對設計、製程、測試的要求極高。但憑藉著在DFB光晶片領域的深耕,源傑完美攻克難題。隨之而來的,就是業績與股價的雙雙暴漲。2025年上半年,源傑實現營收2.05億,年增70.57%;歸母淨利0.46億,年增330.31%。其中,資料中心及其他業務收入1.05億,年比暴漲1034.18%,成為拉動績效的核心動力。同時,股價高歌猛進,近半年從最低88.1元漲到最高509.15元,最高漲幅達477.92%;公司市值也從75億飆升到超過400億。張欣剛的身家,也隨之突破50億。022015年,西安鹹陽機場。一輛陳舊的奧拓,停在幾個日本人面前。當時,源傑打算向日本廠商買半導體設備,報價百萬。但因為源傑名氣小,對方懷疑其實力,決定實地考察。結果,接機的竟是一輛破奧拓。日本代表當場面露疑色,極度懷疑源傑是“騙子”,一度不敢上車。這一幕,正是張欣剛創業之初最酸澀的註腳。2011年冬,張欣剛懷抱夢想,前往中關村融資時,同樣備受質疑。當時,光晶片高度依賴日、美進口,國內製造DFB(分散式回饋雷射晶片)的企業幾乎沒有,國產替代潛力巨大。一般人或許很難理解DFB晶片的作用,打個比方:如果資料中心裡的光模組是一個“快遞站”,那麼,DFB雷射晶片就是“發包機”:它透過發出單色雷射和明暗訊號,來傳遞0、1資料。最關鍵的是,DFB適用於中長距離傳輸,在無線基地台、資料中心等領域用途廣泛。但張欣剛試圖募集數千萬、打造光晶片產線時,卻被人視為天方夜譚。原因很簡單,晶片製造是重資產產業,投資大、週期長、見效慢,砸多少錢才能回本?更何況,幾千萬,能幹啥?只有中橋創投,投出了天使輪。原因也很簡單,投資人重視張欣剛幾乎乾過光晶片全鏈條,從產線搭建、設備選型、材料採購,到晶片設計、測試、製程優化。最重要的是,他都乾成了。本質上,是賭張欣剛這個人。於是,張欣剛揣著第一筆投資2000萬,在鹹陽建廠、開乾。多年後,他很慶幸這個選擇:如果工廠建在北上廣,沒準團隊早散了。也是因為錢少,才有了用奧拓接客戶的窘迫,每一分錢都用在刀刃上了。光晶片製造,大致分為晶圓設計、外延生長、刻蝕、減薄拋光、封裝等環節。而打造25G以上高速率晶片,晶圓的「外延生長」最關鍵。它難就難在,不僅要在半導體材料中實現多層精準堆疊,每層厚度還要控制在10奈米之內。一旦製程不過關,半導體材料易氧化,光晶片可靠性就會大打折扣。那些年,張欣剛天天泡在實驗室,春節都不回家,只為盡快實現技術突破。用他自己的話說:“我是騎虎難下了。”2018年,源傑25G雷射晶片,通過客戶驗證,然後有了中科創星、哈伯投資等一眾機構紛至沓來。然而,市場嗷嗷待哺時,張欣剛選擇主動「減速」。例如,源傑的12波25G MWDM雷射晶片,是5G基地台建置的關鍵裝置。但研發成功後,張欣剛不急於量產,堅持要先完成「雙85」可靠性測試,即:在溫度85℃、濕度85%的極端環境下,對晶片進行長期老化考驗。這一測,就是3年。有的客戶急不可耐,想盡快拿貨大干快上。但張欣剛的原則並未輕易改變:產品必須先抽樣測試,經過一個月以上的可靠性驗證,才能批次供貨。在「快魚吃慢魚」的商業世界,這樣的「保守」並不合時宜,卻為源傑贏得了「可靠」口碑。而包括華為在內的客戶,一旦認可了源傑的產品,基本上都會選擇長期綁定。因為他們知道,源傑不會為了短期利益,犧牲可靠性。這份不起眼的堅持,贏得了巨大的回報。2020年,源傑在磷化銦(InP)光晶片領域實現營收第一,10G、25G晶片出貨量登頂產業榜首。2021年.源傑25G MWDM雷射晶片斬獲「中國光電博覽獎」金獎。從中際旭創、海信寬頻、博創科技等光模組廠商,到中興通訊、諾基亞,甚至行動、聯通、電信三大電信營運商,都成了源傑的客戶。在張欣剛看來,正是因為科技迭代太快,所以,晶片反而要靠耐心和韌性去打磨。03耐心的張欣剛,也始終以前瞻仰賴公司的發展。2020年,矽光技術還未成為業界熱點,但他已敏銳捕捉到這一領域的潛力:用矽光子技術打造的高功率晶片,更小、更快、更省電,必將在AI數據中心成為主力擔當。也正是這樣的佈局,讓源傑實現了對國外巨頭的加速追趕。2025年,源傑開發出用於400G/800G光模組的CW70mW雷射晶片,實現大規模量產;同時,CW 100mW雷射晶片,也順利通過客戶驗證。在長距離傳輸的EML晶片領域,源傑的100G PAM4 EML通過客戶驗證,打破國際壟斷;200G PAM4 EML也完成開發,開始客戶推廣。在更前沿的CPO(光電共封裝)領域,源傑研發的300mW高功率CW光源,也實現了突破。結果,AI算力需求一爆發,直接轉化為源傑應接不暇的大單。2025年5月、8月、10月,源傑分別斬獲6,187.16萬、1.41億、6,302萬人民幣的超大訂單。光是這三單就合計2.65億,超越源傑2024全年的營收。這是市場對源傑技術實力的認可,也是對張欣剛策略抉擇的回饋。2024年底,源傑斥資5,000萬美元,啟動美國生產基地建設。實際上,源傑99.88%的營收在國內,出手在美國建廠,張欣剛的考量是:只有“走出去”,才有大未來。事實上,張欣剛在技術策略選擇上,一直很前瞻。早年間,他參加一場行業交流會,親眼目睹國外大廠的強勢和代理小廠的孱弱,強烈的危機感油然而生。因此,張欣剛力排眾議,選擇了一條少有人走的路,即IDM模式,也就是晶片設計、晶圓製造、晶片加工、封裝測試等全產業鏈都自己幹。這涉及上百道工藝的累積、打磨,要有長期「坐冷板凳」的決心。但唯有全流程自主,才能打破技術壟斷,將命運牢牢掌握在自己手中。事實證明,這個決策非常明智。實際上,國內不乏嘗試IDM的光晶片企業,但要不是製程不紮實,就是產能不穩定,能大規模穩定交付高階光晶片的寥寥無幾。而在晶圓工藝、外延生長這些「卡脖子」環節,源傑不僅練出了硬實力,更透過IDM模式,打通了設計、製造、測試的全流程。這正是源傑既能在中低端持續放量、佔優勢,又能反哺高端、不斷突破的根本原因。如今,全球的高速率光晶片市場,依然被住友電工、馬科姆(MACOM)、博通(Broadcom)等歐美日企業牢牢把持;特別在EML(電吸收調製雷射器晶片,光模組核心組件,適用於長距離高速傳輸)、VCSEL(垂直腔面發射國外器晶片,用於光模組、自動駕駛、人臉對車所以在張欣剛看來,要打入高端,就必須佈局美國。打入全球市場核心圈,與國際頂級客戶合作,才能掌握最前沿的技術動態,捕捉最高端的客戶需求,並實現技術和市場的雙重突破。ICC訊石諮詢數據顯示:2024年,全球光通訊電晶片市場規模達39億美元;預計2029年將達97億美元,複合年增長率20%,是半導體領域最具成長性的賽道之一。誰能掌握更先進的光晶片技術,誰能在未來的6G、AI的競賽中佔據更大先機。以源傑為代表的中國光晶片企業,正在加速追趕,合力為中國AI贏得更多加分。
用光“畫”出晶片功能,光晶片界也有“瑞士軍刀”
01. 萬能光學“魔鏡”傳統光學器件都是什麼樣的?透鏡、分光器、濾光器等光學器件都需要精確的幾何結構(如表面光滑度、曲率等)和材料特性(如折射率、非線性特性等)來實現特定的功能,所以每種光學功能都依賴於不同的光學元件和設計。比如透鏡要通過彎曲光線來聚焦光束;光纖耦合器則需要在精確的角度和尺寸上進行設計,以將光束從一根光纖導引到另一根光纖;調製器則是通過改變光的振幅、相位或頻率來調節訊號……這也導致長期以來,光學器件是按照“一裝置、一功能”的模式來設計。有沒有可能,將這些光學功能全部整合於一塊小小的晶片?還真做到了。光晶片的應用近期日本基礎科學研究所NTT Research聯合康奈爾大學、史丹佛大學,成功研發出全球首款“可程式設計非線性光子晶片”,其成果已發表於《自然(Nature)》雜誌。這項重大突破允許在單一晶片上,實現快速切換多種非線性光學功能,徹底顛覆了傳統光子器件“一裝置、一功能”的設計範式。光子晶片可跟我們常說的CPU這類跑“電”的電子晶片不一樣,它的“布線”也就是積體電路叫作“光波導”,簡稱為“光布線”,它刻在晶片上,成為光子跑來跑去的跑道。至於這款使用了氮化矽(SiN)作為核心材料的可程式設計非線性光子晶片,是怎麼實現“可程式設計”的,需要展開講講。02. 晶片的可程式設計能力簡單來說,這款光子晶片能夠通過投射特定的光圖案來動態修改晶片。傳統光晶片的光波導“道路”和晶片“功能區”——也就是能過濾特定顏色的光柵,光柵需要在生產晶片時通過奈米加工技術永久地刻在材料裡,經過光罩、蝕刻等工序後都是固定的,物理上無法更改。而這款新光子晶片可以視作一個開放的大平台,底層核心當然也有光波導,而且用的還是氮化矽這個目前非常熱門的材料。不過研究團隊在這個光波導上面覆蓋了一層“光感應層”,這個感應層的材料也很特殊,名為富矽氮化物(SRN)。光感應層的變化過程這個SRN平時是絕緣的,只有當一些特定波長的光照過來時,它會局部變為導電狀態。具體怎麼來應用這一特點?首先研究團隊要把整塊晶片通電,專業術語叫“施加偏壓”;然後再拿出樸實無華的投影儀,用綠光照射在光感應層上,感應層上立刻就能畫出相應的導電區域;這時被綠光照到的地方全部“活”過來了,允許電場通過,並且滲透到底層核心材料區域,沒照到的區域依然保持絕緣狀態。衝進去的電場能直接改變晶片的物理特性,觸發了電場誘導非線性光學功能,在那個區域內瞬間生成了一個虛擬的光學結構。這也就意味著,它們可以用光在晶片中“寫入”光路和光柵,並且通過精確控制進入晶片的光圖案、改變光的空間分佈或相位,進而實現對光學功能的“程式設計”。這讓光晶片能夠像電腦晶片一樣,通過軟體或控制訊號動態地改變功能。就好比有了一個“萬能水龍頭”,扭動旋鈕,它就能流出咖啡、果汁或可樂,而不是像傳統水龍頭那樣,每個只會出一種飲料。03. 光子 vs 電子“光晶片”優勢為什麼我們要費勁兒研究光晶片?為什麼光子攜帶訊號比電子攜帶訊號好?這些問題想必很多人是有疑惑的。我們得從“光子”和“電子”這兩者的基本區別談起。在粒子物理學中,電子是費米子,費米子的特點就是不能同一個量子狀態,大家都很有個性,性質類似的電子會把彼此彈開,也就是說,電子不能“重疊”,必須保持一定的“距離”。這導致電子在電路中互相排斥。當電子需要在一個狹窄的通道中流動時,它們之間的排斥作用,類似人擠人時的推搡,會導致它們的流動變得不那麼順暢,能量也會浪費掉。總的來說,電子晶片不僅慢還容易產生能量損耗,這也是我們手機用久了發燙的主要原因之一。而光子是玻色子,玻色子的特點是可以同一量子狀態重疊。這就像一群人可以非常和諧地站在一起,那怕再小的通道,光子都能疊在一起輕鬆通過,而且它們會協同作用,共同向前移動,不會互相排斥。這是什麼狀態?光子流動時,幾乎沒有阻力,因為它們不會像電子那樣因為排斥而互相“推搡”。而且光子傳播時幾乎不受材料阻礙,能量損失極小,這意味著光晶片可以非常高效地傳輸資訊,再加上光子不產生電阻,所以不會因電阻而升溫。你可以把電子想像成一個個非常“獨立”的武林高手,每個人都只能單獨出招,而且出招時會把其他人推開;而光子則像是一群“團隊協作”的武林高手,大家齊心協力,出招時配合默契,能量直接傳遞給最前面的人,不會相互干擾,傳遞效率也更高。具體來看,光子晶片的計算速度大概比電子晶片高3個數量級,而功耗僅為電子晶片的百分之一。可以說,相比於電子積體電路或電互聯技術,光晶片展現出了更低的傳輸損耗 、更寬的傳輸頻寬、更小的時間延遲,以及更強的抗電磁干擾能力。隨著雲端運算、巨量資料、人工智慧的快速發展,社會對於資訊獲取與處理效率的需求持續攀升,但摩爾定律失效在即,這也是為什麼矽光技術異軍突起,正憑藉其在高傳輸速率、高能效比、超低延遲等方面的突出優勢,成為半導體領域競爭的另一條賽道。04. 重新定義光晶片尚需時日既然明白了光晶片的優勢,那就更應該明白全球首個“可程式設計非線性光子晶片”的含金量。它不僅為光晶片領域帶來了更大的靈活性、降低了成本,還能提升生產效率。傳統光晶片每個裝置都有固定的功能,而這款可程式設計晶片能夠通過改變光圖案,來快速重構不同的光學功能。一個晶片就能在不同的光學任務間切換,這多簡便!光子相對於電子有一定優勢既然不需要為每個光學功能都設計一個單獨的部件,這大大減少了裝置的數量,降低了整體生產成本。再加上不需要大量專用製造步驟,生產過程也會更簡便、精準,也就提高了生產效率和良率——這可是晶片產業的盈利命脈。不過現在的“可程式設計非線性光子晶片”只是個原型機,最大的問題就是慢,換“招式”的頻率大概是一秒一次,想要真正應用,至少要百倍的效率提升才夠。 (壹零社)
中國的光晶片產業是如何完成追趕的?
現代生活離不開資訊的傳遞,我們能夠自由自在地上網和刷手機的背後是資訊傳輸系統。光纖是傳輸資料的最佳介質,是現代通訊網路的核心。隨著時代的發展,網路傳輸的速度從KB升級到MB再到GB,資料傳輸速度的不斷上升得益於光傳輸技術的進步。圖1:現代通訊網路光纖只能傳遞光訊號,那麼光訊號是如何轉化為我們電腦和手機中看到視訊和聲音呢?這就需要光晶片,將光訊號和電訊號進行相互轉化。光晶片是構成現代資訊通訊技術的核心之一。一、光通訊產業簡介圖2:光通訊原理光通訊是以光訊號為資訊載體,以光纖作為傳輸介質進行資訊傳輸的通訊方式。光通訊系統傳輸訊號過程中,發射端通過光晶片將電訊號轉換為光訊號,經過光纖傳輸至接收端,接收端再通過光晶片將光訊號轉換為電訊號。光晶片是實現光電訊號轉換的基礎元件,其性能直接決定了光通訊系統的傳輸效率。在光纖接入、4G/5G移動通訊和資料中心等網路系統裡,光晶片都是決定資訊傳輸速度和網路可靠性的關鍵。圖3:光晶片分類按照是否存在光電能量轉化,光晶片分為有源器件晶片和無源器件晶片。無源光晶片不涉及光電能量轉化,主要功能是實現光訊號的分路與合路(PLC晶片)和對光纖中不同波長光訊號的處理(AWG晶片)。有源光晶片按應用情況分為雷射器光晶片和探測器光晶片:雷射器晶片主要用於發射訊號,將電訊號轉化為光訊號;探測器晶片主要用於接收訊號,將光訊號轉化為電訊號。圖4:光模組和光通訊器件受制於電通訊電子器件的頻寬限制、損耗較大、功耗較高等,光纖網路早已替代銅線網路成為資訊傳輸的主體。全球營運商骨幹網和都會網路已實現光纖化,部分地區接入網已逐漸向全網光纖化演進。無源光技術(PON)是實現通訊光纖化的核心技術,用於資料下穿和上傳之間的光分配網路全部採用無源裝置的光接入網路。無源光網路技術傳輸容量大,相對成本低,維護簡單,有很好的可靠性、穩定性、保密性,是當前光纖接入中非常經濟有效的方式,成為光纖接入技術主流。圖5:中國移動網際網路接入流量光纖通訊網路是2000年後特別是2010年後才逐步發展起來的。2000~2010年全球網際網路還是PC網際網路,對資料的傳輸需求量還不大。2010年後移動網際網路逐步成熟,對資料傳輸的需求上升了幾個量級。2013年中國發放移動通訊4G牌照,當年移動網際網路接入流量只有12.7億GB。2019年中國發放移動通訊5G牌照,當年移動網際網路接入流量只有1120億GB。2024年中國移動網際網路接入流量進一步增長到3376億GB,戶均移動網際網路接入流量達到18.2GB/月。圖6:光晶片技術迭代路徑光電子元器件技術發展推動光通訊系統向高速率、長距離、大容量和低成本方向演變。在光電子元器件技術的支援下,光通訊的傳輸速率從40Gbit/s、100Gbit/s 向 400Gbit/s 飛躍,甚至已達到了1Tbit/s光晶片的功能是不變的,技術迭代路徑的核心是傳輸速率。按傳輸速率分,光晶片可分為2.5G、10G、25G、50G、100G等主流速率的晶片。光晶片的速率越高,對應晶片的研發、量產難度越大。2010年前,全球主要的光晶片是2.5G和10G的光晶片。行動網路普及和人工智慧技術(AI)對資料傳輸的需求急劇上升,光晶片的迭代速度加快,100G和200G的光晶片被開發出來。二、中國和外國光晶片產業發展對比圖7:中國和外國企業光晶片開發進度對比西方發達國家在光通訊產業的發展上領先中國,發達國家企業開發光晶片的時間遠早於中國企業。2010年前發達國家企業已經量產了2.5G和10G的光晶片,2012年推出了25G光晶片,2015年開發了50G光晶片。2018年後,西方國家有多家企業成功開發了100G光晶片,2022年後成功開發出200G的光晶片。圖8:源傑科技發展歷程2000年前中國光通訊產業的發展雖然落後,但是中國企業的追趕速度很快。中國的光晶片企業很多都是2010年以後才成立的,以源傑科技為例:公司2013年成立,2014年推出了2.5G光晶片,2016年推出了10G光晶片。此後在2019年和2021年,公司又分別成功研製了25G和50G光晶片。圖9:源傑科技光晶片源傑科技在國產高端光晶片的產業化處理程序上處於前列:2025年100G光晶片達到客戶匯入階段,200G產品也已完成開發。中國光晶片企業已基本掌握中低速率光晶片的核心技術,高端光晶片也不斷取得突破。圖10:2021年2.5G和10G光晶片市場份額2020年後,中國在光晶片領域已經逐步追趕上西方國家,並且佔領了一定的市場份額。2.5G光晶片:本土企業佔據主要市場份額且主導全球市場,國外光晶片廠商由於成本競爭等因素已基本退出相關市場。10G光晶片:國內企業基本掌握核心技術,國產光晶片市場份額在一半左右而且仍在繼續增長。25G及以上光晶片:中國企業高速率光晶片的全球市場份額較低,國產化替代仍存在較大成長空間。圖11:中國企業光晶片市場佔有率變化根據源傑科技招股書援引的ICC 統計,2021年全球光晶片市場:在2.5G及以下、10G光晶片市場中,國產光晶片的全球市場份額分別超過 90%、50%;25G 光晶片市場中,國產25G光晶片在全球市場的市佔率約 20%;50G 及以上市場中,中國企業的產品尚處於客戶匯入階段,全球市場的市佔率不到5%。整體來看,本土廠商在中低端市場已具備技術實力和批次出貨能力,高端光晶片還處於追趕階段。圖12:中國和外國光晶片技術水平對比中國光晶片企業在技術上不斷取得發展,與發達國家企業的技術差距在不斷縮小。華為海思、光迅科技等企業已經成功研製出了100G和200G的光晶片,在高端晶片佈局上已經追趕上了西方國家企業。仕佳光子、源傑科技等企業的100G光晶片也已研製成功,進入到客戶驗證和匯入階段。此外源傑科技200G光晶片也正在研製,預計將很快會推向市場。中國在光晶片技術上的追趕是整體性的,不是少數一兩家企業具備技術能力,而是市場中的大多數企業都具備了開發高端產品的能力。圖13:光模組迭代周期光晶片的下游是光模組,光模組技術性能的底層是光晶片。光模組技術在過去迭代周期相對較慢,在傳統的電信市場通常是十年迭代一個周期。根據光纖線上的資料:2012 年全球資料通訊行業基於10G光晶片實現了40G(10G*4)的傳輸速率;2016 年,100G(25G*4)的產品開始進入市場;2021 年,400G光模組開始出現,但直到 2023 年才真正實現大規模商用。人工智慧資料中心的發展顯著加快了光模組的發展速度,技術迭代周期從時間縮短為三年。2023 年AI技術興起,AI 對計算能力的需求遠超傳統的通用計算,導致對光通訊產品的需求激增。2024和2025年,800G和1.6T光模組開始大規模商用。圖14:2016年全球前十大光模組企業中國企業在光晶片領域的突破有力支援了光模組企業的發展。近年來,中國光模組廠商在技術、成本、市場、營運等方面的優勢逐漸凸顯,佔全球光模組市場的份額逐步提升。根據LightCounting 資料:2015 年前,全球前十大光模組廠商僅光迅科技一家中國企業。2016年全球十大光模組供應商中國廠商數量增加至4家。到2018 年,大部分日本和美國廠商退出了這一市場。圖15:2023年全球前十大光模組企業2021-2022 年,中際旭創與Coherent(Finisar)並列第一。2023 年,中際旭創首次不與其他廠商並列,獨佔第一。2023 年前十名中共有 7家中國廠商入圍,分別為中際旭創(排名第 1)、華為(排名第 3)、光迅科技(排名第 5)、海信寬頻(排名第 6)、新易盛(排名第 7)、華工正源(排名第 8)、索爾思光電(排名第 9)。從2010年至今,中國企業基本在十幾年內就完成了在光晶片領域的技術追趕。中國企業基本佔據25G以下的低端光晶片的主要市場份額,在100G和200G等高端產品上也不短取得突破。中國企業在光晶片上的技術突破有力支援了光模組產業的發展,2024年中國成為全球最大的光模組生產國。三、中國光通訊產業發展的意義圖16:中國光纖接入戶數中國基本掌握了光通訊產業的全部技術:光纖、光晶片和光模組、光傳送網等全部都能自主生產。掌握技術最大的意義就是有能力自主發展,而不會受制於人。2019年中國光纖接入戶數達到4.33億戶,佔固定寬頻接入使用者的比例達到91.3%,這意味著中國基本完成了光纖入戶的普及。光通訊作為一種高速、大頻寬的傳輸技術,能夠滿足5G 網路對高速率、低延時傳輸的需求,能夠支援大規模的資料傳輸和即時應用。中國在5G發展上領先全球,光通訊技術的發展也發揮了重要作用。2024 年5 月,中國移動自主研發的全球首條400G 全光省際(北京—內蒙古)光傳輸骨幹網正式商用,標誌著 400G光傳送網商用正式開啟。隨著京津冀、長三角、粵港澳大灣區等八大“東數西算”國家樞紐叢集的 400G 高速互聯逐步建設,中國在資料傳輸領域的基礎設施建設水平將達到全球領先。圖17:全球主要國家光纖入戶滲透率中國光纖入戶滲透率在2018年就已超過90%,是全球主要經濟體中最高的。作為對比,日本和韓國光纖入戶的滲透率在2018年低於80%,而美國、法國和德國的滲透率更是低於20%。事實上,OECD國家整體光纖入戶的滲透率低於30%,在光纖的普及上遠遠落後於中國。為什麼中國在光纖的普及上能夠領先所有國家,根源就在於中國掌握了技術,因此能夠以較低的成本完成技術的普及。資料傳輸和電力、公路一樣也屬於基礎設施,是資訊時代的基礎設施。中國在資訊時代基礎設施的建設上已經領先所有發達國家。圖18:比亞迪汽車中國企業把高科技產品做成白菜價到底好不好?好還是不好,關鍵看對象。對中國的消費者(以及全世界的消費者)好不好?對中國資本和外國資本好不好?對中國消費者而言,高科技產品變便宜,大家都消費的起,是大好事!在80年代,中國普通老百姓裝個固定電話又貴又慢,原因是程控交換機靠進口,太貴了。現在行動電話都普及了,打電話上網都很便宜,技術普及對中國消費者是好事。早在十年前,中國普通消費者購買汽車還比較貴,同樣的車型比歐美消費者要貴得多。國產汽車工業還沒發展起來,國產汽車的性能不如外國企業,外資車企就敢肆無忌憚的在中國市場賣高價。現在中國國內市場汽車售價是全球最低的,而且車型最多,性能最好。為什麼?因為中國汽車企業發展起來了,售價便宜了。對中國資本而言,高科技產品賣出白菜價確實不好。中國的企業好不容易完成技術突破可以生產高科技產品了,可是賣不上價,只能羨慕曾經的國外企業的好日子。但很以前相比還是好很多,不用擔心被卡脖子,不用一直做最低端的產品,不用處在產業鏈的最底端。企業生存環境的變化還是看得見的。對外國資本而言,這種情況是最壞的。原本外國企業壟斷了高科技產業,他們可以舒舒服服躺著吃肉,對全球徵收高科技稅。中國企業的技術突破打破了他們的美夢,他們的業務被一點一點蠶食,收入和利潤在不斷減少。如果中國企業在技術上趕上他們,那麼這些外國就徹底沒有生存空間了!太陽能產業曾經是外國企業領先的,現在中國企業佔據了80-90%的市場份額。汽車產業正在發生翻天覆地的變化,不論是日本汽車工業還是德國汽車工業,銷量和利潤都持續萎縮。所以外國資本對中國高科技產業的突破是最擔心的。中國高科技前沿產業的發展前景是光明的。中國的工業化過程就是這樣在一項又一項的細分產業裡完成追趕。 (郭滿天)
光晶片,即將起飛!
大型語言模型(LLMs)正在迅速逼近當代計算硬體的極限。例如,據估算,訓練GPT-3大約消耗了1300兆瓦時(MWh)的電力,預測顯示未來模型可能需要城市級(吉瓦級)的電力預算。這種需求促使人們探索超越傳統馮·諾依曼架構的計算範式。本綜述調查了為下一代生成式AI計算最佳化的新興光子硬體。我們討論了整合光子神經網路架構(如馬赫-曾德干涉儀陣列、雷射器、波長復用微環諧振器),這些架構能夠實現超高速矩陣運算。同時,我們也研究了有前景的替代類神經裝置,包括脈衝神經網路電路和混合自旋-光子突觸,它們將儲存與計算融合在一起。本文還綜述了將二維材料(如石墨烯、過渡金屬二硫族化合物,TMDCs)整合進矽基光子平台,用於可調製器和片上突觸元件的研究進展。我們在這種硬體背景下分析了基於Transformer的大型語言模型架構(包括自注意力機制和前饋層),指出了將動態矩陣乘法對應到這些新型硬體上的策略與挑戰。隨後,我們剖析了主流大型語言模型的內部機制,例如chatGPT、DeepSeek和Llama,突出了它們架構上的異同。我們綜合了當前最先進的元件、演算法和整合方法,強調了在將此類系統擴展到百萬級模型時的關鍵進展與未解問題。我們發現,光子計算系統在吞吐量和能效方面有可能超越電子處理器幾個數量級,但在長上下文窗口、長序列處理所需的儲存與大規模資料集的保存方面仍需技術突破。本綜述為AI硬體的發展提供了一條清晰的路線圖,強調了先進光子元件和技術在支援未來LLM中的關鍵作用。引言近年來基於Transformer的大型語言模型(LLMs)的快速發展極大地提高了對計算基礎設施的需求。訓練最先進的AI模型現在需要巨大的計算與能耗資源。例如,GPT-3模型在訓練期間估計消耗了約1300兆瓦時的電力,而行業預測表明,下一代LLM可能需要吉瓦級的電力預算。這一趨勢與大規模GPU叢集的使用同時出現(例如,Meta訓練Llama 4時使用了超過10萬個NVIDIA H100 GPU的叢集)。與此同時,傳統矽基晶片正接近其物理極限(電晶體特徵尺寸已達約3奈米),馮·諾依曼架構也受限於“儲存器–處理器”瓶頸,從而限制了速度與能效。這些因素共同凸顯出LLMs日益增長的計算需求與傳統CMOS電子硬體能力之間的鴻溝。這一挑戰促使人們探索替代計算範式。光子計算利用光來處理資訊,天然具有高頻寬、超強平行性與極低熱耗散等優勢。近期在光子積體電路(PICs)上的進展,使得建構神經網路基本模組成為可能,例如相乾乾涉儀陣列、微環諧振器(MRR)權重陣列,以及用於執行密集矩陣乘法與乘-加操作的波分復用(WDM)方案。這些光子處理器利用WDM實現了極致的平行性與吞吐能力。與此同時,將二維材料(如石墨烯與TMDCs)整合入PIC中,催生了超高速的電吸收調製器與可飽和吸收體,成為片上的“神經元”與“突觸”。作為光學的補充,自旋電子類神經裝置(如磁隧道結和斯格明子通道)提供非易失性突觸儲存和類神經脈衝行為。這些光子與自旋電子類神經元件從物理機制上實現了儲存與處理的合一,為能效最佳化的AI計算開闢新途徑。將基於Transformer的LLM架構對應到這些新型硬體平台上,面臨諸多挑戰。Transformer中的自注意力層涉及動態計算的權重矩陣(query、key和value),這些權重依賴於輸入資料。設計可重構的光子或自旋電路以實現這種資料依賴型操作,正成為活躍研究領域。此外,在光子/自旋子媒介中實現模擬非線性(如GeLU啟動函數)與歸一化仍是重大技術難題。為應對上述問題,研究者提出了許多“硬體感知”的演算法設計策略,如適用於光子計算的訓練方法以及能容忍模擬噪聲和量化誤差的神經網路模型。本綜述餘下部分結構如下:第2節:介紹光子加速器架構,包括相乾乾涉儀網路、微環權重陣列與基於波分復用的矩陣處理器;第3節:探討二維材料在光子晶片上的整合(如石墨烯/TMDC調製器、光子憶阻器);第4節:分析替代類神經裝置,特別是自旋電子在類神經計算中的應用;第5節:總結主流LLM與Transformer架構原理,並探討如何將其對應到光子晶片上,強調在光子與類神經硬體上實現注意力機制與前饋層的策略;第6節:介紹脈衝神經網路的機制與實現演算法;第7節:指出系統層面的關鍵挑戰並展望未來方向。本綜述力圖為下一代AI硬體發展繪製出基於光子與自旋電子技術的完整路線圖。光子神經網路與光子計算的前沿器件光子神經網路(PNN:Photonic neural networks)依託多種光學器件之間的協同作用實現高效計算:微環諧振器利用共振效應進行波長復用與光頻梳生成,為多波長訊號處理奠定基礎 ;馬赫-曾德干涉儀(MZI:Mach-Zehnder interferometer)陣列通過相位調製實現光學矩陣運算,是神經網路中核心線性變換的關鍵元件 ;超構表面通過亞波長結構調控光波的相位與幅度,能在衍射域內執行高度平行的光學計算 ;4f系統通過傅里葉變換在衍射域中實現線性濾波功能;而新型雷射器則通過電光轉換機制實現非線性啟動功能。這些器件整合了光場調控、線性變換與非線性響應能力,建構出高速、低功耗、強平行的全光計算架構。本節將介紹當前光學神經網路實現中常用的器件。微環諧振器微環諧振器(MRRs)(見圖1)的重要性不僅體現在它們在波分復用(WDM)中的作用,還體現在其獨特的濾波特性,例如光頻梳生成。WDM允許不同波長的訊號在同一波導中同時傳播而不會產生干擾:通過設計微環的半徑與折射率以支援特定的共振波長,滿足共振條件的光將耦合進環形腔體中持續振盪,在透射譜上表現為明顯的吸收凹槽。而光頻梳則源於高Q值(低損耗)微腔中的參量振盪:當注入連續波(CW)泵浦雷射後,光子會經歷非線性效應(如Kerr非線性),從而自發地產生等間距的光譜線,形成梳狀頻譜。WDM與頻梳生成的結合,使多波長訊號可通過共享波導進行合成與傳輸,實現波長復用與空間復用的統一。微環的其他特性也得到了利用。例如,利用微環的熱光效應,在微環上加入了具有激射閾值的相變材料,實現了類似神經網路中ReLU函數的非線性效果。圖1:微環諧振器a)通過微環諧振器權重陣列可實現類神經光學神經網路(ONN); b)展示了全光脈衝神經網路的原理與實驗設定;c)開發了一種基於時間-波長復用的光子摺積加速器;d)提出了一種基於微梳與相變材料的片上光計算架構;e)展示了用於情緒識別的微梳摺積ONN晶片設計圖2:馬赫-曾德干涉儀(MZI)a)提出了支援即時線上學習的ONN訓練方法;b)展示了結合MZI與衍射光學元件的整合光子神經網路架構;c)演示了基於MZI陣列的光子神經網路的線上反向傳播訓練方法馬赫-曾德爾干涉儀(Mach-Zehnder Interferometer)MZI 陣列(見圖2)可有效執行光學矩陣-向量乘法(MVM)運算:它由兩個光學耦合器/分束器和兩個調製器(可通過外部電路控制)組成。輸入光通過分束器被分成兩路,調製器調節兩路之間的相位差,最後通過光學耦合器重新組合成干涉光。每個 MZI 對光訊號執行二維酉變換(複數域的正交變換),在數學上等價於一個 2×2 的酉矩陣。當多個 MZI 按特定拓撲結構(如網格)級聯時,它們的整體行為可對應於高維酉矩陣的分解,因為任意 N 維酉矩陣都可以分解為一系列二維酉變換。因此,MZI 陣列可以實現類似於神經網路中權重矩陣的可程式設計酉變換。輸出的光訊號可進一步通過光電手段進行轉換,並與電子器件整合,實現非線性啟動函數,從而完成神經網路的前向傳播。超表面(Metasurface)超表面在神經網路應用中的運行主要依賴於“面”之間的光的衍射與干涉。超表面是一種由亞波長尺度結構單元組成的材料,能夠調製光波的性質,包括相位、幅度、偏振和頻率。這些結構通常具有超薄、輕質和高整合密度(支援大規模平行)的特點,其實現方式多樣,如基於絕緣體上矽(SOI)的設計、復合惠更斯超表面、單層全息感知器等。由於衍射和干涉本質上是線性過程,因此要實現非線性計算需要額外機制,如利用超表面材料的光電效應 。多層衍射架構(見圖3)通過堆疊的二維表面作為高密度排列的神經元層實現。通過控制每個衍射層中空間位置處的相對厚度或材料特性,可調節光的相位和幅度。或者, 在一塊平面表面上製造一維高對比透射陣列超表面(見圖4),例如,在標準 SOI 基底上蝕刻空氣槽(後續可填充二氧化矽),槽的間距(晶格常數)和寬度固定,通過改變槽的長度來控制相位。圖3:二維超表面a) 二維衍射深度神經網路(D2NN)中推理機制的概念圖示。b) 通過衍射光學神經網路(DONN)實現邏輯運算的實驗配置。c) 奈米列印的光學感知器實現晶片級計算。d) 利用數字型超原子陣列的可重構DONN架構。圖4:一維超表面a) 一維DONN在光子機器學習中的實驗驗證。b) 基於模擬的晶片級DONN驗證,支援光速計算。c) 介電超表面實現用於傅里葉變換與空間微分的晶片級波前控制。圖5:4f系統a) 使用4f光學系統的混合光電摺積神經網路(CNN)。b) 完全光學神經網路(ONN)架構,將深度衍射神經網路整合於4f成像系統的傅里葉平面上。4f 系統(見圖5)利用光場訊號(如圖像)通過第一枚透鏡進行傅里葉變換。在透鏡後的傅里葉面上,調製裝置(如相位掩膜、空間光調製器 SLM)對頻譜進行濾波或加權調整。經調製後的頻譜再通過第二枚透鏡進行反傅里葉變換,生成輸出光場。超表面材料可替代傳統透鏡間的調製裝置 。其他類型雷射器雷射器作為一種具有高相乾性、單色性和方向性的獨特光源,也被應用於光神經網路(ONN)(見圖6)。圖6:其他類型的雷射器a) 使用垂直腔面發射雷射器(VCSELs)的全光尖峰神經網路(SNN)理論分析。b) 基於VCSEL的全光SNN進行有監督學習。c) 用於SNN中軟硬協同計算的FP-SA神經元晶片。d) 基於分佈反饋-飽和吸收(DFB-SA)雷射器的光子整合尖峰神經元的實驗演示例如,垂直腔面發射雷射器(VCSEL)在研究中已被理論提出並在實驗中驗證。在 VCSEL 中,電流通過電極注入有源區,電子與空穴在量子阱層中復合,產生光子。這些光子在兩個分佈式布拉格反射鏡(DBR)之間來回反射,多次穿過有源區並被放大。當增益(光放大能力)超過腔體損耗(吸收、散射等)時,達到閾值條件,雷射輸出就會產生。一項研究利用了 VCSEL 陣列的特性:在被主雷射器鎖模時可以保持相同的初始相位。在該研究中,特徵資料被編碼為電訊號來調節一個 VCSEL 的泵浦電壓,從而調節其輸出光的相位;同樣,權重矩陣的每一列也被編碼為電訊號,調節其他 VCSEL 的輸出光相位。利用光束分離器和耦合器,使代表 MNIST 資料的 VCSEL 的輸出光與其他 VCSEL 的輸出光干涉,光電探測器收集光訊號,並將其求和成電訊號,作為下一層 VCSEL 陣列的輸入,實現前向傳播。在最終輸出層,輸出電訊號最強的光電探測器對應於輸出標籤。另一個例子是帶有腔內可飽和吸收體(SA)的分佈反饋雷射器(DFB-SA)。DFB 雷射器的腔體內含有周期性光柵結構,可提供光反饋以實現單波長輸出。可飽和吸收體(SA)區域位於雷射腔高反射端附近。在低泵浦電平下,SA 吸收光子,抑制雷射輸出;在高泵浦電平下,SA 釋放光脈衝(Q開關效應)。因此,當增益電流超過 DFB-SA 的自脈衝閾值時,SA 的周期性吸收調製會產生脈衝輸出,其輸出頻率與泵浦強度呈非線性正相關,可作為脈衝神經網路(SNN)的基本單元。在此結構中,DFB 雷射器也可以被傳統法布裡-珀羅(FP)雷射器取代 。利用二維材料製造整合光子晶片整合光子晶片作為下一代 AI 硬體的關鍵技術之一,正逐步崛起。這類晶片利用光進行計算和通訊,具有高速與高能效的優勢。為了實現這一應用,將二維(2D)材料,主要是石墨烯和過渡金屬二硫族化物(TMDCs),整合到晶片中,能夠顯著提升功能與性能。本節將探討這些材料的特性、整合技術、應用場景以及其在 AI 光子晶片應用中面臨的挑戰。石墨烯和 TMDCs 的關鍵特性石墨烯因其優異的光學與電子性能,在光子學領域引發革命。儘管其厚度僅為一個原子層,卻能在寬光譜範圍內吸收約 2.3% 的入射光,這使其在光學調製與探測方面非常有效。此外,石墨烯超快的載流子遷移率支援高速調製與低功耗運行,這對於能效至上的 AI 硬體至關重要 。同時,石墨烯表現出強烈的非線性光學特性,可用於頻率變換、全光開關及其它高級功能,使其在該領域的重要性進一步提升。另一方面,TMDCs(如 MoS₂ 和 WS₂)以可調帶隙和強激子效應補充了石墨烯的不足。這些材料在單層狀態下具有直接帶隙,增強了光與物質的相互作用,因而特別適用於光電探測器和波導。TMDCs 也展現出強非線性光學響應,能在晶片上實現倍頻和參量放大等高級功能。基於上述材料特性與優勢,石墨烯與 TMDCs 顯然是推動 AI 光子晶片發展的關鍵材料。整合技術將二維材料整合到光子晶片中涉及多種先進封裝工藝,主要包括:轉印法(Transfer Printing):將二維材料的薄層剝離後轉印至矽基底,無需粘合劑,能保持其本征光學性能,並實現對光子結構(如波導、諧振器)的精確定位。混合整合(Hybrid Integration):將石墨烯或 TMDCs 與現有矽光平台結合,增強光-物質相互作用。例如,石墨烯已用於在微環諧振器中實現高速調製器,該混合器件可實現太赫茲等級調製速度,同時保持低功耗 。范德華異質結構(Van der Waals Heterostructures):通過堆疊不同的二維材料,形成具有可調帶隙和各向異性折射率的異質結構。這些結構被視為最佳化波導約束因子的理想方案。近期的研究還表明,採用與 CMOS 工藝相容的技術,可以實現基於石墨烯器件的晶圓級整合。這一突破為大規模生產含二維材料的光子晶片奠定了基礎。圖7:晶體結構a) 石墨烯,b) 過渡金屬二硫化物(TMDC),c) 黑磷,d) 六方氮化硼(h-BN)晶體結構圖。圖8:圖示(左)與光學顯微鏡圖像(右)展示了目前主要的機械方法之一——柔性剝離與轉印法的步驟。步驟如下:a) 將材料沉積在玻璃基底上,b) 小心地將圖案化的聚二甲基矽氧烷(PDMS)印章“上墨”,c) 將“上墨”後的印章接觸加熱的矽/二氧化矽(Si/SiO₂)基底,d) 撕開印章,留下沉積材料。圖9:不使用腐蝕劑建構范德華異質結構的水浸法流程示意圖。光子晶片中的應用整合石墨烯和過渡金屬二硫化物(TMDCs)的光子晶片在人工智慧工作負載中展現出變革性的應用:一、光調製器基於石墨烯的調製器已展示出卓越的速度和頻寬性能——通過將石墨烯與矽波導整合,研究人員實現了能夠在超過100 GHz頻率下運行的調製器。這些調製器特別適用於人工智慧系統中所需的高速資料傳輸應用場景。二、光電探測器石墨烯在光電探測器中的應用頗為令人驚訝,由於其頻率無關的吸收特性以及在與強吸光材料結合使用時所展現的極高載流子遷移率,使得其性能優於傳統材料 [graphenea]。研究在使用混合石墨烯-量子點光電探測器方向取得進展,這類探測器被作為寬頻圖像感測器整合到CMOS相機中,以實現高響應率 [graphenea]。總體而言,二維材料在波導整合光電探測器方面具有多項優勢,包括尺寸最小化、訊號雜訊比提升以及在寬頻寬和高量子應用中的效率提高。TMDCs被用於製造在可見光和紅外波段均具有高響應率的光電探測器,利用其物理特性提升探測性能。這類探測器使AI驅動的邊緣裝置能夠高效獲取資料 [26]。混合石墨烯-量子點光電探測器也在研究中,旨在在保持CMOS相容性的前提下進一步增強寬頻探測能力 [26]。三、波導范德瓦爾斯材料的使用使得超薄波導得以實現,並具有低傳播損耗的特性。通過將矽光子學與波導整合的石墨烯相結合,實現了全可調性、寬頻和高速運行等特性。總體而言,這種波導應用使光子電路得以小型化,同時保持AI硬體所需的性能指標,在該領域推動顯著進步 。圖10:依賴二維材料的波導整合光電探測器技術路線圖。圖11:整合在CMOS電路中的石墨烯-量子點光電探測器。非線性光學TMDCs表現出強烈的非線性響應,從而開啟了諸如頻率轉換和全光訊號處理等高級功能的大門。這些能力對於在晶片上直接實現非線性光學功能及實現晶片級量子計算至關重要 。基於石墨烯的器件也展現出在類腦架構如光子神經網路方面的潛力——近期一項研究提出了一種嵌入微環諧振器中的基於石墨烯的突觸模型,能夠使用多波長技術建構大規模神經網路,這一方法有望顯著加速大語言模型的訓練過程。表1:在技術上具有重要意義的電信波長下,常見二維材料與用於矽及矽混合整合方案中的CMOS相容平台主材的二階和三階非線性光學參數。該表表徵了多種混合波導的非線性響應,展示了二維材料在當前AI背景下的性能潛力。案例研究:基於光子晶片的AI硬體整合二維材料的光子晶片因其能夠以接近光速的速度執行計算任務,而比現有技術更快,因此在AI硬體方面展現出極大前景。例如:麻省理工學院的研究人員展示了一種能夠以光學方式執行深度神經網路計算的全整合光子處理器。該晶片通過整合非線性光學功能單元(NOFUs)實現了超低延遲和極低功耗,在不到半納秒內完成了機器學習分類任務的關鍵計算,同時精準率超過92%(與現有技術表現一致)。此晶片還採用商用工藝製造,為這一新技術的規模化鋪平了道路。哥倫比亞大學開發了一種節能的資料傳輸方法,通過在光子晶片上利用Kerr頻率梳,使研究人員能夠通過不同且精確的光波長傳輸清晰訊號。這一創新提高了頻寬密度並降低了能耗,這兩者都是提升大型語言模型訓練系統可擴展性的關鍵因素。Black Semiconductor公司新設立了名為FabONE的總部,專注於開發基於石墨烯的光子連接解決方案,以實現更快速的晶片間互連。這項技術將推動高性能計算、人工智慧、機器人技術、自動駕駛等領域的發展,特別是在AI模型的超高速訓練過程方面。這些突破性進展凸顯了整合二維材料的光子晶片在加速AI基礎設施革命方面的潛力,特別是在速度、可擴展性和能效方面的瓶頸突破。圖12:基於克爾頻率梳驅動的矽光子鏈路的分層結構藝術示意圖。挑戰與未來方向儘管潛力巨大,與所有新技術一樣,要充分實現二維材料在整合光子學中的價值,還面臨諸多挑戰:一、可擴展性超薄二維材料的脆弱性在大規模製造過程中帶來挑戰,需要在轉印技術和晶圓級合成方面取得進展,才能使這項技術真正具備可擴展性 。二、材料穩定性包括石墨烯和TMDCs在內的一些二維材料在環境條件下會降解。為了讓這項技術得到廣泛採用,必須開發保護塗層、封裝技術或一般性的保存方法,以保障其長期可靠性 [38]。三、整合複雜性要實現與現有CMOS工藝的無縫整合,需要在各種技術手段和介面工程上進一步最佳化,才能使這項新技術順利進入主流應用。未來的研究應聚焦於解決上述挑戰,同時繼續探索與石墨烯和TMDCs互補的新型材料系統。二者結合,將推動由電子、光子和基於二維材料的元件構成的混合平台發展,為AI硬體和技術帶來顛覆性進步鋪平道路。用於光子類腦計算晶片的自旋電子學奈米光子學作為一門新興的交叉學科,融合了奈米技術和光子學原理,旨在探索和利用奈米尺度結構對光波的調控能力。在光子學領域,主動器件與被動器件均扮演著重要角色,並具有廣闊的應用前景。類腦系統通過借鑑神經網路的原理,試圖模擬人腦的計算與認知能力。本節將系統探討自旋電子器件與奈米光子結構在類腦計算中的協同整合。類腦計算的背景與挑戰類腦計算的提出源於傳統馮·諾依曼架構的根本性限制。傳統計算系統受到“馮·諾依曼瓶頸”的困擾,即處理單元與儲存單元的物理分離導致在資料傳輸中產生過高的能耗與延遲。隨著處理器與儲存之間性能差距的擴大,這一瓶頸進一步加劇,被稱為“儲存牆”。現代電腦在模擬基礎腦功能時需消耗兆瓦級功率,而生物大腦僅使用20瓦功率卻能實現驚人的認知能力。與此同時,半導體產業面臨電晶體微縮趨於極限、摩爾定律停滯等生存性挑戰。這場架構危機與電晶體縮放危機共同促使人們對類腦計算範式產生濃厚興趣。類腦計算通過三項關鍵創新應對上述挑戰:1)計算與儲存的共址;2)資訊的模擬編碼;3)大規模平行連接 。儘管神經網路的理論框架可追溯至McCulloch與Pitts的二值神經元模型(1943年)以及之後的深度學習發展,但實際實現面臨嚴重的硬體限制。基於CMOS的電晶體陣列實現缺乏非線性動力學、長期可塑性和隨機性等基本神經生物特性。新興的非易失性儲存器技術(尤其是憶阻器 )使更具生物逼真度的實現成為可能,但材料限制依然存在。阻變RAM(RRAM)、相變材料和鐵電器件在耐久性、速度和可控性之間存在權衡,限制其大規模部署能力。三代神經網路凸顯了硬體需求的不斷演進:1)以閾值操作為核心的第一代感知機;2)要求連續非線性啟動函數的第二代深度神經網路(DNN);3)依賴精確時間編碼和事件驅動處理的第三代脈衝神經網路(SNN)。雖然DNN主導當前AI應用,SNN因稀疏、基於脈衝的通訊方式而在生物逼真度與能效方面表現更優 。然而,SNN的硬體實現尤為困難,需要器件能本徵地模擬生物神經元的“洩漏積分-發放”(LIF)動態,以及突觸的“基於脈衝時序的可塑性”(STDP)。當前採用CMOS電路或新型憶阻器的解決方案,或缺乏基本類腦特性,或在耐久性與隨機控制方面存在侷限性。這種硬體-演算法之間的落差從根本上限制了類腦計算實現類腦效率與適應性的潛力。神經形態計算中的核心優勢與關鍵自旋電子技術自旋電子器件具備獨特優勢,使其成為神經形態計算硬體的領先候選。其內在的非易失性、超快動態響應(>1 GHz)以及幾乎無限的耐久性(10^15 次循環)能夠實現高能效、符合生物邏輯的神經網路實現方式。關鍵在於,自旋電子技術利用磁性和自旋相關現象,天然模擬神經-突觸功能,同時保持與傳統 CMOS 製造工藝的相容性。其三大核心優勢包括:(1)磁化翻轉和自旋進動中的隨機性可對應為神經元的機率性發放機制,從而實現事件驅動的脈衝神經網路(SNNs),具備稀疏編碼效率 ;(2)多型磁化動態(如磁疇壁運動、磁渦旋核化)展現模擬憶阻特性,是調控突觸權重的關鍵 ;(3)非易失狀態保持特性可消除空閒期間的靜態功耗。這些特性有效緩解馮·諾依曼架構瓶頸,並在速度與可靠性方面優於其他憶阻技術 。磁隧道結(MTJ)是基礎的自旋電子構件,能夠在兩種運行模式下展現多樣神經形態功能。在超順磁模式下,MTJ 在平行與反平行狀態間的隨機翻轉可生成泊松分佈脈衝,應用於機率計算 ,在 CoFeB/MgO 結構中實現高達 604% 的隧道磁阻比(TMR)。當作為自旋轉矩奈米振盪器(STNO)使用時,MTJ 可產生 GHz 級的電壓振盪,並與外部刺激同步,用於建構耦合振盪器網路以實現模式識別 。自旋軌道轉矩(SOT)器件通過重金屬/鐵磁體雙層結構實現無場磁化翻轉,擴展了這些能力。SOT 驅動的自旋霍爾奈米振盪器(SHNOs)在二維陣列中可實現互同步,三端結構的 MTJ 則通過讀寫路徑分離增強突觸精度 [Fukami2016]。磁奈米線中的磁疇壁運動提供連續的電阻調製,適用於模擬突觸,實現每次突觸更新能耗為 32 meV。新興的拓撲自旋結構如磁渦旋(skyrmion)具備類粒子動態,可用於生物啟發計算模型。在手性磁體中,直徑小於 100 nm 的渦旋的生成與湮滅模擬神經遞質釋放的機率機制,閾值電流為 10 μA 。反鐵磁(AFM)自旋電子學提供 THz 級動態響應和無雜散磁場特性,通過補償磁矩實現高密度交叉陣列。基於 AFM 的突觸展現 100 ps 的翻轉速度和高達 200°C 的熱穩定性]。這些技術的融合使得建構“全自旋神經網路”成為可能:結合基於 STNO 的神經元 [Romera2018]、磁疇壁憶阻突觸與渦旋機率互連,該硬體生態系統在物理層面協調設計,解決了儲存-計算分離難題。自旋電子技術在系統層級的應用探索自旋電子神經形態系統通過基於物理機制的架構創新,在認知計算模式中展現變革潛力。一項前沿實現中,四個同步運行的自旋轉矩奈米振盪器(STNOs)處於耦合的微波發射狀態,用於即時元音識別任務,精準率達到 96%,比等效的深度學習網路高出 17%,且每次分類僅消耗 3 mW 功耗 。該事件驅動架構利用 2.4 GHz STNO 陣列的固有頻率復用特性,將時間語音訊號直接對應到振盪器的同步狀態,從而省去了模數轉換的開銷。對於大規模實現,32×32 元素的自旋霍爾奈米振盪器(SHNO)交叉陣列通過傳播的自旋波在 100 µm 距離上實現互相鎖相,從而通過集體動態而非離散突觸權重完成模式補全任務。磁渦旋網路通過拓撲保護的粒子相互作用引入機率計算能力。在手性磁體中,50–100 nm 尺寸的渦旋網路通過核化密度編碼機率分佈,建構貝葉斯推理引擎,實現氣象預測模型中的 92% 精準率,在 10^5 個隨機狀態下進行存內採樣。該方案相較於 GPU 實現的蒙特卡洛模擬,能耗減少了 10 倍,通過模擬電流控制的狀態重組方式實現。反鐵磁(AFM)自旋電子器件具備抗雜散場和 1 THz 動態性能,可實現超高密度結構。在 IrMn 基交叉陣列中,每次突觸更新的實驗能耗為 4 fJ,權重漂移在 10^12 次循環內保持在 0.1% 以下。在儲備計算(Reservoir Computing)實現中,系統利用非線性磁化動態進行時間訊號處理。單個漩渦型 STNO 通過時間復用進動狀態等效於 400 個神經元,解決 Mackey-Glass 混沌時間序列預測任務時,歸一化均方誤差僅為 0.012 。基於渦旋的儲備結構利用無序磁結構中的新興相互作用處理 10 MHz EEG 訊號,功耗為 20 μW,成功實現即時癲癇發作檢測,依賴自旋結構動態中的分叉檢測機制。展望大規模部署,結合 STNO 神經元、磁疇突觸與 AFM 互連的“全自旋神經網路”有望實現 >100 TOPS 的認知計算性能,系統功耗低於 10 mW,通過在物理層面聯合設計神經-突觸功能結構達成。圖13:用於儲存應用的磁隧道結。a、一種磁隧道結由兩個鐵磁層(灰色)夾著一層絕緣層(藍色)組成,其中一層的磁化方向固定,另一層的磁化方向可與其平行(低電阻)或反平行(高電阻)。標籤“1”和“0”分別表示這兩種狀態。b、高密度儲存用的磁隧道結交叉陣列(磁性隨機儲存器)。通過啟動相應的字線(紅色),允許底部位線與頂部感應線(均為藍色)導通,從而測量某個特定隧道結的電阻。通過施加足夠的電流可以切換磁化方向。c、聯想記憶:(i) 來自MNIST資料集的手寫數字用於訓練聯想記憶;(ii) 訓練後輸入的測試樣本;(iii) 測試輸入產生的訓練網路輸出,顯示成功的聯想。[<引用缺失>]圖14:基於自旋電子學的憶阻器。a、疇壁憶阻器:磁隧道結的電阻取決於疇壁位置,從而改變高電阻反平行態與低電阻平行態的相對面積。b、基於Skyrmion的憶阻器:裝置的電阻取決於固定層下方的Skyrmion數量。c、細磁疇隧道憶阻器:在與多晶反鐵磁體耦合的隧道結中,由於各個磁疇的切換特性不同,使得磁疇可以在不同條件下獨立翻轉。裝置的電阻由與固定層磁化方向一致的磁疇所佔比例決定。d、自旋電子聯想記憶:每個非對角矩陣元素的值通過憶阻器的配置儲存,用不同的電平表示。這些電平經過訓練,使得在矩陣與輸入相乘後,結果最接近訓練集中的某一元素。乘法運算通過施加對應輸入的電壓並測量相關憶阻器的輸出電流完成。d圖下方的前三個圖像為網路訓練識別的圖像,第四個為其中一個圖像的“噪聲”版本,第五個為重構後的正確圖像。當前挑戰與未來方向長上下文窗口與長序列下的記憶體問題記憶體與上下文窗口: 光子加速器通常缺乏足夠的片上記憶體來快取長序列的tokens。現代LLM推理可能涉及上萬個tokens,需要儲存啟動值、鍵/值對以及整個上下文中的中間狀態。由於片上通常缺少大容量SRAM或NVM,光子系統只能將資料流進流出,這重新引入了馮·諾依曼瓶頸。正如Ning等人所指出,“資料移動經常成為整個系統的瓶頸”,這一問題不僅存在於傳統電子處理器,也同樣適用於光處理器。實踐中,有限的片上記憶體迫使光子LLM實現從外部DRAM或硬碟中獲取上下文,從而帶來延遲並破壞全光計算流水線。諸如“檢索增強生成”(retrieval-augmented generation)等新興用例進一步加劇了這一問題:對多TB文字語料庫進行近即時搜尋與分詞,又引入一輪高開銷的記憶體訪問。簡而言之,光子晶片的有限儲存能力限制了LLM的上下文長度與吞吐量,使得長序列推理成為一個主要挑戰。光子計算系統中大規模資料集的儲存問題儲存與I/O瓶頸: 大語言模型及其訓練資料或知識庫涉及PB級甚至更大的資料集。光子加速器仍依賴於高速外部儲存與記憶體來提供這些資料。所需的I/O頻寬常常超出現有介面的處理能力:即使光核本身運行極快,但如果無法快速供數,也會造成資源浪費。分析人士警告LLM面臨越來越嚴重的“記憶體牆”,資料移動成為主導限制因素。現實工作負載使情況更為嚴峻:例如檢索增強型LLM需反覆提取和處理大量文字塊,對I/O系統造成極大壓力。有些提議(如將權重儲存與計算單元共置的非易失性儲存)可減少I/O開銷(一項研究報告使用片上Flash儲存權重可減少1000倍I/O),但考慮到資料集體量,多TB語料庫的快取、調度與匯流排頻寬仍將是光子LLM系統中的關鍵瓶頸。精度與轉換開銷問題光子計算本質上是模擬的,因此很難表示LLM推理所需的高精度張量。當前最先進的光子Transformer設計依賴高解析度ADC/DAC來保持精度,而這些轉換器消耗了大部分晶片面積與功耗。例如,在某個光子Transformer加速器中,ADC/DAC電路佔據了超過50%的晶片面積,並成為性能瓶頸。如何在不大幅增加轉換開銷的前提下減少量化誤差是持續的挑戰:低位元轉換器或共享ADC架構可最佳化面積與能耗,但可能影響模型精度。因此,找到最優的模擬量化方案或混合訊號架構(例如使用數字校正少量值)對下一代光子LLM晶片至關重要。缺乏原生非線性函數光子硬體擅長執行線性運算(如通過干涉儀實現的矩陣-向量乘法),但在實現啟動函數和非線性層方面歷來缺乏高效手段。早期整合光子神經網路雖可進行快速矩陣乘法,但啟動函數仍依賴電子電路。實踐中,許多光子LLM加速器仍需轉換至CMOS以實現softmax、GELU等點操作函數。整合高效的片上非線性元件(如光學可飽和吸收器、電光調製器或奈米光子非線性元件),或開發最小化轉換差距的混合光電計算流水線,是實現全光LLM推理的重要工程挑戰。光子注意力架構目前的主要研究方向之一是將Transformer中的自注意力機制直接實現於光域中。這要求設計可調光學權重元件與可重構干涉儀網路,以光學方式計算Q×K及V加權和。例如,光子張量核(photonic tensor cores)正在開發中,利用馬赫-曾德爾干涉儀(MZI)網格或其他交叉陣列實現大規模矩陣平行運算。可調權重可以通過相位調製器、微環調製器,甚至磁光儲存單元來實現:有研究提出使用Ce:YIG諧振器儲存多位元權重,從而實現片上非易失性光學權重儲存。此外,來自儲備計算(Reservoir Computing)的基於延遲方案可提供時間上下文:長光延遲線或串聯微環已展示出極高的序列記憶能力。未來構想是:實現一個全光Transformer模組,其中動態權重矩陣被程式設計進光學網格,過往token狀態保存在延遲路徑中,使自注意力機制得以光速運行。最新設計如Lightening-Transformer(動態運行的光子張量核)與HyAtten驗證了這一思路:它們實現了高度平行、全範圍矩陣運算,同時最大限度減少了片外轉換。持續推進整合光學快取、高頻寬調製器以及光學softmax逼近將推動該方向的發展。類腦與脈衝光子LLM另一條前沿路徑是將LLM推理重構為類腦、事件驅動範式。SNN以稀疏的非同步事件形式處理資料,天然契合光子的優勢。事實上,已有基於相變神經元和雷射脈衝的全光脈衝神經網路在晶片上實現。人們設想可以將token流編碼為光學脈衝,通過具有突觸權重的光子SNN實現序列處理。混合光子-自旋電子設計在此可發揮作用:自旋電子器件(如磁隧道結、相變突觸)可提供緊湊的非易失性權重儲存,並可與光神經元介面。近期關於磁光儲存的光子片上權重研究、利用極端稀疏性的光子類腦加速器研究表明,在光子晶片中嵌入非線性、事件驅動元件是可行的。這類架構可利用資料稀疏性(大多數token僅弱啟動網路),僅在事件發生時更新權重,從而顯著降低能耗。在光子類腦硬體上探索脈衝注意力模型或稀疏Transformer變種,是未來低功耗LLM推理的令人興奮的發展方向。系統整合與協同設計最後,在光子平台上擴展LLM需跨層次的協同設計。這包括將光子處理器與先進的光學I/O和儲存層次結構整合,以及從演算法層面匹配硬體特性。例如,近期在商用代工廠製造的全整合光子DNN晶片展示了在晶片內全光完成神經網路計算的可能性。將此類整合擴展到Transformer等級模型將需要密集的波分復用(WDM)、片上傳輸的光學網路架構(NoC)、以及新型封裝(如共同封裝光學)來提升吞吐量。同時,軟體工具鏈(如量化、平行性、佈局)也需適配光子硬體。關於光電協同封裝與存內計算架構的努力提供了路線圖:通過將光子張量核與共置的記憶體和控制邏輯緊密耦合,可緩解馮·諾依曼架構帶來的資料瓶頸。從長遠來看,成功可能來自“全球協同設計”——即將Transformer演算法的稀疏性、低精度、模型分區等特性與非馮·諾依曼的光子晶片能力精確匹配。這些軟硬體的協同創新將釋放光計算在下一代LLM負載中的巨大平行潛能。結論光子學的進步正在推動計算技術的變革,其中光電器件與光子平台的整合處於前沿。這一整合催生了光子積體電路(PICs),它們作為超高速人工神經網路的建構模組,是新一代計算裝置建立的關鍵。這些裝置旨在應對機器學習和人工智慧應用在醫療診斷、複雜語言處理、電信、高性能計算和沉浸式虛擬環境等多個領域中所帶來的高強度計算需求。儘管已有諸多進展,傳統電子系統在速度、訊號干擾和能效方面仍存在侷限。神經形態光子技術以其超低延遲的特性,作為一種突破性解決方案出現,為人工智慧和光神經網路(ONNs)的發展開闢了新的路徑。本綜述從光子工程和材料科學的角度出發,聚焦神經形態光子系統的最新發展,批判性地分析當前和預期面臨的挑戰,並描繪出克服這些障礙所需的科學與技術創新圖譜。文章重點介紹多種神經形態光子人工智慧加速器,涵蓋從經典光學到複雜的PIC設計的廣泛技術領域。通過詳細的對比分析,特別強調其在每瓦操作次數(operations per watt)方面的運行效率。討論轉向諸如垂直腔面發射雷射器(VCSEL)/光子晶體面發射雷射器(PCSEL)和基於頻率微梳的加速器等專用技術,突出了在光子調製和波分復用方面的最新創新,以實現神經網路的高效訓練與推理。鑑於當前在實現每瓦千兆次操作(PetaOPs/Watt)計算效率方面存在的技術瓶頸,本文探討了提升這些關鍵性能指標的潛在策略,包括拓撲絕緣體與PCSELs等新興技術,以及提升製造工藝、系統可擴展性與可靠性的手段。本文不僅描繪了當前的技術圖景,也預測了神經形態光子技術在推動人工智慧能力邊界方面的未來發展路徑。總的來說,隨著摩爾定律的終結以及光子版“摩爾定律”的起飛,我們預計將在PIC的成本、可擴展性、可整合性以及總體計算能力方面看到顯著提升。PIC最終將取代IC,成為未來計算系統的核心支柱。 (半導體行業觀察)
光晶片之爭,愈演愈烈
AMD 本周宣佈收購光子晶片初創公司Enosemi,正式加入共封裝光學競賽。House of Zen 旨在將該技術融入其下一代機架式系統,以便在人工智慧領域更好地與競爭對手 Nvidia 競爭。與銅互連或走線相比,共封裝光學器件具有許多優勢,包括更高的頻寬、更低的延遲和更低的功耗。顧名思義,這些改進通常是通過將光子晶片或中介層與計算晶片一起封裝來實現的,通過光纖而不是銅線傳輸訊號。在人工智慧蓬勃發展的背景下,人們對這項技術的興趣激增,因為晶片設計師和系統製造商一直在努力解決傳統銅纜的有限覆蓋範圍和頻寬以及高性能可插拔光學器件不斷增長的功率需求。AMD 在共封裝光學器件領域稍晚了一步。英特爾和博通多年來一直在探索這項技術,而在今年春季的 GTC 大會上,Nvidia發佈了兩款將在今年晚些時候開始採用該技術的網路交換機。照亮未來之路AMD 可能計畫在未來的機架級設計中使用 Enosemi 的 IP。然而,我們尚不清楚該光子技術將如何以及在何處整合。但AMD的高管此前曾討論過將光子晶片整合到其 MI300 系列晶片等晶片中以提高頻寬。現代 GPU 通常具有極高性能的互連技術,例如 Nvidia 的 NVLink 或 AMD 的 Infinity Fabric,使滿滿一機架的晶片能夠像一個大型機架一樣運行。然而,要實現這一點,這些互連需要以每秒數百甚至數千 GB 的速度傳輸資料。由於這些縱向擴展互連依賴於銅線或線纜,其覆蓋範圍最多隻有幾英呎。如果你曾經好奇過,為什麼 Nvidia 的 NVL72 系統的 NVLink 交換機要將計算刀鋒伺服器分開,而不是全部放在頂部,原因就在這裡。光纖互連則不受此限制。您的擴展網路不再侷限於機架,而是可以將一整排 GPU 整合在一起。棘手的是讓光子學速度足夠快,以證明其更高的功耗是合理的。AMD 高級副總裁兼院士 Sam Naffziger 在去年的一段視訊中解釋道:“你需要整合光學元件,因為你需要巨大的頻寬。因此,你需要低能耗,而封裝內晶片是實現最低能耗介面的方法。” 他還表示,向共封裝光學元件的轉變“即將到來”。因此,除非您確實需要頻寬和覆蓋範圍,否則銅線可能仍然是更好的選擇。CPO 的權力遊戲這就是為什麼 Nvidia 堅持在其機架級系統內使用銅互連的原因。選擇光纖互連會使功率預算再增加 20 千瓦。相反,Nvidia 的目標是在橫向擴展網路中使用 CPO,將多個 HGX GPU 節點或 NVL72 機架拼接成一個大規模叢集進行訓練。在 GTC 大會上,這家 GPU 巨頭預告了其下一代 Spectrum 乙太網路和 Quantum InfiniBand 交換機,它們將摒棄可插拔式光模組,轉而採用整合光子學。但這些設計並非追求更長的傳輸距離或更高的頻寬,而是旨在抑制用於將電訊號轉換為光訊號(反之亦然)的光插拔式光模組的功耗。每個可插拔裝置都可以消耗 20W 至 40W 的功率,當每個交換機上有 64 至 512 個可插拔裝置時,功率就會迅速增加。Nvidia 的設計消除了對這些可插拔裝置的需要——至少在交換機端是這樣——這使得光纖電纜可以直接插入交換機的前端。Nvidia 認為,這可以降低功耗並消除故障源。NVIDIA 網路高級副總裁 Gilad Shainer 在今年春季 GTC 大會前表示:“通過整合光學技術,我們將功耗降低了近 3.5 倍。”競爭激烈雖然 Nvidia 的首款共封裝光交換機要到今年晚些時候才會上市,但博通多年來一直致力於 CPO 交換機的生產。第一代交換機由騰訊採用,但現在像 Micas Networks 這樣的公司正在提供基於博通 51.2 Tbps Bailly CPO 交換機平台的交換機。博通也在嘗試將該技術應用於擴展網路。在去年的Hot Chips大會上,博通聲稱已將GPU與一個能夠實現1.6TB/s無差錯雙向頻寬的光學晶片整合在一起。英特爾也在探索CPO在機架級系統中的應用。在上個月英特爾第一季度財報電話會議上,產品首席執行官米歇爾·約翰斯頓·霍爾索斯(Michelle Johnston Holthaus)表示,她認為“光學器件是機架級架構的關鍵要素”。與此同時,Celestial AI、Lightmatter 和 Ayar Labs 等初創公司繼續推進自己的 CPO 晶片和光學中介層設計。然而,儘管 CPO 繼續受到晶片製造商的青睞,但它仍處於起步階段,人們仍然擔心其可靠性、可維護性以及與這種緊密整合的技術相關的整體爆炸半徑。 (半導體行業觀察)
光晶片,不只是引人注目
光通訊晶片組市場預計將在2025至2030年間以17%的年復合成長率(CAGR)增長,總銷售額將從2024年的約35億美元增至2030年的超110億美元。當前,光晶片正引起越來越多科研機構和大廠的興趣。01. 市場和研究的重點推動市場成長的無疑是乙太網路和DWDM兩大巨頭,佔據了絕對主導地位。而PAM4 DSP晶片則悄悄崛起,成為第三大細分市場。這種晶片主要用作交換機ASIC與可插拔連接埠之間的板載重定時器,聽起來可能有點複雜,但簡單來說,它就是讓資料傳輸更快、更穩的關鍵角色。根據LightCounting的資料,超大規模雲端服務商對AI基礎設施的投資正在推動400G/800G以太網光模組的需求激增,進而拉動了PAM4晶片組的銷量。超大規模雲服務商對AI基礎設施的巨額投資推動400G/800G以太網光模組出貨量激增。中國雲廠商開始跟進投資AI基礎設施。無線前傳作為PAM4光元件新興市場,預計在2025年復甦,並在2026年繼續成長。自2024年以來,輝達、英特爾等巨頭企業紛紛在光子技術上加碼,輝達計劃在2027年推出Rubin Ultra GPU計算引擎,整合共封裝光學(CPO)技術,解決數據傳輸帶寬瓶頸,併計劃在2025年與台積電、博通合作推動相關矽光子產品量產;英特爾則在光纖通訊大會(OFC)大會上展示了其光學計算互連(OCI)晶片通航與CPU共融公司計算了85859696960008 ,這筆資金將用於加速該公司光晶片的生產和部署,以滿足AI叢集對低能耗、高效能運算的需求。除此之外,國內外頂尖科學研究機構在光晶片領域有著先進的科學研究成果。上海交通大學鄒衛文教授團隊研製了實現高速張量摺積運算的新型光子張量處理晶片。該研究創新提出基於光子整合手段建構張量運算過程的學科交叉研究思路,該思路無需進行張量到矩陣的轉換,可實現輸入張量到輸出張量的流式計算。基於這個創新思路,該團隊設計並研製一款光子張量處理晶片,在多通道圖像上驗證了時鐘頻率為20 GHz的高速張量摺積運算,晶片算力密度為588 GOPS/mm2,後續通過提升光子器件整合規模有望達到1 TOPS/mm2以上。研究團隊利用該晶片構建了用於視頻動作識別的摺積神經網絡,網絡中的摺積層在光子張量處理晶片上完成,最終在KTH視頻數據集上實現了97.9%的識別精度,接近理想識別精度98.9%。上海交大電院消息指出,本研究成果顯示光子整合晶片可在超高時鐘頻率下實現張量流式處理,解決額外記憶體佔用與訪存問題,為建構高效能運算、寬帶訊號處理等先進資訊系統提供了新技術途徑。清華大學的研究團隊開發了名為「太極」的光子晶片,其能量效率高於目前的智慧晶片數個數量級。短短4個月,清華大學的光晶片就已經迅速進化到第二代,世界上第一款全光學AI晶片太極-Ⅱ了,能源效率已經超過輝達著名的H100。這不僅僅是技術上的突破,更可能是一種新的計算範式的開始,甚至可能徹底改變電腦的設計和建構方式,這項研究已發表在8月7日的《自然》雜誌上。 《自然》審稿人認為,它有望成為訓練光學神經網絡和其他光學計算系統廣泛採用的工具。太極-Ⅱ全光學AI晶片是在新開發的全前向模式(FFM)上構建的,允許在光學系統中直接進行計算密集型AI訓練,而不需要復雜的反向傳播過程,是世界上第一個能夠進行「大規模光訓練」的晶片,可以更快、更省電地訓練人工智慧模型。香港城市大學副教授王騁團隊與香港中文大學研究人員合作開發出處理速度更快、能耗更低的微波光子晶片。可運用光學進行超快模擬電子訊號處理及運算。據介紹,這種晶片比傳統電子處理器的速度快1000倍,耗能更低,應用範圍廣泛,涵蓋5/6G無線通訊系統、高解析度雷達系統、人工智慧、電腦視覺以及影像和視訊處理。另外,IBM光子晶片取得新突破,實現下一代高速光互聯技術,可以顯著改善資料中心訓練和運行生成式AI 模型的方式,AI速度提升80倍。與目前最先進的CPO技術相比,IBM的創新使晶片製造商能夠在矽光子學晶片的邊緣加入六倍的光纖,即「海濱密度」。這些光纖的直徑大約是人類頭髮的三倍,長度從幾釐米到幾百公尺不等,每秒鐘可以傳輸太字的資料。 IBM團隊使用標準的組裝封裝工藝,在50微米間距的光學通道上組裝了一個高密度PWG,與矽光子波導絕熱耦合。論文還指出,這些具有50微米間距PWG的CPO模組已通過了製造所需的所有壓力測試,包括高濕環境、-40°C至125°C的溫度以及機械耐久性測試,確保了光互連在彎曲時不會損壞或遺失資料。此外,研究人員已將PWG技術展示到18微米的間距,堆疊四個PWG可實現多達128個通道的連接。這項突破延續了IBM在半導體創新領域的領先地位,包括首個2nm節點晶片技術、7nm和5nm工藝技術的實現、奈米片晶體管、垂直晶體管(VTFET)、單細胞DRAM和化學放大光刻劑等。 CPO技術為滿足AI日益增長的效能需求提供了新的解決方案,並有望取代模組外的電氣通訊方式。02. 光通訊的發展趨勢:1.6T、矽光、LPO、CPO光通訊領域正加速朝向高速率、整合、低功耗方向突破,1.6T、矽光、LPO和CPO四大技術趨勢相互交織,共同驅動產業變革。1.6T高速光模組‌成為新一代資料中心的核心需求,透過3nm製程DSP晶片與矽光技術融合,實現單波1.6Tbps傳輸速率,功耗較前代降低40%,支撐AI算力群集的長距離高密度互聯,但其訊號完整性設計與散熱問題仍需攻克。 ‌矽光技術‌作為底層創新,借助矽基材料和CMOS工藝,將雷射器、調製器等裝置整合於單一晶片,顯著降低成本和功耗,成為CPO等先進封裝的關鍵支柱,但矽基雷射器效率不足和封裝相容性問題仍制約其大規模應用。LPO(線性驅動可插拔模組)‌以「去DSP化」為核心,透過線性直驅技術降低50%功耗和30%延遲,保留可插拔特性,在中短距離場景(如數據中心架頂交換機互聯)實現效能與成本的平衡,但受限於傳輸距離和專用配對晶片能力。CPO(光電共封裝)‌則更激進,透過光引擎與交換晶片共封裝,將能效壓至≤5pJ/bit(降耗70%),支援未來3.2T/6.4T超高速率,結合液冷散熱可提升單機架算力密度40%,但高整合帶來的散熱難題和外接光源依賴成為商業化瓶頸。從協同效應來看,矽光與CPO深度繫結推動高密度整合,LPO作為過渡方案填補中短距市場,1.6T則牽引長距帶寬升級,形成多層次技術覆蓋。產業層面,頭部企業透過「矽光+CPO」組合搶佔AI算力高地,而LPO廠商聚焦低成本場景,推動資料中心PUE從1.25優化至1.12,加速綠色算力落地。這些趨勢共同指向一個核心目標:在AI與算力爆發時代,以更低能耗承載指數級增長的資料洪流。03. 磷化銦:光晶片的香鶴餑?最後我們來談談光晶片的風險。根據Yole統計顯示,到2026 年全球光模組元件磷化銦襯底(折合兩吋)預計銷量將超過100萬片, 2019 年-2026 年復合成長率達13.94%, 2026 年全球光模組元件磷化銦底預計市場規模將達到1.57 億美元。而磷化銦(InP)光晶片製造工藝的核心難點集中在材料特性、製程精度與熱管理三方面。磷化銦多晶合成需精確控制銦磷原子比(1:1±0.0001)及溫度(±0.5℃內),以規避非化學計量缺陷;單晶生長過程易受熱場擾動影響,導致位錯密度超過1000/cm²,直接影響元件光電轉換效率‌。另外,奈米級外延與光柵製造‌。量子阱外延層厚度需控制在±1nm以內,V/III族氣體流量比波動須<0.1%以確保介面陡峭度;分佈式反饋(DFB)雷射器的二階光柵刻蝕深度公差需≤5nm,否則導致波長偏移超過±0.5nm,難以滿足密集波分復用(DWDM)需求。以及,高精度封裝與良率提升‌。光纖耦合對準精度要求<0.15μm,但銲接應力易使VCSEL陣列光斑偏移超0.2μm,導致400G光模組封裝良率不足75%;而EML雷射器的端面反射率需穩定在30%-40%,鍍膜厚度誤差超過±1nm將引髮模式跳變‌。總的來說,磷化銦的製備工藝相對複雜,成本較高,限制了其大規模應用。為了降低成本並提高生產效率,研究人員正在不斷優化製備工藝,並探索新的製備方法。 (半導體產業縱橫)
一文讀懂輝達GTC:有關Blackwell全家桶、矽光晶片和黃仁勳的“新故事”
黃仁勳在GTC演講中稱推理讓算力需求暴增100倍作為AI時代的“賣鏟人”,黃仁勳和他的輝達,始終堅信算力永不眠。今天的GTC大會上,黃仁勳拿出了全新的Blackwell Ultra GPU,以及在此基礎上衍生的應用於推理、Agent的伺服器SKU,也包括基於Blackwell架構的RTX全家桶,這一切都與算力有關,但接下來更重要的是,如何將源源不斷算力,合理有效地消耗掉。在黃仁勳眼裡,通往AGI需要算力,具身智能機器人需要算力,建構Omniverse與世界模型更需要源源不斷的算力,至於最終人類建構一個虛擬的“平行宇宙”,需要多少算力,輝達給了一個答案——過去的100倍。為了支撐自己的觀點,黃仁勳在GTC現場曬了一組資料——2024年美國前四雲廠總計採購130萬顆Hopper架構晶片,到了2025年,這一資料飆升至360萬顆Blackwell GPU。以下是騰訊科技整理的輝達GTC 2025大會的一些核心要點:Blackwell全家桶上線1)年度“核彈”Blackwell Ultra在擠牙膏輝達去年GTC發佈Blackwell架構,並推出GB200晶片,今年的正式名稱做了微調,不叫之前傳言的GB300,直接就稱之為Blakwell Ultra。但從硬體來看,就是在去年基礎上更換了新的HBM記憶體。一句話理解就是,Blackwell Ultra= Blackwell大記憶體版本。Blackwell Ultra由兩顆台積電N4P(5nm)工藝,Blackwell 架構晶片+Grace CPU封裝而來,並且搭配了更先進的12層堆疊的HBM3e記憶體,視訊記憶體提升至為288GB,和上一代一樣支援第五代NVLink,可實現1.8TB/s的片間互聯頻寬。NVLink歷代性能參數基於儲存的升級,Blackwell GPU的FP4精度算力可以達到15PetaFLOPS,基於Attention Acceleration機制的推理速度,比Hopper架構晶片提升2.5倍。2)Blackwell Ultra NVL72:AI推理專用機櫃Blackwell Ultra NVL72官方圖和GB200 NVL72一樣,輝達今年也推出了類似的產品Blackwell Ultra NVL72機櫃,一共由18個計算托盤構成,每個計算托盤包含4顆Blackwell Ultra GPU+2顆Grace CPU,總計也就是72顆Blackwell Ultra GPU+36顆Grace CPU,視訊記憶體達到20TB,總頻寬576TB/s,外加9個NVLink交換機托盤(18顆NVLink 交換機晶片),節點間NVLink頻寬130TB/s。機櫃內建72張CX-8網路卡,提供14.4TB/s頻寬,Quantum-X800 InfiniBand和Spectrum-X 800G乙太網路卡則可以降低延遲和抖動,支援大規模AI叢集。此外,機架還整合了18張用於增強多租戶網路、安全性和資料加速BlueField-3 DPU。輝達說這款產品是“為AI推理時代”專門定製,應用場景包括推理型AI、Agent以及物理AI(用於機器人、智駕訓練用的資料模擬合成),相比前一代產品GB200 NVL72的AI性能提升了1.5倍,而相比Hopper架構同定位的DGX機櫃產品,可以為資料中心提供50倍增收的機會。根據官方提供的資訊,6710億參數DeepSeek-R1的推理,基於H100產品可實現每秒100tokens,而採用Blackwell Ultra NVL72方案,可以達到每秒1000 tokens。換算成時間,同樣的推理任務,H100需要跑1.5分鐘,而Blackwell Ultra NVL72 15秒即可跑完。Blackwell Ultra NVL72和GB200 NVL72硬體參數根據輝達提供的資訊,Blackwell NVL72相關產品預計在2025年下半年上市,客戶包括伺服器廠商、雲廠、算力租賃服務商幾大類:伺服器廠商Cisco/Dell/HPE/Lenovo/超微等15家製造商雲廠AWS/Google Cloud/Azure/Oracle雲等主流平台算力租賃服務商CoreWeave/Lambda/Yotta等3)提前預告真“核彈”GPU Rubin晶片按照輝達的路線圖,GTC2025的主場就是Blackwell Ultra。不過,黃仁勳也借這個場子預告了2026年上市的基於Rubin架構的下一代GPU以及更強的機櫃Vera Rubin NVL144——72顆Vera CPU+144顆 Rubin GPU,採用288GB視訊記憶體的HBM4晶片,視訊記憶體頻寬13TB/s,搭配第六代NVLink和CX9網路卡。這個產品有多強呢?FP4精度的推理算力達到了3.6ExaFLOPS,FP8精度的訓練算力也達到了1.2ExaFlOPS,性能是Blackwell Ultra NVL72的3.3倍。如果你覺得還不夠,沒關係,2027年還有更強的 Rubin Ultra NVL576機櫃,FP4精度的推理和FP8精度的訓練算力分別是15ExaFLOPS和5ExaFLOPS,14倍於Blackwell Ultra NVL72。輝達官方提供的Rubin Ultra NVL144和Rubin Ultra NVL576參數4)Blackwell Ultra版DGX Super POD“超算工廠“對於那些現階段Blackwell Ultra NVL72都不能滿足需求,又不需要搭建超大規模AI叢集的客戶,輝達的解決方案是基於Blackwell Ultra、即插即用的DGX Super POD AI超算工廠。作為一個即插即用的AI超算工廠,DGX Super POD主要面向專為生成式AI、AI Agent和物理模擬等AI場景,覆蓋從預訓練、後訓練到生產環境的全流程算力擴展需求,Equinix作為首個服務商,提供液冷/風冷基礎架構支援。由Blackwell Ultra建構的DGX SuperPod基於Blackwell Ultra定製的DGX Super POD分兩個版本:內建DGX GB300(Grace CPU ×1+Blackwell Ultra GPU ×2) 的DGX SuperPOD,總計288顆Grace CPU+576顆 Blackwell Ultra GPU,提供300TB的快速記憶體,FP4精度下算力為11.5ExaFLOPS內建DGX B300的DGX SuperPOD,這個版本不含Grace CPU晶片,具備進一步的擴展空間,且採用的是風冷系統,主要應用場景為普通的企業級資料中心5)DGX Spark與DGX Station今年1月份,輝達在CES上曬了一款售價3000美元的概念性的AI PC產品——Project DIGITS,現在它有了正式名稱DGX Spark。產品參數方面,搭載GB10晶片,FP4精度下算力可以達到1PetaFlops,內建128GB LPDDR5X 記憶體,CX-7網路卡,4TB NVMe儲存,運行基於Linux定製的DGX OS作業系統,支援Pytorch等框架,且預裝了輝達提供的一些基礎AI軟體開發工具,可以運行2000億參數模型。整機的尺寸和Mac mini的大小接近,兩台DGX Spark互聯,還可以運行超過4000億參數的模型。雖然我們說它是AI PC,但本質上仍然屬於超算範疇,所以被放在了DGX產品系列當中,而不是RTX這樣的消費級產品裡面。不過也有人吐槽這款產品,FP4的宣傳性能可用性低,換算到FP16精度下只能跟RTX 5070,甚至是250美元的Arc B580對標,因此性價比極低。DGX Spark電腦與DGX Station工作站除了擁有正式名稱的DGX Spark,輝達還推出了一款基於Blackwell Ultra的AI工作站,這個工作站內建一顆Grace CPU和一顆Blackwell Ultra GPU,搭配784GB的統一記憶體、CX-8網路卡,提供20PetaFlops的AI算力(官方未標記,理論上也是FP4精度)。6)RTX橫掃AI PC,還要擠進資料中心前面介紹的都是基於Grace CPU和Blackwell Ultra GPU的產品SKU,且都是企業級產品,考慮到很多人對RTX 4090這類產品在AI推理上的妙用,輝達本次GTC也進一步強化了Blackwell和RTX系列的整合,推出了一大波內建GDDR7記憶體的AI PC相關GPU,覆蓋筆記本、桌面甚至是資料中心等場景。桌面GPU:,包括RTX PRO 6000 Blackwell 工作站版、RTX PRO 6000 Blackwell Max-Q工作站版、RTX PRO 5000 Blackwell、RTX PRO 4500 Blackwell 以及RTX PRO 4000 Blackwell筆記本GPU:RTX PRO 5000 Blackwell、RTX PRO 4000 Blackwell、RTX、PRO 3000 Blackwell、RTX PRO 2000 Blackwell、RTX PRO 1000 Blackwell以及RTX PRO 500 Blackwell資料中心 GPU:NVIDIA RTX PRO 6000 Blackwell伺服器版輝達針對企業級計算打造的AI“全家桶”以上還只是部分基於Blackwell Ultra晶片針對不同場景定製的SKU,小到工作站,大到資料中心叢集,輝達自己將其稱之為“Blackwell Family”(Blackwell家族),中文翻譯過來“Blackwell全家桶”再合適不過。輝達Photonics站在隊友肩膀上的CPO系統光電共封模組(CPO)的概念,簡單來說就是將交換機晶片和光學模組共同封裝,可實現光訊號轉化為電訊號,充分利用光訊號的傳輸性能。在此之前,業界就一直在討論輝達的CPO網路交換機產品,但一直遲遲未上線,黃仁勳在現場也給瞭解釋——由於在資料中心中大量使用光纖連接,光學網路的功耗相當於計算資源的10%,光連接的成本直接影響著計算節點的Scale-Out網路和AI性能密度提升。GTC上展示的兩款矽光共封晶片Quantum-X、Spectrum-X參數今年的GTC輝達一次性推出了Quantum-X矽光共封晶片、Spectrum-X矽光共封晶片以及衍生出來的三款交換機產品:Quantum 3450-LD、Spectrum SN6810和Spectrum SN6800。Quantum 3450-LD:144個800GB/s連接埠,背板頻寬115TB/s,液冷Spectrum SN6810:128個800GB/s連接埠,背板頻寬102.4TB/s,液冷Spectrum SN6800:512個800GB/s連接埠,背板頻寬409.6TB/s,液冷上述產品統一歸類到“NVIDIA Photonics”,輝達說這是一個基於CPO合作夥伴生態共創研發的平台,例如其搭載的微環調製器(MRM)是基於台積電的光引擎最佳化而來,支援高功率、高能效雷射調製,並且採用可拆卸光纖連接器。比較有意思的是,根據之前業內的資料,台積電的微環調製器(MRM)是其與博通基於3nm工藝以及CoWoS等先進封裝技術打造而來。按照輝達給的資料,整合光模組的Photonics交換機相比傳統交換機,性能提升3.5倍,部署效率也可以提升1.3倍,以及10倍以上的擴展彈性。模型效率PK DeepSeek軟體生態發力AI Agent黃仁勳在現場描繪AI infra的“大餅”因為本次長達2個小時的GTC上,黃仁勳總共只講大概半個小時軟體和具身智能。因此很多細節都是通過官方文件進行補充的,而非完全來自現場。1)Nvidia Dynamo,輝達在推理領域建構的新CUDANvidia Dynamo絕對是本場發佈的軟體王炸。它是一個專為推理、訓練和跨整個資料中心加速而建構的開放原始碼軟體。Dynamo的性能資料相當震撼:在現有Hopper架構上,Dynamo可讓標準Llama模型性能翻倍。而對於DeepSeek等專門的推理模型,NVIDIA Dynamo的智能推理最佳化還能將每個GPU生成的token數量提升30倍以上。黃仁勳演示加了Dynamo的Blackwell能超過25倍的HopperDynamo的這些改進主要得益於分佈化。它將LLM的不同計算階段(理解使用者查詢和生成最佳響應)分配到不同GPU,使每個階段都能獨立最佳化,提高吞吐量並加快響應速度。Dynamo的系統架構比如在輸入處理階段,也就是預填充階段,Dynamo能夠高效地分配GPU資源來處理使用者輸入。系統會利用多組GPU平行處理使用者查詢,希望GPU處理的更分散、更快。Dynamo用FP4模式呼叫多個GPU同時平行“閱讀”和“理解”使用者的問題,其中一組GPU處理“第二次世界大戰”的背景知識、另一組處理“起因“相關的歷史資料、第三組處理“經過“的時間線和事件,這一階段像是多個研究助理同時查閱大量資料。而在生成輸出tokens,也就是解碼階段,則需要讓GPU更專注和連貫。比起GPU數量,這個階段更需要更大的頻寬去吸取前一階段的思考資訊,因此也需要更多的快取讀取。Dynamo最佳化了GPU間通訊和資源分配,確保連貫且高效的響應生成。它一方面充分利用了NVL72架構的高頻寬NVLink通訊能力,最大化令牌生成效率。另一方面通過“Smart Router”將請求定向到已快取相關KV(鍵值)的GPU上,這可以避免重複計算,極大地提高了處理速度。由於避免了重複計算,一些GPU資源被釋放出來Dynamo可以將這些空閒資源動態分配給新的傳入請求。這一套架構和Kimi的Mooncake架構非常類似,但在底層infra上輝達做了更多支援。Mooncake大概可以提升5倍左右,但Dynamo在推理上提升的更明顯。比如Dynamo的幾項重要創新中,“GPU Planner”能夠根據負載動態調整GPU分配,“低延遲通訊庫”最佳化了GPU間資料傳輸,而“記憶體管理器”則智能地將推理資料在不同成本等級的儲存裝置間移動,進一步降低營運成本。而智能路由器,LLM感知型路由系統,將請求定向到最合適的GPU,減少重複計算。這一系列能力都使得GPU的負載達到最佳化。利用這一套軟體推理系統能夠高效擴展到大型GPU叢集,最高可以使單個AI查詢無縫擴展到多達1000個GPU,以充分利用資料中心資源。而對於GPU營運商來講,這個改進使得每百萬令牌成本顯著下降,而產能大幅提升。同時單使用者每秒獲得更多token,響應更快,使用者體驗改善。用Dynamo,讓伺服器達到吞吐量和應答速度間的黃金收益線與CUDA作為GPU程式設計的底層基礎不同,Dynamo是一個更高層次的系統,專注於大規模推理負載的智能分配和管理。它負責推理最佳化的分佈式調度層,位於應用程式和底層計算基礎設施之間。但就像CUDA十多年前徹底改變了GPU計算格局,Dynamo也可能成功開創推理軟硬體效率的新範式。Dynamo完全開源,支援從PyTorch到Tensor RT的所有主流框架。開源了也照樣是護城河。和CUDA一樣,它只對輝達的GPU有效果,是NVIDIA AI推理軟體堆疊的一部分。用這個軟體升級,NVIDIA構築了自己反擊Groq等專用推理AISC晶片的城防。必須軟硬搭配,才能主導推理基礎設施。2)Llama Nemotron新模型秀高效,但還是打不過DeepSeek雖然在伺服器利用方面,Dynamo 確實相當驚豔,但在訓練模型方面輝達還和真內行有點差距。輝達在這次GTC上用一款新模型Llama Nemotron,主打高效、精準。它是由Llama系列模型衍生而來。經過輝達特別微調,相較於Llama本體,這款模型經過演算法修剪最佳化,更加輕量級,僅有48B。它還具有了類似o1的推理能力。與Claude 3.7和Grok 3一樣,Llama Nemotron模型內建了推理能力開關,使用者可選擇是否開啟。這個系列分為三檔:入門級的Nano、中端的Super和旗艦Ultra,每一款都針對不同規模的企業需求。Llama Nemotron的具體資料說到高效,這一模型的微調資料集完全輝達自己生成的合成資料組成,總數約60B token。相比DeepSeek V3用130萬H100小時完整訓練,這個僅有DeepSeek V3 1/15參數量的模型只是微調就用了36萬H100小時。訓練效率比DeepSeek差一個等級。在推理上效率上,Llama Nemotron Super 49B模型確實比上一代模型表現要好得多,其token吞吐量能達到Llama 3 70B 的5倍,在單個資料中心GPU下它可以每秒吞吐3000 token以上。但在DeepSeek 開源日最後一天公佈的資料中,每個H800 節點在預填充期間平均吞吐量約為73.7k tokens/s 輸入(包括快取命中)或在解碼期間約為14.8k tokens/s 輸出。兩者差距還是很明顯的。從性能上看,49B的Llama Nemotron Super 在各項指標中都超過了70B的經DeepSeek R1蒸餾過的Llama 70B模型。不過考慮到最近Qwen QwQ 32B模型之類的小參數高能模型頻繁發佈,Llama Nemotron Super 估計在這些能和R1本體掰手腕的模型裡難以出彩。最要命的是,這個模型,等於實錘了DeepSeek也許比輝達更懂在訓練過程中調教GPU。3)新模型只是輝達AI Agent生態的前菜,NVIDA AIQ才是正餐輝達為什麼要開發一個推理模型呢?這主要是為了老黃看中的AI下一個爆點——AI Agent做準備。自從OpenAI、Claude等大廠逐步通過DeepReasearch、MCP建立起了Agent的基礎後,輝達明顯也認為Agent時代到來了。NVIDA AIQ項目就是輝達的嘗試。它直接提供了一個以Llama Nemotron推理模型為核心的規劃者的AI Agent現成工作流。這一項目歸屬於輝達的Blueprint(藍圖)層級,它是指一套預組態的參考工作流、是一個個範本範本,幫助開發者更容易地整合NVIDIA的技術和庫。而AIQ就是輝達提供的Agent範本。NVIDA AIQ的架構和Manus一樣,它整合網路搜尋引擎及其他專業AI代理等外部工具,這讓這個Agent本身可以既能搜尋,又能使用各種工具。通過Llama Nemotron推理模型的規劃,反思和最佳化處理方案,去完成使用者的任務。除此之外,它還支援多Agent的工作流架構搭建。基於這套範本做的servicenow系統比Manus更進一步的是,它具有一個複雜的針對企業檔案的RAG系統。這一系統包括提取、嵌入、向量儲存、重排到最終通過LLM處理的一系列步驟,能保證企業資料為Agent所用。在此之上,輝達還推出了AI資料平台,把AI推理模型接到企業資料的系統上,形成一個針對企業資料的DeepReasearch。使得儲存技術的重大演進,使得儲存系統不再僅是資料的倉庫,而是擁有主動推理和分析能力的智能平台。AI Data Platform的構成另外,AIQ非常強調可觀察性和透明度機制。這對於安全和後續改進來講非常重要。開發團隊能夠即時監控Agent的活動,並基於性能資料持續最佳化系統。整體來講NVIDA AIQ是個標準的Agent工作流範本,提供了各種Agent能力。算是進化到推理時代的,更傻瓜的Dify類Agent構築軟體。人形機器人基礎模型發佈輝達要做具身生態全閉環1)Cosmos,讓具身智能理解世界如果說專注Agent還是投注現在,那輝達在具身智能上的佈局完全算得上是整合未來了。模型、資料、算力這模型三要素輝達都給安排齊了。先從模型開始說,本次GTC放出了今年1月公佈的具身智能基礎模型Cosmos的升級版。Cosmos是一個能通過現在畫面,去預測未來畫面的模型。它可以從文字/圖像輸入資料,生成詳細的視訊,並通過將其的當前狀態(圖像/視訊)與動作(提示/控制訊號)相結合來預測場景的演變。因為這需要對世界的物理因果規律有理解,所以輝達稱Cosmos是世界基礎模型(WFM)。Cosmos的基本架構而對於具身智能而言,預測機器的行為會給外部世界帶來什麼影響是最核心的能力。只有這樣,模型才能去根據預測規劃行為,所以世界模型就成了具身智能的基礎模型。有了這個基礎的行為/時間-物理世界改變的世界預測模型,通過具體的如自動駕駛、機器人任務的資料集微調,這個模型就可以滿足各種具有物理形態的具身智能的實際落地需要了。整個模型包含三部分能力,第一部分Cosmos Transfer 將結構化的視訊文字輸入轉換為可控的真實感視訊輸出,憑空用文字產生大規模合成資料。這解決了當前具身智能最大的瓶頸——資料不足問題。而且這種生成是一種“可控”生成,這意味著使用者可以指定特定參數(如天氣條件、物體屬性等),模型會相應調整生成結果,使資料生成過程更加可控和有針對性。整個流程還可以由Ominiverse和Cosmos結合。Cosmos建立在Ominiverse上的現實模擬第二部分Cosmos Predict 能夠從多模態輸入生成虛擬世界狀態,支援多幀生成和動作軌跡預測。這意味著,給定起始和結束狀態,模型可以生成合理的中間過程。這是核心物理世界認知和建構能力。第三部分是Cosmos Reason,它是個開放且可完全定製的模型,具有時空感知能力,通過思維鏈推理理解視訊資料並預測互動結果。這是規劃行為和預測行為結果的提升能力。有了這三部分能力逐步疊加,Cosmos就可以做到從現實圖像token+文字命令提示token輸入到機器動作token輸出的完整行為鏈路。這一基礎模型應該確實效果不俗。推出僅兩個月,1X、Agility Robotics、Figure AI這三家頭部公司都開始用起來了。大語言模型沒領先,但具身智能輝達確實在第一梯隊裡。2)Isaac GR00T N1,世界第一個人形機器人基礎模型有了Cosmos,輝達自然而然用這套框架微調訓練了專用於人型機器人的基礎模型Isaac GR00T N1。Isaac GR00T N1的雙系統架構它採用雙系統架構,有快速反應的“系統1“和深度推理的“系統2“。它的全面微調,使得其能處理抓取、移動、雙臂操作等通用任務。而且可以根據具體機器人進行完全定製,機器人開發者可用真實或合成資料進行後訓練。這使得這一模型實際上可以被部署在各種各樣形狀各異的機器人中。比如說輝達與Google DeepMind和迪士尼合作開發Newton物理引擎,就用了Isaac GR00T N1作為底座驅動了一個非常不常見的小迪士尼BDX機器人。可見其通用性之強。Newton作為物理引擎非常細膩,因此足夠建立物理獎勵系統,以在虛擬環境中訓練具身智能。黃仁勳與BDX機器人台上“激情”互動4)資料生成,雙管齊下輝達結合NVIDIA Omniverse和上面提到的NVIDIA Cosmos Transfer世界基礎模型,做出了Isaac GR00T Blueprint。它能從少量人類演示中生成大量合成動作資料,用於機器人操作訓練。NVIDIA使用Blueprint的首批元件,在僅11小時內生成了78萬個合成軌跡,相當於6,500小時(約9個月)的人類演示資料。Isaac GR00T N1的相當一部分資料就來自於此,這些資料使得GR00T N1的性能比僅使用真實資料提高了40%。孿生模擬系統針對每個模型,靠著Omniverse這套純虛擬系統,以及Cosmos Transfer這套真實世界圖像生成系統,輝達都能提供大量的高品質資料。這模型的第二個方面,輝達也覆蓋了。3)三位一體算力體系,打造從訓練到端的機器人計算帝國從去年開始,老黃就在GTC上強調一個「三台電腦」的概念:一台是DGX,就是大型GPU的伺服器,它用來訓練AI,包括具身智能。另一台AGX,是NVIDIA為邊緣計算和自主系統設計的嵌入式計算平台,它用來具體在端側部署AI,比如作為自動駕駛或機器人的核心晶片。第三台就是資料生成電腦Omniverse+Cosmos。具身智能的三大計算體系這套體系在本次GTC中又被老黃重提,且特別提到靠著這套算力系統,能誕生十億級的機器人。從訓練到部署,算力都用輝達。這一部分也閉環了。結語如果單純對比上一代Blackwell晶片,Blackwell Ultra在硬體上確實匹配不上之前的“核彈”、“王炸”這些形容詞,甚至有些擠牙膏的味道。但如果從路線圖規劃的角度來看,這些又都在黃仁勳的佈局之中,明年、後年的Rubin架構,從晶片工藝,到電晶體,再到機架的整合度,GPU互聯和機櫃互聯等規格都會有大幅度提升,用中國人習慣說的叫“好戲還在後頭”。對比硬體層面上的畫餅充饑,這兩年輝達在軟體層面上可以說是狂飆突進。縱觀輝達的整個軟體生態,Meno、Nim、Blueprint三個層級的服務把模型最佳化、模型封裝到應用建構的全端解決方案都包括進去了。雲服務公司的生態位輝達AI全部重合。加上這次新增的Agent,AI infra這塊餅,輝達是除了基礎模型這一塊之外,所有部分都要吃進去。軟體這部分,老黃的胃口,和輝達的股價一樣大。而在機器人市場,輝達的野心更大。模型,資料,算力三要素都抓在手裡。沒趕上基礎語言模型的頭把交椅,基礎具身智能補齊。影影綽綽,一個具身智能版的壟斷巨頭已經在地平線上露頭了。這裡面,每個環節,每個產品都對應著一個潛在的千億級市場。早年孤注一擲的好運賭王黃仁勳,靠著GPU壟斷得來的錢,開始做一場更大的賭局。如果這場賭局裡,軟體或者機器人市場任意一方面通吃,那輝達就是AI時代的Google,食物鏈上的頂級壟斷者。不過看看輝達GPU的利潤率,我們還是期待這樣的未來別來了。還好,這對於老黃這輩子來講,也是他從沒操盤過的大賭局,勝負難料。 (騰訊科技)