大型語言模型(LLMs)正在迅速逼近當代計算硬體的極限。例如,據估算,訓練GPT-3大約消耗了1300兆瓦時(MWh)的電力,預測顯示未來模型可能需要城市級(吉瓦級)的電力預算。這種需求促使人們探索超越傳統馮·諾依曼架構的計算範式。
本綜述調查了為下一代生成式AI計算最佳化的新興光子硬體。我們討論了整合光子神經網路架構(如馬赫-曾德干涉儀陣列、雷射器、波長復用微環諧振器),這些架構能夠實現超高速矩陣運算。同時,我們也研究了有前景的替代類神經裝置,包括脈衝神經網路電路和混合自旋-光子突觸,它們將儲存與計算融合在一起。本文還綜述了將二維材料(如石墨烯、過渡金屬二硫族化合物,TMDCs)整合進矽基光子平台,用於可調製器和片上突觸元件的研究進展。
我們在這種硬體背景下分析了基於Transformer的大型語言模型架構(包括自注意力機制和前饋層),指出了將動態矩陣乘法對應到這些新型硬體上的策略與挑戰。隨後,我們剖析了主流大型語言模型的內部機制,例如chatGPT、DeepSeek和Llama,突出了它們架構上的異同。
我們綜合了當前最先進的元件、演算法和整合方法,強調了在將此類系統擴展到百萬級模型時的關鍵進展與未解問題。我們發現,光子計算系統在吞吐量和能效方面有可能超越電子處理器幾個數量級,但在長上下文窗口、長序列處理所需的儲存與大規模資料集的保存方面仍需技術突破。本綜述為AI硬體的發展提供了一條清晰的路線圖,強調了先進光子元件和技術在支援未來LLM中的關鍵作用。
近年來基於Transformer的大型語言模型(LLMs)的快速發展極大地提高了對計算基礎設施的需求。訓練最先進的AI模型現在需要巨大的計算與能耗資源。例如,GPT-3模型在訓練期間估計消耗了約1300兆瓦時的電力,而行業預測表明,下一代LLM可能需要吉瓦級的電力預算。這一趨勢與大規模GPU叢集的使用同時出現(例如,Meta訓練Llama 4時使用了超過10萬個NVIDIA H100 GPU的叢集)。與此同時,傳統矽基晶片正接近其物理極限(電晶體特徵尺寸已達約3奈米),馮·諾依曼架構也受限於“儲存器–處理器”瓶頸,從而限制了速度與能效。這些因素共同凸顯出LLMs日益增長的計算需求與傳統CMOS電子硬體能力之間的鴻溝。
這一挑戰促使人們探索替代計算範式。光子計算利用光來處理資訊,天然具有高頻寬、超強平行性與極低熱耗散等優勢。近期在光子積體電路(PICs)上的進展,使得建構神經網路基本模組成為可能,例如相乾乾涉儀陣列、微環諧振器(MRR)權重陣列,以及用於執行密集矩陣乘法與乘-加操作的波分復用(WDM)方案。這些光子處理器利用WDM實現了極致的平行性與吞吐能力。
與此同時,將二維材料(如石墨烯與TMDCs)整合入PIC中,催生了超高速的電吸收調製器與可飽和吸收體,成為片上的“神經元”與“突觸”。作為光學的補充,自旋電子類神經裝置(如磁隧道結和斯格明子通道)提供非易失性突觸儲存和類神經脈衝行為。這些光子與自旋電子類神經元件從物理機制上實現了儲存與處理的合一,為能效最佳化的AI計算開闢新途徑。
將基於Transformer的LLM架構對應到這些新型硬體平台上,面臨諸多挑戰。Transformer中的自注意力層涉及動態計算的權重矩陣(query、key和value),這些權重依賴於輸入資料。設計可重構的光子或自旋電路以實現這種資料依賴型操作,正成為活躍研究領域。此外,在光子/自旋子媒介中實現模擬非線性(如GeLU啟動函數)與歸一化仍是重大技術難題。
為應對上述問題,研究者提出了許多“硬體感知”的演算法設計策略,如適用於光子計算的訓練方法以及能容忍模擬噪聲和量化誤差的神經網路模型。
本綜述餘下部分結構如下:
第2節:介紹光子加速器架構,包括相乾乾涉儀網路、微環權重陣列與基於波分復用的矩陣處理器;
第3節:探討二維材料在光子晶片上的整合(如石墨烯/TMDC調製器、光子憶阻器);
第4節:分析替代類神經裝置,特別是自旋電子在類神經計算中的應用;
第5節:總結主流LLM與Transformer架構原理,並探討如何將其對應到光子晶片上,強調在光子與類神經硬體上實現注意力機制與前饋層的策略;
第6節:介紹脈衝神經網路的機制與實現演算法;
第7節:指出系統層面的關鍵挑戰並展望未來方向。
本綜述力圖為下一代AI硬體發展繪製出基於光子與自旋電子技術的完整路線圖。
光子神經網路(PNN:Photonic neural networks)依託多種光學器件之間的協同作用實現高效計算:微環諧振器利用共振效應進行波長復用與光頻梳生成,為多波長訊號處理奠定基礎 ;馬赫-曾德干涉儀(MZI:Mach-Zehnder interferometer)陣列通過相位調製實現光學矩陣運算,是神經網路中核心線性變換的關鍵元件 ;超構表面通過亞波長結構調控光波的相位與幅度,能在衍射域內執行高度平行的光學計算 ;4f系統通過傅里葉變換在衍射域中實現線性濾波功能;而新型雷射器則通過電光轉換機制實現非線性啟動功能。這些器件整合了光場調控、線性變換與非線性響應能力,建構出高速、低功耗、強平行的全光計算架構。
本節將介紹當前光學神經網路實現中常用的器件。
微環諧振器
微環諧振器(MRRs)(見圖1)的重要性不僅體現在它們在波分復用(WDM)中的作用,還體現在其獨特的濾波特性,例如光頻梳生成。WDM允許不同波長的訊號在同一波導中同時傳播而不會產生干擾:通過設計微環的半徑與折射率以支援特定的共振波長,滿足共振條件的光將耦合進環形腔體中持續振盪,在透射譜上表現為明顯的吸收凹槽。
而光頻梳則源於高Q值(低損耗)微腔中的參量振盪:當注入連續波(CW)泵浦雷射後,光子會經歷非線性效應(如Kerr非線性),從而自發地產生等間距的光譜線,形成梳狀頻譜。WDM與頻梳生成的結合,使多波長訊號可通過共享波導進行合成與傳輸,實現波長復用與空間復用的統一。
微環的其他特性也得到了利用。例如,利用微環的熱光效應,在微環上加入了具有激射閾值的相變材料,實現了類似神經網路中ReLU函數的非線性效果。
馬赫-曾德爾干涉儀
(Mach-Zehnder Interferometer)
MZI 陣列(見圖2)可有效執行光學矩陣-向量乘法(MVM)運算:它由兩個光學耦合器/分束器和兩個調製器(可通過外部電路控制)組成。輸入光通過分束器被分成兩路,調製器調節兩路之間的相位差,最後通過光學耦合器重新組合成干涉光。每個 MZI 對光訊號執行二維酉變換(複數域的正交變換),在數學上等價於一個 2×2 的酉矩陣。當多個 MZI 按特定拓撲結構(如網格)級聯時,它們的整體行為可對應於高維酉矩陣的分解,因為任意 N 維酉矩陣都可以分解為一系列二維酉變換。因此,MZI 陣列可以實現類似於神經網路中權重矩陣的可程式設計酉變換。
輸出的光訊號可進一步通過光電手段進行轉換,並與電子器件整合,實現非線性啟動函數,從而完成神經網路的前向傳播。
超表面(Metasurface)
超表面在神經網路應用中的運行主要依賴於“面”之間的光的衍射與干涉。超表面是一種由亞波長尺度結構單元組成的材料,能夠調製光波的性質,包括相位、幅度、偏振和頻率。這些結構通常具有超薄、輕質和高整合密度(支援大規模平行)的特點,其實現方式多樣,如基於絕緣體上矽(SOI)的設計、復合惠更斯超表面、單層全息感知器等。由於衍射和干涉本質上是線性過程,因此要實現非線性計算需要額外機制,如利用超表面材料的光電效應 。
多層衍射架構(見圖3)通過堆疊的二維表面作為高密度排列的神經元層實現。通過控制每個衍射層中空間位置處的相對厚度或材料特性,可調節光的相位和幅度。或者, 在一塊平面表面上製造一維高對比透射陣列超表面(見圖4),例如,在標準 SOI 基底上蝕刻空氣槽(後續可填充二氧化矽),槽的間距(晶格常數)和寬度固定,通過改變槽的長度來控制相位。
a) 二維衍射深度神經網路(D2NN)中推理機制的概念圖示。
b) 通過衍射光學神經網路(DONN)實現邏輯運算的實驗配置。
c) 奈米列印的光學感知器實現晶片級計算。
d) 利用數字型超原子陣列的可重構DONN架構。
a) 一維DONN在光子機器學習中的實驗驗證。
b) 基於模擬的晶片級DONN驗證,支援光速計算。
c) 介電超表面實現用於傅里葉變換與空間微分的晶片級波前控制。
a) 使用4f光學系統的混合光電摺積神經網路(CNN)。
b) 完全光學神經網路(ONN)架構,將深度衍射神經網路整合於4f成像系統的傅里葉平面上。
4f 系統(見圖5)利用光場訊號(如圖像)通過第一枚透鏡進行傅里葉變換。在透鏡後的傅里葉面上,調製裝置(如相位掩膜、空間光調製器 SLM)對頻譜進行濾波或加權調整。經調製後的頻譜再通過第二枚透鏡進行反傅里葉變換,生成輸出光場。超表面材料可替代傳統透鏡間的調製裝置 。
其他類型雷射器
雷射器作為一種具有高相乾性、單色性和方向性的獨特光源,也被應用於光神經網路(ONN)(見圖6)。
a) 使用垂直腔面發射雷射器(VCSELs)的全光尖峰神經網路(SNN)理論分析。
b) 基於VCSEL的全光SNN進行有監督學習。
c) 用於SNN中軟硬協同計算的FP-SA神經元晶片。
d) 基於分佈反饋-飽和吸收(DFB-SA)雷射器的光子整合尖峰神經元的實驗演示
例如,垂直腔面發射雷射器(VCSEL)在研究中已被理論提出並在實驗中驗證。在 VCSEL 中,電流通過電極注入有源區,電子與空穴在量子阱層中復合,產生光子。這些光子在兩個分佈式布拉格反射鏡(DBR)之間來回反射,多次穿過有源區並被放大。當增益(光放大能力)超過腔體損耗(吸收、散射等)時,達到閾值條件,雷射輸出就會產生。一項研究利用了 VCSEL 陣列的特性:在被主雷射器鎖模時可以保持相同的初始相位。在該研究中,特徵資料被編碼為電訊號來調節一個 VCSEL 的泵浦電壓,從而調節其輸出光的相位;同樣,權重矩陣的每一列也被編碼為電訊號,調節其他 VCSEL 的輸出光相位。利用光束分離器和耦合器,使代表 MNIST 資料的 VCSEL 的輸出光與其他 VCSEL 的輸出光干涉,光電探測器收集光訊號,並將其求和成電訊號,作為下一層 VCSEL 陣列的輸入,實現前向傳播。在最終輸出層,輸出電訊號最強的光電探測器對應於輸出標籤。
另一個例子是帶有腔內可飽和吸收體(SA)的分佈反饋雷射器(DFB-SA)。DFB 雷射器的腔體內含有周期性光柵結構,可提供光反饋以實現單波長輸出。可飽和吸收體(SA)區域位於雷射腔高反射端附近。在低泵浦電平下,SA 吸收光子,抑制雷射輸出;在高泵浦電平下,SA 釋放光脈衝(Q開關效應)。因此,當增益電流超過 DFB-SA 的自脈衝閾值時,SA 的周期性吸收調製會產生脈衝輸出,其輸出頻率與泵浦強度呈非線性正相關,可作為脈衝神經網路(SNN)的基本單元。在此結構中,DFB 雷射器也可以被傳統法布裡-珀羅(FP)雷射器取代 。
整合光子晶片作為下一代 AI 硬體的關鍵技術之一,正逐步崛起。這類晶片利用光進行計算和通訊,具有高速與高能效的優勢。為了實現這一應用,將二維(2D)材料,主要是石墨烯和過渡金屬二硫族化物(TMDCs),整合到晶片中,能夠顯著提升功能與性能。本節將探討這些材料的特性、整合技術、應用場景以及其在 AI 光子晶片應用中面臨的挑戰。
石墨烯和 TMDCs 的關鍵特性
石墨烯因其優異的光學與電子性能,在光子學領域引發革命。儘管其厚度僅為一個原子層,卻能在寬光譜範圍內吸收約 2.3% 的入射光,這使其在光學調製與探測方面非常有效。此外,石墨烯超快的載流子遷移率支援高速調製與低功耗運行,這對於能效至上的 AI 硬體至關重要 。同時,石墨烯表現出強烈的非線性光學特性,可用於頻率變換、全光開關及其它高級功能,使其在該領域的重要性進一步提升。
另一方面,TMDCs(如 MoS₂ 和 WS₂)以可調帶隙和強激子效應補充了石墨烯的不足。這些材料在單層狀態下具有直接帶隙,增強了光與物質的相互作用,因而特別適用於光電探測器和波導。TMDCs 也展現出強非線性光學響應,能在晶片上實現倍頻和參量放大等高級功能。
基於上述材料特性與優勢,石墨烯與 TMDCs 顯然是推動 AI 光子晶片發展的關鍵材料。
整合技術
將二維材料整合到光子晶片中涉及多種先進封裝工藝,主要包括:
轉印法(Transfer Printing):將二維材料的薄層剝離後轉印至矽基底,無需粘合劑,能保持其本征光學性能,並實現對光子結構(如波導、諧振器)的精確定位。
混合整合(Hybrid Integration):將石墨烯或 TMDCs 與現有矽光平台結合,增強光-物質相互作用。例如,石墨烯已用於在微環諧振器中實現高速調製器,該混合器件可實現太赫茲等級調製速度,同時保持低功耗 。
范德華異質結構(Van der Waals Heterostructures):通過堆疊不同的二維材料,形成具有可調帶隙和各向異性折射率的異質結構。這些結構被視為最佳化波導約束因子的理想方案。
近期的研究還表明,採用與 CMOS 工藝相容的技術,可以實現基於石墨烯器件的晶圓級整合。這一突破為大規模生產含二維材料的光子晶片奠定了基礎。
a) 石墨烯,b) 過渡金屬二硫化物(TMDC),c) 黑磷,d) 六方氮化硼(h-BN)晶體結構圖。
a) 將材料沉積在玻璃基底上,
b) 小心地將圖案化的聚二甲基矽氧烷(PDMS)印章“上墨”,
c) 將“上墨”後的印章接觸加熱的矽/二氧化矽(Si/SiO₂)基底,
d) 撕開印章,留下沉積材料。
光子晶片中的應用
整合石墨烯和過渡金屬二硫化物(TMDCs)的光子晶片在人工智慧工作負載中展現出變革性的應用:
一、光調製器
基於石墨烯的調製器已展示出卓越的速度和頻寬性能——通過將石墨烯與矽波導整合,研究人員實現了能夠在超過100 GHz頻率下運行的調製器。這些調製器特別適用於人工智慧系統中所需的高速資料傳輸應用場景。
二、光電探測器
石墨烯在光電探測器中的應用頗為令人驚訝,由於其頻率無關的吸收特性以及在與強吸光材料結合使用時所展現的極高載流子遷移率,使得其性能優於傳統材料 [graphenea]。研究在使用混合石墨烯-量子點光電探測器方向取得進展,這類探測器被作為寬頻圖像感測器整合到CMOS相機中,以實現高響應率 [graphenea]。
總體而言,二維材料在波導整合光電探測器方面具有多項優勢,包括尺寸最小化、訊號雜訊比提升以及在寬頻寬和高量子應用中的效率提高。
TMDCs被用於製造在可見光和紅外波段均具有高響應率的光電探測器,利用其物理特性提升探測性能。這類探測器使AI驅動的邊緣裝置能夠高效獲取資料 [26]。混合石墨烯-量子點光電探測器也在研究中,旨在在保持CMOS相容性的前提下進一步增強寬頻探測能力 [26]。
三、波導
范德瓦爾斯材料的使用使得超薄波導得以實現,並具有低傳播損耗的特性。通過將矽光子學與波導整合的石墨烯相結合,實現了全可調性、寬頻和高速運行等特性。
總體而言,這種波導應用使光子電路得以小型化,同時保持AI硬體所需的性能指標,在該領域推動顯著進步 。
非線性光學
TMDCs表現出強烈的非線性響應,從而開啟了諸如頻率轉換和全光訊號處理等高級功能的大門。這些能力對於在晶片上直接實現非線性光學功能及實現晶片級量子計算至關重要 。
基於石墨烯的器件也展現出在類腦架構如光子神經網路方面的潛力——近期一項研究提出了一種嵌入微環諧振器中的基於石墨烯的突觸模型,能夠使用多波長技術建構大規模神經網路,這一方法有望顯著加速大語言模型的訓練過程。
案例研究:基於光子晶片的AI硬體
整合二維材料的光子晶片因其能夠以接近光速的速度執行計算任務,而比現有技術更快,因此在AI硬體方面展現出極大前景。例如:
麻省理工學院的研究人員展示了一種能夠以光學方式執行深度神經網路計算的全整合光子處理器。該晶片通過整合非線性光學功能單元(NOFUs)實現了超低延遲和極低功耗,在不到半納秒內完成了機器學習分類任務的關鍵計算,同時精準率超過92%(與現有技術表現一致)。此晶片還採用商用工藝製造,為這一新技術的規模化鋪平了道路。
哥倫比亞大學開發了一種節能的資料傳輸方法,通過在光子晶片上利用Kerr頻率梳,使研究人員能夠通過不同且精確的光波長傳輸清晰訊號。這一創新提高了頻寬密度並降低了能耗,這兩者都是提升大型語言模型訓練系統可擴展性的關鍵因素。
Black Semiconductor公司新設立了名為FabONE的總部,專注於開發基於石墨烯的光子連接解決方案,以實現更快速的晶片間互連。這項技術將推動高性能計算、人工智慧、機器人技術、自動駕駛等領域的發展,特別是在AI模型的超高速訓練過程方面。
這些突破性進展凸顯了整合二維材料的光子晶片在加速AI基礎設施革命方面的潛力,特別是在速度、可擴展性和能效方面的瓶頸突破。
挑戰與未來方向
儘管潛力巨大,與所有新技術一樣,要充分實現二維材料在整合光子學中的價值,還面臨諸多挑戰:
一、可擴展性
超薄二維材料的脆弱性在大規模製造過程中帶來挑戰,需要在轉印技術和晶圓級合成方面取得進展,才能使這項技術真正具備可擴展性 。
二、材料穩定性
包括石墨烯和TMDCs在內的一些二維材料在環境條件下會降解。為了讓這項技術得到廣泛採用,必須開發保護塗層、封裝技術或一般性的保存方法,以保障其長期可靠性 [38]。
三、整合複雜性
要實現與現有CMOS工藝的無縫整合,需要在各種技術手段和介面工程上進一步最佳化,才能使這項新技術順利進入主流應用。
未來的研究應聚焦於解決上述挑戰,同時繼續探索與石墨烯和TMDCs互補的新型材料系統。二者結合,將推動由電子、光子和基於二維材料的元件構成的混合平台發展,為AI硬體和技術帶來顛覆性進步鋪平道路。
奈米光子學作為一門新興的交叉學科,融合了奈米技術和光子學原理,旨在探索和利用奈米尺度結構對光波的調控能力。在光子學領域,主動器件與被動器件均扮演著重要角色,並具有廣闊的應用前景。類腦系統通過借鑑神經網路的原理,試圖模擬人腦的計算與認知能力。本節將系統探討自旋電子器件與奈米光子結構在類腦計算中的協同整合。
類腦計算的背景與挑戰
類腦計算的提出源於傳統馮·諾依曼架構的根本性限制。傳統計算系統受到“馮·諾依曼瓶頸”的困擾,即處理單元與儲存單元的物理分離導致在資料傳輸中產生過高的能耗與延遲。隨著處理器與儲存之間性能差距的擴大,這一瓶頸進一步加劇,被稱為“儲存牆”。現代電腦在模擬基礎腦功能時需消耗兆瓦級功率,而生物大腦僅使用20瓦功率卻能實現驚人的認知能力。
與此同時,半導體產業面臨電晶體微縮趨於極限、摩爾定律停滯等生存性挑戰。這場架構危機與電晶體縮放危機共同促使人們對類腦計算範式產生濃厚興趣。
類腦計算通過三項關鍵創新應對上述挑戰:1)計算與儲存的共址;2)資訊的模擬編碼;3)大規模平行連接 。儘管神經網路的理論框架可追溯至McCulloch與Pitts的二值神經元模型(1943年)以及之後的深度學習發展,但實際實現面臨嚴重的硬體限制。
基於CMOS的電晶體陣列實現缺乏非線性動力學、長期可塑性和隨機性等基本神經生物特性。新興的非易失性儲存器技術(尤其是憶阻器 )使更具生物逼真度的實現成為可能,但材料限制依然存在。阻變RAM(RRAM)、相變材料和鐵電器件在耐久性、速度和可控性之間存在權衡,限制其大規模部署能力。
三代神經網路凸顯了硬體需求的不斷演進:1)以閾值操作為核心的第一代感知機;2)要求連續非線性啟動函數的第二代深度神經網路(DNN);3)依賴精確時間編碼和事件驅動處理的第三代脈衝神經網路(SNN)。雖然DNN主導當前AI應用,SNN因稀疏、基於脈衝的通訊方式而在生物逼真度與能效方面表現更優 。
然而,SNN的硬體實現尤為困難,需要器件能本徵地模擬生物神經元的“洩漏積分-發放”(LIF)動態,以及突觸的“基於脈衝時序的可塑性”(STDP)。當前採用CMOS電路或新型憶阻器的解決方案,或缺乏基本類腦特性,或在耐久性與隨機控制方面存在侷限性。這種硬體-演算法之間的落差從根本上限制了類腦計算實現類腦效率與適應性的潛力。
神經形態計算中的核心優勢與
關鍵自旋電子技術
自旋電子器件具備獨特優勢,使其成為神經形態計算硬體的領先候選。其內在的非易失性、超快動態響應(>1 GHz)以及幾乎無限的耐久性(10^15 次循環)能夠實現高能效、符合生物邏輯的神經網路實現方式。關鍵在於,自旋電子技術利用磁性和自旋相關現象,天然模擬神經-突觸功能,同時保持與傳統 CMOS 製造工藝的相容性。其三大核心優勢包括:
(1)磁化翻轉和自旋進動中的隨機性可對應為神經元的機率性發放機制,從而實現事件驅動的脈衝神經網路(SNNs),具備稀疏編碼效率 ;
(2)多型磁化動態(如磁疇壁運動、磁渦旋核化)展現模擬憶阻特性,是調控突觸權重的關鍵 ;
(3)非易失狀態保持特性可消除空閒期間的靜態功耗。
這些特性有效緩解馮·諾依曼架構瓶頸,並在速度與可靠性方面優於其他憶阻技術 。
磁隧道結(MTJ)是基礎的自旋電子構件,能夠在兩種運行模式下展現多樣神經形態功能。在超順磁模式下,MTJ 在平行與反平行狀態間的隨機翻轉可生成泊松分佈脈衝,應用於機率計算 ,在 CoFeB/MgO 結構中實現高達 604% 的隧道磁阻比(TMR)。當作為自旋轉矩奈米振盪器(STNO)使用時,MTJ 可產生 GHz 級的電壓振盪,並與外部刺激同步,用於建構耦合振盪器網路以實現模式識別 。自旋軌道轉矩(SOT)器件通過重金屬/鐵磁體雙層結構實現無場磁化翻轉,擴展了這些能力。SOT 驅動的自旋霍爾奈米振盪器(SHNOs)在二維陣列中可實現互同步,三端結構的 MTJ 則通過讀寫路徑分離增強突觸精度 [Fukami2016]。磁奈米線中的磁疇壁運動提供連續的電阻調製,適用於模擬突觸,實現每次突觸更新能耗為 32 meV。
新興的拓撲自旋結構如磁渦旋(skyrmion)具備類粒子動態,可用於生物啟發計算模型。在手性磁體中,直徑小於 100 nm 的渦旋的生成與湮滅模擬神經遞質釋放的機率機制,閾值電流為 10 μA 。反鐵磁(AFM)自旋電子學提供 THz 級動態響應和無雜散磁場特性,通過補償磁矩實現高密度交叉陣列。基於 AFM 的突觸展現 100 ps 的翻轉速度和高達 200°C 的熱穩定性]。
這些技術的融合使得建構“全自旋神經網路”成為可能:結合基於 STNO 的神經元 [Romera2018]、磁疇壁憶阻突觸與渦旋機率互連,該硬體生態系統在物理層面協調設計,解決了儲存-計算分離難題。
自旋電子技術在系統層級的應用探索
自旋電子神經形態系統通過基於物理機制的架構創新,在認知計算模式中展現變革潛力。一項前沿實現中,四個同步運行的自旋轉矩奈米振盪器(STNOs)處於耦合的微波發射狀態,用於即時元音識別任務,精準率達到 96%,比等效的深度學習網路高出 17%,且每次分類僅消耗 3 mW 功耗 。該事件驅動架構利用 2.4 GHz STNO 陣列的固有頻率復用特性,將時間語音訊號直接對應到振盪器的同步狀態,從而省去了模數轉換的開銷。
對於大規模實現,32×32 元素的自旋霍爾奈米振盪器(SHNO)交叉陣列通過傳播的自旋波在 100 µm 距離上實現互相鎖相,從而通過集體動態而非離散突觸權重完成模式補全任務。
磁渦旋網路通過拓撲保護的粒子相互作用引入機率計算能力。在手性磁體中,50–100 nm 尺寸的渦旋網路通過核化密度編碼機率分佈,建構貝葉斯推理引擎,實現氣象預測模型中的 92% 精準率,在 10^5 個隨機狀態下進行存內採樣。該方案相較於 GPU 實現的蒙特卡洛模擬,能耗減少了 10 倍,通過模擬電流控制的狀態重組方式實現。
反鐵磁(AFM)自旋電子器件具備抗雜散場和 1 THz 動態性能,可實現超高密度結構。在 IrMn 基交叉陣列中,每次突觸更新的實驗能耗為 4 fJ,權重漂移在 10^12 次循環內保持在 0.1% 以下。
在儲備計算(Reservoir Computing)實現中,系統利用非線性磁化動態進行時間訊號處理。單個漩渦型 STNO 通過時間復用進動狀態等效於 400 個神經元,解決 Mackey-Glass 混沌時間序列預測任務時,歸一化均方誤差僅為 0.012 。基於渦旋的儲備結構利用無序磁結構中的新興相互作用處理 10 MHz EEG 訊號,功耗為 20 μW,成功實現即時癲癇發作檢測,依賴自旋結構動態中的分叉檢測機制。
展望大規模部署,結合 STNO 神經元、磁疇突觸與 AFM 互連的“全自旋神經網路”有望實現 >100 TOPS 的認知計算性能,系統功耗低於 10 mW,通過在物理層面聯合設計神經-突觸功能結構達成。
a、一種磁隧道結由兩個鐵磁層(灰色)夾著一層絕緣層(藍色)組成,其中一層的磁化方向固定,另一層的磁化方向可與其平行(低電阻)或反平行(高電阻)。標籤“1”和“0”分別表示這兩種狀態。
b、高密度儲存用的磁隧道結交叉陣列(磁性隨機儲存器)。通過啟動相應的字線(紅色),允許底部位線與頂部感應線(均為藍色)導通,從而測量某個特定隧道結的電阻。通過施加足夠的電流可以切換磁化方向。
c、聯想記憶:(i) 來自MNIST資料集的手寫數字用於訓練聯想記憶;(ii) 訓練後輸入的測試樣本;(iii) 測試輸入產生的訓練網路輸出,顯示成功的聯想。[<引用缺失>]
a、疇壁憶阻器:磁隧道結的電阻取決於疇壁位置,從而改變高電阻反平行態與低電阻平行態的相對面積。
b、基於Skyrmion的憶阻器:裝置的電阻取決於固定層下方的Skyrmion數量。
c、細磁疇隧道憶阻器:在與多晶反鐵磁體耦合的隧道結中,由於各個磁疇的切換特性不同,使得磁疇可以在不同條件下獨立翻轉。裝置的電阻由與固定層磁化方向一致的磁疇所佔比例決定。
d、自旋電子聯想記憶:每個非對角矩陣元素的值通過憶阻器的配置儲存,用不同的電平表示。這些電平經過訓練,使得在矩陣與輸入相乘後,結果最接近訓練集中的某一元素。乘法運算通過施加對應輸入的電壓並測量相關憶阻器的輸出電流完成。d圖下方的前三個圖像為網路訓練識別的圖像,第四個為其中一個圖像的“噪聲”版本,第五個為重構後的正確圖像。
長上下文窗口與長序列下的記憶體問題
記憶體與上下文窗口: 光子加速器通常缺乏足夠的片上記憶體來快取長序列的tokens。現代LLM推理可能涉及上萬個tokens,需要儲存啟動值、鍵/值對以及整個上下文中的中間狀態。由於片上通常缺少大容量SRAM或NVM,光子系統只能將資料流進流出,這重新引入了馮·諾依曼瓶頸。正如Ning等人所指出,“資料移動經常成為整個系統的瓶頸”,這一問題不僅存在於傳統電子處理器,也同樣適用於光處理器。實踐中,有限的片上記憶體迫使光子LLM實現從外部DRAM或硬碟中獲取上下文,從而帶來延遲並破壞全光計算流水線。
諸如“檢索增強生成”(retrieval-augmented generation)等新興用例進一步加劇了這一問題:對多TB文字語料庫進行近即時搜尋與分詞,又引入一輪高開銷的記憶體訪問。簡而言之,光子晶片的有限儲存能力限制了LLM的上下文長度與吞吐量,使得長序列推理成為一個主要挑戰。
光子計算系統中大規模資料集的儲存問題
儲存與I/O瓶頸: 大語言模型及其訓練資料或知識庫涉及PB級甚至更大的資料集。光子加速器仍依賴於高速外部儲存與記憶體來提供這些資料。所需的I/O頻寬常常超出現有介面的處理能力:即使光核本身運行極快,但如果無法快速供數,也會造成資源浪費。分析人士警告LLM面臨越來越嚴重的“記憶體牆”,資料移動成為主導限制因素。
現實工作負載使情況更為嚴峻:例如檢索增強型LLM需反覆提取和處理大量文字塊,對I/O系統造成極大壓力。有些提議(如將權重儲存與計算單元共置的非易失性儲存)可減少I/O開銷(一項研究報告使用片上Flash儲存權重可減少1000倍I/O),但考慮到資料集體量,多TB語料庫的快取、調度與匯流排頻寬仍將是光子LLM系統中的關鍵瓶頸。
精度與轉換開銷問題
光子計算本質上是模擬的,因此很難表示LLM推理所需的高精度張量。當前最先進的光子Transformer設計依賴高解析度ADC/DAC來保持精度,而這些轉換器消耗了大部分晶片面積與功耗。例如,在某個光子Transformer加速器中,ADC/DAC電路佔據了超過50%的晶片面積,並成為性能瓶頸。
如何在不大幅增加轉換開銷的前提下減少量化誤差是持續的挑戰:低位元轉換器或共享ADC架構可最佳化面積與能耗,但可能影響模型精度。因此,找到最優的模擬量化方案或混合訊號架構(例如使用數字校正少量值)對下一代光子LLM晶片至關重要。
缺乏原生非線性函數
光子硬體擅長執行線性運算(如通過干涉儀實現的矩陣-向量乘法),但在實現啟動函數和非線性層方面歷來缺乏高效手段。早期整合光子神經網路雖可進行快速矩陣乘法,但啟動函數仍依賴電子電路。實踐中,許多光子LLM加速器仍需轉換至CMOS以實現softmax、GELU等點操作函數。
整合高效的片上非線性元件(如光學可飽和吸收器、電光調製器或奈米光子非線性元件),或開發最小化轉換差距的混合光電計算流水線,是實現全光LLM推理的重要工程挑戰。
光子注意力架構
目前的主要研究方向之一是將Transformer中的自注意力機制直接實現於光域中。這要求設計可調光學權重元件與可重構干涉儀網路,以光學方式計算Q×K及V加權和。例如,光子張量核(photonic tensor cores)正在開發中,利用馬赫-曾德爾干涉儀(MZI)網格或其他交叉陣列實現大規模矩陣平行運算。可調權重可以通過相位調製器、微環調製器,甚至磁光儲存單元來實現:有研究提出使用Ce:YIG諧振器儲存多位元權重,從而實現片上非易失性光學權重儲存。
此外,來自儲備計算(Reservoir Computing)的基於延遲方案可提供時間上下文:長光延遲線或串聯微環已展示出極高的序列記憶能力。未來構想是:實現一個全光Transformer模組,其中動態權重矩陣被程式設計進光學網格,過往token狀態保存在延遲路徑中,使自注意力機制得以光速運行。
最新設計如Lightening-Transformer(動態運行的光子張量核)與HyAtten驗證了這一思路:它們實現了高度平行、全範圍矩陣運算,同時最大限度減少了片外轉換。持續推進整合光學快取、高頻寬調製器以及光學softmax逼近將推動該方向的發展。
類腦與脈衝光子LLM
另一條前沿路徑是將LLM推理重構為類腦、事件驅動範式。SNN以稀疏的非同步事件形式處理資料,天然契合光子的優勢。事實上,已有基於相變神經元和雷射脈衝的全光脈衝神經網路在晶片上實現。
人們設想可以將token流編碼為光學脈衝,通過具有突觸權重的光子SNN實現序列處理。混合光子-自旋電子設計在此可發揮作用:自旋電子器件(如磁隧道結、相變突觸)可提供緊湊的非易失性權重儲存,並可與光神經元介面。
近期關於磁光儲存的光子片上權重研究、利用極端稀疏性的光子類腦加速器研究表明,在光子晶片中嵌入非線性、事件驅動元件是可行的。這類架構可利用資料稀疏性(大多數token僅弱啟動網路),僅在事件發生時更新權重,從而顯著降低能耗。
在光子類腦硬體上探索脈衝注意力模型或稀疏Transformer變種,是未來低功耗LLM推理的令人興奮的發展方向。
系統整合與協同設計
最後,在光子平台上擴展LLM需跨層次的協同設計。這包括將光子處理器與先進的光學I/O和儲存層次結構整合,以及從演算法層面匹配硬體特性。例如,近期在商用代工廠製造的全整合光子DNN晶片展示了在晶片內全光完成神經網路計算的可能性。
將此類整合擴展到Transformer等級模型將需要密集的波分復用(WDM)、片上傳輸的光學網路架構(NoC)、以及新型封裝(如共同封裝光學)來提升吞吐量。同時,軟體工具鏈(如量化、平行性、佈局)也需適配光子硬體。
關於光電協同封裝與存內計算架構的努力提供了路線圖:通過將光子張量核與共置的記憶體和控制邏輯緊密耦合,可緩解馮·諾依曼架構帶來的資料瓶頸。
從長遠來看,成功可能來自“全球協同設計”——即將Transformer演算法的稀疏性、低精度、模型分區等特性與非馮·諾依曼的光子晶片能力精確匹配。這些軟硬體的協同創新將釋放光計算在下一代LLM負載中的巨大平行潛能。
光子學的進步正在推動計算技術的變革,其中光電器件與光子平台的整合處於前沿。這一整合催生了光子積體電路(PICs),它們作為超高速人工神經網路的建構模組,是新一代計算裝置建立的關鍵。這些裝置旨在應對機器學習和人工智慧應用在醫療診斷、複雜語言處理、電信、高性能計算和沉浸式虛擬環境等多個領域中所帶來的高強度計算需求。
儘管已有諸多進展,傳統電子系統在速度、訊號干擾和能效方面仍存在侷限。神經形態光子技術以其超低延遲的特性,作為一種突破性解決方案出現,為人工智慧和光神經網路(ONNs)的發展開闢了新的路徑。本綜述從光子工程和材料科學的角度出發,聚焦神經形態光子系統的最新發展,批判性地分析當前和預期面臨的挑戰,並描繪出克服這些障礙所需的科學與技術創新圖譜。
文章重點介紹多種神經形態光子人工智慧加速器,涵蓋從經典光學到複雜的PIC設計的廣泛技術領域。通過詳細的對比分析,特別強調其在每瓦操作次數(operations per watt)方面的運行效率。討論轉向諸如垂直腔面發射雷射器(VCSEL)/光子晶體面發射雷射器(PCSEL)和基於頻率微梳的加速器等專用技術,突出了在光子調製和波分復用方面的最新創新,以實現神經網路的高效訓練與推理。
鑑於當前在實現每瓦千兆次操作(PetaOPs/Watt)計算效率方面存在的技術瓶頸,本文探討了提升這些關鍵性能指標的潛在策略,包括拓撲絕緣體與PCSELs等新興技術,以及提升製造工藝、系統可擴展性與可靠性的手段。本文不僅描繪了當前的技術圖景,也預測了神經形態光子技術在推動人工智慧能力邊界方面的未來發展路徑。
總的來說,隨著摩爾定律的終結以及光子版“摩爾定律”的起飛,我們預計將在PIC的成本、可擴展性、可整合性以及總體計算能力方面看到顯著提升。PIC最終將取代IC,成為未來計算系統的核心支柱。 (半導體行業觀察)