#神經網路
特斯拉造出“世界模擬器”,一天學完人類500年駕駛經驗
特斯拉人工智慧與自動駕駛軟體副總裁阿肖克·埃盧斯瓦米在ICCV 2025會議上首次公開披露了名為“世界模擬器”的神經網路系統。這一系統並非傳統的遊戲引擎或預程式設計模擬工具,而是一個完全通過海量真實世界資料訓練生成的“數字孿生世界”,能夠以極高保真度模擬車輛行駛中的多視角連續場景,一次可生成長達6分鐘、覆蓋8個攝影機的逼真駕駛視訊。技術核心:端到端神經網路架構特斯拉的“世界模擬器”與其自動駕駛系統FSD共享同一套“端到端”神經網路架構。與行業主流的“模組化”方案(將駕駛任務拆解為感知、預測、規劃三個獨立模組)不同,特斯拉的端到端模型直接從攝影機像素、車輛運動資料、導航資訊等原始資料輸入,一步到位輸出方向盤轉角和油門剎車控制指令。這種設計消除了模組間介面的資訊損耗,使系統能夠整體最佳化。例如,在面對“雞群試圖過馬路”和“鵝群僅在路邊停留”兩種場景時,端到端模型能直接從像素中理解動物意圖的差異,做出停車等待或繞行的不同決策,而無需依賴僵化的規則定義。資料引擎:每天消化500年駕駛經驗端到端模型面臨的核心挑戰是輸入維度極高(特斯拉估算其輸入token總數達20億個),而輸出僅有兩個控制指令。為解決這一“維度詛咒”,特斯拉依託其全球車隊每天產生的相當於人類500年駕駛時長的海量資料,通過“資料引擎”流水線自動篩選最具價值的罕見場景樣本進行訓練。例如,在雨天路滑場景中,FSD可提前5秒預判前車可能打滑撞牆後反彈,主動減速。這種對“二階效應”的預判能力,正是通過海量複雜場景資料訓練所獲得。可解釋性突破:打開AI“黑箱”針對端到端模型決策過程不透明的質疑,特斯拉通過兩項技術提升可解釋性:一是“生成式高斯潑濺”技術,可在220毫秒內根據攝影機視訊即時生成周圍環境的3D動態模型,直觀展示AI“所見”世界;二是引入自然語言推理能力,在FSD v14.x版本中,AI可用語言解釋其決策邏輯(如“施工封路,應向左繞行”)。這些中間輸出層使開發者能夠追溯AI的“思考鏈條”,部分破解黑箱問題。模擬器三大應用:閉環評估、場景復現與對抗測試世界模擬器的核心價值在於為自動駕駛測試提供無限規模的虛擬試煉場:閉環評估:新版FSD模型可直接在模擬器中長期駕駛,評估綜合表現,無需真實路測;場景復現與修改:重現真實危險場景,測試不同應對策略的優劣;對抗性場景生成:主動創造極端罕見情況(如車輛連續變道加塞),壓力測試AI的應急能力。通用AI野心:從汽車到柯博文機器人特斯拉明確表示,世界模擬器並非僅用於自動駕駛,已無縫遷移至人形機器人“柯博文”的訓練中。同一套神經網路在模擬器中同時生成車輛行駛和機器人在工廠內導航的畫面。這印證了馬斯克的終極目標:打造一個理解並互動物理世界的通用AI,汽車與機器人僅是其在不同的“身體”上的應用。特斯拉的世界模擬器不僅是自動駕駛技術的突破,更是其對“通用物理AI”戰略的關鍵佈局。通過端到端架構與虛擬訓練場的結合,特斯拉正試圖用資料與算力暴力破解機器智能的規模化難題。 (MaXTe)
比Transformer更強的架構來了?浙大新作Translution,一統卷積和自注意力
融合Self-attention和Convolution兩大核心機制,Translution以統一的框架重新審視深度神經網路的本質,為下一代神經網路提供了新的可能。自2017年Transformer模型提出以來,Self-attention機制憑藉其強大的建模能力,逐漸成為深度學習領域的核心操作。然而,隨著人工智慧模型的規模不斷擴張,單純依靠簡單直接「堆參數、堆資料」提升性能的模式正逐漸遇到瓶頸。面對大模型訓練代價高昂、性能增長趨緩等挑戰,學術界和產業界亟需新的網路架構創新。近日,范鶴鶴(浙江大學)、楊易(浙江大學)、Mohan Kankanhalli(新加坡國立大學)和吳飛(浙江大學)四位老師提出了一種具有劃時代意義的神經網路基礎操作——Translution。該研究認為,神經網路對某種類型資料建模的本質是:1)為某一資料元素(如卷積核裡的中心元素或自注意力機制裡的query)尋找相關元素或區域;2)對相關元素形成的區域進行有效編碼,獲取該區域真正的、獨立於其他外部因素無關的內在結構的表徵。據此,在理論框架與實現機制上,Translution實現了Self-Attention(自注意力)與Convolution(卷積)的有機融合與統一,建構出一種更具普適性的神經電腦制。論文:Translution: Unifying Self-attention and Convolution for Adaptive and Relative Modeling論文連結:https://arxiv.org/pdf/2510.10060程式碼連結:https://github.com/hehefan/Translution突破瓶頸 重新思考深度學習兩大機制自注意力機制(Self-Attention)自Transformer模型提出以來,已成為自然語言處理和多模態大模型的核心結構;而卷積神經網路(CNN)則長期主導電腦視覺領域。圖1:Convolution在捕獲關聯區域時較為「死板」,可以視為固定大小的attention;Self-attention可以自適應地捕捉關聯區域二者的成功揭示了深度神經網路的兩條關鍵路徑:Self-Attention能夠在全域範圍內自適應地捕捉特徵關聯,但依賴絕對位置編碼(absolute positional embedding),導致模型在處理位置變化時缺乏穩定性;Convolution則通過固定的局部卷積核捕獲相對結構資訊,具備強大的平移不變性,但無法像注意力那樣靈活地選擇相關區域。圖2:在對相關區域進行編碼時,Convolution為每個方向和距離都賦予一個可學習參數矩陣,使其可以捕捉與絕對位置無關的真實結構;而Self-attention通常將絕對位置融入到特徵中,當位置發生變化,可能無法識別原先結構。兩種機制各有所長,卻始終割裂。Translution的出現,正是為了彌合這一理論與應用的鴻溝。Translution Self-Attention和Convolution的大一統Translution的核心思想,是將Self-Attention的自適應區域選擇能力與Convolution的相對結建構模能力進行統一。在傳統的自注意力計算中,Query、Key、Value的投影矩陣在所有位置上共享,無法感知元素之間的方向和距離關係。Translution則創新性地為每一種相對偏移(offset)分配獨立的參數矩陣,從而在計算Query、Key、Value時引入方向性和相對位置資訊,實現了真正意義上的相對編碼(relative encoding)。表1:Translution對Self-Attention與Convolution的統一。Self-Attention與Convolution可以分別看作是Translution的兩種特例:Self-Attention簡化了相對位置編碼,Convolution簡化了注意力求解(用感受野代替)這意味著,Translution不僅能像自注意力那樣動態聚焦於最相關的區域,還能像卷積一樣感知局部結構關係,實現了「自適應識別+相對建模」的融合。這一特性使模型在處理圖像、文字乃至三維空間資料時,能夠對形狀、位置、順序等結構變化保持更強的穩定性和泛化性。α-Translution 在高性能與可訓練性之間找到平衡由於Translution在每個方向上引入了獨立參數矩陣,其參數量呈指數級增長,遠超當前GPU視訊記憶體所能承載。為解決這一問題,提出了輕量化版本——α-Translution。通過在特徵維度上引入分解式低秩編碼,α-Translution將大規模矩陣壓縮為多層可組合子空間對應,從而在保證性能的同時,將參數量與視訊記憶體佔用降低至原版的數十分之一。實驗表明,α-Translution在性能上顯著優於傳統Self-Attention,而計算成本可控,是當前硬體條件下最具潛力的過渡方案。在視覺與語言任務上,全面超越Self-Attention技術報告在電腦視覺和自然語言建模兩個領域開展了系統性實驗。結果顯示,在多個benchmark上,Translution及其輕量化版本α-Translution均顯著優於基於Self-attention的Transformer架構:•在基於ViT架構的動態MNIST分類實驗中,Translution對位置變化表現出極強的魯棒性,識別精度顯著優於Self-Attention。•在基於ViT架構的ImageNet分類任務上,Translution的Top-1精準率較Self-Attention最高提升超過6%。•在基於GPT架構的OpenWebText語言建模中,Translution的困惑度(Perplexity)相比Self-Attention有效降低,展現出更強的語言建模能力。表2:當在靜態MNIST資料集上進行訓練、動態資料集上進行測試,Translution(包括α-Translution)取得了明顯高於Self-attention的精準率,展現出其對位置變化的強大適應能力。表3:基於Translution建構的ViT在ImageNet資料集上取得明顯優於Self-attention的精準率表4:在自然語言建模的任務上,基於Translution建構的GPT也取得了超過Self-attention的性能這些結果表明,Translution不僅在視覺任務中能夠準確捕獲空間結構關係,也能在文字序列中理解詞語之間的相對依賴,展現出跨模態的普適性。靈魂拷問 Translution性能提升源自參數量增多?為了驗證Translution的性能提升究竟源於參數規模的增加,還是源於所提出的相對建模機制,作者們設計了更具「挑戰性」的對照實驗:他們將Translution中的相對矩陣取代為絕對矩陣。這一替換會導致參數量顯著增加。如果「絕對Translution」的表現優於「相對Translution」,則說明性能提升主要來自參數增多;反之,則證明提升源於相對建模機制本身。實驗結果如表所示,「相對Translution」在精準率上遠超「絕對Translution」,充分證明了性能提升確實源自所提出的相對建模方法。表5:具有更少參數的「相對Translution」取得了更高的精準率,證明了Translution帶來的性能提升正是由所提出的相對建模引起的。結束語:Translution不僅是一項技術創新,更是一次對深度神經網路本質的重新思考。儘管其大規模應用有賴於未來更強大的算力支撐,但它為新一代神經網路的發展開闢了新的方向,也為人工智慧的未來注入了新的活力。 (新智元)
Waymo vs. 特斯拉:兩輛車,開到了同一條街
2025 年 6 月,Google的 Waymo 與特斯拉的 Robotaxi,將首次在真實街頭 “正面交匯”。Waymo 已在舊金山、鳳凰城累完成超 1000 萬次無人駕駛出行,車隊不再配備安全員,服務範圍持續擴大。特斯拉則將在奧斯汀推出首批 Robotaxi,進入路面驗證階段。它們駛向的是同一條街,走法卻大不相同。01|技術路徑之爭:雷達地圖 vs. 純視覺神經網路|Waymo:多感測器 + 高精地圖一座城市一座城市打下來Waymo 的路線非常穩健:依靠雷射雷達(LiDAR)、毫米波雷達與攝影機組合,配合提前繪製的高精地圖,為每一輛車建構一個 “已知世界”。它強調安全、冗餘、可控 —— 多套感知系統彼此補位,即使某類元件失效,車輛仍可穩定運行。這意味著,每進入一座新城市,Waymo 都需重建地圖、模擬驗證,並逐步放開營運範圍。這種方式成本高,但穩定性強。Waymo 的這一模式,已經在多個核心城市穩定落地,安全記錄也成為其最有力的護城河。但也因此擴張緩慢——每開拓一座城市,都是一場持久戰。|特斯拉:純視覺 + AI 神經網路不靠地圖,一次訓練跑遍所有城市?與 Waymo 的工程路徑幾乎相反,特斯拉選擇了一條激進路線:只依靠攝影機感知環境,通過神經網路進行 “端到端” 決策,不使用雷射雷達,也不依賴高精地圖或詳盡規則庫。它的目標是模仿人類駕駛 ——靠 “看” 和 “學”,從真實世界中訓練出具泛化能力的模型,使系統可適應不同城市、天氣與道路。如果這條路徑成立,特斯拉就能:通過 OTA(線上更新),把 FSD 能力推送到全球數百萬輛已售車輛上,部署速度遠超 Waymo 的重感測器模式。但截至目前,特斯拉仍未實現真正意義上的無人駕駛。首個 Robotaxi 服務將於 2025 年 6 月 12 日在奧斯汀上線,初期投入 10–20 輛車,營運區域有限,仍需遠端團隊支援。儘管馬斯克聲稱測試中曾實現 “連續數天無事故”,但業界普遍認為,其演算法在複雜城市場景中仍存在尾部風險。|技術路徑對比小結:Waymo:強調控制與安全,一步步吃透每座城市;特斯拉:押注演算法泛化,一旦跑通可快速複製。一個靠地圖,一個靠模型;一個穩,一個快。02|商業模式博弈:自營重資產 vs. 輕平台生態|Waymo:車是自己的,營運也是自己的。Waymo 改採用的是一種 “新型出行公司” 模式:不賣車、不加盟,而是自營完整的 Robotaxi 車隊,通過 Waymo One App 提供服務。這種模式帶來兩方面結果:一方面,Waymo 擁有從硬體選型、感測器安裝,到調度、維護、客服的全流程控制權,服務一致、安全可控;另一方面,營運成本極高,每進一城都需重新部署地圖、系統與團隊。截至 2024 年底,Waymo 尚未實現盈利。“Other Bets” 類股全年虧損超 40 億美元。即使每周訂單已超 25 萬,要支撐這套重資產結構,仍需更高的利用率與更廣的落地。|特斯拉:Airbnb of Cars?不是你開車賺錢,而是讓車自己去賺錢。特斯拉設想的是 Robotaxi 平台:使用者買車後,將其接入 Tesla Network,在空閒時接單接人。車主和平台分成,類似 Airbnb 的模式。這種結構的兩個好處:不必自建龐大車隊,靠使用者完成 “地面鋪設”;所有 Tesla 都是 “潛在節點”,通過 OTA 升級即可加入網路。此外,特斯拉通過售賣 FSD 軟體(一次性 $8,000 / 每月 $99)已實現前置收入。未來如放開私家車營運,還可進一步收取抽佣。但現實仍存門檻:L4 自動駕駛尚未落地、服務一致性難控、法規尚不明朗。這一模式目前仍停留在結構構想階段,尚未真正驗證。|商業模式對比小結:Waymo 自營,像傳統航空公司:車輛自有、服務閉環、強調控制力;特斯拉做平台,更像 Airbnb + Uber 的結合:使用者供車、平台抽佣、結構輕。一方在解決 “怎麼自己開得更安全”,一方在設計 “如何讓別人也能來開”。03|成本結構對比:誰能跑得更便宜?|Waymo:高感測器、高人工、高起步Waymo 的成本結構來自三個關鍵詞:硬體貴、部署慢、人力多。每輛車需安裝多顆雷射雷達、毫米波雷達與攝影機,配合旋轉穹頂、冗餘控制系統與高算力平台。根據 2025 年 5 月分析師估算,整車成本仍在 15–20 萬美元之間。此外,每進入一座城市,Waymo 都需重建地圖、偵錯系統,並配備遠端支援團隊。雖然營運規模帶來一定效率提升,但整體仍屬 “重營運結構”。這套結構雖然安全穩定,但擴張難度高,模式要真正跑通,仍需時間與密度的雙重驗證。|特斯拉:通用硬體 + 平台分攤 + 量產效應特斯拉的 Robotaxi 戰略建立在三項假設上:攝影機 + 神經網路可替代雷射雷達;所有車輛都可通過 OTA 升級為 Robotaxi;特斯拉具備全球最強的電動車量產能力。這意味著,robotaxi 的硬體結構與 Model Y 接近,不需額外採購高成本感測器。Ark Invest 預測,未來特斯拉專用 Robotaxi(Cybercab)整車成本可低至 1.5 萬美元,約為 Waymo 的 1/6。平台結構決定了更高的擴展槓桿,邊際成本遠低於 Waymo 的自營體系。但這個 “便宜” 的前提,是技術真的成立。如果 FSD 仍需遠端人工干預,或在複雜場景中頻繁失敗,維護成本和責任風險都將快速上升。馬斯克曾表示,特斯拉目標是將 Robotaxi 的單位營運成本控制在 $0.30–$0.40/英里,遠低於 Uber 的 $2,也低於當前 Waymo 的結構。|每英里成本對比:從 “跑得貴” 到 “跑得穩”說明:表中成本為平台側的單位營運支出估算,非使用者實際支付價格。Waymo 含整車折舊、感測器、地圖維護與遠端支援;特斯拉模型基於無人駕駛完全落地後的預期效率;Uber 資料含司機人工與平台抽佣;私人用車則為年化成本/里程。同樣是一英里,不同系統背後是完全不同的成本邏輯與營運結構。|成本結構對比小結:Waymo 成本高,但已有穩定營運資料支撐;特斯拉成本低,但尚未經過複雜城市場景的驗證;成本不僅關乎 “便宜”,更考驗長期可持續性;誰能在降本的同時守住安全邊界,誰就更可能率先跑出正向循環。04|誰能更快擴張?信任 vs. 速度|Waymo:慢,但贏得了監管和社區Waymo 的擴張邏輯一貫謹慎:先小範圍內部測試,再邀請友好使用者,最後才面向公眾開放全無人駕駛。這條路徑的關鍵,是贏得信任。在每個進入的新城市,Waymo 通常會:提前數月繪製高精地圖;與地方政府進行合規接洽;建立遠端支援與應急響應體系;分階段逐步放開載客範圍和時間段。截至 2025 年 5 月,Waymo 已在鳳凰城、舊金山、洛杉磯全面運行,並在奧斯汀、亞特蘭大等地部署,未來還計畫進入邁阿密、D.C. 等地。這種推進節奏雖然緩慢,但確保了極低的事故率,也建立起良性的監管協作關係。|特斯拉:快,但必須用成績說服質疑特斯拉選擇了更典型的 “矽谷式路徑”:產品先跑;成功後複製;不完美也先上線,邊試邊調。首批 Robotaxi 將在奧斯汀試點,若測試順利,將在數周內擴展至數百台,並計畫數月後進入其他城市。它的優勢在於系統 “通用”:不依賴每個城市重建地圖;所有車輛均可 OTA 升級;城市開放僅需取得交通許可,即可迅速啟動。如能驗證成功,特斯拉的部署速度將遠超城市級重部署邏輯。但截至目前,特斯拉尚未獲得加州等核心區域的無人車營運許可。FSD 曾多次引發爭議,監管和公眾仍在觀望其能否勝任複雜城區。試點中若出現事故或使用者反饋不佳,其擴張節奏將受到實質性阻力。|誰更像平台型公司?Waymo 的 “複製能力” 仍受限於重部署邏輯;特斯拉的 “部署能力” 則取決於監管門檻與模型穩定性。我們可以這樣理解:Waymo 複製一座城市,要寫幾十萬行地圖程式碼;特斯拉複製一座城市,只要按下 OTA 的按鈕,如果它的模型真的夠強。|擴張節奏對比小結:Waymo 的擴張像建地鐵:慢,但一旦建好,安全、穩定;特斯拉的擴張像共享電單車:可以一夜鋪滿城市,但前提是 “不會亂撞”。05|使用者體驗與信任:沉默司機 vs. 會進化的同伴|Waymo:像一個極度克制的專職司機它不開快車,也不會跟你說話;它非常穩重、克制,甚至有點 “過於守規矩”。許多使用者形容它 “安靜” “穩定” “非常可預測”,這並非巧合,而是系統設定。Waymo 的駕駛風格儘量避免讓乘客感到 “意外” 或 “激進” ——無論並線、加減速還是路口等待,都表現出一種 “過於禮貌” 的風格。這種 “職業感” 在某些場景下甚至顯得 “保守”。比如在複雜路口,Waymo 有時會因重複判斷長時間等待,影響通行效率。但從信任角度看,正是這種 “克制”,讓首次乘客感到安心。Waymo 在 UI 上也注重 “可解釋性”:車內乘客可即時看到系統決策狀態與道路判斷,增強對系統的理解。截至 2025 年,Waymo 累計完成超 1000 萬次付費無人駕駛出行,且無重大人員傷亡事故記錄。它靠時間和資料一點點積累信任,而不是靠一次性的 “驚豔體驗”。|特斯拉:像一個剛畢業但學得很快的新人它還在進化,但你永遠無法判斷它學會了多少。FSD 的風格一向不 “克制”,它的決策方式更接近人類司機 —— 並線迅速、反應直接,路徑偏重 “進攻性”。這對使用者而言意味著更高效率,但也更容易引發緊張。目前 FSD 仍處於 “Beta 測試 + 部分場景開放” 階段。即便 Robotaxi 上線,初期也很可能仍需遠端支援或限定場景營運。特斯拉依靠的是 “資料閉環”:每天上傳數十億英里真實行車資料,用於訓練神經網路。理論上,系統會像人一樣越開越熟練。問題在於:這種能力進化缺乏明確衡量標準,使用者無法判斷系統現在 “學到了什麼”。他們對系統的信任,大多來自品牌感知和體驗直覺,而非內部可解釋機制。此外,若未來向私家車開放 Robotaxi 服務,車輛清潔度、服務一致性、內飾標準等也將成為體驗挑戰。|誰能贏得那個 “關鍵時刻”?這場競速的真正分水嶺,不在技術,也不在成本,而在:你能不能讓一個普通使用者,放心坐上一輛沒有駕駛員的車?誰先跨過這個心理門檻,誰就先打開真正的市場入口。Waymo 用克制贏得信任;特斯拉靠效率與品牌吸引嘗試。一個讓保守者安心,一個吸引激進者先用。|使用者體驗對比小結:Waymo 的體驗是 “穩”,像你請的專職司機;特斯拉的體驗是 “快”,像你熟人開的熟車;真正能跑遠的 Robotaxi,要讓你不再關心 “誰在開”。06|如果 Robotaxi 成為主流,會發生什麼?|Ark 的預測:10 兆美元的出行重構Ark Invest 是 Robotaxi 市場中最樂觀的一派:到 2030 年,全球Robotaxi 市場規模或達 10 兆美元;出行方式將從 “擁有車輛” 轉向 “按次服務”;成熟後每英里成本可能降至 $0.25,遠低於 Uber 或私家車。在這個設定下,Robotaxi 不只是一次 “技術升級” ,而是一次出行基礎結構的重構。|使用者真的會切換嗎?個體出行選擇,通常取決於三個因素:價格、可用性與安全感。目前這三者在 Robotaxi 上尚未同時成立。Waymo 成本雖低於 Uber,但使用者價格仍偏高(約 $2–$4/英里);特斯拉尚未定價,且早期服務範圍有限,也難以形成有效替代。即使未來價格降至 $0.3–$0.4/英里,若調度效率與服務密度不足,仍難改變使用者習慣。換句話說,便宜是前提,但真正驅動切換的,是信任與可獲得性。|如果 Robotaxi 成為主流,會發生什麼?家庭減少購車台數,轉向 “共享 + 私用” 的組合模式;停車需求下降,城市規劃將被重構;通勤變為可支配時間,而非沉沒成本;汽車從 “資產” 變成 “出行介面”。這不僅是消費方式的變化,也將影響城市結構、物流、保險、金融等多個底層系統。Robotaxi 改變的,不只是 “誰在開車”,而是我們對 “移動” 這件事的定義。選擇 Robotaxi,不只是出行方式的改變,更是你選擇相信那一種 “無人的信任感”:我們會更願意坐上一輛 “規則寫好” 的 Waymo,還是一輛 “演算法自學” 的特斯拉? (複利貓的慢思考)
光晶片,即將起飛!
大型語言模型(LLMs)正在迅速逼近當代計算硬體的極限。例如,據估算,訓練GPT-3大約消耗了1300兆瓦時(MWh)的電力,預測顯示未來模型可能需要城市級(吉瓦級)的電力預算。這種需求促使人們探索超越傳統馮·諾依曼架構的計算範式。本綜述調查了為下一代生成式AI計算最佳化的新興光子硬體。我們討論了整合光子神經網路架構(如馬赫-曾德干涉儀陣列、雷射器、波長復用微環諧振器),這些架構能夠實現超高速矩陣運算。同時,我們也研究了有前景的替代類神經裝置,包括脈衝神經網路電路和混合自旋-光子突觸,它們將儲存與計算融合在一起。本文還綜述了將二維材料(如石墨烯、過渡金屬二硫族化合物,TMDCs)整合進矽基光子平台,用於可調製器和片上突觸元件的研究進展。我們在這種硬體背景下分析了基於Transformer的大型語言模型架構(包括自注意力機制和前饋層),指出了將動態矩陣乘法對應到這些新型硬體上的策略與挑戰。隨後,我們剖析了主流大型語言模型的內部機制,例如chatGPT、DeepSeek和Llama,突出了它們架構上的異同。我們綜合了當前最先進的元件、演算法和整合方法,強調了在將此類系統擴展到百萬級模型時的關鍵進展與未解問題。我們發現,光子計算系統在吞吐量和能效方面有可能超越電子處理器幾個數量級,但在長上下文窗口、長序列處理所需的儲存與大規模資料集的保存方面仍需技術突破。本綜述為AI硬體的發展提供了一條清晰的路線圖,強調了先進光子元件和技術在支援未來LLM中的關鍵作用。引言近年來基於Transformer的大型語言模型(LLMs)的快速發展極大地提高了對計算基礎設施的需求。訓練最先進的AI模型現在需要巨大的計算與能耗資源。例如,GPT-3模型在訓練期間估計消耗了約1300兆瓦時的電力,而行業預測表明,下一代LLM可能需要吉瓦級的電力預算。這一趨勢與大規模GPU叢集的使用同時出現(例如,Meta訓練Llama 4時使用了超過10萬個NVIDIA H100 GPU的叢集)。與此同時,傳統矽基晶片正接近其物理極限(電晶體特徵尺寸已達約3奈米),馮·諾依曼架構也受限於“儲存器–處理器”瓶頸,從而限制了速度與能效。這些因素共同凸顯出LLMs日益增長的計算需求與傳統CMOS電子硬體能力之間的鴻溝。這一挑戰促使人們探索替代計算範式。光子計算利用光來處理資訊,天然具有高頻寬、超強平行性與極低熱耗散等優勢。近期在光子積體電路(PICs)上的進展,使得建構神經網路基本模組成為可能,例如相乾乾涉儀陣列、微環諧振器(MRR)權重陣列,以及用於執行密集矩陣乘法與乘-加操作的波分復用(WDM)方案。這些光子處理器利用WDM實現了極致的平行性與吞吐能力。與此同時,將二維材料(如石墨烯與TMDCs)整合入PIC中,催生了超高速的電吸收調製器與可飽和吸收體,成為片上的“神經元”與“突觸”。作為光學的補充,自旋電子類神經裝置(如磁隧道結和斯格明子通道)提供非易失性突觸儲存和類神經脈衝行為。這些光子與自旋電子類神經元件從物理機制上實現了儲存與處理的合一,為能效最佳化的AI計算開闢新途徑。將基於Transformer的LLM架構對應到這些新型硬體平台上,面臨諸多挑戰。Transformer中的自注意力層涉及動態計算的權重矩陣(query、key和value),這些權重依賴於輸入資料。設計可重構的光子或自旋電路以實現這種資料依賴型操作,正成為活躍研究領域。此外,在光子/自旋子媒介中實現模擬非線性(如GeLU啟動函數)與歸一化仍是重大技術難題。為應對上述問題,研究者提出了許多“硬體感知”的演算法設計策略,如適用於光子計算的訓練方法以及能容忍模擬噪聲和量化誤差的神經網路模型。本綜述餘下部分結構如下:第2節:介紹光子加速器架構,包括相乾乾涉儀網路、微環權重陣列與基於波分復用的矩陣處理器;第3節:探討二維材料在光子晶片上的整合(如石墨烯/TMDC調製器、光子憶阻器);第4節:分析替代類神經裝置,特別是自旋電子在類神經計算中的應用;第5節:總結主流LLM與Transformer架構原理,並探討如何將其對應到光子晶片上,強調在光子與類神經硬體上實現注意力機制與前饋層的策略;第6節:介紹脈衝神經網路的機制與實現演算法;第7節:指出系統層面的關鍵挑戰並展望未來方向。本綜述力圖為下一代AI硬體發展繪製出基於光子與自旋電子技術的完整路線圖。光子神經網路與光子計算的前沿器件光子神經網路(PNN:Photonic neural networks)依託多種光學器件之間的協同作用實現高效計算:微環諧振器利用共振效應進行波長復用與光頻梳生成,為多波長訊號處理奠定基礎 ;馬赫-曾德干涉儀(MZI:Mach-Zehnder interferometer)陣列通過相位調製實現光學矩陣運算,是神經網路中核心線性變換的關鍵元件 ;超構表面通過亞波長結構調控光波的相位與幅度,能在衍射域內執行高度平行的光學計算 ;4f系統通過傅里葉變換在衍射域中實現線性濾波功能;而新型雷射器則通過電光轉換機制實現非線性啟動功能。這些器件整合了光場調控、線性變換與非線性響應能力,建構出高速、低功耗、強平行的全光計算架構。本節將介紹當前光學神經網路實現中常用的器件。微環諧振器微環諧振器(MRRs)(見圖1)的重要性不僅體現在它們在波分復用(WDM)中的作用,還體現在其獨特的濾波特性,例如光頻梳生成。WDM允許不同波長的訊號在同一波導中同時傳播而不會產生干擾:通過設計微環的半徑與折射率以支援特定的共振波長,滿足共振條件的光將耦合進環形腔體中持續振盪,在透射譜上表現為明顯的吸收凹槽。而光頻梳則源於高Q值(低損耗)微腔中的參量振盪:當注入連續波(CW)泵浦雷射後,光子會經歷非線性效應(如Kerr非線性),從而自發地產生等間距的光譜線,形成梳狀頻譜。WDM與頻梳生成的結合,使多波長訊號可通過共享波導進行合成與傳輸,實現波長復用與空間復用的統一。微環的其他特性也得到了利用。例如,利用微環的熱光效應,在微環上加入了具有激射閾值的相變材料,實現了類似神經網路中ReLU函數的非線性效果。圖1:微環諧振器a)通過微環諧振器權重陣列可實現類神經光學神經網路(ONN); b)展示了全光脈衝神經網路的原理與實驗設定;c)開發了一種基於時間-波長復用的光子摺積加速器;d)提出了一種基於微梳與相變材料的片上光計算架構;e)展示了用於情緒識別的微梳摺積ONN晶片設計圖2:馬赫-曾德干涉儀(MZI)a)提出了支援即時線上學習的ONN訓練方法;b)展示了結合MZI與衍射光學元件的整合光子神經網路架構;c)演示了基於MZI陣列的光子神經網路的線上反向傳播訓練方法馬赫-曾德爾干涉儀(Mach-Zehnder Interferometer)MZI 陣列(見圖2)可有效執行光學矩陣-向量乘法(MVM)運算:它由兩個光學耦合器/分束器和兩個調製器(可通過外部電路控制)組成。輸入光通過分束器被分成兩路,調製器調節兩路之間的相位差,最後通過光學耦合器重新組合成干涉光。每個 MZI 對光訊號執行二維酉變換(複數域的正交變換),在數學上等價於一個 2×2 的酉矩陣。當多個 MZI 按特定拓撲結構(如網格)級聯時,它們的整體行為可對應於高維酉矩陣的分解,因為任意 N 維酉矩陣都可以分解為一系列二維酉變換。因此,MZI 陣列可以實現類似於神經網路中權重矩陣的可程式設計酉變換。輸出的光訊號可進一步通過光電手段進行轉換,並與電子器件整合,實現非線性啟動函數,從而完成神經網路的前向傳播。超表面(Metasurface)超表面在神經網路應用中的運行主要依賴於“面”之間的光的衍射與干涉。超表面是一種由亞波長尺度結構單元組成的材料,能夠調製光波的性質,包括相位、幅度、偏振和頻率。這些結構通常具有超薄、輕質和高整合密度(支援大規模平行)的特點,其實現方式多樣,如基於絕緣體上矽(SOI)的設計、復合惠更斯超表面、單層全息感知器等。由於衍射和干涉本質上是線性過程,因此要實現非線性計算需要額外機制,如利用超表面材料的光電效應 。多層衍射架構(見圖3)通過堆疊的二維表面作為高密度排列的神經元層實現。通過控制每個衍射層中空間位置處的相對厚度或材料特性,可調節光的相位和幅度。或者, 在一塊平面表面上製造一維高對比透射陣列超表面(見圖4),例如,在標準 SOI 基底上蝕刻空氣槽(後續可填充二氧化矽),槽的間距(晶格常數)和寬度固定,通過改變槽的長度來控制相位。圖3:二維超表面a) 二維衍射深度神經網路(D2NN)中推理機制的概念圖示。b) 通過衍射光學神經網路(DONN)實現邏輯運算的實驗配置。c) 奈米列印的光學感知器實現晶片級計算。d) 利用數字型超原子陣列的可重構DONN架構。圖4:一維超表面a) 一維DONN在光子機器學習中的實驗驗證。b) 基於模擬的晶片級DONN驗證,支援光速計算。c) 介電超表面實現用於傅里葉變換與空間微分的晶片級波前控制。圖5:4f系統a) 使用4f光學系統的混合光電摺積神經網路(CNN)。b) 完全光學神經網路(ONN)架構,將深度衍射神經網路整合於4f成像系統的傅里葉平面上。4f 系統(見圖5)利用光場訊號(如圖像)通過第一枚透鏡進行傅里葉變換。在透鏡後的傅里葉面上,調製裝置(如相位掩膜、空間光調製器 SLM)對頻譜進行濾波或加權調整。經調製後的頻譜再通過第二枚透鏡進行反傅里葉變換,生成輸出光場。超表面材料可替代傳統透鏡間的調製裝置 。其他類型雷射器雷射器作為一種具有高相乾性、單色性和方向性的獨特光源,也被應用於光神經網路(ONN)(見圖6)。圖6:其他類型的雷射器a) 使用垂直腔面發射雷射器(VCSELs)的全光尖峰神經網路(SNN)理論分析。b) 基於VCSEL的全光SNN進行有監督學習。c) 用於SNN中軟硬協同計算的FP-SA神經元晶片。d) 基於分佈反饋-飽和吸收(DFB-SA)雷射器的光子整合尖峰神經元的實驗演示例如,垂直腔面發射雷射器(VCSEL)在研究中已被理論提出並在實驗中驗證。在 VCSEL 中,電流通過電極注入有源區,電子與空穴在量子阱層中復合,產生光子。這些光子在兩個分佈式布拉格反射鏡(DBR)之間來回反射,多次穿過有源區並被放大。當增益(光放大能力)超過腔體損耗(吸收、散射等)時,達到閾值條件,雷射輸出就會產生。一項研究利用了 VCSEL 陣列的特性:在被主雷射器鎖模時可以保持相同的初始相位。在該研究中,特徵資料被編碼為電訊號來調節一個 VCSEL 的泵浦電壓,從而調節其輸出光的相位;同樣,權重矩陣的每一列也被編碼為電訊號,調節其他 VCSEL 的輸出光相位。利用光束分離器和耦合器,使代表 MNIST 資料的 VCSEL 的輸出光與其他 VCSEL 的輸出光干涉,光電探測器收集光訊號,並將其求和成電訊號,作為下一層 VCSEL 陣列的輸入,實現前向傳播。在最終輸出層,輸出電訊號最強的光電探測器對應於輸出標籤。另一個例子是帶有腔內可飽和吸收體(SA)的分佈反饋雷射器(DFB-SA)。DFB 雷射器的腔體內含有周期性光柵結構,可提供光反饋以實現單波長輸出。可飽和吸收體(SA)區域位於雷射腔高反射端附近。在低泵浦電平下,SA 吸收光子,抑制雷射輸出;在高泵浦電平下,SA 釋放光脈衝(Q開關效應)。因此,當增益電流超過 DFB-SA 的自脈衝閾值時,SA 的周期性吸收調製會產生脈衝輸出,其輸出頻率與泵浦強度呈非線性正相關,可作為脈衝神經網路(SNN)的基本單元。在此結構中,DFB 雷射器也可以被傳統法布裡-珀羅(FP)雷射器取代 。利用二維材料製造整合光子晶片整合光子晶片作為下一代 AI 硬體的關鍵技術之一,正逐步崛起。這類晶片利用光進行計算和通訊,具有高速與高能效的優勢。為了實現這一應用,將二維(2D)材料,主要是石墨烯和過渡金屬二硫族化物(TMDCs),整合到晶片中,能夠顯著提升功能與性能。本節將探討這些材料的特性、整合技術、應用場景以及其在 AI 光子晶片應用中面臨的挑戰。石墨烯和 TMDCs 的關鍵特性石墨烯因其優異的光學與電子性能,在光子學領域引發革命。儘管其厚度僅為一個原子層,卻能在寬光譜範圍內吸收約 2.3% 的入射光,這使其在光學調製與探測方面非常有效。此外,石墨烯超快的載流子遷移率支援高速調製與低功耗運行,這對於能效至上的 AI 硬體至關重要 。同時,石墨烯表現出強烈的非線性光學特性,可用於頻率變換、全光開關及其它高級功能,使其在該領域的重要性進一步提升。另一方面,TMDCs(如 MoS₂ 和 WS₂)以可調帶隙和強激子效應補充了石墨烯的不足。這些材料在單層狀態下具有直接帶隙,增強了光與物質的相互作用,因而特別適用於光電探測器和波導。TMDCs 也展現出強非線性光學響應,能在晶片上實現倍頻和參量放大等高級功能。基於上述材料特性與優勢,石墨烯與 TMDCs 顯然是推動 AI 光子晶片發展的關鍵材料。整合技術將二維材料整合到光子晶片中涉及多種先進封裝工藝,主要包括:轉印法(Transfer Printing):將二維材料的薄層剝離後轉印至矽基底,無需粘合劑,能保持其本征光學性能,並實現對光子結構(如波導、諧振器)的精確定位。混合整合(Hybrid Integration):將石墨烯或 TMDCs 與現有矽光平台結合,增強光-物質相互作用。例如,石墨烯已用於在微環諧振器中實現高速調製器,該混合器件可實現太赫茲等級調製速度,同時保持低功耗 。范德華異質結構(Van der Waals Heterostructures):通過堆疊不同的二維材料,形成具有可調帶隙和各向異性折射率的異質結構。這些結構被視為最佳化波導約束因子的理想方案。近期的研究還表明,採用與 CMOS 工藝相容的技術,可以實現基於石墨烯器件的晶圓級整合。這一突破為大規模生產含二維材料的光子晶片奠定了基礎。圖7:晶體結構a) 石墨烯,b) 過渡金屬二硫化物(TMDC),c) 黑磷,d) 六方氮化硼(h-BN)晶體結構圖。圖8:圖示(左)與光學顯微鏡圖像(右)展示了目前主要的機械方法之一——柔性剝離與轉印法的步驟。步驟如下:a) 將材料沉積在玻璃基底上,b) 小心地將圖案化的聚二甲基矽氧烷(PDMS)印章“上墨”,c) 將“上墨”後的印章接觸加熱的矽/二氧化矽(Si/SiO₂)基底,d) 撕開印章,留下沉積材料。圖9:不使用腐蝕劑建構范德華異質結構的水浸法流程示意圖。光子晶片中的應用整合石墨烯和過渡金屬二硫化物(TMDCs)的光子晶片在人工智慧工作負載中展現出變革性的應用:一、光調製器基於石墨烯的調製器已展示出卓越的速度和頻寬性能——通過將石墨烯與矽波導整合,研究人員實現了能夠在超過100 GHz頻率下運行的調製器。這些調製器特別適用於人工智慧系統中所需的高速資料傳輸應用場景。二、光電探測器石墨烯在光電探測器中的應用頗為令人驚訝,由於其頻率無關的吸收特性以及在與強吸光材料結合使用時所展現的極高載流子遷移率,使得其性能優於傳統材料 [graphenea]。研究在使用混合石墨烯-量子點光電探測器方向取得進展,這類探測器被作為寬頻圖像感測器整合到CMOS相機中,以實現高響應率 [graphenea]。總體而言,二維材料在波導整合光電探測器方面具有多項優勢,包括尺寸最小化、訊號雜訊比提升以及在寬頻寬和高量子應用中的效率提高。TMDCs被用於製造在可見光和紅外波段均具有高響應率的光電探測器,利用其物理特性提升探測性能。這類探測器使AI驅動的邊緣裝置能夠高效獲取資料 [26]。混合石墨烯-量子點光電探測器也在研究中,旨在在保持CMOS相容性的前提下進一步增強寬頻探測能力 [26]。三、波導范德瓦爾斯材料的使用使得超薄波導得以實現,並具有低傳播損耗的特性。通過將矽光子學與波導整合的石墨烯相結合,實現了全可調性、寬頻和高速運行等特性。總體而言,這種波導應用使光子電路得以小型化,同時保持AI硬體所需的性能指標,在該領域推動顯著進步 。圖10:依賴二維材料的波導整合光電探測器技術路線圖。圖11:整合在CMOS電路中的石墨烯-量子點光電探測器。非線性光學TMDCs表現出強烈的非線性響應,從而開啟了諸如頻率轉換和全光訊號處理等高級功能的大門。這些能力對於在晶片上直接實現非線性光學功能及實現晶片級量子計算至關重要 。基於石墨烯的器件也展現出在類腦架構如光子神經網路方面的潛力——近期一項研究提出了一種嵌入微環諧振器中的基於石墨烯的突觸模型,能夠使用多波長技術建構大規模神經網路,這一方法有望顯著加速大語言模型的訓練過程。表1:在技術上具有重要意義的電信波長下,常見二維材料與用於矽及矽混合整合方案中的CMOS相容平台主材的二階和三階非線性光學參數。該表表徵了多種混合波導的非線性響應,展示了二維材料在當前AI背景下的性能潛力。案例研究:基於光子晶片的AI硬體整合二維材料的光子晶片因其能夠以接近光速的速度執行計算任務,而比現有技術更快,因此在AI硬體方面展現出極大前景。例如:麻省理工學院的研究人員展示了一種能夠以光學方式執行深度神經網路計算的全整合光子處理器。該晶片通過整合非線性光學功能單元(NOFUs)實現了超低延遲和極低功耗,在不到半納秒內完成了機器學習分類任務的關鍵計算,同時精準率超過92%(與現有技術表現一致)。此晶片還採用商用工藝製造,為這一新技術的規模化鋪平了道路。哥倫比亞大學開發了一種節能的資料傳輸方法,通過在光子晶片上利用Kerr頻率梳,使研究人員能夠通過不同且精確的光波長傳輸清晰訊號。這一創新提高了頻寬密度並降低了能耗,這兩者都是提升大型語言模型訓練系統可擴展性的關鍵因素。Black Semiconductor公司新設立了名為FabONE的總部,專注於開發基於石墨烯的光子連接解決方案,以實現更快速的晶片間互連。這項技術將推動高性能計算、人工智慧、機器人技術、自動駕駛等領域的發展,特別是在AI模型的超高速訓練過程方面。這些突破性進展凸顯了整合二維材料的光子晶片在加速AI基礎設施革命方面的潛力,特別是在速度、可擴展性和能效方面的瓶頸突破。圖12:基於克爾頻率梳驅動的矽光子鏈路的分層結構藝術示意圖。挑戰與未來方向儘管潛力巨大,與所有新技術一樣,要充分實現二維材料在整合光子學中的價值,還面臨諸多挑戰:一、可擴展性超薄二維材料的脆弱性在大規模製造過程中帶來挑戰,需要在轉印技術和晶圓級合成方面取得進展,才能使這項技術真正具備可擴展性 。二、材料穩定性包括石墨烯和TMDCs在內的一些二維材料在環境條件下會降解。為了讓這項技術得到廣泛採用,必須開發保護塗層、封裝技術或一般性的保存方法,以保障其長期可靠性 [38]。三、整合複雜性要實現與現有CMOS工藝的無縫整合,需要在各種技術手段和介面工程上進一步最佳化,才能使這項新技術順利進入主流應用。未來的研究應聚焦於解決上述挑戰,同時繼續探索與石墨烯和TMDCs互補的新型材料系統。二者結合,將推動由電子、光子和基於二維材料的元件構成的混合平台發展,為AI硬體和技術帶來顛覆性進步鋪平道路。用於光子類腦計算晶片的自旋電子學奈米光子學作為一門新興的交叉學科,融合了奈米技術和光子學原理,旨在探索和利用奈米尺度結構對光波的調控能力。在光子學領域,主動器件與被動器件均扮演著重要角色,並具有廣闊的應用前景。類腦系統通過借鑑神經網路的原理,試圖模擬人腦的計算與認知能力。本節將系統探討自旋電子器件與奈米光子結構在類腦計算中的協同整合。類腦計算的背景與挑戰類腦計算的提出源於傳統馮·諾依曼架構的根本性限制。傳統計算系統受到“馮·諾依曼瓶頸”的困擾,即處理單元與儲存單元的物理分離導致在資料傳輸中產生過高的能耗與延遲。隨著處理器與儲存之間性能差距的擴大,這一瓶頸進一步加劇,被稱為“儲存牆”。現代電腦在模擬基礎腦功能時需消耗兆瓦級功率,而生物大腦僅使用20瓦功率卻能實現驚人的認知能力。與此同時,半導體產業面臨電晶體微縮趨於極限、摩爾定律停滯等生存性挑戰。這場架構危機與電晶體縮放危機共同促使人們對類腦計算範式產生濃厚興趣。類腦計算通過三項關鍵創新應對上述挑戰:1)計算與儲存的共址;2)資訊的模擬編碼;3)大規模平行連接 。儘管神經網路的理論框架可追溯至McCulloch與Pitts的二值神經元模型(1943年)以及之後的深度學習發展,但實際實現面臨嚴重的硬體限制。基於CMOS的電晶體陣列實現缺乏非線性動力學、長期可塑性和隨機性等基本神經生物特性。新興的非易失性儲存器技術(尤其是憶阻器 )使更具生物逼真度的實現成為可能,但材料限制依然存在。阻變RAM(RRAM)、相變材料和鐵電器件在耐久性、速度和可控性之間存在權衡,限制其大規模部署能力。三代神經網路凸顯了硬體需求的不斷演進:1)以閾值操作為核心的第一代感知機;2)要求連續非線性啟動函數的第二代深度神經網路(DNN);3)依賴精確時間編碼和事件驅動處理的第三代脈衝神經網路(SNN)。雖然DNN主導當前AI應用,SNN因稀疏、基於脈衝的通訊方式而在生物逼真度與能效方面表現更優 。然而,SNN的硬體實現尤為困難,需要器件能本徵地模擬生物神經元的“洩漏積分-發放”(LIF)動態,以及突觸的“基於脈衝時序的可塑性”(STDP)。當前採用CMOS電路或新型憶阻器的解決方案,或缺乏基本類腦特性,或在耐久性與隨機控制方面存在侷限性。這種硬體-演算法之間的落差從根本上限制了類腦計算實現類腦效率與適應性的潛力。神經形態計算中的核心優勢與關鍵自旋電子技術自旋電子器件具備獨特優勢,使其成為神經形態計算硬體的領先候選。其內在的非易失性、超快動態響應(>1 GHz)以及幾乎無限的耐久性(10^15 次循環)能夠實現高能效、符合生物邏輯的神經網路實現方式。關鍵在於,自旋電子技術利用磁性和自旋相關現象,天然模擬神經-突觸功能,同時保持與傳統 CMOS 製造工藝的相容性。其三大核心優勢包括:(1)磁化翻轉和自旋進動中的隨機性可對應為神經元的機率性發放機制,從而實現事件驅動的脈衝神經網路(SNNs),具備稀疏編碼效率 ;(2)多型磁化動態(如磁疇壁運動、磁渦旋核化)展現模擬憶阻特性,是調控突觸權重的關鍵 ;(3)非易失狀態保持特性可消除空閒期間的靜態功耗。這些特性有效緩解馮·諾依曼架構瓶頸,並在速度與可靠性方面優於其他憶阻技術 。磁隧道結(MTJ)是基礎的自旋電子構件,能夠在兩種運行模式下展現多樣神經形態功能。在超順磁模式下,MTJ 在平行與反平行狀態間的隨機翻轉可生成泊松分佈脈衝,應用於機率計算 ,在 CoFeB/MgO 結構中實現高達 604% 的隧道磁阻比(TMR)。當作為自旋轉矩奈米振盪器(STNO)使用時,MTJ 可產生 GHz 級的電壓振盪,並與外部刺激同步,用於建構耦合振盪器網路以實現模式識別 。自旋軌道轉矩(SOT)器件通過重金屬/鐵磁體雙層結構實現無場磁化翻轉,擴展了這些能力。SOT 驅動的自旋霍爾奈米振盪器(SHNOs)在二維陣列中可實現互同步,三端結構的 MTJ 則通過讀寫路徑分離增強突觸精度 [Fukami2016]。磁奈米線中的磁疇壁運動提供連續的電阻調製,適用於模擬突觸,實現每次突觸更新能耗為 32 meV。新興的拓撲自旋結構如磁渦旋(skyrmion)具備類粒子動態,可用於生物啟發計算模型。在手性磁體中,直徑小於 100 nm 的渦旋的生成與湮滅模擬神經遞質釋放的機率機制,閾值電流為 10 μA 。反鐵磁(AFM)自旋電子學提供 THz 級動態響應和無雜散磁場特性,通過補償磁矩實現高密度交叉陣列。基於 AFM 的突觸展現 100 ps 的翻轉速度和高達 200°C 的熱穩定性]。這些技術的融合使得建構“全自旋神經網路”成為可能:結合基於 STNO 的神經元 [Romera2018]、磁疇壁憶阻突觸與渦旋機率互連,該硬體生態系統在物理層面協調設計,解決了儲存-計算分離難題。自旋電子技術在系統層級的應用探索自旋電子神經形態系統通過基於物理機制的架構創新,在認知計算模式中展現變革潛力。一項前沿實現中,四個同步運行的自旋轉矩奈米振盪器(STNOs)處於耦合的微波發射狀態,用於即時元音識別任務,精準率達到 96%,比等效的深度學習網路高出 17%,且每次分類僅消耗 3 mW 功耗 。該事件驅動架構利用 2.4 GHz STNO 陣列的固有頻率復用特性,將時間語音訊號直接對應到振盪器的同步狀態,從而省去了模數轉換的開銷。對於大規模實現,32×32 元素的自旋霍爾奈米振盪器(SHNO)交叉陣列通過傳播的自旋波在 100 µm 距離上實現互相鎖相,從而通過集體動態而非離散突觸權重完成模式補全任務。磁渦旋網路通過拓撲保護的粒子相互作用引入機率計算能力。在手性磁體中,50–100 nm 尺寸的渦旋網路通過核化密度編碼機率分佈,建構貝葉斯推理引擎,實現氣象預測模型中的 92% 精準率,在 10^5 個隨機狀態下進行存內採樣。該方案相較於 GPU 實現的蒙特卡洛模擬,能耗減少了 10 倍,通過模擬電流控制的狀態重組方式實現。反鐵磁(AFM)自旋電子器件具備抗雜散場和 1 THz 動態性能,可實現超高密度結構。在 IrMn 基交叉陣列中,每次突觸更新的實驗能耗為 4 fJ,權重漂移在 10^12 次循環內保持在 0.1% 以下。在儲備計算(Reservoir Computing)實現中,系統利用非線性磁化動態進行時間訊號處理。單個漩渦型 STNO 通過時間復用進動狀態等效於 400 個神經元,解決 Mackey-Glass 混沌時間序列預測任務時,歸一化均方誤差僅為 0.012 。基於渦旋的儲備結構利用無序磁結構中的新興相互作用處理 10 MHz EEG 訊號,功耗為 20 μW,成功實現即時癲癇發作檢測,依賴自旋結構動態中的分叉檢測機制。展望大規模部署,結合 STNO 神經元、磁疇突觸與 AFM 互連的“全自旋神經網路”有望實現 >100 TOPS 的認知計算性能,系統功耗低於 10 mW,通過在物理層面聯合設計神經-突觸功能結構達成。圖13:用於儲存應用的磁隧道結。a、一種磁隧道結由兩個鐵磁層(灰色)夾著一層絕緣層(藍色)組成,其中一層的磁化方向固定,另一層的磁化方向可與其平行(低電阻)或反平行(高電阻)。標籤“1”和“0”分別表示這兩種狀態。b、高密度儲存用的磁隧道結交叉陣列(磁性隨機儲存器)。通過啟動相應的字線(紅色),允許底部位線與頂部感應線(均為藍色)導通,從而測量某個特定隧道結的電阻。通過施加足夠的電流可以切換磁化方向。c、聯想記憶:(i) 來自MNIST資料集的手寫數字用於訓練聯想記憶;(ii) 訓練後輸入的測試樣本;(iii) 測試輸入產生的訓練網路輸出,顯示成功的聯想。[<引用缺失>]圖14:基於自旋電子學的憶阻器。a、疇壁憶阻器:磁隧道結的電阻取決於疇壁位置,從而改變高電阻反平行態與低電阻平行態的相對面積。b、基於Skyrmion的憶阻器:裝置的電阻取決於固定層下方的Skyrmion數量。c、細磁疇隧道憶阻器:在與多晶反鐵磁體耦合的隧道結中,由於各個磁疇的切換特性不同,使得磁疇可以在不同條件下獨立翻轉。裝置的電阻由與固定層磁化方向一致的磁疇所佔比例決定。d、自旋電子聯想記憶:每個非對角矩陣元素的值通過憶阻器的配置儲存,用不同的電平表示。這些電平經過訓練,使得在矩陣與輸入相乘後,結果最接近訓練集中的某一元素。乘法運算通過施加對應輸入的電壓並測量相關憶阻器的輸出電流完成。d圖下方的前三個圖像為網路訓練識別的圖像,第四個為其中一個圖像的“噪聲”版本,第五個為重構後的正確圖像。當前挑戰與未來方向長上下文窗口與長序列下的記憶體問題記憶體與上下文窗口: 光子加速器通常缺乏足夠的片上記憶體來快取長序列的tokens。現代LLM推理可能涉及上萬個tokens,需要儲存啟動值、鍵/值對以及整個上下文中的中間狀態。由於片上通常缺少大容量SRAM或NVM,光子系統只能將資料流進流出,這重新引入了馮·諾依曼瓶頸。正如Ning等人所指出,“資料移動經常成為整個系統的瓶頸”,這一問題不僅存在於傳統電子處理器,也同樣適用於光處理器。實踐中,有限的片上記憶體迫使光子LLM實現從外部DRAM或硬碟中獲取上下文,從而帶來延遲並破壞全光計算流水線。諸如“檢索增強生成”(retrieval-augmented generation)等新興用例進一步加劇了這一問題:對多TB文字語料庫進行近即時搜尋與分詞,又引入一輪高開銷的記憶體訪問。簡而言之,光子晶片的有限儲存能力限制了LLM的上下文長度與吞吐量,使得長序列推理成為一個主要挑戰。光子計算系統中大規模資料集的儲存問題儲存與I/O瓶頸: 大語言模型及其訓練資料或知識庫涉及PB級甚至更大的資料集。光子加速器仍依賴於高速外部儲存與記憶體來提供這些資料。所需的I/O頻寬常常超出現有介面的處理能力:即使光核本身運行極快,但如果無法快速供數,也會造成資源浪費。分析人士警告LLM面臨越來越嚴重的“記憶體牆”,資料移動成為主導限制因素。現實工作負載使情況更為嚴峻:例如檢索增強型LLM需反覆提取和處理大量文字塊,對I/O系統造成極大壓力。有些提議(如將權重儲存與計算單元共置的非易失性儲存)可減少I/O開銷(一項研究報告使用片上Flash儲存權重可減少1000倍I/O),但考慮到資料集體量,多TB語料庫的快取、調度與匯流排頻寬仍將是光子LLM系統中的關鍵瓶頸。精度與轉換開銷問題光子計算本質上是模擬的,因此很難表示LLM推理所需的高精度張量。當前最先進的光子Transformer設計依賴高解析度ADC/DAC來保持精度,而這些轉換器消耗了大部分晶片面積與功耗。例如,在某個光子Transformer加速器中,ADC/DAC電路佔據了超過50%的晶片面積,並成為性能瓶頸。如何在不大幅增加轉換開銷的前提下減少量化誤差是持續的挑戰:低位元轉換器或共享ADC架構可最佳化面積與能耗,但可能影響模型精度。因此,找到最優的模擬量化方案或混合訊號架構(例如使用數字校正少量值)對下一代光子LLM晶片至關重要。缺乏原生非線性函數光子硬體擅長執行線性運算(如通過干涉儀實現的矩陣-向量乘法),但在實現啟動函數和非線性層方面歷來缺乏高效手段。早期整合光子神經網路雖可進行快速矩陣乘法,但啟動函數仍依賴電子電路。實踐中,許多光子LLM加速器仍需轉換至CMOS以實現softmax、GELU等點操作函數。整合高效的片上非線性元件(如光學可飽和吸收器、電光調製器或奈米光子非線性元件),或開發最小化轉換差距的混合光電計算流水線,是實現全光LLM推理的重要工程挑戰。光子注意力架構目前的主要研究方向之一是將Transformer中的自注意力機制直接實現於光域中。這要求設計可調光學權重元件與可重構干涉儀網路,以光學方式計算Q×K及V加權和。例如,光子張量核(photonic tensor cores)正在開發中,利用馬赫-曾德爾干涉儀(MZI)網格或其他交叉陣列實現大規模矩陣平行運算。可調權重可以通過相位調製器、微環調製器,甚至磁光儲存單元來實現:有研究提出使用Ce:YIG諧振器儲存多位元權重,從而實現片上非易失性光學權重儲存。此外,來自儲備計算(Reservoir Computing)的基於延遲方案可提供時間上下文:長光延遲線或串聯微環已展示出極高的序列記憶能力。未來構想是:實現一個全光Transformer模組,其中動態權重矩陣被程式設計進光學網格,過往token狀態保存在延遲路徑中,使自注意力機制得以光速運行。最新設計如Lightening-Transformer(動態運行的光子張量核)與HyAtten驗證了這一思路:它們實現了高度平行、全範圍矩陣運算,同時最大限度減少了片外轉換。持續推進整合光學快取、高頻寬調製器以及光學softmax逼近將推動該方向的發展。類腦與脈衝光子LLM另一條前沿路徑是將LLM推理重構為類腦、事件驅動範式。SNN以稀疏的非同步事件形式處理資料,天然契合光子的優勢。事實上,已有基於相變神經元和雷射脈衝的全光脈衝神經網路在晶片上實現。人們設想可以將token流編碼為光學脈衝,通過具有突觸權重的光子SNN實現序列處理。混合光子-自旋電子設計在此可發揮作用:自旋電子器件(如磁隧道結、相變突觸)可提供緊湊的非易失性權重儲存,並可與光神經元介面。近期關於磁光儲存的光子片上權重研究、利用極端稀疏性的光子類腦加速器研究表明,在光子晶片中嵌入非線性、事件驅動元件是可行的。這類架構可利用資料稀疏性(大多數token僅弱啟動網路),僅在事件發生時更新權重,從而顯著降低能耗。在光子類腦硬體上探索脈衝注意力模型或稀疏Transformer變種,是未來低功耗LLM推理的令人興奮的發展方向。系統整合與協同設計最後,在光子平台上擴展LLM需跨層次的協同設計。這包括將光子處理器與先進的光學I/O和儲存層次結構整合,以及從演算法層面匹配硬體特性。例如,近期在商用代工廠製造的全整合光子DNN晶片展示了在晶片內全光完成神經網路計算的可能性。將此類整合擴展到Transformer等級模型將需要密集的波分復用(WDM)、片上傳輸的光學網路架構(NoC)、以及新型封裝(如共同封裝光學)來提升吞吐量。同時,軟體工具鏈(如量化、平行性、佈局)也需適配光子硬體。關於光電協同封裝與存內計算架構的努力提供了路線圖:通過將光子張量核與共置的記憶體和控制邏輯緊密耦合,可緩解馮·諾依曼架構帶來的資料瓶頸。從長遠來看,成功可能來自“全球協同設計”——即將Transformer演算法的稀疏性、低精度、模型分區等特性與非馮·諾依曼的光子晶片能力精確匹配。這些軟硬體的協同創新將釋放光計算在下一代LLM負載中的巨大平行潛能。結論光子學的進步正在推動計算技術的變革,其中光電器件與光子平台的整合處於前沿。這一整合催生了光子積體電路(PICs),它們作為超高速人工神經網路的建構模組,是新一代計算裝置建立的關鍵。這些裝置旨在應對機器學習和人工智慧應用在醫療診斷、複雜語言處理、電信、高性能計算和沉浸式虛擬環境等多個領域中所帶來的高強度計算需求。儘管已有諸多進展,傳統電子系統在速度、訊號干擾和能效方面仍存在侷限。神經形態光子技術以其超低延遲的特性,作為一種突破性解決方案出現,為人工智慧和光神經網路(ONNs)的發展開闢了新的路徑。本綜述從光子工程和材料科學的角度出發,聚焦神經形態光子系統的最新發展,批判性地分析當前和預期面臨的挑戰,並描繪出克服這些障礙所需的科學與技術創新圖譜。文章重點介紹多種神經形態光子人工智慧加速器,涵蓋從經典光學到複雜的PIC設計的廣泛技術領域。通過詳細的對比分析,特別強調其在每瓦操作次數(operations per watt)方面的運行效率。討論轉向諸如垂直腔面發射雷射器(VCSEL)/光子晶體面發射雷射器(PCSEL)和基於頻率微梳的加速器等專用技術,突出了在光子調製和波分復用方面的最新創新,以實現神經網路的高效訓練與推理。鑑於當前在實現每瓦千兆次操作(PetaOPs/Watt)計算效率方面存在的技術瓶頸,本文探討了提升這些關鍵性能指標的潛在策略,包括拓撲絕緣體與PCSELs等新興技術,以及提升製造工藝、系統可擴展性與可靠性的手段。本文不僅描繪了當前的技術圖景,也預測了神經形態光子技術在推動人工智慧能力邊界方面的未來發展路徑。總的來說,隨著摩爾定律的終結以及光子版“摩爾定律”的起飛,我們預計將在PIC的成本、可擴展性、可整合性以及總體計算能力方面看到顯著提升。PIC最終將取代IC,成為未來計算系統的核心支柱。 (半導體行業觀察)