#AI計算
百兆規模!輝達最新Rubin平台AI計算架構及產業鏈深度剖析!2026
前言:AI算力產業的時代拐點與Rubin平台的戰略意義1.1 全球AI算力產業發展現狀與趨勢進入2026年,全球人工智慧產業已從技術探索期邁入規模化應用的關鍵階段,而算力作為AI產業的核心基礎設施,正迎來爆發式增長的黃金周期。根據IDC最新發佈的《全球人工智慧算力發展白皮書》資料顯示,2025年全球AI算力市場規模已突破60兆元,預計到2026年底將達到120兆元,正式邁入百兆規模時代。這一增長背後,一方面是大模型參數規模持續擴大,從千億級向兆級跨越,對算力的需求呈指數級增長;另一方面,AI應用場景從網際網路領域向金融、醫療、製造、自動駕駛等傳統行業深度滲透,催生了多元化的算力需求。在這一產業背景下,算力供給能力成為制約AI產業發展的核心瓶頸。傳統計算架構由於存在資料傳輸延遲高、能效比低、協同調度能力弱等問題,已難以滿足新一代AI任務的需求。行業迫切需要一款具備高性能、低成本、高可靠性的一體化計算平台,來破解算力供給難題,推動AI應用的規模化普及。輝達作為全球AI算力領域的領軍企業,此前推出的Blackwell平台已在全球範圍內獲得廣泛應用,而2026年1月6日在CES 2026展會上正式推出並宣佈全面量產的Rubin平台,憑藉其顛覆性的架構設計和性能突破,被業內視為開啟百兆級AI算力時代的關鍵引擎。1.2 Rubin平台的推出背景與戰略定位輝達CEO黃仁勳在Rubin平台發佈會上強調:“AI計算正從少數巨頭的專屬資源走向全民普惠,Rubin平台的使命就是通過技術創新,大幅降低AI算力的使用成本,讓每一家企業、每一個科研機構都能享受到頂尖AI算力帶來的創新紅利。” 這一定位背後,是輝達對AI產業發展趨勢的深刻洞察。從產業競爭格局來看,隨著亞馬遜、Google、微軟等雲廠商加速佈局自研AI晶片,以及寒武紀、壁仞科技等國內企業的崛起,全球AI算力市場的競爭日趨激烈。輝達需要通過持續的技術迭代,鞏固其在高端AI算力領域的領先地位。從技術發展邏輯來看,此前的Blackwell平台雖然實現了算力的大幅提升,但在MoE(混合專家模型)訓練效率、推理成本控制等方面仍有最佳化空間。Rubin平台正是在這一背景下應運而生,通過6款全新晶片的協同設計,實現了性能與成本的雙重突破,旨在進一步擴大輝達在AI算力領域的市場份額,推動全球AI產業進入規模化普及階段。結合華安證券2026年1月12日發佈的行業周報資料顯示,Rubin平台推出後,全球四大雲巨頭亞馬遜AWS、Google雲、微軟Azure和甲骨文雲已確認將於2026年率先部署基於Vera Rubin的實例,CoreWeave、Lambda等專業AI算力服務廠商也將同步跟進。這一市場反響充分印證了Rubin平台的行業認可度,也預示著其將在全球AI算力市場中佔據重要地位。一、深度拆解輝達Rubin平台AI計算架構與核心技術2.1 Rubin平台整體架構設計:一體化協同計算的創新突破與傳統計算平台“晶片堆疊”的設計思路不同,Rubin平台採用了“全端協同最佳化”的架構理念,由6款全新晶片組成一個有機的整體,分別承擔計算、互連、儲存、網路等核心功能,通過深度協同實現了整體性能的躍升。Rubin平台由6款全新晶片組成:Vera CPU、Rubin GPU、NVLink6交換機、ConnectX-9SuperNIC、BlueField-4DPU及Spectrum-6乙太網路交換機,協同設計整合為AI超級電腦,可以大幅縮短AI訓練時間並降低推理Token生成成本。Rubin平台五項關鍵技術深度融合,實現性能提升和成本降低雙重突破:1)新一代NVLink互連技術建構起高速資料傳輸通道,確保多晶片協同工作時的低延遲與高頻寬;2)第三代Transformer引擎針對AI任務最佳化,大幅提升模型訓練與推理效率;3)機密計算技術為敏感AI資料提供全流程安全防護,滿足金融、醫療等行業的合規需求;4)RAS引擎(可靠性、可用性與可維護性引擎)保障平台在7x24小時高負載運行下的穩定表現;5)專為代理推理設計的Vera CPU。從架構邏輯來看,Rubin平台建構了“三層協同架構”:底層為硬體基礎層,由6款核心晶片組成,負責提供基礎的計算、儲存和網路資源;中間層為協同調度層,通過輝達自研的CUDA-X AI軟體棧,實現對各硬體資源的高效調度和協同工作;頂層為應用適配層,針對不同的AI應用場景,提供專用的演算法庫和工具集,確保平台能夠快速適配各類AI任務。這種架構設計的核心優勢在於,打破了傳統硬體之間的“資料孤島”,實現了資料在各元件之間的高效流轉,大幅提升了整體計算效率。根據輝達公佈的官方資料,Rubin平台的訓練性能達到前代Blackwell平台的3.5倍,運行軟體性能提升5倍,推理每Token生成成本相比Blackwell平台可降低10倍,且在訓練MoE模型時所需的GPU數量減少至原來的四分之一。這些性能指標的提升,正是得益於其一體化協同架構的創新設計。2.2 核心元件解析:各晶片的功能定位與技術優勢2.2.1 Rubin GPU:AI計算的核心引擎Rubin GPU是整個平台的核心計算元件,專為新一代AI任務進行了深度最佳化。該GPU採用了輝達最新的Ada Lovelace-Next架構,搭載了第三代Transformer引擎,能夠大幅提升大模型訓練和推理的效率。與Blackwell GPU相比,Rubin GPU的CUDA核心數量增加了50%,張量核心性能提升了70%,在處理FP16、BF16等高精度計算任務時,表現出更為卓越的性能。值得注意的是,Rubin GPU針對MoE模型進行了專門的硬體最佳化。MoE模型作為當前大模型發展的主流方向,通過將模型分為多個“專家”模組,僅在處理特定任務時啟動部分專家,能夠在提升模型性能的同時,降低計算成本。但傳統GPU在處理MoE模型時,存在專家調度效率低、資料傳輸延遲高等問題。Rubin GPU通過引入專用的MoE調度單元,實現了專家模組的快速啟動和切換,將MoE模型的訓練效率提升了3倍以上,這也是其訓練MoE模型所需GPU數量大幅減少的關鍵原因。2.2.2 Vera CPU:專為代理推理設計的高效處理器Vera CPU是輝達首款專為AI代理推理設計的CPU,打破了傳統CPU在AI計算中“輔助角色”的定位,成為AI任務的核心處理器之一。隨著AI代理技術的發展,AI系統需要具備更強的自主決策和任務調度能力,這對CPU的平行處理能力、低延遲響應能力提出了更高的要求。Vera CPU採用了ARM架構,擁有64個核心,支援超線程技術,最大快取容量達到256MB。與傳統x86 CPU相比,Vera CPU的能效比提升了2倍,在處理多工平行推理時,延遲降低了30%以上。此外,Vera CPU還整合了專用的AI加速單元,能夠直接處理部分輕量級的AI推理任務,減少了對GPU的依賴,進一步提升了整個平台的協同計算效率。2.2.3 NVLink 6交換機:高速互連的“資料高速公路”在大規模AI計算中,多晶片之間的資料傳輸效率是制約整體性能的關鍵因素。Rubin平台搭載的NVLink 6交換機,是輝達新一代的高速互連技術,實現了晶片之間的低延遲、高頻寬資料傳輸。根據官方資料,NVLink 6的單鏈路頻寬達到1.6TB/s,是上一代NVLink 5的2倍,單個交換機最多可連接32個GPU,形成一個高速互連的計算叢集。NVLink 6採用了全新的互連協議,支援自適應路由和錯誤恢復功能,能夠在保證資料傳輸速度的同時,提升傳輸的可靠性。此外,NVLink 6還實現了與PCIe 5.0的相容,能夠與傳統的儲存和網路裝置進行高效對接,進一步擴大了平台的相容性和應用範圍。通過NVLink 6交換機,Rubin平台建構了一個高效的“資料高速公路”,確保了多晶片協同工作時的資料流暢通,為大規模平行計算提供了堅實的支撐。2.2.4 ConnectX-9 SuperNIC:智能網路的核心元件ConnectX-9 SuperNIC是一款高性能的智能網路介面卡,專為AI計算場景進行了最佳化。該網路卡支援200Gb/s的乙太網路速率,整合了專用的AI加速引擎,能夠對網路資料進行即時的處理和分析,減少了CPU和GPU的網路處理負擔。在AI訓練場景中,大量的資料需要在計算節點之間進行傳輸和同步,ConnectX-9 SuperNIC通過支援RDMA(遠端直接記憶體訪問)技術,實現了資料在不同節點記憶體之間的直接傳輸,無需經過CPU的中轉,將資料傳輸延遲降低了50%以上。此外,該網路卡還支援網路虛擬化技術,能夠將物理網路資源劃分為多個虛擬網路,為不同的AI任務提供隔離的網路環境,提升了網路資源的利用率和安全性。2.2.5 BlueField-4 DPU:資料處理的“專用引擎”BlueField-4 DPU(資料處理單元)是Rubin平台中負責資料儲存和處理的核心元件,能夠承擔傳統CPU的部分資料處理任務,提升整體計算效率。該DPU整合了ARM架構的處理器核心和專用的資料處理引擎,支援對儲存資料的即時加密、壓縮和格式轉換,能夠大幅提升資料處理的效率。在AI計算場景中,大量的訓練資料需要從儲存裝置中讀取並進行預處理,這一過程往往會佔用大量的CPU資源。BlueField-4 DPU通過將資料預處理任務從CPU解除安裝到DPU,能夠將CPU的佔用率降低40%以上,讓CPU能夠專注於核心的計算任務。此外,BlueField-4 DPU還支援儲存虛擬化技術,能夠對不同類型的儲存裝置進行統一管理,提升了儲存資源的利用率和可擴展性。2.2.6 Spectrum-6乙太網路交換機:高速網路的“骨幹支撐”Spectrum-6乙太網路交換機是Rubin平台的網路骨幹元件,支援100Gb/s和200Gb/s的乙太網路速率,能夠為大規模的AI計算叢集提供高速、穩定的網路連線。該交換機採用了全新的晶片架構,支援高密度連接埠設計,單個交換機最多可提供64個200Gb/s連接埠,能夠滿足大規模計算叢集的網路需求。Spectrum-6乙太網路交換機還支援先進的流量控制技術,能夠根據不同AI任務的網路需求,動態調整網路頻寬分配,確保關鍵任務的網路資源供應。此外,該交換機還整合了網路安全功能,支援對網路流量的即時監控和威脅檢測,能夠有效防範網路攻擊,保障AI計算叢集的網路安全。2.3 五大關鍵技術:Rubin平台性能突破的核心驅動力Rubin平台之所以能夠實現性能與成本的雙重突破,關鍵在於五大核心技術的深度融合。這五大技術相互協同,共同建構了Rubin平台的技術壁壘。2.3.1 新一代NVLink互連技術:打破資料傳輸瓶頸如前文所述,新一代NVLink互連技術是Rubin平台的核心技術之一。該技術通過提升資料傳輸頻寬和降低延遲,實現了多晶片之間的高效協同。與上一代技術相比,NVLink 6不僅在硬體性能上實現了躍升,還通過軟體層面的最佳化,實現了對多晶片叢集的高效管理。例如,輝達推出的NVLink Fabric Manager軟體,能夠即時監控多晶片之間的資料傳輸狀態,動態調整傳輸路徑,確保資料傳輸的高效和穩定。在實際應用場景中,新一代NVLink互連技術的優勢尤為明顯。以訓練千億參數的大模型為例,採用NVLink 6互連技術的Rubin平台,能夠將資料同步時間縮短60%以上,大幅提升了訓練效率。同時,由於資料傳輸延遲的降低,平台能夠支援更大規模的晶片叢集,進一步提升了整體計算能力。2.3.2 第三代Transformer引擎:AI任務的高效加速器第三代Transformer引擎是Rubin GPU的核心技術,專為Transformer架構的AI模型進行了深度最佳化。Transformer架構是當前大模型的主流架構,廣泛應用於自然語言處理、電腦視覺等領域。第三代Transformer引擎通過硬體層面的創新,實現了對Transformer模型中關鍵運算的加速。具體來看,第三代Transformer引擎最佳化了矩陣乘法和softmax運算的硬體實現方式,將這兩種運算的效率提升了50%以上。同時,該引擎還支援混合精度計算,能夠在保證計算精度的前提下,採用更低精度的資料格式進行運算,進一步提升了計算效率和能效比。在處理自然語言處理任務時,採用第三代Transformer引擎的Rubin GPU,能夠將推理速度提升3倍以上,推理成本降低70%以上。2.3.3 機密計算技術:敏感資料的全流程安全防護隨著AI應用在金融、醫療等敏感行業的滲透,資料安全問題日益凸顯。Rubin平台搭載的機密計算技術,能夠為敏感AI資料提供全流程的安全防護,滿足行業合規需求。該技術基於硬體層面的加密機制,能夠在資料儲存、傳輸和計算過程中進行即時加密,確保資料不被洩露或篡改。具體來說,機密計算技術通過建構“可信執行環境”(TEE),將AI任務的計算過程限制在安全的硬體區域內。在可信執行環境中,資料和程式碼均以加密形式存在,只有經過授權的程序才能訪問。同時,該技術還支援遠端認證功能,能夠確保計算節點的硬體和軟體環境的安全性。在金融行業的AI風控場景中,機密計算技術能夠有效保護使用者的金融資料安全,避免資料洩露帶來的風險;在醫療行業的AI診斷場景中,該技術能夠保護患者的隱私資料,符合醫療資料安全的相關法規。2.3.4 RAS引擎:高負載運行下的穩定保障RAS引擎(可靠性、可用性與可維護性引擎)是Rubin平台保障穩定運行的核心技術。AI計算任務往往需要長時間的高負載運行,對平台的穩定性提出了極高的要求。RAS引擎通過硬體層面的故障檢測、錯誤糾正和冗餘設計,能夠有效提昇平台的可靠性和可用性。具體來看,RAS引擎能夠即時監控平台各元件的運行狀態,包括CPU、GPU的溫度、電壓、負載等參數,一旦發現異常,能夠及時發出告警並採取相應的措施。例如,當某個GPU出現故障時,RAS引擎能夠自動將該GPU上的任務遷移到其他正常的GPU上,確保任務的持續運行。同時,該引擎還支援錯誤糾正碼(ECC)技術,能夠自動檢測並糾正記憶體中的資料錯誤,提升資料儲存的可靠性。通過RAS引擎,Rubin平台能夠實現7x24小時的高負載穩定運行,滿足大規模AI計算任務的需求。2.3.5 代理推理專用最佳化技術:AI代理的高效支撐隨著AI代理技術的發展,AI系統需要具備更強的自主決策和任務執行能力。Rubin平台通過Vera CPU和專用的代理推理最佳化技術,為AI代理的高效運行提供了堅實的支撐。該技術能夠最佳化AI代理的任務調度邏輯,提升代理的決策效率和響應速度。具體來說,代理推理專用最佳化技術通過建構專用的任務調度模型,能夠根據任務的優先順序和資源需求,動態分配計算、儲存和網路資源。同時,該技術還支援多代理協同工作,能夠實現多個AI代理之間的高效通訊和協作。在智能客服場景中,採用該技術的AI代理能夠快速響應使用者的需求,精準處理使用者的問題;在自動駕駛場景中,AI代理能夠即時分析路況,做出快速、精準的決策,保障行駛安全。2.4 Rubin平台與前代平台及競品的對比分析為了更清晰地展現Rubin平台的優勢,我們將其與輝達前代Blackwell平台以及市場上的主要競品進行對比分析。2.4.1 與Blackwell平台的對比從性能指標來看,Rubin平台的訓練性能達到Blackwell平台的3.5倍,運行軟體性能提升5倍,推理每Token生成成本降低10倍。在核心技術方面,Rubin平台採用了新一代的NVLink 6互連技術、第三代Transformer引擎等,而Blackwell平台採用的是NVLink 5互連技術和第二代Transformer引擎。此外,Rubin平台新增了專為代理推理設計的Vera CPU,進一步拓展了平台的應用場景。從應用場景來看,Blackwell平台主要面向大規模大模型訓練場景,而Rubin平台不僅在大模型訓練方面表現更優,還在推理場景和AI代理場景中具備顯著優勢。例如,在推理場景中,Rubin平台的低成本優勢能夠推動AI應用的規模化普及;在AI代理場景中,Vera CPU的加入能夠提升AI代理的運行效率。2.4.2 與市場主要競品的對比當前市場上的主要競品包括亞馬遜的Trainium晶片、Google的TPU v5、寒武紀的思元590等。與這些競品相比,Rubin平台具有以下優勢:一是性能優勢。Rubin平台的訓練性能和推理效率均領先於市場上的主要競品。例如,與GoogleTPU v5相比,Rubin平台的訓練性能提升2.8倍,推理效率提升3.2倍。二是架構優勢。Rubin平台採用了一體化協同架構,由6款核心晶片協同工作,而競品大多採用單一晶片或簡單的晶片堆疊設計,協同效率較低。三是生態優勢。輝達擁有完善的CUDA-X AI軟體生態,能夠為Rubin平台提供豐富的演算法庫和工具集,而競品的軟體生態相對薄弱,難以滿足多樣化的AI應用需求。四是成本優勢。Rubin平台通過技術創新,大幅降低了推理成本,相比競品,其推理每Token生成成本降低了50%以上。當然,Rubin平台也存在一定的挑戰。例如,其硬體成本相對較高,對於中小企業來說,初期投入較大;此外,平台的部分技術處於領先地位,相關的人才儲備相對不足,可能會影響平台的推廣和應用。二、全產業鏈解析Rubin平台帶動的百兆AI算力生態Rubin平台的推出,不僅自身具備強大的性能優勢,還將帶動整個AI算力產業鏈的發展。AI算力產業鏈涵蓋上游核心硬體、中游算力服務、下游應用場景等多個環節,Rubin平台將通過技術溢出效應,為產業鏈各環節帶來新的發展機遇。3.1 上游核心硬體環節:晶片、零部件與材料的機遇上游核心硬體環節是AI算力產業鏈的基礎,主要包括晶片設計、晶圓製造、封裝測試、零部件(如光模組、PCB、散熱器等)和材料(如光刻膠、靶材等)。Rubin平台的大規模量產,將大幅拉動上游核心硬體的需求。3.1.1 晶片設計與製造Rubin平台的6款核心晶片均由輝達自主設計,採用台積電的先進製程工藝(3nm製程)。隨著Rubin平台的大規模量產,台積電的3nm產能將得到充分釋放,同時也將帶動相關晶片設計工具廠商的發展。例如,Synopsys、Cadence等晶片設計EDA工具廠商,將為輝達的晶片設計提供技術支撐。此外,國內的晶片設計廠商也將受益於Rubin平台的技術溢出效應,通過學習和借鑑輝達的晶片設計理念,提升自身的技術水平。3.1.2 封裝測試Rubin平台的晶片採用了先進的CoWoS封裝技術,這種封裝技術能夠實現晶片的高密度整合,提升晶片的性能和可靠性。隨著Rubin平台的量產,CoWoS封裝的需求將大幅增長,帶動封裝測試廠商的發展。例如,日月光、ASE、長電科技等封裝測試廠商,將為Rubin平台的晶片提供封裝測試服務。此外,封裝測試所需的相關裝置和材料,如封裝基板、鍵合絲等,也將迎來新的發展機遇。3.1.3 零部件Rubin平台的大規模部署,將帶動光模組、PCB、散熱器等零部件的需求。光模組方面,Rubin平台的ConnectX-9 SuperNIC和Spectrum-6乙太網路交換機均需要高速光模組的支撐,200Gb/s及以上速率的光模組需求將大幅增長,受益廠商包括中際旭創、新易盛、天孚通訊等。PCB方面,由於Rubin平台的晶片整合度高,對PCB的性能要求也更高,高多層、高密度的PCB需求將增加,受益廠商包括深南電路、滬電股份、生益科技等。散熱器方面,Rubin平台的高負載運行需要高效的散熱解決方案,液冷散熱器的需求將增長,受益廠商包括曙光數創、高瀾股份、英維克等。3.1.4 材料晶片製造和封裝測試所需的材料,如光刻膠、靶材、拋光液等,也將隨著Rubin平台的量產而需求增長。光刻膠方面,台積電3nm製程需要使用先進的EUV光刻膠,受益廠商包括東京應化、信越化學、南大光電等。靶材方面,晶片製造所需的銅靶、鋁靶、鈦靶等需求將增加,受益廠商包括江豐電子、有研新材、阿石創等。拋光液方面,晶片製造過程中的晶圓拋光需要使用高性能的拋光液,受益廠商包括安集科技、鼎龍股份等。3.2中游算力服務環節雲廠商與算力租賃的爆發中游算力服務環節是連接上游硬體和下游應用的橋樑,主要包括雲廠商的算力實例服務、專業算力租賃服務、算力調度平台等。Rubin平台的推出,將為中游算力服務環節帶來新的發展機遇。3.2.1 雲廠商的算力實例服務如華安證券行業周報所述,亞馬遜AWS、Google雲、微軟Azure和甲骨文雲四大雲巨頭已確認將於2026年率先部署基於Vera Rubin的實例。這些雲廠商將通過Rubin平台的高性能和低成本優勢,推出更具競爭力的算力服務產品。例如,亞馬遜AWS可能會推出基於Rubin平台的P4d實例,針對大規模大模型訓練和推理場景;微軟Azure可能會推出NDm v5實例,滿足企業客戶的AI算力需求。隨著雲廠商部署基於Rubin平台的算力實例,企業客戶將能夠以更低的成本獲取頂尖的AI算力,這將進一步推動AI應用的規模化普及。同時,雲廠商的算力服務收入也將迎來大幅增長,根據摩根士丹利的預測,2026年全球雲廠商的AI算力服務收入將達到30兆元,其中基於Rubin平台的算力服務收入將佔比超過40%。3.2.2 專業算力租賃服務除了雲廠商,CoreWeave、Lambda、Nebius和Nscale等專業AI算力租賃廠商也將跟進部署Rubin平台。這些專業廠商主要面向AI創業公司、中小企業和科研機構,為其提供靈活的算力租賃服務。與雲廠商相比,專業算力租賃廠商的服務更加專注於AI場景,能夠提供更個性化的解決方案。Rubin平台的低成本優勢將使專業算力租賃廠商能夠降低服務價格,吸引更多的客戶。例如,CoreWeave可能會推出基於Rubin平台的算力租賃套餐,價格相比基於Blackwell平台的套餐降低50%以上。這將為AI創業公司和中小企業提供更多的創新機會,推動AI技術的創新和應用。3.2.3 算力調度平台隨著AI算力需求的增長,算力調度平台的重要性日益凸顯。算力調度平台能夠實現對分散算力資源的整合和調度,提升算力資源的利用率。Rubin平台的推出,將對算力調度平台提出更高的要求,同時也將推動算力調度平台的發展。國內的算力調度平台廠商如平行科技、優刻得等,將需要針對Rubin平台的特性進行技術最佳化,實現對基於Rubin平台的算力資源的高效調度。同時,算力調度平台還將與雲廠商和專業算力租賃廠商合作,建構多元化的算力資源池,為客戶提供一站式的算力服務。3.3 下游應用場景環節AI應用的規模化普及下游應用場景環節是AI算力產業鏈的終端,涵蓋網際網路、金融、醫療、製造、自動駕駛、教育、環保等多個領域。Rubin平台通過降低算力成本,將推動這些領域AI應用的規模化普及。3.3.1 網際網路領域:大模型應用的深化網際網路領域是AI應用的先行領域,也是算力需求的主要來源之一。Rubin平台的推出,將推動網際網路領域大模型應用的深化。例如,在自然語言處理領域,基於Rubin平台的大模型能夠實現更精準的語音識別、機器翻譯、文字生成等功能;在電腦視覺領域,大模型能夠實現更高效的圖像識別、視訊分析、目標檢測等功能。國內的網際網路企業如百度、阿里、騰訊等,將利用Rubin平台的算力優勢,進一步提升其大模型的性能和應用體驗。例如,百度的文心一言大模型可能會基於Rubin平台進行訓練和推理,提升模型的響應速度和生成質量;阿里的通義千問大模型可能會拓展更多的應用場景,如智能辦公、智能創作等。3.3.2 金融領域:智能風控與個性化服務的升級金融領域是AI應用的重要場景,Rubin平台的機密計算技術能夠滿足金融領域的資料安全需求,推動智能風控、個性化服務等應用的升級。在智能風控場景中,基於Rubin平台的AI模型能夠即時分析使用者的交易資料,精準識別風險交易,降低金融機構的風險損失;在個性化服務場景中,AI模型能夠根據使用者的需求和偏好,提供個性化的金融產品推薦和服務。國內的金融IT企業如同花順、恆生電子、東方財富等,將受益於Rubin平台的推出。例如,同花順可能會基於Rubin平台最佳化其智能投顧產品,提升產品的精準度和使用者體驗;恆生電子可能會推出基於Rubin平台的智能風控解決方案,為金融機構提供更高效的風險防控服務。3.3.3 醫療領域:AI診斷與藥物研發的突破醫療領域的AI應用能夠提升醫療服務的效率和質量,Rubin平台的高性能和低成本優勢將推動醫療領域AI應用的突破。在AI診斷場景中,基於Rubin平台的AI模型能夠快速分析醫學影像,精準識別疾病,輔助醫生做出診斷;在藥物研發場景中,AI模型能夠模擬藥物分子的相互作用,縮短藥物研發周期,降低研發成本。國內的醫療AI企業如推想科技、鷹瞳科技、藥明康德等,將利用Rubin平台的算力優勢,提升其產品的性能和競爭力。例如,推想科技的肺部AI診斷產品可能會基於Rubin平台進行最佳化,提升診斷的精準率和速度;藥明康德可能會利用Rubin平台加速藥物研發處理程序,推出更多的創新藥物。3.3.4 製造領域:工業質檢與智能生產的普及製造領域的AI應用能夠提升生產效率和產品質量,Rubin平台的推出將推動工業質檢、智能生產等應用的普及。在工業質檢場景中,基於Rubin平台的AI模型能夠即時檢測產品的缺陷,提高質檢的效率和精準率;在智能生產場景中,AI模型能夠最佳化生產流程,實現生產資源的合理配置。國內的工業軟體企業如用友網路、鼎捷數智、賽意資訊等,將受益於Rubin平台的推出。例如,用友網路可能會基於Rubin平台最佳化其工業網際網路平台,為製造企業提供更高效的智能生產解決方案;鼎捷數智可能會推出基於Rubin平台的工業質檢產品,幫助製造企業提升產品質量。3.3.5 自動駕駛領域:高階自動駕駛的落地自動駕駛領域對算力的需求極高,Rubin平台的高性能和低延遲優勢將推動高階自動駕駛的落地。根據華安證券行業周報資訊,聯想車計算與韓國SWM合作的L4級自動駕駛計程車平台基於NVIDIA DRIVE AGX Thor晶片,而Rubin平台的推出將進一步提升自動駕駛系統的算力和效率。國內的自動駕駛企業如小鵬汽車、理想汽車、蔚來汽車等,以及自動駕駛解決方案提供商如Mobileye、小馬智行等,將利用Rubin平台的算力優勢,提升自動駕駛系統的性能。例如,小鵬汽車的XNGP自動駕駛系統可能會基於Rubin平台進行升級,實現更複雜路況下的自動駕駛;小馬智行可能會推出基於Rubin平台的L4級自動駕駛解決方案,加速自動駕駛的商業化落地。3.3.6 教育與環保領域:公益應用的拓展除了商業領域,Rubin平台還將推動AI在教育、環保等公益領域的應用拓展。在教育領域,基於Rubin平台的AI模型能夠實現個性化教學,為學生提供定製化的學習方案;在環保領域,AI模型能夠即時監測環境資料,預測環境變化,為環境保護提供決策支援。國內的教育科技企業如好未來、新東方等,可能會基於Rubin平台最佳化其線上教育產品,提升教學效果;環保科技企業如聚光科技、先河環保等,可能會利用Rubin平台的算力優勢,提升環境監測和分析的效率。三、AI應用普及分析Rubin平台驅動的產業變革4.1 AI應用普及的核心驅動力:成本降低與性能提升Rubin平台對AI應用普及的核心驅動作用,源於其在成本降低和性能提升方面的雙重突破。一方面,推理每Token生成成本相比Blackwell平台降低10倍,這將大幅降低AI應用的營運成本,使更多的企業和機構能夠負擔得起AI技術的應用;另一方面,訓練性能提升3.5倍,運行軟體性能提升5倍,這將提升AI應用的體驗和效率,拓展AI應用的場景範圍。以智能客服場景為例,此前基於Blackwell平台的AI客服系統,由於推理成本較高,僅大型企業能夠應用。Rubin平台推出後,推理成本降低10倍,中小企業也能夠部署AI客服系統,實現客戶服務的自動化。同時,性能的提升使AI客服能夠更準確地理解使用者的需求,提供更優質的服務,進一步推動智能客服的普及。再以藥物研發場景為例,傳統藥物研發周期長達10年以上,成本高達數十億美元。基於Rubin平台的AI模型能夠大幅縮短藥物研發周期,降低研發成本。例如,利用Rubin平台訓練的藥物研發模型,能夠在幾個月內完成傳統方法需要數年的藥物篩選工作,研發成本降低50%以上。這將推動更多的製藥企業採用AI技術,加速藥物研發處理程序,為人類健康帶來更多的福祉。4.2 不同行業AI應用普及的路徑與節奏由於不同行業的數位化水平、算力需求和合規要求存在差異,Rubin平台驅動的AI應用普及將呈現不同的路徑和節奏。4.2.1 網際網路行業:快速普及,深度滲透網際網路行業的數位化水平高,算力需求旺盛,且對新技術的接受度高。Rubin平台推出後,網際網路行業將成為AI應用普及的先行領域,實現快速普及和深度滲透。預計在2026年,網際網路行業的AI應用滲透率將達到80%以上,涵蓋內容推薦、智能客服、語音識別、圖像分析等多個場景。4.2.2 金融與醫療行業:穩步推進,合規優先金融和醫療行業對資料安全和合規要求較高,雖然Rubin平台的機密計算技術能夠滿足其合規需求,但由於行業特性,AI應用普及將穩步推進。預計在2026-2027年,金融行業的AI應用滲透率將達到60%以上,主要集中在智能風控、個性化服務等場景;醫療行業的AI應用滲透率將達到50%以上,主要集中在AI診斷、藥物研發等場景。4.2.3 製造與自動駕駛行業:逐步落地,場景拓展製造和自動駕駛行業的AI應用需要與實體經濟深度融合,涉及到硬體裝置的升級和流程的改造,普及節奏相對較慢。預計在2027-2028年,製造行業的AI應用滲透率將達到50%以上,主要集中在工業質檢、智能生產等場景;自動駕駛行業的L4級自動駕駛將實現規模化落地,滲透率達到30%以上。4.2.4 教育與環保行業:公益引領,逐步推廣教育和環保行業的AI應用更多地體現公益屬性,需要政府和社會的推動。預計在2028年以後,隨著算力成本的進一步降低和技術的成熟,教育和環保行業的AI應用將逐步推廣,滲透率將達到40%以上。4.3 AI應用普及帶來的社會與經濟影響Rubin平台驅動的AI應用普及,將對社會和經濟產生深遠的影響。4.3.1 經濟影響:推動產業升級,促進經濟增長AI應用的規模化普及將推動各行業的產業升級,提升生產效率和產品質量。根據麥肯錫的預測,到2030年,AI技術將為全球經濟貢獻13兆美元的價值。Rubin平台作為推動AI應用普及的關鍵引擎,將在其中發揮重要作用。例如,在製造行業,AI應用能夠提升生產效率20-30%;在金融行業,智能風控能夠降低風險損失15-20%。同時,AI應用的普及還將催生新的產業和商業模式,創造新的就業機會。例如,AI算力服務、AI諮詢服務等新興產業將迎來快速發展;AI訓練師、AI維運工程師等新職業將不斷湧現。4.3.2 社會影響:提升生活質量,促進社會進步AI應用的普及將提升人們的生活質量,為社會進步帶來新的動力。在醫療領域,AI診斷能夠提高疾病的早期診斷率,降低死亡率;在教育領域,個性化教學能夠滿足不同學生的學習需求,提升教育質量;在環保領域,AI監測能夠及時發現環境問題,推動環境保護。此外,AI應用還將推動社會治理的智能化升級。例如,在城市管理領域,AI技術能夠實現交通流量的智能調度、公共安全的即時監測,提升城市管理效率;在政務服務領域,AI技術能夠實現政務流程的簡化和最佳化,提升政務服務水平。四、國內外AI算力基礎設施及應用相關標的梳理基於前文的產業鏈分析,我們梳理了國內外AI算力基礎設施及應用相關的核心標的,涵蓋上游核心硬體、中游算力服務、下游應用場景等多個環節,為投資者提供參考。5.1 國內相關標的5.1.1 上游核心硬體環節1. 晶片設計:寒武紀(688256)、壁仞科技(未上市)、沐曦積體電路(未上市)。寒武紀是國內AI晶片設計的領軍企業,其思元系列晶片在國內市場具有較高的知名度和市場份額,能夠為國內企業提供AI算力支撐。2. 晶圓製造:中芯國際(688981)。中芯國際是國內規模最大、技術最先進的晶圓製造企業,雖然目前的製程工藝與台積電存在差距,但隨著技術的不斷進步,將逐步滿足國內部分AI晶片的製造需求。3. 封裝測試:長電科技(600584)、通富微電(002156)、華天科技(002185)。長電科技是國內封裝測試行業的龍頭企業,具備先進的CoWoS封裝技術能力,能夠為AI晶片提供封裝測試服務。4. 光模組:中際旭創(300308)、新易盛(300502)、天孚通訊(300394)。中際旭創是全球光模組行業的領軍企業,其200Gb/s及以上速率的光模組產品能夠滿足Rubin平台的網路需求。5. PCB:深南電路(002916)、滬電股份(002463)、生益科技(600183)。深南電路是國內高多層、高密度PCB的龍頭企業,能夠為AI晶片和伺服器提供高品質的PCB產品。6. 散熱器:曙光數創(872808)、高瀾股份(300499)、英維克(002837)。曙光數創是國內液冷散熱器的領軍企業,其液冷解決方案能夠滿足AI伺服器的高散熱需求。7. 材料:江豐電子(300666)、有研新材(600206)、安集科技(688019)。江豐電子是國內高純濺射靶材的龍頭企業,其產品能夠滿足晶片製造的需求。5.1.2 中游算力服務環節1. 雲廠商:阿里雲(阿里巴巴,9988.HK)、騰訊雲(騰訊控股,0700.HK)、百度智能雲(百度集團,9888.HK)。國內三大雲廠商均在積極佈局AI算力服務,將逐步部署基於Rubin平台的算力實例,為國內企業提供AI算力服務。2. 專業算力租賃:平行科技(839493)、優刻得(688158)。平行科技是國內專業的算力調度和租賃服務提供商,能夠為AI創業公司和中小企業提供靈活的算力租賃服務。3. 算力基礎設施:中科曙光(603019)、浪潮資訊(000977)、紫光股份(000938)。中科曙光是國內高性能計算領域的領軍企業,其超級電腦產品能夠為AI計算提供強大的算力支撐。5.1.3 下游應用場景環節1. 網際網路領域:百度集團(9888.HK)、阿里巴巴(9988.HK)、騰訊控股(0700.HK)。國內三大網際網路巨頭均在積極推進大模型的研發和應用,將利用Rubin平台的算力優勢,提升大模型的性能和應用體驗。2. 金融領域:同花順(300033)、恆生電子(600570)、東方財富(300059)。同花順是國內金融資訊服務領域的龍頭企業,其智能投顧產品將受益於Rubin平台的推出,提升產品的精準度和使用者體驗。3. 醫療領域:推想科技(688212)、鷹瞳科技(688297)、藥明康德(603259)。推想科技是國內醫療AI領域的領軍企業,其肺部AI診斷產品將基於Rubin平台進行最佳化,提升診斷的精準率和速度。4. 製造領域:用友網路(600588)、鼎捷數智(300378)、賽意資訊(300687)。用友網路是國內工業軟體領域的龍頭企業,其工業網際網路平台將基於Rubin平台最佳化,為製造企業提供更高效的智能生產解決方案。5. 自動駕駛領域:小鵬汽車(XPEV.US)、理想汽車(LI.US)、蔚來汽車(NIO.US)、小馬智行(未上市)。國內的自動駕駛企業將利用Rubin平台的算力優勢,提升自動駕駛系統的性能,加速高階自動駕駛的落地。6. 其他領域:金山辦公(688111)、焦點科技(002315)、阜博集團(3738.HK)。金山辦公的辦公軟體產品將融入AI功能,提升使用者的辦公效率;焦點科技的跨境電商平台將利用AI技術提昇平台的營運效率和使用者體驗。5.2 國外相關標的5.2.1 上游核心硬體環節1. 晶片設計:輝達(NVDA.US)、AMD(AMD.US)、英特爾(INTC.US)。輝達是全球AI晶片設計的領軍企業,Rubin平台的推出將進一步鞏固其市場地位;AMD和英特爾也在積極佈局AI晶片領域,與輝達形成競爭。2. 晶圓製造:台積電(TSM.US)、三星電子(SSNLF.OTCMKTS)。台積電是全球最先進的晶圓製造企業,Rubin平台的晶片採用台積電的3nm製程工藝;三星電子也在積極推進先進製程工藝的研發,與台積電形成競爭。3. 封裝測試:日月光(ASE.US)、安靠(AMKR.US)。日月光是全球封裝測試行業的龍頭企業,具備先進的CoWoS封裝技術能力,為Rubin平台的晶片提供封裝測試服務。4. 光模組:Finisar(FNSR.US)、Lumentum(LITE.US)。Finisar是全球光模組行業的領軍企業,其高速光模組產品能夠滿足Rubin平台的網路需求。5.2.2 中游算力服務環節1. 雲廠商:亞馬遜(AMZN.US)、Google(GOOGL.US)、微軟(MSFT.US)、甲骨文(ORCL.US)。全球四大雲巨頭已確認部署基於Rubin平台的算力實例,將為全球使用者提供頂尖的AI算力服務。2. 專業算力租賃:CoreWeave(未上市)、Lambda(未上市)。CoreWeave是全球專業AI算力租賃領域的領軍企業,將部署基於Rubin平台的算力資源,為客戶提供低成本的算力租賃服務。5.2.3 下游應用場景環節1. 網際網路領域:Meta(META.US)、Google(GOOGL.US)、微軟(MSFT.US)。這些網際網路巨頭均在積極推進大模型的研發和應用,將利用Rubin平台的算力優勢,提升大模型的性能和應用體驗。2. 金融領域:摩根大通(JPM.US)、高盛(GS.US)、花旗集團(C.US)。這些國際金融巨頭將利用Rubin平台的算力優勢,最佳化其智能風控和個性化服務系統。3. 醫療領域:強生(JNJ.US)、輝瑞(PFE.US)、默克(MRK.US)。這些國際製藥巨頭將利用Rubin平台加速藥物研發處理程序,推出更多的創新藥物。4. 自動駕駛領域:特斯拉(TSLA.US)、通用汽車(GM.US)、福特汽車(F.US)。這些國際汽車企業將利用Rubin平台的算力優勢,提升自動駕駛系統的性能,加速高階自動駕駛的落地。五、未來展望展望未來,Rubin平台將成為推動全球AI算力產業發展的核心引擎,帶動百兆規模AI算力生態的建構。在技術層面,輝達將持續最佳化Rubin平台的性能,推出更先進的技術和產品,進一步提昇平台的競爭力;在產業鏈層面,Rubin平台將帶動上游核心硬體、中游算力服務、下游應用場景等多個環節的協同發展,形成完善的AI算力產業生態;在應用層面,AI應用將實現規模化普及,滲透到社會經濟的各個領域,推動產業升級和社會進步。對於國內企業來說,應抓住Rubin平台帶來的發展機遇,加強技術研發,提升自身的核心競爭力。在硬體領域,加快先進製程工藝的研發,突破關鍵零部件和材料的技術瓶頸;在軟體領域,建構完善的AI軟體生態,提升對Rubin平台的適配能力;在應用領域,積極探索AI技術在各行業的應用場景,推動AI應用的規模化普及。同時,政府應加強政策支援,完善相關法律法規,為AI算力產業的發展創造良好的環境。總之,Rubin平台的推出標誌著AI算力產業進入了新的發展階段,百兆規模的AI算力生態正在加速形成。在這一過程中,企業、政府和社會各界應加強合作,共同推動AI算力產業的健康發展,為全球經濟和社會的進步做出更大的貢獻。 (AI雲原生智能算力架構)
英特爾AI計算王炸來了!Clearwater Forest年內上線:288核心、18A工藝
在 AI 晶片領域,英特爾始終站在行業前列。日前,英特爾在一年一度的 Intel Technology Tour(ITT)上,正式發佈了全新的 18A 製程工藝,在 RibbonFET 環繞柵極電晶體和 PowerVia 背面供電設計的支援下,18A 製程工藝能有效提高晶片的穩定性並降低功耗。圖片來源:英特爾而在技術落地方面,英特爾也在 ITT 上發佈了基於 18A 製程工藝、代號為 Panther Lake 的第三代酷睿 Ultra 處理器。同時也提前給大家預覽了基於同一工藝的 Clearwater Forest 至強 6+ 處理器,其面向資料中心場景驅動新一代AI伺服器。雷科技受邀親臨美國·亞利桑那州現場參加此次活動,關於Panther Lake雷科技已輸出專題內容解析,本文我們將聚焦Clearwater Forest 至強 6+ 這一強大的新一代處理器。18A工藝加持,全 E 核方案太吸睛不同於面向消費者和邊緣計算的 Panther Lake,至強處理器在上一代就已經實現了全 E-Core 或全 P-Core的架構(Sierra Forest、Granite Rapids)。此次預覽的 Clearwater Forest 遵循的是 Sierra Forest 的全 E 核方案,最多支援 288 個 E-Core,預計今年內可以上市;全 P-Core 方案則為 Diamond Rapids,最快可能 2026 年登場。具體來說,Clearwater Forest 是一款由多種不同工藝的 Die 疊加封裝起來的處理器:288 個 E-Core 由 12 個 18A 製程工藝的 Compute tile 提供;3 個 Active base tile 和 2 個 I/O tile 分別採用 Intel 3 和 Intel 7 製程工藝,和上一代 Granite Rapids AP 架構保持一致。另外,Clearwater Forest 也採用了 Foveros Direct 3D 技術。圖片來源:英特爾配置方面,Compute Die 中的 E-Core 採用了架構,L2 快取最高可以給到 288MB,記憶體最高支援 12 通道 DDR5,速率達 8000MT/s。作為伺服器 CPU,至強的 IO 性能也不差:Clearwater Forest 最高支援 96 條 PCIe 5.0 通道、64 條 CXL 2.0 通道、6 條 UPI 2.0 互聯鏈路,其中每路速度最高能達到 25GT/s。圖片來源:英特爾得益於 RibbonFET 環繞柵極電晶體和 PowerVia 背面供電設計,Clearwater Forest 的最高 TDP 僅為 500W。同時,Clearwater Forest 也採用 1-2 Socket,有不錯的相容性。更適應 AI 計算需求的伺服器處理器可能有人覺得奇怪,對於筆記本裡的消費級晶片,我們討論供電、散熱和能耗固然重要。但對於一直插著電,可能還泡在海水裡散熱的大型伺服器來說,我們為什麼還要討論這些「小家子氣」的事情呢?但其實,在雷科技看來,Clearwater Forest 在功耗、散熱、整合度方面的提升,才是英特爾未來改變整個 AI 產業運轉方式的「抓手」。圖片來源:英特爾當前 AI 行業的算力供需關係已經被大模型徹底改變,模型訓練和推理的規模正急劇擴張;相對應的,資料中心的電力與空間成本也水漲船高。在這種背景下,Clearwater Forest 的高能效比,能在相同的功耗和機櫃條件下,部署更高密度的算力叢集,同時推動資料中心的結構性升級。畢竟全 E-Core 的架構天然適合高平行、輕量推理、預處理等任務,只要與 GPU 的分工協作,可以顯著提升整體叢集的利用效率,讓有限的資源發揮出最大效能。其次,對 AI 服務供應商而言,Clearwater Forest 的出現意味著企業可以重新思考算力調度與成本控制的方式。在過去的服務架構中,GPU 往往被用於幾乎所有階段的計算,包括一些並不需要超強浮點能力的環節,比如資料載入、小模型推理、邏輯判斷等,這實際上造成了算力的浪費。但 Clearwater Forest 的加入可以釋放 GPU 的壓力,將寶貴的算力調度到真正的多載運算上。這不僅能降低硬體與能耗成本,也能讓推理叢集在同樣資源下服務更多使用者。圖片來源:英特爾對最終的 AI 消費者來說,Clearwater Forest 的技術升級,也將轉化為更快的響應、更穩定的呼叫和更可負擔的價格,讓更多的企業可以在自己的產品中用上 AI,並最終回饋到你我這樣的消費者身上。AI 時代,英特爾再度站在舞台中央當然了,就目前 AI 行業的發展勢態來說,GPU 仍是支撐 AI 的核心,但這並不意味著 CPU 就被 AI 時代排除在外。在 ITT 後的媒體採訪環節,英特爾就明確表示:CPU 在每一個 AI 系統裡面都有重要的作用。面對未來越來越複雜的異構算力結構,英特爾想要打造一個「中間層」,將 CPU、GPU、加速器等底層資源的差異遮蔽起來,讓上層開發者只需要面對統一的介面和標準。圖片來源:英特爾而 Clearwater Forest 的高密度 E 核和高能效設計,也恰好承擔起了「中間層」的角色:讓 GPU 專注於高強度浮點計算,CPU 則接管資料搬運、任務調度等環節,從而提升整體算力的利用效率。圖片來源:雷科技可以肯定的是,在 18A 製程工藝的推動下,Panther Lake、Clearwater Forest 和 Diamond Rapids 將成為 AI 時代的轉折點,用全新的資源調度理念重塑 AI 計算的模式,從消費者和服務商入手,共同加速 AI 技術的普及。 (雷科技)
HBM的另一場內戰
當前,HBM晶片已成為AI計算的標配,其核心優勢源於DRAM晶片的垂直堆疊結構。現階段,主流的晶片堆疊技術為熱壓鍵合(TCB)。該技術通過熱量與壓力,將帶有微小凸點(如錫球或銅柱)的DRAM晶片逐層精密連接。然而,隨著HBM技術的持續迭代,TCB技術逐漸暴露出瓶頸。特別是當晶片堆疊層數超過16層時,傳統的凸點結構會顯著影響良率。此外,凸點本身還限制了互聯密度,可能導致訊號完整性下降,這與HBM對更高頻寬和更低功耗的需求相違背。這就是混合鍵合登場的時候了。混合鍵合技術是一種革命性的解決方案。它無需凸點,直接在DRAM晶片之間進行銅-銅直接鍵合,從而實現更緊密的晶片互聯。在半導體行業,“一代技術,催生一代裝置”。隨著HBM封裝即將邁入混合鍵合時代,裝置廠商的“賣鏟”之爭也進入白熱化。在混合鍵合裝置的研發競賽中,和HBM一樣,陷入了同樣的韓國內戰。從TC鍵合到混合鍵合HBM封裝的必由之路由於摩爾定律的放緩導致傳統單晶片設計的成本增加和物理限制,行業正在轉向採用小晶片和3D整合晶片(3DIC)技術來繼續提升裝置性能並降低成本。在這一轉型中,封裝已不再僅僅是保護晶片的“外殼”,而是成為驅動AI晶片性能提升的關鍵因素。Besi的下圖顯示了一個AI晶片所需要用到的多種封裝解決方案,包含多種連接技術和元件,如混合鍵合、熱壓鍵合、晶片上晶圓 (CoW) 倒裝晶片與扇出封裝、倒裝晶片CoS、光子學、中介層連接、小晶片塑膜。AI小晶片封裝所需要的一系列先進封裝解決方案 (來源:Besi)作為後端封裝的核心環節,鍵合技術正朝著減小I/O間距、提高I/O密度的方向演進,以滿足未來晶片對更高頻寬和更小封裝的需求。根據Yole Group的《後端裝置行業現狀報告》,晶片鍵合技術的技術路徑大致為:標準倒裝晶片 → 助焊劑型TCB → 無助焊劑TCB → 銅-銅直接鍵合→混合鍵合。混合鍵合則代表了這一技術路線的最終目標。Yole預測,到2030年混合鍵合裝置將增長至3.97億美元,細間距、高密度互連對於先進的3D整合至關重要。晶片鍵合技術的發展趨勢(來源:Yole)混合鍵合技術之所以備受矚目,源於其顯著的優勢。按照Besi的說法,相比TCB,混合鍵合技術的互連密度提高15倍,速度提升11.9倍,頻寬密度可實現191倍之高,能效性能提升超過100倍。雖然混合鍵合需要更高的基礎設施成本,但它帶來的每互連成本卻低了10倍。此外,混合鍵合還能將HBM堆疊溫度降低20%。TCB和混合鍵合的性能與成本對比 (來源:Besi)不過目前,全球尚無任何一家公司成功實現該裝置技術的量產化應用。其背後主要有三大原因:一是當前的TC鍵合機還夠用,尤其是今年4月份,JEDEC(制定HBM4標準的標準化組織)決定將HBM4的封裝厚度由720微米放寬到775微米,現有技術的“窗口期”有所延長;二是其大規模量產仍是巨大的技術挑戰,需要極高的裝置精度和工藝控制;三是混合鍵合裝置的價格太貴,據韓美半導體董事長Kwak Dong shin稱,每台混合鍵合機的成本超過 100 億韓元,是Hanmi TC 鍵合機價格的兩倍多。儘管面臨上述挑戰,混合鍵合作為未來HBM技術發展的必然方向,眾多裝置廠商仍將其視為戰略重點。根據Besi的預測,通過在三種不同情景下的預測:低情景(Low case)、中情景(Mid case)和高情景(High case),到2030年,混合鍵合裝置的累計裝機量預計將在960至2000台之間,這比2024年時的預測高出了7%。混合鍵合系統的累計裝機量預測(#台) (來源:Besi)低情景:主要由邏輯晶片的應用驅動。AMD、英特爾和博通等主要廠商已確認或正在開發相關應用,包括用於AI ASIC、高端PC/筆記型電腦CPU的系統級晶片(SoIC)等。中情景:主要由記憶體和共同封裝光學(Co-packaged optics, CPO)的應用驅動。所有領先廠商都在評估混合鍵合與熱壓鍵合(TCB)用於HBM4。混合鍵合的HBM5堆疊預計將在2026年出現。HBM2/2E和HBM3/3E是當前市場的主力,從2026年開始,HBM4/5將進入市場,其市場份額將快速增長。到2029年,預計HBM4/5將佔據高達68%的市場份額,成為主導技術。同時共同封裝光學技術也從潛在應用走向現實。輝達在2025年3月推出了採用共同封裝光學(CPO)技術的網路交換機產品:Spectrum-X乙太網路交換機整合了36個3D光子學小晶片;Quantum-X800 InfiniBand交換機整合了18個3D光子學小晶片。它們改採用的台積電的COUPE技術就使用了混合鍵合來組裝這些3D光子學小晶片,並且每台交換機裝置中都使用了多個通過混合鍵合連接的小晶片。像輝達這樣的行業領導者正在將光子學小晶片與核心晶片進行共同封裝,而混合鍵合是實現這種高級整合的關鍵技術高情景:由新興應用驅動,包括智能眼鏡、微顯示器、感測器和智慧型手機等。可見,隨著這些新興應用的不斷發展,混合鍵合技術將在未來的AI計算、高性能計算和其他前沿技術中發揮關鍵作用。“技術為王,裝置要先行”,於是我們可以看到,混合鍵合領域的裝置廠商正加速推動裝置的研發與創新,以迎接這一技術變革的到來。韓國的本土激烈內戰談到混合鍵合裝置,荷蘭裝置製造商 Besi 是首相要被提及的。經過多年的發展,他們已經在混合鍵合市場站穩了腳跟。2025年上半年,Besi的混合鍵合業務的營收增長顯著,較2024年上半年翻了一倍多。2025年Q3的訂單,預計將比第二季度顯著增加,這主要得益於對混合鍵合和AI相關2.5D計算應用需求的增長。Besi不僅在技術路線圖上持續演進,更在今年4月迎來了重磅盟友——美國半導體裝置巨頭應用材料(AMAT)。4月15日,應用材料收購了Besi 9%的股份,成為其最大股東。雙方聯合開發的整合式混合鍵合系統,融合了應用材料在前端晶圓處理的專業知識和Besi在高精度鍵合上的領先技術,被普遍認為在技術穩定性上優於其他公司,並已開始向三星和美光等巨頭提供測試裝置。此外,奧地利 EVG、德國 SUSS 也是混合鍵合裝置的主要供應商。發跡於中國香港的裝置大廠ASMPT同樣是混合鍵合賽道的重要玩家。公司在2024年第三季度,向一家邏輯市場客戶交付了首台混合鍵合裝置。在2024年內,又獲得了兩台用於高頻寬記憶體(HBM)應用的新一代混合鍵合裝置的訂單,這些裝置計畫在2025年中期交付。在今年7 月 23 日的 2025 年第二季度財報電話會議上,ASMPT指出,計畫在第三季度向HBM客戶交付這些下一代系統。但要數這個領域的競爭,韓國廠商在這個領域無疑是最為亮眼的一股勢力。憑藉同時擁有SK海力士和三星這兩大HBM巨頭,這個小國成為了全球裝置廠商的“角鬥場”。在這場技術競賽中,本土的裝置廠商憑藉近水樓台的優勢,迅速崛起。韓美半導體(Hanmi Semiconductor)和韓華半導體(Hanwha Semitech)作為兩大TC鍵合裝置的供應商,也是混合鍵合這一賽道上的兩支主要力量。最近,LG電子也想進來分一杯羹。作為HBM鍵合領域的先行者,韓美半導體憑藉其深厚的技術積累和市場主導地位,展現出強勁的實力。該公司成立於1980年,擁有約120項HBM裝置相關專利,尤其在HBM3E的12層生產用TC鍵合機市場,佔據了超過90%的市場份額,是SK海力士和美光的核心供應商。在混合鍵合領域,韓美半導體同樣具備先發優勢。其首席財務官Mave Kim透露,公司早在2020年就製造出第一台混合鍵合機。為加速商業化處理程序,韓美半導體已投資1000億韓元,在仁川建設一座佔地超過14,500平方米的混合鍵合機工廠,計畫於2026年下半年竣工,併力爭在2027年底實現商業化。此外,韓美半導體還與半導體裝置公司TES簽署了技術合作協議,旨在結合韓美在鍵合機上的技術優勢和TES在電漿、薄膜沉積等領域的專長,共同提升混合鍵合裝置的競爭力。韓美半導體提供混合鍵合機工廠的鳥瞰圖 (來源:韓美半導體)而韓華半導體作為韓美半導體的競爭對手,也毫不示弱。其近期宣佈已完成第二代混合鍵合機的開發,直接向韓美半導體發起挑戰。韓華半導體也是SK海力士主要的TC鍵合機供應商,今年贏得了SK海力士價值約805億韓元的TC鍵合機裝置的訂單。兩家公司在TC鍵合機領域的激烈競爭關係,預示著混合鍵合領域的角逐將更加白熱化。除了這些傳統的裝置廠商,韓國電子巨頭LG電子正在通過“曲線”戰略,強勢進軍混合鍵合裝置市場。據韓媒Pulsed的報導,LG正聯合仁荷大學、慶北科技園區和小型裝置製造商組成聯盟,開展“HBM混合鍵合機開發”國家項目。LG的目標是2028年完成概念驗證,2030年實現全面商業化。雖然這一時間表相對保守,但其入局意義重大。這不僅體現了LG對半導體裝置業務的戰略重視,也表明韓國政府層面正在通過國家項目推動關鍵技術的國產化。LG 電子首席執行官趙周完 (Cho Joo-wan) 最近在社交媒體上發帖稱,公司“正在擴大產品組合,通過投資下一代 HBM 生產所必需的專業技術來支援人工智慧基礎設施”。LG 進軍該領域,源於其生產技術中心十年來在半導體裝置研發方面的積累。該公司此前已擁有向外包半導體封裝測試 (OSAT) 公司供應晶片貼裝到基板的標準鍵合機的經驗,並在此基礎上,正在向更複雜、更精密的半導體裝置領域拓展。LG 還在加快其他裝置的開發,包括用於半導體玻璃基板的精密雷射系統和用於 HBM 的六面高速檢測機,以豐富其裝置組合。LG的強大研發實力和產業整合能力,使其成為混合鍵合賽道上一股不可小覷的新興力量。值得注意的是,除了上述三家獨立的裝置廠商,三星也正通過其裝置子公司SEMES,悄然佈局混合鍵合領域。此舉旨在降低對外部供應商的依賴,並增強自身在HBM封裝上的掌控力。據業界消息,SEMES正在與三星電子DS部門緊密合作,共同攻克混合鍵合機的技術難題,併力爭在今年年底或明年向三星電子提供能夠用於量產的混合鍵合機。這支“自研力量”的加入,無疑為韓國的混合鍵合裝置市場增添了更多變數。寫在最後當然,作為最為關注的半導體市場,中國本土的混合裝置發展也尤為關注。例如上市公司拓荊科技就在這個裝置有所佈局。初創企業方面,中國半導體鍵合整合技術領域的領先企業青禾晶元半導體科技(集團)有限責任公司(簡稱“青禾晶元”)在年初宣佈,正式推出全球首台C2W&W2W雙模式混合鍵合裝置SAB8210CWW。據介紹,這款混合鍵合裝置具備多尺寸晶圓相容、超強晶片處理能力、相容不同的對準方式等優勢,可以幫助客戶減少裝置投資支出、佔地面積以及大幅縮短研發轉量產周期等優勢,能夠為Micro-LED、NAND/DRAM/HBM等儲存器、堆疊積體電路 (SIC)和系統級晶片 (SoC)提供廣泛的支援。(參考文章《國產混合鍵合裝置,重磅發佈》)按照Besi預計到2030年,混合鍵合的市場規模將達到12億歐元,該預測基於HBM5等新一代高頻寬記憶體將逐漸從傳統的TCB技術轉向混合鍵合技術的假設。同時,Besi還看好TCB Fluxless(無助焊劑熱壓鍵合)這個新興市場。我們如何看待這個市場的機遇? (半導體行業觀察)
牙膏擠爆,輝達提前掏出了核彈級「RTX 6090」
輝達一張剛發佈的 AI 計算卡,竟提前炸出了下一代遊戲旗艦卡 RTX 6090!輝達最近不是推出了一塊專為 AI 上下文推理打造的全新系列 GPU——Rubin CPX。初看它只是作為 VR NVL144 CPX 專業平台的一部分,但隨後有外媒指出,Rubin CPX 的設計極有可能與下一代 RTX 6090遊戲顯示卡有關。瞭解完後小憶發現,這句話並不是沒有道理。首先,與以往 AI 專用計算卡通常閹割掉光柵單元不同,Rubin CPX 完整保留了光柵單元、顯示引擎,甚至還有全套 ROP 單元。眾所周知,純 AI 工作負載壓根用不上這類元件,相反對於傳統遊戲圖形渲染它們卻是不可或缺。同時,Rubin CPX 也沒有用上高貴的 HBM 高頻寬記憶體,而是常規 GDDR7視訊記憶體。我直接好傢伙,這不就是標準的下一代遊戲顯示卡通用範本?另一方面,輝達對於自家產品向來是刀法精湛,主打一個能充分榨乾每一代新架構、核心的利用價值。那麼將 Rubin CPX 核心進行一番閹割後(特別是視訊記憶體部分)用在下一代消費級顯示卡上,可能性確實相當之大了。這也意味著,咱們說不定能通過 Rubin CPX 的核心規格提前看到 RTX 6090 表現。具體來講,NVIDIA 已公佈的資料顯示,Rubin CPX 可整合 16 個圖形處理叢集,總共 192 個 SM 單元。而如果對應下一代消費級遊戲顯示卡完整的 Rubin GR202 核心,SM 單元數量則將提升至 224 或 256個,CUDA 核心則分別提升至 28672與 32768個。對比目前 RTX 5090 GB202 的 170 個 SM 單元和 21760 個 CUDA,核心規模再次提升了 30%以上。這個提升幅度也比較符合近兩代 RTX 旗艦顯示卡標準。視訊記憶體方面,Rubin CPX 的 128G 容量自然是無法完整繼承。以目前遊戲卡 32G 天花板來看,RTX 6090 與國內特供 RTX 6090D 大機率將繼續保持 32G 和 24G。咱們大膽做一波預測,僅參考其核心規模升級幅度,RTX 6090 整體性能提升恐怕不會低於 30%。別忘了,這還是在沒考慮核心架構升級的情況下。由台積電 5nm 工藝升級為台積電 3nm的 Rubin 架構,這方面估摸著又是一坨不小的牙膏……綜合來看,在全新架構以及大漲的核心規模加持下,RTX 6090 性能再次暴漲基本是沒跑了。當然,同時暴漲的應該還有功耗!若在 RTX 5090 600W 基礎上繼續上漲 30%,那麼將直逼 800W大關。新一代千瓦級國家電網戰略合作夥伴就此誕生!壞消息是,老黃又有理由漲價了……如今輝達在顯示卡領域的打法雖說越來越野,但步子卻愈發穩健。前不久 JPR 公佈的 Q2 季度獨顯 GPU 報告顯示,輝達市場份額已高達94%。能有如此成績,除了深耕 CUDA 生態外,在高端市場的持續發力同樣十分關鍵。反觀 AMD,RX 9000 系列高端獨顯的缺席致其市場影響力嚴重下滑,市場份額更是從去年的 12% 大幅下滑至如今的 6%。好消息是,在前段時間的高盛大會上,AMD 提出了他們在 GPU 市場上的中期目標——將份額提升至 20%。這一目標也被市場解讀為其下一代桌面獨顯將重新回歸高端市場,期待值拉滿。最後,希望 AMD 能在接下來的 RX 10000 系列上給我們帶來些驚喜吧。畢竟你再不努力,我們就真買不到便宜的 N 卡了! (程式設計奇點)
一樣買不起
剛剛,全線跳水!輝達,重大發佈!
全球市場最關注的一份財報出爐。今日凌晨,全球“AI總龍頭”輝達披露的最新財報顯示,2026財年第二財季實現營收467.43億美元,同比增長56%,略高於分析預期的462.3億美元。其中,第二財季資料中心收入為411億美元,略低於分析師預期的412.9億美元,且其給出的業績指引也不夠亮眼,引發市場對AI支出增長勢頭放緩的擔憂。受此影響,輝達股價在美股盤後交易中直線跳水,一度大跌超5%,美股其他晶片股盤後亦全線下挫,AMD、博通美股盤後均跌超1%,AI計算概念股美股盤後普跌,超微電腦跌超2%,CoreWeave跌超1%。輝達CEO黃仁勳在財報中表示,Blackwell Ultra的量產正在全速推進,需求異常強勁。稍後,其在分析師電話會議上表示,AI需求非常、非常高,未來存在重大的、快速成長的機會。輝達財報出爐台北時間8月28日凌晨,輝達公佈了截至自然年2025年7月27日的公司2026財年第二財季(以下簡稱“第二財季”)財務資料,以及2026財年第三財季(以下簡稱“第三財季”)的業績指引。財報顯示,輝達第二財季實現營收467.43億美元,同比增長56%,略高於分析預期的462.3億美元。其中,資料中心貢獻營收為411億美元,同比增長56.4%,略低於分析師預期的412.9億美元,前一財季同比增速為73%。第二財季實現淨利潤264.22億美元,同比增長59%;上年同期為165.99億美元,高於市場預期的234.65億美元;調整後淨利潤為257.83億美元,同⽐增長52%,市場預期249.2億美元;調整後每股收益1.05美元,同⽐增長54%,市場預期1.01美元。第二財季的毛利率出現了小幅下滑,第二財季毛利率為72.4%,較上年同期的75.1%下降3.1個百分點;按非美國通用會計準則(Non-GAAP),毛利率為72.7%,與上年同期的75.7%下降3個百分點;剔除1.8億美元的H20晶片庫存釋放影響,毛利率為72.3%。市場高度關注的業績指引方面,輝達預期,2026財年第三財季營收540億美元上下浮動2%(592億—551億美元),分析師預期為534.6億美元;預計毛利率為73.3%,按非美國通用會計準則為73.5%,上下浮動50個基點;按非美國通用會計準則,該公司仍預計到年底實現75%左右的毛利率。雖然輝達給出的營收預測看似符合預期,但部分分析師樂觀預計該數字應該接近600億美元。輝達指出,其第三財季營收預期未包含任何向中國市場的H20晶片出貨量。隔夜美股收盤,輝達微跌0.09%,報181.6美元/股。財報披露後,輝達股價在美股盤後交易中直線跳水,一度大跌超5%,截至發稿,跌幅超3%。此次財報還揭示了輝達在中國市場晶片銷售方面面臨的持續挑戰。輝達提到,第二財季公司沒有向任何來自中國的客戶出售H20晶片,但之前被中國市場訂購H20晶片庫存釋放了1.8億美元。另外,輝達財報顯示,2026財年上半年,輝達以股票回購和現⾦股息的形式向股東返還了243億美元。截⾄第二財季,公司剩餘的股票回購授權⾦額為147億美元。2025年8⽉26⽇,董事會批准公司額外增加600億美元的股票回購授權,且該授權⾦額⽆有效期。在財報發佈前,RSM首席經濟學家Joseph Brusuelas表示,今天股市中唯一重要的就是它的財報。輝達被視為廣泛市場的風向標,也是AI發展重要指標,其財報可能影響今年的股市漲勢。黃仁勳:需求異常強勁輝達創始人兼CEO黃仁勳在財報中表示:“Blackwell是全球期待已久的AI平台,實現了卓越的代際飛躍,Blackwell Ultra的量產正在全速推進,需求異常強勁。輝達NVLink機架級計算具有革命性意義,它的到來正值推理型AI模型推動訓練和推理性能實現數量級增長之際。AI競賽已然開啟,而Blackwell正是這一競賽的核心平台。”稍後,黃仁勳在分析師電話會議上表示,AI需求非常、非常高,未來存在重大的、快速成長的機會,未來前景“無限光明”。關於中國市場,黃仁勳表示,中國今年可能帶來500億美元的商機,中國市場年增長大約50%,希望向中國市場銷售更新的晶片。他說道:“中國是全球第二大計算市場,也是AI研究人員的聚集地,全球約有50%的AI研究人員在中國。我認為,對於美國科技公司來說,進軍這個市場至關重要。”談及ASIC晶片帶來的競爭威脅,黃仁勳稱,輝達現在提供的是複雜的產品系統,而不僅僅是晶片。輝達技術存在於所有的雲中,更具有能效性。輝達首席財務官克萊特·克雷斯(Colette Kress)表示,預計到本世紀末,人工智慧基礎設施支出將達到3兆至4兆美元。今年主權人工智慧業務的收入有望達到200億美元以上。萊特·克雷斯表示,公司正在等待白宮對輝達和AMD支付的15%晶片銷售收入匯款的正式規定,作為允許其繼續在該地區銷售晶片的條件。她補充說,輝達準備出貨價值20億至50億美元的H20晶片。 (券商中國)
光晶片,火力全開
光子學在資料中心人工智慧的加速中發揮著越來越重要的作用。全球光學元件市場規模龐大,去年營收達170億美元。歷史上,電信行業(例如海底電纜和光纖到戶)一直是光學元件需求的主導。然而,資料通訊領域,尤其是人工智慧驅動的資料中心,如今佔據了超過60%的市場份額。這種轉變正在加速光學技術的發展。為了跟上AI計算叢集(XPU,包括GPU和定製加速器)不斷提升的性能,光傳輸速率正在快速提升。圖1:光學元件市場歷史及預測據摩根大通稱,最大的光學元件供應商是相干公司和旭創科技(各佔20%的市場份額),其次是博通,佔10%。眾多規模較小的供應商也在為不斷擴大的生態系統做出貢獻。大模型 (LLM) 推動 AI 資料中心增長大型語言模型 (LLM) 正在推動 AI 工作負載呈指數級增長。隨著 AI 能力的提升和成本的下降,需求也隨之激增。LLM 規模的不斷擴大需要龐大的 XPU 叢集。互連需求的增長速度超過了 XPU 數量本身的增長速度,這迫切需要高頻寬、低延遲的網路解決方案。博通首席執行官 Hock Tan 指出,資料中心的網路成本正在攀升,從目前資本支出的 5% 到 10% 上升到 2030 年預計的 15% 到 20%。圖 2:AI 叢集規模呈爆炸式增長例如,Oracle 雲基礎設施 (OCI) 正在部署通過 NVLink72 互連的 131,000 個 Nvidia Blackwell GPU 的叢集。圖 3:Oracle 雲基礎設施超級叢集產品,助力生成式 AI橫向擴展與縱向擴展網路在人工智慧資料中心中,互連主要有兩種類型:橫向擴展:光纖鏈路連接跨機架和跨行的交換機擴大規模:電氣鏈路連接少量機架內和機架之間的 GPU圖 4:資料中心的光學系統雖然橫向擴展網路已經是光學的,但縱向擴展網路向光子學的轉變正在進行中,但尚未完成。橫向擴展網路中的光學進步光子技術是橫向擴展架構的核心。如今,可插拔光纖收發器能夠實現數十米範圍內部網路卡和交換機之間的資料傳輸。隨著資料速率的提升,這些解決方案面臨著越來越大的功耗和性能限制。Oracle 的 131K-GPU 架構在其橫向擴展網路的三個層級上均使用了光纖鏈路。然而,傳統的可插拔光纖鏈路功耗巨大。圖 5:Oracle 光纖叢集網路結構圖6:功耗和TCO仍然是主要考慮因素為了滿足LLM的增長和吞吐量需求,橫向擴展網路中的資料速率不斷提升,網路功率已超過加速器機架功率。據Nvidia稱,從可插拔光模組轉換為CPO(共封裝光模組)可以大幅降低1.6Tbps鏈路的光模組功率,從30W降至9W。在 GTC25 上,Nvidia 推出了首款搭載 CPO 的橫向擴展交換機。其節能特性可實現更高的 GPU 密度——在相同的資料中心功率範圍內,GPU 數量最多可增加 3 倍。圖 7:Spectrum-X 光子技術可節省 3.5 倍功耗可靠性是從銅纜到光纖再到CPO的關鍵考慮因素。人工智慧資料中心的資料量巨大,而且增長速度飛快,就像iPhone一樣。從統計資料來看,良率和可靠性必須非常高。Google平台光學總監表示,每天0.004%的鏈路故障率聽起來不錯,但對於100萬條鏈路來說,這意味著每天有40條鏈路故障。光學解決方案需要設計成極低的故障率,並在非常苛刻的條件下進行測試,並使用非常大的樣本量,以確保量產成功。擴大網路中 CPO 之路目前,縱向擴展互連仍以銅線為主。Nvidia 的 Blackwell 架構採用全銅解決方案 NVLink72,其廣泛的布線貫穿了主機板、交換機和機架背板。如今訊號頻率極高,銅線束可以直接連接到 GPU,從而繞過傳統的 PCB 走線。圖 8:Nvidia 的路線圖已延伸至 NVLink576,該線路仍使用銅纜,但不斷提升的資料速率和訊號完整性問題最終將需要採用光纖解決方案然而,銅纜的侷限性正日益凸顯。Nvidia 的路線圖已延伸至 NVLink576,該線路仍然使用銅纜,但不斷增長的資料速率和訊號完整性問題最終將需要光纖解決方案。微軟提出了對未來AI加速器的CPO要求,希望用一個具有可組態介面的單一物理層來取代現有的介面。圖9:新的互連場景需要統一介面,並具有更嚴格的延遲和可靠性要求新的統一介面需要“兼顧兩者”——合併後的規範比它們所取代的傳統介面更好。這給CPO帶來了更大的挑戰,但同時也擴大了市場。圖10:新的統一介面需要比它所取代的傳統介面更好Nvidia 還提出了對 CPO 與 AI 加速器整合的要求:圖 11:Nvidia 的 CPO 要求這些要求雖然具有挑戰性,但切實可行。Needham & Company 建議,在 Scale-Up 網路中,CPO 的初步遷移將發生在單個 GPU 域內的機架之間,而機架內連接暫時仍採用銅纜連接。100% 的資料中心 AI 晶片均由台積電製造。他們深度參與所有主要 AI 廠商的技術路線圖:他們只開發主要客戶所需的產品。台積電在 4 月底的年度技術大會上展示了其 AI 晶片路線圖,其中包括共封裝光學器件:他們預見到了這一趨勢,並正在為此做好準備。市場前景和行業參與者預計未來幾年內,規模化網路將開始向 CPO 過渡,並在 2030 年代大規模替換可插拔式光模組。到 2030 年,CPO 市場規模將從目前的零增長到 50 億美元。博通、Marvell、Ayar Labs、Celestial AI 和 Lightmatter 等早期進入者以及 Coherent 等雷射器供應商都將從中受益。圖12:光學元件快速發展,CPO將在2027-2030年出現光子學不再僅僅賦能人工智慧,它正成為人工智慧規模化發展中不可或缺的一部分。到2030年代中期,所有互連都將是光學的,並且都將採用CPO。 (半導體行業觀察)