#博通
光模組專家調研:中際旭創/新易盛/新思科技/Finisar/中芯國際/輝達/Google/聯發科/Tower/Lumentum/博通/Marvell
這次專家調研主要圍繞矽光晶圓、光模組中EML和DSP等關鍵元器件的供需緊張情況,以及GoogleTPU v8在記憶體池化、CXL交換技術上的方案演進。還分析了Marvell、博通、聯發科等公司在晶片設計、交換晶片市場的競爭格局與成本結構。光模組部分內容可以重點看看。Q:當前矽光晶圓的產能擴充情況如何,未來是否會面臨供給不足的風險?A:矽光晶圓的供給是充足的,甚至在未來幾家主要供應商實現量產後,可能出現供過於求的局面。行業當前面臨的瓶頸並非矽光晶圓,而是 EML、DSP等其他元件。以行業龍頭 tower為例,其產能足以滿足市場需求。去年矽光模組出貨量約為四五千萬顆,而該龍頭供應商僅一家每月產能就達到一萬多片晶圓,每片晶圓可生產約 500個 800G模組或 1,000個 400G模組,其一家的年產能便可覆蓋去年的市場總需求。儘管今年矽光模組的需求預計將增長 50%以上,但該供應商的產能規劃也從每月一萬多片提升至三萬多片,足以應對增長。因此,短期內可能存在結構性緊張,但一旦擴產完成,整體將呈現供大於求的態勢。Q:除行業龍頭外,其他矽光晶圓供應商的擴產和量產進展如何,市場競爭格局是怎樣的?A:其他供應商如 GlobalFoundries、中芯國際以及蘇州的一家公司等也都在進行產能投資,但目前尚未形成有效的量產能力。當前市場中,有希望實現量產的主要是 ZXGJ和 GlobalFoundries,但它們仍被視為二線供應商,一線主力絕對是行業龍頭。GlobalFoundries則面臨價格過高的問題,其報價比龍頭供應商高出 50%以上,這可能是由於其尚未實現規模化量產導致成本較高。因此,行業內的普遍做法是,在 GlobalFoundries和龍頭供應商處進行晶片驗證,而將最終的量產訂單放在龍頭供應商處。Q:今年以來,EML和 DSP的價格上漲情況如何?A:EML和 DSP的價格均出現了上漲,具體的漲幅不詳,但市場反饋其漲價幅度大約在 百分之十幾到百分之三十之間。Q:當前 DSP晶片為何出現短缺?Marvell和 Broadcom等廠商是否來不及擴產?A:高端 DSP晶片的供應一直處於緊張狀態,這可能與供應商的行業策略有關,其供應模式傾向於 保持緊缺以維持定價權,而非追求大規模供給。DSP晶片的技術門檻很高,例如新版本已採用 3奈米工藝,而此前的 4奈米版本在研發過程中就曾遇到問題。晶片的選代升級過程複雜,每一版設計都需要與光模組進行匹配測試,期間可能會出現各種問題,因此需要經歷 Alpha、Beta等多個版本的選代才能最終穩定。Q:DSP晶片的價格上漲情況如何?與 EML等其他元器件相比,其漲價幅度和供應緊缺程度是怎樣的?A:目前整個光通訊行業都存在漲價現象。DSP晶片的供應緊張程度 僅次於 EML,尤其對於規模較小的公司而言,可能面臨無法採購到的困境。100G EML同樣存在短缺,但緊張程度和溢價幅度不及 200G EML,主要原因是當前市場的主流需求仍集中在 800G光模組。Q:目前市場上有多種記憶體池化方案,例如在單個機櫃內通過 CXL Switch連接 TPU和 DRAM,再通過 OCS連接多個機櫃;或是採用獨立的計算櫃、CXL Switch櫃和記憶體櫃,再進行互聯。可否詳細闡述當前主流的記憶體池化技術路徑及其適用場景?A:當前主要存在兩種記憶體池化方案。第一種是 近耦合的櫃內整合方案,即在一個機櫃內同時部署計算單元和儲存單元,通過 CXL Switch進行互聯。第二種是 遠端分離式機櫃系統,該方案設有獨立的 CXL儲存櫃,並與計算櫃之間形成 M:N的交叉互聯架構。在這種架構下,任意一個計算域的節點都可以訪問 N個記憶體櫃中的資料。遠端分離式方案主要適用於 超大規模的推理工廠場景,這類場景通常面臨多模型、多專家系統以及權重參數復用和更新頻繁的複雜需求。在遠端分離式方案中,除了計算域內的互聯,還需要儲存域的互聯。計算域與儲存域之間通過交換系統實現資料傳輸,並需要建立短時間內相對固定的點對點通訊鏈路,例如在特定時間段內固定從 M13號計算櫃到 N2號記憶體櫃的通路。實現這種類似“鐵路道岔”功能的動態光路切換,需要採用 OCS。該技術路徑符合Google現有的部分基礎設施平台,是其規劃的中遠期目標。然而,當前 AI推理業務仍處於爆發式增長的早期,許多模型結構和業務特點仍在持續最佳化中。因此,近耦合的櫃內整合方案因其明確的需求和易於實現的特性而更具現實意義。該方案只需一台 CXL交換機、特定數量的 Tray和 Memory Expander,通過銅纜即可完成互聯,對現有供應鏈改動小,部署相對簡單,能夠靈活地與現有系統對接。從項目落地的複雜性來看,首先實現櫃內整合,再逐步過渡到櫃外分離式架構,是一個水到渠成的演進路徑。本質上,將一個整合機櫃內的計算節點全部取代為儲存節點,即可構成一個獨立的儲存櫃。Q:Google TPU v8在記憶體池化方案上,更傾向於採用近端的櫃內整合還是遠端的跨櫃方案?其背後的驅動因素是什麼?A:從目前情況看,TPU v8大機率會首先採用近端的櫃內整合方案。這是一種能在短期內有效解決問題的策略。當前存算分離是行業趨勢,若能率先實現記憶體與計算的分離,將有助於降低 TPU v8的總體使用成本。具體而言,對於某些不需要 HBM的計算任務,可以利用成本更低的記憶體池化方案來完成,從而讓配備 HBM的 TPU v8專注於更核心、更高效的任務。這一決策的背後驅動因素在於 Google當前面臨的競爭壓力。TPU v8的半導體工藝相較於競爭對手(如台積電已於 2026年大規模量產的 3nm工藝)並無優勢。儘管Google有其 Gemini模型的內部需求,但 TPU v8的設計並未完全對齊外部客戶的核心訴求,呈現出“非通用但高度專用”的特點。因此,為了留住客戶,Google必須設法進一步降低成本。Q:隨著 AI推理並行量的增長,從櫃內記憶體池化向櫃外記憶體池化演進的必要性體現在那裡?A:隨著 AI推理業務的成熟,並行量預計將從當前水平快速增長至 百億甚至千億等級。在高並行場景下,對訪存的要求會變得極為複雜,資料傳輸量也面臨巨大挑戰。當並行度極高時,僅依靠單個機櫃內的儲存池來滿足數百萬、數千萬甚至上億的並行訪存請求是不現實的,會導致通訊連接埠擁塞。此外,未來的 AI系統可能會演變為更複雜的多專家、多模型系統,需要呼叫不同的模型來解決問題。這意味著需要儲存和訪問 海量的權重參數。為了支撐高並行訪問,系統必須能夠複製多份權重參數並部署在不同的儲存池中。因此,當並行度達到一定規模後,僅靠櫃內方案將無法滿足需求,必須採用櫃外耦合的、更大規模的記憶體池來提供支撐,這與傳統通用計算時代網路儲存因高並行業務而規模化的邏輯相似。Q:在當前階段,採用櫃內記憶體池化方案的具體硬體配置是怎樣的,例如一個機櫃內計算節點與記憶體節點的配比?A:目前櫃內記憶體池化方案尚處於相對早期的階段。根據瞭解,一個當前被探討的相對簡單的配置方案是 8對 8 的模式,即 8個計算節點對應 8個 Memory Expander進行擴展。按照這種配置,8個 Memory Expander理論上可以提供接近 十幾個TB 的記憶體容量。理論上,一個機櫃內若能配置十幾個 TB的記憶體容量,便可以容納 兆級參數 的模型。例如,通過 8個計算節點,可以實現對兆級參數空間的全通量訪問,每個節點根據其 Batch Size承擔相應的任務量。這種配置構成了一個任務規模的基數,可以在一個機櫃上承載,並通過複製這種機櫃單元來線性擴展總體的推理規模。這種方法的優勢在於其靈活性,可以根據需求隨時增減 FFN的數量配比。例如,可以調整至 12個,並根據實際情況進行平衡。若 Batch Size較大,可以通過降低儲存共享程度來最佳化任務處理。這種方案不設定固定的配置數字,以保持其適應性和可擴展性。Q:關於 CXL Memory Expander的技術細節,其工作原理、頻寬水平以及在系統中的連接方式是怎樣的?A:CXL Memory Expander可以理解為一個記憶體控製器或“帶隊者”,它管理多個記憶體條(例如 8個),並將它們的頻寬聚合。其頻寬高的原因是通道數多,例如管理 8個記憶體條即擁有 8個通道。這些 DDR儲存器經過特殊設計,頻寬聚合後通過內部的頁面管理機制,最終通過一個 16-lane的 CXL over PCIe鏈路 作為出口。以 PCIe Gen7為例,16條 lane理論上可實現 512GB/s 的單向傳輸速度,這一水平與 HBM2的頻寬相當,並且由於其只處理固定尺寸和格式的資料區塊,交換協議損失小,效率非常高。Q:在系統中,Memory Expander作為一個 CXL節點或端點,連接到 CXL交換機,再通過匯流排交換與計算單元(如 TPU)連接 CXL Memory Expander的單通道容量、總容量配置以及其對不同記憶體規格的相容性是怎樣的?A:CXL Memory Expander的容量配置可以從單通道 256GB 起步,8個通道即可組成 2TB 的總容量。目前市場上也已出現單通道 512GB規格的方案。該方案的一大優勢在於其靈活性和可擴展性:其 CXL介面(例如 16-lane PCIe Gen7)是固定的,而另一端連接記憶體條的介面則可以相容不同類型的 DIMM格式,如 RDIMM 或 MRDIMM。這意味著系統可以根據當前擁有的記憶體條類型進行配置,未來也可以平滑升級到更新、更高頻寬或更大容量的記憶體條,而無需改變核心介面。這種設計使得儲存容量和頻寬的增長是無縫的,系統不易受特定記憶體類型的限制。Q:CXL over PCIe Gen7的 16-lane鏈路頻寬是如何計算的,其與 HBM3相比性能如何,以及延遲方面存在那些差異?A:PCIe Gen7的規範是單 lane傳輸速率為 128GT/s。對於一個由 16條 lane組成的連接埠,經過換算後的理論單向頻寬為 512GB/s。這個頻寬水平接近 HBM3,雖然 HBM3的頻寬可以達到 900GB/s甚至 1TB/s。儘管 CXL方案在頻寬上略低,但其主要缺點在於 延遲,其延遲顯著高於 HBM。值得注意的是,在定製系統中,lane的數量可以進一步擴展,例如做到 32-lane,從而實現單向 1TB/s的頻寬,達到與 HBM3相當的水平。在推理過程中,FFN計算階段的特點是資料傳輸模式並非整塊的巨量資料傳輸,而是小批次、碎片化的資料交換。當一個 token進入 FFN計算階段時,其對應的計算向量空間大約為 128KB。FFN的計算過程可以理解為將一個大的權重網路拆分成許多小的區塊,每個區塊(例如一個專家權重的一部分)被載入到相應的計算晶片上。因此,每次計算實際需要傳輸的資料量可能僅為 數百MB。使用 512GB/s的頻寬來傳輸幾百 MB的資料,所需時間僅為毫秒甚至亞毫秒等級。因此,儘管 CXL的峰值頻寬低於 HBM,但對於這種小批次資料的傳輸需求而言,其頻寬是完全夠用的,並不會成為性能瓶頸。Q:在一個典型的 AI推理系統中,8個 TPU、CXL交換機以及 CXL Memory Expander是如何進行物理連接和協同工作的?A:整體架構如下:8個 TPU各自通過一條獨立的 CXL鏈路連接到一個中心的 CXL交換機。然後,該 CXL交換機再分出 8條鏈路,每一條鏈路連接到一個 CXL Memory Expander 節點。每個 Memory Expander節點內部再連接 8個 DDR記憶體條,負責管理這部分儲存空間的容量。通過這種方式,8個 TPU可以共享由 8個 Memory Expander節點及其所連接的記憶體條構成的龐大記憶體池,實現對海量模型參數的統一訪問。Q:請詳細說明一個 8x8架構中計算節點與記憶體的連接方式,以及其中被稱為“Merope"的新型 TPU的特性和技術淵源?A:在一個 8x8的架構中,8個計算節點與 8個 Memory Expander實現 全交叉訪問。這種設計是必要的,因為每個計算節點(一種小型的、用於 FNN計算的 TPU)在處理不同計算批次時,可能需要訪問權重空間內的任意部分,尤其是在多專家模型中,因此需要全交叉訪問技術以確保靈活性。這種小型 TPU的內部代號為 “Merope”,其角色類似於輝達 LPU,專職進行權重計算。它是一種簡化的、 無狀態 的計算單元,意味著每次計算都獨立於前一次的狀態,核心任務是執行高密度的矩陣乘加運算。其結構設計借鑑了 TPU v5,TPU v5作為訓練晶片,其前饋網路計算單元非常多。由於推理過程本質上是前向傳播,不涉及反向傳播,因此可以復用 TPU v5中的前向傳播計算結構。Merope移除了諸如 Attention機制和一些冗餘計算功能,專注於矩陣乘、矩陣轉置、維度變換及啟動函數等核心運算。其成本相對較低,可採用 FCBGA封裝,片上整合了約 200多兆的 SRAM 用於本地資料緩衝,能有效解決 FNN計算分離的問題。Q:在這種架構中,LPU僅依賴 SRAM,而 TPU/GPU則不同,請問 Merope這類計算單元是如何利用片上 SRAM和 CXL擴充記憶體的?A:任何 TPU或類 LPU單元的片上都整合了 SRAM。其核心區別在於,LPU主要依賴片上 SRAM進行運算,而 Merope這類單元則將 CXL擴充記憶體作為主儲存器,片上的 SRAM依然扮演計算快取的角色。這種結構相當於將原先本地化的 DDR或儲存拉遠,並通過 CXL技術實現共享。Q:在一個 8x8的配置中,CXL Switch位於何處,需要多少顆?同時,MXC晶片和 CXL Switch晶片的價值量分別是多少?A:CXL Switch位於 Tray內部。在一個 8x8的配置中,共有 16個節點(8個 TPU和 8個記憶體池)需要交換,每個節點或連接埠為 16條 Lane,因此理論上需要一個支援 256條 Lane 的交換機即可實現全接入。目前 Marvell已發佈的 PCIe Gen 6、256-Lane的交換機在功能上是可用的,但速度會比目標方案慢一倍,因為目標方案基於 PCIe Gen7。關於價值量,MXC晶片(如 Astera Labs的 Leo或 Marvell的產品)如果是 PCIe Gen7版本,單顆價格可能在 80美元 左右,而 PCIe Gen 6版本則約為五六十美元。對於一顆支援 PCIe Gen 7、CXL3.0甚至 4.0的 256-Lane交換晶片,目前市場公允價格大約在 2000美元。CXL交換機採用樹狀結構或背板形式部署,背板形式在布線空間上可能更合理。從結構上看,該樹狀結構可理解為有兩個主要分支,一個連接 8個計算節點,另一個連接 8個儲存節點,中間通過一個核心的交換節點(即 PCIe的 Root Complex功能)連接。理論上,一顆大型交換晶片足以滿足需求。不過,採用更細粒度的部署方式,例如通過級聯 4顆 較小的交換晶片也是可能的。這種方式可以擴展出更多的 Lane總數,但相鄰晶片之間用於內部互連的 Lane會被佔用,導致對外提供的有效 Lane數增量會隨晶片數量增加而遞減。此外,多顆晶片級聯可能會引入額外的傳輸延遲。因此,儘管級聯方案可以提升總量,但也存在效率和延遲方面的權衡。Q:針對一個 8x8的系統,如果採用單顆 256-Lane的 CXL交換晶片方案,其供應商有那些?不同供應商的產品在技術路徑上有何差異?A:目前能夠提供此類 CXL交換晶片的供應商主要有兩家:Astera Labs 和 Marvell。兩者的產品路徑存在差異。Astera Labs的 PCIe交換機本質上支援 CXL,是一款面向其主要客戶亞馬遜定製的全功能 PCIe交換機,其交換策略和功能較為複雜,導致其連接埠數不易做高。而 Marvell通過收購 XConn獲得了專門針對 CXL memory pooling等場景的技術,其交換機是 簡化版,僅支援 CXL.mem和 CXL.io等核心協議,並未完全支援整個 PCIe協議棧。這種簡化的設計提高了內部交換路由的效率,使其更容易實現更高的連接埠數量。由於 Google與亞馬遜存在競爭關係,且 Astera Labs不願為其開發簡化版產品,因此Google目前可能更傾向於與 Marvell合作,採購其 CXL交換晶片和 MXC晶片。Q:在一個典型的 CXL系統中,TPU、MXC和 CXL Switch的配置比例及對應的成本結構是怎樣的?A:在一個 Rank內部,一個相對合理的最低配置基數是 8個 TPU(或 LPU類晶片)對應 8個 MXC,再對應一個價值約 2000美元 的 CXL Switch。基於此比例,一個 TPU所增加的 CXL和 MXC部分的價值大約為 500美元。不過,考慮到交換效能或頻寬需求,實際部署中可能會增加 Switch的數量。Q:CXL Switch晶片計畫採用何種製程工藝,以及選擇該工藝和代工廠的考慮是什麼?A:CXL Switch晶片為了達到 PCIe Gen7的性能水平,需要採用先進的製程,起步即為 3nm等級。目前有消息稱,Google傾向於將此業務轉向 三星,可能採用其 2nm工藝(SF2)。SF2工藝在電晶體密度等方面與台積電的 N3E屬於同代水平。儘管三星的 2nm工藝目前在製造大晶片時良率稍差,但對於 CXL Switch這類尺寸較小的晶片,其基礎良率較高,經過最佳化後可以達到可用水平。選擇三星的主要原因是為了規避 台積電緊張的產能和高昂的價格。Google希望通過利用三星目前較低的產能利用率來獲得更具成本效益的解決方案,以避險台積電的價格上漲風險。Q:對於 Marvell和 MTK這類為Google提供晶片設計服務的公司,其 Turnkey項目的利潤分成模式是怎樣的?MTK從 TPU項目中獲得的單顆晶片價值大約是多少?A:在 Turnkey項目中,設計服務公司通常會從每顆晶片的銷售價格中抽取一定比例的 Royalty。一個比較合理的 Royalty比例在 **0.1%到 1%**之間,通常介於 0.5%到 3%的範疇。例如,對於一顆 1,800美元的晶片,1%的 Royalty即為 18美元。Google的項目中,晶片流片理論上由 Marvell負責,但項目所有權屬於Google,Google不會將帳戶直接交給設計服務公司。因此,Marvell負責 Chip Operation,並在總晶片價值中抽取一定比例的分成。關於 MTK的價值分成,其工作量較大,包含了 CoWoS的完整設計和封測,因此在 CoWoS部分的分成較高。雖然單顆晶片的價值肯定不止十幾或二十美元,達到上百美元是可能的,但遠沒有市場傳言的 500美元 那麼高。這一價格包含了 CoWoS、測試以及供應鏈管理等成本,但前提是項目必須成功交付,否則無法實現。此次合作對聯發科而言是一項帶有 對賭性質 的項目,其內部也因此承受著較大壓力。Google最初因聯發科在大型高性能計算晶片領域經驗不足而存有疑慮,是聯發科提出的低價方案促成了這次合作。Q:亞馬遜 Trainium 4的產品定位及其與 Trainium 3將形成怎樣的部署關係?A:Trainium 4是一款與輝達 Rubin平台在機架結構、交換協議等方面都非常相似的訓練型系統,定位為 Rubin的替代品,但也可用於推理。未來,亞馬遜將採用 Trainium 3和 Trainium 4 高低搭配的混合部署模式。亞馬遜正在推行一項策略,旨在減少其訓練資源對輝達裝置的依賴。目前已有客戶(如 Anthropic)使用 Trainium 3進行訓練和微調,因此 Trainium 4的推出對於進一步降低訓練成本、擴大訓練規模至關重要。Q:Astera Labs的 PCIe Gen6和Gen7交換晶片在亞馬遜產品線中的具體應用有何不同?A:兩款晶片的應用場景不同。320通道的 PCIe Gen6交換晶片專用於 Trainium 3系統。而通道數接近 500的 PCIe Gen7交換晶片則主要為 Trainium 4系統 服務,但並非用於其核心的 scale-up互聯。Trainium 4將採用 UA-Link交換機進行互聯,而這款 PCIe Gen7交換機將用於 CPU側的擴展,例如智能網路卡、智能儲存擴展、儲存池以及遠端 DPU池的介面擴展。它也適用於一種名為“Graviton only”的純 CPU機櫃,該機櫃用於專家路由等場景。Q:亞馬遜 Trainium 3系統內部的互聯拓撲結構是怎樣的?其 320通道交換晶片如何實現節點連接?A:Trainium 3的拓撲結構較為複雜多樣,但基礎是採用臨近節點和遠端立方體的連接方式。在一個 Trainium 3單元中,包含 4顆晶片,每顆晶片都能與其他 3顆實現直連。此外,每顆晶片還有兩個連接埠用於連接遠端的交換機。這種結構使得每個 Trainium單元都可以成為一個立方體網路中的節點,該節點擁有三個鄰居,並能連接到更高維度或其他平行的立方體網路。這款 320通道的交換晶片擁有 32個 lane,能夠在一個交換域內支援大約 8個計算節點,形成一個有效的交換域。Q:Trainium 3採用的 PCIe Gen6互聯方案,其頻寬性能如何?與輝達 NVLink相比是否存在差距?A:Trainium 3採用的是 PCIe Gen6,但其傳輸層協議為 neuron link,其負載能力比標準的 PCIe高出約 40%。通過 32條 lane的鏈路聚合,其單向有效頻寬可達 512GB/s(即 0.5TB/s),雙向頻寬為 1TB/s。儘管這一速度與 NVLink相比仍有差距,但對於 Trainium 3的定位而言已足夠。Trainium 3主要用於推理,而非訓練,因此很少進行 All-to-All通訊。其設計重點是保證局部計算域內的高頻寬,以滿足任務切分時的通訊需求。它並非直接與輝達的訓練系統進行對標的產品,只有 Trainium 4 才是嚴格對標輝達最新系統的型號。Q:請問320通道的PCle交換機單價大約是多少?除了亞馬遜之外,還有那些潛在客戶?A:目前一個 lane價格大約在 6到 7美元。除了亞馬遜,美國市場客戶不多,主要客戶在 中國。國內一些 AI晶片公司需要通過 PCIe交換機為資料中心叢集機型或訓推一體機、伺服器等產品實現縱向擴展,因此對這類交換機有採購意向。 (數之湧現)
Google第八代TPU詳解:聯手博通與聯發科挑戰輝達!
當地時間2026年4月22日,在拉斯維加斯舉行的Google Cloud Next '26大會上,Google正式發佈了第八代張量處理器(TPU)。這是Google史上首次將AI訓練與推理任務拆分至兩款獨立晶片——專為模型訓練設計的TPU 8t與專為推理最佳化的TPU 8i,標誌著其AI硬體戰略的重大轉向。與此同時,Google宣佈其第七代TPU Ironwood正式向雲客戶開放,並預告了與輝達的深度合作——將在2026年下半年成為首家提供NVIDIA Vera Rubin NVL72超級電腦的雲服務商。為何拆分訓練與推理?Google做出這一戰略調整的根本原因,是AI計算負載的日益分化。GoogleAI與基礎設施高級副總裁兼首席技術官Amin Vahdat在官方部落格中指出:“隨著AI智能體的興起,我們確定業界將受益於針對訓練和推理需求分別進行專門最佳化的晶片。”具體而言,訓練任務追求極致的吞吐量與規模擴展能力,需要晶片具備最高的計算密度和記憶體頻寬,以在數周甚至數月內處理兆級參數。而推理任務則對延遲和並行更為敏感——當數百萬個AI智能體同時執行階段,響應速度至關重要,而對峰值算力的要求相對較低。Amin Vahdat在大會現場明確表示:“這兩款晶片都是從頭開始專門為訓練和推理設計的,而非彼此衍生產品。它們的規格、能力、互聯方式都因各自需求而專門設計。Alphabet首席執行長桑達爾·皮查伊則強調,這一新架構旨在以低成本提供大規模吞吐量和低延遲,滿足數百萬個AI智能體同時運行的需求。TPU 8t:大規模預訓練旗艦晶片TPU 8t由Google和博通共同設計,是Google為超大規模AI模型訓練打造的旗艦晶片。單個超級計算節點最多可整合9,600塊TPU 8t晶片,配備2 PB高頻寬記憶體,每Pod計算性能達121 exaflops(FP4精度),較上一代Ironwood提升約3倍,同等價格下性能提升2.8倍。通過JAX與Pathways框架,可將分佈式訓練擴展至單一叢集超過100萬塊晶片。在架構設計上,TPU 8t採用雙計算芯粒加單I/O芯粒的架構,配備8組12層堆疊的HBM3e高頻寬記憶體。晶片搭載了SparseCore專用加速器,專門處理大語言模型尋找過程中常見的不規則記憶體訪問問題;同時支援原生FP4浮點精度,矩陣運算單元算力吞吐直接翻倍,海量資料搬運功耗大幅下降。為匹配海量資料吞吐需求,Google全新研發了Virgo互聯架構,訓練場景資料中心網路頻寬最高提升至前代4倍。該架構採用高基數交換機減少層級,扁平化兩層無阻塞拓撲結構,單套網路可互聯13.4萬顆TPU 8t晶片,無阻塞二分頻寬高達47Pbps,晶片間互聯頻寬較上一代提升2倍。在儲存訪問方面,TPU 8t通過TPU直連RDMA和TPU直連儲存兩項技術,繞過CPU實現TPU與網路卡、高速儲存之間的直接記憶體訪問,儲存訪問速度提升10倍。此外,晶片還擁有一整套可靠性、可用性與可維護性能力,包括即時遙測監控、自動檢測並繞過故障鏈路、以及無需人工干預自動重構硬體拓撲的光路電路交換技術。TPU 8i:高並行推理專屬平台TPU 8i首次由Google和聯發科合作設計,專注於AI推理場景,旨在消除“等待室效應”——即使用者請求被有意排隊或延遲以實現硬體利用率最大化的情況。單個Pod可擴展至1,152塊晶片,提供11.6 exaflops FP8計算性能,較Ironwood同等價格下性能提升80%,每瓦性能較上一代提升117%。TPU 8i最顯著的特徵是搭載了384MB片上SRAM快取,容量是上一代Ironwood的三倍。這一設計的核心價值在於可將更大的KV Cache保留在晶片上,大幅減少長上下文解碼時晶片核心的空閒等待時間,實現更快的文字生成速度和更低的延遲。晶片還引入了全新的集合通訊加速引擎(CAE),專門加速自回歸解碼與思維鏈推理所需的規約與同步運算,多核心結果聚合幾乎零延遲,片上集合通訊延遲較前代降低5倍。單顆TPU 8i內建兩顆張量核心和一顆片上CAE,替代前代Ironwood的四顆稀疏計算核心。TPU 8i最大的架構創新在於放棄了TPU傳統的3D環形拓撲結構,轉而採用全新的Boardfly層級互聯拓撲。在MoE(混合專家模型)與推理模型時代,任意晶片都需要隨時互通Token資料,跳轉次數直接決定性能。對於8×8×16規模(1024晶片)的3D環形網路,最遠晶片通訊需要16跳;而Boardfly拓撲在同等規模下僅需7跳,網路直徑縮減56%。Boardfly採用分層設計:4顆晶片環形互聯構成基礎單元,8塊板卡通過銅纜全互聯構成本地算力組,36個算力組通過光開關互聯構成最高1024顆晶片的叢集。在這種結構下,任意兩枚晶片之間的通訊最多隻需經過7次跳轉,全對全通訊延遲改善最高50%,這對混合專家模型和頻繁的跨晶片令牌路由極為有利。TPU 8i配備288GB HBM高頻寬記憶體,結合384MB片上SRAM,確保模型的活躍工作集能夠完全保留在晶片內部運行,從根本上解決“記憶體牆”問題。基於2nm製程,2027年底量產兩款第八代TPU晶片均搭載了Google自研的Arm架構Axion CPU作為主控,徹底解決資料預處理延遲導致的主機算力瓶頸。晶片採用台積電2nm製程工藝製造,目標在2027年底量產,並由公司第四代液冷技術支援散熱。在軟體生態方面,第八代TPU支援JAX、PyTorch、Keras及vLLM等主流框架,原生PyTorch支援現已進入預覽階段,使用者可直接遷移模型而無需修改程式碼。Anthropic已承諾採用GoogleTPU的採用率正在持續攀升。Anthropic已承諾採用數GW等級的TPU算力,2027年上線規模將擴展至3.5吉瓦,成為第八代TPU的錨定客戶。此外,Citadel Securities已利用TPU打造量化研究軟體,美國能源部旗下17個國家實驗室全面採用基於TPU的AI協同科學家系統。分析師普遍認為,Google通過將TPU一拆為二,是對AI訓練與推理需求加速分化的直接回應,有助於大幅提升特定場景下的單位算力性價比,從而降低雲客戶部署成本。 (芯智訊)
高盛:美光科技貢獻標普500逾半盈利上修 AI與能源驅動預期重估!
在美以對伊衝突引發全球產業與能源格局變化的背景下,美股盈利預期出現顯著分化。高盛研究顯示,美光科技(MU.US)一家公司就貢獻了標普500盈利預期上調的約51%,成為本輪盈利預期上調的核心推動力。資料顯示,美光2026年市場一致預期EPS增長高達605%,自2月27日以來其盈利預期上調幅度達到93%,短短數周內接近翻倍。高盛指出,這一變化主要源於AI基礎設施需求爆發以及國防科技支出增加,推動半導體需求快速上行,並被分析師模型迅速反映。在財報發佈前,高盛已將美光列為重點看好標的,其對公司2026年EPS預測較市場一致預期高出約19%。除美光外,資訊技術類股中另一重要貢獻者為博通(AVGO.US)。而在其之外,推動標普500盈利預期上修的主要力量幾乎全部來自能源類股,反映出戰爭對油氣行業盈利預期的重塑。具體來看,埃克森美孚(XOM.US)與雪佛龍(CVX.US)合計貢獻約24%的指數盈利上修,其中兩家公司自2月27日以來的盈利預期分別上調44%和67%。此外,西方石油(OXY.US)盈利預期上修幅度高達251%,在能源股中表現最為突出,但由於權重較小,僅貢獻約2%的指數上修。康菲石油(COP.US)、瓦萊羅能源(VLO.US)及EOG能源(EOG.US)也表現突出,各自貢獻約3%至5%的盈利上修。分析人士指出,本輪盈利預期上修呈現出明顯的結構性特徵,一方面,AI驅動的半導體需求爆發帶動科技類股龍頭上行;另一方面,能源價格上漲顯著改善油氣公司盈利前景。 (invest wallstreet)
股價盤後漲3%!博通將為Google供應TPU晶片、為Anthropic提供算力!
博通披露與Google達成長期協議,將為其下一代AI系統提供定製TPU及網路裝置,合作延續至2031年;同時深化與Anthropic合作,自2027年起提供約3.5吉瓦算力。消息刺激博通股價周一盤後漲超3%。華爾街見聞根據博通周一向SEC提交的監管檔案,該公司已同意為Google生產未來版本的人工智慧晶片,同時還與Anthropic簽署了一項擴大後的協議,使Anthropic能夠獲得約3.5吉瓦的算力,這些算力將基於Google的AI處理器提供。博通股價在盤後交易中上漲3%。Google母公司Alphabet股價基本持平。根據這項新的長期協議,博通將為Google設計並供應定製化的張量處理單元(TPU),用於其下一代AI加速器,同時還將為Google的新一代AI資料機架提供網路裝置及相關元件,該合作將持續至2031年。同時,博通、Google和Anthropic也進一步深化了戰略合作關係。從2027年開始,Anthropic將通過博通獲得約3.5吉瓦的下一代基於TPU的AI算力,這也是其多吉瓦級擴張計畫的一部分。這項協議取決於Anthropic的商業增長路徑,反映出市場對博通AI晶片和基礎設施解決方案的需求正在上升。相關公司表示,正在與更多營運及金融合作夥伴進行洽談,以支援這一規模化部署。在上個月的財報電話會議上,博通CEO陳福陽表示:“對於Anthropic來說,我們在2026年1吉瓦TPU算力方面已經取得了一個非常好的開局。而到2027年,這一需求預計將激增至超過3吉瓦的算力。”在財報電話會議後,瑞穗證券分析師Vijay Rakesh領銜的團隊在一份報告中估計,博通將在2026年從Anthropic獲得210億美元的AI相關收入,並在2027年達到420億美元。不過,周一的檔案中並未披露具體金額。與此同時,博通還在與Anthropic的競爭對手OpenAI合作開發用於AI的定製晶片。目前,這些模型開發公司仍高度依賴通過亞馬遜、Google和微軟等雲服務提供商提供的輝達圖形處理器。OpenAI還承諾將使用6吉瓦的AMD GPU算力,其中首批1吉瓦預計將在今年下半年投入使用。Anthropic算力需求暴漲媒體稱,這一交易凸顯出市場對運行生成式AI模型所需基礎設施的需求正在迅速增長。今年以來,Anthropic的人氣大幅飆升,其Claude應用在今年2月一度成為蘋果App Store美國區免費應用榜第一。該公司表示,周一這項這一重大算力基礎設施擴張將為該公司的前沿Claude模型提供支援,並幫助公司滿足來自全球客戶的巨大需求。Anthropic首席財務官Krishna Rao表示:“這一與Google和博通達成的開創性合作,是我們在擴展基礎設施方面保持紀律性推進的延續:我們正在建設必要的算力,以應對客戶群體呈指數級增長的需求,同時推動Claude在AI發展前沿持續突破。為了跟上前所未有的增長速度,我們正進行迄今為止最大規模的算力投入。”Anthropic表示,2026年,來自Claude客戶的需求明顯加速。目前該公司的年化收入已超過300億美元,高於2025年底約90億美元的水平。在今年2月宣佈G輪融資時,該公司曾表示已有超過500家企業客戶的年化支出超過100萬美元。而現在,這一數字已超過1000家,在不到兩個月時間內實現翻倍。根據公司公告,新增的大部分算力將部署在美國。這一合作也進一步深化了Anthropic與Google Cloud的現有合作關係。 (invest wallstreet)
博通發佈 3nm DSP!
隨著人工智慧叢集規模擴大至十萬級GPU和XPU,千兆瓦級電力需求下,光網路成為關鍵瓶頸,博通Taurus BCM83640應運而生。這款業界首款面向下一代AI網路的3nm光PAM4 DSP,專為1.6T收發器設計,同時為3.2T模組奠定基礎,可支撐204.8T交換架構,精準解決AI資料中心的頻寬需求。Taurus™ BCM83640 產品亮點採用3nm 單片整合工藝的 1.6T (8:4) PAM‑4 DSP,內建雷射驅動器在誤位元率(BER)與功耗方面,提供業界一流的光模組性能已與博通(Broadcom)400G EML 及光電探測器(PD)實現成熟互操作性全面相容 IEEE 與 OIF 各項標準,晶片至模組的電氣介面可支援長距(LR)鏈路Taurus是什麼?Taurus™ BCM86340 是博通推出的3nm 工藝 1.6T PAM-4 DSP 晶片,單片整合雷射驅動器,在誤位元率與功耗上表現領先。相容 IEEE、OIF 標準,支援 LR 長距鏈路,可適配 1.6T~3.2T 光模組,面向 AI 資料中心高速光互聯。Taurus BCM83640核心優勢顯著,採用3nm單片工藝,整合雷射驅動器,每通道傳輸速率達400G,較當前主流的200G通道速率翻倍,頻寬密度大幅提升。其在誤位元率和功耗上實現同類最佳性能,且符合IEEE和OIF標準,可與博通400G電吸收調製雷射器等元件互操作,電口與光口速率一一對應,大幅簡化了3.2T光模組設計。基於該晶片,單個1RU交換機搭配1.6T可插拔模組,即可實現102.4T交換容量,是上一代技術的兩倍,能高效適配大規模AI叢集的互聯需求。目前,博通已向早期客戶和合作夥伴提供樣品,將於OFC 2026正式發佈,預計2026年底實現量產並應用於下一代交換系統。業內人士認為,Taurus不僅是技術里程碑,更是AI光互聯演進的關鍵,其400G/通道技術將推動1.6T、3.2T光收發器普及,未來5年相關收發器出貨量有望超1億台,為AI資料中心的頻寬擴展提供核心支撐。博通Taurus BCM83640相關問題問:基於Taurus技術的裝置能實現怎樣的交換容量?答:基於Taurus技術的單個1RU交換機,使用1.6T可插拔模組,即可提供102.4T的交換容量,相當於上一代每通道200G技術的兩倍;其支撐的下一代204.8T交換機,可匹配3.2T光收發器,滿足大規模AI叢集需求。問:Taurus BCM83640的技術進展和量產計畫如何?答:目前博通已開始向早期客戶和合作夥伴提供BCM83640的樣品,將於OFC 2026正式發佈,預計到2026年底,該晶片將實現量產並應用於下一代交換系統。問:業內人士對Taurus BCM83640有何評價?答:博通維傑·賈納帕蒂認為其為下一代AI網路和資料中心連接奠定基礎,推動成本最佳化;LightCounting弗拉基米爾·科茲洛夫表示,400G單通道解決方案是跟上AI頻寬增長的有效策略;Eoptolink Technology首席執行長稱其是產品里程碑,能釋放變革性頻寬增長,塑造448G未來。問:未來1.6T和3.2T光收發器的市場預期如何?答:據LightCounting預測,未來5年內1.6T和3.2T光收發器的出貨量將超過1億台,其中近一半將採用400G光模組。 (芯榜)
深度解析博通(AVGO)炸裂財報:AI收入破千億指引,定製晶片與CPO的掘金機遇!
今天,科技巨頭博通(Broadcom, AVGO)交出了一份令華爾街矚目的2026財年第一季度財報 。憑藉在AI半導體領域的統治級表現,博通不僅業績全線超預期,更給出了極為震撼的長期指引,一舉引爆市場情緒 。今天,我們就基於博通最新財報及高盛、伯恩斯坦等機構的研報,深度拆解博通的業績亮點,並結合定製化晶片(XPU)與CPO(共封裝光學)技術,一探其背後的巨大投資機會與戰略佈局。一、 財報高光:AI引擎全開,長期指引震撼華爾街博通本季度的財報可以說是“含AI量”爆表,展現了極其強勁的增長勢頭:營收利潤雙豐收:Q1總營收達到創紀錄的193億美元,同比增長29% ;合併調整後EBITDA達到131億美元,利潤率高達68% 。AI業務成最強引擎:Q1其AI半導體收入暴增106%,達到84億美元 ;公司預計Q2該業務將加速至同比增長140%,達到107億美元 。遠超預期的長期指引:最令市場振奮的是,管理層透露,得益於高達10GW的資料中心部署可見度,博通預計2027年僅AI半導體的收入就將遠超1000億美元 。高盛認為,這是對投資者預期的重大向上修正,並重申了對博通的“買入”評級 。此外,關於市場普遍擔憂的“整機機櫃出貨會稀釋毛利率”問題,博通管理層給予了強硬回應 。CEO Hock Tan 明確表示,憑藉規模效應和良率提升,公司在AI領域的模型將與半導體其他業務一致,毛利率將穩穩維持在目前的水平,打消了市場的疑慮 。二、 定製化晶片(XPU):手握六大王牌,無懼自研挑戰在AI算力戰中,超大規模雲服務提供商(CSP)自研晶片(COT模式)的趨勢一直被視為博通的潛在風險。然而,博通的定製化加速器業務在Q1依然實現了140%的驚人同比增長 。博通目前手握六家重量級定製晶片客戶,項目全面開花 :Google:第七代TPU需求強勁,預計到2026年將保持強勢增長態勢 。Meta:打破市場傳言,其MTIA定製加速器路線圖進展順利且已開始發貨,預計在2027年及以後擴展至數吉瓦(GW)規模 。Anthropic 與 OpenAI:Anthropic的產能預計在2027年將飆升至3GW以上 ;而OpenAI計畫在2027年大規模部署其第一代XPU,算力規模同樣將超1GW 。面對客戶自研的潛在威脅,CEO Hock Tan 一針見血地指出:要想打造具有競爭力的頂級XPU,需要極其尖端的SerDes技術、先進的封裝以及網路叢集架構能力 。博通具備從設計到快速實現高良率大規模量產的無可匹敵的執行力 。因此,在未來很多年內,博通在這一領域都難以看到真正的競爭對手 。三、 結合AI網路與CPO分析:銅纜當下稱王,CPO蓄勢待發與定製晶片相輔相成的是博通在AI網路領域的絕對領導力。Q1其AI網路收入同比增長60% ,預計Q2將佔到AI總收入的40% 。1. 銅纜(DAC)是當下“縱向擴展”的最優解在叢集機架內部的縱向擴展(Scale-up)中,博通目前力挺直連銅纜(DAC)。Hock Tan 強調,在儘可能連接XPU到XPU時,最好的方式是使用直連銅纜,因為這代表著最低的延遲、最低的功耗和最低的成本 。憑藉其領先的200G甚至未來將在2028年推出的400G SerDes技術,博通能夠極大拉長客戶使用銅纜的生命周期 。——於是把COHR和ALAB都帶起來了。2. CPO(共封裝光學)是解決未來的終極武器儘管銅纜在機架內短期優勢明顯,但在橫向擴展(Scale-out)及未來更龐大叢集的需求下,光通訊的演進不可阻擋。CPO技術通過將光引擎與交換晶片直接整合,在能效、訊號完整性和網路彈性上擁有不可比擬的優勢,其表現全面優於傳統的可插拔光收發器 。博通作為CPO領域的絕對領導者,佈局極深 。博通在今年開始批次生產TH6(Tomahawk 6,100 Tbps)交換機 ,並且與康寧等光通訊巨頭深度合作,為其Bailly CPO系統提供核心元件 。然而,對於CPO的爆發節點,博通顯得非常務實。CEO指出,客戶目前不需要急於追逐CPO這個“閃亮的新事物”,CPO時代終將到來,“可能不是今年,也不是明年”,而是隨著算力需求演進順理成章地落地 。伯恩斯坦的研究也證實了這一點,CPO在將光引擎與高價值XPU緊密整合之前,仍需要時間讓生態系統驗證其可靠性,預計最早在2028年下半年才會迎來真正的批次出貨 。這確實給LITE和COHR澆了冷水。四、 總結縱觀博通本季度財報,其最大的亮點在於極高的“業績確定性”。為了應對可能的短缺,博通宣佈已經提前鎖定了支援其至2028財年收入預測所需的所有關鍵供應鏈元件(如尖端晶圓、高頻寬記憶體HBM及基板等) 。憑藉在定製化XPU與乙太網路交換(如Tomahawk系列)領域的雙重護城河,配合“短期靠銅纜降本,長期靠CPO突破物理極限”的清晰路線圖,博通正為超大規模雲客戶提供最低成本的AI推理與訓練網路方案 。對於投資者而言,博通不僅是當下AI算力狂潮中最穩健的“賣水人”,更是未來網路底座變革的核心引領者。 (老王說事)
爆賺193億美元,博通成美股“救命稻草”
美國當地時間3月4日,博通盤後公佈截至2026年2月1日的2026財年第一財季業績,並給出顯著高於市場預期的第二財季營收指引。積體電路版“諾亞方舟”。圖片由AI生成第一財季博通實現營收193.11億美元,同比增長29%,高於LSEG統計的191.8億美元市場預期。公司GAAP淨利潤為73.49億美元,每股攤薄收益1.50美元;非GAAP淨利潤為101.85億美元,每股攤薄收益2.05美元,同樣高於市場預期的2.03美元。調整後EBITDA為131.28億美元,佔營收的68%,同比增長30%。在AI晶片需求持續升溫的背景下,博通不僅交出一份超預期成績單,還宣佈啟動最高100億美元的新股票回購計畫。同時,博通預計第二財季營收約為220億美元,預計調整後利潤率約為68%,均大幅超出市場預期。業績超預期、大手筆回購、指引強勁,掌握矽谷自研晶片命脈的博通,算是成功給矽谷打下一劑“強心針”,而受業績的正向牽引,財報發佈後,博通股價表現積極,股價漲幅一度超過5%。01AI收入同比暴增106%第一財季博通實現營收193.11億美元,同比增長29%,最受關注的是AI相關業務表現。博通披露,AI收入達到84億美元,同比增長106%,主要受定製AI加速器和AI網路裝置需求推動。CEO陳福陽表示,公司AI收入增長正在加速,並預計第二財季AI半導體收入將達到107億美元。從業務結構看,半導體解決方案營收125.15億美元,佔總營收65%;基礎設施軟體營收68億美元,同比增長約1%,低於分析師此前預計的2.6%增速(StreetAccount 預期為70.2億美元)。針對近期市場對生成式 AI 顛覆傳統軟體業務的擔憂,陳福陽在電話會上直言:“我們的基礎設施軟體業務未受到 AI 衝擊”,儘管當前增長明顯慢於半導體類股,但其基本面依然穩固。02第二財季指引大幅超預期博通對第二財季的業績展望同樣強勁。博通預計第二財季營收約為220億美元,高於LSEG統計的205.6億美元市場預期;同時預計調整後利潤率約為68%,也高於StreetAccount 66%的共識水平。指引中還包括約148億美元的半導體解決方案收入預期,高於市場此前130.6億美元的預測。陳福陽在電話會議上表示,公司“已經看到了在2027年實現僅AI晶片收入(Just chips)超過1000億美元的路徑,並強調博通已鎖定實現這一目標所需的供應鏈能力。”他指出,AI半導體收入在第二財季預計達到107億美元,顯示出定製晶片與網路加速器需求仍在持續釋放。圍繞客戶部署節奏,博通管理層披露了更具體的規劃。陳福陽提到,2026年將為Anthropic部署約1吉瓦(GW)的GoogleTPU算力,2027年將超過3吉瓦。同時,他透露OpenAI預計將在2027年部署超過1吉瓦的第一代定製晶片。針對華爾街對Meta定製晶片前景的質疑,陳福陽強調其MTIA加速器路線圖“仍然存在且進展順利(alive and well)”,目前已開始出貨,Meta目標是在2027年及以後實現多吉瓦規模的定製加速器部署。從行業背景看,Alphabet、微軟、亞馬遜和Meta今年預計將合計投入至少6300億美元建設AI基礎設施,這一投資規模將直接帶動先進資料中心晶片需求。博通與客戶合作,將其早期設計轉化為可由台積電等晶圓廠製造的物理晶片佈局,這種技術與製造銜接能力在科技巨頭加速自研晶片的趨勢下變得更加關鍵。與此同時,公司上月還表示,基於其堆疊式設計技術,到2027年預計將銷售至少100萬顆晶片,這一產品和銷售目標可能形成價值數十億美元的潛在收入來源。分析人士指出,無論那家軟體公司最終在AI競賽中勝出,它們都在持續投資博通的網路晶片和定製加速器,這種“中立型基礎設施供應商”角色正在強化公司的產業地位。03100億美元回購“點燃”資本情緒?在公佈超預期業績和強勁指引的同時,博通董事會批准了一項最高100億美元的新股票回購計畫,有效期至2026年底。博通在第一財季已通過31億美元現金分紅(每股0.65美元)和78億美元股票回購,合計向股東返還約109億美元現金。持續的大規模資本回饋,與公司第一財季80.1億美元自由現金流形成呼應,顯示其在AI投資擴張階段仍具備充足的現金生成能力。不過,在AI基礎設施投資高歌猛進的同時,市場情緒並非完全單邊樂觀。此前輝達公佈超預期業績後仍出現拋售,投資者對AI資本開支是否存在過熱風險保持警惕。同時,陳福陽2025年12月曾披露Anthropic下達100億美元定製晶片訂單,而近期美國國防部長稱其可能構成“供應鏈風險”,外部因素為AI產業鏈注入了新的不確定性。 (騰訊科技)
盤後暴漲超5%!博通業績和指引均超預期!AI收入翻倍,上季營收創新高,擬回購百億 美元!
第一財季博通總營收同比增29%,AI收入同比翻約一倍至84億美元,高於公司指引,軟體業務收入僅增1%,第二財季AI收入預計107億美元,同比增143%。博通料第二財季總營收同比增47%至220億美元,較分析師預期均值高逾7%;電話會稱明年Anthropic將帶來3GW算力需求、OpenAI將批次部署晶片,Meta定製晶片路線圖進展不錯。盤後漲超5%。輝達的挑戰者、ASIC晶片大廠博通又一次交出兩位數大增的成績單,本財季的指引繼續穩健,體現人工智慧(AI)資料中心裝置的需求繼續強勁。博通同時推出高達100億美元的股票回購計畫,被視為該司利用企業客戶AI支出增長的戰略正在取得成效。美東時間4日周三,博通盤後公佈,截至2026年2月1日的公司2026財年第一財季(“一季度”),淨營收同比增長29%至193.1億美元,高於分析師預期的192.6億美元;非GAAP口徑下調整後每股收益(EPS)同比增長28%至2.05美元,也高於分析師預期的2.03美元。驅動博通增長的核心仍是AI相關半導體業務。包括ASIC在內的半導體解決方案業務一季度收入同比超預期增長超50%。其中,一季度AI半導體收入達84億美元,同比暴增106%,高於博通此前業績電話會提供的指引約82億美元,主要由定製AI加速器和AI網路需求帶動。博通CEO陳福陽表示,公司的AI收入將加速增長,預計第二財季(“二季度”)AI半導體收入將進一步升至107億美元。這意味著,博通本財季的AI晶片收入將環比增長逾27%,同比增長143%。博通同時給出了明顯高於市場預期的指引:二季度營收預計約220億美元,同比增約47%,較分析師預期的均值205.3億美元高約7.2%,和一些分析師的樂觀預期一致;調整後EBITDA利潤率預計約68%,持平一季度。同時,公司董事會批准新的股票回購計畫,授權到今年底回購額度最高100億美元。財報公佈後,周三收漲超1%的博通盤後股價先小幅上漲,曾小幅轉跌,後又轉漲、漲幅擴大到5%以上。股價加速上漲期間,博通高管在業績電話會上透露,預計公司客戶Anthropic將在2027財年帶來3 GW算力需求,OpenAI將在2027年批次部署晶片,還稱Meta的定製晶片路線圖“正在推進之中,進展不錯”。分析認為,股價起初轉跌的反應更像是高預期下的再定價,在AI主線擁擠、估值更敏感的背景下,除了一季度和二季度總體資料,部分源於博通一季度軟體業務收入僅小幅增長,投資者也會重新審視增長結構、現金與負債變化以及後續超預期空間,從而引發一定的獲利了結與波動。Q1總營收繼續加速增長 AI收入同比翻倍、Q2目標107億美元財報顯示,一季度博通的總營收刷新了前一季所創的單季最高紀錄,且同比繼續加速增長,增速由前一季的28%提升至29%。陳福陽在財報中強調,本季AI收入84億美元,同比增長106%,高於去年12月陳福陽在業績電話會上預估的82億美元。增長主要來自兩塊:定製AI加速器(custom AI accelerators)需求旺盛;AI網路(AI networking)持續放量。博通預計二季度AI半導體收入將達到107億美元,意味著AI業務仍在加速爬坡,並將繼續成為推動二季度營收躍升至220億美元的關鍵變數。半導體收入高增、軟體“穩而不長”按分業務看,一季度博通增長幾乎由半導體“拉滿”:包括ASIC在內的半導體解決方案業務收入125.15億美元,同比增長52%,增速較前一季的34.5%明顯加快,分析師預期123.1億美元,營收佔比從一年前的55%升至65%,高於前一季的61%。包括VMware在內的基礎設施軟體業務收入67.96億美元,同比僅增長1%,營收佔比從一年前的45%降至35%,前一季度同比增長19%、佔總營收的39%。這組資料體現,博通當前的增量主要來自AI相關半導體周期,而軟體業務更多體現“壓艙石”屬性——規模大、貢獻穩定現金流,但短期增速有限。也正因增長更集中在AI半導體,市場對其客戶集中度、訂單節奏和供需變化會更敏感,這類結構性關注點在財報後往往也會放大股價波動。股東回報加碼:單季回饋109億美元,新增100億美元回購授權博通繼續用真金白銀強化股東回報:董事會批准季度現金股息0.65美元/股,本季股息合計約30.86億美元。首席財務官(CFO)Kirsten Spears稱,公司一季度通過分紅+回購合計回饋股東109億美元,其中回購約78億美元。董事會又批准新的回購計畫:最高回購規模100億美元,有效期至2026年12月31日。回購與分紅對長期股東當然是利多,但在財報後的短線交易裡,市場也可能會同時關注:回購力度很大、現金餘額下降、負債水平不低——這些因素疊加時,股價的即時反應未必只看“回購利多”單一維度。EBITDA創新高、利潤率68% 自由現金流80億 利息支出仍高盈利能力依舊強勁。博通披露,一季度調整後稅息折舊及攤銷前利潤(EBITDA)同比增長30%至131.28億美元,刷新前一季所創最高紀錄,EBITDA利潤率約為68%,高於公司指引67%。。調整後淨利潤為101.85億美元,同比增長30%,前一季度同比增長39%。一季度調整後EPS同比增長28%,較前一季增速37%放緩,但還高於分析師預期。現金流方面,博通延續了“強造血”特徵:經營現金流82.6億美元;資本開支2.5億美元;自由現金流(FCF)80.1億美元,同比+33%,約為營收的41%。對投資者而言,FCF強勁意味著公司在高強度AI投入與股東回報之間仍有較大騰挪空間;但也會帶來另一個現實問題:當公司既要回購分紅、又要管理較高負債成本時,市場會更在意現金流的“分配優先順序”。截至一季度季末,博通資產負債表的幾個變化值得留意:現金及現金等價物141.74億美元,環比前一季末的161.78億美元下降約20億美元。應收帳款84.6億美元,庫存29.62億美元,均環比增長。在半導體快速放量階段,應收與庫存抬升並不罕見,但也會被市場用來觀察需求強度與交付節奏。債務端:短期債務22.52億美元、長期債務638.05億美元;當季利息支出8.01億美元。高利率環境下,利息成本的“粘性”也是科技硬體公司估值敏感點之一。 (invest wallstreet)