【美股觀察】博通,怎麼看?

過去兩年,人工智慧的繁榮讓輝達走向了風口浪尖,但其實藏在輝達背後,還有一家晶片公司在快速成長,那就是博通。數據顯示,過去一年,博通公司股價已經上漲一倍多,博通也成為了輝達之後,為數不多能躍進全球前十名的半導體公司之一。


上個禮拜,Broadcom 在其位於聖荷西的工廠舉行了有史以來的首次投資者日活動,Broadcom 擁有26 個部門或損益表,其中17 個屬於半導體集團。半導體集團的營收約為300 億美元,並以兩位數的速度成長。該集團每年的研發費用為30 億美元。

Broadcom 半導體解決方案集團總裁Charlie Kawwas 參與了這場演講,這次投資者日活動旨在讓投資界了解Broadcom 的獨特市場策略。在本文中,我們總結了博通對AI市場的看法。


博通所提供的半導體解決方案

Charlie Kawwas首先提到了Broadcom的傳統基因就是技術創新,在過去八年裡,Broadcom沒有收購過一家半導體公司,卻實現了有機增長,2019 年的業務規模為170 億美元,而2023年的業務收入達到280 億美元,年均複合成長率約13%,比半導體產業快得多。其表示,這一切都建立在大規模投資的基礎上,Broadcom在這項業務上的研發投資超過30 億美元。在過去的五年中,共有150 億美元的研發投入,這些資金支撐了有機成長。

Kawwas稱,Broadcom實現有機成長,靠的是三大支柱。第一大支柱是市場。在實施策略時,選擇持久的市場,並對這些市場進行長達10 年的考察。 Broadcom問自己的第一個問題是,10 年後這個市場還會存在嗎?在人工智慧領域,Broadcom已經投資了近十年,只是碰巧遇到了一個正在大幅成長的市場,Broadcom很高興能成為其中的一員。

而第二大支柱,也是最重要的支柱,是技術,這是Broadcom 的傳統和基因,尤要做到這一點,就必須進行投資和研發投資,必須建立一支工程師圖團隊,正是這些工程師為Broadcom帶來了領先地位,帶來了Broadcom今天要與大家分享的技術。

第三大支柱是執行,當Broadcom在市場上打拼了10 年,並在這段時間內帶來了最好的技術,最終在每個類別中都成為第一,Kawwas表示,基於以上三點, Broadcom創造了一個術語,叫做"永續特許經營",這也是每個業務單位或部門的核心定義。

Kawwas提到,Broadcom將重點放在網路中的細分市場,即人工智慧以及如何在基礎設施中啟用人工智慧。第一個支柱市場其實是由兩個不同的市場組成。一個是消費人工智慧領域,該領域的參與者寥寥無幾,但卻擁有數十億用戶,他們賺錢的方式是基於廣告、最終用戶和消費者的參與,參與度與他們在人工智慧和機器學習方面的投資額直接相關,他們建立的集群越大,參與度就越高,這意味著更好的經濟回報。

另一個市場則是企業,它可以是雲端運算或內部部署。在該領域中,許多人都在嘗試投資人工智慧,但商業案例還有待驗證,每個人都在建立小型集群來試驗這些技術,甚至雲端運算公司也在進行一些試驗,但並沒有像消費級人工智能那樣,出現真正切實的商業案例。


在科技這第二支柱中,從Broadcom的角度來看,會專注於兩種產品。一個是我們所謂的人工智慧加速器即XPU,開發這部分產品其實有兩種方式,廠商可以開發一種滿足所有人需求的通用產品,但它們功耗過大,且過於昂貴,無法實際部署到網路中。其中一部分公司別無選擇,因為他們不具備客製化能力,但少數擁有數十億用戶規模、創造數千億甚至超過5 兆美元收入的公司具備這種能力,這也是Broadcom將其命名為客製化XPU或定制AI 加速器的原因。

Kawwas表示,在這一切的基礎上,還要將這些XPU 連接起來,廠商需要一種網路技術或人工智慧連接技術,而Broadcom將討論消費級人工智慧的大規模建設,從產品和技術的角度來看,Broadcom將重點介紹客製化的人工智慧加速器,並最終向大家展示Broadcom的整個人工智慧連結產品組合。

他提到,Broadcom並不是在最近一兩年才開始關注人工智慧的,在2022 年之前的很長一段時間裡,人工智慧在半導體領域的收入一直低於5%,但近兩年它們在半導體領域的收入躍升了2 倍多,達到了10%。 2023 年Broadcom在該市場拿下了15%的份額,預計2024年將達到25%的份額,總收入超過100億美元。

值得一提的是,Kawwas在本次活動中宣布了Broadcom的第三家客製化晶片大客戶。

第一位客戶毫無疑問是谷歌,從第一代TPU開始,十年來谷歌一直是Broadcom 的定制芯片客戶,而Kawwas還提到了新加入的第二家定制客戶,大概率就是Meta,其在過去四年來一直是Broadcom的客戶,它們合作建立了多代產品,目前以及實現量產。

Kawwas所宣布的第三位客戶眾說紛紜,有國外媒體猜測可能是國內的字節跳動,理由是它擁有大型網絡,並採用了Broadcom 的片上神經網絡推理引擎,同時也是一個以消費者為導向的大型社交網絡,可以透過使用更多的客製化晶片而不是商業晶片來獲得快速的投資回報。

Kawwas回憶到兩年前,當時的集群擁有最先進的4,096 個XPU,單個XPU功率為幾百瓦,與現在相比,使用戰斧(Tomahawk)交換機將4000 個XPU 互聯是相當簡單的單層網絡。而在2023 年,Broadcom建立了一個使用這種XPU 的叢集並開始出貨,該叢集的XPU 節點超過10,000 個,需要兩層戰斧或Jericho交換機才能實現這一目標,他表示,這是目前業界功耗最低的XPU,無論是商用還是定制,功耗都低於600 瓦,並採用了最新技術。

Kawwas表示,隨著2024 年的到來,Broadcom打算將這一集群擴展到30,000 個XPU以上,而後,Broadcom的消費級人工智慧客戶的計劃和目標是,如何將這一數字提高到幾十萬乃至上百萬,這也是Broadcom正在努力的方向。


隨後Kawwas展示了最新的XPU,可以看到中間的兩個運算單元和左右兩邊的所有HBM。一個完整的定制SoC,其擁有強悍的算力、大容量的HBM與高速芯片內連接,以及最高性能的外部網絡,比較有意思的是,這款XPU一共擁有12個HBM堆棧,作為對比,輝達的Blackwell僅有8個HBM堆棧,Kawwas強調,Broadcom所客製化的XPU在HBM上比對手多出了整整50%,Broadcom可以比其他人做得更好、更快、更省電。


隨後Kawwas分享如何建立一個集群,從單一XPU到一台伺服器,再到一整群集群。他表示,目前業界耗電量最低的XPU 就是Broadcom的產品,功率為600 瓦,其他公司即將推出的下一款產品可能在1,000 瓦左右。如果今年要生產3 萬個這樣的產品,光是XPU 就需要30 兆瓦的功率,這就是大多數資料中心允許的最大功率,這還沒算上電源、冷卻系統和網絡,他強調集群就是一個異構系統,需要在生態系統的多個參與者之間找到擴展方式,世界上沒有一家公司能在資料中心或集群中建立一切,大家需要相互合作。

為了解決這些問題,Broadcom正在進行三方面的技術投資。其一,Broadcom認為產業的這一重要拐點必須是開放的,必須由乙太網路、PCIe 等開放標準以及記憶體層面的其他標準功能來推動。

第二個面向是規模,如何擴展到百萬級叢集?這些架構中最重要的並不僅僅是XPU,Broadcom的願景和前進的方式都以網路為中心,當XPU數量超過1萬、2萬和3萬時,這將成為一個分散式運算的挑戰,再好的網路架構也無法解決分散式運算的難題,Broadcom會在擴大和擴展這些網路並實現網路互聯方面做出承諾。

最後一方面就是節能技術,為了做到這一點,Broadcom開始了研發,並以永續的方式提供這些技術。他表示,核心交換集團總經理Ram Velaga 將介紹人工智慧網絡,資料中心解決方案集團總經理Jas Tremblay 會介紹伺服器互連,光學系統部門總經理Near Margalit 會介紹光互連,物理層產品部門總經理Vijay Janapaty 將介紹跨P&L 共享的SerDes 等基礎技術, ASIC 產品部總經理Frank Ostojic 會介紹客製化人工智慧加速器。


人工智慧網路

Ram Velaga表示,當需要一百萬個以上的GPU這種規模時,連接它的唯一方法就是擁有網絡,也印證了一句老話:網絡就是一台計算機。

他提到,為了讓交換器獲得GPU 和交換器之間的流量,用戶需要NIC。 GPU 需要大量頻寬,而NIC 必須跟上即將出現的GPU 頻寬量。 Broadcom的重點是具有非常高RDMA 效能的NIC,可持續從400 GB 擴展到800 GB,再到1.6 太比特。

RDMA 大約出現在25 年前,當時的想法是兩個CPU 想要互相通信並共享記憶體。因此,它是為兩台機器相互通信而建造的,然後慢慢地從2 台擴展到16 台、32、64、128、512。但它從來不是為數千或數十萬個CPU 或GPU 相互通信而構建的,RDMA 中實際上存在很多問題。 Broadcom實際上對RDMA 進行了重大增強,以便它可以擴展到超過100 萬個叢集。


Ram Velaga講到,在這個世界上,不會有數百萬的GPU,也不會只有一個大型主機解決方案在銷售。在歷史上,這種情況的唯一出路就是擁有多個供應商和多種解決方案。當你擁有多個供應商和多個解決方案時,你需要的是一個能將所有這些解決方案互聯在一起的結構,這是一個分散式運算問題。僅僅說我能製造最大的GPU 並不能解決問題。你需要建立能夠擴展的GPU,並且能在一個非常非常大的結構中聯網,乙太網路就是這個結構,將來也會是這個結構。

Broadcom不僅相信以太網,還相信以太網實際上是基於一個非常開放的生態系統。 Broadcom做的是,自己有晶片和一大堆供應商,他們在世界各地製造硬件,還有一大批合作夥伴,他們在硬體之上構建軟體,並提供所有的管理和其他服務。這就是Broadcom要採取的方法。打造最好的網路設備,將其提供給一個非常非常廣泛的生態系統,並堅信這是一個分散式運算問題,而要大規模解決這個問題的唯一方法就是不建造大型主機。


伺服器互連

Jas Tremblay表示,客戶實際上需要在人工智慧伺服器內建立一個網絡,為此選擇的網路是PCIe。它的延遲非常低、無處不在、基於標準,並且允許公司將他們需要的各個部分整合在一起。事實上,人工智慧伺服器內部擁有開放的內部結構是自由的關鍵,這樣客戶就可以選擇想要的元件。如果客戶作為雲端供應商在內部建立自己的NIC,如果您想使用不同類型的加速器,那麼擁有開放結構可以讓您挑選所需的元件,並建立更適合的AI 伺服器您的需求。另一個因素是,如果是伺服器OEM 或ODM,則很難為每種類型的加速器建立完整的系統。因此,客戶希望擁有一個可以在AI 伺服器內支援商業、客製化和不同類型XPU 的架構。因此,使用PCIe 交換作為這些AI 伺服器內部的內部網路非常重要。

這個網路需要超低延遲,需要高頻寬,但最重要的是,它需要被信任。它需要中斷很多很多類型的設備。它需要符合標準。它需要具有先進的遙測和診斷功能。因此,如果要在網路中部署數以萬計的人工智慧伺服器,則需要在網路內部、人工智慧伺服器內部擁有告訴您正在發生的情況的功能,因此Broadcom投資了效能、最低功耗以及先進的遙測和診斷。


其中,交換器是此網路的核心元件。在過去20 年裡,Broadcom一直是第一個推出適用於每一代PCIe 的PCIe 交換器的公司。目前Broadcom正在大量出貨PCIe Gen5 交換機,為整個產業、客製化和商業加速器中的絕大多數AI 伺服器提供動力,且Broadcom即將推出第五代5 奈米重定時器,也將在今年底提供PCIe Gen 6交換器樣品。


此外,Broadcom正在與AMD合作構建一個擴展解決方案,博通將構建交換機,AMD 將構建加速器,其將以開放的方式共同努力,將其提交給標準機構,未來將提供一種開放、低功耗、高效能、低延遲的方式來連接CPU、NIC、NVMe 驅動器和XPU。


光互連

Near Margalit表示,人工智慧系統不斷消耗整個系統越來越多的頻寬。因此需要光學技術來支援這一點,包括擴展和成本,以及能夠提供更高等級的頻寬。

他討論了Broadcom擁有的三項核心技術。第一個是垂直腔面發射雷射。這是整個產業人工智慧技術的主力。它可用於乙太網路、InfiniBand 和V-Link 技術。由於多模光纖本身的原因,它在距離上確實有限制,限制在100 公尺左右,但它的功耗非常低,成本也很低,並且在當今世界上大多數人工智慧系統中得到了廣泛部署。

第二項技術是共同封裝光學元件,它是直接集成在ASIC 上的高速矽光子學的集成,無論是交換器、整個系統中的PCI 交換器或加速器都為這些下一代系統提供了功耗和成本領先優勢。 Broadcom先前發布了有關VCSEL 和EML 技術的新聞稿,其已交付了超過2000 萬個每通道100 gig 技術的通道,真正展示了我們光學技術的核心領導地位。

Near Margalit解釋了為什麼要進行共同封裝,對於這些人工智慧系統來說,頻寬、組件數量不斷增加,而光學元件的成本仍然是可擴展性方面的一個問題。那麼,如何制定路線圖,繼續降低光學成本,以適應越來越大的群聚和GPU? Broadcom的解決方案是集成,特別是在矽光子學中尋求集成,以便能夠將越來越多的組件直接集成到單個晶片上,其相信在光學領域這也是正確的方式,認為CPL將繼續提供單位比特成本最低的能力。

共同封裝光學元件的第二個好處是,實際的光學元件就在訊號所在的位置。因此可以擺脫ASIC 與光學元件之間複雜的電氣通道,目前市場上典型的800 gig 可插拔收發器功率為14 瓦,展示的貝利系統現在的功耗為5 瓦,與目前的典型部署相比,可以節省70% 的功耗。


Near Margalit表示,長期以來,Broadcom在光學元件方面展現了行業領先地位,特別是現在每通道100 gig 這方面。此外,Broadcom在交付人工智慧應用方面做得非常好,並且已經展示了繼續將VCSEL 技術和EML 技術擴展到200 gig 的能力,也正在尋求擴大規模。同時Broadcom也推出了第一個具有可插拔雷射器的共同封裝光學元件的商業系統,可同時提供成本和功耗優勢,功耗降低70%,成本節省30%。


跨P&L 共享的SerDes

Vijay Janapaty表示,在集群市場中,鏈路的頻寬實際上每兩年就會翻一番,是人工智慧集群中第二大功率和成本來源,關注這些高速鏈路的功率和成本非常重要。如果把這些鏈路放在一起看,大部分鏈路都是銅纜,功耗最低、成本最低,但是傳輸距離約5 公尺左右,光學設備的覆蓋範圍更大,但功率最高,成本也最高。因此研究如何降低這些光學元件的功率和成本非常重要。

在銅纜鏈路上,Broadcom用來驅動這些銅纜鏈路的技術是SerDes。這些SerDes 核心嵌入在戰斧交換器、XPU 或網路卡中。而Broadcom的目標是,如何確保盡可能多的連結使用銅纜?其次就是如何降低這些連結的成本和功耗。



他宣布了Broadcom的下一代SerDes,內部的代號是Condor。它基於3 奈米而非4 奈米製造,它具有非常多優勢:超長傳輸距離、45 分貝、兩米多長的DAC 電纜,因此可以覆蓋機架上的所有設備,無需任何重定時器,機架上也不需要有源設備。同樣,它還具有CPO、線性光學等相同的優點,Broadcom所有的產品團隊現在都在使用它進行設計。憑藉所擁有的這些規格,Broadcom將再次成為200 gig SerDes 領域的領導者。


客製化人工智慧加速器

Frank Ostojic表示,為什麼消費級人工智慧客戶想要自己的晶片?他們為什麼要與我們合作創建這些XPU?為什麼他們不能使用GPU、第三方晶片?有什麼好處?好處可以用一個簡單的等式來解釋。性能除以總擁有成本。什麼是總擁有成本?就是晶片的成本、電源的成本以及將其組合在一起的基礎設施的成本。

當使用者使用XPU 時,如果是這些消費級人工智慧公司中的一員,就會擁有一些對你的創收和應用非常重要的內部工作負載,如果你能自訂你的架構或加速器、頻寬以及加速頻寬與IO 的比率,你可能就能比使用普通硬體更有效率地完成你非常關心的特定工作負載或非常特定的工作負載。


Broadcom會與客戶合作,客製化他們所擁有的架構,以確保他們能夠最大限度地提高他們所關心的效能。當考慮效率和最佳化時,還有另一個非常好的效果,會使它更小,更便宜,使用更少的空間。因此,當這些公司開始使用我們共同開發的設計時,他們就能節省數百萬甚至數十億美元的資本支出,因為這些設計完全符合他們的需求,內存和AIO 的比例都恰到好處。

Broadcom提供的XPU為優化的工作負載提供最低功耗、最佳效能,使我們能夠以整體擁有成本(TCO)獲得最佳效能,這就是Broadcom所專注的,博通能夠提供包括網路、架構、互聯等一整套方案,滿足不同客戶的需求。

Frank Ostojic表示,Broadcom在客製化晶片方面會抓住三個重點,第一是專注,Broadcom想做好一件事,而且已經做了10 年,就像30 年前在惠普公司創業時一樣,做這種消費級AI 高難度晶片,第二是投資,30 億美元主要集中在人工智慧領域,並優先考慮人工智慧。第三是經驗,10 年的修補、學習錯誤、改進流程和勤奮的紀律,以使用相同的流程,還有三年或四年的投資,用於我們認為客戶會需要的未來專案。(半導體產業觀察)