Cerebras在IPO時,到底是一家高增長 AI 晶片公司,還是一份由複雜合同、股權激勵、客戶繫結和會計處理共同包裝出來的 AI 算力故事。
但真正的難題,IPO之後才剛剛開始。
作為產品的Wafer-Scale Engine,幾乎把整個系統都做成了定製件:Silicon、封裝、連接器、供電、散熱,每一層都圍繞WSE定製設計。
這種看起來高精尖的架構,在早期項目裡很有吸引力。但IPO上市之後,二級市場的投資人就會追問各項業務指標,比如說:
- 產品和業績能不能按季度交付?
- 能不能複製到多個客戶?
可以的話產能會不會受限,毛利率咋樣?
這裡最重要的是,從供應側到需求側是否一路暢通?
這是Cerebras要面臨的新考題,規模化複製與大規模交付。
01
架構優勢
也限制了市場邊界
如上一篇文章警惕全球“最大”晶片IPO的暴雷風險所述,Cerebras的核心產品Wafer-Scale Engine(WSE),是把整片 12 吋晶圓做成一顆晶片。傳統 GPU 或 TPU 從晶圓上切出 die,再做封裝;Cerebras 保留整片晶圓,讓晶圓本身成為計算系統。
WSE-3 有約90 萬個處理核心、44GB 片上 SRAM,記憶體頻寬達到 21PB/s。這個指標在推理 decode 階段很有價值。Decode 階段高度受記憶體頻寬約束,尤其在低 batch、低延遲場景下,權重和 KV cache 的訪問效率會直接影響 token 輸出速度。
這也解釋了 Cerebras 為什麼從訓練轉向推理。
訓練市場最終沒有接受 Cerebras,原因並不複雜。訓練需要的不只是單顆晶片的片上頻寬,還需要外部記憶體、外部互連、通訊庫、調度系統、軟體棧、開發者習慣和雲平台部署能力。Nvidia 的訓練壁壘在整個系統:GPU、CUDA、NCCL、NVLink、NVSwitch、HBM、伺服器、雲廠商和開發者生態綁在一起。全球大模型訓練客戶的核心任務是快速迭代、留在牌桌上,很難把主訓練鏈路遷移到一套非主流架構上。
推理任務中的P-D分離(prefill & decode)、Attention和Feed-forward的分離給了Cerebras 新機會。Prefill 更偏計算,Decode 更偏記憶體。Cerebras 把模型切分到多個 WSE 上,讓權重和 KV cache 儘量留在片上,片與片之間主要傳遞 activation。這樣一來,WSE 繞開了片外互連相對不夠強的短板,把優勢集中釋放在片上 SRAM 和 decode 吞吐上。
這條路線雖然有工程價值,但它只適合少數對即時性、低延遲、高吞吐有明確需求的大客戶,難以覆蓋全部推理市場,多數推理負載仍會運行在 GPU 或其他 xPU 上。
更尷尬的是,由於之前是為訓練任務而開發,所以主要支援的資料精度是FP32、FP16、BF16 等格式,因此他沒有FP8和FP4,這其實並不太符合當前推理任務追求高效率的方式。
所以從產品定位的視角來看,Cerebras 更像一套圍繞特定推理負載建構的高速 token 工廠,它需要深度繫結大客戶。
也就是說,市場端規模化複製這條路,會受制於OpenAI、AWS這種大客戶。
那供應端規模化交付呢?我們從架構和技術的角度來對供應鏈進行分析。
02
供應鏈依賴:
Wafer和封裝對TSMC的高度依賴
Wafer-scale 晶片並不是新概念。前任曾嘗試過這項技術但沒成功,但業界意識到良率、Reticle Stithcing這種工程製造端的高依賴性。
正如上一篇文章所述,Cerebras 通過很巧妙的工程設計解決了這個問題。它把存在缺陷的處理單元所承擔的計算任務,重新路由到晶片上的備用單元。雖然官方說有 90 萬個工作核心,但晶圓上實際存在的物理核心接近 100 萬個。這些核心通過軟體配置,在系統層面表現得像一顆“無缺陷”的晶片。
但這是建立在Cerebras與TSMC共同開發了冗餘方案、Wafer-Scale 的跨Reticle的互連、以及封裝技術的基礎上,這一技術和產品路線在物理上可行,高度依賴於TSMC。
從這個角度上說,Cerebras所面對的Foundry卡點問題,並不比中國企業的更低。
供電模組
WSE-3功耗約23kW,對應超過 20,000安電流,Cerebras把一整個機櫃等級的計算資源壓到一片晶圓上,供電問題想想都讓人慎得慌!
橫向供電會帶來嚴重損耗和壓降,所以不能指望從晶圓一側供電,再讓晶圓上的每個區域都獲得穩定電源。Cerebras的方案是垂直供電,讓電流垂直穿過晶圓表面,通過分佈在表面的數百個 voltage regulator modules(VRMs)向下送電。WSE上84 個die各自有獨立供電。
這個設計很強,通過仔細梳理產業鏈資源,可以提供VRM的關鍵供應商是某公司(歡迎加作者微信(Johnson_in_AI)來討論晶片設計中供電的問題)。他的第二代技術,是目前看到的最符合 WSE-3 engine block 電流密度和規格要求的商業化方案。
這意味著Cerebras的交付能力和這家供應商的產能被綁在一起。
如果關鍵供電模組沒有Second Source,那麼定製Power部分的驗證周期將會以年為單位,供應商擴產節奏也會直接影響Cerebras的產能和收入確認。OpenAI和其他大客戶的訂單再大,也不能繞過物理供給。
雖然傳統晶片公司也有類似約束,比如先進封裝依賴 CoWoS,HBM依賴SK Hynix,先進製程依賴TSMC。但 Cerebras 的特殊性在於,他不是通用供應鏈產品,而是需要圍繞WSE做定製方案。
越定製,越難替換!
財務資料可以假設收入線性增長,但工程交付就沒辦法了。供電、散熱、封裝這類環節一旦出問題,影響的不是某個小部件成本,而是整套系統出貨節奏。
散熱和熱膨脹
一片WSE-3功耗23kW,也就意味著要發這麼多的熱,這些熱必須被快速帶走。普通冷板、普通風冷、普通伺服器級液冷設計都不足以直接解決這個問題。通過對Cerebras為此設計了 Engine Block packaging。它是一個四層結構,包括 Cold plate、Wafer、custom connector 和 PCB,中間通過內部閉合水循環把熱從 cold plate 背面帶走。
這裡最難的部分不只是把熱帶走,還要處理不同材料之間的熱膨脹係數。
矽、PCB、金屬、彈性連接材料、冷板,它們受熱後的膨脹程度不同。一片 215mm x 215mm 等級的晶圓在高功耗執行階段,如果連接結構沒有足夠的機械緩衝,熱應力會讓連接失效。早期做wafer-scale的公司做不好,除了良率做不好以外,封裝、散熱、機械應力也是很大的障礙。
專業的角度看,Cerebras在這方面確實做出了工程突破。它的 Custom connector 能吸收不同材料之間的膨脹差異,但其中的Elastomeric由專業供應商製造,核芯洞察試圖定位這家供應商,但不知道具體是誰。(歡迎業內同仁就此進行交流)
再來說說Cold plate。
分析WSE-3 cold plate 的公開外形特徵,與某家美國公司的平台高度相似,它過去公開過最大 300mm x 500mm 等級的,尺寸上可以覆蓋WSE-3 的 215mm x 215mm footprint。
這家企業(可以聯絡作者WX:Johnson_in_AI溝通)的技術協助Cerebras處理散熱。它讓coolant 垂直於被冷卻表面流動,對於面積這麼大的晶圓來說,這比橫向 parallel-flow更合理。橫向流動會讓入口和下游區域產生明顯溫差,導致晶圓不同區域溫度不均。
它可以根據熱圖做微通道密度匹配。WSE-3有84個die區域,不同區域在不同時間運行不同負載,熱分佈並不均勻。能否根據熱圖做冷卻通道設計,會直接影響系統穩定性和效率。
這家可能的供應商被一家著名的企業收購了,放在 AI 基礎設施快速走向液冷、定製冷板、高熱流密度系統的背景下,這次收購有很強的產業訊號。(抽空寫一篇有關係統熱管理文章)
雖然雙方沒有公開確認合作關係,從技術特徵上看,能夠滿足這種尺寸、熱流密度、均溫要求和定製化設計能力的供應商並不多。那麼 Cerebras 又多了一個重要的單點依賴。
供應鏈狀況小結
對Cerebras來說,他的供應鏈體系是一個很典型的單一來源高度依賴的系統:Wafer和Reticle stitching依賴TSMC,供電和冷卻單一供應商我應該是找到了,但elastomeric connector和其他內部元件我還沒找到,估計也是單一來源。
雖然我們不能由此就說大規模交付會出問題,但它上市之後的企業經營質量,確實也要看這些底層供應鏈節點能不能同步擴張,進而保障大規模交付。
03
Cerebras 的資本故事
開始進入工程兌現期
上一篇文章警惕全球“最大”晶片IPO的暴雷風險中,我寫過 Cerebras 的 IPO 敘事中有三個很重要的變數:客戶集中度、Warrant 換訂單、會計報表中的利潤質量。
現在可以補上第四個變數:全定製架構的規模化能力。
IPO之前,Cerebras只是賣少量高端系統給 G42、MBZUAI這類主權 AI 項目,它可以用深度工程、定製交付和高客戶參與度來解決很多問題。客戶少、項目集中、節奏可控,這種模式雖然收入集中,但工程上更容易管理。
但OpenAI購買的是計算時間,或者說是純算力,不是硬體裝置本身,這就把問題推到了更高層級。750MW的基礎承諾,2030年前最高建設2GW,這需要交付的是AI資料中心等級的基礎設施營運。
Cerebras需要把WSE-3 系統部署進去,並作為AI雲服務營運。
這意味著Cerebras要同時具備三重身份,同時完成三件事。
第一,作為晶片公司,要持續迭代硬體。新一代的WSE-4必須回應低精度、推理成本、片外互連和軟體適配更多模型問題。
第二,作為系統公司,要管理供電、散熱、封裝、伺服器、網路、維運和可靠性。
第三,作為雲服務公司,要交付 SLA、控制Capex、提升利用率、管理客戶合同和收入確認。
這三種能力按道理分屬不同類型的公司。Nvidia 能夠做成 AI 基礎設施核心公司,是因為它幾十年裡逐步把 GPU、CUDA、網路、系統、軟體庫、開發者生態和雲廠商部署能力連在一起。
而Cerebras選擇的是另一種方式:用極致定製架構切入特定類別的高價值推理負載,再通過 OpenAI 這樣的大客戶把規模拉起來。
這條路似乎成了AI晶片公司的下一步演化趨勢,但它的規模化瓶頸非常大,正如上面兩部分的核芯洞察,除了晶片性能本身,還會出現在供應鏈鏈條和工程化難題上。
對AI晶片創業者來說,這就是全定製架構的代價;對硬體創業者來說,這也是創新者必須要面臨的挑戰。
04
對AI 晶片創業的新啟示
由此,我們就可以通過分析Cerebras 的案例,來分析AI晶片創業公司的門檻與關注點。
我們看到的AI 晶片公司總喜歡宣傳某些可以量化到吸引人眼球的指標,算力、memory頻寬、能效、推理速度比 GPU 快多少。
但到了真實商業化階段,真正需要關心的是外界還未能窺探的其他更長、更實際的的問題。
客戶需求中的那些模型需要跑、可以跑?精度損失在那些場景下可以被接受?線上服務穩定性如何?下一代產品路線是否跟得上AI產業的演進方向與節奏?
而其中更重要的是,供應鏈系統,是否可以支撐架構創新與大規模準時交付。
這也是 AI 晶片行業正在發生的變化。晶片公司越來越難只靠晶片本身在競爭中取勝,其真正的競爭單位正在從單晶片變成系統,從 TOPS 變成Token 成本,從峰值性能變成持續服務能力,從硬體指標變成軟硬體共同最佳化後的可交付能力。
這也是為什麼我一直認為,AI 算力基礎設施的競爭,最終會回到系統工程。計算、儲存、互連、記憶體、供電、散熱、封裝、軟體棧、調度系統、資料中心營運,每一個環節都可能成為瓶頸。Cerebras 把一部分瓶頸壓進了片上,也因此把另一部分瓶頸推到了供電、散熱、材料和供應鏈上。
05
對投資者意味著什麼
Cerebras 的工程高壁壘是真實的。能把Wafer-Scale封裝成可用系統,並且讓它在高功耗、高熱流密度、高機械應力下工作,這不是普通創業公司靠 PPT 能講出來的能力。
因此,上述分析並不削弱 Cerebras 的工程價值,相反,它說明 Cerebras確實做了一件難事。
但對資本市場來說,難本身不能等價於一個好生意。
Cerebras上市時受到追捧,這不難理解。AI 資本開支仍然處在高位,OpenAI 合同足夠吸引眼球,Wafer-Scale Engine 具有很強的技術辨識度,市場也需要 Nvidia 之外的新故事。
Cerebras 的 IPO 不是故事結束,而是驗證開始。資本市場可以先給熱情,但工程系統最終會給答案。
但本文想說的是,Cerebras 上市之後,即便這些資本敘事成立、上一篇文章警惕全球“最大”晶片IPO的暴雷風險中提出的問題可以得到合邏輯的解決,真正影響長期估值的問題,也需要更具體地正視,那就是是否可以規模化地複製與交付。
從需求側來看,Cerebras不太可能取代Nvidia,它也沒有必要取代 Nvidia。它的意義在於,在 Nvidia 主導訓練和大部分通用推理的市場格局中,是否存在一塊足夠大的低延遲、高吞吐推理市場,可以支撐一家全定製架構公司的長期成長。
從供給側來看,這種壁壘和規模化之間在起步階段存在著天然挑戰。越是依靠獨特材料、獨特結構、獨特工藝和內部 know-how,越難快速找到替代供應商,越難把生產經驗遷移到外部體系。Cerebras 的技術護城河,到了交付階段會變成供應鏈營運壓力。
這就和其他的AI 晶片創業公司的問題不同。大多數 AI 晶片公司的主要風險是軟體生態、客戶適配、性能兌現、量產成本。Cerebras 這些問題也有,但它額外多了這些更底層的物理問題。
這些問題就不是迭代幾次軟體就能解決,這是半導體製造、先進封裝、電源系統、熱機械工程共同構成的系統性問題。 (核芯洞察)
