輝達的“下跌根源”:尖端晶片,性能越強、製造越難



晶片製造的“極限挑戰”。

如果用一句話概括輝達的“下跌根源”,那便是尖端晶片,性能越強、製造越難。

周三,輝達在報告了強勁的季度銷售和利潤時也指出,新晶片的製造難題導致利潤率下降,公司在最近一個季度計提了9.08億美元的準備金。受此影響,其股價在周四下跌了6.4%。

該公司在聲明中承認, Blackwell架構GPU存在良率問題,需要重新設計B200處理器部分設計以提升良率,因而下一代Blackwell架構GPU量產時間將推遲至2024年第四季度:

“我們調整了Blackwell GPU的設計,以提升生產良率。Blackwell的生產計畫將於第四季度啟動,並持續至2026財年。

我們預計Blackwell產品將在第四季度實現數十億美元的營收。”

輝達並未詳細說明問題的具體原因。但分析師和行業高管認為,工程挑戰主要源於Blackwell晶片的設計帶來的複雜製造工藝問題。

分析指出,Blackwell的巨型尺寸及複雜設計帶來了前所未有的製造複雜性,任何一個部件的缺陷都可能導致晶片報廢,從而影響良品率和利潤。此外,晶片各部分的熱膨脹係數差異也可能導致封裝翹曲,影響性能和可靠性。

為提高良品率,輝達已對Blackwell設計進行調整,並計畫按計畫提高產量。但分析師認為,採用台積電新型晶片連接技術的複雜性,以及晶片尺寸帶來的固有挑戰,仍將是Blackwell量產的主要障礙。

行業分析公司TechInsights的副總裁G. Dan Hutcheson表示:

“問題在於如何讓晶片協同工作及提高良品率,當晶片各個部分的良品率不夠高時,一切都可能迅速變差。”

01 Blackwell晶片的複雜性

為了保持在人工智慧晶片領域的領先地位,輝達(NVDA)寄希望於“越大越好”的理念。然而,更大的尺寸,在帶來更強性能的同時,也帶來了更大的製造難度。

輝達最新的AI晶片Blackwell,被黃仁勳描述為“非常非常大的GPU”,在物理意義上,它確實是當前面積最大的GPU,由兩顆Blackwell裸片拼接而成,採用台積電4nm工藝,擁有2080億電晶體——是前代產品的2.6倍。

瑞銀分析師在本月早些時候的一份報告中表示,輝達在Blackwell上遇到的主要問題是採用台積電 CoWoS-L 新型封裝方式過於複雜。


半導體行業專業媒體semianalysis報導稱,該封裝技術使用帶有本地硅互連(LSI)橋接的RDL中介層連接芯粒,傳輸速率可達10 TB/s左右,這些橋接的放置精度要求極高—— 任何一個部件的缺陷都可能導致整塊價值4萬美元的晶片報廢,從而影響良品率和利潤。

此外,由於GPU芯粒、LSI橋接、RDL中介層和主機板基板之間的熱膨脹係數(CTE)不匹配,導致了晶片翹曲和系統故障。據報導,為提升良率,輝達不得不重新設計GPU晶片的頂部金屬層和凸點。


黃仁勳在與分析師的電話會議上強調,Blackwell晶片不需要進行任何“功能性改變”,所有調整均是為了提升良率。

首席財務官 Colette Kress 表示,輝達正按計畫提高 Blackwell 的產量,預計在四季度,Blackwell 將為公司帶來數十億美元的收入。

02 美光新增DRAM擴產計畫

據日本媒體報導,美光計畫在日本廣島縣新建一座DRAM晶片生產工廠,目標最快於2027年底投入營運。

這類問題並非輝達獨有。業內人士表示,隨著晶片製造商希望通過增大晶片尺寸來提高處理能力,這類問題會越來越多。為了消除缺陷或提高良品率而進行的晶片設計變更在業內也很常見。

晶片巨頭AMD的CEO蘇姿丰也指出,隨著晶片尺寸不斷增大,製造複雜性將不可避免地上升。下一代晶片需要在能效和功耗方面取得突破,才能滿足人工智慧資料中心對計算能力的巨大需求。

“要使這些技術發揮作用,需要大量的技術投入,”她說。“它們會變得更加複雜和更大嗎?毫無疑問。這就是我們的現實。”

當然, 為突破單個晶片的尺寸限制,輝達將兩塊最大尺寸晶片組合,打造出Blackwell的激進策略也引來了競爭對手的質疑。

競爭對手Cerebras Systems創始人Andrew Feldman認為,開發多晶片組合技術的難度將呈指數級增長。Cerebras Systems選擇開發巨型單晶片,並推出了基於此的人工智慧雲端運算服務,試圖挑戰輝達的市場地位。

Andrew Feldman表示:

“在人工智慧領域進行有意義的工作,需要大量計算能力,這需要大量電晶體,比單個晶片所能容納的還要多......

開發出雙晶片技術已經很難,開發出四晶片技術更難,而開發八晶片技術更是難上加難。”

輝達的巨型晶片戰略能否最終勝出,仍有待市場檢驗。但可以肯定的是,晶片製造的極限挑戰才剛剛開始。 (硬AI)