輝達的“下跌根源”：尖端晶片，性能越強、製造越難

2024/09/01

•

晶片製造的“極限挑戰”。

如果用一句話概括輝達的“下跌根源”，那便是尖端晶片，性能越強、製造越難。

周三，輝達在報告了強勁的季度銷售和利潤時也指出，新晶片的製造難題導致利潤率下降，公司在最近一個季度計提了9.08億美元的準備金。受此影響，其股價在周四下跌了6.4%。

該公司在聲明中承認， Blackwell架構GPU存在良率問題，需要重新設計B200處理器部分設計以提升良率，因而下一代Blackwell架構GPU量產時間將推遲至2024年第四季度：

“我們調整了Blackwell GPU的設計，以提升生產良率。Blackwell的生產計畫將於第四季度啟動，並持續至2026財年。

我們預計Blackwell產品將在第四季度實現數十億美元的營收。”

輝達並未詳細說明問題的具體原因。但分析師和行業高管認為，工程挑戰主要源於Blackwell晶片的設計帶來的複雜製造工藝問題。

分析指出，Blackwell的巨型尺寸及複雜設計帶來了前所未有的製造複雜性，任何一個部件的缺陷都可能導致晶片報廢，從而影響良品率和利潤。此外，晶片各部分的熱膨脹係數差異也可能導致封裝翹曲，影響性能和可靠性。

為提高良品率，輝達已對Blackwell設計進行調整，並計畫按計畫提高產量。但分析師認為，採用台積電新型晶片連接技術的複雜性，以及晶片尺寸帶來的固有挑戰，仍將是Blackwell量產的主要障礙。

行業分析公司TechInsights的副總裁G. Dan Hutcheson表示：

“問題在於如何讓晶片協同工作及提高良品率，當晶片各個部分的良品率不夠高時，一切都可能迅速變差。”

為了保持在人工智慧晶片領域的領先地位，輝達（NVDA）寄希望於“越大越好”的理念。然而，更大的尺寸，在帶來更強性能的同時，也帶來了更大的製造難度。

輝達最新的AI晶片Blackwell，被黃仁勳描述為“非常非常大的GPU”，在物理意義上，它確實是當前面積最大的GPU，由兩顆Blackwell裸片拼接而成，採用台積電4nm工藝，擁有2080億電晶體——是前代產品的2.6倍。

瑞銀分析師在本月早些時候的一份報告中表示，輝達在Blackwell上遇到的主要問題是採用台積電 CoWoS-L 新型封裝方式過於複雜。

半導體行業專業媒體semianalysis報導稱，該封裝技術使用帶有本地硅互連(LSI)橋接的RDL中介層連接芯粒，傳輸速率可達10 TB/s左右，這些橋接的放置精度要求極高—— 任何一個部件的缺陷都可能導致整塊價值4萬美元的晶片報廢，從而影響良品率和利潤。

此外，由於GPU芯粒、LSI橋接、RDL中介層和主機板基板之間的熱膨脹係數(CTE)不匹配，導致了晶片翹曲和系統故障。據報導，為提升良率，輝達不得不重新設計GPU晶片的頂部金屬層和凸點。

黃仁勳在與分析師的電話會議上強調，Blackwell晶片不需要進行任何“功能性改變”，所有調整均是為了提升良率。

首席財務官 Colette Kress 表示，輝達正按計畫提高 Blackwell 的產量，預計在四季度，Blackwell 將為公司帶來數十億美元的收入。

據日本媒體報導，美光計畫在日本廣島縣新建一座DRAM晶片生產工廠，目標最快於2027年底投入營運。

這類問題並非輝達獨有。業內人士表示，隨著晶片製造商希望通過增大晶片尺寸來提高處理能力，這類問題會越來越多。為了消除缺陷或提高良品率而進行的晶片設計變更在業內也很常見。

晶片巨頭AMD的CEO蘇姿丰也指出，隨著晶片尺寸不斷增大，製造複雜性將不可避免地上升。下一代晶片需要在能效和功耗方面取得突破，才能滿足人工智慧資料中心對計算能力的巨大需求。

“要使這些技術發揮作用，需要大量的技術投入，”她說。“它們會變得更加複雜和更大嗎？毫無疑問。這就是我們的現實。”

當然，為突破單個晶片的尺寸限制，輝達將兩塊最大尺寸晶片組合，打造出Blackwell的激進策略也引來了競爭對手的質疑。

競爭對手Cerebras Systems創始人Andrew Feldman認為，開發多晶片組合技術的難度將呈指數級增長。Cerebras Systems選擇開發巨型單晶片，並推出了基於此的人工智慧雲端運算服務，試圖挑戰輝達的市場地位。

Andrew Feldman表示：

“在人工智慧領域進行有意義的工作，需要大量計算能力，這需要大量電晶體，比單個晶片所能容納的還要多......

開發出雙晶片技術已經很難，開發出四晶片技術更難，而開發八晶片技術更是難上加難。”

輝達的巨型晶片戰略能否最終勝出，仍有待市場檢驗。但可以肯定的是，晶片製造的極限挑戰才剛剛開始。 (硬AI)