2nm晶片困境

在 2 奈米及以下工藝水平,摩爾定律意味著更多,但更多也意味著更少。

理論上,在光刻膠大小的晶片上整合的電晶體越多,晶片處理資料以及在儲存器和晶片之間來回傳輸資料的速度就越快。但理論與現實正在出現偏差。

從歷史上看,實現這一目標的最佳方法是縮小電晶體、導線和儲存單元的尺寸。但在 2 奈米及以下製程工藝下,這種方法面臨嚴峻挑戰。導線非常細,導致 RC 延遲成為一個重大難題。作為快取主要手段的 SRAM 尺寸縮小,在數字邏輯電路的縮小方面遠遠落後。這反過來又限制了單個光罩大小的晶片上可容納的儲存容量。此外,由於工藝偏差,在晶圓廠中實現相同的良率也變得更加困難,因為工藝偏差可能出現在數百甚至數千個插入點以及製造過程中使用的數十種工具上。

任何製造工藝都存在一定程度的偏差,但在2奈米製程中,偏差的程度及其成因都在增加。由於金屬層和襯底越來越薄,容易發生翹曲,導致凸點無法完全連接;此外,為確保晶片可靠性而需要的數十道工序也可能削弱或損壞脆弱的互連結構或材料。晶片製造裝置本身存在偏差,原材料和晶圓也同樣如此。其結果是,雖然晶片上的電晶體和互連數量更多,但缺陷率也更高。成本上升,良率下降。

Synopsys工程副總裁 Abhijeet Chakraborty 表示:“人們期望尺寸縮小後,器件性能會更快、功耗更低、電晶體密度更高。但挑戰在於能否實現這些目標。能否實現性能提升 10% 到 15%,功耗降低 20% 到 30%?對於許多注重每瓦性能和電晶體密度的應用來說,更低的功耗極具吸引力。但能否做到這一點呢?這其中蘊含著諸多挑戰和考量。實際應用中,良率和可製造性都面臨著諸多挑戰。”

製造工藝是一個不斷完善的過程。隨著時間的推移,工藝不斷改進,使得代工廠能夠放寬那些為每項前沿工藝預留裕量的嚴格設計規則,也使得EDA和裝置供應商能夠針對每項工藝制定相應的規則和例外情況。最初,僅僅是讓這些先進節點設計能夠正常運行本身就是一項工程壯舉,而早期版本通常是針對最壞情況設計的,其中包含冗餘電晶體、互連線以及足夠的內建自測試功能,以便在必要時重新路由資料和處理過程。

但這種利潤空間會佔用寶貴的面積資源,限制性能和動力方面的投資回報。

“在2nm和18A工藝中,裕量已成為最受詬病的資源之一,” proteanTecs首席技術官Evelyn Landman表示。“裕量必須足以應對工藝偏差、熱效應和環境影響、工作負載壓力、潛在缺陷以及老化等問題。將所有這些因素彙總到一個單一的最壞情況保護帶中已不再可行。靜態保護帶會犧牲性能和功耗,並且仍然無法抵禦實際應用環境中的各種挑戰。唯一可持續的方法是直接測量保護帶,即在實際工作負載下,以高覆蓋率即時監測時序裕量,並在產品生命周期內持續管理。其核心思想是直接監測時序裕量,而不是通過間接方法。”

隨著工藝的成熟,可以在保持可接受良率的前提下減少裕量。但對於5nm以下的每個新節點,尤其是2nm及以下節點,實現這一目標所需的時間越來越長。儘管16/14埃節點正在研發中,10埃(相當於1nm)節點的研發工作也已啟動,但從5nm之後的每個節點開始,達到足以滿足大規模量產良率要求的量產所需的時間都在延長。

英特爾邏輯技術副總裁兼總經理 Ben Sell 表示:“14A 之後,下一個重要的製程節點是 10A。我們已經在研發這個節點了,但節點名稱本身並不重要,重要的是它能否滿足客戶的需求。我們通常會先確定一個基礎節點。我們會為少數幾個最重要的客戶定義一個基礎節點。我們稱這些客戶為‘定義型客戶’,節點就是根據他們的需求來定義的。如果這個節點滿足了我們主要客戶的需求,那麼在與更多客戶合作時,我們可能會對這個節點進行一些修改。比如增加幾層金屬層,或者進行一些小的改動,以滿足特定產品的需求。但這些改動幅度相對較小,因為我們希望確保所有已開發的 IP 都能在晶片上使用,這樣就無需重新設計已經過驗證和測試的 IP。”

10A節點很可能是最後一個採用環柵場效應電晶體(GAA)的節點(儘管業界歷來都有將技術推向超出預期水平的先例)。取而代之的是互補型場效應電晶體(FET) ,前後可能相差一兩個節點,這種電晶體結合了在不同晶圓上開發的nFET和pFET。

“CFET 是一種器件架構,” Lam Research的首席人工智慧官兼 Semiverse Solutions 公司副總裁 David Fried 表示,“與 FinFET 和環柵 FET 相比,它增加了前端的複雜性和挑戰。結構更加複雜,涉及的材料也更多。這些材料之間的距離將比以往任何時候都更近。但 CFET 的有趣之處在於,從平面到 FinFET 再到環柵,我們的 nFET 和 pFET 一直都是橫向相鄰的。而對於 CFET 來說,它們將上下堆疊。這帶來了巨大的結構複雜性,以及我們以前從未見過的互連複雜性。例如,許多背面的電源分配必須考慮到 nFET 和 pFET 是上下堆疊而不是相鄰的。因此,CFET 的複雜性將滲透到該技術的許多其他方面。它不僅僅是電晶體的創新。”

圖 1:CFET,顯示了 nFET 和 pFET 的位置


經濟形勢的變化,加速了創新

人工智慧資料中心的大規模建設和部署,從根本上改變了2奈米及以下製程晶片的設計和製造格局。雖然從功耗角度來看,晶片尺寸的縮小仍然被視為優勢,性能方面也有一定程度的提升,但光罩尺寸的晶片上可用的空間不足以處理生成式人工智慧和智能人工智慧所需的大量資料。因此,與其試圖將所有功能都塞進單個晶片,不如將重點轉向多晶片封裝的晶片組,儘管名稱如此,但這些晶片組的尺寸可以與光罩尺寸相同。

這帶來了一系列新的權衡取捨。對於定製化高級封裝中的多個晶片而言,面積不再是主要問題,但資料的編排和傳輸卻變得極具挑戰性。解析人工智慧計算是一個複雜的、大規模平行操作,其中處理過程可能被分配到不同的處理單元,最終將結果合併。自 IBM 在 20 世紀 80 年代首次大規模平行處理以來,最後一步一直是個難題。

首先,將所有資料同時移動到正確的位置極其困難。任何處理單元的延遲,或因工作負載特定的熱梯度導致的一條或多條資料路徑的不均勻老化,都可能降低整個系統的性能。此外,在20埃或更小的距離下,驅動晶片間長距離訊號所需的電阻會增加功耗,從而導致封裝內部溫度升高。關鍵在於確定這些多晶片元件將如何利用特定的工作負載,因為這會影響封裝內部熱量的積聚位置。隨著工作負載的變化,熱量也會隨之轉移。這會導致熱點的出現,進而加速電遷移,最終可能減緩甚至完全阻斷資料傳輸。

“工作負載如今已成為首要的設計約束條件,”proteanTecs公司的蘭德曼表示。“重要的不僅是計算量的使用,還有計算量隨時間推移的使用方式。大型語言模型訓練和推理模式會在晶片上造成高度不均勻的壓力。即使是相同的晶片,瞬時峰值、局部熱點和長時間的壓力模式也會產生截然不同的結果。忽略工作負載行為的設計要麼會過度約束,要麼會在實際應用中顯得脆弱。”

隨著晶片逐漸演變為由連接到某種中介層的微型晶片組成的集合體,這一點變得尤為重要。此外,為了使用更細的導線在更長的距離上傳輸更多資料,還需要進行其他方面的改進。在最先進的工藝節點上,需要採用新的材料和工藝,以提高先進封裝內部以及封裝之間長距離傳輸電子(最終也包括光子)的遷移率,同時還要提高結構穩定性,並減少2.5D和3.5D結構中的翹曲。

“從高介電常數材料和金屬柵極到用於應力源的矽鍺,材料創新層出不窮,”Lam Research 的 Fried 說。 “隨著先進邏輯電晶體的發展,我們大約每十年就會看到幾項材料創新。在我目前的工作中——我涉及邏輯器件、DRAM、NAND、許多不同的專業市場以及先進封裝——這種創新是持續不斷的。從鎢到鉬的過渡已經在NAND和DRAM字線以及底層邏輯互連中發生。從鈷到釕的過渡似乎還要過一段時間,但我們將在底層互連和布線等特定領域看到它的應用。你可以觀察任何一項材料過渡,並行現它在多個不同技術領域——邏輯、DRAM和專業先進封裝——的交匯點。這些過渡正在各個領域發生。專業技術領域令人無比興奮。例如整合光子學。我們討論整合光子學已經很久了,但這些大型人工智慧系統真正推動了人們對整合光子學的更多關注。整合光子學的材料選擇可能非常複雜,因此該領域將會出現材料過渡。”

在這樣的尺寸下,規模經濟和可重複性變得愈發重要。從2008年開始,晶片行業著手將晶圓尺寸從300毫米過渡到450毫米,以期在一片晶圓上製造更多晶片,從而抵消不斷上漲的研發成本。然而,由於當時能夠從450毫米晶圓中獲益的公司數量不足,這項計畫於2017年被擱置。

自那時以來,市場已經發生了變化。現在有四家領先的晶圓廠——英特爾晶圓廠、台積電晶圓廠、三星晶圓廠,以及新加入的Rapidus晶圓廠——同時,由於人工智慧的發展,人們對更高性能的需求也永無止境。

僅僅提高時脈頻率已不再可行,因為這會燒燬晶片,因此業界選擇了採用多晶片方案,即晶片組(chiplet)。製造所有這些晶片組最經濟的方法是使用大型矩形面板,而不是300毫米圓形晶圓。這與轉向450毫米晶圓的原理相同,只是形狀和尺寸不同,並且作為被動基板。矩形尺寸比圓形晶圓能容納更多的晶片,而且工藝更容易標準化,而無需像從大型圓形晶圓中搾取更多可用面積那樣費力。英特爾實驗室甚至提出了面板級晶片方案,該方案基本上是將Cerebras開發的晶圓級方案擴展到500 x 500毫米的全尺寸面板上。

然而,這種變化的幅度令人望而生畏。它需要全新的裝置和不同的薄晶圓處理方法,這絕非易事。此外,由於機械應力,最大偏差區域也從晶圓邊緣轉移到了面板中心。

Rapidus封裝技術現場首席技術官Rozalia Beica表示:“圓形晶圓仍將是初期階段,更多地應用於2.5D矽中介層。但即便如此,由於光罩尺寸的限制,業界也已開始轉向面板封裝。面板封裝的產能將更高。這實際上取決於中介層的尺寸以及我們將要生產的封裝類型,但我們將在同一家晶圓廠完成封裝和矽晶片的製造。我們無需將晶片運送到其他晶圓廠或其他國家進行封裝。”混合鍵合技術也正在蓬勃發展。Beica補充道:“這些晶片將採用晶圓級封裝(DUIW)。晶圓級封裝更適合混合儲存器,但當器件尺寸不同時,晶圓級封裝(DUIW)會更合適——但也更具挑戰性。”

圖 2:晶片封裝結構的演變


更豐富的定製化方案

推動了先進製程節點的發展,其背後是財力雄厚的公司願意投資定製矽晶片以滿足其特定需求和資料類型。Rapidus 的晶圓級晶片 (DIO) 和面板級晶片 (DIO) 技術實現了超越 2nm 電子傳輸通道的定製化。與此同時,英特爾晶圓代工 (Intel Foundry) 將該傳輸通道整合到下層金屬層中,然後提供額外的金屬層以供定製,以及各種互連方式,例如橋接。台積電 (TSMC) 則通過其名為 NanoFlex 的技術,在其標準單元架構中提供靈活性。三星計畫提供一種定製的 HBM,從不同的角度提升性能。最終,每家晶圓代工廠都會找到最適合自己的方案,很可能是多種方法的組合。

“通用平台將會存在,但有意義的定製化仍將保留,”proteanTecs公司的蘭德曼表示。“不同的市場重視不同的權衡取捨。隨著定製化程度的提高,設計意圖、晶片實際情況、封裝性能和系統運行之間快速關聯的需求變得至關重要。正是這種反饋循環使得先進工藝節點能夠超越早期採用者,實現規模化應用。”

高速地對資料進行優先順序排序、分類和傳輸至關重要。在平面SoC中,從晶片一角向另一角傳送訊號仍然比通過中介層將訊號傳輸到晶片外更快。事實上,在先進封裝中實現類似速度的唯一方法是使用全3D積體電路,這種積體電路可以進行佈局規劃,使關鍵資料需要傳輸的距離比平面SoC更短。目前,這種方法已應用於HBM儲存器堆疊下方的邏輯層,但DRAM堆疊能否達到或接近SRAM的速度還有待觀察。此外,由於散熱和偏差相關的問題,全3D積體電路在其他應用中是否具有成本效益也尚不明確。

光子學或許能提供一個可行的過渡方案。近期關於將光波導嵌入玻璃基板的討論表明,這種方法可以顯著加快資料傳輸速度,且產生的額外熱量極少。其面臨的挑戰包括:如何防止玻璃開裂、如何在狹小空間內將光訊號轉換為電訊號,以及如何應對熱致光漂移。值得慶幸的是,許多玻璃和矽的熱膨脹係數大致相同。

光學技術在多個領域發揮著越來越重要的作用。掩模寫入技術的進步使得在晶圓上印刷各種形狀(包括多邊形和曲線形狀)的精度大大提高。

英特爾的塞爾表示:“我們正在非常仔細地研究曲線形狀。這是一種權衡,因為計算這些曲線形狀的成本更高,但精度也更高。所以這取決於你需要多高的精度,因為微調也需要額外的成本。”

另一種選擇是高數值孔徑(NA)的極紫外(EUV)光刻技術。“Intel 18A 的設計允許我們使用單次 EUV 光刻,這非常棒,”Sell 說。“但展望未來,我們將不得不採用多次 EUV 光刻,而這正是用單次高 NA EUV 光刻替代多次低 NA EUV 光刻的機會所在。我們目前正在 Intel 14A 上進行這方面的研究。我們已經制定了設計規則,以便能夠同時使用這兩種技術。但隨著時間的推移,如果能夠用單次高 NA 光刻替代低 NA EUV,就能簡化工藝流程並降低成本。我們對 14A 的各種方案持開放態度。我們知道低 NA EUV 光刻也能實現。而高 NA EUV 光刻則提供了降低成本的機會。”

另一種選擇是在多晶片元件中組合不同類型的單元,這可以進一步降低成本。“IP是設計的關鍵組成部分,當然,IP是針對特定技術節點(例如2奈米)進行最佳化的,”Synopsys公司的Chakraborty表示。“因此,通過這種混合設計理念,您可以混合搭配不同的標準單元。您可以將高性能標準單元與低功耗標準單元以及高密度標準單元混合使用。現在有更多類型的標準單元可供選擇,而工具必須非常智能地選擇它們,才能最大限度地發揮其優勢。如果您為了滿足高性能計算AI設計中非常高的性能目標而到處使用高性能標準單元,那麼您將付出功耗和其他指標方面的代價。但這種混合使用非常重要。”

結論

元件的混搭組合將重點從縮小數字邏輯尺寸轉移到資料傳輸。所謂的“超越摩爾定律”設計是實現人工智慧/高性能計算資料中心以及未來高性能邊緣計算性能目標的唯一途徑。在許多情況下,它們還能加快產品上市速度,因為它們利用了半導體製造領域數十年的經驗積累。

“我們仍然會採用平面加工工藝,”弗裡德說道。“我們仍然會將晶圓放入裝置中,處理晶圓上暴露的所有內容。每個工藝都有其參數、變異性和相關的測量技術。這些都會滲透到你建構的任何結構中。工藝、參數和關鍵性能指標都會更多。但是,理解這些變異性如何滲透到技術中、它們如何相互作用、以及在那裡需要控制它們的基本數學原理並沒有改變。數學計算量確實增加了,但本質上並沒有改變。當技術還比較簡單的時候,我們知道這些數學原理,並且我們進行了所有這些計算。我們最初是在腦海中進行計算,然後我們開發了一些相對簡單的系統來實現這些計算。但現在工藝和參數如此之多,我們必須使用先進的系統,以及支撐這些系統的物理模型或虛擬矽,才能理清所有這些數學計算。” (EDA365電子論壇)