路透社:中國團隊正在大規模維修老舊的AI晶片,用技術修復的方法來緩解晶片斷供的問題

散英魂寄千萬雄鷹翱翔神州,
盡智魄載十億慧芯呼喚華夏。

01 前沿導讀

據路透社新聞報導稱,中國的技術團隊正在針對大規模的老舊輝達晶片進行修理維護工作。

現在中國團隊所掌握的這些來自於輝達的H100、A100晶片,都是在美國禁令實施之前改採購的老舊產品,由於美國的對華封鎖,這些老舊晶片失去了輝達官方的技術維護。#輝達

深圳地區大約有十幾家小公司針對輝達的ai晶片進行維修服務,其每月的處理數量高達500次以上。

這種對老舊產品的技術維修,在一定程度上減輕了中國企業對於先進ai晶片的需求壓力,使其可以繼續採用美國的高算力晶片進行ai訓練。#ai

02 產品修復

正常投入訓練的GPU晶片,其綜合壽命為2-5年,隨後就需要官方對其進行維護保養。但是中國市場的A100、H100晶片長時間高負荷運行,極大壓縮了壽命時間。Meta公司用1.6萬張H100晶片組成的訓練叢集,曾經在54天內出現了400次的故障,其中大約有58%的故障都是因為硬體問題。

在美國頒布了晶片禁令之後,中國市場上面所存在的老舊輝達晶片成為了唯一資源。

持續高負荷的工作負載,將會導致晶片出現損耗,例如干導熱膏、風扇問題、PCB 上的元件疲勞以及 SXM 介面中的連接器引腳損壞或氧化。

以上只是算力晶片可能出現的情況,實際上還會出現更複雜的問題。例如電子系統故障、大型GPU或HBM封裝下的焊點裂紋,甚至HBM記憶體退化。除了模具開裂、中介層分層等致命的硬體故障無法修復之外,其他的問題均可以通過技術手段進行修復。

對於這種外觀破損的產品,輝達官方也是不被列入保修範圍之內的。

據網易科技所發佈的新聞報告顯示,一位在深圳從事晶片維修的商家自2024年開始涉足ai晶片的維修之後,門店每天的維修需求龐大,生意火爆。為了應對日益龐大的維修需求,該商家專門成立了一家新公司,專門處理ai晶片的維修訂單,每個月大約要維修500塊以上的輝達晶片。

為了驗證其維修的精準程度,商家的維修中心還配備了一個可以容納256台伺服器的機房,以此來對維修之後的ai晶片進行技術驗證。

雖然中國企業已經推出了類似作用的ai級晶片產品,但是受制於性能和產能的劣勢,使用輝達晶片來訓練ai依然是目前的主流選擇。

03 市場需求

2022年,在輝達最新的H100晶片發佈之前,美國政府就宣佈在一段時間後,對中國企業進行產品的禁售。這不但限制了H100晶片的對華出口,而且還將兩年前發佈的A100晶片一併封鎖。

按照美國的政策規定,不允許輝達繼續為中國市場上面的受限產品提供售後服務,這也順勢催生出了中國本土的維修產業鏈。

前段時間,美國政府允許輝達的H20晶片對中國進行出口。雖然這塊晶片被美國解除了禁令,但是其算力性能較弱,相當於H100晶片20%的性能,是輝達專供於中國市場的特供晶片。

美國瑞傑金融集團(Raymond James)的分析師曾指出,輝達H100晶片的每塊售價在2.5萬美元—3萬美元之間,如果因產能受阻或是出口管制引起搶購熱潮,那麼輝達所有算力晶片的售價將會大幅度提升。

據財聯社記者通過多方採訪證實,H20系列的價格增速最為明顯。一台內建8塊H20晶片的訓練叢集,其綜合售價已經達到了110萬元,相較於2024年的售價漲幅至少10萬元。

這對於許多中國公司來說,相較於購買H20晶片所獲得的技術效率,還不如去採購本土的ai晶片,或者找技術機構去維護老舊的ai產品。

輝達算力卡經銷商對財聯社記者表示,對於中國市場來說,H20晶片是主流,其次是A100和H100。由於A100和H100均被美國進行了出口管制,只有H20被允許出口,所以H20的售價被進一步拉高。

華為的昇騰晶片雖然在算力性能上面與H20不相上下,但是受限於產能,昇騰晶片還無法完全吃下H20晶片的市場。

在中國國產晶片產能受阻、H20晶片有限供應的情況下,催生出維修老款輝達晶片的技術團隊。這些專注於維修算力晶片的團隊,在一定程度上緩解了中國企業對於高算力晶片的需求。 (逍遙漠)