輝達將推出新中國特供版晶片B20

隨著新冷戰的國際情勢愈演愈烈,美國對於中國的各種出口限制也是層層加碼。首先被波及到的就是以輝達為首的各種高精尖科技公司。在輝達今年5月發佈的2025財年第一季度財報當中,在資料中心業務上,輝達來自中國客戶的營收佔比已經從2023財年的19%,降低到了2024財年的個位數百分比。

面對監管,輝達連續推出了為中國定製的"特供版"晶片。然而這些性能削弱的晶片往往命途多舛。此前出師不利的H20銷量剛剛見漲,輝達卻再次驚聞噩耗。傑富瑞分析師在上周的一份研究報告中透露,美國商務部將於今年10月份對半導體出口限制進行年度評估,到時候可能會禁止H20晶片的出口。

好在老黃也不是沒有對策。面對更加嚴格的限制條款,老黃選擇推出全新的中國特供產品。根據路透社7月22日的獨家報導,四名知情人士透露,輝達正在為中國市場開發一款新的旗艦人工智慧晶片B20,以及配套的伺服器GB20。這款晶片將會與美國目前的出口管制規定相相容,計畫於2025年第二季度開始出貨。

從命名上我們不難猜想,B20是輝達今年三月發佈的Blackwell B200的一個變體。可惜,實際上與特供版的B20晶片可以說是毫無關係。在美國出口管制政策限制下誕生的B20,註定會是一款入門級的產品,與具備行業領先AI性能的B200形成鮮明的對比。不過根據爆料人表示,雖然B20在處理AI計算的時候會比B200慢不少,但是如果在GB20伺服器中將大量晶片安裝在一起,也許可以部分彌補這種缺陷。

相比H20,這款進一步閹割的B20還能做什麼?

目前B20的具體規格還無法確定,但是可以確定的是,絕對不會打破美國GPU出口政策的"天花板"。就像它的老前輩之前推出的H20、L20和L2,這3個晶片的性能都可謂是史詩級的大縮水。不僅性能是剩殘血,而且還只配備了殘血版的NVLink連接。

因為美國對中國GPU出口有嚴格的性能規定,採用了一種名為"總計算性能"(Total Processing Power,TPP)的指標。這個指標將GPU計算能力的TFLOPS和精度納入考量,具體來說,它將不含稀疏性的TFLOPS乘以以位為單位的精度,即得出TPP。當前的限制設定在4800 TPP。

這意味著什麼呢?我們以輝達之前的產品作為參考。Hopper H100和H200已經遠遠超過了這一標準,兩款GPU的TPP都達到了16000,超過規定上限的3倍還多。即使是RTX 4090,他的FP8計算能力也有660.6 TFLOPS,也超過了限制。能夠保持在4800 TPP限制內的、最強大的輝達桌面GPU就是RTX 4090D,它也是專門為遵守出口限制而生產的。

而Blackwell則在計算性能方面樹立了新的標竿,它雙晶片的解決方案可能會輸出大約4500 TFLOPS的FP8計算能力,也就是36000TPP,這將是出口限制的7.5倍。換言之,B20的性能將不足Blackwell B200性能的1/7。

不僅如此,B20還面臨著額外的限制,也就是性能密度(Performance Density,PD)的限制。這是美國對資料中心GPU專門實施的限制,而消費級GPU不受這個影響。將TPP分數除以晶片尺寸,就可以得到PD指標的值,而對中國出口的GPU的PD值不得高於6.0。按照這個指標,基於Ada Lovelace架構的RTX 40系列GPU已經不可以被用於資料中心的使用。而Blackwell在密度和性能上明顯要優於Ada Lovelace,也就是說,輝達需要嚴格限制B20的性能,或者使用更大比例的晶片,才能夠符合相關的規定。

今年3月,美國又升級了對華晶片的出口禁令,表示將對中國出口的AI半導體產品採取"逐案審查"的政策規則,全面限制輝達、AMD以及更多先進AI晶片和半導體裝置向中國銷售。

面對美國政府不斷升級的限制政策,老黃依然不想放棄大陸市場。他在財報會上直言,由於種種限制,中國資料中心的業務已經顯著降低,現在在中國的競爭也更加激烈,這些都是事實。但是輝達將繼續盡最大努力為中國市場的客戶提供服務,會盡最大努力做到最好。

老黃說這些也不是沒有依據。當年的輝達也是在限制政策實施後快馬加鞭,推出了為中國市場特別定製的H20。這款晶片雖然性能相較於H100有所降低,但是也是面向中國市場推出的三款"閹割版"GPU當中性能最強的一款,仍然具備一定的市場競爭力。

根據公開資料顯示,NVIDIA H20隻配備了78組SM單元,相當於H100 SXM版本的六成、PCIe 5.0版本的接近七成。而視訊記憶體為96GB HBM3,只有H100 144GB的三分之二,記憶體頻寬直接砍了一半,到每秒4TB。NVNlink互連頻寬為每秒900GB,功耗為400W。它的算力性能也被閹割得一塌糊塗:INT8/FP8為296TFlops,BF16/FP16為48TFlops,TF32為74TFlops,FP32為44TFlops,FP64為1TFlops。相對於原來H100的AI性能來說,H20降低了將近85%。

儘管性能有所閹割,但是由於它的HBM容量比H100更高,並且與CUDA平台完全相容,所以它在實際AI訓練和推理方面,相比其他國產AI晶片仍然有一定的優勢。與此同時,H20在售價上也頗具競爭力,一片H20需要1.3萬美元左右,不到10萬元人民幣。反觀國內華為昇騰910B則多次漲價,目前已經漲到了12萬元人民幣。

因此,閹割後的H20依然吸引了百度、阿里、騰訊、字節跳動等巨頭的大量採購。市場研究機構SemiAnalysis預測,輝達這個財年有望向中國交付100萬顆H20晶片,單價為1.2-1.3萬美元,銷售總額將超過120億美元。

然而,性能上的缺陷始終是H20邁不過去的一道檻。相當多的企業也表達了對於性能閹割的抱怨,去年搜尋引擎巨頭百度就從華為訂購了部分AI晶片,想要取代輝達的產品。

不過,國內很快就連這個閹割版的H20也快要用不上了。等美國政府在10月份再次審查半導體出口政策的時候,H20的銷售就可能會受到進一步的限制。限制措施可能包括完全禁售、再次閹割性能或者精簡記憶體。此外美國還可能對馬來西亞、印度尼西亞、泰國等其他亞洲國家進行類似的出口管制,從而防止被禁售的產品繞路進入中國市場。

在美國兩黨的各種競選活動中,我們也能頻頻聽到川普的政治承諾,稱要最大限度的加強對華出口限制,連整個東南亞也不放過,說是要讓中國沒有漏洞可鑽。在如今美國政治高度分裂的當下,反華作為為數不多可以讓兩黨選民達成一致的話題,已經被視為彌合分裂的政治膠水。無論是為了在大選期間爭取更多的中間派,還是為了穩固自己已有的選民基礎,驢像兩黨恐怕都會抓住對華出口限制這一救命稻草,並且狠狠的攻擊任何不夠反華的政治對手。從這個角度看,繼續加強半導體出口政策可以說是板上釘釘,那個候選人也承受不起通共的指責,畢竟這可比通俄嚴重多了。因此已經閹割過的H20,恐怕也難逃被禁止的命運。

講到這裡,有人可能會問了:H20被砍的那麼慘都要被禁止了,後續的產品究竟還有多大繼續閹割的空間呢?老黃在大陸的飯碗真要被砸了麼?

閹割後賣不賣不動,大飛不好說,但是閹割的空間還是有的。其實老美並沒有一刀砍死所有的晶片出口,而是逐步在增加更多的限制,這就給了輝達很多操作的空間。BIS於2023推出的1017新規中,並沒有對於C2C,也就是Chiplet後的單die的部分,提出性能上的要求。這其中就有空子可鑽。要知道,B200正是兩個B100以Chiplet的技術堆疊,堆出來的一個晶片。所以,只要將B100單die降規,讓它符合BIS的1017性能密度規範,再用chiplet拼接兩個降規後的B100就可以了。

AWS的莫里斯(Morris)大佬猜測,B20可以通過C2C的方式,在單die符合BIS要求的同時,最大限度的保持整機的視訊記憶體和內外頻寬。而且由於IB的存在,網路差分頻寬的比例更小,這種架構使得晶片還能獲得更高的利用效率額。如此以來,完美符合BIS規範的、旗艦級的中國特供版就應運而生了。這是一條可行的技術路線。如果輝達真的要造B20,NVL36或NVL72,那麼R2R出口頻寬1/8差分,內連只有8卡的Altlas900估計連車尾燈都見不著。

除此以外,為了提高即將推出的B20的效率,輝達正在採用H20曾經使用過的策略。比方說升級記憶體容量,因為晶片記憶體目前不受出口管制的限制。根據參與開發伺服器的兩位人士透露,輝達正在努力提高記憶體與B20處理器之間的資料傳輸速度,從而可以更快地處理大型資料集。不僅如此,輝達還將在GB20機架設計中採用NVLINK技術和冷卻方案。兩人補充道,這有望提高B20晶片的利用率和GB20計算叢集在為人工智慧提供動力方面的有效性。GB20系統將會通過更高效地平行運行多個晶片,來進行人工智慧模型的訓練和推理。

在GB20被曝出之前,Tom's Hardware曾經大膽預測,B20將是一款難以銷售的晶片。但是現在有了GB20的加持以後,似乎又有了新的希望。不過全新的閹割晶片也不一定很快能夠在國內市場站穩腳跟。

混亂就是階梯。如今的中美對壘,正在逐步打破過去二十年裡建立起來的商業遊戲規則。無數投機者都盯著老黃退場之後,大陸龐大的AI晶片市場。出於不同的立場,市場裡的玩家們可能會對未來有著截然不同的希望。

其中,美國和輝達的立場最為鮮明。站在美國政府的立場,最好能夠全面禁止GPU的對華國際流通。只要從晶片層面卡死中國的脖子,中國就無法獲得足夠的算力去發展AI,從而在未來的科技戰爭中失去與美國抗衡的本錢。

而老黃自己,必然是寄希望於全新的閹割產品,能夠在國內的市場大殺四方。

國內網際網路大廠和AI企業,則在苦苦等待雪中送碳的白衣騎士。在被美國重重限制之下,如果再沒有一款可以勉強跟得上主流的晶片,那麼他們必然也是要被西方同行越拋越遠的。所以,站在他們的視角,無論進口或者國產,只要能有一款說過去的晶片就行,不然他們連建構基礎的算力都困難,還談什麼AI產業呢?

至於國產的GPU廠家,肯定不希望老黃又拿著什麼B20來搶飯碗。如果輝達要是能夠退出大陸市場,估計他們做夢都能笑醒。不管自己的晶片做的有多爛,也不管整個國家的算力與AI發展落後西方一大截,只要是別擋著他們發財的機會就好了。

各路人馬中,最耐人尋味的就屬於中國官方。政府想要扶持國產晶片,但是無奈落後太多,而且各種企業騙補助的案件層出不窮,屬實是爛泥扶不上牆。國內拉不起來,又必須要被國外封鎖的高端晶片來發展國家算力,官方確實是落入了一個兩難的境地。

以上,就是對B20晶片已有的一些總結和分析了。不過,無論老黃最終會不會推出B20,H20被禁止的可能性都是極高的。反反覆覆鑽BIS的漏洞也不是長久之計。BIS作為監管方,他隨時可以修正自己的法律。你老黃當然可以推出針對出口規制的新產品,而我BIS自然也會有更新的補丁。所以B20最終是否能夠順利面世還未可知。

在國產GPU還問題重重的當下,限制可以解決燃眉之急的H20,對整個國家的AI發展可能會造成災難級的打擊。從長期來說,國產晶片當然終究有一天會追上。但是在全世界都在全力發展AI的此時此刻,一開始落後,未來就可能會落後更多。因為對手可以利用AI自我學習的優勢,建立起成倍的差距。

禁止H20,或許會讓國產GPU廠家們迎來短暫的春天,並且高呼國產取代的大勝利。但是事實上,整個國家科技發展卻可能在這一次次大勝利之中,被越拋越遠,而非越追越近。 (創新主基調)