東風吹、戰鼓擂,這世界誰怕誰!
皮衣老黃,最近真的飄了。
就在一週前,輝達的市值刷出了史上新高,首次突破3萬億美元大關超越蘋果,當時僅次於微軟。
5天後,輝達股東大會匆匆通過了股票拆分方案,對公司股票按照1拆10的比例進行拆分,總股本從原來的24.6億,變成了246億。
董事會認為,較低的價格可能會讓更廣泛的投資者更容易獲得輝達的股票所有權並刺激需求,從而可能為輝達投資者帶來更多收益。
6月11日,分紅方案緊隨拆分計畫出台,每股派息1美分。
對於目前全球最大也是最重要的AI算力硬體提供商而言,其目前在資本市場的亮眼表現,使得幾乎各方都滿足於目前這種皆大歡喜。以至於國台辦12日在記者招待會時,針對黃仁勳一週以前的妄言,都只是不痛不癢來了句“希望他好好補補課”而已。
所謂高高舉起、輕輕放下,不少人人對此感覺憋屈。但,這就是當前掌握著能夠“卡你脖子”的核心技術,帶來的“底氣”。因為就在12日,有知情人士爆料內幕消息稱,美國商務部工業與安全域(Bureau of Industry and Security,縮寫BIS),正計畫在去年10月初生效的,旨在遏制中國半導體技術進步的“半導體製造最終用途規定”中,明文插入限制中國企業獲得全環繞柵極電晶體(GAA)技術的條款,以便進一步封堵“漏洞”。
這是一種,可以進一步縮小超大規模積體電路中,半導體器件幾何尺寸的先進技術,延緩中國企業掌握該技術,將有助於美國繼續延長其掌握最先進半導體工藝的週期。
然而僅僅一味加碼和打壓,並不能更好地實現美國政府三年來奉行的“小院高牆”打壓政策。相反,還有可能損害美國企業的利益。以輝達為例,其AI計算卡產品中,曾經有近四分之一的訂單來自中國企業。
所以,無論去年十月啟動的對華半導體技術最終遏制措施,還是目前最新的“補漏”條款,都不再以川普時代簡單、粗暴而且全面的打壓作為手段。
並不徹底封死你獲得先進AI算力的管道,但需要進行精心而且有策略的進行限制。就好似調配一杯具備慢毒性的可口鴆酒,並將其擺在飢渴的中國企業面前。
01 精心炮製的“鴆酒”
基於BIS的規則,由輝達一手調配,擺到中國AI企業面前的這杯“鴆酒”,名叫HGX H20。
之所以用“鴆酒”描述一款AI計算卡產品,乃是因為其作為輝達現有旗艦產品的閹割特供版,經由皮衣老黃精湛的“刀法”,性能控制堪稱“出色”,卡死的關鍵性能點也足夠歹毒——
在深度機器學習的關鍵資料INT8方面,功率為270w的H20算力僅296 Tops,TF32算力則為74 Tops。與之相比,其未“閹割”的母型H100在350w與700w功率下,算力分別達到3026/3958Tops以及756/989 Tops。
但正如成語“飲鴆止渴”,即使是這杯“鴆酒”卻也能讓企業不得不考慮喝下去。因為H20“刀”的確實非常精妙。
HGX H20與H100都基於Hopper架構,其擁有96GB的HBM3儲存器,以及高達4.0 TB/s的記憶體頻寬,甚至高於3.6 TB/s的H100。另外,其NVLink頻寬也高達到900 GB/s,比起輝達根據BIS上一版規定搞出的上代閹割版A800的400GB/s,畢竟是要高出一倍多。
基於上述狀況,有分析師根據理論資料和部分實測資料推論,儘管H100的運算速度遠超過H20,但擠掉無法實際利用的水分後,在多卡互聯用於深度神經網路訓練的環境下,H20在性能上仍可接近甚至達到H100的一半左右。
此外,在目前日趨流行的大語言模型(LLM)方面,由於H20使用了和最新的H200相似的技術,所以在推理能力上其較之H100有了顯著提升,目前部分測試結果認為相對要快20%以上。
這麼看起來,H20似乎也不算那麼差,甚至在目前炙手可熱的LLM賽道上,還具有一定的優勢?但問題在於,BIS實際上在算力與能耗方面,也作出了硬性限制。
在上一輪限制中,BIS的將主要注意力放在了AI計算卡的傳輸速率上,試圖以此限制中國企業將其用於叢集網路領域,以避免這些計算卡繼續為這邊的國家總算力提升繼續添磚加瓦。
在上述思路下,NVLink鏈路以及互聯頻寬成為了上一輪管制的核心內容,也就有了H800和A800這兩款“特供”計算卡的誕生。
A800相較於A100,NVLink鏈路從12條被砍到8條,互聯頻寬從600GB/s被削減到了400GB/s。H800較之H100,NVLink鏈路被從18條砍到了8條,互聯頻寬從900GB/s削減到了400GB/s。
當時的思路,就是以削減計算卡之間資料傳輸效率,來降低其叢集運作的能力,從而限制中國企業乃至國家在總體算力上的增長。而具體到單卡算力上,中國特供版中只有H800在雙精度(FP64)算力上有明顯限制。
但美方很快就發現了問題。因為通過聚合技術,企業可以通過稍微降低晶片的雙向頻寬來規避管制。實際應用於人工智慧任務時,上一代特供計算卡較之於性能不打折扣的原版,下降幅度幾乎可以忽略。
正因為如此,時隔一年BIS在充分吸取教訓後,直接換了一個思路,新設了計算卡的“性能密度”。根據新規開發的新一代“特供”計算卡H20,若是以能耗比來論,在INT8指標上,其能耗算力比僅為1.1。相比之下H100則達到了8.65。
中國企業固然可以通過堆更多的計算卡,來獲得同等的算力,但代價就是更大的成本以及更高的能耗。而這兩者相互疊加將會產生深遠的戰略性影響——即我國國家總體算力的提升,將在能源消耗方面比美國付出更高乃至於成倍的代價。
02 臨時的應對方案
美國商務部的歹毒限制,以及美國資本家對於踩紅線的精妙控制,我們上文大致已經大致說清楚了。而且這裡還需要強調一句的是,既然是BIS擬定的管制規則,那就絕不只限於輝達一家。
無論牙膏廠的Gaudi2、Gaudi3,蘇媽家的MI250X、MI300,等等這些產自美國企業,或者使用了美國技術的AI計算卡,所有超出規則線的全都要禁。而若結合去年下半年出台的,限制使用美國技術的晶圓工廠為中國企業代工半導體器件的嚴格限制,則國內主攻AI計算卡的無晶圓工廠,暫時只能以現階段能夠基本實現自主的7nm製程工藝挖潛。
既然形勢如此嚴峻,國內企業會選擇輝達新一代“特供”產品H20/L20麼?結合今年初以來的市場狀況,答案是:不會。
畢竟,事情都已經發展到了這個份上了,中國企業若是繼續做著“在商言商”的美夢,拓展業務時單以產品性能以及配套生態考慮,也就無異於為了暫時緩解飢渴去飲下那杯精心調配的“鴆酒”。
自從去年末今年初BIS新限制的出台以後,對國內長期慘遭輝達壓制的AI計算卡提供商,實際已經被轉變成了一波重大利好。
現階段,國內這方面大的供應商包括華為海思的升騰系列、寒武紀的思元系列、海光資訊的神算一號、燧原科技的T20/21以及i20等等。而結合半年來市場的反響,升騰910B應該是現階段吃到最多市場份額的型號。
不過,正如上文所言,這只是目前的應對方案。但升騰910B也遠算不上完美。其主要問題如下——
首先便是其對當前熱度最高的大模型,並不足夠友好。當然這一點也是難免的,因為升騰910B的原型升騰910A發佈於2019年,反推其設計則不可能早於2018年初,所以也就必然錯過了發佈於2018年下的Transformer模型的熱潮(大語言模型搭建的主流框架)。
其次,在這個輝達橫掃85%的市場,把包括AMD、微軟、英特爾在內的一票企業統統掃入市佔比餅圖裡“other”的這個時代,升騰系列產品也必然存在生態匱乏的問題。
當然在性能方面,升騰910B在具有這些不足的情況下,依然能做到性能基本能與同代輝達A100(基於上一代的Ampere架構)相提並論的程度,根據實測,其在400w功率下其綜合性能達到了A100大約70~80%的程度。
根據目前消息,升騰910C的測試頗為順利,如無意外將於今年9月上市。考慮到現階段國內高端自主半導體代工仍需在7nm製程內打轉,且短期內不太可能立即突破HBM工藝(High Bandwidth Memory,高頻寬儲存器,可以理解為一種先進封裝工藝),但起碼能夠在transformer算子親和性,乃至於更好地解決多卡互聯方面取得突破,從而根本上終結對美國企業AI計算卡的單一依賴。
但正如上文所介紹的那樣,我們暫時還只能在有和無的問題上努力,而針對BIS最大的陽謀——限制性能密度,從而實現中長期在戰略上拖慢中國國家總算力增長速度這方面,無論升騰910B還是幾個月後將會發售的升騰910C、未來的升騰920,乃至於國內在技術上排名前列的企業,暫時都是無法破局的。
歸根到底,晶圓加工能力的瓶頸就卡在那裡,需要我們自己去突破。而如果有必要的話,那些正在西部沙漠與戈壁灘上鋪開的光伏與風力電站,也能為我們爭取更多的時間。
一年多前,某著名國際車企巨頭曾經針對汽車的AI輔助設計,進行了一次專項調研,並最終確認了通過引入更高效的AI輔助技術,對於車型的更新換代,將有著巨大的幫助。
具體到資料化的表述就是,在上世紀90年代,一款車型從產品規劃、方案確定,到設計以及工程樣車製造,最後一直到完成測試圖紙凍結,至少需要超過50個月。
然而在充分引入AI技術輔助之後,這個週期極限情況下,可以被壓縮到20個月以內。
各位可以比一下,近年來國內車企在各種卷天卷地的狀況下,推出新車以及老車型換代所需的週期,則AI技術的效能和前景,可見一斑。
至於在智能駕駛的領域,大語言模型所具備的卓越推理能力,也正在被越來越多的企業廣泛地認識到。
上月末,有行業內人士稱,輝達的H20在國內市場的“供給相當充裕”,如有明確需求可以隨時供貨。該人士同時還列舉了今年四月,國內某科技巨頭一次下單超過三萬張計算卡的大單,並在很短的時間內就拿齊貨的案例。
然而筆者以為,這確實不算什麼“壞”消息,因為供應充足的另一面,也代表著市場需求的疲軟。畢竟在2022年上半年,想要採購A100,那是需要排隊的。
實際就輝達而言,其對於H20這樣的產品也是非常不滿的。因為其約10萬元人民幣的單卡售價,只能達到H100的一半左右。然而卻在生產成本上,明顯要高上許多。
有別於H20的疲軟,其競品升騰910B,呈現的是另一幅光景。不僅單卡售價比H20高上一些,大約在12萬元上下。而且企業想要拿到貨,是需要排隊的。
之所以會有這副光景,理由也是明擺著的——起碼升騰不會斷供。
就現階段來說,無論中國AI行業亦或是整個半導體產業,問題距離徹底解決還非常地遙遠,甚至考慮到敏感話題對公眾號的危險性,本文揭示的也僅僅是系列問題中一個很小的視角。
好在,至少在2024年即將過半的時間節點上,某種惡性循環已經被徹底終結。
而全新的,良性的循環正在形成之中,其最終也將引導所有問題,走上真正的解決之道。 (C次元)
