英國《金融時報》在2024年2月24日爆出了一條重要資訊,據知情人士透露,華為的人工智慧算力晶片NPU昇騰910的第三個版本910C生產的良率已從一年前第二個版本的昇騰910B的20%,翻倍提升至40%。
相比910B,910C採用了Chiplets雙晶片整合封裝,電晶體數量達530億個。
更重要的是昇騰產量也將大幅攀升,華為計畫今年量產10萬塊昇騰910C晶片,及30萬塊昇騰910B晶片。
這件事的意義巨大。
就在一個月前,中國AI大模型DeepSeek就被爆出,雖然訓練模型依舊依靠輝達的H100晶片,但這家演算法技術應用震驚全球的AI企業,也已在適配部署華為昇騰910系列的晶片。
而DeepSeek創始人梁文鋒必然是有著十足遠見的,在美國對華封鎖H100晶片之前,他就開始提前戰略佈局,購買儲備了大量輝達H100,甚至日後試圖通過繞過輝達CUDA軟體層,主動挑戰呼叫儲備的H100算力,並且同步嘗試使用華為昇騰910系列的晶片,這就是為了防止日後有一天美國全面切斷對華AI晶片的供應。
果然,近期美國就傳出消息,一是輝達創始人“黃教主”黃仁勳密會白宮話事人川普,試圖說服權力執劍者放棄對華AI晶片的限制令,但可能收效甚微。
二是美國商務部已經提名了包括蘭登·海德為助理部長,傑弗裡·凱斯勒為商務部旗下工業與安全域BIS助理部長,此二人對華態度強硬,這些人士任命很可能將制定出全面切斷對華供應先進AI晶片的美國政策。
就是在這樣的大背景下,中國自主的華為昇騰910系列NPU顯得如此之重要。
2023年11月,曾經作為中國AI技術領先者的科技企業,百度公司就為其200台伺服器採購1600片華為昇騰910B。
不久後,北京的一場人工智慧前沿論壇上,中國工程院院士、鵬城實驗室主任高文宣佈,鵬城研發了超級電腦雲腦Ⅲ,它是一台16000P AI算力的機器,搭載華為最先進的昇騰910C晶片。
這顯然是勇敢的嘗試,因為面對美國鐵腕限制令,全球最強的AI晶片公司輝達僅能向中國提供“閹割版”算力晶片,比如H100的閹割版H20,甚至在之後連H20都開始被阻止輸入中國。
無奈之下,中國公司正在倒向“國產替代”的新方案,因此,當時不少分析認為,華為昇騰晶片的機會又來了!
但被卡住脖子的華為想要代表中國AI算力實現再次破局,並非易事。
那麼為什麼我們一定要研發AI晶片呢?
人工智慧已成為大國科技的最前沿技術,而驅動人工智慧的晶片,也就是電腦的算力,被視為大國博弈的核心之一。
人工智慧三要素——資料、演算法、算力,中國雖然擁有龐大人口與資料量,同時DeepSeek也證明了在演算法模型上的創新也是可行的,但中國在算力上的比拚卻因晶片製造技術而慢了下來。
不過人工智慧太重要了,我們必須在資料、演算法、算力上形成突破,特別是算力,因為算力即為國力。
中國最高科技學府清華大學聯合頂尖研究機構IDC等聯合編著了《2021、2022全球計算力指數評估報告》指出:電腦的算力指數每提高一個點,數字經濟增長的速度是千分之3.5,GDP的增長是千分之1.8。
換句話說計算力指數的增加和數字經濟的增長、GDP增速是正相關的關係,這份前瞻性的報告直接告訴我們:中國經濟想要進一步發展,讓我們國力增強,收入提高,人民富裕,必須發展大國算力。
2017年5月,美國GPU公司輝達發佈了基於新Volta架構的頂級GPU產品Telsa V100,這款晶片可以用在AI運算中,所以也被稱之為當時算力最強的AI晶片。
誠然當時的中國沒有任何一家公司可以達到輝達AI晶片的水平。
不過僅1年後,在第五屆烏鎮網際網路大會上,華為企業BG總裁閻力大就公開宣佈,華為打造出了自己的AI算力晶片——昇騰310晶片。
這款華為首個基於自主達文西架構的AI算力產品,完全無法與輝達V100媲美,但這並不重要,因為,日後華為在AI算力領域的進步速度驚人。
2019年,華為再次發佈了第二顆AI運算晶片,取名昇騰910,這顆晶片由華為設計,全球晶片代工之王台積電製造,採用台積N7+製造工藝,使用EUV極紫外光刻技術,7納米製程,在當時屬於最強技術水平。
昇騰910簡直堪稱算力怪物,從精準率、最大功率等指標看,居然超越了輝達V100。
這件事引發了美國科技界的小小騷動。
但在美國政府看來,這件事非常需要美國立即行動。
也許小小手機晶片只能影響到消費端的智慧型手機運算能力,屬於C端電子消費品,但人工智慧的晶片算力將影響到更廣大的領域,必將左右一國未來的數位化經濟、國家安全形勢。
不久後,美國對中國華為公司的封鎖鐵幕正式落下。
美國商務部連續多次政策圍堵後,華為晶片發展開始受阻,台積電無法為華為代工任何晶片,華為也無法從荷蘭、日本等美國盟友那裡買到晶片製造的高端裝置與材料,一時間,從手機SoC的麒麟晶片,到AI運算的昇騰晶片,華為芯被鎖住了。
而輝達則迅猛發展,進一步推出A100、H100等更高級的算力晶片,並且在美國對華政策下,不得不禁止這些高端晶片輸入中國,僅在中國出售閹割版的A800、H800以及H20。
不過,華為還是在努力通過各種方式尋求晶片上的破局,為此,它集結了華為哈勃的產業資本力量,在國內晶片製造供應鏈上尋求機遇,在福建、山東、廣東、上海等多地嘗試落地產線,慢慢地華為的芯希望如星星之火可以燎原,但手機與SoC晶片是電子消費品,而AI晶片的購買方則面向企業級客戶,綜合來看,破局AI晶片製造可比突破手機SoC晶片製造還要難。
2023年的一場活動上,同樣被美國盯上了的中國人工智慧公司,安徽科大訊飛的創始人劉慶峰放豪言:華為昇騰910B基本可以對標輝達A100晶片。
不久後,科大訊飛聯合華為發佈火星大模型一體機,可見華為在被美國打壓的同時,依然帶著腳銬跳舞,不斷最佳化其昇騰910的算力與生產數量與質量。
2023年參與購買華為AI晶片的還有科技大廠百度、國家級人工智慧實驗室鵬城實驗室,2024年,更多企業參與其中,包括抖音母公司字節跳動也購入萬塊昇騰910B晶片。
而萬萬沒想到的是DeepSeek也是在這個時候,開始戰略性地使用華為昇騰910。
當然不可否認,輝達的AI算力進步速度更快,雖然也有產品翻車的小問題,但這些年它的AI算力發展更迅猛,其CUDA建構的AI調動軟體護城河也更加牢固。
華為昇騰雖然全力尋求破局,但考慮到產能與良率上還有巨大提高空間,所以發展開始落後於輝達。同時,在兩家公司的算力卡使用體感上,輝達憑藉著更多的使用與最佳化,完勝華為昇騰。
不過,相比國內之前還能買到的輝達H20,華為昇騰910B在主要的算力參數上還是大幅領先,且越來越多的中國企業迫於美國禁售壓力,也開始越來越多地接納使用華為的AI晶片了。
這一點讓我想起了國產替代的兩個特殊反面案例,一個是醫院裡的醫療影像裝置,國產裝置難以替代歐美的醫學裝置,不可否認國產的沒有歐美的產品成熟,事關生命安全,越不用國產裝置,就越難實現國產替代。
另一個案例則是國產晶片製造裝置,要知道國產晶片裝置不算全,無法全部替代海外公司的裝置,因此在一眾歐美裝置與技術中參雜加入國產裝置,就要考慮相容性與連續生產的能力,這也導致了不少晶片產線了,雖然購買並且上機了國產晶片裝置,但最終不少國產裝置因為影響了晶片製造特別的連續生產的要求,最終還是被拋棄了。
回到華為AI晶片上,雖然它現在還不完美,但只要用上了,通過各種方式反饋最佳化,未來也一定會更好,這也是學習曲線上攀升斜率最平滑的階段。
不過筆者認為,或許華為也要感謝美國封鎖輝達高端AI晶片,不然,那來的中國科技企業使用華為昇騰進行大模型訓練呢?
2025年1月,網路上傳出了一些關於DeepSeek開發團隊對於華為AI晶片的實測資料,華為昇騰910C在AI推理中的表現出乎意料地好,已經達到輝達H100晶片的60%左右。並且,通過手寫昇騰AI異構計算框架CUNN核心和最佳化,華為昇騰910C的性能還可以進一步提升。 (無想隱者)