面對英偉達的挑戰,中國的國產算力地圖正在形成
這幾年最熱門的公司,輝達一定是其中之一。
隨著全球對AI算力需求的增長,做GPU晶片的輝達,在近兩年內總市值增長很快,實現了歷史性的“三連跳”,躋身世界第二。
一年前的2023年5月輝達成為首個市值超過1兆美元的半導體企業,今年2024年2月突破2兆美元,之後又在僅僅4個月後的6月5日這一天,總市值首度突破3兆美元大關,達3.0118兆美元,超越蘋果,僅次於微軟,成為全球繼蘋果和微軟之後史上第3家總市值超過3兆美元的公司。
但由於美國的對華技術封鎖天花板戰略,輝達先進的GPU算力硬體現在並不能被中國使用。
美國先是在2022年10月宣佈禁止向中國出口A100和H100晶片,這裡面像H100是當時美國人工智慧公司(例如推出了ChatGPT的OpenAI公司)的主流首選晶片,功能很強大。
後來輝達宣佈針對中國市場推出了A800和H800,性能比A100和H100稍差一些,但性能剛好低於美國的禁令要求,這也體現了輝達想繼續在中國做生意的想法,但這兩個也在2023年10月被美國要求禁止出口了。
現在中國企業能從輝達買的,只有低效能的老款晶片。
當然中國的網路公司等都在禁令前囤了不少晶片,所以暫時沒有太大影響,但長期看對中國形成嚴峻的算力成長挑戰。
1.一方面是中國算力的成長受到無法繼續獲得先進硬體和軟體生態的限制,另一方面又是國內由於人工智慧不斷發展,已有上百個大模型出現,並開始應用於各行各業,對算力的需求在迅猛增長。
在人工智慧的發展歷史上,大模型被認為是一個分水嶺,此前業界更多關注和討論的是機器如何感知世界,例如識別日常生活中的各種物體,聽懂人類的語言等等。
而現在則是透過大模型的生成能力創造數位世界,預測未來趨勢。
透過對海量資料的預訓練,大模型可以在超高維度空間上對人類全部知識進行高度壓縮,進行微調就可以完成多個應用場景任務的泛化,應用到千行百業。
因此大模型技術現在成為人工智慧發展的焦點。
而大模型又對算力需求很高,2022年11月,美國OpenAI公司的ChatGPT發佈在全球業界掀起了震動,我當時寫過一篇文章:
ChatGPT、智慧世界與國產化機會-從華為的2022年年報談起
而那之後受ChatGPT熱潮帶動,國內各公司大模型新品不斷推出,截至2 023年7月,中國累計已經有130個大模型問世。
今年3月底的時候,我看到問答大模型比較火爆,就推薦給了我老婆,因為她日常工作需要大量的檢索,而這種問答式的AI極大方便了她的工作,最近幾個月,也有公司找我發AI大模型的廣告。
而大模型的推理和訓練場景都需要大算力,大模型訓練通常需要數千張GPU卡,基於TB級別的數據,耗時幾個月進行訓練,然後其他用戶在預訓練大模型的基礎上再進行強化學習,而這需要數百張GPU卡,耗時一兩個月。做大模型的企業越多,大模型的訓練規模越大,多GPU卡的需求越大,不只是百卡和千卡,有的大模型甚至需要萬卡以上來訓練。
產業數據顯示,全球過去10年AI算力需求翻了30萬倍,未來10年AI算力將再成長500倍。
2.中國開始啟動「東數西算」國家工程,大規模建設全國算力基礎建設已經三年以上了
面對算力成長的挑戰,中國並非無動於衷,而是早已體認到了算力的重要性,把其視為基礎建設的一部分。
早在201 8年12月,中央經濟工作會議就已經把5G、人工智慧、工業互聯網、物聯網等新型基礎建設列為2019年經濟建設的重點任務之一。
而根據央視新聞2019年3月2日的報導,「新基建」指發力於科技端的基礎建設,主要包括七大領域:5G基建、特高壓、城際高速鐵路和城際軌道交通、新能源汽車充電樁、大數據中心、人工智慧和工業互聯網。
這裡面大數據中心包含了機房樓,網絡,供電,溫控,儲存伺服器,通用伺服器等設施以及上面跑的各種軟體應用等。
而人工智慧其實也是跑在資料中心上的,只是因為很重要而被單獨拿出來,指的是能夠支撐各種人工智慧應用的,包括AI伺服器以及上面的AI晶片在內的專門用於計算的軟硬體基礎設施。
像上面這個定義的七大新基建,到今天已經五年多了。
為什麼國家如此重視算力基礎建設的發展?
因為「人工智慧+」早已經是國家策略,每個產業都要用人工智慧提升生產力和效率,而沒有算力服務基礎設施的支撐,人工智慧的大發展就無從實現,這就跟沒有十幾年前4G網路的普及,也就不會有行動網路的大爆發一樣,我們今天用手機點外賣,購物,視訊通話,直播等生活方式,實際上都是基於4G高速行動網路基礎設施普及這個基礎。
中國早在2021年就規劃了東數西算工程,包括遍佈全國的八個算力樞紐(分別是京津冀樞紐,長三角樞紐,粵港澳樞紐,內蒙古樞紐,寧夏樞紐,甘肅樞紐,成渝樞紐和貴州樞紐)以及分佈在這八個樞紐的10個算力中心群。
發改委發布的《關於深入實施「東數西算」工程加速建構全國一體化算力網的實施意見》指出,要加速建構全國一體化算力網,以算力高品質發展支撐經濟高品質發展。
國家希望國內能提供算力服務的企業,統一在這些樞紐建立算力中心叢集,為全國千行百業提供算力服務。
而這八大樞紐的選擇,綜合考慮了能源價格(資料中心很耗電,而西部能源基地價格低,也比電力傳輸到東部再用於計算更低損耗)和時延的因素,西部能源價格低,所以東部的數據放在西部計算能夠降低成本,同時考慮到時延因素,因此也在京津冀,長三角和粵港澳三大數據流量高地設立樞紐,那些對時延要求的高的需求就在這裡計算,其餘的可以在西部樞紐進行計算。
下圖是我在發改委官網找的,2021年5月26日,國家發改委高技術司司長就在貴陽正式宣佈八大國家算力樞紐節點建設正式啟動,這個時間到今天已經三年以上了。
國內各大企業都在緊跟國家八大樞紐戰略。
以華為例,其華為雲華東(蕪湖)資料中心,就於2024年6月14日在安徽蕪湖正式開服,也成為蕪湖叢集首個開服的項目。
不只是華為,其他還有中國電信、中國移動、中國聯通、中科曙光、火山引擎等15個龍頭企業資料中心專案都將在蕪湖叢集落地。
安徽這些年經濟不錯,經濟總量和人均GDP都在全國排名上升很多,而蕪湖叢集則是八大算力樞紐--長三角樞紐的重要節點,蕪湖叢集的建設不僅可以支援華東長三角區域的算力需求,蕪湖本身也因為資料中心叢集的建設而受益,或將成為提供算力基礎設施的智算之城。
而華為雲的蕪湖資料中心開服後,就和已經部署的內蒙烏蘭察布資料中心,以及貴州的貴安資料中心一起作為華為雲的三大資料中心,在全國地理位置上形成「鐵三角”,構成AI算力一張網。
華為雲端資料中心提供的雲端算力服務就是昇騰雲端服務。
華為的烏蘭察布+貴安+蕪湖資料中心鐵三角AI算力一張網+昇騰雲服務,可以分別對應支援國內京津,長三角,珠三角三大流量高地,可在區域內實現10ms以內的時延,支撐自動駕駛,大語言模型等區域內的需求。
3.為什麼不管是中國的國家戰略佈局,還是華為的鐵三角佈局,都是採取建設大型資料中心叢集提供雲端服務的形式?而不是讓每個企業都自建資料中心呢?
原因並不複雜,從國家的角度來講,是希望實現全國算力規模化,集約化的發展。像中國電信的副總經理在接受央視記者訪問時說,2021年中國電信集團資料中心耗電量就高達56億度,竟然佔到了集團總耗電量的20%。
而從企業的角度來講,大模型的推理和訓練場景都需要大算力,動輒就是幾千張GPU卡,規模更大的需要上萬張GPU卡,而一張GPU卡動輒就是幾萬,十幾萬甚至二十幾萬人民幣,這還不包括資料中心的其他投資,這就導致如果自建資料中心,那麼硬體投資金額就不會小。
而且硬體技術更新速度快,未來還可能面臨需要更新硬體的問題。
同時,AI算力對資料中心基礎設施的設計是很大挑戰,由於AI伺服器的功率密度遠超通用伺服器,單機櫃的功耗是過去的6-8倍,並需要專用的液冷系統進行散熱,才能降低PUE(能源效率比)。
另外AI大模型訓練動輒需要千卡乃至萬卡,伺服器之間的互聯、延遲、可靠性、運維極為挑戰。而時延和可靠性直接影響大模型的訓練。
因此企業自建資料中心,一旦算力需求高,則不僅建設周期長,投資金額大,而且還需要專業的運維團隊運維,對專業知識技能要求很高,而且有的企業的算力需求還是潮汐型的,這就讓自建資料中心更加不划算。
不僅如此,各地政府也根據碳達峰和碳中和策略提出「綠色資料中心」要求,IDC新建/擴容嚴格受限。
相較之下,由類似華為雲端等國內的各種雲端運算公司統一建資料中心提供算力服務,由雲端運算公司專業的提供穩定可靠的算力保障,各個企業去租用雲端運算公司的服務,具備即開即用、按需使用、靈活部署、叢集算力、專業服務、運維&安全等優點。
因此AI算力高度依賴雲端化部署,是產業的主流。算力被認為是和自來水,電力等一樣的基礎設施,那麼由專業的雲端運算公司來建設資料中心提供算力,是最優解,這就跟中國的自來水,電力,道路,橋樑等基礎設施都不是由使用者來建設,而是由專業的公司來建造和維運一樣,這樣才成本最優且最有效率。
4.各國算力基礎設施比拚的是全端能力,輝達的晶片是算力中的重要一環,但並非全部。
在2022年和2023年,美國連續禁止輝達先進算力晶片出口中國的背景下,國內更多把中美算力競爭的焦點注意到晶片和對應的軟體生態上。
但先進算力的競爭力比拚,晶片只是其中一環,而是要考慮全端能力。
那什麼是全端能力呢?
以華為雲6月14日開服的這個蕪湖資料中心為例,我們可以從華為雲昇騰雲服務講的提供哪些算力服務,看一下國內一線的算力雲服務公司,是如何考慮算力基礎設施服務的競爭力的。
首先要考慮資源取得快的問題。
算力服務需要考慮兩個公認的難題,一是硬體的可取得性,二是要快速獲得算力。
硬體可獲得性的挑戰,在過去的幾年中國企業已經一再的有了感受,各種先進晶片的獲取越來越難。
像華為等國內TOP AI晶片和對應的軟體生態供應商,在快速的提供用戶需要的算力方面就具有很大的優勢,用戶不需要去高價搶購GPU算力卡,而是可以直接在華為雲官網購買昇騰AI雲服務,有充足的AI算力可以獲取,同時也避免了自建AI數據中心動輒半年一年以上的長周期等待等問題。
另外還要考慮模型遷移快的問題,簡單的說就是要方便簡單,可靠,快速的把基於國外軟硬體生態開發的模型和應用遷移到國產算力中心上。
許多用戶已經基於輝達或其他公司的框架,生態建構了自己的大模型和應用,如果購買了國產的雲端算力服務,就必須考慮到軟體遷移的問題,因此國產雲算力服務不僅僅是提供計算硬體,儲存等,而且還要提供了大模型開發、通用AI開發及算力調優三大全流程工具鏈,要使得典型場景遷移至生產環境時間小於2周以內。
當然非常重要的就是故障恢復快。
算力服務的可靠性非常重要,故障復原越快,越有利於客戶的業務。
具有主動診斷故障功能的雲端算力中心,可以主動運維而非故障後發現處理問題,這樣可以有效避免訓練中斷,確保叢集長穩運作。
像國內頭部雲算力服務公司已經可以做到叢集故障1分鐘發現,5分鐘診斷,10分鐘恢復。
還有時延問題,這個國家在八大樞紐十大叢集佈局時已經考慮了,對於時延要求高的應用要做到10ms以內的時延水平。
當然最後還要考慮雲上性能優。
衡量一個雲端算力中心的服務,可以從模型訓練效率高低來評估,而MFU(Model FLOPs utilization)是評估模型訓練效率的通用指標,其意義是實際吞吐量與假設最大吞吐量之比,直接反映端到端的訓練速度。
而影響MFU的有三大因素(算符、顯存、通訊)。
這個算子是什麼東西呢?深度學習演算法由一個個計算單元組成,我們稱這些計算單元為算子(Operator,簡稱Op)。
而顯存是顯示內存,是和GPU配合用於影像顯示的晶片。
透過對算子,顯存,通訊的軟體優化,可以提升MFU指標。
因此模式訓練效率MFU更優的雲端算力服務廠家,也具有更高的雲端上效能。
5.誰在算力基礎建設上領先,誰就能在人工智慧競賽中領先
中國的家用電器,電動車為什麼那麼普及,物流效率為什麼那麼高,成本又那麼低,跟基礎建設大規模建設有很大關係。
就以電動車為例,中國電動車滲透率在2024年已經在逐漸接近單月50%,這其中原因就是中國不僅有強大的電網消納大量電動車的充電功率和電量需求,而且是因為中國政府大力鼓勵充電站建設,把充電樁列為新型基礎設施之一,中國現在充電基礎設施就遠比國外更加普及,現在在深圳給車充電,很容易就能找到充電站。
這直接導致2023年底,中國市場的電動車數量比全球其他所有國家加起來還多,或者說,比歐美加起來還要多。
而人工智慧的發展也是一樣的,透過2022年11月發佈的ChatGPT,以及2024年2月發佈的Sora,我們知道了AI大模型技術可以用於人機對話,以及文字生成視訊,但AI大模型的發展遠不止這些領域,它不僅可以用於面向ToC領域進行應用,也還有千行百業的toB應用。
國內大中小型企業要想有效的把人工智慧技術應用於自己的產業,都需要開發自己產業的大模型,因此就勢必需要能夠快速取得,並且穩定可靠的各種算力服務。
還是拿華為雲端舉個例子,華為雲端升騰雲服務不僅考慮了模型遷移問題,而且開發了盤古大模型工程套件,包括資料工程、模型開發和應用開發三大套件,支援各行各業的大中小型企業,基於盤古大模型工程套件,進行適配本行業的大模型開發。
完成一個千億產業模型端到端開發,從過去需要5個月縮短到現在1個月,整體速度大為提升。
因此,中國希望提供給各行各業的算力基礎建設服務:
不只是硬體晶片可以持續取得和更新,而不是到處搶購GPU卡,
也不僅僅是可以快速獲得低時延的服務,
也不只是算力服務高可靠,故障恢復時間快,
而且是可以基於算力服務供應商提供的大模型工程套件,更簡單的迅速開發適用於本行業的人工智慧大模型,快速的實現人工智慧+的發展。
換言之有了這些基礎能力,中國千行百業走向智慧化才有了生長的黑土地,而我們也看到國內已經有一批企業在努力的做這件事情。
對於中美未來在算力領域的競爭,我是樂觀的,
因為就從基礎建設建設這一點來說,從電網,高速公路,高速鐵路,橋樑,5G網路,自來水到充電基礎設施,作為基建狂魔的中國並不弱於美國,甚至很多方面還是領先的。而就企業的研發實力來說,像華為這樣的企業,在5G手機晶片,資料庫,大模型等軟硬體方面,也一直在突破。
就跟中國強大的行動網路基礎設施催生了無數的行動網路應用程式一樣,中國的算力基礎設施不斷完善和進步,也會像黑土地一樣,更容易產生各種類似ChatGPT,Sora,以及應用於各行各業的to B產業大模型應用。
希望本文的簡單介紹,能讓人對中國政府和企業在如何應對輝達為首的美國公司帶來的算力競爭壓力有所瞭解。 (寧南山)