在 2024 年的今天,人工智慧已經滲透到各個領域,從醫療診斷到智能交通,從金融分析到智能家居,AI 技術的發展正以前所未有的速度改變著我們的生活和工作方式。
這一背景下,算力和存力成為了支撐人工智慧發展的兩大關鍵要素。究竟算力與存力誰更重要,成為了一個備受關注的問題。
算力,顧名思義,是指計算能力。
算力是數字時代的核心驅動力之一。隨著人工智慧、巨量資料等技術的不斷進步,算力的需求呈現出爆炸式增長。從雲端的大規模資料處理到邊緣裝置的即時計算,算力的提升使得我們能夠更快地處理資料、更準確地模擬複雜現象。
存力即資料儲存能力。海量的資料需要安全、可靠的儲存空間,而存力就是提供這一空間的關鍵。巨量資料、雲端儲存、區塊鏈等技術的發展,使得資料的儲存和管理變得更加高效。同時,隨著資料價值的不斷提升,存力的重要性也日益凸顯。強大的存力不僅可以保證資料的安全性和可靠性,還能夠為資料分析和挖掘提供堅實的基礎。
除了算力與存力,還有“一力”與這二者並稱為“資料時代的三把利劍”,即運載力,簡稱運力。
運力是資訊傳遞的關鍵。在數字世界中,資料的快速傳輸和高效共享至關重要。高速的網路連線、穩定的頻寬以及低延遲的通訊,這些都是運力的體現。
去年,工信部等六部門聯合印發《算力基礎設施高品質發展行動計畫》,提出到2025年,計算力方面,算力規模超過300EFLOPS,智能算力佔比達到35%,東西部算力平衡協調發展。運載力方面,國家樞紐節點資料中心叢集間基本實現不高於理論時延1.5倍的直連網路傳輸,重點應用場所光傳送網(OTN)覆蓋率達到80%,骨幹網、都會網路全面支援IPv6,SRv6等創新技術使用佔比達到40%。儲存力方面,儲存總量超過1800EB,先進儲存容量佔比達到30%以上,重點行業核心資料、重要資料災備覆蓋率達到100%。
算力、存力與運力皆舉足輕重,而要論誰最重要,恐怕多數人都會覺得是算力。
畢竟,“算力緊缺”的氣氛常常被渲染起來。
那麼,如何獲取更多的算力呢?當下,主流的途徑是通過堆積算力晶片來實現,包括 CPU、GPU、FPGA、ASIC 等,其中GPU的應用最為廣泛。
在 AI 大火之際,科技巨頭們紛紛投身於一場激烈的 GPU 爭奪戰中。值得注意的是,由於單卡算力相對有限,為了縮短訓練時間,通常採用分佈式訓練技術,通過多台節點建構出一個計算能力和視訊記憶體能力超大的叢集。從建設進度上看海外頭部廠商在2022年、2023年已經完成萬卡叢集搭建,國內頭部網際網路廠商和電信營運商也加速萬卡叢集建設佈局。
2023年5月,Google推出的AI超級電腦A3,搭載了約26000塊輝達H100 GPU。
在2022年,META宣佈了一個由1.6萬塊輝達A100 GPU組成的叢集。到了2024年初,META進一步擴大規模,建成了兩個各含24576塊GPU的叢集,並設定了宏偉目標:到2024年底,建構一個包含35萬塊輝達H100 GPU的龐大基礎設施。
2023年8月,特斯拉上線了一個整合1萬塊輝達H100 GPU的叢集。
亞馬遜的Amazon EC2 Ultra叢集採用了2萬個H100 TensorCore GPU。
騰訊推出的星脈高性能網路,能夠支援高達10萬卡GPU的超大規模計算,網路頻寬高達3.2T。
字節跳動提出的MegaScale生產系統,支撐12288卡Ampere架構訓練叢集。中國移動計畫今年商用哈爾濱、呼和浩特、貴陽三個自主可控的萬卡叢集,總規模接近6萬張GPU卡。
中國電信計畫在2024年上半年在上海規劃建設一個達到15000卡、總計算力超過4500P的國產萬卡算力池,這將是國內首個超大規模國產算力液冷叢集。2024年3月,天翼雲上海臨港國產萬卡算力池已正式啟用。
中國聯通計畫在今年內,在上海臨港國際雲資料中心建成中國聯通首個萬卡叢集,這一叢集的建成,將為中國聯通在資料中心和雲端運算市場提供新的競爭優勢。可以看到,萬卡叢集的建設正如火如荼地進行著。然而,當擁有如此眾多的算力晶片時,它們是否已充分發揮出最大潛力呢?
就目前狀況而言,答案似乎是否定的。
因為算力的釋放並非僅僅關乎 GPU 等算力晶片,而是需要全面考慮資料儲存、處理速度、網路傳輸等多個環節的協同作用。
在此背景下,存力作為算力釋放過程中的重要一環,其潛力和價值逐漸受到重視。
這時候,或許會有讀者發問:存力是否能成為提升算力水平、最佳化算力利用的關鍵因素?存力究竟能在那些方面為算力提供助力?以及,為了更有效地支援算力的提升,存力又該如何發展?
如今隨著大模型進一步演進,不同要素的資源組態情況逐步發生了改變。其中,資料的重要性正提到了前所未有的高度,由此也正在帶來對儲存越來越嚴苛的要求。
在一個全新的視角下,資料與其背後的“存力”,正在成為影響大模型創新整體過程的關鍵因素。
存力給算力帶來的助力主要有以下幾點:
首先,高效的儲存能力直接促進了資料處理速度的飛躍。隨著大模型訓練過程中資料量的爆炸性增長,快速、穩定的資料讀取與寫入成為提升模型訓練效率的關鍵。存力通過最佳化儲存架構、採用高性能儲存介質以及智能資料管理技術,實現了資料訪問的低延遲與高並行,極大地縮短了資料處理周期,使得模型能夠更快地從海量資料中汲取知識,加速迭代與最佳化。
其次,存力增強了資料的安全性與可靠性。在巨量資料時代,資料洩露與丟失的風險日益增加,而強大的存力體系通過加密儲存、多副本冗餘、容災備份等機制,確保了資料的完整性和安全性,為模型的持續運行提供了堅實後盾。
再者,存力還促進了資料的高效共享與協同。在大模型研發過程中,跨團隊、跨領域的資料合作日益頻繁,高效的存力系統能夠支援資料的快速傳輸與無縫對接,打破資訊孤島,促進知識融合與創新。通過建構統一的資料管理平台,實現資料的集中管理、按需分配與權限控制,不僅提高了資料資源的利用效率,也加速了科研成果的轉化與應用。
最後,存力的發展還推動了智能化儲存解決方案的誕生,為大模型提供了更加靈活、智能的資料支撐。借助AI演算法與機器學習技術,智能儲存系統能夠自動識別資料特徵、最佳化儲存佈局、預測並滿足資料訪問需求,從而進一步提升資料處理的智能化水平。這種智能化儲存與大模型的深度融合,將為未來的科技創新帶來無限可能。
通俗來講,在人工智慧的蓬勃發展處理程序中,僅僅擁有強大的 GPU 還遠遠不夠。畢竟資料在處理之前,需要先“搬過來”。有資料顯示,一個規模達 20 億的資料集,複製準備大約整整 30 天。這就意味著倘若沒有出色的儲存系統作為支撐,GPU也“巧婦難為無米之炊”。再者,在後續的加密儲存以及資料共享等方面,存力皆為算力帶來諸多強大助力。
倘若用建造高樓大廈舉例子,算力便是高聳入雲的建築主體,而存力則是堅實的地基,只有地基穩固,大廈才能拔地而起。
因此,倪光南院士也曾表示,算力中心的計算能力由存力、算力、運力三個因素決定。倪光南院士認為,用廣義算力去定義一個算力中心,才更準確。
利用SSD來取代HDD
從儲存方式來看,近些年中國資料量的發展十分迅猛,每年的複合增長率約是30%左右。主要採用機械硬碟HDD,先進半導體儲存技術滯後。快閃記憶體和SSD都屬於半導體儲存範疇,前者指儲存介質(快閃記憶體顆粒)後者指儲存裝置(固態硬碟) 。
從儲存領域的快閃記憶體市場佔比情況來審視,在全球範圍內,快閃記憶體平均水平達到了 41.3%。而美國在這一領域表現突出,快閃記憶體佔比高達 56.4%。相比之下,中國的快閃記憶體市場佔比僅為 20.3%,與全球平均水平和美國相比仍存在一定差距。
海量資料的增長,對中國儲存提出了更高的需求,先進存力成為了存力的重要發展方向。先進存力主要是指企業級儲存中更加先進的存力,其以“大容量、高性能”為基礎,以“先進介質、高效架構”為支撐,以“開放生態、綠色低碳、安全可靠”為關鍵,可應用於更廣泛的關鍵場景的儲存能力。
針對這一現象,中國儲存可以做出的改進之一便是利用SSD來取代HDD。
當前SSD的演進主要通過兩方面:一方面是容量,另一方面是性能和功耗。
在容量方面,AI時代對於高容量的SSD需求正在快速上升。需要SSD不僅有更大的儲存容量,還要能夠在不犧牲性能的前提下,通過技術的改進等提高NAND密度。另外,隨著 TLC 快閃記憶體架構開始達到原始儲存容量的極限,QLC 代表了希望不斷突破主流消費 SSD 容量極限的 SSD 製造商的未來。目前,諸多儲存廠商都已經發佈QLC快閃記憶體。
在性能和功耗方面,隨著資料中心對於儲存裝置速度要求的不斷提升,SSD需要提供更高的IOPS(每秒輸入輸出操作次數)和頻寬(GBPS),在保證高性能的同時必須有效控制功率消耗,實現單位性能所需的能耗降低。
可喜的是,中國已經有一些主流的儲存晶片公司可以提供達到一線的水平和生產能力的儲存產品,在SSD主控晶片方面,國內也已經有十幾家廠商的產品得到商用。隨著SSD成本的不斷下探,有望為存力市場作出更大貢獻。
採用先進的儲存介質和技術
一些先進的儲存介質和技術也可給算力帶來一些助力,比如通過研究和開發如相變儲存器(PCM)、阻變儲存器(RRAM)和磁性儲存器(MRAM)等新型 NVM 技術。這些儲存器具有高速讀寫、低功耗、高耐用性和非易失性等優點,可以作為傳統儲存裝置的補充或替代,提高存力和算力。
探索基於新型材料的儲存技術,如二維材料(如石墨烯)。這些材料具有獨特的物理和電子特性,有望實現更高的儲存密度和性能,為未來的存力和算力提升提供新的途徑。
發展大容量的光儲存技術也是一個不錯的想法,光儲存具有長期保存資料、高容量和低成本等優點,可以作為離線儲存或歸檔儲存的選擇,釋放其他儲存裝置的空間,提高存力並為算力提供更多的可用儲存資源。
通過以上多種方法的綜合應用,可以有效地提升存力,進而為算力的提升提供堅實的基礎和強大的支援。
眼下算力中心興起的同時,還要建設先進的存力中心。
數與算、存與算存在失衡現象,也導致了資料割裂在不同資料中心中,資料歸集難、融合匯聚難、有效治理難、使用加工難、共享流通難,導致算力和應用缺乏有效的高品質資料供給,算力的潛能被抑制,對算力和產業的賦能價值沒有充分發揮,資料中心的商業和產業持續正向閉環存在巨大挑戰。
基於此,華為作為全球領先的資訊與通訊技術(ICT)解決方案供應商,致力於建設高性能、高可靠的存力中心,以滿足企業數位化轉型和智能世界建設的需求。華為通過整合自身在儲存技術、雲端運算、人工智慧等領域的優勢,為客戶提供全方位的存力解決方案,包括資料儲存、資料管理、資料保護等服務。
隨著雲端運算業務的不斷髮展,阿里巴巴也在積極建設大規模的存力中心。通過採用先進的儲存技術和架構,如分佈式儲存、軟體定義儲存等,阿里巴巴能夠為客戶提供高可用、高可靠、高擴展性的儲存服務。同時,阿里巴巴還在不斷探索新的儲存技術和應用場景,如邊緣儲存、雲原生儲存等,以滿足不同客戶的需求。
騰訊在雲端運算、巨量資料、人工智慧等領域擁有強大的技術實力和豐富的經驗,也在積極建設存力中心。騰訊通過最佳化儲存架構、提高儲存效率、加強資料安全等措施,為客戶提供高效、穩定、安全的儲存服務。同時,騰訊還在積極探索新的儲存技術和應用模式,如智能儲存、區塊鏈儲存等,以推動儲存行業的創新發展。
中國科學院計算技術研究所作為國內頂尖的科研機構,其在儲存技術領域擁有深厚的技術積累和強大的研發實力。該研究所致力於建設先進的存力中心,開展儲存技術的研究和開發,包括新型儲存介質、儲存系統架構、儲存演算法等方面的研究。通過與企業合作,將科研成果轉化為實際應用,為中國儲存產業的發展提供技術支援。
清華大學電腦科學與技術系在儲存技術領域也有著卓越的研究成果和豐富的教學經驗。該系積極參與存力中心的建設,開展儲存技術的研究和教學工作,培養儲存技術領域的專業人才。同時,清華大學還與企業合作,開展產學研合作項目,推動儲存技術的創新和應用。
算、存、運在資料時代至關重要。如果說存力已經開始逐漸受到重視,那麼國產運力相對來說可能還是一個“小透明”。在大力發展算力、支援存力的過程中,請同步關注“運力”的重要性。 (半導體產業縱橫)