隨著ChatGPT的出圈,大家可以明顯感受到全社會對於生成式人工智慧技術的廣泛關注,隨著大模型的數量和模型參數量不斷激增,對算力的需求也越來越高。
根據《中國算力發展指數白皮書》中的定義,算力是設備透過處理數據,實現特定結果輸出的運算能力。
算力實現的核心是CPU、GPU等各類運算晶片,並由電腦、伺服器及各類智慧終端機等承載,海量資料處理及各種數位化應用都離不開算力的加工與運算。
那麼,不同的算力晶片分別適用於何種應用場景,不同的算力晶片又有哪些差異呢?
小至耳機、手機、PC,大到汽車、網路、人工智慧、資料中心、超級電腦、太空火箭等,「算力」都在其中發揮核心作用,而不同的算力場景,對晶片的要求也各不同。
資料中心作為數位時代的核心基礎設施,承載著大量的資料處理、儲存和傳輸任務。因此,它們需要強大的算力來應對各種複雜的計算需求。資料中心和超算需要高於1000TOPS的高算力晶片。目前,超算中心算力已進入E級算力(百億億次運算每秒)時代,並且正向Z(千E)級算力發展。資料中心對於晶片的低功耗、低成本、可靠性以及通用性的要求都極高。
智慧自動駕駛涉及人機互動、視覺處理、智慧決策等眾多方面,車載感測器(雷射雷達、攝影機、毫米波雷達等)的不斷增加,數據處理的即時性、複雜性和準確性要求不斷提高,都對車載算力提出了更高的要求。通常,業界認為實現L2級自動輔助駕駛需要的算力在10TOPS以下,L3級需要30~60TOPS,L4級需要超過300TOPS,L5級需要超過1000TOPS,甚至4000+TOPS。所以自動駕駛領域的車載算力是遠大於生活中常見的手機、電腦的運算能力。例如蔚來ET5的處理器算力達1016TOPS、小鵬P7的處理器算力達508TOPS。在智慧駕駛中,安全至關重要,因此該場景對算力晶片的可靠性有著極高的要求,對於晶片通用性的要求也較高,對於功耗和成本的要求就相對沒有那麼苛刻。
為了應對當前視訊處理、人臉辨識以及異常檢測等複雜任務的挑戰,同時確保系統在未來技術升級和拓展時擁有充足的運算資源。智慧安防系統需要大約4-20TOPS的算力,這個數值雖然相較資料中心小得多,但也足以保障智慧安防系統的高效穩定運作。隨著AI安防進入下半場,算力的重要性愈發凸顯,這個數值也不斷上漲。智慧安防對低成本和可靠性的需求比較高,功耗和通用性的要求則相對中等。
在智慧型行動終端中,穿戴式裝置等小型產品對算力的需求相對不高,但智慧型手機、筆記型電腦等產品對算力的需求正在大幅提升。例如,前幾年的iPhone12搭載的A14晶片算力約為11TOPS,小米10手機所配備的驍龍865晶片算力則為15TOPS。然而,隨著AI技術在智慧型手機中的日益整合與普及,驍龍888的算力已達到26TOPS,之後的8Gen1、8Gen2等晶片更是算力更是做了顯著提升。智慧型行動終端也是對低功耗和低成本有著高要求的應用場景,對可靠性的要求相對較高,對通用性則沒有太多的限制。
當下的基礎算力主要由基於CPU晶片的伺服器提供,面向基礎通用計算。智慧算力主要基於GPU、FPGA、ASIC等晶片的加速運算平台提供,面向人工智慧運算。高效能運算算力主要基於融合CPU晶片和GPU晶片打造的運算叢集提供,主要針對科學工程運算等應用場景。
CPU是傳統通用運算之王,包含運算器、控制器、記憶體等主要部分。資料在記憶體中存儲,控制器從記憶體中取得資料並交給運算器運算,運算完成後再將結果傳回記憶體。 CPU的特點是通用性強,可處理各種類型的運算任務,但其運算效率不如專門針對特定任務設計的晶片。
GPU最初用於加速圖形渲染,也被稱為圖形處理的利器。近年來,GPU在深度學習等領域表現出色,並廣泛應用於人工智慧運算。 GPU的特點是具有大量平行運算單元,可同時處理大量數據,使其在平行運算任務中具有很高的效率。但GPU的通用性不如CPU,僅適用於特定型別運算任務。
ASIC是一種專為特定任務而設計的晶片。它透過硬體實現演算法,可在特定任務中實現極高的運算效率和能效。 ASIC的特點是針對性強,僅適用於特定任務,但其運算效率和能源效率遠超CPU和GPU,適用於規模大或成熟度高的產品。
FPGA利用閘電路直接運算、速度較快。相較於GPU,FPGA具有更高的處理速度和更低的能耗,但相較於相同製程條件下的ASIC,FPGA仍有不及,不過FPGA可以進行編程,相較於ASIC也更有彈性。 FPGA適用於快速迭代或小批量產品,在AI領域,FPGA晶片可作為加速卡加速AI演算法的運算速度。
GPGPU即通用圖形處理器,其中第一個「GP」通用目的,而第二個「GP」則表示圖形處理,主要目標是利用GPU的平行運算能力來加速通用運算任務。可以通俗的將GPGPU理解為一個輔助CPU進行非圖形相關程式的運算的工具。適用於大規模平行運算場景,如科學計算、資料分析、機器學習等場景。
在ChatGPT引發的人工智慧熱潮下,最受歡迎的莫過於GPU,為了發展AI,全球領先的科技巨頭都在爭相囤積輝達的GPU。 GPU因何受到AI時代諸多廠商的青睞?
原因很簡單,因為AI計算和圖形計算類似,包含大量的高強度平行計算任務。
具體解釋為,訓練和推理是AI大模型的基石。在訓練環節,透過輸入大量的數據,訓練出一個複雜的神經網路模型。在推理環節,利用訓練好的模型,使用大量資料推理出各種結論。
而神經網路的訓練和推理過程涉及一系列具體的演算法,如矩陣相乘、卷積、循環層處理以及梯度運算等。這些演算法通常可以高度並行化,也就是說,它們可以被分解為大量可以同時執行的小任務。
而GPU擁有大量的平行處理單元,可以快速地執行深度學習中所需的矩陣運算,從而加速模型的訓練和推理。
目前,大部分企業的AI訓練,採用的都是輝達的GPU集群。如果進行合理優化,一塊GPU卡,可以提供相當於數十台甚至上百台CPU伺服器的算力。 AMD、英特爾等企業也正積極提升其技術實力,爭取市場佔有率。中國頭部廠商包括景嘉微、龍芯中科、海光資訊、寒武紀、芯原股份等。
可以看到,在AI領域,GPU一騎絕塵,正如輝達將自身定義為人工智慧領導者一樣,可以看到業內目前幾乎所有關於人工智慧的應用背後都離不開GPU的身影。
這時候可能會有人發問,在AI盛行的當下,單憑GPU就夠了嗎? GPU會獨佔未來AI市場的鰲頭,成為無可爭議的寵兒?
筆者認為,非也。 GPU固然是當下的最優解,但未必是唯一解。
GPU雖然目前在AI領域佔據了主導地位,但它也面臨一些挑戰和限制。比如說,GPU的供應鏈問題導致了價格上漲和供應不足,這對AI開發者和使用者來說都是一個負擔。而CPU則有更多的競爭者和合作夥伴,可以促進技術的進步和降低成本。而且,CPU也有更多的最佳化技術和創新方向,可以讓CPU在AI領域發揮更大的作用。
一些較精簡或小巧的機型,在傳統CPU上同樣能展現出卓越的運作效率,而且往往更經濟實惠、節能環保。這證明了在選擇硬體時,需根據具體應用場景和模型複雜度來權衡不同處理器的優勢。例如HuggingFace公司的首席AI佈道者JulienSimon示範的一個基於IntelXeon處理器的語言模型Q8-Chat。這個模型有70億個參數,可以在一個32核心的CPU上運行,並提供一個類似OpenAIChatGPT的聊天介面,可以快速回答使用者的問題,而且速度比ChatGPT快得多。
除了運行超大規模的語言模型,CPU還可以運行更小、更有效率的語言模型。這些語言模型透過一些創新的技術,可以大幅減少運算量和記憶體佔用,從而適應CPU的特性。這也意味著CPU在AI領域並沒有完全邊緣化,而是有著不容忽視的優勢和潛力。
全球CPU市場由英特爾、AMD雙寡占,合計市佔率超過95%。目前,龍芯、申威、海光、兆芯、鯕鵬、飛騰六大國產CPU廠商快速崛起,加速推動了國產CPU的發展進程。
不僅如此,由於AI加速伺服器異質的特點,市場上除了CPU+GPU的組合方式之外,還有其它多種多樣的架構,例如:CPU+FPGA、CPU+ASIC、CPU+多種加速卡。
科技的變革是迅速的,未來確有可能出現更有效率、更適合AI運算的新技術。 CPU+FPGA、CPU+ASIC便是未來的可能之一。
CPU擅長邏輯控制和串列處理,而FPGA則具有平行處理能力和硬體加速特性。透過結合兩者,可以顯著提升系統的整體效能,特別是在處理複雜任務和大規模資料時。 FPGA的可程式性使得其可根據特定應用場景進行靈活配置和自訂。這意味著CPU+FPGA架構可以適應各種不同的需求,從通用運算到特定應用的加速,都可以透過調整FPGA的配置來實現。
而ASIC是專門為特定應用設計的積體電路,因此它在效能和功耗上通常都經過了高度最佳化。與CPU結合使用時,可確保系統在處理特定任務時具有出色的效能和效率。此外,ASIC的設計是固定的,一旦製造完成,其功能就不會改變。這使得ASIC在需要長時間穩定運行和高可靠性的場景中表現出色。
全球FPGA晶片市場主要由賽靈思、英特爾雙寡占,合計佔有率高達87%。國內主要廠商包括復旦微電、紫光國微和安路科技。國外谷歌、英特爾、輝達等巨頭相繼發布了ASIC晶片。國內寒武紀、華為海思、地平線等廠商也都推出了深度神經網路加速的ASIC晶片。
GPGPU能使用更高階的程式語言,在效能和通用性上更強大,也是目前AI加速伺服器的主流選擇之一。 GPGPUDE核心廠商主要包括NVIDIA、AMD、壁仞科技、沐曦及天數智芯等。
根據IDC的預測,未來3年全球新增的資料量將超過過去30年的總和,到2024年,全球資料總量將以26%的年均複合成長率成長到142.6ZB。這些將使得資料儲存、資料傳輸、資料處理的需求呈現指數級成長,不斷提升對算力資源的需求。另外,面向人工智慧等場景,大規模的模型訓練和推理也需要強大的高效能算力供應。
近年來,中國算力基礎建設取得顯著成效。
2023年底,全國在用資料中心機架總規模超過810萬標準機架,算力總規模達230百億億次/秒(EFLOPS),算力正加速向政務、工業、交通、醫療等各產業各領域滲透。同時,在「東數西算」工程與全國一體化算力網的佈局下,中國算力網——智算網絡一期已經上線,全國算力「一張網」已具雛形。
政策面,中國陸續推出《全國一體化大數據中心協同創新體系算力樞紐實施方案》、《算力基礎建設高品質發展行動計畫》、《「十四五」數位經濟發展規劃》等一系列文件推動算力基礎建設。此外,國家推動多地智算中心建設,由東向西逐步擴展。目前中國超過30個城市正在建設或提出建設智算中心,根據科技部出台政策要求,「混合部署的公共算力平台中,自主研發晶片所提供的算力標稱值佔比不低於60% ,並優先使用國產開發框架,使用率不低於60%”,國產AI晶片滲透率可望快速提升。根據IDC數據,中國智能算力未來將快速成長,2021年至2026年中國智慧算力規模年複合成長率達52.3%。(半導體產業縱橫)