北京時間4月10日凌晨,美國亞利桑那州Intel Vision 2024會議上,晶片巨頭英特爾(Intel)發布性能最強的新一代Gaudi3 AI 加速晶片,以及全新的下一代英特爾至強6處理器等產品。
其中,英特爾Gaudi 3 AI晶片採用台積電5nm工藝,支援128GB HBMe2內存。相較於上代產品,英特爾Gaudi 3帶來4倍(400%)的BF16 AI運算能力提升,1.5 倍的記憶體頻寬以及2 倍的網路頻寬提升。同時,在AI模型算力中,相較於輝達H100 GPU,Gaudi3 AI晶片的模型訓練速度、推理速度分別提升40%和50%,平均效能提高50%,能源效率平均提高40%,而成本僅為H100的一小部分。
英特爾預計,Gaudi 3將於2024年第二季起出貨,戴爾、惠普、聯想、超微型電腦等企業將成為首批客戶。
同時,今早舉行的Google雲端年度大會Cloud Next 2024上宣布推出一款基於ARM架構的伺服器晶片Axion,其效能比通用ARM晶片高30%,比英特爾生產的x86最新晶片效能提高50%。谷歌旨在減少對英特爾和AMD x86晶片的依賴。
全球圍繞AI 算力戰爭已經拉開序幕。
「現在的半導體競爭是一場產業戰爭,也是一場全面的國家戰爭。」韓國總統尹錫悅4月9日宣布該國全面押注AI 半導體發展,投入9.4萬億韓元(約500億元) ,以幫助韓國成為與中國、美國並駕齊驅的全球三大AI半導體國家之一。
英特爾突襲輝達H100,新AI晶片訓練快40%,推理快50%
就在深夜,英特爾CEO帕特·基辛格(Pat Gelsinger)手舞足蹈地亮出了最新AI晶片——Gaudi3。
新一代Gaudi 3 AI加速器專為高性能、高效率的生成式AI 計算而構建,每個加速器都具有獨特的異構計算引擎,由64 個AI 定制和可編程TPC和8 個MME 組成,每個Gaudi 3 MME 都能夠執行64000個平行運算,支援128 GB HBMe2 記憶體容量、3.7 TB 記憶體頻寬和96 MB 板載靜態隨機存取記憶體(SRAM) 。
同時,每個Gaudi 3當中都整合24個200 Gb乙太網路端口,提供靈活且開放標準的網路。而Gaudi 3 的PCIe 功率為600w,頻寬為每秒3.7TB。
性能方面,模型訓練層面,Gaudi3比輝達H100快40%;推理層面Gaudi3比輝達H100快50%。即便相比最新輝達H200,Gaudi3 AI晶片的推理速度竟然也提升了高達30%。
英特爾CEO帕特·基辛格(Pat Gelsinger)
實際上,隨著ChatGPT爆火,AI 模型、數據、算力基礎設施成為生成式AI 技術發展的三大要素。
根據Gartner數據顯示,2024年,企業在生成式AI 方向上預期支出達400億美元,到2027年這項數據增加至1,510億美元。同時,到2026年,企業對生成式AI 使用程度達80%,同時至少有50%的邊緣運算部署將與AI、機器學習(ML)等方向有關。
然而,AI 技術的全部潛力並沒有完全釋放出來。僅10%的企業組織去年推出以生產為導向的生成式AI 方案;同時,有46%的專家指出,基礎設施是將大模型產品化的最大挑戰。
因此,英特爾希望能夠利用長期的AI 技術積累,透過開放生態系統的力量,乘上AI 熱潮。與輝達部分類似,英特爾也將提供一整套AI 算力基礎設施方案,從而「解鎖」企業AI,推動生成式AI 的廣泛應用和快速商業化,有望幫助企業應對AI 項目時所面臨的挑戰。
基辛格在會上表示,到2030年,半導體市場規模將達1兆美元,而AI 是其中的主要動力。
從整體路線圖來看,AI PC、Edge AI(邊緣)、Data Center AI(資料中心)將成為英特爾三大重要的運算生態系統,比輝達覆蓋面積更廣,加上其開放、可擴展的軟體和演算法特性,廣泛適用於多個AI 領域,從而推動英特爾持續為企業客戶打造全新AI 方案。
具體到技術產品層面,除了英特爾Gaudi3之外,此次開幕活動上還公佈了其他四個方向的重要進展:
1.全新英特爾至強6處理器品牌,應用於資料中心、雲端和邊緣場景。
其中,與第二代至強處理器相比,配備能源效率核(先前代號為Sierra Forest)的全新至強6處理器每瓦效能提高2.4倍,機架密度提高2.7倍,客戶能以近3:1的比例替換舊系統,大幅降低能耗,預計將於2024年第二季度推出;而配備性能核的英特爾至強6處理器,可將下一個令牌(token)的延遲時間最多縮短6.5倍,能運行700億參數的Llama2模型,預計不久後推出。
2.預覽下一代英特爾酷睿Ultra處理器。英特爾宣布將推出下一代酷睿Ultra客戶端處理器家族(代號Lunar Lake),將具備超過100 TOPS平台算力,以及在神經網路處理單元(NPU)上帶來超過46 TOPS的算力,從而為下一代AI PC提供強大支援。據悉,英特爾預計2024年出貨4,000萬台AI PC設備。
3、面向網路互連層面的新品部署。與NVLink一樣重要,透過超以太網聯盟(UEC),英特爾公佈以AI高速互聯技術(AI Fabrics)開放技術的乙太網路解決方案,利用高速互聯技術支援AI模型訓練和推理,產品組合包括英特爾AI網絡連接卡(AI NIC)、整合到XPU的AI連接芯粒(Chiplet)、基於Gaudi加速器的系統,以及一系列面向英特爾代工的AI互聯軟硬體參考設計。
4.全面更新的邊緣運算和Tiber業務組合。英特爾也發表新的Edge晶片產品,包括酷睿TM Ultra、酷睿TM、凌動處理器以及面向Edge的英特爾ArcTM GPU,預計所有新品將於本季上市,應用於包括零售、工業製造、醫療保健等關鍵領域,並將於今年獲得英特爾Tiber邊緣平台的支援。另外,英特爾也發表Tiber業務解決方案組合,以簡化企業對生成式AI 軟體服務的部署工作,預計Tiber方案將於今年第三季全面推出。
英特爾揭露,截至目前,英特爾邊緣運算處理器銷量達2億塊,已邊緣部署超過9萬個解決方案。
另外,英特爾也宣布聯合Hugging Face、RedHat、SAP、VMware等15家公司,將共同創建一個開放、多供應商的生成式AI系統平台,透過RAG(檢索增強生成)技術,提供運行大量現存專有資料來源得到增強版開放大模型。
英特爾強調,公司不僅將提供包括硬體、軟體、框架和工具,而且希望設備製造商、資料庫提供者、系統整合商、軟體和服務提供者等參與其中,推動英特爾AI開放生態系統的構建,以及將生成式AI技術進行場景落地。
整體來說,基於英特爾5nm Gaudi3 AI晶片,以及至強6處理器和軟體棧,該公司正逐步建立AI 領域的算力基礎設施生態,全面挑戰輝達以及現有AI 晶片市場格局。
英特爾方面去年7月對鈦媒體App表示,市場需要替代品。客戶非常歡迎英特爾Gaudi方案在向大眾部署AI 方面發揮重要的領導作用。 「幾十年來,英特爾一直致力於把新的技術普及、普惠到各行各業。透過降低進入門檻,提高市場參與度,從而加快創新速度。”
基辛格在會上強調,「創新技術正在以前所未有的速度發展,每家公司都在加速成為AI公司,這一切都需要半導體技術提供支援。從PC到資料中心再到邊緣,英特爾正在讓AI走進千行百業。”
為減少對輝達依賴,Google推出ARM伺服器晶片
與微軟、亞馬遜一樣,Google也推出了多款自研晶片,以減少對輝達GPU晶片的依賴。
美國東部時間4月9日週二,Google在今年的年度雲端運算大會Cloud Next 2024宣布推出一款基於Arm架構的資料中心晶片Google Axion,以及更新TPU v5p晶片。
谷歌表示,Google Axion處理器是基於Arm Neoverse V2 CPU構建,以Titanium為基礎,性能比通用ARM晶片高30%,而且比英特爾生產的當前一代x86晶片高50%。預計Axion用於多種Google服務,並在「今年稍後」向公眾開放。
Google雲端副總裁兼運算與機器學習基礎設施總經理Mark Lohmeyer 表示:「我們正在讓客戶輕鬆地將現有工作負載轉移到ARM。Axion 建立在開放基礎之上,在任何地方使用ARM的客戶都可以輕鬆採用Axion,而無需重新架構或重新編寫應用程式。”
「Google推出的新型Axion CPU 標誌著交付客製化晶片的一個重要里程碑,該晶片針對Google的基礎設施進行了優化,並構建在我們的高性能Arm Neoverse V2 平台上。數十年的生態系統投資,再加上Google 的持續創新和開源軟體貢獻,確保為在各地運行Arm 的客戶最重要的工作負載提供最佳體驗。」Arm 執行長Rene Haas表示。
事實上,Axion 只是眾多客製化發一份晶片中的最新產品。自2015年以來,Google已經發布了五代張量處理單元(TPU);同時,2018年,Google發布了第一個視訊編碼單元(VCU),視訊轉碼效率提高了33 倍;另外,2021年,谷歌透過投資「系統單晶片」(SoC) 設計,加大了客製化運算的投入,並發布了用於行動裝置的三代Tensor晶片中的第一款。
如今,Google推出新的晶片意味著,該公司正在追趕亞馬遜和微軟這些雲端領域競爭對手的腳步。亞馬遜和微軟2021年就已經推出Arm架構的CPU,作為提供差異化運算服務的一種方式。而Google之前曾為YouTube、AI及其智慧型手機推出過客製化晶片,但還沒有打造過CPU。
具體來說,Axion將適用於一系列任務,包括支援Google的搜尋引擎和AI 相關的工作。谷歌表示,該晶片可以透過幫助處理大量數據並為數十億用戶部署服務,在AI領域發揮重要的支援作用。同時,未來Google逐步轉移到基於Arm雲端伺服器用例上使用,Datadog、Elastic、OpenX 和Snap都計劃採用Axion。
除了Axion之外,Google也宣布全面推出TPU v5p,用於訓練和推理的最強大、可擴展且靈活的AI 加速器,其運算能力是上一代的4 倍(400%)。
GoogleCEO桑達爾‧皮查伊表示,生成式AI的進步需要強大的底層基礎設施。 GoogleAI 超級電腦結合了我們的TPU、GPU、AI 軟體等,為訓練和服務模型提供效能和成本優勢。如今,領先AI 公司和Google Cloud 客戶(例如Anthropic、AI21 Labs、Contextual AI、Essential AI 和Mistral AI)正在使用其基礎設施。
數據顯示,雖然廣告仍是Google最大收入來源,但雲端運算的成長更快,在Google的收入中佔比不斷提高,已接近占公司總收入的11%。根據Gartner估算,2022 年,Google佔雲端基礎設施市場7.5% 的份額,而亞馬遜和微軟合計則控制著62% 左右的份額。
谷歌表示,現在已經有超過90% 的AI 獨角獸企業在使用Google的運算資源、模型和開發環境。
如今,谷歌成為繼微軟和亞馬遜之後,第三家用ARM架構推出資料中心CPU的科技巨頭,顯示了新的趨勢。而且,Google也利用TPU優勢,全面提供伺服器和資料中心閉環服務,降低輝達、英特爾、AMD晶片的依賴。
有評論稱,Google開發新晶片是在AI 競賽白熱化之際減少對外部廠商的依賴。不過,谷歌的官員並沒有將晶片新品視為一種競爭之舉。谷歌負責自研晶片業務的副總Amin Vahdat說:“我覺得這是做大蛋糕的基礎。”
從整體來說,Google Next 2024上展現了整個谷歌雲端建構的AI 開放和垂直優化技術堆疊。
- AI Hypercomputer (算力層):TPU v5,Axion,2025年將上線的輝達Blackwell GB200,以及新增A3 Mega 計算單元。
- Gemini Models(模型層):今天Google正式開發Gemini 1.5 Pro API,新增語音模態理解能力、檔案存取API、系統指令以及JSON 模式等功能。
- Vertex AI(容器環境層):最方便的AI 應用開發和運行環境,整合了除OpenAI 之外的所有模型,方便調用、微調和各種開發測試。
- 應用層:Google提供Gemini for Cloud、Workspace & Agent等產品組合中,即Gemini AI 產品將全面整合到Cloud 與Workspace 兩大產品線,而且還預開發了一堆AI Agent(代理),支援客服、僱員、創意、程式碼、資料、安全代理程式等等。
皮查伊表示,正如十年前雲端運算改變了企業的運作方式一樣,人工智慧將再次帶來難以置信的機會和進步。 Google Cloud 是Google繼續幫助世界各地的組織進行變革的方式。
輝達真的危險了嗎?
那麼,前有谷歌、微軟、亞馬遜“造芯”,後有英特爾“彎道超車”,輝達真的危險了嗎?
2023年12月初,AMD高調推出了MI300系列產品。據介紹,MI300X晶片擁有超過1500億個晶體管,內存密度是目前輝達H100的2.4倍,內存頻寬是其1.6倍。 AMD執行長蘇姿豐稱,這款新晶片在訓練AI 軟體的能力方面與輝達的H100相當,並且在推理方面表現得更好,不過這一說法也未得到獨立驗證。
今年3月底,輝達正式發表了新一代人工智慧運算晶片B200。輝達CEO黃仁勳表示,B200 GPU的AI運算效能在FP8及新的FP6上都可達20 petaflops,是前一代H100運算效能的2.5倍。
如今,隨著Gaudi 3的正式發布,目前AI晶片市場呈現出輝達B200、AMD MI300系列和英特爾Gaudi 3"三巨頭"競爭的格局。輝達在AI晶片領域"一家獨大"的局面面臨來自另外兩家廠商的挑戰。
不過,從黃仁勳角度來看,輝達的生態系統很穩定,在當前AI算力"軍備競賽"中,輝達依舊暫時是市場的佼佼者。
黃仁勳前段時間這段話其實表達的非常明確:「資料中心需要你經營它。購買和銷售晶片的人考慮的是晶片價格。營運資料中心的人考慮的是成本,我們總擁有成本(TCO)非常好。即使競爭對手晶片是免費的,他們也不如我們,客戶也不會買。我們的目標是增加更多的價值。但這背後需要很多努力,我們必須不斷創新、我們不能把任何事情視為理所當然、我們有很多競爭對手。”
事實上,AI 晶片是一個不斷向前「奔跑」的高技術產業。它沒有壟斷,只有不斷創新提供更大價值,才有可能讓企業持續保持領先地位。因此,無論是輝達還是英特爾,他們都有非常強大的市場競爭力,也都有望成為AI 加速運算市場的「領導者」。
如今,在伺服器市場,AMD正逐漸蠶食該公司的市佔率。根據市場研究機構Mercury Research所公佈的2023年第四季AMD處理器市佔率統計數據,AMD EPYC已經拿下了23.1%伺服器市場份額,份額比重再次擴大。儘管EPYC作為通用處理器,算力上不如GPU加速器,不過該產品可與GPU加速器、AI加速器等協同工作,實現效率的最大化。
而全新英特爾AI 晶片Gaudi,預計將不太會在中國大陸市場銷售。但從全球來看,它是否真的能如其所言的,憑藉性能優勢、極具競爭力定價優勢而佔領更大的市場份額,一切還有待時間的檢測。(鈦媒體AGI)
