隨著對人工智慧的需求猛增,各個行業的公司都在競相擴大其計算能力,並投入數十億美元用於升級支援人工智慧模型所需的基礎設施。
Nvidia 的H100 Tensor Core GPU,這是一款專為人工智慧 (AI) 和高性能計算 (HPC) 工作負載設計的頂級圖形處理單元。
本文中圖表使用 2024 年版 《人工智慧現狀報告》(截至 2024 年 10 月更新)中的資料,直觀地展示了擁有最多 Nvidia H100 GPU 的公司和組織。
下面,本文展示了截至 2024 年 10 月各公司和組織擁有的 Nvidia H100 GPU 的數量。
Meta 和特斯拉等公司一直在購買數千個 H100 GPU,以支援其雄心勃勃的 AI 計畫。雖然 Nvidia 尚未正式披露其 H100 產品的價格,但據估計,80GB 版本的單價在30,000 至 40,000 美元之間。
Nvidia 的高性能 H100 GPU 為公司的收入增長做出了重大貢獻,尤其是在資料中心領域。
2024年1月,馬克·祖克柏宣佈Meta計畫在年底前收購35萬塊Nvidia H100 GPU,大幅提升公司的AI計算能力。
此次對硬體的大規模投資旨在支援 Meta 開發先進的人工智慧模型,包括通用人工智慧 (AGI),這是人工智慧的一個理論分支,其中人工智慧實現了“人類水平的學習、感知和認知靈活性”。
在特斯拉2024 年第一季度財報電話會議上,首席執行官埃隆·馬斯克透露,特斯拉擁有 35,000 顆 H100 晶片,計畫用這些晶片開發多個 AI 項目,包括Robotaxi和一台名為Dojo的超級電腦。
在加大採購力度的同時,圖中的大多數公司也在同步推進自己的晶片自研計畫,以降低對於輝達晶片的依賴。
比如,今年4月,Meta公佈了自主研發晶片MTIA的最新版本。MTIA是Meta專門為AI訓練和推理工作設計的定製晶片系列。和去年五月官宣的Meta第一代AI推理加速器MTIA v1相比,最新版本晶片在性能上有顯著提升,專為Meta旗下社交軟體的排名和推薦系統而設計。分析指出,Meta的目標是降低對輝達等晶片廠商的依賴。
從名字來看,MTIA即為“Meta訓練與推理加速器(Meta Training and Inference Accelerator)”的縮寫。儘管含有“訓練”二字,這款晶片實際上並不是為AI訓練所最佳化的,而是專注於推理,即在生產過程中運行AI模型的任務。
Meta在部落格文章中寫道,MTIA是公司“長期計畫的重要組成部分”,旨在Meta的服務中使用AI來建構基礎設施:“為了實現我們對定製晶片的雄心,這意味著不僅要投資於計算晶片,還要投資於記憶體頻寬、網路和容量以及其他下一代硬體系統。”
據介紹,新款MTIA晶片“從根本上專注於提供計算、記憶體頻寬和記憶體容量的適當平衡”。初代MTIA v1晶片採用台積電的7nm製程工藝,而新款 MTIA 晶片採用台積電的5nm工藝,擁有更多的處理核心。該晶片將擁有256MB的片上記憶體,頻率為1.3GHz,而MTIA v1的片上記憶體為128MB和800GHz。Meta的早期測試結果顯示,通過測試兩種晶片的“四個關鍵模型”的性能,新晶片的性能是一代版本的三倍。
在硬體方面,為了支援下一代晶片,Meta開發了一個大型機架式系統,最多可容納72個加速器。它由三個機箱組成,每個機箱包含12個板,每個板包含兩個加速器。該系統可以將晶片的時脈頻率從初代的800 MHz提高至1.35GHz,並以90瓦的功率運行,而初代設計的功耗為25瓦。
在軟體方面,Meta強調,新晶片系統運行的軟體堆疊與 MTIA v1非常類似,加快團隊的部署速度。此外,新的MTIA與為MTIA v1開發的程式碼相容,由於Meta已經將完整的軟體堆疊整合到晶片中,開發者在幾天內就可以使用這款新晶片啟動並運行Meta的流量,使Meta能夠在九個月的時間內將晶片落地到16個地區,運行生產模型。
根據Meta的總結,迄今為止的測試結果表明,這款MTIA晶片可以處理作為Meta產品元件的低複雜性 (LC) 和高複雜性 (HC) 排名以及推薦模型:“因為我們控制整個堆疊,與商用GPU相比,我們可以實現更高的效率。”
目前,新款MTIA晶片已被部署在Meta的資料中心,並展現出了積極成果:“公司能夠為更密集的AI工作負載投入並投資更多的算力。事實證明,在針對元特定工作負載提供性能和效率的最佳組合方面,該晶片與商用GPU具有高度互補性。”
特斯拉也依賴 Nvidia 為其當前的 Dojo 訓練電腦提供動力,但它不想孤注一擲——尤其是因為 Nvidia 晶片價格昂貴。特斯拉還希望製造出更好的產品,以增加頻寬並減少延遲。這就是為什麼這家汽車製造商的 AI 部門決定推出自己的定製硬體程序,旨在比傳統系統更有效地訓練 AI 模型。
該計畫的核心是特斯拉專有的 D1 晶片,該公司表示該晶片針對人工智慧工作負載進行了最佳化。
特斯拉在 2021 年 AI Day 上發佈了 D1 晶片,這是一款手掌大小的矽片。D1 晶片已投入生產。TSMC使用 7 納米工藝節點製造該晶片。特斯拉稱,D1 擁有 500 億個電晶體和 645 平方毫米的大晶片尺寸。這一切都表明,D1 有望非常強大和高效,並能快速處理複雜任務。
不過,D1 的性能仍不如 Nvidia 的 A100 晶片,後者也是由台積電採用 7 納米工藝製造的。A100 包含 540 億個電晶體,晶片尺寸為 826 平方毫米,因此性能略優於特斯拉的 D1。
為了獲得更高的頻寬和更高的計算能力,特斯拉的人工智慧團隊將 25 個 D1 晶片融合成一個區塊,以作為一個統一的電腦系統運行。每個區塊的計算能力為 9 千兆次浮點運算和 36 兆兆字節每秒的頻寬,并包含電源、冷卻和資料傳輸所需的所有硬體。
特斯拉還在研發下一代 D2 晶片,旨在解決資訊流瓶頸問題。D2 晶片不會將各個晶片連接起來,而是將整個 Dojo 晶片放在一塊矽片上。 (半導體產業縱橫)