市面上有兩類比較典型的GoogleTPU和輝達GPU對比分析,一類是純技術層面討論,晦澀難懂,另一類會講得斬釘截鐵,但可信度難以判斷。
今天我分享一篇通俗易懂,且信源可靠的TPU和GPU對比分析文章,信源來自於The Information對Google、輝達、蘋果等公司員工的訪談。
這取決於雲服務提供商(註:AWS、Azure、Google雲)對GPU的收費標準,該標準可能會根據開發者對該晶片系統的承諾(使用)期限而有所不同。不過,由於在這些系統上運行應用程式涉及到軟體問題,因此很難對它們進行直接比較。
對於已經使用輝達的CUDA程式語言在伺服器晶片上運行人工智慧的客戶來說,租用輝達晶片更具成本效益,而有時間和資源重寫程序的開發者則可以通過使用TPU來節省資金。
不過,對於大多數開發者而言,輝達的軟體能讓他們快速且輕鬆地開始在GPU上運行人工智慧應用程式。
像Anthropic、蘋果和Meta這樣經驗豐富公司在使用TPU時可能面臨的挑戰更少,因為他們更擅長編寫在伺服器晶片上運行人工智慧的軟體。
根據對Google和輝達前員工的採訪,TPU相比GPU具有潛在的成本優勢,這取決於客戶運行的AI計算工作負載數量及其類型。對於使用GoogleGemini模型的客戶來說,TPU的成本效益可能尤為顯著,因為這些模型是基於TPU開發的。
卓哥理解:1.價格不能直接比, 看合同期限,租1年和租3年價格肯定不同。
2.絕大部分開發人員已經用慣了輝達CUDA軟體系統,用TPU會有遷移成本。
3.基於TPU開發的大模型更具成本效應。我已經在不少於3處靠譜信源看到,基於TPU開發的Gemini相比於基於GPU開發的ChatGPT更具成本優勢。
事情並非如此簡單。生產輝達晶片的台積電會謹慎地避免將過多的晶片製造和封裝產能投入到單一公司,因此輝達不太可能獲得其滿足客戶需求所需的全部產能。由於輝達通常無法獲得足夠的產能來滿足整體需求,市場對其競爭對手的晶片將會有需求。
卓哥理解:台積電不希望輝達一家獨大。其實下游晶片代工廠產能給誰很重要的,不是說晶片設計公司想要多少產能就有多少產能。大摩不是說GoogleTPU 2026年要產300萬顆(利用博通與台積電良好關係)嗎?最近又傳出消息說今年不一定能產300萬顆,台積電可能沒這麼多產能給Google。
一位行業高管表示,以每秒兆次浮點運算(FLOPS)來衡量(卓哥註:這是AI開發人員衡量晶片計算能力的常用方式。),Google最先進的TPU在單晶片基礎上的性能是輝達最先進GPU的一半。
Google可以將搭載數千個TPU的伺服器整合到一個計算單元中,這使得它們在開發新的人工智慧模型時特別有用且具有成本效益,而輝達最多隻能連接256個GPU。
當然輝達的晶片客戶可以通過使用額外的網路電纜連接其資料中心的伺服器來克服這一限制。
卓哥理解:單兵作戰,TPU性能只有GPU一半,但TPU可以用人海戰術堆料。
GPU能夠處理各種各樣的計算任務,從渲染視訊遊戲圖形到訓練大型語言模型。這種晶片在機器學習模型所需的重複性數學運算方面表現出色,特別是將數字網格相乘的過程,也就是所謂的矩陣乘法。
Google的TPU更加專門化,能夠比GPU更快地處理矩陣乘法和運行某些AI模型。TPU之所以能做到這一點,是借助了脈動陣列——一種由簡單計算器組成的網格,這些計算器以有節奏的模式相互傳遞資料。這種設計使數字能在計算過程中持續流動,無需不斷從晶片記憶體中調取資料,從而避免了時間和能量的浪費。
TPU效率更高,因為它只做一件事,但這也意味著它們只在特定軟體上運行良好。GPU可以被用來完成更多種類的任務。
卓哥理解:之前還看過一個訪談,說TPU的風險之一就是通用性不好,中途切換做其他(非初始設定)任務的效果遠不如GPU。
TPU為Google的人工智慧開發者提供了相較於GPU的成本優勢,因為該公司的人工智慧模型、應用程式和資料中心在設計時就考慮到了TPU。
但TPU僅能與某些人工智慧軟體工具(如TensorFlow)順暢協作。然而,大多數人工智慧研究人員使用PyTorch,該工具在GPU上運行得更好。TensorFlow和PyTorch使開發者無需從頭編寫特定的軟體程式碼,就能訓練和運行人工智慧模型。
對於視訊和視覺模型,TPU擅長執行圖像識別所需的重複性數學運算。它們通過將摺積(圖像模型中的核心計算)轉換為矩陣乘法來處理這些運算。
但一些工程師表示,在開發視覺模型方面,GPU優於TPU,因為這一過程通常涉及對複雜圖像變換的試驗,例如旋轉、裁剪或調整顏色。
據蘋果前員工及其人工智慧團隊發表的研究論文稱,蘋果長期以來一直使用TPU來訓練其最大的語言模型。人工智慧圖像公司Midjourney在2023年表示,它正在使用TPU來開發自己的模型。
據一位瞭解這一轉變的人士透露,人工智慧開發商Cohere此前使用TPU開發模型,但去年由於在早期版本的TPU上遇到技術問題,轉而使用GPU。
卓哥補充:還有其他案例是,一直用GPU然後切換去用TPU的公司。
Google需要徹底改革其整個供應鏈,效仿輝達的商業模式,不僅要從代工廠獲得足夠的晶片,還要確保客戶能夠安裝這些晶片並可靠地使用它們。這意味著Google必須投入大量資金來發展銷售分銷網路,包括聘請生產晶片容納裝置的伺服器設計師,以及僱傭眾多工程師為TPU買家提供客戶支援和其他服務。
卓哥理解:如果Google要外租或者賣TPU,先得到台積電拿到足夠產能配額,此外還得組建銷售和工程師支援團隊。
潛在成本可能相近。Google為Ironwood在台積電採用了比輝達為Blackwell所使用的更昂貴、更先進的晶片製造技術。但Ironwood晶片體積更小,這意味著台積電可以從一片晶圓上切割出更多晶片。這彌補了與昂貴矽片相關的額外成本。瞭解生產情況的人士表示,這兩款晶片都使用了相同類型的高頻寬記憶體。
據摩根士丹利的最新估計,Google計畫在2026年生產超過300萬個TPU,2027年生產約500萬個。一位瞭解TPU項目的Google員工表示,公司已告知部分TPU客戶,其計畫在2027年生產更高數量的TPU,但目前尚不清楚台積電是否會同意在該年度生產這麼多TPU。
Google通過博通公司訂購其最強大的TPU,博通與台積電有合作,同時也為TPU晶片本身提供一些輔助技術。
據兩位瞭解生產情況的人士透露,輝達目前生產的GPU數量大約是Google生產的TPU的三倍。
卓哥補充:除了博通,Google也已在與聯發科合作。
Google通過博通在台積電生產最強大的TPU,而且博通還負責TPU的物理設計,包括至關重要的晶片封裝,並且實質上是根據Google建立的藍圖來開發這款晶片。晶片封裝指的是晶片的組裝,隨著晶片上電晶體的縮小變得愈發困難,這一環節已成為整個流程中更為重要的部分。
博通還為Google提供了設計TPU的一項關鍵智慧財產權:序列器/解串器,業內稱之為SerDes。這是實現高速資料在TPU之間傳輸以支援平行計算的最佳技術,通過這種技術,多個晶片可以協同工作——這是開發大語言模型的重要一步。
Google和博通有時會因博通的TPU價格而產生分歧,這促使Google尋求聯發科等其他合作夥伴。聯發科即將生產一款性能稍弱的TPU,旨在幫助Google降低其人工智慧運行成本。
據分析師稱,這至少有80億美元。
目前尚不清楚Google向其雲客戶出租TPU能產生多少毛利率。除了伺服器晶片租賃業務外,它還可以向雲客戶銷售許多其他服務。
這位前TPU高管表示,如果Google將TPU出售或出租給其他公司的資料中心,那麼這些設施需要按照高度特定的方式設計,類似於Google的資料中心,才能像Google在自身人工智慧應用中那樣,充分利用TPU帶來的成本優勢。此外,這樣做意味著Google將放棄從雲客戶那裡獲得的其他類型收入,比如儲存和資料庫相關收入,因此它可能會向TPU買家額外收費,以彌補這部分潛在的收入損失。.
Google已向潛在的TPU客戶表示,一些科技和金融服務公司出於安全等原因,希望將TPU安置在自己的資料中心——即非Google的資料中心。Google一直在與競爭對手雲服務提供商洽談為部分客戶託管TPU事宜。(卓哥註:典型如甲骨文)
讓TPU得到更廣泛的應用,也有助於Google說服更多客戶使用其Gemini人工智慧模型,這些模型是針對TPU進行最佳化的。
簡而言之,答案是否定的,不過Google正努力改變這一現狀。而且,Google還向潛在的TPU客戶推介將這些晶片與特製的Google軟體配合使用,這樣能讓晶片的運行更為便捷。 (卓哥投研筆記)