Tensor SoC 開發工作不斷取得進展,打破三星統包晶圓代工和封測模式。
自2021 年Pixel 6 系列搭載首款Tensor SoC 以來,Google 使用三星代工生產的晶片做為手機核心,然而明年第十代Pixel 將迎來重大變革,Tensor G5 可望成為台積電生產的首款Pixel 系列專用晶片。
The Information 去年7 月報導指出,Google 與台積電達成協議,為Pixel 裝置生產完全客制化的Tensor SoC。如果Google 保留現有命名方法,這款晶片可能稱為Tensor G5。自從外媒揭露以來,Tensor SoC 開發工作不斷取得進展,包括傳出測試訂單由京元電子拿下,打破三星統包晶圓代工和封測模式。
另一媒體Business Korea 近日報導稱,Google 將在明年推出的Tensor G5 使用台積電3 納米製程,可望讓Pixel 系列效能水準大幅提升。目前市售Pixel 8 系列改採用的Tensor G3,是以三星4 納米製程打造,到了2025 下半年,轉向3 納米製程勢在必行。
這不令人意外,蘋果從去年iPhone 15 Pro 系列開始採用3 納米製程。更重要的是,預期高通、聯發科下一代晶片將會跟進,非蘋陣營的Tensor G5 不會獨享製程優勢。
此外,Business Korea 報導還討論三星正在努力解決良率和功耗問題,其中即將推出的Exynos 2500 晶片,宣稱功耗和散熱性能比台積電3 納米製程低約10%~20%。
蘋果從iPhone 4 起搭載自行研發的A 系列晶片,也將客制化M 系列晶片擴展至Mac 全系列,為iPhone 和Mac 開發3 納米製程的晶片有近一年的時間,Android 陣營競爭對手才開始涉足這項技術,而Tensor SoC 轉單委託台積電生產,Pixel 新機可望有感升級。
Google此前還推出了TPUv5p,這是其最新一代雲端AI晶片,也是迄今為止功能最強大且最具成本效益的晶片。每個TPUv5pPod包含了多達8,960個晶片,通過高頻寬的晶片間連接進行互連,以實現快速資料傳輸和最佳性能。
新一代的TPUv5p在AI性能方面表現出色,能夠提供459teraFLOPS的bfloat16性能或918teraOPS的Int8性能,並配備了95GB的高頻寬記憶體以及2.76TB/s的資料傳輸速度。與之前的TPUv4相比,TPUv5p的浮點運算次數提高了兩倍,高記憶體頻寬提升了三倍,這在人工智慧領域引起了廣泛的關注。
此外,TPUv5p還在大語言模型(LLM)訓練速度上提升了2.8倍,比之前的TPUv5e提升了約50%。Google還通過增加計算能力,使得TPUv5p的可擴展性比TPUv4提高了4倍。總體而言,TPUv5p相比TPUv4有以下幾個方面的改進:浮點運算次數增加了2倍,記憶體容量增加了3倍,LLM訓練速度提高了2.8倍,嵌入密集模型訓練速度提高了1.9倍,頻寬增加了2.25倍,晶片間互連頻寬增加了2倍。
Google在AI領域取得明顯的成功,並將其歸功於優秀的硬體和軟體資源。Google的雲端AI超級電腦是一組協同工作的元素,旨在實現現代人工智慧工作負載。Google整合了性能最佳化計算、最佳儲存和液體冷卻等功能,充分利用其巨大的計算能力,從而實現了業界領先的性能。
在軟體方面,Google加強了對流行的機器學習框架(如JAX、TensorFlow和PyTorch)的支援,並提供了一些強大的工具和編譯器。這些工具和編譯器能夠最佳化分佈式架構,使得在不同的硬體平台上開發和訓練複雜的模型變得更加高效和易於使用。Google還開發了多片訓練和多主機推理軟體,以簡化擴展、訓練和服務工作負載的管理。
Google的人工智慧革命性方法得到了硬體和軟體元素的大力支援,這些元素將打破該行業的各種限制。新發佈的雲端AI晶片TPUv5p以及Google的AI超級電腦將為正在進行的AI開髮帶來更多可能性和機會。可以預見的是,這些先進的技術將進一步加劇競爭,推動人工智慧領域的發展。
Google的新一代雲端AI晶片TPUv5p在性能方面表現出色。與之前的TPUv4相比,TPUv5p在多個方面都有了顯著的提升。
首先,TPUv5p的浮點運算次數增加了兩倍。它能夠提供459teraFLOPS的bfloat16性能或918teraOPS的Int8性能,使得運算速度大大加快。這對於處理複雜的計算任務和大規模的機器學習模型非常有幫助。
其次,TPUv5p的記憶體容量比TPUv4高出了三倍。它配備了95GB的高頻寬記憶體,可以更快地訪問和儲存資料。這對於處理大規模的資料集和複雜的模型訓練至關重要。
第三,TPUv5p在大語言模型(LLM)訓練速度上顯示出了2.8倍的代際提升。這對於處理自然語言處理和機器翻譯等任務非常有幫助,能夠加快模型的訓練速度,提高工作效率。
此外,TPUv5p還在嵌入密集模型訓練速度方面有了顯著的提升,達到了1.9倍的倍增效果。這對於處理深度學習模型和神經網路模型非常有幫助,能夠提高模型的訓練效率和精準性。
最後,TPUv5p的頻寬和晶片間互連速度也有了顯著的提升。它的頻寬增加了2.25倍,達到了每秒2765GB的傳輸速度。而晶片間互連頻寬是原來的兩倍,達到了每晶片4800Gbps的傳輸速度。這可以提高資料傳輸的效率和速度,從而提升整體的性能表現。 (半導體產業縱橫)