AI能在幾秒內處理百萬條資料,背後靠的是什麼晶片?
常聽人說GPU支撐AI算力,那TPU又在起什麼作用?
它和我們手機裡的晶片有本質區別嗎?
實際上TPU就像AI的專屬廚師,專門做AI最需要的算力工作,不多但精準高效。
1、TPU不是一開始就為通用AI設計的
很多人以為TPU從誕生就針對大模型訓練,其實它最初是Google為自家業務定製的工具。
Google ML發展關鍵時間線(2011-2015)
2015年前後,Google的搜尋排序、語音識別這些服務需要大量重複的數值運算,當時的GPU處理起來總有些力不從心,要麼速度不夠,要麼耗電太多。
Google工程師乾脆重新設計晶片架構,把所有計算資源都集中在這類運算上,這就是第一代TPU的由來。
後來大模型興起,大家才發現這種架構剛好符合AI的需求,TPU才從Google內部走向公開市場。
TPU v1
2、TPU不用常見的快取設計
普通電腦和手機晶片裡,快取是個重要部件,就像書桌邊的抽屜,常用的東西放裡面方便拿。
可是TPU不怎麼依賴快取,反而用了超大頻寬的記憶體。
這是因為AI運算的特點和普通計算不一樣,它需要處理海量連續的資料,比如一張圖片的像素點或者一段文字的編碼,這些資料要不斷輸入計算單元。
快取的容量再大也裝不下這麼多連續資料,換成高頻寬記憶體,就能像消防水管送水一樣,把資料快速送到計算部分,反而更高效。
1、架構設計
TPU的設計第一步就是設計架構,這就像蓋房子先畫圖紙,決定了晶片的性能上限。
架構設計要先明確晶片的用途,是給大模型訓練用,還是給智能音箱這類裝置做推理用。
訓練用的TPU需要更強的平行計算能力,能同時處理海量資料;推理用的TPU則更看重能效比,不能太耗電。
Google最新的Trillium TPU就是典型的訓練型架構,把多個計算部分連在一起,還最佳化了資料傳輸的路徑,相比上一代訓練速度提升了4倍多,能耗反而降了不少。
TPU v4 架構
2、演算法適配比單純增加參數更重要
設計TPU不能只看硬體參數,還要和AI演算法配合好。
不同的AI模型,比如圖像識別和語言翻譯,運算邏輯不一樣。
如果晶片架構和演算法不匹配,就算參數再高也沒用,就像用菜刀砍骨頭,再鋒利也不如斧頭順手。
Google的TPU能在Gemini模型上做得很好,就是因為設計時針對多模態模型的運算特點做了最佳化,比如加強了對圖像和文字混合資料的處理能力。
國內企業設計TPU時,也會針對政務、金融這些領域的特定演算法做調整。
人工智慧模型訓練計算量趨勢圖
3、IP核採購
TPU設計不用所有部分都從零開始,有些通用模組可以直接買現成的IP核。
IP核就像現成零件,比如記憶體控製器、介面模組這些,有專業公司專門研發銷售。
買IP核能節省大量時間,不用再花幾年研發這些成熟技術,還能降低風險。
大部分中小設計企業都會用這種方法,只專注於TPU主要計算部分的設計。
Google這樣的大企業,為了追求最好的性能,會自己研發所有IP核,但投入的研發費用往往要數十億。
1、矽片
TPU的製造要從矽片開始,這種高純度的矽片表面光滑,純度要達到99.9999999%以上,一點雜質都可能影響晶片性能。
矽片的尺寸也很重要,現在主流是12英吋矽片,一片就能切割出幾百個TPU晶片,比小尺寸矽片的效率高很多。
生產矽片的過程很複雜,要經過晶體生長、切片、拋光等幾十道工序,國內的中環股份、滬矽產業都能生產這種高純度矽片,不過高端產品還需要進口。
2、光刻
光刻就像給矽片刻上電路圖案,是製造環節最重要的一步。
這個過程需要用光刻機,把設計好的電路圖案通過雷射投射到塗了光刻膠的矽片上,再用化學藥劑蝕刻,形成電路紋理。
TPU的製程越先進,光刻的難度就越大。
目前主流的TPU用7奈米或5奈米製程,需要極紫外光刻機才能完成。
全球能生產這種光刻機的企業很少,台積電就是靠掌握先進光刻技術,成為Google、蘋果等企業的TPU代工廠。
3、摻雜工藝
矽本身的導電性能一般,需要通過摻雜工藝來調整。
簡單來說就是在矽片的特定區域注入硼、磷這些雜質,形成PN接面,這樣才能控制電流,讓晶片完成計算。
摻雜的精度要求極高,雜質的濃度和注入深度都要精確到奈米等級。
不同的計算部分,摻雜的參數不一樣,比如TPU的主要計算區域需要更高的導電效率,摻雜濃度就會高一些;而外圍的控制區則需要更穩定的性能,摻雜參數會更穩。
1、封裝
晶圓切割成單個晶片後,下一步就是封裝。
封裝主要有三個作用:一是保護晶片不受潮濕、灰塵這些外界環境影響;二是引出晶片的電極,方便和外部電路連接;三是幫晶片散熱——TPU工作時會發熱,封裝材料和結構都影響散熱效果。
訓練用的TPU功率大,所以會用更複雜的倒裝封裝技術:把晶片正面朝下貼在基板上,這樣散熱路徑更短。
國內像長電科技、通富微電這些企業都能做TPU封裝,技術水平和國際企業差不了多少。
2、測試要過三道關
封裝好的晶片不能直接出廠,得經過嚴格測試,主要有三道關。
第一道是性能測試,用專門裝置給TPU輸入測試資料,檢查計算速度、精度這些指標是否符合要求——Google的TPU還會專門測試在Gemini模型上的訓練效率。
第二道是穩定性測試,把TPU放在高溫高濕的環境裡連續工作幾百小時,看看會不會出故障。
第三道是功耗測試,測測不同負載下的耗電量,確保符合設計要求。不合格的晶片會被標記淘汰,合格率直接關係到企業的成本。
能效比例
3、模組化設計
現在的TPU大多用模組化封裝,把多個晶片整合到一個模組裡——比如Google的TPU Pod就是由好幾個TPU晶片組成的。
這種設計有兩個好處:一是組合起來方便,根據需求拼接不同數量的模組,就能滿足不同的算力需求;二是維護起來省事,如果某個晶片壞了,只換對應的模組就行,不用把整個裝置都廢掉。
智算中心裡的TPU叢集都用這種方式,維護人員不用拆開晶片,直接換模組就能解決問題,能省不少停機時間。
1、聚氨酯材料
這裡說的聚氨酯材料和晶片不是一回事,但在TPU產業鏈裡也挺重要的。
汽車車衣用的就是熱塑性聚氨酯材料,彈性好、耐老化,還能防刮擦。
張家界有家企業專門做這種材料,全球市場佔有率能到90%,連阿迪達斯的運動鞋都用他們的TPU膠膜來粘接。
生產這種材料需要高品質的聚酯多元醇,國內的華峰化學通過收購企業,打通了從原料到成品的全鏈條,成本比進口材料低很多。
2、光刻膠
光刻膠是光刻環節必須用的材料,塗在矽片表面,經過雷射照射後會發生化學反應,形成可以蝕刻的圖案。
光刻膠的質量直接影響電路精度,先進的5奈米製程得用極紫外光刻膠,這種材料研發難度很大,成分配比要精確到百萬分之一。
現在國內企業已經能生產28奈米製程用的光刻膠,高端的還得從日本或者美國進口。
光刻膠的儲存條件也挺嚴格,得放在低溫環境裡,不然會失效。
3、散熱材料
TPU工作時產生的熱量要是不能及時散出去,會影響性能甚至縮短壽命,所以散熱材料就很關鍵。
封裝環節會用到散熱膏和散熱片:散熱膏填在晶片和散熱片之間的縫隙裡,能提高導熱效率;散熱片則增大散熱面積,把熱量傳到空氣裡。
大功率的TPU叢集還需要專門的液冷散熱系統,用冷卻液把熱量帶走。
國內像高瀾股份、同飛股份做的液冷系統,已經用到不少智算中心的TPU叢集裡了,散熱效率比傳統的風冷高3倍多。
1、智算中心是TPU的主要陣地
智算中心就像TPU的大本營,很多TPU在這裡組成叢集,給AI企業提供算力服務。
天津移動建的TPU智算中心,通過最佳化叢集佈局和散熱系統,單位算力成本降了很多。
這些智算中心會根據客戶需求,提供不同的算力套餐:比如給科研機構提供大模型訓練用的高算力服務,給中小企業提供智能客服推理用的輕量算力服務。
像視拓雲這樣的企業,還把TPU算力做成了零售業務,客戶按需購買就行,不用一次性投很多錢建機房。
2、汽車行業
TPU在汽車行業的應用分兩種:一種是晶片,一種是材料。
晶片方面,有些智能汽車的自動駕駛系統會用TPU做推理,處理攝影機和雷達傳來的路況資料,判斷行人和車輛的位置。
材料方面,汽車車衣用的熱塑性聚氨酯材料越來越常見,納琳威做的真漆車衣,還能適配特斯拉賽博皮卡的不鏽鋼車身,貼合度特別高。
易車和邦泰集團合作研發車用TPU粒子,做成的車衣性價比更高,已經覆蓋了從一線到三四線城市的門店。
3、小型化TPU
智慧型手機、智能音箱這些消費電子產品,需要的是小型、低功耗的TPU。
智能音箱裡的TPU,主要負責語音識別的推理,能把使用者的語音指令快速轉成文字,還能理解意圖。
這種TPU尺寸很小,有的只有指甲蓋那麼大,功耗也低,一節電池就能支援長時間工作。
國內的瑞芯微、全志科技都做這類小型TPU,很多智能家電廠商都會買。有些高端耳機裡也會裝小型TPU,用來最佳化降噪演算法。
Coral Edge TPU與NVIDIA GTX 1080 GPU在最大功耗和每瓦特運算性能上的對比
1、全球市場增長速度很快
TPU所屬的智能算力市場,這幾年漲得特別快。2024年全球AI算力市場中,GPU和TPU主導的智能算力規模超過了750億美元。
有機構估計,2025年這個數字會跳到3500億美元,差不多翻五倍。
這當中TPU的佔比還在慢慢上升,特別是Google推出Trillium TPU後,不少企業開始換成TPU來做訓練和推理。
Meta甚至打算從2027年開始,在自家資料中心裡裝Google的TPU,這筆單子說不定能到幾十億美元呢。
2、中國市場增速超過全球平均
中國智能算力市場的增長速度比全球平均還要快。
根據IDC和浪潮資訊的報告,2025年中國人工智慧算力市場規模能到259億美元,比去年漲了36.2%。
TPU的用途現在越來越多,政務、金融、製造這些行業都在往裡面砸錢。
天津、上海這些大城市都在蓋TPU智算中心,中國移動打算到2028年底建成本國最大的智算設施,裡面會裝很多國產TPU。
國產TPU的市場份額也在往上走,寒武紀、華為的TPU在國內政務領域用得已經挺多了。
3、不同應用場景的市場差異大
TPU的市場分佈不太均勻,智算中心佔了大部分,大概能有70%以上。
為何呢?因為大模型訓練和推理需要好多TPU湊成叢集,一套裝置的投入就不低。
汽車行業的TPU市場漲得最快,特別是自動駕駛和車衣材料這兩塊,2025年的漲幅可能超過50%。
消費電子領域的TPU市場規模不算大,但勝在穩,每個智能裝置裡都得有個小TPU,賣出去的數量特別多。
材料類的TPU市場也不小,光汽車車衣和運動鞋這兩個地方,全球一年賣的錢就超過一百億美元。
1、Google和輝達
國際上TPU市場主要是Google和輝達在搶地盤,不過兩家擅長的地方不一樣。
Google的TPU在AI訓練這塊優勢很明顯,特別是和自家Gemini模型搭著用的時候,效率比輝達的GPU高不少,還更省電。
輝達則在生態這塊更厲害,好多AI框架都先適配GPU,企業要換成TPU得調整演算法,難度相對大一點。
但這種情況正在改變,Google通過雲服務把TPU租給其他公司,Meta這樣的大公司也開始考慮用了,Google在市場上的說話份量慢慢變重了。
2、國內企業細分領域
國內的TPU企業沒直接和Google、輝達硬碰硬,而是從細分領域入手。
寒武紀的TPU主要針對政務和金融行業,這些地方對安全性要求高,國產晶片更吃香。
華為的TPU則和自家鴻蒙系統、雲服務綁在一起,在智能汽車和工業網際網路這塊推。
材料領域的國內企業表現更亮眼,張家界齊匯新材料在運動鞋用TPU膠膜市場佔了全球90%的份額,邦泰集團在車用TPU粒子這塊的國內市場佔比超過60%。
這些企業通過盯著細分市場做,給自己築起了一道競爭的牆。
1、網際網路科技巨頭
網際網路科技巨頭是TPU的主要客戶,尤其是那些做AI大模型的公司。Google、Meta、百度、阿里這些企業,每年都會買好多TPU搭成算力叢集,用來訓練模型和做推理。
他們買TPU的時候最看重性能和穩不穩定,對價格不太在乎。
Google自己做TPU,同時也把算力租給其他公司;百度則混著用國產和進口TPU,重要業務用進口的,邊緣業務用國產的來省錢。
這些巨頭買的量很大,一單就能佔企業年銷售額的20%以上。
2、製造企業
製造企業買TPU主要用在兩個地方,一是生產線上的智能檢測,用TPU處理攝影機拍的產品圖片,找出缺陷;二是生產TPU材料做的東西,比如汽車零件、運動鞋材料。
這些企業買的時候最看重性價比,不會瞎買高端產品。
汽車零件廠商會選國產的中低端TPU晶片,足夠滿足檢測需求,價格比進口的低30%以上。
買材料這塊,他們會和供應商長期合作,比如阿迪達斯就把齊匯新材料當成最大的TPU膠膜供應商,兩家還一起研發新產品。
3、科研機構和政務部門
科研機構和政務部門買TPU,安全是第一個要考慮的。
高校和科研院所買TPU主要用來研發AI演算法,他們需要晶片能靈活擴展,適配不同的實驗場景。
政務部門買的TPU則主要用在人口統計、交通管理這些地方,資料很敏感,必須用通過安全認證的國產晶片。
寒武紀的TPU就通過了好幾個政務安全認證,在好多城市的智能交通系統裡都在用。
這些客戶買的量雖然不如巨頭,但訂單穩,給錢也比較快。
1、訓練場景TPU更有優勢
在AI模型訓練場景裡,尤其是大模型訓練,TPU的優勢很明顯。
因為訓練過程需要反覆做矩陣運算,TPU的架構就是專門為這個做的,所有計算資源都集中在這事兒上,沒有多餘功能浪費資源。
Google的Trillium TPU訓練Gemini模型時,速度比輝達最新的GPU快4倍,能耗卻低67%。
這就意味著訓練同一個模型,用TPU能省好多時間和電費,對經常要訓練模型的企業來說,這筆省下來的錢可不少。
2、推理場景兩者各有千秋
推理場景就是模型訓練完後,處理實際資料的過程,比如語音識別、圖像分類。
這種場景下TPU和GPU各有各的好,得看具體用在那兒。如果是單一任務的大量推理,比如智能音箱的語音識別,TPU更高效,成本也更低。
如果是複雜的多工推理,比如自動駕駛同時處理路況、行人、交通燈這些資訊,GPU的通用性更強,能同時處理不同類型的運算,更佔優勢。
好多企業會混著用,簡單任務用TPU,複雜任務用GPU。
3、生態完善度GPU領先
雖然TPU在性能上有優勢,但GPU的生態更成熟,這也是好多企業不願換的原因。
現在市面上大部分AI框架、演算法庫都是先適配GPU的,企業要是改用TPU,得重新調整演算法程式碼,還要培訓工程師,花的錢不少。
Google為了打破這個局面,做了兩件事:一是開放自己的AI框架,讓開發者更容易適配TPU;
二是通過Google雲提供TPU算力服務,企業不用自己買晶片,直接租就能用,降低了換用的難度。隨著越來越多企業試著用,TPU的生態也在慢慢變好。 (小叔報告)