#Trainium
亞馬遜又拿到船票了?
“我們的晶片業務火熱。”這句話既不是出自輝達、英特爾,也不是Google、微軟,而是來自於亞馬遜CEO安迪·傑西(Andy Jassy)最新的股東信。他還補充到,Trainium晶片的需求正在爆發。這聽起來多少有點反直覺。因為過去一段時間,你聽到的亞馬遜,大機率不是這個故事。你聽到的應該是亞馬遜如何裁員,是自由現金流被AI基建吞掉,是AWS增速被質疑,是它和甲骨文一起被放進了“AI包工頭”那一撥裡。在很多人的印象裡,亞馬遜根本就不是一家站在AI潮頭的公司。模型這邊,OpenAI有ChatGPT,Anthropic有Claude,Google有Gemini。如果我問你亞馬遜最強的模型叫什麼,很多人可能還真得先搜一下。但在大家沒怎麼注意的地方,亞馬遜其實已經暗度陳倉了。在這封股東信裡說寫到,AWS的AI業務年化收入已經超過150億美元。更關鍵的是,包含Graviton、Trainium和Nitro在內的亞馬遜自研晶片業務,年化收入已經超過200億美元,而且還在以三位數同比增長。安迪表示,如果把這塊業務單獨拆出來,像輝達、英特爾那樣直接向第三方賣晶片,它的年化規模大約可以達到500億美元。這個規模就不能再管它叫“內部降本工具”了,這是一塊真正長出來的新業務。更重要的是,亞馬遜現在不是只做晶片。它有底層晶片,有資料中心,有AWS,有Bedrock,有Anthropic這樣的深度繫結客戶,也有OpenAI、蘋果這些外部大客戶。換句話說,雖然模型本身沒那麼亮眼,不過亞馬遜的確是一家全端AI公司了。微軟還在OpenAI、Copilot、Azure和Maia之間摸索主軸,但亞馬遜的方向反而越來越清楚。讓AI儘可能跑在AWS上,儘可能消耗AWS自己的晶片,最後把AI時代的利潤率和控制權重新抓回自己手裡。所以我才覺得,晶片正在成為亞馬遜的“AWS”。就比如Anthropic,現在他們的Claude模型,全都已經在亞馬遜的晶片上跑過了。為了吃定Anthropic這個大客戶,亞馬遜還專門建了一個AI算力叢集,叫Project Rainier。這個叢集是全球已知最大的非Nvidia算力叢集之一,僅印第安納州New Carlisle這一處園區,當時就已經部署了大約50萬顆Trainium2晶片。到2025年底,規模已經擴大到100萬顆晶片。而這些晶片存在的目的就一個,跑Claude。亞馬遜都這麼客氣了,Anthropic自然也得禮尚往來,後者直接參與了亞馬遜Trainium3晶片的設計工作。以前都是晶片公司有什麼晶片,AI公司才能訓練怎樣的模型。現在反過來了,AI公司開始教雲廠商怎麼造晶片。問題也隨之而來。亞馬遜為何非要自己造晶片?它真的是為了挑戰輝達,還是只是想把AWS的利潤率再抬高一點?歸根結底,亞馬遜造晶片這件事,表面看是個硬體故事,但你只要往深處看,就會發現還是亞馬遜那套平台邏輯,把別人的增長,變成自己的基礎設施收入。01一場從2015年開始的豪賭Annapurna Labs成立於2011年,然後他們就一直處於隱身模式。這家公司由三位工程師創立,他們採用了一種很叛逆的設計理念,從雲端運算、資料流量、實際需求倒推回去,再設計晶片。這種反向思維方法,恰好與亞馬遜的工作方式完全契合。2015年初,亞馬遜以3.5億美元收購了一家以色列晶片創業公司Annapurna Labs。沒有新聞發佈會,在亞馬遜的財報中,也只有一條簡短聲明。當時所有人都覺得,這只是亞馬遜眾多投資中不起眼的一筆。收購完成後,亞馬遜並沒有急於推出產品。Annapurna Labs的團隊先是參與了AWS相關項目,後來開始給Nitro System的底層做硬體設計。Nitro System是AWS的一套雲基礎設施底層架構。它是把原來由伺服器主CPU和傳統虛擬化軟體負責的很多事情,拆出來交給專門的硬體去做。Annapurna Labs就是負責來設計這個硬體。有一說一,這只是小打小鬧,或者你可以直接理解為Annapurna Labs在融入亞馬遜這個大家庭之前的一次團建,真正的故事要從2018年開始講起。3年之後,AWS推出了Inferentia,這是一款專門用於推理的機器學習晶片。亞馬遜認為,與訓練相比,推理任務對晶片的要求略低,更容易切入。這屬於人之常情,很多國內做AI晶片的廠商也秉持著相同的想法。2019年,搭載Inferentia晶片的Inf1實例正式上線。這玩意到底性能如何呢?亞馬遜之前有一套搭載輝達T4 GPU的雲伺服器,主打圖形渲染、視訊處理和機器學習推理。Inf1比G4多了最高3倍的吞吐,每次推理成本最多低40%。但是,Inf1在市場上卻沒什麼聲量。原因在於它是專門為推理場景做了最佳化,特別適合用來做推薦系統、圖像識別、語音識別、NLP推理這些。可問題就在於,亞馬遜的整個晶片生態剛起步,你想用Inf1,就必須得用亞馬遜自己的AWS Neuron SDK。這個SDK的框架雖然支援TensorFlow/PyTorch/MXNet,但相容性和成熟度遠不如輝達的CUDA。並且早期編譯器限制很多,比如控制流、模型大小、BERT序列長度等都有約束。所以Inf1更像是個概念產品,只是給市場打了個樣,亞馬遜自己也深知這一點。不過Inf1的表現還是超出了亞馬遜的預期,於是接下來,亞馬遜開始高歌猛進。2021年,AWS正式發佈了首款面向客戶用於訓練AI模型的晶片Trainium。訓練晶片的技術難度遠高於推理晶片,第一代Trainium基於7奈米工藝,擁有約550億個電晶體,於2022年開始為EC2 Trn1實例提供算力。亞馬遜表示,在特定工作負載下,Trainium的每token成本比A100叢集低54%。對於GPT類模型,Trainium的吞吐量與A100相當,但成本只有一半左右。2023年底,亞馬遜在re: Invent大會上發佈了第二代Trainium2晶片。這款晶片採用5奈米工藝,計算核心數量是第一代的4倍,訓練速度提升4倍,記憶體容量顯著增加。Trainium2針對生成式AI訓練做了專門最佳化,支援結構化稀疏性,能夠更高效地處理大語言模型的訓練任務。且相較於基於H200/H100的同類雲配置,價格性能可再提升30%到40%。2024年12月,亞馬遜在re: Invent大會上首次公佈了新一代Trainium3晶片。這是AWS首款採用3奈米工藝的AI晶片。到2025年底,Trainium3被正式整合到Trn3 UltraServer中,每台伺服器搭載144顆晶片,提供362 petaflops的總算力。這些伺服器採用液冷技術,能效比前代提升約4倍。AWS表示在部分訓練和推理場景下,客戶可將成本進一步壓低至輝達GPU方案的一半左右。從2015年到2026年,亞馬遜在晶片業務上的投入是漸進式的,因此越後面投入越大。2025年,亞馬遜的資本支出達到約1250億美元,其中絕大部分流向AI所需的資料中心、電力和晶片。2026年,這個數字預計將達到2000億美元,比分析師預期高出近40%,也超過了Google宣佈的1850億美元上限。02亞馬遜的晶片為何能賣出去?錢,不能只花不賺。前文提到亞馬遜晶片業務的年化營收已超過200億美元,是這個數字包括Graviton處理器、Trainium訓練晶片和Nitro網路晶片的總收入。這封信還透露,如果晶片業務作為獨立公司營運,像輝達或英特爾那樣直接向第三方銷售晶片,年化營收規模可達500億美元。Graviton本質上就是Annapurna Labs開發的一款Arm伺服器CPU,用來替代英特爾和AMD那類傳統x86處理器,負責跑Web服務、資料庫、容器和各種企業應用。你可能要問了,那為何要有這玩意呢?我用英特爾的CPU不行嗎?AWS上有大量的工作負載,其實根本不需要GPU,也不需要什麼AI晶片,這些東西吃的就是最普通、最穩定、最長期的伺服器CPU算力。對這些常見的工作負載來說,Graviton更便宜、更省電,還更容易推廣。目前,亞馬遜的晶片主要通過AWS以租用形式提供給客戶,而不是直接銷售硬體。客戶購買的是EC2實例的計算能力,背後可能是Graviton、Trainium或Inferentia晶片。這種商業模式與傳統晶片廠商完全不同,倒是和網上一些租顯示卡的個體戶很像。從後來的結果看,Graviton也確實成了亞馬遜自研晶片裡最早跑通商業閉環的產品。它不像Trainium那樣需要客戶重寫大量訓練流程,也不像Inferentia那樣強依賴特定推理場景。在AWS彈性計算產品的1000個最大客戶中,超過90%正在使用Graviton晶片。AWS還披露,有超過5萬名客戶在使用Graviton。知名企業如蘋果、SAP、Pinterest、Datadog都是Graviton的使用者。所謂一分錢難倒英雄漢,很多公司遷移到Graviton,就是因為它便宜、穩定,而且遷移成本低。Graviton先幫亞馬遜證明了一件事,只要價格便宜,客戶並不介意自己用的是什麼晶片。而這件事一旦被證明,Trainium和Inferentia後面的故事才真正有了繼續講下去的底氣。Trainium和Inferentia的客戶就相對少一些,它們最大的客戶是Anthropic。2024年底,Anthropic宣佈了Project Rainier,將使用一個擁有近50萬顆Trainium2晶片的算力叢集訓練Claude模型,文章開頭我就提到了。這個叢集在2025年投入使用,是當時世界上最大的機器學習訓練叢集之一,算力是Anthropic之前使用叢集的五倍以上。2025年,OpenAI先與AWS達成了規模達380億美元的長期雲合作承諾。到了2026年2月,亞馬遜又宣佈向OpenAI投資500億美元,並確認OpenAI將通過AWS基礎設施消耗約2吉瓦的Trainium計算容量。考慮到Anthropic和亞馬遜自己的Bedrock服務已經使用了大量Trainium晶片,亞馬遜竟然還能騰出手接下OpenAI這筆大單子,可見當時的亞馬遜已經All In晶片了。除此以外還有蘋果,它們的搜尋產品採用了Graviton 4和Inferentia 2,機器學習推理工作負載的效率提高了40%以上。蘋果還在早期階段測試Trainium 2,初步結果顯示,在Trainium 2上對模型進行預訓練,效率將提升50%。然而正當亞馬遜以為自己的晶片功法就要煉成的時候,有人給他們潑了一盆冷水。2025年7月,一份亞馬遜內部標註為“機密”的文件顯示,AI初創公司Cohere發現Trainium 1和Trainium 2晶片的性能“不及”輝達的H100 GPU。開發了Stable Diffusion的圖像生成公司Stability AI也得出類似結論,認為Trainium 2在延遲方面表現不佳,使其在速度和成本上“競爭力較弱”。新加坡AI研究機構AI Singapore的測試表明,配備輝達GPU的AWS G6伺服器在多個使用場景下的成本性能都優於Inferentia 2。亞馬遜對此回應稱,這些反饋“並非當前情況”,Trainium和Inferentia已經在Ricoh、Datadog、Metagenomi等客戶那裡取得了“出色成果”。03雲巨頭造晶片儘管如此,需求仍在快速增長。亞馬遜的股東信中透露,兩家大型AWS客戶曾要求購買2026年所有的Graviton實例容量,但亞馬遜因需要照顧其他客戶的需求而婉拒了這兩筆大單子。AWS在2025年新增了3.9吉瓦的電力容量,預計到2027年底總電力容量將翻倍。亞馬遜造晶片的故事,從2015年的一筆低調收購,到2026年成為年化200億美元的業務,用了11年時間。你要非得說這個增長多高多快,那也未必見得,但至少說得過去。問題就在於,這條路能走多遠,能否真正複製AWS的成功。亞馬遜造晶片的核心邏輯很簡單,降低成本,提高利潤率。但這個邏輯能否成立,取決於三個問題:晶片真的更便宜嗎?客戶願意為此付出遷移成本嗎?多久能收回投資?首先,客戶需要使用AWS的Neuron SDK對程式碼進行適配。Anthropic的工程師透露,將訓練流程遷移到Trainium3大約需要三周時間,這比早期幾代定製晶片所需的數月時間大幅縮短,但仍然是一筆不小的工程投入。其次,不是說所有的模型架構它都能用Trainium來跑。有些架構需要CUDA進行特定操作,而且一些公司它是財大氣粗的類型,要求算力必須達到極限,而這時候,仍然只能使用輝達的產品。如果把視角再往外拉一點,你會發現亞馬遜對晶片這件事的執念,其實也和它自己在AI戰場上的尷尬處境有關。我就舉一個例子,如果問你,亞馬遜的模型是啥,你如果不去搜尋,能立馬回答得上來嗎?亞馬遜不是沒做模型,相反,它很早就佈局了自己的Titan模型家族,後來又推出了Nova,想把文字、圖像、視訊這些生成能力都補齊。後面還有覆蓋消費端到企業端的各種AI產品,比如Bedrock、Q,再到升級版Alexa。問題在於,亞馬遜每一步都跟著摻和了,但是每一步都沒有讓客戶們滿意。這就導致亞馬遜在AI產業上面掉隊了。除了亞馬遜,雲巨頭也都在重塑AI晶片市場。Google的TPU已經迭代到第五代,微軟也在開發自己的AI晶片Maia。Google雖然不直接賣TPU,不過好歹還建了個雲平台,對外銷售TPU的算力。微軟倒好,這個Maia就從來沒有對外放出來過。然而Maia的現狀,並不樂觀。2023年的時候,微軟本想用Maia 100來跑OpenAI、Copilot這些大模型,但等產品剛開始部署的時候發現,Maia 100的算力遠遠不夠支撐當時的ChatGPT,所以OpenAI也只能選擇輝達。2025年,微軟下一代Maia被爆出難產,因此其量產時間從2025年推遲到了2026年,原因包括設計中途變更、團隊流動和工程推進不順,而且按當時外媒透露的消息,新Maia的性能也比不上輝達剛剛發佈的Blackwell。到了2026年1月,微軟總算是正式拿出了採用3nm工藝的Maia 200,但它的定位是推理,並不能像輝達的GPU一樣用來訓練大模型。然而市面上已經充滿了替代產品,微軟不僅技術上沒有領先,就連產能和鋪設速度也比不過亞馬遜和Google,這就導致微軟的Maia沒能掀起什麼風浪。未來的AI晶片市場可能會分化為兩個層次,一個是輝達、AMD主導的通用市場,另一個是雲巨頭各自的封閉生態。對於初創公司和中小企業來說,選擇那個雲平台,就意味著選擇了背後的晶片架構。如果深度依賴AWS的Trainium,將來遷移到其他平台的成本會非常高。亞馬遜以前掉隊了,所以它才想要去鎖定中小企業未來,指不定能在AWS上再養出來幾個OpenAI、Anthropic這樣的企業。但從另一個角度看,雲巨頭的自研晶片也在推動整個行業的進步。輝達之所以能夠長期維持高利潤率,部分原因是缺乏有效競爭。當亞馬遜、Google、微軟都開始自己造晶片,就會去倒逼輝達降價、加快迭代。最終受益的是整個AI行業。亞馬遜造晶片能否成為下一個AWS,取決於如何定義“成功”。如果成功意味著像AWS那樣創造一個全新的行業,改變整個科技生態,那麼顯然,它並不能成為下一個AWS。晶片行業已經存在了幾十年,亞馬遜不是在創造新市場,而是在重新分配現有市場的份額。但如果成功意味著建立一個可持續的、有競爭力的業務,為AWS提供成本優勢和戰略控制權,那麼亞馬遜已經在這條路上走得很遠。200億美元的年化營收,90%以上的頭部客戶採用率,Anthropic和OpenAI這樣的標竿案例,這些都足以證明Trainium的成功。更重要的是,當你擁有從晶片到資料中心到軟體平台的完整堆疊,你就可以針對特定工作負載進行端到端的最佳化,這是購買通用晶片無法實現的。從這個意義上說,亞馬遜造晶片的故事,不是關於能賺多少錢,而是關於誰掌握控制權。在AI時代,算力就是石油,誰控制了算力的生產和分配,誰就掌握了未來。亞馬遜不想把這個控制權完全交給輝達,就像它當年不想把雲基礎設施的控制權交給英特爾一樣。就算到最後,Trainium不能與輝達平起平坐,它也已經證明了雲巨頭有能力挑戰晶片巨頭的壟斷地位。這本身也是一種成功。 (字母榜)
輝達將發佈重磅晶片
輝達計畫推出一款專為幫助 OpenAI 和其他客戶建構更快、更高效的工具而量身定製的新處理器,這將對其業務進行重大變革,並有望重塑人工智慧競賽格局。據知情人士透露,該公司正在設計一套用於“推理”計算的新系統,這種處理方式可以讓人工智慧模型響應查詢。知情人士稱,這個新平台將於下個月在聖何塞舉行的輝達GTC開發者大會上亮相,並將採用初創公司Groq設計的晶片。推理計算一直是行業競爭的焦點。Google和亞馬遜等競爭對手都設計出了能夠與輝達旗艦級系統相媲美的晶片。此外,科技行業自主程式設計能力的爆炸式增長,也催生了對能夠更高效處理複雜人工智慧相關任務的新型晶片的需求。據知情人士透露,OpenAI已同意成為這款新型處理器的最大客戶之一,這對輝達來說是一項重大勝利。作為輝達最大的客戶之一,ChatGPT的開發商OpenAI在過去幾個月裡一直在尋找比輝達晶片更高效的替代方案,並於上個月與一家晶片初創公司簽署了一項協議,為其提供了新的選擇。周五早些時候,OpenAI在宣佈將從輝達購買大量“專用推理能力”以及獲得這家晶片巨頭300億美元投資時,就暗示了這款新型處理器的存在。此外,OpenAI還簽署了一項重要新協議,使用亞馬遜的Trainium晶片。輝達一直主導著GPU(圖形處理器)的設計和銷售業務,GPU是一種可以同時執行數十億個簡單任務的處理器。但自人工智慧熱潮興起以來,它首次面臨其旗艦產品的侷限性。隨著市場向推理方向轉變,輝達感受到來自部分客戶的壓力,要求其生產能夠更高效地驅動人工智慧應用的晶片。該公司強大的 Hopper、Blackwell 和 Rubin 系列 GPU 被認為是訓練大型 AI 模型的最佳選擇,價格也居高不下。大多數分析師估計,輝達控制著 90% 或以上的 GPU 市場份額。輝達首席執行長黃仁勳一直聲稱,輝達的 GPU 在訓練和推理方面都是市場領導者,這種多功能性是該產品的一個關鍵吸引力。但過去一年,隨著企業部署人工智慧代理和其他工具,對高級計算的需求已從訓練轉向推理。企業希望這些工具能夠顛覆數百個行業,並通過訂閱費創造巨額利潤。人工智慧代理是一種相對自主地代表使用者執行任務的人工智慧系統。許多建構和營運人工智慧代理的公司發現,GPU成本過高、能耗過大,而且並不適合實際運行他們的模型。隨著智能體人工智慧的迅猛發展,輝達面臨著開發成本更低、能效更高的推理晶片的壓力。上個月,OpenAI與Cerebras簽署了一項價值數十億美元的計算合作協議。Cerebras提供一款專注於推理的晶片,其首席執行長Andrew Feldman稱該晶片比輝達的GPU速度更快。《華爾街日報》此前報導稱,OpenAI的工程師去年秋天向Cerebras提出需求,希望獲得一款速度更快的推理晶片,用於智能體編碼應用,之後OpenAI便與Cerebras展開了談判。據《華爾街日報》報導,輝達去年底同意支付 200 億美元,從 Groq 獲得關鍵技術許可,並聘請其高層領導,包括創始人喬納森·羅斯,這是矽谷有史以來規模最大的“收購式招聘”交易之一。Groq設計的晶片採用了一種與Nvidia不同的架構,稱為“語言處理單元”,這種晶片在推理功能方面效率極高。然而,到目前為止,Nvidia對如何使用Groq的技術一直保持沉默。人工智慧推理計算分為兩大任務:預填充,即模型解讀使用者提示的過程;以及解碼,即模型逐字生成響應的過程。預填充通常速度更快,而解碼對於大型人工智慧模型而言往往速度較慢。編碼應用已成為企業級人工智慧最重要且最賺錢的應用之一,Anthropic 的 Claude Code通常被認為是市場領導者。但 Anthropic 主要依賴亞馬遜網路服務 (AWS) 和Alphabet旗下Google雲部門設計的晶片,而非輝達 (Nvidia) 的晶片來驅動其模型。然而,Claude 最強勁的競爭對手之一是 OpenAI 快速發展的 Codex 工具。知情人士透露,ChatGPT 的開發者 OpenAI 計畫利用輝達的新系統來改進 Codex。通常情況下,輝達會將Vera晶片(中央處理器,即CPU)與Rubin GPU搭配使用,建構高性能資料中心伺服器。但一些大型客戶發現,某些智能體AI工作負載僅使用CPU運行效率更高。本月,輝達宣佈擴大與Meta Platforms的合作關係,其中包括首次大規模部署純CPU架構,以支援Meta的廣告定向AI代理。這項合作讓我們得以窺見輝達的戰略:不再侷限於GPU,而是通過其他方式來鎖定部分AI市場份額。 (半導體芯聞)
解構亞馬遜最強晶片,GPU迎來勁敵
全球人工智慧模型製作者已經等待了一年多,希望能拿到 Trainium3 XPU,這些 XPU 是專門為訓練和推理而設計的,是輝達“Blackwell”B200 和 B300 GPU 以及Google“Trillium”TPU v6e 和“Ironwood”TPU v7p 加速器的可靠替代方案。但當亞馬遜網路服務 (AWS) 首席執行官 Matt Garmin 開始談論預計將於 2026 年底或 2027 年初交付的未來 Trainium4 XPU 時,所有排隊購買基於 Trainium3 的 EC2 容量塊的使用者都開始擔心自己會後悔。因為儘管 Trainium3 相較於該公司 Annapurna Labs 晶片設計部門開發的前幾代 Inferentia 和 Trainium XPU 已經相當出色,但 Trainium4 似乎將徹底改變插槽的尺寸,不僅帶來功能強大的裝置,還將帶來可擴展性更強的 UltraServer 叢集,從而更好地運行專家級和鏈式推理模型。在深入探討 Trainium4 的具體細節之前,我們先來回顧一下 Trainium3 XPU 的基本情況,尤其考慮到這款晶片及其前代產品 Trainium2 的許多技術規格直到最近才公佈。讓我們先來看看 Garmin 在本周拉斯維加斯 re:Invent 2025 大會開幕式上發表主題演講時提到的 Trainium3 規格表:這是AWS去年同期展示的幻燈片的更新版,其中預覽了AWS願意透露的三項資料。Tranium3採用了台積電的3奈米製程工藝,比我們大多數人認為Annapurna Labs用於Tranium2晶片的5奈米技術有所改進。Tranium3預計可提供兩倍的計算能力(這可能意味著很多不同的東西),並提供40%的能效提升(由於似乎沒有人知道Tranium1、Tranium2或Tranium3的功耗,因此這並非一個有價值的指標)。但顯然,製程工藝的改進主要是為了降低功耗,而不是為了在晶片中塞入新功能,而插槽尺寸的增大則是為了提升性能,最終每瓦性能淨提升了40%。亞馬遜銷售基於 Tranium2 的常規伺服器實例以及在共用記憶體域中總共有 16 個 Trainium3 插槽的 UltraServer 叢集配置,但到目前為止,僅交付了在單個記憶體域中具有 64 個 Tranium3 的 Trainium3 UltraServer。與搭載於 AWS 的 Trn3 UltraServer 相比,Trn3 UltraServer 的整體計算能力提升了 4.4 倍,這與其 XPU 數量少四倍的 Trn2 UltraServer 相比,可謂意義重大。據 Garmin 稱,最新的 UltraServer 的總 HBM 記憶體頻寬是 Trn2 UltraServer 的 3.9 倍,而對於那些擔憂推理成本(這是 GenAI 商業化的關鍵因素)的使用者來說,更重要的是,其每兆瓦的計算能力可以產生五倍的token。以下是 Garmin 為此項性能聲明提供的帕累托曲線,該曲線顯示了 Y 軸上每兆瓦輸出token數與以每秒每使用者token數表示的輸出互動性之間的相互作用:要想在2025年及以後獲得推理業務的成功,關鍵就在於如何提升並擴展這條曲線。這組圖表對比了運行OpenAI GPT-OSS 120B模型的Trn2 UltraServer叢集和Trn3 UltraServer叢集。該圖表還顯示(但 Garmin 沒有提及),如果互動性對你的推理工作量很重要,那麼在消耗相同能量的情況下,你可以獲得大約高一個數量級的互動性提升。在 Trainium2 實例在其雲上逐步部署的過程中,AWS 更新了此 XPU 的規格,我們也找到了一些 Trainium3 的規格,這消除了一些謎團,並填補了許多關於 Trainium 插槽中元件如何堆疊以構成每個後續 XPU 的空白。讓我們從神經元核心開始,逐步向外擴展。所有 NeuronCore 設計都將四種不同的計算單元整合到核心中,這與 CPU 核心長期以來混合使用整數(標量)和向量單元的做法非常相似,有時(例如 Intel Xeon 5 和 6 以及 IBM Power10 和 Power11)還會配備張量單元。從 Trainium 系列開始,Annapurna Labs 在架構中加入了集體通訊核心(CC-Core),用於處理高性能計算 (HPC) 和人工智慧 (AI) 工作負載中常見的集體操作,因此實際上共有五種計算單元。僅在 Inferentia1 晶片中使用的 NeuronCore-v1 架構包含一個用於整數運算的標量引擎(兩個整數輸入和一個整數輸出)、一個用於向量運算的向量引擎(兩個浮點輸入和一個浮點輸出)以及一個用於張量運算的張量引擎(多個矩陣浮點輸入和一個矩陣浮點輸出)。根據 AWS 文件,NeuronCore-v1 中的標量引擎每個時鐘周期可以處理 512 次浮點運算,並支援 FP16、BF16、FP32、INT8、INT16 和 INT32 資料類型。(我們認為 AWS 的本意是它支援 512 位資料)。文件還指出,向量引擎每個時鐘周期可以處理 256 次浮點運算(同樣,我們認為這是 256 位資料),並且也支援 FP16、BF16、FP32、INT8、INT16 和 INT32 資料格式。您可以根據資料寬度以及每個單元可以容納的資料量來計算每個時鐘周期的運算次數。NeuronCore-v1 的 TensorEngine 的維度從未公開,但我們知道它可以處理 FP16、BF16 和 INT8 輸入以及 FP32 和 INT32 輸出,並可提供 16 兆次浮點運算的 FP16 或 BF16 張量處理。在討論了第一個 NeuronCore-v1 設計之後,讓我們把它們全部並排擺放,看看我們認為 Trainium4 可能達到的水平:AWS 於 2020 年 12 月在 re:Invent 大會上開始討論 Trainium1,並花了兩年時間才全面投產。考慮到這是亞馬遜首款自主研發的資料中心級訓練加速器,這樣的進度也情有可原。我們認為 Trainium1 採用的是台積電 7 奈米工藝製造;已知它擁有 550 億個電晶體,運行頻率為 3 GHz。這款晶片與之後於 2023 年 4 月上市的 Inferentia2 晶片採用了相同的 NeuronCore-v2 架構,後者採用了 5 奈米工藝,電晶體數量大致相同,但針對推理工作負載進行了一些調整,例如 NeuronLink 晶片互連連接埠的數量減少了一半。隨著 Trainium2 於 2023 年 11 月發佈,並於 2024 年 12 月開始量產,AWS 轉向了 NeuronCore-v3 架構,並停止生產 Inferentia 晶片,因為推理過程開始變得越來越像訓練。Trainium2 的每個插槽核心數增加了四倍,單個記憶體域中的 NeuronCore 總數增加了 16 倍,因為每個實例的插槽數也增加了四倍。據我們所知,AWS 還將 Trainium2 的時脈頻率提升了,同時將製程從 Trainium1 的 7 奈米縮小到 5 奈米。有趣的是,每個 NeuronCore 的峰值標量和向量性能在 v3 中下降了約 60%,峰值張量吞吐量下降了 12%。但AWS為該晶片的張量運算增加了1:4稀疏度支援,再加上核心數量的增加,使得Trainium2在FP16或BF16精度下的有效吞吐量比Trainium1提升了3.5倍。事實上,NeuronCore-v3支援多種不同的稀疏度模式:4:16、4:12、4:8、2:8、2:4、1:4和1:2。三個計算單元共享的 NeuronCore-v3 的 SRAM 記憶體容量提升至每個核心 28 MB,但我們尚不清楚具體提升幅度。HBM 記憶體容量最終提升至 96 GB,提升了 3 倍,頻寬也提升了 3.5 倍,達到 2.9 TB/秒。可以說,這是首款具有競爭力的 Trainium 晶片,Anthropic 一直使用 Trainium2 裝置進行模型開發和推理,並且 AWS Bedrock 模型服務的大部分推理工作也由 Trainium 完成,這並非巧合。我們推測,Garmin 在主題演講中提到的數百萬台 Trainium 裝置中,大部分是 Trainium2 裝置。這就引出了 Trainium3,它現在已在 UltraServer 實例中批次交付。Trainium3 裝置的核心是 NeuronCore-v4 架構——沒錯,如果核心名稱與裝置名稱一致就更好了——它帶來了一些重大改進。首先,向量引擎經過調整,可以快速進行指數函數計算,其性能是標量引擎執行此任務的 4 倍,而這項任務是 GenAI 模型自注意力演算法的一部分。其次,FP16 和 BF16 資料格式可以量化為 MXFP8 格式,AWS 表示這對於 GenAI 模型中多層感知器 (MLP) 層之間的資料量化非常有用。NeuronCore-v3 設計還將每個核心的 SRAM 容量提升至 32 MB。 Trainium2 和 Trainium3 之間的時鐘速度似乎只有名義上的變化,沒有顯著變化,但該裝置最大的變化是 NeuronLink-v4 XPU 互連連接埠的頻寬翻了一番,達到 2.5 TB/秒,HBM 記憶體容量增加了 1.5 倍,達到 144 GB,HBM 頻寬增加了 1.7 倍,達到 4.9 TB/秒。我們認為 Trainium3 設計的改進旨在更好地平衡計算、記憶體和互連,從而提升 Trainium3 插槽的實際性能,而非其理論峰值性能。Trn3 Gen1 UltraServer 的記憶體域與 Trainium2 相同,仍為 64 個裝置,但目前已上市的 Trn3 Gen2 UltraServer 的記憶體域已擴展至 144 個插槽。這使得可用於 AI 訓練或推理任務的核心數量增加了 2.25 倍。這就引出了 Trainium4,預計將於明年這個時候開始推出。我們推測,AWS 將採用名為 NeuronCore-v5 的架構,為 Trainium 處理加入完整的 FP4 支援,而不僅僅是將 MXP4 資料塞進張量的 FP8 插槽中,造成大量空間浪費。Garmin 在主題演講中表示,通過採用 FP4 原生格式,Tranium4 的性能將是 Tranium3 的 6 倍,這意味著 FP8 處理能力將提升 3 倍。Garmin 還表示,Tranium4 的 HBM 記憶體容量將是 Tranium 3 的 2 倍,HBM 頻寬將是 Tranium 3 的 4 倍。在上面的巨型表格中,我們試圖弄清楚 Trainium4 可能是什麼樣子,以及如何進一步擴展一組耦合的 Trainium4 裝置的記憶體域。實現這一目標有很多不同的途徑,我們認為AWS最好的選擇是採用2奈米工藝以節省一些功耗,或者繼續使用3奈米工藝以節省一些成本,但這樣會製造出尺寸稍大、發熱量稍高的XPU。這很難抉擇,但我們認為AWS最終會傾向於採用2奈米蝕刻工藝來開發Trainium 4。如果你看一下 Garmin 上面的圖表,你會發現它表明 Tranium4 將同時支援裝置上的 NVLink 和 UALink 連接埠——Nvidia 曾大肆宣傳 AWS 採用 NVLink 技術,但我們猜測 AWS 將會推出帶有 NVLink 連接埠的 Graviton 系列晶片,並獲得 Nvidia 一直不願提及的功能:將定製 CPU 和定製 XPU 通過 NVLink 連接埠和 NVSwitch 記憶體交換結構連接到一個巨大的共用記憶體域。迄今為止,Nvidia 一直允許客戶使用連接到 Nvidia GPU 的定製 CPU 或定製 XPU,但尚未允許第三種選擇。我們認為AWS採購的GPU數量足夠多,因此它有能力提出這樣的要求並獲得相應的回報,而且價格也應該合理。我們還認為AWS會支援Nvidia的NVFP4資料格式以及用於FP4處理的MXFP4格式,這很可能是雙方交換條件的一部分,目的是為了讓在Tranium4晶片上進行的工作更容易地轉移到Nvidia的“Blackwell”和“Rubin”GPU上。當然,這些都只是我們的猜測。我們還認為AWS希望能夠將這些GPU接入到它自己的機架中,而這些機架本質上將是Nvidia機架的克隆版。但值得注意的是,Garmin 的上圖也提到了 UALink。AWS 仍在權衡各種方案,無疑希望 Tranium4 封裝採用晶片組架構,以便將 NVLink 連接埠取代為 UALink 連接埠,並採用機架式設計,以便在 UALink 交換機上市時(或許在明年晚些時候)將其取代為 NVSwitch 交換機。NeuronLink-v5 可能經過調整以相容 UALink 2.0,而這些交換機將由 Annapurna Labs 生產,而不是 Astera Labs、Upscale AI、Marvell、Cisco Systems 或其他提供可擴展互連 ASIC 的公司生產。要在相同或略微更小的散熱範圍內獲得三倍性能的最簡單方法是,將核心數量增加三倍,並保持時脈頻率基本不變,同時採用 2 奈米製程工藝。如果電晶體尺寸縮小更多(例如台積電的 1.6 奈米 A16 工藝),則可以略微降低散熱或略微提高時脈頻率。我們的建議是充分利用散熱優勢,保持其他參數不變,就像 AWS 在 Trainium2 和 Trainium3 之間所做的那樣,只需將核心數量增加三倍即可。如果將核心數量增加 3 倍,達到每個插槽 24 個核心,並可能分佈在四個晶片組上,那麼在保持精度不變的情況下,性能將提升 3 倍;如果將 FP8 降級到 FP4,那麼每個插槽的性能將提升 6 倍。現在有趣的地方來了。如果你將每個系統的裝置數量也翻倍至 288 個(與 Nvidia 的做法一致),那麼你可以在 Trainium4 UltraServer 叢集中獲得 6,912 個 NeuroCore,所有這些 NeuroCore 都位於一個記憶體域中,並擁有 1,944 TB 的 HBM 記憶體。當然,這與Google能夠在單個記憶體域中部署的 9,612 個 Ironwood TPU v7p XPU 相比,簡直是小巫見大巫……但它比目前市面上銷售的 Trn2 Gen2 UltraServer 叢集性能高出 13.5 倍。 (半導體行業觀察)
4倍性能、50%成本降幅!亞馬遜強勢推出Trainium3晶片,AI訓練推理增添新選項!
當地時間 12 月 2 日,亞馬遜雲端運算服務(AWS)在美國拉斯維加斯舉辦的年度雲端運算盛會“AWS re:Invent 2025”上發佈了全新的自研 Trainium3 晶片,以及採用 Trainium3 晶片的 Trainium3 UltraServer 伺服器。根據首席執行官 Matt Garman 的介紹,新款 Trainium3 晶片的性能是前代產品的 4 倍,並採用台積電 3 奈米工藝製造。每個晶片都配備了 144 GB 的 HBM3E 記憶體,記憶體頻寬為 4.9 TB/s,提供 2.52 FP8 PFLOPs 的算力。(來源:社交媒體 X)Trainium3 UltraServer 單機最多整合 144 顆 Trainium3 晶片,總共配備 20.7 TB HBM3E、706 TB/s 記憶體頻寬,可提供最高 362 FP8 PFLOPS 的算力,時延降低 4 倍,可更快訓練超大模型,並大規模支撐推理服務。其計算性能比 Trainium2 UltraServer 高出 4.4 倍,能源效率高出 4 倍,記憶體頻寬也高出近 4 倍。在使用 OpenAI 的開源大模型 GPT-OSS 進行測試時,Trainium3 UltraServer 的單晶片吞吐量可提升 3 倍,推理響應速度提升 4 倍。這意味著企業可以在更小的基礎設施規模下應對峰值需求,顯著最佳化使用者體驗,同時降低每次推理請求的成本。AWS 以垂直整合方式打造 Trainium3 UltraServer,從晶片架構到軟體棧全鏈路協同。核心之一是新一代網路基礎設施,用於消除傳統分佈式 AI 計算的通訊瓶頸:NeuronSwitch-v1 提供 2 倍 的 UltraServer 內部頻寬;增強型 Neuron Fabric 將晶片間通訊延遲降低至 10 微秒以內。這種強大的配置使得它非常適合處理下一代最前沿的 AI 工作負載,例如:訓練大規模AI模型,可以將複雜模型的訓練時間從數月縮短至數周;處理高並行的 AI 推理請求,以低延遲即時處理數百萬使用者的請求,例如智能對話、視訊生成等;運行特定複雜任務,如智能體系統、專家混合模型和大規模強化學習等。包括 Anthropic、Karakuri、Metagenomi、NetoAI、Ricoh、Splash Music 等客戶,已經借助 Trainium 將訓練和推理成本降低最多 50%。其中,Decart 在即時生成式視訊方面實現了 4 倍推理速度提升,成本僅為 GPU 的一半;而 Amazon Bedrock 已經在生產環境中使用 Trainium3 提供服務。(來源:社交媒體 X)對於需要更大規模的客戶,EC2 UltraCluster 3.0 可連線千台 UltraServer,構成擁有多達 100 萬顆 Trainium 晶片的叢集——是上一代的 10 倍。這使得此前完全不可能的任務成為現實:從在兆級 token 資料集上訓練多模態模型,到為數百萬並行使用者提供即時推理服務。自研晶片是亞馬遜的重要戰略項目之一,目標是避免過度依賴昂貴的輝達硬體。而對於 Trainium3 來說,一個關鍵問題在於:有多少大型外部客戶會願意採用這套硬體。尤其是在Google旗下的 TPU 持續搶佔 AI 晶片市場的背景下。另一個重要變數是 AI 初創公司 Anthropic 的晶片採購分配。今年 10 月,Anthropic 宣佈與Google達成合作,將使用多達 100 萬顆Google TPU 晶片,以實現除亞馬遜和輝達之外的供應多元化。Anthropic 表示,亞馬遜仍是其主要訓練合作夥伴與雲服務提供商。該公司預計,到今年年底,將使用超過 100 萬顆 Trainium 2 晶片,其中包括運行在擁有近 50 萬顆 Trainium 處理器的 Project Rainier 超級電腦之上。此外,AWS 也預告了下一代 AI 訓練晶片 Trainium4的研發進展。其在各方面都將實現大幅性能躍升,包括處理性能(FP4)至少提升 6 倍、FP8 性能提升 3 倍、記憶體頻寬提升 4 倍。結合持續的軟硬體最佳化,其實際性能提升將遠超基準數值。其中,FP8 提升 3 倍是一次基礎性飛躍。模型訓練至少快 3 倍,推理吞吐量也至少提升 3 倍,並且隨著軟體最佳化將獲得進一步加成。FP8 已成為現代 AI 工作負載在精度與效率之間的行業標準格式。為進一步提升單機擴展性能,Trainium4 將支援 NVIDIA NVLink Fusion高速互聯技術。該能力將使 Trainium4、AWS Graviton 處理器及 Elastic Fabric Adapter(EFA)能在統一 MGX 機架內協同工作,為客戶提供支援 GPU 與 Trainium 的成本更優、性能更強的機架級 AI 基礎設施。這一整合將建構一個靈活、高性能的平台,最佳化應對未來對訓練與推理都極其苛刻的 AI 工作負載。 (問芯)
CPU被超!GPU成市場新主角
2024年GPU銷售額超越APU和CPU,成為各類處理器中銷售額冠軍。Yole Group 近日發佈《2025 年處理器產業狀況》報告,指出全球處理器市場正經歷由生成式 AI 與雲端基礎設施推動的深刻變革。Yole Group 提到,2024 年 GPU 銷售額超越 APU 和 CPU,成為各類處理器中銷售額冠軍。其銷售額達 1130 億美元,佔總處理器銷售額的 39%,一年內實現 126% 的增長。這一增長主要受 NVIDIA 主導地位及生成式 AI 模型對 GPU 需求增加的推動。Yole Group 認為,到 2030 年,GPU 市場規模將達 2390 億美元,是 2024 年的 2 倍以上,增長背後是伺服器 GPU 平均售價的上升。同時,美國出口限制已重塑競爭格局,尤其在中國市場。儘管當前 GPU 佔據市場主導地位,但專為人工智慧應用設計的積體電路(AI ASIC)正成為戰略替代方案。ASIC(Application Specific Integrated Circuit特定用途積體電路)根據產品的需求進行特定設計和製造的積體電路,其定製程度相比於 GPU 和 FPGA 更高。ASIC 算力水平一般高於GPU、FPGA,但初始投入大,專業性強縮減了其通用性,演算法一旦改變,計算能力會大幅下降,需要重新定製。Google、亞馬遜(Amazon)、華為等超大規模雲端服務商,正大量投資專有解決方案,以減少對 NVIDIA GPU 的依賴。Google 早在 2013 年就秘密研發專注 AI機器學習演算法晶片,並用於雲端運算資料中心,取代輝達 GPU。這款TPU自研晶片2016年公開,為深度學習模型執行大規模矩陣運算,如自然語言處理、電腦視覺和推薦系統模型。Google 其實在 2020 年的資料中心便建構 AI 晶片 TPU v4,直到 2023 年 4 月才首次公開細節。值得注意的是TPU是一種定製化的 ASIC 晶片,它由Google從頭設計,並專門用於機器學習工作負載。亞馬遜也推出了其自研 AI 晶片Trainium,以減少對輝達的依賴並提高自身在 AI 領域的競爭力。該公司投資大量資金用於技術基礎設施建設,並已定製晶片以提升資料中心效率,降低成本。亞馬遜與被收購的晶片初創公司 Annapurna Labs 合作,旨在打造自有的 AI 晶片,同時也在投資 AI 基礎設施。據預測,2024 年至 2030 年,AI ASIC 市場年複合增長率(CAGR)將達 45%,規模將從 2024 年的 90 億美元增長至 2030 年的 850 億美元,成為行業增長最快的部分。其他類型處理器銷售情況好壞不一:DPU 增長與人工智慧及伺服器需求相關,預計 2030 年將增長至 170 億美元;FPGA 2024 年銷售額出現下滑,但預計將逐步穩定,2030 年前規模達 80 億美元,增長主要受汽車應用支撐。市場層面,2024 年電信與基礎設施領域收入佔比首次超越移動與消費領域,達 53%。預計到 2030 年,這一比例將升至 66%,凸顯雲端人工智慧部署的核心作用。汽車行業,尤其是與 ADAS 及娛樂系統相關的應用,同樣是增長引擎,預計 2030 年前年增長率將達 15%。近日來自大摩的一份報告也給GPU市場熱度再添一把火。摩根士丹利(大摩)最新報告顯示,在與輝達管理層會談後,對其在人工智慧(AI)領域的短期及長期需求信心增強,維持“增持”評級,目標價設定為 210美元,對應總市值約 5.1兆美元。這一積極的評估,反映了市場對 GPU驅動的 AI 基礎設施建設的樂觀預期,以及輝達在這一領域的領先地位。報告指出,全球雲資本支出持續擴張,計算核心正從CPU 向 GPU 加速遷移。這一趨勢是輝達收入增長的主要動力。隨著 AI技術在各行各業的深入應用,對算力的需求呈現爆發式增長。輝達憑藉其在 GPU 領域的深厚積累,以及 CUDA 等生態系統的優勢,成為了 AI 基礎設施建設的核心供應商。大摩預計,到 2030年,AI 基礎設施市場規模有望達到 3至5兆美元,遠高於此前的預測,這無疑為輝達帶來了巨大的增長潛力。針對輝達與OpenAI 合作引發的供應商融資議題,摩根士丹利的分析師團隊認為,這種模式是“需求加速器”。輝達正通過投資 CoreWeave及英國主權基金等方式擴巨量資料中心產能,以滿足市場日益增長的需求。這種戰略不僅能夠加速 AI 基礎設施的建設,也為輝達帶來了更多的市場機遇。未來,這種合作模式有望複製到更多企業,進一步鞏固輝達的市場地位。 (半導體產業縱橫)