最近,晶片界傳奇人物、處理器設計大佬、Tenstorrent現任首席執行官吉姆·凱勒(Jim Keller)在接受採訪時表示,輝達沒有很好地服務於很多市場,因此,Tenstorrent和其它新創AI處理器研發公司是有機會的。
Jim Keller曾任職於多家大牌企業,包括AMD,英特爾、蘋果和特斯拉。1998~1999年,Jim Keller在AMD主導了支撐速龍系列處理器的K7/K8架構開發工作,2008~2012年,在蘋果牽頭研發了A4、A5處理器,2012~2015年,在AMD主持K12 Arm項目和Zen架構項目,2016~2018年,在特斯拉研發FSD自動駕駛晶片,2018~2020年,在英特爾參與了神秘項目。
現在,Jim Keller在Tenstorrent領導AI處理器的開發,可以為輝達昂貴的GPU提供價格合理的替代品,輝達的GPU每個售價20,000 ~ 30,000美元或更多,Tenstorrent 稱,其Galaxy系統的效率是輝達DGX的3倍,成本低33%。做高性能AI應用處理器的產品替代是Tenstorrent工作的一部分,但不是全部,該公司的業務宗旨是服務輝達未能解決的市場痛點,尤其是在邊緣計算領域。
隨著海量資料持續增加,以及對計算和儲存系統即時性和安全性要求的提升,資料中心已經不能滿足市場和客戶的需求,市場要求相關軟硬體系統提供商找到更快捷的方式來服務客戶,以提高營運效率並降低成本。在邊緣運行AI工作負載的邊緣到雲解決方案有助於滿足這一需求,將算力放在靠近資料建立點的網路邊緣,對於要求近乎即時的應用至關重要,在本地裝置上處理演算法和資料等,而不是將這些工作負載傳送到雲或資料中心。
隨著5G和物聯網的發展,AI晶片在邊緣運算領域的應用前景十分廣闊,例如,自動駕駛汽車、智慧城市等場景,都需要在終端裝置上進行即時的AI推理。為此,多家廠商紛紛推出了專用於邊緣推理的AI晶片。
在製造業,本地運行的AI模型可以快速響應來自感測器和攝影機的資料,以執行重要任務。例如,汽車製造商使用電腦視覺掃描裝配線,以在車輛離開工廠之前識別車輛的潛在缺陷。在這樣的應用中,非常低的延遲和始終線上的要求使得在整個網路中來回傳送資料變得不切實際。即使是少量的延遲也會影響產品質量。另外,低功耗裝置無法處理大的AI工作負載,例如訓練電腦視覺系統所依賴的模型。從邊緣到雲的整體解決方案結合了兩端的優勢,後端雲為複雜的AI工作負載提供可擴展性和處理能力,前端邊緣裝置將資料和分析緊密地結合在一起,以最大限度地減少延遲。
以Arduino低功耗邊緣裝置為例,許多這類裝置的成本不到100美元,使用者可以組合運行機器學習模型的幾台或數千台裝置。例如,一家農業企業使用Arduino解決方案來最大限度地提高作物產量,方案涉及感測器,這些感測器為邊緣裝置提供土壤濕度和風況等資料,以確定作物所需的水量。該技術可以幫助農民避免過度澆水,並降低電動水泵的運行成本。
再例如,一家依賴精密車床的製造商將感測器與Arduino裝置結合使用,以檢測異常情況,如微小的振動,這些振動預示著裝置很可能出現問題。對於企業來說,定期維護比遇到導致生產停止的意外故障更具成本效益。
以上這些應用顯示出邊緣計算的價值和作用,從目前的應用發展情況來看,這樣的應用需求越來越多,對智能化控制的需求也在增加,這就是邊緣AI的價值所在。而像輝達這樣的企業,其GPU等高性能晶片主要關注的是雲端運算和資料中心市場的AI伺服器,對邊緣AI市場很少關注。基於此,Tenstorrent等AI晶片公司就有機會了。
隨著各路玩家競相投入,AI晶片市場呈現百家爭鳴之勢。據統計,2019年全球AI晶片新創公司數量就已經超過80家,總融資額超過35億美元。研究機構預估,到2025年,ASIC將在AI晶片市場中佔據43%的比重,GPU佔29%,FPGA佔19%,CPU佔9%。
一批AI晶片新創公司正在崛起,前文提到的Tenstorrent就是典型代表;Cerebras Systems則打造了有史以來最大的晶片WSE(Wafer Scale Engine),搭載了1.2兆個電晶體,讓AI運算達到了前所未有的規模;明星公司Groq則由前Google工程師創立,專注於打造用於AI推理的低功耗處理器。
這裡要介紹一下Tenstorrent的技術和產品,它特別看重低功耗,更適合邊緣AI應用。據日經新聞報導,Tenstorrent有望在2024年底發佈其第二代多用途AI處理器,但沒有透露處理器的名稱。根據該公司2023年秋天發佈的路線圖,打算發佈其Black Hole獨立AI處理器和Quasar低功耗、低成本晶片。
早些年,但擔任Tenstorrent公司CTO的時候,Jim Keller就很看好低功耗的RISC-V架構,其團隊基於此自研了Ascalon CPU。據悉,該公司的新一代Black Hole AI晶片是基於SiFive的X280 RISC-V核設計開發的。
Tenstorrent表示,即將推出的處理器之所以具有高效率和更低的成本,很重要的一個原因是避免使用高頻寬記憶體(HBM),改用了GDDR6,這對於為AI推理設計的入門級AI處理器來說是很匹配的。也就是說,該公司的AI晶片架構對記憶體頻寬的消耗低於競爭對手,因此成本較低。
雖然Tenstorrent尚未搶佔AI處理器市場的重要份額,但該公司具有成本效益且可擴展的AI解決方案,可以滿足輝達無法觸及的多種應用需求。不止Tenstorrent,多家新創AI晶片公司也將在未來幾個季度推出類似應用的·AI晶片產品。總之,不與輝達正面競爭,越來越多的AI市場新進入者更看重那些沒有被“綠色團隊”佔據的市場。
AI晶片的創新一直在進行著,除了算力的提升,AI晶片在架構、功耗、整合度等方面還有很大的最佳化空間。例如,通過先進的封裝技術,多個AI晶片可緊密整合,可大幅提升系統頻寬和能效。AI專用的記憶體技術,如HBM、壓縮記憶體等,也將得到更廣泛的應用。
除了晶片技術創新,AI的生態系統建設也很重要。輝達的CUDA平台經過多年發展,已經形成了龐大的開發者社區和豐富的軟體資源,這是其競爭力的重要保證。
其他廠商也紛紛跟進,圍繞自己的AI晶片建構生態系統,爭取開發者的支援。Google推出了基於TPU的TensorFlow深度學習框架,並開源了相關程式碼;AMD收購了Xilinx;英特爾推出了OneAPI開發工具套件,試圖統一CPU、GPU和AI加速器的程序開發介面。
Arm、英特爾、高通、三星等合作組建了統一加速基金會(UXL),目標之一就是取代輝達的方案。
在AI系統當中,晶片互聯技術很關鍵,特別是資料傳輸頻寬,對系統性能的發揮起著重要作用。輝達在這方面一直在建設自家生態,該公司最新的Blackwell GPU在多晶片互連、網路互連方面,將使用新推出的NVLink標準協議,在資料中心網路中,輝達使用的是自家的InfiniBand匯流排。
對於輝達這種封閉的生態系統,Jim Keller很看不慣,他是開放技術的忠實擁躉,對於那些封閉技術深惡痛絕。
Jim Keller提出,輝達不應該使用私有的NVLink標準協議,應該換成開放的乙太網路標準,他還認為,在資料中心網路中,輝達不該使用InfiniBand,也應換成乙太網路,因為Infiniband雖然具備低延遲、高頻寬(最高可達200Gb/s)特性,但乙太網路能做到400Gb/s,甚至800Gb/s。
實際上,AMD、博通、英特爾、Meta、微軟、甲骨文等巨頭正在合作開發下一代超高速乙太網路(Utlra Ethernet),其吞吐量更高,更適合AI、HPC應用。
那麼,新的乙太網路技術能否發展起來,並抗衡輝達的互聯技術呢?
2023年7月,多家行業巨頭成立了超級乙太網路聯盟(Ultra Accelerator Link,UALink),旨在與輝達的InfiniBand抗衡。
AMD正在為UALink努力貢獻更廣泛的Infinity Fabric共用記憶體協議和GPU專用xGMI,所有其他參與者都同意使用Infinity Fabric作為加速器互連的標準協議。英特爾高級副總裁兼網路和邊緣事業部總經理Sachin Katti表示,由AMD、Broadcom、Cisco Systems、Google、Hewlett Packard Enterprise、英特爾、Meta Platforms和Microsoft組成的Ultra Accelerator Link“推廣小組”正在考慮使用乙太網路的第一層傳輸協議和Infinity Fabric作為將GPU記憶體連結到類似於CPU上的NUMA的巨大共享空間的一種方式。
UALink聯盟成員相信,系統製造商將建立使用UALink的裝置,並允許在客戶建構他們的Pod時將來自許多參與者的加速器放入這些裝置中。您可以有一個裝有AMD GPU的pod,一個裝有英特爾GPU的pod,另一個裝有一些來自其他廠商的自訂加速器的pod。該裝置可以實現伺服器設計的通用性,就像Meta Platforms和Microsoft發佈的開放加速器模組(OAM)規範一樣,系統板上的加速器插槽具備通用性。
據IDC統計,在超大規模企業、雲建構者、HPC中心和大型企業中,200Gb/s和400Gb/s網路的建設已經足夠多,InfiniBand和乙太網路市場可以同時增長。
乙太網路無處不在——邊緣側和資料中心——這與 InfiniBand不同,後者專門用於資料中心。IDC表示,2023年第三季度,資料中心乙太網路交換機的銷售額同比增長了7.2%。
在2022年第三季度到2023年第三季度期間,資料中心乙太網路交換機的市場規模約為200億美元,如果交換佔InfiniBand收入的一半,那麼資料中心乙太網路交換規模仍比InfiniBand交換大7倍左右,並且,有越來越多的AI叢集遷移到乙太網路,它們正在蠶食InfiniBand的市佔率。
IDC表示,在乙太網路交換機市場的非資料中心部分,銷售額增長更快,2023年第三季度增長了22.2%,前三個季度總共增長了36.5%,因為很多公司升級了園區網路。
2023年第三季度,資料中心、園區和邊緣側的乙太網路交換機市場規模達到117億美元,同比增長了15.8%。配套乙太網路路由器市場下降了9.4%,這並不奇怪,因為路由器越來越多地使用包括交換和路由功能的商用晶片建構。
在資料中心,200Gb/s和400Gb/s乙太網路交換機的銷售額同比增長了44%,連接埠出貨量同比增長了63.9%。資料中心、邊緣側和園區的100Gb/s乙太網路交換機的銷售額增長了6%。
輝達在雲端運算和資料中心AI系統方面的優勢非常明顯,無論是晶片行業巨頭,還是新創公司,要想在這一賽道與輝達PK,難度很大,特別是新創公司,前些年以輝達GPU為競品,走同一賽道的幾家小公司,日子過得都不太好,有的甚至在破產邊緣。只有AMD、英特爾這樣的大廠可以在同一賽道與輝達玩一玩。
雲端運算和資料中心AI賽道不好追,那就主攻低功耗、低成本的邊緣側應用市場,這也是一個很大的市場,且發展空間廣闊,而目前市場上對口、適用的晶片又不多。在這種情況下,誰動手早,盡快拿出實用的產品,誰就能在未來競爭中佔得先機。
除了AI晶片,互聯技術和標準也是一個很有潛力的投資方向,而且在資料中心和邊緣側都有機會。輝達的互聯和匯流排技術不可能面面俱到,隨著AI技術不斷滲透到各行各業,以及各個性能、功耗和成本應用層級,晶片和系統互聯的發展空間會越來越大,大大小小的公司都在摩拳擦掌。 (半導體產業縱橫)