晶片對於AI 發展的重要性已無需多言。這不僅引發了對於輝達GPU 的爭奪戰,同時也創造了龐大的AI 晶片市場,帶來相關領域的創業潮,各大企業紛紛開始自研晶片。
研發新的AI 晶片除了擺脫對輝達的依賴,從性價比方面來說,輝達的GPU 作為通用晶片在AI 大模型專用領域的利用率不高,投入成本高昂,但實際收益相對較低。
這就為專用AI 晶片帶來機會。在此背景下,矽谷經過網路和軟體技術主導的發展後,似乎有回歸最初以半導體產業為核心的趨勢。除了傳統半導體廠商、大型科技公司接連推出晶片產品,AI 晶片新創也融資不斷。
這其中包括一家名為MatX,由前Google工程師創立的晶片公司。該公司目前已經融資2,500 萬美元,投資人包括Nat Friedman和Daniel Gross等。
根據官網訊息,MatX的CEO 兼聯合創始人Reiner Pope曾是Google PaLM 的效率主管,幫助構思了谷歌TPU v5e 晶片並針對大語言模型進行了優化。另一位聯創兼技術長Mike Gunter擁有28 年的硬體架構經驗,曾是GoogleTPU 晶片的架構師,為Google設計了第一個硬體加速器。
MatX 的定位是為AI 模型設計量身定制的硬體。目前支援AI 訓練和推理的一般是通用晶片,如輝達GPU。通用晶片能夠處理各種類型的運算任務,包含了許多為其他運算任務設計的功能和架構元素,這些元素在模型訓練中可能並不需要。這意味著在AI 訓練等特定任務上,可能無法完全發揮晶片的效能,導致資源浪費。
高昂的採購和運維成本,以及與性能不完全對等的效率,使得輝達GPU 在特定AI 任務上有進一步優化的空間。OpenAI CEO Sam Altman也直言運行輝達晶片的資料中心效率低下,也尋求自研晶片。
MatX 希望優化晶片每個組成部分,讓所有電晶體的功能都專注於最大化AI 模型的效能。
具體來說,MatX 將設計具有一個大處理內核的單一用途晶片,透過做專門調整來提高對AI 模型需求的響應能力和效率,從而確保能夠獲得更好的表現。
集中資源於一個大型處理核心的設計方式,十分適合執行AI 訓練所需的任務。此類別任務需要處理大量的高密度矩陣運算,涉及非常多的資料點和複雜的數學運算,特別是矩陣乘法和向量運算。
單一用途的晶片能夠提供更高的運算能力和更快的處理速度,以及有效支援大規模並行處理,進而顯著減少AI 訓練時間並提高模型的學習效率。
雖然GPU 也非常擅長並行處理,但大模型訓練所需的平行等級可能超過了GPU 的最佳配置。特別是在模型規模持續增加的情況下,傳統GPU 的核心數和架構可能無法最優地支援這種規模的平行運算。
此外,AI 訓練需要極高的記憶體頻寬來處理大規模的資料集和複雜的模型參數。雖然H100 等GPU 具有高速的內存,但在面對極其龐大的模型和複雜的資料流時,記憶體頻寬仍可能成為瓶頸。
MatX 聲稱,市場上的其他硬體產品在設計時可能沒有區分模型的大小,即它們為不同規模的模型提供相似的支援和資源。這種設計策略可能在通用性上有優勢,但可能不足以最大限度地提高大模型的性能。
相較之下,MatX 專門針對大型模型進行最佳化,致力於為其提供高度專業化和高性能硬體。據了解,MatX 的晶片提供出色的擴展性能,能夠支援包含數十萬晶片的集群系統,同時,可以為700 億參數級別的模型提供極低延遲,每個token 的處理時間將少於10 毫秒。透過使用MatX 的晶片,AI 模型能夠比目前預期的時間提前3-5 年完成。
MatX 進一步告訴媒體,雖然輝達GPU 很強大且是大多數公司的選擇,但他們可以做得更好。其處理器在訓練大模型和執行推理任務時的效能,至少比輝達的GPU 好十倍。並表示,預計明年完成第一個產品版本。
如果MatX 的晶片在AI 方面能提供顯著更高的效率和效能,將對專注於此類任務的使用者非常有吸引力。高效率的處理器不僅能加快任務完成的速度,更快迭代模型,還能減少能源消耗和長期營運成本。對於需要處理龐大資料和複雜模型的企業或機構來說,這種成本效益無疑具有巨大優勢。
據悉,人工智慧若繼續沿著目前的發展軌跡,目前正在開發的模型估計每個訓練成本約為10 億美元,而它們的後續產品預計訓練成本將達到100 億美元。 OpenAI 和Anthropic 等公司的資金大都花費在了運算資源上。為了永續發展,這種情況必須改變。
MatX 公司的官網提到,使用他們的硬件,任何種子階段的新創公司都能負擔得起從零開始訓練一個GPT-4 級別的模型,並在ChatGPT 流量級別上提供服務。
總結來說,AI 專用晶片能夠更好地匹配大模型訓練的需求,從而提供更高的性能密度和能源效率比,減少資源浪費和成本支出。
當然,若想要取代輝達的晶片,還需要面臨其搭建的生態系統和相容性問題。輝達GPU 的一個重要優勢是其成熟的CUDA 程式設計環境和廣泛支援的深度學習框架,如TensorFlow 和PyTorch。這些工具已經為GPU 優化,能夠充分利用其平行處理能力,使開發者可以輕鬆地在輝達晶片上運行現有和新的大模型。
MatX 等企業成功的關鍵可能在於其能否提供足夠的效能優勢,同時降低開發者和企業的遷移成本。而這是一個複雜且耗時的過程,需要多方面的努力。(問芯)
參考:
https://matx.com/about
https://www.datacenterdynamics.com/en/news/two-ex-googlers-launch-ai-chip-startup-matx/