穩准狠!輝達反擊Google和OpenAI

打蛇打七吋

這不,黃仁勳著急了,Google和OpenAI一唱一和給輝達挖坑才說完兩天時間,輝達現在就直接跟Groq合作要做TPU了!

Groq跟Google的TPU技術相似,不過比Google的脈動陣列核心做得更徹底,直接限制資料不能調整各個方向傳播,單方向流水線架構。

加上純一級快取高頻寬,依賴編譯器生成靜態計算圖。

結果就是編譯器比Google TPU要更簡單更快。

也是產品架構足夠簡單,所以才能最快速度量產商業化。但缺點是不能用來做AI大模型訓練。

現在,輝達的反擊快准狠,直接拉到了Groq合作做TPU,也是很有意思!

TPU這種AI晶片的核心是,編譯器和靜態計算圖技術,這個編譯器必須適配現在的AI開發生態,還不能太複雜,太複雜的話開發和維運周期太長,可用性低。之前專門解釋過這個事靜態計算圖是如何幫Google Tensor TPU超越輝達GPU性能的?

輝達有市場必用的AI軟體框架CUDA,Groq的兩者張量流架構做到了最簡單,兩家高度互補!

這兩家合作直接對Google的XLA和OpenAI的Triton直接釜底抽薪!讓兩家軟體優勢一夜之間還沒雄起,就殘血大半。

為何Groq晶片性能那麼強?

Groq的指令集架構(ISA)非常特殊,它利用了晶片的空間佈局,運算東西向水平移動,處理指令和資料的流動。資料在南北向讀取計算單元。

無衝突設計:編譯器確保當MXM單元需要資料時,資料正好在那個時鐘周期通過"傳送帶"到達該位置。

編譯器:Groq的真正大腦,架構中,編譯器承擔了所有繁重的工作。在NVIDIA架構中,硬體負責管理資料流(快取未命中,線程調度),計算出每個是在每個時刻的位置。

晶片間互聯(C2C):為了讓幾百張卡像一張卡一樣工作,Groq晶片自帶了大量的Chip-to-Chip 引腳,晶片之間直接相連,不需要昂貴的InfiniBand 交換機或 NVLink交換機。對這一部分感興趣的讀者,可以留言點贊,後續再詳細講解。 (AI頓悟湧現時)