在人工智慧/高性能計算行業,我(指代本文作者,下同)參與過的所有矽產品定義最終都會回到同一個問題上:製程節點的選擇。而且每次,大家都覺得這是理所當然的。當然,我們想要領先技術。當然,尺寸越小越好。沒人會因為選擇更小的奈米或埃而被解僱。
在過去的二十年裡,這或許是正確的,但現在我逐漸相信,這是當今人工智慧基礎設施中最昂貴的未經檢驗的假設——尤其是對於那些正在建構下一波人工智慧浪潮的人來說:即那些大規模服務於推理和混合專家工作負載的人工智慧超級工廠,而無需超大規模資料中心的資產負債表。
讓我用這個行業剛剛講述的一個關於自身的故事來說明這一點。
故事始於一個揭示真相的基準測試。去年十月,SemiAnalysis發佈了 InferenceMAX——一個開源基準測試工具,它以一種令人耳目一新的誠實方式呈現資料。它不以峰值浮點運算性能 (FLOPS) 為指標,而是對主流晶片進行夜間測試,並衡量營運商實際支付的費用:每秒令牌數、每瓦令牌數、每百萬令牌成本,涵蓋真實工作負載和實際延遲目標。