微軟OpenAI聯手圍剿英偉達,首款自研AI晶片下月發表!
【導讀】一家獨大的英偉達(輝達),把微軟和OpenAI都逼得親自下場造晶片了。也許AI晶片大戰才剛拉開序幕。
微軟自研AI晶片,11月上線!
知名外媒The Information獨家爆料稱,微軟計劃在下個月舉行的年度開發者大會上,推出首款人工智慧晶片。
同時,OpenAI也在招募能夠幫助其評估和設計AI硬體的人員。
業界有一種說法,「賣H100比向沙漠裡快要渴死的人賣水還要容易」。
不論是為了走出算力枯竭,更有效率,低成本地開發自己的模型,還是為了擺脫被「利潤率高達1000%」的H100盤剝。
微軟和OpenAI都在嘗試「變硬」,努力戒掉對於英偉達的GPU依賴。
但是,根據業內人士爆料,英偉達對於已經推出自己晶片的公司,例如Google和亞馬遜,會控制GPU的供應。
所以「晶片自研」的道路,是一個風險和收益都很高的選擇,畢竟誰也不想未來被黃老闆在GPU供給上進一步「卡脖子」。
微軟自研AI晶片,追趕Google亞馬遜
與英偉達的GPU類似,微軟的晶片也是專為資料中心伺服器設計,可用於訓練和運行諸如ChatGPT這類的大語言模型。
目前,不管是為雲端客戶提供先進的LLM支持,還是為自家的生產力應用提供AI功能,微軟都需要依靠英偉達的GPU提供算力的加持。
而這款從2019年便開始研發的全新晶片,顯然可以大幅減輕微軟對英偉達GPU的依賴。
據知情人士稱,微軟和OpenAI組成的聯合團隊,現在已經在測試了。
相較於早早入局的競爭對手,微軟直到2019年才開始AI晶片的研發。
也是同年,微軟宣布將向OpenAI投資10億美元,並要求他們必須使用微軟的Azure雲端伺服器。
然而,當微軟開始與OpenAI進行更緊密地合作時發現,依靠購買GPU來支持這家新創公司、Azure客戶以及自家產品的成本,實在是太高了。
知情人士透露,在開發Athena期間,微軟為了滿足OpenAI的需求,已經向英偉達訂購了至少數十萬塊GPU。
早在,今年4月,就有消息透露了這款代號為Athena的晶片的存在。
據稱,微軟希望這款代號為Athena(雅典娜)晶片,能與一直供不應求的英偉達H100 GPU相媲美。
目前,亞馬遜和谷歌已將人工智慧晶片作為其雲端業務行銷策略的重要組成部分。
其中,亞馬遜在對Anthropic的投資中規定,對方需要使用亞馬遜的AI晶片,也就是Trainium和Inferentia。同時,Google雲端也表示,Midjourney和Character AI等客戶使用了自研的TPU。
微軟雖然還在討論是否要向Azure雲端客戶提供自研晶片,但該晶片在開發者大會上的首次亮相,可能預示著微軟正在尋求吸引未來雲端客戶的興趣。
可以肯定的是,微軟將藉著Athena的推出,極大縮短與另外兩家巨頭的距離——谷歌和亞馬遜早已在自家的雲端伺服器上大規模採用了自研的晶片。
此外,為了擺脫英偉達的「卡脖子」,微軟也正在與AMD密切合作,開發即將推出的人工智慧晶片MI300X。
不過,微軟和其他雲端服務供應商普遍表示,自己並沒有停止從英偉達購買GPU的打算。
但如果他們能說服雲端客戶更多地使用自研晶片,那麼從長遠來看,這可以大大節省開支。同時,也能幫助他們在與英偉達的談判中獲得更多籌碼。
OpenAI:這兩家,我都不想要
對OpenAI來說,能同時減少對微軟和英偉達晶片的依賴,顯然是最好的。
根據OpenAI網站上的幾則招募資訊顯示,公司正在招募能夠幫助其評估和共同設計AI硬體的人員。
路透社也報道,OpenAI正在計畫下場生產自己的AI晶片。
此前,CEO Sam Altman曾將獲得更多AI晶片作為公司的首要任務。
一方面,OpenAI所需的GPU十分短缺,另外,運行這些硬體時產生的成本「令人瞠目結舌」。
如果算力成本一直居高不下,長遠來看整個AI產業來說可能並不是一個好消息。
畢竟如果掘金的「鏟子」賣的比金子本身都貴,那麼還會有人去做挖金子的人嗎?
根據Stacy Rasgon的分析,ChatGPT每次查詢大約需要4美分。如果ChatGPT的查詢量成長到Google搜尋規模的十分之一,那麼就將需要價值約481億美元的GPU,並且每年需要價值約160億美元的晶片來維持運作。
目前還不清楚OpenAI是否會推進客製化晶片的計畫。
根據業內資深人士分析,這將是一項投資巨大的策略舉措,其中每年的成本可能高達數億美元。而且,即使OpenAI將資源投入這項任務中,也無法保證成功。
除了完全的自研之外,還有一個選擇是像亞馬遜在2015年收購Annapurna Labs那樣,收購一家晶片公司。
據一位知情人士透露,OpenAI已經考慮過這條路,並對潛在的收購目標進行了盡職調查。
但即使OpenAI繼續推進客製化晶片計畫(包括收購),這項工作也可能需要數年時間。在此期間,OpenAI仍將依賴英偉達和AMD等GPU供應商。
因為就算強如蘋果,在2007年收購了PA Semi和Intristy,到2010年推出第一款晶片A4,也經歷了3年的時間。
而OpenAI,自己本身都還是一家新創公司,這個過程也許走得會更加艱難。
而且英偉達GPU最重要的護城河,就是它基於CUDA的軟硬體生態的累積。
OpenAI不但要能設計出效能上不落後的硬件,還要在軟硬體協同方面趕上CUDA,絕對不是一件容易的事情。
但是,另一方面,OpenAI做晶片也有自己獨特的優勢。
OpenAI要做的晶片,不需要向其他巨頭推出的晶片一樣,服務整個AI產業。
他只需滿足自己對模型訓練的理解與需求,為自己客製化的設計一款AI晶片。
這和Google、亞馬遜這種將自己的AI晶片放在雲端提供給第三方使用的晶片會有很大的不同,因為幾乎不用考慮相容性的問題。
這樣就能在設計層面讓晶片能更有效率地執行Transformer模型和相關的軟體棧。
而且,OpenAI在模型訓練上的領先優勢與規劃,能讓它真正做到未來把模型訓練相關的硬體問題,用自己獨家設計的晶片來解決。
不用擔心自己的晶片在「滿足自己需求」的性能上,相較於與英偉達這樣的產業巨頭會有後發劣勢。
都是成本的問題
設計自己的AI晶片,與英偉達直接「剛正面」如此之難,為什麼巨頭們還要紛紛下場?
最直接的原因就是,英偉達的GPU太貴了吧!
加上雲端提供者在中間還要再賺一筆。這樣,包括OpenAI在內,使用英偉達GPU+雲端供應商的基礎模式企業成本肯定居高不下。
有國外媒體算過這樣一筆帳:
現在,購買一個使用英偉達H100 GPU的人工智慧訓練集群,成本約為10億美元,其FP16運算能力約為20 exaflops(還不包括對矩陣乘法的稀疏性支援)。而在雲端租用三年,則會使成本增加2.5倍。
這些成本包括了叢集節點的網路、運算和本地存儲,但不包括任何外部高容量和高效能檔案系統儲存。
購買一個基於Hopper H100的八GPU節點可能需要花費近30萬美元,其中還包括InfiniBand網路(網路卡、電纜和交換器)的分攤費用。
同樣的八GPU節點,在AWS上按需租用的價格為260萬美元,預留三年的價格為110萬美元,在微軟Azure和谷歌雲端上的價格可能也差不多。
因此,如果OpenAI能夠以低於50萬美元的單價(包括所有成本)建構系統,那麼它的成本將減少一半以上,同時也能掌握自己的「算力自由」。
將這些費用削減一半,在投入資源不變的情況下,OpenAI的模型規模就會擴大一倍;如果成本能夠減少四分之三,則翻四倍。在模型規模每兩到三個月就會翻倍的市場中,這一點非常重要。
所以長遠來看,也許任何一個有野心的AI大模型公司,都必須面對的一個最基本問題就是──如何盡可能的降低算力成本。
而擺脫「金鏟子賣家」英偉達,使用自己的GPU,永遠都是最有效的方法。
網友熱議
對於OpenAI和微軟下場造AI晶片的做法,有些網友似乎持不同的意見,認為AI晶片是個「陷阱」。
逼OpenAI等模型公司造硬件,一個最大的原因是其他晶片公司完全不給力,英偉達幾乎沒有競爭。
如果AI晶片是一個競爭充分的市場,OpenAI這類的公司就不會自己下場做AI晶片。
而有些想法較為激進的網友認為,大語言模型未來將整合到晶片當中,人類可以用自然語言和電腦直接對話。所以設計晶片是走到那一步的自然選擇。(新智元)
參考資料:
https://www.theinformation.com/articles/microsoft-to-debut-ai-chip-next-month-that-could-cut-nvidia-gpu-costs?rc=epv9gi