#Cerebras
剛剛! AI,突發重磅!
AI領域,傳出多則大消息!日前,有外媒報導稱,貝萊德旗下GIP正在就收購Aligned資料中心進行深入談判,這筆交易的價值可能高達400億美元。另外,本周五,OpenAI推出的視頻社交應用Sora登頂蘋果美國「熱門免費應用」(Top Free Apps)榜單。同日,富士通宣佈與輝達擴大策略合作,共同打造全端AI基礎設施。富士通表示,此次合作將專注於共同開發和提供一個為醫療保健、製造業和機器人等行業特定AI代理量身定製的AI代理平台,以及一個通過輝達NVLink Fusion無縫整合富士通monaka CPU系列和輝達gpu的AI計算基礎設施。值得注意的是,AI晶片製造商Cerebras周五宣佈,將撤回首次公開發行(IPO)計劃。幾天前,該公司剛宣佈完成一輪超10億美元的融資。有業內人士指出,Cerebras剛完成大規模的融資,資金充足,此時推遲IPO不足為奇。超大規模收購據彭博社消息,知情人士透露,貝萊德旗下的全球基礎設施合作夥伴公司(GIP)正就收購Aligned資料中心進行深入談判。此次收購瞄準的是人工智慧(AI)領域支出的主要受益方。若達成,將成為今年規模最大的交易之一。報導稱,一位知情人士表示,由麥格理集團(Macquarie)支援的Aligned在此次交易中的估值可能約為400億美元。知情人士補充稱,協議或在數天內宣佈。GIP同時還在考慮其他大型收購,包括可能收購電力公司AES集團——該行業預計將受益於運行AI應用的設施所帶來的激增電力需求。 AES企業價值(含債務)約380億美元。知情人士稱,GIP尚未就收購Aligned資料中心達成最終協議,部分細節可能生變,談判仍可能以未達成交易告終。據官網資訊,總部位於德州普萊諾的Aligned業務遍及美國及南美,正在管理開發50個園區及78個資料中心。今年1月,該公司從麥格理資產管理等投資者獲得超120億美元的股權與債務融資。上個月,Aligned曾派代表參與川普政府官員召開的會議,商討加速AI及配套基礎設施發展事宜。若以400億美元成交,GIP收購Aligned的交易將躋身全球今年前五大併購案。該公司已與KKR集團共同持有達拉斯數據中心運營商CyrusOne,曾在2021年以約150億美元估值將其私有化。彭博社指出,這項醞釀中的收購標誌著ChatGPT面世以來又一起矚目交易。投資人正競相押注能引領產業與經濟變革的技術先鋒,紛紛湧入晶片巨頭輝達與SK海力士等基礎設施供應商,推高OpenAI、Anthropic等初創企業估值,並為AI繁榮所需的各類裝置供應商注入資本。不過,估值飆升已引發部分市場觀察家擔憂。他們指出,雖然資料中心支出和建設正在加速,但AI服務尚未成為主流,其收入還不足以支撐這一輪近乎空前的漲勢。新加坡政府投資集團首席投資官Bryan Yeo周五在米爾肯研究院亞洲峰會上表示:“若技術發展未能跟上市場定價所對應的高預期,我們將面臨泡沫風險。”貝萊德去年以約125億美元收購了GIP。今年以來,貝萊德股價累計上漲近15%,最新市值達約1,800億美元。OpenAI再造爆款本周五,在蘋果應用商店前三名免費應用中,OpenAI佔據兩席,其新推出的視頻生成應用Sora奪得了第一名。該榜單的前三名為Sora、GoogleGemini和ChatGPT。人工智慧初創公司OpenAI於周二推出了Sora,它允許用戶生成短格式的人工智慧視頻,重新混合其他用戶製作的視頻,並將其發佈到共享feed中。 Sora只能在iOS裝置上使用,並且是基於邀請的,這意味著使用者需要一個代碼才能存取它。儘管有這些限制,Sora仍然穩居榜首,領先Google的Gemini和OpenAI的生成式聊天機器人ChatGPT。OpenAI的Sora負責人Bill Peebles周五在X上的一篇帖子中寫道:“看到人類的集體創造力迄今為止所能做到的一切,真是史詩般的偉大。團隊正在快速迭代並聽取反饋。”據悉,Sora由OpenAI最新的視頻和音頻生成模型Sora 2提供支援。 OpenAI在一篇部落格文章中表示,該模型能夠創造出「高度逼真」的場景和聲音。該公司於2024年2月發布了首款視頻和音頻生成模型Sora。有分析認為,借助這款新應用,OpenAI也正在向打造社群媒體產品邁出最大一步。這讓公司與Meta等的競爭更為直接,在此過程中,OpenAI可能開啟新的廣告收入來源,同時提高技術的曝光度。不過,Sora生成影片的逼真程度也引發了一些擔憂,OpenAI表示,公司已採取措施應對App可能帶來的安全隱患,包括讓使用者能夠明確控制自身形像在平台上的使用方式。Cerebras撤回IPO項目當地時間周五,人工智慧晶片製造商Cerebras正式提交檔案,撤銷其在美國首次公開發行的計劃,該決定立即生效。這次撤銷IPO之際,美國IPO活動近月來正持續回暖——隨著投資者對AI相關股票熱情高漲,近期數據中心房地產投資信託基金Fermi等企業的上市獲得熱烈反響,扭轉了早前因貿易政策不確定性導致的低迷態勢。IPO研究機構IPOX執行長約瑟夫舒斯特表示:「考慮到Cerebras剛剛完成大規模融資,他們此時暫緩推進IPO並不令人意外。」本周二,Cerebras宣佈通過由富達管理與研究公司、Atreides Management牽頭的一輪融資中籌集了11億美元,對該公司的估值為81億美元。此輪融資新增了老虎環球、Valor Equity Partners以及1789資本等投資者。其中,1789資本是美國總統川普之子擔任合夥人的基金。在提交給美國證券交易委員會(SEC)的檔案中,Cerebras表示,目前不打算推進擬議的公開招股,但未說明具體原因。不過,Cerebras宣佈撤回IPO計畫時,美國政府停擺已進入第三天,包括美國證券交易委員會(SEC)在內的多個政府機構目前僅維持少量人員辦公。 Cerebras發言人透露,公司仍希望盡快實現上市。上述發言人強調,政府停擺並未對公司的決策產生影響。一年多前,Cerebras提交了IPO申請,當時該公司正加大投入以與輝達競爭,致力於研發可運行生成式人工智慧模型的處理器。檔案顯示,Cerebras嚴重依賴來自阿聯的單一客戶——由微軟支援的G42公司,而G42同時也是Cerebras的投資方之一。自最初提交納斯達克上市申請以來,Cerebras的業務重心已發生轉變:從銷售硬體系統,更多地轉向提供雲服務——用戶可通過該服務向搭載其晶片的模型提交查詢請求。Cerebras發言人周五透露,公司CEO費爾德曼認為去年提交的原始招股書已過時,尤其是考慮到人工智慧領域的最新發展動態。目前,資金雄厚的科技公司正迅速佈局額外基礎設施,以應對市場需求。本周二,透過雲端服務出租輝達晶片的CoreWeave公司宣佈,已與Meta達成一項價值142億美元的合作協議。 OpenAI上周也表示,已承諾投入3000億美元給甲骨文的雲端服務。 (券商中國)
晶圓級晶片,是未來
今天,大模型參數已經以“億”為單位狂飆。僅僅過了兩年,大模型所需要的計算能力就增加了1000倍,這遠遠超過了硬體迭代的速度。目前支援AI大模型的方案,主流是依靠GPU叢集。但單晶片GPU的瓶頸是很明顯的:第一,單晶片的物理尺寸限制了電晶體數量,即便採用先進製程工藝,算力提升也逐漸逼近摩爾定律的極限;第二,多晶片互聯時,資料在晶片間傳輸產生的延遲與頻寬損耗,導致整體性能無法隨晶片數量線性增長。這就是為什麼,面對GPT-4、文心一言這類兆參數模型,即使堆疊數千塊輝達 H100,依然逃不過 “算力不夠、電費爆表” 的尷尬。目前,業內在AI訓練硬體分為了兩大陣營:採用晶圓級整合技術的專用加速器(如Cerebras WSE-3和Tesla Dojo)和基於傳統架構的GPU叢集(如輝達 H100)。晶圓級晶片被認為是未來的突破口。01晶圓級晶片,兩大玩家在常規的晶片生產流程中,一個晶圓會在光刻後被切割成許多小裸片(Die)並且進行單獨封裝,每片裸片在單獨封裝後成為一顆完整的晶片。晶片算力的提升方式,是依靠增加晶片面積,所以晶片廠商都在不斷努力增加晶片面積。目前算力晶片的單Die尺寸大約是26x33=858mm2,也就是接近曝光窗大小,但是晶片的最大尺寸無法突破曝光窗的大小。曝光窗大小多年來一直維持不變,成為了制約晶片算力增長的原因之一。晶圓級晶片則提供了另一種思路。通過製造一塊不進行切割的晶圓級互連基板,再將設計好的常規裸片在晶圓基板上進行整合與封裝,從而獲得一整塊巨大的晶片。未經過切割的晶圓上的電路單元與金屬互連排列更緊密,從而形成頻寬更高、延時更短的互連結構,相當於通過高性能互連與高密度整合建構了更大的算力節點。所以,相同算力下,由晶圓級晶片建構的算力叢集佔地面積對比GPU 叢集能夠縮小 10-20 倍以上,功耗可降低 30% 以上。全球有兩家公司已經開發出了晶圓級晶片的產品。一家是Cerebras。這家企業從2015年成立,自2019年推出了WES-1,之後經過不斷迭代,目前已經推出到第三代晶圓級晶片——WES-3。WES-3採用台積電5nm工藝,電晶體數量達到誇張的4兆個,AI核心數量增加到90萬個,快取容量達到了44GB,可以支援高達 1.2PB 的片外記憶體。WES-3的能力可以訓練比GPT-4和Gemini大10倍的下一代前沿大模型。四顆並聯情況下,一天內即可完成700億參數的調教,支援最多2048路互連,一天便可完成Llama 700億參數的訓練。這些都是整合在一塊215mm×215mm=46,225mm2的晶圓上。如果這個對比還不夠明顯,那可以這麼看:對比輝達H100,WES-3的片上記憶體容量是 H100的880倍、單晶片記憶體頻寬是H100的7000倍、核心數量是H100的52倍,片上互連頻寬速度是H100的3715倍。另一家是特斯拉。特斯拉的晶圓級晶片被命名為Dojo。這是馬斯克在2021年就開始的嘗試。特斯拉Dojo的技術路線和Cerebras不一樣。是通過採用Chiplet路線,在晶圓尺寸的基板上整合了 25 顆專有的 D1 芯粒(裸Die)。D1芯粒在645平方毫米的晶片上放置了500億個電晶體,單個芯粒可以提供362 TFlops BF16/CFP8的計算能力。合起來的單個Dojo擁有9Petaflops的算力,以及每秒36TB的頻寬。特斯拉的Dojo系統專門針對全自動駕駛(FSD)模型的訓練需求而定製。思路是從25個D1芯粒→1個訓練瓦(Training Tile)→6個訓練瓦組成1個托盤→2個托盤組成1個機櫃→10個機櫃組成1套ExaPOD超算系統,能夠提供1.1EFlops的計算性能。02晶圓級晶片與GPU對比既然單晶片GPU和晶圓級晶片走出了兩條岔路,在這裡我們以Cerebras WSE-3、Dojo 和輝達 H100為例,對比一下兩種晶片架構對算力極限的不同探索。一般來說AI 訓練晶片 GPU 硬體的性能通過幾個關鍵指標進行評估:每秒浮點運算次數(FLOPS) ,表明GPU 在深度學習中必不可少的矩陣密集型運算中的原始計算能力的強弱。記憶體頻寬,決定了訪問和處理資料的速度,直接影響訓練效率。延遲和吞吐量,能夠評估GPU處理巨量資料負載和模型平行性的效率,從而影響即時性能。算力性能Cerebras WSE-3 憑藉單片架構,在 AI 模型訓練中展現獨特潛力。一般來講,每秒浮點運算次數(FLOPS) 能夠表明GPU 在深度學習中必不可少的矩陣密集型運算中的原始計算能力。WSE-3 的 FP16 訓練峰值性能達到 125 PFLOPS,支援訓練高達 24 兆參數的 AI 模型,且無需進行模型分區處理。這個功能就特別適合以精簡高效的方式處理超大模型。與依賴分層記憶體架構(可能造成處理瓶頸)的傳統 GPU 不同,WSE 的設計使850 個核心可獨立運行,並直接訪問本地記憶體,這樣就有效提升了計算吞吐量。在這方面,輝達H100採用的是模組化和分佈式方法。單個 H100 GPU 可為高性能計算提供 60 TFLOPS FP64 計算能力,八個互連的 H100 GPU 組成的系統,可實現超 1 ExaFLOP 的 FP8 AI 性能。但分佈式架構就存在資料傳輸問題,雖然NVLink 和 HBM3 記憶體能降低延遲,但在訓練超大型模型時,GPU 間通訊仍會影響訓練速度。在AI訓練的表現中,Cerebras WSE-3會更加擅長處理超大型模型。2048個WSE-3系統組成的叢集,訓練Meta的700億參數Llama 2 LLM僅需1天,相比Meta原有的AI訓練叢集,速度提升達30倍。延遲與吞吐量從資料傳輸來看,WSE-3 的單片架構避免了多晶片間的資料傳輸,顯著降低延遲,支援大規模平行計算和核心間低延遲通訊。速度快是單片的優勢,與傳統GPU 叢集相比,WSE-3 可將軟體複雜度降低高達 90%,同時將即時 GenAI 推理的延遲降低 10倍以上。特斯拉Dojo Training Tile屬於晶圓級整合,當然也能夠大幅降低通訊開銷。由於是從Die到Die之間傳遞,在跨區塊擴展時仍會產生一定延遲。目前,Dojo 能實現 100 納秒的晶片間延遲,並且針對自動駕駛訓練最佳化了吞吐量,可同時處理 100 萬個每秒 36 幀的視訊流。輝達H100基於 Hopper 架構,是目前最強大的AI訓練GPU之一,配備18,432個CUDA 核心和640個張量核心,並通過NVLink和NVSwitch系統實現GPU間高速通訊。高速通訊。雖然多 GPU 架構具備良好擴展性,但資料傳輸會帶來延遲問題,即便NVLink 4.0 提供每個GPU 900 GB/s的雙向頻寬,延遲仍高於晶圓級系統。儘管能夠憑藉著架構特性實現單晶圓工作負載的低延遲和高吞吐量,但晶圓級系統如WSE-3 和 Dojo面臨著可擴展性有限、製造成本高和通用工作負載靈活性不足的問題。誰更划算?從硬體購置成本來看,不同晶片的價格因架構和應用場景而異。據報導,特斯拉單台Tesla Dojo 超級電腦的具體成本估計在3 億至 5 億美元之間。技術路線上,Dojo採用的是成熟晶圓工藝再加上先進封裝(採用了台積電的Info_SoW技術整合),去實現晶圓級的計算能力,能夠避免挑戰工藝極限。這既能保證較高的良品率,又便於實現系統的規模化生產,芯粒的更新迭代也更為輕鬆。Cerebras WSE 系統則因先進的製造工藝與複雜設計,面臨較高的初期研發和生產成本。據報導,Cerebras WSE-2 的每個系統成本在 200 萬至 300 萬美元之間。相比之下,輝達單GPU的採購成本比較低。以輝達A100來說,40GB PCIe型號價格約 8,000 - 10,000美元,80GB SXM型號價格在18,000 - 20,000美元。這使得許多企業在搭建 AI 計算基礎設施初期,更傾向於選擇輝達GPU。不過,輝達GPU在長期使用中存在能耗高、多晶片協作性能瓶頸等問題,會導致營運成本不斷增加。總體來看,雖然WSE-2能為超大規模AI模型提供超高計算密度,但對於需要在大型資料中心和雲服務中部署多GPU可擴展方案的機構,A100的成本優勢更為明顯。03結語常規形態下,叢集算力節點越多,則叢集規模越大,花費在通訊上的開銷就越大,叢集的效率就越低。這就是為什麼,輝達NVL72 通過提升叢集內的節點整合密度(即提高算力密度)。在一個機架中整合了遠超常規機架的 GPU 數量,使得叢集的尺寸規模得到控制,效率才能實現進一步提升。這是輝達權衡了良率和成本之後給出的解決方案。但是如果輝達繼續按照這種計算形態走下去,想要進一步提升算力密度,就會走到晶圓級晶片的路上。畢竟,晶圓級晶片的形態是目前為止算力節點整合密度最高的一種形態。晶圓級晶片,潛力無限。 (半導體產業縱橫)