輝達AI工廠:人類歷史醞釀12000年的絕對必然


人類進化12000年,只為等AI覺醒?黃仁勳宣佈「AI工廠時代」正式到來!從農業到工業再到AI革命,輝達如何用算力推動歷史巨輪?未來,每家公司將有一個專屬的超級智慧工廠。並全覽目前最先進的GB200 NVL72的詳細參數。

當談到AI時,上下文(Context)就是一切;當談到上下文時,資料就是一切。

當談到資料時,算力就是一切;而談起算力,皮衣教主就會閃亮登場了。

老黃在2025 GTC大會上預言:在未來,每個擁有工廠的公司將來都會有兩個工廠,一個是用來製造產品的實體工廠,另一個是用於數學運算的AI工廠。

在這裡,「AI工廠」一詞並非隱喻,而是對存在於現代AI超級電腦真實面貌的寫照。

人類智能需要上下文,需要資料,需要腦力,既然人類按照自己的形象創造了AI(基於大模型),這個道理自然也延伸到了AI。

輝達準備打造的AI工廠,是一種能夠處理數PB數據並根據需求給出智慧答案的超級電腦,是一種推動全球經濟與文化巨變的新型工廠。

資料的一天

你是否好奇,我們人類是如何走到這一步的? AI工廠的出現是科技發展的必然嗎?

AI工廠會把人類變成某種數字超級智慧的生物啟動載入器嗎?

如果你想更深入的理解人類如何走到這一步,讓我們先回到12000年前看看。

從石器,到汽車,再到GPU

大約12000年前,人類的祖先厭倦了四處流浪尋找食物和住所,於是他們開始在一個地方定居下來——主動種植作物、飼養牲畜以滿足食物需求。

農業(種田、耕作)本質上就是一種食物工廠,只不過主要在戶外進行,因為植物和動物的生長需要陽光、水和空氣。

中世紀時,firma一詞指的是為了種植作物而支付的固定土地租金,因此也成為農業的同義詞。

新石器革命

農業迫使人類組織成等級分明的群體進行勞動。

文字是為了管理而創造的-記錄食物工廠的投入與產出,以及管理圍繞農業形成的社會規則(當然,這些規則在不同地區存在差異)。

人類最終將文字的用途擴展到其他領域,直到今天,它仍然是傳遞大量密集資訊最快的方式。

從人類放下弓箭和長矛,拿起鋤頭、耙子、犁耕地,並在泥板上刻下第一個符號的那一刻起,AI的誕生就已經不可避免——AI工廠的出現也只是時間問題。

工業革命

人類花費數千年才得以積累足夠的糧食盈餘,「剩餘」催生出最早的商人階級——透過手工製造物品供其他人使用。

製造業(manufacturing)一詞的字面意思就是拉丁語中的「用手製造」。

有了商業,隨之出現了一種通用的交換媒介——貨幣,加速了以物易物的過程,並逐漸演變成現在所熟悉的經濟體系。

更準確地說,是形成了「全球經濟」,因為在地理大發現之後的第一波全球化浪潮將不同大陸重新聯繫到了一起,使各個地區或國家的經濟不再孤立。

從那時起,全球化經歷了許多浪潮,徹底改變了農業和製造業。

工廠(標準化生產的場所)最大的轉變是將製造過程拆分成多個步驟,以加快生產速度並提高可重複性。

這場工業革命恰好與啟蒙運動同時發生,識字率迅速提升,因為工廠需要受過教育的工人來最大限度提高效率、減少浪費。

教育從來不是目的,而是必要條件。隨之而來的,則是財產權、人身安全和自由,以及接受迅速而公正審判的權利。

福特汽車流水線工廠

在21世紀,人們已經將這些權利視為理所當然,但實際上應當感謝18世紀的貢獻。

工廠將製造活動轉移到室內。

透過蒸汽動力、隨後電力的應用,以及流水線精益生產等技術,以低成本生產現代生活所需的商品,使普通人不僅能負擔得起基本生活,還能享受一定的舒適與便利。

製造業將人們從農田中解放出來,創造了一個農業社會無法想像的龐大中產階級,使經濟以前所未有的方式擴張。

AI革命

然後互聯網出現了。

在互聯網將所有人連接在一起的同時,創造了一種前所未有的新資源——資料。

資料資訊就是新時代的「金礦」,各個巨頭從資料中挖掘出你的一切需求。

而AI革命的發生,必須等到海量的文字、圖像、視頻和音頻數據被電腦化,並且等到大規模的計算能力能以可負擔的價格用於處理這些數據時。

其中,巨量資料的本質就是足夠精確的資訊量,運行在一組具有高內存帶寬的大規模平行GPU上,而這些GPU又提供了足夠精確的計算能力,足以建立能夠編碼人類對這個世界知識的神經網絡,從而使AI真正發揮作用。

所有這些條件必須同時滿足。

在1980年代,研究人員擁有神經網路的演算法,但他們沒有足夠的計算能力來運行它們,也沒有足夠的資料來餵養它們。

當時,現在所知的AI在很大程度上仍然停留在理論階段,直到所有這三個條件都得到滿足。

AI工廠:並非隱喻,而是蛻變

AI工廠這個概念並非比喻-而是對真實存在的AI超級電腦的真實描述。

它不僅改變了企業計算的本質,也徹底重塑了數據分析的方式——數據的綜合與提煉,轉化為行動或非行動所需的資訊。

AI工廠的出現是必然的,就像農業工廠(人們合作供養彼此)一樣不可避免。

社會與文化圍繞著這種革命進行變革,為人類帶來了更多自由時間去思考與創造。

如今,人類擁有了能夠獲取人類全部知識並以對話形式檢索的機器。更重要的是,這些機器能夠被反向運行,並按照提示產生各種格式的新資料。

未來,每個企業和個人都會擁有自己的AI工廠,或至少共享其中的一部分。這些AI工廠將產生新想法、新視野,幫助人類拓展自身的創造能力。

也許今天世界各地在很多問題上缺乏共識,但關注AI革命的人都認同,AI日益增強的能力將改變人類的一切認知和行動。

使命:洞見與行動的製造之地

AI廠有兩項工作。第一項是訓練基礎模型,這些模型提供人們都尋求的見解,以改善業務和生活。

第二項,也是最終更重要的工作,是將新資料和問題輸入模型,讓其推理出新答案——產生新的Token——以提供進一步的洞見並驅動行動。

COLOSSUS:馬斯克xAI的巨型計算工廠,配備十萬片H100 GPU

在過去十年中,圍繞AI的大量討論都集中在Scaling Law上,這些模型現在擁有數千億到超過兆的參數(類似於人腦中突觸的放電水平),以及處理的數據量(數兆到數十兆的Token,並且還在增長)。

Token數量代表知識量有多少,而參數量則代表已知知識的思考能力有多強。

  • 在較大的Token集上使用較小的參數量會帶來更快但更簡單的答案。
  • 在較小的Token集上使用較大的參數量會讓你對有限事物的理解給出更好的答案。

如今,思維鏈推理模型(本質上也是多模態的,不僅僅關注文字)正在將數百個專業模型整合在一起協同工作,它們會考慮驅動其他輸入的輸出,花費更多時間來產生我們人類稱之為答案的更好的Token流。

有了AI工廠,人類創造的所有內容和AI模型生成的合成資料都成了原料。

從這海量的歷史資料寶庫中獲得的洞見是收穫的成果,擁有人類智慧的人和具備AI的AI智能體利用這些洞見來做事。

這一次,人類不再是去工廠上班,而是將接入工廠作為其工作的一部分,用自己的技能來增強模型廣泛的知識和速度,從而更好更快地完成更多事情。

非凡的工程壯舉

「世界正在競相建設最先進、大規模的AI工廠」,輝達聯合創始人兼首席執行官黃仁勳在最近於聖何塞舉行的2025 NVIDIA GTC大會的主題演講中解釋道。

「建造一個AI工廠是一項非凡的工程壯舉,需要來自供應商、架構師、承包商和工程師的數萬名工人來建造、運輸和組裝近50億個元件以及超過20萬英里的光纖——幾乎是從地球到月球的距離。」

強大的硬體加持

建造一個AI工廠是一項重大的資本投資。

一個AI工廠的合理組態是基於8個DGX B200系統機架的DGX SuperPOD,它由GPU、CPU、節點間的Quantum-X InfiniBand或Spectrum-X Ethernet互連技術以及儲存組成。

配備32個DGX B200系統後,這個SuperPOD提供了4.61 exaflops的FP4性能,擁有48TB的HBM3內存和2PB/秒的總內存帶寬。

每個DGX B200配8個Blackwell GPU,並通過第五代NVLink互連,DGX B200提供比上一代系統高3倍的訓練性能和15倍的推理性能。

輝達另一個AI工廠的藍圖是基於GB200 NVL72平台,這是一個機架級系統,同樣包含GPU、CPU、DPU、SuperNIC、NVLink和NVSwitch,以及InfiniBand和Spectrum-X網絡。

但它為AI模型提供了更大的共享GPU內存域(72個GPU插槽,相較之下DGX B200節點只有8個),並且具有更高的計算密度,因此需要液冷。

GB200 NVL72於2024年3月發布,現已全面出貨。

GB200 NVL72機架級系統確實是一個完整的系統——除了你的數據之外,它不需要任何其他東西就可以開始構建模型,然後轉身開始以文字、圖像、視頻或聲音格式輸出數據Token。

GB200 NVL72的基本建構模組是一個MGX伺服器節點,該節點包含一個Grace CPU作為一對Blackwell GPU的主機處理器,而這對Blackwell GPU本身是位於單個SXM插槽中的一對Blackwell GPU晶粒。

兩個這樣的伺服器節點組合成一個內置於NVL72機架的計算托盤。機架中有18個計算托盤,共構成72個GPU(144個GPU晶粒)和36個CPU。

GB200 NVL72機架級系統將Grace CPU與一對Blackwell GPU結合,CPU和GPU之間透過450GB/秒的NVLink連接。

1.8TB/秒的NVLink連接埠與NVSwitch晶片一起使用,將所有72個GPU(144個GPU晶粒,每個900GB/秒)連接成一個全互聯(all-to-all)、共享內存式的組態,這種組態非常適合基礎模型訓練(當它們為大規模互連時)以及思維鏈推理。

由9個NVLink交換托盤(總共18個NVSwitch晶片)建立的NVLink互連結構使得這144個GPU晶粒可以像一個巨大的GPU一樣被存取。

GB200 NVL72系統擁有2,592個用於主機處理的Arm核心,並提供1.44 exaflops的FP4精度浮點處理能力,精度每提高2倍,吞吐量減半。

GB200 NVL72系統擁有連接到GPU的13.4TB HBM3e內存,總帶寬高達576 TB/秒。那些Grace CPU擁有總共17.3 TB的LPDDR5X內存,與GPU僅相隔一個NVLink跳躍,並提供另外18TB/秒的總帶寬。

GB200 NVL72對於AI革命的意義,就像System/360對於五十年前的聯機事務處理和批次革命的意義一樣。

IBM System/360是一個電腦系統家族,由IBM於1964年4月7日宣佈

當時與現在的一個主要區別是,NVL72可以透過InfiniBand互連進行橫向擴展,這正是DGX SuperPOD中改採用的方式。

而一旦購買了最大的System/360,那就是它的極限了,必須等待下一個升級周期才能獲得更強大的機器。

基於NVL72機架級系統的DGX SuperPOD組態需要近1 兆瓦的電力,但在8個電腦架上提供了11.5 exaflops的計算能力和240 TB的HBM3e內存。

如果需要更高的效能,就像任何SuperPOD一樣,只需購買更多機架即可。

NVL72機架的計算密度需要專門的液冷技術和支援該技術的資料中心設施。

冷都不是一個新想法,在某種程度上,使用液冷是一種「倒退」。

回到1960年代和70年代,那些改變了各行各業的大型主機也採用液冷的時代——以便它們能夠發揮當時可用的絕對最高性能。

隨著推理被嵌入到各種應用程式中,一個AI工廠幾乎肯定需要比這多得多的計算能力,特別是如果想要合理的查詢和AI智能體性能,並且隨著不可避免地轉向思維鏈推理模型。

據估計,思維鏈推理模型所需的計算量比早期大語言模型常見的那種一次性、簡單回答多出100倍。

全面的軟體生態

DGX GB200系統和相關的DGX SuperPODAI超級電腦需要進行管理和建模,這就需要用到幾種不同的工具。

NVIDIA Mission Control(包括Run.ai)負責在整個基礎設施中編排AI工作負載,並在出現問題時自動恢復作業。

Mission Control對系統進行健康檢查,並協助根據系統上執行的工作負載優化功耗。

在此之上是NVIDIA AI Enterprise,這是一個系統軟件,包含了為在輝達GPU和網路上加速而優化的庫、模型和框架。

AI工廠技術堆疊現在還包括NVIDIA Dynamo,這是一個用於在NVLink和DGX SuperPOD基礎設施上運行推理的開源分佈式框架。

DGX專家服務與支援(DGX Expert Service and Support)幫助客戶快速實施這些技術,並縮短其AI工廠首次產生Token的時間。

對於建構和擴展這些系統的人,輝達為其Omniverse「數字孿生」環境和設計工具建立了AI工廠藍圖,以模擬構成AI工廠的整個資料中心,從而確保其在首次建構時就能正確無誤,並在不可避免的擴展過程中保持正確。

也許AI工廠最重要的方面是它所催生的思維轉變,以及輝達在其當前系統和路線圖中所關注的重點,這向客戶保證了機架級和系統有充足的增長空間。

「我認為,AI工廠之所以如此令人興奮且需求旺盛,是因為對許多公司而言,生成Token現在等同於創造收入」,輝達網絡高級副總裁Gilad Shainer表示。

「我們不再將資料中心視為成本中心,而是視為能夠產生收入的生產性資產」。

畢竟,這才是建造AI工廠的全部意義。 (新智元)