1000億美元!微軟和OpenAI又有大動作:欲聯手打造AI超算


據國外媒體報導,引述三名知情人士透露,微軟與O​​penAI的高管們始終在探討一個前所未有的數據中心項目,該項目包括構建一台擁有數百萬個專用伺服器晶片的人工智慧超級計算機,為OpenAI的前沿技術提供強大的動力。據稱,與OpenAI執行長山姆·奧特曼(Sam Altman)深入交流過及接觸到微軟初步成本估算的內部人士均表示,該項目的投資規模可能高達驚人的1000億美元。

微軟可能為這項計畫提供資金支持,而該計畫的成本將是現有最大資料中心的百倍之多,這預示著未來數年,為人工智慧打造強大的運算能力將需要巨大的經濟投入。高層構思中的這台超級電腦名為“星際之門(Stargate)”,它將坐落於美國,並有望成為微軟與OpenAI未來六年內計劃建設的眾多設施中規模最大的一座。

儘管該項目尚未獲得兩家公司的最終批准,計劃也可能隨著時間的推移而有所調整,但它無疑為我們揭示了未來十年科技行業最重要的合作趨勢,以及微軟和OpenAI兩家公司在技​​術前瞻方面的卓越洞察力。

截至目前,微軟已向OpenAI承諾投資130億美元,後者則藉助微軟的資料中心為ChatGPT及其背後的會話人工智慧模型提供強大的支援。作為回報,微軟獲得了OpenAI技術的使用權,並有權將這項技術轉售給包括摩根士丹利在內的自家雲端運算客戶。此外,微軟也將OpenAI的軟體深度整合至Office、Teams和必應的AI Copilot新功能中,進一步推動了人工智慧技術在各領域的廣泛應用。

另據一位了解內情的人士透露,微軟是否願意繼續推進「星際之門」這項宏偉計劃,在很大程度上取決於OpenAI能否顯著提升其人工智慧技術的能力。值得注意的是,OpenAI去年未能如期向微軟交付一款新模型,這一事實無疑凸顯了人工智慧領域發展的不確定性和挑戰性。儘管如此,奧特曼曾公開指出,目前阻礙人工智慧進一步發展的主要瓶頸在於缺乏足夠的伺服器資源來支援研發工作。

這些知情人士進一步透露,如果「星際之門」計畫​​能夠順利推進,其所提供的運算能力將遠超微軟目前從鳳凰城等地資料中心輸送至OpenAI的能力,實現指數級的提升。其中兩名知情人士說,這台尚在規劃中的超級電腦預計將需要至少數十億瓦的電力支持,這一數字相當於目前運行多個大型資料中心所需的電力總和。此外,雖然該專案的大部分成本將用於購買晶片,但如何確保獲得穩定且充足的能源供應來支持其運行,同樣是一個不容忽視的挑戰。

對於這樣一個項目,數據中心運營商Digital Realty的首席技術官克里斯·夏普(Chris Sharp)表示,對於人工智能領域而言,此類項目是“絕對必要的”,因為人工智能正逐漸承擔起人類所執行的大部分計算任務。儘管Digital Realty目前尚未參與「星際之門」項目,但夏普認為,以現今的標準來看,這個計畫的規模或許難以想像。然而,他預測,當這樣一台超級電腦最終建成時,這些看似驚人的數字將會變得不再那麼令人震驚。

參與專案討論的人士說,高管們已經討論過最早在2028年發布“星際之門”,並將時間延長到2030年,到最後可能需要多達5千兆瓦的電力。



五個發展階段


奧特曼與微軟的員工共同將這個超級電腦計畫劃分了五個發展階段,其中第五階段就是「星際之門」。這個名稱靈感來自一部同名科幻電影,該電影中科學家們成功研發出一種能夠實現星系間旅行的裝置。儘管「星際之門」這一代號起源於OpenAI的創意,但它並非微軟內部所使用的官方專案名稱。

在實現「星際之門」的過程中,前幾個階段的投入相對較小。據兩位知情人士透露,微軟目前正積極為OpenAI研發一款規模較小的第四階段超級計算機,併計劃於2026年左右正式推出。高層即將把威斯康星州的普萊森特山(Mt. Pleasant)作為這台超級電腦的部署地點。最近,威斯康辛州經濟發展公司宣布,微軟在該州投資的10億美元資料中心擴建計畫已破土動工。

有知情人士稱,這台超級電腦與資料中心的最終建設成本可能高達100億美元,遠遠超過了現有資料中心的投入。此外,另一位參與討論的人士透露,微軟也探討了在該專案中採用英偉達生產的人工智慧晶片的可能性。目前,微軟與O​​penAI正處於這項宏偉計劃的第三階段。可以預見的是,接下來兩個階段的大部分開銷將主要用於購買人工智慧晶片。

整體來看,整體計畫可能涉及超過1,150億美元的投資,這數字是微軟去年在伺服器、辦公大樓和其他設備上的資本總支出的三倍還多。考慮到微軟在2023年下半年所揭露的資本支出速度,該公司今年的預估支出將約為500億美元。微軟財務長艾米·胡德(Amy Hood)在今年1月表示,由於「雲端和人工智慧基礎設施」投資的不斷增加,這類支出在未來幾季將會「大幅」上升。

微軟發言人弗蘭克·肖(Frank Shaw)在回應關於超級計算計劃的詢問時,雖然沒有直接評論,但他在一份聲明中強調:「我們一直在規劃下一代基礎設施創新,以繼續推動人工智慧能力的前沿。」而OpenAI發言人沒有對本文置評。

知情人士透露,奧特曼曾私下表示,Google作為OpenAI的主要競爭對手之一,在短期內將擁有比OpenAI更多的運算能力。他曾在公開場合抱怨稱,目前他手上的人工智慧伺服器晶片資源並不充足。

這也正是他一直積極倡導成立一家新的伺服器晶片公司的原因之一。這家新公司旨在開發一種能夠與英偉達目前為OpenAI軟體提供動力的圖形處理單元(GPU)相抗衡的新型晶片。由於對英偉達GPU伺服器的需求激增,微軟和OpenAI等客戶的成本也隨之上升。除了控製成本這一直接原因外,微軟支持奧特曼的替代晶片計劃還出於其他潛在的考慮。例如,英偉達在GPU市場的主導地位使其在選擇哪些客戶可以擁有更多晶片方面擁有絕對的話語權,這可能對微軟構成一定的競爭壓力。此外,英偉達也透過向雲端運算服務供應商轉售其雲端伺服器來進一步擴大其市場份額,這同樣可能影響微軟的業務發展。

無論微軟是否參與,奧特曼的計畫都注定要在電力和資料中心建設方面投入巨額資金。根據參與討論的人士透露,「星際之門」的設計初衷便是讓微軟和OpenAI擁有更多選擇權,既可以採用英偉達以外的GPU製造商(如AMD)的產品,也能考慮使用微軟最近推出的人工智慧伺服器晶片。然而,目前尚不清楚奧特曼是否對其計劃在未來幾年內開發的理論上的GPU抱有充足的信心,以確保它們能夠滿足「星際之門」的需求。

「星際之門」超級電腦的總成本將受到軟體和硬體改進的深刻影響,這些改進有望使資料中心在營運過程中變得更加高效。一位知情人士透露,微軟和OpenAI已經探討了利用核能等取代目前現有能源的可能性,以應對未來可能出現的能源挑戰。奧特曼本人也曾表示,開發超級智慧可能需要在能源領域取得重大突破。



更新設計


兩位知情人士說,為了讓「星際之門」成為現實,微軟還必須克服幾個技術挑戰。例如,目前的設計方案要求在單一機架內整合遠超過微軟常規配置數量的GPU,以大幅提升晶片效率與效能。然而,隨著GPU密度的增加,如何有效防止晶片過熱成為微軟必須解決的棘手問題。

此外,微軟與O​​penAI之間也就如何連接數百萬個GPU產生了分歧。網路電纜在快速處理伺服器晶片間海量資料中扮演著至關重要的角色。據兩名參與討論的人士透露,OpenAI已明確表示,在「星際之門」超級電腦的建設中,他們不希望使用英偉達專有的InfiniBand電纜,儘管微軟目前在其現有的超級電腦中採用了這款產品。相反,OpenAI更傾向於使用更通用的乙太網路電纜。放棄InfiniBand有助於OpenAI和微軟減少對英偉達的依賴。

人工智慧運算的高昂成本和複雜性遠超傳統運算,這也是眾多公司嚴格保密其人工智慧資料中心細節的原因所在,包括GPU的連接方式和冷卻技術等。英偉達執行長黃仁勳曾表示,未來四到五年內,為因應即將爆發的人工智慧運算需求,企業和國家將需要投入1兆美元的資金建造新資料中心。

自去年夏天起,微軟與O​​penAI的高階主管團隊就一直在緊密討論這個資料中心專案。除了執行長(Satya Nadella)和技術長凱文·斯科特(Kevin Scott)之外,微軟方面還有多位管理人員深入參與了超級電腦的談判工作。其中,普拉迪普·辛杜(Pradeep Sindhu)負責微軟資料中心人工智慧伺服器晶片的整合策略,而布萊恩·哈里(Brian Harry)則協助開發Azure雲端伺服器部門的人工智慧硬體。


OpenAI總裁格雷格·布羅克曼(Greg Brockman,左)和微軟首席技術長凱文·斯科特(Kevin Scott)


儘管雙方已經取得了一定進展,但仍有幾個關鍵細節尚待敲定,且可能需要較長時間才能達成共識。目前,關於「星際之門」的具體部署位置,以及它是集中在一個資料中心還是分散在多個資料中心內建設,都尚未明確。不過,根據人工智慧領域的專業人士表示,當GPU叢集位於同一資料中心時,其工作效率往往會更高。

OpenAI的需求已經推動了微軟在資料中心領域的邊界擴展。在2019年對這家新創公司進行初步投資後,微軟便著手打造了第一台包含數千個英偉達GPU的超級計算機,以滿足OpenAI日益增長的運算需求。幾年來,微軟在該系統的投入已經累計達到12億美元。據一位了解微軟運算需求的人士透露,微軟還計劃在未來兩年內,向OpenAI提供配備數十萬個GPU的伺服器,以進一步支援其人工智慧領域的研究與開發工作。



下一個產業標竿:GPT-5


微軟與OpenAI聯手打造的這一世界頂級數據中心設計的宏偉藍圖,其核心成敗與否,幾乎完全依賴於OpenAI能否在超級智能領域取得顛覆性的突破,從而證明微軟在這些創新項目上的巨額投資物有所值。超級智慧的潛力巨大,或許能助我們攻剋癌症、核融合、全球暖化甚至殖民火星等人類面臨的重大難題。

然而,這樣的美好願景或許仍是個遙遠的夢想。儘管ChatGPT等會話式人工智慧以及AI生成影片已經獲得了消費者和業內人士的廣泛認可,但將這些最新突破轉化為能夠產生可觀收入的技術,可能比業界預期的時間要長得多。包括亞馬遜和谷歌在內的行業巨頭,已經悄悄降低了銷售預期,部分原因就在於人工智慧的高昂成本,以及在企業內部大規模推廣或為數百萬用戶的應用程式添加新功能所需的巨大工作量。

上個月,奧特曼在英特爾的一次活動中明確指出,隨著研究人員不斷向人工智慧模型投入更多運算能力,它們將「可預見地變得更好」。 OpenAI已經就這個主題發表了深入研究,並將其稱為對話式人工智慧的「縮放定律」。

幫助企業使用人工智慧技術的Databricks公司執行長阿里·戈德西(Ali Ghodsi)表示,OpenAI透過不斷增加運算能力來擴大現有人工智慧的規模,可能會讓客戶經歷一段“幻滅期”,因為隨著對技術深入了解,他們會意識到其局限性。戈德西強調,真正的焦點應該放在如何讓這項技術對人類和企業產生實際價值上,而這需要時間的累積與沉澱。他堅信人工智慧的未來將是驚人的,但實現這一目標並非一蹴可幾。

對於OpenAI來說,證明其下一個主要的大語言模型相較於目前最先進的GPT-4有顯著優勢至關重要。自從一年前GPT-4的發布與Google類似模型的推出形成競爭態勢以來,OpenAI一直面臨著巨大的壓力。知情人士透露,OpenAI的目標是在明年年初發布下一個主要的大語言模型,而在此之前可能會推出更多漸進式的改進。

隨著更多伺服器的投入使用,OpenAI的部分主管對其能力充滿信心。他們相信,公司可以利用現有的人工智慧技術和最近的突破,如Q*(一種能夠推理處理未經過訓練的數學問題的模型),來創建正確的合成數據,以在人工生成的數據用盡後繼續訓練出更好的模型。這些模型不僅能夠辨識現有模型(如GPT-4)的缺陷,還能提出針對性的技術改進建議。簡而言之,OpenAI正致力於開發能夠自我改進的人工智慧。騰訊科技