微軟暗渡陳倉


當OpenAI 創辦人 Sam Altman登上微軟Build 2024開發者大會的Keynote舞台時,細心的觀眾不難發現:相較於微軟首席技術執行長 Kevin Scott眉飛色舞介紹Sam Altman時的神情,  Sam Altman的雙眉微微低垂,並未像Kevin Scott一樣亢奮。


微軟首席技術執行長 Kevin Scott(右),OpenAI執行長Sam Altman(左)


在美國時間5月21日當天長達兩個多小時的活動裡,Sam Altman對微軟來說是如此重要,他被安排在整個活動的「壓軸」階段。而OpenAI在5月​​14日凌晨發布的GPT-4o幾乎在微軟每一個重大發佈時都會被「cue」到。

相較於微軟的態度,Sam Altman顯得淡然許多,他穿著淡棕色T卹、藍色牛仔褲,全程語氣平靜。這或許是因為Sam Altman正被場外輿論影響心情,在活動前一天演員Scarlett Johansson針對「OpenAI聊天機器人採用酷似其聲音的語音」發表聲明,對OpenAI提出質疑。

而在更大的視野中,環顧Sam Altman的「競爭因素」也正在變多。自2024年初以來,Google、Meta、Anthropic幾家大模型的頭部公司先後發布了能力直逼GPT-4的模型,中國的主流AI公司在模型能力方面也都突飛猛進。在AI大模型賽道上,OpenAI雖然仍處於領先位置,但與第二名的差距已開始縮小。

但對微軟而言,OpenAI 夠重要,甚至可以被視為「戰術基石」。

在整個Build 2024開發者大會期間,微軟的主脈絡一直是「強調與OpenAI的深度融合,展示各種基於GPT-4o的功能和產品」。如果考慮到,這次微軟發布新品的力度,不難看出微軟幾乎想「搭建」可以和OpenAI深度融合的大生態:微軟一口氣公佈了最新Copilot+PC產品,以及Phi-3-vision 、Team Copilot 、Copilot Studio等50多項更新,幾乎每3分鐘才公佈一次更新。

猛然看去微軟在Build大會上發布的產品、技術更新,表面上看與2023年中的AI動作差異不大,仍是聚焦Copilot。但細看之下會發現,與OpenAI的高調合作其實已經成為微軟的“明修棧道”,微軟真正的戰略重點正在向AI應用產品轉移。

微軟是要用Copilot,AI PC這些產品,以及產品構築的生態,打造一套不管換什麼AI大模型都能快速形成產品競爭力的AI模式,從而將AI沉澱成自身的競爭力。


躲在OpenAI影子裡的微軟小模型

從微軟最新的發布來看,與OpenAI的進一步融合,首先可以讓其強化「系統市場」基本盤。

先前OpenAI的GPT-4o發表會上,提到了會推出ChatGPT的桌上型產品,不過這款產品上線後,卻只能支援M晶片的MacOS。

雖然OpenAI沒有為微軟開發桌面產品,但GPT-4o的能力在Windows端被直接融入了系統。有分析家向虎嗅表示,相對於以App形式出現在Mac中,OpenAI在微軟產品中的體驗或會更順滑。

微軟在GPT-4o的整合方面比蘋果更具優勢,但與先前的Microsoft 365 Copilot不一樣,GPT-4o並非微軟獨佔。擺在微軟面前的挑戰是,如果不做出上述“防守動作”,隨著OpenAI“搖擺程度加大”,微軟在系統市場的壓力有可能變大。如果未來Windows中的OpenAI能力也能遷移到蘋果系統,那麼微軟在PC和作業系統市場的競爭力就很可能會下滑。

目前Mac OS的市佔率約16%。不過,IDC稱2024年第一季Mac電腦的出貨量成長了14.8%,成為五大個人電腦製造商中成長最快的公司。隨著Mac出貨量上漲,蘋果系統對微軟也開始形成威脅。

反觀微軟,Windows約佔全球桌面作業系統市場60%-70%的份額,但微軟的PC產品Surface在全球市場中的佔比並不高,且在過去一年中出現持續下滑,2024年第一季度Surface銷量下降了17%,在Build大會公佈Copilot+PC產品之前,分析師普遍認為這種衰退可能會持續到下一季。

一味依賴OpenAI顯然不是微軟想要的,它渴望在Windows、Surface中建立獨特的AI能力,從而給傳統優勢業務更大的「確定性」。

OpenAI沒關注的輕量化AI「小」模型,是微軟的一步明棋。

目前市場上的主流廠商普遍認為,超大規模的AI模型無法完全滿足設備端的AI需求,當下最好的AI硬體應該是端雲結合的。

雲端模型通常會選擇類似GPT-4o的通用能力較強的超大參數模型,而端側則會選擇輕量化的「小」模型,這也正是微軟一直以來的發力方向。

2023年6月,微軟首次發布了輕量化語言模式Phi-1。到了2024年4月,微軟將這款模型更新到Phi-3,其中包括3款模型:參數量為38億的Phi-3-mini;參數量為70億Phi-3-small;參數量為140億Phi-3-medium。

輕量化模型對於算力和能耗的需求更低,也更適合在地化運作。微軟在Build大會期間更新的Windows Copilot Runtime中就包括一組API,由Windows附帶的40多個端側AI模型提供支持,其中包括專為Copilot+ PC中的NPU設計的輕量化模型Phi-Silica,可以用於智慧搜尋、即時翻譯、影像生成和處理等任務。

Phi-Silica基於NPU進行推理,首個token的輸出速度為650 tokens/s,耗電量約1.5瓦,後續生成速度為27 tokens/s。由於推理在NPU完成,CPU和GPU可以同時處理其他運算任務。

目前,在UC柏克萊的lmsys大語言模型排位賽中,2023年10月推出的phi-3-mini-4k-instruct版本,模型排位已經超越了GPT-3.5-turbo-1106。

不過,在Phi-3-medium的一些開源測試中,有開發者回饋其處理複雜程式設計問題,中文處理能力也不理想。

在複雜任務和通用性方面存在局限是輕量化模型普遍存在的問題,這就需要雲端大模型的配合。但模型參數量較小,訓練調優的成本更低、效率更高,也可以專門為特定任務訓練特定模型。

Phi-3除了具備三款語言模型之外,在Build大會上也公佈了多模態模型Phi-3-vision。 Phi-3-vision擁有42億參數,目前處於預覽階段,能夠執行如圖表或影像相關的常規視覺推理任務。

除輕量化模型以外,為了盡力克制自己對OpenAI的“依賴程度”,微軟也在投重註“升級”超大規模AI模型的研發團隊,持續加碼大模型的研發。

在過去幾個月中,微軟斥資6.5 億美元收購了明星AI新創公司Inflection的大量智慧財產權,並從該公司挖走了一批員工,包括三位聯創中的兩位,首席科學家Karén Simonyan 和執行長Mustafa Suleyman。

如今有外媒報導稱,這些人正在微軟內部研發一款名為MAI-1的5000億參數規模的大語言模型,為日後替代OpenAI做準備。

簡言之,當下微軟的戰術思路是:在大模型+小模型的策略中,將不同模型搭配一處。

這種模式看似符合大模型產業趨勢,但其中也存在一些隱憂。

比如,多模型的配合問題。在未來的AI PC、Windows環境,或其他客戶場景中,可能會因為模型不同增加功能或系統整合的複雜性,尤其是在跨平台或跨系統的應用中。

同時,這種模式在開發和維運階段可能需要更多的成本,不同模型之間的性能和響應時間也不一致,在需要高度同步的應用場景中,這種不一致性將大大影響用戶體驗,並增加優化的難度。

更麻煩的是,由於模型來自不同的開發者和平台,可能會導致模型的生態系統產生割裂。開發者和用戶,可能需要在多個平台和工具之間來回切換,增加了學習成本和使用難度。

不過,這種模式也有好處。微軟和OpenAI分別訓練不同參數量的模型(超大規模和輕量化),則兩家公司可以在各自的架構上進行獨立最佳化。這樣雖然需要分別投入資源,但可以針對不同的應用場景進行更有針對性的訓練,可能會在特定領域中更有效率。


晶片夢,少不了OpenAI?

除了要用好OpenAI的模型能力,微軟也正試圖借力OpenAI擺脫輝達的「控制」。

2023年底,微軟正在研發的AI晶片Maia 100首次曝光。在2024的Build大會上,微軟正式宣布了自研晶片Azure Maia 100 和 Cobalt 100 晶片的最新資訊。目前,這兩款晶片中的CPU晶片Cobalt 100 已經開始向 Azure 雲端運算服務的客戶提供預覽版。


除了自研晶片外,微軟也正在嘗試搭建不依賴NVIDIA的伺服器架構。

3月29日,微軟剛被爆出正在與OpenAI合作開發價值 1000 億美元的AI 超級電腦「星際之門」。

根據外媒報導,星際之門的關鍵特性之一就是不受限於NVIDIA顯示卡,在 Stargate 超級電腦中很可能不會使用NVIDIA專有的 InfiniBand 線,而是使用同樣乙太網路線。

雖然谷歌,亞馬遜,甚至是中國的許多廠商都在自研AI晶片,但相對來說,Google和微軟的優勢更加明顯。

谷歌在上周的Google I/O大會上宣布了最新的六代TPU(Tensor Processing Unit)。 TPU在Google中的應用,相對於GPU具有一定的優勢。一方面,TPU與Gemini同根同源,不管是基於模型優化晶片,還是基於晶片優化模型,都可以在公司內部「消化」。

另一方面,TPU在處理深度學習任務,特別是大規模矩陣運算方面表現出色。由於Transformer架構依賴大量的矩陣乘法和點積運算,TPU的設計非常適合這種運算模式。谷歌自第四代TPU開始,進一步優化了其硬體和軟體,使其更有效率地支援Transformer模型,例如BERT和GPT系列。

不過,GPT模型主要用到的深度學習框架是Pytorch,而Google的許多AI專案主要使用的TensorFlow框架,在模型最佳化方面也可能存在一些適配問題。

微軟的優勢則在於與OpenAI的緊密合作。在研發AI晶片的過程中則可能與OpenAI更加緊密配合,從而獲得更有價值的提升。

不過,要徹底逃離輝達的強勢狀態恐非易事。

當地時間5月22日,在輝達2025財年一季報的電話會上,該公司CEO黃仁勳透露,Blackwell架構之後還將繼續推出新晶片,還將加快晶片架構更新速度,從兩年更新一次,加速至一年一更。黃仁勳說:“我們將以非常快的速度全面推進。新的CPU、新的GPU、新的網路卡、新的交換機,大量晶片正在路上。”

在4月的輝達GTC大會上,微軟和輝達共同宣布了Azure 將成為首批引進 NVIDIA Grace Blackwell GB200 以及 NVIDIA Quantum-X800 InfiniBand 的雲端服務商。

近日有外媒報導稱,AWS已經開始用輝達最新的Grace Blackwell架構晶片訂單代替先前訂購的Grace Hopper 晶片。由此推斷,作為首批雲端服務商的Azure,很可能也正在進行大規模換芯工程。

雖然主流AI公司和雲端廠商都在高喊與輝達緊密合作,但他們也同時在加速AI晶片、算力的研發。


與谷歌優先爭奪開發者?

在Build 2024開發者大會上,微軟下出的另外幾步棋,更似似劍指Google。

過去一年中,Google在模型能力和AI產品方面一直呈現追趕態勢,但在最近的GoogleI/O上,Google更新的AI功能看起來似乎比微軟的一系列Copilot更酷炫、更有吸引力。

針對這一點,微軟的想法是「優先穩固開發者」 。

微軟在本次Build大會中推出了Copilot Studio功能,讓使用者可以建立自訂的Copilot,並作為AI Agents獨立工作。

微軟將Windows Copilot Runtime融入了Windows Copilot堆疊,以內建AI驅動系統革新,加速開發者在Windows平台上的AI開發進程。

微軟也推出了Windows語意索引提升了Windows搜尋體驗,引進Recall等新功能。而且也會利用Vector Embeddings API為Windows的應用提供向量儲存與RAG功能。

同時,微軟也推出了可以直接在Windows上運行DirectML、PyTorch及Web神經網路的功能。開發者可以直接呼叫Hugging Face模型庫,基於NPU加速任務處理。 DirectML作為Windows核心低層API,是與DirectX相似的產品,專為機器學習最佳化,相容於多硬體平台,包括GPU、NPU,未來也將整合CPU。它與ONNX Runtime、PyTorch、WebNN等框架無縫對接,推動AI技術應用。

這幾步明棋,其實都是微軟試圖透過AI生態工具,鞏固其在開發者生態中的技術地位,如同DirectX鞏固了微軟在圖形處理中的主導地位,DirectML也可能在機器學習領域產生類似的效果。

對於開發者來說,如今的Copilot策略核心在於透過建立一個開放且高度融合的生態系統,將AI的力量滲透到每一個開發環節和應用場景中,從而以增強AI生態的形式,固化AI應用能力。

除了個人Copilot,微軟還著重強調了Team Copilot。

在GPT-4的加持下,微軟是最早在辦公室軟體中提出Copilot概念的公司之一。此次更新的Team Copilot主要功能包括:會議主持人,透過管理議程和記錄會議筆記,使會議討論更加高效;小組協作,幫助團隊成員從聊天中提取重要信息,跟踪行動項目,並解決未解決的問題;專案經理,創建和分配任務,追蹤截止日期,通知團隊成員需要輸入的時間,確保專案順利進行。

這三大主要功能與Google I/O大會上剛剛提過的「數位員工」幾乎重疊。

而更有價值的是,微軟允許企業和開發者建構AI驅動的Copilot,這些Copilot可以像虛擬員工一樣自動執行任務。這項變更意味著Copilot不僅僅是被動等待查詢的工具,它將能夠執行如監控電子郵件收件匣、自動化資料輸入等一系列通常由員工手動完成的任務。

此外,微軟的Copilot Connectors功能可為企業實現資料的無縫結合,且支援多種資料來源的整合,如公共網站、SharePoint、OneDrive、Microsoft Dataverse表、Microsoft Fabric OneLake和Microsoft Graph等。這使得Copilot能夠利用豐富的資料資源,提供更精準和個人化的服務,進一步增強了其在企業應用中的價值。

微軟目前正在向一小部分早期訪問測試者預覽這項新功能,並計劃在2024年稍後在Copilot Studio中進行公開預覽。企業將能夠建立一個處理IT幫助台服務任務、員工入職等任務的Copilot代理程式。微軟在一篇部落格文章中表示:“Copilots正在從與你一起工作的助手演變為為你工作的助手。”

相較於Google上周提到的AI Teammate,微軟的Copilot Studio似乎能提供更高的彈性。允許企業根據自身需求客製化Copilot,使其能夠執行特定的業務流程。自訂的靈活性使企業能夠更好地利用Copilot來提升業務效率。但也可能設定了較高的使用門檻。

谷歌的優勢則在於借助Google Cloud和Google的搜尋引擎技術,Gemini能夠有效率地處理和分析大量數據,提供精準和即時的業務洞見。

企業對AI技術的依賴程度增加,也可能導致對技術供應商(​​如微軟)的高度依賴。不過,目前兩家都是要深度融合自身辦公室軟體生態以及雲端業務,拼到最後,可能還是要捲價格。


結語

與OpenAI的綁定,目前仍是微軟的重要競爭力,但微軟已經開始思考如何減少對外部的依賴。

從投資自研AI晶片到優化用戶體驗,微軟著力解決技術落地的實際難題,尋求在通用性和個人化需求間找到平衡。透過跨產業合作與自家產品線的AI集成,微軟旨在深化其在各領域的影響力並拓寬業務範圍,同時促進辦公室軟體及雲端服務的智慧升級。

AI技術的深度整合與客製化服務,如Copilot Studio和Team Copilot等也在推動微軟鞏固並擴展其在開發者和企業市場的影響力,將AI從輔助工具轉變為驅動業務的核心動力。

微軟一系列產品整合的產物,正是當下市場的大勢AI PC,這也正是微軟為了最大的機會。基於模型能力,作業系統的天然優勢,以及生態中沉澱的AI應用產品,微軟的AI PC相對於其他市場中已有的PC產品幾乎是最容易成功的。

然而,微軟的多模型策略與生態建構並非坦途,仍要面臨模型協同、成本控制及生態系割裂等一系列挑戰。(虎嗅APP)