微軟暗渡陳倉

2024/05/24

•

當OpenAI 創辦人 Sam Altman登上微軟Build 2024開發者大會的Keynote舞台時，細心的觀眾不難發現：相較於微軟首席技術執行長 Kevin Scott眉飛色舞介紹Sam Altman時的神情， Sam Altman的雙眉微微低垂，並未像Kevin Scott一樣亢奮。

微軟首席技術執行長 Kevin Scott（右），OpenAI執行長Sam Altman（左）

在美國時間5月21日當天長達兩個多小時的活動裡，Sam Altman對微軟來說是如此重要，他被安排在整個活動的「壓軸」階段。而OpenAI在5月14日凌晨發布的GPT-4o幾乎在微軟每一個重大發佈時都會被「cue」到。

相較於微軟的態度，Sam Altman顯得淡然許多，他穿著淡棕色T卹、藍色牛仔褲，全程語氣平靜。這或許是因為Sam Altman正被場外輿論影響心情，在活動前一天演員Scarlett Johansson針對「OpenAI聊天機器人採用酷似其聲音的語音」發表聲明，對OpenAI提出質疑。

而在更大的視野中，環顧Sam Altman的「競爭因素」也正在變多。自2024年初以來，Google、Meta、Anthropic幾家大模型的頭部公司先後發布了能力直逼GPT-4的模型，中國的主流AI公司在模型能力方面也都突飛猛進。在AI大模型賽道上，OpenAI雖然仍處於領先位置，但與第二名的差距已開始縮小。

但對微軟而言，OpenAI 夠重要，甚至可以被視為「戰術基石」。

在整個Build 2024開發者大會期間，微軟的主脈絡一直是「強調與OpenAI的深度融合，展示各種基於GPT-4o的功能和產品」。如果考慮到，這次微軟發布新品的力度，不難看出微軟幾乎想「搭建」可以和OpenAI深度融合的大生態：微軟一口氣公佈了最新Copilot+PC產品，以及Phi-3-vision 、Team Copilot 、Copilot Studio等50多項更新，幾乎每3分鐘才公佈一次更新。

猛然看去微軟在Build大會上發布的產品、技術更新，表面上看與2023年中的AI動作差異不大，仍是聚焦Copilot。但細看之下會發現，與OpenAI的高調合作其實已經成為微軟的“明修棧道”，微軟真正的戰略重點正在向AI應用產品轉移。

微軟是要用Copilot，AI PC這些產品，以及產品構築的生態，打造一套不管換什麼AI大模型都能快速形成產品競爭力的AI模式，從而將AI沉澱成自身的競爭力。

躲在OpenAI影子裡的微軟小模型

從微軟最新的發布來看，與OpenAI的進一步融合，首先可以讓其強化「系統市場」基本盤。

先前OpenAI的GPT-4o發表會上，提到了會推出ChatGPT的桌上型產品，不過這款產品上線後，卻只能支援M晶片的MacOS。

雖然OpenAI沒有為微軟開發桌面產品，但GPT-4o的能力在Windows端被直接融入了系統。有分析家向虎嗅表示，相對於以App形式出現在Mac中，OpenAI在微軟產品中的體驗或會更順滑。

微軟在GPT-4o的整合方面比蘋果更具優勢，但與先前的Microsoft 365 Copilot不一樣，GPT-4o並非微軟獨佔。擺在微軟面前的挑戰是，如果不做出上述“防守動作”，隨著OpenAI“搖擺程度加大”，微軟在系統市場的壓力有可能變大。如果未來Windows中的OpenAI能力也能遷移到蘋果系統，那麼微軟在PC和作業系統市場的競爭力就很可能會下滑。

目前Mac OS的市佔率約16%。不過，IDC稱2024年第一季Mac電腦的出貨量成長了14.8%，成為五大個人電腦製造商中成長最快的公司。隨著Mac出貨量上漲，蘋果系統對微軟也開始形成威脅。

反觀微軟，Windows約佔全球桌面作業系統市場60%-70%的份額，但微軟的PC產品Surface在全球市場中的佔比並不高，且在過去一年中出現持續下滑，2024年第一季度Surface銷量下降了17%，在Build大會公佈Copilot+PC產品之前，分析師普遍認為這種衰退可能會持續到下一季。

一味依賴OpenAI顯然不是微軟想要的，它渴望在Windows、Surface中建立獨特的AI能力，從而給傳統優勢業務更大的「確定性」。

OpenAI沒關注的輕量化AI「小」模型，是微軟的一步明棋。

目前市場上的主流廠商普遍認為，超大規模的AI模型無法完全滿足設備端的AI需求，當下最好的AI硬體應該是端雲結合的。

雲端模型通常會選擇類似GPT-4o的通用能力較強的超大參數模型，而端側則會選擇輕量化的「小」模型，這也正是微軟一直以來的發力方向。

2023年6月，微軟首次發布了輕量化語言模式Phi-1。到了2024年4月，微軟將這款模型更新到Phi-3，其中包括3款模型：參數量為38億的Phi-3-mini；參數量為70億Phi-3-small；參數量為140億Phi-3-medium。

輕量化模型對於算力和能耗的需求更低，也更適合在地化運作。微軟在Build大會期間更新的Windows Copilot Runtime中就包括一組API，由Windows附帶的40多個端側AI模型提供支持，其中包括專為Copilot+ PC中的NPU設計的輕量化模型Phi-Silica，可以用於智慧搜尋、即時翻譯、影像生成和處理等任務。

Phi-Silica基於NPU進行推理，首個token的輸出速度為650 tokens/s，耗電量約1.5瓦，後續生成速度為27 tokens/s。由於推理在NPU完成，CPU和GPU可以同時處理其他運算任務。

目前，在UC柏克萊的lmsys大語言模型排位賽中，2023年10月推出的phi-3-mini-4k-instruct版本，模型排位已經超越了GPT-3.5-turbo-1106。

不過，在Phi-3-medium的一些開源測試中，有開發者回饋其處理複雜程式設計問題，中文處理能力也不理想。

在複雜任務和通用性方面存在局限是輕量化模型普遍存在的問題，這就需要雲端大模型的配合。但模型參數量較小，訓練調優的成本更低、效率更高，也可以專門為特定任務訓練特定模型。

Phi-3除了具備三款語言模型之外，在Build大會上也公佈了多模態模型Phi-3-vision。 Phi-3-vision擁有42億參數，目前處於預覽階段，能夠執行如圖表或影像相關的常規視覺推理任務。

除輕量化模型以外，為了盡力克制自己對OpenAI的“依賴程度”，微軟也在投重註“升級”超大規模AI模型的研發團隊，持續加碼大模型的研發。

在過去幾個月中，微軟斥資6.5 億美元收購了明星AI新創公司Inflection的大量智慧財產權，並從該公司挖走了一批員工，包括三位聯創中的兩位，首席科學家Karén Simonyan 和執行長Mustafa Suleyman。

如今有外媒報導稱，這些人正在微軟內部研發一款名為MAI-1的5000億參數規模的大語言模型，為日後替代OpenAI做準備。

簡言之，當下微軟的戰術思路是：在大模型+小模型的策略中，將不同模型搭配一處。

這種模式看似符合大模型產業趨勢，但其中也存在一些隱憂。

比如，多模型的配合問題。在未來的AI PC、Windows環境，或其他客戶場景中，可能會因為模型不同增加功能或系統整合的複雜性，尤其是在跨平台或跨系統的應用中。

同時，這種模式在開發和維運階段可能需要更多的成本，不同模型之間的性能和響應時間也不一致，在需要高度同步的應用場景中，這種不一致性將大大影響用戶體驗，並增加優化的難度。

更麻煩的是，由於模型來自不同的開發者和平台，可能會導致模型的生態系統產生割裂。開發者和用戶，可能需要在多個平台和工具之間來回切換，增加了學習成本和使用難度。

不過，這種模式也有好處。微軟和OpenAI分別訓練不同參數量的模型（超大規模和輕量化），則兩家公司可以在各自的架構上進行獨立最佳化。這樣雖然需要分別投入資源，但可以針對不同的應用場景進行更有針對性的訓練，可能會在特定領域中更有效率。

晶片夢，少不了OpenAI？

除了要用好OpenAI的模型能力，微軟也正試圖借力OpenAI擺脫輝達的「控制」。

2023年底，微軟正在研發的AI晶片Maia 100首次曝光。在2024的Build大會上，微軟正式宣布了自研晶片Azure Maia 100 和 Cobalt 100 晶片的最新資訊。目前，這兩款晶片中的CPU晶片Cobalt 100 已經開始向 Azure 雲端運算服務的客戶提供預覽版。

除了自研晶片外，微軟也正在嘗試搭建不依賴NVIDIA的伺服器架構。

3月29日，微軟剛被爆出正在與OpenAI合作開發價值 1000 億美元的AI 超級電腦「星際之門」。

根據外媒報導，星際之門的關鍵特性之一就是不受限於NVIDIA顯示卡，在 Stargate 超級電腦中很可能不會使用NVIDIA專有的 InfiniBand 線，而是使用同樣乙太網路線。

雖然谷歌，亞馬遜，甚至是中國的許多廠商都在自研AI晶片，但相對來說，Google和微軟的優勢更加明顯。

谷歌在上周的Google I/O大會上宣布了最新的六代TPU（Tensor Processing Unit）。 TPU在Google中的應用，相對於GPU具有一定的優勢。一方面，TPU與Gemini同根同源，不管是基於模型優化晶片，還是基於晶片優化模型，都可以在公司內部「消化」。

另一方面，TPU在處理深度學習任務，特別是大規模矩陣運算方面表現出色。由於Transformer架構依賴大量的矩陣乘法和點積運算，TPU的設計非常適合這種運算模式。谷歌自第四代TPU開始，進一步優化了其硬體和軟體，使其更有效率地支援Transformer模型，例如BERT和GPT系列。

不過，GPT模型主要用到的深度學習框架是Pytorch，而Google的許多AI專案主要使用的TensorFlow框架，在模型最佳化方面也可能存在一些適配問題。

微軟的優勢則在於與OpenAI的緊密合作。在研發AI晶片的過程中則可能與OpenAI更加緊密配合，從而獲得更有價值的提升。

不過，要徹底逃離輝達的強勢狀態恐非易事。

當地時間5月22日，在輝達2025財年一季報的電話會上，該公司CEO黃仁勳透露，Blackwell架構之後還將繼續推出新晶片，還將加快晶片架構更新速度，從兩年更新一次，加速至一年一更。黃仁勳說：“我們將以非常快的速度全面推進。新的CPU、新的GPU、新的網路卡、新的交換機，大量晶片正在路上。”

在4月的輝達GTC大會上，微軟和輝達共同宣布了Azure 將成為首批引進 NVIDIA Grace Blackwell GB200 以及 NVIDIA Quantum-X800 InfiniBand 的雲端服務商。

近日有外媒報導稱，AWS已經開始用輝達最新的Grace Blackwell架構晶片訂單代替先前訂購的Grace Hopper 晶片。由此推斷，作為首批雲端服務商的Azure，很可能也正在進行大規模換芯工程。

雖然主流AI公司和雲端廠商都在高喊與輝達緊密合作，但他們也同時在加速AI晶片、算力的研發。

與谷歌優先爭奪開發者？

在Build 2024開發者大會上，微軟下出的另外幾步棋，更似似劍指Google。

過去一年中，Google在模型能力和AI產品方面一直呈現追趕態勢，但在最近的GoogleI/O上，Google更新的AI功能看起來似乎比微軟的一系列Copilot更酷炫、更有吸引力。

針對這一點，微軟的想法是「優先穩固開發者」。

微軟在本次Build大會中推出了Copilot Studio功能，讓使用者可以建立自訂的Copilot，並作為AI Agents獨立工作。

微軟將Windows Copilot Runtime融入了Windows Copilot堆疊，以內建AI驅動系統革新，加速開發者在Windows平台上的AI開發進程。

微軟也推出了Windows語意索引提升了Windows搜尋體驗，引進Recall等新功能。而且也會利用Vector Embeddings API為Windows的應用提供向量儲存與RAG功能。

同時，微軟也推出了可以直接在Windows上運行DirectML、PyTorch及Web神經網路的功能。開發者可以直接呼叫Hugging Face模型庫，基於NPU加速任務處理。 DirectML作為Windows核心低層API，是與DirectX相似的產品，專為機器學習最佳化，相容於多硬體平台，包括GPU、NPU，未來也將整合CPU。它與ONNX Runtime、PyTorch、WebNN等框架無縫對接，推動AI技術應用。

這幾步明棋，其實都是微軟試圖透過AI生態工具，鞏固其在開發者生態中的技術地位，如同DirectX鞏固了微軟在圖形處理中的主導地位，DirectML也可能在機器學習領域產生類似的效果。

對於開發者來說，如今的Copilot策略核心在於透過建立一個開放且高度融合的生態系統，將AI的力量滲透到每一個開發環節和應用場景中，從而以增強AI生態的形式，固化AI應用能力。

除了個人Copilot，微軟還著重強調了Team Copilot。

在GPT-4的加持下，微軟是最早在辦公室軟體中提出Copilot概念的公司之一。此次更新的Team Copilot主要功能包括：會議主持人，透過管理議程和記錄會議筆記，使會議討論更加高效；小組協作，幫助團隊成員從聊天中提取重要信息，跟踪行動項目，並解決未解決的問題；專案經理，創建和分配任務，追蹤截止日期，通知團隊成員需要輸入的時間，確保專案順利進行。

這三大主要功能與Google I/O大會上剛剛提過的「數位員工」幾乎重疊。

而更有價值的是，微軟允許企業和開發者建構AI驅動的Copilot，這些Copilot可以像虛擬員工一樣自動執行任務。這項變更意味著Copilot不僅僅是被動等待查詢的工具，它將能夠執行如監控電子郵件收件匣、自動化資料輸入等一系列通常由員工手動完成的任務。

此外，微軟的Copilot Connectors功能可為企業實現資料的無縫結合，且支援多種資料來源的整合，如公共網站、SharePoint、OneDrive、Microsoft Dataverse表、Microsoft Fabric OneLake和Microsoft Graph等。這使得Copilot能夠利用豐富的資料資源，提供更精準和個人化的服務，進一步增強了其在企業應用中的價值。

微軟目前正在向一小部分早期訪問測試者預覽這項新功能，並計劃在2024年稍後在Copilot Studio中進行公開預覽。企業將能夠建立一個處理IT幫助台服務任務、員工入職等任務的Copilot代理程式。微軟在一篇部落格文章中表示：“Copilots正在從與你一起工作的助手演變為為你工作的助手。”

相較於Google上周提到的AI Teammate，微軟的Copilot Studio似乎能提供更高的彈性。允許企業根據自身需求客製化Copilot，使其能夠執行特定的業務流程。自訂的靈活性使企業能夠更好地利用Copilot來提升業務效率。但也可能設定了較高的使用門檻。

谷歌的優勢則在於借助Google Cloud和Google的搜尋引擎技術，Gemini能夠有效率地處理和分析大量數據，提供精準和即時的業務洞見。

企業對AI技術的依賴程度增加，也可能導致對技術供應商（如微軟）的高度依賴。不過，目前兩家都是要深度融合自身辦公室軟體生態以及雲端業務，拼到最後，可能還是要捲價格。

結語

與OpenAI的綁定，目前仍是微軟的重要競爭力，但微軟已經開始思考如何減少對外部的依賴。

從投資自研AI晶片到優化用戶體驗，微軟著力解決技術落地的實際難題，尋求在通用性和個人化需求間找到平衡。透過跨產業合作與自家產品線的AI集成，微軟旨在深化其在各領域的影響力並拓寬業務範圍，同時促進辦公室軟體及雲端服務的智慧升級。

AI技術的深度整合與客製化服務，如Copilot Studio和Team Copilot等也在推動微軟鞏固並擴展其在開發者和企業市場的影響力，將AI從輔助工具轉變為驅動業務的核心動力。

微軟一系列產品整合的產物，正是當下市場的大勢AI PC，這也正是微軟為了最大的機會。基於模型能力，作業系統的天然優勢，以及生態中沉澱的AI應用產品，微軟的AI PC相對於其他市場中已有的PC產品幾乎是最容易成功的。

然而，微軟的多模型策略與生態建構並非坦途，仍要面臨模型協同、成本控制及生態系割裂等一系列挑戰。(虎嗅APP)