微軟一夜革新AI生產力,奧特曼劇透新模型! Copilot人人可定制,開發者狂喜

微軟的生產力革命有了最新進展——

它正在將AI塞進所有可能找到的角落和縫隙。

除了在大會前一天就已劇透Copilot+PC,Build大會上微軟還有超多釋出成果:

  • Copilot持續升級:自訂Copilot、Team Copilot以及Copilot擴充等。總的來說,所有開發者都可以客製化和擴展Copilot,而團隊協同工作也更加方便。
  • 將小模型進行到底,Phi-3能輕鬆在PC端、手機端運行,還有首個多模態模型Phi-3-vision。

還有這些細節更新,例如Microsoft Fabric的即時智慧功能,能對即時、高精度的業務數據進行分析管理,幫助企業決策;Edge瀏覽器增加AI即時視訊翻譯功能;AI PC原生支援PyTorch…

開幕式上,納德拉一上場就道明了今天這場大會的意義。



微軟三十多年來有兩個夢想,一個是電腦是否可以理解我們,而不是我們必須理解電腦?第二個是在這個資訊不斷增加的世界裡,電腦能否幫助我們根據所有這些資訊進行推理、規劃和更有效地採取行動?

而這一波AI浪潮,就是微軟夢想的答案。

Build大會展現的各種不同的生產力場景,也正是微軟實現夢想的舞台。

開幕式尾聲,奧特曼還站台亮相,回應和劇透了新模型的一切。


市場上微軟股價也是一片向好,一度飆漲到了431.84美元。該說不說,這兩天微軟都漲麻了。


咱先從Copilot持續升級說起。

GitHub Copilot擴充:自然語言互動方方面面

面向開發者和團隊,微軟推出GitHub Copilot擴展,可透過第三方服務功能以自然語言互動自訂GitHub Copilot體驗。


可以立即部署到Azure,用語言互動即可取得管理Azure資源,例如向Azure詢問Web應用程式的部署位置,一鍵排除故障查找相關程式碼:


任何開發者都可以為GitHub Copilot建立擴展,包括堆疊中的各種工具以及自己內部的工具。


開啟Copilot WorkSpace,可以查看整個程式碼庫,並提出修改建議。 Copilot會自動根據自訂進行修改:


微軟也推出了Copilot connectors,方便開發者以第三方業務資料、應用程式和工作流程客製化Copilot。


Team Copilot:團隊中的關鍵成員

除此之外,微軟Copilot持續升級,推出Team Copilot,從此Copilot不僅是個人助手,更是可以變成團隊中的一員。


可以把它拉到團隊群裡面,充當會議主持人,Copilot可以即時記錄會議中的全部內容:


根據團隊討論進度,一鍵整理主題、做筆記,同時支援群組內其他人對其記錄的內容進行修改:


討論中遇到問題也可以直接向Copilot提問:


當團隊成員就某一討論達成一致觀點,Copilot會一鍵即時更新先前的筆記內容:


Agent可以自訂


同時,微軟Copilot Studio推出全新自訂Agent功能。


開發者可以自訂Agent職位,也可以從現成的範本中挑選:


開發者可以將權限委派給不同的角色的Copilot,自動化業務流程。 Copilot遇到不了解且無法處理的問題時,甚至會自動向你展示問題並尋求協助。

此外,Agent也具備根據使用者回饋進行學習等能力。


納德拉現場表示:

我認為這是未來一年真正能夠帶來改變的關鍵因素之一。


將小模型進行到底

除此之外,微軟也更新了自己的模型-Phi-3,繼續將小模型(SLM)進行到底。

主要有這幾種型號:

  • Phi-3-mini,38億參數,支援128k和4k兩種上下文。
  • Phi-3-small,擁有70億參數,支援128k和8k兩種上下文長度。
  • Phi-3-medium,140億參數,支援128k和4k兩種上下文長度。
  • Phi-3-vision,42億參數,支援128k上下文。
  • Phi-3-Silica,33億參數。


其中Phi-3-mini在今年四月就已經首次亮相過,當時在基準測試中,能力與LIama2相當,收穫了不少關注。加上Phi-3-small和Phi-3-medium,他們可以通用Azure Machine learning的模型目錄和集合進行存取。

作為最小的模型Phi-3-Silica。從6月開始,Phi-3-Silica將嵌入Copilot+PC中面世。它是整個Phi-3型號中最小的一塊,只有33億參數。

微軟聲稱,第一個Token輸出速度為每秒650個token,只需損耗1.5瓦功率,換言之不會佔用其正常工作和記憶體。持續運行時,token產生重複使用了NPU的KV緩存,並將在CPU 上運行,每秒產生27個token。

Phi-3-vision則是Phi-3家族中的多模態大模型,它可以直接在行動裝置上使用。

在Phi-2 模型基礎之後,Phi-3-vision能執行日常的視覺推理任務。

而且專門針對圖表進行了最佳化,能夠分析圖表中的資訊並回答使用者提問。

在發表會現場,納德拉展示了這樣的一個DEMO:把一張圖表丟給Phi-3-vision,內容是關於不同年齡層的人在工作中使用AI工具的情況。

結果Phi-3-vision準確地提取了圖中的各組數據,並對不同年齡層的結果進行了比較分析,給出了詳盡的報告。


但跟其他大模型不同的是,Phi-3-vision目前只能讀取,無法產生。

而在評量成績方面,Small和Medium兩個純文字模型,整體表現都超過了其他近似規模的模型。

甚至不到40億參數量的Mini,也超過了2倍於自己的Llama3-8B。


具體來看,先是Small在各種語言、推理和數學方面的一系列測試中擊敗了GPT-3.5-Turbo,不過代碼能力小幅落後,知識儲備上的差距就比較明顯了。


Medium版本對標的則是Claude3-Sonnet和Gemini 1.0 Pro,擅長的任務也和Small類似——語言理解、推理和數學是強項,知識儲備是短板。


同樣,多模態的Vision在語言上也延續了單模版本的優勢,在部分視覺任務是還超過了GPT-4v-Turbo。

特別是專門優化過的圖表推理任務中,Phi-3-Vision在ChartQA資料集上取得了超過80分的成績,遙遙領先GPT-4v。


奧特曼9分鐘驚喜亮相

納德拉仍然表示OpenAI是微軟最重要的策略夥伴。在發表會進行兩小時後,正身處輿論風暴中心的奧特曼亮相了,為整個主題演講完成閉幕。

不過這次倒是沒有跟納德拉同台,而是跟微軟CTO Kevin Scott站到了一起。


在短短9分鐘的演講中,他談到了OpenAI下一步計畫、GPT-4o以及給開發者的建議。

他首先談到GPT-4o的發布,這是“瘋狂的一周”。他稱從來沒見過一項技以如此有意義的方式被迅速地採用。

對於最新的寡姐語音風波,奧特曼雖然沒有提及,但是特別cue了下他們的語音模式。

隨著人工智慧速度的提高和成本的下降,OpenAI 已經能夠引入語音等新模態;語音模式對我來說其實是一個真正的驚喜。

最後,面對在場的開發者們,奧特曼提供了這樣一個建議。

他表示,現在正是一個特殊時刻,要充分利用好他,不要等待建造你想做的事情。這可能是自手機問世以來,甚至自網路問世以來,我們所見過的最令人興奮的時刻。不過,不要指望人工智慧會為你做所有的工作;它本身就是一種推動力,但它並不會自動打破商業規則。

奧特曼也預告,OpenAI最新最強大模型即將發布——

現在能劇透的似乎很無聊但也很關鍵,新模態、整體智能,史無前例地強大。(量子位元)

參考連結:https://build.microsoft.com/en-US/sessions/b49feb31-afcd-4217-a538-d3ca1d171198?source=/schedule