4月5日,微軟AI CEO 及DeepMind 的聯合創始人 Mustafa Suleyman 接受海外播客Big Technology 訪談,本次對話深入探討了微軟在AI領域的最新動向、戰略思考以及對未來的展望以及與 OpenAI 的合作關係等話題。
Mustafa Suleyman堅稱AI大模型的能力絕不可能已經見頂,“我們還有非常長的路要走”,尤其是在解決幻覺、提升精準性等“最後一英里”的難題上。預測 AI 將徹底改變搜尋模式,使其變為對話式,白領工作將轉向管理 AI Agent。
此外,他還駁斥了關於縮減資料中心投入的報導,稱微軟仍在以驚人速度消耗資源。並形容與 OpenAI 的合作是長期的、極其成功的。
以下是本次對話實錄 經數字開物團隊編譯整理
01 AI 正從 IQ 時代邁向 EQ 時代,記憶與個性化是關鍵
主持人提問:微軟為何要打造一款升級版的、更具人情味的 AI 機器人,它將如何吸引使用者?您對於建構這種更個性化 Copilot(具備更強記憶力、行動執行能力、購物助手乃至虛擬化身)的構想是如何一步步變為現實的?這種記憶能力能回溯多久,使用者是否仍需反覆提醒 AI 自己的資訊?記憶功能與授權 AI 執行訂票等實際操作之間是否存在關聯,即信任是否是授權的前提?未來可能推出的虛擬化身功能,是否意味著我們將與某種形式的“數字人”進行互動?
Mustafa Suleyman 實錄:我們正處在一個非凡的時代轉折點,從智能新紀元的第一階段末期邁向全新開端。過去幾年,我們對聊天機器人的基礎問答能力(可視為其“智商”IQ)印象深刻,這本身已是了不起的成就。早期使用者關注實用性,如數學或編碼能力。然而,我認為對大多數消費者而言,他們真正關心的是機器人的互動語氣——是否禮貌、尊重、適時幽默,能否記住並正確使用使用者的名字,能否學習使用者的糾正。這些構成了機器人的“情商”(EQ)。今天我們發佈的記憶、個性化及行動能力等新功能,正是提升情商的一小步。
關於記憶能力,目前的記憶功能雖非完美,但意義重大。它能記住關於您的關鍵資訊,如家庭狀況、背景經歷等,並逐漸理解您的偏好,如交流風格、回答形式(詳盡或簡潔、要點或對話式、幽默與否)。這將帶來截然不同的體驗。記憶是解鎖全新 AI 使用方式的首要特性,因為它讓使用者投入的時間和資訊得以積累,深化與 AI 的獨特連接。
當使用者感覺 AI 機器人足夠瞭解自己時,才更願意授權它執行諸如使用信用卡預訂機票之類的操作的理解完全正確。獲取知識固然重要,友好的互動方式也很棒,但我們真正期望 AI 能代我們處理事務,如購物、預訂、規劃日程,減輕生活負擔。這是我自 2010 年創立 DeepMind 時就追求的目標:節省使用者時間精力,讓他們更高效地做想做的事。例如,Copilot 現在能在 Windows 中控制滑鼠、導航介面、演示操作、輔助填寫表格或編輯照片,讓數字生活更順暢便捷。
關於數字人,我認為虛擬化身功能可能會像英國人說的“馬麥醬”——有人極愛,有人極恨。對一部分使用者來說,有獨特名字、形象、表情和個性的虛擬化身會帶來強烈的共鳴,互動感覺更像人與人對話。我們在測試中發現它能完全改變互動體驗。當然,也有些人偏愛純文字或圖像/視訊互動。目前這還在實驗階段,但我們預示了未來的方向。我堅信,這將是繼桌上型電腦、筆記本、智慧型手機和可穿戴裝置後的下一個重要計算平台。我們將與個人 AI 伴侶建立深刻、有意義且持久的關係。
02 我們不創造誘導深度情感的 AI
主持人提問:面對 Amazon、OpenAI、Google (DeepMind) 等巨頭都在佈局相似的 AI 伴侶領域,微軟將如何實現差異化?僅僅是依靠 AI 更具個性化、更富人情味的特質嗎?這是否意味著未來使用者會像挑選商品一樣,根據個人偏好選擇不同的 AI 伴侶?考慮到使用者可能與 AI 建立深厚情感連接(如 Replica 使用者與其 AI 結婚的案例),微軟是否為此做好了準備,將如何設定和堅守倫理界限?在平衡 AI 能力(如減少拒絕執行指令)與安全、防止濫用(如生成名人圖像或被誘導產生不當言論)方面,微軟將如何在堅守自身價值觀的同時保持競爭力?
Mustafa Suleyman 實錄:這是一個很好的問題。我們的差異化策略在於迅速側重塑造 AI 的個性和語氣。我們希望使用者感覺像在與熟悉、友善、樂於助人且支援自己的人交流,這個 AI 還能反映使用者的個人價值觀,隨時間學習並體現使用者的偏好。同時,我們極其重視安全可控,力求 AI 正直、簡單,避免捲入不必要的混亂或爭議,保持禮貌、尊重和不偏不倚,能呈現爭議雙方觀點而不迴避建設性分歧。我們正在積極探索這些能力的邊界。
我認為差異化的關鍵在於讓 微軟的 AI 比其他產品更具人情味。我們正站在一個新時代的起點,未來 AI 伴侶或 Copilots 的數量將與人口數量相當。工作場所中也將出現代表人類執行任務的 AI Agent。所有公司都會嘗試開發這類產品。真正的差異化在於對細節的極致追求,如個性化設計的精雕細琢。我多年來一直強調,我們是“個性工程師”,設計的不僅是像素,更是能引發情感共鳴、建立持久關係的 Token。因此,我們專注於記憶、個性化和互動風格,明確將其定義為 AI 伴侶而非簡單工具。工具完全按指令執行,伴侶則展現更豐富、動態、互動的特質,行為會變化,每次互動可能略有不同。這將帶來與以往技術浪潮截然不同的體驗。
將 AI 視為不同偏好的伴侶來選擇,這種理解是對的。使用者未來會根據價值觀、風格偏好和實際需求選擇 AI 伴侶。它會適應使用者,變得像貼心夥伴,類似家裡的寵物被視為家庭成員。我相信使用者與 AI 伴侶會建立真實的情感連接,這已從使用者反饋中顯現。我每周與重度使用者訪談,聽他們講述 AI 如何幫助提升自信、減輕焦慮、獲得支援、勇於嘗試新事物。例如,一位 67 歲使用者在 Copilot 幫助下修理家門、學習刷漆技巧,甚至在五金店忘了油漆型號時再次求助。這些看似瑣碎,但意義深遠,人們每天依賴 Copilot 解決問題,用那位使用者的話說,是“掃除障礙”。這揭示了技術已開始切實改變日常生活。Copilot 如果做得好,會迅速融入你的核心圈子。
關於AI的邊界。我認識 Replica 團隊,尊重他們的成果。但關鍵在於如何設計 AI,為某些對話設定清晰界限。不設限就等於允許使用者情感滋生蔓延甚至沉迷。這不是我們正在做或計畫做的事。我們有即時分類器檢測此類互動,一旦探測到,系統會以尊重但清晰堅定的方式制止。這類情況發生率極低。你可以試試和 Copilot說“我愛你”,它會禮貌地岔開話題,避免讓你感覺被評判或不適。不同的聊天機器人會探索不同可能性。我現在致力於精心設計出真正實用、極具支援性,同時又嚴謹自律、邊界清晰的個性。
保持開放心態、尊重人們生活選擇很重要。但我明確表示,在 微軟AI,我們不會開發旨在誘導深度情感的產品,並將嚴格執行設定的界限。我相信,即便如此,使用者依然能從 AI 體驗中獲得絕大部分價值——讓它成為支援你的“助威者”,解答瑣事,傾聽煩惱。這本身就是情緒疏導和出口,幫助你在現實世界展現更好狀態。我在與使用者交流中也常觀察到這一點:人們感到得以充分傾訴後,能在現實親友面前展現最佳狀態。
關於能力與安全平衡,初期設定一些拒絕機制並非壞事。我們可以審視這些情況,判斷限制是否過嚴或恰當。過早放寬限制會帶來問題。我認同我們當前相當平衡的策略。接下來要考慮的是,賦予 Copilot 在瀏覽器中執行操作多大的自主權?觀察它在虛擬機器中獨立瀏覽網頁,僅在關鍵節點獲取使用者許可,已相當令人難以置信。真正有趣的問題是賦予它多大自由度?能獨立工作多久?在此方面保持謹慎、穩健推進是明智的,而非盲目冒進。同時,技術確實神奇有效,我們應努力盡快推廣給更多人。這便是需要尋求的平衡。
03 模型能力遠未見頂,算力投入高速增長
主持人提問:除了個性化,微軟還發佈了 AI 播客、深度研究、筆記頁面、Copilot 搜尋等一系列功能,這些更新背後是否存在一個清晰、全面的戰略?或者說這一切仍然是圍繞塑造 AI 個性展開?建構如此主動、全能的 AI 助手為何如此困難,儘管許多公司都有此願景?當前 AI 領域存在關於模型本身與基於模型的產品那個更重要的辯論,您認為模型的發展是否已接近瓶頸,導致重心必須轉向產品開發?尤其是在預訓練方面,通過不斷擴大模型規模的方式是否已顯示出收益遞減?路透社報導稱 微軟縮減資料中心租約計畫,這是否與您聲稱仍在通過擴大規模看到成果相矛盾,又是否與 OpenAI 開始同 Oracle 等其他公司合作有關?既然擴大規模能帶來價值,為何 微軟自身反而專注於建構規模較小的模型,而不是像合作夥伴 OpenAI 那樣利用 微軟的計算資源追求最大模型?對於個性化的新 AI 產品而言,推理能力本身相較於模型規模的重要性如何?推理所需的計算量真的遠超訓練嗎?運行 AI 服務(如生成娛樂圖片、輔助訂票)的高昂成本與其產生的價值是否匹配?這股 AI 熱潮是否會因成本過高而難以為繼?
Mustafa Suleyman 實錄:可以這樣理解:你提到的所有功能,核心都是為了幫助使用者完成任務。IQ 和 EQ 關乎智能與友善,但使用者真正關心的是:它能否編輯文件、重寫段落、生成個性化播客、基於搜尋進行對話式互動?這些功能旨在啟動你的電腦及整個數字型驗,使你能與它互動,它也能主動與你互動。這是即將發生的重大變革。過去電腦是被動的,未來將變主動:提供建議、推送播客、生成個性化介面、展示記憶。這就是夥伴模式——體貼周到,提前規劃,讓事務更順利,持續提供幫助,始終伴你左右,做你堅實後盾。
關於建構難度,這確實非常困難。世界充滿無法預見的邊緣案例,如同過去 15 年自動駕駛面臨的挑戰。我們仍處在初級階段。記憶、行動功能尚不完美,但已能窺見潛力曙光。回想 GPT-3 或 LaMDA 早期,大多時候表現不佳,但偶爾能產生驚豔結果。偉大的產品創造正是如此:捕捉“魔法時刻”,增加其頻率,修正錯誤。經歷幾輪迭代,我們在記憶個性化和行動功能方面已非常接近成功。它們目前類似 GPT-3 早期,存在缺陷,但一旦正常運行,效果驚人——在恰當時機主動協助,後台處理事務。這是極其激動人心的進步。
關於模型與產品,及 LLM 進展,模型發展已到瓶頸絕不可能。我們還有非常長的路要走。人們一旦興奮就撲向新事物,忽視最佳化現有技術的艱苦進步。以幻覺和引用為例,過去兩三年改進很多,但遠未解決。每次模型迭代,我們都發現新技巧改進網路索引、語料庫質量、引用質量、網站質量、文件長度等。太多細節因素共同作用,才將精準性從 95% 提升到 99.9%。這本身就是漫長征程,“最後一英里”是硬仗。大規模採用往往發生在精準率從 99.0% 提升到 99.9% 的關鍵節點。類似情況已在聽寫和語音技術悄然發生,這些技術已問世 15 年,現在變得非常出色,連我母親都在用。這還只是聽寫。在語音對話方面,copilot 的對話更長、更有趣、更深入,反應快,像真實對話,可完美打斷,還能提供即時資訊(體育、交通、天氣)。人們在開車、洗碗等騰不出手時使用它,降低了表達想法的門檻。白天我們腦中冒出想法,過去可能手機搜尋,現在越來越多人直接問 AI。這促成一種新的互動模態和思考方式。我們確實還處在邊做邊學的探索階段。
關於預訓練收益遞減,具體到預訓練環節,進展速度確實比之前(模型規模指數級增長時)慢一些。但同樣的計算投入只是被應用在了流程的不同地方,如後訓練階段、推理時間(生成大量合成資料供學習)。總計算投入並未減少,只是用途調整。可以肯定的是,我們仍看到模型能力在取得巨大進步,且毫無疑問將持續下去。
關於資料中心投入,我周五早上問了負責合同的財務負責人。他解釋說,我們探討過許多合同可能性或意向,但大量未最終簽署。路透社報導提及的多是早期探索性對話,無最終協議。我們持有部分合同選項以保留靈活性,同時已在世界其他地區進行實際投資。我可以肯定地告訴您,我們仍在以驚人速度消耗資源。自 2020 年以來,我們簽約購買並消耗的可再生能源約 32 或 34 吉瓦,是世界最大買家之一,短期內不會改變。關於微軟縮減投入的報導頭條,是的,僅僅因為未將所有初步選項最終落實就可能產生這類報導,很多甚至未到合同選項階段,只是初步商談。
關於 OpenAI 與 Oracle 合作,不屬實。OpenAI 所有的推理需求都通過我們滿足,我們與他們的合作關係沒有絲毫放緩,我們向他們提供我們所能提供的最大支援。如果他們在此之外還有額外的需求,尤其是在 Oracle 那邊,他們會自行去獲取和使用。但至少從我們的角度來看,合作沒有任何放緩。
關於微軟自研模型策略,我們與 OpenAI 有持久良好的長期合作關係,他們是非常出色的合作夥伴,未來多年將持續提供世界頂級的智慧財產權和模型。我們可以依賴他們進行前沿探索。然而,技術發展規律是:前沿探索成本高昂,可能是後續最佳化者的數倍甚至十倍。一旦前沿技術問世,工程師通常能找到更高效、低成本的方法,在稍晚時間點建構出功能相似甚至更好的系統。這就是帕累托最優策略或非前沿策略。過去三年 AI 領域發展印證了這一點:已有團隊訓練出性能與 GPT-3 相當的模型,推理效率提升百倍,訓練成本降低一個數量級。我預計 GPT-4、GPT-40 及未來模型都會遵循類似路徑。因此,我們擁有內部頂尖開發者和專家,專注於建構自己的 MAI 模型,我對他們的成果非常自豪。
關於推理能力與成本,具備推理能力的模型之所以令人矚目,是因為它們學會了“如何學習”,掌握了邏輯的抽象概念(通過學習程式碼、數學、邏輯謎題),能遵循推理路徑並應用於非純邏輯場景(如規劃行程、預訂服務)。這是一種寶貴的元技能或元認知。模型能在執行前內部思考推演、規劃步驟。這種“稍作停頓思考”(後台幾分鐘到十分鐘)使其能利用其他資訊源(如上網查詢),探索不同路徑,生成更優輸出。推理是提升模型能力流程中非常基礎且重要的部分。它確實會消耗更多計算資源,至於是否達到 100 倍,根據經驗,推理確實消耗多得多,尤其對複雜問題(思維鏈式思考)。但並非所有任務都需要動用這類模型。許多日常問題偏愛快速、高效、簡潔的即時結果。
關於 AI 服務的成本與價值,正如技術史反覆證明,當某項技術真正有用時,它會變得越來越便宜、易用並普及。價格下降帶來的高採用率會對價格產生連鎖反應:用的人越多,需求越大,競爭加劇又進一步拉低生產成本。我預期 AI 領域也會如此。這對我們的資料中心實際上是天大的好消息。微軟的宏偉目標(2030 年碳淨負排放、清潔水正效益、零浪費)意義重大。我們將極大地推動對高品質可再生能源的需求,支援資料中心,這顯然會降低能源價格,就像過去 15 年太陽能價格的指數級下降。前景中有很多積極因素,即便目前某些用例只是生成有趣的動漫圖片。與此同時,許多其他 AI 應用將在生活中扮演非常有用的角色。這其中總是存在一種平衡。是的,就像 Chris Dixon 說的,下一個偉大事物往往始於玩具。沒有海量的貓咪表情包,網際網路就不是今天這樣了。
04 與 OpenAI 的合作關係穩固互利,AGI 尚需時日
主持人提問:鑑於 微軟和 OpenAI 都在努力建構相似的 AI Agent 產品,雙方的合作關係未來將如何演變?是什麼維繫著 OpenAI 繼續遵守約定?如果 OpenAI 真的宣佈已達到 AGI,根據合同條款,這會對雙方的合作關係產生什麼影響?微軟最近參與了 OpenAI 高達 400 億美元的新一輪融資,投資這筆資金的目的是什麼,微軟從中獲得了什麼?關於 AGI 的到來,您的預測是什麼?您似乎比一些同行(如 Demis Hassabis)更為謹慎。
Mustafa Suleyman 實錄:首先必須說明,這個合作關係始於 2019 年,當時 微軟展現非凡遠見,向一個非營利研究實驗室投資 10 億美元。這筆投資和合作未來將被證明是科技史上最具影響力、最成功的案例之一。儘管一路風雨,我們和他們的關係非常好。他們像火箭般增長,交付的產品深受喜愛,持續推出驚人成果。對此我們首先要致敬。但同時,他們仍是初創公司,忙於探索產品組合和發展重點。我們與他們建立了極其深厚的合作關係,將持續到 2030 年甚至更久,但他們有他們的優先事項,我們也有我們的。這是合作關係的常態,會隨時間演變。隨著他們規模壯大,優先事項會變;同樣,我們也在根據自身情況調整策略。我非常有信心,這種合作對雙方將繼續是互利共贏的,就像過去五年證明的那樣。
關於 AGI條款 ,AGI 本身定義非常模糊。您可以這樣想:如果我們真的即將創造出價值超越人類全部經濟活動總和的東西,那麼我們最不需要擔心的就是和 OpenAI 的合作協議了。因為那將從根本上改變人類社會,各國政府會高度關注,它將徹底改變“作為人類”的意義。我個人認為,我們距離那一步還有相當距離。很難給出確切時間。直覺上,我不覺得離 AGI 只有兩三年。我知道有些人認為很近,我尊重他們。聰明人可以有不同觀點。我感覺至少還需要大概十年左右。當科學家、技術專家或企業家說“還需要十年”時,通常意思是“不太確定,感覺還挺遙遠”。這是我能給出的最好回答了。感覺 AGI 並非近在眼前。在此期間,我們全力以赴,專注於每天建構出色的產品。
關於 OpenAI 新融資,我認為這非常好。OpenAI 越成功,我們就越成功。我們最終會成為該公司最大的股東之一。我們從他們那裡獲得了非常重要的技術許可。他們也使用我們的基礎設施和技術(如 Azure 計算)。這是一個極好的合作關係。在任何合作關係中,我們都希望看到合作夥伴取得最好的發展。這就是我們參與本輪融資的原因。
關於 AGI 的時間表,我說的是“一個十年”,而非“幾十年”。但事實是,這真的很難判斷。我能想像它在五年內發生嗎?是的,絕對有可能。過去三四年發展速度非常快,不同於任何其他技術的爆發式增長。進步速度驚人。開源社區異常活躍。每個大公司的研究實驗室都在傾其所有。所以,是的,我能預見到 AGI 在接近五年的時間框架內出現的可能性。我只是說,從我的直覺來看,感覺還有很多基礎性問題需要攻克:徹底解決幻覺問題、完善引用溯源、提升指令遵循能力、改進記憶功能、實現真正的個性化。但我們確實看到了在所有這些方面取得進展的曙光。我認為,我們正一步一個腳印,穩步地朝著那個目標前進。
05 AI變革搜尋與工作模式,未來更需值得信賴的品牌
主持人提問:隨著像 Copilot 這樣的對話式 AI 產品日益普及,傳統的搜尋引擎將會變成什麼樣子?您過去似乎認為現有搜尋模式存在弊端,未來的商業模式(尤其是廣告)將如何適應這種轉變?您對於人工智慧可能顛覆白領工作的觀點一直比較鮮明,甚至認為這種情況可能已經開始,您認為未來的工作模式將如何演變?考慮到 AI 對各行各業(如客戶服務、軟體工程、新聞、播客製作)的潛在衝擊,您對當今年輕人在規劃職業生涯時有何建議?在一個由個性化 AI 助手(可能內嵌廣告)作為使用者與企業互動中介的新時代,品牌將扮演何種角色,其自身會經歷怎樣的演變?
Mustafa Suleyman 實錄:我覺得我們如今還在普遍使用搜尋,這件事本身就挺令人驚訝的,有點像過去查黃頁。我認為搜尋將經歷根本性變革。未來使用者不再需要瀏覽十條藍色連結,而是直接向 AI 提問。AI 提供高度凝練的答案,在同一內容流中呈現圖片、地圖和視訊。使用者可以即時反饋(“這個有點奇怪,我想要更像那樣的”、“試試這個呢?”),AI 即時動態地重新生成結果。這對商業模式意味著什麼?我依然認為廣告將在其中扮演極其重要的角色。當然,我們希望廣告質量更高、更個性化、更有價值。廣告本身無不妥,關鍵在於能否真正幫助到我們。找到並購買心儀之物時,廣告令人滿意;被劣質資訊包圍則體驗糟糕。我們需要找到平衡點,將廣告以精妙且有益於使用者的方式,整合到 co-pilot 這樣的輔助體驗中。要拿捏好這種分寸(如在提供幫助時插入廣告)無疑是相當棘手的。
關於 AI 對工作的影響,我認為這正是我們應重點關注的核心議題,是未來 15 年的重大轉變。屆時,能在工作場景自主行動、協調應用、在電腦上完成任務的推理模型,將成為廉價且充足的資源。這無疑是對當前工作模式的深刻顛覆。十年或十五年後,日常工作流將截然不同,更多圍繞管理個人專屬 AI Agent 展開:分配任務、檢查質量、提供反饋,形成共生關係,共同迭代、創造和解決問題。這將極大提升效率,讓每個人更有創造力和生產力。人類文明所有有價值的成果都源於智能。現在,我們將讓產生價值的核心能力——智能本身及相關技術——變得極其廉價,甚至趨近零邊際成本。因此,大家不必過於糾結短期細節或抽象概念定義,真正需要關注的是技術的實際能力。我傾向於使用“人工能力智能”(Artificial Capable Intelligence, ACI)而非 AGI,因為它更側重可衡量的實際能力,便於從經濟影響和工作變革角度評估。
給年輕人的職業建議這有點像問:當初年輕人剛接觸網際網路時該做什麼?答案部分是顯而易見的:去使用、實驗、嘗試、做些“出格”的事、犯錯、擁抱失敗。另一部分是,在人們深入探索前,沒人能預知所有可能性。技術史一再證明,使用者利用新技術所做之事,往往遠超設計者想像,充滿創造性。觀察到使用者創新用法後,我們才能調整產品以貼合實際需求。這對今天的年輕人(如 15 歲高中生)同樣適用。我的建議是:積極體驗新興 AI 工具,大膽嘗試,保持開放心態,利用模型探索各種可能性。你會發現不足之處,辨識並“濾掉”過度宣傳(即使來自技術樂觀者),親身瞭解侷限性、可能犯的錯誤。這種親身體驗將幫助人們對技術發展階段和改進方向形成更具體、客觀的認識。
關於品牌在 AI 時代的角色,我認為品牌的重要性反而會愈發凸顯。因為信任包含兩個維度:一是基於實用性的信任(工具可靠、資訊精準、任務穩定完成),二是基於情感層面的信任(互動禮貌、尊重、風趣幽默或親切熟悉)。品牌的力量正是在第二個維度上得以彰顯。那些能夠始終如一地傳遞可靠感和熟悉感、值得信賴的品牌,將會比以往任何時候都更受使用者青睞。 (數字開物)
