#Agents
分手微軟後,OpenAI 今天在 AWS 安家
昨天,OpenAI 和微軟,官宣分手今天,OpenAI 已在 AWS 把家安好三件家具一起搬上:模型、Codex、Managed Agentshttps://openai.com/index/openai-on-aws/三件家具第一件,OpenAI 模型上 Bedrock包括 GPT-5.5 在內的模型,今天起可以在 Amazon Bedrock 直接呼叫企業從已經買好的 AWS 環境就能拿到模型,省了再走 OpenAI API 或 Azure 一道第二件,Codex 上 AWSOpenAI 順手交了一個數,Codex 現在每週 4M 活躍使用者Codex 在最常用的幾個入口都能切到走 AWS:命令列、桌面 App、VS Code 擴展第三件,Bedrock Managed Agents,由 OpenAI 提供能力企業可以在 AWS 自己的環境裡部署 Agent,讓 Agent 維護上下文、執行多步流程、呼叫工具、跨業務系統辦事AWS 管基礎設施、工具呼叫、編排、治理,開發者只管把 Agent 派出去一條藏在原文裡的細節OpenAI 官方公告裡,有一句非常有趣的話在「Bringing Codex to AWS」章節企業買 AWS 的錢,可以直接轉化成 Codex 額度說明這事老早就在琢磨了,等的就是昨天辦完手續同一場大會,AWS 還擺了幾件事今天的發佈在 SF 的「What's Next with AWS」大會上AWS CEO Matt Garman 主持,除了 OpenAI 三件套,AWS 同場還出了Amazon Quick 大更新AWS 自己的 AI 助手,加了桌面 App、自訂 dashboard,整合 Google Workspace、Microsoft 365、Zoom、Salesforce業內對位的產品是 Anthropic 的 Claude CoworkAmazon Connect 改成 agentic 應用家族Connect Decisions 做供應鏈預測和擾動管理,Connect Talent 做語音面試,自動給候選人打分時間復盤→4 月 27 日上午微軟和 OpenAI 修訂協議公告。微軟對 OpenAI 模型與產品的授權從 exclusive 改成 non-exclusive,OpenAI 可以在任何雲交付所有產品→4 月 27 日同日Amazon CEO Andy Jassy 發推「Tuesday 還有更多」→4 月 28 日上午AWS What's Next 大會,OpenAI 三件套同步發佈中間隔了不到 24 小時 (賽博禪心)
技術門檻降為零,Manus反擊OpenClaw,推出傻瓜版Agents
就在OpenAI宣佈招聘OpenClaw創始人皮特·斯坦伯格(Peter Steinberger)的一天後,Meta便迅速發起反擊。旗下的Manus正式推出了Manus Agents功能,對標OpenClaw,並且首先在Telegram上線。以前都是Meta頻繁對OpenAI挖角,現在角色互換,Meta確實表現出了那種兵貴神速的感覺。去年12月的時候,Meta曾被爆出,其旗艦開源模型Llama,突然被代號為“Avocado”的閉源前沿模型取代。與此同時,Meta首席人工智慧官Alexandr Wang與前Meta首席 AI 科學家楊立昆在辦公室內也發生了衝突。這一切的混亂,導致了Meta在AI路上被Anthropic、Google、OpenAI等公司甩開了很長的距離。因此,在Manus被Meta收購後,此次的更新,可以被視作是Meta的一次重要戰略調整。比起在大模型性能上爭個1%、2%,不如直接在應用層面建立優勢,畢竟Meta有多款月活上億的產品。但Meta究竟是神之一手,還是病急亂投醫呢?以及,微信應該考慮一下,學習一下Manus。01Manus Agents和OpenClaw有什麼不同Manus Agents與OpenClaw最大的區別,就是它很簡單。OpenClaw本身是一個需要使用者自行部署、配置和維護的項目。整個流程非常複雜,需要配置VPS、管理API金鑰、設定Docker容器。短影片平台上那些OpenClaw部署教學,少說都要15分鐘。對於普通使用者來說就更難了,還要隨時準備應對各種配置錯誤和相容性問題,太勸退了。Manus Agents的核心優勢在於將這一切簡化為“掃碼即用”。使用者只需在 Manus工作區打開agent標籤頁,掃描二維碼,約一分鐘即可在Telegram中連接個人AI助手。Manus承諾“無需命令列、配置檔案或API tokens”。實際上是將複雜性從使用者端轉移到了伺服器端,讓技術門檻幾乎降為零。Manus在公告中特別強調,agents功能“不是簡單的附加功能”,而是“跟Manus一樣,具有完整的推理、工具和多步驟任務執行功能”。這意味著使用者可以在Telegram中直接啟動複雜的多步驟任務,從研究和資料處理到結構化報告和PDF生成。除了功能的完整性,Manus Agents功能在安全方面也有別於OpenClaw。後者雖然功能強大,但其能力高度依賴於使用者的本地環境配置。它需要訪問使用者的檔案系統、執行Shell命令、控制瀏覽器。每一項都需要精心設定權限和安全策略。OpenClaw的做法是通過“會話隔離”機制來平衡功能性與安全性。在主會話中擁有完整系統權限,在群聊等非主會話中則切換到沙箱模式。這種設計雖然巧妙,但也增加了系統複雜度和維護成本。使用者需要根據不同場景手動調整權限設定。Manus Agents則採用了雲端優先的架構。它把複雜的安全管理、資源調度和任務執行都放在後台處理,使用者不用擔心安全和底層實現的問題,可以專注於任務和編排。在多模態能力上,Manus Agents支援語音消息、圖像和文件處理。使用者可以傳送語音指令,AI會自動轉錄並理解意圖。這種多模態能力在絕大多數的消息應用場景中是很重要的,因為使用者在移動端往往更傾向於使用語音而非打字。相比之下,OpenClaw雖然理論上也支援多模態輸入,但需要使用者自行配置各種API介面,實際使用門檻依然很高。Manus提供了兩個模型選項:Manus 1.6 Max用於複雜的多步驟推理和創意任務,Manus 1.6 Lite則針對快速的日常任務最佳化。這種分層設計讓使用者可以根據任務的複雜程度來選擇合適的模型,既保證了性能,又控制了成本。OpenClaw有一個很經典的案例,就是MacStories博主Federico Viticci一晚上燒掉1.8億token,對應帳單為3600美元,約等於一台iPhone 17 Pro Max。後續方面,Manus聯合創始人張濤表示,公司計畫在未來30天內加速在消息應用上的部署,WhatsApp、LINE、Slack和Discord的支援即將到來。OpenClaw雖然理論上支援多個消息平台,但每個平台的整合都需要使用者自行配置閘道器和認證,這再次提高了使用門檻。Manus Agents通過統一的後台架構和標準化的接入流程,使多平台支援變得簡單。OpenClaw是極客文化的產物,追求的是最大的靈活性和可控性,使用者需要為這種自由付出學習成本,還要耗費精力來維護它。Manus Agents則是消費級產品的思路,追求的是最低的使用門檻和最流暢的體驗。但是使用者不能像OpenClaw一樣下載許多Skill,讓你的OpenClaw變得無所不能。其使用範圍只能限定在Manus已有的功能中。從市場規模來看,願意花時間折騰技術的極客永遠是少數,而需要簡單易用工具的普通使用者才是大多數。Manus Agents的簡化策略,實際上是在為未來更多的agent鋪路。此外,Manus Agents在隱私保護上也做了明確承諾。它只能訪問使用者直接傳送給它的消息,無法查看、讀取或與使用者的其他對話、群組或聯絡人互動。OpenClaw由於運行在使用者本地,理論上可以訪問使用者電腦上的所有內容。雖然使用者可以為OpenClaw設定權限,但對於普通使用者來說,如何正確配置這些權限本身就是一個難題。02Meta反擊戰在2025年的AI大模型競賽中,Meta已經掉隊了。更嚴峻的是,Meta在AI基礎設施上的巨額投入尚未轉化為明顯的商業回報。2025年,Meta在AI相關項目上投入了722億美元,而2026年的資本支出幾乎翻倍,預計將達到1150億至1350億美元。這種激進的投資策略讓華爾街感到不安。Meta股價在2025年第三季度財報後下跌了12%。在這種背景下,OpenClaw的橫空出世讓Meta看到了一個新的機會。斯坦伯格在接受採訪時透露,Meta和OpenAI都向他提出了“數十億美元等級”的收購要約。他與祖克柏和奧特曼都進行了直接對話,甚至在維也納的一次活動中還提到,曾與微軟CEO納德拉交談過。斯坦伯格在舊金山花了一周時間與各大廠交流,最終才敲定了OpenAI。得不到的就算丟,因此這對Meta來說是一次挫敗。不過不可否認的是,祖克柏在這件事上,眼光是非常準的。OpenClaw的爆火讓整個科技行業看到了agent的巨大潛力。而Meta這邊,又恰好有還不止一款全球爆火的聊天軟體。一個是Messenger,月活使用者為10億。另一個是WhatsApp,月活更是高達30億。因此,與其在大模型性能上追趕競爭對手,不如趁著現在OpenClaw剛剛興起,直接在應用層面建立優勢。收購OpenClaw對於Meta整個AI戰略來說是大加強,可既然收購失敗,那就乾脆自己做一個。祖克柏在多個場合強調,Meta的獨特優勢在於“無與倫比的個人資料訪問”和“跨服務的深度整合”。這不是說著玩玩的。根據Meta的財報,旗下的Facebook、Instagram等等社交軟體,其日活總和已經超過了35.8億。這些使用者在Meta的平台上留下了海量的行為資料、社交關係和內容偏好。如果能將agent能力與這些資料結合,Meta就有可能打造出比競爭對手更懂使用者的AI助手。更重要的是,Meta 、正在將agent與其廣告和電商這兩個核心商業模式進行深度融合。祖克柏在1月份財報電話會議中提出的“agentic commerce”(代理式商務)概念,是想讓agent理解使用者需求,主動推薦商品,甚至代表使用者完成購買。他明確表示,Meta正在開發一種新型的AI購物工具,通過深度理解使用者個人偏好、歷史興趣和社交關係,在商家目錄中精準匹配商品,全流程操作無需使用者手動干預。這種模式下,agent不僅是助手,更是連接消費者和商家的智能中介,而Meta則可以從每一筆交易中抽成。這個商業模式的想像空間是巨大的。而且與OpenAI等競爭對手相比,Meta的優勢在於,他們已經建立了支付基礎設施(Facebook Pay、WhatsApp Pay)和龐大的商家網路。當OpenAI還在與電商公司談合作時,Meta已經可以在自己的生態內完成整個交易閉環。這種端到端的能力,是其他AI公司短期內難以複製的。但Meta的這種戰略轉變,也面臨著不小的挑戰。從元宇宙到AI眼鏡,從Llama開源模型到各種AI功能的嘗試,Meta 給人的感覺是在多個方向上同時押注,但最後都爛尾了。不僅如此,Meta目前在公司的組織架構上也存在問題,而且可能會影響到Manus。Manus作為一家創業公司,其產品迭代速度和決策效率,與Meta這樣的大公司有著本質區別。歷史上,大公司收購創業公司後,往往會因為文化衝突而導致整合失敗。Meta能否避免這個陷阱,還是個未知數。但不管怎樣,Meta的這次反擊至少說明了一點:在AI的競爭中,模型性能已經不是唯一的戰場。應用場景、使用者觸達、商業閉環,這些因素同樣重要。03微信應該學習Manus如果說WhatsApp是全球社交類應用的霸主,那麼微信就是中國社交類應用的霸主。超過14億月活使用者,日均使用時長超過90分鐘,涵蓋社交、支付、電商、出行等幾乎所有數字服務。微信的生態完整性和使用者粘性是絕大多數應用都無法企及的。對於agent而言,微信生態具有三大獨特優勢。第一是小程序體系。超過數百萬個小程序覆蓋了從外賣、打車到掛號、繳費的各類服務,這些服務天然適合被agent呼叫和編排。想像一下,你只需要跟AI助手說“幫我訂明天中午的外賣”,它就能自動打開美團小程序,根據你的歷史偏好選擇餐廳,完成下單。這種無縫的服務呼叫能力,是agent在微信生態中最大的想像空間。第二是微信支付的普及。微信支付是中國最主流的支付方式之一。這使得agent可以無縫完成支付閉環,而不需要跳轉到外部應用。相比之下,在美國,即便是WhatsApp Pay,其普及程度也遠不及微信支付在中國的地位。這種支付基礎設施的成熟度,是agent能否真正落地的關鍵。第三是社交關係鏈和內容生態。agent可以基於使用者的聊天記錄、朋友圈、公眾號訂閱等資料,提供高度個性化的服務。這需要在使用者授權和隱私保護的前提下進行。只要能做到這一點,微信中的agent將比任何其他平台上的agent都更懂使用者。然而,類OpenClaw工具在中國市場面臨的最大問題不是技術,而是生態准入。微信對第三方API的管控極為嚴格,長期以來封禁使用非官方 API 的帳號和應用。微信使用者協議明確禁止“通過非騰訊開發、授權的第三方軟體、外掛、外掛、系統,登錄或使用本軟體及服務”。這意味著,任何想要在微信上提供agent服務的公司,都必須獲得騰訊的官方授權。騰訊已經在微信中整合了自家的AI助手“元寶”,使用者可以將其加入為好友並直接對話。從騰訊的角度來看,不太可能輕易向第三方開放核心介面。某種程度上來說,這種封閉性,是微信生態的護城河。毋庸置疑,能接入微信的OpenClaw一定擁有巨大的市場。事實上,國內已有公司開始嘗試在微信生態中部署類OpenClaw的agent產品。GitHub上出現了多個OpenClaw的中文fork版本,如Molili、openclaw-cn等,專門針對微信等中國IM生態進行最佳化。開放原始碼專案Agent Studio則選擇了差異化路線,深度整合企業微信而非個人微信,試圖在B端市場找到生存空間。但這些項目都面臨同一個致命問題:缺乏官方授權,隨時可能因違反微信使用者協議而被封禁。這種不確定性,讓這些項目很難形成規模化的商業模式。使用者不敢大規模使用,開發者也不敢投入太多資源,整個生態處於一種灰色地帶。在這種背景下,Manus的優勢就凸顯出來了。Manus雖然總部位於新加坡,但其創始團隊和早期投資者都來自中國。這家公司本身也曾獲得了騰訊、真格基金、紅杉中國的投資。這種股東背景,讓Manus與騰訊有著天然的聯絡。更重要的是,Manus團隊也使用微信作為辦公工具。包括他們在新加坡的邀請會,也是通過微信來邀請國內AI媒體。這種深度融入中國網際網路生態的狀態,讓Manus比OpenClaw更理解中國市場的規則和文化。從商業邏輯上看,如果Manus能夠在海外市場驗證其產品模式。那麼將其產品復刻在微信的生態裡,就是一個絕佳的選擇。當然,微信學習Manus也面臨著一些挑戰。元寶作為騰訊自家的AI助手,已經在微信中佔據了一定的位置。如果要學習Manus,需要找到一個與元寶差異化的定位,而不是直接競爭。一個可能的方向是,Manus專注於複雜的多步驟任務和跨應用編排,而元寶則專注於簡單的對話和查詢。然而最重要的,莫過於商業模式。Manus在海外市場採用的是訂閱制,使用者為服務付費。但在中國市場,使用者對付費軟體的接受度相對較低,更習慣於免費使用、增值服務付費的模式。所以微信想要復刻Manus,可能需要調整其商業模式,找到適合中國市場的變現路徑。Manus已經被證明是一個可以規模化營運的產品,而不是一個需要使用者自己折騰的開放原始碼專案。而且比起OpenClaw,Manus Agents使用、安裝都要更簡單,還沒有亂七八糟的Skill拓展社區。對於微信而言,管理起來也相對簡單。從更大的視角來看,agent在微信生態中的落地,可能會重新定義中國使用者與數字服務的互動方式。過去,使用者需要在不同的功能之間跳轉,每個服務都是一個孤島。agent的出現,有可能將這些孤島連接起來,形成一個統一的服務入口。使用者只需要表達需求,agent就能自動呼叫需要的功能,完成整個流程。甚至於說騰訊很可能會突然收購某一家類似Manus的公司,然後復刻一個微信版Manus Agents出來。在agent這個領域,中國市場的潛力是巨大的,而微信則是這個市場中最關鍵的一環。誰能率先在微信中站穩腳跟,誰就有可能在中國的agent市場中佔據主導地位。 (字母AI)
世界經濟論壇最新發佈《執行中的人工智慧代理:2025 年評估和治理基礎》:企業如何讓 AI agents 既強大又可靠?
在 AI 技術迅猛發展的當下,AI agents(人工智慧代理)正從實驗室原型走向企業實戰,成為提升效率的“數字員工”。然而,如何讓這些“智能助手”既強大又可靠?世界經濟論壇(WEF)與Capgemini攜手發佈的《AI Agents in Action: Foundations for Evaluation and Governance 2025》(人工智慧代理在行動:2025年評估和治理基礎)白皮書,給出了實用答案。這份報告為決策者、技術領袖和從業者量身打造的“行動手冊”,幫助大家從實驗到部署,一步步建構安全、可信的 AI agents 生態。AI agents:從“聊天機器人”到“決策夥伴”的躍遷在呼叫中心,過去是指令碼化的聊天機器人,現在是能理解意圖、動態決策的AI agents;在企業流程中,它不再是靜態工具,而是像人類同事一樣規劃任務、呼叫資源。報告前言中,Capgemini Invent首席執行長Roshan Gya和WEF人工智慧卓越中心負責人Cathy Li 表示:AI agents 的興起將帶來效率飛躍、人機互動革新,甚至催生全新數字生態。但機遇伴隨挑戰——目標錯位、行為漂移、工具濫用等風險,正考驗著傳統軟體治理的極限。這份報告的核心洞見是:AI agents 不是簡單升級,而是範式轉變。它借鑑人類入職流程——定義角色、測試表現、逐步授權——強調“最小特權原則”,即只賦予必要權限。報告調研顯示,目前多數企業還停留在規劃或試點階段,這正是“從小處起步、迭代謹慎、防護適度”的最佳時機。如果貿然推進,未經驗證的用例可能釀成信任危機。報告建議:通過跨職能協作和漸進治理,讓AI agents放大人類智慧,推動創新,提升生活品質。技術基石:建構可靠的 AI agents 架構AI agents的軟體架構、通訊協議和安全模型,直接決定了它們如何融入組織、與世界互動。就像招聘新員工,企業需為AI agents搭建“工作站”——清晰角色、防護機制、監督體系。AI agents的架構分為三層:應用層、編排層和推理層。簡單說,應用層是“門面”,通過使用者介面或API接收輸入,確保輸出符合業務需求,可在雲端或邊緣裝置運行。編排層像“項目經理”,協調工具呼叫、子代理分工,支援模型切換(根據任務複雜度選大模型或小模型),並通過Model Context Protocol(MCP)連接企業資源,如資料庫或CRM系統。這層讓AI agents擺脫供應商鎖定,實現多雲多邊環境的無縫協作。最有趣的是推理層:它驅動AI agents的“思考”——從規則邏輯到生成式模型,處理預測、分類或規劃。報告用圖示說明:這些層協同工作,形成動態邊界,確保AI agents在安全圍欄內行動。舉例來說,在多代理系統中,A2A(代理間協議)和ACP(代理連接協議)讓它們像團隊一樣協作,處理複雜依賴。報告強調,建構AI agents不止工程,還需orchestration(編排)。它融合四種範式:經典軟體的確定邏輯、神經網路的模式識別、基礎模型的上下文適應,以及自主控制的規劃機制。這讓AI agents從“執行命令”進化到“自主決策”,但也引入新複雜性——需結構化腳手架,避免行為失控。通訊與安全:讓 AI agents “對話”無障礙協議是AI agents的“通用語言”。報告重點介紹2024年底Anthropic推出的MCP,它標準化了代理與資料來源、API的連接。過去,每個代理任務需定製整合;現在,MCP如共享介面,讓代理輕鬆查日曆、讀郵件、更新資料庫。報告圖示生動:代理A發郵件更新記錄,代理 B 確認資料庫變更,整個過程高效模組化。MCP已獲主流框架支援,被視為連接代理與企業基礎設施的核心。它加速部署,支援即插即用,尤其在雲、邊緣和感測器資料場景。另一協議A2A則專注代理間互動,形成multi-agent systems(MAS)的互操作層。報告展望:這些協議將讓AI agents在雲平台、企業網和邊緣裝置間自由流動,開啟即時感測器驅動的智能時代。安全不容忽視。AI agents架構獨特,能越過組織邊界呼叫外部工具,這帶來網路安全新憂。報告建議:視AI agents為“擴展員工”,用人類治理邏輯——權限漸增、行為測試、人機環路——管理風險。傳統存取控制已不足,需關注自治、權威和上下文,確保可靠邊界。分類與評估:從角色定義到風險把控報告第二部分轉向實用:如何分類、評估和治理 AI agents?它提出功能分類框架,按角色、自治度、權威、可預測性和營運上下文區分代理。這不是抽象標籤,而是指導評估與防護的藍圖——任務範圍小、環境可控的代理,防護可輕;高自治、高影響的,則需嚴謹審查。評估是關鍵。報告建議:用驗證案例測試行為,在人機環路中運行,逐步擴展自治。風險評估聚焦新威脅,如目標錯位或協調失效,借鑑OECD、NIST、ISO/IEC框架,擴展自治與系統風險原則。報告強調漸進治理:從小規模起步,迭代最佳化,連接評估與防護,確保信任、安全與問責。展望未來:多代理生態的曙光報告結尾展望多代理生態:代理間協作將催生複雜生態,如分佈式決策網路。但需警惕 emergent risks(湧現風險)。通過 AI 治理聯盟的協作,報告建議:從小做起,建好基礎,為更廣闊應用鋪路。 (AI資訊風向)
摩根士丹利:AI agents將推動社交平台迎來下一次進化?
核心觀點:社交平台或成AI 代理落地先鋒摩根士丹利在2025 年 8 月 13 日的報告中指出,亞洲主流社交平台(如微信、KakaoTalk、LINE)有望成為 AI 代理技術的首批規模化應用場景。這些平台憑藉龐大的使用者基數、高頻的日常使用和多元的服務生態(購物、支付、出行等),能通過 AI 代理顯著提升使用者體驗,吸引更多第三方服務接入,甚至催生新商業模式。儘管執行難度較大,但當前股價尚未充分反映這一潛在價值。為何是社交平台?AI 代理落地的三大優勢1. 使用者生態成熟微信(中國)、KakaoTalk(韓國)、LINE(日本)均為本土絕對主導的社交平台,覆蓋 80%-95% 的人口,日均活躍使用者分別達 9.05 億、4400 萬、8620 萬,日均使用時長最長達 101.6 分鐘(微信),為 AI 代理提供了天然的應用場景。2. 服務閉環完善三大平台均已整合購物、支付、出行等功能,AI 代理可在單一平台內完成任務閉環(如訂外賣、叫車),避免跨平台操作的繁瑣。例如,Kakao 已推出 “AI 購物助手”,使用者可直接通過聊天介面獲取商品推薦並完成購買。3. 資料優勢顯著平台日均產生數百萬甚至數十億次互動資料,能持續最佳化AI 代理的任務執行精度。相比垂直領域(如旅遊、電商),社交平台的資料覆蓋更全面,更適合訓練通用型 AI。樂觀前景:從“超級應用” 到新商業模式1. 強化超級應用地位AI 代理若能順暢完成複雜任務(如規劃旅行、批次處理預約),將提升使用者粘性,推動流量和交易規模增長,進而帶動廣告和交易佣金收入。以微信為例,其生態已涵蓋社交、娛樂、支付、電商等,AI 代理可能使其成為更核心的服務入口。2. 第三方服務接入擴容缺乏AI 技術的中小服務商可能通過社交平台的 AI 代理觸達使用者,平台可借此拓寬服務範圍並收取技術使用費。例如,Kakao 計畫通過 AI 代理切入旅遊預訂領域,連結 OTA 服務商;LINE 的 AI 促銷功能已使部分品類銷售額提升 111%。3. 電商與訂閱制新機會儘管社交平台在主流電商領域滲透率較低,但AI 代理或簡化購物流程(如智能推薦、一鍵結算)。參考韓國(1600 億美元)、中國(2.9 兆美元)的電商市場規模,即使小幅份額提升也能帶來顯著收益。此外,平台可能推出分級訂閱制 AI 代理(如基礎功能免費、高級功能付費),按複雜度定價。技術支撐:巨頭背後的AI 力量微信:依託騰訊自研的混元大模型,已整合DeepSeek-R1 等技術,近期推出的 “元寶 AI 助手” 可接入微信生態內的小程序、公眾號等資料,支援內容創作、資訊檢索等功能。Kakao與LINE:與 OpenAI 合作開發 AI 代理,Kakao 計畫 2025 年 11 月推出正式版本,LINE 則在 2025 年 4 月升級 AI 聊天機器人,支援文字和圖像互動。風險提示:三大潛在挑戰1. 使用者體驗不及預期若AI 代理存在理解偏差、執行錯誤(如支付故障),可能削弱使用者信任。支付場景尤為敏感,任何失誤都可能導致使用者流失。2. 競爭格局變化垂直領域巨頭(如字節跳動、Naver)可能推出自有 AI 代理;全球平台(如 OpenAI、Google)也可能通過技術優勢切入市場,分流使用者。3. 技術迭代風險AI 技術發展速度快,若平台未能持續迭代,可能被競爭對手超越。例如,字節跳動的 “豆包” AI 已在使用者增長和功能豐富度上對微信形成壓力。對股價的影響:三家公司的潛在機會Kakao(韓國)AI 代理被視為平台創新的核心催化劑,摩根士丹利將其目標價從 5.6 萬韓元上調至 7.5 萬韓元,維持 “增持” 評級,預計 2028 年 AI 訂閱服務可能帶來 1 兆韓元年收入。騰訊(中國)微信的AI 佈局將鞏固其在中國 AI 應用領域的領先地位,進一步擴大生態優勢。報告認為,AI 代理是被低估的增長動力,目標價為 700 港元,較當前有 16.2% 的上漲空間。LY Corp(LINE 母公司,日本)市場對LINE 的 AI 潛力預期較低,但提升使用者參與度的空間大,目標價 600 日元,潛在漲幅 19.3%。總結:AI 代理改寫社交平台競爭規則報告認為,AI 代理技術正處於爆發前夜,亞洲社交平台憑藉生態優勢有望搶佔先機。儘管存在技術和競爭風險,但長期來看,成功落地的平台將在使用者粘性、商業化能力上實現突破。對於投資者而言,Kakao、騰訊、LY Corp 的 AI 進展值得重點關注。 (資訊量有點大)
AI Agents:下一場科技革命
人工智慧(AI)不是什麼遙遠的夢話,它的快速發展正在改變我們對技術與生活的理解,正在把一切翻個底朝天。如果你還覺得AI Agents只是個炒作,或是只是矽谷的玩具,那你真是瞎了眼。這玩意兒不是科幻片裡的噱頭,它是實打實的生產力炸彈,正在把我們的工作、生活和腦子裡的想法炸得天翻地覆。這篇文章用很簡單的語言帶你搞清楚AI Agents到底是什麼、怎麼分門別類、在那兒用、有什麼坑,以及它會怎麼把未來帶到你面前。1. 什麼是AI AgentsAI Agents這個名字聽著挺唬人,其實已經偷偷鑽進你生活裡了。簡單說,它們就是能理解資訊、消化資訊、幹活兒的智慧系統。它就像一個數字大腦,不光聽懂你瞎嚷嚷什麼,還能幫你幹活兒──寫郵件、訂行程、做決策,啥都行。廣義範圍看,AI Agents包括所有智慧工具,從老掉牙的規則係統到複雜的機器學習模型,再到汽車自動駕駛。這些工具可能並不依賴語言,而是透過傳感器、圖像或其他數據形式來感知和互動。例如,自動駕駛汽車就是一個典型的廣義AI Agent。它透過相機或雷達感知周圍的道路狀況,分析資料後自主決定加速、剎車或轉向,最終將乘客安全地送達目的地。這種代理的核心在於感知、決策和執行,而不一定涉及語言互動。但今天我們要聚焦的是以大語言模型(LLM)為核心的狹義AI Agents。近年來,隨著ChatGPT、Gemini等LLM的突破性進展,狹義AI Agents成為了AI領域的熱點。它們以自然語言處理技術為基礎,能夠理解人類的複雜指令,產生自然流暢的回應,並在此基礎上執行多樣化的任務。想像一下,你對一個AI說:“幫我寫一篇關於AI Agents的報告”,它不僅能理解你的意圖,還能生成一份結構清晰、內容豐富的檔案——這就是狹義AI Agents的魅力所在,它們才是翻天覆地的主力。為何?因為它們靠語言驅動──你隨便說句話,它們就懂,還能照著幹,像是雇了個超聰明的小弟。它們盯著任務不放,專為搞定具體活兒而生,不管是寫程式碼、挖資料,還是想點子。它們還能拉工具幫忙,調搜尋引擎、API,突破自己的知識牆。更牛的是,它們有上下文記憶,能記住你前面說了啥,給你更可靠的答案。這些特質讓AI Agents變成了顛覆級玩家。別再懷疑了,這就是未來。2. AI Agents的分類AI Agents不是千篇一律的貨色。依自主程度和能耐,分三檔:指令型、半自主型、全自主型。每種類型都有其獨特的優勢和適用場景。別怕,我用大白話給你講透。指令型代理是最基礎的,像個自動販賣機——你按個鍵,它吐個東西。你說“寫首詩”,ChatGPT就甩一首給你;寫個代碼註釋,GitHub Copilot就幫你補全代碼。簡單粗暴,但別指望它們自己動腦子或搞複雜活兒。它們就是被動執行,廣泛應用於回答問題、產生內容或基礎對話。快是快,但步驟一多或需要靈感的活兒就抓瞎了。半自主代理稍微有點腦子。它們能在一定範圍內自己幹活兒,例如拆任務、調工具,但你得定目標提供初始指導,在關鍵節點你偶爾還得拉一把,進行確認。 LangChain Agent或AutoGPT就是這路子。你說“給我查市場趨勢”,它們會自己搜尋、整理、寫報告。但任務太亂或工具崩了,它們就歇菜,得你救場。這類適合調研、分析資料,但離全自動還差一截。全自主代理是終極夢想。它們能從頭到尾自己搞定複雜活兒,不用你插手。 OpenAI的o1或Replit Agent就是例子。你說“搞個網站”,它們自己分析、寫代碼、測試、上線,全程一條龍。聽著像科幻?但這就是現實。這玩意兒能幹網站開發、投資管理、策略規劃這種硬活兒。當然,技術難度和資源消耗也高得嚇人,還在初級階段。3. AI Agents的架構與關鍵元件AI Agents這麼能幹,靠的是硬派架構。不同類型各有門道,但核心是大語言模型(LLM),再搭上其他零件,幹特定活兒。指令型代理最簡單:LLM負責聽懂和輸出,對話管理器記著聊了啥,輸出生成器給你打包結果。流程就是你問它答,快得像閃電,但也就這樣了。半自主代理複雜點:LLM負責任務理解和初步決策;有任務分解器把大活兒拆成小塊;工具集調外部資源;反饋循環根據幹活兒的情況調整。流程大致上是這樣的:你給目標,它們拆解、執行、重複優化,最後交貨。這種架構能夠處理更複雜的任務,但工具不穩定或任務分解出錯就很麻煩了。全自主代理的架構是藝術:除了LLM,還有高級規劃器規劃制定長遠行動計劃;環境感知模組即時監控任務進度;自適應學習模組從歷史和經驗中學習升級。流程是:你給目標,它們規劃、執行、監控、學習,優化,最後給你完美結果。這種架構給予了AI Agents高度靈活性,能應付複雜動態環境,但開發難度和資源需求高得要命。4. AI Agents的應用場景AI Agents的應用多到數不清,從日常生活到專業工作,它們正在以各種方式改變我們的世界。以下是幾個典型的應用場景。客戶服務:智慧客服早不稀奇了。回答問題、處理訂單、修故障,24/7線上,成本低到你想哭。比傳統客服更快、更穩,還能提供個人化服務。程式設計與開發:AI Agents正在加速開發流程並減少人為錯誤。 GitHub Copilot可以根據自然語言描述產生代碼片段,Replit Agent甚至能自動修復bug或完成整個項目。你只要提供需求描述,它們就能產生可運行的代碼,速度快得飛起,連外行人都能上手。商業與金融:AI Agents是資料決策的大殺器。它們可以分析市場、給投資建議、算風險,金融機構用它們挖海量資料,產生詳細的投資策略和風險報告,幫助管理者在復雜環境中做出決策。教育與培訓:AI Agents帶來了個性化和高效的學習體驗。它們可以根據學生的進度和風格調整課程,提供智慧輔導和即時回饋。想像一個AI老師,為每個學生設定專門的學習計畫──這已經不是夢。5. AI Agents的挑戰與限制儘管AI Agents的前景令人振奮,但也別以為它就是神,它們也有不少毛病,技術上、實踐上都得啃硬骨頭。指令型代理太死板。如果問題超出知識範圍就懵圈,長期對話還容易忘事兒,前後答得亂七八糟。最煩人的是它們被動,不會主動幫你優化。半自主代理卡在任務分解和工具呼叫上。語言模型規劃能力有限,容易搞砸。另一個是工具呼叫不穩,API一崩任務就黃。最後自動化不夠,還需要你經常盯著,增加了使用負擔。全自主代理更麻煩。高級規劃太難,開發和資源都很燒錢。環境感知能力尚不完善,難以適應動態環境變化,容易翻車。最頭痛的是倫理和安全──失控或決策出錯,後果誰來承擔?6. AI Agents的未來趨勢AI Agents的未來?一句話:更自主、更強協作、更安全。增強自主性:未來將從半自主到全自主進化,人類插手越來越少。在高風險、複雜場景——例如自主醫療診斷、無人駕駛物流——它們能夠獨立應對更多挑戰,大殺四方。多代理系統:AI Agent單打獨鬥的日子結束了,未來會是多個AI Agents的「智慧團隊」。例如,一個市場分析任務可能由資料收集Agent、分析Agent、和報告生成Agent一起上,效率和穩定性爆棚。倫理與安全框架:隨著AI Agents自主性越來越高,確保其行為可控變的直覺重要。未來的發展會加入倫理限制和安全機制,例如限制決策範圍、增加透明度,讓你用得放心。開源與標準化:未來的AI Aigents開發會更加開放,開源模型和統一框架拉低技術門檻,促進全球創新加速。更多人會跳進去推這場革命。結語AI Agents不僅是技術進步的產物,更是人類智慧的延伸。它們正在重塑我們的工作方式、決策過程、生活體驗。從簡單的指令型到複雜的全自主型,AI Agent在以驚人的速度進化沖向未來。坑?有的是──技術瓶頸、倫理麻煩、安全隱患,個個都是硬派。但那次科技大跳躍沒點陣痛?網路有駭客,社群媒體有隱私坑,AI Agents也會有自己的爛攤子。未來已來,你準備好迎接這場變革了嗎? (林禿頭)
Nature發文「智能體摩爾定律」,Agent能力每7個月翻倍,5年後能頂人類苦幹一個月的工作
AI Agents(智能體)也有自己的“摩爾定律”了?!就在最近,Nature報導了一項來自非營利研究機構METR的最新發現:AI在完成長期任務方面的進步速度驚人,其時間跨度大約每七個月翻一番。為了衡量Agent自動完成任務的能力變化,研究人員提出了“50%-任務完成時間跨度(50%-task-completion time horizon)”這一指標。他們以50%任務成功率為基準,假設2019年AI達到這一目標所需時間對應人類需要的時間為10分鐘,那麼7個月後,其對應的人類完成任務時間則變成了20分鐘。換句話說,AI能夠勝任越來越多人工耗時久的任務,能力逐漸更強。2024年這一增長速度變得更快了,一些最新模型大約每三個月翻一番。按照預測,大約五年後,AI就能自動完成很多人類現在要花一個月才能完成的任務。網友們紛紛表示,這下終於對AI進步神速有實感了!提出“50%-任務完成時間跨度”指標在METR的介紹中,他們將這一發現命名為“Moore’s Law for AI agents”,也就是“智能體摩爾定律”。下面我們詳細展開其研究方法。整體而言,他們主要是讓AI和一些專業人員在相似條件下嘗試完成任務,然後測量人類所需要的時間,最終來比較AI成功率如何隨著人類完成時間的長短而變化。這第一步,研究團隊選擇了三個不同的任務套件來評估AI模型的能力:97個HCAST任務,涵蓋軟體工程、機器學習、網路安全和一般推理挑戰的多樣化任務集合,難度從幾分鐘到30小時;7個RE-Bench任務,由七個開放式的機器學習研究工程環境組成,每個需人類專家約8小時完成;66個SWAA任務,代表軟體開發過程中的單個步驟操作,時長1秒到30秒。接下來,為了量化評估AI模型的表現,團隊招募了800多名軟體工程、機器學習和網路安全領域的專業人員執行任務,並記錄他們完成任務所需的時間。據METR介紹,在這些任務中,人類完成時間從1秒到16小時不等。這些時間被當作衡量任務難度的標準。然後他們又評估了從2019年到2025年發佈的13個前沿AI模型,包括GPT系列和o1、Sonnet 3.7等,通過在建構的任務套件上運行這些模型,並記錄它們完成任務的成功率。關鍵來了,隨後他們引入了一個新的指標——50%任務完成時間跨度(50%-task-completion time horizon),即AI模型在50%的成功率下能夠完成的任務的平均時間長度。之所以選擇50%這一成功率,主要是它對於資料分佈的微小變化最為穩健。簡單說,當資料的分佈(即資料的特徵、比例或趨勢等)發生一些小的變化時,這個指標不會受到太大的影響,仍然能夠保持相對穩定的表現。論文作者之一Lawrence Chan表示:如果你選擇非常低或非常高的閾值,那麼分別移除或增加一個成功或失敗的任務,就會對你的估計值產生很大的影響。利用這一指標,團隊通過對AI模型在各個任務上的成功與失敗資料進行邏輯回歸分析,計算出每個模型的時間跨度,也就是模型完成任務成功率達到50%之時,對應的人類完成任務的時間。(每個模型在每個任務上運行8次,記錄成功率)有了這些資料,團隊最終繪製了模型自主性隨時間呈指數變化的圖表。發現“AI智能體摩爾定律”如上圖所示,研究的主要發現是:自2019年以來,AI模型的時間跨度呈現出指數級增長,每七個月左右翻一番。為了驗證研究結果的外部有效性,他們又進行了以下四個實驗:1、用2023-2025年資料回溯預測,驗證趨勢一致性;2、對HCAST和RE-Bench任務基於16個 “混亂” 因素評級,分析任務混亂程度對模型性能的影響;3、在其他SWE-bench Verified資料集上應用相同方法,對比結果;4、在內部Pull Requests(PR)任務上測試模型性能,與人類基線對比。最終,這一趨勢得到了以上外部驗證。比如在第2個實驗中,所謂的16個 “混亂(messy)” 因素是指現實任務比研究任務更難的方面,包括任務是否受到有限資源的限制、是否涉及即時協調或是否源自現實世界的環境。每個任務都根據這些因素得到了一個 “混亂度(messiness score)” 分數。研究人員發現,儘管AI模型在更加混亂的任務上(比如缺乏明確提示和反饋、需要AI主動去獲取資訊、任務條件和要求比較模糊等情況)的絕對性能較低,但另一方面其性能在穩步提升。更有意思的是,不管任務的“混亂”程度如何,AI都是以相似的速度在提升。再比如在SWE-bench Verified基準上的驗證,他們也觀察到了一個類似的指數級增長趨勢。不過由於標註時間的問題,該基準測試的時間跨度翻倍時間更短。總之,按照“智能體摩爾定律”進行預測,AI可能在2028年11月達到一個月的任務時間跨度;而在較為保守的估計下,這一目標可能在2031年2月實現。METR團隊認為,雖然研究還存在任務套件具有侷限性、評估指標不完美、未來AI發展具有不確定性等需要完善的地方,但很確信這一指標每年有1~4倍的增長趨勢。而結合現實中Manus智能體的走紅,我們已經能夠預見到智能體將迎來爆發。 (量子位)