#Agent
Anthropic出手,補齊Agent短板|Hao好聊論文
早在 2024 年 11 月,Anthropic 的 Model Context Protocol (MCP)發佈,通過這個協議,大模型就能比較容易地呼叫工具。OpenAI 在 2025 年 3 月曾公開表示要在自家產品裡支援 MCP。當時,業內都認為工具呼叫這個難題很快就會藉著MCP得到解決,通向Agent元年之路暢通無阻。因此 2025 年的夏天,MCP 生態確實爆發了。GitHub 上湧現了數以萬計的 MCP Servers,從操作 Kubernetes 叢集到訂購披薩,似乎一切皆可 Agent 化。然而一年多時間過去了,想像中Agent爆發的場景並沒有發生,它們迷路了。當企業試圖將成百上千個內部工具掛載到自家Agent模型上時,它們開始變得遲鈍、健忘,無法完成任務。全自動執行工具呼叫,很多時候變成了一場昂貴的報錯循環。在2025年的4月,我在和Konjie老師溝通的過程中,形成了一個共識,即MCP確實是一個殘缺的協議,因為它沒有規定大語言模型和MCP的互動模式。也就是說,MCP只承諾提供統一的工具介面,但並沒有規定大模型應該如何發現、選擇、組合這些工具。當時,kongjie老師認為,這個工作應該是Agent整合商或者Agent平台的活兒。但在這之後,除了LangChain一直在最佳化之外,大家的進步都很慢。直到 2025 年 12 月,隨著 Anthropic 低調但極其重要地發佈了 高級工具呼叫(Advanced Tool Use)套件。終於自己動手補齊了這個「殘缺」的協議。這也許會帶來Agent開發的新一輪重要變化。01只有介面,沒有規則要理解為什麼 Agent 會迷路,我們必須重新審視Agent和工具間到底有什麼互動模式。在 MCP 協議下,當一個 Agent 試圖解決問題時,它必須經歷四個連續的互動步驟:感知、決策、組裝、執行。在2025年的工程實踐中,這四個步驟每一步都佈滿了地雷。步驟一:感知階段在這個階段中,Agent 做的是打開工具箱,查看自己有那些能力可用。在舊的MCP模式中,這是一個靜態全量的過程。為了讓 Agent 隨時可用,開發者被迫把成百上千個工具的完整定義(Schema),包括名稱、描述、參數結構一股腦塞進 System Prompt。這導致了上下文的公地悲劇。大量的工具說明書擠佔了模型的上下文。根據Anthropic的計算,大概50 個工具的定義就會吃掉約 20,000 Tokens。結果Agent 的注意力全放在記住工具名上了,其他的執行、推理嚴重受損。這一切,都是因為缺乏按需發現機制。模型只能遍歷所有工具進行搜尋。步驟二:決策階段在這個階段,Agent 根據使用者指令,在工具列表中挑選最合適的那一個。而此時,當工具從 10 個增加到 1000 個時,列表裡必然充滿了功能高度相似的選項。MCP 並沒有提供區分這些細微差別的機制,模型只能依靠工具定義中微弱的語義差異去猜測。這導致了決策癱瘓。面對海量選項,模型的注意力機制被稀釋,而且很容易選錯。選錯工具是連鎖反應的開始。一旦第一步選錯,後面的參陣列裝和執行全是無用功。造成這一問題的原因,也是缺乏動態收縮機制。步驟三:組裝階段這一步,當Agent 選中了工具後,會開始根據 Schema 填寫入參(Arguments)。這是被大多數人忽視,但報錯率最高的一步。MCP 的工具定義中,Schema 往往只定義了顯性語法(例如:參數 date 是字串),但沒有傳遞隱性規則(例如:這個日期必須是 YYYY-MM-DD 格式,且不能早於 2020 年)。 更沒有教你具體這個工具怎麼用。這導致了就算工具選對了,也得猜謎式試錯。Agent 只能靠直覺填參。然後經歷報錯 → 換個格式重試 → 再報錯的地獄循環,在這一過程中,大量的 Token 被浪費在其中,而不是推進任務。這一切都是因為MCP缺乏最佳實踐的顯式指引。模型不僅需要知道參數是什麼類型,還需要知道參數長什麼樣,怎麼用。步驟四:執行階段在這一階段中,Agent 發起呼叫,等待結果,讀取結果,決定下一步。在傳統的 MCP 模式中,這是一個線性阻塞(Linear Blocking)的過程。 如果任務需要“翻閱 100 頁日誌找到報錯行”,Agent 就必須進行 100 次“呼叫-等待-讀取-思考”的循環。這導致了推理瓶頸與資訊污染。首先它巨慢,每一次微小的操作都要經過一次完整的 LLM 推理和網路往返,耗時極長。而且它還會很髒,工具返回的中間結果(例如 100 頁的原始日誌)會被全量塞回上下文。這些垃圾資料不僅浪費 Token,還會干擾模型對最終結論的判斷。這就是MCP缺乏邏輯編排與資料清洗的能力。這導致它工具就算用上了,效率也很低,還會進一步增加天量的上下文。這四個步驟的崩壞,構成了一個完美的失敗閉環。而 Anthropic 的新工具,就是針對這四個步驟的精準爆破。02Anthropic 用三板斧,重建工具呼叫的秩序Anthropic最新發佈的這套被統稱為 Advanced Tool Use 的功能,精確地對應了上述四個痛點,在混亂的 MCP 荒原上重建秩序。下面我們就來看看,他們是怎麼一一鬆動這些“屎山問題”的。1. 修復感知與決策:Tool Search Tool針對「感知階段的上下文超載」和「決策階段的癱瘓」,Anthropic 給出的解法是 Tool Search(工具搜尋),它可以幫助MCP,不要把所有工具定義一股腦塞進上下文;而是先搜尋,再只載入少量候選工具的定義。這把缺失的「工具發現與按需載入」做成了平台級能力。Tool Search 的工作流程可以分為七步。那它和過去有什麼不同呢?Tool Search就這三招:先收縮工具空間,再做精確選擇,同時隱藏工具描述。不過,這個工具依然有Anthropic只做系統層的限制,它「只負責找工具,不負責保證一定找對」。它的每次搜尋只返回 3–5 個最相關工具。如果工具描述寫得差、關鍵詞不匹配、同義詞覆蓋不足,就可能搜不到你期待的工具。所以文件還給出了工具庫最佳化的建議。比如工具名/描述要清晰、描述裡放使用者會用的關鍵詞、系統提示裡提示工具類別等。但只要定義精準,使用者靠它一下就可以省下上萬的token,進而把上下文空間還給計畫、狀態和約束,而不是被工具說明書吃掉。2. 修復組裝:Tool Use Examples解決了找不到合適工具的問題,緊接就要解決怎麼用工具的問題。針對模型不知道怎麼填參的痛點,Anthropic 引入了 Tool Use Examples(工具使用示例) 標準。通過增加幾個範例,模型可以更好的呼叫其 Few-Shot Learner(少樣本學習者)的能力,更好的學會如何使用這些工具參數。舉個例子,比如我要連結個出票工具。Anthropic 的內部資料顯示,僅僅是加上這些示例,模型在處理複雜參陣列裝時的精準率就從 72% 飆升到了 90%。更重要的是,它終結了那個報錯-道歉-重試死循環,讓組裝這個工具使用步驟更精準。3. 修復執行:Programmatic Tool Calling (PTC)最後 Anthropic 通過加入 PTC (Programmatic Tool Calling)解決「執行階段慢與髒」的問題。回顧第一章,傳統的 Agent 調一次工具,就需要看一眼返回結果,再調一次工具。這不僅慢,而且把中間看到的幾千行垃圾日誌全塞進了上下文,導致後續推理難以為繼。PTC 則允許模型編寫程式碼來重新編排執行流程。 模型自己不再去翻頁、過濾、尋找,而是寫一段指令碼交給 Python 直譯器去循環、過濾、聚合、平行。而模型只在關鍵時刻(比如換工具時)介入,它只接受結構化的指令碼輸出作為上下文,而不是把全部中間資料灌給模型。這一改變讓過去幾十次網路往返被壓縮成了一次秒級的程式碼執行。而且中間過程產生的數以萬計的垃圾上下文在程式碼層就被消化了,永遠不會污染模型的推理上下文。Anthropic 的這套組合拳,本質上是在原本殘缺的 MCP 介面層之上,強行建構了一個「互動層」。Tool Search 確保了模型能看見(Perception)正確的東西;Examples 確保了模型能組裝(Formulation)正確的指令;PTC 確保了模型能執行(Execution)高效的操作。至此,讓 Agent 迷路的四個路口,都被立上了紅綠燈。03這股浪潮,不只是Anthropic 參與在 Anthropic 發佈這套方案的同時,行業內的其他玩家也開始在MCP發佈一年後,發現了「工具呼叫缺乏互動規則」是阻礙 Agent 規模化的最大絆腳石。於是在2025 年末這個節點上,我們可以看到各家給出了一些殊途同歸的解法。GitHub Copilot:用“虛擬聚類”對抗數量級GitHub Copilot 面臨的是最複雜的 IDE 場景,擁有成百上千個開發工具。 在 12 月的更新中,他們提出了「Smarter with Fewer Tools」策略。他們沒有像 Anthropic 那樣完全依賴搜尋,而是設計了一套「虛擬工具集(Virtual Tool Clusters)」。這套工具集將默認上下文中的工具壓縮到僅 13 個核心工具,而將其餘數百個工具被折疊進「虛擬類別」(如 Edit, Terminal, Git)。這樣,模型不再直接選工具,而是先選工作目的,比如修改程式碼,系統就會展開 Edit 類目下的具體工具。這種分層決策的機制,本質上也是一種對工具空間的動態收縮。Spring AI:中介軟體層的“介面卡模式”就在 GitHub 更新的同一周,2025 年 12 月 11 日,Java 生態的領軍者 Spring AI 發佈了 Christian Tzolov 撰寫的重磅更新。與 Anthropic 和 GitHub 不同,Spring AI 沒有自己的大模型。如果模型(比如 Llama 3 或舊版 GPT-5)本身不支援原生的 tool_search,該怎麼辦?那就不要等待模型進化,在框架層解決它。Spring AI 推出了 Advisors API,這實際上是一種中介軟體層的「介面卡模式」。它允許開發者在應用層外掛一個向量資料庫(Vector Store)。當使用者提問時,Spring 框架會先攔截請求,在向量庫裡進行 RAG 檢索,找到最相關的幾個工具,然後再動態地將這些工具的定義“掛載”到 Prompt 裡,最後才發給 OpenAI 或 Llama。這一舉措意義重大。它意味著按需載入的能力被解耦了。即使是那些智商較低或架構較老的模型,也能通過 Spring 框架這個外骨骼,獲得處理海量工具的能力。Warp:用“子智能體”分而治之終端工具 Warp 則更加激進,同樣在2025年11月,他們推出了 MCP Search Subagent。他們認為主模型(如 Claude 3.5 Sonnet)太貴了,不應該用來幹翻說明書這種雜活。於是他們設計了一個專門的輕量級 Subagent,專門負責去 MCP 伺服器裡海選工具,選好了再喂給主模型。這種主從架構不僅解決了上下文問題,還進一步降低了 Agent 的運行成本。04這是比Skills,對Agent影響更大的事進入 2026 年初,Skills無疑成了 AI 圈最喧囂的詞彙。大家喜歡它,因為把一堆脆弱的工具鏈打包成穩定的能力塊,像人一樣積累、復用、升級。你甚至可以想像一個 Skill Store,在那裡能力被商品化,Agent 被規模化。一個新的,屬於Agent的App Store。但 Skills 其實是「上層建築」。它的前提,是下面那套基礎設施得先成立:工具多了不崩、流程長了不漂、結果大了不炸。而 Anthropic 這次做的,恰好是那個「更底層、也更隱藏」的轉向點。它一起回答了 MCP 最初留下的空白:MCP 負責統一介面,而現在平台開始規定「怎麼互動」,工具市場才可能真的進入可治理、可營運、可擴張的階段。所以這是 Agent 圈水底的大事兒。如果說 MCP 1.0 是打通了 AI 與世界的物理連接,那麼加上這套互動標準後的 MCP 2.0,確立了 AI 與世界的溝通語法。 (騰訊科技)
Claude Code 火爆被玩壞後,剛剛Anthropic 索性掀桌子:推出非程式設計版 Claude Cowork
繼程式碼工具Claude Code被使用者“玩出花”之後,Claude正式推出Cowork,將其強大的Agent能力擴展到所有非程式設計工作中這款新產品旨在讓任何使用者——而不僅僅是開發者——都能以與Claude Code相同的方式與Claude協作。Cowork目前作為研究預覽版,已向macOS應用上的Claude Max訂閱使用者開放從Claude Code到CoworkClaude Code發佈之初,官方預期開發者會用它來編碼。事實的確如此,但使用者很快就將其應用範圍擴展到了幾乎所有其他領域:從度假研究、製作幻燈片,到清理電子郵件、取消訂閱,甚至從硬碟恢復婚禮照片、監測植物生長和控制烤箱。官方認為,這些多樣化且出人意料的用例背後,根本原因是底層的Claude Agent是最好的代理,而Opus 4.5是最好的模型。受此啟發,Claude團隊推出了Cowork,這是將Claude Code的能力應用於所有非編碼工作的第一步。官方表示,該產品尚處於早期和原始階段,類似於Claude Code首次發佈時的感覺Cowork如何工作?與常規對話不同,在Cowork中,使用者可以授權Claude訪問電腦上的一個指定資料夾。之後,Claude便能讀取、編輯或建立該資料夾中的檔案。例如,它可以:重組你的下載資料夾:通過排序和重新命名每個檔案。處理票據:根據一堆截圖建立一個包含開支列表的新電子表格。整理資料:根據你零散的筆記生成一份報告初稿。在Cowork中,Claude完成這些工作時展現出比常規對話中更強的自主性。一旦設定任務,Claude會制定計畫並穩步執行,同時讓使用者瞭解其進展。對於Claude Code的使用者來說,這種體驗會非常熟悉,因為Cowork建立在完全相同的基礎上。這意味著Cowork能處理許多與Claude Code相同的任務,但形式上更適合非編碼場景。Cowork的功能還可以進一步增強。使用者可以利用現有的連接器,將Claude與外部資訊源關聯。新版本中還增加了一套初始技能,提升了Claude建立文件、簡報和其他檔案的能力。如果將Cow-ork與Chrome瀏覽器中的Claude配對,它還能完成需要訪問瀏覽器的任務。Cowork的設計目標是儘可能簡化使用Claude處理新工作的方式。使用者無需手動提供上下文或轉換輸出格式,也不必等待Claude完成一個任務才能提供反饋或新想法。你可以將任務排入佇列,讓Claude平行處理,體驗更像是給同事留言,而非一來一回的對話。Cowork包含多項新穎的使用者體驗和安全功能,包括:內建虛擬機器(VM):用於隔離執行環境開箱即用的瀏覽器自動化支援支援所有claude.ai資料連接器在不確定時會主動詢問使用者以獲得澄清保持控制與安全風險在Cowork中,使用者始終掌握控制權。你可以選擇Claude能訪問那些資料夾和連接器,它無法讀取或編輯任何你未明確授權的內容。在採取任何重要行動前,Claude也會徵求你的同意,以便你隨時引導或糾正。儘管如此,官方也提示了一些需要注意的風險:1. 潛在的破壞性操作:默認情況下,如果指令不當,Claude可能會執行刪除本地檔案等操作。由於存在誤解指令的可能性,使用者在下達此類指令時應提供非常明確的指導。2. “提示注入”風險:攻擊者可能通過Claude在網際網路上遇到的內容來改變其計畫。儘管Claude已內建了複雜的防禦措施,但Agent安全(即保障Claude在現實世界中行動的安全)在整個行業中仍是一個活躍的研發領域。官方表示,這些風險並非Cowork獨有,但對於首次使用超越簡單對話的高級工具的使用者來說,建議採取預防措施,特別是在熟悉其工作方式的過程中。寫在最後目前發佈的版本是一個研究預覽。Claude希望借此瞭解使用者會如何使用它,以及如何改進產品。官方鼓勵使用者進行實驗,嘗試一些意想不到的用法。根據這次預覽的反饋,Claude計畫進行大量改進,包括增加跨裝置同步、推出Windows版本,並進一步提升其安全性。 (AI寒武紀)
【CES 2026】復盤 CES 2026:商業邏輯已徹底重構
如果說2024年的CES是AI的“狂歡”,2025年是AI的“落地”,那麼剛剛在拉斯維加斯落幕的 CES 2026,則向我們傳遞了一個更為震耳欲聾的訊號:AI 正在完成從“數字大腦”向“物理實體”的驚險一躍。在過去的一周裡,我們並沒有看到太多關於參數規模的軍備競賽,取而代之的,是各大商業巨頭對於“具身智能(Embodied AI)”、“垂直代理(Vertical Agents)”以及“主動式計算(Proactive Computing)”的集體押注。核心思想一:具身智能的“iPhone時刻”已至——AI不再只是思考,它開始勞動本屆CES上,最耀眼的明星不再是顯示卡,而是機器人。 現代汽車旗下的波士頓動力(Boston Dynamics)首次公開展示了產品級的人形機器人Atlas,它不再是那個在實驗室裡跌跌撞撞的原型機,而是能夠流暢地在舞台上行走、搬運,甚至展現出驚人的平衡力。與此同時,LG推出了雙臂生活機器人CLOiD,能夠熟練地完成折疊衣物和烹飪輔助;Roborock則展示了長出“雞腿”能爬樓梯的Saros Rover。商業領袖們正在傳遞一個明確的共識:物理世界的AI已經登場。 既然大模型已經具備了理解世界的邏輯能力,現在的關鍵戰役在於如何讓這些“大腦”控制軀體,去執行那些骯髒、危險或枯燥的物理勞動。這是一個極其危險又迷人的轉折點。我們過去討論AI,大多侷限於“內容生成”或“資料分析”,那是白領的工作範疇。但CES 2026告訴我們,AI正在大舉進軍藍領市場。這意味著勞動力的成本結構將徹底解耦。未來,一家製造企業或物流公司的核心競爭力,可能不再是“管理數千名工人的能力”,而是“通過API調度數千台具身智能的效率”。核心思想二:從“通用”到“垂直”——工業級代理(Agent)才是利潤收割機與其聽通用大模型講笑話,CES 2026更務實地展示了AI如何解決具體的、昂貴的痛點。 特種車輛巨頭Oshkosh展示了一套令人震撼的機場地面服務機器人系統。它們像一群訓練有素的螞蟻,自動完成飛機落地後的加油、清潔、行李裝卸,實現了機場的“完美周轉”。雷蛇則展示了極度垂直的Project Motoko,一個專門最佳化玩家生活與遊戲的AI伴侶。“通用是面子,垂直是裡子。” 商業巨頭們不再執著於做一個無所不知的上帝,而是致力於做一個在特定領域無可替代的專家。與其期待一個能寫詩也能修車的AI,不如製造一個在停機坪上把效率提升20%的專用機器人。這標誌著AI行業進入了“深水區”。早期的AI創業者在賣“錘子”——大模型,而現在的贏家在賣“釘好的房子”。這意味著採購邏輯的改變,未來你購買的不再是一個SaaS軟體,而是一個能直接交付“業務結果”的數字員工。Oshkosh賣的不是機器人,它賣的是“準點率”;醫療科技公司Withings賣的不是秤,它賣的是“壽命預測”。核心思想三:主動式計算——裝置不再“等待指令”,而是“預判需求”如果說以前的智能家居是“你叫它,它才動”,2026年的裝置變得“可怕地貼心”。 Withings發佈的Body Scan 2能在90秒內監測60項生物標誌物,並主動預測你的神經與血管健康趨勢;三星和Razer的AI裝置不再是被動的工具,它們通過攝影機和感測器持續感知環境,主動提出建議:你的坐姿已經維持了2小時,建議調整”或“根據你的日程,現在該準備出發了。互動的最高境界是“零互動”。 未來的頂級使用者體驗,不是讓使用者學會如何更好地使用AI,而是讓AI學會如何根據上下文主動服務使用者。這是一種權力的讓渡。我們正在將對自己生活、健康、日程的“微觀管理權”逐步移交給演算法。這對於C端品牌來說是巨大的機會——誰能更早地通過主動服務建立信任,誰就能成為使用者生活的“作業系統”。 但對於白領精英來說,這也是一種警示:在演算法不僅比你聰明,而且比你更瞭解你身體和習慣的時代,保持“主體性”將變得前所未有的困難。結語CES 2026 即使落幕,但它留下的迴響將在整個2026年持續震盪。我們不再處於“AI技術爆發”的前夜,我們正處於“AI物理化、垂直化、主動化”的清晨。對於身處管理崗位的你我而言,這不再是關於“要不要用AI”的選擇題,而是一場關於“如何重構物理資產、如何定義垂直效率、如何建立主動服務”的填空題。 (Ai Xploring)
下一個兆級生意:AI正在爭奪企業的“第二資產”
在矽谷,圍繞一個問題的爭論正在升溫:AI,尤其是 Agent,會不會取代 SaaS?最早給出明確判斷的是SaaS 領域的知名專欄作者 Jamin Ball。圖源丨Midjourney在《Long Live Systems of Record》一文中,他直言不諱地反對“Agent 會殺死一切舊系統”的說法。在Ball 看來,Agent 越強大,對底層資料精準性的要求就越高。因此,作為資料“看門人”的傳統記錄系統(Systems of Record),其壁壘非但沒有消失,反而因掌握瞭解釋權而變得更昂貴。但Foundation Capital 的合夥人 Jaya Gupta 認為,Ball 只看到了硬幣的一面。她在最新文章《人工智慧的兆美元機遇:上下文圖譜》中指出,傳統系統的盲區不在於“資料”,而在於“上下文”匱乏。企業真實的運行邏輯,往往不記錄在CRM 的標準化表格里,而是藏在例外的特批、臨時的調整、跨部門的 Slack 溝通中。Gupta 將這些隱性的過程定義為「決策軌跡」。當這些決策軌跡被持續記錄,並在時間和業務對象之間連接起來,就會形成一種新的結構——上下文圖譜。這不僅是資料的堆砌,更是對企業“推理過程”的復刻。下一個兆級平台的機會,不是給舊系統裝上AI,而在於誰能抓住這些“資料”與“行動”之間的灰色地帶。這才是AI創業公司需要抓住的真正機會。今天,我們就來拆解這個超級賽道的核心邏輯。上下文圖譜:AI 時代企業最值錢的“第二資產”上一代企業軟體通過成為“記錄系統”(Systems of Record, SoR),創造了一個兆級的生態系統。Salesforce 管理客戶資料,Workday 管理員工資料,SAP 管理營運資料。它們的邏輯是:掌握權威資料,掌控工作流,從而實現客戶鎖定。現在的爭論焦點在於:在向Agent(人工智慧體)轉型的過程中,這些舊系統還能存活嗎?Jamin Ball 最近的文章《記錄系統萬歲》(Long Live Systems of Record)觸動了很多人的神經。他反駁了“Agent 將殺死一切”的論調,認為 Agent 不會取代記錄系統,反而會提高對一個優秀記錄系統的要求標準。這個觀點是對的。Agent 是跨系統的,且以行動為導向。工作的使用者體驗(UX)正在與底層的資料層分離。Agent 變成了互動介面,但底層仍然需要某種權威的東西來支撐。但需要補充的是,Ball 的觀點假設 Agent 所需的資料已經存在於某個地方,Agent 只需要更好的存取權、更好的治理、語義契約以及明確的規則。這只是一半的圖景。另一半是目前缺失的、真正驅動企業運行的那一層:決策軌跡(Decision Traces)。這些決策軌跡包括例外情況、覆蓋操作、此前案例以及跨系統的上下文。目前,它們散落在Slack 的討論串裡、交易審批台(Deal Desk)的對話中、升級電話會議裡,以及人們的大腦中。這就引出了一個至關重要的區別:規則(Rules)告訴 Agent 一般情況下應該發生什麼(例如:“使用官方 ARR 資料進行報告”)。決策軌跡(Decision Traces)記錄了具體案例中發生了什麼(例如:“我們使用了 X 定義,依據 v3.2 政策,經 VP 特批,基於 Z 先例,且我們做了如下修改……”)。Agent 不僅僅需要規則,更需要訪問決策軌跡,以瞭解過去規則是如何被執行的、在那裡獲得了例外豁免、衝突是如何解決的、誰批准了什麼,以及實際上是那些先例在主導現實。這就是“Agent 系統”類初創公司擁有結構性優勢的地方。它們處於執行路徑上。在決策發生的當下,它們能看到全貌:從各個系統中收集了那些輸入、評估了什麼政策、呼叫了什麼例外路徑、誰進行了批准、寫入了什麼狀態。如果你將這些軌跡持久化保存下來,你就得到了大多數企業今天所不具備的東西:一份關於決策是如何做出的、可查詢的記錄。我們將這些軌跡積累形成的結構稱為上下文圖譜(Context Graph):它不是“模型的思維鏈(Chain-of-Thought)”,而是一份鮮活的記錄,將決策軌跡跨越實體和時間串聯起來,使“先例”變得可搜尋。隨著時間的推移,這個上下文圖譜將成為自動化真正的事實來源(Source of Truth)——因為它不僅解釋了發生了什麼,還解釋了它為什麼會發生。核心問題不在於現有的記錄系統是否會存活。而在於是否會湧現出全新的系統,不僅僅是對象的記錄系統,而是決策的記錄系統,以及這些系統是否會成為下一個兆級平台。記錄系統沒能捕捉到的東西當Agent 正在被部署到真實的工作流中,比如合同審查、報價到現金(Quote-to-Cash)、客服解決方案,團隊往往會率先撞上一堵“牆”。這堵牆不是缺資料,而是缺決策軌跡。Agent 遇到了人類每天都要用判斷力和組織記憶來解決的模糊性問題。但這些判斷的輸入資訊並沒有作為持久的資產被儲存下來。具體來說:1.存在於人們腦中的例外邏輯。“我們總是給醫療保健公司額外 10% 的折扣,因為他們的採購周期太殘酷了。”這句話不在 CRM(客戶關係管理系統)裡。它是通過入職培訓和私下交談傳遞的“部落知識”(Tribal Knowledge)。2.過去決策的先例。“上個季度我們為 X 公司設計了類似的交易結構——我們應該保持一致。”沒有系統將這兩筆交易聯絡起來,也沒有記錄為什麼要選擇這種結構。3.跨系統的綜合判斷。客服主管在Salesforce 中查看客戶的 ARR(年度經常性收入),在 Zendesk 中看到兩個未解決的升級投訴,讀到一條標記流失風險的 Slack 消息,然後決定升級處理。這種綜合判斷髮生在他的腦子裡。而工單上唯寫著:“已升級至 Tier 3”。4. 系統之外的審批鏈。一位 VP 在 Zoom 通話或 Slack 私信中批准了折扣。機會記錄(Opportunity Record)只顯示最終價格,不顯示是誰批准了偏差,也不顯示原因。這就是“從未被捕捉”的含義。這並不是說資料是髒的或孤立的,而是說連線據與行動的推理過程,從未被當作資料來對待。把“決策現場”永久保存下來當初創公司在Agent 編排層(Orchestration Layer)進行部署,讓每次運行都生成決策軌跡時,他們就得到了企業幾乎從未有過的東西:一段結構化的、可回放的歷史,記錄了上下文是如何轉化為行動的。這在實踐中是什麼樣子的?一個續約Agent 提議給予 20% 的折扣。公司政策規定續約折扣上限為 10%,除非批准了“服務影響例外”。Agent 從 PagerDuty(維運監控)拉取了三個 SEV-1 級事故,從 Zendesk 拉取了一個未解決的“不修復就解約”的升級投訴,並調取了上季度一位 VP 批准類似例外的續約溝通記錄。它將特殊申請提交給財務部門,財務批准。最終,CRM 中只留下了一個結果:“20%折扣”。一旦你有了決策記錄,“為什麼”就變成了頭等資料。隨著時間推移,這些記錄自然形成了一個上下文圖譜:企業已有的實體(帳戶、續約、工單、事故、政策、審批人、Agent 運行記錄)通過決策事件(關鍵時刻)和“為什麼”的連結連接在一起。公司現在可以審計和偵錯自動化的過程,並將例外情況轉化為案例,而不是每個季度都在 Slack 裡重新學習一遍相同的邊緣案例。反饋循環是讓其產生複利效應的關鍵。捕捉到的決策軌跡變成了可搜尋的先例。每一個自動化的決策又向圖譜中加入了一條新的軌跡。這一切都不需要從第一天起就實現完全自動化。它從“人機協同”(Human-in-the-loop)開始:Agent 提議、收集上下文、路由審批並記錄軌跡。隨著時間的推移,當類似的案例重複出現,越來越多的路徑可以被自動化,因為系統擁有一個結構化的過往決策和例外庫。即使仍由人類做決定,圖譜也在不斷生長,因為工作流層將輸入、審批和理由捕捉為持久的先例,而不是讓它消散在Slack 中。為什麼現有巨頭建不了上下文圖譜Ball 樂觀地認為,現有的玩家會進化成這種架構。按照這個劇本,現有的巨頭們只需要在龐大的資料資產上外掛一個AI 大腦,就能平滑過渡到下一個時代。Salesforce、ServiceNow 和 Workday也相信這一點,他們都在兜售同一個故事:“我們擁有資料,現在我們加上智能。”但這個邏輯有一個硬傷:它們的底層架構是為“當前狀態”(Current State)設計的。以Salesforce 為例,它本質上是一個巨大的、複雜的分類帳本。它精準地知道一個銷售線索現在長什麼樣,但它無法回溯決策發生那一刻世界長什麼樣。比如,當一個20% 的違規折扣被批準時,Salesforce 記錄的是“折扣已批准”。但那個證明折扣合理性的上下文,比如PagerDuty 剛剛報警顯示服務當機、Zendesk 裡客戶正在咆哮、Slack 群裡VP的臨時授權。在寫入 Salesforce 的那一刻,全部丟失了。無法回放決策時的世界狀態,就意味著無法審計決策,更無法將其轉化為AI 可學習的“先例”。一個客服問題的升級,往往取決於CRM 裡的客戶等級、計費系統裡的 SLA 條款,甚至 Slack 裡的流言蜚語。沒有一個現有的 SaaS 巨頭能看到全貌,因為它們的視野僅限於自己的圍牆之內。既然應用層不行,那麼處於底層的Snowflake 和 Databricks 呢?它們同樣被寄予厚望,被視為AI Agent 的基石。確實,數倉擁有基於時間的快照,看起來像是擁有了“上帝視角”。但問題在於,它們處於資料的“讀路徑”(Read Path),而非“寫路徑”(Write Path)。資料進入數倉,通常是在決策發生之後,經過漫長的ETL(提取、轉換、載入)管道搬運而來。這就像是正在發生激戰的前線,數倉只是那個戰後打掃戰場的記錄員。當資料最終落地Snowflake 時,那個充滿博弈、權衡和突發狀況的“決策上下文”已經蒸發殆盡。也就是說,它還是只能告訴你發生了什麼,但不能告訴你為什麼。Databricks 雖然在拚命整合碎片,但“儲存資料的地方”和“決策發生的執行路徑”之間,依然隔著一道無法踰越的鴻溝。與這些大公司相比,Agent 系統類初創公司擁有結構性優勢:它們處於“編排路徑”上。當一個Agent 正在分流工單、響應事故或審批報價時,它不僅僅是在呼叫工具,也在執行工作流。它處於風暴的中心,從多個系統拉取資訊,評估規則,解決衝突,然後行動。因為身處“執行路徑”,它擁有了巨頭們無法觸及的特權:在“提交時刻”(Commit Time),將所有的輸入、邏輯、例外和原因,完整地“凍結”下來。這就是上下文圖譜,也是AI 時代公司最有價值的單一資產。當然,現有巨頭也會反擊。他們會嘗試通過收購來通過“打補丁”的方式增加編排能力。他們會鎖定 API 並採用資料流出費用(Egress fees)來讓資料提取變得昂貴。這與超大規模雲廠商使用的劇本相同。他們會建立自己的Agent 框架,並推行“把一切都留在我們的生態系統中”的敘事。但是,捕捉決策軌跡需要在提交時刻(Commit Time)處於執行路徑中,而不是事後強加治理。巨頭可以讓資料提取變得更難,但他們無法將自己插入到一個他們從未參與過的編排層中。初創公司的三條路徑Agent 系統類初創公司將採取不同的路徑,每條路徑都有自己的權衡。1.從第一天起就取代現有的記錄系統。圍繞Agent 執行重構 CRM 或 ERP,將“事件源狀態”(Event-sourced state)和“政策捕捉”作為架構的原生功能。這很難,因為巨頭根深蒂固,但在技術代際更迭的轉折點,這並非不可能實現。在眾多追逐AI SDR(銷售開發代表)類別的初創公司中,Regie選擇了建構一個 AI 原生的銷售參與平台,以取代像 Outreach/Salesloft 這樣的傳統平台(後者是為人類在碎片化工具鏈中執行序列而設計的)。Regie 專為混合團隊設計,其中 Agent 是一等公民:它可以挖掘潛在客戶、生成外聯、跟進、處理路由並升級給人類。2. 取代模組而不是整個系統。這些初創公司針對特殊情況和審批集中的特定子工作流,成為這些決策的記錄系統,同時將最終狀態同步回現有巨頭系統。Maximor 在財務領域就在踐行這一邏輯。它自動化了現金流、結帳管理和核心會計工作流,卻保留了 ERP 作為底層總帳(GL)的地位。換句話說,ERP 依然是那個記帳的“帳本”,但 Maximor 成為了掌握對帳邏輯的“大腦”。3. 建立全新的記錄系統。這些公司從編排層起步,捕捉了企業從未系統化儲存過的東西——決策痕跡。隨著時間推移,這種可回放的關係資料變成了一種新的權威資產。此時,Agent 不再僅僅是自動化工具,而是成為了企業回答“我們為什麼這樣做”的檔案室。PlayerZero 是這種模式的典範。生產工程(Production Engineering)長期處於 SRE、QA 和開發的交匯點,這是一個典型的“膠水職能”,依靠人類的經驗來承載軟體無法捕捉的上下文。PlayerZero 建立了一個關於程式碼、配置和客戶行為互動的“上下文圖譜”。當生產環境出問題時,它能回答“為什麼會壞”以及“這個變更會帶來什麼後果”——這是任何現有系統都無法回答的問題。而在這些路徑之上,一個新的基礎設施正在形成:Agent 的可觀測性(Observability)。隨著決策軌跡的堆疊,企業需要像監控程式碼一樣監控Agent 的行為。Arize 正試圖成為這一新堆疊中的 Datadog。它讓團隊能夠看到 Agent 如何推理、在那裡失敗,並評估其決策質量。在自主決策的時代,這不僅僅是工具,更是安全感。創業者的兩個關鍵訊號對於創業者而言,應該在那裡落子?市場釋放的訊號雖然重疊,但指向了不同的機會。首先是兩個通用的訊號:高人力投入與高意外率。第一,高人力投入。如果一家公司還在用50 個人手動路由工單或核對資料,這就是最直接的訊號。大量勞動力的存在,恰恰證明了決策邏輯太複雜,傳統工具做不到自動化。第二,需要處理大量的“意外”情況。那些充滿“視情況而定”的交易審批、合規審查環節,因為邏輯複雜且先例重要,也是 Agent 建立決策血緣的最佳土壤。而另一個訊號,則專門指向了“新記錄系統”的誕生:系統交匯處的“膠水職能”。RevOps(收入營運)的存在,是因為沒有人能同時搞定銷售、財務和市場系統;DevOps 的存在,是因為開發和維運之間有深溝;安全營運(SecOps)則卡在 IT 和合規之間。這些角色的出現,本身就是對現有軟體生態的一種諷刺——因為沒有單一的記錄系統能擁有跨職能的視野,組織只能創造一個人類角色來充當“人肉中介軟體”,承載那些軟體無法捕捉的上下文。一個自動化該角色的Agent,其價值不僅僅是效率,而是它通過持久化保存決策、例外和先例,將這種隱形的“膠水”實體化了。這不是在拆除現有的巨頭,而是在捕捉一種只有當 Agent 介入工作流時才會顯現的真理。回到最初的問題:記錄系統會存活嗎?當然會。Salesforce 和 SAP 不會消失。但真正的問題是,下一個兆級的平台會是什麼?它是通過簡單地給現有冷冰冰的資料加入AI 補丁建構的?還是通過捕捉那些讓資料具有行動力(Actionable)的決策軌跡而建構的?我們賭注押在後者。而今天那些正在建構“上下文圖譜”的初創公司,正在為這個新時代打下地基。 (創業邦)
走進AI Agent的時代:從黃仁勳的演講看智能體的未來
近日,我看到輝達(NVIDIA)首席執行長黃仁勳在2026年CES大會上的一段演講,其中聊到了當下大火的AI智能代理(AI Agent)。黃仁勳在演講中描述了人工智慧正在發生的範式轉變:AI不再只是根據訓練資料回答問題的工具,而是開始具備自主思考和行動的能力。他提到,ChatGPT等大型語言模型雖然很強大,但也會出現讓人哭笑不得的“幻覺”現象。這是因為這些模型無法即時獲取新知識,需要靠一定的“推理”和“工具”才能正確回答超出訓練範圍的問題。黃仁勳的這番演講告訴我們:人工智慧的發展正從“會生成”邁向“會思考”,AI智能代理時代似乎真的要來了,而且可能比我們想像的更快到來。從胡言亂語到學會思考:AI為什麼需要代理?在ChatGPT橫空出世初期,很多人驚嘆於它流利的回答,卻也發現它有時候會一本正經地瞎編亂造答案,出現所謂的“幻覺”。黃仁勳在演講中就提到這一點:早期的ChatGPT“產生了很有趣的結果,但也經常胡言亂語(hallucinate)”。為什麼會這樣呢?簡單說,這是因為傳統的大型語言模型是基於訓練時看到的知識來回答問題的,對訓練後出現的新知識一無所知。如果你問它一個關於最新發生的事件或專業領域的新問題,它很可能張冠李戴。模型並非真的在“思考”,而更像是在模式匹配,甚至編造資訊。為瞭解決這一問題,AI研究者們發現,讓模型學會“思考”至關重要。所謂“思考”,其實就是讓AI具備一定的推理能力。黃仁勳解釋說,一個真正智能的AI在回答問題前,需要懂得先去查資料、分步驟分析問題、呼叫必要的工具或外部資訊源,然後再給出基於事實的答案。換句話說,AI需要學會像人一樣:遇到新問題時,會想一想:“我需要先做些什麼準備?這題該如何分解?” 然後逐步解決子問題。這種多步推理和規劃的過程被稱為“思維鏈”(Chain-of-Thought),它讓AI不再侷限於死記硬背訓練集裡的知識,而是能夠靈活應對新情況。什麼是AI智能代理?簡單來說,AI智能代理就是一種能夠自主決定採取那些步驟來完成任務的智能程序。它背後的理念是:當我們給AI一個複雜的任務時,我們不需要也無法提前把每一步都程式設計寫死;相反,我們希望AI自己決定如何呼叫自身的技能和外部工具去完成任務。黃仁勳指出,大型語言模型的出現讓這一切成為可能。他說,大型語言模型讓AI取得了一次基本的飛躍。通過訓練和強化學習等技術,現代的AI模型已經具備了一定的推理和規劃能力,能夠把一個從未見過的問題分解成一系列自己知道如何處理的小步驟。這就好比我們人類遇到沒見過的新情況時,會本能地拆分問題、類比過去的經驗來想辦法解決一樣。更令人興奮的是,AI代理不僅能自行思考,還可以像團隊合作一樣呼叫多個不同的AI模型一起來解決問題。黃仁勳提到了一個令他印象深刻的突破:一家名為Perplexity的AI搜尋公司率先讓一個AI同時使用多個模型處理不同子任務。他感嘆道,這簡直太聰明了!AI當然可以隨時呼叫世界上最好的AI來幫它解決問題。換句話說,如果一個AI代理在推理過程中需要識別一張圖片,它就可以呼叫專門的圖像識別模型;需要聽懂語音時,它又可以呼叫語音識別模型;需要獲取最新資訊時,它甚至可以呼叫聯網的搜尋引擎或資料庫。正因為能自由呼叫各種不同模態、不同專長的模型,一個AI代理就像一個全能管家,能在需要的時候切換角色,當一次翻譯家、畫家、資料分析師,甚至私人助理。前沿大模型+定製小模型:專屬AI養成計畫AI智能代理的強大還在於它可以將通用智能和專屬技能相結合。一方面,我們有那些無所不知的前沿大模型(Frontier Model),比如最新版本的ChatGPT,它掌握了海量的通用知識和語言能力,相當於站在知識的“最前沿”。另一方面,不同行業、不同個人可能又有各自特殊的需求和秘密“配方”——這就需要定製的專屬小模型。黃仁勳提出,我們完全可以訓練屬於自己或自己公司的小模型,教給它別人沒有教過的獨門本領,然後把它納入AI代理的架構中。這樣一來,我們的AI代理就既有大模型的見多識廣,又有小模型的獨門絕技。在技術實現上,這背後需要一個聰明的“調度員”。在演講中,黃仁勳將其形象地稱為“智能路由器”或“模型路由器”。這個路由器負責根據使用者指令的意圖,自動判斷該呼叫那個模型最適合當前任務。例如,當你讓AI代理整理內部機密檔案時,路由器會挑選在本地運行、確保隱私安全的定製模型來執行;而當你詢問一個通用常識問題時,它又會把任務交給知識面更廣的前沿模型。通過這樣的架構,你的AI代理始終擁有“雙重魔法”:一隻手擁有全球最新最強的知識,另一隻手又握著你自己領域的專業技能。而對終端使用者來說,這一切切換和配合都是無感的——你只管提出問題和任務,AI代理自會在幕後安排妥當。AI代理有多厲害?黃仁勳在演講現場還展示了一個令我印象深刻的例子。他當場建構了一個個性化的AI“私人助理”,幫他處理日常事務,還能與現實世界互動。這個助手由多部分組合而成:首先,他用一台輝達的DGX Spark小型超級電腦作為個人云伺服器,確保所有AI模型都能本地高速運行;其次,他準備了一個開放原始碼的迷你機器人,名叫Richie(來源於Hugging Face的開放項目),作為AI助理與物理世界互動的“化身”;再次,他呼叫了業界領先的語音合成服務,讓Richie這個機器人能夠用自然的聲音與他對話。這位AI私人助理都做了些什麼呢?演示中,黃仁勳對著Richie說:“嗨,Richie,我今天的待辦清單上有什麼?”Richie立刻回答,告訴他今天需要採購的物品清單和要傳送給同事的郵件任務。黃仁勳接著口頭吩咐:“那就給他發郵件說我們會在當天結束前提供更新。” 助理便自動幫他起草並行送了郵件。隨後,黃仁勳拿出一張手繪草圖,讓AI助手將其“變成建築效果圖”,Richie照辦,呼叫圖像模型將草圖轉化為精美的建築渲染圖。更令人稱奇的是,當黃仁勳詢問“家裡的狗現在在幹嘛”時,Richie竟然調動自己的攝影機環顧了房間一圈,然後回答說:“它正在沙發上偷懶呢!”原來,這個AI助理還連接了家中的攝影機,可以隨時監控寵物的動態。黃仁勳讓Richie通過語音驅動揚聲器喊了一聲“Potato,下沙發!”(Potato是他寵物狗的名字),彷彿一個真正的管家在遠端呵護家庭。現場觀眾無不為之驚嘆。這一連串操作聽起來近乎魔法,但黃仁勳強調,如今這樣的AI代理系統已經相當簡單就能實現。他感嘆:“這一切如今變得微不足道,而在幾年前是完全無法想像的。”開源社區的繁榮和AI工具的發展,讓個人和中小團隊也能打造出屬於自己的AI助手。只要有合適的硬體,加上現成的模型和藍圖範本,每個人都可能訓練一個專屬的AI來幫自己處理繁瑣事務。這種科技進步的速度,連行業專家都感到驚嘆。改變未來應用的遊戲規則AI智能代理不僅是炫酷的演示,更被視為未來應用的新範式。黃仁勳指出,這樣的代理式AI架構將成為未來軟體應用的基本框架和使用者介面。過去,我們使用軟體往往需要學習特定的操作流程,比如在電子表格裡一格一格輸入資料,或者在命令列裡敲指令。而有了智能代理之後,我們和應用程式打交道的方式會變得更自然,就像和一個懂行的助手對話——你提出目標,AI幫你執行。在企業領域,這種變化將帶來巨大效率提升。難怪許多行業領先的平台公司,如Palantir(資料分析)、ServiceNow(企業服務)、Snowflake(雲資料)等,都在和輝達合作,把智能代理融入它們的系統,作為新一代的人機互動入口。想像一下未來的場景:財務分析師不需要在繁瑣的軟體介面上點選半天,只要向AI助理描述想要的報表,它就能自動調取資料庫並生成結果;工程師可以直接對AI助手提出設計需求,AI便整合各類專業工具給出方案;甚至我們普通人在日常生活中,也許只需要對著手機說出想要完成的事項,就會有智能代理為我們統籌安排好一切。從PC時代的圖形介面(GUI),到移動網際網路時代的觸屏互動,再到如今的對話式AI時代,人機互動正在變得越來越自然、越來越以人為中心。AI智能代理正是推動這一轉變的關鍵力量,它讓人工智慧從幕後的演算法模型走到台前,成為直接為人服務的數字勞動力。寫在最後黃仁勳在演講中傳遞的資訊很明確:我們正站在一個AI變革的門檻上,迎接從“生成式AI”向“代理式AI”的飛躍。AI智能代理將賦予機器前所未有的自主性和協作能力,讓AI真正成為人類的強大助手。從讓聊天機器人不再胡言亂語,到擁有隨叫隨到的數字助理,這場AI革命終將走進你我的生活。如果說過去幾年是AI學習表達和創作的階段,那麼接下來,AI將學會思考和行動。從某種角度看,具備自主推理和行動能力的AI代理,也許正是人類邁向通用人工智慧(AGI)的關鍵一步。 (前沿黑板報)
李開復:AI Agent最大價值在to B
歷經2025年一整年的飛速發展,AI Agent在B端的價值早已突破“降本增效”的淺層定位,進入驅動企業業務增長的階段。零一萬物創始人兼CEO李開復總結,零一萬物2025年的核心打法,就是聚焦少數“燈塔型”大客戶做深度合作,通過獨具特色的“一把手工程”幫企業夥伴用好AI的能力,協助其進行數智化轉型升級,做大核心業務、做強關鍵指標。經過一年沉澱,通過提煉行業技術專家的前沿研究與頭部客戶的創新實踐,2026年1月5日,零一萬物發佈了中國企業智能體開年六大預判。來源:受訪者李開復表示,公司的核心目標是將零一萬物打造成為技術產品領先、市場拓展迅速、具備良性造血能力與健康商業生態的卓越AI 2.0企業,打破AI 1.0難以盈利的“魔咒”。以下為文章核心要點:1.未來會有更多有意思的各行各業的應用出現,每一個to C應用都可能會被重寫一次。2.傳統企業數智化轉型升級必須是一把手驅動,攜手AI公司共創,完成從技術到增長引擎的系統升級。3.新時代的AI裝置絕非單純的硬體,而是“軟體+硬體+模型”的結合體。4.對未來AI創業公司有幾點建議:一是to B領域一定要找到藍海;二是走to C路線要避開大廠;三是佈局AI終端要快速迭代。AI-First硬體剛開始起步,爆發性增長的機率或許是最高的。以下為李開復自述(有刪減):Agent在2025年迎來“推理Agent元年”,目前其最大價值集中在to B場景,原因在於Agent的推理成本仍較高,且響應耗時較長;相較而言,在B端的價值更容易得到認可。對B端使用者而言,這種“等待成本”是可接受的:比如等待5分鐘生成一份PPT,或者10分鐘輸出一份戰略規劃,使用者在這期間可以處理其他工作,且B端對Agent的付費意願更強。智能體的演進經歷了三個階段:從由人設計流程的“工作流Agent”,到具備任務規劃能力的“推理Agent”,再到如今的“Multi-Agent多智能體”。2026年將是多智能體上崗元年。零一萬物認為,多智能體帶來的變化是突破性的。真正的多智能體並非單智能體的疊加,而是深度嵌入企業組織與業務裡的“智能管理系統”, AI從“單點提效”轉向“全域最佳化”。這不僅是技術的躍遷,更是管理學和組織行為學的革新。但在to C領域,即使是當下典型的to C 通用型Agent Manus,每月300美元的費用,不僅中國使用者難以接受,對美國使用者也屬高價。不過to C賽道並非沒有機會,其可能會朝著趣味化、全民化的方向發展。這一點,豆包就是很好的例子,雖然它的底層模型不是全球最優的,但它的使用者體驗很好,兼具娛樂屬性與普適性,它比較適合中國市場的現階段需求。我覺得未來會有更多有意思的各行各業的應用出現,每一個to C應用都可能會被重寫一次。未來,AI Agent將給整個to C領域帶來全面革新,例如社交媒體不再只有人與人的互動,還有AI參與;每個人都可以製作自己喜愛的遊戲進行娛樂;電商也會實現真正的“千人千面”;搜尋也將升級為更精準的一個答案。這將是移動網際網路之後又一次深刻的科技革命和產業革命。在現有to C應用的AI升級中,大廠會佔據主導地位。因為如今國內沒有任何一家大廠不掌握大模型技術,它們能憑藉既有流量和場景優勢,用AI持續放大商業價值與營收。且在這一領域,中國市場的發展速度可能會超過美國。這也意味著,to C領域的AI創業者需要更加謹慎。面對強勢的大廠,創業者的核心機會在於找到那些大廠“看不到、看不起”的細分賽道,先做出成熟產品、站穩腳跟,再逐步滾動發展,當年“今日頭條”不就是這麼發展起來的嗎?01 to B領域的方法論當前AI技術迭代速度極快,幾乎按月度計算都有新突破,但傳統企業在落地AI應用時面臨部署難、應用難、定製難三大挑戰,普遍需要專業技術支援。零一萬物的核心路線是聚焦to B戰略,我們認為,傳統企業數智化轉型升級必須是一把手驅動,攜手AI公司共創,完成從技術到增長引擎的系統升級。從降本轉向增效,再到增長,AI Agent對企業來說價值是顯性的,個人不一定願意花大價錢買一個虛擬助手,但如果一個“超級員工”真能幫公司解決實際問題,企業會願意付費。目前零一萬物已積累多個頭部行業大客戶,合作模式為零一萬物的演算法工程師帶隊入駐企業部署(萬智)大模型平台,我或公司高管親自參與,為企業定戰略、幫助他們做戰略開發,並通過訪談挖掘客戶業務痛點,梳理和重塑完整價值鏈,進而找到快速提升的方法及長期目標,而零一萬物的FDE(前線部署工程師)帶隊入駐企業,他們是一群既懂技術又懂業務,且能夠與高管和一線員工坐在一起工作的先鋒隊,他們不僅把萬智大模型平台帶入企業,也會深度參與到企業的全域變革之戰中。從經營表現看,零一萬物在2025年實現了數倍於2024年的營收增長,並計畫在2026年進一步擴大增長規模。我們的目標清晰而堅定:將零一萬物打造成為技術產品領先、市場拓展迅速、具備良性造血能力與健康商業生態的卓越AI 2.0企業,打破AI 1.0難以盈利的魔咒。目前,我們正致力於建構一個健康的動態營收結構。海外市場作為高價值業務的重要一極,雖然項目數量相對較少,但項目具有體量大、盈利性強的突出特點;而國內市場是業務增長的基石,當前的關鍵在於聚焦“一把手”工程,深入企業客戶決策層,撬動更多規模化訂單,從而為整體增長提供堅實基礎。同時我們也開展地方政府的產業智能化落地合作,通過to G、to B的模式賦能當地產業邁向智能化轉型。要獲得企業使用者的認可,就需要重點幫助企業提升核心業務,而不是邊緣業務。如果只是“打邊鼓”,就很容易陷入同質化競爭。但如果我們能深耕特定行業,形成獨到的行業理解力,為企業創造真實的價值,情況就會完全不同。儘管國內大部分企業目前尚未習慣高價買軟體,但只要解決方案能帶來明確的業務增長,甚至幫企業找到新的商業可能性,我相信他們願意為這種解決方案買單,不過這需要時間。眾所周知,國內幾乎所有行業的競爭都更激烈,這主要來源於中國技術能力的普及與強大。因此,當大家還在“卷紅海”時,我們要找到藍海。數位化是智能化的前提,更是AI變革的基礎。從我們的角度,選擇合作企業時,我們首先會選擇已經完成數位化且願意積極進行數智化升級的企業,否則雙方的成本都太高了。若企業沒有數位化基礎,就很難得到AI紅利。其次,我們傾向切入能快速實現創收的行業,如銷售、金融等,當然我們不是只追求“快錢”,而是希望以此為吸引力,讓企業嘗到甜頭,進而願意推進更深度的合作。02 AI 2.0時代的最優終端形態是什麼當前全球範圍內,僅有少數企業願意投入大量資源開發大模型,中美兩國也形成了截然不同的發展路徑。美國走的是閉源模型路線,對外講的故事是依靠海量算力訓練頂尖模型,再賦能通用型應用,進而高價收費形成商業閉環。這種模式在付費能力與意願較強的美國市場完全成立。而中國的主流大模型生態(字節豆包除外)以開源為主,大家不用花費太多算力,卻能保持與美國同梯隊水平,即便有差距,也僅在3~6個月內。基於此,我覺得美國的大模型將成為未來的iPhone閉源的iOS,中國將成為未來的Google的開源Android,最終雙方都會勝出。美國模式可能賺取更高利潤,而中國開源模式將擁有豐富的生態、覆蓋更龐大的使用者群體。此外,我認為手機不是AI時代的最優終端形態,中國to C領域還藏著一個巨大機會,是一款全新的AI終端裝置(AI Device)。如今這一趨勢已十分清晰。來源:中企圖庫一款優秀的AI裝置一定可以語音互動,語音本就是人類最願意使用的互動方式。但手機的語音體驗還不是最完美的,以現階段完成度已經相當高的“豆包”舉例,在使用過程中,使用者仍需經歷解鎖螢幕、打開豆包、點選按鈕再講話,這一連串操作下來已經過去六七秒了。真正語音驅動型的AI硬體終端,它應該永遠開著,不需要使用者手動喚醒,我剛命令完,它就可以響應我的需求。同時,它還得擁有無限儲存記憶,能承載海量內容,更重要的是形態要越來越小巧便攜,它可能是眼鏡、手錶、手環、戒指等形態。在硬體領域,中國擁有特別大的優勢,國內有卓越製造能力、完善供應鏈體系、強大成本優勢,以及極快的迭代速度。比如一款AI眼鏡,在中國可能三四個月就能完成多次迭代,最多五六個月即可落地;在海外,如Meta推出一款新款眼鏡往往需要很長的周期。值得注意的是,新時代的AI裝置絕非單純的硬體,而是“軟體+硬體+模型”的結合體。上一代移動終端的標竿是iPhone,而新一代“AI-First”的終端裝置,最有可能是中國發明、製造、推廣和主導的品牌,這也將給到很多小創業公司機會。總結來看,我對未來AI創業公司有幾點建議:一是to B領域一定要找到藍海;二是走to C路線要避開大廠;三是佈局AI終端要快速迭代。AI-First硬體剛開始起步,爆發性增長的機率或許是最高的。 (中國企業家雜誌)
深網獨家 | Manus被Meta數十億美元收購背後:創始人肖弘復盤至暗時刻
12月30日,Meta宣佈完成一筆重量級併購,以數十億美元的價格收購AI Agent產品Manus背後的公司“蝴蝶效應”。這是Meta成立以來金額排名第三的收購,僅次於WhatsApp和Instagram。交易完成後,蝴蝶效應將保持獨立營運,其創始人、騰訊青騰校友肖弘將出任Meta副總裁。這筆交易的推進異常迅速。多位接近交易的人士透露,從雙方正式接觸到最終達成協議,整個談判周期僅十餘天。據悉,在收購發生前,蝴蝶效應正以約20億美元的估值推進新一輪融資。Meta對Manus的興趣並非偶然。祖克柏及多位Meta核心高管均為Manus的長期使用者。在Meta近期重組AI研究體系、高薪引入頂尖研究人員,並持續加大算力投入的背景下,這筆收購被視為其推進“超級智能”戰略的關鍵一步。蝴蝶效應成立於2021年,早期以瀏覽器AI外掛Monica切入市場,成為中國AI行業中少數實現盈利的應用產品。2024年3月,公司推出通用AI Agent產品Manus,能夠調度多種工具完成複雜任務,上線後迅速在國內外引發關注。其發展勢頭在2025年達到新的高峰:同年11月,Manus位列“全球最具潛力創業公司”榜單亞洲區第一。值得注意的是,其風靡全球的演示視訊,是團隊用借來的鏡頭、基礎的剪輯工具,在不到一周時間內趕製而成,體現了公司“在本質上重注,在形式上極簡”的極致效率文化。今年12月,公司宣佈年度經常性收入(ARR)突破1億美元,旋即迎來了Meta的收購邀約。對Meta而言,這並非一次單純的產品或團隊併入,而是一項圍繞AI應用形態的戰略佈局;而對這家源自中國的創業公司而言,Manus也由此被正式納入全球科技巨頭的核心體系之中。Meta超級智能實驗室(MSL)負責人Alexandr Wang(汪韜)轉發了相關消息,並配文稱,Manus團隊在探索當今大模型“能力過剩”問題上處於世界領先水平。此外,該實驗室正在新加坡擴展團隊,Manus原有約100名成員已加入其當地組織。獲得如此評價的Manus團隊,其發展路徑卻充滿非常規的選擇。過去兩年,肖弘主導了三次反共識決策:關乎“生死”,叫停研發七個月的AI瀏覽器項目,轉向為AI配獨立電腦;關乎“快慢”,在流量昂貴時堅持零市場預算,押注算力換體驗;關乎“組織”,推動80%程式碼由AI生成,探索“AI 時代公司形態”的未來。從連續創業者到Agent賽道領跑者,肖弘如何思考行業競爭與未來?近日,他與騰訊集團高級管理顧問、騰訊青騰教務長楊國安在《一問》欄目中展開深度對話,復盤Manus的取捨,並分享了他對AI時代產品邏輯及組織進化的思考。以下是對話整理,經精編如下:範式之變:當AI從“給答案”變成“給結果”楊國安:未來10年,AI對你所在行業最大的改變是什麼?肖弘:核心在於產品開發模式的重塑。軟體研發將更多由AI系統主導。在AI輔助下,我們能以更精銳的團隊,極大縮短開發周期。對生活的影響有兩點:一是產品迭代速度將快得超乎想像,衝擊各行各業;二是AI能力將普及化,每個人都需學會高效運用AI以實現自我提升。楊國安:你們相信“模型能力會外溢,應用是價值核心”,如何形成這個判斷?肖弘:這源於我們此前的連續觀察。做Monica(瀏覽器外掛)時,我們發現“上下文”是關鍵,於是讓外掛自動抓取網頁資訊,免去使用者複製貼上。後來Cursor火了,它證明當模型編碼能力成熟時,Chatbot並非最佳產品形態,需要一個更貼合編碼工作流的載體。這兩個案例讓我們意識到,技術能力一直在進化,但產品形態常常滯後。去年底,我們看到“Agent”這種能進行複雜規劃和自主執行的新能力出現,判斷它同樣缺乏好的產品化形態。這就是我們的機會:抓住模型能力外溢的窗口。楊國安:從給答案的Chatbot,到給結果的Agent,最本質的變化是什麼?肖弘:Chatbot給你一個答案,可能需要你再花兩小時把它變成結果。Agent則試圖直接交付那個結果。比如,做一個研究並生成精美的PPT,全程無需干預,只需幾分鐘。這帶來三個深遠變化:一是成本驟降,過去只有諮詢業能做的定製PPT,現在房產中介也能用AI生成;二是多樣性爆發,Agent可平行生成多個版本供你挑選;三是容錯性增強,任務失敗後它能自動反饋、重試,提高了完成率。楊國安:這會如何改變組織形態?肖弘:我們有一個更大膽的展望。一些用好了AI的大公司會變得更強大,但同時會出現大量微型個體。在AI的賦能下,一兩個人就能成就一項過去需要公司才能運作的事業。因為AI替他們省去了搭建組織、管理流程等複雜事務,直接交付結果。楊國安:我在“數智革新楊五環”的1.0版本研究集中在傳統行業的標準化、數位化、智能化,以實現降本增效和精準決策。但你剛才的觀點讓我很興奮——Agent能處理非標任務,這比標準化流程的潛力更大。若真實現,那些行業會受最大衝擊?肖弘:關鍵在於理解Agent是“思考+執行”。AI拓寬思考的廣度與深度,人則負責最終判斷與選擇。因此,衝擊將首先席捲高度數位化的“案頭工作”領域。給AI配一台“電腦”,而非“搶滑鼠”楊國安: Manus採用“大模型+雲端虛擬機器”的架構,核心優勢是什麼?肖弘:這是我們最關鍵的判斷之一。我們思考的終極問題是:AI的終極“外殼”是什麼?答案是:電腦。在數字世界裡,電腦是人類處理一切事務的終端。那麼,給AI配一台專屬電腦,它理論上就能像人一樣完成所有工作。虛擬機器的最大優勢,是能處理海量長尾任務。無論是安裝特定軟體,還是運行自己編寫的程式碼,AI都能在自己的虛擬環境裡完成。我記得第一次感到震撼,是看到Manus執行git clone命令,將開放原始碼專案下載到自己的“電腦”裡來解決問題——這像極了人類“使用工具”的行為。挑戰在於速度和資源消耗,但長期看這些問題會解決。而它能解決通用方案無法處理的長尾問題,這本身就構成了我們的護城河。楊國安:你們曾經投入七個月探索 AI 瀏覽器,但最終決定放棄。為什麼?肖弘:這確實是我們非常關鍵的一次戰略取捨。我們在2024年初立項做AI瀏覽器,在當時看來是一個非常順理成章的判斷。您可能知道,我們在Manus之前有一款產品叫Monica,它是一個瀏覽器外掛。當時我們想,既然我們在瀏覽器外掛上已經做得不錯了,為什麼不直接做一款瀏覽器呢?有了瀏覽器之後,一些任務就可以直接在瀏覽器內幫助使用者執行和完成。想到這個Idea 時,我們非常興奮,覺得它突破了瀏覽器外掛的天花板。我們大概花了六個多月時間去開發這款瀏覽器,從底層技術開始,我們自己編譯了開放原始碼的Chrome核心,然後將AI能力部署上去,讓它能夠在某些任務上實現自動化執行。但是,最終放棄的決定,是基於兩個核心原因:一個宏觀的戰略判斷;一個微觀的產品體驗問題。楊國安:那些改變公司命運的重大決策(如放棄瀏覽器、選擇全球化),背後的思考原則是什麼?肖弘:決策本身的邏輯很清晰:永遠從“技術能解決使用者的什麼根本問題”出發,再推導商業模式。真正的難度不在於分析,而在於有無勇氣堅持清晰的答案,並克服內部慣性,將其變為全組織的共識與行動。思考可能只需一個月,但落地執行往往更耗心力。楊國安:Agent技術落地的臨界點將取決於什麼?肖弘:我覺得可以從兩個層面來看。第一類,是您剛剛提到的核心基礎能力的提升。比如成本、速度、更長的上下文、以及在長上下文的指令遵循能力。這些都至關重要。成本和速度直接影響了產品是否能被更多使用者負擔和使用。指令遵循和上下文處理則影響了任務的完成率。這些能力我們一直在密切關注,一旦有新的突破,肯定會立即應用到產品化中。第二類,有一項能力是我個人比較期待的,它雖然已經被應用,但我預測在今年內或明年初會有比較大的突破,就是通用的電腦使用能力。這意味著AI自己能夠識別並掌握如何使用一個軟體。這項能力一旦突破,像Manus這種自帶虛擬機器的產品,就能夠完成更多專業軟體或特定行業軟體的應用。我們可以想像,未來你拿起手機,通過Manus就能讓它去完成一個本來需要在電腦上用行業專業軟體才能完成的事情。我認為這項能力即將實現突破。根據我們與研究員的觀察和交流,一旦突破,將解鎖更多的應用場景。楊國安:如果Agent能直接呼叫現有軟體,繞過人工操作,會帶來什麼變化?肖弘:最大的變化是“解放值守”。許多需要人坐在電腦前操作專業軟體的任務,未來可以由Agent自動完成。AI已能處理其中的基礎判斷。即使遇到關鍵節點,也可像手機安裝App時請求授權一樣,由人一鍵確認。這最終將徹底顛覆現有軟體的操作邏輯和人們的工作方式。用昂貴的算力換取增長楊國安:PC時代有“安迪-比爾定律”——硬體(英特爾)的提升總被軟體(微軟)消耗掉。這是否說明,價值是由“技術能力”和“應用能力”共同創造的?肖弘:是的,這正是我們的核心參照。“安迪-比爾定律”建立在摩爾定律之上,意味著算力增長必然催生更耗資源的應用。微軟當年就是依據對未來算力的預測來規劃Windows的。這直接啟發了我們的產品思路:在技術飛速進化的當下,我們是否可以暫時忽略成本與速度,只專注於打造極限質量的產品?我們跟蹤最前沿的模型,不計代價地追求最佳體驗。這與傳統網際網路平衡質量、速度、成本的思路截然不同,也是我們敢於將昂貴算力轉化為核心競爭力的原因。楊國安:你們堅持“產品驅動增長”,零市場預算,這種打法的持續性如何?肖弘:這個思考來源於我們做Monica時的觀察。我記得當時與一位企業家交流時,他提到今天AI產品的成本結構,以Monica為例:在2024年,約三分之一的成本是員工薪資,三分之一是Token(大模型呼叫)費用,另外三分之一是投放在網際網路廣告平台上的增長費用。那次對話對我的啟發很大。我就在想:如果我們做一款產品,持續有大量的成本投入到廣告平台,那麼我們的增長就很可能被網際網路巨頭廣告平台所定義。我記得當時的情況是,一旦我們快要盈利、有了好的利潤空間時,廣告平台就會立即漲價,這種模式幾乎是可計算的。這與消費品行業通過廣告平台獲取增長後面臨的問題是相似的。所以我當時思考:有什麼東西是今天很貴,但未來會很便宜的?以及有什麼東西是今天很便宜,但未來會越來越貴的?結論是:AI API(Token 成本)今天很貴,但從長期來看,受摩爾定律和底層技術發展的驅動,它一定會變得更便宜。網際網路使用者的價格卻在不斷上漲。在早期,使用者願意探索,但一旦產品與市場契合,現有玩家就會通過廣告平台來獲取使用者,推高整個行業的使用者獲取成本。基於這個判斷,我給團隊設定的目標是:我們能否做出一個讓使用者覺得非常厲害、願意主動告訴朋友的產品?在某種程度上,我們就將原本昂貴的Token成本轉化為我們的使用者獲取成本。隨著 Token成本越來越便宜,而使用者獲取成本越來越貴,這個模型就具備了長期可持續性。當時給團隊的目標是:創造出讓人感到驚豔、願意傳播的產品,並且做到零市場行銷預算。在Manus上線的前一周,我們開了一次內部會議,正式確定必須是零市場預算。所以,今年年初大家看到Manus在社交媒體上火爆,是因為我們在某種程度上打造出了使用者預期的產品。像一些意見領袖之所以轉發,正是因為它確實擁有令人震驚的體驗,實現了大家對未來 AI 產品的設想。楊國安:為何首選服務C端“獨狼型”使用者,而非B端?肖弘:底層判斷是技術階段匹配。AI Agent技術仍處早期,迭代極快。大企業需要確定性和穩定性,而個體用戶、自由職業者更能容忍變化、擁抱創新。在技術快速變化的早期,最大化發揮迭代速度優勢的,正是C端市場。楊國安:Manus的生存戰略是與巨頭合作共生。許多巨頭包括Anthropic、OpenAI、Google等,已經有可能會推出自己的Agent。那麼,你們如何在這些巨頭中找到合作共生的機會呢?肖弘:我們的策略是合作共生,扮演“最佳體驗整合者”。底層模型競爭激烈,沒有一家能持續壟斷所有能力。Manus作為應用層,可以靈活整合各家最優模型,理論上能為使用者提供比任何單一家都更極致的體驗。這類似手機廠商與晶片廠商的關係:我們雖不造晶片(模型),但憑藉對使用者需求的深度理解和巨大用量,能反推模型最佳化,形成共贏。楊國安:如何讓Manus突破早期使用者,被普通大眾廣泛接受?肖弘:關鍵在於兩點:一是產品體驗的絕對差異化。在ChatGPT已成習慣的海外市場,我們必須讓使用者一眼感知到不同。比如,Manus不僅給答案,還會主動生成一個可互動的網頁,讓“Agent給結果”變得可視、可感。二是進行“場景化”的市場傳播。我們正跳出AI圈,與各垂直行業的博主合作,讓他們基於自身真實需求使用Manus,並向其受眾展示具體的使用場景,用他們熟悉的語言來定義Manus的價值。當“一個人成為一家公司”楊國安:當AI全面重構工作流,組織的核心任務似乎正在發生轉變。從你們的實踐看,這是否意味著傳統以管控和協作為主的模式需要被重新定義?你們強調“增強”並借此做出顛覆性決策,這套新模式的底層邏輯是什麼?肖弘:我們的實踐正是對這三個問題的同步回答。首先在組織上,我們正回歸一種更緊密的協作形態。即便公司規模擴大,我們幾位核心合夥人最近又重新坐在一個小房間裡工作,並設立每天固定的“無會議時段”專注討論產品。這背後的啟示是:當AI極大提升個體效率後,組織最核心的任務不再是管控流程,而是保障最關鍵的決策單元能進行高強度、高質量的思考與共識形成。其次,這也正是“增強”而非“替代”的落地體現。AI負責執行與拓寬思路,而人不可或缺的價值在於最終判斷、對齊預期與把握場景。組織創造這樣的深度溝通空間,就是為了強化“人”在戰略與審美上的最終決策權。最後,那些顛覆性決策正源於此。無論是砍掉項目還是All in新方向,邏輯都始於“技術能解決用戶的什麼根本問題”。真正的挑戰從來不是分析,而是在答案明確後,有無勇氣打破內部共識與路徑依賴,並將新共識堅決地付諸實踐。高頻、高質量的面對面碰撞,正是我們凝聚這種戰略勇氣、確保共識堅固的關鍵熔爐。楊國安:你認為100分的“AI原生組織”是怎樣的?肖弘:我們給自己打60分,因為很多工作慣性仍沿用舊方式。100分的組織,是AI深度融入每一個工作環節,成為員工的“第一反應”。就像遇到問題先Google一樣,未來員工會本能地先問AI。在新增任務上,我們會優先問:“這個能不能直接交給AI做?” 這才是真正的AI原生工作流。楊國安:我知道你在招聘時,也在努力識別那些真正具備AI原生思維的人才。你是如何識別這些人的?肖弘:我的方法是看他如何實際使用AI。我會請對方展示日常使用AI的痕跡。真正的AI原生者,使用量會遠超常人,AI已深度嵌入其工作流。“There’s No Software”的激進實踐:用AI吞食舊世界楊國安:你曾經提到過“There's No Software”的觀點。你認為Agent的發展將對軟體產業帶來那些影響?肖弘:根據我的觀察,這種影響已經開始形成,主要分為兩大部分。第一部分,是對軟體工程師和技術人員的影響。像Cursor或是Claude Code這樣的產品,已經讓軟體工程師的工作方式發生巨大變化。以我們公司為例,Manus主要的幾位工程師基本上不再親自手寫程式碼。我觀察他們的工作狀態,他們會打開多個Coding Agent窗口,像在與人聊天一樣進行協作。統計發現,我們公司接近80%的程式碼都是由AI生成的。工程師現在做的更多是梳理業務需求、審查程式碼質量、以及架構設計等工作。所以對軟體工程師來說,這種變革是正在發生且會更加徹底。我很難想像幾年後軟體開發會是什麼樣子,或許真的會像科幻片裡那樣,通過自然語言描述就能快速生成一個優秀的產品。第二部分,是對非技術崗位和組織內部IT系統的影響。很多組織內部的非工程師崗位也需要資訊系統支援。過去他們需要搭建內部IT團隊或尋求外部外包服務。我的觀察是,未來這種內部系統或非工程師崗位的資訊系統需求,一定能直接通過 AI Agent來完成。這種變革是巨大的:迭代周期會比外包更短,需求的個性化程度更高,你告訴Agent需求,它能立刻給你實現。這種變化在今天被低估了。Manus在這方面也有投入,我們近期會發佈相關產品。楊國安:AI將如何改變未來的SaaS行業?肖弘:我們的觀察和分析是,也許會分化為兩條路徑:對於存量SaaS,關鍵在於能否成功進行AI化改造。有頂級併購基金判斷,約一半的現有SaaS公司可能無法完成這一轉型。對於新增市場,創業者不必複製舊模式,而應基於已驗證的客戶需求,用AI原生的思維重新建構產品,這將是更大的機會。楊國安:隨著AI Agent有越來越強大的自主性,未來員工人數可能會減少。你是怎麼思考這種技術進步對行業帶來的社會影響?你在產品或技術上有沒有考慮倫理、安全等邊界問題?肖弘:這是一個必須長期思考的問題。一次測試中,Manus為查詢火車時間,在發現官網因罷工無資料後,竟試圖尋找聯絡方式、起草詢問郵件。這讓我們既震撼又警惕。但最後它沒成功,因為它沒有信箱,但它甚至準備去註冊一個信箱。那一刻,我覺得既驚訝又有些害怕。我們的原則是:一是利用好模型廠商已有的安全護欄;二是在關鍵節點設定使用者確認機制,防止AI“過度代表”使用者。作為創業者,我們的責任是釋放技術潛力,同時對其深遠影響保持敬畏與審慎。 (深網騰訊新聞)
在演算法之上,奔馳在尋找AI之心
我們正處於一個 AI 極度分裂的時代。一方面,Suno 和 Sora 這樣的產品正在不斷刷新我們的認知上限。在演示視訊裡,AI 能生成足以亂真的音樂和電影級畫面,Suno 甚至被稱為能「席捲全球」。但在另一方面,當我們把目光轉向自動駕駛、金融投顧這些真正需要「幹活」的領域時,AI 的表現卻往往讓人甚至不敢鬆開方向盤。為什麼 Demo 裡的 AI 如此完美,一進現實就顯得「智障」?01Agent元年,Demo 的幻覺與落地的「恐怖谷」在12月18日的 Contech大會的AI落地分論壇上,主持人趙昊就曾提出過這個問題。對此,財經博主小Lin提出了一個非常精準的概念,叫 「Paper Return」(紙面收益)。這就好比投資,模型跑分再漂亮、Demo 演示再驚豔,那都只是紙面上的富貴。一旦真金白銀投下去,進入複雜的物理世界,市場壓根不會按你的假設走。這背後的核心矛盾,在於不確定性與確定性的博弈。目前的生成式 AI,本質上是基於機率預測下一個 Token 的「隨機鸚鵡」。在寫詩、畫圖、做視訊這些「容錯率極高」的創意領域,AI 的隨機性是驚喜,是靈感。但在自動駕駛、醫療診斷這些「零容錯」的現實場景中,隨機性就是災難。更棘手的是責任歸屬。當 AI 從輔助角色的 Copilot 變成主導決策的 Pilot,誰來為它的決策負責? 這是一個繞不開的社會契約問題。如果 AI 是一個不可解釋的黑盒,它做對了你不敢信,因為它可能是蒙的;它做錯了你沒法改,因為它沒法告訴你為什麼。所以,Agent(智能體)遲遲無法大規模落地的根本原因,可能不是我們的算力還不夠大,或者參數還不夠多。而是我們一直試圖用「資料鏈(Data Chain)」去解決本該由「因果鏈(Causal Chain)」和「價值鏈(Value Chain)」解決的問題。正如北京通用人工智慧研究院(BIGAI)朱松純教授所言,我們需要「為機器立心」。只有當 AI 擁有了「心」,也就是具備了可解釋的認知架構和價值體系,它才能走出「達特茅斯陰影」,真正獲得人類的信任。為了講清楚這個極其抽象的技術哲學,我們不妨先看一個最硬核的工程樣本:奔馳的自動駕駛。奔馳在2021年就拿到了德國政府批准的L3級商用自動駕駛系統,在24年就加入了L4的測試大軍。這家近140年的車企,是如何用奔馳標準,把「狂野」的 AI,關進「邏輯」的籠子裡的?02奔馳標準,將 AI 關進「物理與邏輯的籠子」自動駕駛的L4等級,是車企要承擔事故主要責任的。奔馳憑什麼敢做這個嘗試?並不是因為奔馳的神經網路比別人「聰明」多少,而是因為它更「穩」,或者說,它更懂如何用確定性的邏輯去約束不確定性的 AI。我們可以把奔馳的技術譜系拆解為兩層:底層的物理冗餘和核心的邏輯鎖。首先是物理冗餘,這是對物理世界不可預測性的極致敬畏。在奔馳看來,真正的安全不能只靠演算法。它的制動系統、轉向系統,甚至連車載電網都是雙份的。這意味著什麼?那怕主電腦突然斷電,或者轉向電機卡死,那個備份的「副神經系統」也能在毫秒級接管,把車停下。更有意思的細節在感測器列表裡。除了常規的雷射雷達,奔馳甚至在車輪拱裡裝了濕度感測器,還裝了能聽警笛聲的麥克風。為什麼要裝這些?因為視覺 AI 可能會把路面水坑的反光看錯,產生幻覺。但濕度感測器不會騙人,它會直接基於物理摩擦力的減小,告訴系統「必須減速」。 這就是用物理感測器的「真」,去兜底 AI 視覺的「幻」。但更硬核的,是第二層防線:SFF(Safety Force Field,安全力場)。這是奔馳解決 AI「黑盒」問題的殺手鐧。目前的端到端大模型還無法保證全無幻覺,它就像一個直覺極強、但偶爾會沖猛了的賽車手。它看著攝影機說:「前面那個白色的東西好像是一團雲氣,我們可以加速衝過去。」這時候,SFF 系統就介入了。它不像 AI 那樣依賴機率預測,它只信奉牛頓定律。SFF 是一個基於物理規則的邏輯層,是一個完全透明的「白盒」。它的邏輯非常簡單粗暴:不看前面是雲還是車,只看雷射雷達傳回的物理空間資料。如果計算出前方50米有實體佔據空間,根據「兩個物體不能同時佔據同一空間」的物理公理,現在不剎車100%會撞。這就是奔馳的答案:用白盒(可解釋的物理規則)去配合黑盒(不可解釋的神經網路)。不管 AI 內部的數億個參數怎麼「湧現」,最終的輸出必須也要和邏輯層的毫秒級校驗相互校驗。這種架構解決了「安全性」和「責任歸屬」的問題。如果出了事故,我們可以清晰地回溯是邏輯層的規則沒寫對,還是感測器的輸入出了錯,而不是對著一個幾千億參數的黑盒兩眼一抹黑。但是,SFF 只能解決「不撞車」的問題。它是一條底線,一個籠子。如果要讓 Agent 真正像人一樣不僅「守規矩」,還能「懂人心」。比如判斷路邊的行人是想過馬路還是在等車?比如判斷後座的乘客是想快點到家還是想穩一點睡覺?光有剎車是不夠的。AI 需要的不僅僅是物理規則的約束,更需要一種認知的覺醒。03U與V,朱松純的「AGI 認知架構」奔馳用 SFF(安全力場)為 AI 加上了「物理鎖」,這解決的是底線安全的問題。但對於一家百年豪華車企來說,僅僅做到「不撞車」是遠遠不夠的。當 L3 甚至 L4 等級的自動駕駛真正鋪開時,車不再只是一個交通工具,而是一個擁有巨大動能的智能體。它如何在複雜的社會交通流中博弈?它如何與車內的乘客建構信任?我們不妨借用朱松純教授的「U & V」認知框架,來解讀奔馳正在探索的「AI 價值觀工程」。這或許比單純的技術堆疊,更能看清自動駕駛的未來。1.U(能力):不僅僅是快,更是「奔馳標準」的執行力在 AI 的語境裡,U 代表勢能函數,也就是能力。它通常被定義為「更快、更省、更智能」。目前的自動駕駛行業,大部分玩家都在瘋狂捲 U。也就是如何讓車開得更像一個老司機:敢於在晚高峰搶道、敢於壓線博弈、敢於在黃燈前一腳油門衝過去。這種策略確實最佳化了效率(U),但也帶來了一種「演算法的傲慢」——為了效率犧牲了對他人的尊重和秩序的安全。奔馳顯然不想走這條路。在奔馳的體系裡,U 的執行必須服從於更高的指令。這就是為什麼大家會覺得奔馳的自動駕駛有點「慫」:即使是綠燈,它也開得很謹慎;在沒有紅綠燈的斑馬線前,它會絕對禮讓行人。這種「老派」的作風,在極客眼裡不夠酷,但恰恰證明了奔馳已經在 AI 的底層植入了另一套系統V。2.V(價值):把「老派紳士」的靈魂程式碼化V (Value) 代表價值函數,也就是 AI 決策時的優先順序排序。朱松純教授認為,智能體必須擁有價值觀。而對於奔馳來說,這個 V 就是其反覆強調的「以人為本」。如果說 SFF 是物理層的剎車,那麼 V 就是認知層的剎車。它決定了 AI 在面對兩難選擇時,向左還是向右。首先是隱私的紅線。在資料這塊,奔馳的 V 極其強硬——資料屬於使用者。那怕犧牲一部分訓練便利性,也要確保合規。這是寫在 V 函數最底層的約束。其次是互動的紅線。在路權博弈中,奔馳的 V 設定是「安全與優雅」高於「效率」。這種看起來不夠激進的策略,實際上是在為機器建立一種「人格」一個可靠、穩重、不冒進的夥伴。正如朱教授所說,「心即是理」。奔馳正在做的,其實就是通過定義 V,把百年積累的造車哲學(心),轉化為 AI 必須遵守的決策邏輯(理)。3.下一步的探索:從「冷冰冰的邏輯」到「懂人心的夥伴」但這還不是終點。奔馳並沒有止步於「守規矩」,他們正在探索更高級的 V,意圖理解(Intent Understanding)。目前的 AI 大多是被動的:你踩剎車它減速,你喊指令它執行。但未來的 AI Agent,需要像一個懂你的老管家。奔馳最新的車機系統與豆包大模型的合作,就是一個訊號。他們試圖讓 AI 擁有「記憶」和「共情」能力。它不再機械地執行命令,而是開始變得“善解人意”。最直觀的是目前奔馳正在開發,還未上線量產車型的新氛圍燈功能,當感知到你情緒愉悅時,它會調動多彩光影為你助興;而當感知到危險時,它會瞬間變成警示的橙紅色。這種互動讓座艙不再是冷冰冰的機器,而是具備了情感溫度的夥伴。這種“夥伴感”建立在極度自然與擁有記憶的互動之上。新系統反應極,0.2 秒的極速響應配合擬人化的對話風格,徹底告別了機械感;更重要的是它擁有了類似人類的短期記憶。它能理解上下文,比如你隨口提一句“喜歡紫色”,過一會只需說“把氛圍燈調成那個顏色”,它就能立刻調動記憶精準執行。這種邊聽、邊想、邊做的流暢體驗,讓人彷彿是在和真人交流,而非向裝置下達指令。這種改變確實產生了效果。根據奔馳的資料顯示,該系統上線後最高頻的 AI 相關指令是“給我講個笑話”、“陪我聊聊天”和“你真棒”。這幾個簡單的詞彙完美說明了,靠著共情和自然,使用者不再僅僅把車機當作一個調節空調的工具,而是潛意識裡開始把它當作一個可以交流、甚至尋求陪伴的朋友。這說明奔馳正在試圖打通 U 和 V 的邊界:讓 AI 的能力(U),去主動適配人的情緒價值(V)。未來的奔馳智能體,或許不需要你開口,就能通過你的眼神、你握方向盤的力度,推斷出你是趕時間還是想兜風,從而在「激進模式」和「舒適模式」之間無感切換。這就是奔馳正在探索的路徑:用「可解釋的物理規則」兜底安全,用「可定義的價值函數」建構性格,最終讓 AI 成為一個有溫度的「人」。04為機器立心,從工具到夥伴為什麼我們現在遇到所謂的「智能客服」時,往往第一反應是想要人工服務?朱松純教授在訪談中點破了這個現象的本質:因為它們只是「鸚鵡」。它們有口無心,只會重複訓練資料裡的機率組合。更致命的是,它們無法為自己的行為負責。在人類的經濟社會中,信任是建立在「抵押品」之上的。你要跟我做大生意,我得看你的註冊資本;你要進我家門,如果不小心打碎了花瓶,你得賠得起。這就是契約。但現在的 AI Agent,無論是在網際網路上帶貨的數字人,還是那些生成程式碼的助手,它們是沒有任何「抵押品」的。它們做錯了,模型不會痛,伺服器不會關,所有的風險都由使用者承擔。這就是為什麼 Demo 再完美,我們依然只敢把它們當工具,而不敢視為夥伴。要跨越這個從工具到夥伴的鴻溝,工程上的修修補補(比如加防火牆、寫死規則)已經不夠了。我們需要一場架構級的革命,朱松純教授將其命名為——為機器立心。這聽起來像哲學,但其實是極其嚴謹的科學。所謂的「心」,在數學架構上,就是一套完整的、內生的價值函數體系(V)。它不僅僅是外掛的「紅線」,而是內化為 AI 決策的本能。就像人類不需要背誦幾百條法律條文也能安全地生活一樣,安全感源於我們內心的良知和對社會規範的認同。「心即是理」。當 AI 真正擁有了「心」,它的一言一行(理)就會自然得體。它不需要你規定「不能傷害人類」,因為它在計算下一步行動的收益時,會自動把「傷害人類」的價值權重降到最低,那怕這能帶來極高的效率回報。回到我們最開始的問題:為什麼奔馳敢說「出了事車企負責」?這其實就是奔馳作為一家企業,在強行給它的 AI 繳納「抵押品」。在 AI 尚未完全擁有獨立的「心」之前,奔馳用自己的品牌信譽和法律責任,充當了那個擔保人。奔馳給出的答案是:做一個更負責任的 AI。物理冗餘是它的底線能力(U);SFF 安全力場是它的邏輯鎖;而「以人為本」的價值觀(V),則是它試圖賦予這台機器的「心」。這既是「奔馳標準」,也預示了 AI 安全的未來底線。我們正站在一個新時代的門檻上。朱松純教授預測,未來可能會有上百億的機器人和智能體進入我們的社會。如果這些智能體只有強大的能力(U),卻沒有匹配的價值觀(V),那我們將面臨的不僅是「落地難」,而是巨大的混亂。從 Suno 的音樂到奔馳的 L3,從 Demo 裡的「紙面收益」到現實世界的真金白銀 ,中間隔著的,其實就是這顆「機器之心」。這顆心,由物理的感知建構,由因果的邏輯串聯,最終由價值的判斷驅動。只有當 AI 學會了「立心」,它才能從那個冰冷的黑盒中走出來,不再是只會預測機率的鸚鵡,而是一個能理解你的意圖 、能為自己負責 、值得你把後背(或者方向盤)交給它的真正夥伴。這,或許才是通用人工智慧(AGI)真正到來的時刻。 (騰訊科技)