#Agent工具箱 | 熱門關鍵字 | 鉅亨號

與常駐矽谷的 AGI House 合夥人聊美國 “Agent 工具箱” 實踐。就在 10 月內，OpenAI、Google、Anthropic 三家最強模型公司都在 Agent 開發工具上有了新動作。OpenAI 在 10 月 6 日的開發者日上推出 AgentKit 等一系列工具；兩天后，Google 發佈 Gemini CLI（命令列互動）Extensions，成為 Gemini 開發生態的最新一環；又一周後（10 月 16 日），Claude 也新推出 Claude Skills，讓使用者不用程式設計，就能通過 “資料夾系統” 簡單地定義工作流。不管是幫助開發者建構獨立 AI 或 Agent 產品，還是試圖讓使用者直接在自家 Chatbot 產品裡定製更複雜的應用，這些紛繁的 Agent 工具都指向一個自然的需求：當模型一次次升級，怎麼用好這些新能力成為重要課題。核心模型廠商外，“Agent 工具箱” 也已成為矽谷的一個創業機會。今年夏天，開源 AI 框架公司 LangChain 融資 1 億美元，成為新獨角獸；語音模型提供商 ElevenLabs 賣員工老股的最新估值已來到 66 億美元；OpenAI 也在 9 月以 11 億美元全股收購做 ABtest 和 AI 應用評估（Evals）工具的，其創始人維賈耶·拉吉（Vijaye Raji）出任 OpenAI 應用業務線 CTO（CTO of Applications）。本期，我們邀請了兩位常駐矽谷的朋友，AGI house 的 Henry Yin 和 Naomi Xia，來一起聊 Agent 工具鏈（Agentic Tooling）的發展趨勢，和這個領域在美國的創業實踐。Henry Yin 畢業於清華姚班，後前往伯克利攻讀博士，期間退學創辦思碼逸（Merico），用 AI 提升開發者效率，長期關注 Agent 工具鏈與應用層創新。他目前也在籌備一個新的社區型基金 MoE Capital (Mixture of Experts)，希望和一群頂尖 AI 研究者和產品經理一起探索下一代 AI 創業與投資模式。Henry 梳理了 Agent 工具鏈領域的 “6 次進化”。在他看來， Agent 工具的發展始終圍繞模型能力的躍遷，ChatGPT 發佈催生 LangChain 框架，Anthropic 提出 MCP 協議為 Composio 轉型提供抓手，GPT-4o 推出高級語音模式為 LiveKit 帶來爆發式增長。模型升級的間隔越來越短，機會湧現的節奏也在加快。Naomi Xia 畢業於沃頓商學院，曾任職於摩根大通 AI 投融資團隊，現在負責 AGI House 早期投資，已投資的 20 多家公司就有上文提及的 Composio 和 Livekit。Naomi 分享了 AGI House 投資的邏輯。在她看來，過往全球開發者工具市場規模約 200 到 300 億美元，AI 可能把這個市場規模推高十倍。本次訪談的播客版已發佈：OpenAI 踏出邁向平台一步，通過 AgentKit 把好武功帶給開發者晚點：10 月 6 日 OpenAI 舉辦第三屆開發者日（DevDay），有不少更新。我們可以先從其中和 Agent（智能體）相關的 AgentKit 聊起，它的整體產品思路是怎樣的，有那些亮點？Henry：這次的 AgentKit 是 OpenAI 自己練好了一身武功，現在開放給開發者。它幾乎涵蓋了整個 Agent 開發周期。首先是建構，這次新推出了 Agent Builder —— 一個可視化工具，通過拖曳就能快速搭建 Agent。然後是前端部署，OpenAI 推出了 ChatKit，允許開發者在自己的應用中快速嵌入類似 ChatGPT 的聊天介面，與 OpenAI 的模型即時互動。最後是 Agent 上線後持續維護、最佳化，OpenAI 提供了監控、評估和改進的一套工具，“New Evals”（Evals 指 Evaluation，即評估），新增 datasets（資料集管理）、自動 prompt 最佳化（自動提示詞最佳化）、Trace grading（痕跡分級）、以及 reinforcement fine tuning（強化微調）等功能。整個流程一條龍打通。其中評估這部分，我本來覺得是某些 Agent 公司的護城河，但現在看這些能力正在被標準化，OpenAI 自己也做了。晚點：可以解釋下什麼是 Trace grading ？Henry：所謂 Trace，就是一次完整的使用者與 Agent 互動流程。比如使用者讓 Booking.com 幫他訂機票，從輸入出發地、日期，到訂票成功或失敗結束，這是一個 Trace。Trace grading 則是通過寫 grading（評價函數），判斷整個互動中那些做得好、那些不好，並給出標籤或評分。評分可以手動打，也可以讓 LLM 來做評審。晚點：Agent Builder 這部分是不是有點像 Dify 或字節的 Coze？它是通過 workflow 把元件串成 Agent？Henry：非常類似。在他們展示的一個 demo 裡就是第一步先做提示詞分類，然後接一個 if/else 分支。是人手寫工作流。所以這次也有一個批評，認為 Agent Builder 的思路與 AGI 有分歧。大部分人都認同，最後的終局是高度自動化的、能執行多步任務、持續使用工具的智能體。這需要把現在人工手寫的流程吃到模型裡。而 Agent Builder 是先畫流程圖，兩者路徑幾乎相反。整個 AgentKit 的思路，更多還是現在就能在企業裡落地，這對追求研究者來說並不性感。比如我身邊的很多開發者，平時大多用 Anthropic 的 Claude Code 或 OpenAI 的 Codex 這類工具來建構 Agent，所以拖拉拽式的形式對他們的工作流影響不大。但對大客戶來說，AgentKit 安全、好理解、能落地。所以我覺得它能賣單。晚點：這次除了 AgentKit，一個重磅發佈是 Apps in ChatGPT 和 Apps SDK，開發者日的第一項發佈就是這個。會後 ChatGPT 負責人 Nick Turley 也直接告訴媒體，ChatGPT 有潛力變成個作業系統。Henry：把 ChatGPT 當做作業系統，這已經不是第一次炒作了。第一次是兩年前的 CustomGPTs，但最終多數 GPTs 只是帶 logo 的一個 prompt 範本，因為當時去調外部資料很麻煩，也不能用第三方服務，也不能儲存狀態、傳送通知或運行工作流。晚點：你覺得這次會和 GPTs 不一樣。Henry：有很大變化。現在有了 AgentKit 和 Apps SDK，它就類似 iOS 的開發 SDK，終於可以呼叫外部工具了，還補上了 UI 元件，這是一個真正的平台，也有一套更完整的工具箱，而不只是一個 prompt 包裝。更重要的是開發者的分發紅利。現在 ChatGPT 官方公佈的周活有 8 億。只要你在 ChatGPT 裡做出一個好應用，立刻能觸達大量使用者，冷啟動問題會小很多。還有個意義是信任背書。大企業在意安全、合規，更願意從 ChatGPT 等更大的平台引入服務。這能幫開發者進入大型企業採購流程。相比兩年前，OpenAI 這次也找了更多合作夥伴，比如 Canva、Booking.com 等，展示了更紮實的的初始應用。晚點：有什麼你印象比較深的初始應用嗎？Henry：Canva 的體驗就好了不少。GPTs 時的 Canva 只能照指令給你生一張圖；現在的 Canva in ChatGPT，會先經過授權後，和你的 Canva 帳號繫結，把你已有的設計資訊用到新任務裡。其實兩年前 Canva 已屬於高品質 GPTs 了，但當時一般開發者達不到這個效果。這次工具鏈更成熟，更多開發者有可能做出和首發合作夥伴效果相似的應用。晚點：其實 2024 年，Anthropic 搶走了不少 OpenAI 的 to B 份額，之前一段時間，OpenAI 給外界印象也是在 to C 超級應用上更激進。Herny：我覺得 OpenAI 不會放棄 to B。第一，使用者規模上 ChatGPT 周活 8 億，已經是 “作業系統級” 的流量入口；第二，生態壓力，Anthropic、Google 都在猛推企業側和開發者側，OpenAI 不可能只靠 to C；同時，從模型能力上，B 端資料和使用偏好對提升模型也很重要；現在很多 C 端使用者也是在生產力場景裡使用 ChatGPT ，B 端資料的反饋也能反哺這塊。從團隊變化也能看出來，比如他們新成立了 “The Future of Work” 的團隊，專門加速 AI 在各種商業場景的落地——像客服、合同稽核、資料分析、商業線索轉化等。OpenAI 在自己的頻道上還發了一系列 “OpenAI on OpenAI” 的視訊，基本覆蓋了我剛才提到的那些場景。比如說商業線索轉化，OpenAI 現在每月大概能獲得 1.3 萬條銷售線索，以前人力最多能對其中約 1000 條做個性化回覆，有了 AI 後效率顯著提升。再比如，現在 ChatGPT 的客服基本由 AI 驅動。這個 AI 會與內部知識庫、政策庫互動，為使用者提供服務；服務過程中持續做評估與改進。Agent 的 “痕跡分級（Trace grading）” 結果，會反哺知識庫和政策庫。OpenAI 把 Agent 反覆做下來，工具被打磨得更好，最後沉澱成了 AgentKit，再分享給開發者。晚點：OpenAI 現在同時投入這麼多方向，這會分散它的注意力，影響追求 AGI 的速度嗎？Henry：Sam 現在的想法可能是：我全都要。OpenAI 擴張速度也很快，已經好幾千人了，人多了就可能分叉；而且為了支撐越來越高的估值，OpenAI 商業化和營收壓力也在不斷上升。晚點：OpenAI 裹挾了這麼多投資，又和微軟、輝達、AMD、英特爾、甲骨文等美國一批最大的科技公司相互採購，一種觀點認為，如此糾纏的利益，已讓它大而不能倒。Henry：它現在可能確實是 too big to fail（大而不能倒），但 Sam 的野心不止於 5000 億美元的估值。晚點：這次發佈後，你身邊的創業者感受到的機會和壓力分別是什麼？Henry：大多數人看到的還是機會。新平台把創業者和開發者和使用者拉得更近。壓力有兩個方面：一是資料與留存的不對稱。現在 app 的上下文與資料多託管在平台方，初創團隊拿到的只是有限的上下文呼叫，而不是完整的使用者行為或分析資料。這樣很難真正建立使用者關係、最佳化留存。換句話說，就是在別人家的地基上建房，根基不穩。二是平台自己下場做的可能性。像 OpenAI 掌握完整的資料和使用者對話記錄，所以平台上那些看起來很有潛力的機會，也有可能被 OpenAI 直接吃掉。晚點：上次和 Pokee.AI 創始人 Bill Zhu 聊 Google 時，他有個類似的推演：Google 做開發者生態，一旦看到一些方向的潛力，可能自己下場做。Henry：大家對 Google 反而沒那麼擔心。Google 做應用的速度追不上初創公司；但 OpenAI 節奏快得多。晚點：本身應用超強，是不是有可能是 OpenAI 做開發者生態的一個不利因素？Henry：關鍵看 OpenAI 怎麼定位。現在 AgentKit 只能用 OpenAI 的模型，是在評估的環節可以用到第三方的模型。如果 OpenAI 真把 App SDK 和 GPT 形式的應用當成主要商業模式，就應該把自己定位成平台，在 Agent 建構過程中放開工具和模型選擇。但目前還在試驗階段。晚點：你覺得這種大模型作業系統或者說 AI 應用開發平台的機會最後能容納幾個玩家？Herny：看流量入口有幾個。現在最大的是 Gemini 和 ChatGPT。前幾天的資料是，Gemini 的總使用者量已超過 ChatGPT，但這是算了全平台使用者量，比如在 Gmail 裡打開了 Gemini 也會被計入。不過不管怎樣，Gemini 的追趕勢頭很猛。在做開發者工具上，兩邊都比較強：Gemini AI Studio 的功能越來越全，OpenAI 這邊也剛發了一堆面向 Agent 開發的能力。從 LangChain 到 Operator，Agentic Tooling 的 6 次進化晚點：你們最近關注智能體工具鏈（Agentic tooling）的機會，簡單來說，這都包含什麼？Henry：Agentic tooling 就是建構虛擬數字人所需的工具和身體部件。AGI 的一種定義是虛擬數字人：過去電腦是工具，人去適應機器；現在電腦會更像人，來適應我們。互動感受更加自然，從 “人機” 走向 “人人 “。要實現這一點，只有聰明的大腦不夠，還要能聽、能說、能行動的身體。對應到具體部件，骨架就是 Agent 框架，代表公司是 LangChain，負責 Agent 能力協調調度；左右手是工具與瀏覽，左手是 MCP 協議，右手是 Browser Use，允許 Agent 像人一樣用瀏覽器獲取資訊、操作互動；眼、耳、口這些器官是 Agent 感知部件，例如 ElevenLabs 做高品質語音合成，是 “嘴巴”，LiveKit 提供即時音視訊基礎設施，是 “眼睛和耳朵”；數字人還需要教練來持續評估表現、監督與改進，於是有了 Braintrust、Galileo 等公司專注 Agent 評測與可靠性保障。Naomi：最近這個領域剛好有三個標誌性事件。第一是 ElevenLabs 員工將金額約 1 億美元的老股以 66 億美元估值賣給投資人。這時候距離 C 輪只有 9 個月，公司估值已翻倍。 ElevenLabs 做的是 AI 語音合成，增長和商業化進展都很快。第二是 LangChain 剛剛以估值 11 億美元敲定一筆約 1 億美元的新融資，IVP 領投。這說明基金還在加碼工具鏈這層的開發者基礎設施。第三是 OpenAI 用 11 億美元全股併購 Statsig。Statsig 做的是 AB 測試、功能逐步發佈和資料指標閉環。直白說，就是評估模型效果，按節奏擴大流量。OpenAI 把這塊從外掛工具變成了內建元件。把這三件事放在一起看，可以看到清晰的節奏：一頭是 Agentic tooling 的大規模落地，一頭是工具鏈核心元件持續獲資本加注，同時巨頭在做戰略整合。晚點：從這輪 AI 熱潮以來，工具層已出現很多輪變化，從最開始的提示詞工程、RAG 再到上下文工程，你會怎麼總結這個變化脈絡？Henry：我覺得 Agent 工具的發展始終圍繞模型能力的躍遷。借用虛擬數字人的比喻，過去兩三年我們見證 “大腦” 一再升級；每次升級都會暴露 “身體” 的短板，隨之催生一波新工具來補齊。大致經歷了六次主要升級。第一次升級在 2022 年底，ChatGPT 和 GPT-3.5 發佈。全球第一次直觀感受到 LLM 的力量，大家都想拿它做應用。很快發現僅靠 “會聊天” 的腦子不夠：還需要用到外部資料、管理上下文、把多個 LLM 呼叫編排起來處理複雜任務。於是 LangChain 等框架出現，提供腳手架讓開發者可以更快建構應用。那會兒大家還不叫它 “Agent”，不過很快就有了。第二次升級大約在 2023 年 6 月，OpenAI 首次在 API 裡官方支援 function calling（工具使用），LLM 開始能按上下文需要呼叫外圍工具。從那時起，越來越多人專門為 LLM 寫工具。為了寫一個像樣的 Agent，八九成精力都花在 “寫好工具” 上。第二次升級的另一個關鍵節點是 2024 年 11 月，Anthropic 發佈 MCP 協議，讓工具在不同模型間更易復用。不少工具提供方順勢轉成 MCP Server 提供商。第三次升級在語音。 2024 年 5 月，GPT-4o 的 Advanced Voice 模式推出，第一次像 “人” 的高品質語音互動雛形出現，也帶火了即時音視訊傳輸需求。LiveKit 因為是 4o 背後的基礎設施，迎來一波爆發式增長。第四次升級在 coding。2024 年 Claude 3.5 Sonnet 的發佈和迭代帶來了 Cursor 的成功。AI 寫程式碼能力大幅增強，連資料分析都能用 “寫程式碼” 來完成，於是對 “安全執行程式碼” 的沙盒環境需求暴漲，產生了 E2B、Daytona 這樣的代表公司。第五次升級在推理能力的突破。 2024 年 9 月 OpenAI 發佈 o1 preview。推理能力提升後，Agent 能根據任務自行規劃步驟與選擇工具，由此催生兩類工具：（1）OpenAI、Fireworks 提供的強化學習微調工具，大家用它在模型外通過 RL 增強 Agent 能力；（2）Braintrust、Galileo 提供的評估與監督工具，複雜任務更需要它。第六次升級是 Computer use 和 Browser Use 能力的出現。 2024 年 10 月，Anthropic 率先發佈 Computer use 模型，隨後 OpenAI 推出 Operator。Agent 終於能像人一樣用瀏覽器完成任務，隨之形成一條完整的瀏覽器生態：底層是雲端瀏覽器基礎設施（Browserbase、Anchor Browser），上層是直接給開發者的自然語言 API（例如 “幫我訂個外賣”）。晚點：工具呼叫方面，最早 OpenAI 在 2023 年 6 月推出 function calling，現在更主流的協議卻是 Anthropic 發起的 MCP。這是為什麼？Henry：Claude 在 “怎麼把 tool use 做強” 上花了很多時間，過程中沉澱出 MCP。OpenAI 雖然先到了這個，但之前沒有 Anthropic 在這上面花的精力多。晚點：下一次進化會是什麼？Henry：很難預測。相對確定的是，所有大模型廠商都會繼續加注 Agent 能力：一是推理，二是工具使用，三是語音。另外，多模態會更深融合，比如最近的 “Nano Banana” 就是圖片模型和大語言模型結合。用 Agent 做的工具已經能搭建出高品質的 Agent晚點：剛才你梳理了 Agentic tool 的發展脈絡，這個領域也出現了很多第三方創業公司，你具體會關注什麼方向，有那些公司？Henry：首先，Agent 變強後，配套工具的質量必須提升，能支援更細、更複雜的操作。現在很多 MCP Server 還是偏 read-only，場景上用 Reddit、Twitter 的 MCP Server 做深度研究較多；但隨著模型推理和呼叫工具能力變強，Agent 可能去做帶風險的 “寫”。Naomi 最近投了 Composio ，可以分享一下。Naomi：Composio 是 MCP 的整合商，能提供高品質 MCP Server。它不止能調工具，更多保證任務的可靠執行，等於給 Agent 提供了一套更完整的作業系統。晚點：MCP Server 整合商具體是做什麼的？Naomi：MCP Server 有點像 API 介面，你呼叫 MCP Server 就像在集市上選擇工具組裝起來。Composio 可以幫你搭建 MCP Server，你只需要點幾下就可以呼叫你希望喚起的智能體。Henry：我補充一下，Composio 提供幾百個高品質的 MCP Server 供選擇。Composio 在產品層面分兩部分：一部分是平台，開發者通過程式設計把平台上的 MCP Server 接到自己的 Agent；另一部分是偏 prosumer （消費者 + 生產者）的產品叫 Rube，它最近增長很快，因為解決了在 Cursor 中只能同時呼叫 3 個 MCP Server 這個痛點。 Rube 提供了 MetaMCP Server，可以根據任務自動呼叫正確的 MCP Server，“one MCP Server to rule them all”。晚點：一個 MCP Server 裡能有多少工具，現在受什麼限制？Henry：每個 Server 可以接多種工具，具體數量取決於設計者取捨和產品複雜度。比如做 Gmail 的 MCP Server，如果想覆蓋 Gmail 大部分功能，工具就會很多。但功能接近的工具會讓模型困惑，不知道該呼叫那個，就容易出錯。晚點：你們最初是怎麼注意到 Composio 的？Naomi：在 AGI House 我們經常辦大型駭客活動，開發者做 AI Agent 必須呼叫多種工具，我們就在想能不能做一個集合型 Agent，在執行任務時可以同時接入多個 MCP 伺服器。來自社區的一線反饋說，Composio 比較可靠，呼叫這些工具很順滑。我們也很喜歡他們團隊這種堅毅以及高效行動的風格。Naomi：2023 年 7 月 Composio 在印度成立，最初想做 “自動生成整合程式碼” 的智能體，但程式碼精準度不夠。他們發現原因是模型呼叫工具的過程不穩定，於是轉向搭建智能體的技能層——把通用工具封裝成可直接呼叫的技能。團隊在資源匱乏的印度起步，卻憑藉高品質技術演示和社區驅動迅速出圈，創始人親自下場在 Reddit、Discord 與開發者共創迭代。憑藉這種強執行力與技術直覺，他們最終拿到光速創投（LSVP）領投的 A 輪投資。2024 年 6 月產品上線時已積累 ClickUp、Gleam 等早期客戶。Henry：最有意思的是，Composio 一開始做 Agent，後來轉成 Agentic tooling。之所以能成為 tooling 公司，是因為它把 Agent 做得好。晚點：既然 Agent 做得好，為什麼要轉向工具鏈？Henry：他現在還在做 Agent，只是業務拓展到了 Agentic tooling。最初他們在印度的 Agent 質量高就是因為在用 Agent 自動寫 Server。他們在 MCP 出來前看到做工具整合呼叫的機會開始轉向，MCP 發佈後產品迎來一波爆發。Naomi：Composio 本質是一家 Agent 公司。平台上的 MCP Server 基本都由自家 AI Agent 自動寫程式碼完成。他不只是賣工具，更用自身業務的資料做飛輪，持續生成和最佳化工具。它的壁壘不僅在平台有多少工具，還在大規模自動化整合、處理、最佳化海量資料的能力。晚點：這具體指什麼？Henry：每次使用者與 Composio 互動，都會建立一個 Agent 會話（session）。一次會話裡，一個任務可能要呼叫多個工具。整個過程都會被記錄成日誌（log），再由另一個 Agent 審查：呼叫成功還是失敗？失敗的話原因是什麼，成功的話有沒有最佳化空間？Composio 會有專門的 Agent 分析每個會話日誌，自動寫出改進的 Pull Request，直接改進 MCP 伺服器，整條鏈路都是自動化的。編者註：Pull Request（PR），是指開放原始碼軟體項目中，貢獻者提交程式碼更改到程式碼庫的請求。該術語主要用於 GitHub 等網站。晚點：Anthropic 為何不自己做 MCP Market？就像蘋果做 App Store。Naomi：因為這事不增強它的護城河。Anthropic 是大模型公司，優勢在模型輸出效果和安全性，把人力投到第三方 API 的維護只會分散資源。晚點：Agent 在瀏覽器、手機上的執行成功率並不高，你們覺得 MCP 生態會怎麼發展？Henry：先說可靠性。桌面端常用的基準測試是 OSWorld，瀏覽器端是 WebArena，最好的模型在這些基準上成功率也就 60%～70%。這種成功率很多場景不可用，比如美國醫療建檔。但面向長尾場景，很多服務和網站不在 MCP 覆蓋範圍，Browser Use 是有價值的。比如很多日本的精品酒店沒接入 OTA（Online Travel Agency，線上旅行社），有人用瀏覽器操作抓取空房日誌，把資訊組合後提供給搜尋引擎，使用者就能搜到這些酒店。晚點：在移動生態裡應用間相對封閉，長期他們會願意融入 MCP 生態嗎？Henry：有觀點認為，ChatGPT 終局是 WeChatGPT。AI 越來越強，越像數字人。而我們辦事本質是和人溝通。等到 ChatGPT 把所有事裝進一個應用裡，所有服務提供方都會被迫為大模型開放互動介面。美國頂尖實驗室都在加碼 AI 語音，但有時 AI 不像人反而更好晚點：除了 Broswer Use 和 Phone Use，智能體工具領域還有那些你關注的方向？Henry：我們還很看好語音。現在全球每天約 100 億次通話，很大一部分是商業通話，比如客服，面向企業服務的 AI 機會很大；第二類是個人助理或情感陪伴，增長也很快。這塊我們很關注 LiveKit。LiveKit 成立於疫情期，一開始服務遠端辦公需求，基於 WebRTC 的即時音視訊傳輸，與 AI 關係不大。第一次 AI 方向的爆發來自 GPT-4o 把 LiveKit 用作語音傳輸層，之後它從底層往上豐富產品，現在用它的 SDK 能方便地搭建語音 Agent 。現在 LiveKit 每天支撐約 2000 萬次通話，一年前資料是 100 萬，年增 20 倍。企業層面，OpenAI 、Character.AI 以及 Grok 的語音層都由 LiveKit 驅動，全美最大的 CRM 公司 Salesforce 馬上要把客服智能體部署在 LiveKit 平台；公共服務層面，LiveKit 可以支援美國 911 約 25% 的呼叫，通過直播現場讓接線員瞭解情況，還能轉接心肺復甦的教練，大概每周能多救回一條人命。這是我們決定投資的關鍵。國內 LiveKit 用得還不多，但增長也很快。晚點： LiveKit 上現在用得最多的語音模型來自那個廠商？Henry：OpenAI、ElevenLabs、Cartesia 的模型都有接入。LiveKit 平台可以支援兩種範式的模型：一種是級聯式語音智能體（Cascade Voice Agent）：先語音轉文字（STT），再過大模型，最後文字轉語音（TTS）；另一種是語音到語音，比如 OpenAI 的 GPT 語音輸入，語音輸出。晚點：兩種範式都有使用者在用嗎？前一種在某些場景綜合成本是不是更好？Henry ：我們判斷終局會是 “語音到語音”，因為模型能識別情緒這種上下文呈現不了的細節。但現在很多人仍用 “級聯式”（語音→文字→大模型→文字→語音），原因有兩點：一是更可控，語音轉成文字後能寫入保護和規則判斷；二是並非所有場景都需要像人，比如醫院客服只要按要求提供資訊，AI 不那麼像人反而更好。晚點：我們之前聊過，美國一些頂尖 AI 實驗室都在加大對語音能力的投入。這釋放了什麼訊號？Henry：我有兩個觀察。一個是現在有公司專門給它們提供語音資料，成長很快、融資不錯。比如 David AI，最近幾個月拿了約 2500 萬美元的 C 輪。另外，OpenAI 上周發佈了 GPT 即時（Real-Time GPT）API 的正式版，相比去年 10 月的 1.0 版本主要有兩點改進：一是更像人了，說話的語調、表達的豐富度更自然，對 “更溫情 / 更職業化” 等指令的執行更到位；二是能更好理解笑聲、情緒，也能在說到一半時順暢切換語種。晚點： Anthropic 在多模態上的投入更少，是不是沒在參與這方面競爭？Henry：我覺得 Anthropic 已經全力押注程式設計了。留在語音牌桌上還是 Grok、OpenAI、Google 這些大玩家。Agent 的四種記憶，和 Letta 的全新記憶方案晚點：你之前提到，記憶是 Agentic tooling 的重要方向。這個領域可能有機會，一些公司也有動作，能講講嗎？Henry：我們可以從四類記憶說起：它們是什麼，以及如何幫助 Agent 更好地完成任務。第一類，情境記憶。比如客服機器人記得上周和你聊過，嘗試過方案 X。好處是避免重複操作，保持對話連續性。第二類，流程記憶。比如 Agent 記得上周部署在第三步失敗，它就會避免重複錯誤，改走有效路徑。這類記憶適用於企業搭建智能體工作流。第三類，儲存事實的知識記憶。比如 Agent 給使用者購物時能去折扣規則庫裡檢索可用折扣，不會編出不存在的折扣。規則庫也算記憶的一部分。第四類，角色記憶或人格記憶。它記錄一套人格或風格設定，適用於情感陪伴。比如 AI 男友女友要保持既定的交流風格，不能出戲。這方面我們接觸最多、增速也很快的一家叫 Letta，由兩位伯克利的博士畢業後創立，幫 Agent 開發者做 “有狀態的智能體（State for Agent）”。他們提出個有意思的概念：睡眠時計算（Sleep-time Compute）。大家熟悉的是推理時計算（Test-time Compute）——推理步驟中多消耗些 token 輸出效果更好。Letta 不是在推理時燒 token，而是在系統空閒時做整理。就像白天開了很多會，晚上用睡覺時間回放處理，把資訊沉澱成學習內容和洞見。晚點：使用者會不會不願把資料給 Letta？自動駕駛裡有先例：國內自動駕駛的初創公司最佳化演算法需要司機資料，但車企是大客戶，出於競爭和資料敏感性不願給，結果一家一家去談很麻煩。Henry：我覺得類似情景不太會出現。現在的 Agent 應用市場更分散、更多樣，很多創業公司體量小，商業話語權不強。晚點：Agent 公司不會自己做這塊嗎？Henry：早期沒有最優標準，大家都在摸索，於是 “八仙過海”。等弄清楚該用那類記憶、怎麼用最好，標準化產品會出現。像 Letta 把髒活累活包了，開發者就能把精力放在核心競爭力上。晚點：OpenAI 今年不是也上線了記憶功能？Henry：OpenAI 的記憶有了明顯改進。舉個例子——我說 “今天生日我媽媽給我做了我最喜歡的甜點提拉米蘇。”以前是把整句直接塞進 ChatGPT 的記憶，這有兩個問題：不知道 “我” 是誰，也不知道生日是多少。現在會拆成結構化的幾條：（1）Henry 的生日是 9 月 18 日；（2）Henry 喜歡提拉米蘇；（3）在生日當天，Henry 的媽媽給他做了他喜歡的提拉米蘇。這樣後續查詢更好用。晚點：大模型能力進化後能自己搞定記憶能力嗎？Henry：大模型的演進和 “記憶” 是兩條線。模型層與記憶最相關的是上下文會變長，但上下文不是免費的午餐，越長成本越貴，性能還可能下滑。晚點：今年被很多 Agent 公司關注的上下文工程（context engineering）和記憶的關係是什麼？Henry：記憶最終要用，必須塞進上下文，所以它屬於上下文工程的一部分。上下文工程的本質，是決定那些資訊該進上下文。它涉及兩個循環：本次生成時，內循環決定那些資訊進入上下文；從長期看，外循環決定如何提升把 “對的資訊” 塞進上下文的能力。相比之下，長期記憶更像 “工具層”，不是模型本體，而是大模型的外接硬碟。所有人都覺得 “評估” 重要，但都做得不夠好晚點：想展開聊聊你剛提到的 “評估”，最近 OpenAI 以 11 億美元收購了 Statsig。標準化的第三方評估工具會有創業機會嗎？Henry：有趣的是，幾乎所有人都認為評估很重要，但大多數公司不願做評估，因為這件事很難做。舉個 LiveKit 的例子。某家大客戶做語音 Agent 客服，發現通話經常提前掛斷，體驗很差。於是他們在提示詞裡加了一句：你不要那麼早掛電話。上線前，工程師只打了三四個測試電話，感覺確實晚了一點，就直接推到生產環境；按理說，至少要先打個幾百通電話，再決定是否上線。可現在矽谷流行的是 “Vibe Checking”，感覺（Vibe）對上就直接部署了。而且，除了專門做評估的公司，做業務的公司自己也會加入評估元件。晚點：大家覺得評估重要，但做起來難，難在那裡？Henry：一是成本高。評估資料很多需要人工標註。任務越複雜，成本越高。二是策劃與共識。團隊常對 “用什麼資料、怎麼建構資料集” 沒有一致意見。還會出現很搞笑的情況：辛苦做出一個資料集，評估下來變好了，本人卻不信——“資料集說變好了，但我感覺變差了”。晚點：那些 LLM 的任務更好評估，那些難評？Henry：OpenAI 和 DeepSeek 把強化學習放在程式設計和數學上，因為評估訊號清晰，模型能最大化從反饋裡學習。難評估的是主觀性強或本身複雜度高的任務。Agent 工具的市場規模可以到 2000-5000 億美元，已經誕生巨頭晚點：最後想聊聊 Agent 工具（Agentic tooling）的商業層面給，你們覺得市場規模可能有多大？Naomi：全球軟體市場年銷售約 6500 億美元，開發者工具（DevTools）拿中低個位數百分比。粗算 DevTools 規模約 200 到 300 億美元。但這波 AI Agent 改變了遊戲規則。紅杉曾預測，AI 會把軟體市場的天花板從六千多億推到約 10 兆美元，因為它能切入服務業，把原來靠人力的服務轉成軟體。如果這個判斷成立，那麼為 AI Agent 提供 “武器裝備” 的 Agent 工具市場規模也會隨之躍升。套用 5% 的市場份額，DevTools 的長期規模可能達到 2000 億到 5000 億美元。我們認為，這一波 AI 不是瓜分存量，而是在創造增量，這也是我們看好這個市場的原因。晚點：這個市場裡會不會出現年收入 100 億美元的大公司？Naomi：我覺得，這事已經在發生。我們可以從三個角度看。第一個角度，先看市場有多大。我們剛剛用 Devtools 公司做參考：做身份認證的 Okta 最近一年收入大概在 20 億美元，雲通訊巨頭 Twilio 高峰期年收入大概在 40 億美元。我們覺得 AI Agent 的經濟體量可能會是實體經濟的十幾倍。服務這套新經濟的基礎設施，比如智能體的驗證，市場空間也可能是十倍以上。如果 Okta 能到 200 億美元，那 AI Agent 的身份與調度可能就是數百億美元等級的市場，對應 AI native 的公司是 Composio。第二個角度，不是所有巨頭都會被顛覆，關鍵看範式遷移發生在那裡。我們覺得真正的機會來自 AI Agent 帶來的全新需求，舉三個例子。第一個例子在可觀測性。Datadog 做系統可觀測年收入超過 20 億美元；面向 Agent 的觀測平台，規模可能更大，代表公司如 Braintrust 把智能體的執行過程拆開，不僅看伺服器指標，還能回放、偵錯 AI 行為。第二例子在 Agent 即時通訊。Twilio 做人對人通訊，年收入約 40 億美元；人和 Agent 系統的互動對話狀態更複雜，對延遲要求更高。像 LiveKit 正做低延遲的語音互動基礎設施，本質是在建構下一代專用通訊層。第三個例子在 Agent 模組和現有工作流的整合。比如 Claude Code 屬於自主編碼的 Agent，有點像 GitHub 加 “工作台” 的模式。它不會取代 GitHub，但會拉動一整套新工具鏈，比如程式碼審計、回歸測試、安全執行。企業可以像拼樂高一樣，把 AI 嵌進現有工作流。第三個角度，什麼公司最可能長到百億美元？不能僅僅簡單拼工具，更看能不能形成網路效應和資料壁壘。可以從三個維度看。第一，它是否正在成為行業標準；第二，有沒有自進化的資料閉環，比如 Composio，用得越多，通過率越高，成本越低，壁壘越厚；第三，能不能卡住某個關鍵工作流節點，比如 LiveKit 做即時通訊，Braintrust 做可觀測性，呼叫量越大，資料越值錢，越容易長成百億公司。 (晚點LatePost)