雲端運算未來交付的或許是一整套數字勞動力的生產環境。
Agent正從技術概念快速走向產業落地。隨著大模型能力持續提升,Agent已經具備任務理解、工具呼叫、自主規劃和執行能力,並開始進入客服、研發、辦公、營運等真實生產場景。
然而,當Agent真正進入生產環境後,一個更深層的問題開始浮現:今天的基礎設施並沒有為Agent時代做好準備。
過去十餘年,企業IT基礎設施的設計邏輯始終圍繞人類使用者和傳統應用展開。無論是伺服器資源調度、虛擬化架構、容器平台,還是資料庫,其核心目標都是支撐穩定可預測的軟體服務。
面臨Agent這一充滿不可預測性的新型負載形態,基礎設施的計算、儲存、網路、資源調度以及Runtime系統都面臨前所未有的挑戰。
也正因此,行業開始重新審視AI基礎設施的定義。未來企業需要的不僅是更強大的模型,更是一套能夠支撐Agent持續運行、自主協同和大規模擴展的Agent-Ready Infrastructure。越多廠商正在圍繞這一方向展開佈局,Agent時代的競爭,正在從模型層逐步延伸到基礎設施層。
面對這一趨勢,騰訊也給出了自己的答案。在今天舉辦的騰訊雲AI產業應用大會上,騰訊系統性展示了面向Agent時代的基礎設施能力佈局,從運行平台到底層資源體系,試圖為企業建構真正適配AI Agent生產落地的新一代基礎設施底座。
01. 從雲服務到Agent Runtime企業級Agent Infra經歷範式重構
Agent工作負載,到底和傳統的應用、服務有什麼區別?
騰訊雲端儲存總經理馬文霜舉了個例子,當我們要求Agent做一份“新能源車的概念報告”時,Agent可能會進行瀏覽網頁、下載安裝包、編寫程式碼、生成檔案等等操作,其執行鏈路不確定性較強,還需要獨佔環境。
同時,當Agent批次走入生產場景,高並行情況難以避免,給基礎設施帶來較大壓力;憑證管理、資料隔離等技術,則是Agent可靠性和安全性的重要保障。
要想真正實現Agent的規模化部署,一套符合其特性的新型基礎設施,不可或缺。
為此,騰訊雲已經打造了Agent治理平台的全新架構設計。騰訊雲資深AI Infra架構師邢陪鄰稱,其核心邏輯在於將Agent視為具備崗位職責、匯報關係與權限邊界的“數字員工”,而非簡單的程序工具。
針對企業規模化部署Agent過程中面臨的接入門檻高、組織管理複雜、協作記憶分散、成本難控制、安全審計要求高以及技術框架不統一等問題,騰訊雲建構了覆蓋“多Agent統一接入、多組織統一治理、多場景統一交付”的治理平台架構。
在該架構的基礎設施層中,計算(包括Runtime)、儲存、網路和安全都扮演著重要角色。
其中,Agent Runtime架構是Agent運行的核心技術之一。騰訊雲高級產品經理、CNCF大使周鵬飛認為,Agent基礎設施需要圍繞Agent的特徵,比如高自主性與生命周期的不確定性,來進行定義設計和全面升級。
騰訊雲在Agent Runtime中整合了沙箱調度、身份認證、出站訪問管理、全鏈路監控、憑證管理以及Agent Memory等能力,解決傳統微服務架構下資源長期佔用、Agent任務容易中斷等問題。
騰訊雲的上述技術讓企業可以實現Agent的快速部署。但在騰訊雲端運算高級產品經理、SkilHub主理人戴惠怡認為,使用者真正需要的不只是成功部署,而是Agent能穩定地“幫我做事”。
為滿足這一需求,Agent需要專屬雲底座為其提供環境,並依靠Skill生態實現能力擴展。
雲底座方面,騰訊雲的Lighthouse輕量應用伺服器面向開發者及泛大眾為Agent提供穩定、安全的雲端運行環境,可以支援Agent 7x24小時的持續運行,降低部署和維運成本。
面向企業市場,騰訊雲ClawPro與Lighthouse上百萬級的OpenClaw使用者環境同源同構,經過大規模生產驗證,實現了面向企業的Agent管控平台,同樣實現開箱即用的零門檻。
在Skill生態方面,騰訊打造了SkillHub社區,目前該社區已經收錄7.8萬個Skill,上線2個月下載量突破3000萬次。這些Skill將人類經驗、工具呼叫、業務流程和實踐經驗沉澱為Agent可以理解、復用的能力。
該社區對全球和本土Skill資源進行了統一管理、安全稽核和分發,讓原本分散在個人和團隊中的Skill資產流通起來,串聯起Skill生產、發現、安裝、復用和組織化管理的完整鏈條。
02. 讓Agent真正跑起來需要什麼樣的底座?
騰訊雲的Agent Runtime體系包含多項關鍵技術,騰訊的相關技術負責人對其進行了詳細介紹。
首先是沙箱技術。Agent需要真正去操作裝置、執行程式碼、訪問資料,這種能力伴隨著巨大的安全風險,對廣大企業而言,為Agent提供一個隔離、受控的環境,幾乎是必選項。
Agent沙箱的實現方式多種多樣,既有本地也有雲端。騰訊雲選擇的路徑是雲端沙箱,這一方案的優勢在於可以實現存算分離、按任務隔離、暫停免費以及秒級喚醒。
騰訊雲針對Agent沙箱在真實生產環境中,面臨的冷啟動慢、擴展上限受限以及閒置成本高等問題,提出了一整套工程化最佳化方案。
首先,他們通過核心層最佳化(如全端鎖最佳化)、資源池化、鏡像按需載入與就近快取,以及基於快照恢復的機制,將傳統超過20秒的冷啟動時間大幅壓縮至60毫秒,實現“即開即用”的運行體驗。
在架構層面,騰訊雲去除了對傳統K8s控製麵的強依賴,引入無單點依賴設計與多資源池、兩級調度機制,顯著提升系統的並行能力與橫向擴展上限,使平台能夠支撐百萬級Agent規模的高並行運行。
在成本控制方面,系統通過VM快照實現“自動休眠與恢復”機制,在Agent閒置時凍結運行狀態,僅保留極低成本的儲存計費,恢復時可實現毫秒級喚醒,從而有效降低長期運行成本。
這一系統支援從單一到大規模Agent的批次管理與全生命周期調度,展現出較強的可擴展性。
許多使用者對Agent的期待是“越用越好用”,能“越來越懂我”。但要真正實現這一點,Agent需要一套好用、高性價比的記憶基礎設施,幫助使用者積累智能資產。
騰訊雲也關注到了這一問題。在Agent Memory方面,他們基於TencentDB建構了四層記憶架構,將Agent Memory從簡單的資料儲存升級為可治理、可演進的智能資產體系。
該架構自底向上分為四層:L0原始對話用於記錄基礎互動內容,L1原子事實負責提取關鍵結構化資訊,L2場景模式用于歸納行為與互動規律,L3核心洞察則進一步沉澱為使用者畫像與業務級認知。
在此基礎上,通過騰訊雲自研模型驅動的抽取、壓縮與符號化處理機制,騰訊雲提升了記憶的可用性與可解釋性,也大幅最佳化了系統性能與成本結構。例如,在長期記憶場景中(PersonaMem)精準率由基線的48%提升至76%,整體提升約28.16%。
在Token消耗方面,短期記憶壓縮與上下文解除安裝機制的引入,讓Token整體節約率接近49.9%;同時長任務成功率提升30%,推理加速至2.53倍。該記憶系統支援開源與雲託管雙形態部署,使記憶資料始終保持透明、可遷移與可治理,避免形成資料黑盒。
給Agent配齊“虛擬工位”(沙箱)、“工作筆記”(Memory)之後,如何評估、管理並最佳化其執行效果,對企業而言也十分關鍵。
騰訊雲日誌服務高級產品架構師巢豐岩認為,Agent的可觀測性與傳統可觀測性有一定區別。服務線上率、介面相應速度、基礎資源消耗等傳統指標,無法精準反映Agent真正的任務完成度、Token消耗和工具呼叫的合理性。正因為此,企業在使用Agent時,往往會有一種“黑盒”的感覺。
為解決這一黑盒難題,騰訊雲打造了一套面向生產級Agent的全域觀測和分析能力。這套方案可以實現對多種Agent形態的快速接入,還可以對上下文Session、Agent工作鏈路(Trace)、Skills、工具呼叫等資料進行統一建模,無需人工拼接。
同時,在分析層面,這套方案支援對多種指標的全域分析以及單鏈路具體分析,比如token消耗分析、RAG分析、模型性能分析等等。
這種觀測與分析能力,可以幫助企業及時定位Agent在執行過程中遇到的問題、出現的高危操作。巢豐岩認為這最終會沉澱為企業的bad case資料集,形成資料飛輪,最終反哺Agent能力的提升。
03. 儲存與算力同步升級複雜性留給基礎設施
從治理體系,到運行環境,再到記憶系統,騰訊雲已經配齊了Agent走向生產環境所需的核心元件。然而,隨著Agent開始承擔更複雜、更長期的任務,新的問題隨之出現:海量Agent的資料如何儲存?高頻推理帶來的算力成本如何控制?這些問題最終都指向更底層的儲存與算力基礎設施。
從技術思路來看,傳統儲存主要圍繞實現方式設計,最終目標是實現一個可靠的儲存系統,而Agent時代的儲存系統的設計思路,應該是讓儲存被智能體高效使用。這是由於過去雲端儲存主要服務於應用系統,資料邊界相對固定;而Agent儲存既需要嚴格的資料隔離,也需要支援協同共享、動態擴縮容和長期記憶管理。
圍繞這一趨勢,騰訊雲提出將儲存用途與底層實現解耦,並通過統一的Volume抽象層重構儲存體系。騰訊雲將儲存能力標準化為三類:專屬Volume用於單Agent獨佔讀寫,共享 Volume支援多Agent協作,製品Volume則以唯讀方式分發資料,保障系統資產安全。
在產品層面,騰訊雲提供了AgentBucket和VectorBucket兩項新能力。其中,AgentBucket採用全新的Space架構,提供獨立使用者空間、原生POSIX檔案語義及跨租戶去重能力,解決傳統對象儲存Bucket數量受限、隔離依賴業務邏輯等問題,為海量Agent的長期記憶和知識管理提供支撐。
另一項VectorBucket則面向RAG場景打造,基於存算分離架構,支援十億級高維向量儲存與毫秒級檢索。相較傳統方案,其儲存成本可降低約90%,同時實現零維運部署,進一步降低企業建構知識型Agent的門檻。
此外,騰訊還對MetaInsight多模態資料管理引擎做了升級,它能自動進行特徵提取、目標檢測、OCR識別和多模態對齊,支援Agent進行複雜推理和檢索。
在基礎設施層,Agent的出現讓雲廠商的定位發生了變化。如今,要讓Agent跑起來,遠不只是提供一台機器那麼簡單,其底層涉及多個技術堆疊的協同。
對企業而言,這些工作不僅技術鏈路長,而且高度碎片化,任何一個環節處理不當,都可能導致Agent無法穩定運行,甚至帶來資料洩露或權限失控的風險。
面臨這些挑戰,騰訊雲所做的是再往前邁一步,將原本分散且高度專業化的基礎設施能力,轉化為穩定、可復用、可規模化的統一平台能力。
以騰訊雲的ClawPro為例,作為企業級的智能體統一管控台,它為使用者提供了底層雲服務的全自動化託管。企業管理員只需要在後台點選開通,系統就會一鍵智能拉起所有關聯的基礎雲資源,例如雲服務算力、儲存、網路等,實現算存網一體。
Agent管理、審計、隔離、安全等多維度的功能也被整合,企業使用者不需要懂太多的技術細節,即可將Agent引入自己的業務流程中。
對於合規要求更高的政企客戶,騰訊雲還為使用者提供了ClawPro專有雲版本,讓企業可以在私有環境中部署Agent,實現對核心資料和模型的自主掌控。
騰訊雲的這套產品方案,已經在不少真實場景中獲得了驗證。樂享科技便將基於ClawPro的AI Agent接入家庭機器人,快速補齊機器人的感知和互動能力,提升其在真實家庭場景的可用性。
外貿數位化服務商富通天下則將ClawPro整合進自身的私域CRM系統中,連接外貿CRM與AI Agent能力。
這些案例都有一個共性:ClawPro將原本分散在底層的基礎設施能力進行了統一封裝與平台化整合,企業要做的只是結合自身專有知識與業務理解,發揮出這套基礎設施在其自身業務中的價值。
04. 結語:騰訊雲重做騰訊雲
過去很長一段時間裡,雲端運算要解決的關鍵問題是“應用如何運行”,而未來,雲端運算面臨的新挑戰,可能會演變為“Agent該如何工作”。
僅提供CPU、儲存和網路的雲服務商,在Agent時代已經很難滿足使用者需求了。如何為數字員工們提供工位、記憶、技能庫、協作和管理系統,是他們需要思考的關鍵問題。
從這個角度來看,騰訊雲正在大刀闊斧地重做騰訊雲。他們試圖重新定義雲基礎設施的邊界:雲不再只是承載應用運行的資源池,而是成為Agent誕生、運行、協作、成長和治理的底座。過去雲廠商交付的是計算資源,未來交付的或許是一整套數字勞動力的生產環境。 (智東西)
