對話亞馬遜雲科技Mai-Lan:S3如何應對Agent時代的資料消費狂潮

“現在客戶非常希望建構Agent基礎設施,成本亦或者說性價比,不再是次要因素,而變成決定性因素。”

年初,OpenClaw在中國市場的火爆,讓所有人看到了Agent的巨大潛力。但隨之而來的,是一道所有雲廠商都必須回答的考題:當Agent開始像賽博龍蝦一樣瘋狂繁殖、高頻呼叫資料時,AI雲基礎設施層尤其是資料層,準備好了嗎?


比方說,企業資料團隊在將Agent部署到生產環境時,經常會在資料層面遇到瓶頸。建構向量資料庫、關聯式資料庫、圖資料庫和湖倉等不同平台上的Agent,需要同步資料管道以保持上下文資訊的時效性。但在真實的生產環境中,這些上下文資訊會逐漸過時。


這個問題的緊迫性,源於Agent與人類工程師截然不同的資料消費模式。


“Agent正在一種極其活躍且激進的方式消費資料,它對於數倉或資料湖的呼叫頻率是驚人的。”


亞馬遜雲科技技術副總裁Mai-Lan Tomsen Bukovec近日與筆者交流中指出,Agent是一種通過“平行擇優”的工作模式,即:不是一次一個查詢,而是同時數十、上百個平行,通過比較來尋找最佳路徑。這使得Agent成為比人類激進得多的資料消費者——呼叫頻率高出幾個數量級,資料吞吐量呈指數級增長。


Mai-Lan進一步指出,“現在客戶非常希望建構Agent基礎設施,成本亦或者說性價比,不再是次要因素,而變成決定性因素。在未來半年到一年,隨著Agent的爆發,底層資料服務的選擇將變得至關重要。”


如今,OpenClaw的狂歡正在消退,留下的正是對雲廠商底層存算能力的壓力測試警告。Mai-Lan認為,亞馬遜雲科技在這一領域具備天然優勢,Amazon S3(Amazon Simple Storage Service)的規模、Amazon Redshift與Amazon Athena在高並行下的成本效率,正是為這種超大規模、超高頻的Agent資料互動方式而準備。


時值Amazon S3產品誕生20周年,圍繞AI時代客戶對資料處理的訴求,Amazon S3近期也實現了S3 Table(表格式)、S3 Files(檔案)、S3 Vector(向量)的三大變革。


如S3 Table對Apache Iceberg的原生支援。Mai-Lan指出,Agent在處理資料時,傾向於直接通過SQL與Iceberg格式的資料互動。其底層邏輯在於,Agent建構於大模型之上,而大模型在訓練過程中已對SQL語法和Iceberg資料格式形成成熟的處理能力。將所有表資料以Iceberg格式存放於S3,使得Agent無需學習多種複雜的訪問API,即可高效處理資料。目前Agent與S3及Iceberg之間展現出高度的契合性。


當Iceberg能力被引入S3時,引發了新一輪創新浪潮,Postgres、Oracle等資料來源開始直接寫入Iceberg,Agent系統則可直接與這些表進行互動。而隨著S3 Vectors的推出,越來越多的AI應用開始將向量作為共享記憶載體,從而為AI互動體驗注入“狀態”。


Mai-Lan還指出,向量已被引入作為S3的原生資料類型。向量的應用主要集中於兩個維度:一是通過向量為儲存在S3中的資料建構上下文資訊,二是將向量用作共享記憶。S3 Vectors發佈後的五個月內,市場反饋符合預期。大量客戶開始使用該功能,通過嵌入模型生成向量以豐富資料的上下文。S3 Vectors作為Agent系統記憶空間的使用率呈爆發式增長。


值得一提的是,S3 Files於幾周前發佈,使Agent能夠通過POSIX標準,即檔案系統的方式處理S3中的資料。在Agent系統中,大模型高度關注“檔案”這一形態,無論是Python庫還是Shell指令碼,均為大模型訓練過程中所熟悉的內容,Agent天然傾向於將檔案作為資料介面。


為此,S3 Files的設計思路是在S3儲存桶上掛載一個EFS檔案系統。通過該機制,使用者可以基於POSIX標準在檔案系統中處理S3資料:小檔案可通過EFS快取加速訪問,大檔案則直接從S3進行流式傳輸。這使得Agent能夠以熟悉的檔案系統語言與S3資料實現原生互動,並將共享檔案系統視為來自S3的“共享記憶空間”。


從大模型記憶能力的發展來看,這一進步具有重要意義。當前的AI體驗正逐步引入更深層的對話上下文與個性化互動——無論是在Agent之間、人與Agent之間,還是Agent與資料之間,模型表現均在持續演進。通過檔案系統這一自然介面的進一步擴展,Agent系統的記憶能力有望獲得更深層次的提升。


筆者注意到,從2006年以圖像等半結構化資料為主,到後來的分析型資料,從最初的數倉到資料湖的興起,亞馬遜雲科技目前正大力推動Amazon S3成為承載AI工作負載的關鍵底座,以適應當下客戶的訴求。Mai-Lan認為,Amazon S3的設計核心是以經濟的方式推動主流資料類型增長,並始終堅守資料的可用性、持久性和韌性等準則。而這也正是客戶在20年間持續將其資料業務託付給S3的原因,也將承載其下一個20年的可能。 (鈦媒體AGI)