Google: 2025年是AI Agents元年;
Sam Altman: 2025年我們能建構出達到AGI L3的Agent。
最新Google發佈了一份關於Agents的白皮書,寫的特別精彩,50多頁的pdf。
現在,我們正在進入一個全新的時代,在這個時代,AI 不僅僅是模型,而是擁有自主思考和行動能力的 agent。它不僅能理解你的指令,還能像人類一樣規劃、推理、並利用外部工具來完成任務,那將帶來怎樣的變革?這正是 AI agent 的核心理念。它們超越了傳統模型的侷限,將 AI 的應用推向了新的高度。
那麼,到底什麼是 agent 呢?簡單來說,agent 是一個能夠觀察世界、思考決策並採取行動的程序。它不是一個被動執行指令的工具,而是一個主動解決問題的智能體。我們可以將其拆解為以下三個核心元件:
- 模型 (Model) :這是 agent 的“大腦”,可以是任何 LLM,比如 Gemini。模型負責理解語言、進行推理和規劃。你可以根據需要選擇不同大小、不同功能的模型。
- 工具 (Tools) :模型再強大,也無法訪問真實世界。工具就像 agent 的“雙手”,讓它可以與外部世界互動。比如,使用 API 查詢天氣,或在資料庫中尋找資訊。
- 編排層 (Orchestration Layer) :如果說模型是 agent 的大腦,那麼編排層就是它的執行機制。它負責協調模型的思考和工具的使用,讓 agent 按部就班地完成任務。編排層中,我們可以使用諸如ReAct、Chain-of-Thought (CoT) 或 Tree-of-Thoughts (ToT) 等推理框架來引導 agent 進行思考。
現在,你可能會問:“agent 和模型到底有什麼區別?”這裡有一個簡單的對比:
下圖是一個在編排層使用 ReAct 推理建構的Agent示例。它基本上通過 1-n 次思考、動作(帶有輸入)和觀察的迭代,以及訪問關鍵工具來嘗試解決問題。
工具是 agent 的核心能力。它們賦予了 agent 與外部系統互動的能力,包括:
- 擴展 (Extensions) :標準化連接 API 的方式,讓 agent 無需關心底層實現細節,可以輕鬆呼叫外部服務。
- 函數 (Functions) :在客戶端執行的自訂程式碼,可實現更精細的資料處理和系統控制。
- 資料儲存 (Data Stores) :讓 agent 可以訪問外部資料來源,如網站、文件、資料庫等,以擴展知識面。
資料儲存通常實現為向量資料庫。也可以為Agent提供各種格式的資料。
除了強大的工具,我們還可以使用以下方法來增強 agent 的學習能力:
- 上下文學習 (In-context learning) :在執行階段提供示例,讓 agent "即時"學習如何使用工具。
- 檢索式上下文學習 (Retrieval-based in-context learning) :動態檢索最相關的知識和例子,來最佳化 agent 的決策。
- 微調 (Fine-tuning) :使用特定資料集微調模型,讓 agent 在特定領域表現更出色。
有了這些強大的元件和技巧,我們可以建構出各種各樣的 agent。例如:
- 旅行規劃助手: 根據使用者的需求,查詢航班、酒店,並生成行程安排。
- 程式碼生成器: 根據使用者的描述,自動編寫程式碼,甚至可以運行並測試。
- 智能客服: 理解使用者的問題,並使用知識庫和工具來提供解答。
Agent 的發展潛力是巨大的,它不僅僅是技術的進步,更是一場思維方式的變革。隨著工具的日益完善和推理能力的不斷提升,agent 將逐漸成為我們工作和生活中不可或缺的一部分。
- 建構 agent 是一個迭代過程,需要不斷嘗試和改進。
- 沒有兩個完全相同的 agent,因為它們都基於 LLM 的生成能力。
- 通過巧妙地運用工具和推理框架,我們可以打造出無限可能。 (探索AGI)