Google說：2025年，Agent改變一切！

2025/01/09

•

Google： 2025年是AI Agents元年；

Sam Altman： 2025年我們能建構出達到AGI L3的Agent。

最新Google發佈了一份關於Agents的白皮書，寫的特別精彩，50多頁的pdf。

Agent：AI 的新邊界，從模型到智能體

現在，我們正在進入一個全新的時代，在這個時代，AI 不僅僅是模型，而是擁有自主思考和行動能力的 agent。它不僅能理解你的指令，還能像人類一樣規劃、推理、並利用外部工具來完成任務，那將帶來怎樣的變革？這正是 AI agent 的核心理念。它們超越了傳統模型的侷限，將 AI 的應用推向了新的高度。

Agent 的核心：不止是模型

那麼，到底什麼是 agent 呢？簡單來說，agent 是一個能夠觀察世界、思考決策並採取行動的程序。它不是一個被動執行指令的工具，而是一個主動解決問題的智能體。我們可以將其拆解為以下三個核心元件：

模型 (Model) ：這是 agent 的“大腦”，可以是任何 LLM，比如 Gemini。模型負責理解語言、進行推理和規劃。你可以根據需要選擇不同大小、不同功能的模型。
工具 (Tools) ：模型再強大，也無法訪問真實世界。工具就像 agent 的“雙手”，讓它可以與外部世界互動。比如，使用 API 查詢天氣，或在資料庫中尋找資訊。
編排層 (Orchestration Layer) ：如果說模型是 agent 的大腦，那麼編排層就是它的執行機制。它負責協調模型的思考和工具的使用，讓 agent 按部就班地完成任務。編排層中，我們可以使用諸如ReAct、Chain-of-Thought (CoT) 或 Tree-of-Thoughts (ToT) 等推理框架來引導 agent 進行思考。

Agent 與模型：關鍵區別

現在，你可能會問：“agent 和模型到底有什麼區別？”這裡有一個簡單的對比：

下圖是一個在編排層使用 ReAct 推理建構的Agent示例。它基本上通過 1-n 次思考、動作（帶有輸入）和觀察的迭代，以及訪問關鍵工具來嘗試解決問題。

工具：連接世界的鑰匙

工具是 agent 的核心能力。它們賦予了 agent 與外部系統互動的能力，包括：

擴展 (Extensions) ：標準化連接 API 的方式，讓 agent 無需關心底層實現細節，可以輕鬆呼叫外部服務。

函數 (Functions) ：在客戶端執行的自訂程式碼，可實現更精細的資料處理和系統控制。

資料儲存 (Data Stores) ：讓 agent 可以訪問外部資料來源，如網站、文件、資料庫等，以擴展知識面。

資料儲存通常實現為向量資料庫。也可以為Agent提供各種格式的資料。

增強 agent 的學習能力

除了強大的工具，我們還可以使用以下方法來增強 agent 的學習能力：

上下文學習 (In-context learning) ：在執行階段提供示例，讓 agent "即時"學習如何使用工具。
檢索式上下文學習 (Retrieval-based in-context learning) ：動態檢索最相關的知識和例子，來最佳化 agent 的決策。
微調 (Fine-tuning) ：使用特定資料集微調模型，讓 agent 在特定領域表現更出色。

Agent 的實際應用：無限可能

有了這些強大的元件和技巧，我們可以建構出各種各樣的 agent。例如：

旅行規劃助手: 根據使用者的需求，查詢航班、酒店，並生成行程安排。
程式碼生成器: 根據使用者的描述，自動編寫程式碼，甚至可以運行並測試。
智能客服: 理解使用者的問題，並使用知識庫和工具來提供解答。

Agent 的未來：一個新時代的開端

Agent 的發展潛力是巨大的，它不僅僅是技術的進步，更是一場思維方式的變革。隨著工具的日益完善和推理能力的不斷提升，agent 將逐漸成為我們工作和生活中不可或缺的一部分。

最後，別忘了：

建構 agent 是一個迭代過程，需要不斷嘗試和改進。
沒有兩個完全相同的 agent，因為它們都基於 LLM 的生成能力。
通過巧妙地運用工具和推理框架，我們可以打造出無限可能。 (探索AGI)