#AI替身 | 熱門關鍵字 | 鉅亨號

【新智元導讀】Google最新發佈的76頁AI智能體白皮書，深入剖析了智能體的應用前景。智能體通過感知環境、呼叫工具和自主規劃，能夠完成複雜任務並做出高級決策。從智能體維運（AgentOps）到多智能體協作，這份白皮書為AI智能體指明了方向。近日，Google發表了76頁的AI智能體白皮書！智能體通過感知環境，並利用工具策略性地採取行動，實現特定目標。其核心原理，是將推理能力、邏輯思維以及獲取外部資訊的能力融合，完成一些基礎模型難以實現的任務，做出更複雜的決策。這些智能體具備自主運行的能力，它們可以追尋目標，主動規劃後續行動，無需明確指令就能行動。參考連結：https://www.kaggle.com/whitepaper-agent-companion白皮書深入探討了智能體的評估方法，介紹了Google智能體產品在實際應用中的情況。參與過生成式AI開發的人都知道，從一個創意發展到概念驗證階段並不難，但想保證最終成果的高品質，並將其投入實際生產，就沒那麼簡單了。在將智能體部署到生產環境時，質量和可靠性是最大的問題，智能體維運（AgentOps）流程是最佳化智能體建構過程的有效方案。智能體維運過去兩年，生成式AI（GenAI）發生了巨大變革，企業客戶越來越關注如何將解決方案真正應用到實際業務中。智能體與維運（AgentOps）屬於生成式AI維運的一個分支，重點關注如何讓智能體更高效地運行。AgentOps新增了一些關鍵元件，包括對內部和外部工具的管理、智能體核心提示（像目標、配置檔案、操作指令）的設定與編排、記憶功能的實現，任務分解等。開發維運（DevOps）是整個技術營運體系的基石。模型應用開發在一定程度上繼承了DevOps的理念和方法，機器學習維運（MLOps）則是在DevOps的基礎上，針對模型的特點發展而來的。維運離不開版本控制、通過持續整合 / 持續交付（CI/CD）實現的自動化部署、測試、日誌記錄、安全保障，以及指標衡量等能力。每個系統通常會根據指標進行最佳化，衡量系統的工作情況、評估結果和業務指標，然後通過自動化流程獲取更全面的指標，一步步提升系統性能。不管叫「A/B測試」「機器學習維運」，還是「指標驅動開發」，本質上都基於相同的理念，AgentOps中也會遵循這些原則。需要注意的是，新的技術實踐並不會完全取代舊的。DevOps和MLOps中的優秀實踐經驗，對於AgentOps來說依然不可或缺，它們是AgentOps順利運行的基礎。比如，智能體呼叫工具時會涉及API，而這個過程中用到的API，和非智能體軟體使用的API是一樣的。智能體成功指標大多數智能體都是圍繞完成特定目標設計的，目標完成率是一個關鍵指標。一個大目標往往可以細分成幾個關鍵任務，或者涉及一些關鍵的使用者互動環節。這些關鍵任務和互動都應單獨監測和評估。每個業務指標、目標，或者關鍵互動資料，都會按照常見的方式進行彙總統計，比如計算嘗試次數、成功次數、成功率等。另外，從應用程式遙測系統獲取的指標，像延遲、錯誤率等，對智能體也非常重要。監測這些高級指標，是瞭解智能體運行狀況的重要手段。使用者反饋也是一個不可忽視的指標。在智能體或任務執行的過程中，一個簡單的反饋表，就能幫助瞭解智能體那些地方表現得好，那些地方還需要改進。這些反饋可能來自普通使用者，也可能是企業員工、質量檢測人員，或者是相關領域的專家。智能體評估想把概念驗證階段的智能體，變成可以真正投入生產使用的產品，一個強大的自動化評估框架必不可少。評估智能體能力在評估特定的智能體應用場景之前，可以先參考一些公開的基準測試和技術報告。對很多基本能力，像模型性能、是否會產生幻覺、工具呼叫和規劃能力等，都有公開的基準測試。例如，伯克利函數呼叫排行榜（BFCL）和τ-bench等基準測試，就能展示智能體的工具呼叫能力。PlanBench基準測試，則專注於評估多個領域的規劃和推理能力。工具呼叫和規劃只是智能體能力的一部分。智能體行為，會受到它所使用的LLM和其他元件的影響。智能體和使用者的互動方式，在傳統的對話設計系統和工作流系統中也有跡可循，可以借鑑這些系統的評估指標和方法，來衡量智能體的表現。AgentBench這樣的綜合智能體基準測試，會在多種場景下對智能體進行全面評估，測試從輸入到輸出的整體性能。現在，很多公司和組織針對特定的應用場景，設立了專門的公開基準測試，如Adyen的資料分析排行榜DBAStep。大多數基準測試報告中，都會討論智能體常見的失敗模式，這能為建立適合應用場景的評估框架提供思路。除了參考公開評估，還要在各種不同的場景中測試智能體的行為。可以模擬使用者和智能體的互動過程，觀察它的回應，不僅要評估最終給出的答案，還要關注它得出答案的過程，也就是行動軌跡。軟體工程師可以把智能體評估和程式碼的自動化測試聯絡起來。在程式碼測試中，自動化測試能節省時間，還能讓開發者對軟體質量更有信心。對於智能體來說，自動化評估同樣如此。精心準備評估資料集非常重要，它要能精準反映智能體在實際應用中會遇到的情況，這點甚至比軟體測試中的資料集準備還要關鍵。評估行動軌跡和工具使用智能體在回覆使用者之前，通常會執行一系列操作。比如，它可能會對比使用者輸入和會話歷史，消除某個術語的歧義；也可能尋找政策文件、搜尋知識庫，或者呼叫API來保存票據。這些操作中的每一個，都是其達成目標路徑上的一個步驟，也被稱為行動軌跡。每次智能體執行任務時，都存在這樣一條行動軌跡。對開發者來說，對比智能體實際採取的行動軌跡和預期的行動軌跡，非常有助於發現問題。通過對比，能夠找出錯誤或效率低下的環節，提升智能體的性能。不過，並非所有指標都適用於每種情況。有些應用場景要求智能體必須嚴格按理想的行動軌跡執行，而有些場景則允許一定的靈活性和偏差。這種評估方法也存在明顯的侷限性，那就是需要有一個參考行動軌跡作為對比依據。評估最終響應最終響應評估，其實核心是：智能體有沒有實現既定目標？可以根據自身的需求，制定自訂的成功標準來衡量這一點。比如，評估一個零售聊天機器人能否精準回答產品相關問題；或者判斷一個研究智能體，能不能用恰當的語氣和風格，有效地總結研究成果。為了實現評估過程的自動化，可以使用自動評分器。自動評分器本質上是一個LLM，它扮演著評判者的角色。給定輸入提示和智能體生成的響應後，自動評分器會依據使用者預先設定的一組標準，對響應進行評估，以此模擬人類的評估過程。不過要注意，由於這種評估可能沒有絕對的事實依據作為參照，精確地定義評估標準就顯得尤為關鍵。人機協同評估人機協同評估在一些需要主觀判斷、創造性解決問題的任務中，有很大的價值。同時，它還能用來校準和檢驗自動化評估方法，看其是否真的有效，是否符合預期。人機協同評估主要有以下優點：主觀性：人類能夠評估一些難以量化的特質，像創造力、常識以及一些細微的差別，這些是機器較難把握的。情境理解：人類評估者可以從更廣泛的角度，考慮智能體行動的背景以及產生的影響，做出更全面的判斷。迭代改進：人類給出的反饋，能為最佳化智能體的行為和學習過程，提供非常有價值的見解，助力智能體不斷最佳化。評估評估者：人類反饋還能為校準和最佳化自動評分器提供參考，讓自動評分器的評估更加精準。多模態生成（如圖像、音訊、視訊）的評估，則更為複雜，需要專門的評估方法和指標。多智能體及其評估如今，AI系統正朝著多智能體架構方向發生變革。在這種架構中，多個具有專業能力的智能體相互協作，共同完成複雜的目標。多智能體系統就好比是一個由專家組成的團隊，各自在擅長的領域發揮專長。每個智能體都是一個獨立的個體，它們可能使用不同的LLM，承擔獨特的角色，並且有著不同的任務背景。這些智能體通過相互溝通、協作，來實現共同的目標。這和傳統的單智能體系統有很大區別，在單智能體系統中，所有任務都由一個LLM來處理。理解多智能體架構多智能體架構會把一個複雜問題拆解成不同的任務，交給專門的智能體去處理。每個智能體都有明確的角色，它們之間動態互動，以此最佳化決策過程、提升知識檢索效率、確保任務順利執行。這種架構實現了更有條理的推理方式、去中心化的問題解決模式，以及可擴展的任務自動化處理。多智能體系統運用了模組化、協作和分層的設計原則，建構出一個強大的AI生態系統。智能體可以根據功能分為不同類型，例如：規劃智能體：負責將高層次的目標拆解成一個個結構化的子任務，為後續工作制定詳細計畫。檢索智能體：通過動態地從外部獲取相關資料，最佳化知識獲取過程，為其他智能體提供資訊支援。執行智能體：承擔具體的計算工作，生成響應內容，或者與 API 進行互動，實現各種實際操作。評估智能體：對其他智能體生成的響應進行監控和驗證，確保符合任務目標，並且邏輯連貫、精準無誤。通過這些元件的協同工作，多智能體架構不再侷限於簡單的基於提示的互動方式，實現了自適應、可解釋且高效的AI驅動工作流程。多智能體評估多智能體系統評估是在單智能體系統評估的基礎上發展而來的。智能體的成功指標在本質上並沒有改變，業務指標依然是核心關注點，其中包括目標和關鍵任務的完成情況，以及應用程式遙測指標，如延遲和錯誤率等。通過對多智能體系統運行過程的跟蹤記錄，有助於在複雜的互動過程中發現問題、偵錯系統。評估行動軌跡和評估最終響應這兩種方法，同樣適用於多智能體系統。在多智能體系統中，一個完整的行動軌跡可能涉及多個甚至所有智能體的參與。即便多個智能體共同協作完成一個任務，最終呈現給使用者的是一個單一的答案，這個答案可以單獨進行評估。由於多智能體系統的任務流程通常更為複雜，步驟更多，所以可以深入到每個步驟進行細緻評估。行動軌跡評估是一種可行的、可擴展的評估方法。智能體增強檢索生成在智能體增強檢索生成（Agentic RAG）中，智能體會通過多次搜尋來獲取所需資訊。在醫療保健領域，智能體增強檢索生成可以幫助醫生瀏覽複雜的醫學資料庫、研究論文和患者記錄，為他們提供全面、精準的資訊。Vertex AI Search是一個完全託管的、具有Google品質的搜尋與檢索增強生成（RAG）服務提供商。涵蓋資料收集、處理、嵌入、索引 / 排序、生成、驗證和服務等流程。Vertex AI Search擁有佈局解析器、向量排序API等元件，還提供RAG引擎，通過Python SDK進行編排，支援眾多其他元件。對於希望建構自己搜尋引擎的開發者，上述每個元件都作為獨立的API開放，RAG引擎能借助類似LlamaIndex的Python介面輕鬆編排整個流程。企業中的智能體企業開發並使用智能體，協助員工執行特定任務，或在後台自動化運行。商業分析師借助AI生成的見解，能輕鬆挖掘行業趨勢，製作極具說服力的資料驅動型簡報；人力資源團隊可利用智能體最佳化員工入職流程。軟體工程師依靠智能體，能主動發現並修復漏洞，更高效地進行開發迭代，加快部署處理程序。行銷人員利用智能體，能深入分析行銷效果，最佳化內容推薦，靈活調整行銷活動以提升業績。目前，有兩類智能體嶄露頭角：助手型智能體：這類智能體與使用者進行互動，接收任務並執行，然後將結果反饋給使用者。助手型智能體既可以是通用的，也可以專門針對特定領域或任務。例如，幫助安排會議、分析資料、編寫程式碼、撰寫行銷文稿、協助銷售人員把握銷售機會的智能體，甚至還有根據使用者要求對特定主題進行深入研究的智能體。它們響應方式不同，有些能快速同步返回資訊或完成任務，有些則需要較長時間運行（比如深度研究型智能體）。自動化智能體：這類智能體在背景執行，監聽事件，監測系統或資料的變化，然後做出合理決策並採取行動。這些行動包括操作後端系統、進行測試驗證、解決問題、通知相關員工等。如今，知識工作者不再只是簡單地呼叫智能體執行任務並等待結果，他們正逐漸轉型為智能體的管理者。為了便於管理，未來會出現新型使用者介面，實現對多智能體系統的編排、監控和管理，這些智能體既能執行任務，還能呼叫甚至建立其他智能體。NotebookLM企業版NotebookLM是一款研究和學習工具，旨在簡化複雜資訊的理解與整合流程。使用者可以上傳各種源材料，如文件、筆記和其他相關檔案，NotebookLM借助AI技術，助力使用者更深入地理解這些內容。想像一下，在研究複雜主題時，NotebookLM能把零散的資料整合到一個有序的工作空間。本質上，NotebookLM就像一個專屬研究助手，加速研究處理程序，幫助使用者從單純的資訊收集邁向深度理解。NotebookLM企業版將這些功能引入企業環境，簡化員工的資料互動方式，幫他們從中獲取有價值的見解。例如，AI生成的音訊摘要功能，使用者可以通過「聽」研究內容來提升理解效率，促進知識吸收。NotebookLM企業版融入了企業級的安全和隱私功能，嚴格保護敏感的公司資料，符合相關政策要求。Agentspace空間企業版Google Agentspace提供了一套由AI驅動的工具，旨在通過方便員工獲取資訊，自動化複雜的智能體工作流程，提升企業生產力。Agentspace有效解決了傳統知識管理系統的固有缺陷，通過整合分散的內容源，生成有依據且個性化的回覆、簡化業務流程，幫助員工高效獲取資訊。Agentspace企業版的架構基於多個核心原則建構。安全性始終是Google Agentspace的首要關注點。員工可以通過它獲取複雜問題的答案，還能統一訪問各類資訊源，無論是文件、郵件等非結構化資料，還是表格等結構化資料。企業可根據自身需求配置一系列智能體，用於深度研究、創意生成與最佳化、資料分析等工作。智能體空間企業版還支援建立定製化的AI智能體，滿足特定業務需求。該平台能夠開發和部署具有上下文感知能力的智能體，幫助行銷、財務、法律、工程等各部門員工高效開展研究、快速生成內容，並實現重複性任務（包括多步驟工作流程）的自動化。定製智能體可連接內外部系統和資料，貼合公司業務領域和政策要求，甚至能基於專有業務資料訓練模型。多智能體架構實際應用為了說明多智能體概念在實際中的應用，來看一個專為汽車設計的綜合多智能體系統。在這個系統中，多個專用智能體協同工作，為使用者帶來便捷、流暢的車內體驗。對話式導航智能體：專門用於幫助使用者尋找位置、推薦地點，並借助Google Places和Maps等API進行導航。對話式媒體搜尋智能體：專注於幫使用者尋找和播放音樂、有聲讀物和播客。消息撰寫智能體：幫助使用者在駕駛時起草、總結和傳送消息或電子郵件。汽車手冊智能體：借助檢索增強生成（RAG）系統，專門解答與汽車相關的問題。通用知識智能體：解答關於世界、歷史、科學、文化及其他通用主題的事實性問題。多智能體系統將複雜任務拆解為多個專業子任務。在這種架構下，每個智能體專注於特定領域。這種專業化使整個系統更加高效。導航智能體專注於定位和路線規劃；媒體搜尋智能體精通音樂和播客資源尋找；汽車手冊智能體擅長解決車輛相關問題。系統會根據任務難度分配資源，簡單任務用低配置資源，複雜任務再呼叫高性能資源。關鍵功能（如調節溫度、開窗等）由裝置端智能體快速響應，而像餐廳推薦這類非緊急任務則交給雲端智能體。這種設計還具備天然的容錯能力。網路連線中斷時，裝置端智能體仍能保證基本功能正常運行，比如溫度控制和基本媒體播放不受影響，只是暫時無法獲取餐廳推薦。 (新智元)