一文讀懂Agent、harness、Loop等概念：AI的邊界在那？

2026/06/14

•

AI 行業，除了拼算力、卷模型，造詞也是一流的。從注意力機制、AI幻覺，到提示詞工程（Prompt Engineering）、上下文工程（Context Engineering），再到後來的 Agent、Skill、Harness Engineering，直至最近火出圈的 Agent Loop，各種概念眼花繚亂。

但是，拋開商業包裝，這些概念的底層邏輯其實非常簡單。

一、AI在思考嗎？

使用AI時，介面上經常會跳出“思考”、“推理”、“Deep Think”甚至“理解”這些詞。好像AI真的在認真思考一樣。

但事實上，目前所有國內國外主流的大模型，我們看到AI的“那些有模有樣的思考過程”，本質上都是機率模擬。AI生成的答案看起來有邏輯，只是因為它在訓練資料中見過足夠多類似的“邏輯推導文字”，從而模擬出了邏輯推導的機率分佈。說白了，這只是一場機率上的文字接龍遊戲。

AI能回答1+1=2，不是它真的理解了1+1=2，而是它訓練的文字裡面出現了無數次1+1=2。

那憑什麼說人類真的理解1+1=2，AI卻不理解呢？人類能理解1+1=2，是因為我們的數學和邏輯，是建立在對三維物理世界的空間感知、物體操縱和感官體驗之上。我們是真的能看得見，摸得著兩個蘋果。

沒有現實世界參照，所以AI會一本正經地胡說八道，因為它不知道對錯，甚至不知道自己知不知道。它也只是順著機率，繼續模擬出一個正兒八經的答案而已。

這也是為什麼到了2026年，全球頂尖AI巨頭都在押注“世界模型”，試圖讓AI學會通過具身認知理解物理規律。

當然，如果順著這條路一直訓練下去，大語言模型最終能不能“湧現”出真正的智能？沒人說得準。畢竟，我們連人類大腦是如何產生意識的都還沒弄明白。

那現在頂尖大模型在各類權威測試中的精準率都已經超過了90%，上知天文下知地理，表現比普通人強太多。再去糾結它到底“懂不懂邏輯”，還有意義嗎？

有意義，AI下圍棋能推演上百步極少犯錯，因為那是規則完美的“封閉系統”，每一步推演都有最終客觀的輸贏判定，AI能在虛擬棋盤裡不斷靠機率試錯和回溯重來。

而人類在現實中執行的大部分決策，都是沒有標準答案的多步驟復合思考。簡單算筆數學帳：假設AI單步模擬推理正確的機率高達90%（這已經是非常頂級的模型了）。當它執行一個包含20個步驟的複雜任務時，整體邏輯完全走通的機率只有：0.9²⁰ ≈ 0.1215

第一步錯了一點點，第二步就會在這個錯誤的基礎上繼續生成，錯誤像雪球一樣放大。既然多步生成錯誤率很高，該怎麼解決呢？為了防止模型在長篇大論中徹底跑偏或崩潰，工程師們只能強迫模型在絕大多數時候，選擇機率最高、最安全的詞彙。

而這些詞彙，往往就是人類語料庫裡出現次數最多的“套話”、“範本”、“陳詞濫調”。這就是為什麼AI寫一兩百字的短文很驚豔，但讓它寫一篇兩萬字的長文章或商業計畫書，AI味就會很濃，空洞、平庸。

二、Agent、Harness Engineering、Skill、上下文工程是什麼？

既然AI大模型自己搞不定長任務，行業裡又炒火了另一個很容易誤導的概念：AI Agent（智能體）。

很多AI智能體對外宣傳有自主規劃能力，但是，目前市面上越是讓人覺得“好用、靠譜”的Agent，背後越是“傳統軟體工程的勝利”，而不是“人工智慧的進步”。

很多人以為的 Agent：給它一個目標（比如“幫我出一份新能源汽車行業的深度競品調研報告”），AI Agent就會自己去思考該調研那些維度、自己去全網蒐集各家的財報和新聞、自己去對比產品參數、最後自己排版生成一篇完美的商業分析報告。

但事實上，Agent 背後只是一張嚴密的流程圖。上面這些流程不是AI自己想出來的，而是工程師框定在程式碼裡的。在這個過程中，AI根本沒有做任何真正的“邏輯推導”或“全域規劃”。AI只是被工程師當成了一個工具，鑲嵌在傳統軟體流水線上的幾個特定工位裡。

為什麼要這麼做？對於多步驟的開放式任務，如果讓AI自由發揮，它非常容易跑偏，且一步錯步步錯。工程師畫流程圖，寫程式碼，就是為了把長任務拆解成顆粒度細、結果可控的短任務。也就是把“把控方向”交給確定的程式碼，只讓AI在這些被框定好的“子步驟”裡去發揮它的特長，幹好填空題。

這些 AI Agent 的上限，更多取決於人類軟體工程的水平、業務流程的設計，乃至組織架構與人機協同的深度，而不是AI大模型本身的上限。AI Agent越好用，越依賴 CPU 計算，而不是大模型昂貴的 GPU 算力。

這種用程式碼“框住”AI的工程，就是 Harness Engineering。AI 就像失控的野馬，而工程師畫的流程圖和程式碼，就是套在它身上的 Harness（馬具、韁繩）。

所以，好用的Agent = Harness + AI（大模型），Harness是方向盤，AI是發動機。

那Skill呢？

Skill、Harness的概念很多時候是高度重合、模糊的，根本沒有什麼官方標準。比如，上面這個調研報告，GitHub上就有很多類似的Skill下載，既可以說它是Skill，也可以說它是Harness。

我們和 AI 的所有互動，說穿了就是三樣東西的排列組合：提示詞、程式碼邏輯，以及私有資料（或外部介面）。

所以，不管包裝成什麼概念，核心就是：想辦法用確定的程式碼和提示詞，去約束AI機率的不確定性。

而在“資料”層面，也是一樣的，因為AI不懂邏輯、容易被亂七八糟的資訊干擾，所以在給AI喂資料時，要先把資料裡的廢話剔除、梳理好結構，只給它最乾淨、最相關的背景資訊。這就是上下文工程（Context Engineering）。

相比之下，人類接受資訊就沒有這麼麻煩。因為我們懂邏輯，能夠自主篩選和判斷資訊，不那麼依賴整理上下文。

三、Agent Loop是什麼？

最近火起來的 Agent Loop，Anthropic的工程師、Claude Code 負責人 Boris Cherny 曾這樣描述：

“我已經不再給 Claude 寫提示詞了。我讓運行的 Loop 去提示 Claude 並決定下一步做什麼。我現在的工作就是寫 Loop。”

但其實 Agent Loop 並不是什麼新概念。

我們交給 AI 的任務通常分兩種：一種是像寫文章、寫PPT、寫調研報告甚至做決策等，沒有標準答案的開放性任務；另一種是像程式設計這樣的封閉性任務。

對於程式設計這種封閉性任務，需求和最終結果是確定的（要麼跑通，要麼報錯）。但既然大語言模型的本質是機率，它就基本不可能一次性全對。

這時候，就需要提前寫好驗證程式碼（比如測試用例）去檢驗 AI 的輸出。如果不符合要求，驗證程式碼就會自動把報錯資訊扔回給 AI，讓 AI 根據報錯繼續修改，直到跑通為止。這就是循環（Loop）。

Anthropic 的頂尖工程師當然懂，但為什麼又開始強調呢？可能還是生意吧。

AI 程式設計，也就是很火的 Vibe Coding，之所以非常消耗 Token，是因為每一次機率試錯的循環都會累加歷史上下文，修個 Bug 循環十次，Token 消耗直接呈指數級暴漲。這種模式，完美契合了 AI 巨頭按 Token 計費的商業邏輯。

但是，Agent Loop 是有明顯邊界的。Boris Cherny 說“我現在的工作就是寫 Loop”，是因為他身處軟體工程這個少數擁有自動化驗證環境的領域。

而在開放性任務中（如寫報告、做決策），我們很難用程式碼去定義“什麼是正確的決策”，AI 的輸出自然也就無法被客觀驗證。在缺乏自動化驗證環境、試錯成本極高的現實世界裡，人類的經驗、直覺和責任擔當，依然是不可替代的。

所以，目前AI商業價值最確定的領域，主要是程式設計、科研資料處理等封閉式任務。只不過，這一切有個核心前提：必須由真正懂行的人來提出需求。起點依然是人類。 (陸哲如)

科技