AI 行業,除了拼算力、卷模型,造詞也是一流的。從注意力機制、AI幻覺,到提示詞工程(Prompt Engineering)、上下文工程(Context Engineering),再到後來的 Agent、Skill、Harness Engineering,直至最近火出圈的 Agent Loop,各種概念眼花繚亂。
但是,拋開商業包裝,這些概念的底層邏輯其實非常簡單。
一、AI在思考嗎?
使用AI時,介面上經常會跳出“思考”、“推理”、“Deep Think”甚至“理解”這些詞。好像AI真的在認真思考一樣。
但事實上,目前所有國內國外主流的大模型,我們看到AI的“那些有模有樣的思考過程”,本質上都是機率模擬。AI生成的答案看起來有邏輯,只是因為它在訓練資料中見過足夠多類似的“邏輯推導文字”,從而模擬出了邏輯推導的機率分佈。說白了,這只是一場機率上的文字接龍遊戲。
AI能回答1+1=2,不是它真的理解了1+1=2,而是它訓練的文字裡面出現了無數次1+1=2。
那憑什麼說人類真的理解1+1=2,AI卻不理解呢?人類能理解1+1=2,是因為我們的數學和邏輯,是建立在對三維物理世界的空間感知、物體操縱和感官體驗之上。我們是真的能看得見,摸得著兩個蘋果。
沒有現實世界參照,所以AI會一本正經地胡說八道,因為它不知道對錯,甚至不知道自己知不知道。它也只是順著機率,繼續模擬出一個正兒八經的答案而已。
這也是為什麼到了2026年,全球頂尖AI巨頭都在押注“世界模型”,試圖讓AI學會通過具身認知理解物理規律。
當然,如果順著這條路一直訓練下去,大語言模型最終能不能“湧現”出真正的智能?沒人說得準。畢竟,我們連人類大腦是如何產生意識的都還沒弄明白。
那現在頂尖大模型在各類權威測試中的精準率都已經超過了90%,上知天文下知地理,表現比普通人強太多。再去糾結它到底“懂不懂邏輯”,還有意義嗎?
有意義,AI下圍棋能推演上百步極少犯錯,因為那是規則完美的“封閉系統”,每一步推演都有最終客觀的輸贏判定,AI能在虛擬棋盤裡不斷靠機率試錯和回溯重來。
而人類在現實中執行的大部分決策,都是沒有標準答案的多步驟復合思考。簡單算筆數學帳:假設AI單步模擬推理正確的機率高達90%(這已經是非常頂級的模型了)。當它執行一個包含20個步驟的複雜任務時,整體邏輯完全走通的機率只有:0.9²⁰ ≈ 0.1215
第一步錯了一點點,第二步就會在這個錯誤的基礎上繼續生成,錯誤像雪球一樣放大。既然多步生成錯誤率很高,該怎麼解決呢?為了防止模型在長篇大論中徹底跑偏或崩潰,工程師們只能強迫模型在絕大多數時候,選擇機率最高、最安全的詞彙。
而這些詞彙,往往就是人類語料庫裡出現次數最多的“套話”、“範本”、“陳詞濫調”。這就是為什麼AI寫一兩百字的短文很驚豔,但讓它寫一篇兩萬字的長文章或商業計畫書,AI味就會很濃,空洞、平庸。
二、Agent、Harness Engineering、Skill、上下文工程是什麼?
既然AI大模型自己搞不定長任務,行業裡又炒火了另一個很容易誤導的概念:AI Agent(智能體)。
很多AI智能體對外宣傳有自主規劃能力,但是,目前市面上越是讓人覺得“好用、靠譜”的Agent,背後越是“傳統軟體工程的勝利”,而不是“人工智慧的進步”。
很多人以為的 Agent:給它一個目標(比如“幫我出一份新能源汽車行業的深度競品調研報告”),AI Agent就會自己去思考該調研那些維度、自己去全網蒐集各家的財報和新聞、自己去對比產品參數、最後自己排版生成一篇完美的商業分析報告。
但事實上,Agent 背後只是一張嚴密的流程圖。上面這些流程不是AI自己想出來的,而是工程師框定在程式碼裡的。在這個過程中,AI根本沒有做任何真正的“邏輯推導”或“全域規劃”。AI只是被工程師當成了一個工具,鑲嵌在傳統軟體流水線上的幾個特定工位裡。
為什麼要這麼做?對於多步驟的開放式任務,如果讓AI自由發揮,它非常容易跑偏,且一步錯步步錯。工程師畫流程圖,寫程式碼,就是為了把長任務拆解成顆粒度細、結果可控的短任務。也就是把“把控方向”交給確定的程式碼,只讓AI在這些被框定好的“子步驟”裡去發揮它的特長,幹好填空題。
這些 AI Agent 的上限,更多取決於人類軟體工程的水平、業務流程的設計,乃至組織架構與人機協同的深度,而不是AI大模型本身的上限。AI Agent越好用,越依賴 CPU 計算,而不是大模型昂貴的 GPU 算力。
這種用程式碼“框住”AI的工程,就是 Harness Engineering。AI 就像失控的野馬,而工程師畫的流程圖和程式碼,就是套在它身上的 Harness(馬具、韁繩)。
所以,好用的Agent = Harness + AI(大模型),Harness是方向盤,AI是發動機。
那Skill呢?
Skill、Harness的概念很多時候是高度重合、模糊的,根本沒有什麼官方標準。比如,上面這個調研報告,GitHub上就有很多類似的Skill下載,既可以說它是Skill,也可以說它是Harness。
我們和 AI 的所有互動,說穿了就是三樣東西的排列組合:提示詞、程式碼邏輯,以及私有資料(或外部介面)。
所以,不管包裝成什麼概念,核心就是:想辦法用確定的程式碼和提示詞,去約束AI機率的不確定性。
而在“資料”層面,也是一樣的,因為AI不懂邏輯、容易被亂七八糟的資訊干擾,所以在給AI喂資料時,要先把資料裡的廢話剔除、梳理好結構,只給它最乾淨、最相關的背景資訊。這就是上下文工程(Context Engineering)。
相比之下,人類接受資訊就沒有這麼麻煩。因為我們懂邏輯,能夠自主篩選和判斷資訊,不那麼依賴整理上下文。
三、Agent Loop是什麼?
最近火起來的 Agent Loop,Anthropic的工程師、Claude Code 負責人 Boris Cherny 曾這樣描述:
“我已經不再給 Claude 寫提示詞了。我讓運行的 Loop 去提示 Claude 並決定下一步做什麼。我現在的工作就是寫 Loop。”
但其實 Agent Loop 並不是什麼新概念。
我們交給 AI 的任務通常分兩種:一種是像寫文章、寫PPT、寫調研報告甚至做決策等,沒有標準答案的開放性任務;另一種是像程式設計這樣的封閉性任務。
對於程式設計這種封閉性任務,需求和最終結果是確定的(要麼跑通,要麼報錯)。但既然大語言模型的本質是機率,它就基本不可能一次性全對。
這時候,就需要提前寫好驗證程式碼(比如測試用例)去檢驗 AI 的輸出。如果不符合要求,驗證程式碼就會自動把報錯資訊扔回給 AI,讓 AI 根據報錯繼續修改,直到跑通為止。這就是循環(Loop)。
Anthropic 的頂尖工程師當然懂,但為什麼又開始強調呢?可能還是生意吧。
AI 程式設計,也就是很火的 Vibe Coding,之所以非常消耗 Token,是因為每一次機率試錯的循環都會累加歷史上下文,修個 Bug 循環十次,Token 消耗直接呈指數級暴漲。這種模式,完美契合了 AI 巨頭按 Token 計費的商業邏輯。
但是,Agent Loop 是有明顯邊界的。Boris Cherny 說“我現在的工作就是寫 Loop”,是因為他身處軟體工程這個少數擁有自動化驗證環境的領域。
而在開放性任務中(如寫報告、做決策),我們很難用程式碼去定義“什麼是正確的決策”,AI 的輸出自然也就無法被客觀驗證。在缺乏自動化驗證環境、試錯成本極高的現實世界裡,人類的經驗、直覺和責任擔當,依然是不可替代的。
所以,目前AI商業價值最確定的領域,主要是程式設計、科研資料處理等封閉式任務。只不過,這一切有個核心前提:必須由真正懂行的人來提出需求。起點依然是人類。 (陸哲如)
