#Harness
李開復陸奇重倉同一家Harness智能體公司,李笛帶隊,4個月2輪融資3-5年糧草
多智能體賽道爆發,Harness成為破局關鍵,資本加速佈局。剛剛,成立僅四個多月的AI初創公司明日新程(Nextie),宣佈連續完成兩輪融資。其中,天使輪由創新工場、Atypical Ventures聯合領投,奇績創壇繼續跟投。原微軟全球副總裁David Ku等個人投資者,以及公司獨家財務顧問安可資本等,也紛紛看好入局。公司表示,當前資金儲備已夠未來三到五年持續創新所需。幕後掌舵人,正是“小冰之父”、微軟亞洲互聯網工程院原副院長李笛,以及與他並肩多年的微軟小冰創始核心班底。△李笛在奇績創壇路演日上壓軸登場在一級市場整體降溫、機構出手愈發審慎的當下,一家成立不到半年的公司卻能連融兩輪,更迎來陸奇、李開復兩大AI圈頂級“風向標投資人”罕見同框、同步押注,這本身就是一種訊號,體現了資本對其團隊、技術、賽道的多重認可。所以這筆資金將投向何方?團隊給出的答案很明確,大方向只有一個——Harness群體多智能體。當下,無論是持續霸屏的OpenClaw,還是近期風頭正盛的Hermes Agent,AI Agent正以前所未有的熱度席捲整個行業。隨著實踐的不斷深入,Harness的價值逐漸清晰。包括OpenAI、Anthropic在內,越來越多頂尖團隊已意識到,Harness是智能體落地的核心支撐。有意思的是,這個判斷,明日新程團隊負責人李笛早在去年就已給出。去年12月7日,奇績創壇Demo Day上,李笛壓軸登場,系統性拋出群體智能理論,並對Harness趨勢有了準確預判和率先佈局。雖然他本人很低調:我們現在其實都比較羞於說我們早就看到了什麼,這個是沒有用的。這個世界上永遠都是,你做它比你看到它要難得多。就像《駭客帝國》裡有句話,知道路與走路,二者截然不同。如今,該賽道已成為投資人佈局AI下半場的核心標的。而明日新程,也已在這一領域形成了領跑態勢。Harness為何會成為行業共識?明日新程又憑什麼能夠殺出重圍?團隊下一步又將如何落地?量子位與李笛聊了聊。糧草已備,重倉佈局Harness群體多智能體OpenClaw火遍全網,無疑為智能體賽道按下了加速鍵,讓行業第一次真切看到了智能體主動幹活的潛力。但當人們開始把它當“正式員工”用時,問題來了。這事兒要說還得Meta最有發言權……Meta安全對齊總監Summer Yue的信箱,曾一夜之間被OpenClaw清空所有郵件。此事過去沒多久,OpenClaw未經授權擅自行動,將敏感的公司和使用者資料,洩露給無權限員工長達近倆小時。究其原因,該框架在工程實現上,尚處於早期階段,缺乏Harness等級的技術注入。在處理24小時以上的長程複雜任務時,其Token消耗量巨大,效果卻常常不盡如人意,穩定性與安全性仍有很大提升空間。用李笛的話來說,任何一個超級智能個體,無論它的智能水平達到什麼程度,都一定有盲區,沒有辦法自我糾偏。而當超級智能個體處理長程任務時,錯誤會隨著時間累積被指數級放大。隨著行業實踐的深入,AI廠商逐漸關注到這一問題。Harness,如今已成為AI工程領域的新共識。所以,Harness到底是什麼?從本質來看,Harness意為“馬具”,類比到AI領域,就是連接“模型(馬匹)”與“人類需求(騎手)”的核心框架。它不直接參與任務執行,卻能通過明確的約束、規範與協同機制,引導多智能體高效協作,避免失控,實現“約束換自主”的核心價值,這也是其區別於Prompt Engineering、Context Engineering的核心所在。今年2月,OpenAI發佈官方Blog《Harness Engineering: Leveraging Codex in an Agent-First World》,通過實驗證明AI是可以獨立完成全流程開發的執行主體,但必須有一套框架來駕馭它。通過Harness Engineering,3人工程師小組在5個月時間裡,可以利用Agent建構百萬行程式碼的產品。Anthropic最近也發佈了新Agent架構Managed Agents,技術文件中也有反覆強調“Agent Harness”。而明日新程在這條路上,堅持得比別人更專注一些。不同於行業內對Harness的單一架構解讀,明日新程所佈局的“Harness群體多智能體”,是將Harness工程化理念與群體智能深度融合的全新體系。它並非簡單的“多智能體+約束規則”,而是以原生群體智能與認知模型為核心,讓眾多具備不同認知能力、不同功能定位的Agent,按照明確的規則協同工作、互相校驗、迭代最佳化。李笛進一步解釋,Nextie的Harness核心包含三個關鍵元件:上下文管理、參與其中的多智能體、多智能體協同方法。其中,多智能體協同方法最為關鍵,團隊內部將其稱為“認知碰撞”,即通過辯論、挑戰、反思、同行評審、投票等方式,讓多智能體真正實現思辨與互補,而非“表演式一致”。上下文管理,則確保多智能體在協同過程中獲取的資訊精準、全面且適度,避免因資訊過載或偏差導致荒謬結果;Agent池最佳化,指的是根據任務需求動態搭配不同角度、不同功能的Agent,實現協同效率最大化。這種體系既能解決OpenClaw等框架的長程協同痛點,讓多智能體在長周期任務中保持穩定高效;又能通過群體思辨、共識機制,打破單一Agent的認知盲區,輸出經過權衡的最優解,真正實現“群體智能大於個體智能之和”。這也是明日新程對多智能體賽道未來的核心判斷。這其中的種種思考,繞不開一個詞——協同。“協同”這道題,他們在小冰時代就思考了李笛團隊的佈局並非一時興起。“自2022年以來,我們一直在準備這個時刻”,李笛把這段蟄伏期拆成了幾個關鍵節點。第一個節點,是在2022年底。彼時,Transformer架構的合理性已被徹底驗證,其顛覆性潛力讓行業看到了全新可能。在當時,團隊受到了決策體系的限制,但李笛最終還是帶著團隊自籌算力,把這條線先跑了起來:我們手裡有一套基於上一代技術的框架。我們能清晰感知到框架本身的潛力,但它被上一代技術拖累了。當看到新技術出現時,我們眼前一亮,很多過去棘手的難題,終於有了破解的可能。但興奮之餘,一個更為根本的問題浮現出來:有些障礙,不是靠模型能力變強就能繞過去的。這個問題,種子早在小冰時代就已埋下。團隊最初的目標就不止於打造一個“小冰”,而是建構千千萬萬個能精準匹配使用者需求、且彼此配合的AI。但實踐中他們發現,單個Agent再聰明,一旦放進多智能體場景,局面就失控了。要麼是“表演式一致”,表面上一團和氣,實則誰都沒往深裡想;要麼互相衝突內耗,整體效率還不如單干。完全依賴模型自身驅動協同,遠遠不夠。於是,一條新的研究方向被李笛團隊單獨闢出來:多智能體之間,到底應該怎麼協作?在他們看來,唯一的參考藍本,就是人類社會。畢竟,人類是迄今所知的、唯一實現了大規模高級認知協同,並持續產出價值的群體。為此,團隊還專門梳理了1800-2020年整整220年的人類文獻,只為拆解“群體智慧”的演進脈絡。時間來到2023年年初,團隊提出CoT是關鍵。他們自研了“小冰鏈”(X-CoTA),驗證了思考過程透明化的核心價值。小冰鏈僅使用了GPT-3約2%的參數量,便實現了可觀測、可追溯的思維鏈建構,並能夠在推理過程中即時獲取外部資訊、做出行動決策。實際上,CoT也是多智能體協同大計畫中的一塊關鍵拼圖。在團隊的構想裡,真正高效的協同,不能只共享結論,更要同步思考過程。就像人與人協作,只有知道對方的推導邏輯,而非僅僅拿到一個結果,才能實現超越表層的深度配合。到了2023年年底,團隊做的開源大模型性能超越了Meta同期產品。他們欲乘勢而上,提出研發推理模型的新計畫,但在當時的決策框架下,這個方向再次被擱置。2025年12月9日,李笛帶領微軟小冰創始核心團隊成立新公司明日新程(Nextie)。如今,技術條件、市場環境、團隊狀態終於迎來同頻共振的時刻。團隊現在手握完全的決策權,可以心無旁騖地深耕Harness群體多智能體賽道。延續對“多智能體協同”的長期思考,明日新程團隊組建之初,便將核心方向鎖定為原生群體智能與認知模型。今年2月份,團隊打造的首個原生群體智能平台——“糰子(tuanzi.ai)”發佈內測版。量子位在產品剛發佈時,就上手實測過:使用者提出問題後,幾十個Agent成團“圍坐一桌”,各抒己見、互相補充、辯論交鋒,甚至還有投票表決、同行評審這樣的專業環節。它不追求單一智能體的能力極致,而是聚焦“群體協同價值”,既能勝任高認知複雜度的深度研究任務(通過多智能體思辨、碰撞,破解單一模型的認知侷限),也能適配以OpenClaw為代表的長程多智能體協同、大規模群體模擬等核心場景,真正將Harness理念落地到了產品層面。在團隊設計的視角完備性、辯證深度、落地實操性、隱含訴求滿足度、決策五維度評測指標中,Nextie綜合表現顯著優於競品。不僅超過了包括ChatGPT-5.2 Thinking在內的單一大模型;同時,在達到同等思考深度的情況下,整體計算消耗(Token)可降低約50%。此外,前段時間引發關注的“衛士蝦”TuanziGuardianClaw,則是群體智能能力的又一次實戰驗證。這只專門堵OpenClaw安全漏洞的Agent,完全由糰子群體智能體自主協同設計而成。量子位還打探到,目前明日新程內部大量使用Agent作為“人機共生的同事”,採用“常駐Agent+臨時Agent”的協作模式——常駐Agent負責常規開發與產品設計,臨時Agent根據具體任務需求動態補充。“衛士蝦”就是安全領域的臨時Agent與常駐Agent協同完成的。“小冰島”將以新形態重現談到近期產品規劃,李笛向我們透露了團隊醞釀已久的全新動作。他們正在全力打造一款形態接近“小冰島”的全新產品。它不再侷限於簡單陪伴,而是能夠協同完成各類複雜、長期任務,讓一群Agent真正做到幫使用者幹活、陪使用者成長,並在持續互動中與使用者建立深度繫結關係。李笛表示,新產品最大的延續,在於小冰島最初的設計理念:觀察圍繞每一個人,究竟配備一群怎樣的Agent才是最適配的。每個人的需求不同,有人需要工作支援與情感陪伴兼顧,有人更需要理性、專業的決策輔助。我們要做的,就是讓Agent群體真正貼合使用者本身。而產品最核心的升級,則是技術層面的全面迭代,深度融入糰子的Harness群體智能能力。李笛解釋,當年做小冰時,受限於技術水平,很多複雜的協同邏輯只能靠工程抹平,無法實現真正的智能協同;如今有了大模型與Harness,終於能實現當初的設想。以前在小冰島上,你告訴一個AI“我失戀了”,這個AI無法判斷是否要把這個私密資訊傳遞給其它AI,要麼所有人都來安慰你,讓你尷尬;要麼只有這一個AI知道,無法形成真正的情感支援。但現在,Agent會通過智能判斷,做出最合理的反應,你的每一次互動,都會在Agent群體中產生智能、合理的漣漪。未來,使用者可以擁有一組像OpenClaw一樣的自主Agent,他們能夠根據你的自身需求靈活調整。換句話說,這群Agent,從來都只是為你而存在。由此,這也將打開多智能體全新的應用場景。By the way,新版“小冰島”預計本月底推出~ (量子位)
Anthropic Harness:AI Agent從“野馬”到“戰車”的工程哲學
Harness開始自主進化越來越薄薄成鎧甲。在AI從聊天機器人邁向真正自主Agent的當下,最棘手的不是模型本身有多聰明,而是如何讓它在漫長的任務中不跑偏、不崩潰、不半途而廢。2026年3月,Anthropic在其工程部落格上發表了一篇重量級文章《Harness design for long-running application development》,系統拆解了他們為Claude設計的“Harness”(馬具/韁繩)架構。這不是一次簡單的提示詞最佳化,而是對Agentic Coding(代理式編碼)底層工程的深刻反思——模型越強,Harness反而需要越精簡,但絕不能消失。什麼是Harness?為什麼它突然成了前沿關鍵詞?簡單來說,Harness就是包裹在LLM周圍的完整軟體基礎設施:它包括編排循環、工具呼叫、記憶管理、上下文壓縮、錯誤處理、守衛欄(guardrails)和多Agent協作機制。Anthropic把Claude Agent SDK本身就稱為“a powerful, general-purpose agent harness”。它不是給模型加一層prompt那麼簡單,而是把模型變成一個可控、可持久、可迭代的“系統”。上篇深度扒光Anthropic Claude Code 8大新功能+6級安全架構中,詳解了三層“Self-Healing Memory”自癒永久記憶架構和聲明式可組合權限。今天再看看Harness是怎麼做到的?早期Agent在長時任務中常遇兩大頑疾:上下文焦慮(context anxiety):模型在超長上下文裡突然“慌了”,開始胡亂結束任務或重複工作。漂移與崩潰:單Agent長時間運行後,規劃與執行混在一起,自我評估能力不足,導致輸出質量雪崩。Anthropic的解決方案不是一味堆模型參數,而是借鑑人類工程師和GAN(生成對抗網路)的思路,建構結構化的“環境”來引導模型行為。這就是Harness Engineering——一門新興的AI工程學科。從兩Agent到三Agent:演進路徑清晰可見Anthropic的Harness設計經歷了清晰的三階段演化:2025年11月:基礎版兩Agent Harness引入Initializer Agent(初始化器)負責一次性搭建項目環境、分解規格成JSON特徵列表、初始化git倉庫;Coding Agent(編碼器)則每次只推進一個特性,留下清晰artifact(產物)供下次接力。通過上下文重設和artifact手off,解決了多會話連續性問題。2026年Opus 4.5時期:三Agent GAN式架構(核心創新)針對前端設計和全端開發,升級為Planner(規劃器) + Generator(生成器) + Evaluator(評估器)。-- Generator專注創造程式碼或UI設計;-- Evaluator像對抗網路裡的判別器,提供批判性反饋(前端用審美+創意等多維度打分);--規劃與評估分離,避免Generator自我陶醉。實驗顯示,經過5-15輪迭代,生成的介面明顯更美觀、獨特,全端應用也更完整可靠。靈感直接來自GAN:生成器與評估器的對立統一,極大提升了模型的自洽能力。Opus 4.6及以後:精簡與去複雜化隨著模型自身長上下文理解、自我偵錯和規劃能力的躍升,許多腳手架可以移除。上下文重設不再必要,自動壓縮機制(Claude Agent SDK)足以處理增長;微觀詳細的sprint規劃反而成了累贅。Anthropic的結論耐人尋味:Harness必須隨模型能力動態演化,過度複雜的Harness反而會拖累新一代模型的表現。他們甚至公開對比了Harness版與單Agent版的成本、時長和質量,資料清晰表明:高品質輸出需要付出更多token和時間,但性價比在複雜項目中顯著更高。更進一步:Claude Managed Agents——把Harness變成產品幾乎與工程部落格同時,Anthropic推出了Claude Managed Agents,本質上是“元Harness”——一個託管服務,為企業提供開箱即用的Agent基礎設施,包括沙盒環境、持久會話、工具鏈和可擴展介面。它解耦了“大腦”(模型)和“手”(執行環境),讓開發者無需自己從零搭建複雜Harness,就能部署可靠的長時程Agent艦隊。這一步,直接把Harness Engineering從實驗室技巧推向了企業級生產力工具。科技評論:Harness是AI Agent時代的真正基礎設施Anthropic的這一系列工作,揭示了當前AI發展的一個核心悖論:模型能力越強,工程約束反而越重要。單純追求參數規模或上下文長度並不能解決自主性問題;真正決定上限的是“環境設計”——如何讓模型在不確定、長時間的任務中保持方向感、自我糾正能力和輸出一致性。優點顯而易見:顯著提升可靠性:多Agent分離職責,減少幻覺和漂移,尤其適合前端美學、全端開發這類主觀+客觀結合的任務。可演化性強:Harness隨模型迭代而簡化,避免了“框架鎖死”。安全與可控:內建沙盒、評估循環,天然契合Anthropic一貫的AI安全哲學。開源精神:相關quickstart和最佳實踐已在GitHub公開,社區已快速跟進復現。潛在挑戰也不能忽視:成本與複雜度:多輪迭代必然帶來更高token消耗,對中小團隊仍是門檻。演進速度過快:今天有效的Harness,明天模型升級後可能變成“死重”(dead weight)。開發者需要持續跟進Anthropic的工程部落格。標準化缺口:雖然Managed Agents在降低門檻,但整個行業仍缺乏統一Harness規範,碎片化風險猶存。從更廣視角看,Harness Engineering標誌著AI開發範式的轉變:從“提示工程”(Prompt Engineering)到“環境工程”(Environment/Harness Engineering)。未來,頂級AI工程師不再只是會寫prompt的人,而是擅長設計Agent“馬具”、建構反饋閉環、平衡模型自由度與系統約束的系統架構師。Anthropic再次用行動證明:在通往AGI的路上,安全、可靠、可解釋不是空洞口號,而是必須通過精密工程落地的硬實力。Claude的Harness不是給模型套上枷鎖,而是為它披上戰甲,讓它能在現實世界的長征中,穩穩地跑完全程。當其他實驗室還在比拚誰的模型上下文更長、誰的benchmark分數更高時,Anthropic已經把目光投向了“如何讓Agent真正可用”。Harness不是終點,而是AI Agent從實驗室玩具走向生產力的必經之橋。 (AI頓悟湧現時)