剛剛,清華團隊開源硬核Agent系統PilotDeck,在開發者圈已經傳瘋了。項目獨立建艙,記憶可視可改,Token還能省一大半。從此,一個人,就是一支AI軍團!
龍蝦涼了?
曾經2026年初爆火全國的OpenClaw,已經降溫了。
身邊曾經通宵魔改OpenClaw的朋友們,已經把它默默打入了冷宮。這個曾經以史上最快速度在GitHub上爆火的項目,如今聲量幾乎掉到了冰點。
小龍蝦可能已經完成了歷史使命——它像颶風一般,第一次把Agent的範式真正吹進了大眾視野,讓所有人明白:AI不只是個陪聊的Chatbot,它是能主動替你幹活的。
但它沒能成為Linux。因為跑得太快,它還沒來得及建立起足夠深的程式碼壁壘和生態,就被拍在了沙灘上。
所以,那些真正需要靠Agent搞生產力的人,現在在用什麼時髦的新工具?
最近,一個名為PilotDeck的智能體作業系統,在圈內低調上線了。
這項技術由清華大學THUNLP實驗室、面壁智能、OpenBMB與AI9stars聯合研發並開源。
如果說OpenClaw是一個極客浪漫主義的「大玩具」,那麼這位「清華系高材生」,就是可以把隔壁小龍蝦拍在沙灘上的,真正面向純粹生產力的「智能體協作艙」。
從奶茶店到資料大屏,跨度大到離譜
它和那些淺嘗輒止的初代Agent有什麼區別,讓我們來看幾個非常直觀的測試。
我們同時開了兩個WorkSpace,一個做遊戲,一個做資料可視化。同時跑,看它能不能扛住。
第一個WorkSpace,丟進去一句話。
「做一個模擬經營奶茶店的小遊戲。要有進貨、定價、排隊系統,顧客會根據價格和口碑決定買不買。」
輸入prompt後,它就生成了一個非常詳細的奶茶模擬店經營遊戲計畫。
PilotDeck拆解了遊戲設計中的核心循環,設計了5款奶茶的產品線,還自己設計了進貨系統、定價系統、顧客與排隊系統、財務系統等等。
在技術實現中,它提前構想好了清新卡片風的UI佈局,寫出了關鍵的JS模組和實現步驟。
最終,一個奶茶遊戲就可以線上試玩了!
第二個WorkSpace,完全不同方向。
「這裡有一組全球AI公司融資資料,幫我做一個互動式資料可視化大屏,要有動畫效果,滑鼠懸停能看詳情。」
在這個任務中,PilotDeck用四個圖,分別展示了融資總額TOP 10,北美/歐洲/亞洲地區融資佔比,通用AI/企業AI/生成式AI賽道分佈等等。
最終生成的可視化大屏,非常清晰地展示了各區的AI公司融資資料。
兩個任務同時跑。一個在寫遊戲邏輯,一個在畫圖表。互不干擾。
跑完之後我們又加了一個純好玩的。
「做一個程式設計師性格測試,10道題,測出來你是那種程式設計師人格,要有結果頁和分享卡片。」
PilotDeck生成了非常貼近真實開發場景的10道選擇題,並且分為了架構師🏛️/ 搬磚俠🧱/ 完美主義者✨/魔法師🧙/ 布道師📣/ 哲學家🤔6種人格。
視覺風格是GitHub暗色主題和JetBrains Mono等寬字型,科技感十足。
測完10道題,最後結果顯示,本人是搬磚俠實錘了。
從經營遊戲到資料大屏到社交小應用,跨度大到離譜。
但在PilotDeck裡,每個都是獨立的WorkSpace,各跑各的。
別人隔離資料夾,它隔離整個世界
跑完之後,我們做了一件更有意思的事,分別打開兩個項目的Memory面板。
奶茶店項目的記憶裡,存的是遊戲邏輯、UI風格、玩法參數。
資料大屏項目的記憶裡,存的是圖表類型、配色方案、資料處理邏輯。
兩邊沒有一條記憶串台。
這才是PilotDeck的WorkSpace和別家最根本的區別。
雖然Claude Cowork引入了Projects做項目隔離,Cursor也有Workspace,但它們的隔離本質上還是「資料夾+規則」,記憶看不見改不了,技能不會隨著使用越多越進化,成本分不清那個項目花了多少。
PilotDeck給每個項目建的是一個完整的「工作艙」,艙裡有三層。
- 專屬檔案系統:那些檔案歸這個項目、AI生成了什麼,邊界清楚。
- 專屬記憶:Project Memory記項目定義和進度,Collaboration Feedback記你的偏好。全都看得見、改得了、追得到來源。
- 專屬技能:Skill應用程式商店一鍵裝到對應WorkSpace,給做遊戲的艙裝game-asset-finder,給寫文件的艙裝minimax-pdf。
別家的WorkSpace是資料夾加靜態規則。PilotDeck的WorkSpace是AI的完整生存環境。
Token帳單砍了一半,效果沒掉
Agent工具有個公開的秘密,雖然用起來很爽,帳單一出卻很嚇人。
全程調最強模型跑任務,Token燒起來比打車還貴。
很多人的應對策略是手動切模型,簡單問題用便宜的,複雜問題換貴的。但這個切換成本本身就很煩。
PilotDeck做了一套智能路由,而且做法和市面上的方案不太一樣。
先說最關鍵的一個設計決策。
大部分路由方案是按request等級切的,每一次請求都單獨判斷走那個模型。
這麼做的問題是,模型頻繁切換會打斷KV-cache,相當於每次換模型都要重新「讀檔」,推理效率反而下降。
PilotDeck的路由是在子Agent層面做的。
一個複雜任務拆成多個子任務後,整個子Agent分配給一個模型跑到底,這個子Agent內部的上下文快取是連續的。
省的不只是token的錢,還有來回切換帶來的性能損耗。
然後,是調度規則。
相比於寫死的路由方案,比如「貴模型做難題、便宜模型做簡單題」,PilotDeck要靈活得多。
它支援用規則和prompt來調節路由策略,你可以自己定義什麼類型的任務走什麼模型,甚至用自然語言告訴它「程式碼相關的子任務都走Claude Opus,文字處理走便宜模型」。
打開Routing面板,每個session被判定為什麼難度(complex / simple / medium)、實際花了多少、不開路由要花多少,全都列在那兒。
比如在我們跑的幾個任務中,可以看到在程式設計師人格測試應用中,不開路由要花費10.97美元,開路由後實際只花了1.42美元,一下子就省出了75%(9.55美元)。
研究團隊在更大規模的測試裡也驗證了這個效果。
社交媒體場景(小紅書內容生成),開路由花2.83美元,不開路由12.58美元,省了約70%。
複雜任務場景(播客多語言、金融分析、程式碼文件等),主Sonnet 4.6 + 子MiniMax-M2.7花3.15美元、得分70.6,單體Sonnet 4.6花18.36美元、得分69.1。雖然只有1/6的價格,但效果還略好一點。
如果只想要效果拉滿,那完全可以把路由關掉,全程跑最強模型,選擇權都在你手裡。
而且,路由的能力還不止於此。
PilotDeck可以接本地部署的模型做子Agent,敏感資料不出本機。
有些任務它甚至會自己判斷需要什麼工具,自動部署一個端側模型來幹活,比如播客多語言處理時,它會自己裝一個VoxCPM來生成語音。
也可以雲端模型負責思考,本地模型負責執行,這樣,就把省錢和隱私一起解決了。
打開AI的大腦,逐條改
如今,Agent的記憶已經不再是原來的那種黑盒。
但很多時候,AI記住了什麼、什麼時候記的、記對了沒有,依然不夠清晰。
針對這一問題,PilotDeck的WorkSpace給出了一種全新的答案——它不是打開一個資料夾,而是智能體的完整生存環境
打開Memory面板,每條記憶標著時間戳、來源路徑和類型。
Project Memory記項目核心定義,Collaboration Feedback記你的交付偏好。
記錯了,可以點進去改。記憶衝突了,直接刪掉錯的那條。不需要重啟對話,不需要重新喂一遍偏好。
PilotDeck還有一個叫Dream的機制。空閒時段,AI在後台自動回顧整理自己的記憶,白天幹活、晚上消化。
Memory面板上能看到Memory Dream按鈕和Rollback Last Dream按鈕。如果Dream整理出了錯,還能一鍵回滾到整理前的狀態。
記憶白盒化最終帶來的效果是,AI越用越「聽話」。
你的偏好沉澱在Feedback Memory裡,看得見、調得了。不是靠AI猜你想要什麼,是你告訴它,它白紙黑字記著,下次照做。
六邊形戰士,開源帶走
回顧大模型浪潮,從最初驚豔世人的ChatGPT,到像OpenClaw這樣瘋狂試探能力邊界的極客玩具,Agent的形態一直在快速迭代。
但直到今天,當「成本」、「隔離」、「記憶」這些純工程化、偏後端的硬核痛點被PilotDeck逐一擊破時,Agent才算真正落地了。
憑藉PilotDeck提供的獨立工作艙、白盒化可控記憶、以及精打細算的智能路由策略,「一個人,一支AI軍團」的設想,已經開始成真。
最關鍵的是,這款「六邊形戰士」,並沒有被鎖在昂貴的企業版付費牆後,而是大大方方地選擇了完全開源。
不論是底層的路由邏輯,還是優雅的Workspace架構,所有的程式碼都已經毫無保留地放在了那裡。
如果你也想體驗這種「當甩手掌櫃」的快樂,或者想扒開原始碼親自魔改一套屬於自己的賽博班底,現在就可以去接管你的AI軍團了。
GitHub傳送門:
https://github.com/OpenBMB/PilotDeck
官方網站:
https://pilotdeck.openbmb.cn/
給他們點個Star,然後開始你的「自動化」之夜吧! (新智元)
