小龍蝦徹底涼了?清華團隊連夜開源Agent神器,Token成本狂降70%!

剛剛,清華團隊開源硬核Agent系統PilotDeck,在開發者圈已經傳瘋了。項目獨立建艙,記憶可視可改,Token還能省一大半。從此,一個人,就是一支AI軍團!

龍蝦涼了?

曾經2026年初爆火全國的OpenClaw,已經降溫了。

身邊曾經通宵魔改OpenClaw的朋友們,已經把它默默打入了冷宮。這個曾經以史上最快速度在GitHub上爆火的項目,如今聲量幾乎掉到了冰點。

小龍蝦可能已經完成了歷史使命——它像颶風一般,第一次把Agent的範式真正吹進了大眾視野,讓所有人明白:AI不只是個陪聊的Chatbot,它是能主動替你幹活的。

但它沒能成為Linux。因為跑得太快,它還沒來得及建立起足夠深的程式碼壁壘和生態,就被拍在了沙灘上。

所以,那些真正需要靠Agent搞生產力的人,現在在用什麼時髦的新工具?

最近,一個名為PilotDeck的智能體作業系統,在圈內低調上線了。

這項技術由清華大學THUNLP實驗室、面壁智能、OpenBMB與AI9stars聯合研發並開源。

如果說OpenClaw是一個極客浪漫主義的「大玩具」,那麼這位「清華系高材生」,就是可以把隔壁小龍蝦拍在沙灘上的,真正面向純粹生產力的「智能體協作艙」。

從奶茶店到資料大屏,跨度大到離譜

它和那些淺嘗輒止的初代Agent有什麼區別,讓我們來看幾個非常直觀的測試。

我們同時開了兩個WorkSpace,一個做遊戲,一個做資料可視化。同時跑,看它能不能扛住。

第一個WorkSpace,丟進去一句話。

「做一個模擬經營奶茶店的小遊戲。要有進貨、定價、排隊系統,顧客會根據價格和口碑決定買不買。」

輸入prompt後,它就生成了一個非常詳細的奶茶模擬店經營遊戲計畫。

PilotDeck拆解了遊戲設計中的核心循環,設計了5款奶茶的產品線,還自己設計了進貨系統、定價系統、顧客與排隊系統、財務系統等等。

在技術實現中,它提前構想好了清新卡片風的UI佈局,寫出了關鍵的JS模組和實現步驟。

最終,一個奶茶遊戲就可以線上試玩了!

第二個WorkSpace,完全不同方向。

「這裡有一組全球AI公司融資資料,幫我做一個互動式資料可視化大屏,要有動畫效果,滑鼠懸停能看詳情。」

在這個任務中,PilotDeck用四個圖,分別展示了融資總額TOP 10,北美/歐洲/亞洲地區融資佔比,通用AI/企業AI/生成式AI賽道分佈等等。

最終生成的可視化大屏,非常清晰地展示了各區的AI公司融資資料。

兩個任務同時跑。一個在寫遊戲邏輯,一個在畫圖表。互不干擾。

跑完之後我們又加了一個純好玩的。

「做一個程式設計師性格測試,10道題,測出來你是那種程式設計師人格,要有結果頁和分享卡片。」

PilotDeck生成了非常貼近真實開發場景的10道選擇題,並且分為了架構師🏛️/ 搬磚俠🧱/ 完美主義者✨/魔法師🧙/ 布道師📣/ 哲學家🤔6種人格。

視覺風格是GitHub暗色主題和JetBrains Mono等寬字型,科技感十足。

測完10道題,最後結果顯示,本人是搬磚俠實錘了。

從經營遊戲到資料大屏到社交小應用,跨度大到離譜。

但在PilotDeck裡,每個都是獨立的WorkSpace,各跑各的。

別人隔離資料夾,它隔離整個世界

跑完之後,我們做了一件更有意思的事,分別打開兩個項目的Memory面板。

奶茶店項目的記憶裡,存的是遊戲邏輯、UI風格、玩法參數。

資料大屏項目的記憶裡,存的是圖表類型、配色方案、資料處理邏輯。

兩邊沒有一條記憶串台。

這才是PilotDeck的WorkSpace和別家最根本的區別。

雖然Claude Cowork引入了Projects做項目隔離,Cursor也有Workspace,但它們的隔離本質上還是「資料夾+規則」,記憶看不見改不了,技能不會隨著使用越多越進化,成本分不清那個項目花了多少。

PilotDeck給每個項目建的是一個完整的「工作艙」,艙裡有三層。

  • 專屬檔案系統:那些檔案歸這個項目、AI生成了什麼,邊界清楚。
  • 專屬記憶:Project Memory記項目定義和進度,Collaboration Feedback記你的偏好。全都看得見、改得了、追得到來源。
  • 專屬技能:Skill應用程式商店一鍵裝到對應WorkSpace,給做遊戲的艙裝game-asset-finder,給寫文件的艙裝minimax-pdf。

別家的WorkSpace是資料夾加靜態規則。PilotDeck的WorkSpace是AI的完整生存環境。

Token帳單砍了一半,效果沒掉

Agent工具有個公開的秘密,雖然用起來很爽,帳單一出卻很嚇人。

全程調最強模型跑任務,Token燒起來比打車還貴。

很多人的應對策略是手動切模型,簡單問題用便宜的,複雜問題換貴的。但這個切換成本本身就很煩。

PilotDeck做了一套智能路由,而且做法和市面上的方案不太一樣。

先說最關鍵的一個設計決策。

大部分路由方案是按request等級切的,每一次請求都單獨判斷走那個模型。

這麼做的問題是,模型頻繁切換會打斷KV-cache,相當於每次換模型都要重新「讀檔」,推理效率反而下降。

PilotDeck的路由是在子Agent層面做的。

一個複雜任務拆成多個子任務後,整個子Agent分配給一個模型跑到底,這個子Agent內部的上下文快取是連續的。

省的不只是token的錢,還有來回切換帶來的性能損耗。

然後,是調度規則。

相比於寫死的路由方案,比如「貴模型做難題、便宜模型做簡單題」,PilotDeck要靈活得多。

它支援用規則和prompt來調節路由策略,你可以自己定義什麼類型的任務走什麼模型,甚至用自然語言告訴它「程式碼相關的子任務都走Claude Opus,文字處理走便宜模型」。

打開Routing面板,每個session被判定為什麼難度(complex / simple / medium)、實際花了多少、不開路由要花多少,全都列在那兒。

比如在我們跑的幾個任務中,可以看到在程式設計師人格測試應用中,不開路由要花費10.97美元,開路由後實際只花了1.42美元,一下子就省出了75%(9.55美元)。

研究團隊在更大規模的測試裡也驗證了這個效果。

社交媒體場景(小紅書內容生成),開路由花2.83美元,不開路由12.58美元,省了約70%。

複雜任務場景(播客多語言、金融分析、程式碼文件等),主Sonnet 4.6 + 子MiniMax-M2.7花3.15美元、得分70.6,單體Sonnet 4.6花18.36美元、得分69.1。雖然只有1/6的價格,但效果還略好一點。

如果只想要效果拉滿,那完全可以把路由關掉,全程跑最強模型,選擇權都在你手裡。

而且,路由的能力還不止於此。

PilotDeck可以接本地部署的模型做子Agent,敏感資料不出本機。

有些任務它甚至會自己判斷需要什麼工具,自動部署一個端側模型來幹活,比如播客多語言處理時,它會自己裝一個VoxCPM來生成語音。

也可以雲端模型負責思考,本地模型負責執行,這樣,就把省錢和隱私一起解決了。

打開AI的大腦,逐條改

如今,Agent的記憶已經不再是原來的那種黑盒。

但很多時候,AI記住了什麼、什麼時候記的、記對了沒有,依然不夠清晰。

針對這一問題,PilotDeck的WorkSpace給出了一種全新的答案——它不是打開一個資料夾,而是智能體的完整生存環境

打開Memory面板,每條記憶標著時間戳、來源路徑和類型。

Project Memory記項目核心定義,Collaboration Feedback記你的交付偏好。

記錯了,可以點進去改。記憶衝突了,直接刪掉錯的那條。不需要重啟對話,不需要重新喂一遍偏好。

PilotDeck還有一個叫Dream的機制。空閒時段,AI在後台自動回顧整理自己的記憶,白天幹活、晚上消化。

Memory面板上能看到Memory Dream按鈕和Rollback Last Dream按鈕。如果Dream整理出了錯,還能一鍵回滾到整理前的狀態。

記憶白盒化最終帶來的效果是,AI越用越「聽話」。

你的偏好沉澱在Feedback Memory裡,看得見、調得了。不是靠AI猜你想要什麼,是你告訴它,它白紙黑字記著,下次照做。

六邊形戰士,開源帶走

回顧大模型浪潮,從最初驚豔世人的ChatGPT,到像OpenClaw這樣瘋狂試探能力邊界的極客玩具,Agent的形態一直在快速迭代。

但直到今天,當「成本」、「隔離」、「記憶」這些純工程化、偏後端的硬核痛點被PilotDeck逐一擊破時,Agent才算真正落地了。

憑藉PilotDeck提供的獨立工作艙、白盒化可控記憶、以及精打細算的智能路由策略,「一個人,一支AI軍團」的設想,已經開始成真。

最關鍵的是,這款「六邊形戰士」,並沒有被鎖在昂貴的企業版付費牆後,而是大大方方地選擇了完全開源。

不論是底層的路由邏輯,還是優雅的Workspace架構,所有的程式碼都已經毫無保留地放在了那裡。

如果你也想體驗這種「當甩手掌櫃」的快樂,或者想扒開原始碼親自魔改一套屬於自己的賽博班底,現在就可以去接管你的AI軍團了。

GitHub傳送門:
https://github.com/OpenBMB/PilotDeck

官方網站:
https://pilotdeck.openbmb.cn/

給他們點個Star,然後開始你的「自動化」之夜吧! (新智元)