小龍蝦徹底涼了？清華團隊連夜開源Agent神器，Token成本狂降70%！

2026/05/28

•

剛剛，清華團隊開源硬核Agent系統PilotDeck，在開發者圈已經傳瘋了。項目獨立建艙，記憶可視可改，Token還能省一大半。從此，一個人，就是一支AI軍團！

龍蝦涼了？

曾經2026年初爆火全國的OpenClaw，已經降溫了。

身邊曾經通宵魔改OpenClaw的朋友們，已經把它默默打入了冷宮。這個曾經以史上最快速度在GitHub上爆火的項目，如今聲量幾乎掉到了冰點。

小龍蝦可能已經完成了歷史使命——它像颶風一般，第一次把Agent的範式真正吹進了大眾視野，讓所有人明白：AI不只是個陪聊的Chatbot，它是能主動替你幹活的。

但它沒能成為Linux。因為跑得太快，它還沒來得及建立起足夠深的程式碼壁壘和生態，就被拍在了沙灘上。

所以，那些真正需要靠Agent搞生產力的人，現在在用什麼時髦的新工具？

最近，一個名為PilotDeck的智能體作業系統，在圈內低調上線了。

這項技術由清華大學THUNLP實驗室、面壁智能、OpenBMB與AI9stars聯合研發並開源。

如果說OpenClaw是一個極客浪漫主義的「大玩具」，那麼這位「清華系高材生」，就是可以把隔壁小龍蝦拍在沙灘上的，真正面向純粹生產力的「智能體協作艙」。

從奶茶店到資料大屏，跨度大到離譜

它和那些淺嘗輒止的初代Agent有什麼區別，讓我們來看幾個非常直觀的測試。

我們同時開了兩個WorkSpace，一個做遊戲，一個做資料可視化。同時跑，看它能不能扛住。

第一個WorkSpace，丟進去一句話。

「做一個模擬經營奶茶店的小遊戲。要有進貨、定價、排隊系統，顧客會根據價格和口碑決定買不買。」

輸入prompt後，它就生成了一個非常詳細的奶茶模擬店經營遊戲計畫。

PilotDeck拆解了遊戲設計中的核心循環，設計了5款奶茶的產品線，還自己設計了進貨系統、定價系統、顧客與排隊系統、財務系統等等。

在技術實現中，它提前構想好了清新卡片風的UI佈局，寫出了關鍵的JS模組和實現步驟。

最終，一個奶茶遊戲就可以線上試玩了！

第二個WorkSpace，完全不同方向。

「這裡有一組全球AI公司融資資料，幫我做一個互動式資料可視化大屏，要有動畫效果，滑鼠懸停能看詳情。」

在這個任務中，PilotDeck用四個圖，分別展示了融資總額TOP 10，北美/歐洲/亞洲地區融資佔比，通用AI/企業AI/生成式AI賽道分佈等等。

最終生成的可視化大屏，非常清晰地展示了各區的AI公司融資資料。

兩個任務同時跑。一個在寫遊戲邏輯，一個在畫圖表。互不干擾。

跑完之後我們又加了一個純好玩的。

「做一個程式設計師性格測試，10道題，測出來你是那種程式設計師人格，要有結果頁和分享卡片。」

PilotDeck生成了非常貼近真實開發場景的10道選擇題，並且分為了架構師🏛️/ 搬磚俠🧱/ 完美主義者✨/魔法師🧙/ 布道師📣/ 哲學家🤔6種人格。

視覺風格是GitHub暗色主題和JetBrains Mono等寬字型，科技感十足。

測完10道題，最後結果顯示，本人是搬磚俠實錘了。

從經營遊戲到資料大屏到社交小應用，跨度大到離譜。

但在PilotDeck裡，每個都是獨立的WorkSpace，各跑各的。

別人隔離資料夾，它隔離整個世界

跑完之後，我們做了一件更有意思的事，分別打開兩個項目的Memory面板。

奶茶店項目的記憶裡，存的是遊戲邏輯、UI風格、玩法參數。

資料大屏項目的記憶裡，存的是圖表類型、配色方案、資料處理邏輯。

兩邊沒有一條記憶串台。

這才是PilotDeck的WorkSpace和別家最根本的區別。

雖然Claude Cowork引入了Projects做項目隔離，Cursor也有Workspace，但它們的隔離本質上還是「資料夾+規則」，記憶看不見改不了，技能不會隨著使用越多越進化，成本分不清那個項目花了多少。

PilotDeck給每個項目建的是一個完整的「工作艙」，艙裡有三層。

專屬檔案系統：那些檔案歸這個項目、AI生成了什麼，邊界清楚。
專屬記憶：Project Memory記項目定義和進度，Collaboration Feedback記你的偏好。全都看得見、改得了、追得到來源。
專屬技能：Skill應用程式商店一鍵裝到對應WorkSpace，給做遊戲的艙裝game-asset-finder，給寫文件的艙裝minimax-pdf。

別家的WorkSpace是資料夾加靜態規則。PilotDeck的WorkSpace是AI的完整生存環境。

Token帳單砍了一半，效果沒掉

Agent工具有個公開的秘密，雖然用起來很爽，帳單一出卻很嚇人。

全程調最強模型跑任務，Token燒起來比打車還貴。

很多人的應對策略是手動切模型，簡單問題用便宜的，複雜問題換貴的。但這個切換成本本身就很煩。

PilotDeck做了一套智能路由，而且做法和市面上的方案不太一樣。

先說最關鍵的一個設計決策。

大部分路由方案是按request等級切的，每一次請求都單獨判斷走那個模型。

這麼做的問題是，模型頻繁切換會打斷KV-cache，相當於每次換模型都要重新「讀檔」，推理效率反而下降。

PilotDeck的路由是在子Agent層面做的。

一個複雜任務拆成多個子任務後，整個子Agent分配給一個模型跑到底，這個子Agent內部的上下文快取是連續的。

省的不只是token的錢，還有來回切換帶來的性能損耗。

然後，是調度規則。

相比於寫死的路由方案，比如「貴模型做難題、便宜模型做簡單題」，PilotDeck要靈活得多。

它支援用規則和prompt來調節路由策略，你可以自己定義什麼類型的任務走什麼模型，甚至用自然語言告訴它「程式碼相關的子任務都走Claude Opus，文字處理走便宜模型」。

打開Routing面板，每個session被判定為什麼難度（complex / simple / medium）、實際花了多少、不開路由要花多少，全都列在那兒。

比如在我們跑的幾個任務中，可以看到在程式設計師人格測試應用中，不開路由要花費10.97美元，開路由後實際只花了1.42美元，一下子就省出了75%（9.55美元）。

研究團隊在更大規模的測試裡也驗證了這個效果。

社交媒體場景（小紅書內容生成），開路由花2.83美元，不開路由12.58美元，省了約70%。

複雜任務場景（播客多語言、金融分析、程式碼文件等），主Sonnet 4.6 + 子MiniMax-M2.7花3.15美元、得分70.6，單體Sonnet 4.6花18.36美元、得分69.1。雖然只有1/6的價格，但效果還略好一點。

如果只想要效果拉滿，那完全可以把路由關掉，全程跑最強模型，選擇權都在你手裡。

而且，路由的能力還不止於此。

PilotDeck可以接本地部署的模型做子Agent，敏感資料不出本機。

有些任務它甚至會自己判斷需要什麼工具，自動部署一個端側模型來幹活，比如播客多語言處理時，它會自己裝一個VoxCPM來生成語音。

也可以雲端模型負責思考，本地模型負責執行，這樣，就把省錢和隱私一起解決了。

打開AI的大腦，逐條改

如今，Agent的記憶已經不再是原來的那種黑盒。

但很多時候，AI記住了什麼、什麼時候記的、記對了沒有，依然不夠清晰。

針對這一問題，PilotDeck的WorkSpace給出了一種全新的答案——它不是打開一個資料夾，而是智能體的完整生存環境

打開Memory面板，每條記憶標著時間戳、來源路徑和類型。

Project Memory記項目核心定義，Collaboration Feedback記你的交付偏好。

記錯了，可以點進去改。記憶衝突了，直接刪掉錯的那條。不需要重啟對話，不需要重新喂一遍偏好。

PilotDeck還有一個叫Dream的機制。空閒時段，AI在後台自動回顧整理自己的記憶，白天幹活、晚上消化。

Memory面板上能看到Memory Dream按鈕和Rollback Last Dream按鈕。如果Dream整理出了錯，還能一鍵回滾到整理前的狀態。

記憶白盒化最終帶來的效果是，AI越用越「聽話」。

你的偏好沉澱在Feedback Memory裡，看得見、調得了。不是靠AI猜你想要什麼，是你告訴它，它白紙黑字記著，下次照做。

六邊形戰士，開源帶走

回顧大模型浪潮，從最初驚豔世人的ChatGPT，到像OpenClaw這樣瘋狂試探能力邊界的極客玩具，Agent的形態一直在快速迭代。

但直到今天，當「成本」、「隔離」、「記憶」這些純工程化、偏後端的硬核痛點被PilotDeck逐一擊破時，Agent才算真正落地了。

憑藉PilotDeck提供的獨立工作艙、白盒化可控記憶、以及精打細算的智能路由策略，「一個人，一支AI軍團」的設想，已經開始成真。

最關鍵的是，這款「六邊形戰士」，並沒有被鎖在昂貴的企業版付費牆後，而是大大方方地選擇了完全開源。

不論是底層的路由邏輯，還是優雅的Workspace架構，所有的程式碼都已經毫無保留地放在了那裡。

如果你也想體驗這種「當甩手掌櫃」的快樂，或者想扒開原始碼親自魔改一套屬於自己的賽博班底，現在就可以去接管你的AI軍團了。

GitHub傳送門：
https://github.com/OpenBMB/PilotDeck

官方網站：
https://pilotdeck.openbmb.cn/

給他們點個Star，然後開始你的「自動化」之夜吧！ (新智元)

科技