7B小模型指揮GPT-5.5和Opus 4.8幹活，Sakana AI的Fugu憑什麼？

2026/06/23

•

AI速讀

日本Sakana AI發佈協調模型Fugu，採取「小模型指揮大模型」的新路徑。Fugu Ultra在SWE-Bench Pro等測試中表現超越GPT-5.5，證明透過強化學習（Conductor）與進化演算法（TRINITY）實現的自動編排，能讓系統能力超越單一模型。除了技術突破，Sakana AI將其定位為實現「AI主權」的工具，以避免對單一供應商的依賴。儘管定價較高且存在延遲挑戰，但Fugu將AI競爭維度從單體能力提升至系統組織能力，開啟了模型能力模組化的新範式。

6月22日，日本AI獨角獸Sakana AI發佈了Fugu——一個自己不回答問題、專門調度其他大模型的"總指揮"。

在SWE-Bench Pro、TerminalBench、LiveCodeBench等多個硬核基準測試中，Fugu Ultra的成績超越了GPT-5.5和Claude Opus 4.8，接近甚至持平Anthropic尚未公開的Fable 5和Mythos Preview。

而它的核心，只是一個7B參數的小模型。

Fugu到底是什麼

傳統大模型的思路是"把一個模型做得更強"。Fugu的思路完全不同：讓一個輕量模型學會調度一群強模型。

Fugu本身不生成最終答案。它的工作流程是：

1收到使用者問題

2判斷問題類型（程式碼/數學/推理/科學/多模態）

3從模型池中選擇最合適的worker模型

4設計任務拆分和agent間通訊策略

5把子任務分發給不同模型執行

6綜合所有結果，輸出最終答案

用Sakana AI的話說："Multi-Agent System, Delivered as One Model"——多智能體系統，以單一模型的形式交付。

Fugu有兩個版本：

•Fugu：日常版，平衡性能和延遲，適合程式碼審查、聊天機器人等場景

•Fugu Ultra：質量優先版，深度多Agent協作，適合Kaggle競賽、論文復現、安全分析等高難度任務

技術底座：兩篇ICLR 2026論文

Fugu並非憑空而來，它建立在Sakana AI團隊在ICLR 2026上發表的兩篇論文之上。

論文一：Conductor

核心idea：用強化學習（RL）訓練一個7B的"指揮家"模型，讓它自動發現LLM之間的最優協調策略。

論文原文明確記載：

•基座模型：Qwen2.5

•訓練方法：GRPO（Group Relative Policy Optimization）

•訓練資料：960個問題，覆蓋數學、程式碼、通用推理、科學四個領域

•訓練輪次：200次GRPO迭代，batch size 256，無KL正則化

Conductor的輸出格式很巧妙——它生成Python列表，定義每個workflow step的三個要素：

•子任務的自然語言描述

•負責執行的worker agent編號

•該agent可以訪問那些前序步驟的結果

這意味著Conductor可以自由設計從簡單序列到複雜樹狀的任意workflow拓撲。

更有趣的是遞迴機制：Conductor可以把"自己"也作為worker呼叫，形成遞迴編排，實現一種新的test-time scaling。

論文二：TRINITY

核心idea：用進化演算法（CMA-ES）訓練一個約0.6B參數的輕量協調器，給LLM動態分配三種角色：

•Thinker（思考者）：負責分析和推理

•Worker（執行者）：負責具體任務執行

•Verifier（驗證者）：負責檢查和糾錯

TRINITY在LiveCodeBench上達到86.2%的成績。

兩篇論文的共同啟示：編排能力本身可以通過學習獲得，而不是靠人工設計workflow。

跑分：超越GPT-5.5，持平Fable 5

以下是Sakana AI官方公佈的資料：

基準測試FuguFugu UltraOpus 4.8Gemini 3.1 ProGPT 5.5SWE-Bench Pro59.073.769.254.258.6TerminalBench 2.180.282.174.670.378.2LiveCodeBench92.993.287.888.585.3GPQA-Diamond95.595.592.094.393.6Humanity's Last Exam47.250.049.844.441.4SciCode60.158.753.558.956.1

官方特別註明：Fable 5和Mythos Preview的分數取兩者中較高的那個，且兩者都不在Fugu的agent池中——因為它們不公開可用。

Fugu拿高分的方式跟傳統模型完全不同。它沒有訓練一個更強的基座去解題，而是學會了這道題該派交給誰、怎麼拆解、如何校驗，最終綜合得到的答案質量超過任何單一模型獨立作答。

Agent池裡都有誰

Fugu的調度對象包括當前最強的一批閉源和開源模型：

閉源模型：GPT-5.5、Claude Opus 4.8、Gemini 3.1 Pro

開源模型（論文訓練時使用的）：DeepSeek-R1-Distill-Qwen-32B、Gemma3-27B-instruct、Qwen3-32B

關鍵特性：Fugu不需要訪問worker模型的權重，甚至不需要它們是開放原始碼的。新模型發佈後可以直接加入worker池，使用者可以根據成本、隱私、合規需求定製可用模型列表。

Fugu的調度策略也很聰明——不同任務會自動集中呼叫不同模型：

•TerminalBench → 主要呼叫GPT-5.5

•GPQA Diamond → 主要呼叫Gemini 3.1 Pro

地緣政治賣點：AI主權

Sakana AI在官方部落格中特別強調了一個不太技術但很重要的點：繫結單一供應商的風險。

原文寫道："存取權可能會一夜消失"——暗指Anthropic模型近期被施加出口管制的事件。

Fugu的底層模型池完全可替換，一家斷供就換另一家。Sakana AI稱之為"AI主權的現實藍圖"。

這個定位在當前中美AI博弈、日本算力受限的背景下，頗有深意。

定價

•Fugu Ultra：輸入$5/M tokens，輸出$30/M tokens（context超過272K時翻倍）

•Fugu：單agent時只收底層模型的標準費率；多agent時不疊加費用，按最高級模型的單一費率計費

成本帳：真的省錢嗎？

這是Fugu最大的矛盾點。

先算一筆帳：一個複雜任務可能涉及5個workflow step，每步呼叫一個不同的大模型。假設每個step都用GPT-5.5或Opus 4.8這種頂級模型，實際token消耗是單一模型的數倍。

Sakana AI說不疊加費用，按最高級模型單一費率計費——這說明他們自己也知道多模型呼叫的成本問題，在用定價策略補貼。

那它憑什麼談降低成本？它的邏輯不是總成本更低，而是三件事：

1同等質量下更便宜——用小模型編排+中等模型執行，可能比直接用最貴模型反覆試錯便宜

2避免浪費——簡單任務不派大模型，只在需要時才呼叫頂級模型

3減少人工成本——一次編排成功 vs 人工反覆偵錯prompt和workflow

但這些都是理論上的。Fugu Ultra定價$30/M output tokens，比GPT-5.5還貴——說明Sakana AI自己也認為這個服務值premium價格。

本質上Fugu賣的不是便宜，而是同樣的錢得到更好的結果。就像請一個項目經理指揮5個專家幹活，總成本肯定比一個專家高，但如果產出質量顯著提升，ROI可能更划算。

不過真實成本效益，還得等大量使用者實際使用後才能驗證。

定性能力展示

除了跑分，Sakana AI還展示了幾個有趣的實驗：

一次性魔方求解器：Fugu和Fugu Ultra都成功解出了全部300個亂序魔方，Fugu Ultra平均步數更短（19.72步 vs 基線模型的19.76步），Fugu運行速度更快。

盲棋測試：在看不到棋盤、沒有FEN、只憑歷史走法記憶的情況下，Fugu連續擊敗4個對手，包括3個前沿模型和2100 Elo的Stockfish。

線上股票交易：在50周的歷史資料上做逐周買賣決策，Fugu Ultra平均收益+19.43%，其他前沿模型均不到+15%。

AutoResearch實驗：讓AI agent自主最佳化一個小GPT的訓練程式碼，Fugu Ultra在單張H100上跑了123次實驗、14小時，最終BPB（0.9774）優於所有基線模型。

這意味著什麼

Sakana Fugu提出的不只是一個新產品，而是一種新的範式：

過去的問題：那個模型最強？

現在的問題：怎麼讓多個模型協同起來更強？

這會帶來三個變化：

1模型能力模組化：新模型發佈後直接加入worker池，成為某類任務的專家

2使用者控制權增強：企業可以根據隱私、合規、成本、延遲來配置模型池

3競爭維度擴展：從"單一模型能力"擴展到"系統組織能力"——誰更會調度模型、設計工作流、整合反饋

當然，Fugu也有明顯侷限：

•多模型編排帶來更高成本和延遲

•錯誤歸因更複雜——出錯了很難分清是路由、worker還是綜合過程的問題

•編排器本身可能產生偏差，過度依賴某個模型

•技術報告中的測試來自廠商，實際能力還需要真實開發者的驗證

但無論如何，7B小模型通過學習編排策略，在多個基準上超越了百倍參數量的單一模型——這件事本身就很值得思考。

AI的下一階段，可能不只是更大更強的模型，還有更會協作的系統。 (覓血兵城)

科技