7B小模型指揮GPT-5.5和Opus 4.8幹活,Sakana AI的Fugu憑什麼?

6月22日,日本AI獨角獸Sakana AI發佈了Fugu——一個自己不回答問題、專門調度其他大模型的"總指揮"。

在SWE-Bench Pro、TerminalBench、LiveCodeBench等多個硬核基準測試中,Fugu Ultra的成績超越了GPT-5.5和Claude Opus 4.8,接近甚至持平Anthropic尚未公開的Fable 5和Mythos Preview。

而它的核心,只是一個7B參數的小模型。

Fugu到底是什麼

傳統大模型的思路是"把一個模型做得更強"。Fugu的思路完全不同:讓一個輕量模型學會調度一群強模型

Fugu本身不生成最終答案。它的工作流程是:

1收到使用者問題

2判斷問題類型(程式碼/數學/推理/科學/多模態)

3從模型池中選擇最合適的worker模型

4設計任務拆分和agent間通訊策略

5把子任務分發給不同模型執行

6綜合所有結果,輸出最終答案

用Sakana AI的話說:"Multi-Agent System, Delivered as One Model"——多智能體系統,以單一模型的形式交付。

Fugu有兩個版本:

•Fugu:日常版,平衡性能和延遲,適合程式碼審查、聊天機器人等場景

•Fugu Ultra:質量優先版,深度多Agent協作,適合Kaggle競賽、論文復現、安全分析等高難度任務

技術底座:兩篇ICLR 2026論文

Fugu並非憑空而來,它建立在Sakana AI團隊在ICLR 2026上發表的兩篇論文之上。

論文一:Conductor

核心idea:用強化學習(RL)訓練一個7B的"指揮家"模型,讓它自動發現LLM之間的最優協調策略。

論文原文明確記載:

基座模型:Qwen2.5

訓練方法:GRPO(Group Relative Policy Optimization)

訓練資料:960個問題,覆蓋數學、程式碼、通用推理、科學四個領域

訓練輪次:200次GRPO迭代,batch size 256,無KL正則化

Conductor的輸出格式很巧妙——它生成Python列表,定義每個workflow step的三個要素:

子任務的自然語言描述

負責執行的worker agent編號

該agent可以訪問那些前序步驟的結果

這意味著Conductor可以自由設計從簡單序列到複雜樹狀的任意workflow拓撲。

更有趣的是遞迴機制:Conductor可以把"自己"也作為worker呼叫,形成遞迴編排,實現一種新的test-time scaling。

論文二:TRINITY

核心idea:用進化演算法(CMA-ES)訓練一個約0.6B參數的輕量協調器,給LLM動態分配三種角色:

•Thinker(思考者):負責分析和推理

•Worker(執行者):負責具體任務執行

•Verifier(驗證者):負責檢查和糾錯

TRINITY在LiveCodeBench上達到86.2%的成績。

兩篇論文的共同啟示:編排能力本身可以通過學習獲得,而不是靠人工設計workflow。

跑分:超越GPT-5.5,持平Fable 5

以下是Sakana AI官方公佈的資料:

基準測試FuguFugu UltraOpus 4.8Gemini 3.1 ProGPT 5.5SWE-Bench Pro59.073.769.254.258.6TerminalBench 2.180.282.174.670.378.2LiveCodeBench92.993.287.888.585.3GPQA-Diamond95.595.592.094.393.6Humanity's Last Exam47.250.049.844.441.4SciCode60.158.753.558.956.1

官方特別註明:Fable 5和Mythos Preview的分數取兩者中較高的那個,且兩者都不在Fugu的agent池中——因為它們不公開可用。

Fugu拿高分的方式跟傳統模型完全不同。它沒有訓練一個更強的基座去解題,而是學會了這道題該派交給誰、怎麼拆解、如何校驗,最終綜合得到的答案質量超過任何單一模型獨立作答。

Agent池裡都有誰

Fugu的調度對象包括當前最強的一批閉源和開源模型:

閉源模型:GPT-5.5、Claude Opus 4.8、Gemini 3.1 Pro

開源模型(論文訓練時使用的):DeepSeek-R1-Distill-Qwen-32B、Gemma3-27B-instruct、Qwen3-32B

關鍵特性:Fugu不需要訪問worker模型的權重,甚至不需要它們是開放原始碼的。新模型發佈後可以直接加入worker池,使用者可以根據成本、隱私、合規需求定製可用模型列表。

Fugu的調度策略也很聰明——不同任務會自動集中呼叫不同模型:

TerminalBench → 主要呼叫GPT-5.5

GPQA Diamond → 主要呼叫Gemini 3.1 Pro

地緣政治賣點:AI主權

Sakana AI在官方部落格中特別強調了一個不太技術但很重要的點:繫結單一供應商的風險

原文寫道:"存取權可能會一夜消失"——暗指Anthropic模型近期被施加出口管制的事件。

Fugu的底層模型池完全可替換,一家斷供就換另一家。Sakana AI稱之為"AI主權的現實藍圖"

這個定位在當前中美AI博弈、日本算力受限的背景下,頗有深意。

定價

•Fugu Ultra:輸入$5/M tokens,輸出$30/M tokens(context超過272K時翻倍)

•Fugu:單agent時只收底層模型的標準費率;多agent時不疊加費用,按最高級模型的單一費率計費

成本帳:真的省錢嗎?

這是Fugu最大的矛盾點。

先算一筆帳:一個複雜任務可能涉及5個workflow step,每步呼叫一個不同的大模型。假設每個step都用GPT-5.5或Opus 4.8這種頂級模型,實際token消耗是單一模型的數倍。

Sakana AI說不疊加費用,按最高級模型單一費率計費——這說明他們自己也知道多模型呼叫的成本問題,在用定價策略補貼。

那它憑什麼談降低成本?它的邏輯不是總成本更低,而是三件事:

1同等質量下更便宜——用小模型編排+中等模型執行,可能比直接用最貴模型反覆試錯便宜

2避免浪費——簡單任務不派大模型,只在需要時才呼叫頂級模型

3減少人工成本——一次編排成功 vs 人工反覆偵錯prompt和workflow

但這些都是理論上的。Fugu Ultra定價$30/M output tokens,比GPT-5.5還貴——說明Sakana AI自己也認為這個服務值premium價格。

本質上Fugu賣的不是便宜,而是同樣的錢得到更好的結果。就像請一個項目經理指揮5個專家幹活,總成本肯定比一個專家高,但如果產出質量顯著提升,ROI可能更划算。

不過真實成本效益,還得等大量使用者實際使用後才能驗證。

定性能力展示

除了跑分,Sakana AI還展示了幾個有趣的實驗:

一次性魔方求解器:Fugu和Fugu Ultra都成功解出了全部300個亂序魔方,Fugu Ultra平均步數更短(19.72步 vs 基線模型的19.76步),Fugu運行速度更快。

盲棋測試:在看不到棋盤、沒有FEN、只憑歷史走法記憶的情況下,Fugu連續擊敗4個對手,包括3個前沿模型和2100 Elo的Stockfish。

線上股票交易:在50周的歷史資料上做逐周買賣決策,Fugu Ultra平均收益+19.43%,其他前沿模型均不到+15%。

AutoResearch實驗:讓AI agent自主最佳化一個小GPT的訓練程式碼,Fugu Ultra在單張H100上跑了123次實驗、14小時,最終BPB(0.9774)優於所有基線模型。

這意味著什麼

Sakana Fugu提出的不只是一個新產品,而是一種新的範式:

過去的問題:那個模型最強?

現在的問題:怎麼讓多個模型協同起來更強?

這會帶來三個變化:

1模型能力模組化:新模型發佈後直接加入worker池,成為某類任務的專家

2使用者控制權增強:企業可以根據隱私、合規、成本、延遲來配置模型池

3競爭維度擴展:從"單一模型能力"擴展到"系統組織能力"——誰更會調度模型、設計工作流、整合反饋

當然,Fugu也有明顯侷限:

多模型編排帶來更高成本和延遲

錯誤歸因更複雜——出錯了很難分清是路由、worker還是綜合過程的問題

編排器本身可能產生偏差,過度依賴某個模型

技術報告中的測試來自廠商,實際能力還需要真實開發者的驗證

但無論如何,7B小模型通過學習編排策略,在多個基準上超越了百倍參數量的單一模型——這件事本身就很值得思考。

AI的下一階段,可能不只是更大更強的模型,還有更會協作的系統。 (覓血兵城)