又一大模型發佈!號稱比肩Fable 5和Mythos

Sakana AI提出大模型訓練新思路。

智東西6月22日報導,今天,日本AI獨角獸Sakana AI發佈了Sakana Fugu系列編排器模型,包括Fugu Ultra和Fugu兩款模型。其中Fugu Ultra模型在工程、科學和推理基準測試中,性能接近或超越了Fable 5以及Mythos Preview等頂尖模型。

和傳統大語言模型不同的是,Sakana Fugu不會自己回答問題,它會呼叫世界上各種模型來完成任務。簡單來說,Sakana Fugu像一個“總指揮”,會根據任務選擇最佳的模型來處理

Fugu在日文中是河豚的意思,從官方發佈的動畫可以看出,Sakana Fugu是要用多個“小魚”匯聚成一個“大河豚”這種美味食材。

Sakana AI是一家日本AI獨角獸,成立於2023年,由Transformer論文第五作者Llion Jones聯合創辦,曾用“進化”的方式,通過小模型組合實現堪比大模型的能力。如今,他們在Sakana Fugu在技術報告提出了訓練模型的新思路:讓一個模型學會調度多個模型,把不同特長不同的大模型組織起來,形成一種“集體智能”

Sakana AI在部落格中提出,編排模型將會超越傳統大模型成為新的前沿方向。他們認為,過去幾年AI進步靠暴力堆算力和資料,但現實複雜任務需要的專業知識遠超單一模型的能力邊界。充分發揮模型的最佳性能需要集體智慧,需要知道何時該用那個模型、什麼時候委派、怎麼組合擅長不同領域的模型。

同時,這種編排不僅是技術上的進步,更是地緣政治的產物。Sakana AI從近期Anthropic模型被施加出口管制中吸取教訓,認為繫結單一供應商,存取權可能會一夜消失,而Fugu的底層模型池完全可替換,一家斷供就換另一家,Sakana AI稱之為“AI主權的現實藍圖”

Sakana AI在部落格中提出,Fugu本身是一個專門用於理解何時委派任務、Agent之間如何通訊以及如何將它們的工作整合為一個可靠答案的語言模型。這套技術路線建立在此前團隊關於學習模型編排的研究之上,包括在ICLR 2026上發表的論文Trinity和Conductor。

技術報告地址:
https://github.com/SakanaAI/fugu/blob/main/Fugu_technical_report.pdf
體驗地址:
https://sakana.ai/fugu

01. 超越Mythos Preview和Fable 5調度最強模型完成任務

技術報告列出了Fugu系列在覆蓋程式設計、推理、科學、Agent能力四個維度的八個基準測試上的表現,報告顯示Fugu系列在這些評測中達到或接近尖端模型的水平。

技術報告顯示,Fugu模型僅通過智能調度,就在三項基準測試中超越了Mythos Preview和Fable 5的能力

在跨領域的適應性方面,Terminal Bench測試中,Fugu和Fugu Ultra呼叫模型的峰值都集中於在該測試中表現頂尖的GPT-5.5。而在GPQADiamond測試中,Gemini-3.1-Pro作為領先模型,兩款Fugu模型都將其調度核心圍繞Gemini展開。

Fugu拿高分的方式跟傳統模型完全不同,它沒有訓練一個更強的基座去解題,而是去判斷這道題該派交給那個模型、怎麼拆解任務、如何校驗檢查,最終綜合得到的答案的質量超過多個單一模型獨立作答所得。

這正是技術報告反覆強調的核心定位:Fugu的技術價值不在於替代GPT、Claude、Gemini這些模型,而在於把這些模型的能力組合起來。現在的大模型中,有的擅長數學推理、有的擅長程式碼工程、有的擅長安全分析,隨著不同模型各自形成特長,編排能力本身正在成為一種獨立的競爭力

02. 四大機制讓Fugu指揮模型軍團

報告解讀了Fugu的四個基礎機制:

第一,識別問題類型。判斷使用者問題是程式碼、數學、推理、資訊檢索、科學分析還是多模態任務,這一步決定了後續整個派活邏輯的起點。

第二,選擇合適的worker模型。不同模型在不同任務上的表現差異很大,Fugu被訓練的目標之一就是學會在什麼問題上該呼叫什麼模型,報告提到,即使在同一類任務內部,比如競賽性質的程式設計,不同模型也可能分別擅長直接實現、制定解題計畫或組合多種演算法思路,Fugu需要把這些細微的差異也納入決策。

第三,設計Agent工作流。對複雜問題,Fugu Ultra會生成完整的agentic workflow,包括任務拆分、子任務分配、上下文共享策略以及最終答案合成,全部可以在模型內部以自然語言完成。

第四,根據反饋最佳化。Fugu的訓練不止監督微調,還包括進化演算法和強化學習,用真實任務結果來反向最佳化編排策略,這種策略讓它知道怎麼讓合適的模型去做合適的事。

Sakana Fugu共有兩個版本的模型,分別為Fugu和Fugu-Ultra。Fugu更強調日常使用,側重性能和延遲平衡,在保證較高品質的同時,儘量快速響應。因此它不會每次都進行非常複雜的多Agent協作,會通過一個輕量選擇機制,快速判斷那個worker模型更適合當前任務。

Fugu-Ultra則更偏向質量優先。它會使用更複雜的編排方式,把任務拆成多個子任務,安排不同Agent去處理,隨後再進行綜合。這種方式響應時間可能更長,但更適合高難度問題,例如複雜程式碼任務、數學推理、科學問題、多步驟規劃等。

兩者的共同點是與模型無關的完全模組化,Sakana Fugu不需要訪問worker模型的權重,甚至不需要它們是開放原始碼的。新模型發佈後可以直接加入worker模型池,使用者可以根據成本、隱私、合規等需求定製可用的模型列表

03. 解魔方、下盲棋,沒被洗車問題難倒

Sakana Fugu技術報告附錄中有幾個實驗:

一個是“一次性魔方求解器”。模型需要一次性寫出一個Python標準庫實現的魔方求解程序,並在300個亂序魔方上測試。報告稱Fugu和Fugu-Ultra都成功解出了全部魔方,其中Fugu-Ultra的平均步數更短,Fugu的運行速度更快。

另一個是“盲棋測試”。模型在看不到棋盤、沒有合法走法列表、沒有FEN的情況下,只根據歷史走法繼續下棋。這個實驗主要測試模型是否能長期維護內部狀態。報告展示的幾盤代表性對局中,Fugu戰勝了多個基線模型和限制強度的Stockfish。

還有一個是“線上股票交易”實驗。模型只能看到過去和當前的匿名市場資料,不能偷看未來價格,需要逐周做買入、持有或賣出決策。報告稱Fugu-Ultra在五次運行中取得了更高平均收益。

這些實驗未必可以直接代表模型的實際能力,但它們展示了Fugu想證明的一件事:編排模型可以處理好需要長期運行、策略調整以及多步驟執行的任務。

有網友使用Fugu-Ultra去處理了一些讓很多模型崩潰的問題,比如strawberry(草莓)中有幾個“r”、5.11比5.1大嗎以及經典洗車問題,他直呼把Fable找回來了。可以看到Fugu-Ultra在這三個問題上的回答都是正確的。

Sakana Fugu技術報告中最值得關注的,是它提出了一種模型研究的新路徑

過去我們常問那個模型最強,而Sakana Fugu提出的新問題是如何讓多個尖端模型協同起來更強。

這會帶來幾個變化:第一,模型能力會變得更加模組化。新模型發佈後,可以直接加入worker池,成為某類任務的專家;第二,使用者控制權更強。企業或個人可以根據隱私、合規、成本、延遲、供應商偏好來配置模型池。第三,AI競爭可能從“單一模型能力”擴展到“系統組織能力”。誰更會調度模型、使用工具、設計工作流、整合反饋,誰就會擁有更強大的能力。

當然,技術報告中的測試結果來自於廠商,實際能力還要看真實開發者的使用體驗,其次,多模型編排會帶來更高成本和更高的延遲,特別是Fugu-Ultra這類深度協作模式。同時,多模型系統的錯誤歸因會更複雜,一旦最終答案出錯,很難分清是路由、worker模型還是綜合過程出錯。

此外,編排器模型本身也可能出現偏差,它如果錯誤判斷任務類型,或者過度依賴某個模型,就可能削弱整體表現。因此,Sakana Fugu的路線雖然很有潛力,但真正落地仍需要大量工程驗證。

04. 結語:入局大模型訓練的新方式

Sakana Fugu系列模型的發佈表明,AI的下一階段,可能不只是更大更強的單一模型,還有更會協作的模型系統

如果說過去的大模型競爭是在培養“超級智能”,那麼Sakana Fugu的方向就是在訓練“超級指揮”讓模型專門去學習如何分工、協調、驗證以及綜合。在大模型領域被少數頂尖模型廠商統治的現在,這個只調度不執行的模型訓練方式,或許是當下入局大模型訓練的新方式。 (智東西)