【新智元導讀】OpenClaw爆火,AI正式步入Agent時代。一支低調的中國團隊憑藉極速推理、完美適配128G記憶體的196B模型,直擊痛點,強勢登頂海外熱榜。
2026年才剛剛開始,AI圈的風向就已經變了。
全網最火OpenClaw一夜之間,將大模型從乏味的「對話方塊」,拉到了「自動執行中樞」的時代。
放眼海外,OpenClaw開源生態迎來了史詩級大爆發。核心Skill註冊平台ClawHub成為全球開發者的進貨天堂。
就在最近,國內一款類似的平台「水產市場」迅速走紅。
上線短短幾天時間,已有3.3k下載量,開發者們紛紛一鍵接入了自己的龍蝦。
它的核心邏輯,就把各種散落GitHub工具,全部集中上架,讓Agent隨調隨用。
當AI被捲成「超級牛馬」,開發者的投票邏輯也變得更加直接:
在複雜的長程任務中,誰的速度奇快無比、邏輯足夠強悍,且能與各類工具絲滑地聯動,誰就能贏下這一局。
正是在這樣一個「實戰為王」的節點,一個低調的中國大模型團隊——
階躍星辰(StepFun),憑藉著最新發佈的Step 3.5 Flash,穩穩接住了這波最炙手可熱的流量紅利。
由於OpenClaw運行需要大量呼叫大模型API,OpenRouter作為全球最大的模型聚合平台,自然成了最直接的「戰場」。
在GPT等強敵包圍之下,Step 3.5 Flash異軍突起,不僅成功躋身Fastest榜的第一梯隊,甚至還一度拿下了Trending榜的榜首。
一個代表速度,一個代表趨勢,精準命中了Agent時代開發者最關心的兩個維度:快,以及越來越多人在用。
根據「Last 30 days」呼叫量排行,Step 3.5 Flash目前穩居全球第四;2月26日以來,單天呼叫量則直接衝到了第三的位置。
不過,更值得玩味的是,這份成績是怎麼來的。
階躍CTO朱亦博後來在Reddit上透露:
Step 3.5 Flash既不在OpenClaw默認配置的首頁推薦列表裡,也沒有跟OpenClaw做過任何官方推廣合作。
換句話說,這完全是開發者自發選擇的結果——用腳投票,一票一個token。
隨著呼叫量的飆升,階躍的核心團隊做客了全球最硬核、最挑剔的本地大模型開源社區Reddit的 r/LocalLLaMA 類股,開啟了一場長達數小時的AMA(Ask Me Anything)。
熟悉這個社區的人都知道,r/LocalLLaMA的活躍使用者是全球最硬核的獨立開發者。
他們不看PPT,不信行銷話術,只看模型能不能在自己的本地機器上絲滑跑起來。
面對這群最挑剔的極客,StepFun派出了包括CEO、CTO、首席科學家在內的全明星陣容,十一人集體線上答疑。
面對海外極客尖銳的技術提問、乃至對工程Bug的「貼臉開大」,階躍交出了一場真誠且硬核的答卷。
而把這場跨洋對話和近期的榜單逆襲放在一起看,不僅能解開Step 3.5 Flash在海外意外走紅的底層邏輯,更能讓我們看到:
在算力與生態的重重約束下,一家中國創業公司是如何蹚出一條破局之路的。
先說速度。
在Chatbot時代,大模型只要保持20~30 tokens/s的輸出速度就夠了,因為使用者會盯著螢幕看它「打字」,再快也讀不過來。
但在Agent時代,遊戲的玩法徹底變了。
當使用者使用OpenClaw這類工具完成長程任務時,沒有人會緊盯模型輸出的每一個字——大家只關心「你什麼時候能把活幹完交付給我」。速度,從「錦上添花」變成了「生死攸關」。
海外使用者的真實反饋印證了這一點。
在AMA中,有網友直言:「實測用於OpenClaw特別好用,速度奇快無比,是所有模型裡最滿意的一個」。
再說尺寸。
如果說速度是熱情的引線,那麼點燃這場AMA最高潮的,是一個看似平淡的參數設定:約196B的MoE架構。
在開發者眼中,這個尺寸簡直是「神來之筆」。
知名評論者ilintar激動地留言:「我覺得196B MoE是一個完美的參數規模——它允許高品質的4-bit量化加上合理的上下文長度剛好能放入128 GB記憶體中。」
這個「卡點」並非巧合。朱亦博在AMA中坦言:
我們的確有一個目標,就是讓它能夠跑在一個128 GB記憶體系統的記憶體中。我自己為了跑模型,自掏腰包買了一台128GB記憶體的Macbook Pro,而我們的首席科學家也買了一台128GB記憶體的AMD機器。
因為自己是資深的本地模型玩家,所以深知痛點。
現有的許多230B等級的模型,在進行4-bit量化後,恰好超出了128GB記憶體的承載極限,迫使開發者只能犧牲性能去使用3-bit甚至更低精度的量化,或者忍受極慢的硬碟解除安裝。
為了讓開發者能夠用4-bit暢快跑滿256K上下文,階躍硬生生將尺寸「克制」在了比235B略小的區間。
這不僅是技術上的精打細算,更是對開源社區真實需求的深刻共情。
難怪有使用者感慨:「你們能考慮到128GB的範圍真是太棒了」。
當然,反饋並不只有鮮花。
有開發者尖銳地指出,Step 3.5 Flash在發佈首日,工具呼叫在vLLM、llama.cpp等主流推理棧上完全不可用,甚至直接放棄測試退回了競品模型。
面對這種「貼臉輸出」的質疑,CTO朱亦博親自下場道歉:
這確實暴露出我們在發佈支援工具呼叫的模型方面經驗不足……我們只確保了數學和編碼的基準測試結果,但測試用例沒有覆蓋到工具呼叫的工程實現。
針對使用者反饋的模型會陷入「無限推理循環」的Bug,團隊也毫不迴避。
他們詳細解釋了這是因為缺乏不同推理強度(Reasoning effort)的訓練資料,並公開了下一步通過RL進行顯式長度控制的修複方案。
甚至,在談到「世界知識的遺忘」這一深度技術難題時,團隊也大方分享了他們的困境與假設:
對於200B規模的推理模型,在從預訓練轉向推理模式冷啟動的對齊階段,模型很容易陷入一個「知識貧乏的閉合子空間」,付出了過高的「對齊稅」,導致世界知識受損。
這種不迴避缺陷、甚至把踩過的坑掰開揉碎了講給社區聽的態度,贏得了極客們的極大尊重。
開源社區最終只相信一件事情:你是不是在真正解決問題,你是否與開發者站在一起。
有使用者甚至主動提出:「如果我能在下個版本前搞定自動解析器,你們至少不用擔心llama.cpp的工具呼叫支援了」。
這,就是開放原始碼的力量。
196B參數背後的設計哲學
從CTO朱亦博最近發佈多的一篇長文中,我們洞察到了階躍在大模型路線上的戰略判斷邏輯。
第一個判斷:大模型時代正在切換賽道。
當前,大模型的演進劃分為三個階段:L1 Chatbot(對話機器人)→ L2 Reasoner(推理器)→ L3 Agent(智能體)。
針對不同階段,適合的「基座架構」也是不同的。
也就是說,強行用上一代的基模結構做下一代的事,不是不行,只是效率極低。
而對於沒有海外巨頭那樣充沛算力的中國公司而言,低效就是致命的。
第二個判斷:Agent時代,速度比參數更重要。
比起狂捲參數,一個擁有極致效率的模型更加重要。
這意味著,模型的推理速度,從「體驗最佳化項」變成了「核心競爭力」。
因此,Step 3.5 Flash的設計目標被精準地定義為三個詞:強邏輯、長上下文、快。
在架構方面,它採用了高效的稀疏MoE,並選擇了對投機採樣最友好的SWA結構;在端側部署方面,團隊堅持用8個Group,以適配8卡平行的推理硬體。
這種從一開始就將「智能密度」和「推理速度」作為雙重北極星指標的做法,讓Step 3.5 Flash在沒有盲目堆砌參數的情況下,成為了一台完美契合Agent工作流的「性能小鋼炮」。
第三個判斷:拒絕梭哈,可持續發展才是正道。
這場AMA和背後的開發故事中,最讓人深思的,其實是階躍星辰對「大參數模型」的祛魅。
在階躍看來,訓大尺寸模型很容易陷入一個死胡同:
訓練周期太長,等好不容易訓成熟了,上一個智能時代已經進入尾聲,新的範式(如長鏈條推理)已經出現,為了適應新時代又不得不推倒重來。
這需要巨頭般深不見底的算力儲備,對於創業公司而言,「就是場要麼爆火要麼爆虧的豪賭」。
更深入的技術洞察在於:模型尺寸到了一定程度後,和邏輯能力的相關度就不大了,邏輯能力主要吃後訓練技術。
縱觀整個2026年開春的大模型戰局,市場正在發生劇烈的重構。
前兩年的邏輯是誰能跑分更高,誰能更接近所謂的SOTA。
但在今天,這條坐標軸正在轉向:誰能在算力約束下跑出現金流?誰能在模型能力與推理成本之間找到極致的平衡?
Step 3.5 Flash的出現,以及它在Reddit引發的狂熱和在OpenClaw榜單上的逆襲,給出了一個極具啟發性的答案。
正如團隊在AMA中所說:「訓練基礎模型既是科學也是工程。最重要的是每個團隊成員都理解設計目標。當目標清晰時,演算法選擇、資料清洗和基礎設施決策就會自然對齊。」
這或許才是2026年AI競爭最真實的樣子——不是實驗室裡的跑分遊戲,而是真實工作流中的生死時速。
當你的模型每天被全球開發者呼叫數百億tokens時,任何花哨的PPT都不如一句「it just works」來得有說服力。
至少在此刻,階躍星辰的Step 3.5 Flash已經用一種最樸素的方式證明了自己的價值:
在一個老外用英語提問、中國工程師用英語回答的深夜Reddit帖子裡,在一個個被全球開發者敲進配置檔案的模型名字裡。
不需要翻譯,程式碼就是最好的語言。 (新智元)