OpenClaw殺出中國黑馬，全球開發者狂呼真香！一場深夜AMA撕開底牌

2026/03/01

•

【新智元導讀】OpenClaw爆火，AI正式步入Agent時代。一支低調的中國團隊憑藉極速推理、完美適配128G記憶體的196B模型，直擊痛點，強勢登頂海外熱榜。

2026年才剛剛開始，AI圈的風向就已經變了。

全網最火OpenClaw一夜之間，將大模型從乏味的「對話方塊」，拉到了「自動執行中樞」的時代。

放眼海外，OpenClaw開源生態迎來了史詩級大爆發。核心Skill註冊平台ClawHub成為全球開發者的進貨天堂。

就在最近，國內一款類似的平台「水產市場」迅速走紅。

上線短短幾天時間，已有3.3k下載量，開發者們紛紛一鍵接入了自己的龍蝦。

它的核心邏輯，就把各種散落GitHub工具，全部集中上架，讓Agent隨調隨用。

當AI被捲成「超級牛馬」，開發者的投票邏輯也變得更加直接：

在複雜的長程任務中，誰的速度奇快無比、邏輯足夠強悍，且能與各類工具絲滑地聯動，誰就能贏下這一局。

正是在這樣一個「實戰為王」的節點，一個低調的中國大模型團隊——

階躍星辰（StepFun），憑藉著最新發佈的Step 3.5 Flash，穩穩接住了這波最炙手可熱的流量紅利。

全球「逮蝦戶」

爭用中國黑馬模型

由於OpenClaw運行需要大量呼叫大模型API，OpenRouter作為全球最大的模型聚合平台，自然成了最直接的「戰場」。

在GPT等強敵包圍之下，Step 3.5 Flash異軍突起，不僅成功躋身Fastest榜的第一梯隊，甚至還一度拿下了Trending榜的榜首。

一個代表速度，一個代表趨勢，精準命中了Agent時代開發者最關心的兩個維度：快，以及越來越多人在用。

根據「Last 30 days」呼叫量排行，Step 3.5 Flash目前穩居全球第四；2月26日以來，單天呼叫量則直接衝到了第三的位置。

不過，更值得玩味的是，這份成績是怎麼來的。

階躍CTO朱亦博後來在Reddit上透露：

Step 3.5 Flash既不在OpenClaw默認配置的首頁推薦列表裡，也沒有跟OpenClaw做過任何官方推廣合作。

換句話說，這完全是開發者自發選擇的結果——用腳投票，一票一個token。

潛入Reddit

海外開發者「真香」現場

隨著呼叫量的飆升，階躍的核心團隊做客了全球最硬核、最挑剔的本地大模型開源社區Reddit的 r/LocalLLaMA 類股，開啟了一場長達數小時的AMA（Ask Me Anything）。

熟悉這個社區的人都知道，r/LocalLLaMA的活躍使用者是全球最硬核的獨立開發者。

他們不看PPT，不信行銷話術，只看模型能不能在自己的本地機器上絲滑跑起來。

面對這群最挑剔的極客，StepFun派出了包括CEO、CTO、首席科學家在內的全明星陣容，十一人集體線上答疑。

面對海外極客尖銳的技術提問、乃至對工程Bug的「貼臉開大」，階躍交出了一場真誠且硬核的答卷。

而把這場跨洋對話和近期的榜單逆襲放在一起看，不僅能解開Step 3.5 Flash在海外意外走紅的底層邏輯，更能讓我們看到：

在算力與生態的重重約束下，一家中國創業公司是如何蹚出一條破局之路的。

先說速度。

在Chatbot時代，大模型只要保持20～30 tokens/s的輸出速度就夠了，因為使用者會盯著螢幕看它「打字」，再快也讀不過來。

但在Agent時代，遊戲的玩法徹底變了。

當使用者使用OpenClaw這類工具完成長程任務時，沒有人會緊盯模型輸出的每一個字——大家只關心「你什麼時候能把活幹完交付給我」。速度，從「錦上添花」變成了「生死攸關」。

海外使用者的真實反饋印證了這一點。

在AMA中，有網友直言：「實測用於OpenClaw特別好用，速度奇快無比，是所有模型裡最滿意的一個」。

再說尺寸。

如果說速度是熱情的引線，那麼點燃這場AMA最高潮的，是一個看似平淡的參數設定：約196B的MoE架構。

在開發者眼中，這個尺寸簡直是「神來之筆」。

知名評論者ilintar激動地留言：「我覺得196B MoE是一個完美的參數規模——它允許高品質的4-bit量化加上合理的上下文長度剛好能放入128 GB記憶體中。」

這個「卡點」並非巧合。朱亦博在AMA中坦言：

我們的確有一個目標，就是讓它能夠跑在一個128 GB記憶體系統的記憶體中。我自己為了跑模型，自掏腰包買了一台128GB記憶體的Macbook Pro，而我們的首席科學家也買了一台128GB記憶體的AMD機器。

因為自己是資深的本地模型玩家，所以深知痛點。

現有的許多230B等級的模型，在進行4-bit量化後，恰好超出了128GB記憶體的承載極限，迫使開發者只能犧牲性能去使用3-bit甚至更低精度的量化，或者忍受極慢的硬碟解除安裝。

為了讓開發者能夠用4-bit暢快跑滿256K上下文，階躍硬生生將尺寸「克制」在了比235B略小的區間。

這不僅是技術上的精打細算，更是對開源社區真實需求的深刻共情。

難怪有使用者感慨：「你們能考慮到128GB的範圍真是太棒了」。

當然，反饋並不只有鮮花。

有開發者尖銳地指出，Step 3.5 Flash在發佈首日，工具呼叫在vLLM、llama.cpp等主流推理棧上完全不可用，甚至直接放棄測試退回了競品模型。

面對這種「貼臉輸出」的質疑，CTO朱亦博親自下場道歉：

這確實暴露出我們在發佈支援工具呼叫的模型方面經驗不足……我們只確保了數學和編碼的基準測試結果，但測試用例沒有覆蓋到工具呼叫的工程實現。

針對使用者反饋的模型會陷入「無限推理循環」的Bug，團隊也毫不迴避。

他們詳細解釋了這是因為缺乏不同推理強度（Reasoning effort）的訓練資料，並公開了下一步通過RL進行顯式長度控制的修複方案。

甚至，在談到「世界知識的遺忘」這一深度技術難題時，團隊也大方分享了他們的困境與假設：

對於200B規模的推理模型，在從預訓練轉向推理模式冷啟動的對齊階段，模型很容易陷入一個「知識貧乏的閉合子空間」，付出了過高的「對齊稅」，導致世界知識受損。

這種不迴避缺陷、甚至把踩過的坑掰開揉碎了講給社區聽的態度，贏得了極客們的極大尊重。

開源社區最終只相信一件事情：你是不是在真正解決問題，你是否與開發者站在一起。

有使用者甚至主動提出：「如果我能在下個版本前搞定自動解析器，你們至少不用擔心llama.cpp的工具呼叫支援了」。

這，就是開放原始碼的力量。

196B參數背後的設計哲學

從CTO朱亦博最近發佈多的一篇長文中，我們洞察到了階躍在大模型路線上的戰略判斷邏輯。

第一個判斷：大模型時代正在切換賽道。

當前，大模型的演進劃分為三個階段：L1 Chatbot（對話機器人）→ L2 Reasoner（推理器）→ L3 Agent（智能體）。

針對不同階段，適合的「基座架構」也是不同的。

也就是說，強行用上一代的基模結構做下一代的事，不是不行，只是效率極低。

而對於沒有海外巨頭那樣充沛算力的中國公司而言，低效就是致命的。

第二個判斷：Agent時代，速度比參數更重要。

比起狂捲參數，一個擁有極致效率的模型更加重要。

這意味著，模型的推理速度，從「體驗最佳化項」變成了「核心競爭力」。

因此，Step 3.5 Flash的設計目標被精準地定義為三個詞：強邏輯、長上下文、快。

在架構方面，它採用了高效的稀疏MoE，並選擇了對投機採樣最友好的SWA結構；在端側部署方面，團隊堅持用8個Group，以適配8卡平行的推理硬體。

這種從一開始就將「智能密度」和「推理速度」作為雙重北極星指標的做法，讓Step 3.5 Flash在沒有盲目堆砌參數的情況下，成為了一台完美契合Agent工作流的「性能小鋼炮」。

第三個判斷：拒絕梭哈，可持續發展才是正道。

這場AMA和背後的開發故事中，最讓人深思的，其實是階躍星辰對「大參數模型」的祛魅。

在階躍看來，訓大尺寸模型很容易陷入一個死胡同：

訓練周期太長，等好不容易訓成熟了，上一個智能時代已經進入尾聲，新的範式（如長鏈條推理）已經出現，為了適應新時代又不得不推倒重來。

這需要巨頭般深不見底的算力儲備，對於創業公司而言，「就是場要麼爆火要麼爆虧的豪賭」。

更深入的技術洞察在於：模型尺寸到了一定程度後，和邏輯能力的相關度就不大了，邏輯能力主要吃後訓練技術。

在巨頭中間

蹚出一條「實戰派」之路

縱觀整個2026年開春的大模型戰局，市場正在發生劇烈的重構。

前兩年的邏輯是誰能跑分更高，誰能更接近所謂的SOTA。

但在今天，這條坐標軸正在轉向：誰能在算力約束下跑出現金流？誰能在模型能力與推理成本之間找到極致的平衡？

Step 3.5 Flash的出現，以及它在Reddit引發的狂熱和在OpenClaw榜單上的逆襲，給出了一個極具啟發性的答案。

算力不佔優勢，就把系統和演算法的聯合設計做到極致；
做不了通殺一切的兆全能怪獸，就針對Agent時代的核心痛點（長上下文效率、極速推理、強邏輯後訓練）進行定點爆破；
在商業化上，通過提供「最符合硬體部署甜點位（128GB）」的高效工具，自然而然地接住了OpenClaw帶來的開發者流量。

正如團隊在AMA中所說：「訓練基礎模型既是科學也是工程。最重要的是每個團隊成員都理解設計目標。當目標清晰時，演算法選擇、資料清洗和基礎設施決策就會自然對齊。」

這或許才是2026年AI競爭最真實的樣子——不是實驗室裡的跑分遊戲，而是真實工作流中的生死時速。

當你的模型每天被全球開發者呼叫數百億tokens時，任何花哨的PPT都不如一句「it just works」來得有說服力。

至少在此刻，階躍星辰的Step 3.5 Flash已經用一種最樸素的方式證明了自己的價值：

在一個老外用英語提問、中國工程師用英語回答的深夜Reddit帖子裡，在一個個被全球開發者敲進配置檔案的模型名字裡。

不需要翻譯，程式碼就是最好的語言。 (新智元)