#OpenRouter
OpenClaw殺出中國黑馬,全球開發者狂呼真香!一場深夜AMA撕開底牌
【新智元導讀】OpenClaw爆火,AI正式步入Agent時代。一支低調的中國團隊憑藉極速推理、完美適配128G記憶體的196B模型,直擊痛點,強勢登頂海外熱榜。2026年才剛剛開始,AI圈的風向就已經變了。全網最火OpenClaw一夜之間,將大模型從乏味的「對話方塊」,拉到了「自動執行中樞」的時代。OpenClaw GitHub星標狂飆200k放眼海外,OpenClaw開源生態迎來了史詩級大爆發。核心Skill註冊平台ClawHub成為全球開發者的進貨天堂。這裡彙集了超過5000個由社區貢獻的海量Agent Skills就在最近,國內一款類似的平台「水產市場」迅速走紅。上線短短幾天時間,已有3.3k下載量,開發者們紛紛一鍵接入了自己的龍蝦。它的核心邏輯,就把各種散落GitHub工具,全部集中上架,讓Agent隨調隨用。當AI被捲成「超級牛馬」,開發者的投票邏輯也變得更加直接:在複雜的長程任務中,誰的速度奇快無比、邏輯足夠強悍,且能與各類工具絲滑地聯動,誰就能贏下這一局。正是在這樣一個「實戰為王」的節點,一個低調的中國大模型團隊——階躍星辰(StepFun),憑藉著最新發佈的Step 3.5 Flash,穩穩接住了這波最炙手可熱的流量紅利。全球「逮蝦戶」爭用中國黑馬模型由於OpenClaw運行需要大量呼叫大模型API,OpenRouter作為全球最大的模型聚合平台,自然成了最直接的「戰場」。在GPT等強敵包圍之下,Step 3.5 Flash異軍突起,不僅成功躋身Fastest榜的第一梯隊,甚至還一度拿下了Trending榜的榜首。一個代表速度,一個代表趨勢,精準命中了Agent時代開發者最關心的兩個維度:快,以及越來越多人在用。根據「Last 30 days」呼叫量排行,Step 3.5 Flash目前穩居全球第四;2月26日以來,單天呼叫量則直接衝到了第三的位置。不過,更值得玩味的是,這份成績是怎麼來的。階躍CTO朱亦博後來在Reddit上透露:Step 3.5 Flash既不在OpenClaw默認配置的首頁推薦列表裡,也沒有跟OpenClaw做過任何官方推廣合作。換句話說,這完全是開發者自發選擇的結果——用腳投票,一票一個token。潛入Reddit海外開發者「真香」現場隨著呼叫量的飆升,階躍的核心團隊做客了全球最硬核、最挑剔的本地大模型開源社區Reddit的 r/LocalLLaMA 類股,開啟了一場長達數小時的AMA(Ask Me Anything)。熟悉這個社區的人都知道,r/LocalLLaMA的活躍使用者是全球最硬核的獨立開發者。他們不看PPT,不信行銷話術,只看模型能不能在自己的本地機器上絲滑跑起來。面對這群最挑剔的極客,StepFun派出了包括CEO、CTO、首席科學家在內的全明星陣容,十一人集體線上答疑。面對海外極客尖銳的技術提問、乃至對工程Bug的「貼臉開大」,階躍交出了一場真誠且硬核的答卷。而把這場跨洋對話和近期的榜單逆襲放在一起看,不僅能解開Step 3.5 Flash在海外意外走紅的底層邏輯,更能讓我們看到:在算力與生態的重重約束下,一家中國創業公司是如何蹚出一條破局之路的。先說速度。在Chatbot時代,大模型只要保持20~30 tokens/s的輸出速度就夠了,因為使用者會盯著螢幕看它「打字」,再快也讀不過來。但在Agent時代,遊戲的玩法徹底變了。當使用者使用OpenClaw這類工具完成長程任務時,沒有人會緊盯模型輸出的每一個字——大家只關心「你什麼時候能把活幹完交付給我」。速度,從「錦上添花」變成了「生死攸關」。海外使用者的真實反饋印證了這一點。在AMA中,有網友直言:「實測用於OpenClaw特別好用,速度奇快無比,是所有模型裡最滿意的一個」。再說尺寸。如果說速度是熱情的引線,那麼點燃這場AMA最高潮的,是一個看似平淡的參數設定:約196B的MoE架構。在開發者眼中,這個尺寸簡直是「神來之筆」。知名評論者ilintar激動地留言:「我覺得196B MoE是一個完美的參數規模——它允許高品質的4-bit量化加上合理的上下文長度剛好能放入128 GB記憶體中。」這個「卡點」並非巧合。朱亦博在AMA中坦言:我們的確有一個目標,就是讓它能夠跑在一個128 GB記憶體系統的記憶體中。我自己為了跑模型,自掏腰包買了一台128GB記憶體的Macbook Pro,而我們的首席科學家也買了一台128GB記憶體的AMD機器。因為自己是資深的本地模型玩家,所以深知痛點。現有的許多230B等級的模型,在進行4-bit量化後,恰好超出了128GB記憶體的承載極限,迫使開發者只能犧牲性能去使用3-bit甚至更低精度的量化,或者忍受極慢的硬碟解除安裝。為了讓開發者能夠用4-bit暢快跑滿256K上下文,階躍硬生生將尺寸「克制」在了比235B略小的區間。這不僅是技術上的精打細算,更是對開源社區真實需求的深刻共情。難怪有使用者感慨:「你們能考慮到128GB的範圍真是太棒了」。當然,反饋並不只有鮮花。有開發者尖銳地指出,Step 3.5 Flash在發佈首日,工具呼叫在vLLM、llama.cpp等主流推理棧上完全不可用,甚至直接放棄測試退回了競品模型。面對這種「貼臉輸出」的質疑,CTO朱亦博親自下場道歉:這確實暴露出我們在發佈支援工具呼叫的模型方面經驗不足……我們只確保了數學和編碼的基準測試結果,但測試用例沒有覆蓋到工具呼叫的工程實現。針對使用者反饋的模型會陷入「無限推理循環」的Bug,團隊也毫不迴避。他們詳細解釋了這是因為缺乏不同推理強度(Reasoning effort)的訓練資料,並公開了下一步通過RL進行顯式長度控制的修複方案。甚至,在談到「世界知識的遺忘」這一深度技術難題時,團隊也大方分享了他們的困境與假設:對於200B規模的推理模型,在從預訓練轉向推理模式冷啟動的對齊階段,模型很容易陷入一個「知識貧乏的閉合子空間」,付出了過高的「對齊稅」,導致世界知識受損。這種不迴避缺陷、甚至把踩過的坑掰開揉碎了講給社區聽的態度,贏得了極客們的極大尊重。開源社區最終只相信一件事情:你是不是在真正解決問題,你是否與開發者站在一起。有使用者甚至主動提出:「如果我能在下個版本前搞定自動解析器,你們至少不用擔心llama.cpp的工具呼叫支援了」。這,就是開放原始碼的力量。196B參數背後的設計哲學從CTO朱亦博最近發佈多的一篇長文中,我們洞察到了階躍在大模型路線上的戰略判斷邏輯。第一個判斷:大模型時代正在切換賽道。當前,大模型的演進劃分為三個階段:L1 Chatbot(對話機器人)→ L2 Reasoner(推理器)→ L3 Agent(智能體)。針對不同階段,適合的「基座架構」也是不同的。也就是說,強行用上一代的基模結構做下一代的事,不是不行,只是效率極低。而對於沒有海外巨頭那樣充沛算力的中國公司而言,低效就是致命的。第二個判斷:Agent時代,速度比參數更重要。比起狂捲參數,一個擁有極致效率的模型更加重要。這意味著,模型的推理速度,從「體驗最佳化項」變成了「核心競爭力」。因此,Step 3.5 Flash的設計目標被精準地定義為三個詞:強邏輯、長上下文、快。在架構方面,它採用了高效的稀疏MoE,並選擇了對投機採樣最友好的SWA結構;在端側部署方面,團隊堅持用8個Group,以適配8卡平行的推理硬體。這種從一開始就將「智能密度」和「推理速度」作為雙重北極星指標的做法,讓Step 3.5 Flash在沒有盲目堆砌參數的情況下,成為了一台完美契合Agent工作流的「性能小鋼炮」。第三個判斷:拒絕梭哈,可持續發展才是正道。這場AMA和背後的開發故事中,最讓人深思的,其實是階躍星辰對「大參數模型」的祛魅。在階躍看來,訓大尺寸模型很容易陷入一個死胡同:訓練周期太長,等好不容易訓成熟了,上一個智能時代已經進入尾聲,新的範式(如長鏈條推理)已經出現,為了適應新時代又不得不推倒重來。這需要巨頭般深不見底的算力儲備,對於創業公司而言,「就是場要麼爆火要麼爆虧的豪賭」。更深入的技術洞察在於:模型尺寸到了一定程度後,和邏輯能力的相關度就不大了,邏輯能力主要吃後訓練技術。在巨頭中間蹚出一條「實戰派」之路縱觀整個2026年開春的大模型戰局,市場正在發生劇烈的重構。前兩年的邏輯是誰能跑分更高,誰能更接近所謂的SOTA。但在今天,這條坐標軸正在轉向:誰能在算力約束下跑出現金流?誰能在模型能力與推理成本之間找到極致的平衡?Step 3.5 Flash的出現,以及它在Reddit引發的狂熱和在OpenClaw榜單上的逆襲,給出了一個極具啟發性的答案。算力不佔優勢,就把系統和演算法的聯合設計做到極致;做不了通殺一切的兆全能怪獸,就針對Agent時代的核心痛點(長上下文效率、極速推理、強邏輯後訓練)進行定點爆破;在商業化上,通過提供「最符合硬體部署甜點位(128GB)」的高效工具,自然而然地接住了OpenClaw帶來的開發者流量。正如團隊在AMA中所說:「訓練基礎模型既是科學也是工程。最重要的是每個團隊成員都理解設計目標。當目標清晰時,演算法選擇、資料清洗和基礎設施決策就會自然對齊。」這或許才是2026年AI競爭最真實的樣子——不是實驗室裡的跑分遊戲,而是真實工作流中的生死時速。當你的模型每天被全球開發者呼叫數百億tokens時,任何花哨的PPT都不如一句「it just works」來得有說服力。至少在此刻,階躍星辰的Step 3.5 Flash已經用一種最樸素的方式證明了自己的價值:在一個老外用英語提問、中國工程師用英語回答的深夜Reddit帖子裡,在一個個被全球開發者敲進配置檔案的模型名字裡。不需要翻譯,程式碼就是最好的語言。 (新智元)