你現在養了幾隻龍蝦?這就是現在打招呼最常見的問題,上周騰訊深圳總部排起龍等著免費裝 OpenClaw,真是一代人有一代人的雞蛋。連黃仁勳也盛讚 OpenClaw 為「有史以來最重要的軟體發佈」,認為它已經證明了 AI 在高度個性化環境中,能夠完美復刻人類的複雜工作流。養龍蝦太過火爆,也終於出現專門針對 OpenClaw 的基準測試 PinchBench,用於評估大語言模型在 OpenClaw 任務中的表現。PinchBench 評分方式也很硬核,有的任務看程式碼能不能跑通(自動化檢查),有的看寫得好不好(Claude Opus 當評委),還有的是兩者結合。所有題目和答案都開源在 GitHub 上,誰都可以去驗貨。今天,OpenClaw 創始人 Peter Steinberger 分享這個龍蝦基準測試排行榜。PinchBench 一口氣測了 32 款主流大模型,從成功率、速度、費用三個維度,看看那個模型最適合養龍蝦。PinchBench 官網🔗 https://pinchbench.com/Gemini 3 Flash 成功率最高,中國國產模型也殺瘋了來看最重磅的成功率排名。Google 的 Gemini 3 Flash Preview 以 95.1% 的成功率奪冠,這個成績說實話讓我有點意外。因為 Flash 系列一直是 Gemini 的「輕量版」,主打快和便宜,沒想到這次在精準率上直接把自家 Pro 老大哥和 Claude、GPT 系列全超了。這說明Google 在模型效率最佳化上是真的下了功夫。輕量模型不代表能力弱,關鍵看怎麼調。Gemini 3.1 Flash-Lite 更多介紹可以查看 APPSO 推文:剛剛,GPT-5.3 新模型撞車 Gemini,OpenClaw:謝謝你們第二名是 MiniMax M2.1,成功率 93.6%。中國國產模型真的站起來了,MiniMax 的表現相當亮眼,成功壓過了 Claude Sonnet 4.5(92.7%)和 GPT-4o(85.2%)。Kimi K2.5 緊隨其後,成功率 93.4%。Kimi 的長文字能力一直很強,這次在程式設計任務上也證明了自己。和 MiniMax 一起,中國國產雙雄直接佔據了 TOP3 的兩個席位。再往後看,Claude Sonnet 4.5 排第四(92.7%),Gemini 3 Pro 第五(91.7%),Claude Haiku 4.5 第六(90.8%)。有意思的是,Claude Opus 4.6 作為 Anthropic 的旗艦大模型,成功率只有 90.6%,排在第七。看來「大」不一定「強」,至少在程式設計這個場景下,中端模型反而更香。唯快不破,MiniMax 贏麻了在開發這些重度任務中,誰都不想對著螢幕乾等。速度接影響幹活的心情。MiniMax M2.5 以 105.96 秒的成績拿下速度冠軍,完成全部測試任務。什麼概念?比第二名 Gemini 2.0 Flash 只快了 0.09 秒,但第一就是第一。第三名 Llama 3.1 70B(106.14 秒)、第四名 Gemini 1.5 Pro(106.85 秒)、第五名 Mistral Large(107.72 秒)——這幾個差距都不大,基本在同一梯隊。但往下看就有意思了。Claude Sonnet 4 用了 137.66 秒,比第一梯隊慢了 30 秒。Gemini 3 Pro 更是用了 239.55 秒,是 MiniMax M2.5 的兩倍多。這說明一個規律:輕量級模型普遍更快。如果你做的是快速原型開發、需要頻繁迭代,選輕量模型準沒錯。但如果是那種「跑一遍就行」的任務,等等大模型也無妨。怎麼養龍蝦最划算養龍蝦,精打細算很重要,畢竟很多OpenClaw 任務都是 Token 無底洞,稍不留神就能讓你懷疑人生。GPT-5 Nano 以 0.03 美元的成本成為全場最便宜的選擇,成功率 85.8%。雖然精準率不算頂尖,但這個價格……還要什麼自行車?適合預算有限、對錯誤容忍度高的場景。Gemini 2.5 Flash Lite 排第二,只要 0.05 美元,成功率 83.2%。這個性價比就很能打了——成本是 GPT-5 Nano 的不到兩倍,成功率只低了 2.6 個百分點。MiniMax M2.1 排第五,成本 0.14 美元,但別忘了它的成功率是 93.6%。算下來每百分點的成本只有 0.0015 美元,性價比極高。再看高端模型的成本,就有點觸目驚心了。Claude Opus 4.6 完成測試要花 5.89 美元,是 GPT-5 Nano 的將近 200 倍。但它的成功率只有 90.6%,比 MiniMax M2.1 還低了 3 個百分點。這帳怎麼算都不划算。除非你對 Claude 有特殊的品牌信仰,否則從純性價比角度,中端模型顯然是更理性的選擇。🦞龍蝦養殖怎麼選看完三個維度的榜單,相信你已經有了自己的判斷。這裡 APPSO 再給大家幾個場景化的建議:🏆 如果你追求成功率,無腦選 Gemini 3 Flash95.1% 的成功率 + 0.72 美元的成本,目前綜合表現最優。適合對程式碼質量要求高的生產環境,出錯的代價遠大於模型成本的時候,選它準沒錯。⚡ 如果你追求速度,選 MiniMax M2.5 或 Gemini 2.0 Flash都在 106 秒左右完成全部任務,適合快速原型開發、需要頻繁迭代的場景。時間就是金錢,這倆能幫你省下不少耐心。💰 如果你追求性價比,選 Gemini 2.5 Flash Lite0.05 美元的成本,83.2% 的成功率,是入門「養龍蝦」的最佳選擇。個人項目、小團隊、預算有限的場景,閉眼入。🇨🇳 如果想少折騰傾向中國國產模型,MiniMax M2.1 和 Kimi K2.5 都很能打MiniMax M2.1 成功率 93.6% 排第二,Kimi K2.5 成功率 93.4% 排第三,兩款中國國產模型都已經躋身第一梯隊。而且 MiniMax 的速度還是冠軍,性價比也極高,值得重點關注。從這次 PinchBench 的榜單可以看出,Agent 已經進入了「百花齊放」的時代。Google 的 Gemini 系列在效率和成本上全面領先,中國國產模型 MiniMax 和 Kimi 緊隨其後,OpenAI 和 Anthropic 則在高端市場保持競爭力。對於開發者來說,好消息是選擇越來越多了。壞消息是……選擇困難症可能更嚴重了。但沒關係,記住一個原則:沒有最好的模型,只有最適合你場景的模型。生產環境看成功率,原型開發看速度,個人項目看性價比,按需選擇就好。而且,APPSO 也想特別提醒大家,安裝 OpenClaw 或許不用花費什麼成本,但「養龍蝦」消耗的 Token ,可比過去我們和 AI 對話要多得多。前幾天 OpenClaw 在紐約辦的聚會上不少使用者分享自己的龍蝦養殖心得,有人每個月在 Token上的花費高達1000-2000美元,更有一位「土豪」玩家每天燒掉 10 億 tokens,沒有信仰可禁不起這麼燒錢。嘗鮮 OpenClaw 可以,但它其實並不適合所有人,目前有很多任務用龍蝦也並非最優解,更大的意義是可以感受 AI 帶來全新的互動體驗。 (APPSO)