全球前五，第一次有了中國人。但你可能一個都不認識

2026/05/25

•

AI界最近一期「期末考試」出成績了。

這一次的全球大模型排名，第一次，中國選手殺進前五。

一個讓我意想不到的名字，Qwen 3.7-Max。

怎麼說呢，就像求學時代——

班裡有幾個交換生，他們叫GPT、Claude、Gemini。每次考試名列前茅的都是他們，第一名換著坐而已。

你也習慣了，就站在旁邊看他們考。

結果這次榜單一出，有個跟你來自同一個家鄉的同班同學，12個科目，9科第一。

綜合成績，全球第五。

Intelligence Index 榜單

Qwen3.7-Max。來自阿里。

上一次大家談起千問，主要是因為馬爸爸請大家喝奶茶。😂

這次大家談他，是因為Artificial Analysis 更新了 Intelligence Index 榜單。AA是公認的權威第三方，相當於公佈了最近一期「期末成績單」。

滿分不是💯，目前的第一名分數 60.2

GPT-5.5，60.2。

Claude Opus 4.7，57.3。

Gemini 3.1 Pro，57.2。

GPT-5.4，56.8。

Qwen3.7-Max，56.6。差第四名0.2分。

另一場「考試」—— Text Arena

由600萬人匿名盲測投票，被認為是AI平民真金白銀投出來的結果。

Qwen3.7-Max 這次拿到第六。

換句話說就是，兩張成績單，學術考試，全球第五。全民投票，全球第六。

看到這你可能跟我一樣，愣了一下。

然後心裡冒出一個很不是滋味的念頭——

等等，成績單前四名我都認識。

GPT-5.5、Claude Opus 4.7、Gemini 3.1-Pro、GPT-5.4。

但跟它們打交道，其實也很累。

首先，你得學會魔法上網，這一步就卡住了90%的人。

其次，技術沒有國界，但技術公司有。我們用它們就會不定時承受一些「莫名其妙的惡意」。

Claude今年搞了KYC實名，訂閱帳號要政府證件加即時自拍。中國使用者去提交，大機率封號；不提交，就沒法用高級功能。

我的號至今只敢用20刀的Pro，不敢上Max。

ChatGPT稍微好一點。但你得先準備好一條乾淨的「梯子」，搞到一次海外手機號完成註冊，付費時再來一張外幣信用卡。20刀，同時用ChatGPT和Codex。

每個月除了AI訂閱，我還得在「保證我能打開它」上花好幾筆錢。

這就是用全球前四名的代價。不是貴不貴的問題。是你隨時可能醒來發現——門關了。

然後我回頭看那個第五名。

3.7-Max現在還沒上通義千問的消費端，得走API。說方便？談不上。

但至少，我不用擔心那天起床號沒了。

這個第五名，跟我同一個班。光這一點，就值得認真看一眼。

回到 Qwen3.7-Max，這次贏在什麼地方？

那麼，9項第一都考了什麼？

是把活甩給AI讓它自己幹——寫程式碼、調工具、做推理、跑工程。不是一問一答聊天，是你扔個任務過去，它自己想辦法搞定。

輸的3項呢？

輸在拿到一句話需求直接生成完整項目、同時調好幾個工具配合、跟人坐一桌協作。

翻譯過來就是：考試，成績很好；上班，還不成氣候。

差距是真的。

但——

比12項評測更值得說的，是一件不在成績單上的事。

千問團隊給它安排了一個真實的活兒——在一顆它從沒見過的晶片上，自己最佳化推理計算的核心程式碼。

給它的就三樣東西：一個任務描述、一份參考程式碼、一個評估指令碼。

同時啟動了A/B Test，讓其他模型同步開干，看誰幹得出來。

結果是——其他模型試了幾輪，要麼輸出不了有效程式碼，要麼跑不通評估指令碼，最後自己判斷搞不定，主動停了。

Qwen3.7-Max幹了35個小時。432次自我評估，1158次工具呼叫，跑出10倍加速。中間一次直接推翻了之前的方案重新來。

別人判斷自己不行的時候，它推翻自己重來了一遍。

看完成績我很慚愧，我太少用Qwen了。

但這次之後，我會專門去試試。

國產大模型，真的有在好好努力

只看Qwen你會覺得就阿里一家在沖。

但不是的。

智譜GLM

程式碼評測全球第三、開源第一。Coding Plan一上線就售罄。

這都不算什麼。

最魔幻的是——海外開發者發現國內版便宜一半，於是有人寫了油猴指令碼來搶，有人研究怎麼註冊支付寶就為了買中國版。

一群外國人，擠破頭買中國貨。

而且智譜2026年至今漲了三次價。

你什麼時候見過一個國產AI產品，是靠漲價來應對需求的？

我太羨慕了，我還沒用得上GLM 5.1 噴碼，肉眼跟不上程式碼生成速度！

字節的Lance。

一個3B參數，五個模型的活全包了——文字、圖片、視訊的理解和生成。

另一個，面壁智能的MiniCPM-V 4.6，1.3B，專門塞進手機和IoT裡。

大廠往強了卷，小廠往輕了擠。

一個比一個安靜。但一個比一個認真。

你還在旁邊看著嗎？

Kimi K2.6

月之暗面在國內沉默了一年。

上次出聲，是Cursor Composer 2.5發佈——背後就是它。

Kimi沒在國內開發佈會。它跑到海外，借別人家的舞台，安安靜靜出了聲。

兩份舊卷

商湯U1，4月28號發的。把文字和圖片放進同一個空間原生處理，不再隔著一層翻譯。以前是中國人跟法國人靠翻譯交流，U1直接同聲傳譯。

快手Kling 4K，3月24號上線。全球第一個原生4K視訊模型。好萊塢團隊已經在用了。

這兩個東西，都是發了快一個月才被更多人看見。

不是好東西來得晚。

是我們都看得太晚了。

然後呢？

寫到這裡我自己回頭看了一眼。

一個月前，這裡面的事我一件都不知道。

不是它們藏著掖著。是我們看的方向，從來不在這裡。

當然，考試歸考試。

上班還差口氣。3項實操Anthropic還是更老練，這個我不迴避。

但——

阿里每月20號準時發新版。3月Qwen3.5，4月Qwen3.6，5月Qwen3.7。

一個月一代。

這是什麼速度？這是不睡覺的速度。

我多說幾句心裡話。

我們不得不用iPhone，是因為iPhone足夠好用。

我們期待國產大模型，是因為——技術沒有國界，但技術公司有。

我們渴望用上最好最快最穩定的新技術，但總被種種原因擋在門外。

那國產的呢？最強的要麼太貴，要麼還在實驗室裡。日常能摸到的豆包、通義、Kimi，跟論文裡的版本之間，還隔著一段路。

所以我們的處境是什麼？

外面的，用得提心吊膽。

家裡的，還差口氣。

我們被夾在中間。

很多人到這一步就放棄了。能用就用，不能用就算了，反正AI這事跟我關係也不大。

但——

這件事，沒你想的那麼簡單。

大模型的競賽，表面看是論文，是benchmark，是發佈會。

底下比的，是另外一個東西。

是場景。

美國模型為什麼強？不只是因為錢多人才多。是因為全球幾億使用者每天在用它、罵它、刁難它，把最真實最不講道理的需求源源不斷地喂給了它。

這些罵聲、抱怨、不滿——

就是燃料。

燒出來的，是下一代模型。

所以國產大模型現在最缺的，不是錢，不是人才。

是你。

是幾千萬個真實的你、我、我們。帶著真實的工作、真實的挑剔、真實的不滿意。

打開它。

罵它。

再打開它。

一腳一腳把它踹上去。

這場考試。

原來我們也坐在考場裡。

(半個造物主乘百)

科技