全球前五,第一次有了中國人。但你可能一個都不認識

AI界最近一期「期末考試」出成績了。

這一次的全球大模型排名,第一次,中國選手殺進前五。

一個讓我意想不到的名字,Qwen 3.7-Max

怎麼說呢,就像求學時代——

班裡有幾個交換生,他們叫GPT、Claude、Gemini。每次考試名列前茅的都是他們,第一名換著坐而已。

你也習慣了,就站在旁邊看他們考。

結果這次榜單一出,有個跟你來自同一個家鄉的同班同學,12個科目,9科第一。

綜合成績,全球第五。

Intelligence Index 榜單

Qwen3.7-Max。來自阿里。

上一次大家談起千問,主要是因為馬爸爸請大家喝奶茶。😂

這次大家談他,是因為Artificial Analysis 更新了 Intelligence Index 榜單。AA是公認的權威第三方,相當於公佈了最近一期「期末成績單」。

滿分不是💯,目前的第一名分數 60.2

GPT-5.5,60.2。

Claude Opus 4.7,57.3。

Gemini 3.1 Pro,57.2。

GPT-5.4,56.8。

Qwen3.7-Max,56.6。差第四名0.2分。

另一場「考試」—— Text Arena

由600萬人匿名盲測投票,被認為是AI平民真金白銀投出來的結果。

Qwen3.7-Max 這次拿到第六。

換句話說就是,兩張成績單,學術考試,全球第五。全民投票,全球第六。

看到這你可能跟我一樣,愣了一下。

然後心裡冒出一個很不是滋味的念頭——

等等,成績單前四名我都認識。

GPT-5.5、Claude Opus 4.7、Gemini 3.1-Pro、GPT-5.4。

但跟它們打交道,其實也很累。

首先,你得學會魔法上網,這一步就卡住了90%的人。

其次,技術沒有國界,但技術公司有。我們用它們就會不定時承受一些「莫名其妙的惡意」。

Claude今年搞了KYC實名,訂閱帳號要政府證件加即時自拍。中國使用者去提交,大機率封號;不提交,就沒法用高級功能。

我的號至今只敢用20刀的Pro,不敢上Max。

ChatGPT稍微好一點。但你得先準備好一條乾淨的「梯子」,搞到一次海外手機號完成註冊,付費時再來一張外幣信用卡。20刀,同時用ChatGPT和Codex。

每個月除了AI訂閱,我還得在「保證我能打開它」上花好幾筆錢。

這就是用全球前四名的代價。不是貴不貴的問題。是你隨時可能醒來發現——門關了。

然後我回頭看那個第五名。

3.7-Max現在還沒上通義千問的消費端,得走API。說方便?談不上。

但至少,我不用擔心那天起床號沒了。

這個第五名,跟我同一個班。光這一點,就值得認真看一眼。

回到 Qwen3.7-Max,這次贏在什麼地方 ?

那麼,9項第一都考了什麼?

是把活甩給AI讓它自己幹——寫程式碼、調工具、做推理、跑工程。不是一問一答聊天,是你扔個任務過去,它自己想辦法搞定。

輸的3項呢?

輸在拿到一句話需求直接生成完整項目、同時調好幾個工具配合、跟人坐一桌協作。

翻譯過來就是:考試,成績很好;上班,還不成氣候。

差距是真的。

但——

比12項評測更值得說的,是一件不在成績單上的事。

千問團隊給它安排了一個真實的活兒——在一顆它從沒見過的晶片上,自己最佳化推理計算的核心程式碼。

給它的就三樣東西:一個任務描述、一份參考程式碼、一個評估指令碼。

同時啟動了A/B Test,讓其他模型同步開干,看誰幹得出來。

結果是——其他模型試了幾輪,要麼輸出不了有效程式碼,要麼跑不通評估指令碼,最後自己判斷搞不定,主動停了。

Qwen3.7-Max幹了35個小時。432次自我評估,1158次工具呼叫,跑出10倍加速。中間一次直接推翻了之前的方案重新來。

別人判斷自己不行的時候,它推翻自己重來了一遍。

看完成績我很慚愧,我太少用Qwen了。

但這次之後,我會專門去試試。

國產大模型,真的有在好好努力

只看Qwen你會覺得就阿里一家在沖。

但不是的。

智譜GLM

程式碼評測全球第三、開源第一。Coding Plan一上線就售罄。

這都不算什麼。

最魔幻的是——海外開發者發現國內版便宜一半,於是有人寫了油猴指令碼來搶,有人研究怎麼註冊支付寶就為了買中國版。

一群外國人,擠破頭買中國貨。

而且智譜2026年至今漲了三次價。

你什麼時候見過一個國產AI產品,是靠漲價來應對需求的?

我太羨慕了,我還沒用得上GLM 5.1 噴碼,肉眼跟不上程式碼生成速度!

字節的Lance。

一個3B參數,五個模型的活全包了——文字、圖片、視訊的理解和生成。

另一個,面壁智能的MiniCPM-V 4.6,1.3B,專門塞進手機和IoT裡。

大廠往強了卷,小廠往輕了擠。

一個比一個安靜。但一個比一個認真。

你還在旁邊看著嗎?


Kimi K2.6

月之暗面在國內沉默了一年。

上次出聲,是Cursor Composer 2.5發佈——背後就是它。

Kimi沒在國內開發佈會。它跑到海外,借別人家的舞台,安安靜靜出了聲。

兩份舊卷

商湯U1,4月28號發的。把文字和圖片放進同一個空間原生處理,不再隔著一層翻譯。以前是中國人跟法國人靠翻譯交流,U1直接同聲傳譯

快手Kling 4K,3月24號上線。全球第一個原生4K視訊模型。好萊塢團隊已經在用了。

這兩個東西,都是發了快一個月才被更多人看見。

不是好東西來得晚。

是我們都看得太晚了。

然後呢?

寫到這裡我自己回頭看了一眼。

一個月前,這裡面的事我一件都不知道。

不是它們藏著掖著。是我們看的方向,從來不在這裡。

當然,考試歸考試。

上班還差口氣。3項實操Anthropic還是更老練,這個我不迴避。

但——

阿里每月20號準時發新版。3月Qwen3.5,4月Qwen3.6,5月Qwen3.7。

一個月一代。

這是什麼速度?這是不睡覺的速度。

我多說幾句心裡話。

我們不得不用iPhone,是因為iPhone足夠好用。

我們期待國產大模型,是因為——技術沒有國界,但技術公司有。

我們渴望用上最好最快最穩定的新技術,但總被種種原因擋在門外。

那國產的呢?最強的要麼太貴,要麼還在實驗室裡。日常能摸到的豆包、通義、Kimi,跟論文裡的版本之間,還隔著一段路。

所以我們的處境是什麼?

外面的,用得提心吊膽。

家裡的,還差口氣。

我們被夾在中間。

很多人到這一步就放棄了。能用就用,不能用就算了,反正AI這事跟我關係也不大。

但——

這件事,沒你想的那麼簡單。

大模型的競賽,表面看是論文,是benchmark,是發佈會。

底下比的,是另外一個東西。

是場景。

美國模型為什麼強?不只是因為錢多人才多。是因為全球幾億使用者每天在用它、罵它、刁難它,把最真實最不講道理的需求源源不斷地喂給了它。

這些罵聲、抱怨、不滿——

就是燃料。

燒出來的,是下一代模型。

所以國產大模型現在最缺的,不是錢,不是人才。

是你。

是幾千萬個真實的你、我、我們。帶著真實的工作、真實的挑剔、真實的不滿意。

打開它。

罵它。

再打開它。

一腳一腳把它踹上去。

這場考試。

原來我們也坐在考場裡。

(半個造物主 乘百)