AI界最近一期「期末考試」出成績了。
這一次的全球大模型排名,第一次,中國選手殺進前五。
一個讓我意想不到的名字,Qwen 3.7-Max。
怎麼說呢,就像求學時代——
班裡有幾個交換生,他們叫GPT、Claude、Gemini。每次考試名列前茅的都是他們,第一名換著坐而已。
你也習慣了,就站在旁邊看他們考。
結果這次榜單一出,有個跟你來自同一個家鄉的同班同學,12個科目,9科第一。
綜合成績,全球第五。
Intelligence Index 榜單
Qwen3.7-Max。來自阿里。
上一次大家談起千問,主要是因為馬爸爸請大家喝奶茶。😂
這次大家談他,是因為Artificial Analysis 更新了 Intelligence Index 榜單。AA是公認的權威第三方,相當於公佈了最近一期「期末成績單」。
滿分不是💯,目前的第一名分數 60.2
GPT-5.5,60.2。
Claude Opus 4.7,57.3。
Gemini 3.1 Pro,57.2。
GPT-5.4,56.8。
Qwen3.7-Max,56.6。差第四名0.2分。
另一場「考試」—— Text Arena
由600萬人匿名盲測投票,被認為是AI平民真金白銀投出來的結果。
Qwen3.7-Max 這次拿到第六。
換句話說就是,兩張成績單,學術考試,全球第五。全民投票,全球第六。
看到這你可能跟我一樣,愣了一下。
然後心裡冒出一個很不是滋味的念頭——
等等,成績單前四名我都認識。
GPT-5.5、Claude Opus 4.7、Gemini 3.1-Pro、GPT-5.4。
但跟它們打交道,其實也很累。
首先,你得學會魔法上網,這一步就卡住了90%的人。
其次,技術沒有國界,但技術公司有。我們用它們就會不定時承受一些「莫名其妙的惡意」。
Claude今年搞了KYC實名,訂閱帳號要政府證件加即時自拍。中國使用者去提交,大機率封號;不提交,就沒法用高級功能。
我的號至今只敢用20刀的Pro,不敢上Max。
ChatGPT稍微好一點。但你得先準備好一條乾淨的「梯子」,搞到一次海外手機號完成註冊,付費時再來一張外幣信用卡。20刀,同時用ChatGPT和Codex。
每個月除了AI訂閱,我還得在「保證我能打開它」上花好幾筆錢。
這就是用全球前四名的代價。不是貴不貴的問題。是你隨時可能醒來發現——門關了。
然後我回頭看那個第五名。
3.7-Max現在還沒上通義千問的消費端,得走API。說方便?談不上。
但至少,我不用擔心那天起床號沒了。
這個第五名,跟我同一個班。光這一點,就值得認真看一眼。
回到 Qwen3.7-Max,這次贏在什麼地方 ?
那麼,9項第一都考了什麼?
是把活甩給AI讓它自己幹——寫程式碼、調工具、做推理、跑工程。不是一問一答聊天,是你扔個任務過去,它自己想辦法搞定。
輸的3項呢?
輸在拿到一句話需求直接生成完整項目、同時調好幾個工具配合、跟人坐一桌協作。
翻譯過來就是:考試,成績很好;上班,還不成氣候。
差距是真的。
但——
比12項評測更值得說的,是一件不在成績單上的事。
千問團隊給它安排了一個真實的活兒——在一顆它從沒見過的晶片上,自己最佳化推理計算的核心程式碼。
給它的就三樣東西:一個任務描述、一份參考程式碼、一個評估指令碼。
同時啟動了A/B Test,讓其他模型同步開干,看誰幹得出來。
結果是——其他模型試了幾輪,要麼輸出不了有效程式碼,要麼跑不通評估指令碼,最後自己判斷搞不定,主動停了。
Qwen3.7-Max幹了35個小時。432次自我評估,1158次工具呼叫,跑出10倍加速。中間一次直接推翻了之前的方案重新來。
別人判斷自己不行的時候,它推翻自己重來了一遍。
看完成績我很慚愧,我太少用Qwen了。
但這次之後,我會專門去試試。
國產大模型,真的有在好好努力
只看Qwen你會覺得就阿里一家在沖。
但不是的。
智譜GLM
程式碼評測全球第三、開源第一。Coding Plan一上線就售罄。
這都不算什麼。
最魔幻的是——海外開發者發現國內版便宜一半,於是有人寫了油猴指令碼來搶,有人研究怎麼註冊支付寶就為了買中國版。
一群外國人,擠破頭買中國貨。
而且智譜2026年至今漲了三次價。
你什麼時候見過一個國產AI產品,是靠漲價來應對需求的?
我太羨慕了,我還沒用得上GLM 5.1 噴碼,肉眼跟不上程式碼生成速度!
字節的Lance。
一個3B參數,五個模型的活全包了——文字、圖片、視訊的理解和生成。
另一個,面壁智能的MiniCPM-V 4.6,1.3B,專門塞進手機和IoT裡。
大廠往強了卷,小廠往輕了擠。
一個比一個安靜。但一個比一個認真。
你還在旁邊看著嗎?
Kimi K2.6
月之暗面在國內沉默了一年。
上次出聲,是Cursor Composer 2.5發佈——背後就是它。
Kimi沒在國內開發佈會。它跑到海外,借別人家的舞台,安安靜靜出了聲。
兩份舊卷
商湯U1,4月28號發的。把文字和圖片放進同一個空間原生處理,不再隔著一層翻譯。以前是中國人跟法國人靠翻譯交流,U1直接同聲傳譯。
快手Kling 4K,3月24號上線。全球第一個原生4K視訊模型。好萊塢團隊已經在用了。
這兩個東西,都是發了快一個月才被更多人看見。
不是好東西來得晚。
是我們都看得太晚了。
然後呢?
寫到這裡我自己回頭看了一眼。
一個月前,這裡面的事我一件都不知道。
不是它們藏著掖著。是我們看的方向,從來不在這裡。
當然,考試歸考試。
上班還差口氣。3項實操Anthropic還是更老練,這個我不迴避。
但——
阿里每月20號準時發新版。3月Qwen3.5,4月Qwen3.6,5月Qwen3.7。
一個月一代。
這是什麼速度?這是不睡覺的速度。
我多說幾句心裡話。
我們不得不用iPhone,是因為iPhone足夠好用。
我們期待國產大模型,是因為——技術沒有國界,但技術公司有。
我們渴望用上最好最快最穩定的新技術,但總被種種原因擋在門外。
那國產的呢?最強的要麼太貴,要麼還在實驗室裡。日常能摸到的豆包、通義、Kimi,跟論文裡的版本之間,還隔著一段路。
所以我們的處境是什麼?
外面的,用得提心吊膽。
家裡的,還差口氣。
我們被夾在中間。
很多人到這一步就放棄了。能用就用,不能用就算了,反正AI這事跟我關係也不大。
但——
這件事,沒你想的那麼簡單。
大模型的競賽,表面看是論文,是benchmark,是發佈會。
底下比的,是另外一個東西。
是場景。
美國模型為什麼強?不只是因為錢多人才多。是因為全球幾億使用者每天在用它、罵它、刁難它,把最真實最不講道理的需求源源不斷地喂給了它。
這些罵聲、抱怨、不滿——
就是燃料。
燒出來的,是下一代模型。
所以國產大模型現在最缺的,不是錢,不是人才。
是你。
是幾千萬個真實的你、我、我們。帶著真實的工作、真實的挑剔、真實的不滿意。
打開它。
罵它。
再打開它。
一腳一腳把它踹上去。
這場考試。
原來我們也坐在考場裡。
(半個造物主 乘百)
