GoogleGemini 3.1新模型深夜掀桌, 每秒狂飆363 token! 1/4價格暴擊Claude

【新智元導讀】Google深夜再放大招,Gemini 3.1 Flash-Lite正式登場。輸出速度363 token/s,價格僅0.25美元/百萬Token,跑分卻碾壓GPT-5 mini和2.5 Flash,堪稱最強「窮人版旗艦」。

Gemini 3.1 Pro屠榜封神之後,Google又在深夜扔出一顆炸彈。

剛剛,Gemini 3.1 Flash-Lite正式上線!

速度363 tokens/s,輸出價格1.50美元/百萬Token,跑分直接碾壓GPT-5 mini和Claude 4.5 Haiku

同一任務下,相較於2.5 Flash(33分鐘),3.1 Flash-Lite僅用了4分鐘,token消耗最少,且正確率最高。

毫不誇張地說,3.1 Flash-Lite幾乎可以做到「瞬時」輸出

上傳一份任何PDF、文字、圖片、視訊、音訊,它能極速轉成Markdown格式。

又或是,3.1 Flash-Lite「粒子鍛造器」,迅速出模擬不同的動態效果,堪稱驚豔。

目前,開發者已經可以通過Google AI Studio的Gemini API體驗預覽版,企業使用者可通過Vertex AI接入。

用1/4的價格,跑出5倍的速度

先看最直觀的數字。

3.1 Flash-Lite的輸出速度達到363 tokens/s,跟自家2.5 Flash-Lite(366 tokens/s)幾乎持平,但把上一代Gemini 2.5 Flash(249 tokens/s)遠遠甩在了身後。

而那些「貴族選手」呢?

GPT-5 mini只有71 tokens/s,Claude 4.5 Haiku也不過108 tokens/s,Grok 4.1 Fast稍好一些,145 tokens/s。

換句話說,Flash-Lite的速度是GPT-5 mini的5倍,是Claude 4.5 Haiku的3.4倍,價格卻只有後者的四分之一

再看具體定價。

3.1 Flash-Lite輸入0.25美元/百萬Token、輸出1.50美元/百萬Token。

3.1 Flash-Lite比3.1 Pro便宜8倍

對比之下,GPT-5 mini的輸出價格是2.00美元,Gemini 2.5 Flash是2.50美元,而Claude 4.5 Haiku更是高達5.00美元,整整貴了3倍還多。

一句話概括:跑得比你快,還比你便宜,跑分還比你高。

跑分碾壓,小模型的「越級挑戰」

在最考驗科學知識和推理能力的GPQA Diamond上,3.1 Flash-Lite直接轟出86.9%的高分。

這一成績不僅碾壓了GPT-5 mini的82.3%和Claude 4.5 Haiku的73.0%,甚至把體量更大、價格更貴的Gemini 2.5 Flash(82.8%)也踩在了腳下。

多模態理解方面同樣強悍。

在MMMU-Pro測試中,Flash-Lite拿下76.8%,力壓GPT-5 mini(74.1%)、Gemini 2.5 Flash(66.7%)、Grok 4.1 Fast(63.0%)和Claude 4.5 Haiku(58.0%)。

在事實精準性測試SimpleQA Verified中,差距更是斷崖級

Flash-Lite以43.3%的精準率遙遙領先,而Gemini 2.5 Flash為28.1%,GPT-5 mini僅有9.5%(4.5倍),Claude 4.5 Haiku更是低到5.5%(近8倍)。

多語言能力方面,MMMLU測試中Flash-Lite以88.9%登頂,超過了Gemini 2.5 Flash的86.6%和GPT-5 mini的84.9%,在這個價位段裡沒有對手。

在視訊理解領域,Video-MMMU得分84.8%,同樣是同等級最高,GPT-5 mini(82.5%)和Gemini 2.5 Flash(79.2%)均不及。

當然,3.1 Flash-Lite也並非沒有短板。

在LiveCodeBench程式碼生成測試中,Flash-Lite得分72.0%,雖然不低,但GPT-5 mini憑藉80.4%明顯更強,Grok 4.1 Fast也有76.5%。

在Humanity's Last Exam中,Flash-Lite得分16.0%,與GPT-5 mini的16.7%基本持平,但Grok 4.1 Fast以17.6%拿到了這個等級的最高分。

但別忘了一個核心事實:Flash-Lite的價格只有這些對手的幾分之一。

Arena打進全球前40

實驗室跑分只是一面,真刀真槍的盲測對戰才見真章。

在Chatbot Arena的文字競技場中,3.1 Flash-Lite以1432的Elo分數排名第36

它身邊的鄰居是o3(1432分)和GPT-5 High(1434分),而身後緊跟著的是Grok 4.1 Fast Reasoning(1430分)。

一個定價0.25美元的輕量模型,Elo分數和OpenAI的旗艦推理模型o3打成平手,這個性價比足夠讓人震驚。

在程式碼競技場中,3.1 Flash-Lite得分1261,排名並列35。

它在這裡的對手包括Claude Haiku 4.5(1308分,第31名)和DeepSeek V3.2(1321分,第34名),差距不算大,但確實還有提升空間。

在Artificial Analysis評測中,3.1 Flash-Lite在輸出速度和成本效益上,目前業界最優。

「思考深度」可調

除了硬核性能,3.1 Flash-Lite還標配了thinking levels功能,開發者可以自由設定模型在每個任務上投入多少推理資源。

  • 批次翻譯、內容稽核、資料分類這類高頻低複雜度任務跑淺思考模式,速度和成本壓到極致。
  • 生成UI介面、建構模擬環境、執行多步驟複雜指令?切到深度推理模式,效果不輸大模型。

實測:輕量模型的重量級表現

在實際測試中,3.1 Flash-Lite展現出了遠超其定位的能力。

電商場景:瞬間填滿原型圖。

給出一句指令,Flash-Lite就能在幾秒內用幾十個品類、數百款商品填滿一整個電商介面原型,包含名稱、價格、分類、圖片佔位。

這在以往,需要設計師手動填充半天的工作,現在一個Prompt搞定。

即時資料看板:天氣預報+歷史分析。

Flash-Lite能夠結合最新的天氣預報介面和歷史資料,即時生成動態的天氣資料可視化看板。

對於需要快速搭建資料展示層的開發者來說,這個能力直接省掉了一個「前端工程師」。

SaaS AI智能體:多步任務自動化。

Flash-Lite可以建構處理多步驟靈活任務的SaaS智能體,幫助企業自動化客戶工單處理、訂單跟蹤等流程。

在低延遲和低成本的加持下,這類高頻呼叫場景正是Flash-Lite的主戰場。

海量內容處理:快速分析歸類。

面對大批次的圖片、文件、使用者評論等非結構化內容,Flash-Lite還能夠快速完成分析、標籤化和歸類整理。

性價比賽道,徹底變天

3.1 Flash-Lite的發佈,標誌著AI競爭進入了一個全新的階段。

過去,各家大模型都在卷「誰最強」——ARC-AGI刷分、HLE拼推理、程式碼競賽爭排名。

但Flash-Lite的出現,把戰場拉到了另一個維度。

光卷性能已經不夠了。誰能用最低的成本交付最高的質量,誰才是真正的贏家。

用幾分之一的價格打出旗艦級效果、用5倍的速度碾壓競品、在事實精準性上斷崖領先,Google用Flash-Lite告訴所有人:在性價比這條賽道上,它已經跑在了前面。

而對於全球數百萬開發者來說,這可能是目前最值得關注的模型之一。

畢竟,在真實的產品場景中,成本和速度有時比跑分更重要。 (新智元)