Google 發佈 Gemini 3.1 Flash-Lite:每秒 363 tokens,百萬 token 只要 $0.25

Google 剛發佈了 Gemini 3 系列的最新成員,Gemini 3.1 Flash-Lite,主打一個又快又便宜。

這個模型有多快呢?

輸出速度達到了 363 tokens/秒,而上一代 Gemini 2.5 Flash 是 249 tokens/秒,直接快了 45%。首個 token 的響應速度更是提升了 2.5 倍

簡單說就是,你話還沒問完,它答案都快出來了。

價格也砍了

快就算了,價格還降了。

輸入 $0.25/百萬 tokens,輸出 $1.50/百萬 tokens。跟上一代比,輸入便宜了 17%,輸出便宜了 40%。

這個價格在當前的大模型市場裡,已經屬於「白菜價」等級了。Google 的意思很明確:大規模呼叫的場景,用這個就對了。

跑分不差

便宜歸便宜,但跑分並沒有拉胯。

在 Arena.ai 排行榜上拿了 1432 Elo,幾個關鍵基準測試的成績:

  • GPQA Diamond(科學知識):86.9%
  • MMMU Pro(多模態推理):76.8%
  • Video-MMMU(視訊理解):84.8%
  • MMMLU(多語言問答):88.9%
  • LiveCodeBench(程式碼生成):72.0%

Google 說它在推理和多模態理解上,超過了同等級的其他模型。考慮到它的價格,這個性價比確實有點離譜。

動態思考

Gemini 3.1 Flash-Lite 有個有意思的功能:動態思考等級(dynamic thinking levels)。

開發者可以根據任務複雜度來調整模型的推理深度。翻譯、內容稽核這種簡單任務,用淺層推理就夠了,省錢省時間。生成 UI 介面、跑模擬這種複雜任務,就讓它深度思考。

這就好比一個員工,簡單活兒不磨蹭,難的活兒也能啃下來,自己知道什麼時候該省力什麼時候該拚命

支援全家桶

模態方面,Gemini 3.1 Flash-Lite 支援文字、圖片、音訊、視訊輸入,上下文窗口 100 萬 tokens,最大輸出 64K tokens

基於 Gemini 3 Pro 架構打造,該有的能力都沒縮水。

誰在用

幾家早期合作夥伴已經在用了,包括 Latitude、Cartwheel 和 Whering。反饋是:表現接近高端模型的水準,能跟複雜指令,能保持上下文理解。

Google 給它定位的典型場景包括:

大規模翻譯、內容稽核、客服系統、資料分析,以及任何對延遲敏感的即時應用。

Gemini 3.1 Flash-Lite 目前已在 Google AI Studio 和 Vertex AI 上以預覽版提供。

363 tokens/秒的速度加上白菜價的定價,Google 瞄準的就是那些需要大規模 API 呼叫的開發者和企業。 (AGI Hunt)