Google 發佈 Gemini 3.1 Flash-Lite：每秒 363 tokens，百萬 token 只要 $0.25

2026/03/04

•

Google 剛發佈了 Gemini 3 系列的最新成員，Gemini 3.1 Flash-Lite，主打一個又快又便宜。

這個模型有多快呢？

輸出速度達到了 363 tokens/秒，而上一代 Gemini 2.5 Flash 是 249 tokens/秒，直接快了 45%。首個 token 的響應速度更是提升了 2.5 倍。

簡單說就是，你話還沒問完，它答案都快出來了。

快就算了，價格還降了。

輸入 $0.25/百萬 tokens，輸出 $1.50/百萬 tokens。跟上一代比，輸入便宜了 17%，輸出便宜了 40%。

這個價格在當前的大模型市場裡，已經屬於「白菜價」等級了。Google 的意思很明確：大規模呼叫的場景，用這個就對了。

便宜歸便宜，但跑分並沒有拉胯。

在 Arena.ai 排行榜上拿了 1432 Elo，幾個關鍵基準測試的成績：

Google 說它在推理和多模態理解上，超過了同等級的其他模型。考慮到它的價格，這個性價比確實有點離譜。

Gemini 3.1 Flash-Lite 有個有意思的功能：動態思考等級（dynamic thinking levels）。

開發者可以根據任務複雜度來調整模型的推理深度。翻譯、內容稽核這種簡單任務，用淺層推理就夠了，省錢省時間。生成 UI 介面、跑模擬這種複雜任務，就讓它深度思考。

這就好比一個員工，簡單活兒不磨蹭，難的活兒也能啃下來，自己知道什麼時候該省力什麼時候該拚命。

模態方面，Gemini 3.1 Flash-Lite 支援文字、圖片、音訊、視訊輸入，上下文窗口 100 萬 tokens，最大輸出 64K tokens。

基於 Gemini 3 Pro 架構打造，該有的能力都沒縮水。

幾家早期合作夥伴已經在用了，包括 Latitude、Cartwheel 和 Whering。反饋是：表現接近高端模型的水準，能跟複雜指令，能保持上下文理解。

Google 給它定位的典型場景包括：

大規模翻譯、內容稽核、客服系統、資料分析，以及任何對延遲敏感的即時應用。

Gemini 3.1 Flash-Lite 目前已在 Google AI Studio 和 Vertex AI 上以預覽版提供。

363 tokens/秒的速度加上白菜價的定價，Google 瞄準的就是那些需要大規模 API 呼叫的開發者和企業。 (AGI Hunt)