Google 剛發佈了 Gemini 3 系列的最新成員,Gemini 3.1 Flash-Lite,主打一個又快又便宜。
這個模型有多快呢?
輸出速度達到了 363 tokens/秒,而上一代 Gemini 2.5 Flash 是 249 tokens/秒,直接快了 45%。首個 token 的響應速度更是提升了 2.5 倍。
簡單說就是,你話還沒問完,它答案都快出來了。
快就算了,價格還降了。
輸入 $0.25/百萬 tokens,輸出 $1.50/百萬 tokens。跟上一代比,輸入便宜了 17%,輸出便宜了 40%。
這個價格在當前的大模型市場裡,已經屬於「白菜價」等級了。Google 的意思很明確:大規模呼叫的場景,用這個就對了。
便宜歸便宜,但跑分並沒有拉胯。
在 Arena.ai 排行榜上拿了 1432 Elo,幾個關鍵基準測試的成績:
Google 說它在推理和多模態理解上,超過了同等級的其他模型。考慮到它的價格,這個性價比確實有點離譜。
Gemini 3.1 Flash-Lite 有個有意思的功能:動態思考等級(dynamic thinking levels)。
開發者可以根據任務複雜度來調整模型的推理深度。翻譯、內容稽核這種簡單任務,用淺層推理就夠了,省錢省時間。生成 UI 介面、跑模擬這種複雜任務,就讓它深度思考。
這就好比一個員工,簡單活兒不磨蹭,難的活兒也能啃下來,自己知道什麼時候該省力什麼時候該拚命。
模態方面,Gemini 3.1 Flash-Lite 支援文字、圖片、音訊、視訊輸入,上下文窗口 100 萬 tokens,最大輸出 64K tokens。
基於 Gemini 3 Pro 架構打造,該有的能力都沒縮水。
幾家早期合作夥伴已經在用了,包括 Latitude、Cartwheel 和 Whering。反饋是:表現接近高端模型的水準,能跟複雜指令,能保持上下文理解。
Google 給它定位的典型場景包括:
大規模翻譯、內容稽核、客服系統、資料分析,以及任何對延遲敏感的即時應用。
Gemini 3.1 Flash-Lite 目前已在 Google AI Studio 和 Vertex AI 上以預覽版提供。
363 tokens/秒的速度加上白菜價的定價,Google 瞄準的就是那些需要大規模 API 呼叫的開發者和企業。 (AGI Hunt)