Gemini 與 GPT 的年底戰爭:矽谷瘋狂捲起,聖誕節不過了?

年底了,美國科技行業居然不過節了。

明明早已進入假日季 (holiday season),而且聖誕節就在臨門一腳,AI 巨頭們卻還在瘋狂發新版……

最新選手是 Google 的 Gemini:就在昨晚,Gemini 3 Flash 正式發佈,直接對標 OpenAI 和 Anthropic 的旗艦模型,官方號稱比 2.5 Pro 速度快 3 倍,價格砍到 3 Pro 的四分之一,性能還不降反升。

用Google自己的話說,這是「為速度而生的前沿智能」。翻譯一下就是:又快又便宜,腦子還挺線上。

不過,在實際體驗過程中,Gemini 3 Flash 的性能表現還是遠遠不如 Pro 的,以至於讓我產生一種「貨不對板」的落差感,也歡迎更多朋友分享你的體驗。

即便如此,Google在發佈時機的選擇上依然稱得上「快、准、狠」。

緊隨 Gemini 3 Pro 與 Deep Think 之後上馬 Flash,也是為了完全不給競爭對手喘息的機會,這也讓我越來越期待 Sam Altman 的聖誕節反擊禮物了。

而從今天起,你將能在 Gemini 產品線裡用到三種模型:

Gemini 3 Flash (Fast):主打一個「快」,適合那些不需要長鏈條思考、追求效率的對話場景。

Gemini 3 Flash (Thinking): 具備輕量化模型推理能力,使其能夠在面對複雜難題時,通過模擬人類的思考過程來提升精準率。

Gemini 3 Pro: 性能天花板,它依然是處理極高難度任務的首選。

倒反天罡!Gemini 3 Flash 跑分超越 Pro

基準測試結果顯示,Gemini 3 Flash 保留了 Pro 等級的推理能力,但延遲、成本直接降到 Flash 等級。

具體來說,在 GPQA Diamond 這種博士級推理測試裡,它能拿到 90.4% 的成績,跟那些體積更大的前沿模型打得有來有回。在 Humanity's Last Exam 這個變態難度的測試中,無需工具輔助就能拿到 33.7% 的分數。

更誇張的是 MMMU Pro 測試,Gemini 3 Flash 直接拿下 81.2%,達到業界最先進水平,跟自家的 3 Pro 表現相當,屬於是有些倒反天罡了。

以前大家覺得「質量-成本-速度」三個維度很難兼顧,要麼快但不聰明,要麼聰明但卻貴。現在Google試圖用 Gemini 3 Flash 證明,只要工程化能力最佳化到位,六邊形戰士是可以存在的。

資料顯示,其 Token 消耗比 2.5 Pro 少了三成,速度快三倍,價格更是壓到了輸入 0.5 美元/百萬 Token,輸出 3 美元/百萬 Token 的地板價。

行吧,現在的 AI 新模型不光要卷參數,還要卷性價比了。

而且它還是個推理型模型,能根據任務複雜度靈活調整「思考」時間。即使在最低的「思考等級」下,3 Flash 的表現也常常超過前代模型的「高思考等級」。這種自適應能力在實際應用中特別有價值,不會出現「殺雞用牛刀」的資源浪費。

對於開發者來說,Gemini 3 Flash 的出現,也意味著終於不用在速度和智能之間二選一了。

基準測試顯示,Gemini 3 Flash 在 SWE-bench Verified 編碼測試裡拿到 78% 的高分,不僅吊打 2.5 系列,甚至比自家的 3 Pro 還高。

此外,Gemini 3 Flash 的亮點還在於多模態能力,它能更快地處理視覺、音訊等輸入,把「看見、聽見、理解」串成一條相對順滑的鏈路,適合需要即時反饋的互動場景。

具體來說,它可以分析高爾夫揮杆視訊並在短時間內給出改進建議;你畫草圖時,它也能即時識別並預測你的意圖。再疊加程式碼執行能力,使它不僅能理解圖片內容,還能在工具鏈支援下對圖片進行處理與操作。

Gemini 3 Flash 快是真的快,但 ……

Google官方展示了幾個很有意思的應用場景。

比如在「投球解謎」類遊戲中,Flash 可以做即時的輔助推理,給出可行解甚至更優解;

在互動 UI 設計流程裡,它能生成載入動畫,並配合快速迭代做 A/B 方案對比;

你提供一張圖片,它也能完成基礎識別,再結合上下文生成互動式註釋。這些 Demo 的共同點是:強調即時性、強調迭代效率、強調能跑起來。

我也用 Gemini 3 Flash 跑了幾個案例。

不得不說,對比 Gemini 3 Pro,前者的響應速度確實是極快的,但效果嘛,則比較中規中矩,對比 Gemini 3 Pro 則明顯犧牲了視覺與互動細節的質量。

以復刻 macOS 介面為例,該模型的表現略顯乏力:底部 Dock 欄出現了明顯的圖示缺失,且在互動細節的精緻度上,也明顯遜於 Gemini 3 Pro 的生成效果。

這種差距在「復古擬物風相機應用」的設計任務中尤為突出。從生成的單頁應用結果來看,其視覺呈現與預期目標仍有較大差距。

此外,在嘗試打造「星球訊號」網頁時,有一定程度的互動細節,但整體產出的頁面效果還是略顯粗糙,缺乏設計的細膩感。

兩條腿走路的Google:一邊卷死對手,一邊把 AI 塞進幾十億人的生活

Google這次還把 Gemini 3 Flash 塞進了搜尋的 AI 模式(國內暫不可用)裡,逐步向全球開放。

相比之前的版本,它更能理解複雜問題中的細節,從全網抓取即時資訊和有用連結,輸出視覺上更清晰、有條理的綜合答案。

與此同時,Gemini 3 Flash 正在成為 Google「全家桶」的默認底座。Gemini 應用、搜尋 AI 模式、Vertex AI、Google AI Studio、Antigravity、Gemini CLI,全線上新。

全球使用者都能免費體驗,企業使用者則可以通過 Vertex AI 和 Gemini Enterprise 來呼叫。

最後再強調一遍價格,因為這個真的太香了。

輸入每百萬 Token 0.5 美元,輸出每百萬 Token 3 美元,音訊輸入每百萬 token 1 美元。試用價格不到 Gemini 3 Pro 的四分之一。

如果用上下文快取,重複 Token 的成本還能再省 90%。用 Batch API 非同步處理的話,又能再省 50%,同時還能提升呼叫上限。對於同步或接近即時的場景,付費 API 使用者可以獲得面向生產環境的高呼叫速率。

價格打到這個程度、性能又不算差,OpenAI 和 Anthropic 當然很難睡踏實。

但話得說嚴謹一點,當宣傳口徑把 Flash 包裝成「幾乎 Pro 級」的時候,使用者自然會用 Pro 的標準去驗貨;而一旦遇到複雜推理、長鏈路任務、穩定性要求更高的場景,Flash 的短板就會更明顯。

Google最大的底牌還是流量。

搜尋、YouTube、Gmail、Google Maps,每天數十億使用者在使用這些產品。把 3 Flash嵌入到這些高頻應用中,使用者也就在最熟悉的場景裡,無感地、自然地被Google AI 服務包圍。

這種打法 OpenAI 和 Anthropic 是學不來的。

一方面,Google財大氣粗,確實有資本燒錢搶市場;另一方面,Google在 TPU、資料中心、分佈式訓練等基礎設施和工程最佳化上的積累,確實能幫他們把成本壓下來。

一邊做 toB 的 API 服務,一邊直接把 AI 能力塞進自家產品裡,覆蓋海量普通使用者。當使用者習慣了在搜尋裡用 AI 模式,習慣了在 Gemini 應用裡對話,自然就會對Google的 AI 產生依賴。這才是Google真正的陽謀。

當然,這種巨頭間的內卷對行業是殘酷的,但對使用者絕對是好事。模型更強、價格更低,開發者能低成本創新,普通人能享受更智能的服務,這大概是這場 AI 軍備競賽中,為數不多的確定性紅利。 (愛范兒)