2026年Google I/O開發者大會,給人的感覺只有兩個字:張狂。
不僅把AI智能體像填鴨一樣,無縫塞進搜尋、瀏覽器、手機、智能眼鏡等所有核心流量入口,還連續甩出Gemini 3.5 Flash、視訊模型Omni、全新AI助手Spark三張王炸。
亮完肌肉後,劈柴甚至炫耀般地宣佈,Gemini月活破9億;並同步官宣大幅降價。
意思再直白不過了:我比你強,還比你便宜。
這不是宣戰是什麼?
01
大會上最讓人驚豔的,毫無疑問是Gemini 3.5 Flash的亮相。
正常來說,“Pro”代表中堅力量,“Flash”代表輕量級和快。
從模型參數量來看,3.5 Flash也確實小於3.1 Pro,但在幾乎所有推理和編碼基準測試上,前者的表現居然更優異:
複雜數學推理的GSM8K測試,3.5 Flash拿下了95.8%的分數,超越3.1 Pro的93.2%;程式碼生成能力的SWE-bench完整版中,3.5 Flash解決率達到38.4%,遠遠超過3.1 Pro的32.1%……
為什麼?
根據DeepMind發佈的《Gemini 3.5 Technical Report》,最重要的核心技術有兩個。
極限知識蒸餾:Google這次沒有單純靠堆算力來訓練Flash,而是使用了從未公開的“Gemini 3.5 Ultra”作為教師模型,對Flash進行降維蒸餾。
根據DeepMind首席科學家Jeff Dean的推文解析,3.5 Flash在高品質邏輯鏈資料集上的微調比例,比上一代提升了400%。
這意味著它繼承了超大模型的“邏輯腦”,而不是死記硬背的“知識庫”。
全新的MoE架構(混合專家模型):在3.5 Flash內部,Google採用了更細顆粒度的專家網路。
傳統的MoE可能只有8個或16個專家,每次僅啟動1-2個,足夠支援兆級參數規模的模型。
而根據a16z的2026年AI基建投資備忘錄分析,3.5 Flash採用了256個微型專家,每次推理可啟動其中最高效的4個。
所以它才能在保持極低啟動參數量的同時,覆蓋極其龐大的多模態特徵空間。
在TTFT(Time to First Token,首字輸出時間)指標上,3.5 Flash已經達到了65毫秒以內。
而人類眨眼一次需要100-150毫秒。
簡而言之,當其作為智能體執行階段,在人類的生理視角中,根本無法察覺到任何停頓。
對於需要頻繁呼叫工具、進行多輪反思、極低延遲的開發者而言,這是真正完美的超級代理底座。
只有依託如此極致的工程最佳化,才可能在競爭劇烈的環境中,建立起“端側落地”的統治力。
第一個,原生多模態Gemini Omni Flash。
Omni的意思是全能,對標早先的GPT-4o,只看名字,都能感受到火藥味有多濃。
至少從表現來看,Gemini Omni Flash遠比GPT-4o有資格用“o”這個字元。
早期的Sora或Gemini 1.5,基本都是縫合怪,即把語音轉文字、文字再轉視覺。
但這次發佈的Omni,是真正的原生端到端多模態對齊。不僅能原生理解視訊中的時間連貫性和物理規律,延遲也從400-600毫秒的行業平均水平降至120毫秒。
舉個發佈會上的例子:使用者戴著攝影機倒水,水杯快滿了,Omni能在水溢出前0.5秒說出“停停停!”
這種對現實世界物理狀態的即時推斷,看似簡單,但意義重大:AI從螢幕裡的聊天機器人正式進化為現實世界的輔助工具。
儘管只是初級階段。
第二個,智能助手Spark。
根據The Verge專訪Android工程副總裁的爆料,Spark 被賦予了Android 17系統底層的原生API操控權。
簡而言之,你以前需要點開很多App才能完成的複雜流程,現在不需要動手,只需要吩咐Spark一聲,它能幫你全部搞定,甚至能根據你的口吻、偏好去傳送資訊、整理郵件、彙總日程、追蹤網頁動態、識別帳單隱性扣費、批次處理文件等等等等……
換句話說,以後有了AI助手,我們基本用不上App,任何複雜的操作都被簡化成唯一。
第三個,智能眼鏡。
為什麼又是眼鏡?
至少在Google方面看來,視覺和聽覺的無縫接入,就是多模態大模型的最終宿主。
這副眼鏡看起來沒有任何花哨的外觀,全部聚焦於實用能力:
重量僅4克的Micro-OLED全彩光波導鏡片,透光率高達85%;
搭載自研輕量化Gemini端側晶片,本地推理延遲≤12ms,無需聯網即可完成即時翻譯、圖像識別、場景分析;
原生聯動Spark智能體,同步手機、雲端資料,實現日程提醒、即時翻譯、環境預警等個性化服務。
簡而言之,就是越過手機螢幕,把智能體通過眼鏡塞進人類的第一視角。
內容實在太多,Google似乎一次性清倉了所有大招,向市場宣告了一個真理:
沒有入口的演算法,什麼都不是。
卷大模型的參數、卷跑分的時代已經過去,單純的模型提供商已經沒有護城河,未來是“端+雲+生態+硬體”的四維空間戰。
把AI 塞進全家桶,其實是在重塑整個網際網路的流量分發邏輯:從“使用者主動搜尋/點選”,變成了“AI 智能體主動分發服務”。
對廣大的開發者和中小企業而言,這再好不過,因為底層算力和模型變得極其廉價,大家可以專心做應用層的創新。
但其它競爭對手,此刻恐怕只想破口大罵。
02
當劈柴在台上雲淡風輕地宣佈“Gemini月活躍使用者正式突破9億”時,在台下造成了不小的轟動。
9億,比美國所有對手的MAU加起來都要多。
怎麼做到的?
答案簡單粗暴:硬塞。
Google不需要像獨立AI公司那樣去花廣告費買量,只需要在Chrome瀏覽器的網址列旁邊加一個圖示,在30億台Android手機的底部導覽列整合一個呼出快速鍵,在Google Workspace裡全量推送更新……
獲客成本基本上等於0。
更關鍵的是,加下來一段時間,9 億活躍使用者每天用智能眼鏡看商品時停留的眼神、用 Spark 處理事務時修正的邏輯以及與Omni視覺模型的互動,產生的海量高品質、多模態真實世界反饋資料,統統會成為滋養Gemini 4的養料。
這是個極其堅固的壁壘:模型越好用->用的人越多->產生的資料越多->模型變得更好用。
為了速速強化這個閉環,Google直接向所有對手宣佈打價格戰:AI Ultra套餐從249.99美元/月砍到99.9美元/月。
3.5 Flash的百萬token輸入價格幹到了0.02美元,百萬Token輸出價格0.08美元。
這是個什麼神仙價格?
對比一下,行業同等級模型的均價分別在0.15-0.2美元和0.6-1美元。
劈柴算了筆帳:頭部客戶每天處理約1兆個token。把80%的工作負載切到Gemini 3.5 Flash上一年,能省超過10億美元。
為什麼敢把AI賣成白菜價?
最大的依仗就是:垂直整合的算力基礎設施。
包括OpenAI、Anthropic等巨頭,看似風光,本質上其實還是“算力租客”,需要向微軟、亞馬遜買算力,而後者又要去給老黃交錢。
而Google有自家的TPU,再加上3.5 Flash極其變態的MoE稀疏啟動效率,將算力成本壓縮到了極致。
完全可以利用重資產優勢去降維打擊單純的演算法公司。
邏輯很清晰。
基礎大模型正在快速商品化。就像水和電一樣,你見過那家自來水公司有暴利的?
Google不怕大模型本身不賺錢,因為可以通過搜尋廣告、雲服務和Android生態的抽成把錢賺回來。
但對於純靠賣大模型API 為生OpenAI、Anthropic、Cohere、Mistral,這就不可能。
投資人現在大概很想按著奧特曼的頭問:“Google的API價格只要你的十分之一,性能還比你好,你告訴我,你的商業模式怎麼跑通?”
多個行業的競爭格局,將因此進入加速洗牌期。
AI廠商不必多說,必須盡快找到更便宜的算力來源,或者自己下場做晶片。
其次是仍在閉門造車的蘋果。
智能眼鏡+ Omni視訊大模型+ Spark原生系統級接管的組合,毫無疑問已經威脅到了iPhone。
根據麥格理的《消費電子趨勢預測報告》:未來三年內,基於視覺/語音的無屏互動時長佔比,預計將從目前的8%躍升至35%。
如果使用者習慣了用眼鏡和語音完成日常工作和娛樂,螢幕的使用時長必然大幅壓縮。
蘋果如果拿不出足夠驚豔的穿戴裝置反擊(Vision Pro太重太貴,註定只是少數人的玩具),其在移動網際網路時代的入口壟斷權將受到史無前例的挑戰。
這不是迭代,是革命。
Google用技術、流量、價格三把刀,給所有對手下了戰書。
此時此刻,還有人嘲笑它得了大企業病嗎? (格隆)
