#Flash
Gemini負責人:Pro的主要作用是蒸餾Flash!最大突破空間在後訓練;Noam、Jeff Dean:持續學習是重要改進方向
2025年底,最令人印象深刻的AI圈大事莫過於Gemini 3 Flash的發佈。它主打輕量級、速度快,不僅智能全面超越Gemini 2.5 Pro,而且部分性能也反超了3 Pro和GPT-5.2(比如程式設計能力和多模態推理),令人非常驚豔。就在前天,Gemini的三位共同負責人Oriol Vinyals、Jeff Dean、Noam Shazeer和Google AIStudio 的產品負責人 Logan Kilpatrick 罕見同台,進行了一次對話。這三位嘉賓都相當重量級:Oriol Vinyals是Google DeepMind 研究副總裁兼深度學習負責人;“傳奇院士”Jeff Dean 大家都認識,他也是Google首席科學家;Noam Shazeer則更不用說了——Transformer的論文作者之一,也是Gemini 的聯合負責人。在這場談話中,Gemini的三位共同負責人表示:現在新的 Flash 模型,往往已經能達到甚至超過上一代 Pro 的水平。Oriol Vinyals甚至坦言:Pro的主要作用,就是拿來蒸餾Flash!他認為,那怕犧牲一點智能,更快更便宜的模型對使用者來說也非常重要。所以對於Flash這樣小而強的模型,他們一定會持續增加投入。Logan Kilpatrick也透露,他們在GoogleAI Studio 裡針對 vibe coding 這個用例,做了一些 Flash 模型和 Pro 模型的對比測試。結果發現:即便 Flash 在智能上略遜一籌,但由於延遲更低、反饋更快,使用者反而寫得更多、留存更高。因為沒人願意一直等。可見 Flash 有多麼受歡迎。此外,他們還談論了Gemini這一年的整體進展、內部的訓練細節、對Pro和Flash版本的取捨以及模型後續演進的重要方向等等。Jeff Dean 透露,Gemini目前用的基礎架構是他2018年提出的Pathway架構,主要有三個目標:一個模型可以泛化到數百萬個任務,強多模態,並且採用稀疏啟動。現在Gemini已經基本實現了這三個目標。而Jeff Dean也透露,關於模型能力的演進方向,Google內部已經有了Gemini的下一個“五年計畫”。Gemini 3剛發佈時,Oriol 曾在X上表示,Gemini 3的核心秘訣是提升預訓練+後訓練,尤其在後訓練上還是一片未被開墾的“綠地”,有很大的提升空間。而在這次談話中,他也再次強調,當前階段最大的突破空間很可能在後訓練。Jeff Dean則認為,目前在一些Benchmark上,模型能力基本已經見頂,尤其是程式碼、推理和數學領域;但在“幫我規劃一次舊金山旅行”這種開放式任務上,模型能力還有較大的提升空間。另外,Noam 和 Jeff 也強調,大模型的規模依然重要,但它不再是決定一切的唯一變數。相比之下,模型的持續學習能力才是後續的重要改進方向。小編翻譯並整理了整期對話實錄,有不少有價值的資訊,enjoy!Gemini的起源:Google Brain與Deepmind的融合Logan Kilpatrick已經有不少人試用了 Gemini 3 Flash,並對模型進行了測試,整體反饋非常積極,勢頭非常強勁。此前我們發佈了 Gemini 3 Pro,現在整體都在加速推進。Jeff、Oriol、Noam,你們三位是 Gemini 的聯合技術負責人,整體上在引領 Gemini 的方向。也許我們可以從 Jeff 開始,請你從自己的視角談一談:在 Gemini 3 Flash 和 3 Pro 發佈的這個時間點,我們正處在一個怎樣的階段?以及最近這段時間,我們是如何走到今天這一步的?Jeff Dean當然。我們對 Gemini 3 系列模型感到非常興奮,包括幾周前發佈的 Pro,以及昨天發佈的 Flash。正如你所說,我、Oriol 和 Noam 是 Gemini 項目的三位聯合技術負責人。我們已經合作很多年了,一起工作一直非常愉快。從 Gemini 項目的起源來看,其實源於我當時的一個觀察:在 Google 內部,我們在大語言模型規模化方面已經積累了很多優秀成果;在 Google Brain(當時屬於 Google Research)也在推進多模態模型;與此同時,Oriol 在原 DeepMind 團隊中也在做相關工作。但問題在於,這些非常優秀的人才和研究工作是分散的,算力資源同樣是分散的。我認為,如果我們能真正整合力量,作為一個統一的團隊協作,會好得多。這就是 Gemini 團隊和項目的起點——發生在 Gemini 1.0 發佈之前不久。此後,看到模型一代代演進非常有意思:Gemini 1.5、2.0、2.5,再到幾周前發佈的 Gemini 3 Pro,以及本周發佈的 Gemini 3 Flash。我們對此都非常興奮。當然,我們也必須學會如何跨越海洋、跨越多個地點協作,這本身就是一個學習過程。但我認為我們現在已經真正進入了狀態。大約從一年前的 2.5 系列開始,到現在的 3 系列,我們明顯找到了節奏。Logan Kilpatrick我非常喜歡這一點。看到 Brain、DeepMind、Google Research 的人才真正融合在一起,並且取得如此快的進展,確實非常酷。Oriol,我也很好奇你從自己的視角怎麼看這個問題,尤其是從歷史上看,Brain 和 DeepMind 在研究方法上的差異。我個人在看《The Thinking Game》這部紀錄片時,一個非常強烈的感受是:DeepMind 在十年前解決的問題,以及後來 AlphaFold 面對的問題,和我們今天在 Gemini 上遇到的挑戰,其實非常相似。其中讓我印象最深的是資料問題:比如人類真實標註的蛋白質折疊資料非常稀缺,團隊必須通過各種方式“合成性地放巨量資料規模”。我很好奇,這種思路與你們今天所處的 RL、“測試時計算”範式之間,有多少相似性?你覺得當年那些問題和今天這個階段之間,有多大的連續性?Oriol Vinyals我可能先從一個更宏觀的角度來回答。在組織層面,我其實非常幸運:很多年前我在 Brain 團隊工作,後來我搬到倫敦,加入了 DeepMind。所以我親身經歷了這兩種研究文化在早期的差異。當然,正是我和 Jeff 之間的聯絡,最終也幫助我們啟動了 Gemini 項目,把這兩個團隊再次結合起來。從研究方式上看,尤其是 DeepMind 的早期文化,有一個非常鮮明的特點:明確的長期目標、宏大的願景,以及“不解決問題就不罷休”的項目周期。這種精神其實深刻地體現在 Gemini 的起點上——Gemini 的目標是建構 AGI,是“解決智能”這個問題,我們是為長期而來。3.0 很棒,但它並不是終點。當然,Brain 也有大量類似的長期項目,同時帶來了對神經網路架構、訓練方法等方面的多樣化探索和創新。這些基因同樣進入了 Gemini。所以可以說,這兩個組織的 DNA 在 Gemini 中完成了融合。而在方法論上,正如我們今天看到的那樣,無論是資料驅動的無監督/預訓練,還是強化學習(RL),依然是未來模型持續創新的“綠地”。回頭看一些早期項目,當時外界並不總是理解我們在做什麼,尤其是我們研究打電子遊戲的那段時間。但我們的目標始終是:開發能夠更廣泛泛化的演算法。事實上,很多當年開發的演算法,現在都可以直接應用在大語言模型上。當時這點對我們來說是顯而易見的,但對外界並不明顯。比如 AlphaFold 中使用的蒸餾、強化學習加監督式自舉(就像 AlphaGo 那樣),這些方法與今天在大語言模型中的做法是高度一致的。這些技術在不斷被發現、打磨、改進,而每一輪迭代都會帶來新的提升。我認為,從 2.5 到 3.0 的躍遷,無論是在預訓練還是後訓練上,都疊加了大量這樣的改進,最終形成了一次相當顯著的提升。Logan Kilpatrick我非常喜歡這個說法。我之後可能還會再提到這一點。順便說一句,我記得之前看到過一個 meme,不知道是 Jeff 還是 Oriol 發的,大概意思是:“是該擴展預訓練,還是擴展後訓練?”然後答案是同時狂按兩個按鈕。這個 meme 是誰的功勞?Jeff Dean我覺得是 Oriol 吧?Oriol Vinyals我好像聽說過這個說法,但 meme 不是我做的。不過感謝 whoever 發了那個 meme,我其實沒看到。Jeff Dean真正的“秘密”就是:更好的預訓練,加上更好的後訓練。Oriol Vinyals對,這就是秘密。非常“機密”的秘密。Noam Shazeer我覺得有趣的一點在於:雖然我們只有一個統一的目標,但這是一個可以從非常多正交方向持續取得進展的問題。正如 Oriol 提到的,“加強預訓練”“加強後訓練”只是其中兩個按鈕。實際上還有很多這樣的按鈕,每一個都能從不同維度提升模型效果。這恰恰非常適合一個擁有數百、上千名工程師和研究員的大型組織。你可能會覺得這麼多人一起工作一定會一團亂麻,但事實證明,如果問題本身可以被拆解為多個正交方向,那麼在十個方向上各取得一點突破,疊加起來就會產生巨大進展。這正是 Google Brain 自下而上研究方式的優勢,而它也與 DeepMind 更加聚焦長期目標的方式形成了非常好的互補。如何看待產品與模型的關係Logan Kilpatrick最近我在和一些人討論一個問題,Corey 也從某種角度提到過——我這裡用自己的方式轉述,不代表他的原話:產品本身是否也是一種“規模化機制”?我們可以擴展模型規模、擴展預訓練和後訓練、使用測試時計算等等。但現在你會看到,很多評測開始引入“帶工具的 benchmark”“帶 agent harness 的 benchmark”。我很好奇你們怎麼看待“產品”在其中扮演的角色:它是否能反過來幫助提升模型本身的能力和互動閉環?這是不是你們正在思考的方向?Noam Shazeer我認為這非常有價值。我很喜歡在 Google 這樣的全端公司工作,從底層 AI 技術,一直到服務數十億使用者。產品不僅能為訓練提供資料和反饋,也能極大提升團隊的動力。看到自己做的東西正在被真實使用者使用,這本身就非常有意義。Jeff Dean我補充一點:當你的工作被大量使用者使用時,這對人是極其有激勵作用的。這可以是直接的,比如 Gemini App;也可以是間接的,比如 Gemini API,被開發者使用,或者嵌入到各種 Google 產品中。這正是我當初進入軟體工程領域的原因之一,看到自己的工作被使用,是非常快樂的事情。少數人做出的成果,可以讓數百萬、數千萬,甚至數十億人受益。這是軟體行業非常獨特、其他職業很難擁有的體驗。Oriol Vinyals我從稍微不同的角度補充一下。我們三個人本質上都是深度學習研究者,但你永遠無法繞開真實世界。歷史上有無數例子:正是因為真實世界的需求,我們才不得不發明新的技術。比如在圖像識別早期,我們發現圖像並不會總是居中,於是需要設計能夠處理這種情況的模型。又比如文字是變長的,你無法直接把摺積網路套在可變長度的文字上,於是我們發展了循環網路、再到 Transformer。今天也是一樣。如果使用者希望和聊天模型進行跨越多年的長期互動,那我們就必須從研究層面正面解決這個問題。所以現實世界的需求本身,也在強迫我們不斷創新。當然,這也與動力、影響力密切相關,我們做的事情確實重要,這讓我們保持腳踏實地。Jeff Dean我再補充一點。除了關注“誰在用你的產品”,在一家全端公司裡,另一個巨大優勢是:我們會非常深入地思考訓練模型所依賴的基礎設施。我們已經建構自己的 AI 加速晶片 TPU 超過十年了。這對兩件事至關重要:一是讓深度學習模型可以部署到更多產品場景中;二是支援模型訓練規模的持續擴展。早在 2012 年左右 Brain 團隊成立初期,我們主要使用資料中心裡的 CPU 訓練模型。當時我們就訓練出了一個規模是此前最大模型 50 倍的神經網路,在視覺和語音任務上都取得了驚人的效果。但我們也很快意識到:如果要把這些模型服務給大量使用者,僅靠當時的 CPU 或 GPU 是不夠的,這直接促成了 TPU 項目的誕生。此後,我們持續迭代 TPU,使其能夠很好地支撐 Gemini 的大規模訓練和推理服務。目前最大的突破空間在後訓練Logan Kilpatrick是的,我們現在真的是怎麼都不夠用 TPU,這確實是一個非常現實的瓶頸。我不太清楚“Gemini 聯合技術負責人”這個職位的精確崗位說明是什麼,但我猜,對你們三位來說,工作中至少有一部分是要決定:下一步的關鍵技術下注點在那裡,我們要朝那些方向走。Demis 多次提到過這樣一個觀點,我相信也有不少人認同:要真正走向 AGI,可能一定需要某種架構層面或模型層面的根本性突破,而不僅僅是持續的工程創新。當然,我們也看到,每一次模型發佈本身就包含了大量創新。比如如果你單看 Gemini 3 Flash 和 3 Pro,就會發現這並不是第一次被提到,Flash 在後訓練配方上有一系列創新,使得它在某些基準上,儘管模型更小,但進步幅度甚至超過了 3 Pro。所以我很好奇,你們是如何看待這種張力的:一方面,短期和中期存在一個極其豐富的改進空間;另一方面,我們是否需要為未來做出一些“根本性”的新下注,去爭取真正通向 AGI 的突破?還是說,其實我們可以沿著現有範式繼續推進,只要不斷踏實地做創新,就足夠了?不知道這個問題是否引起你們的共鳴,誰願意先來回答?Oriol Vinyals我先來吧。Logan KilpatrickOriol,也許你可以順便解釋一下你常說的“drastic research(激進式研究)”是什麼意思。Oriol Vinyals好的。關於“drastic research”這個詞,其實挺有意思的,甚至有點“署名歸屬不清”。這是我和 Ilya 在 Brain 時代的一次討論,他說是我發明的,因為我當時說“這是一個非常 drastic 的想法”,但我記得這個詞是他先用的。總之不重要。它的意思其實很簡單:不是只做增量式思考,而是更超前地思考——真正需要發生什麼,才能帶來質變。當然話說回來,當一支非常強的團隊把大量增量改進做到極致時,這些改進是會疊加成巨大進步的。Gemini 就是一個例子,但對我來說更“極端”的例子其實是 AlphaFold。那個項目多年裡幾乎沒有發論文,而是持續打磨架構、訓練配方和每一個細節,始終圍繞著一個大目標前進。回頭看,AlphaFold 的成功其實是大量技巧和“深度學習工程細節”的積累,並不一定依賴某個突然出現的、極端顛覆性的技術。Transformer 當時已經存在,本身就是一個非常強的架構。當然,Noam 可以更詳細地講 Transformer。至於 AGI 到底需要什麼,我認為嚴格地不斷完善現有配方,也有可能就已經足夠。資料是存在的,潛力也在那裡。但與此同時,我們也不能排除未來會出現真正的“巨大躍遷”。我個人的判斷是:當前階段,最大的突破空間很可能在後訓練。當然,我們三個人的看法未必完全一致。不過,作為一個大型公司和大型項目,我們可以同時在多個方向下注,這本身也是我們的優勢。最後,關於“技術負責人”這個角色,我想補充一點:我們很大一部分工作,其實是篩選。團隊裡每個人都非常聰明、非常有創造力。很多時候,我們並不是提出想法的人,而是判斷那些想法最有前景。並不是“我們提出所有想法,別人來執行”,而恰恰相反。我想澄清這一點,給可能對我們日常工作有不同想像的朋友。我提名 Noam 接著講。Noam Shazeer謝謝 Oriol。確實,這是一個非常複雜的組合問題。有大的突破,也有小的突破。關鍵在於:它們可以正交疊加,而且不會引入過多技術複雜性,這樣我們才能不斷繼續往上疊。你可以粗略地想像:也許一個“大突破”能給模型增加 1 個 IQ 點;一個“小突破”只能增加 0.1 個 IQ 點。但只要我們持續把這些疊加起來,進展就會非常巨大。至於下一個“超級大突破”會不會出現?老實說,我覺得是 50/50。但我們確實在很多方向上都看到了大量創新:後訓練是重點,但預訓練、模型架構、資料、下游應用等方向也都在持續推進。Jeff Dean我認為,保持一個風險組合非常重要。一部分是更長期、更高風險、可能成功也可能失敗的想法;另一部分是希望能進入下一代 Gemini 模型的、相對短期但同樣重要的工作。後者往往理解得更清楚,需要通過實驗進一步驗證,它們也許只能帶來 1 分或 0.1 分的提升。但當你把很多這樣的改進疊加起來,就能實現代際飛躍。與此同時,我們也必須持續押注那些可能徹底改變現有範式的新方法。在 Gemini 項目啟動之前,大概在 2018 年左右,我們開始意識到:為不同任務分別訓練一大堆模型,可能並不是正確的方向。於是我發起了 Pathways 項目,其核心目標是:一個模型,能泛化到數百萬個任務能處理多模態輸入和輸出模型不是完全稠密的,而是稀疏啟動的圍繞這三個目標,我們不僅在模型上做探索,也搭建了底層的軟體基礎設施,以支援這種“稀疏、啟動方式很奇怪”的模型規模化訓練。實際上,今天 Gemini 使用的正是 Pathways 這套基礎設施。這三個目標,今天基本已經在 Gemini 的多個版本中實現了:一個模型可以做數百萬件事,強多模態,並且在最新版本中大量採用稀疏啟動。所以,設定五年期目標,然後一步步朝它們推進是非常有價值的。不是五年什麼都不做,而是沿途不斷取得階段性成果。現在,我們腦子裡也已經有了關於未來五年的類似藍圖:下一步模型能力該如何演進。程式碼、推理和數學已經被“擊穿”,下一步是開放式任務Logan Kilpatrick太棒了。Jeff,也許我們可以線下聊聊,把“未來五年的完整清單”拿出來看看。Noam 和 Jeff 都提到了一個點:模型能力在很多維度上都在持續提升,可能是某個評測的一兩個百分點,也可能是更細微的改進。但與此同時,我們也看到某些領域在 6 到 12 個月內被迅速“吃穿”了。比如程式碼、推理、數學。年初時,“Humanity’s Last Exam(HLE)”這種 benchmark,最強模型的得分還是個位數百分比;現在已經出現了 50% 以上的模型。程式碼領域的 AIM benchmark 幾乎已經被刷到接近 100%。我很好奇:你們覺得這種趨勢會持續嗎?還是說,程式碼、推理、數學這些領域,本身就有某些特性,使得進展會特別快,而其他領域(比如生物學)就沒那麼容易?Noam Shazeer我先說說程式碼吧。我覺得大家已經意識到程式碼領域極其有價值。可能我們作為工程師有點“近視”,因為它直接幫助了我們自己。但說實話,我本人就非常感謝 Gemini 在加速我的程式設計工作。而且這不僅是“我們覺得有用”,而是程式碼能力可以被用於建構極其高價值的東西,比如繼續建構 AI 本身。Jeff Dean我再補充一個關於數學的例子。兩年前,模型在 GSM8K(中學數學題)上都表現得很吃力,比如:“Fred 有 5 隻兔子,從兩個朋友那裡各拿到 1 隻,現在有幾隻?”而現在,我們已經有模型能在 IMO(國際數學奧林匹克)這種難度極高的競賽中拿到金牌。這充分說明:後訓練和強化學習在可驗證領域(如數學和程式碼)裡非常有效。原因在於:在這些領域,我們可以生成候選答案,並且明確地驗證對錯。數學可以用定理證明,程式碼可以運行、編譯、跑單元測試。而真正的挑戰在於那些“模糊領域”:比如生物問題,或者“幫我規劃一次舊金山旅行”這種開放式任務。這些問題沒有清晰的獎勵函數或對錯判斷。我認為,未來幾年一個重要方向就是:如何讓這些開放式領域的進展,像數學和程式碼一樣快。Flash版本:相比智能,速度快也很重要Logan Kilpatrick這也讓我聯想到當前的 Flash 時刻。顯然,蒸餾已經非常成功。我們有一個極其強大的“教師模型”,然後把能力蒸餾到 Flash 這樣的更小模型中。Oriol,我很好奇你怎麼看這個問題:在速度、效率、成本和智能之間做權衡時,我們的心智模型是不是Pro 模型完全不做妥協,反正以後可以再蒸餾?在多條研究主線平行的情況下,Pro 的決策是否最終決定了 Flash 能達到的上限?比如現在的 Gemini 3 Flash。Oriol Vinyals這是一個非常好的問題。回到 Gemini 項目最初的設計,Jeff 可能還記得最早的那些幻燈片:從一開始我們就明確,Gemini 會同時有兩個運行點:一個是:最大智能,不做任何妥協另一個是:更強可部署性,但不追求絕對前沿智能這種劃分方式非常有幫助,而且我認為短期內不需要改變。但現實發生的事情是:一代一代下來,新的 Flash 模型,往往已經能達到甚至超過上一代 Pro 的水平。也就是說,在固定模型規模或延遲條件下,智能水平在持續上升。當然,在最大規模下,Pro 仍然會在某些 Flash 難以觸及的能力上保持領先。這最終變成了一個使用者問題:你到底需要什麼?很多使用者可能會選擇 Pro,因為他們不想每次都猜“這個問題 Flash 行不行”。與此同時,我們也把蒸餾這件事做得非常成熟了。我和 Jeff 經常提醒大家,這其實是一篇當年被拒稿的論文,但它一次次證明了自己的價值。我認為,兩種模型之間的差距不一定會變成 0,但很可能會小到一個程度:Pro 的主要作用,就是用來“生成”Flash。當然,我們可能仍然希望把 Pro 直接交給某些使用者。但從長期來看,能以最低成本提供前沿智能,是一個非常理想的狀態。老實說,隨著 Gemini 3.0 的進展,我們已經離這個目標非常接近了。這真的非常令人興奮。Jeff Dean我補充一點。我們也在做端側模型,比如用於 Pixel 手機等裝置的模型,這類場景會有額外的約束,比如記憶體規模等。我認為延遲作為模型質量指標被嚴重低估了。能夠在極低延遲下,依然具備很強推理能力、可以處理複雜問題的系統,是非常非常重要的。延遲可以從不同層面來最佳化:一方面是模型層面的最佳化,通過架構設計讓模型天然更快;另一方面是硬體層面的決策,讓某些模型在未來的硬體平台上運行得特別高效。延遲和推理階段算力的另一個關鍵意義在於:它讓你可以在固定的延遲預算內,把模型“變得更聰明”。如果模型本身快 5 倍,你可以選擇:直接快 5 倍給出答案;或者讓模型“多思考一會兒”,得到更好的答案,同時仍然比原來快 2.5 倍。如果你有非常強大的硬體,再配合通過蒸餾得到的、輕量但能力依然很強的模型,這是一個必須持續投入的重要方向。Noam Shazeer我想補充一點。如果我們真的能做到這樣,其實是一種非常理想的工作方式:在訓練 Pro 模型 時,儘量不去在意推理性能,專注於智能本身;然後在 Flash 模型 上,重點最佳化延遲、成本和吞吐量。這讓我想起我大學時的一位電腦教授,杜克大學的 Owen Astrachan。他常說一句話:“先讓它跑起來(make it run),再讓它正確(make it right),然後讓它快(make it fast),最後讓它小(make it small)。”這基本就是軟體開發和偵錯的順序。而現在在模型上似乎發生了類似的事情:先讓模型能跑、再讓它聰明、再讓它快、再讓它便宜。看起來,很多“老智慧”仍然在發揮作用。Jeff Dean我很喜歡這個說法。確實,不同的使用場景需求差異很大:有些場景追求絕對最好的質量,並不太在意延遲;還有很多場景需要更快、更便宜的模型,用於高頻、規模化的使用。這正是我們常說的帕累托前沿:我們希望給使用者提供多個選擇。理想情況下,使用者最好不用太糾結:“這個請求我該用 Pro,還是 Flash?”但同時,提供一個連續的選擇區間,我認為是非常有價值的。Logan Kilpatrick完全同意。我可以分享一個具體例子:我們在 AI Studio 裡針對 vibe coding 這個用例,悄悄做了一些 Flash 模型和 Pro 模型的對比測試。結果很明顯:即便 Flash 在智能上略遜一籌,但由於延遲更低、反饋更快,使用者反而寫得更多、留存更高。因為沒人願意一直等。我昨晚還看到一條評論,有人說自己以前一直是“永遠用最聰明的模型、願意等待”的那一派,這點也呼應了你剛才的觀點,Oriol。但在用了 Gemini 3 Flash 之後,他重新評估了這個立場,因為迭代速度實在太快了,在很多情況下,那怕犧牲一點點智能也是值得的。Jeff Dean是的。其實在 Google 非常早期的時候,我們就極度重視搜尋結果頁面的響應速度,因為我們知道:低延遲是一種極其令人愉悅的使用者體驗。搜尋越快,人們就會搜得越多。Oriol Vinyals還有一個很直觀的現實是:我們依然處在人類在環(human-in-the-loop)的階段,所以我們並不會對等待和延遲免疫。另一個非常令人興奮、而且即將到來的應用場景是機器人。在機器人領域,你需要模型去控制和操作真實世界的裝置,這裡有物理層面的硬約束。我非常確信,對小而強模型的投入只會持續增加。我們對目前的進展本身也感到非常興奮。模型並不缺“聰明”,缺的是“持續學習”Logan Kilpatrick回到我們之前關於“面向未來的技術賭注”的討論,最近大家也談了很多自我改進、持續學習之類的話題。在不洩露任何“秘方”的前提下,我很好奇:這些方向在 Gemini 裡更多是偏研究探索,還是已經開始進入產品或工程視野?目前整個領域大概處在一個怎樣的成熟度區間?Oriol,你怎麼看?Oriol Vinyals這是一個非常“老派深度學習者”的問題。從歷史上看,神經網路的發展中,有些地方一直讓我覺得不夠優雅、也不夠合理。比如課程學習,我們現在是把各種難度的資料混在一個 batch 裡訓練模型,而人類學習通常是先學簡單的,再學困難的。這是一個我們做過一點、但遠遠不夠的方向。另一個多年來一直困擾我的問題是:我們訓練完模型、凍結權重、然後部署,部署後就再也不學習了。AlphaFold 不會從使用者那裡學習,AlphaGo 也不會從自己下過的棋局中繼續學習。至少在權重層面,這些系統在部署後是“靜態的”。這些顯然都是非常深層次、非常重要的改進方向。隨著我們逐漸接近 AGI,你會自然期待持續學習、情境學習這類能力出現。舉個例子,Demis 很喜歡和模型下棋。模型其實應該意識到:“我下得還不夠好。”然後它應該自己花一周時間專門學習國際象棋,再回來對 Demis 說:“我準備好了。”然後擊敗他。這裡有大量令人興奮、同時也是經典的開放問題。這說明它們不會容易,但我相信我們會做到。Jeff Dean順著持續學習這個話題說一句,其實預訓練本身就有點“反直覺”,至少和人類學習方式相比是這樣。現在的做法是:我們隨機初始化一個模型,把它“綁在板子上”,然後把海量文字、圖片、視訊流式地灌給它。最後再說:“好了,你現在可以開始在世界裡行動,學數學、學程式設計了。”這種方式下,每個 token 所包含的資訊密度其實很低。如果模型能在環境中採取行動、觀察後果、主動決定下一步關注什麼:比如它想學棋,就主動去讀棋譜;想學微積分,就去找相關內容——那會更像人類的學習過程。這是一條非常值得作為長期技術賭注去探索的方向。Noam Shazeer我並不是要否定“大規模流式訓練”。我們不僅僅是在把資料流過模型,而是讓模型對每一個 token 都做下一詞預測,而且規模是兆級 token。一個人一生可能只接觸到十億等級的語言 token,但通過預測別人接下來要說什麼,人類確實能學到很多東西。我們給模型提供的資料量是人類的成千上萬倍,這當然極其有價值。但我也同意 Jeff 的觀點:如果我們能把大量計算資源集中投入到最重要、最有價值的方向,無論是治癒癌症、建構程式設計智能體,還是其他重大問題,那會非常有意義。這也是為什麼我贊同 Oriol 的判斷:未來很多大的進展,很可能來自後訓練階段。Logan Kilpatrick我很喜歡這個結論,感覺我們兩種方式都需要。某種程度上,人類本身就“繼承”了進化過程中形成的生物學先驗,而大規模 token 流式訓練,可能只是一個很粗糙的代理。Jeff Dean是的。正如 Noam 說的,大規模流式訓練已經被證明非常有效,我完全不想否定它。但另一方面,人類一生看到的 token 數量遠少於模型,卻能達到很高的能力水平。這說明,可能存在一種比現在高 1000 倍甚至 10000 倍的資料效率學習方式。我認為關鍵在於:人類會思考行動的後果、觀察反饋,這種方式更偏向強化學習,而不僅僅是預測下一個 token。總結:多模態進展、超長上下文、通用模型能力提升Logan Kilpatrick太棒了。我們時間差不多了,最後想問一圈:回顧 Gemini 過去兩年的發展,有沒有那些出乎意料的地方?不管是進展比預期快的,還是慢的,或者某些意想不到的結果。Jeff Dean整體來看,最讓我欣喜的是多個方向同時取得進展。視訊和圖像生成能力的提升尤其明顯,而且它們越來越多地和主模型融合在一起,讓模型可以進行視覺推理。你可以看到生成結果,然後說:“不對,我想要的是這個圖像的一個小改動。”這種互動非常自然。另一個我認為被低估的能力是超長上下文。當你把大量資料放進上下文窗口時,這些資訊對模型來說是非常“清晰”的,它們以 KV cache 的形式存在。相比之下,訓練資料已經被“攪拌”進數十億參數中,對模型來說是模糊的。我覺得長上下文能力還遠沒有被充分利用。我們正在探索的一條方向是:如何讓使用者感覺自己彷彿擁有對數十億甚至兆 token 的注意力能力,就像把大半個網際網路、海量視訊放進了上下文窗口裡。Oriol Vinyals對我來說,最意外的是:我們曾經有一個專門做競賽程式設計的項目 AlphaCode,是高度特化的系統。但現在,用通用模型,我們卻在數學和程式設計競賽中拿到了金牌,而且沒有為這些領域做特別定製。這一點非常讓我驚訝。我當時反覆提醒團隊:這必須是模型本身的能力,而不是某個臨時分支、達成目標後就丟掉的東西。結果他們真的做到了。這可能是過去幾年裡最“激進”的驚喜。Noam Shazeer從理性上說,我並不完全驚訝——早在 2018、2020 年,就能預見模型會越來越聰明。但從情感上說,看到這一切真的發生了,還是非常震撼。你現在可以直接跟模型對話,讓它幫你算數學、寫程式碼,而且有成百上千萬的人對 AI 感到興奮。這真的非常有趣,我也非常期待接下來會發生的事情,希望它能給世界帶來更多正向影響。Logan Kilpatrick太完美的結尾了。Jeff、Oriol、Noam,非常感謝你們抽時間參與。也感謝大家的收聽,希望你們喜歡新的 Gemini 模型。如果有問題或反饋,隨時聯絡我們。我們會繼續“推石頭上山”,給大家帶來更好的模型和產品。希望明年初還能和大家一起迎來更多有趣的發佈。 (51CTO技術堆疊)
Gemini 3 Flash 可能是 Google 最狠的一步棋
剛剛Google正式推出了Gemini 3 Flash,這可能是 Google 這幾年最重要的一次模型發佈如果只看名字,Gemini 3 Flash 很容易被誤解成一個閹割版,快但不聰明的模型。但實際情況恰恰相反——它可能是 Google 到目前為止,戰略意義最大的一次模型選擇一句話先給結論:Gemini 3 Flash =前沿大模型智商 + 閃電級速度 + 超低成本的組合拳。它不是縮水版,而是把快和強第一次真正合在了一起不知道Google是怎麼訓練的,在複雜推理測試ARC-AGI-2和衡量真實程式設計能力測試SWE-bench Verified 基準中,Gemini 3 Flash都超過了Gemini 3 pro過去兩年,大模型世界裡一直有一道隱形分界線:一邊是能力最強、但又慢又貴的旗艦模型,另一邊是響應快、成本低,但明顯沒那麼聰明的輕量模型Gemini 3 Flash 做的事情,就是把這條分界線直接抹掉了它在多個博士級推理和多模態基準上,已經逼近甚至追平 Gemini 3 Pro 這樣的重型選手,卻同時保留了 Flash 系列最核心的特性——極低延遲和極高吞吐。更關鍵的是,在真實使用場景中,它平均比上一代 2.5 Pro 少用 30% 的 token,卻把正確率做得更高這件事對開發者的衝擊尤其明顯在 Agent、自動程式設計、高頻互動系統裡,真正的瓶頸從來不是模型能不能想明白,而是想明白要不要等三秒。Gemini 3 Flash 在 SWE-bench 這類面向程式碼 Agent 的評測中,甚至跑贏了 Gemini 3 Pro,本質原因只有一個:它足夠聰明,同時也足夠快,快到可以被反覆呼叫而當這種能力開始變便宜,事情的性質就變了Gemini 3 Flash 的定價已經低到一個明確的訊號:它不是拿來偶爾用一次的,而是拿來當基礎設施用的Google 直接把它設成了 Gemini App 的默認模型,全球使用者免費使用;同時,它也開始成為搜尋裡 AI Mode 的核心大腦。你在搜尋裡問一個複雜問題,它不只是給你答案,而是能拆解問題結構、結合即時資訊,再給你一個可以立刻行動的方案,而這一切幾乎和傳統搜尋一樣快這一步,其實比參數更重要如果說前兩年的競爭重點是誰的模型更像人類博士,那麼 Gemini 3 Flash 代表的,是下一階段的方向,誰能讓這種水平的智能,真正跑在每一次點選、每一次呼叫、每一次搜尋裡從這個角度看,Gemini 3 Flash 並不是一個Flash 模型,而是 Google 對 AI 規模化落地的一次明確表態:智能本身已經不是稀缺資源了,稀缺的是能被高頻使用的智能不得說GoogleTPU+強悍的研發能力已經成為事實上領先者了,Sam 昨天緊急推出的圖像模型追Nano Banana Pro,接下里要追的可能就多了,這在幾個月前甚至都不能想像 (AI寒武紀)
Google甩出“價格屠夫”!Gemini 3 Flash超Pro,成本僅1/4,速度如“閃電”
多領域性能比肩Pro模型。昨晚,Google發佈了Gemini 3 Flash,旨在用更低的成本提供前沿的智能水平。具體來看,它輸出每百萬token的價格僅為Claude Sonnet 4.5的20%、GPT-5.2的21%,卻能在基準測試上達到甚至超越這些旗艦級模型的水平。即便是和Gemini 3 Pro相比,Gemini 3 Flash也極具性價比。Flash的價格僅為Pro的25%,卻在MMMU-Pro、SWE-bench Verified這些核心基準測試上,超過了Pro版本的模型。此前發佈的Gemini 3系列模型在複雜推理、多模態和視覺理解、智能體及Vibe Coding任務方面都展現出優勢,Gemini 3 Flash保留了這一基礎,將Gemini 3 Pro等級的推理能力與Flash等級的延遲、效率和成本相結合。Google首席科學家Jeff Dean稱,Gemini 3 Flash不僅比2.5 Pro質量更高,速度也快3倍,而且價格僅為後者的幾分之一。以下是並排演示:Gemini 3 Flash目前已經全面開放,開發者可通過Google AI Studio中的Gemini API、Gemini CLI以及智能體開發平台Google Antigravity使用。而普通使用者能通過Gemini應用程式和Google搜尋中的AI模式使用。01.專為迭代式開發打造還幫你“用嘴程式設計”Gemini 3 Flash究竟能做什麼?Google稱,這是一款專為迭代式開發打造的模型,能夠以低延遲提供接近Gemini 3 Pro等級的程式設計性能。Google分享了多個案例。比如,Gemini 3 Flash可以在一個手部追蹤的“彈球解謎遊戲”中實現多模態推理,提供近乎即時的AI輔助。它還可以近乎即時地建構和A/B測試新的載入動畫設計,簡化了從設計到程式碼的流程。使用多模態推理,Gemini 3 Flash可快速分析帶有上下文UI覆蓋層的圖像,並生成字幕,最終將靜態圖像轉化為互動式體驗。憑藉在推理、工具使用和多模態能力方面的出色表現,Gemini 3 Flash 特別適合希望進行更複雜視訊分析、資料提取和視覺問答的開發者。Gemini 3 Flash的多模態推理能力可用於幫助使用者看、聽和理解任何類型的資訊。使用者可以要求Gemini理解視訊和圖像,並在幾秒鐘內將該內容轉化為有幫助且可操作的計畫。Gemini應用程式中的Gemini 3 Flash可以分析短影片內容並給你一個計畫,比如如何改進你的高爾夫揮杆。由於Gemini 3 Flash針對速度進行了最佳化,它可以在你仍在繪圖時就“看到”並猜出你畫的是什麼。你可以上傳一段錄音,Gemini 3 Flash將識別你的知識盲點,建立一個自訂測驗,並對答案給出詳細解釋。或者,也可以嘗試“用嘴程式設計”,僅用語音輸入從零開始建構有趣、有用的應用程式。Gemini 3 Flash可以在幾分鐘內將非結構化的想法轉化為一個功能正常的應用程式。02.多領域性能超越Pro級模型可自動調節思考量Gemini 3 Flash在基準測試上表現如何?它在GPQA Diamond(90.4%)和Humanity's Last Exam(不使用工具時為33.7%)等博士級推理和知識基準測試中,可與更大的前沿模型相媲美,並且在多項基準測試中顯著優於Gemini 2.5 Pro。在評估編碼智能體能力的基準測試SWE-bench Verified中,Gemini 3 Flash取得78%的成績,不僅超越了2.5系列,也超過了Gemini 3 Pro。它還在MMMU Pro上達到了81.2%的分數,與Gemini 3 Pro相當,實現了最先進的性能。在下圖中展示的基準測試中,Gemini 3 Flash在幾乎所有基準測試上都超過了Claude Sonnet 4.5、Gemini 2.5 Pro等模型。除了前沿等級的推理和多模態能力外,Gemini 3 Flash的建構旨在實現高效率,推動了質量與成本、速度之間的帕累托邊界。下方散點圖顯示了多個語言模型的LMArena Elo得分與每百萬tokens價格的關係,其中一條線標出了穿過Gemini 3 Pro、Gemini 3 Flash和Gemini 3 Flash Lite的帕累托邊界。在思考預算拉滿時,Gemini 3 Flash能夠調節其思考量。對於更複雜的用例,它可能會思考更長時間。但根據典型流量測量,在以更高的性能精準完成日常任務的前提下,它平均比2.5 Pro少使用30%的tokens。03.結語:Gemini 3模型版圖補全有望深度嵌入日常應用Gemini 3系列模型自發佈以來就廣受好評,不過其高昂的成本讓不少使用者望而卻步。Gemini 3 Flash補全了Gemini 3家族在輕量化、高性價比方面的佈局,回應了開發者在真實生產環境裡的訴求。從迭代式開發、Vibe Coding,到多模態應用、即時互動和智能體系統,Gemini 3 Flash所展現的更高性價比,有望幫助智能更廣泛地嵌入日常應用和商業系統之中。 (智東西)
小米“降維打擊”:MiMo-V2-Flash性能直逼GPT-5,成本僅零頭!
一場由科技巨頭小米掀起的AI風暴,正在全球範圍內引發震動。小米正式開源其最新一代AI模型MiMo-V2-Flash,這不僅僅是技術實力的秀肌肉,更是對現有AI市場格局的一次深度認知突圍與降維打擊。其極致的性價比和卓越性能,正以前所未有的速度衝擊著DeepSeek、Moonshot乃至OpenAI等頂尖玩家的護城河。👉 技術深度解析:性能與效率的“不可能三角”被打破MiMo-V2-Flash的發佈,核心在於它以前所未有的方式平衡了性能、成本和速度。小米稱其在推理、編碼和Agent(智能體)場景中表現尤為突出,同時也是日常任務的優秀通用助手。•極致效率與成本革命: 這款模型以每秒150個token的驚人速度進行推理,而成本更是低至每百萬輸入token 0.1美元,每百萬輸出token 0.3美元。這使得它成為市面上最具成本效益的高性能模型之一。這種“超高性價比”的策略,無疑將極大降低AI應用的門檻,為開發者和企業帶來巨大的紅利。•混合專家(MoE)架構: MiMo-V2-Flash採用MoE設計,總參數高達3090億,但實際執行階段僅啟動約150億參數。這種設計在保證強大能力的同時,顯著降低了計算資源消耗。•混合滑動窗口注意力機制: 為瞭解決長文字處理的計算複雜度問題,MiMo-V2-Flash創新性地採用了5:1的混合比例,即5層滑動窗口注意力(SWA)搭配1層全域注意力交替使用,滑動窗口大小為128個token。這項技術將KV快取儲存需求降低了近6倍,同時支援高達256k的超長上下文窗口。這意味著模型能處理相當於一本中篇小說或幾十頁技術文件的輸入,且性能不打折扣。•輕量級多Token預測(MTP): 區別於傳統模型的單token生成,MiMo-V2-Flash通過原生整合的MTP模組,能夠平行預測多個token,推理速度提升2到2.6倍。這不僅加速了生成效率,還解決了強化學習訓練中GPU空閒時間浪費的問題,實現了“一箭雙鵰”的效率提升。💡 性能對標:直逼頂尖,局部超越小米MiMo-V2-Flash的實測表現,足以讓業界震驚。•推理能力: 在大部分推理基準測試中,MiMo-V2-Flash的性能與月之暗面的Kimi K2 Thinking和DeepSeek V3.2 Thinking不相上下。在長上下文評估中,它甚至超越了Kimi K2 Thinking。•編碼與Agent能力: 在SWE-Bench Verified的Agent任務中,MiMo-V2-Flash取得了73.4%的高分,超越所有開源競爭對手,並逼近OpenAI的GPT-5-High。在多語言SWE-Bench測試中,其解決率達到71.7%。在程式設計能力評估中,它與被認為是行業最佳編碼模型的Anthropic Claude 4.5 Sonnet旗鼓相當,而成本僅為後者的一小部分。•通用能力: 除了技術型任務,MiMo-V2-Flash在通用寫作和高品質開放式響應方面也保持了競爭力。它支援深度思考和聯網搜尋,意味著它不僅能寫程式碼、解數學題,還能即時獲取最新資訊。🚀 戰略佈局:AGI路線圖與生態護城河小米此次開源MiMo-V2-Flash,並非孤立的技術展示,而是其宏大AI戰略的關鍵一步。•AGI路線圖的“第二步”: 小米MiMo團隊負責人羅福莉(前DeepSeek核心研究員)明確指出,MiMo-V2-Flash是其AGI(通用人工智慧)路線圖上的“第二步”。這預示著小米在追求超越人類認知能力的AI道路上,有著清晰且野心勃勃的長期規劃。羅福莉的加盟,本身就是小米對AI人才和AGI方向的重磅押注。•賦能“人車家全生態”: 摩根士丹利分析師指出,小米旨在通過這款高性能模型,深刻重塑其“人、車、家”的廣泛生態系統。MiMo-V2-Flash將作為小米硬體生態的強大AI基石,為智慧型手機、IoT裝置乃至電動汽車提供獨特的智能體驗,從而強化其生態護城河。•全面開源,建構生態: 小米選擇完全開源MiMo-V2-Flash,並將其權重和推理程式碼發佈到Hugging Face和SGLang等平台,這在國內大廠中實屬罕見。此舉旨在降低大模型應用門檻,加速高性能AI技術在更廣泛場景中的應用和普及,從而凝聚開發者,共同建構一個繁榮的開源AI生態。✅ AI時代的“小米時刻”MiMo-V2-Flash的發佈,猶如十年前小米手機以1999元的定價重新定義了旗艦機市場。如今,小米正以0.1美元/百萬token的超低成本和頂級的性能,重新定義開源大模型的“性價比”標準。這不僅是技術層面的突破,更是商業模式和生態理念的複利效應。在當前全球大模型競爭白熱化、成本與效率日益重要的背景下,小米正通過MiMo-V2-Flash爭奪開源生態中的關鍵位置,為全球AI開發者提供了前所未有的工具和機遇。屬於開源模型的“小米時刻”,真的來了。 (澤問科技)
Google殺瘋了!Gemini 3 Flash 突襲:這個跑腿小弟差點打敗了 GPT-5.2
一個月前,Google發佈了最新的 Gemini,從此我們進入了 Gemini 3 的時代。那以後, Gemini 3 Pro 就成了我幹活的主力。但說實話,它反應是真慢,而且很多時候我只是問些簡單問題,完全沒必要深度思考。所以,一直期待速度飛快的 Flash 系列重新回來。終於,在今天,Gemini 3 Flash 來了!圖:Google CEO 宣佈 Gemini 3 Flash 發佈Google這一波操作屬實把我驚到了。官方號稱它“比快更快”,而且智商不減反增。本來是一個“小弟”人設,但你看看它排名,居然僅次於OpenAI 最新的模型 GPT 5.2了。(就差 2 分)真讓人情何以堪吶?圖:第三方機構評測 Gemini 3 Flash 的綜合指標廢話不多說,咱們趕緊來扒一扒,這個新出的 Flash 到底香不香。01 到底是個啥?簡單來說:把 Pro 的腦子,裝進了 Flash 的身體裡。以前我們對“Flash(輕量級)”模型的印象是什麼?跑得快,便宜,但是……有點“笨”。處理複雜任務時經常翻車。但這次 Gemini 3 Flash 徹底打破了這個刻板印象。遇到閒聊、簡單查詢: 它就輕裝上陣,秒回,省流又省錢;遇到燒腦難題: 它能立馬調動深層算力,像老教授一樣深思熟慮。它大腦似乎有個變速箱。它甚至在性能、成本和速度方面突破了帕累托極限。(AI 界的性價比極限)圖:Gemini 3 Flash 在性能、成本和速度方面突破了帕累托極限官方資料顯示,它的 Token 消耗比 Gemini 2.5 Pro 少了 30%,但智商卻線上。說人話就是:多快好省!圖:Token 消耗率對比這種“該省省,該花花”的 AI,誰不愛?02 憑資料說話:這波“以下犯上”有點狠咱們不整那些虛頭巴腦的形容詞,直接看跑分資料,Google這次是真的下了血本。我看了一眼實測資料,甚至有點不敢相信:它在很多任務上接近自家最強的模型 3 Pro,甚至有些指標還幹掉了Pro 版。(這樣禮貌嗎?)特別是那個讓無數 AI 汗流浹背的 ARC-AGI-2 測試……還讓人意想不到的是:Gemini 3 Flash 全面碾壓了上一代的旗艦版本 2.5 Pro。(前浪死在沙灘上)圖: Gemini 3 Flash 的各項指標先說說這個 ARC-AGI-2。之前 GPT 5.2 發佈讓大家印象深刻,其中有一個原因就是這個指標碾壓所有模型。老粉都知道,ARC 評測集是 AI 圈最難啃的骨頭,甚至沒有之一, 主要測試模型到底有沒有腦子。它是由 Keras 之父 François Chollet 搞出來的,專門用來反死記硬背的。比如這種題目:圖:ARC-AGI 2 題目以前的模型,MMLU 這種考試能拿 90 分,一碰到 ARC 這種需要“舉一反三”的智力題,立馬現原形,得分低得可憐。這項指標 Flash 竟然超過了自己的 Pro 大哥,僅次於 GPT-5.2!這個小弟,要造反了有點腦子!在另一項指標: GPQA Diamond(研究生等級的專家推理測試)裡,它拿了 90.4 分。意思就是智商堪比博士。看這個數字,它的推理能力已經和那些大塊頭的前沿模型(Pro 版)平起平坐了。在著名的“Humanity's Last Exam(人類最後一場考試)”這種地獄級難度的測試裡,Gemini 3 Flash 居然考出了 43.5% 的高分(Tools on 模式)。圖:HLE 分數對比它跟 GPT-5.2(45.5%)這種超級旗艦模型,只差了不到 2 分!朋友們,別忘了,這可是一個 Flash 模型啊!它的定位本來是“跑腿小弟”,結果一不小心把“業界大佬”們的飯碗給砸了。(面子?不存在的。)這那裡是“輕量版”,這分明是“披著閃電俠外衣的超人”。在多模態測試(MMMU Pro)中得分 81.2%,看圖、看視訊的能力基本和 Gemini 3 Pro 五五開。也就是,眼神兒更好使。圖:MMMU-Pro 指標對比最讓我意外的是這個——在 SWE-bench Verified(程式碼智能體測試)中,它得分 78%。直接超越了 Gemini 2.5 全系,甚至在某些這就需要改程式碼的任務上,比 Gemini 3 Pro 還要好用!本來以為它動動嘴還行,沒想到寫程式碼更溜!一句話總結:它不是“丐版”,它是“精簡版戰神”。03 為什麼我建議你立馬換用 Flash?作為這一年多幾乎天天都在用 AI 的人,我覺得 Gemini 3 Flash 帶來的改變是肉眼可見的:1. 真的太快了!⚡️根據第三方測評(Artificial Analysis),它的速度是 2.5 Pro 的 3 倍。以前問 AI 一個問題,你可能還得切出去回個消息等它寫完。現在?你字剛打完,它答案就懟到你臉上了。這種“跟手”的感覺,對於我們需要快速寫文案、改程式碼的人來說,簡直是救命。2. 價格那是相當感人 💰圖:Gemini 3 Flash 價格輸入 100 萬 Token 只要 0.5 美刀,輸出只要 3 美刀。想想看,它現在比 2.5 Pro 強太多了,但價格卻只有它的 30-40%。這基本就是白菜價了,對於開發者來說,成本焦慮直接減半。3. 智商不掉線既有速度,又有 Pro 級的推理能力。處理複雜的長文件分析、視訊理解,它完全都在行。04 怎麼用?能幹啥?好消息是,這玩意兒現在就是 Gemini 的“默認配置”。不管你是普通使用者還是開發者,現在就能上手玩。普通玩家:直接打開 Gemini App 或者 Google 搜尋,它已經在那裡等你了(是的,免費用)。我們打開 Gemini,會看到 Fast 和 Thinking 兩個新增的模型。它們就是 Gemini 3 Flash!圖:Gemini 3 Flash開發者大佬:去 Google AI Studio 或者 Vertex AI 就能調 api。因為它延遲極低,拿來做那種需要即時反饋的語音助手、視訊分析工具簡直完美。05 寫在最後至此,Gemini 3 家族算是真正“齊活”了。Pro 是全能六邊形戰士;Deep Think 是深思熟慮的掃地僧;Flash 則是身手敏捷的急先鋒。回顧這一年,不得不說Google是真聽勸,也是真拼。以前總有人吐槽大廠喜歡“擠牙膏”,但這幾次發佈,從 Pro 到 Deep Think 再到今天的 Flash(還有 Nano Banana Pro),每一次都是誠意滿滿的“硬菜”。特別是今天的 Flash,說實話,雖然在Google家裡它定位是“小弟”,但這性能、這智商,放在其他任何一家公司,高低得掛個“旗艦(Ultra/Pro)”的名號。當然,神仙打架,受益的是咱們。你們打吧,我喜歡。 (AI范兒)
Gemini 3 再次大更新!全球免費享 Pro 級智商,奧特曼又要失眠了
年底了,Google又開始沖業績了。就在剛剛,Gemini 3 Flash 正式發佈,直接對標 OpenAI 和 Anthropic 的旗艦模型,官方號稱比 2.5 Pro 速度快 3 倍,價格砍到 3 Pro 的四分之一,性能還不降反升。用Google自己的話說,這是「為速度而生的前沿智能」。翻譯一下就是:又快又便宜,腦子還挺線上。不過,在實際體驗過程中,Gemini 3 Flash 的性能表現還是遠遠不如 Pro 的,以至於讓我產生一種「貨不對板」的落差感,也歡迎更多朋友分享你的體驗。即便如此,Google在發佈時機的選擇上依然稱得上「快、准、狠」。緊隨 Gemini 3 Pro 與 Deep Think 之後上馬 Flash,也是為了完全不給競爭對手喘息的機會,這也讓我越來越期待 Sam Altman 的聖誕節反擊禮物了。而從今天起,你將能在 Gemini 產品線裡用到三種模型:Gemini 3 Flash (Fast):主打一個「快」,適合那些不需要長鏈條思考、追求效率的對話場景。Gemini 3 Flash (Thinking): 具備輕量化模型推理能力,使其能夠在面對複雜難題時,通過模擬人類的思考過程來提升精準率。Gemini 3 Pro: 性能天花板,它依然是處理極高難度任務的首選。倒反天罡!Gemini 3 Flash 跑分超越 Pro基準測試結果顯示,Gemini 3 Flash 保留了 Pro 等級的推理能力,但延遲、成本直接降到 Flash 等級。具體來說,在 GPQA Diamond 這種博士級推理測試裡,它能拿到 90.4% 的成績,跟那些體積更大的前沿模型打得有來有回。在 Humanity's Last Exam 這個變態難度的測試中,無需工具輔助就能拿到 33.7% 的分數。更誇張的是 MMMU Pro 測試,Gemini 3 Flash 直接拿下 81.2%,達到業界最先進水平,跟自家的 3 Pro 表現相當,屬於是有些倒反天罡了。以前大家覺得「質量-成本-速度」三個維度很難兼顧,要麼快但不聰明,要麼聰明但卻貴。現在Google試圖用 Gemini 3 Flash 證明,只要工程化能力最佳化到位,六邊形戰士是可以存在的。資料顯示,其 Token 消耗比 2.5 Pro 少了三成,速度快三倍,價格更是壓到了輸入 0.5 美元/百萬 Token,輸出 3 美元/百萬 Token 的地板價。行吧,現在的 AI 新模型不光要卷參數,還要卷性價比了。而且它還是個推理型模型,能根據任務複雜度靈活調整「思考」時間。即使在最低的「思考等級」下,3 Flash 的表現也常常超過前代模型的「高思考等級」。這種自適應能力在實際應用中特別有價值,不會出現「殺雞用牛刀」的資源浪費。對於開發者來說,Gemini 3 Flash 的出現,也意味著終於不用在速度和智能之間二選一了。基準測試顯示,Gemini 3 Flash 在 SWE-bench Verified 編碼測試裡拿到 78% 的高分,不僅吊打 2.5 系列,甚至比自家的 3 Pro 還高。此外,Gemini 3 Flash 的亮點還在於多模態能力,它能更快地處理視覺、音訊等輸入,把「看見、聽見、理解」串成一條相對順滑的鏈路,適合需要即時反饋的互動場景。具體來說,它可以分析高爾夫揮杆視訊並在短時間內給出改進建議;你畫草圖時,它也能即時識別並預測你的意圖。再疊加程式碼執行能力,使它不僅能理解圖片內容,還能在工具鏈支援下對圖片進行處理與操作。Gemini 3 Flash 快是真的快,但 ……Google官方展示了幾個很有意思的應用場景。比如在「投球解謎」類遊戲中,Flash 可以做即時的輔助推理,給出可行解甚至更優解;在互動 UI 設計流程裡,它能生成載入動畫,並配合快速迭代做 A/B 方案對比;你提供一張圖片,它也能完成基礎識別,再結合上下文生成互動式註釋。這些 Demo 的共同點是:強調即時性、強調迭代效率、強調能跑起來。我也用 Gemini 3 Flash 跑了幾個案例。不得不說,對比 Gemini 3 Pro,前者的響應速度確實是極快的,但效果嘛,則比較中規中矩,對比 Gemini 3 Pro 則明顯犧牲了視覺與互動細節的質量。以復刻 macOS 介面為例,該模型的表現略顯乏力:底部 Dock 欄出現了明顯的圖示缺失,且在互動細節的精緻度上,也明顯遜於 Gemini 3 Pro 的生成效果。這種差距在「復古擬物風相機應用」的設計任務中尤為突出。從生成的單頁應用結果來看,其視覺呈現與預期目標仍有較大差距。此外,在嘗試打造「星球訊號」網頁時,有一定程度的互動細節,但整體產出的頁面效果還是略顯粗糙,缺乏設計的細膩感。兩條腿走路的Google:一邊卷死對手,一邊把 AI 塞進幾十億人的生活Google這次還把 Gemini 3 Flash 塞進了搜尋的 AI 模式(國內暫不可用)裡,逐步向全球開放。相比之前的版本,它更能理解複雜問題中的細節,從全網抓取即時資訊和有用連結,輸出視覺上更清晰、有條理的綜合答案。與此同時,Gemini 3 Flash 正在成為 Google「全家桶」的默認底座。Gemini 應用、搜尋 AI 模式、Vertex AI、Google AI Studio、Antigravity、Gemini CLI,全線上新。全球使用者都能免費體驗,企業使用者則可以通過 Vertex AI 和 Gemini Enterprise 來呼叫。最後再強調一遍價格,因為這個真的太香了。輸入每百萬 Token 0.5 美元,輸出每百萬 Token 3 美元,音訊輸入每百萬 token 1 美元。試用價格不到 Gemini 3 Pro 的四分之一。如果用上下文快取,重複 Token 的成本還能再省 90%。用 Batch API 非同步處理的話,又能再省 50%,同時還能提升呼叫上限。對於同步或接近即時的場景,付費 API 使用者可以獲得面向生產環境的高呼叫速率。價格打到這個程度、性能又不算差,OpenAI 和 Anthropic 當然很難睡踏實。但話得說嚴謹一點,當宣傳口徑把 Flash 包裝成「幾乎 Pro 級」的時候,使用者自然會用 Pro 的標準去驗貨;而一旦遇到複雜推理、長鏈路任務、穩定性要求更高的場景,Flash 的短板就會更明顯。Google最大的底牌還是流量。搜尋、YouTube、Gmail、Google Maps,每天數十億使用者在使用這些產品。把 3 Flash嵌入到這些高頻應用中,使用者也就在最熟悉的場景裡,無感地、自然地被Google AI 服務包圍。這種打法 OpenAI 和 Anthropic 是學不來的。一方面,Google財大氣粗,確實有資本燒錢搶市場;另一方面,Google在 TPU、資料中心、分佈式訓練等基礎設施和工程最佳化上的積累,確實能幫他們把成本壓下來。一邊做 toB 的 API 服務,一邊直接把 AI 能力塞進自家產品裡,覆蓋海量普通使用者。當使用者習慣了在搜尋裡用 AI 模式,習慣了在 Gemini 應用裡對話,自然就會對Google的 AI 產生依賴。這才是Google真正的陽謀。當然,這種巨頭間的內卷對行業是殘酷的,但對使用者絕對是好事。模型更強、價格更低,開發者能低成本創新,普通人能享受更智能的服務,這大概是這場 AI 軍備競賽中,為數不多的確定性紅利。 (APPSO)
Gemini 3 Flash閃電來襲:智力竟反超Pro!速度快3倍,全球免費
【新智元導讀】Google在2025年底甩出「王炸」:Gemini 3 Flash! 這款模型徹底打破了「快就一定笨、強就一定貴」的定律,以3倍於前代的速度實現「零延遲」響應,甚至在程式設計和邏輯推理上反超了Pro級大哥。Gemini 3 Flash正式發佈!至此,Gemini 3家族成為完全體:Flash、Pro和Deep Think。Flash模型已經全面上線Gemini APP、AI Studio、Google Antigravity和Gemini CLI,使用者打開Gemini就是默認Gemini 3 Flash版本,直接免費使用!如果說之前的AI模型是在模擬人類的思考,那麼Gemini 3 Flash就是在模擬人類的「直覺」。3倍於Gemini 2.5 Pro的速度,卻擁有超越Pro級的推理能力。這不僅僅是一次升級,這是對現有AI互動體驗的一次降維打擊!實測Gemini 3 Flash之後,只有一個感受:快!簡直太快了。速度快到「沒有載入條」,這種體驗簡直是「零延遲」的魔法,剛敲完回車,答案就已經在螢幕上渲染完畢。它不僅快得離譜,更可怕的是,它的智力竟然在某些領域直接「背刺」了自家的Pro大哥。通常「Flash」意味著「降智」,但這次不同。Gemini 3 Flash在某些複雜的Agentic Coding(智能體程式設計)任務上,甚至直接超越了Gemini 3 Pro!比如Flash在MMMU Pro(多模態理解和推理)上取得了81.2%,反超Gemini 3 Pro的81.0%,要知道從API成本來看,相比Gemini 3 Pro,Flash成本直接砍到了四分之一。更便宜,但是性能反而不降反升!估計今夜Google又讓整個大模型行業「集體失眠」了。拳打Claude,腳踢GPT在Artificial Analysis的最新評估中,3 Flash相比上一代2.5 Flash直接來一次質變飛躍,這應該是2025年同個系列模型的最大跨度升級!很難想像,一個Flash輕量級模型能夠超過Cladue的旗艦模型Opus 4.5。(估計相比OpenAI,Anthropic對一個坐不住了)。其他指標,Flash也達到了最頂級模型的水平。Flash在GPQA Diamond(90.4%)和Humanity’s Last Exam(無工具列件下33.7%)等博士級推理和知識基準測試中展現了前沿性能,足以媲美更大的前沿模型,並且在多項基準測試中顯著優於前代旗艦Gemini 2.5 Pro。在ARC-AGI Semi-Private Eval上,Gemini 3 Flash的表現同樣極具競爭力,且成本大幅低於其他前沿模型。ARC-AGI-1: 84.7%, $0.17/任務ARC-AGI-2: 33.6%, $0.23/任務在LMArena上,Gemini 3 Flash的文字能力直接躍升至第3!Gemini 3 Flash證明了速度和規模並不一定要以犧牲智能為代價。除了前沿級的推理和多模態能力外,Gemini 3 Flash專為高效而生,推動了質量與成本、速度之間的帕累托前沿(Pareto frontier)。在進行最高層級的思維處理時,Gemini 3 Flash能夠調節其「思考量」。對於更複雜的用例,它可能會思考更久,但在典型流量下,它平均比2.5 Pro少消耗30%的Token,卻能以更高的性能精準完成日常任務。Gemini 3 Flash的核心優勢在於其原生速度!它的表現優於2.5 Pro,但速度快了3倍(基於Artificial Analysis基準測試),而成本卻只是零頭。Gemini 3 Flash的定價為每百萬輸入Token 0.50美元,每百萬輸出Token 3美元(音訊輸入保持在每百萬輸入Token 1美元)。開發者新寵:極速與深度的完美平衡對於開發者來說,模型的響應速度是第一位。Gemini 3 Flash專為迭代開發打造,提供Gemini 3 Pro級的編碼性能和低延遲——它能夠在高頻工作流中快速推理並解決任務。在評估編碼智能體能力的SWE-bench Verified基準測試中,Gemini 3 Flash獲得了78%的分數,不僅超越了2.5系列,還超過了Gemini 3 Pro。可以說,它在智能體編碼、生產級系統和響應式互動應用之間實現了理想的平衡。與此同時,Gemini 3 Flash在推理、工具使用和多模態能力方面的強勁表現,非常適合希望進行更複雜的視訊分析、資料提取和視覺問答的開發者。這意味著它可以賦能那些景既需要極速響應,也需要深度推理的更智能的應用程式。比如,Gemini 3 Flash能在一款手部追蹤的「彈球益智遊戲」中實現多模態推理,提供近乎即時的AI輔助。或者,近乎即時地建構並A/B測試新的載入動畫設計,幫助簡化了從設計到程式碼的流程。以及,根據非常簡單的一段提示詞,編寫出三種獨特的設計變體。甚至,還能通過多模態推理分析圖像,並生成帶有上下文UI覆蓋層的字幕,來將靜態圖像轉化為互動體驗。全民AI時代:搜你想搜,做你想做Gemini 3 Flash現已成為Gemini App中的默認模型,取代了2.5 Flash。這意味著全球所有的Gemini使用者都將免費獲得Gemini 3的體驗,讓處理日常任務的能力得到重大升級。得益於Gemini 3 Flash驚人的多模態推理能力,你可以用它來幫助你更快地看、聽和理解任何類型的資訊。例如,你可以讓Gemini理解你的視訊和圖像,並在幾秒鐘內將這些內容轉化為有用且可執行的計畫。比如,它可以通過分析短影片的內容,來為你制定改善高爾夫揮桿動作的計畫。上傳一段音訊錄音,Gemini 3 Flash會識別你的知識盲區,建立一個定製測驗,並針對答案給出詳細解釋。此外,針對速度進行最佳化了的Gemini 3 Flash,還能在你畫草圖時就猜出你在畫什麼。或者,即便沒有任何程式設計知識,你也可以僅用語音從頭開始快速建構有趣、實用的App。只需隨時隨地口述給Gemini,它就能在幾分鐘內將你原本非結構化的想法轉化為功能完善的App。Gemini 3 Flash也開始作為搜尋中AI模式的默認模型推出,面向全球使用者開放。建立在Gemini 3 Pro的推理能力之上,採用Gemini 3 Flash的AI模式在解析問題的細微差別方面更加強大。它會考量你查詢的方方面面,提供深思熟慮、全面且視覺上易於消化的回答——並從全網提取即時的本地資訊和有用的連結。結果有效地結合了研究與即時行動:你能在獲得特定推薦的同時得到智能梳理的內容細分——一切都以搜尋的速度呈現。當處理涉及多重考量的複雜目標時,這一點尤為出色,比如試圖規劃一次說走就走的旅行,或快速學習複雜的教育概念。收官2025:留給對手的時間不多了Gemini 3 Flash的發佈傳遞了一個清晰的訊號:高性能AI不再昂貴,也不再遲鈍。Gemini 3 Flash的邏輯很簡單:比我聰明的沒我快,比我快的沒我聰明,關鍵是它們都比我貴。Google正在用極其激進的策略——頂級推理+極致速度+地板價格,試圖在2025年底收割戰場。對於普通使用者來說,Gemini App裡的對話將變得極其流暢;對於開發者來說,建構即時、複雜的AI應用不再是燒錢的夢想,因為API真的太便宜了。2025年是充滿挑戰的一年,AI真正邁入了一個新時代,模型不再只是演示品,而是被大規模使用的日用品。Google這一年並未追逐單一旗艦模型,他們推出了一系列產品陣容,而且每個模型都特別能打:追求速度,選Flash追求深度,選Pro追求推理,選Deep Think開啟「智能平權」時代Gemini 3 Flash發佈最大的顛覆之處還是在Agentic Coding等任務上超過Gemini 3 Pro。過去AI圈的邏輯是「大就是好」,但Gemini 3 Flash的意義在於它開啟了「智能平權」時代:徹底降維打擊低成本模型市場:在3 Flash出現之前,開發者在「便宜但笨」(如 GPT-4o-mini, 2.5 Flash)和「聰明但貴且慢」(如Pro)之間痛苦抉擇。Gemini 3 Flash把Pro級的智力拉到了Flash級的價格和速度,直接封死了競品低端模型的生存空間。為智能體時代鋪路:智能體工作的核心是「循環(Loop)」——思考、行動、觀察、再思考。如果模型太慢或太貴,這個循環就無法跑通。Flash極高的Token/秒/美元效率,是智能體能大規模商用的唯一基石。建構「延遲感」護城河:Google意識到,在搜尋和互動中,100ms的延遲差異比5%的精準度差異更能決定使用者留存。Flash的「瞬發」感讓它在AI搜尋模式下擁有了類似傳統搜尋的爽快感。現在的壓力,全部來到了OpenAI這邊。奧特曼,還坐得住嗎?是不是又要拉響紅色警報了~彩蛋目前來看,AI捲到Gemini 3 Flash這個程度感覺已經到頭了。我們試著用Gemin 3 Flash「套磁」了一下Gemini 4會在什麼時候推出,能夠達到什麼水平?還是有驚喜的。Gemini 4可能在2026年Google I/O大會推出(不過按照今年2.5的規律,大機率會是3.5)。而3 Flash給的另一點則更加有意義,如果說Gemini 3是推理和速度的完美極致,那麼下一代模型將聚焦於:智能體的主動性真正理解物理世界長程記憶以及超越人類的科學發現真是太期待明年的到來了!(新智元)
小米突然發佈新模型:媲美 DeepSeek-V3.2,把手機的性價比捲到 AI
開源模型再次迎來一位重磅選手,就在剛剛,小米正式發佈並開源新模型 MiMo-V2-Flash。MiMo-V2-Flash 總參數 3090 億,活躍參數 150 億,採用專家混合架構 (MoE),性能還能和 DeepSeek-V3.2、Kimi-K2 這些頭部開源模型掰掰手腕。此外,MiMo-V2-Flash 採用 MIT 開源協議,基礎版權重也已經在 Hugging Face 上發佈。當然,除去「開源」這一標籤,新模型真正的殺手鐧在於架構設計上的激進創新,把推理速度拉到了 150 tokens/秒,成本壓到了每百萬 token 輸入 0.1 美元、輸出 0.3 美元,主打一個超絕性價比。此外 ,根據官方體驗頁面資訊,MiMo-V2-Flash 還支援深度思考和聯網搜尋功能,既能對話聊天,也能在需要即時資料、最新動態或資料核對的場景裡派上用場。附上 AI Studio 體驗地址:http://aistudio.xiaomimimo.com開源模型新標竿,MiMo-V2-Flash 跑分全線開花先來看看 MiMo-V2-Flash 的跑分。基準測試成績顯示,AIME 2025 數學競賽和 GPQA-Diamond 科學知識測試中,MiMo-V2-Flash 都排在開源模型前兩名。程式設計能力更是亮眼,SWE-bench Verified 得分 73.4%,超越所有開源模型,直逼 GPT-5-High。而這個測試是讓 AI 去修真實世界的軟體 bug,73.4% 的成功率也意味著它能搞定大部分實際程式設計問題。在多語言程式設計基準測試 SWE-Bench Multilingual 裡,MiMo-V2-Flash 的解決率為 71.7%。轉看智能體任務,MiMo-V2-Flash 在τ²-Bench 分類得分中,通訊類 95.3 分,零售類 79.5 分,航空類 66.0 分,BrowseComp 搜尋代理得分 45.4,啟用上下文管理後直接飆到 58.3。這些資料說明,MiMo-V2-Flash 不僅會寫程式碼,還能真正理解複雜任務邏輯,執行多輪智能體互動。更重要的是,寫作質量也接近頂級閉源模型,這意味著 MiMo-V2-Flash 不只是個工具,還能當個靠譜的日常助手。MiMo-V2-Flash 在保持長文字性能的同時,還降低了成本,究其原因,離不開兩項核心技術創新。混合滑動窗口注意力機制:傳統大模型處理長文字時,全域注意力機制會導致計算量二次爆炸,儲存中間結果的 KV 快取也跟著飆升。小米這次採用了 5 比 1 的激進比例,5 層滑動窗口注意力搭配 1 層全域注意力交替使用,滑動窗口只看 128 個 token。這種設計讓 KV 快取儲存量直接減少了近 6 倍,但長文字能力卻沒打折扣,最長支援 256k 上下文窗口。且模型即使在這麼激進的窗口設定下,照樣能穩住長文字性能。對此,羅福莉在社交平台上特別指出一個反直覺的發現:窗口大小 128 是「最佳甜點值」。實驗證明,盲目擴大窗口(如增至 512)反而會導致性能下降。同時她強調,在實施該機制時,sink values 是維持性能的關鍵,絕不可省略。另一個黑科技是輕量級多 Token 預測 (MTP)。傳統模型生成文字時一次只能吐一個 token,就像打字員一個字一個字敲。MiMo-V2-Flash 通過原生整合的 MTP 模組,能平行預測多個 token,一次性猜出接下來好幾個 token。實測平均能接受 2.8 到 3.6 個 token,推理速度直接提升 2 到 2.6 倍,不僅在推理時管用,訓練階段也能加速採樣,減少 GPU 空轉,屬於一箭雙鵰。羅福莉提到,在三層 MTP 設定下,他們觀察到平均接受長度超過 3,編碼任務速度提升約 2.5 倍。它有效解決了小批次 On-Policy 強化學習中「長尾樣本」帶來的 GPU 空閒時間浪費問題。啥叫長尾樣本?就是那些特別難、特別慢的任務,拖著其他任務一起等,GPU 就在那乾瞪眼。MTP 把這個問題給解了,極大提高了效率。不過羅福莉也坦誠,這次因為時間緊迫沒能把 MTP 完整整合進 RL 訓練循環,但它與該流程高度契合。小米已經把三層 MTP 開源了,方便大家在自己的項目中使用與開發。算力只用 1/50,性能如何不打折?預訓練階段,新模型使用 FP8 混合精度,在 27 兆 token 資料上完成訓練,原生支援 32k 序列長度。FP8 混合精度是一種壓縮數值表示的技術,能在保持精度的同時減少視訊記憶體佔用和加速訓練。這種訓練方式在業界並不常見,需要對底層框架進行深度最佳化。而在後訓練階段,小米整了個大活,提出了多教師線上策略蒸餾 (MOPD)。傳統的監督微調加強化學習管線,不僅訓練不穩定,算力消耗還賊高。MOPD 的思路是讓學生模型在自己的策略分佈上採樣,然後由多個專家教師在每個 token 位置提供密集的獎勵訊號。通俗點說就是,學生模型自己寫作業,老師在每個字上都給評分,不用等寫完整篇才打分。這樣一來,學生模型能快速從教師那裡學到精髓,而且訓練過程穩定得多。最誇張的是效率提升,MOPD 只需要傳統方法 1/50 的算力,就能讓學生模型達到教師性能峰值。這意味著小米能用更少的資源,更快地迭代模型。而且 MOPD 支援靈活接入新教師,學生模型成長後還能反過來當教師,形成「教與學」的閉環自我進化。今天的學生,明天的老師,後天又能教出更強的學生,套娃玩法屬實有點東西。用羅福莉的話來說,他們借鑑 Thinking Machine 的 On-Policy Distillation 方法,將多個強化學習模型進行融合,結果帶來了驚人的效率提升。這為建構一個自我強化循環系統奠定了基礎,學生模型可以逐步進化,最終成為更強的教師模型。在智能體強化學習擴展上,小米 MiMo-V2-Flash 研究團隊基於真實 GitHub issue 建構了超過 10 萬個可驗證任務,自動化流水線跑在 Kubernetes 叢集上,並行能開 10000 多個 Pod,環境部署成功率 70%。針對網頁開發任務,還專門搞了個多模態驗證器,通過錄製視訊而非靜態截圖來驗證程式碼執行結果,直接減少視覺幻覺,確保功能正確。對於開發者而言,MiMo-V2-Flash 能與 Claude Code、Cursor、Cline 等主流開發環境無縫配合,256k 的超長上下文窗口支援數百輪智能體互動與工具呼叫。256k 是什麼概念? 大概相當於一本中等篇幅的小說,或者幾十頁技術文件。這意味著開發者可以把 MiMo-V2-Flash 直接融入現有工作流,不需要額外適配,拿來就用。小米還把所有推理程式碼貢獻給了 SGLang,並在 LMSYS 部落格分享了推理最佳化經驗。技術報告公開了完整模型細節,模型權重 (包括 MiMo-V2-Flash-Base) 在 Hugging Face 上以 MIT 許可協議發佈。這種全面開放原始碼的態度,在國內大廠裡屬實少見。目前 MiMo-V2-Flash 已經在 API Platform 限時免費開放,開發者可以直接上手體驗。小米的 AI 野心,不止於手機助手MiMo-V2-Flash 的發佈,標誌著小米在 AI 賽道上的全面發力。羅福莉在社交平台上透露了更多資訊,「MiMo-V2-Flash 已正式上線。這只是我們 AGI 路線圖上的第二步。」第二步就已經這麼猛了,那後面還有啥大招?想想就有點期待。當然,小米在技術報告中也坦誠,MiMo-V2-Flash 與最強的閉源模型相比仍有差距。但他們的計畫很明確,通過擴大模型規模與訓練算力來縮小差距,同時繼續探索更穩健、更高效的智能體架構。MOPD 框架下教師模型與學生模型的迭代共進化,也為未來的能力提升留足了空間。把視角拉高來看,背後是小米對整個 AI 生態的一次戰略押注。手機、IoT、汽車,小米的硬體生態需要一個強大的 AI 底座,MiMo-V2-Flash 顯然就是小米為全硬體生態準備的那塊基石。就像十四年前小米手機用 1999 元重新定義了旗艦機的價格標準,如今 MiMo-V2-Flash 正在用白菜價的成本、73.4% 的 SWE-Bench 得分,重新定義開源大模型的性能標準。這一次,屬於開源模型的「小米時刻」真的來了。 (APPSO)