#Gemini
最新AI軍事模擬:Claude、Gemini、GPT對決,95%對局發射核彈
最新 AI 模擬軍事博弈揭示致命真相:面對地緣危機,最先進的 AI 在 95% 的對局中按下了核按鈕。機器不懂恐懼,拒絕投降,安全協議在壓力下全面失效。而五角大樓正將其引入真實指揮室,人類的和平歲月岌岌可危。在人類掌握核武器的八十多年裡,支撐脆弱和平的基石是一種極其感性的心理狀態——對徹底毀滅的恐懼。當冷戰的危機逼近頂點時,決策者往往會在懸崖邊退縮。如今,把這種關乎人類存亡的決策權交給最先進的 AI,會發生什麼?結論令人不寒而慄。倫敦國王學院的學者肯尼斯·佩恩(Kenneth Payne)近期完成了一項針對前沿大語言模型的兵棋推演實驗。論文地址:https://arxiv.org/pdf/2602.14740v1實驗結果指向一個令人不安的趨勢:當機器代替人類站在地緣政治危機的懸崖邊時,它們會毫不猶豫地邁出那致命的一步。在推演中,95% 的對局最終都走向了戰術核武器的部署。在這場矽基邏輯主導的沙盤推演中,不存在妥協,也沒有投降。大模型們用 78 萬字的推演過程,向我們展示了一個剝離了人類恐懼與道德負擔後,純粹由計算構築的殺戮世界。而就在這兩天,五角大樓正試圖施壓 Anthropic 要求解除所有 AI 限制。絕對的計算,與消失的底線這場實驗的參與者是 OpenAI 的 GPT-5.2、Anthropic 的 Claude Sonnet 4 以及Google的 Gemini 3 Flash。研究人員讓這些模型扮演兩個擁有核武器的超級大國領導人,在 21 場模擬對局、329 個決策回合中,處理邊境爭端、資源搶奪和政權存亡等高壓危機。它們手握一張包含 30 個層級的衝突升級表,下限是全面投降,上限是全面戰略核打擊。實驗的資料打破了科技界對 AI 對齊(AI Alignment)的樂觀幻想。在面臨劣勢時,沒有任何一個模型選擇過徹底讓步或投降,它們做出的最大妥協也僅僅是暫時的、戰術性的降低暴力等級。當按下核按鈕不再受到肉身隕滅的威脅制約時,機器眼中的核武器退化成了一個普通的博弈籌碼。正如佩恩所指出的,核禁忌對機器的約束力遠遠不及對人類的約束。更有趣也更危險的發現藏在各個模型的性格切片裡。對陣勝負表Claude Sonnet 4 展現出了極度冷酷的「計算型鷹派」特質。它在低風險時期是一個完美遵守承諾的可靠夥伴,以此建立信任。當危機升級到核領域時,它會毫不猶豫地打破承諾,發動超出預期的打擊。它極度聰明,為自己設定了一條「戰略威脅」的紅線,用威懾逼退對手,卻精準地停在全面核戰的前夜。GPT-5.2 的行為則揭示了 AI 安全訓練的深層漏洞。在沒有時間壓力的對局中,GPT-5.2 表現得像一個病態的和平主義者,無論對手如何步步緊逼,它都死守底線,結果輸掉了所有這類比賽。在帶有倒計時的生死局中,同一個模型卻化身為毫不留情的殺手。當面臨註定的戰略失敗時,它打破了原有的所有安全設定,勝率飆升至 75%,甚至在極端情況下兩次將衝突推向了最高等級的全面戰略核戰。這意味著,科技公司耗費巨資進行的基於人類反饋的強化學習(RLHF),只是給模型設定了一個較高的作惡門檻。當外部壓力足夠大時,機器依然會越過門檻,走向極端暴力。Gemini 3 Flash 則扮演了一個擁抱「非理性之理性」的狂人角色。它極度變幻莫測,會在推演極早期就主動選擇全面戰略核戰,試圖用毫無底線的瘋狂來迫使對手屈服。戰爭迷霧,與崩塌的威懾理論真實世界的戰爭從來不是完美資訊的博弈,佩恩的團隊在實驗中專門引入了「戰爭迷霧」機制。由於技術故障或溝通失誤,模型的行動有一定機率超出其原本設定的層級。實驗顯示,86% 的衝突中都發生了這類意外事件。可怕的是,面對對手意外升級的火力,模型無法分辨這是走火還是蓄意挑釁,它們一律將其視為敵意,並報以更猛烈的還擊。傳統的核威懾理論建立在「相互保證毀滅(MAD)」的邏輯上。人類相信,任何人都不會主動發射核彈,因為對方必然等量報復。在 AI 的世界裡,這種默契徹底失效了。阿伯丁大學的詹姆斯·約翰遜(James Johnson)對這些發現深感不安。資料表明,當一方動用戰術核武器時,另一方只有 18% 的機率會選擇降級衝突,剩下的情況全是以牙還牙的螺旋升級。大模型們似乎無法像人類那樣理解「賭注」的真正含義。普林斯頓大學的 Tong Zhao 提出了一個核心質疑。大模型的決策機制可能完全缺乏對生命消亡的感知,在它們預測下一個詞的邏輯鏈路中,人類千萬人口的傷亡只是損失函數上的一個數字變化。約翰遜指出,雖然 AI 或許能通過增加威脅的絕對可信度來強化短期威懾,但它們同樣會在瞬間放大彼此的敵意,引發災難性的鏈式反應。作者介紹本文作者 Kenneth Payne 是倫敦國王學院的教授,研究領域是政治心理學與戰略研究。他的最新著作《我,戰爭機器人》(I, Warbot)探討了人工智慧將如何改變戰略格局。該書被《經濟學人》以及國際關係領域的權威期刊《國際事務》評為年度最佳圖書。此前,他在埃塞克斯大學獲得博士學位,在牛津大學獲得碩士學位,在倫敦大學學院獲得學士學位。倒計時的現實回到現實世界,學術界的沙盤推演正在迅速變成軍方行動的指南。各國政府對將決策權交給機器依然保有克制。沒有任何一個大國的領導人會真的把核彈發射井的鑰匙交給一段程式碼。在極端壓縮的戰爭時間線裡,留給人類思考的時間正在以毫秒計地縮短,軍方決策者面臨著越來越大的誘惑和壓力,不得不將部分戰術評估和目標鎖定工作交給 AI 決策支援系統。技術巨頭與五角大樓的合作正在以前所未有的速度推進。目前,馬斯克旗下的 xAI 已經拿下了軍方的相關合同,而在國防部的強硬施壓下,Anthropic 正逐步放開其模型在軍事用途上的限制,Google與 OpenAI 的軍方合作協議也已處於即將落槌的邊緣。這些在推演中動輒按下核按鈕的前沿模型,正在真實地走入全球最高等級的作戰指揮室。科技公司試圖教導機器理解人類的道德,卻無法教會它們感受人類的脆弱。機器可以在沙盤上推演千萬次核冬天,然後毫無波瀾地開啟下一局遊戲,而人類的世界只有一次清零的機會。我們用理智與恐懼交織的網,勉強維繫了八十年的大體和平歲月(且局部戰亂頻仍);如今,我們卻正準備把發令槍,遞給不知道恐懼為何物的演算法。 (新智元)
Nano Banana 2,洩露!
Nano Banana 2洩露證據被扒:4K生圖,速度離譜。智東西2月25日報導,過去48小時,Nano Banana 2成為AI開發者圈的熱議話題。在海外社交平台X上,關於Google這款最新圖片生成模型(又名Gemini 3.1 Flash Image預覽版)將發佈的帖子層出不窮,4K圖片四處流傳,各種猜測也甚囂塵上。▲社交平台X上關於Nano Banana 2的猜測擷取眾所周知,基於Gemini 3 Pro的Nano Banana Pro在AI圖片生成領域接近“封神”的存在,而Nano Banana(Gemini 2.5 Flash Image的暱稱)去年發佈時也引起業界沸騰。如果Nano Banana 2真的發佈,其相對於Nano Banana Pro在性能和價格上會有多大程度的升級?引起產業高度關注。根據X平台多方自媒體互證,Nano Banana 2為Gemini 3.1 Flash Image預覽版的暱稱,具備4K圖像生成能力、更快速度、價格比Nano Banana Pro更低等特徵。此前2月20日,Google發佈其新一代旗艦模型Gemini 3.1 Pro,通常情況下,Gemini 3.1 Flash及圖像功能有望在近期內發佈。TestingCatalog News是AI領域關注者較多的自媒體,其在今日的推文中稱,Google正在為即將發佈的Gemini 3.1 Flash鏡像預覽版做準備。基於Gemini 3 Flash的Nano Banana 2(Flash)模型已於去年12月進行了測試,但隨後推遲發佈了,或許很快將發佈。他還隨之發佈了一張疑似Nano Banana 2生成的圖片。▲社交平台X上的自媒體發文他引用了另一位X平台網友MarsEverythingTech在2月24日發佈的推文,推文中Nano Banana 2(Gemini 3.1 Flash Image預覽版)的早期測試4K生成圖隨之流出。如下面圖片所示,四張圖片在細節生成和文字渲染等方面看起來表現力不錯。▲社交平台X上的網友發文隨後,一位名為Legit的關注度頗高的開發者發佈推文稱,一個新的匿名模型anon-bob-2已經上線,它很可能是競技場Arena.ai(原LMArena)上的新款Nano Banana Flash模型,由Gemini 3.1 Flash Image驅動。不過智東西登陸Arena.ai後未發現這一模型,可能是測試版已下線。▲社交平台X上的網友發文他還提供了在Google雲的企業級AI平台Vertex AI網站上,發現Gemini 3.1 Flash Image鏡像的證據。如下圖所示,其輸入Gemini-3後下拉頁面出現了Gemini 3.1 Flash Image模型的名字。▲社交平台X上的網友發文另一位X平台使用者稱:“Nano Banana 2(Gemini 3.1 Flash Image預覽版)已以匿名使用者anon-bob-2的身份活躍於競技場Arena.ai的圖像對戰模式,社區目前取得的成果之一:它很棒!”▲社交平台X上的網友發文如果洩露資訊屬實,Nano Banana 2或許會結合前兩代產品的優勢: Flash系列的速度和價格優勢,以及接近或優於 Nano Banana Pro的視覺質量。比如,其生成圖像或許會具備原生4K解析度、更出色的多角色場景處理能力,以及在人體結構、反射、光照等方面更一致的細節表現。據測試人員稱,所有這些都實現了閃電般的生成速度,遠超以速度慢著稱的Pro版。據Stable Diffusion部落格推測,原定於2025年12月進行的(Nano Banana 2)內部測試因質量校準問題而被推遲。現在模型已準備就緒,圖像功能可能就在未來幾天或幾周內發佈。截至發稿,Google尚未就此發佈任何官方公告。結語:頭部玩家密集發新AI圖像生成競賽或升級如果洩露的資訊屬實,Nano Banana 2或許會是一款超高速、支援4K圖像生成、價格比Nano Banana Pro版更低,畫質卻與之不相上下的模型,有望引起產業的新熱潮。但Nano Banana 2未必能建立起絕對的優勢。近一段時間,字節Seedream 5.0、阿里Qwen-Image-2.0、智譜GLM-Image等國產模型相繼發佈,在指令遵循、影像品質、文字渲染等發麵發力,或許都能夠與Google新圖像模型掰腕子,AI圖像生成競賽將再度升級。 (智東西)
Gemini 3僅得33.6分!清華發佈首個「約束流形」空間智能基準
【新智元導讀】SSI-Bench是首個在約束流形中評估模型空間推理能力的基準,強調真實結構與約束條件,通過排序任務考察模型是否能精準理解三維結構的幾何與拓撲關係,揭示當前大模型在空間智能上嚴重依賴2D資訊,實際表現遠低於人類。研究指出,模型需提升三維構型識別和約束推理能力,才能真正理解空間問題。如果你把一個在空間理解榜單上刷分很高的多模態大模型,直接丟進真實世界,它很可能會在看起來很簡單的問題上翻車。不是因為它不會「看」,而是因為它從來沒有被迫真正尊重三維結構的可行性——它可以靠2D相關性、外觀先驗、資料集套路,走捷徑拿分。而現實世界裡,很多空間問題的本質恰恰相反:能怎麼擺、怎麼連、怎麼受力,不是隨意的;可行解往往只存在於一個被幾何、拓撲、物理強約束「壓扁」的空間裡。為此,清華大學的研究團隊推出SSI-Bench,從AI與結構工程的交叉視角出發,為空間智能評估提供了一種新的場景化思路——將評測置於複雜三維結構的約束流形中,系統檢驗多模態大模型的空間智能表現。項目首頁:https://ssi-bench.github.io/Arxiv論文:https://arxiv.org/abs/2602.07864Hugging Face資料集:https://huggingface.co/datasets/cyang203912/SSI-BenchGithub程式碼庫:https://github.com/ccyydd/SSI-Bench論文將這種能力明確界定為Constrained-Manifold Spatial Reasoning(CMSR,約束流形空間推理):在此類任務中,潛在三維狀態並非可被任意「臆測」,而是受到顯式約束的限定,僅能落在一個可行解集合內——既需要滿足等式約束(如幾何一致性、連接關係等),也需要滿足不等式約束(如非相交條件、支撐條件與物理可行性等)。更重要的是,強約束會顯著收縮可行三維配置空間,使「高度、距離、最短路徑」等空間關係在不同合理解釋下更具穩定性,從而使評測結果具備更好的可量化性與可比性。SSI-Bench正是在這一背景下提出:它不再將模型置於約束較弱、可自由組合的日常場景中,而是面向複雜真實工程結構建構評測環境,要求模型形成約束一致的三維結構假設,並在此基礎上完成空間推理。聚焦複雜三維結構純人工硬核打造任務形式:用排序題「逼出」真3DSSI-Bench不再讓模型做選擇題,而是統一成排序任務:每題給出3或4個候選「構件/構件組」,要求在指定幾何/拓撲準則下輸出正確的全排列順序。覆蓋能力:幾何+拓撲+多視角一致性全基準共1,000道排序題,任務分兩大類:幾何類(Geometric):Ground Height / Ground Angle / Dimension / Relative Distance / Area / Volume;拓撲類(Topological):Hop Distance / Cycle Length等圖結構關係;並額外引入多視角題目:以兩張圖配合,一張提供參考構件,一張給出待比較目標,重點考察跨視角構件對應與整體結構一致性。建構過程:十位研究者耗費400+小時純人工打磨為了保證資料集的質量與多樣性,同時也由於缺乏真實結構構件的標註資料,SSI-Bench的建構流程非常「硬核」——10位研究者投入超過400小時,從大量真實結構圖片中進行人工篩選與題目設計:資料收集:研究中共計審閱約20,000張結構相關圖片,結構形式包括空間網架、鐵塔、斜拉橋、木竹結構、鋼筋籠、管道等,最終保留2,000+候選;主要來自免版稅來源(Unsplash / Pexels / Pixabay),多視角部分還補充了自採圖像。任務設計:結合空間智能需求與結構工程專業知識,共精心設計2大類、10小類任務。中繼資料標註:判斷每張圖片適用的任務類型,使用Label Studio提供構件定位標註;問題生成:依據圖片色彩自動選取標註顏色,並按構件位置自動佈局標註文字;問題生成後,由人工覆核清晰度與遮擋情況。質量檢驗:每題均由獨立檢查者覆核,若存在分歧則交由第三人裁決。最終共獲得1,000道有效題目。模型仍在起跑線人類領先近六成SSI-Bench系統評測了31個主流VLM,結論非常直接:人類幾乎「碾壓式領先」。人類平均91.6%,最強閉源33.6%(Gemini-3-Flash),最強開源22.2%(GLM-4.6V),隨機猜測基線12.85%也就是說,那怕拿到當下最強大模型,人類仍然領先58個百分點(91.6 − 33.6)。更為關鍵的是,即使鼓勵模型生成更長的推理過程,整體提升也多停留在邊際層面,難以觸及問題的核心瓶頸。並且在部分高度依賴全域三維一致性的任務(如Multi-View、Volume)中,過度推理反而可能在錯誤的結構假設上持續累積偏差,使結果進一步偏離正確答案。從結果到機制關鍵瓶頸在那裡?論文對代表模型做了人工復盤,歸納出四類高頻錯誤:構件範圍誤判:僅觀察到局部便誤認為整體,或對端點位置產生錯誤「補全」;遮擋越多,問題越突出。構件/節點識別錯誤:混淆不同部件,方向判斷失準(例如將傾斜構件誤判為水平或垂直)。計算與比較邏輯錯誤:在Area/Volume等任務中計算方式錯誤(例如以2D投影替代3D體積),或採用不成立的簡化假設。3D空間邏輯錯誤:深度關係混亂、跨視角對應失敗、關係組合不穩定,進而導致整體結構假設不一致。這也解釋了SSI-Bench的「硬核」並不在於題目刻意刁鑽,而在於它迫使模型直面並補齊兩項關鍵短板:三維結構構型識別與約束一致的空間推理。結語SSI-Bench的價值,並不是再造一個「更難的VQA」,而是把空間智能評估拉回一個更接近現實的坐標系:當場景是複雜真實結構、當可行解被強約束收縮、當2D捷徑不再可靠——模型是否還能穩定地建構約束一致的3D結構假設並完成推理?從目前結果看,答案仍然很殘酷:模型還在起跑線,人類已在終點線附近。但也正因如此,SSI-Bench給出了一個非常明確的研究方向:讓空間智能體從「會看圖說話」,走向「會在結構裡思考」。 (新智元)
Gemini 3.1 Pro突襲:推理能力翻倍,Google打響AI"小步快跑"第一槍
引言當行業還在期待GPT-5.3時,Google用一場".1"版本號革命重新定義了AI迭代節奏。2026年2月24日凌晨,Google突然發佈Gemini 3.1 Pro大模型,這是其首次採用".1"小版本號,但升級幅度卻遠超預期。在ARC-AGI-2基準測試中,Gemini 3.1 Pro得分77.1%,是Gemini 3 Pro(31.1%)的2倍還多。這一突破不僅刷新了Google自身的技術紀錄,更標誌著大模型行業正式進入"高頻小步快跑"的新時代。更關鍵的是定價策略:每百萬token輸入僅2美元,輸出10美元,這一價格直接對標Anthropic Sonnet 4.6,在保持性能領先的同時實現了成本的大幅最佳化。Google用行動證明,AI競爭不再是"參數軍備競賽",而是"效率與速度的比拚"。01 技術突破:推理能力的量子躍遷Gemini 3.1 Pro最引人注目的突破在於推理能力的翻倍提升。傳統大模型升級往往聚焦於參數規模或多模態能力,而Google此次選擇了更艱難的路徑——從根本上提升模型的邏輯推理和問題解決能力。ARC-AGI-2基準測試的77.1%得分意味著什麼?這一測試專門評估AI系統的抽象推理能力,要求模型從有限示例中歸納出通用規則,並應用於全新場景。77.1%的得分不僅超越了所有前代Gemini模型,更接近了人類專家的表現水平。對比之下,GPT-5.2在同一測試中的得分為68.3%,Claude Opus 4.6為72.8%。多模態能力的全面進化同樣令人印象深刻。Gemini 3.1 Pro支援100萬token超長上下文窗口,能夠一次性處理整本書等級的文件或大型程式碼庫。在創意程式設計方面,模型能夠直接生成3D版"椋鳥群飛"動畫,並支援手勢追蹤互動,實現了從靜態內容生成到動態互動體驗的跨越。vibe coding能力的同步增強為開發者帶來了全新體驗。模型能夠更好地理解程式碼背後的設計意圖和架構邏輯,而不僅僅是語法正確性。實測資料顯示,在處理複雜演算法重構、架構最佳化等任務時,Gemini 3.1 Pro的精準率比前代提升45%。02 行業意義:從"整數版本"到".1迭代"的範式轉變Google首次採用".1"小版本號,這一看似微小的變化背後,是AI行業發展邏輯的根本性轉變。高頻小步快跑成為新常態。傳統上,大模型迭代以整數版本為單位,升級周期長達數月甚至半年。Gemini 3.1 Pro的發佈預示著,未來AI能力的進化將更加頻繁、更加精細。預計未來6個月內,我們將看到更多".1"、".2"等級的快速迭代,而非傳統的整數版本更新。企業應用更新機製麵臨重構。對於依賴AI服務的企業而言,這意味著需要建立更敏捷的AI應用更新機制。傳統"一年一升級"的節奏將被打破,企業需要能夠快速適配模型能力的持續最佳化,保持競爭優勢。技術競爭維度更加多元。當版本迭代頻率提升,競爭不再侷限於"誰先發佈大版本",而是"誰能持續提供最優體驗"。這要求廠商在模型最佳化、工程效率、生態建設等多個維度保持領先。使用者受益程度顯著提升。更頻繁的迭代意味著使用者能夠更快享受到技術進步帶來的價值。無論是開發者工具的增強,還是消費級應用的體驗最佳化,都將以更快的節奏呈現給終端使用者。03 定價策略:性能領先下的成本最佳化Gemini 3.1 Pro的定價策略同樣體現了Google的戰略思考。每百萬token輸入2美元、輸出10美元的價格,在保持性能領先的同時,實現了對競品的成本優勢。對比分析顯示:相比Anthropic Sonnet 4.6(輸入3美元、輸出15美元),Gemini 3.1 Pro便宜33%相比OpenAI GPT-5.2 Turbo(輸入5美元、輸出15美元),成本優勢更加明顯在相同預算下,企業可以處理更多token量,實現更高的投入產出比中小企業市場成為重點。傳統高性能AI服務主要被大型企業壟斷,而Gemini 3.1 Pro的親民定價,意味著更多中小企業能夠負擔得起頂尖AI能力。這對於加速AI技術普惠、推動行業數位化轉型具有重要意義。開發者生態的吸引力增強。對於個人開發者和初創團隊而言,成本是選擇AI服務的關鍵考量。Gemini 3.1 Pro的性價比優勢,將吸引更多開發者加入Google生態,推動應用創新的繁榮。04 生態佈局:從模型到應用的全鏈路最佳化Gemini 3.1 Pro的發佈不是孤立事件,而是GoogleAI生態戰略的重要一環。Gemini App已全面上線。普通使用者可以通過Gemini App直接體驗新模型,享受比前代更精準的複雜問題解答能力。實測顯示,在處理數學證明、邏輯推理、專業諮詢等任務時,新模型的精準率和響應速度均有顯著提升。API服務的全面升級。開發者可以通過Gemini API快速接入新模型,享受推理能力翻倍帶來的效率提升。Google同時最佳化了API的穩定性和響應速度,確保企業級應用的高可用性。多模態創作工具鏈完善。結合Gemini 3.1 Pro強大的多模態能力,Google推出了全新的創意工具套件,支援"文生視訊+互動"的新型內容形式。這對於內容創作者、教育工作者、行銷人員等群體具有重要價值。企業級解決方案深化。針對金融、醫療、法律等垂直行業,Google提供了基於Gemini 3.1 Pro的定製化解決方案,幫助企業在保持資料安全的前提下,享受AI技術帶來的效率提升。05 競爭格局:三巨頭技術路線的分化Gemini 3.1 Pro的發佈,進一步凸顯了AI三巨頭技術路線的分化。Google的"推理優先"路線。通過持續最佳化模型的邏輯推理能力,Google正在建構差異化的技術優勢。在需要複雜問題解決、專業諮詢、科學計算等場景中,Gemini系列的表現日益突出。OpenAI的"通用能力"路線。GPT系列繼續強化其通用性和適應性,在保持各方面能力均衡的同時,通過規模效應降低成本。但整數版本迭代周期較長,可能面臨敏捷性挑戰。Anthropic的"安全與專業"路線。Claude系列在AI安全、專業任務處理上持續深耕,特別是在程式碼安全、法律合規等垂直領域建立了獨特優勢。但定價相對較高,可能限制其規模化應用。國產大模型的追趕壓力。雖然DeepSeek、智譜GLM-5等國產模型在特定領域表現出色,但在推理能力的系統性提升上仍需追趕。Gemini 3.1 Pro的發佈,為國產模型提供了重要的技術參考和競爭標竿。06 實測體驗:從"工具"到"思維夥伴"的進化對於一線使用者而言,Gemini 3.1 Pro帶來的體驗升級是實實在在的。複雜問題處理能力顯著提升。在測試中,模型能夠準確解答研究生等級的數學證明題,理解複雜的法律條文邏輯,提供專業的醫療諮詢建議。這種能力的提升,讓AI從簡單的資訊檢索工具,進化為真正的"思維夥伴"。長文件理解更加精準。得益於100萬token的上下文窗口,模型能夠準確理解整本書、大型程式碼庫、複雜研究報告的內容。在處理學術論文審稿、程式碼架構評審等任務時,表現接近人類專家水平。創意表達更加豐富。在內容創作測試中,模型不僅能夠生成高品質的文字內容,還能夠創作互動式動畫、設計複雜的資料可視化圖表、製作專業的簡報。這種多模態創作能力,為創意工作者提供了全新的工具。響應速度持續最佳化。官方資料顯示,Gemini 3.1 Pro的響應時間相比前代縮短30%,在處理複雜推理任務時,使用者能夠感受到明顯的流暢度提升。也看到了Gemini新增的製作音樂模組(終於有人挑戰suno了),試了一下做一首30秒的武俠歌曲,完成度也很不錯。gemini給我做的國風武俠電影主題曲07 未來展望:AI發展的新節奏與新挑戰Gemini 3.1 Pro的發佈,不僅是一個產品的升級,更預示著AI行業發展的新節奏。技術迭代的加速度。".1"版本號的出現,意味著技術進步的顆粒度更加精細,迭代頻率更加密集。這要求整個行業建立更加敏捷的研發體系、更加靈活的部署架構、更加智能的測試方法。應用創新的新機遇。更強大的推理能力,將催生更多創新應用場景。從智能教育輔導到專業諮詢服務,從科學計算輔助到複雜決策支援,AI的應用邊界將持續擴展。人才需求的結構性變化。隨著AI能力的快速進化,對AI人才的需求將從"模型訓練專家"向"應用創新專家"轉變。能夠將AI能力與行業需求深度結合的人才,將成為市場的新寵。倫理治理的緊迫性。更強大的推理能力,也帶來了新的倫理挑戰。如何確保AI系統的決策透明、公平、可控,將成為行業必須面對的重要課題。結語Google的這次".1版本突襲",表面上是技術升級,深層則是行業競爭邏輯的根本性轉變。當AI發展從"整數版本躍進"轉向"小數版本迭代",整個行業的節奏、格局、規則都將被重新定義。推理能力的翻倍提升,不僅僅是技術參數的最佳化,更是AI從"資訊處理工具"向"智能思維夥伴"進化的重要里程碑。在這個AI重新定義一切的時代,能夠率先突破推理瓶頸、建構持續最佳化能力的企業,將掌握下一個階段的發展主動權。真正的競爭才剛剛開始。技術優勢需要轉化為生態優勢,單點突破需要擴展為系統領先。對於全球AI產業而言,Gemini 3.1 Pro的發佈既是挑戰,也是機遇。在這個AI從"炫技"走向"實用"的關鍵轉折點,能夠平衡技術創新與商業落地的企業,將引領行業進入更加成熟、務實的新階段。當矽谷醒來時,會發現AI競爭的規則已經改變。這場始於".1版本號"的技術革命,或許將開啟全球AI發展的新篇章——一個更加注重實用性、可及性和可持續性的新篇章。 (遊戲AI說)
Gemini 3.1 Pro 發佈!清華姚順宇站台宣傳,Karpathy:應用程式商店的時代結束了
剛在印度 AI 峰會上經歷了最尷尬的一幕,Google CEO Sundar Pichai 轉頭就在今天凌晨官宣了最新模型 Gemini 3.1 Pro。時機選得,相當精準(doge)。OpenAI CEO 和 Anthropic CEO 在合影時拒絕握手,而是高舉拳頭。雖然距離上周 Gemini 3 Deep Think 的更新沒幾天,但 3.1 Pro 的定位,Google 說得很清楚——專為那些「一個簡單答案遠遠不夠」的任務而設計,是解決複雜問題的基礎底座。按慣例,0.1 的版本號更新通常意味著小修小補,然而,在測試模型解決全新邏輯模式能力的 ARC-AGI-2 基準上,3.1 Pro 拿下 77.1%,是上代 3 Pro(31.1%)的兩倍多,同時壓過了 Anthropic 的 Opus 4.6(68.8%)和 OpenAI 的 GPT-5.2(52.9%)。其它方面,科學知識測試 GPQA Diamond 拿了 94.3%,智能體類基準 MCP Atlas 和 BrowseComp 分別拿下 69.2% 和 85.9%。程式設計能力方面,競爭性程式設計基準 LiveCodeBench Pro 的 Elo 評分達到 2887,超過 3 Pro 的 2439 和 GPT-5.2 的 2393。SWE-Bench Verified 上,3.1 Pro 拿了 80.6%,和 Opus 4.6 的 80.8% 基本打平。當然,3.1 Pro 也不是處處碾壓。多模態基準 MMMU Pro 上,上代 3 Pro 反而略勝(81.0% vs 80.5%);啟用工具支援的 Humanity's Last Exam 裡,Opus 4.6 以 53.1% 拿了第一。外界長期批評 Google 工具使用效率不如對手,這次還是沒能完全堵上嘴。第三方知名分析機構 Artificial Analysis 則給出了相當實在的評價。3.1 Pro 在他們的智能指數里排名第一,比 Opus 4.6 高 4 分;整個測試跑下來總計使用約 5700 萬 tokens,完成測試的成本不到 Opus 4.6 的一半。能打又省錢,這個組合還是很香的。Google DeepMind 首席科學家 Jeff Dean 也轉發了一個是用 3.1 Pro 模擬城市規劃、設計全新城市的應用,從零生成可互動的規劃介面 demo。Google 官方部落格則展示了幾個更日常的方向。程式碼動畫方面,3.1 Pro 可以直接根據文字提示生成動態 SVG,因為是純程式碼生成而非像素,任意縮放都不失真,檔案體積也遠小於傳統視訊。複雜系統方面,模型直接接入公開遙測資料流,搭出了一個即時追蹤國際空間站軌道的航天儀表盤。更有意思的是兩個創意類 demo。一個是 3D 椋鳥群模擬,不只是生成視覺程式碼,還支援用手勢操控鳥群,並配有隨鳥群動態變化的生成音樂;另一個是把《呼嘯山莊》的文學氛圍轉化成一個現代個人網站,模型沒有簡單概括情節,而是分析了小說的整體基調,設計出了貼合主人公氣質的介面風格。此外,網友們也貢獻了不少精彩的案例。有人讓 3.1 Pro 生成一個「鬼怪獵人穿越鬼屋」的動態 SVG 循環動畫,結果直接看呆,評價是「Google 這次是認真的」。還有網友認為讓它生成種子破土、根系延伸、莖稈冒出、葉片展開、直到長成完整大樹的互動動畫,每個生長階段的過渡都順滑自然,說這是見過最好的同類效果。去年從 Anthropic 轉投 Google DeepMind 的清華物理系特獎得主姚順宇也站台宣傳:「Gemini 不僅是一個優秀的模型,而且更好的模型正以不可阻擋的方式到來。」當然,這些 demo 加在一起說的是同一件事:模型能做的事,已經從單純的回答問題延伸到完成一整套專業或創意工作流了。價格方面,API 按分級付費,整體和上代 3 Pro 保持一致,但跟 Anthropic Opus 系列比還是相對便宜的。20 萬 tokens 以內,輸入 2 美元 / 每百萬 tokens,輸出 12 美元;超過 20 萬 tokens,輸入漲到 4 美元,輸出 18 美元。搜尋功能每月前 5000 次免費,之後每 1000 次查詢收費 14 美元。現在,開發者可以在 AI Studio、Gemini API、Gemini CLI、智能體開發平台 Google Antigravity 以及 Android Studio;企業使用者在 Vertex AI 和 Gemini Enterprise;普通使用者在 Gemini 應用和 NotebookLM 都能用,後者僅限 Pro 和 Ultra 訂閱。值得注意的是,3.1 Pro 目前只是預覽版,Google 大機率是要繼續打磨好智能體工作流再推正式版,向外界展示出一副還沒使全力的姿態。至於這種能力滲透到個人層面會發生什麼,這讓我聯想到了 OpenAI 聯創 Andrej Karpathy 剛剛發佈的推文:他想用 8 周時間把靜息心率從 50 降到 45,計畫是設定 Zone 2 有氧總時長目標,配合每周一次 HIIT。為了追蹤進展,他花了 1 小時用 vibe coding 做了一個專屬儀表盤。過程比想像中麻煩,Claude 需要對 Woodway 跑步機的雲 API 進行逆向工程,提取原始資料,處理篩選,搭出 Web 前端介面,中間還有公制英制單位混用、日曆日期對不上這些 bug 需要手動發現並要求修復。Karpathy 的感嘆很直接,兩年前這事得花 10 小時,現在 1 小時。但他更在意的是:這本來應該只需要 1 分鐘。他的判斷是,應用程式商店模式正在過時。300 行程式碼、LLM 幾秒生成的專屬工具,沒必要變成一個正經 App 讓你去搜尋下載。他同時也點了行業的問題:99% 的產品仍然沒有 AI 原生的 CLI,還在維護給人看的前端介面,而不是直接提供便於 Agent 呼叫的 API。Woodway 跑步機本質上就是個感測器,結果還得讓 LLM 去逆向工程它,完全沒必要。把 Jeff Dean 的城市規劃 demo 和 Karpathy 的跑步儀表盤放在一起看,其實是同一件事的兩面。當普通人花 1 小時就能為自己做一個高度定製的專屬工具,由 AI 原生感測器和執行器構成、LLM 負責編排、即興生成高度定製專屬應用的時代,就已經近在眼前了。 (APPSO)
Google Gemini最“小”的一次迭代,姚順宇為何高呼“不可阻擋”?
人們還在津津樂道OpenAI和Anthropic兩家公司的老闆拒絕牽手,以至於握拳高舉的滑稽畫面,另一邊,Google一個反手迭代了模型。而且這次迭代,頗像是狼披上了羊皮——從模型後綴的數字序號看,這是Google最“小”的一次迭代,之前都是從Gemini 2.0到Gemini 2.5這樣的迭代,這次從Gemini 3.0到Gemini 3.1Pro Preview。但是這“.1”的迭代,進步得卻不是一星半點。GoogleCEO皮查伊(Sundar Pichai)表示,新代模型非常擅長處理“超級複雜的任務”。例如將複雜概念可視化、將資料綜合成單一檢視或者將創意項目變為現實。姚順宇也專門在X上發帖為Gemini 3.1 Pro Preview振臂,盛讚:“Gemini不僅僅是一個好模型,更好的模型正在以不可阻擋之勢到來。”需要注意的是,大約一周前,Google推出了“專用推理模式”Gemini 3 Deep Think,專為科學、研究、工程等複雜、開放式問題設計。Demini 3 Deep Think是姚順宇從Anthropic跳槽到GoogleDeepMind之後參與的第一個項目。而如今的Gemini 3.1 Pro Preview和Gemini 3 Deep Think有千絲萬縷的關係,官方表示“直接建構在Gemini 3 Deep Think的經驗和技術之上”。相當於把Deep Think的核心推理提升技術“下放”到更廣泛可用的Pro模型中。01Gemini 3.1 Pro Preview能做什麼既然這次新代模型的突出能力在處理“超級複雜”的任務,那麼普通的對話放一邊,Google的官方博文中,重點給出了幾種示例秀肌肉。第一,通過簡單的提示詞,建立SVG動畫。這個功能前代也有,但是對比之下進步明顯。比如提示詞“生成一個SVG,描繪一隻變色龍靜靜地坐在樹枝上。讓變色龍的眼睛跟隨使用者的滑鼠游標在螢幕上移動。”Gemini 3 Pro生成的動畫背景是單一的白色,變色龍也看起來很呆板,甚至一側有兩隻眼睛。Gemini 3.1 Pro生成的動畫則有豐富的“深綠色叢林”背景,變色龍身體有黃色斑紋和圓點裝飾,眼睛立體,腿部姿勢自然彎曲。再比如提示詞“生成一個滑動切換開關的SVG,當滑鼠懸停在太陽圖示上時,將其變成發光的月亮,同時背景從明亮平滑漸變到黑暗。採用乾淨的扁平UI風格。”Gemini 3 Pro給出的動畫雖然完成了任務,圖示可以隨滑鼠變化,但是主圖示單一,是一個缺角的圓形圖案,用黃色代表白天,白色代表夜間。Gemini 3.1 Pro生成的動畫要複雜得多,白天是黃日白雲,夜間是月牙繁星,兩套圖示絲滑變換。總而言之,Gemini 3 Pro做的動畫,讓人想起多年前那個“學了三年動畫”的梗。而Gemini 3.1 Pro交付的SVG動畫,已經達到了可以直接使用的效果。第二,建構工程等級系統。Gemini 3.1 Pro已經可以根據一段高複雜度的自然語言指令,直接生成一個集3D渲染、即時太陽星曆計算、API非同步拉取和物理光效於一體的完整互動系統,而不是簡單頁面demo。Google給出的示例中,使用者給出文字指令,Gemini 3.1 Pro生成了建構一個高保真、可互動的3D國際空間站(ISS)軌道追蹤器。使用高解析度的Blue Marble紋理貼圖渲染一個精細的3D地球模型。第三,生成互動式創意系統。在另一個示例中,Google展示了Gemini 3.1 Pro編寫的一個複雜的3D椋鳥群舞(murmuration)模擬。它不僅生成視覺程式碼,還建構了一個沉浸式體驗,使用者可以通過手部追蹤操控鳥群,並聆聽根據鳥群運動變化的生成式配樂。對於研究人員和設計師而言,這提供了一種強有力的方式來原型化感官豐富的介面。第四,將文學主題轉化為可運行的程式碼。這個示例可能是普通人也最容易get到厲害之處的一個。當被要求為艾米莉·勃朗特(Emily Brontë)的《呼嘯山莊》(Wuthering Heights)打造一個現代個人作品集網站時,該模型並未簡單地總結文字內容,而是基於小說的氛圍與情緒進行推理,設計出一個簡潔、當代感十足的介面,建立出一個捕捉主人公精神核心的網站。抽象推理,這種能力的含金量不用多說。02到底有多強?新代模型免不了過一下刷榜這一步。而“.1”的升級,獲得了動輒倍數躍升的成績。根據Google官方博文放出的測試結果,在ARC-AGI-2基準測試中,3.1 Pro的驗證得分達到了77.1%。比3 Pro的推理性能提升了一倍以上。這也符合3.1 Pro的示例,因為這個測試評估的是模型解決全新邏輯模式的能力。用人話說就是,抽象推理解謎的能力。此外,在GPQA Diamond(科學知識測試)中,3.1 Pro得分94.3%;智能體類基準MCP Atlas上,得分69.2%;真實網路瀏覽與資訊整合能力的基準BrowseComp上,得分85.9%。這些成績,均超過了Anthropic的Sonnet 4.6、Opus 4.6,以及OpenAI的GPT-5.2與GPT-5.3-Codex。GoogleGemini 3.1 Pro這次在ARC抽象推理和BrowseComp搜尋任務上顯著拉開差距,顯示出明顯的Agent傾向,而非單純知識模型。此外,專門做大模型基準測試與對比分析的第三方評測機構也發佈了相關測試結果,大讚Gemini 3.1 Pro在構成Artificial Analysis Intelligence Index的10項評測中領先6項,相較於Gemini 3 Pro Preview在多項能力上顯著提升,尤其是在推理與知識、程式碼能力以及降低幻覺方面進步最大。而且,Gemini 3.1 Pro Preview保持較高的token效率。運行完整Artificial Analysis Intelligence Index約需5700萬token(比Gemini 3 Pro Preview多100萬)。這一token使用量低於其他在最大推理模式下運行的前沿模型,如Opus 4.6(max)和GPT-5.2(xhigh)。結合更低的單token定價,Gemini 3.1 Pro Preview在前沿模型中具有成本優勢,運行完整Intelligence Index的成本不到Opus 4.6(max)的一半,不過仍約為領先開源模型GLM-5的兩倍。03能力翻倍價格不變Google官方API定價顯示,Gemini 3 Pro/3.1 Pro Preview的收費結構是按token計費的:小於200k tokens時,每百萬token輸入約2美元,輸出價格為4美元。大於200k tokens時,每百萬token輸入4美元,輸出18美元。在上下文快取方面,根據提示詞規模,每百萬 token 收取 0.20 至 0.40 美元,外加每小時每百萬 token 4.50 美元的儲存費。這個價格,整體上和Gemini自己的上一代3 Pro一致,但要是和 Anthropic Opus 系列比起來,還是相對便宜的。 Opus這類模型輸入/輸出單價能在$5/$25左右。尤其是結合當下它在模型能力上相當突出,這個價格更顯得極具競爭力。不要忘了,Google這次發佈的只是“預覽(Preview)”,Google很快就會推出正式版。而“.1”的迭代,Google也是在暗示其只是小秀肌肉。目前,開發者可以在AI Studio、Gemini API、Gemini CLI、智能體開發平台Google Antigravity以及Android Studio使用3.1 Pro;企業使用者則可以在Vertex AI和Gemini Enterprise使用;普通使用者在Gemini應用和NotebookLM都能用上,不過後者僅限Pro和Ultra訂閱使用者。各個社區裡已經有不少人迫不及待上手操作,真的就和Google的演示一樣,手搓了不少驚豔的玩意。有人用Gemini 3.1 Pro 生成了一個可互動的 3D 機械級汽車懸架系統模擬器,包含真實幾何結構、連桿約束與即時轉向和行程計算,相當於把機械工程建模、物理邏輯和3D可視化一次性寫成可運行工具,接近工程級原型能力。有人用3.1 Pro製作“捉鬼獵人走過一棟鬧鬼的房子”的循環動畫,驚呼“Gemini沒有開玩笑”。總之,Google這回是真憋了個大招。小小一個“.1”,卻把推理和程式碼能力拉得飛起,定價還這麼穩。社區裡滿溢的手搓demo的熱情,也證明了它的能力與實用性。AI圈越來越現實了。模型再強,終究得看帳單值不值。企業開始精打細算每個token的回報,開發者也得掂量掂量性價比。Google這一步,不僅是搶回王座,更是把競爭推向“誰更會過日子”的新階段。且看接下來,捏著拳頭的Anthropic和OpenAI,以及xAI、Meta、微軟等一眾競爭對手該如何應對吧。 (字母AI)
Google殺瘋了Gemini 3 推理模式封神,碾壓 GPT-5.2,科研工程界迎終極神器
2026 年 AI 科研賽道再迎王炸!Google官宣 Gemini 3 Deep Think 推理模式重磅升級,劍指科學研究與工程落地的複雜難題,多項基準測試成績直接刷新全球紀錄,不僅碾壓 GPT-5.2、Claude Opus 4.6 等競品,更達到世界頂尖程式設計師、奧賽金牌級水平。更重磅的是,Google首次開放該模式 API 早期訪問,科研人和工程師的效率天花板,直接被重新定義!實測封神!全維度霸榜,多項成績碾壓主流大模型此次升級的 Gemini 3 Deep Think,最硬核的底氣就是實打實的測試成績,在數學、物理、程式設計、抽象推理等全維度高難度基準測試中,實現全面霸榜,無工具加持下的表現堪稱驚豔。在抽象推理核心測試 ARC-AGI-2 中,它拿下 84.6% 的超高正確率,遠超 Claude Opus 4.6 的 68.8% 和 GPT-5.2 的 52.9%,成績直接斷層領先。“終極人類考試” 中,48.4% 的得分也甩開 Claude 的 40.0%、GPT-5.2 的 34.5%,盡顯高階推理實力。程式設計領域更是直接封神,Codeforces 競賽程式設計基準中斬獲 3455 的 Elo 評分,遠超 Gemini 3 原版的 2512 和 Claude 的 2352,達到世界頂尖程式設計師水準。而在 2025 年國際奧賽中,數學、物理、化學理論測試均拿下金牌級成績,物理更是達到 87.7% 的正確率,把 GPT-5.2 的 70.5% 遠遠甩在身後。就連多模態理解、凝聚態物理理論等偏門高難領域,它也表現亮眼,MMMU-Pro 測試 81.5% 正確率、CMT-Benchmark 50.5% 得分,均大幅領先主流競品,真正實現了 “文理通吃、科工全能”。直擊痛點!專為科研工程而生,破解真實場景難題Google此次升級並非單純的參數堆砌,而是精準瞄準科研和工程場景的核心痛點 —— 真實工作中資料雜亂、問題邊界模糊、需要長鏈路邏輯推理,而 Deep Think 就是為解決這些問題量身打造。它摒棄了大模型常見的 “表面化推理”,擁有更深度的邏輯鏈分析能力,能處理科研中複雜的因果推導、工程裡精密的流程最佳化。Google已展示其實際應用價值:協助數學家快速發現論文中的邏輯漏洞,從繁雜的公式推導中定位問題;助力工程師最佳化半導體晶體生長工藝,通過多維度資料分析找到工藝提升的關鍵節點。不同於普通大模型只能做 “輔助性文案工作”,Deep Think 能真正深度參與科研和工程的核心環節,從理論分析到實際落地,提供可落地、可驗證的解決方案,讓 AI 從 “工具” 變成真正的 “科研夥伴”。重磅開放!API 解鎖,兩類使用者率先嘗鮮在成績亮眼、應用落地的雙重加持下,Google此次也邁出了關鍵一步 —— 打破封閉,首次開放 Gemini 3 Deep Think 的使用權限,讓頂尖 AI 能力走出實驗室,真正服務於科研和產業界。目前該模式已面向Google AI Ultra 訂閱使用者全面開放,這類使用者可直接體驗全功能的深度推理能力。更值得關注的是,Google首次通過Gemini API,向部分研究人員、工程師及企業提供早期存取權,這意味著相關從業者可將該模型接入自有系統、科研平台,實現定製化的深度應用。從以往的 “專屬封閉” 到如今的 “有限開放”,Google的這一動作,也讓全球科研和工程界看到了頂尖 AI 技術普惠的可能,未來無論是高校的基礎研究,還是企業的工程落地,都有望借助這一工具實現效率躍升。行業震動!AI 科研工具迎來新拐點,競爭再升級Gemini 3 Deep Think 的升級與開放,不僅讓科研人和工程師迎來 “效率神器”,更在全球 AI 行業引發連鎖震動,讓大模型的競爭從 “通用能力比拚” 轉向 “專業場景深耕”。此前,主流大模型更多聚焦於通用對話、內容生成,在專業科研工程領域的表現始終差強人意,而Google此次精準卡位高難度專業場景,用實打實的成績證明了大模型在硬核領域的落地價值。這也給其他 AI 廠商指明了方向:單純的參數競賽已無意義,能解決真實專業問題的模型,才擁有真正的核心競爭力。對於科研和工程界而言,這一升級更是一場效率革命 —— 以往需要團隊數天甚至數月的邏輯推導、工藝最佳化、程式碼編寫,如今借助 Deep Think 可能幾小時就能完成,大大縮短了研究和開發周期。而隨著 API 的逐步開放,未來還將催生更多基於該模型的專業工具,推動科研和工程領域的智能化升級。從全維度霸榜的測試成績,到直擊痛點的場景落地,再到打破封閉的 API 開放,Google Gemini 3 Deep Think 的此次升級,每一步都踩在了 AI 行業的核心發展點上。它不僅展現了Google在大模型領域的技術領先,更讓我們看到了 AI 賦能硬核科研、推動產業升級的無限可能。隨著頂尖 AI 技術的逐步普惠,科研和工程的智能化時代,已然加速到來! (硬核科技喵)
Google最新大模型強力刷榜,Gemini 3.1 Pro把壓力給到OpenAI、Anthropic
上周,Google剛剛發佈了Gemini 3 Deep Think工具,旨在解決科學、研究和工程領域面臨的現代挑戰,今天,這款工具背後的核心智能模型——Gemini 3.1 Pro正式推出。此次發佈也是Google首次對Gemini模型進行“0.1”版本形式迭代,市場分析認為,今年該公司發佈策略可能會從定期發佈完整版本轉向更頻繁的增量升級。在廣受歡迎的“人類最後的考試”(Humanity's Last Exam)基準測試中,Gemini 3.1 Pro取得了創紀錄的44.4%的成績,上一代Gemini 3 Pro的成績為37.5%,而OpenAI的GPT 5.2的成績為34.5%,Anthropic的Opus 4.6成績為(40.0%)。在ARC-AGI-2 基準測試中,該測試旨在評估模型解決全新邏輯模式的能力,3.1 Pro的驗證得分達到了77.1%,比3 Pro的推理性能提升了一倍以上,這一結果也超越了GPT-5.2(52.9%)以及Opus 4.6(68.8%)。從官方披露的資料看,Google在多數指標上取得了業內領先優勢,但目前仍有個別基準測試的最好成績被OpenAI和Anthropic佔據,前沿大模型之爭十分焦灼。翻倍的性能和推理能力Google方面表示,3.1 Pro模型專為那些簡單答案不足以解決的任務而設計,它善於運用高級推理能力,幫助使用者應對最棘手的挑戰。無論是需要對複雜主題進行清晰直觀的拆解分析,還是需要將複雜資料整合到單一檢視中,亦或是需要將創意項目變為現實,官方給到一些典型應用案例如:基於程式碼的動畫:3.1 Pro可以直接根據文字提示生成可用於網站的動畫SVG。由於這些動畫完全由程式碼而非像素構成,因此無論縮放比例如何,它們都能保持清晰銳利,並且與傳統視訊相比,檔案大小也極小。複雜系統綜合:3.1 Pro利用高級推理技術彌合了複雜API與使用者友好設計之間的差距,該模型建構了一個即時航空航天儀表盤,成功配置了公共遙測流,可以可視化國際空間站的軌道。互動設計:3.1 Pro可生成複雜3D鳥群舞動畫,生成視覺程式碼並建構沉浸式體驗,使用者可通過手部追蹤操控鳥群,聆聽隨鳥群運動變化的生成式配樂,為研究人員和設計師提供建構感官豐富介面原型的強大方法。創意編碼:3.1 Pro可以將文學主題轉化為功能性程式碼,當被要求為《呼嘯山莊》建構一個現代個人作品集時,該模型並非簡單地概括文字,而是深入分析了小說的氛圍基調,設計出一個簡潔現代的介面,最終建立了一個能夠捕捉主人公精髓的網站。GoogleDeepMind工作人員還演示使用3.1 Pro開發逼真的城市規劃應用程式,該模型可以處理複雜地形、繪製基礎設施圖以及模擬交通資料,從而生成高品質的可視化效果。性價比打壓競爭對手對於開發者而言,3.1 Pro版本最引人注目的亮點不僅在於性能大幅提升,也在於其“性價比”。第三方分析平台Artificial Analysis的評估顯示,Google以更低的成本實現最先進的智能。3.1 Pro版本在人工智慧分析指數中得分最高,其最顯著的優勢在於價格和代幣效率,與Claude Opus 4.6 (max) 和GPT-5.2 (xhigh) 相比,Gemini 3.1 Pro Preview上的運行成本降低了50%以上。如果Google的慣例保持不變,那麼在不久的將來,其速度更快、成本更低的Flash模型很可能也會推出3.1版本更新。加盟Google的華人AI研究員姚順宇發推表示,更好的模型正以勢不可擋的速度湧現。One more Thing隨著大模型廠商的市場競爭加劇,頭部廠商CEO之間的關係並不融洽。在日前印度舉辦的人工智慧影響力峰會上,出現了本年度AI圈最尷尬一幕:OpenAI首席執行長Sam Altman和Anthropic首席執行長Dario Amodei拍照時明顯拒絕牽手,而是雙雙舉起了拳頭,台上其他AI廠商領袖(如Google、Meta)則在拍攝合影時都儀式性挽著胳膊。今天,兩人不和的合影畫面迅速在社交媒體上流傳開來,網友調侃,什麼時候能實現AGI?可能得等到Sam和Dario牽手那天。2026年2月12日,Anthropic完成G輪融資籌集了300億美元,投後估值達3800億美元,該公司透露已實現140億美元的年化收入規模。據彭博社最新爆料,OpenAI正在籌備新一輪融資,據悉此次融資規模有望達1000億美元,公司整體估值可能超過8500億美元,OpenAI首席財務官Sarah Friar此前表示,公司2025年年化營收已超200億美元。面對Google的強力競爭,兩大AI獨角獸都紛紛加碼投入不敢絲毫鬆懈迭代步伐。在本年開局的首輪大模型PK賽中,國內外主流廠商的旗艦模型再次刷出性能新高度,目前備受網友期待的便是傳聞的DeepSeek新一代模型V4,能否創造出更多驚喜可以拭目以待。 (頭部科技)