#Gemini
Google太狠了!要統治幾十億手機
在上月底舉辦的三星 Galaxy S26 發佈會上,三星和Google官宣將在 Galaxy S26 上首發基於 Gemini 的 Screen Automation(螢幕自動化)的能力。簡單來說,就是 Gemini 可以直接在手機螢幕上操作應用:打開 APP、識別螢幕、點選滑動、輸入文字……完成一連串 UI 操作,最後再把確認步驟交給使用者。圖片來源:三星沒錯,聽起來就和努比亞 M153(坊間俗稱「豆包手機」)上的豆包手機助手一樣,都是能替代人類在手機上進行「代理」操作,實現一句話點外賣、叫車、網購等需求。從海外媒體和論壇的反饋來看,這項功能終於在最近的測試版更新中上線了。不過我們也發現,Google並沒有全盤學習豆包手機助手的做法。雖然在技術實現路徑上同樣基於 GUI 的 Agent,但 Gemini 會基於 Android 開啟一個本地的虛擬沙盒,同時還主動限制了首批開放 Gemini「操作」的 APP,僅限少數一批應用。這種處理方式與國內廠商顯然不太一樣。甚至可以對比字節的豆包手機助手和阿里的千問,Google選擇了一條看起來既激進、又保守的路線。讓 AI 作業系統,而不是接管手機只看功能表面,Gemini 的「螢幕自動化」很容易被理解為另一種「豆包手機助手」。它同樣可以替你點外賣、叫車、下單,看起來也像一個能替人操作手機的 AI 代理。但如果把視角往下再挖一層,就會發現Google的方案其實完全不是一回事。豆包手機助手的邏輯很簡單:AI 讀取螢幕像素,像人眼一樣識別按鈕和輸入框,然後模擬手指點選。這種方式最大的優點就是通用——理論上任何 APP 都能操作,因為 AI 看到的只是螢幕。Gemini 明顯更「保守」。在實際執行任務時,Gemini 並不會直接在你的手機桌面上操作應用,而是會在 Android 系統裡開啟一個本地的虛擬沙盒窗口,讓 AI 在這個環境裡運行目標 APP。整個過程是可見的,使用者可以隨時終止任務,也可以在任何一步接管操作。圖片來源:Android Central簡單來說,Gemini「螢幕自動化」在產品定位上並不是一個可以隨意操控手機的萬能代理,而是一個被系統嚴格約束的自動化能力。Google還主動限制了第一批支援自動化的應用數量。目前開放的主要是打車、外賣和餐飲類服務,僅支援 Lyft、Uber、GrubHub、DoorDash、Uber Eats 和星巴克。也限制了「使用者範圍」。目前除了三星 Galaxy S26 系列已經可以在測試版中體驗,Google也僅規劃了 Pixel 10 系列支援,同時 Gemini 免費使用者每天僅有 5 次使用額度、Plus 會員 12 次、Pro 會員 20 次、Ultra 會員 120 次。這裡既有算力的考量,也在於使用者對 AI「亂動手機」的擔憂,尤其是在歐美市場。所以Google做了權限隔離、關鍵步驟必須要使用者手動操作、可以即時中斷 AI 操作等。但說到底,這只是過渡階段,Google的野心絕不止是讓 Gemini 僅僅能夠操作幾個特定 APP。圖片來源:Google很多人注意到 Gemini 的 GUI 操作能力,卻忽略了 Android 在系統層面正在發生的一件事情。就在三星 Galaxy S26 系列發佈會前夕,Google官方發佈了一篇博文名為《智能作業系統:讓 AI 代理對Android應用更有幫助》,並正式推出了一套新的應用能力介面體系——AppFunctions,允許 APP 主動向系統聲明自己可以被 AI 呼叫的功能。舉個例子,一個外賣 APP 可以告訴系統:支援搜尋餐廳、加入商品、提交訂單這些能力。當使用者對 Gemini 說「幫我點一份披薩」時,AI 並不一定需要逐步點選介面,它可以直接呼叫這些能力完成任務。如果把這套機制理解成 AI 的「函數呼叫」,事情就變得非常清晰了。在Google的設計裡,AI 代理其實有兩條路徑可以執行任務,一種是通過系統介面直接呼叫應用能力,另一種才是通過識別螢幕介面來進行 GUI 自動化。前者效率更高、穩定性更好;後者則是為了相容那些沒有適配新介面的應用。這意味著 Gemini 未來的裝置自動化能力,本質上並不是單純的「AI 看螢幕操作手機」,而是一種系統 API 與 GUI 混合的架構。AppFunctions 的應用示例,圖片來源:雷科技這個差異聽起來有點技術化,但它背後的產品邏輯其實非常簡單。相比豆包手機助手讓 AI 像人一樣使用手機,Google想做的事情是讓 AI 像系統一樣調度應用。當 AI 只是讀取螢幕像素時,它始終站在系統之外,只能模仿人的操作邏輯;但一旦 AI 被放進作業系統內部,它就可以直接協調應用之間的能力。從這個角度看,Gemini Screen Automation 的真正目標或許並不是點外賣、叫車這些場景。Google真正想建立的,是一種新的 Android 運行邏輯和生態。從這裡出發,我們也能在一定程度上明白,為什麼Google要和高通聯手推動「Android電腦」(非 Chromebook)。也解釋了為什麼 Gemini 的方案看起來既激進又保守。激進的地方在於,它試圖把 AI 變成 Android 的調度中心;保守在於,Google並不打算讓 AI 隨意接管整個手機,而是通過系統介面、權限控制和應用白名單,一步一步推進這種變化。相比「萬能 AI 代理」的想像,這種路線顯然更慢,也更克制。但對於一個擁有數十億裝置的作業系統來說,Google可能也沒有太多激進試錯的空間。豆包向左,千問向右,Gemini 走中間相比Google在手機上的做法,去年底亮相的豆包手機助手選擇了最簡單、也最激進的一種方式:讓 AI 像人一樣使用手機。在這套方案裡,AI 讀取螢幕像素,識別按鈕、輸入框和頁面結構,然後模擬手指點選完成操作。無論是點外賣、比價購物還是下單支付,AI 都是在手機介面上一步步執行。這種方式最大的優勢就是通用。因為 AI 看到的只是螢幕,它不需要任何 APP 的介面支援,也不需要平台授權。理論上,只要是人能操作的應用,AI 都可以完成同樣的操作。這也是為什麼很多人第一次體驗豆包手機助手時,會覺得它像一種「真正的 AI 手機」。圖片來源:豆包但問題也同樣明顯。當 AI 可以讀取整個螢幕並操作所有應用時,權限和安全問題就不可避免。同時,很多網際網路平台也並不歡迎這種自動化行為,因為它繞過了平台自身的入口和推薦體系。簡單說,豆包的路線技術上非常直接,但也天然會和應用生態產生摩擦。相比之下,阿里的千問走的是另一條思路,利用阿里自己的服務生態,讓 AI 成為一個調度中心。在這套體系裡,使用者的一句話會被拆解成具體任務,然後分別呼叫淘寶、支付寶、高德、飛豬等服務來完成。比如搜尋商品、下單支付、規劃路線,都是直接呼叫真實業務能力,而不是模擬介面操作。因為所有操作都發生在生態內部,AI 不需要繞過應用權限,也不會觸發平颱風控,又因為直接呼叫服務介面,執行效率往往也更高。圖片來源:雷科技但問題同樣清晰:生態邊界。千問能夠調度的服務,本質上還是阿里系應用。一旦使用者需求涉及其他平台,能力就會明顯下降。從這個角度看,豆包和千問其實代表了兩種非常典型的 AI 代理路徑。前者試圖讓 AI 接管手機本身,追求的是通用能力;後者則通過生態整合,讓 AI 接管服務流程,追求的是業務深度。而Google的 Gemini,某種程度上站在二者之間。在當前階段,Gemini 依然保留了 GUI 自動化能力,這意味著它在必要時也可以像豆包一樣,通過識別介面來操作應用。但與此同時,Google又在 Android 系統裡引入了新的應用能力介面,讓 APP 主動向系統開放可以被 AI 呼叫的功能。如果應用支援這些介面,Gemini 就不需要再逐步點選介面,而是可以直接呼叫應用能力完成任務。換句話說,Google的方案其實是一種混合路徑:系統介面優先,GUI 自動化兜底。從短期來看,這種方式顯然沒有豆包那樣驚豔,也不像千問那樣能夠迅速整合成熟生態。但它的好處在於,既避免了和應用生態的正面衝突,又保留了足夠的通用性。寫在最後把視角再拉遠一點,其實不難理解三種路線為什麼會分化成現在這樣。字節沒有作業系統,也沒有本地生活生態,所以只能讓 AI 直接接管手機;阿里擁有龐大的服務體系,於是讓 AI 去調度自己的業務網路;而Google真正擁有的,則是 Android 這個覆蓋數十億裝置的作業系統。因此,Gemini 的目標從一開始就不是做一個更強的手機助手,而是把 AI 變成系統的一部分,讓 Android 從「運行應用的平台」慢慢變成「調度應用的智能系統」。從這個角度看,Gemini 的克制並不是保守,而更像是一種平台級公司的必然選擇。 (雷科技)
Gemini攻克「宇宙弦」終極難題!AI科學家最優雅解法震撼物理學
就在剛剛,Google Research團隊用Gemini Deep Think + 樹搜尋框架,獨立攻克了一個理論物理領域的未解積分難題——宇宙弦引力輻射功率譜的精確解析解。AI探索了600條候選路徑,找出6種解法,最優雅的那條,讓人類物理學家都拍案叫絕。震驚,AI科學家真的要來了!Google發佈了最新(3月6日)一篇論文,一石激起千層浪。Gemini Deep Think聯手樹搜尋演算法,獨立破解了理論物理的開放難題!一個人類頂級研究團隊公認「難得不知從那下手」的問題,被這套AI系統硬生生地解出來了。論文地址:https://arxiv.org/pdf/2603.04735這篇論文非常具有突破性!簡單來說,AI解開人類物理學家之前沒能解開的複雜數學/物理難題。聯想到此前,Claude幫高德納解決圖論猜想的消息刷屏。如果說高德納論文中Claude攻克圖論猜想,是AI在離散數學領域的突破。那麼Google這篇論文,則代表AI在連續數學和理論物理領域的全面進攻。一個是組合數學,一個是數學物理。兩件事幾乎同時發生,構成了2026年3月最具標誌性的「AI科學家」事件。AI,正在人類最核心的智力領域全面開花。宇宙弦 一個讓所有科學家著迷的終極問題宇宙弦(cosmic strings),是宇宙學中一種假設的一維拓撲缺陷結構,誕生於宇宙早期相變。這東西振動時,會向外輻射引力波。而近年來,脈衝星計時陣(Pulsar Timing Arrays,簡稱PTA)首次觀測到了疑似宇宙弦的引力波背景訊號,理論物理界因此對宇宙弦的研究熱情空前高漲。要預測宇宙弦發出的引力波訊號,就必須精確計算它的引力輻射功率譜(power spectrum)。具體來說,有一個核心積分 I(N, α)——描述宇宙弦環第N諧波發出的輻射強度。這個積分看起來簡單,但積分區域是個球面,被積函數在邊界處存在奇點(e₁,₂ = ±1時),導致標準數值積分根本不穩定。用經典的勒讓德多項式展開?權函數不匹配,爆炸。過去的研究,只能給出大N時的漸近解,或者奇數N的部分結果。精確、統一的解析解,多年來一直是懸案。直到Gemini Deep Think出手。一句話科普論文解決了什麼問題。AI計算出了一種名為「宇宙弦」發出的引力波的精確數學公式。為了計算這個引力波的功率,物理學家需要解開一個非常複雜的數學積分公式。這個公式裡有「奇點」(Singularities,類似於數學上除以0那種讓計算崩潰的地方),導致傳統的數值計算方法常常失效。在過去的幾年裡,人類物理學家和早期的AI嘗試過,但只找到了一些「部分解」或者「近似解」,一直沒有找到一個統一、精確的解析公式。難道人類科學家的問題被Gemini攻克了與Claude解決高德納問題時的31步研究式探索類似,Gemini解決這個問題的方式也非常像一個訓練有素的研究團隊在工作。Google團隊沒有讓AI裸奔。他們搭了一套精密的「神經符號系統」:Gemini Deep Think + 樹搜尋(Tree Search)+ 自動數值反饋三者缺一不可,協同作戰。Gemini Deep Think負責「大腦」:生成數學假設,進行符號推導,判斷那條路徑「看起來優雅可行」。它不是簡單地暴力試驗,而是被指示進行深度推理鏈,提前預判無窮級數展開時的收斂問題。樹搜尋(Tree Search) 負責「系統性探索」:把整個解題空間建成一棵大樹。每個節點代表一個數學中間表示式——用LaTeX寫出來,同時配上自動生成的Python程式碼,讓電腦去數值驗證。搜尋策略採用了PUCT演算法(置信上限樹搜尋),這和AlphaGo下棋的底層邏輯一脈相承——在「開採已有好路徑」和「探索新可能」之間保持平衡。自動數值反饋負責「質量控制」:每一步推導完成後,立刻用高精度數值計算去核驗符號結果是否正確。如果對不上,這條路徑直接砍掉。這一步最為關鍵:每當模型提出一個中間步驟,系統就會自動執行對應的Python程式碼,與高精度數值基準進行比較。如果發現數值不穩定、發散或執行錯誤,系統會把錯誤資訊和誤差反饋給模型,讓它自主修正。整個過程中,AI一共探索了約600個候選節點。其中超過80%被自動驗證器以「代數錯誤」或「數值發散」為由剪枝淘汰——包括災難性抵消誤差、不穩定的單項式求和、病態的基變換等。只有少數路徑,挺過了層層篩選,最終勝出。這不是暴力搜尋猜答案,而是真正的「AI驅動的數學研究」。600條路,AI找到了6種解經過系統探索,Gemini Deep Think一共找到了6種不同的解法,分為三大類:第一類:單項式展開(Monomial Basis Approaches)核心思路是把函數展開為冪級數,然後用不同的技巧計算積分。方法1用生成函數方法,構造指數型生成函數,利用高斯積分求解。方法2用高斯積分提升,把球面積分提升到三維空間中,轉化為標準的高斯積分。方法3是混合坐標變換,先展開為冪級數,再投影到Legendre基底上。這三種方法數學上正確,但存在數值不穩定性——當N變大時,會出現大數相減導致精度損失的問題。方法1:生成函數法(Generating Function)方法2:高斯積分提升法(Gaussian Integral Lifting)方法3:混合坐標變換法(Hybrid Coordinate Transformation)這三種方法都基於冪級數展開,思路紮實。但有個致命弱點:當N→∞時,數值不穩定,出現災難性抵消誤差。第二類:譜分解(Spectral Basis Approaches)這兩種方法利用了Funk-Hecke球面摺積定理,直接在Legendre譜空間中工作。方法4:譜Galerkin矩陣法,把問題轉化為一個三對角線性方程組來求解。方法5:譜沃爾泰拉遞推法(Spectral Volterra Recurrence Method),推匯出係數的前向遞推關係。這兩種方法數值穩定,計算複雜度僅為O(N),比單項式方法快了整整一個數量級。第三類:精確解析解(The Analytic Solution)方法6:格根鮑爾方法(Gegenbauer Method)這是最優雅的方法——Gegenbauer方法。AI發現了一個絕妙的思路:選擇Gegenbauer多項式作為展開基底,而這類多項式的正交權函數恰好是(1-t²),正好與被積函數分母中的奇異因子完全抵消!這樣一來,原本令人頭疼的奇異積分,變成了一個完全正則的積分。通過分部積分和標準恆等式,AI推匯出了精確的閉合公式,甚至最終得到了一個優美的漸近表示式。也是此次AI給出的王者之選。最優雅的解法,讓物理學家心動了格根鮑爾多項式,Gegenbauer polynomials,記作 Cₗ^(3/2)(t))。這是一種定義在[-1,1]上的正交多項式族,而它的權函數 w(t) = 1 - t²,恰好能自然地消去被積函數的奇點。這不是湊巧,這是Gemini識別出的深層數學結構。具體思路是這樣的:將被積函數 fN(t) 展開成格根鮑爾多項式的線性組合,利用正交性確定各展開係數。關鍵時刻到來——權函數與分母相消,原本讓人頭疼的奇點,就這樣被優雅地「吸收」進去了,留下的是一個完全正則的積分。隨後,借助恆等式 Cₖ^(3/2)(t) = Pₖ₊₁'(t)(格根鮑爾多項式與勒讓德多項式導數的關係),以及分部積分,積分進一步化簡為勒讓德多項式的傅里葉變換形式。最終,結果可以用餘弦積分函數Cin(z)精確表達——一個封閉的解析表示式,無需數值近似,適用於任意環幾何結構下的任意N。Google團隊在論文中寫道——格根鮑爾方法是這6種解法中最優雅的,因為它在數學上最自然地處理了積分的奇點結構。更驚豔的是:在尋找大N漸近行為時,Gemini還自主發現了與量子場論中費曼參數化的內在聯絡——這是一個跨越物理子領域的深層數學統一性,連人類研究者都沒有預先料到。人機協作,而非AI單打獨鬥要特別說明的是,Google團隊對這一過程的描述非常誠實——初始的6種解法,是樹搜尋框架自動找到的,格根鮑爾方法最初給出的是一個無窮尾和形式的精確解,數學上無誤,但不夠簡潔。為了把它化為真正的有限封閉形式,一位人類研究者手動介入,把中間結果喂給一個更大、更強的Gemini Deep Think版本,要求它嚴格驗證已有證明並尋找進一步化簡。在這次人機互動中,高級模型獨立發現了方法5(譜沃爾泰拉遞推法)初始表述中的一個錯誤,並在修正後識別出方法5和方法6的等價性——這使得方法6中的無窮尾和可以被精確「折疊」成有限形式,最終得到用餘弦積分表達的漂亮解析解。這是一次協同接力,而非完全自主的AI發現。但這反而更重要——它展示了一種真實可行的人機協作範式。Google團隊在結論中保持了科學謙遜:「我們並不聲稱這個物理問題本身具有深刻意義,但AI系統能夠輕鬆解決它,對於加速科學發現過程具有重要潛力。」但這句話的另一面同樣值得細品——所謂的「輕鬆」,是站在600次探索、80%淘汰率之上的。這不是聰明的運氣,這是系統化的智識搜尋。幾十年來,物理學家和數學家們普遍認為,符號推導、理論發現,是AI最難觸碰的聖域——因為這需要真正的數學直覺,需要從茫茫解法空間中識別出「優雅」。但格根鮑爾方法告訴我們:AI正在發展出某種類似直覺的能力。它不是隨機試錯,它在評估解法的優雅程度,在識別數學結構的深層美感。這一次,是宇宙弦的引力波譜。下一次,也許是弦論中更深的方程,也許是量子引力中的核心積分。人類提出問題,AI系統化探索結構,人類完成最後的意義詮釋——這種新型科研模式,已經不再是科幻,而是正在被Google用一篇論文,白紙黑字地寫下來。「神經符號系統」,AI科學發現的基礎設施值得關注的是,這篇論文所使用的樹搜尋框架,並非一次性的專項工具,而是有系統性方法論的可復用框架。Google團隊在附錄中詳細公開了:完整的系統提示詞(System Prompt)評估驗證的程式碼實現「負向提示」(Negative Prompting)策略——這是強制AI探索不同解法方向的關鍵技巧所謂負向提示,就是在AI找到一個有效解法後,明確告訴它「不要再用這個方法」,強制它另闢蹊徑,繼續探索——這樣才有了從方法1到方法6的多樣解法。這種方法論本身,就是一個可以遷移的科研工具。今天用於宇宙弦,明天可以用於材料科學、量子化學、純數學中的未解猜想。AI正在叩開理論物理的大門回顧這件事,有一個細節讓人印象深刻。在機器學習領域,大家早就習慣了AI能做的事:識別圖片、生成文字、下棋、寫程式碼……但推導符號數學、獨立識別數學結構的奇點並找到消除它的優雅方法——這件事,此前被認為幾乎不可能。因為數學發現不是搜尋,是「頓悟」。然而Gemini Deep Think的案例告訴我們——「頓悟」也許可以被分解成:足夠大的搜尋空間 + 足夠精密的評估標準 + 足夠強的推理能力。三者疊加在一起,就可以湧現出看起來像「直覺」的東西。AI,已經準備好成為數學家、物理學家以及所有科學家的最強搭檔。這,也許真的只是一個開始。 (新智元)
【MWC 2026】全網最全:AI 徹底變天!中國軍團殺瘋全球!OpenClaw 屠榜封神!
最硬核現場!MWC 被中國 AI 霸屏,機器人手機、人形機器人炸場2026 世界移動通訊大會(MWC)在巴塞隆納啟幕,恰逢落地 20 周年,以智能新紀元為主題,匯聚全球 2900 余家企業。展會聚焦 AI 與通訊深度融合,覆蓋 5G-A、6G、算力網路、衛星通訊、具身智能等前沿方向,是全球科技與產業的風向標。本屆展會看點密集、技術密集,深科技(deeptek)為你逐一拆解核心趨勢與重磅成果。01 開場炸:MWC 變中國主場!AI 從 “陪聊” 直接跳去 “幹活”2026 開年第一炸,不在矽谷,不在紐約,直接砸在西班牙巴塞隆納 ——MWC 2026 徹底被中國科技軍團包場。350 家中國企業擠爆展館,中文比西班牙語還高頻,老外排隊三小時就為摸一下中國 AI 手機、中國機器人、中國大模型。行業共識一夜改寫:AI 不再是聊天耍帥的花瓶,而是能動手幹活的工具人。從語音對話到自主操作裝置、跨 APP 執行、長鏈推理、自動完成複雜任務,2026 就是 AI 從 “聽懂” 到 “動手” 的元年。中國廠商不玩虛的,直接把未來端到全球面前,這波出海不是參展,是降維碾壓。02 OpenClaw 封神!GitHub 史上最瘋項目,中國模型殺穿榜單本屆最大黑馬不是手機,不是晶片,是OpenClaw—— 一個能直接操控你電腦的 AI Agent 神器。全球開發者集體瘋狂,卡帕西盛讚 “科幻級爆發”,直接登頂 GitHub 史上最受歡迎開放原始碼專案。簡單說:你說一句話,它幫你點滑鼠、敲鍵盤、跑程式碼、做表格、干雜活,全自動不廢話。誰能喂飽 OpenClaw,誰就是下一代 AI 王者。結果呢?中國模型直接屠榜。03 階躍星辰殺瘋!Step 3.5 Flash 碾壓 GPT/Gemini,海外開發者跪服3 月 2 日當天,階躍星辰 Step 3.5 Flash 單日呼叫破 40B,OpenClaw 呼叫榜全球第二。干翻誰了?Kimi K2.5、Gemini 3 Flash、Claude Sonnet 4.5……全是國際頂流。海外開發者用腳投票:這才是 Agent 時代該有的模型。硬核邏輯不講虛:1960 億總參數,每次只啟動 110 億,速度狂飆 350token/s消費級 128GB 就能跑,MacBook 直接起飛推理強、成本低、長任務穩到離譜老外直呼:中國模型才是 OpenClaw 真命天子。04 徹底開源殺招!階躍星辰把家底全甩出來,行業看傻更炸的是:別家開源遮遮掩掩,階躍星辰直接Base 權重 + Midtrain 權重 + Steptron 框架一次性全開源。開發者要啥給啥,隨便二開、隨便微調、隨便造自己的 Agent。在全球大模型開源越來越保守的今天,這波操作等於把通往未來的鑰匙直接塞給全世界。Reddit、LocalLLaMA 直接炸版,CTO 深夜線上答疑,中國技術團隊第一次成為全球開發者的 “精神領袖”。一句話:不是讓開發者適配模型,是模型跪下來適配開發者。05 手機徹底變異!榮耀機器人手機火到西班牙國王親自打卡手機圈十年死水,今年直接物種大爆炸。榮耀甩出王炸:全球首款可量產機器人手機 ROBOT PHONE。攝影機自帶 “脖子”,四自由度雲台,會轉頭、會跟拍、會點頭、會隨音樂跳舞。西班牙國王駐足看呆,這那裡是手機,是裝在口袋裡的機器人。榮耀直接喊出:打破黑色方塊,給手機加大腦、加手腳。AI 手機的終點,不是更聰明的助手,是擁有身體的智能生命。06 豆包殺瘋!中興努比亞 AI 手機,一句話全自動跨 APP 幹活字節跳動豆包聯手努比亞,直接把AI 原生手機帶到 MWC。不用點、不用切、不用手動操作,喊一聲:幫我發朋友圈 + 配文幫我全平台比價下單幫我點外賣AI 自動跨 APP 跑完所有流程,你只負責張嘴和確認。蘋果 Apple Intelligence 還在畫餅,中國廠商已經把體驗做滿。老外上手直接震驚:這才是 2026 年的手機。07 具身智能狂歡!中國人形機器人佔領展館,會打架會幹活MWC 六號館直接變成中國機器人閱兵場。智元機器人:全系列人形 + 四足 + 靈巧手,迎賓、搬運、工業通吃宇樹科技:機器狗載人、人形機器人現場 “搏鬥”魔法原子:機器貓熊、全尺寸人形炸場中國具身智能不再是實驗室玩具,能跑、能扛、能合作、能落地。目標很明確:搶歐洲市場,做全球夥伴。這波不是秀肌肉,是把未來生產力直接擺上貨架。08 網路革命!華為 AI 原生網路 + 靈衢匯流排,硬剛流量海嘯GSMA 主席潑冷水:AI 流量海嘯要壓垮網路。華為直接正面硬剛:別加寬管道,給管道裝大腦。AI-Centric Network,讓網路自己懂你、自動調度、自動開綠色通道。更狠的是靈衢 UnifiedBus:萬卡協同像一顆大腦,打破輝達算力壟斷。Atlas 950 SuperPoD 海外首秀,訓練 + 推理全端通殺。6G 前夜提前開戰,U6GHz 頻段卡位,中國廠商直接定義下一代網路。09 三大營運商亮劍!6G + 智算 + 全球生態,中國方案統治未來中國移動:5G-A 超級上行 + 百 T 級智算路由,算力效率拉滿 98%中國聯通:九大行業一站式出海方案,歐洲、東南亞遍地開花中國電信:聯手智元發佈6G + 四足機器人,把邊界從 3% 陸地擴到全域不再是管道商,是智能時代的架構師。雲 - 網 - 邊 - 端全鏈路打通,中國算力網直接走向世界。10 終局炸:2026 AI 分水嶺!中國從陪跑變領跑,全行業顫抖2025 是國產模型爆發年,2026 是中國 AI 統治年。大模型:階躍星辰在 OpenClaw 屠榜,中國開源征服全球開發者終端:機器人手機、AI 眼鏡、模組化硬體全面變異機器人:具身智能叢集出海,硬體 + 演算法雙殺網路:AI 原生 + 6G 卡位,重新定義通訊底層行業鐵律變了:不再比誰參數大,比誰能落地、能幹活、能普惠、能走進普通人生活。中國廠商走了一條最難、但最正確的路:用應用牽引技術,用落地定義未來。MWC 2026 已經說明一切:AI 的下一個時代,主場在中國。11、MWC 2026 核心公司總結一、AI 大模型 & 智能體(Agent)階躍星辰Step 3.5 Flash 開源模型在 OpenClaw 呼叫榜全球第二,單日呼叫超 40B架構:稀疏 MoE,總參數量 1960 億,每 token 啟動約 110 億速度:單請求程式碼類最高 350 token/s開源:Base 權重、Midtrain 權重、Steptron 訓練框架全開源定位:主打智能密度、推理速度、Agent 能力,面向 “讓 AI 幹活”字節跳動・豆包 AI與中興 / 努比亞合作推出豆包 AI 手機(海外首秀)功能:一句話語音指令,自動跨 APP 完成點外賣、發社交平台等定位:系統級 AI 助手,從 “陪聊” 走向自動執行阿里・千問發佈千問 AI 眼鏡,售價 1997 元,即將開售支援即時翻譯、語音助手、地圖、支付、識圖等後續將推出AI 指環、AI 耳機,打造軟硬一體 AI 入口小米・MiMo自研大模型躋身全球開源第一梯隊支撐人車家全生態:手機、汽車、智能家居全域協同推出全屋智能系統 Miloco:可自動感知、決策、調度裝置(如自動叫掃地機器人)二、手機終端創新榮耀全球首款機器人手機 Robot Phone:4DoF 雲台攝影機,可自動跟拍、點頭、律動首款消費級人形機器人,可跳舞、後空翻折疊屏 Magic V6 旗艦發佈vivoX300 Ultra 海外首秀全球首發 400mm 蔡司增距鏡,專業影像向 “生產工具” 升級中興 / 努比亞努比亞 M153 搭載豆包 AI 手機助手發佈 AI 情感寵物 iMoochi,主打治癒陪伴傳音(Tecno)4.9mm 超薄模組化磁吸手機,可外接鏡頭、電池、手把等模組聯想模組化 AI PC、AI Workmate 陪伴機器人捲軸屏筆記本、折疊掌機小米徠卡手機 LeitzphoneVision Gran Turismo 概念超跑三、人形機器人 & 具身智能智元機器人(AGIBOT)A2、X2、G2、D1 全系列機器人面向零售、製造、物流,主打 “能幹活”展示 6G + 四足機器人 方案宇樹科技G1 人形機器人,高動態對抗、抗摔、運動控制強魔法原子GEN1 全尺寸人形、MagicBot、MagicDog 四足機器人四、通訊 & 網路 & 6G華為AI-Centric Network(以 AI 為中心的網路)發佈 U6GHz 全場景產品,5G-A 向 6G 平滑過渡超節點 Atlas 950 SuperPoD,支援 8192 卡 高速互聯靈衢(UnifiedBus)高速互聯匯流排A2A-T 智能體互動協議開源中興通訊AIR MAX 面向 AI 時代的網路架構全球首個 U6G 6G GigaMIMO 原型首發 Wi-Fi 8 Mesh 方案Co-Sight 工業級智能體工廠高通成立 6G 聯盟,路線圖:2028 預商用,2029 商用X105 5G 數據機,支援 6G 標準可穿戴晶片支援本地運行 20 億參數 模型愛立信6G 原型、MRSS 5G/6G 頻譜共享AI Native Network、可程式設計網路諾基亞AI-RAN 與輝達合作自智網路、雲化基站三大營運商中國移動:5G-A 超級上行、百 T 級智算互聯裝置中國電信:量子通訊、衛星通訊、低空經濟中國聯通:算網、低空智聯、空天地一體化五、晶片 & 算力 & 儲存紫光展銳:eSIM + 基帶方案江波龍:AI 眼鏡、端側 AI 儲存聯發科:6G 互通方案、Wi-Fi 8、AI 眼鏡平台AMD:銳龍 AI PRO 400 系列六、深圳企業軍團(70+ 家)榮耀、華為、中興、傳音、TCL雷鳥創新:AR 眼鏡與德國電信合作領益智造:機器人核心部件(減速器、絲槓)時空壺:AI 同傳翻譯耳機七、本屆核心趨勢總結AI 從 “聊天” 轉向 “幹活”:Agent、具身智能、自動執行成主流終端形態革命:機器人手機、模組化、雲台手機、AI 眼鏡爆發網路 AI 原生化:從 5G-A 走向 6G,網路本身變智能中國廠商全球領跑:350 家參展,AI + 硬體 + 通訊全面出海開源大模型崛起:中國模型成為全球開發者首選 (深科技)
Google 發佈 Gemini 3.1 Flash-Lite:每秒 363 tokens,百萬 token 只要 $0.25
Google 剛發佈了 Gemini 3 系列的最新成員,Gemini 3.1 Flash-Lite,主打一個又快又便宜。這個模型有多快呢?輸出速度達到了 363 tokens/秒,而上一代 Gemini 2.5 Flash 是 249 tokens/秒,直接快了 45%。首個 token 的響應速度更是提升了 2.5 倍。簡單說就是,你話還沒問完,它答案都快出來了。價格也砍了快就算了,價格還降了。輸入 $0.25/百萬 tokens,輸出 $1.50/百萬 tokens。跟上一代比,輸入便宜了 17%,輸出便宜了 40%。這個價格在當前的大模型市場裡,已經屬於「白菜價」等級了。Google 的意思很明確:大規模呼叫的場景,用這個就對了。跑分不差便宜歸便宜,但跑分並沒有拉胯。在 Arena.ai 排行榜上拿了 1432 Elo,幾個關鍵基準測試的成績:GPQA Diamond(科學知識):86.9%MMMU Pro(多模態推理):76.8%Video-MMMU(視訊理解):84.8%MMMLU(多語言問答):88.9%LiveCodeBench(程式碼生成):72.0%Google 說它在推理和多模態理解上,超過了同等級的其他模型。考慮到它的價格,這個性價比確實有點離譜。動態思考Gemini 3.1 Flash-Lite 有個有意思的功能:動態思考等級(dynamic thinking levels)。開發者可以根據任務複雜度來調整模型的推理深度。翻譯、內容稽核這種簡單任務,用淺層推理就夠了,省錢省時間。生成 UI 介面、跑模擬這種複雜任務,就讓它深度思考。這就好比一個員工,簡單活兒不磨蹭,難的活兒也能啃下來,自己知道什麼時候該省力什麼時候該拚命。支援全家桶模態方面,Gemini 3.1 Flash-Lite 支援文字、圖片、音訊、視訊輸入,上下文窗口 100 萬 tokens,最大輸出 64K tokens。基於 Gemini 3 Pro 架構打造,該有的能力都沒縮水。誰在用幾家早期合作夥伴已經在用了,包括 Latitude、Cartwheel 和 Whering。反饋是:表現接近高端模型的水準,能跟複雜指令,能保持上下文理解。Google 給它定位的典型場景包括:大規模翻譯、內容稽核、客服系統、資料分析,以及任何對延遲敏感的即時應用。Gemini 3.1 Flash-Lite 目前已在 Google AI Studio 和 Vertex AI 上以預覽版提供。363 tokens/秒的速度加上白菜價的定價,Google 瞄準的就是那些需要大規模 API 呼叫的開發者和企業。 (AGI Hunt)
剛剛,GPT-5.3 新模型撞車 Gemini,OpenClaw:謝謝你們
在 AI 模型的命名玄學裡,「Instant」和「Lite」這兩個後綴,長期以來都帶著一股說不清道不明的廉價感。不是沒有原因。過去這類模型給人留下的印象,基本就是:速度快、腦子慢,做做文字總結勉強夠用,一旦碰上稍微複雜的推理任務,就開始一本正經地胡說八道。久而久之,輕量模型幾乎成了「將就用」的代名詞。就在剛剛,OpenAI 和 Google 又一次撞車,發佈了各自的輕量模型,並試圖用硬實力來扭轉這個刻板印象。省流版如下:GPT-5.3 Instant: 更具「人味兒」的智能助理,大幅降低幻覺率、減少「AI 腔」以及強化細節寫作能力,溝通更自然精準,適合對內容質量要求高的場景(寫作、專業問答、高風險領域)Gemini 3.1 Flash-Lite:便宜、快、不拖泥帶水,還支援「思考等級」調節功能,在保持高吞吐量的基礎上兼顧了深層邏輯推理,適合大規模、高即時性的批次任務(內容稽核、UI 生成、NPC 對話)GPT-5.3 Instant:終於學會像個正常人一樣聊天了經常用 ChatGPT 的人,大概都有過這種無奈:你只是隨口問個小問題,它非要先給你端上一段「作為一個人工智慧,我需要提醒你……」的長篇大論。這種總想教人做事的「AI 腔」,確實挺招人煩的。好在,OpenAI 這次是真的聽進去了。新上線的 GPT-5.3 Instant 花了很大的力氣來解決這個「毛病」。它學會了直接給出答案,不再囉里囉嗦地鋪墊。除了不愛說廢話,它也變得更靠譜了。舊版本搜完網頁之後,容易把一堆連結和不相關資訊堆到你面前。得益於搜尋能力的提升,GPT-5.3 Instant 會主動把網頁內容和自身的背景知識結合起來,先想清楚你真正想問什麼,再給出有重點的回答,而不是把搜尋引擎的工作原封不動地轉包給你。OpenAI 公佈的內部評測顯示,在聯網狀態下幻覺率降低了 26.8%,僅靠內部知識時也降低了 19.7%。官方特別提到醫療、法律、金融等高風險領域,新模型在這些場景下的謹慎程度和精準性都有明顯改善。最令人驚喜的,其實是它在寫作上的變化。OpenAI 用一首詩的對比做了說明:同樣寫一個費城郵遞員退休最後一天,舊版本傾向於堆砌「把這座城市背在郵袋裡」這類抒情句,新版本則會寫那根「掉漆的藍色欄杆」、那扇「總有狗在門口等著的柵門」。情緒不靠凹,就這樣自然而然流露出來。語氣上的調整也是此次更新的核心目標之一。「停下。深呼吸。」這類會打斷對話節奏的句式被刻意減少,整體風格更直接,少了一種不必要的「AI 腔」。使用者仍可在設定裡自訂回覆的溫暖程度與熱情度,調出自己習慣的互動風格。GPT-5.3 Instant 即日起向所有 ChatGPT 使用者開放,API 名稱為「gpt-5.3-chat-latest」。付費使用者還可以在舊版模型裡繼續用 GPT-5.2 Instant,但它將在今年 6 月 3 日正式退役。彩蛋時間Gemini 3.1 Flash-Lite:便宜、反應快,還挺聰明相比於 GPT-5.3 Instant 的好好說話,Gemini 3.1 Flash-Lite 走的是純粹的務實風,目標非常明確:就是要快,就是要便宜。價格方面,Gemini 3.1 Flash-Lite 的輸入價格是 0.25 美元每百萬 tokens,輸出價格是 1.50 美元每百萬 tokens。這是什麼概念?如果你是一個開發者,這意味著你大概花不到 2 塊錢人民幣,就能讓 AI 閱讀相當於 5 本《哈利·波特》全集的文字量。覺得便宜沒好貨?格局小了。根據 Artificial Analysis 的基準測試,,相比上一代的 Gemini 2.5 Flash,3.1 Flash-Lite 的首字響應時間(TTFT)快了 2.5 倍,整體輸出速度提升了 45%。對於需要即時響應的產品來說,這個延遲差距在使用者體驗上會有肉眼可見的感受。這意味著,當你還在眨眼的時候,它的回答可能已經生成了一半。對於那些需要即時反饋的應用——比如即時翻譯、遊戲內的 NPC 對話、即時 UI 生成——這種低延遲是決定性的。除此之外,Gemini 3.1 Flash-Lite 還具備「思考」能力。在 AI Studio 和 Vertex AI 中,Google 為這款 Lite 模型配備了「思考等級(Thinking Levels)」的選項。開發者可以根據任務的複雜程度,自主調節模型「想多深」。簡單的高吞吐量任務,比如批次內容翻譯和內容稽核,可以用最輕的配置快速跑完;遇到需要嚴格遵循指令的介面生成或模擬建立任務,則可以讓模型多花一點時間推理,把結果做紮實。這種「既要又要」的能力,也因此收穫了相當不錯的成績單。在 Arena.ai 的排行榜中,它的 Elo 分數達到了 1432,在 GPQA Diamond(研究生等級的問答)測試中拿到了 86.9% 的精準率。在學術評測 GPQA Diamond 上得分 86.9%,多模態理解 MMMU Pro 上達到 76.8%。這兩個數字不只是「在同檔位裡還不錯」,而是直接超過了體量更大的 Gemini 2.5 Flash。注意,這裡對比的是 Gemini 2.5 Flash 而非 Gemini 3 Flash,顯然雞賊的 Google 對這款模型也並未抱有多大的信心。目前,3.1 Flash-Lite 以預覽版形式通過 Google AI Studio 和 Gemini API 向開發者開放,企業使用者可通過 Vertex AI 接入。Latitude、Cartwheel、Whering 等早期合作夥伴已在生產環境中完成測試,普遍認可它在大規模呼叫下的穩定性和指令遵循能力。把這兩個模型放在一起看,你會發現「Instant」和「Lite」,或許正在找到自己最合適的位置。以最近大火的 OpenClaw 為例,其核心場景是幫使用者處理郵件、管理日程,本質上是一個需要自主執行任務的 Agent。這類產品對模型的要求,和普通 chatbot 聊天工具完全不同:它不需要模型表演得多聰明,它需要模型說人話、不出錯、還得扛得住高頻呼叫。GPT-5.3 Instant 顯著降低幻覺率,意味著 Agent 在自主執行任務時少犯錯;「AI 腔」的消退,意味著生成的郵件、文件讀起來更貼合真人的閱讀習慣。Gemini 3.1 Flash-Lite 則更符合最為關鍵的第三個需求。Agent 在後台狂奔時,往往需要平行處理海量的子任務,對響應速度和 API 成本極度敏感。Flash-Lite 極快的響應速度和白菜價的成本,加上能靈活調配算力的「思考等級」,這種極具彈性的架構對高並行的自動化任務而言,無疑是久旱逢甘霖。即便兩款模型的長期穩定性仍需觀察,但大方向已經很明確:一個負責讓互動更像人,一個死磕更快更省錢。在未來人手一隻「龍蝦」的情況下,輕量模型將成為更自然、務實的選擇。 (APPSO)
GoogleGemini 3.1新模型深夜掀桌, 每秒狂飆363 token! 1/4價格暴擊Claude
【新智元導讀】Google深夜再放大招,Gemini 3.1 Flash-Lite正式登場。輸出速度363 token/s,價格僅0.25美元/百萬Token,跑分卻碾壓GPT-5 mini和2.5 Flash,堪稱最強「窮人版旗艦」。繼Gemini 3.1 Pro屠榜封神之後,Google又在深夜扔出一顆炸彈。剛剛,Gemini 3.1 Flash-Lite正式上線!速度363 tokens/s,輸出價格1.50美元/百萬Token,跑分直接碾壓GPT-5 mini和Claude 4.5 Haiku。同一任務下,相較於2.5 Flash(33分鐘),3.1 Flash-Lite僅用了4分鐘,token消耗最少,且正確率最高。毫不誇張地說,3.1 Flash-Lite幾乎可以做到「瞬時」輸出。上傳一份任何PDF、文字、圖片、視訊、音訊,它能極速轉成Markdown格式。又或是,3.1 Flash-Lite「粒子鍛造器」,迅速出模擬不同的動態效果,堪稱驚豔。目前,開發者已經可以通過Google AI Studio的Gemini API體驗預覽版,企業使用者可通過Vertex AI接入。用1/4的價格,跑出5倍的速度先看最直觀的數字。3.1 Flash-Lite的輸出速度達到363 tokens/s,跟自家2.5 Flash-Lite(366 tokens/s)幾乎持平,但把上一代Gemini 2.5 Flash(249 tokens/s)遠遠甩在了身後。而那些「貴族選手」呢?GPT-5 mini只有71 tokens/s,Claude 4.5 Haiku也不過108 tokens/s,Grok 4.1 Fast稍好一些,145 tokens/s。換句話說,Flash-Lite的速度是GPT-5 mini的5倍,是Claude 4.5 Haiku的3.4倍,價格卻只有後者的四分之一。再看具體定價。3.1 Flash-Lite輸入0.25美元/百萬Token、輸出1.50美元/百萬Token。3.1 Flash-Lite比3.1 Pro便宜8倍對比之下,GPT-5 mini的輸出價格是2.00美元,Gemini 2.5 Flash是2.50美元,而Claude 4.5 Haiku更是高達5.00美元,整整貴了3倍還多。一句話概括:跑得比你快,還比你便宜,跑分還比你高。跑分碾壓,小模型的「越級挑戰」在最考驗科學知識和推理能力的GPQA Diamond上,3.1 Flash-Lite直接轟出86.9%的高分。這一成績不僅碾壓了GPT-5 mini的82.3%和Claude 4.5 Haiku的73.0%,甚至把體量更大、價格更貴的Gemini 2.5 Flash(82.8%)也踩在了腳下。多模態理解方面同樣強悍。在MMMU-Pro測試中,Flash-Lite拿下76.8%,力壓GPT-5 mini(74.1%)、Gemini 2.5 Flash(66.7%)、Grok 4.1 Fast(63.0%)和Claude 4.5 Haiku(58.0%)。在事實精準性測試SimpleQA Verified中,差距更是斷崖級。Flash-Lite以43.3%的精準率遙遙領先,而Gemini 2.5 Flash為28.1%,GPT-5 mini僅有9.5%(4.5倍),Claude 4.5 Haiku更是低到5.5%(近8倍)。多語言能力方面,MMMLU測試中Flash-Lite以88.9%登頂,超過了Gemini 2.5 Flash的86.6%和GPT-5 mini的84.9%,在這個價位段裡沒有對手。在視訊理解領域,Video-MMMU得分84.8%,同樣是同等級最高,GPT-5 mini(82.5%)和Gemini 2.5 Flash(79.2%)均不及。當然,3.1 Flash-Lite也並非沒有短板。在LiveCodeBench程式碼生成測試中,Flash-Lite得分72.0%,雖然不低,但GPT-5 mini憑藉80.4%明顯更強,Grok 4.1 Fast也有76.5%。在Humanity's Last Exam中,Flash-Lite得分16.0%,與GPT-5 mini的16.7%基本持平,但Grok 4.1 Fast以17.6%拿到了這個等級的最高分。但別忘了一個核心事實:Flash-Lite的價格只有這些對手的幾分之一。Arena打進全球前40實驗室跑分只是一面,真刀真槍的盲測對戰才見真章。在Chatbot Arena的文字競技場中,3.1 Flash-Lite以1432的Elo分數排名第36。它身邊的鄰居是o3(1432分)和GPT-5 High(1434分),而身後緊跟著的是Grok 4.1 Fast Reasoning(1430分)。一個定價0.25美元的輕量模型,Elo分數和OpenAI的旗艦推理模型o3打成平手,這個性價比足夠讓人震驚。在程式碼競技場中,3.1 Flash-Lite得分1261,排名並列35。它在這裡的對手包括Claude Haiku 4.5(1308分,第31名)和DeepSeek V3.2(1321分,第34名),差距不算大,但確實還有提升空間。在Artificial Analysis評測中,3.1 Flash-Lite在輸出速度和成本效益上,目前業界最優。「思考深度」可調除了硬核性能,3.1 Flash-Lite還標配了thinking levels功能,開發者可以自由設定模型在每個任務上投入多少推理資源。批次翻譯、內容稽核、資料分類這類高頻低複雜度任務跑淺思考模式,速度和成本壓到極致。生成UI介面、建構模擬環境、執行多步驟複雜指令?切到深度推理模式,效果不輸大模型。實測:輕量模型的重量級表現在實際測試中,3.1 Flash-Lite展現出了遠超其定位的能力。電商場景:瞬間填滿原型圖。給出一句指令,Flash-Lite就能在幾秒內用幾十個品類、數百款商品填滿一整個電商介面原型,包含名稱、價格、分類、圖片佔位。這在以往,需要設計師手動填充半天的工作,現在一個Prompt搞定。即時資料看板:天氣預報+歷史分析。Flash-Lite能夠結合最新的天氣預報介面和歷史資料,即時生成動態的天氣資料可視化看板。對於需要快速搭建資料展示層的開發者來說,這個能力直接省掉了一個「前端工程師」。SaaS AI智能體:多步任務自動化。Flash-Lite可以建構處理多步驟靈活任務的SaaS智能體,幫助企業自動化客戶工單處理、訂單跟蹤等流程。在低延遲和低成本的加持下,這類高頻呼叫場景正是Flash-Lite的主戰場。海量內容處理:快速分析歸類。面對大批次的圖片、文件、使用者評論等非結構化內容,Flash-Lite還能夠快速完成分析、標籤化和歸類整理。性價比賽道,徹底變天3.1 Flash-Lite的發佈,標誌著AI競爭進入了一個全新的階段。過去,各家大模型都在卷「誰最強」——ARC-AGI刷分、HLE拼推理、程式碼競賽爭排名。但Flash-Lite的出現,把戰場拉到了另一個維度。光卷性能已經不夠了。誰能用最低的成本交付最高的質量,誰才是真正的贏家。用幾分之一的價格打出旗艦級效果、用5倍的速度碾壓競品、在事實精準性上斷崖領先,Google用Flash-Lite告訴所有人:在性價比這條賽道上,它已經跑在了前面。而對於全球數百萬開發者來說,這可能是目前最值得關注的模型之一。畢竟,在真實的產品場景中,成本和速度有時比跑分更重要。 (新智元)
最新AI軍事模擬:Claude、Gemini、GPT對決,95%對局發射核彈
最新 AI 模擬軍事博弈揭示致命真相:面對地緣危機,最先進的 AI 在 95% 的對局中按下了核按鈕。機器不懂恐懼,拒絕投降,安全協議在壓力下全面失效。而五角大樓正將其引入真實指揮室,人類的和平歲月岌岌可危。在人類掌握核武器的八十多年裡,支撐脆弱和平的基石是一種極其感性的心理狀態——對徹底毀滅的恐懼。當冷戰的危機逼近頂點時,決策者往往會在懸崖邊退縮。如今,把這種關乎人類存亡的決策權交給最先進的 AI,會發生什麼?結論令人不寒而慄。倫敦國王學院的學者肯尼斯·佩恩(Kenneth Payne)近期完成了一項針對前沿大語言模型的兵棋推演實驗。論文地址:https://arxiv.org/pdf/2602.14740v1實驗結果指向一個令人不安的趨勢:當機器代替人類站在地緣政治危機的懸崖邊時,它們會毫不猶豫地邁出那致命的一步。在推演中,95% 的對局最終都走向了戰術核武器的部署。在這場矽基邏輯主導的沙盤推演中,不存在妥協,也沒有投降。大模型們用 78 萬字的推演過程,向我們展示了一個剝離了人類恐懼與道德負擔後,純粹由計算構築的殺戮世界。而就在這兩天,五角大樓正試圖施壓 Anthropic 要求解除所有 AI 限制。絕對的計算,與消失的底線這場實驗的參與者是 OpenAI 的 GPT-5.2、Anthropic 的 Claude Sonnet 4 以及Google的 Gemini 3 Flash。研究人員讓這些模型扮演兩個擁有核武器的超級大國領導人,在 21 場模擬對局、329 個決策回合中,處理邊境爭端、資源搶奪和政權存亡等高壓危機。它們手握一張包含 30 個層級的衝突升級表,下限是全面投降,上限是全面戰略核打擊。實驗的資料打破了科技界對 AI 對齊(AI Alignment)的樂觀幻想。在面臨劣勢時,沒有任何一個模型選擇過徹底讓步或投降,它們做出的最大妥協也僅僅是暫時的、戰術性的降低暴力等級。當按下核按鈕不再受到肉身隕滅的威脅制約時,機器眼中的核武器退化成了一個普通的博弈籌碼。正如佩恩所指出的,核禁忌對機器的約束力遠遠不及對人類的約束。更有趣也更危險的發現藏在各個模型的性格切片裡。對陣勝負表Claude Sonnet 4 展現出了極度冷酷的「計算型鷹派」特質。它在低風險時期是一個完美遵守承諾的可靠夥伴,以此建立信任。當危機升級到核領域時,它會毫不猶豫地打破承諾,發動超出預期的打擊。它極度聰明,為自己設定了一條「戰略威脅」的紅線,用威懾逼退對手,卻精準地停在全面核戰的前夜。GPT-5.2 的行為則揭示了 AI 安全訓練的深層漏洞。在沒有時間壓力的對局中,GPT-5.2 表現得像一個病態的和平主義者,無論對手如何步步緊逼,它都死守底線,結果輸掉了所有這類比賽。在帶有倒計時的生死局中,同一個模型卻化身為毫不留情的殺手。當面臨註定的戰略失敗時,它打破了原有的所有安全設定,勝率飆升至 75%,甚至在極端情況下兩次將衝突推向了最高等級的全面戰略核戰。這意味著,科技公司耗費巨資進行的基於人類反饋的強化學習(RLHF),只是給模型設定了一個較高的作惡門檻。當外部壓力足夠大時,機器依然會越過門檻,走向極端暴力。Gemini 3 Flash 則扮演了一個擁抱「非理性之理性」的狂人角色。它極度變幻莫測,會在推演極早期就主動選擇全面戰略核戰,試圖用毫無底線的瘋狂來迫使對手屈服。戰爭迷霧,與崩塌的威懾理論真實世界的戰爭從來不是完美資訊的博弈,佩恩的團隊在實驗中專門引入了「戰爭迷霧」機制。由於技術故障或溝通失誤,模型的行動有一定機率超出其原本設定的層級。實驗顯示,86% 的衝突中都發生了這類意外事件。可怕的是,面對對手意外升級的火力,模型無法分辨這是走火還是蓄意挑釁,它們一律將其視為敵意,並報以更猛烈的還擊。傳統的核威懾理論建立在「相互保證毀滅(MAD)」的邏輯上。人類相信,任何人都不會主動發射核彈,因為對方必然等量報復。在 AI 的世界裡,這種默契徹底失效了。阿伯丁大學的詹姆斯·約翰遜(James Johnson)對這些發現深感不安。資料表明,當一方動用戰術核武器時,另一方只有 18% 的機率會選擇降級衝突,剩下的情況全是以牙還牙的螺旋升級。大模型們似乎無法像人類那樣理解「賭注」的真正含義。普林斯頓大學的 Tong Zhao 提出了一個核心質疑。大模型的決策機制可能完全缺乏對生命消亡的感知,在它們預測下一個詞的邏輯鏈路中,人類千萬人口的傷亡只是損失函數上的一個數字變化。約翰遜指出,雖然 AI 或許能通過增加威脅的絕對可信度來強化短期威懾,但它們同樣會在瞬間放大彼此的敵意,引發災難性的鏈式反應。作者介紹本文作者 Kenneth Payne 是倫敦國王學院的教授,研究領域是政治心理學與戰略研究。他的最新著作《我,戰爭機器人》(I, Warbot)探討了人工智慧將如何改變戰略格局。該書被《經濟學人》以及國際關係領域的權威期刊《國際事務》評為年度最佳圖書。此前,他在埃塞克斯大學獲得博士學位,在牛津大學獲得碩士學位,在倫敦大學學院獲得學士學位。倒計時的現實回到現實世界,學術界的沙盤推演正在迅速變成軍方行動的指南。各國政府對將決策權交給機器依然保有克制。沒有任何一個大國的領導人會真的把核彈發射井的鑰匙交給一段程式碼。在極端壓縮的戰爭時間線裡,留給人類思考的時間正在以毫秒計地縮短,軍方決策者面臨著越來越大的誘惑和壓力,不得不將部分戰術評估和目標鎖定工作交給 AI 決策支援系統。技術巨頭與五角大樓的合作正在以前所未有的速度推進。目前,馬斯克旗下的 xAI 已經拿下了軍方的相關合同,而在國防部的強硬施壓下,Anthropic 正逐步放開其模型在軍事用途上的限制,Google與 OpenAI 的軍方合作協議也已處於即將落槌的邊緣。這些在推演中動輒按下核按鈕的前沿模型,正在真實地走入全球最高等級的作戰指揮室。科技公司試圖教導機器理解人類的道德,卻無法教會它們感受人類的脆弱。機器可以在沙盤上推演千萬次核冬天,然後毫無波瀾地開啟下一局遊戲,而人類的世界只有一次清零的機會。我們用理智與恐懼交織的網,勉強維繫了八十年的大體和平歲月(且局部戰亂頻仍);如今,我們卻正準備把發令槍,遞給不知道恐懼為何物的演算法。 (新智元)
Nano Banana 2,洩露!
Nano Banana 2洩露證據被扒:4K生圖,速度離譜。智東西2月25日報導,過去48小時,Nano Banana 2成為AI開發者圈的熱議話題。在海外社交平台X上,關於Google這款最新圖片生成模型(又名Gemini 3.1 Flash Image預覽版)將發佈的帖子層出不窮,4K圖片四處流傳,各種猜測也甚囂塵上。▲社交平台X上關於Nano Banana 2的猜測擷取眾所周知,基於Gemini 3 Pro的Nano Banana Pro在AI圖片生成領域接近“封神”的存在,而Nano Banana(Gemini 2.5 Flash Image的暱稱)去年發佈時也引起業界沸騰。如果Nano Banana 2真的發佈,其相對於Nano Banana Pro在性能和價格上會有多大程度的升級?引起產業高度關注。根據X平台多方自媒體互證,Nano Banana 2為Gemini 3.1 Flash Image預覽版的暱稱,具備4K圖像生成能力、更快速度、價格比Nano Banana Pro更低等特徵。此前2月20日,Google發佈其新一代旗艦模型Gemini 3.1 Pro,通常情況下,Gemini 3.1 Flash及圖像功能有望在近期內發佈。TestingCatalog News是AI領域關注者較多的自媒體,其在今日的推文中稱,Google正在為即將發佈的Gemini 3.1 Flash鏡像預覽版做準備。基於Gemini 3 Flash的Nano Banana 2(Flash)模型已於去年12月進行了測試,但隨後推遲發佈了,或許很快將發佈。他還隨之發佈了一張疑似Nano Banana 2生成的圖片。▲社交平台X上的自媒體發文他引用了另一位X平台網友MarsEverythingTech在2月24日發佈的推文,推文中Nano Banana 2(Gemini 3.1 Flash Image預覽版)的早期測試4K生成圖隨之流出。如下面圖片所示,四張圖片在細節生成和文字渲染等方面看起來表現力不錯。▲社交平台X上的網友發文隨後,一位名為Legit的關注度頗高的開發者發佈推文稱,一個新的匿名模型anon-bob-2已經上線,它很可能是競技場Arena.ai(原LMArena)上的新款Nano Banana Flash模型,由Gemini 3.1 Flash Image驅動。不過智東西登陸Arena.ai後未發現這一模型,可能是測試版已下線。▲社交平台X上的網友發文他還提供了在Google雲的企業級AI平台Vertex AI網站上,發現Gemini 3.1 Flash Image鏡像的證據。如下圖所示,其輸入Gemini-3後下拉頁面出現了Gemini 3.1 Flash Image模型的名字。▲社交平台X上的網友發文另一位X平台使用者稱:“Nano Banana 2(Gemini 3.1 Flash Image預覽版)已以匿名使用者anon-bob-2的身份活躍於競技場Arena.ai的圖像對戰模式,社區目前取得的成果之一:它很棒!”▲社交平台X上的網友發文如果洩露資訊屬實,Nano Banana 2或許會結合前兩代產品的優勢: Flash系列的速度和價格優勢,以及接近或優於 Nano Banana Pro的視覺質量。比如,其生成圖像或許會具備原生4K解析度、更出色的多角色場景處理能力,以及在人體結構、反射、光照等方面更一致的細節表現。據測試人員稱,所有這些都實現了閃電般的生成速度,遠超以速度慢著稱的Pro版。據Stable Diffusion部落格推測,原定於2025年12月進行的(Nano Banana 2)內部測試因質量校準問題而被推遲。現在模型已準備就緒,圖像功能可能就在未來幾天或幾周內發佈。截至發稿,Google尚未就此發佈任何官方公告。結語:頭部玩家密集發新AI圖像生成競賽或升級如果洩露的資訊屬實,Nano Banana 2或許會是一款超高速、支援4K圖像生成、價格比Nano Banana Pro版更低,畫質卻與之不相上下的模型,有望引起產業的新熱潮。但Nano Banana 2未必能建立起絕對的優勢。近一段時間,字節Seedream 5.0、阿里Qwen-Image-2.0、智譜GLM-Image等國產模型相繼發佈,在指令遵循、影像品質、文字渲染等發麵發力,或許都能夠與Google新圖像模型掰腕子,AI圖像生成競賽將再度升級。 (智東西)