#GPT
OpenAI將要被反殺?Google這一局,埋了整整十年……
2023 年初的那個冬天,當 ChatGPT 橫空出世,驚豔全球時,Google 看起來像是一個垂垂老矣的巨人。圖片 | 來自網路華爾街拋售股票,內部發佈“紅色程式碼”(Code Red),關於“搜尋已死”的訃告充斥著科技媒體的頭版,內部員工一邊調侃自己在“養老廠”,一邊焦慮。當時的金融和科技領域均不看好效率低下的搜尋業務然而,僅僅不到三年後的今天,戰局的風向正在發生微妙而劇烈的逆轉。當 OpenAI 為昂貴的算力帳單發愁,當整個行業因為 Nvidia GPU 的產能瓶頸而焦慮時,Google 卻憑藉 Gemini 模型展示了百萬級的長文字能力,並悄然建構了全球成本最低的 AI 推理基礎設施。對,是全球。資料顯示,自 Gemini 3 發佈以來的過去 6 周內,ChatGPT 的流量下降了 22%,7天平均訪問使用者數從約2.03億下降到約1.58億。這可能與假期流量回落有關,但Gemini的流量保持基本持平,而且目前已經達到ChatGPT的約40%。ChatGPT 與 Gemini流量對比而這場勝利的草蛇灰線,早在 2013 年就已經埋下——今天我們就要盤一下,Google最具遠見、也最瘋狂的兩筆賭註:一是自研晶片 TPU,二是收購 DeepMind。而連接這兩者的關鍵,則是 2023 年那場壯士斷腕般的組織變革。01 自研晶片TPU故事的起點,始於 2013 年Google內部的一次“數學恐慌”。彼時的Google坐擁全球最大的 CPU 資料中心。然而,工程傳奇 Jeff Dean 做了一個粗略的紙上演算:如果全球數億Android使用者每天只使用 3 分鐘的語音搜尋,Google現有的資料中心規模就需要翻倍。但在摩爾定律已現疲態的背景下,這在帳上根本行不通,因為僅電費和伺服器採購成本就能將Google的利潤吞噬殆盡。唯一的出路就是——改變計算架構。Google首席科學家 Jeff Dean於是,硬體負責人 Norm Jouppi 帶隊,在高度保密的狀態下,僅用 15 個月就完成了從設計到部署的急行軍。TPU(Tensor Processing Unit)誕生了。TPU v1 是一個極端的“偏才”,它砍掉了所有不需要的功能,專註解決一個問題,那就是——如何在有限的電力和預算下,跑模型(Inference)。深度學習(Deep Learning)聽起來高大上,但它在晶片內部干的最多的活其實是“矩陣乘法”。這就像你做一頓土豆主題的滿漢全席,雖然菜譜很複雜,但90%的時間其實都在切土豆絲(做簡單的乘法和加法)。CPU和GPU好比是博學的教授,雖然聰明但幹活“死板”,每切一刀都要跑一趟倉庫拿放土豆,時間全浪費在“跑路”(記憶體存取)上了;而TPU不用太聰明,它引入的“脈動陣列Systolic Arrays”就像是由 256 個切土豆工人排成的方陣——第一個人切一下,直接遞給身邊的第二個人,第二個人切完遞給第三個人……不需要頻繁跑倉庫就能被連續加工256次。正因為省去了大量無效的搬運時間,即使是2015年部署的 TPU v1,以 28nm 的老舊工藝和僅 40W 的功耗(就像一個燈泡),在推理性能上比當時輝達的旗艦 K80 GPU 快了 15-30 倍,能效更是高出 30-80 倍。這是Google的第一次隱秘勝利。TPU 在多層感知器MLP、時間循環神經網路LSTM、摺積神經網路CNN的計算效率上,顯著高於傳統的CPU和GPU也就是說,在外界還在搶購昂貴的 GPU 時,Google已經在用接近物料成本(BOM Cost)的價格,大規模部署自己的 AI 加速器。更關鍵的是,輝達的硬體毛利率高達 70% 以上,而Google自研 TPU 意味著它不需要繳納這筆昂貴的“過路費”。這為十年後,AI從“炫技”轉向“大規模工業化生產”時,Google擁有的極低邊際成本埋下了伏筆。02 最成功的投資 ——Deep Mind如果說造 TPU 是為瞭解決“算得快”的問題,那麼收購 DeepMind 就是為瞭解決“算什麼”的問題。差不多在同一時期(2014 年),Google擊敗 Facebook(Meta),以超過 6 億美元的天價收購了一家位於倫敦、沒有任何產品、只有十幾名員工的創業公司。站在今天看,如果沒有這筆收購,Google在 ChatGPT 的攻勢面前很可能會直接“猝死”。說回2014,當時,深度學習剛剛萌芽。Google內部雖然有 Jeff Dean 領導的Google Brain,但Google Brain的基因是“工程師文化”——他們想的是如何用 AI 最佳化搜尋排名、識別貓的視訊、提升廣告點選率。但DeepMind 的創始人Demis Hassabis不一樣,他從小就是一位天才,是前國際象棋神童,是一個神經科學家和遊戲設計師。他的願景與Google截然不同,甚至有些“瘋魔”:“解決智能,然後用它解決一切。”(Solve Intelligence, and then use it to solve everything else.)同為天才的拉里·佩奇(Larry Page)看懂了這一點——DeepMind 研究的不是某種“工程”,而是 通用人工智慧(AGI)。所以,從這個角度看,這筆收購的本質,是Google買斷了當時地球上最聰明的一群 AI 大腦。而且為了達成交易,Google甚至簽下了一份極其罕見的協議:成立“倫理委員會”,承諾DeepMind的技術永遠不用於軍事。這奠定了後來雙方長期“一國兩制”的基調。所以,我們看到收購後的前七年(2014-2021),DeepMind 實際上是Google供養在倫敦的“梵蒂岡”——神聖、高冷、且極其燒錢,要知道,DeepMind 長期處於虧損狀態(甚至一度單年虧損 6 億美元),而他們對Google的核心業務(廣告、雲、Android)幾乎沒有任何直接貢獻。好在這麼多錢砸下去還是能聽到個響的——2016 年,AlphaGo 擊敗李世石,宣告了深度強化學習(Deep Reinforcement Learning, RL)的勝利。可以這樣說,Google Brain 擅長“監督學習”(給資料打標籤,教AI 認圖,也是Meta花天價收購的Scale AI搞的那一套);而 DeepMind 擅長“強化學習”(讓AI在虛擬環境中自我博弈、自我進化)。請記住這一點:強化學習。因為這一技術路線的儲備,直接決定了後來 Gemini 能夠擁有強大的邏輯推理能力。03 組織合併 打通任督二脈現在,問題來了——為什麼Google擁有 DeepMind 和 Brain 兩大天團,還有自己的TPU,為什麼在 2022 年會被 OpenAI 打得措手不及?答案在於組織內耗。甚至可以說,Google在很長一段時間裡,是在“左右手互搏”——Google Brain(加州派):務實、工程導向,由 Jeff Dean 領導,他們發明了 Transformer,打造了 TensorFlow,致力於將 AI 塞進搜尋、翻譯和廣告裡賺大錢錢。DeepMind(倫敦派):學術、清高,由Demis Hassabis領導,他們追求 Nature 封面,致力於攻克圍棋(AlphaGo)和蛋白質折疊(AlphaFold),對商業化嗤之以鼻,每天想的是怎麼才能發《Nature》封面頭條。他,剛剛拿了諾貝爾獎,但去年公司虧損6000萬,英鎊……兩方不僅形而上的文化不一樣,形而下的“程式碼語言”都不一樣——Brain 團隊死守自己開發的 TensorFlow,儘管隨著版本迭代它日益臃腫;DeepMind 則嫌棄 TensorFlow,轉而擁抱更靈活、更適合科研的 JAX。目前AI領域主流的三種開發工具,各有其特點想像一下,一家公司的兩支頂級特種部隊,一支說英語,一支說法語,槍支彈藥(模型架構)也不通用,而且時不時兩邊互懟一下,這導致了嚴重的資源浪費。所以,當OpenAI的Ilya Sutskever(前Google員工)帶領團隊在 GPT 的道路上狂飆突進時,Google的兩支團隊還在為爭奪 TPU 的配額而明爭暗鬥。在和平時期,這種“賽馬機制”是創新的溫床,但在戰時,就是致命的拖累。Ilya Sutskever 於2015年從Google離職後加入OpenAI,成為其聯合創始人兼首席科學家,直至他2024年離開OpenAI2023 年 4 月,那是Google最痛苦的時刻,也是決定生死的轉折點。在 ChatGPT 發佈的第 140 天,Google終於按下了一個遲到多年的核按鈕:強制合併Google Brain與DeepMind,組建Google DeepMind (GDM),Jeff Dean 轉任首席科學家,不再負責行政管理;權杖交到了 Demis Hassabis 手中。這代表了Google高層極其冷酷的決斷:為了生存,必須把命脈交給更有野心的“倫敦派”。Google Brain 與 Deepmind合併,標誌著Google與OpenAI展開終極對決這場組織合併,終於打通了任督二脈,因為它不僅僅是程式碼的統一(Google放棄了 TensorFlow,全面轉向 JAX + XLA)更是工程主義”與“科學主義”的握手言和:Brain 提供了“身體”(極致的架構力):作為 Transformer 的發明者,Brain 團隊擁有地表最強的工程化能力。他們造出了最強壯的軀殼——他們知道如何建構兆參數的模型架構,並讓它在數萬張 TPU 上穩定運行數周而不崩潰。DeepMind 提供了“靈魂”(基於 RL 的學習法):這是被嚴重低估的一點。ChatGPT 的核心壁壘不僅僅是預訓練,更是 RLHF(基於人類反饋的強化學習)。還記得 AlphaGo 嗎?DeepMind 在圍棋上鑽研了十年的強化學習(RL)終於找到了最大的用武之地。他們將 AlphaGo 中用於“自我博弈”和“策略最佳化”的演算法,遷移到了大語言模型的後訓練階段(Post-training)。Google Gemini 1.5 發佈時,長上下文是模型的亮點之一於是很快在2024 年,Gemini 1.5 發佈。這是一個震撼業界的時刻:當時GPT-4的命門在於處理不了長文字(只能處理幾萬字),Gemini瞄準的正是這一點,一舉將上下文窗口(Context Window)拉升到了 100 萬 token,讓Gemini可以一口氣吃透《戰爭與和平》、一小時的視訊或整個程式碼庫。Google Gemini 1.5 的100萬Tokens的上下文窗口對同時期的其他大模型產品形成了壓倒性優勢04 戰時獨裁 降維打擊很多人以為這只是演算法的最佳化,其實這是Google積累了10年的、軟硬一體架構的降維打擊。在硬體端,Google在 TPU v4/v5 中祭出了大殺器:OCS(Optical Circuit Switches),這是一套由 MEMS 反射鏡組成的物理光路交換系統,具體技術咱不需要懂,只需要知道這給Google帶來了毀滅性的優勢:極低的延遲和無限的靈活性,這也是支援百萬級長文字的物理基礎。Google 建設的算力中心有了強大的硬體,還需要軟體來駕馭。OpenAI 在 GPU 上最佳化性能,往往需要工程師手搓 CUDA Kernel,難度極大。但Google的JAX配合 XLA(加速線性代數編譯器),讓研究員只需要寫出數學公式(Python 程式碼),XLA 編譯器會自動將其“翻譯”成 TPU 的機器碼,並利用 GSPMD(通用分片器) 自動將模型切分到數千個晶片上。這就是為什麼Google能在長文字上率先突破:因為他們的編譯器能比人類更高效地指揮光路和晶片,將百萬token的計算完美地平鋪在整個資料中心。話說回來,如果沒有做“統一”這一步,Gemini絕無可能誕生,Google也不可能翻盤。但我們不禁要問:為什麼像Google這樣一家擁有 18 萬員工、以官僚主義和行動緩慢著稱的巨頭,能如此迅速地完成這樣劇烈的、甚至可以說有些血腥的組織手術?首先,Google是的確害怕了,恐懼永遠都是改變的第一動力。平時Google的官僚做派,是因為核心業務太穩固了。但在 2022 年底,Google第一次看到了“死神”的影子。如果使用者不再點選藍色連結,而是直接問 AI,Google賴以生存的商業模式將瞬間歸零。這種對生存的絕對恐懼擊穿了所有的部門牆和審批流。更關鍵的是——“創始人模式”回歸。這是外界鮮少提及的關鍵。平時Google由職業經理人 Sundar Pichai 管理,他的風格是求穩與平衡,但要強行合併兩個互相看不順眼的山頭,職業經理人做不到,也不敢做。但創始人拉里·佩奇(Larry Page)和謝爾蓋·布林(Sergey Brin)回來了。兩位Google創始人拉里·佩奇(Larry Page)和謝爾蓋·布林(Sergey Brin)據報導,布林甚至親自去總部寫程式碼,其實不管公司發展到什麼階段,只有創始人才擁有“凌駕於 KPI 之上”的道德權威,可以直接下達命令打破利益格局。這種“戰時獨裁”,是Google能迅速掉頭的核心原因。最近謝爾蓋·布林(Sergey Brin)在回母校史丹佛演講中復盤了Google此段在AI比拚中的危機經歷視訊連結:https://www.youtube.com/watch?v=0nlNX94FcUE05 中局?終局?進入 2026 年,AI 的競爭已經變味了。如果說前兩年是比拚“誰的模型更聰明”(智力競賽),那麼未來三年將比拚“誰的推理更便宜”(價格戰),商業的本質回歸到了“電力公用事業”的邏輯。在Google的算力中心佈局規劃中,“太陽能+儲能+資料中心”模式展示了其改變整個行業的能源邏輯而這,正是Google等待已久的獵殺時刻。我們看看 OpenAI 目前的處境:它像是一個住在豪宅裡的高級租客,軟體上,依賴 Microsoft Azure;硬體上,依賴 Nvidia GPU。結果就是每一筆收入,都要被微軟抽成,還要支付給輝達高昂的硬體溢價。OpenAI 的毛利天花板被牢牢鎖死。再看看Google,它是這個星球上極少數擁有“全端主權”的玩家:從最底層的沙子(自研 TPU 晶片),到連接晶片的光纖(Jupiter 網路),再到編譯器(JAX)、模型(Gemini),直至最頂層的使用者入口(Search/Android),Google實現了從原子到位元的完美閉環。Google的TPU產品也在不斷迭代更新,最新的產品擁有更強大計算能力和更高的效率據 SemiAnalysis 估算,TPU 的單位總擁有成本(TCO)比同代 GPU 低 4-10 倍。這意味著,Google完全可以將 AI 推理的價格壓低到 OpenAI 的成本線以下,還依然有大把的利可圖。而且,隨著 AI應用滲透進生產力核心,使用者開始上傳整本幾百頁的財報、丟進去一小時的高畫質視訊會議記錄。而這種“長文字推理”是算力的黑洞,推理成本是隨著上下文長度呈指數級爆炸的,如果使用昂貴的 H100 GPU 來做這件事,那無異於“燒錢取暖”。但Google卻可以憑藉 TPU 大記憶體優勢和 OCS 的光互連,可以將這種“重推理”任務變成一種極其廉價的通用服務。這或許是Google處心積慮設下的一個局:它可以毫無壓力地培養使用者使用“百萬級 Token”的習慣,因為它是唯一的發電廠(TPU)和電網(光互連)擁有者。當 AI 真正變成像自來水一樣的基礎設施時,只有掌握水源和管道的人,才擁有最終的定價權。06 長期主義的勝利回望 2013/2014 年,當 Jeff Dean 在那張紙上寫下 TPU 的構想,當拉里·佩奇拍板買下 DeepMind 時,他們可能沒想到過程會如此曲折。Google確實犯過大錯:它曾傲慢、它曾內耗、它曾像個猶豫不決的官僚。在 2022 年被 ChatGPT 突襲的那個至暗時刻,這些錯誤差點讓這家兆帝國崩塌。但科技行業的競爭,從來不是百米衝刺,而是一場馬拉松。OpenAI 是一支驚才絕豔的特種部隊,憑藉先發優勢和微軟的裝備支援,打贏了登陸戰(ChatGPT)。但當戰爭進入相持階段,演變成拼後勤、拼工業體系、拼成本控制的總體戰時,Google這台龐大的戰爭機器終於顯露出了它的猙獰獠牙。Google的護城河,從來不是某個神奇的演算法——因為演算法總會擴散,模型總會過時。真正的護城河,是那些深埋海底的自有光纖,是那些日夜轟鳴的脈動陣列晶片,是那套統一意志的 JAX 軟體棧,以及十年前那兩次不計成本、看似瘋狂的下注。這給所有科技公司帶來了一個殘酷的啟示:在技術變革的浪潮中,真正的壁壘無法通過“買買買”建立,但唯有在那個無人問津的“前夜”,敢於在底層基礎設施與基礎科學上做最笨重、最昂貴的投入,並擁有在危機時刻自我革命的組織勇氣,才能在十年後的風暴中,笑到最後。 (TOP創新區研究院)
【CES 2026】黃仁勳最新CES演講提醒:AI正走進真實世界,孩子成功的分水嶺也變了
1月5日的CES2026大會上(全球科技圈的“開年大秀 + 趨勢風向標”),黃仁勳在拉斯維加斯又穿著那件熟悉的皮衣上台了,開口先丟出一句很狠的話:“The ChatGPT moment for physical AI is nearly here.”翻譯一下:語言AI(主要在數字世界工作,比如我們熟悉的各種大模型助手)負責把話說漂亮;但他真正興奮的是下一步:物理AI(physical AI)要開始走進真實世界,解決具體問題,把事做成。黃仁勳還提到,輝達下一代AI平台Rubin正在走向量產階段——因為,要讓AI真走進現實,不能只靠“一塊更強的晶片”,而要靠從晶片到系統與基礎設施的一整套平台,把迭代跑起來。AI如此,某種程度上,人其實也一樣。黃仁勳強調的分水嶺是“系統”:能讓AI把反饋變成更新,把試錯變成升級。放到教育裡:決定孩子長期上限的,不是當下的強,而是有沒有一套個人發展的系統——確保他們進了更複雜的世界,還能繼續變強。我們已經很擅長訓練孩子在“紙面世界”裡贏:刷題、拿分、做漂亮的成果展示。大多數學校和家庭培養孩子的方式,是把錯誤當成失敗:錯一道題,扣分;寫一篇文章,改得越少越“厲害”;做一件事,最好一次成型。久而久之,孩子很會避免失敗,也很會在標準評估系統裡拿高分。可一旦走進沒有標準答案的真實世界,面對更複雜的任務和選擇——要在不確定裡做判斷、要在挫折裡調整策略,要協作、要溝通——很多孩子反而會卡住。因為,真實世界不會給你標準答案,你只能在反饋裡調整,在碰壁裡迭代。在今天的美本申請裡,“紙面世界的能力”已經被捲到極致:高分、競賽、科研、活動——這些都越來越像一塊精緻的成就展示板。它當然重要,但它也越來越像:同樣的分數段、同樣的“優秀敘事”,放在同一個池子裡,區分度太低。所以招生官真正頭痛的問題是:我怎麼判斷這個孩子進入更複雜、更開放、沒有標準答案的大學環境後,仍然會繼續變強?這就是幫孩子建立個人發展系統的價值——它決定了兩件事:對於“展示板已經很漂亮”的孩子,它讓你的優秀更可信:不是偶然的結果,而是可持續的能力。對於“展示板看起來沒那麼漂亮”的孩子,它讓你的潛力能被預期:你也許不是起跑最快的人,但你已經有一套會持續加速的系統。所以,回到AIR,我們一直在做的,其實不是把孩子的“成就展示板”再擦亮一點——那條路大家都在卷,而且越卷越同質化。我們真正做的是另一件更底層、也更難的事:幫助孩子通過準備申請,建立起一套個人發展系統,並把它變成頂級大學讀得懂、信得過的申請材料。所以我們才說,申請不是一場“包裝競賽”,而是一段個人發展的加速期。當一個孩子的系統真的跑起來了,頂級大學當然更願意押注他的未來。如果你今晚已經在研究下一波physical AI的賠率——那我想提醒一句:最值得長期押注的資產,其實就在你家餐桌旁。教育也有浪潮,只是它的回報周期更長、波動更大、但一旦跑通,複利更可怕。AIR做的,就是把孩子那套“進了真實世界也會持續升級”的系統跑起來。浪潮已來,各位優秀的投資家,別只盯著市場,也盯盯你家那位“長期資產”。想瞭解怎麼跑通孩子的個人發展系統,歡迎來和我們聊聊。 (AIR氧氣工場)
陶哲軒潑冷水:我不相信AGI!但又一數學難題被GPT-5.2 Pro攻克
就在剛剛,陶哲軒po文揭秘:當前的AI無法實現真正的AGI,不過,他們倒是擁有一些有用的小聰明,或者可以說「通用狡猾」。而就在同時,又一多年數學難題被GPT-5.2 Pro攻克了。就在今天,即將離職Meta的LeCun再次給當前AI判死刑——這條路行不通,而且永遠不會成功。前不久,GoogleDeepMind首席科學家Shane Legg給出預測:最小AGI有50%的可能性在2028年實現。業界都在討論的AGI之爭,陶哲軒是如何看待的?就在剛剛,陶哲軒po文明確了自己的態度——還不行。他認為,目前還無法實現AGI。我懷疑目前工具還無法實現真正意義上的「人工通用智能」。然而,我認為一種較弱但仍然非常有價值的「人工通用才智」,正在以各種方式成為現實。而他的觀點,立馬在網上引起了廣泛討論。網友們表示,陶哲軒這樣聰明的人,都認為AGI並未實現,這樣太令人絕望了——希望他是錯的吧。陶哲軒:不是AGI,只是魔術師什麼叫通用才智?陶哲軒是這樣解釋的。「通用才智」是指通過某種臨時手段解決廣泛複雜問題的能力。這些手段可能是隨機的,也可能是暴力計算的成果;它們可能缺乏根基或容易出錯;它們可能難以解釋,也可能能追溯到AI訓練資料中類似的技巧。因此,它們不能被視為任何真正「智能」的結果。然而,它們在實現日益廣泛的任務時,可以擁有非同尋常的成功率,尤其是在結合嚴格的驗證程序以過濾掉錯誤或不具前景的方法時,其規模已超出了單個人類所能達到的範圍。可以理解為,這是一種「通用狡猾」AI。而這種「通用狡猾」AI,就會讓人感覺非常匪夷所思。比如在有時候,這些技術非常實用,令人印象深刻,然而從根本上說,它卻令人不滿和失望。AI是「最強大腦」魔術師?想像這樣一個場景:一位魔術師上台,憑空變出鴿子、猜中你選的牌、把水杯變成金魚。全場掌聲雷動,觀眾目瞪口呆。結果他平靜自曝:「其實我袖子藏了十八個機關,桌下有暗格,牌是特製的,金魚是提前藏好的。」掌聲戛然而止。如今的AI,就像這位魔術師一樣。它能寫詩、程式設計、解數學題——但如果你問它:「你是怎麼想到這個答案的?」它可能會誠實坦白:「我在訓練資料裡見過類似題目,機率上這個回答匹配度最高。」所以,這其實不是智能,而是基於海量資料的「聰明把戲」。「通用狡猾AI」,反而起了大作用對於這種「通用狡猾AI」,陶哲軒是怎麼解釋的。雖然聰明才智和智力在人類身上是某種程度上相關的特質,但對於AI工具(這些工具通常被最佳化以追求聰明才智)來說,它們卻更加解耦,將當前一代這樣的工具主要視為一個隨機生成有時聰明,且往往有用的思想和輸出的生成器,在嘗試使用它們解決難題時,可能是一種更具生產性的視角。也就是說,智能≠聰明。對人來說,二者是同時存在的;但對於AI而言,所謂的「聰明」,也就是快速解決複雜問題,可以獨立存在。當前AI的「聰明」,是隨機的,暴力的,可錯的,難解釋的。最終,它並不是靠智慧取勝,而是靠「大規模試錯與匹配」,就像用超級望遠鏡,在答案星海裡撈最亮的幾顆。當今的AI,並不是全知全能,然而這個「不夠智能但足夠聰明」的工具,卻已經悄悄改變知識工作的每一個環節。對於陶哲軒的說法,網友們表示的確如此。對於目前的AI來說,看似便利但難以預測的思想,似乎是一種主要應用場景。可以說,陶哲軒所說的,就是目前AI能力「參差不齊的邊界」。甚至評論區還出現了中文留言,認為目前的AI底層架構就決定了,即使投入無限多的算力,產出的東西也依然有邊際。而在Reddit的帖子中,網友們也對此展開熱議。有人對表示,自己非常尊重陶哲軒,但對他的部分觀點表示反駁。有人說,他用「狡猾」或「巧妙」一詞,來針對現代LLM缺乏系統性思維的缺點。目前,他或許是對的。不過,ChatGPT還只有3歲,如果要宣佈所有LLM都有此侷限,至少還應該再等待十年。又一數學難題被AI破解巧的是,就在陶哲軒發出這個論點不久,又有一道數學難題被AI破解了!滑鐵盧大學電腦系的助理教授Kimon Fountoulakis激動發帖稱,GPT-5.2剛剛解決了COLT 2022開放問題——使用標準加速梯度演算法和互補性邊界假設,證明加速L1正則化PageRank的執行階段間複雜度。其中,所有證明都由GPT-5.2 Pro生成。演算法總工作量的關鍵界限,則是使用 GPT-5.2 Pro、Aristotle和Antigravity上的Gemini 3 Pro (High) 組合完成了自動的形式化。多倫多大學的教授Daniel Litt也出來表示,GPT-5.2 Pro的確很強,它對於自己的代數幾何和數論研究,都產生了巨大飛躍。懸賞8年難題,GPT-5.2用數學證明封神這道難題,已經困擾了教授8年。自2024年以來,每次OpenAI或Google發佈一個新模型,他都會拿過來嘗試一下。令人沒想到的是,這一次,GPT-5.2竟然成功了!教授這樣回憶道:這個開放性問題,我們嘗試了三年,失敗了;找博士生做,也失敗了;問了多位頂尖學者,都說太難了。2022年,這道關於「加速L1正則化PageRank演算法時間複雜度」的難題,被正式列為COLT國際頂級會議的開放問題之一,懸賞求解。誰也沒想到,兩年後,這道難倒無數學者的題目,竟被GPT-5.2悄然攻克。懸賞故事要從2016年說起。當時,教授在最佳化PageRank演算法時發現,經典迭代軟閾值演算法在求解帶L1正則的PageRank問題時,其執行階段間竟然只與最終解的非零節點數有關,出奇地高一個很自然的追問隨之而來:如果用上加速演算法,比如在最佳化領域聲名顯赫的FISTA,會不會更快?理論上應該如此。但現實卻潑了一盆冷水:FISTA在迭代過程中會「啟動」大量本應為零的節點,雖然最終能收斂到正確的稀疏解,但中間過程卻很鋪張浪費。開始,教授嘗試了三個月,想從理論上界定FISTA的總計算量,失敗了。後來斷斷續續又試了幾次,直到2021年,無論是教授最傑出的學生,還是幾位大牛研究者,都對這個問題束手無策。團隊決定,將這個難題公之於眾。2022年,它被正式列為COLT的開放問題,向全球機器學習社區發起挑戰。破局第一個成功的解法,出現在2023年。David Martínez-Rubio等人提出了一種新穎的加速演算法,從完全不同的角度給出解答。然而,這個演算法為了達到加速效果,需要在每一步求解一個昂貴的子問題,在實際應用中效率很低。直到GPT-5.2發佈後,真正的轉折點來了。這一次,GPT-5.2給出了完整的證明。而且令人震驚的是,它給出的恰恰是針對經典FISTA演算法的證明。它揭示了在一種被稱為「互補性邊界」的合理假設下,FISTA的總計算量可以被優雅地界定,並且在特定的圖結構上,能展現出明確優於經典演算法的加速效果。更關鍵的是,這個證明解釋了長期困擾學界的現象:儘管FISTA在迭代中會啟動更多節點,但這些「多餘啟動」是可控的、暫時的。一旦迭代進入最優解的一個鄰域,演算法就會迅速收斂。怎麼證明?三重驗證GPT-5.2的證明能令人信服嗎?為此,團隊搭建了一個三重驗證體系。首先,GPT-5.2 Pro生成了完整的證明初稿。接著,團隊借助@HarmonicMath的Aristotle系統,結合Gemini 3 Pro模型,將證明中的關鍵不等式和複雜度上界,逐行轉化成了形式化的Lean程式碼。而且除了形式化驗證之外,教授自己也把證明從頭到尾證明了兩遍。目前看來,證明是沒問題的。陶哲軒會被說服嗎又一數學難題被GPT-5.2 Pro攻克,這不由得引起網友討論——它會成為AGI嗎?陶哲軒會看到希望嗎?至少,目前GPT-5.2再一次證明了LLM在深度數學推理上的驚人潛力。而且,它也彌合了理論分析與實際演算法之間的鴻溝。它的證明,為最經典的加速演算法提供了缺失的理論基石。當然,這並不意味著AI能取代理論科學家。可以說,它更像是一個擁有驚人直覺和不知疲倦的協作者。人類提出關鍵問題、界定框架、判斷價值,AI則能在龐大的數學空間裡,幫我們找到那條通往答案的隱秘小徑。 (新智元)
OpenAI發佈GPT-5.2-Codex:號稱工程實戰能力天花板
OpenAI剛剛正式發佈GPT-5.2-Codex,主要針對專業軟體工程和防禦性網路安全最佳化的智能體(Agentic)程式設計模型。相比前代,它在長程任務處理、大規模程式碼重構、Windows環境適配以及網路安全能力上均有顯著提升,工程能力達到實戰天花板目前,付費ChatGPT使用者已可在Codex相關介面體驗,API訪問也將在未來幾周內開啟。開發者可以通過以下命令安裝:$ npm i -g @openai/codexGPT-5.2-Codex是在GPT-5.2的基礎上,吸收了GPT-5.1-Codex-Max的智能體與終端使用能力進一步最佳化而來其核心技術改進包括:上下文壓縮:增強了長程任務的處理能力,使其在大型倉庫中進行跨長時間周期的協作時,能保持全上下文完整,不丟失進度複雜工程處理:在處理大規模程式碼重構、程式碼遷移和功能建構時更具可靠性,即使計畫變更或嘗試失敗,模型也能持續迭代性能表現:在SWE-Bench Pro(軟體工程任務評測)和Terminal-Bench 2.0(真實終端環境評測)中均達到了SOTA(業內頂尖)水平環境適配:顯著提升了在原生Windows環境下的智能體程式設計效率與穩定性視覺增強:模型能更準確地理解螢幕截圖、技術架構圖和UI介面,支援直接將設計稿生成為可運行的原型OpenAI表示,GPT-5.2-Codex的發佈是AI支援複雜軟體工程和專業安全領域的關鍵一步,未來將根據發佈反饋持續擴展存取權具體表現如何,還是要看結合自己的使用才知道 (AI寒武紀)
小米“降維打擊”:MiMo-V2-Flash性能直逼GPT-5,成本僅零頭!
一場由科技巨頭小米掀起的AI風暴,正在全球範圍內引發震動。小米正式開源其最新一代AI模型MiMo-V2-Flash,這不僅僅是技術實力的秀肌肉,更是對現有AI市場格局的一次深度認知突圍與降維打擊。其極致的性價比和卓越性能,正以前所未有的速度衝擊著DeepSeek、Moonshot乃至OpenAI等頂尖玩家的護城河。👉 技術深度解析:性能與效率的“不可能三角”被打破MiMo-V2-Flash的發佈,核心在於它以前所未有的方式平衡了性能、成本和速度。小米稱其在推理、編碼和Agent(智能體)場景中表現尤為突出,同時也是日常任務的優秀通用助手。•極致效率與成本革命: 這款模型以每秒150個token的驚人速度進行推理,而成本更是低至每百萬輸入token 0.1美元,每百萬輸出token 0.3美元。這使得它成為市面上最具成本效益的高性能模型之一。這種“超高性價比”的策略,無疑將極大降低AI應用的門檻,為開發者和企業帶來巨大的紅利。•混合專家(MoE)架構: MiMo-V2-Flash採用MoE設計,總參數高達3090億,但實際執行階段僅啟動約150億參數。這種設計在保證強大能力的同時,顯著降低了計算資源消耗。•混合滑動窗口注意力機制: 為瞭解決長文字處理的計算複雜度問題,MiMo-V2-Flash創新性地採用了5:1的混合比例,即5層滑動窗口注意力(SWA)搭配1層全域注意力交替使用,滑動窗口大小為128個token。這項技術將KV快取儲存需求降低了近6倍,同時支援高達256k的超長上下文窗口。這意味著模型能處理相當於一本中篇小說或幾十頁技術文件的輸入,且性能不打折扣。•輕量級多Token預測(MTP): 區別於傳統模型的單token生成,MiMo-V2-Flash通過原生整合的MTP模組,能夠平行預測多個token,推理速度提升2到2.6倍。這不僅加速了生成效率,還解決了強化學習訓練中GPU空閒時間浪費的問題,實現了“一箭雙鵰”的效率提升。💡 性能對標:直逼頂尖,局部超越小米MiMo-V2-Flash的實測表現,足以讓業界震驚。•推理能力: 在大部分推理基準測試中,MiMo-V2-Flash的性能與月之暗面的Kimi K2 Thinking和DeepSeek V3.2 Thinking不相上下。在長上下文評估中,它甚至超越了Kimi K2 Thinking。•編碼與Agent能力: 在SWE-Bench Verified的Agent任務中,MiMo-V2-Flash取得了73.4%的高分,超越所有開源競爭對手,並逼近OpenAI的GPT-5-High。在多語言SWE-Bench測試中,其解決率達到71.7%。在程式設計能力評估中,它與被認為是行業最佳編碼模型的Anthropic Claude 4.5 Sonnet旗鼓相當,而成本僅為後者的一小部分。•通用能力: 除了技術型任務,MiMo-V2-Flash在通用寫作和高品質開放式響應方面也保持了競爭力。它支援深度思考和聯網搜尋,意味著它不僅能寫程式碼、解數學題,還能即時獲取最新資訊。🚀 戰略佈局:AGI路線圖與生態護城河小米此次開源MiMo-V2-Flash,並非孤立的技術展示,而是其宏大AI戰略的關鍵一步。•AGI路線圖的“第二步”: 小米MiMo團隊負責人羅福莉(前DeepSeek核心研究員)明確指出,MiMo-V2-Flash是其AGI(通用人工智慧)路線圖上的“第二步”。這預示著小米在追求超越人類認知能力的AI道路上,有著清晰且野心勃勃的長期規劃。羅福莉的加盟,本身就是小米對AI人才和AGI方向的重磅押注。•賦能“人車家全生態”: 摩根士丹利分析師指出,小米旨在通過這款高性能模型,深刻重塑其“人、車、家”的廣泛生態系統。MiMo-V2-Flash將作為小米硬體生態的強大AI基石,為智慧型手機、IoT裝置乃至電動汽車提供獨特的智能體驗,從而強化其生態護城河。•全面開源,建構生態: 小米選擇完全開源MiMo-V2-Flash,並將其權重和推理程式碼發佈到Hugging Face和SGLang等平台,這在國內大廠中實屬罕見。此舉旨在降低大模型應用門檻,加速高性能AI技術在更廣泛場景中的應用和普及,從而凝聚開發者,共同建構一個繁榮的開源AI生態。✅ AI時代的“小米時刻”MiMo-V2-Flash的發佈,猶如十年前小米手機以1999元的定價重新定義了旗艦機市場。如今,小米正以0.1美元/百萬token的超低成本和頂級的性能,重新定義開源大模型的“性價比”標準。這不僅是技術層面的突破,更是商業模式和生態理念的複利效應。在當前全球大模型競爭白熱化、成本與效率日益重要的背景下,小米正通過MiMo-V2-Flash爭奪開源生態中的關鍵位置,為全球AI開發者提供了前所未有的工具和機遇。屬於開源模型的“小米時刻”,真的來了。 (澤問科技)
Google殺瘋了!Gemini 3 Flash 突襲:這個跑腿小弟差點打敗了 GPT-5.2
一個月前,Google發佈了最新的 Gemini,從此我們進入了 Gemini 3 的時代。那以後, Gemini 3 Pro 就成了我幹活的主力。但說實話,它反應是真慢,而且很多時候我只是問些簡單問題,完全沒必要深度思考。所以,一直期待速度飛快的 Flash 系列重新回來。終於,在今天,Gemini 3 Flash 來了!圖:Google CEO 宣佈 Gemini 3 Flash 發佈Google這一波操作屬實把我驚到了。官方號稱它“比快更快”,而且智商不減反增。本來是一個“小弟”人設,但你看看它排名,居然僅次於OpenAI 最新的模型 GPT 5.2了。(就差 2 分)真讓人情何以堪吶?圖:第三方機構評測 Gemini 3 Flash 的綜合指標廢話不多說,咱們趕緊來扒一扒,這個新出的 Flash 到底香不香。01 到底是個啥?簡單來說:把 Pro 的腦子,裝進了 Flash 的身體裡。以前我們對“Flash(輕量級)”模型的印象是什麼?跑得快,便宜,但是……有點“笨”。處理複雜任務時經常翻車。但這次 Gemini 3 Flash 徹底打破了這個刻板印象。遇到閒聊、簡單查詢: 它就輕裝上陣,秒回,省流又省錢;遇到燒腦難題: 它能立馬調動深層算力,像老教授一樣深思熟慮。它大腦似乎有個變速箱。它甚至在性能、成本和速度方面突破了帕累托極限。(AI 界的性價比極限)圖:Gemini 3 Flash 在性能、成本和速度方面突破了帕累托極限官方資料顯示,它的 Token 消耗比 Gemini 2.5 Pro 少了 30%,但智商卻線上。說人話就是:多快好省!圖:Token 消耗率對比這種“該省省,該花花”的 AI,誰不愛?02 憑資料說話:這波“以下犯上”有點狠咱們不整那些虛頭巴腦的形容詞,直接看跑分資料,Google這次是真的下了血本。我看了一眼實測資料,甚至有點不敢相信:它在很多任務上接近自家最強的模型 3 Pro,甚至有些指標還幹掉了Pro 版。(這樣禮貌嗎?)特別是那個讓無數 AI 汗流浹背的 ARC-AGI-2 測試……還讓人意想不到的是:Gemini 3 Flash 全面碾壓了上一代的旗艦版本 2.5 Pro。(前浪死在沙灘上)圖: Gemini 3 Flash 的各項指標先說說這個 ARC-AGI-2。之前 GPT 5.2 發佈讓大家印象深刻,其中有一個原因就是這個指標碾壓所有模型。老粉都知道,ARC 評測集是 AI 圈最難啃的骨頭,甚至沒有之一, 主要測試模型到底有沒有腦子。它是由 Keras 之父 François Chollet 搞出來的,專門用來反死記硬背的。比如這種題目:圖:ARC-AGI 2 題目以前的模型,MMLU 這種考試能拿 90 分,一碰到 ARC 這種需要“舉一反三”的智力題,立馬現原形,得分低得可憐。這項指標 Flash 竟然超過了自己的 Pro 大哥,僅次於 GPT-5.2!這個小弟,要造反了有點腦子!在另一項指標: GPQA Diamond(研究生等級的專家推理測試)裡,它拿了 90.4 分。意思就是智商堪比博士。看這個數字,它的推理能力已經和那些大塊頭的前沿模型(Pro 版)平起平坐了。在著名的“Humanity's Last Exam(人類最後一場考試)”這種地獄級難度的測試裡,Gemini 3 Flash 居然考出了 43.5% 的高分(Tools on 模式)。圖:HLE 分數對比它跟 GPT-5.2(45.5%)這種超級旗艦模型,只差了不到 2 分!朋友們,別忘了,這可是一個 Flash 模型啊!它的定位本來是“跑腿小弟”,結果一不小心把“業界大佬”們的飯碗給砸了。(面子?不存在的。)這那裡是“輕量版”,這分明是“披著閃電俠外衣的超人”。在多模態測試(MMMU Pro)中得分 81.2%,看圖、看視訊的能力基本和 Gemini 3 Pro 五五開。也就是,眼神兒更好使。圖:MMMU-Pro 指標對比最讓我意外的是這個——在 SWE-bench Verified(程式碼智能體測試)中,它得分 78%。直接超越了 Gemini 2.5 全系,甚至在某些這就需要改程式碼的任務上,比 Gemini 3 Pro 還要好用!本來以為它動動嘴還行,沒想到寫程式碼更溜!一句話總結:它不是“丐版”,它是“精簡版戰神”。03 為什麼我建議你立馬換用 Flash?作為這一年多幾乎天天都在用 AI 的人,我覺得 Gemini 3 Flash 帶來的改變是肉眼可見的:1. 真的太快了!⚡️根據第三方測評(Artificial Analysis),它的速度是 2.5 Pro 的 3 倍。以前問 AI 一個問題,你可能還得切出去回個消息等它寫完。現在?你字剛打完,它答案就懟到你臉上了。這種“跟手”的感覺,對於我們需要快速寫文案、改程式碼的人來說,簡直是救命。2. 價格那是相當感人 💰圖:Gemini 3 Flash 價格輸入 100 萬 Token 只要 0.5 美刀,輸出只要 3 美刀。想想看,它現在比 2.5 Pro 強太多了,但價格卻只有它的 30-40%。這基本就是白菜價了,對於開發者來說,成本焦慮直接減半。3. 智商不掉線既有速度,又有 Pro 級的推理能力。處理複雜的長文件分析、視訊理解,它完全都在行。04 怎麼用?能幹啥?好消息是,這玩意兒現在就是 Gemini 的“默認配置”。不管你是普通使用者還是開發者,現在就能上手玩。普通玩家:直接打開 Gemini App 或者 Google 搜尋,它已經在那裡等你了(是的,免費用)。我們打開 Gemini,會看到 Fast 和 Thinking 兩個新增的模型。它們就是 Gemini 3 Flash!圖:Gemini 3 Flash開發者大佬:去 Google AI Studio 或者 Vertex AI 就能調 api。因為它延遲極低,拿來做那種需要即時反饋的語音助手、視訊分析工具簡直完美。05 寫在最後至此,Gemini 3 家族算是真正“齊活”了。Pro 是全能六邊形戰士;Deep Think 是深思熟慮的掃地僧;Flash 則是身手敏捷的急先鋒。回顧這一年,不得不說Google是真聽勸,也是真拼。以前總有人吐槽大廠喜歡“擠牙膏”,但這幾次發佈,從 Pro 到 Deep Think 再到今天的 Flash(還有 Nano Banana Pro),每一次都是誠意滿滿的“硬菜”。特別是今天的 Flash,說實話,雖然在Google家裡它定位是“小弟”,但這性能、這智商,放在其他任何一家公司,高低得掛個“旗艦(Ultra/Pro)”的名號。當然,神仙打架,受益的是咱們。你們打吧,我喜歡。 (AI范兒)
Gemini 與 GPT 的年底戰爭:矽谷瘋狂捲起,聖誕節不過了?
年底了,美國科技行業居然不過節了。明明早已進入假日季 (holiday season),而且聖誕節就在臨門一腳,AI 巨頭們卻還在瘋狂發新版……最新選手是 Google 的 Gemini:就在昨晚,Gemini 3 Flash 正式發佈,直接對標 OpenAI 和 Anthropic 的旗艦模型,官方號稱比 2.5 Pro 速度快 3 倍,價格砍到 3 Pro 的四分之一,性能還不降反升。用Google自己的話說,這是「為速度而生的前沿智能」。翻譯一下就是:又快又便宜,腦子還挺線上。不過,在實際體驗過程中,Gemini 3 Flash 的性能表現還是遠遠不如 Pro 的,以至於讓我產生一種「貨不對板」的落差感,也歡迎更多朋友分享你的體驗。即便如此,Google在發佈時機的選擇上依然稱得上「快、准、狠」。緊隨 Gemini 3 Pro 與 Deep Think 之後上馬 Flash,也是為了完全不給競爭對手喘息的機會,這也讓我越來越期待 Sam Altman 的聖誕節反擊禮物了。而從今天起,你將能在 Gemini 產品線裡用到三種模型:Gemini 3 Flash (Fast):主打一個「快」,適合那些不需要長鏈條思考、追求效率的對話場景。Gemini 3 Flash (Thinking): 具備輕量化模型推理能力,使其能夠在面對複雜難題時,通過模擬人類的思考過程來提升精準率。Gemini 3 Pro: 性能天花板,它依然是處理極高難度任務的首選。倒反天罡!Gemini 3 Flash 跑分超越 Pro基準測試結果顯示,Gemini 3 Flash 保留了 Pro 等級的推理能力,但延遲、成本直接降到 Flash 等級。具體來說,在 GPQA Diamond 這種博士級推理測試裡,它能拿到 90.4% 的成績,跟那些體積更大的前沿模型打得有來有回。在 Humanity's Last Exam 這個變態難度的測試中,無需工具輔助就能拿到 33.7% 的分數。更誇張的是 MMMU Pro 測試,Gemini 3 Flash 直接拿下 81.2%,達到業界最先進水平,跟自家的 3 Pro 表現相當,屬於是有些倒反天罡了。以前大家覺得「質量-成本-速度」三個維度很難兼顧,要麼快但不聰明,要麼聰明但卻貴。現在Google試圖用 Gemini 3 Flash 證明,只要工程化能力最佳化到位,六邊形戰士是可以存在的。資料顯示,其 Token 消耗比 2.5 Pro 少了三成,速度快三倍,價格更是壓到了輸入 0.5 美元/百萬 Token,輸出 3 美元/百萬 Token 的地板價。行吧,現在的 AI 新模型不光要卷參數,還要卷性價比了。而且它還是個推理型模型,能根據任務複雜度靈活調整「思考」時間。即使在最低的「思考等級」下,3 Flash 的表現也常常超過前代模型的「高思考等級」。這種自適應能力在實際應用中特別有價值,不會出現「殺雞用牛刀」的資源浪費。對於開發者來說,Gemini 3 Flash 的出現,也意味著終於不用在速度和智能之間二選一了。基準測試顯示,Gemini 3 Flash 在 SWE-bench Verified 編碼測試裡拿到 78% 的高分,不僅吊打 2.5 系列,甚至比自家的 3 Pro 還高。此外,Gemini 3 Flash 的亮點還在於多模態能力,它能更快地處理視覺、音訊等輸入,把「看見、聽見、理解」串成一條相對順滑的鏈路,適合需要即時反饋的互動場景。具體來說,它可以分析高爾夫揮杆視訊並在短時間內給出改進建議;你畫草圖時,它也能即時識別並預測你的意圖。再疊加程式碼執行能力,使它不僅能理解圖片內容,還能在工具鏈支援下對圖片進行處理與操作。Gemini 3 Flash 快是真的快,但 ……Google官方展示了幾個很有意思的應用場景。比如在「投球解謎」類遊戲中,Flash 可以做即時的輔助推理,給出可行解甚至更優解;在互動 UI 設計流程裡,它能生成載入動畫,並配合快速迭代做 A/B 方案對比;你提供一張圖片,它也能完成基礎識別,再結合上下文生成互動式註釋。這些 Demo 的共同點是:強調即時性、強調迭代效率、強調能跑起來。我也用 Gemini 3 Flash 跑了幾個案例。不得不說,對比 Gemini 3 Pro,前者的響應速度確實是極快的,但效果嘛,則比較中規中矩,對比 Gemini 3 Pro 則明顯犧牲了視覺與互動細節的質量。以復刻 macOS 介面為例,該模型的表現略顯乏力:底部 Dock 欄出現了明顯的圖示缺失,且在互動細節的精緻度上,也明顯遜於 Gemini 3 Pro 的生成效果。這種差距在「復古擬物風相機應用」的設計任務中尤為突出。從生成的單頁應用結果來看,其視覺呈現與預期目標仍有較大差距。此外,在嘗試打造「星球訊號」網頁時,有一定程度的互動細節,但整體產出的頁面效果還是略顯粗糙,缺乏設計的細膩感。兩條腿走路的Google:一邊卷死對手,一邊把 AI 塞進幾十億人的生活Google這次還把 Gemini 3 Flash 塞進了搜尋的 AI 模式(國內暫不可用)裡,逐步向全球開放。相比之前的版本,它更能理解複雜問題中的細節,從全網抓取即時資訊和有用連結,輸出視覺上更清晰、有條理的綜合答案。與此同時,Gemini 3 Flash 正在成為 Google「全家桶」的默認底座。Gemini 應用、搜尋 AI 模式、Vertex AI、Google AI Studio、Antigravity、Gemini CLI,全線上新。全球使用者都能免費體驗,企業使用者則可以通過 Vertex AI 和 Gemini Enterprise 來呼叫。最後再強調一遍價格,因為這個真的太香了。輸入每百萬 Token 0.5 美元,輸出每百萬 Token 3 美元,音訊輸入每百萬 token 1 美元。試用價格不到 Gemini 3 Pro 的四分之一。如果用上下文快取,重複 Token 的成本還能再省 90%。用 Batch API 非同步處理的話,又能再省 50%,同時還能提升呼叫上限。對於同步或接近即時的場景,付費 API 使用者可以獲得面向生產環境的高呼叫速率。價格打到這個程度、性能又不算差,OpenAI 和 Anthropic 當然很難睡踏實。但話得說嚴謹一點,當宣傳口徑把 Flash 包裝成「幾乎 Pro 級」的時候,使用者自然會用 Pro 的標準去驗貨;而一旦遇到複雜推理、長鏈路任務、穩定性要求更高的場景,Flash 的短板就會更明顯。Google最大的底牌還是流量。搜尋、YouTube、Gmail、Google Maps,每天數十億使用者在使用這些產品。把 3 Flash嵌入到這些高頻應用中,使用者也就在最熟悉的場景裡,無感地、自然地被Google AI 服務包圍。這種打法 OpenAI 和 Anthropic 是學不來的。一方面,Google財大氣粗,確實有資本燒錢搶市場;另一方面,Google在 TPU、資料中心、分佈式訓練等基礎設施和工程最佳化上的積累,確實能幫他們把成本壓下來。一邊做 toB 的 API 服務,一邊直接把 AI 能力塞進自家產品裡,覆蓋海量普通使用者。當使用者習慣了在搜尋裡用 AI 模式,習慣了在 Gemini 應用裡對話,自然就會對Google的 AI 產生依賴。這才是Google真正的陽謀。當然,這種巨頭間的內卷對行業是殘酷的,但對使用者絕對是好事。模型更強、價格更低,開發者能低成本創新,普通人能享受更智能的服務,這大概是這場 AI 軍備競賽中,為數不多的確定性紅利。 (愛范兒)
逆天發現!ChatGPT秒懂,不是靠RAG,它竟然用了這4招!
你有沒有想過,那個號稱“最懂你”的ChatGPT,到底是怎麼記住你的?它真的擁有一個龐大的記憶資料庫,能隨時回溯你說的每一個字嗎?最近一位開發者Manthan Gupta的逆向工程,徹底顛覆了我們的認知!他發現,ChatGPT的記憶機制,簡單到令人難以置信,甚至沒有用到我們普遍猜測的向量資料庫和RAG檢索。👉 技術突圍:極簡四層架構,打造“記憶幻象” Manthan Gupta通過大量對話實驗,揭示了OpenAI打造“它好像真的記得我”效果的底層邏輯。這並非依靠複雜的AI“大腦”,而是一套極其精巧、工程化驅動的四層架構。這套系統,用最小的成本,實現了最大的記憶效果,堪稱一場效率上的“降維打擊”。💡 第一層:會話中繼資料——AI的“察言觀色”🔥 別把它想得太高科技。當你在每次打開ChatGPT時,它會默默觀察你的“環境資訊”:裝置類型、瀏覽器、大致地理位置、訂閱等級、甚至你的使用習慣(比如平均聊幾輪、消息多長)。這些中繼資料不會被長期儲存,也與你個人身份無關。它們的作用,僅僅是讓ChatGPT動態調整對話風格和節奏。比如你半夜用手機打開,它可能就直接切入重點,不繞彎子。這是一種即時性的環境適應,而非真正意義上的記憶。👉 第二層:使用者記憶——你的專屬“檔案卡”🚀 這一層才是ChatGPT真正“記住你”的地方。在後台,它會維護一份屬於你的、小小的“檔案卡”。上面記錄著你的名字、工作、興趣、偏好風格等明確事實。這些資訊不會憑空出現,要麼是你明確告訴它“記住我是一名AI編輯”,要麼是它在你反覆提及後,自動識別並判斷為“穩定事實”後儲存。最關鍵的是,這份記憶透明且可控。你可以隨時讓它記住或忘掉某個資訊。每次新對話,這張“檔案卡”都會被自動載入,讓ChatGPT的回答悄悄對齊你的偏好。這就是個性化體驗的“複利”效應,讓你感覺AI越來越懂你。💡 第三層:近期對話摘要——高效的“記憶索引”🔥 這也是最讓人意外的部分。我們曾以為ChatGPT會用RAG機制檢索歷史對話,但它沒有!它採用的是一個輕量級的摘要系統。ChatGPT會將你最近約15次聊天,整理成一份簡短清單,只包含時間戳、聊天標題和你當時說的幾句關鍵資訊(僅使用者側)。它不儲存對話細節,只保留“你最近關注了什麼”的方向性資訊。這種機制犧牲了細節,卻換來了驚人的速度和效率,以及對token預算的精準控制。它不“檢索”,而是“預處理”——這是一種工程上的“護城河”,確保了系統的流暢運行。👉 第四層:滑動窗口——當前對話的“短期記憶”🚀 這一層是大家最熟悉也最容易誤解的。ChatGPT每次回答時,只能看到你和它最近一段對話的內容,這就是所謂的“滑動窗口”。這個窗口的長度是有限的(如GPT-4的128k token),一旦超出,最前面的內容就會被“擠掉”,徹底遺忘。窗口內的內容會一次性打包輸入模型,不做任何“回憶”操作。這解釋了為什麼你刷新頁面或開啟新對話,它就像換了個“魂”。理解這一點,對於最佳化你的Prompt和Agent設計至關重要。✅ 認知突圍:效率至上,而非蠻力 Manthan Gupta的發現揭示了一個核心真相:ChatGPT的記憶系統並非依賴龐大的知識庫或複雜的檢索演算法,而是通過分層策略與工程化巧思,用最少的資源,實現了最強大的使用者體驗。這是一種效率至上的底層邏輯,是AI行業的一次“認知突圍”。它告訴我們,有時最簡單的架構,在精準的權衡下,反而能帶來更高的紅利。當你打開ChatGPT的Memory頁面,看到它為你精心整理的“檔案卡”時,那種感覺是複雜的。它不只是在“記住”你,它在書寫你。它像一面鏡子,映照出你在AI面前展現的那個自己——可能是最真實、最脆弱、也最孤獨的你。這種深刻的連接,正是AI記憶最微妙、也最動人的力量。此刻,去看看你的ChatGPT,它為你寫下了什麼? (澤問科技)