#GEMINI
GPT-5.2絕地反擊,能否撼動Gemini 3的地位?
AI領域的角逐從未停歇,OpenAI的GPT-5.2在“紅色警報”下強勢登場,直接叫板Google的Gemini 3。這場技術巨頭間的較量,不僅關乎模型性能,更預示著未來AI生態的格局與紅利走向。👉 GPT-5.2的技術深度與突破點:重塑專業知識工作流OpenAI此次推出的GPT-5.2並非簡單升級,而是圍繞推理、記憶、工具使用和長上下文理解進行了全面強化,旨在解決企業級工作流中的痛點。它細分為Instant、Thinking和Pro三個版本,滿足不同場景需求。•核心推理能力質變: GPT-5.2 Thinking版本在GDPval知識工作評估中,對44種職業的專業任務表現達到或超越人類專家水平,勝率高達70.9%。 這意味著它能更高效地完成電子表格製作、簡報建構、程式碼編寫等複雜任務,且速度比人類專家快11倍,成本不到1%。 在ARC-AGI-2抽象推理基準測試中,Thinking版本達到52.9%,Pro版本更是高達54.2%,遠超Gemini 3 Deep Think的45.1%,展現了在解決新穎、抽象問題上的卓越能力。•長上下文理解的“記憶”革命: GPT-5.2在處理長文件方面表現出色,尤其在MRCR v2基準測試中,對256k tokens的長上下文幾乎達到100%的精準率。 這對於分析報告、合同、研究論文等超長文字至關重要,極大地提升了處理複雜、多檔案項目的能力,避免了上下文丟失的痛點。•程式碼與科學領域的降維打擊: 在軟體工程領域,GPT-5.2在SWE-Bench Verified測試中取得80%的高分,並在更嚴苛的SWE-Bench Pro中達到55.6%,顯著提升了程式碼生成、偵錯和大規模程式碼庫重構的可靠性。 在數學領域,GPT-5.2在AIME 2025(無工具)中實現100%的完美得分,並在FrontierMath專家級數學問題上達到40.3%的解決率,展現了突破性的數學推理能力。•多模態與工具呼叫: GPT-5.2 Thinking是目前最強的視覺模型,圖表推理和軟體介面理解的錯誤率降低了約一半。它在Tau2-bench Telecom工具呼叫基準測試中達到98.7%的精準率,進一步提升了多輪、多工具工作流的可靠性。💡 Gemini 3的生態護城河與多模態優勢Google的Gemini 3憑藉其原生多模態能力和深度生態整合,建構了強大的護城河。•原生多模態的“大腦”: Gemini 3從底層設計上就支援文字、圖像、視訊、音訊甚至程式碼的無縫融合理解。 尤其在視訊-MMMU基準測試中達到87.6%,展現了其在處理複雜多模態資訊上的領先優勢。•超長上下文與“深度思考”: Gemini 3擁有高達100萬tokens的巨大上下文窗口,這使其在處理超長對話、研究論文或大型程式碼庫時,能保持更強的連貫性和理解力。其Deep Think模式更是將推理邊界推向極致,用於解決最複雜的難題。•生態整合與Agentic能力: Gemini 3深度整合於Google的各項產品中,如Gemini App、Google Search的AI模式、Workspace應用(Docs, Sheets等)以及Google AI Studio和Vertex AI等開發者工具。 它的Agentic能力讓AI不再只是“知道”,而是能“行動”,通過定義目標,Gemini 3能自主決定並呼叫工具完成多步驟工作流,例如自動預訂服務或整理收件箱。 尤其值得關注的是其Generative UI功能,能直接通過自然語言生成互動式應用程式,從概唸到應用的轉化效率實現指數級提升。✅ 終極對決與未來趨勢:認知突圍的關鍵GPT-5.2的發佈,是OpenAI在面對Gemini 3的強大攻勢下,一次“程式碼紅色”的絕地反擊。 儘管Gemini 3在多模態和生態整合方面保持領先,尤其在LMArena的文字、視覺、圖像編輯和搜尋等多個多模態榜單上佔據首位,但GPT-5.2在專業知識工作、編碼、數學和抽象推理等核心能力上實現了顯著的認知突圍。價格方面,GPT-5.2的API定價 ($1.75/百萬輸入token, $14/百萬輸出token) 相較GPT-5有所上漲,但其90%的快取輸入折扣和Batch API的50%折扣,旨在提高複雜任務的成本效益。 而Gemini 3 Pro的API定價 ($2.00/$12.00/百萬token,超過200K上下文則更高) 則更強調按使用量付費,並有免費試用層級。 最終選擇,取決於具體應用場景對模型深度、生態整合度及成本效率的權衡。這場AI巨頭間的激烈競爭,正加速推動通用人工智慧的演進。無論是GPT-5.2的“思維引擎”,還是Gemini 3的“行動代理”,都在為我們描繪一個AI深度賦能的未來。真正的贏家,將是那些能有效利用這些底層技術,建構自身資料和應用護城河的企業,抓住這波前所未有的AI紅利。 (澤問科技)
當Google帝國反擊時:ChatGPT的8億使用者護城河還能守多久?
前些天,科技分析領域最受尊敬的聲音之一 Ben Thompson 在 Stratechery 上發表了一篇重磅文章,標題是 "Google, Nvidia, and OpenAI"。大多數解讀會聚焦在 Gemini 3 的發佈、TPU vs GPU 的技術對比,或者 OpenAI 簽了多少錢的算力合同上。但我認為這篇文章真正重要的資訊不在這裡。作為一個 AI 工程布道者,我看到的是另一件事:ChatGPT 擁有8億周活使用者,卻可能正在犯一個致命的戰略錯誤。讓我解釋一下。Ben Thompson 用《星球大戰》的"英雄之旅"敘事框架,來描述過去三年 AI 領域發生的故事。主角有兩個:OpenAI 和 Nvidia。一個靠 ChatGPT 成為增長最快的消費科技公司,一個從遊戲顯示卡公司變成 AI 時代最關鍵的基礎設施供應商。但在過去兩周,兩位英雄同時進入了"考驗之洞"——Google 帝國正在反擊。第一擊:Gemini 3 的發佈Gemini 3 在一系列基準測試中超越了 OpenAI 的最強模型。更關鍵的是,它展示了一個 OpenAI 難以複製的優勢:巨大的模型規模和海量的訓練計算。OpenAI 在 GPT-4 之後一直難以突破規模瓶頸,靠的是推理能力的技術突破來彌補,但這以時間和成本為代價。第二擊:TPU 開始外銷Google 不再把 TPU 藏著掖著了。先是和 Anthropic 簽約,然後傳聞和 Meta 在談,接著是一批從加密礦場轉型過來的新雲服務商。突然之間,Nvidia 的壟斷地位受到了實質性威脅。第三擊:結構性優勢的全面碾壓從變現能力、資料積累、基礎設施到研發投入,Google 的每一項都是壓倒性的。Ben Thompson 說了一句很重的話:你現在明白為什麼 OpenAI 當年成立時,核心恐懼就是"Google 贏下 AI"了吧。這篇文章最有價值的部分,是 Ben Thompson 對"護城河"的重新定義。傳統的護城河分析聚焦於切換成本——使用者離開你有多難。但 Thompson 指出,護城河的真正強度,和獨立使用者數量正相關。他畫了一張圖:從左到右,使用者數量從少到多;從下到上,護城河從脆弱到堅固。Nvidia 賣晶片給誰?幾個超大規模雲廠商。一個 CEO 發一道命令,就能決定繞過 CUDA 開發新的軟體棧。OpenAI 的 API 賣給誰?成千上萬的開發者。切換成本確實存在,但一個創始人決定換模型,一個團隊就能執行。ChatGPT 的使用者是誰?每周8億獨立消費者。要改變他們的習慣,只能一個人一個人地打。這是 ChatGPT 真正的護城河。Thompson 引用了他2020年分析 Google 搜尋壟斷案時的觀點:Google 最大的力量來源,恰恰是它看起來的脆弱——競爭真的只是一次點選的距離。但正因為如此,如果使用者還是選擇 Google,那就說明他們是真的想用 Google。監管可以改變很多東西,但改變不了數以億計消費者的自主選擇。這個邏輯同樣適用於 ChatGPT。這是全文最尖銳的批評。Ben Thompson 認為,ChatGPT 三年來拒絕推出廣告產品,是一種"商業上的失職"——尤其是在公司簽下超過一兆美元算力合同的背景下。他的論點不是"廣告能賺錢"這麼簡單。他的論點是:廣告會讓 ChatGPT 成為一個更好的產品。怎麼理解?首先,更多免費使用者 = 更多使用資料 = 更好的模型反饋循環。訂閱制天然有使用者規模的天花板。其次,廣告帶來的購買訊號(而不是聯盟連結)可以幫助 ChatGPT 更深入地理解每個使用者的偏好,從而提供更好的回答。第三,也是最關鍵的:廣告模式會大幅加深 OpenAI 的護城河。Thompson 指出了一個有趣的對比:Nvidia 面臨的 TPU 威脅本質上是"利潤率稀釋"——當你賣實體產品時,你必須真的向買家收費,這就會引發和更便宜替代品的比較。買家越大越精明,這個壓力就越大。但廣告模式完全相反。使用者不付費,所以你從單個使用者身上能賺的錢沒有上限。使用者越多,你的利潤率潛力越高,你能投入的資源就越多。Google 就是靠這個模式,用搜尋廣告收入養活了過去二十年所有的創新。ChatGPT 不用廣告,等於是把這個武器讓給了對手。但 OpenAI 偏偏不做。Sam Altman 在今年早些時候接受採訪時說,他對"用廣告賺一些零錢"不感興趣,更感興趣的是"讓人們為真正優秀的自動化軟體工程師或其他 Agent 付高價"。Thompson 的評價是:這種想法和僱傭 Fidji Simo(前 Facebook 廣告產品負責人、前 Instacart CEO)來當應用業務負責人的決定,是自相矛盾的。你不可能同時相信廣告只是"零錢",又認為一個靠廣告發家的人是最適合領導你應用業務的人。讀到這裡,你可能會想:這是商業分析師和投資人關心的事,跟我一個做 AI 的有什麼關係?我來說說我的看法。第一,技術領先可能不如商業模式重要。這篇文章最讓我震撼的一點是:OpenAI 可能擁有(或曾經擁有)最好的模型、最多的使用者、最強的品牌認知——但如果商業模式選錯了,這些優勢可能都會被稀釋。Google 當年創辦不到兩年就開始做廣告變現。那不是因為他們缺錢,而是因為他們明白:可持續的收入是進一步創新的燃料。OpenAI 拿了幾百億風投,簽了上兆算力合同,但核心商業模式還是訂閱。我見過太多技術團隊把"我們先做好產品再考慮商業化"當成美德。但 Thompson 的分析提醒我們:商業模式不是產品的附屬品,它是產品戰略的一部分。錯誤的商業模式會讓你在有足夠資源建立護城河之前,就被對手追上。第二,護城河的邏輯在 AI 時代變了。傳統軟體的護城河往往建立在資料鎖定、網路效應、切換成本上。但 AI 產品的護城河本質上是關於"誰擁有更多的使用者行為資料來改進模型"。這意味著,一個免費但有廣告的產品,可能比一個付費產品有更強的長期競爭力——因為前者能觸達更多使用者,收集更多反饋,形成更強的改進飛輪。對於正在做 AI 產品的團隊來說,這是一個值得深思的問題:你的商業模式是在幫你建立護城河,還是在限制你的使用者規模?第三,Google 的反擊提醒我們:大公司的"慢"可能被高估了。過去兩年,創業圈流行的敘事是:大公司太慢、太官僚、太傲慢,創業公司可以靠速度和創新打敗它們。但 Gemini 3 的發佈、TPU 的外銷、YouTube AI 功能的推進——這些都在提醒我們:當大公司真的決定全力投入時,它們的資源優勢是碾壓性的。更重要的是,大公司有一個創業公司沒有的東西:成熟的變現機器。Google 每年超過2000億美元的廣告收入,意味著它可以長期承受虧損來搶市場。OpenAI 可以嗎?最後,我想說一個更大的問題。Ben Thompson 在文章結尾寫道,他的"聚合理論"——控制需求的一方最終獲勝——正在接受終極測試。Google 是他理論中的終極主角,現在變成了對手。他的核心問題是:一個已經達到規模的聚合者,能否被資源的壓倒性投入所擊敗?尤其是當這個聚合者拒絕採用最優商業模式時?我覺得這個問題的答案,可能會定義未來十年科技行業的格局。如果 ChatGPT 最終被迫採用廣告模式,那說明聚合理論是對的——控制消費者需求的一方,最終會被市場邏輯推向最優變現策略。如果 ChatGPT 堅持訂閱模式但被 Google 超越,那說明在 AI 時代,即使是8億使用者的護城河,也擋不住一個有成熟商業模式、無限資源的對手。如果 ChatGPT 找到了某種全新的變現方式(比如 Agent 交易抽成),那可能意味著 AI 創造了新的商業模式範式。無論那種結果,這都不只是 OpenAI 一家公司的命運。這是關於 AI 產品應該如何建構、如何變現、如何建立護城河的範式之爭。作為 AI 從業者,我們每個人都在這場爭論中有自己的位置。 (LLM-X-Factors)
剛剛,OpenAI迎10周年,發GPT-5.2,重點是和白領搶工作
8大榜點選敗Gemini 3 Pro,打平71%人類專家,數學競賽滿分。智東西12月12日報導,今日凌晨,正值OpenAI十周年生日,OpenAI正式推出其迄今最強模型GPT-5.2,並同步上線ChatGPT與API體系。本次更新包含GPT-5.2 Instant、Thinking與Pro三個版本,將從今日起陸續向Plus、Pro、Business與Enterprise等付費方案使用者開放,Free與Go使用者預計將於明日獲得存取權。同時,GPT-5.2也已納入API與Codex中供開發者呼叫。▲圖源:X平台現有的GPT-5.1將在ChatGPT中繼續作為過渡版本向付費使用者提供三個月,之後將正式下線。OpenAI官方稱,GPT-5.2屬於其持續改進模型系列的一部分,後續仍將圍繞過度拒絕、響應延遲等已知問題進行迭代最佳化。在API端,GPT-5.2 Thinking對應gpt-5.2,Instant對應gpt-5.2-chat-latest,Pro對應gpt-5.2-pro,開發者可直接呼叫。▲圖源:OpenAI官方部落格在價格方面,GPT-5.2的呼叫價格較上一代上調,輸入端1.75美元/百萬tokens(約合人民幣12.35元/百萬tokens)、輸出端14美元/百萬tokens(約合人民幣98.81元/百萬tokens)。GPT-5.2 Pro的定價為21美元與168美元/百萬tokens(約合人民幣148元與1185元/百萬tokens),並首次支援第五檔推理強度xhigh。▲圖源:OpenAI官方部落格OpenAI聯合創始人兼CEO Sam Altman在社交平台X上公佈了GPT-5.2在多項前沿基準上的成績:SWE-Bench Pro達到55.6%,ARC-AGI-2為52.9%,Frontier Math為40.3%。▲圖源:X平台這些基準主要用於衡量模型在複雜程式碼修復、通用推理與高難度數學任務中的表現,GPT-5.2在高階任務上的穩定性進一步提升。根據OpenAI官方部落格,GPT-5.2在涵蓋44個職業的明確知識工作任務中,表現均優於行業專業人士。相比GPT-5.1 Thinking,GPT-5.2 Thinking在應對知識型任務、程式設計、科學問題、數學、抽象推理的多項能力均大幅提升,尤其是在頂尖數學競賽AIME 2025拿到滿分成績,在OpenAI專業工作基準測試GDPval中戰勝或打平70.9%的人類專家。▲圖源:OpenAI官方部落格OpenAI團隊成員Yann Dubois也在社交平台X平台上發帖稱,GPT-5.2 Thinking的設計重點放在“經濟價值較高的任務”(如編碼、表格與演示文件)。▲圖源:X平台此外,在SWE-Bench Pro、GPQA Diamond等8項基準測試中,GPT-5.2 Thinking的分數均超過GoogleGemini 3 Pro和Anthropic Claude Opus 4.5。▲圖源:OpenAI值得一提的是,GPT-5.2在處理多模態任務方面的能力明顯提升,大有追上Gemini的架勢。“頂流”AI程式設計助手Cursor第一時間宣佈上新GPT-5.2。與此同時,微軟董事長兼CEO Satya Nadella宣佈,GPT-5.2將全面進入Microsoft 365 Copilot、GitHub Copilot與Foundry等產品體系。▲圖源:X平台在GPT-5.2的發佈會上,OpenAI應用業務負責人Fidji Simo也確認,外界關注已久的ChatGPT“成人模式(adult mode)”預計將在2026年第一季度上線。Fidji Simo稱,在推出該模式前,OpenAI希望確保年齡預測模型足夠成熟,能夠準確識別未成年使用者,同時避免誤判成年人。目前,該年齡預測模型已在部分國家進行早期測試,主要用於自動應用不同的內容限制與安全策略。01.專業任務能力躍升首次達到“專家級”評分根據OpenAI官方披露,GPT-5.2 Thinking在覆蓋44類職業任務的GDPval評測中,首次達到“專家級”表現——在70.9%的對比中戰勝或持平行業專業人士。GPT-5.2 Pro進一步提升至74.1%。在僅統計“明確勝出”的任務中,GPT-5.2 Thinking為49.8%,Pro則達到60%。這一評測覆蓋銷售演示、預算模型、營運排班、製造流程圖等多類真實業務成果。GPT-5.2在這些任務的生成速度約為人工專家的11倍,成本為其1%以下。在投研類任務中,GPT-5.2 Thinking在內部評測的投行三表模型與槓桿收購模型等場景中的平均得分為68.4%,較GPT-5.1 Thinking的59.1%有明確提升,GPT-5.2 Pro得分進一步增長至71.7%。▲圖源:OpenAI官方部落格▲GPT-5.1 Thinking與GPT-5.2 Thinking效果對比02.程式碼、工具呼叫與長鏈路任務全面升級在程式碼能力方面,GPT-5.2 Thinking在更嚴格的SWE-bench Pro(跨四種語言、強調真實工程難度)中取得55.6%,在SWE-bench Verified中更是達到80%,均顯著領先GPT-5.1的50.8%與76.3%。在SWE-Lancer IC Diamond任務中,GPT-5.2 Thinking取得74.6%(GPT-5.1為69.7%)。▲圖源:OpenAI官方部落格與此同時,GPT-5.2出現在AI基準平台Imarena.ai(Arena)排行榜中,並在WebDev測試中取得1486分,位列第二,僅落後榜首3分,領先Claude-opus-4-5與Gemini-3-pro等主流模型。另一個版本GPT-5.2則以1399分排在第六。根據Arena說明,GPT-5.2此前在內部以“robin”和“robin-high”為代號進行測試,其分數與GPT-5-medium僅相差1分,目前仍為初步結果,未來有望隨著測試量積累而進一步穩定。從評測維度來看,Arena主要衡量模型在可部署Web應用情境下的端到端編碼能力,GPT-5.2已反映出其在複雜任務鏈條上的實用性。在事實精準性方面,GPT-5.2 Thinking在基於ChatGPT查詢的無錯誤回答率(開啟搜尋模式下)達到93.9%,較GPT-5.1的91.2%有所改善,在無搜尋情況下也從87.3%提升至88%。▲圖源:OpenAI官方部落格另一個關鍵變化來自工具呼叫與長鏈路任務的可靠性提升。GPT-5.2 Thinking在Tau-2 Bench Telecom中達到98.7%的最高得分,在零推理模式下也大幅領先上一代,在更高噪聲的Retail場景中精準率從77.9%提升至82%。在更通用的工具鏈評估BrowseComp中,GPT-5.2 Thinking達到65.8%,Pro版本達到77.9%,亦高於GPT-5.1的50.8%。▲圖源:OpenAI官方部落格OpenAI提到,GPT-5.2 Thinking和Pro均支援第五檔推理強度xhigh,適用於長流程、多步驟、高精度的專業任務場景。03.在長上下文與視覺理解GPT-5.2全面增強在長上下文能力上,GPT-5.2 Thinking在OpenAI MRCRv2中全面領先上一代,在8 needles測試中從4k到256k的範圍內均保持遠高於GPT-5.1的表現,其中在4k–8k長度下達98.2%,在128k–256k長度下仍保持77.0%,而GPT-5.1同期為29.6%–47.8%區間。在其他長文場景中,BrowseComp Long Context(128k/256k)中,GPT-5.2 Thinking分別達到92.0%與89.8%。GraphWalks任務中,GPT-5.2 Thinking在bfs與parents子集分別達到94.0%與89.0%,相比GPT-5.1的76.8%與71.5%顯著提升。▲圖源:OpenAI官方部落格在視覺理解上,GPT-5.2 Thinking在CharXiv科學圖表推理任務中無工具模式下為82.1%,開啟Python工具後進一步提升至88.7%。在ScreenSpot-Pro介面理解中,GPT-5.2 Thinking取得86.3%,遠高於GPT-5.1的64.2%。在視訊類、多模態綜合難度更高的Video MMMU中,也從82.9%提升至85.9%。在視覺能力上,GPT-5.2在ScreenSpot-Pro(介面理解)中達到86.3%的精準率,相比GPT-5.1有明顯提升。在CharXiv科學圖表推理任務中,也實現了準確率的大幅增長。這使其在處理科研圖表、營運儀表盤、產品介面截圖等專業視覺輸入時更加可靠。▲圖源:OpenAI官方部落格04.微軟全家桶同步升級GPT-5.2成為新一代“生產力模型”隨著GPT-5.2發佈,微軟董事長兼CEO Satya Nadella也在社交平台X平台上宣佈,GPT-5.2將全面進入Microsoft 365 Copilot、GitHub Copilot與Foundry等產品體系,並作為新的“默認推理模型”服務更多工作流場景。在Microsoft 365 Copilot中,使用者已經可以通過模型選擇器啟用GPT-5.2,用於會議記錄分析、文件推理、市場研究與戰略規劃等高複雜度任務。Nadella稱,將模型與使用者工作資料結合後,GPT-5.2能夠更充分發揮推理優勢。在GitHub Copilot中,GPT-5.2適用於長上下文推理與複雜程式碼庫審查,重點覆蓋跨檔案關係分析、依賴追蹤與重建構議等工程類使用場景。此外,GPT-5.2還同步進入Microsoft Foundry與Copilot Studio,開發者可在建構自動化流程、企業內部Agent或自主開發時直接呼叫GPT-5.2模型。面向消費者端的Copilot也將隨後啟動分階段更新,逐步替換當前版本。▲圖源:X平台從微軟生態的覆蓋面來看,GPT-5.2已被定位為“默認生產力模型”,在不同產品線之間以自動模型選擇的方式服務更廣泛的開發、寫作與分析任務。此外,頂流AI程式設計助手Cursor也已第一時間火速上線GPT-5.2,並同步沿用OpenAI官方API價格。▲圖源:Cursor05.結語:GPT-5.2的能力邊界正向“穩定、實用”收攏從多項公開基準測試到Arena針對Web應用端到端能力的評測結果,GPT-5.2展現出的整體能力向穩定可用和任務完成度方向收攏。隨著Instant、Thinking與Pro組成的多檔能力體系的開放,GPT-5.2在不同工作流中被切分為更清晰的使用場景。而在微軟生態中的全面接入,也進一步強化了這一變化的方向。無論是在M365 Copilot中承擔跨文件推理,還是在GitHub Copilot中處理長上下文程式碼鏈路,GPT-5.2都開始參與到更高頻、更具體的任務流程中。除了推出面向專業工作和智能體的前沿模型外,OpenAI還宣佈已經與迪士尼達成授權協議,允許Sora 2使用者在生成並分享的圖片中使用迪士尼角色。迪士尼將向OpenAI投資10億美元(約合人民幣71億元),並擁有未來增持股份的選擇權。 (智東西)
GPT-5.2 凌晨發佈:這一次,OpenAI 不想做題,只想幫你搞錢!
GPT-5.2 終於發佈了!雖然我已經以 Gemini 為主,但 GPT 的每次更新仍然受到極大的關注(包括我)。這次到底更新了些啥?簡單來說,各項指標超越 Gemini 3 Pro,讓 OpenAI 又重回了王座。但,並沒有形成那種“外星人降臨”的碾壓優勢。不過,細節裡全是魔鬼。我們具體來扒一扒。OpenAI 官方開篇定調非常高,直接說 GPT-5.2 是迄今為止功能最強大的專業知識工作模型。啥叫專業知識工作模型?把官方那堆技術黑話翻譯一下,意思就是:它不再滿足於當你的陪聊對象,它現在想做你的“腦力合夥人”。這一次,OpenAI 顯然是急了,它甚至不屑於跟你談什麼“通用智能”的夢想,而是把“搞錢”這兩個字寫在了臉上。它這次的技能點,全點在了打工人的痛點上:做表(Excel)、畫餅(PPT)、寫程式碼,以及那些讓人頭禿的長文件。它就是為了創造“經濟價值”而生的 。到底有多強?聊聊 GDPval。為了證明自己“值錢”,OpenAI 甚至拋棄了那些傳統的 MMLU 考試分數。他們拋出了一個聽起來就充滿金錢味道的新指標:GDPval。 (這名字一聽就是奔著生產總值GDP去的)可能很多人沒聽說過這個評測集。 這是 OpenAI 專門為了衡量“真實世界打工能力”搞出來的。他們在 44 個核心職業(律師、市場經理、工程師等)裡,找了一幫平均工齡 14 年的資深專家,出了 1320 道真實的“地獄級工作任務” 。注意,不是做選擇題。 是讓你真的去改合同、寫全案 PPT、最佳化生產線圖紙。這些任務,人類專家平均要花 7 個小時才能做完 。結果呢?經過雙盲測試,GPT-5.2 在 70.9% 的情況下,幹得比這些人類專家更好,或者至少打個平手 。圖:在 GDPval 中,模型嘗試完成涵蓋美國 GDP 貢獻最大的九大行業中 44 個職業的特定知識工作這才是最恐怖的。它的參照系不是剛畢業的大學生,而是行業專家。 也就是說,在一個有著十幾年經驗的採購經理面前,GPT-5.2 幹出來的活兒,有七成的時候,比他幹得還好。甚至於說,GPT-5.2 Thinking 生成的電子表格和幻燈片在複雜程度和格式方面都有所提高。說白了: 以前的 GPT 是個學霸,現在的 GPT-5.2 是個熟手。那麼,它是怎麼做到這一點的?這背後其實是一場架構級的革命。OpenAI 官方直言不諱:這是自 GPT-5 以來,GPT 系列在智能體程式設計領域跨度最大的一次飛躍。圖:在SWE-Bench Pro中(在新窗口中打開)⁠ ⁠ ⁠,給定一個程式碼庫,模型必須生成一個補丁來解決一個實際的軟體工程任務。為了證明自己不是自嗨,他們這次直接拉來了 Windsurf 和 Devin 站台。 這兩位可是現在 AI 程式設計界的頂流。官方直接宣佈,GPT-5.2 將成為這兩個工具的默認核心模型 。這說明啥?說明這玩意兒已經經受住了最殘酷的生產環境考驗。但真正讓我覺得牛逼的,是背後的技術邏輯發生了質變。以前我們為了讓 AI 幹點複雜的活,得搭建一套脆弱的“多智能體系統”。就像拉了一群各懷鬼胎的實習生在開會,一個負責想,一個負責寫,一個負責改,管理起來極其麻煩,還容易崩 。而 GPT-5.2 直接解鎖了一種全新的架構:單一超級智能體(Single Mega-agent)。這就好比把那一屋子實習生全裁了,換來了一個精通 20 多種工具的全能大神 。它不僅反應更快、腦子更靈光,而且維護起來簡單了 100 倍。除了腦子好,它的“手眼”也進化了。為了配得上“超級智能體”這個稱號,OpenAI 這次給 GPT-5.2 裝上了更強的配件:1. 手更快了以前的 AI 呼叫工具(比如聯網搜素、畫圖、跑程式碼)總有種“卡頓感”。但官方這次特別強調:延遲大幅降低,而且工具呼叫能力變得極強。這意味著什麼?意味著它在多個工具之間切換,絲滑得像是在切菜。它不再是一個個蹦字的聊天機器人,而是一個能瞬間調起計算器、瀏覽器、程式碼直譯器的“快手”。嗯?2. 眼睛更尖了看一眼官方放出的演示圖: 它能直接看懂複雜的波浪模擬參數,甚至能精準識別電路板上的每一個元器件。圖:GPT 5.2 可以識別出元部件這說明它的視覺能力已經脫離了“認貓認狗”的初級階段,開始進入工業級的精細識別了。配合長上下文能力 ,不管是幾千行的程式碼屎山,還是幾十頁的複雜電路圖,它都能一口吞下,並且過目不忘。實際上,這使得專業人士能夠使用 GPT-5.2 處理長篇文件,例如報告、合同、研究論文、筆錄和多檔案項目,同時在數十萬個詞元中保持一致性和精準性。圖:GPT 5.2 的長上下文處理所以,GPT-5.2 特別適合深度分析、綜合和複雜的多源工作流程。但真正的“重頭戲”,是這個:ARC-AGI 2如果說 GDPval 是測它能不能幹活,那 ARC-AGI 2 就是測它到底有沒有腦子。老粉都知道,ARC 評測集是 AI 圈最難啃的骨頭,甚至沒有之一。它是由 Keras 之父 François Chollet 搞出來的,專門用來反死記硬背的。比如這種題目:圖:ARC AGI2 題目圖:ARC AGI2 題目以前的模型,MMLU 這種考試能拿 90 分,一碰到 ARC 這種需要“舉一反三”的智力題,立馬現原形,得分低得可憐。大家猜猜上一代的 GPT-5.1 Thinking 拿了多少分?17.6%。但這次,GPT-5.2 幹到了多少?52.9%。兄弟們,這是 3 倍的暴漲。這不是“擠牙膏”,這是直接把牙膏管踩爆了。為了讓大家有個概念,目前市面上最強的競品 Gemini 3 Pro 和 Claude,在這個榜單上的分數大約在 31% - 37% 之間(取決於版本)。也就是說,OpenAI 這一次在純智商層面,不僅甩開了對手,更是跨越了一個巨大的鴻溝。這意味著 GPT-5.2 終於突破了那層窗戶紙:它開始具備真正的通用推理能力了。它遇到沒見過的新問題,不再是去翻記憶庫裡的答案(因為根本沒有),而是像人類一樣,現場觀察規律、現場推理、現場解決。順便提一嘴,在另一個數學競賽 AIME 2025 里,GPT-5.2 直接拿了 100% 的滿分。這可是全美高中數學聯賽。 以前我們還在討論 AI 能不能及格,現在它已經把卷子做穿了。相比於它能多寫兩行程式碼,我覺得這一點,才是這次更新裡最硬核、最不容忽視的里程碑。總結一下:GPT-5.2 Instant、思考版和 Pro 版本今日開始推送,首先面向 Plus、Pro、Business 和 Enterprise 套餐使用者。免費版和 Go 使用者將於明天獲得存取權。GPT-5.2 在我心中,是一個極其合格,甚至有點“過於務實”的迭代。它沒有像過去那樣,瘋狂去捲那些虛頭巴腦的考試分數,而是把所有的技能點,都死磕在了“怎麼幫白領幹活”這件事上。它不跟你談星辰大海,只跟你談降本增效;不跟你炫耀參數,只給你看GDPval。這個點,我覺得就很酷,非常的剛需。雖然從“好玩”或者“科幻感”的角度來說,GPT-5.2 可能沒有 Gemini 3 Pro 原生多模態帶來的那種絲滑震撼。(畢竟Google同步發行了 Nano Banana Pro,期待 GPT Image 早日發佈)但如果你是為了工作,為了搞錢,為了早點下班去陪家人。那 GPT-5.2 可能是目前地表最強、也是最值得你掏錢的生產力工具 。 (AI范兒)
Google豪賭背後,一場靜默的中國供應鏈革命
12月9日,Google正式發佈Android XR平台,並展示了與中國企業XREAL聯合打造的Project Aura——一款被定義為“Gemini AI第一雙原生空間之眼”的消費級AR眼鏡。在AI與XR深度融合的新戰場上,矽谷巨頭正在以一種前所未有的姿態,將核心硬體能力的話語權交到中國企業手中。這個訊號的深意,遠比表面呈現的更加複雜。當我們將視線穿透產品本身,審視這場發佈會背後的產業邏輯時,會發現在這個被視為下一代計算平台的賽道上,中國的光學系統、晶片設計和製造供應鏈,正在從代工者悄然轉變為定義者。某種意義上,一場靜默的“反向卡脖子”正在發生。Google的“第二次入場”:一場遲到但志在必得的豪賭理解Google此番佈局的深意,需要先回溯其在可穿戴裝置領域的曲折歷程。2013年,Google眼鏡以顛覆者的姿態驚豔亮相,卻因隱私爭議、高昂定價和孱弱的應用生態黯然離場。十餘年過去,當Meta憑藉Ray-Ban智能眼鏡悄然佔據市場,當蘋果以Vision Pro重新定義空間計算的產品形態,當字節跳動、華為等中國玩家在XR賽道密集佈局時,Google發現自己正處於一個危險的位置:它擁有全球最先進的AI能力,卻缺乏一個能讓這種能力“走出螢幕”的硬體載體。Meta的Ray-Ban智能眼鏡這正是Android XR平台的戰略核心所在。Google試圖複製其在智慧型手機時代的成功路徑——通過開放平台吸引硬體合作夥伴,建立生態標準,最終實現系統級的統治地位。但這一次,它面臨的挑戰遠比當年更加嚴峻。智能眼鏡不是智慧型手機的簡單延伸,它需要在光學顯示、空間計算、續航散熱和佩戴舒適性之間尋找極其精細的平衡點。而這些平衡點的技術實現,恰恰是Google自身並不擅長的領域。於是,一個有趣的現象出現了:在Android XR平台的首發產品矩陣中,最具技術含量的Project Aura,其核心硬體研發幾乎全部由中國團隊完成。X-Prism光學系統由XREAL中國團隊獨立研發量產,X1S空間計算晶片由XREAL端到端自研,完整供應鏈紮根長三角。Google提供了AI大腦和軟體平台,但讓這個大腦“看見世界”的眼睛,卻是中國製造。當前的XR市場正處於一個微妙的臨界點。從產品形態上看,存在三條平行演進的路徑:以蘋果Vision Pro為代表的高端沉浸式頭顯,以Meta Ray-Ban為代表的輕量化智能眼鏡,以及介於兩者之間的AR顯示眼鏡。這三條路徑分別對應著不同的使用場景、技術難度和市場定位,尚未出現誰將最終勝出的明確訊號。從市場份額來看,Meta憑藉先發優勢和激進的定價策略佔據了消費級智能眼鏡的主導地位。Ray-Ban Stories系列累計銷量已突破數百萬台,建立起了初步的使用者認知和使用習慣。蘋果Vision Pro雖然在技術上實現了諸多突破,但3499美元的高昂定價嚴重限制了其市場滲透,更多地扮演著技術燈塔的角色。至於Google,在Android XR發佈之前,其在XR硬體領域幾乎是一片空白。但市場份額並不能完全反映競爭的真實態勢。XR產業仍處於極早期階段,現有的銷量數字在未來可能出現數量級的變化。真正決定長期競爭格局的,是三個關鍵要素:AI能力的深度整合程度、硬體形態的成熟度,以及生態系統的開放性。從這三個維度審視,Google此番入局的時機選擇頗具深意。首先,Gemini AI的能力已經發展到足以支撐空間計算場景的臨界點。多模態理解、即時視覺推理、上下文感知對話——這些能力的組合,使得AI真正具備了理解世界的基礎能力。其次,硬體技術的成熟度也在快速提升。Micro OLED顯示、先進光學設計、低功耗空間計算晶片,這些技術的進步使得消費級AR眼鏡成為可能。最後,Android的開放生態基因使其天然適合扮演平台角色,這是蘋果封閉生態所不具備的優勢。技術突破的關鍵節點:當AI開始“看見”世界Project Aura之所以被稱為“Gemini AI的第一雙原生空間之眼”,源於其實現了AI與XR的深度原生融合。這種融合並非簡單地將AI助手嵌入眼鏡裝置,而是讓AI真正具備了空間理解和環境互動的能力。要理解這一突破的意義,需要先釐清AI能力演進的脈絡。大語言模型讓AI“能聽會說”,多模態模型讓AI“能看會畫”,但這些能力仍然被困在二維螢幕的邊界內。AI可以分析一張照片,但無法持續感知真實環境的變化;可以理解一段對話,但無法將對話內容與物理空間關聯。Project Aura試圖打破這一邊界。通過三個攝影機、麥克風和環境感測器的組合,Gemini首次能夠在真實世界中建構“連續、可互動、可理解”的空間語義模型。這種能力的實現依賴於幾項關鍵技術的協同突破。光學系統方面,70度視場角(FOV)是消費級AR眼鏡目前能實現的最大實用視場,它決定了數字內容能夠多大程度地自然疊加在真實環境中。XREAL的X-Prism棱鏡透鏡技術在這一指標上達到了行業領先水平,同時將整體重量控制在可日常佩戴的範圍內。空間計算方面,X1S晶片建構了低延遲、高精度的空間智能鏈路,能夠同時處理三個攝影機的資料輸入,實現全房間追蹤和手勢識別。AI推理方面,Gemini的端側部署使得即時語義理解成為可能,使用者可以用手指在空中圈選任何物體,立即獲得相關資訊和搜尋結果。CNET記者Scott Stein在體驗後寫道:“坐在沙發上戴著Project Aura,這副原型眼鏡立即讓我感覺像是VR被縮小到了更小的形態。”他啟動了一個無線連接的電腦視窗,用手勢控制應用,甚至運行了VR遊戲Demeo。“最令我驚訝的是,所有這些都可以僅憑一副眼鏡實現。”這種評價的份量在於,它來自一個見證了過去十年幾乎所有XR產品的資深觀察者。然而,技術突破並不意味著產業成熟。心智觀察所之前曾撰文指出,智能眼鏡領域存在一個被業內稱為“不可能三角”的結構性難題:全天候舒適佩戴、極佳的顯示效果、強大的AI智能化——當前沒有任何一款裝置能夠同時完美解決這三點。舒適佩戴要求裝置重量極輕、發熱量低、外觀時尚,這意味著電池容量、晶片算力和顯示單元尺寸都必須大幅壓縮。極佳的顯示效果要求高解析度、大視場角、高亮度和良好的透光率,這需要更複雜的光學系統和更大的顯示單元。強大的AI智能化要求高算力的晶片、豐富的感測器和持續的網路連線,這進一步增加了功耗和發熱。這三個維度彼此制約,形成了一個難以突破的技術瓶頸。XREAL創始人兼CEO徐馳坦承,Project Aura並不試圖解決全天佩戴的問題,其定位是可攜式工作裝置而非日常穿戴配件。但他同時預測,未來智能眼鏡可能會演化出二元化的產品形態:一種主打35克以下的全天候佩戴,以犧牲顯示效果和算力為代價;另一種則以更好的顯示效果為基準,重量約50至60克,適合特定場景的沉浸式使用。除了硬體層面的不可能三角,智能眼鏡還面臨著軟體生態和使用者接受度的雙重挑戰。應用開發者需要為全新的互動範式重新設計產品,而使用者則需要克服將裝置佩戴在面部的心理障礙和社會壓力。Google眼鏡當年的失敗,很大程度上源於這兩個層面的不成熟。即便技術已經取得長足進步,這些非技術因素仍然是產業化道路上的重要變數。靜默的權力轉移:中國供應鏈如何重塑行業格局在討論智能眼鏡產業的未來時,一個經常被忽視的維度是供應鏈的權力結構。過去十年,中國製造在全球科技產業鏈中的角色,主要是成本優勢驅動的代工和組裝。但在XR這個新興賽道上,情況正在發生根本性的變化。Project Aura的案例極具說明性。這款被Google定位為Android XR平台最完整、最接近理想形態的硬體樣本的產品,其核心技術幾乎全部來自中國。X-Prism光學系統是消費級AR眼鏡最關鍵的技術壁壘之一,它決定了裝置的視場角、清晰度、色彩還原和佩戴舒適度,而這一系統由XREAL中國團隊從零開始獨立研發並實現量產。X1S空間計算晶片是另一個技術高地,它需要在極低功耗下實現多攝影機資料的即時處理和空間定位,而這顆晶片由XREAL端到端自主設計。更值得關注的是,支撐這些核心技術的完整供應鏈已經在長三角地區成型。從光學鏡片的精密加工,到Micro OLED螢幕的生產,再到晶片的封裝測試和整機組裝,一條高度整合、快速迭代的產業鏈正在形成閉環。上海作為XREAL的全球研發中心,正在成為智能眼鏡產業創新的核心樞紐。這種供應鏈格局的形成並非偶然。智能眼鏡對製造精度的要求遠超智慧型手機,光學系統的微米級公差控制、顯示模組的精密貼合、整機的輕量化設計,每一個環節都需要長期積累的工藝經驗和快速迭代的能力。中國製造業在消費電子領域二十餘年的積澱,恰恰為這一新賽道提供了堅實的基礎。如果說過去幾年中美科技競爭的主旋律是美國對中國的“卡脖子”——從晶片製造裝置到EDA軟體,從先進製程到AI晶片——那麼在XR領域,一種反向的依賴關係正在悄然形成。讓我們做一個假設:如果XREAL或其他中國XR供應商決定不再向海外整機廠商提供核心光學模組和空間計算晶片,會發生什麼?Google的Android XR平台將失去其最具競爭力的硬體載體;Meta的下一代AR眼鏡可能面臨關鍵零部件的供應中斷;甚至蘋果,儘管其自研能力強大,也不得不依賴中國供應鏈來實現規模量產。這並非危言聳聽。在AR光學這個細分領域,中國企業已經建立起了難以綁過的技術和產能優勢。Birdbath方案、自由曲面棱鏡、光波導——無論那種技術路線,中國供應商都處於全球領先位置。而在Micro OLED和Micro LED顯示領域,中國企業同樣佔據著重要份額。更重要的是,這些技術優勢是與製造能力深度繫結的——即便競爭對手獲得了設計圖紙,要在短期內建立起具有競爭力的生產線幾乎不可能。徐馳在極客公園創新大會上的一番話頗耐尋味:“沒有任何一家公司能包攬系統、AI與硬體的所有創新。下一代計算平台需要一個全球化創新聯盟。而中國憑藉最完整的製造鏈條與最快的硬體創新速度,第一次真正站在了定義未來標準的位置。”這番表態的潛台詞是:中國不再只是執行別人定義的標準,而是有能力參與甚至主導標準的制定。當然,“反向卡脖子”的能力並不意味著一定會被使用。全球科技產業的相互依存是雙向的,任何一方的脫鉤都會帶來巨大的成本。但能力本身就是一種談判籌碼,它改變了博弈的基本結構。在過去,中國企業在與海外巨頭的合作中往往處於被動地位,核心技術和利潤分配由對方主導。而在XR這個新賽道上,中國企業有機會以更平等的姿態參與全球競爭,甚至在某些環節掌握主動權。增量資料的入口:眼鏡通向AGI的必經之路?徐馳提出了一個引人深思的觀點:“眼鏡所帶來的增量資料,很可能是AI通向AGI的必經之路。”這一論斷的邏輯在於,當前AI訓練所依賴的公域和私域資料都已接近枯竭,而智能眼鏡將成為為AI提供更多個性化增量資料的最佳入口。這個觀點觸及了AI發展的一個核心瓶頸:資料。大語言模型的能力提升在很大程度上依賴於訓練資料的規模和質量,而網際網路上可用的高品質文字資料正在被快速消耗。視覺資料、空間資料、行為資料——這些智能眼鏡能夠持續採集的多模態資訊,可能是下一階段AI能力躍升的關鍵燃料。如果這一判斷成立,那麼智能眼鏡的戰略意義將遠超其作為消費電子產品的範疇。它將成為AI能力演進的基礎設施,而掌握這一基礎設施的企業和國家,將在AI時代佔據戰略高地。從這個角度看,中國企業在智能眼鏡核心技術上的突破,其意義不僅在於一個新產品品類的競爭力,更在於對AI發展基礎資源的控制力。徐馳預測,一個真正具備“iPhone時刻”意義的智能眼鏡產品將在未來兩到三年內問世。如果真是2027年,那恰好是20年的輪迴:從2007年初代iPhone到2027年。這個時間預測是否精準尚待驗證,但其背後的判斷邏輯值得重視:技術成熟度、生態準備度和使用者接受度正在同時逼近臨界點。Google此番發佈Android XR平台和Project Aura,正是這一臨界點的訊號之一。它表明,即便是擁有全球最強AI能力的科技巨頭,也必須借助中國的硬體創新能力才能將願景轉化為產品。它也表明,下一代計算平台的競爭將不再是單一公司或單一國家的獨角戲,而是一場全球化的協作與博弈。在這場博弈中,中國的位置正在發生微妙而深刻的變化。從全球工廠到創新源頭,從標準執行者到標準定義者,從被動依附到可以反制——這些變化或許還不夠顯性,但其勢能正在積聚。當AI開始“長出眼睛”,中國製造的技術基因,已經深深嵌入了這雙眼睛的每一個零部件之中。未來已來,只是分佈不均。而在智能眼鏡這個承載下一代計算平台願景的賽道上,中國或許正站在分佈最密集的那個節點上。 (心智觀察所)
AI 算力:Google vs 輝達
近日,SemiAnalysis發佈文章《TPUv7: Google或終結輝達的CUDA護城河》指出,世界上最好的兩大模型Anthropic的Claude 4.5 Opus和Google的Gemini 3主要的訓練和推理基礎設施用的都是Google的TPUs和亞馬遜的Trainium,尤其Gemini 3完全是基於TPUs訓練的。事實上,Anthropic等AI實驗室現在可以通過採購(或者威脅採購)TPU,來作為與輝達談判的籌碼,從而大幅降低其GPU的總體擁有成本。黃仁勳從多年前反覆強調的、語氣詼諧但似乎又是不爭的事實的“The more you buy, the more you save”,本來是說The more GPUs you buy, the more money you save,現在似乎就要變成“The more TPUs you buy, the more GPUs you save”。Google2006年開始打造AI專用的基礎設施,到2013年忽然發現,如果要大規模部署AI,就需要讓資料中心的數量翻倍,於是伴隨著越發緊迫的算力需求,TPU晶片在2016年投產,一開始只用於Google內部的工作流,2018年面向GCP客戶提供服務,然後商業化路線越發清晰,現在不僅通過GCP讓TPU全端能力惠及外部客戶,而且作為供應商直接出售完整的TPU系統。今年10月,Anthropic宣佈進一步使用Google雲的技術,包括在2026年投入數百億美元,以多至100萬塊TPUs上線超過1吉瓦的算力,用以支援AI研究和產品研發。而在Anthropic之外,Meta、SSI、xAI等也已加入GoogleTPU的客戶名單。輝達前幾天甚至發文試圖穩住市場對自己的信心,雖然所謂“祝賀Google的成功(We’re delighted by Google’s success)”沒有明確指向是AI應用的成功還是基礎設施的成功——Perhaps both.想到上個月巴菲特的Berkshire Hathaway建倉Google母公司Alphabet,持倉43億美元,而這是股神首次買入“AI題材股”。想到薛兆豐老師的《漫畫經濟學》說:所謂的“內幕消息”都會提前反映在資產價格中。不過,這裡的“內幕消息”絕不只是浮於表面的“某條消息”。SemiAnalysis在兩三年前就預言“TPU霸權(TPU supremacy)”,過去一年的持續追蹤也證明了,GoogleTPU的強勢崛起已經成為一個顛覆性的市場力量。儘管單顆TPU晶片的理論峰值算力可能與輝達旗艦產品還有差距,但Google以卓越的系統級工程能力(system-level engineering)可以實現匹敵輝達的性能和成本效率——相較Gemini 3模型的成功,OpenAI自2024年5月發佈GPT-4o以來,還沒有成功完成一個可大規模部署的前沿模型的全規模預訓練任務;而在具有經濟價值的長程任務測試中,Gemini 3相較GPT 5.1更是毫無懸念地勝出。當然,縱使系統能力很重要,Google也沒有忽視微架構(microarchitecture)。之前Google的TPU設計理念相較輝達更為保守,主要是因為Google優先考慮RAS(可靠性、可用性、可服務性),願意犧牲極限性能來換取更高的可用性,因為硬體故障導致的停止成本會嚴重影響實際的TCO。畢竟,不同於輝達和AMD,Google沒有誇大外部宣傳指標的壓力,不用執著於實際上難以維持的“理論FLOPs峰值”,而且在2023年之前Google的主要AI負載是推薦系統模型,對超高算力的需求沒那麼迫切。但是,進入LLM時代,Google的TPU設計理念也在發生轉變。尤其最新兩代TPU(TPUv6 Trillium和TPUv7 Ironwood)——v6在相同製程和晶片面積下實現了2倍的峰值算力提升,且功耗顯著降低;v7則幾乎全面縮小了與輝達旗艦產品的差距,在算力、記憶體頻寬上接近GB200。事實上,從Google自身的採購視角來看,TPUv7的總體擁有成本比直接採購輝達GB200伺服器要低大約44%,完全彌補了峰值算力和峰值記憶體頻寬方面大約10%的不足。即使是對於外部客戶而言,SemiAnalysis預估每小時的TCO仍然可以比GB200低約30%,比GB300低約41%。另外,TPU的一大特徵在於可以通過ICI互聯協議(Inter-Chip Interconnect)實現極大的規模化擴展,單個TPU pod可以支援高達9216顆Ironwood TPUs,這就可以避免多叢集通訊帶來的效率損耗。然而,GoogleTPU的部署速度受制於電力資源和緩慢的行政流程。對此,Google採用“表外信用擔保”模式,通過為Fluidstack等靈活的新興雲提供商(Neoclouds)提供背書,間接利用轉型礦商等新興資料中心提供商所擁有的電力和基礎設施。這個模式很大程度上解決了Neocloud行業的融資難題,i.e. 算力叢集4-5年的經濟壽命與資料中心15年以上租約的期限錯配,SemiAnalysis預測這種“超大規模雲服務商擔保”的模式或成為行業新標準。而CoreWeave、Nebius、Crusoe等與輝達深度繫結的Neoclouds未來可能需要在“爭奪Nvidia Rubin系統配額”與“開拓TPU市場”之間做出關鍵的戰略抉擇。AI算力市場格局正在發生深刻的變革。GoogleTPU的成功意味著AI算力市場不再是輝達“一家獨大”,而競爭或迫使所有廠商不斷推進技術創新和成本最佳化,或許可以推動整個AI產業以更低的門檻、更高的效率向前發展。 (訪穀神)
Google:全端AI之王
【新智元導讀】隨著Gemini 3模型與第七代TPU的強勢發佈,Google終於打破了OpenAI與輝達主導的市場敘事,宣告這一「沉睡的巨人」已憑藉硬核實力完全醒來。ChatGPT一轉眼已發佈三年了。過去三年,全球科技界都沉浸在一個由兩位「雙子星」所主導的敘事中——輝達負責「賣鏟子」,提供高達80%毛利的GPU硬體基石;OpenAI則負責「挖金礦」,堅信Scaling Law(擴展法則),定義模型的前沿。所有人都以為,Google這家一度被分析師認為在AI競賽中「落後」的巨頭,只能扮演一個追趕者的角色。然而,現在一切都已不同。上個月,當Google推出其Gemini 3系列模型和第七代TPU Ironwood時,市場的震撼達到了前所未有的程度。這種震撼不是因為Google「追平」了對手,而是因為它直接重塑了遊戲規則。作為新智元ASI產業圖譜11月號文章,本文將深入分析Google是如何利用獨有的「全端AI」戰略,建構起對手難以複製的護城河並重回巔峰的。「沉睡的巨人」已完全醒來Gemini 3發佈後,就連奧特曼都罕見發聲,承認在某些關鍵維度上確實「落後」了。更加戲劇性的是,輝達股價也應聲下挫,過去一個月跌幅約15%。如此大的跌幅逼得公司不得不發表聲明,強調其GPU的通用性和CUDA生態的不可替代性。與此同時,Google母公司Alphabet的股價卻一路飆升,正邁向4兆美元的市值。這一切都指向了同一個事實:Google這個「沉睡的巨人」,現在已經完全醒來。而這背後的力量源泉,正是其對AI技術堆疊的徹底垂直整合——「全端AI」戰略。正如GoogleCEO Sundar Pichai在Gemini 3發佈時所言——也正因為我們在AI創新上有一套與眾不同的全端做法——從領先的基礎設施,到世界一流的研究、模型和工具,再到觸達全球數十億人的產品——我們才能以前所未有的速度,把先進的能力帶給全世界。性能巔峰:Gemini 3和Nano Banana的非線性突破與Gemini 2.5 Pro相比,Gemini 3的進步並不體現在「參數翻倍」上,而是在推理能力與多模態架構上完成了一次顯著躍遷。它被Google定位為一款基於最先進推理能力的原生多模態模型:能在同一個模型裡同時處理文字、圖像、音訊和視訊,在統一的內部表示中做跨模態推理,並在多項主流基準測試中取得頂尖成績。在LMArena競技場排行榜中,Gemini 3 Pro在所有項目中目前都排名第一。在更強調綜合智能的Artificial Analysis Intelligence Index排行榜中,Gemini 3同樣以73分位居榜首。如果說Gemini 3是智力的巔峰,那麼Nano Banana Pro就是實用性和創造力的狂歡。Nano Banana Pro一經發佈,便迅速引發了一場「社交狂歡」,使用者僅需通過極其簡單的提示詞,就能生成高品質的戰力排行榜、知識繪本和各種表情包等。GoogleCEO Sundar Pichai也提到,Nano Banana Pro在資訊圖表的生成上取得了突破。這種強大的應用屬性,讓普通使用者的創造力得以釋放。正如網際網路讓更多人成為創作者一樣,AI工具正讓更多人以腦海中的方式來表達自我。Nano Banana Pro生成的資訊圖「全端AI」的垂直整合模型能力的突破可能僅僅是冰山一角。要理解Google的強大,則必須深入到其底層的戰略本質——全端垂直整合。如果將AI的進步視為一次登月計畫,那麼競爭對手可能只擁有最先進的火箭(模型)或者最有力的燃料(GPU)。而Google,則建造了一座整合了燃料製造廠、火箭設計院和發射台的全套「航天中心」。這套「全端AI」從底層基礎設施、世界級研究(模型和工具),一直延伸到面向使用者的產品和平台。換句話說,從Nano Banana這樣的應用,到背後的模型,再到最底層的晶片,Google幾乎都握在自己手裡。TPU的誕生與進化Google的全端故事,要從一場看似迫不得已的「自救」行動講起。2015年,Google內部部署了TPU v1,迅速在各部門獲得熱烈反響。這並非出於炫技,而是被逼入了一個「不自研將難以支撐未來業務規模」的現實。當時,深度學習開始廣泛滲透Google的搜尋、廣告等核心業務,這讓Google工程團隊意識到一個關鍵問題:如果全面採用深度學習模型,Google全球資料中心的功耗將暴漲到難以承受的程度。當時的GPU雖然更適合訓練大規模網路,但其能效並非針對即時線上推理設計的。這讓Google的高層意識到,繼續依賴CPU和GPU的現有路線不可持續。於是,Google決定自己造一塊專用晶片(ASIC)——TPU,把目標定得非常簡單粗暴:只幹一件事,把訓練和運行AI模型需要的那些矩陣、向量運算做到極致高效。到了2017年,那篇著名的Transformer論文發表後,Google立即意識到,這個新架構的計算模式高度規則、矩陣密度極高、平行度極高,簡直是為TPU量身定做的。於是,他們自己把軟體架構、編譯器、晶片架構、網路拓撲、散熱系統都握在手裡,形成全端閉環。TPU由此升級為GoogleAI基礎設施的底座和支柱。如今,TPU已發展到了第七代Ironwood(鐵木)。如果說TPU  v4/v5p是兼顧訓練和推理的多面手,那麼Ironwood就是在繼續強化訓練能力的前提下,把推理放到設計核心的一代——一個為大規模推理優先、又能承擔巨型模型訓練的定製利器。相較第六代TPU Trillium(v6e),Ironwood在訓練與推理工作負載上的單晶片性能提升超過4倍;與TPU v5p相比,峰值算力最高可達10倍。它也是Google迄今性能最強、能效最高的TPU。Ironwood單個superpod可容納9,216顆TPU,依託9.6 Tb/s等級的晶片間互聯和約1.77 PB的共享高頻寬記憶體,大幅緩解了大模型訓練和推理中的通訊瓶頸,使複雜AI模型在超大規模叢集上運行得更快、更穩定。它的出現,意味著Google正式把資源和架構重心從「訓練」轉向「訓練+大規模推理一體化」,並公開把「age of inference」(推理時代)定義為下一階段AI基礎設施的主戰場。通過Ironwood+AI Hypercomputer這套系統級組合拳,Google同時在單晶片性能和整機房級算力密度兩條戰線對標輝達,爭奪下一代AI基礎設施的話語權。Ironwood超級機櫃的一部分,直接在一個單一域內連接了9,216個Ironwood TPU模型與硬體的深度契合Google的AI全端戰略在軟硬體一體化這點上看得最清楚。靠著這套從晶片、資料中心到模型架構都自己打通的體系,Google把過去層層割裂的環節擰成了一根繩,性能和效率一起往上抬。以Ironwood為例,它就是研究人員影響硬體設計、硬體反過來加速研究成果的持續閉環產物。當GoogleDeepMind團隊需要為其頂尖模型實現特定架構突破或者最佳化時,他們可以直接與TPU工程師團隊緊密協同創新。這種內部協作確保了模型架構的設計始終是基於最新代際的TPU進行訓練,從而相對於前代硬體實現顯著的性能提升和加速。Jupiter資料中心網路能夠將多個Ironwood超級莢連接成包含數十萬個TPU的叢集現在,Google的創新循環更進了一步,達到了「AI設計AI」的境界。他們用一種名為AlphaChip的AI技術來設計下一代晶片的佈局方案。AlphaChip利用強化學習來生成更最佳化的晶片佈局。目前,這一方法已經成功應用於包括Ironwood在內的連續三代TPU的設計中。這大大降低了Google對外部半導體設計工具和供應商的依賴。通過這種自研晶片+內部最佳化,Google在算力成本上形成了天然優勢,從而避免了昂貴的「CUDA稅」。巨頭們的「投懷送抱」Google內部實測資料顯示,Ironwood在同等負載下的推理成本較GPU旗艦系統低30%-40%。有分析指出,Google提供同等推理服務時的底層成本可能僅為對手的兩成。在推理時代,這樣的成本差異足以改變大客戶的架構選擇:對每年在推理上投入數千萬甚至上億美元的企業來說,壓縮三到五成支出,足以改寫財報。在這一層意義上,TPU正在變成許多公司重構推理基礎設施時優先考慮的算力引擎。Google自己也正在將TPU從「內部黑科技」打造為市場上的「生態可選項」,進而吸引像Anthropic、Meta這樣的大客戶。僅Anthropic一家就計畫接入高達100萬個TPU。Google還順勢啟動了TPU@Premises計畫,將TPU直接部署在企業的資料中心,使得客戶可以在本地以極低的延遲使用推理能力。近期還有市場傳聞稱,Meta正評估在2027年把TPU引入自家資料中心,並最早從明年起通過Google雲租用部分算力——無論最終如何落地,這類討論本身就說明TPU已經進入一線網際網路公司的選項集。回到更可量化的層面:根據Google第三季度財報,Google雲新增客戶數量同比增長近34%,超過10億美元的大單規模已超過前兩年的總和,超過70%的客戶正在使用Google雲的AI產品。這些變化,在很大程度上都與Google在算力成本和產品形態上的優勢緊密相關。C端:全端AI的終極引擎正如上文GoogleCEO劈柴哥所言,Google的全端AI戰略,是一個涵蓋AI基礎設施、世界級研究(包括模型和工具)以及將AI帶給全球使用者的產品和平台的全面系統。C端產品——特別是其核心業務如搜尋、地圖以及Gemini app和Nano Banana Pro等新的AI應用——不僅僅是戰略的最終輸出,它們更是驅動整個全端AI生態系統向前發展的核心引擎,是實現技術驗證、資料積累和商業閉環的關鍵。Google憑藉其無可匹敵的使用者規模和資料廣度,為其定製硬體和領先模型提供了無與倫比的「煉丹爐」和「試驗場」。這些資料來源包括Google搜尋、Android、YouTube等,Google通常自己使用這些資料。而像Gemini系列模型,則被視為是貫穿Google所有產品的主線。在2025年第三季度,Google的第一方模型(如 Gemini)僅通過客戶直接API,每分鐘就處理約70億個tokens。若把搜尋、YouTube、Android等所有介面加起來,每月被模型消化的tokens已超過1.3千兆個(quadrillion),一年內增長了20多倍。這些資料展示了C端產品作為AI能力載體的恐怖規模,也使得Gemini應用在推出後,月活躍使用者數迅速超過6.5億,形成了驅動AI進步的資料飛輪。以GoogleAI Mode為例,自推出以來其在美國實現了強勁且持續的周環比增長,查詢量在一個季度內翻了一番。截至三季度,已擁有超過7500萬的日活使用者,推廣到了全球40種語言。最重要的是,AI Mode已經為搜尋帶來了增量的總查詢增長。12月2日,Google已宣佈將AI Mode融入進搜尋中,給搜尋使用者提供類似ChatGPT的聊天體驗。這種C端產品成功將AI技術轉化為實實在在的業務增長,進一步奠定了Google在核心領域的競爭優勢。簡言之,Google的C端產品(如搜尋),是其全端AI戰略的需求源、資料場和商業出口。這些C端產品一方面製造了真實的流量和使用壓力,另一方面又不斷把反饋灌回Google的TPU和Gemini,讓它們在高頻迭代中越跑越省錢、越跑越高效。全端AI:改寫技術文明底座在當下這個以「推理為先」的AI時代,Google率先把競爭從單一模型的短跑,換成了全端系統的馬拉松。至此,真正的護城河不再是誰有更多的晶片、更先進的模型,而是誰掌握了「基礎設施-研究-產品-資料」的閉環。展望未來,如果說過去網際網路解決的是「資訊是如何被找到的」,那麼全端AI要回答的將是「世界如何被重新組織」。以Google為代表的科技公司,能否將這套AI閉環,轉化為更公平的教育、更高效的科研、更可持續的產業,將在很大程度上決定下一代技術文明的形狀——那時,我們也許不再刻意談論AI,因為它將成為文明的默認背景。 (新智元)
Google和阿里,打破創新者窘境
半年前,市場對Google還普遍抱持著謹慎觀望、甚至略帶悲觀的態度。但此後Google接連發力:8月Nano Banana推出,9月反壟斷訴訟落地掃清障礙,11月Gemini 3發佈。疊加巴菲特建倉的利多消息,Google市值一舉突破3兆美元,儼然成為AI應用龍頭。無獨有偶,阿里今年也上演強勢翻盤戲碼:通義千問模型多模態能力領先,阿里雲AI業務增長顯著提速,千問App首周下載量破千萬,硬體端推出夸克AI眼鏡……這場從傳統電商平台到AI科技生態公司的戰略轉型,讓其股價從年初至今斬獲超90%的漲幅,終結了連續四年的低迷態勢。兩家公司雖然身處不同市場,但都走出了同樣的曲線:從巨頭慣性 → 路徑依賴 → 戰略重構 → 再度增長。兩家公司都呈現出一個極罕見的景象:創始人以再創業者的姿態,重新進入核心戰場。🇺🇸 布林回歸,讓Google重新擁有技術靈魂Google聯合創始人謝爾蓋·布林早已功成名就,本可安心享受退休生活。但面對ChatGPT的衝擊和Google內部的山頭林立,他選擇重返公司。這位對技術極其敏銳的聯合創始人,開始重新參與核心研發工作:出現在Gemini團隊的程式碼評審會議、參與模型訓練策略與技術路線討論、重金請回Transformer核心人才、解決DeepMind與Brain合併後的路線與文化摩擦、推動算力與頂尖人才向單一旗艦模型集中。Google過去最大的組織問題,是技術路線分散、部門協作成本高、創新鏈條被拖慢。布林的回歸,以創始人權威壓掉內耗與分歧,重建執行力。🇨🇳 阿里:蔡崇信與吳泳銘掛帥,重建速度與攻勢阿里巴巴的變革則更為激進和徹底。2023年9月阿里創始班底回歸,蔡崇信、吳泳銘分別出任阿里巴巴集團董事會主席和CEO,確立AI驅動的戰略重心。蔡崇信從資本和戰略層面,為阿里的AI轉型提供頂層設計。押注開源模型、聚焦雲+基礎設施。吳泳銘兼任淘天集團和阿里雲智能集團的CEO,以一人雙帥的高效模式,將電商和雲端運算兩大核心業務與AI戰略徹底打通,確保資源聚焦和效率最大化。資源層面,阿里做出重磅承諾:三年投入3800億元佈局 AI 與雲端運算。這是一個遠超常規的戰略訊號,將幾乎是未來三年的利潤全數押注AI,用真金白銀的成本向市場宣告轉型的堅定決心。Google與阿里的逆襲,都是戰略上All in AI,靠持續落地的技術產品與商業成果兌現承諾、重塑市場認知。但所有人都清楚,從知道到做到,中間橫亙著巨大的組織惰性、路徑依賴。職業經理人很難做出這樣的決策——受制於任期、考核和董事會壓力,他們往往選擇最佳化現有業務,偏好漸進式創新,而規避回報周期長、可能顛覆現有業務的顛覆性創新。AI作為公認的範式級革命,顛覆性遠勝以往。大公司破局的唯一解藥,是創始人意志的直接介入:憑藉創始人意志錨定方向,驅動資源的超常規配置和組織的超常規協同,破除創新者窘境。 (張大愚)