#推理
震動全行業!Google剛剛打出了一張“王炸”:Gemini 3 Flash,徹底終結AI應用的“燒錢”遊戲!
Google剛悄悄上線了Gemini3Flash——要是光看跑分,它可能不是最扎眼的,但要說顛覆性、對明年預算和產品規模化的影響,這模型絕對排得上頭名。我直接說透:它可不光是“快”和“便宜”這麼簡單,Google這是憑著一己之力,用成本結構對整個AI推理市場搞“降維打擊”呢。01 戰略定位:那是“青春版” , 分明是“部署級核武器”!好多人覺得Flash是Gemini3Pro的“性能縮水版”,這理解真的完全跑偏了!從架構來看,Gemini3Flash是直接搭在Gemini3Pro的推理基礎架構上的,根本不是獨立的弱架構——它共享著同樣的推理骨幹,只是專門針對極低延遲和極低成本做了深度最佳化。Google這兒還拋出個關鍵概念:“思考等級”(ThinkingLevels)。作為業內人,這點你可得吃透:以前不管讓模型干多簡單的活,都得為它的“最大推理深度”付費。但現在有了“思考等級”控制,開發者能根據任務需求,精準調控模型的推理程度。這意味著啥?你再也不用為解決一個簡單的圖像識別問題,花解決複雜數學難題的推理費用——這可是對AI經濟模型的一次根本性顛覆。02 核心吸引力:成本“屠夫”上線 , 把“燒錢”變成“印鈔”價格才是這次發佈的真炸彈。把性能和成本標準化之後,Gemini3Flash的競爭力簡直沒誰了。看組資料就知道,這才是真・成本大跳水:輸入(每百萬Token):才50美分輸出(每百萬Token):僅需3美元這價格有多震撼?比Gemini3Pro、ClaudeSonnet4.5甚至GPT5.2都便宜太多。Google的訊號已經很明確了:Gemini3Pro是給那些追求最大推理深度、不在乎成本的場景準備的;而Gemini3Flash,才是Google要你“部署到任何地方”的模型。它不是智能上的“退步”,而是“每決策支出”(SpendPerDecision)上的一次史詩級下降。03 打破低價迷思:多模態與編碼 , 照樣能打!低價可不代表低能——這正是Flash最讓人興奮的地方。它經過最佳化後,在推理、多模態理解、編碼和長上下文任務裡,都能保持穩定的高水準。A.多模態理解:截圖即程式碼生成 , 成本直接大降多模態工作流以前就是“燒錢”的代名詞,但Flash證明了:不用讓成本爆炸,也能實現前沿能力。在評估截圖和UI元素理解能力的ScreenSpotPro基準測試裡,Flash表現特別能打。想像下這個場景:你給它一張Web分析儀表盤的截圖,它能立馬看懂內容,用HTML、TailwindCSS和Chart.js幫你重建功能相似的網頁程式碼,甚至還能自動加UI推理——比如顯示餅圖的數值和百分比這些細節。這就說明,Flash能以極低的成本做截圖分析、UI推理和視覺理解,壓根不用呼叫最昂貴的模型層級。B.通用推理與持續編碼能力專家級分析:在針對高難度科學和特定領域推理的GPQADiamond測試中 , Flash拿了90.4%的高分 , 跟Gemini3Pro差不了多少——這意味著它完全能勝任技術分析、長篇綜合、專家級問答這些研究密集型任務。編碼代理:在LiveCodeBench上 , Flash的性能和Pro在同一水平。更關鍵的是 , 它能支援連續編碼代理 , 還不會讓你的營運成本“炸掉”——這對所有AI軟體工程公司來說 , 絕對是最大的福音!04 該重新審視你的產品策略了!Gemini3Flash最大的價值,是給所有開發者和企業打開了規模化應用的大門。以前設計AI產品,總免不了在“功能強大”和“使用成本”之間糾結來糾結去。現在Flash憑著前所未有的性價比,直接打破了這個困境。它釋放了一個明確訊號:AI應用的黃金時代,不是由性能天花板決定的,而是由成本地板定義的。 (New基地)
Gemini 3 Flash 可能是 Google 最狠的一步棋
剛剛Google正式推出了Gemini 3 Flash,這可能是 Google 這幾年最重要的一次模型發佈如果只看名字,Gemini 3 Flash 很容易被誤解成一個閹割版,快但不聰明的模型。但實際情況恰恰相反——它可能是 Google 到目前為止,戰略意義最大的一次模型選擇一句話先給結論:Gemini 3 Flash =前沿大模型智商 + 閃電級速度 + 超低成本的組合拳。它不是縮水版,而是把快和強第一次真正合在了一起不知道Google是怎麼訓練的,在複雜推理測試ARC-AGI-2和衡量真實程式設計能力測試SWE-bench Verified 基準中,Gemini 3 Flash都超過了Gemini 3 pro過去兩年,大模型世界裡一直有一道隱形分界線:一邊是能力最強、但又慢又貴的旗艦模型,另一邊是響應快、成本低,但明顯沒那麼聰明的輕量模型Gemini 3 Flash 做的事情,就是把這條分界線直接抹掉了它在多個博士級推理和多模態基準上,已經逼近甚至追平 Gemini 3 Pro 這樣的重型選手,卻同時保留了 Flash 系列最核心的特性——極低延遲和極高吞吐。更關鍵的是,在真實使用場景中,它平均比上一代 2.5 Pro 少用 30% 的 token,卻把正確率做得更高這件事對開發者的衝擊尤其明顯在 Agent、自動程式設計、高頻互動系統裡,真正的瓶頸從來不是模型能不能想明白,而是想明白要不要等三秒。Gemini 3 Flash 在 SWE-bench 這類面向程式碼 Agent 的評測中,甚至跑贏了 Gemini 3 Pro,本質原因只有一個:它足夠聰明,同時也足夠快,快到可以被反覆呼叫而當這種能力開始變便宜,事情的性質就變了Gemini 3 Flash 的定價已經低到一個明確的訊號:它不是拿來偶爾用一次的,而是拿來當基礎設施用的Google 直接把它設成了 Gemini App 的默認模型,全球使用者免費使用;同時,它也開始成為搜尋裡 AI Mode 的核心大腦。你在搜尋裡問一個複雜問題,它不只是給你答案,而是能拆解問題結構、結合即時資訊,再給你一個可以立刻行動的方案,而這一切幾乎和傳統搜尋一樣快這一步,其實比參數更重要如果說前兩年的競爭重點是誰的模型更像人類博士,那麼 Gemini 3 Flash 代表的,是下一階段的方向,誰能讓這種水平的智能,真正跑在每一次點選、每一次呼叫、每一次搜尋裡從這個角度看,Gemini 3 Flash 並不是一個Flash 模型,而是 Google 對 AI 規模化落地的一次明確表態:智能本身已經不是稀缺資源了,稀缺的是能被高頻使用的智能不得說GoogleTPU+強悍的研發能力已經成為事實上領先者了,Sam 昨天緊急推出的圖像模型追Nano Banana Pro,接下里要追的可能就多了,這在幾個月前甚至都不能想像 (AI寒武紀)
GPT-5.2絕地反擊,能否撼動Gemini 3的地位?
AI領域的角逐從未停歇,OpenAI的GPT-5.2在“紅色警報”下強勢登場,直接叫板Google的Gemini 3。這場技術巨頭間的較量,不僅關乎模型性能,更預示著未來AI生態的格局與紅利走向。👉 GPT-5.2的技術深度與突破點:重塑專業知識工作流OpenAI此次推出的GPT-5.2並非簡單升級,而是圍繞推理、記憶、工具使用和長上下文理解進行了全面強化,旨在解決企業級工作流中的痛點。它細分為Instant、Thinking和Pro三個版本,滿足不同場景需求。•核心推理能力質變: GPT-5.2 Thinking版本在GDPval知識工作評估中,對44種職業的專業任務表現達到或超越人類專家水平,勝率高達70.9%。 這意味著它能更高效地完成電子表格製作、簡報建構、程式碼編寫等複雜任務,且速度比人類專家快11倍,成本不到1%。 在ARC-AGI-2抽象推理基準測試中,Thinking版本達到52.9%,Pro版本更是高達54.2%,遠超Gemini 3 Deep Think的45.1%,展現了在解決新穎、抽象問題上的卓越能力。•長上下文理解的“記憶”革命: GPT-5.2在處理長文件方面表現出色,尤其在MRCR v2基準測試中,對256k tokens的長上下文幾乎達到100%的精準率。 這對於分析報告、合同、研究論文等超長文字至關重要,極大地提升了處理複雜、多檔案項目的能力,避免了上下文丟失的痛點。•程式碼與科學領域的降維打擊: 在軟體工程領域,GPT-5.2在SWE-Bench Verified測試中取得80%的高分,並在更嚴苛的SWE-Bench Pro中達到55.6%,顯著提升了程式碼生成、偵錯和大規模程式碼庫重構的可靠性。 在數學領域,GPT-5.2在AIME 2025(無工具)中實現100%的完美得分,並在FrontierMath專家級數學問題上達到40.3%的解決率,展現了突破性的數學推理能力。•多模態與工具呼叫: GPT-5.2 Thinking是目前最強的視覺模型,圖表推理和軟體介面理解的錯誤率降低了約一半。它在Tau2-bench Telecom工具呼叫基準測試中達到98.7%的精準率,進一步提升了多輪、多工具工作流的可靠性。💡 Gemini 3的生態護城河與多模態優勢Google的Gemini 3憑藉其原生多模態能力和深度生態整合,建構了強大的護城河。•原生多模態的“大腦”: Gemini 3從底層設計上就支援文字、圖像、視訊、音訊甚至程式碼的無縫融合理解。 尤其在視訊-MMMU基準測試中達到87.6%,展現了其在處理複雜多模態資訊上的領先優勢。•超長上下文與“深度思考”: Gemini 3擁有高達100萬tokens的巨大上下文窗口,這使其在處理超長對話、研究論文或大型程式碼庫時,能保持更強的連貫性和理解力。其Deep Think模式更是將推理邊界推向極致,用於解決最複雜的難題。•生態整合與Agentic能力: Gemini 3深度整合於Google的各項產品中,如Gemini App、Google Search的AI模式、Workspace應用(Docs, Sheets等)以及Google AI Studio和Vertex AI等開發者工具。 它的Agentic能力讓AI不再只是“知道”,而是能“行動”,通過定義目標,Gemini 3能自主決定並呼叫工具完成多步驟工作流,例如自動預訂服務或整理收件箱。 尤其值得關注的是其Generative UI功能,能直接通過自然語言生成互動式應用程式,從概唸到應用的轉化效率實現指數級提升。✅ 終極對決與未來趨勢:認知突圍的關鍵GPT-5.2的發佈,是OpenAI在面對Gemini 3的強大攻勢下,一次“程式碼紅色”的絕地反擊。 儘管Gemini 3在多模態和生態整合方面保持領先,尤其在LMArena的文字、視覺、圖像編輯和搜尋等多個多模態榜單上佔據首位,但GPT-5.2在專業知識工作、編碼、數學和抽象推理等核心能力上實現了顯著的認知突圍。價格方面,GPT-5.2的API定價 ($1.75/百萬輸入token, $14/百萬輸出token) 相較GPT-5有所上漲,但其90%的快取輸入折扣和Batch API的50%折扣,旨在提高複雜任務的成本效益。 而Gemini 3 Pro的API定價 ($2.00/$12.00/百萬token,超過200K上下文則更高) 則更強調按使用量付費,並有免費試用層級。 最終選擇,取決於具體應用場景對模型深度、生態整合度及成本效率的權衡。這場AI巨頭間的激烈競爭,正加速推動通用人工智慧的演進。無論是GPT-5.2的“思維引擎”,還是Gemini 3的“行動代理”,都在為我們描繪一個AI深度賦能的未來。真正的贏家,將是那些能有效利用這些底層技術,建構自身資料和應用護城河的企業,抓住這波前所未有的AI紅利。 (澤問科技)
37歲、240 億美元!一個在中餐館長大的華裔學霸,登上了最年輕富豪榜
我們見過無數“別人家孩子”的故事,但這位來自《福布斯》雜誌上最新一期的報導,具有能讓所有人都熱血上頭的成長路徑——他的名字叫 Edwin Chen,37歲,做到公司估值240億美元;出身普通,父母經營中餐館;MIT 數學+語言學+電腦三項頂尖專業;沒融資、低調、不開發佈會,卻被全球 AI 巨頭追著合作。他沒有創立爆紅的大模型,也不是炙手可熱的晶片玩家,卻以一種極其“低調”的方式,成為《福布斯》美國最年輕的億萬富翁之一。圖源:Forbes官網最讓我破防的不是他的身價,而是他身上那種“普通家庭也能培養出傳奇”的真實感。這不是雞娃,這是活生生給所有家長續命。1/ 父母經營中餐館,他卻在後廚自學微積分其實許多成功華裔的故事裡,家庭背景並不光鮮,Edwin Chen也是如此。Edwin Chen在佛羅里達州的水晶河長大,這座墨西哥灣沿岸城市以海牛和退休人士而非科技億萬富翁聞名。他的父母從台灣移民到美國,經營著一家中泰美式餐廳,少年時期的他曾在那裡工作。沒有優越教育資源,也沒有名校輔導班,甚至連像樣的課外活動都沒有。但就是這樣一個普通到不能再普通的環境,卻孕育出了一個天才。當別的孩子在餐廳玩耍時,他埋頭在廚房角落裡研究數學——8 歲自學微積分,17 歲考入麻省理工學院(MIT)。更誇張的是,他沒有滿足於讀一個專業,而是同時攻讀了:數學、語言學、電腦科學,這三個加起來堪稱 MIT 最“硬核”的組合。跨學科思維,就是Edwin在這個階段打下的底色。對於家長而言,這樣孩子的故事幾乎太完美了:不是含著金湯匙,而是擁有努力、天賦和堅持。2/ Google、Twitter、Facebook 的工作經歷,讓他看到 AI 世界的“巨大漏洞”畢業後,他先進入矽谷頂級公司:Google ——做資料探勘;Facebook ——做演算法最佳化;Twitter ——做 AI 模型訓練;按一般人的路徑,他完全可以在大廠躺平吃“金飯碗”。然而在每一個職位上,他都遇到了同樣的問題:難以大規模獲取高品質的人工標註資料。那一刻,他意識到:再強大的 AI,如果沒有高品質的資料輸入,它就永遠學不會像人類一樣思考。他厭倦了那些「完全是垃圾」的資料標註。這是整個行業忽視的問題,也是他後來成功的起點。3/ 2020 年,在舊金山的小公寓裡,開始了一個人的創業沒有融資,沒有團隊,沒有資源。他一個人在租來的小公寓裡寫程式碼、搭網站、做客服。某次攀岩時,他偶遇幾位科技公司高管,隨口介紹了自己正在做的資料標註平台。沒想到對方立刻說:“我們正在頭疼資料問題,你能幫我們做嗎?”就這樣,他拿到了人生第一單客戶。創業之後的一年裡,他幾乎每天只做三件事:寫程式碼做標註和客戶溝通但正是這個階段,Surge AI 打磨出了真正的“殺手級能力”:它不是便宜的標註工廠,而是能理解文化、情緒、隱喻、人類表達方式的“人類知識翻譯器”。這才是真正的稀缺。當其他人還在做簡單的“貓和狗分類”時,Surge AI 已經在做:情緒識別諷刺判定文化語境理解複雜語言推理這些,是 AI 最難訓練的部分。此外,Edwin放棄了傳統的銷售與行銷手段,最初通過自己的資料科學部落格進行溝通,這個部落格是他在十多年前業餘時間建立的。圖源www.edwinchen.aiEdwin曾對採訪的記者說,Surge AI的首批客戶正是通過該部落格獲得,早期客戶包括愛彼迎、Twitch及Twitter。4/ 從未融資,卻做到 12 億美元營收、240 億美元估值Surge AI 做對了什麼?答案是——專注 + 專業 + 高價值服務。當整個行業都在追逐演算法、算力,他卻堅持認為:演算法是引擎,資料才是燃料。於是:社交媒體巨頭找他標註情緒,大模型公司找他訓練推理能力,Meta 在一年內向他購買 1.5 億美元的標註服務,OpenAI、Anthropic、Google、Microsoft、Meta,這些全球最頂尖的大模型團隊……幾乎都在用他的資料。更誇張的是:Surge AI 從未對外融資,但營收超過 12 億美元。在矽谷,敢說自己“不融錢”的公司,幾乎絕跡。而他,卻用這樣“反潮流”的方式,建立了屬於自己的護城河。就連Surge AI的官網也是“反潮流”的低調,低調到首頁只有一堆文字,沒有酷炫的UI和精緻的互動效果。圖源:https://surgehq.ai/5/ 他的故事不是因為財富讓人震撼,而是他的成長擊中了家長最應關心的三件事。1)真正的強者,不是靠刷題堆出來的,而是靠“思維結構”塑造出來的。數學訓練了他拆解問題的能力;語言學讓他理解語境、文化與溝通的本質;電腦把這一切轉化為可執行的技術能力。這樣的能力組合,不是分數決定的,而是認知方式決定的。分數固然重要,但決定上限的,永遠是思維體系。2)未來真正稀缺的,是“深度理解世界的能力”。Surge AI 需要的不是重複勞動,而是深度理解。他們招聘語言學家、人類學家、歷史學者,並不是為了“知識多”,而是為了讓 AI 學會——理解情緒、語境、隱喻、文化背景。這些是人類最複雜的能力,也是 AI 最難獲得的能力。未來的優勢,不再來自技能數量,而來自:是否能解釋複雜問題是否能理解不同文化與人群是否具備洞察力與創造力理解力,是下一代的頂級能力。3)決定孩子上限的,不是成績,而是“能否創造新的價值”。Edwin的成功,來自於“看到別人看不到的價值”。別人做資料,他做“人類智慧的數位化”;別人解決眼前問題,他解決行業底層問題。這類能力不是分數訓練出來的,而是:對世界有自己的判斷能從多學科視角看問題能把知識變成新的價值考試衡量的是輸入能力,而未來衡量的是創造能力。真正能改變命運的,是創造,而不是應付考卷。6/ AI 重塑財富,而教育重塑孩子的未來AI 正在發生一場新的“財富重新分配”。但對我們家長來說,更重要的是:孩子是否擁有 AI 時代真正需要的能力?Edwin Chen給我們看到一種新的可能:從小培養邏輯與思維注重語言與表達把文化理解力當作核心能力跨學科融合,而不是單科突破看到他的故事,不是又看到一個“焦慮範本”,而是一個可複製、可參考的“未來教育範本”。在人類與 AI 共存的時代,理解世界、解釋世界、創造世界的人,永遠不會被機器取代。你家的孩子,也完全有可能成為下一個 Edwin Chen。 (十一媽媽up)
中美領跑全球AI,瑞銀:海灣地區的力量亦不可忽視
中美主導全球生成式AI早已成為不爭的事實,但其他國家也並非都是陪跑角色。瑞銀近期發佈一份研究報告,稱海灣地區憑藉低成本高韌性電力接入的適宜土地,以及支援推理設施建設的強力政策,正成為全球資料中心開發的核心優選區域。據瑞銀測算,在完全折舊的前提下,電力成本佔資料中心整體物料成本的5%-10%。海灣地區充裕的電力容量使其成為建設AI推理設施的低成本區域。此外,海灣地區發展動能正逐步積聚:與超大規模雲服務商、晶片製造商的數吉瓦級合作已逐步落地,貿易限制持續放寬,電網升級計畫與國家級戰略穩步推進,同時終端與企業側對AI推理的旺盛需求,共同構築了良好的產業發展環境。不過,鑑於地緣政治重要性與敏感性,瑞銀判斷用於預訓練的超大型資料中心園區仍大機率保留在美國。Part.01 AI縮放定律近年來,AI資本開支規模與投入強度的大幅增長,源於模型智能度與算力/資料規模的強相關性,這一規律被稱為AI縮放定律。在過去的深度學習時代,該定律發生了範式轉變:更大規模的資料集、高性能硬體及演算法最佳化共同推動算力需求激增。據EpochAI資料,2010-2024年,AI訓練所用算力呈指數級增長,每6個月便實現翻倍,遠高於20世紀50年代機器學習系統誕生初期超20個月的翻倍周期。與此同時,每一輪算力擴容都伴隨能耗的顯著攀升。新一代晶片的單GPU功耗持續走高:輝達晶片的最大功率需求已從安培架構的400瓦,提升至霍珀架構的700瓦、布萊克韋爾架構的1200瓦,預計魯賓架構將達到約1800瓦。除單晶片功耗外,算力叢集規模的擴大進一步推高整體能耗;儘管硬體能效提升可部分抵消算力增長帶來的電力需求,但綜合來看,EpochAI測算2010-2024年,前沿AI模型訓練的總電力需求年均增幅仍超100%。上述趨勢凸顯了電力成本對資料中心營運的關鍵意義——電力已成為資料中心最大的營運成本項。Part.02 合作驅動海灣地區AI基礎設施增長全球頭部生成式AI基礎設施建設方已與海灣地區達成多項合作,其中阿聯的合作項目最為典型:阿聯星門項目2025年5月,輝達、甲骨文與OpenAI宣佈在阿布扎比落地星門項目,複製其在美國的星門基礎設施建設模式。根據規劃,該項目將依託輝達最先進的GB300晶片打造1吉瓦算力容量,且是總投資規模預計達5000億美元的全球星門計畫的組成部分。同時,這也是“面向國家的OpenAI”全球倡議下的首份協議,該倡議隸屬於美國星門計畫,旨在幫助美國以外地區建構自主AI能力。1吉瓦算力叢集將由當地科技企業G42承建,甲骨文與OpenAI負責營運,輝達、思科及軟銀提供技術支援,叢集將落戶阿布扎比新建的美阿AI園區,該園區是整體AI基礎設施基地的一部分,未來總算力規劃達5吉瓦。微軟在阿聯的佈局微軟已承諾2023-2029年在阿聯投資152億美元,其中包括向G42注資15億美元,並近期宣佈在該區域建設200兆瓦資料中心園區。此外,微軟聯合貝萊德、MGX及全球基礎設施夥伴成立AI基礎設施合作聯盟,承諾總投資規模達1000億美元,輝達與xAI已於今年早些時候加入該聯盟。沙烏地阿拉伯的合作項目Google與沙烏地阿拉伯公共投資基金達成100億美元合作,將在沙烏地阿拉伯建設並營運全新的雲與AI樞紐,聚焦區域本土化AI應用。亞馬遜與沙烏地阿拉伯PIF旗下AI企業HUMAIN達成超50億美元投資協議,將打造開創性的“AI專區”,該區域基礎設施將配備約15萬顆晶片(含亞馬遜Trainium晶片及輝達GPU),此投資為亞馬遜此前宣佈的53億美元沙烏地阿拉伯基礎設施投資(2026年投用)的增量項目。高通與HUMAIN達成合作,計畫2026年採用高通加速器建設200兆瓦資料中心,但因細節尚未披露,該項目的確定性低於上述合作。Part.03 海灣地區AI應用落地進展如何?海灣地區是技術前瞻性極強的區域,擁有成熟的消費市場、創新技術資本及強力政策支援。例如,阿聯早在2017年便將AI列為國家戰略優先事項,目標2031年成為全球AI領導者,推動AI在醫療、能源、水務、教育等領域的跨行業融合,並以此提升政府治理效能。因此,海灣地區的終端與企業AI滲透率整體處於全球領先或持平水平:德勤資料顯示,阿聯及沙烏地阿拉伯58%的消費者會每日或每周使用AI工具,顯著高於英國的約20%。微軟AI滲透報告指出,阿聯的人均AI使用量位居全球第一,遠超全球均值。企業端方面,德勤調研顯示海灣合作委員會國家在AI應用意願、工具落地普及率及智能體部署進度上與全球企業基本持平,考慮到AI智能體整合的成本與時間投入,瑞銀預計海灣地區國家AI工具的普及將與全球趨勢同步。瑞銀認為,AI擴散規則的調整及AI縮放定律驅動的算力需求快速增長,為GCC國家成為領先AI基礎設施區域奠定了堅實基礎;疊加充裕電力、深厚資本市場及高技術接受度的消費群體,該區域AI相關基礎設施具備強勁增長潛力。 (智通財經APP)
話題討論 | 獨家深扒:OpenAI 真實帳本曝光!推理成本其實是天價,收入或被嚴重注水?
最近,一份內部檔案揭示了 OpenAI 在微軟 Azure 上的真實推理支出,以及支付給微軟的收入分成。結論令人咋舌:OpenAI 的燒錢速度可能遠超想像,而其實際收入可能遠低於外界的瘋狂預測。在深入資料之前,我們需要先瞭解一個關鍵背景:微軟拿走 OpenAI 20% 的收入。這意味著,如果我們知道了微軟分到了多少錢,就能倒推出 OpenAI 的真實收入底牌。雖然由於公司架構重組(轉為盈利性公司),協議細節有所微調,但 20% 這個核心比例依然是計算的基石。更可怕的是,本次資料僅包含“推理成本”(Inference Spend),也就是模型生成回答的成本,甚至還沒算上那數以億計的“訓練成本”。讓我們看看這份被洩露的真實帳單,到底有多驚人。2024年的糊塗帳:消失的12億美金根據洩露檔案,OpenAI 在 2024 年的資料與媒體大肆報導的版本存在巨大出入。推理成本內部資料:全年花費 37.6 億美元。外界報導:The Information 曾報導該數字僅為 20 億美元左右。真相:真實成本幾乎翻倍!營收收入微軟分帳推算:微軟分走了 4.938 億美元。這意味著 OpenAI 全年實際營收約為 24.7 億美元。外界報導:媒體普遍引用的是 37 億美元,甚至有預測高達 40 億美元。真相:實際收入比報導少了約 12 億美元。外界以為它賺得多花得少,實際上它賺得少花得多。2025年上半場:失控的成本曲線時間來到 2025 年,資料變得更加觸目驚心。OpenAI 的推理成本正在呈指數級爆炸,而收入增長似乎沒能跑贏成本。僅在 2025年上半年(1月-6月):推理成本:狂燒 50.2 億美元。(注意:此前媒體報導的成本僅為25億美元。現實又是翻倍的打擊。)隱含收入:約為 22.7 億美元。(對比:此前 The Information 報導稱其上半年營收達 43 億美元。)這裡有個恐怖的數學題:上半年花了 50 億做推理,只賺回了 22 億。這還沒算員工工資、辦公室租金,以及那個吞金獸般的“模型訓練費”。截至 2025 年 9 月,OpenAI 在推理上的總支出已經達到了 86.7 億美元。按照這個速度,這恐怕是人類歷史上最“重資產”的初創公司了。Sam Altman 的“數學魔術”?Sam Altman 曾公開表示,OpenAI 的年收入“遠超” 130 億美元(年化)。但在看過這些檔案後,真的無法理解這個數字是怎麼來的。這裡可能存在一種典型的矽谷創投圈的“口徑魔術”:所謂的“年化收入”(Annualized Revenue / ARR):並沒有嚴格的法律定義。. 你可以取過去30天的收入乘以12;. 你甚至可以取公司歷史上業績最好的某30天乘以12。如果按照微軟實打實收到的分成反推,OpenAI 的收入遠遠達不到 Altman 吹噓的量級。除非微軟也在陪著演戲,或者有一些極其隱秘的收入來源完全避開了微軟的協議(但這在商業邏輯上很難解釋)。行業啟示:AI 的商業模式跑通了嗎?再這裡,我們不想討論 OpenAI 什麼時候破產(畢竟它背後有金主爸爸),但這些資料揭示了一個全行業都需要警惕的訊號:推理成本極其昂貴過去 18 個月,OpenAI 的推理成本從 37 億飆升到近百億。這似乎不是一個隨著規模擴大會“邊際成本遞減”的生意,反而像是線性甚至指數級增長。定價過低?如果 OpenAI 這種體量的巨頭,花 50 億成本只能換來 20 多億收入,說明目前的 API 和會員定價可能完全無法覆蓋成本。未來漲價或許是必然。毛利危機如果連 OpenAI 的毛利都如此難看(甚至可能是負數),那麼其他依賴 OpenAI 模型套殼,或者自己訓練模型的“小巨頭”們,日子的艱難程度可想而知。 (GD梯度下降)
4倍性能、50%成本降幅!亞馬遜強勢推出Trainium3晶片,AI訓練推理增添新選項!
當地時間 12 月 2 日,亞馬遜雲端運算服務(AWS)在美國拉斯維加斯舉辦的年度雲端運算盛會“AWS re:Invent 2025”上發佈了全新的自研 Trainium3 晶片,以及採用 Trainium3 晶片的 Trainium3 UltraServer 伺服器。根據首席執行官 Matt Garman 的介紹,新款 Trainium3 晶片的性能是前代產品的 4 倍,並採用台積電 3 奈米工藝製造。每個晶片都配備了 144 GB 的 HBM3E 記憶體,記憶體頻寬為 4.9 TB/s,提供 2.52 FP8 PFLOPs 的算力。(來源:社交媒體 X)Trainium3 UltraServer 單機最多整合 144 顆 Trainium3 晶片,總共配備 20.7 TB HBM3E、706 TB/s 記憶體頻寬,可提供最高 362 FP8 PFLOPS 的算力,時延降低 4 倍,可更快訓練超大模型,並大規模支撐推理服務。其計算性能比 Trainium2 UltraServer 高出 4.4 倍,能源效率高出 4 倍,記憶體頻寬也高出近 4 倍。在使用 OpenAI 的開源大模型 GPT-OSS 進行測試時,Trainium3 UltraServer 的單晶片吞吐量可提升 3 倍,推理響應速度提升 4 倍。這意味著企業可以在更小的基礎設施規模下應對峰值需求,顯著最佳化使用者體驗,同時降低每次推理請求的成本。AWS 以垂直整合方式打造 Trainium3 UltraServer,從晶片架構到軟體棧全鏈路協同。核心之一是新一代網路基礎設施,用於消除傳統分佈式 AI 計算的通訊瓶頸:NeuronSwitch-v1 提供 2 倍 的 UltraServer 內部頻寬;增強型 Neuron Fabric 將晶片間通訊延遲降低至 10 微秒以內。這種強大的配置使得它非常適合處理下一代最前沿的 AI 工作負載,例如:訓練大規模AI模型,可以將複雜模型的訓練時間從數月縮短至數周;處理高並行的 AI 推理請求,以低延遲即時處理數百萬使用者的請求,例如智能對話、視訊生成等;運行特定複雜任務,如智能體系統、專家混合模型和大規模強化學習等。包括 Anthropic、Karakuri、Metagenomi、NetoAI、Ricoh、Splash Music 等客戶,已經借助 Trainium 將訓練和推理成本降低最多 50%。其中,Decart 在即時生成式視訊方面實現了 4 倍推理速度提升,成本僅為 GPU 的一半;而 Amazon Bedrock 已經在生產環境中使用 Trainium3 提供服務。(來源:社交媒體 X)對於需要更大規模的客戶,EC2 UltraCluster 3.0 可連線千台 UltraServer,構成擁有多達 100 萬顆 Trainium 晶片的叢集——是上一代的 10 倍。這使得此前完全不可能的任務成為現實:從在兆級 token 資料集上訓練多模態模型,到為數百萬並行使用者提供即時推理服務。自研晶片是亞馬遜的重要戰略項目之一,目標是避免過度依賴昂貴的輝達硬體。而對於 Trainium3 來說,一個關鍵問題在於:有多少大型外部客戶會願意採用這套硬體。尤其是在Google旗下的 TPU 持續搶佔 AI 晶片市場的背景下。另一個重要變數是 AI 初創公司 Anthropic 的晶片採購分配。今年 10 月,Anthropic 宣佈與Google達成合作,將使用多達 100 萬顆Google TPU 晶片,以實現除亞馬遜和輝達之外的供應多元化。Anthropic 表示,亞馬遜仍是其主要訓練合作夥伴與雲服務提供商。該公司預計,到今年年底,將使用超過 100 萬顆 Trainium 2 晶片,其中包括運行在擁有近 50 萬顆 Trainium 處理器的 Project Rainier 超級電腦之上。此外,AWS 也預告了下一代 AI 訓練晶片 Trainium4的研發進展。其在各方面都將實現大幅性能躍升,包括處理性能(FP4)至少提升 6 倍、FP8 性能提升 3 倍、記憶體頻寬提升 4 倍。結合持續的軟硬體最佳化,其實際性能提升將遠超基準數值。其中,FP8 提升 3 倍是一次基礎性飛躍。模型訓練至少快 3 倍,推理吞吐量也至少提升 3 倍,並且隨著軟體最佳化將獲得進一步加成。FP8 已成為現代 AI 工作負載在精度與效率之間的行業標準格式。為進一步提升單機擴展性能,Trainium4 將支援 NVIDIA NVLink Fusion高速互聯技術。該能力將使 Trainium4、AWS Graviton 處理器及 Elastic Fabric Adapter(EFA)能在統一 MGX 機架內協同工作,為客戶提供支援 GPU 與 Trainium 的成本更優、性能更強的機架級 AI 基礎設施。這一整合將建構一個靈活、高性能的平台,最佳化應對未來對訓練與推理都極其苛刻的 AI 工作負載。 (問芯)
谷歌TPU產能預期大幅上調67%,AI算力市場格局或將重塑
最新行業研究報告顯示,谷歌自研AI芯片TPU正迎來產能擴張的重要節點。根據供應鏈調研數據,機構將谷歌2027年TPU產量預測上調至500萬塊,較此前預期大幅增長67%,2028年預期更上調至700萬塊。這一調整反映出人工智能算力需求正在經歷爆發式增長。業內分析指出,谷歌TPU產量的激增可能意味着其將開啓對外銷售模式,這將爲谷歌開闢新的收入來源。據測算,每銷售50萬塊TPU芯片,有望爲谷歌帶來約130億美元的營收。與此同時,有消息稱Meta正在內部討論斥資數十億美元採購谷歌TPU,計劃從2027年開始將其整合到數據中心中。谷歌TPU作爲專爲深度學習定製的ASIC芯片,主要圍繞AI推理需求設計。隨着生成式AI從技術研發走向規模化應用,全球AI產業重心正加速從訓練轉向推理。據預測,2028年全球AI推理市場規模將達到1500億美元,年複合增長率超過40%,這一增速顯著高於訓練市場。在產業鏈層面,谷歌TPU的放量銷售將爲上下游企業帶來發展機遇。除了光學電路交換市場外,高帶寬存儲需求也將持續成長。三星電子與SK海力士已成爲谷歌TPU供應鏈的關鍵角色,其中SK海力士有望成爲谷歌第七代TPU的8層HBM3E芯片供應商。值得注意的是,谷歌雲平臺上的AI生態鏈正在顯現協同效應。某知名數據庫軟件開發商最新財報顯示,其雲數據庫產品營收大幅增長30%,主要受益於與谷歌雲平臺的深度集成。這一現象表明,下游AI應用的逐步成熟正在推動整個產業鏈進入良性循環。儘管近期市場出現波動,但長期來看,AI算力需求增長的邏輯並未改變。隨着各大科技企業生產線陸續投產,產業鏈上下游的芯片需求預計將迎來指數級增長。分析認爲,人工智能產業的發展趨勢已然明確,相關領域將持續呈現積極變化。