#測試
中芯國際漲價10%背後:一場半導體產業鏈的“壓力測試”與價值重估
2025年12月23日,中國最大的晶圓代工廠中芯國際(SMIC)向部分客戶發出漲價通知,對部分產能實施約10%的價格上調。這一消息迅速在業內引發震動。此次漲價並非全面鋪開,而是主要集中於8英吋BCD工藝平台,並已向多家客戶發出正式函件。一家晶片上市公司人士向媒體證實:“我們已經接到了漲價通知,每家客戶漲價情況不盡相同。”01 漲價實錘,並非空穴來風中芯國際此次漲價,是多重因素擠壓下的必然結果。從表面看,這是一次成本驅動的價格調整,但其背後,是全球半導體供需結構、地緣政治與產業周期三重力量交織的複雜圖景。根據中芯國際2025年第三季度財報,其產能利用率已攀升至95.8%,生產線處於供不應求的狀態。華虹公司的產能利用率甚至高達109.5%,超過滿載。“整體來說,當前公司產線仍處於供不應求狀態,出貨量還無法完全滿足客戶需求。”中芯國際聯合首席執行長趙海軍在業績說明會上坦言。02 三重推力:成本、產能與安全此次漲價的動因,可以歸結為三個相互強化的邏輯。首先是成本端的剛性上漲。 半導體製造的“變動成本”正在經歷劇變。高端光刻膠、電子特氣等關鍵材料仍高度依賴海外供應商,受匯率波動及地緣政治影響,價格普漲。同時,封裝關鍵材料ABF載板的上游原材料與石油、銅價深度掛鉤,大宗商品周期的共振進一步推高了成本。其次是產能的結構性錯配與極度緊張。 這並非總量短缺,而是由AI需求爆發引發的“擠出效應”。AI伺服器需要大量電源晶片,佔用了大量BCD工藝產能。與此同時,全球代工巨頭台積電確認整合併計畫關停部分8英吋生產線,轉向先進製程,導致成熟製程的供給缺口進一步擴大。產業調研資料顯示,頭部模擬晶片廠商在中芯國際的晶圓交期,已從標準的6-8周惡化至12-14周,2026年的產能預定已近乎“爆單”。最後是“供應鏈安全溢價”成為新的定價基石。 在當前地緣政治背景下,國產替代已從“可選項”變成了國內系統廠商的“必選項”。華為、小米、比亞迪等公司制定了更為激進的“本土製造比例”指標,過去可以找聯電、格羅方德代工的訂單,現在正回流到中芯國際、華虹等國內代工廠。客戶沒得選,這賦予了本土晶圓廠前所未有的議價底氣。03 產業鏈的傳導:誰將受益,誰將承壓?中芯國際的漲價如同一塊投入湖面的石子,其漣漪將沿著半導體產業鏈層層傳導,對上下游企業進行一場殘酷的“壓力測試”。最直接、邏輯最順的受益者,是半導體裝置與材料公司。 晶圓廠盈利改善後,將有更強的動力和能力進行資本開支擴張,以增加產能。這直接利多國產裝置龍頭如北方華創、中微公司、拓荊科技,以及材料供應商如安集科技、滬矽產業、江豐電子等。這些公司與中芯國際合作緊密,是國產替代的核心賽道。其他晶圓代工廠將迎來“水漲船高”的行業性利多。 作為中國大陸第二大晶圓代工廠的華虹半導體,以及華潤微、晶合整合等,有望跟隨漲價或改善盈利環境。晶片設計公司的命運將劇烈分化。 這對於設計公司而言是成本壓力測試。具備強大技術壁壘和議價能力的龍頭公司,如專注於汽車電子、高性能模擬的細分龍頭,因其產品毛利率高(通常在40%-60%),且下遊客戶對價格不敏感,有能力將部分成本傳匯出去。然而,對於依賴成熟製程、產品同質化嚴重、毛利率僅20%-30%的通用晶片設計公司(如低端MCU、消費類電源管理晶片廠商),這可能是毀滅性打擊。上游漲價、下游砍價,其淨利潤可能直接歸零。2026年,或將成為這批缺乏核心競爭力的設計公司的“出清之年”。04 戰略轉折:從價格接受者到定價參與者中芯國際此次調價,其意義遠超一次簡單的財務行為。它標誌著中國半導體產業正在進入一個新階段:從“以價換量”的卑微追趕者,轉變為擁有一定“定價權”的區域性寡頭。就在不到一年前,行業還在擔憂產能過剩帶來的價格壓力。2024年中國新增了18座晶圓廠,業界曾預測2025年成熟製程價格將繼續承壓。中芯國際管理層在2025年初也曾表示,由於產能增長和同業競爭,預計全年平均售價總體將下降。然而,市場的快速變化超出了預期。AI需求的爆發性增長、地緣政治導致的供應鏈重構,以及國際巨頭產能策略的調整,共同扭轉了供需天平。中芯國際此番漲價,不僅是對成本上升的被動應對,更是在產能成為稀缺資源時,主動進行客戶與產品結構最佳化的戰略舉措。通過價格機制,優先保障高價值、戰略性的客戶與訂單。當市場還在爭論漲價能否持續時,另一家平台型晶片設計公司的從業者透露,他們已同時接到中芯國際和世界先進(VIS)的漲價通知。“未來免不了其他幾家主流的晶圓廠跟風漲價。”一位業內人士如此判斷。全球成熟製程晶圓代工的新一輪漲價潮,或許才剛剛開始。 (SEMI半導體研究院)
一場車禍,一次急剎!L3專用號牌來了,但車企再也不敢"狂奔"
我們曾以為,2025會是自動駕駛“油門到底”的一年。直到今年3月底安徽高速路上那聲巨響,震碎了所有關於“解放雙手”的輕率幻想。三個年輕生命的逝去,用最殘酷的方式告訴我們:技術可以試錯,但生命無法重來。好在,痛定思痛後的中國汽車,選擇了一條更難、更慢,但更正確的路。12月23日,這條路邁出了實質性的一步:渝AD0001Z、京AA0001Z!隨著重慶、北京兩地正式發出國內首批L3級自動駕駛專用號牌,中國汽車史跨越了一個新紀元。但這並非一場遲到的狂歡,而是一次極度克制的試探。在九家遞交申請的車企中,竟然只有兩家拿到了這張“限時體驗券”,而且還被套上了重重枷鎖。這場關於“速度與安全”的博弈中,中國自動駕駛沒有選擇盲目衝刺,而是主動按下了“限速鍵”。01 致命一秒鐘:理想與現實的慘烈碰撞今年3月底,安徽高速上的一聲巨響,震碎了許多人對自動駕駛的美好濾鏡。一輛開啟輔助駕駛模式的小米SU7,在時速約 116公里(72英里) 的飛馳中遭遇施工路段。儘管系統發出了預警,駕駛員也迅速接管,但在那生死存亡的“一秒鐘”裡,悲劇還是發生了,三名年輕生命的逝去迅速引爆了全網討論。這起事故成了監管風向轉變的導火索。過去那些可能被“消音”的輔助駕駛事故,如今在聚光燈下無所遁形。公眾的質疑隨之而來:當方向盤交給電腦,命懸一線時,責任到底該算誰的?監管部門發佈聲明警告稱,目前中國量產汽車上搭載的輔助駕駛技術並非完全自動駕駛,提醒駕駛者避免可能分散注意力的交談行為。這種對法律責任與保險體系的追問,直接讓原本“快步走”的商業化處理程序被迫按下了減速鍵。02 尬的現狀:昂貴的硬體配上“降級”的靈魂監管的“急剎車”,讓一眾車企陷入了尷尬的境地。(圖片由AI生成)像吉利、小鵬、理想等車企,此前為了搶佔先機,已經在量產車上“預埋”了大量昂貴的L3級雷射雷達和感測器硬體。結果現在政策收緊,這些原本為L3設計的豪車,只能掛著L2級的軟體“降級”銷售。央視在7月播出的一份報告中提到,與懂車帝聯合測試的資料更是給國產廠商潑了一盆冷水: 在夜間施工場景的避撞測試中,略少於一半的車輛能夠安全避撞,表現不及在該測試中表現可靠的兩款特斯拉車型。這種“軟硬不匹配”的困局,也讓監管部門下令:禁止在宣傳中使用“智能駕駛”或“自動駕駛”等極具誤導性的詞彙。03 嚴苛的“綠燈”:通過率不足四分之一的考核在安全隱患和虛假宣傳的雙重壓力下,監管部門對車企的“准入考試”變得異常嚴格。早在今年年初,中國車企曾熱情高漲地宣佈將很快大規模生產自動駕駛汽車。 共有九家主流車企向工信部提交了L3級自動駕駛的准入試點申請,試圖爭奪量產的頭籌。然而,工信部最新的稽核結果卻給了市場一記重錘:九家申請者中,最終只有北汽和重慶長安兩家拿到了在指定高速路上開展L3級自動駕駛測試的許可。但即便拿到“入場券”,規則也極其嚴苛:· 空間設限: 僅限北京和重慶的各三段指定高速公路。· 動作受限: 電腦控制下禁止變道,出了指定路段必須由人類駕駛員接管。· 身份定義:這僅僅是“進一步測試”,而非大家期待已久的大規模量產。這標誌著五年前設定的“2025年年底實現量產銷售”的目標,在現實面前顯得過於雄心勃勃了。04 進階之路:從“有條件”到“全場景”的技術跨越在自動駕駛的演進過程中,技術層級的界定直接決定了“誰在開車”以及“出了事誰負責”。根據目前的行業共識與監管邏輯,中國市場討論最集中的是以下三個層級:(圖片由AI生成)L2級輔助駕駛:目前已廣泛普及的“輔助手”這是目前大多數市售“智能汽車”所搭載的技術水平。在這一階段,系統可以輔助控制方向盤和速度,但駕駛員依然是絕對的主角,要求雙手必須扶著方向盤,且眼睛必須時刻注視路況。雖然L2級已深入千家萬戶,但其實際表現仍面臨考驗,例如在夜間施工等極端場景下的可靠性,仍是擺在各大廠商面前的難題。L3級有條件自動駕駛:作為當前行業博弈的核心,L3級被視為真正的分水嶺。它允許駕駛員在特定條件下雙手脫離方向盤,甚至眼睛可以短時間離開路面,實現所謂的“放手脫眼”。但“有條件”意味著責任並未完全移交:駕駛員必須坐在駕駛位上,且隨時準備在系統發出接管請求時立即介入。目前,儘管車企在硬體預埋上已“卷”至極限,但監管審批依然保持高度審慎,僅有極少數品牌獲准在特定路段開展受限試點。L4級高度自動駕駛:當技術跨越到L4級,便進入了真正的“無人駕駛”階段。 此時,車輛已能自主完成所有駕駛任務,無需人類干預。在武漢等十多個城市正在測試的自動駕駛計程車(Robotaxi)中,乘客只需坐在後排,前排甚至可能設有物理隔離裝置,徹底切斷了人與駕駛機構的接觸。此外,技術圖譜的終極目標是L5級完全自動駕駛。這是自動駕駛的最高境界,意味著車輛可以在任何環境、任何路況下,完全無需人工干預地自由馳騁。從輔助駕駛到真正的自動駕駛,這絕非簡單的硬體堆砌,而是一次對安全底線與責任歸屬的極限挑戰。05 專家視角:不是停止,是設定“防護欄”對於這次車企集體的“放慢節奏”,業內專家看得透徹。上海電動汽車專家比爾·拉索(Bill Russo)直言不諱地指出,之前的L3推廣更像是一場“由行銷驅動的超前衝刺”。當監管框架、保險體系和公眾信任還沒準備好時,盲目衝鋒只會適得其反。現在的放緩,並不是進步的終結,而是政府在為這項技術設定必要的“防護欄”。將範圍縮小、穩步推進,或許才是通往完全自動駕駛最快、也最安全的路徑。無論是“001號”車牌的發放,還是對“自動駕駛”宣傳的禁令,都在指向同一個終局:重建信任。當技術跑得太快,把倫理和安全甩在身後時,事故是唯一的結局。對於車企而言,現在的任務不再是繼續畫大餅,而是要證明:當那個生死攸關的“一秒鐘”再次來臨時,你的AI,真的能救命嗎? (網易科技)
Gemini 3 Flash 可能是 Google 最狠的一步棋
剛剛Google正式推出了Gemini 3 Flash,這可能是 Google 這幾年最重要的一次模型發佈如果只看名字,Gemini 3 Flash 很容易被誤解成一個閹割版,快但不聰明的模型。但實際情況恰恰相反——它可能是 Google 到目前為止,戰略意義最大的一次模型選擇一句話先給結論:Gemini 3 Flash =前沿大模型智商 + 閃電級速度 + 超低成本的組合拳。它不是縮水版,而是把快和強第一次真正合在了一起不知道Google是怎麼訓練的,在複雜推理測試ARC-AGI-2和衡量真實程式設計能力測試SWE-bench Verified 基準中,Gemini 3 Flash都超過了Gemini 3 pro過去兩年,大模型世界裡一直有一道隱形分界線:一邊是能力最強、但又慢又貴的旗艦模型,另一邊是響應快、成本低,但明顯沒那麼聰明的輕量模型Gemini 3 Flash 做的事情,就是把這條分界線直接抹掉了它在多個博士級推理和多模態基準上,已經逼近甚至追平 Gemini 3 Pro 這樣的重型選手,卻同時保留了 Flash 系列最核心的特性——極低延遲和極高吞吐。更關鍵的是,在真實使用場景中,它平均比上一代 2.5 Pro 少用 30% 的 token,卻把正確率做得更高這件事對開發者的衝擊尤其明顯在 Agent、自動程式設計、高頻互動系統裡,真正的瓶頸從來不是模型能不能想明白,而是想明白要不要等三秒。Gemini 3 Flash 在 SWE-bench 這類面向程式碼 Agent 的評測中,甚至跑贏了 Gemini 3 Pro,本質原因只有一個:它足夠聰明,同時也足夠快,快到可以被反覆呼叫而當這種能力開始變便宜,事情的性質就變了Gemini 3 Flash 的定價已經低到一個明確的訊號:它不是拿來偶爾用一次的,而是拿來當基礎設施用的Google 直接把它設成了 Gemini App 的默認模型,全球使用者免費使用;同時,它也開始成為搜尋裡 AI Mode 的核心大腦。你在搜尋裡問一個複雜問題,它不只是給你答案,而是能拆解問題結構、結合即時資訊,再給你一個可以立刻行動的方案,而這一切幾乎和傳統搜尋一樣快這一步,其實比參數更重要如果說前兩年的競爭重點是誰的模型更像人類博士,那麼 Gemini 3 Flash 代表的,是下一階段的方向,誰能讓這種水平的智能,真正跑在每一次點選、每一次呼叫、每一次搜尋裡從這個角度看,Gemini 3 Flash 並不是一個Flash 模型,而是 Google 對 AI 規模化落地的一次明確表態:智能本身已經不是稀缺資源了,稀缺的是能被高頻使用的智能不得說GoogleTPU+強悍的研發能力已經成為事實上領先者了,Sam 昨天緊急推出的圖像模型追Nano Banana Pro,接下里要追的可能就多了,這在幾個月前甚至都不能想像 (AI寒武紀)
Gemini 3 再次大更新!全球免費享 Pro 級智商,奧特曼又要失眠了
年底了,Google又開始沖業績了。就在剛剛,Gemini 3 Flash 正式發佈,直接對標 OpenAI 和 Anthropic 的旗艦模型,官方號稱比 2.5 Pro 速度快 3 倍,價格砍到 3 Pro 的四分之一,性能還不降反升。用Google自己的話說,這是「為速度而生的前沿智能」。翻譯一下就是:又快又便宜,腦子還挺線上。不過,在實際體驗過程中,Gemini 3 Flash 的性能表現還是遠遠不如 Pro 的,以至於讓我產生一種「貨不對板」的落差感,也歡迎更多朋友分享你的體驗。即便如此,Google在發佈時機的選擇上依然稱得上「快、准、狠」。緊隨 Gemini 3 Pro 與 Deep Think 之後上馬 Flash,也是為了完全不給競爭對手喘息的機會,這也讓我越來越期待 Sam Altman 的聖誕節反擊禮物了。而從今天起,你將能在 Gemini 產品線裡用到三種模型:Gemini 3 Flash (Fast):主打一個「快」,適合那些不需要長鏈條思考、追求效率的對話場景。Gemini 3 Flash (Thinking): 具備輕量化模型推理能力,使其能夠在面對複雜難題時,通過模擬人類的思考過程來提升精準率。Gemini 3 Pro: 性能天花板,它依然是處理極高難度任務的首選。倒反天罡!Gemini 3 Flash 跑分超越 Pro基準測試結果顯示,Gemini 3 Flash 保留了 Pro 等級的推理能力,但延遲、成本直接降到 Flash 等級。具體來說,在 GPQA Diamond 這種博士級推理測試裡,它能拿到 90.4% 的成績,跟那些體積更大的前沿模型打得有來有回。在 Humanity's Last Exam 這個變態難度的測試中,無需工具輔助就能拿到 33.7% 的分數。更誇張的是 MMMU Pro 測試,Gemini 3 Flash 直接拿下 81.2%,達到業界最先進水平,跟自家的 3 Pro 表現相當,屬於是有些倒反天罡了。以前大家覺得「質量-成本-速度」三個維度很難兼顧,要麼快但不聰明,要麼聰明但卻貴。現在Google試圖用 Gemini 3 Flash 證明,只要工程化能力最佳化到位,六邊形戰士是可以存在的。資料顯示,其 Token 消耗比 2.5 Pro 少了三成,速度快三倍,價格更是壓到了輸入 0.5 美元/百萬 Token,輸出 3 美元/百萬 Token 的地板價。行吧,現在的 AI 新模型不光要卷參數,還要卷性價比了。而且它還是個推理型模型,能根據任務複雜度靈活調整「思考」時間。即使在最低的「思考等級」下,3 Flash 的表現也常常超過前代模型的「高思考等級」。這種自適應能力在實際應用中特別有價值,不會出現「殺雞用牛刀」的資源浪費。對於開發者來說,Gemini 3 Flash 的出現,也意味著終於不用在速度和智能之間二選一了。基準測試顯示,Gemini 3 Flash 在 SWE-bench Verified 編碼測試裡拿到 78% 的高分,不僅吊打 2.5 系列,甚至比自家的 3 Pro 還高。此外,Gemini 3 Flash 的亮點還在於多模態能力,它能更快地處理視覺、音訊等輸入,把「看見、聽見、理解」串成一條相對順滑的鏈路,適合需要即時反饋的互動場景。具體來說,它可以分析高爾夫揮杆視訊並在短時間內給出改進建議;你畫草圖時,它也能即時識別並預測你的意圖。再疊加程式碼執行能力,使它不僅能理解圖片內容,還能在工具鏈支援下對圖片進行處理與操作。Gemini 3 Flash 快是真的快,但 ……Google官方展示了幾個很有意思的應用場景。比如在「投球解謎」類遊戲中,Flash 可以做即時的輔助推理,給出可行解甚至更優解;在互動 UI 設計流程裡,它能生成載入動畫,並配合快速迭代做 A/B 方案對比;你提供一張圖片,它也能完成基礎識別,再結合上下文生成互動式註釋。這些 Demo 的共同點是:強調即時性、強調迭代效率、強調能跑起來。我也用 Gemini 3 Flash 跑了幾個案例。不得不說,對比 Gemini 3 Pro,前者的響應速度確實是極快的,但效果嘛,則比較中規中矩,對比 Gemini 3 Pro 則明顯犧牲了視覺與互動細節的質量。以復刻 macOS 介面為例,該模型的表現略顯乏力:底部 Dock 欄出現了明顯的圖示缺失,且在互動細節的精緻度上,也明顯遜於 Gemini 3 Pro 的生成效果。這種差距在「復古擬物風相機應用」的設計任務中尤為突出。從生成的單頁應用結果來看,其視覺呈現與預期目標仍有較大差距。此外,在嘗試打造「星球訊號」網頁時,有一定程度的互動細節,但整體產出的頁面效果還是略顯粗糙,缺乏設計的細膩感。兩條腿走路的Google:一邊卷死對手,一邊把 AI 塞進幾十億人的生活Google這次還把 Gemini 3 Flash 塞進了搜尋的 AI 模式(國內暫不可用)裡,逐步向全球開放。相比之前的版本,它更能理解複雜問題中的細節,從全網抓取即時資訊和有用連結,輸出視覺上更清晰、有條理的綜合答案。與此同時,Gemini 3 Flash 正在成為 Google「全家桶」的默認底座。Gemini 應用、搜尋 AI 模式、Vertex AI、Google AI Studio、Antigravity、Gemini CLI,全線上新。全球使用者都能免費體驗,企業使用者則可以通過 Vertex AI 和 Gemini Enterprise 來呼叫。最後再強調一遍價格,因為這個真的太香了。輸入每百萬 Token 0.5 美元,輸出每百萬 Token 3 美元,音訊輸入每百萬 token 1 美元。試用價格不到 Gemini 3 Pro 的四分之一。如果用上下文快取,重複 Token 的成本還能再省 90%。用 Batch API 非同步處理的話,又能再省 50%,同時還能提升呼叫上限。對於同步或接近即時的場景,付費 API 使用者可以獲得面向生產環境的高呼叫速率。價格打到這個程度、性能又不算差,OpenAI 和 Anthropic 當然很難睡踏實。但話得說嚴謹一點,當宣傳口徑把 Flash 包裝成「幾乎 Pro 級」的時候,使用者自然會用 Pro 的標準去驗貨;而一旦遇到複雜推理、長鏈路任務、穩定性要求更高的場景,Flash 的短板就會更明顯。Google最大的底牌還是流量。搜尋、YouTube、Gmail、Google Maps,每天數十億使用者在使用這些產品。把 3 Flash嵌入到這些高頻應用中,使用者也就在最熟悉的場景裡,無感地、自然地被Google AI 服務包圍。這種打法 OpenAI 和 Anthropic 是學不來的。一方面,Google財大氣粗,確實有資本燒錢搶市場;另一方面,Google在 TPU、資料中心、分佈式訓練等基礎設施和工程最佳化上的積累,確實能幫他們把成本壓下來。一邊做 toB 的 API 服務,一邊直接把 AI 能力塞進自家產品裡,覆蓋海量普通使用者。當使用者習慣了在搜尋裡用 AI 模式,習慣了在 Gemini 應用裡對話,自然就會對Google的 AI 產生依賴。這才是Google真正的陽謀。當然,這種巨頭間的內卷對行業是殘酷的,但對使用者絕對是好事。模型更強、價格更低,開發者能低成本創新,普通人能享受更智能的服務,這大概是這場 AI 軍備競賽中,為數不多的確定性紅利。 (APPSO)
Gemini 面臨的最大風險|DeepMind 首席技術官最新訪談實錄
11月25日,Google DeepMind 首席技術官兼 Google 首席 AI 架構師 Koray Kavukcuoglu 接受了Google for Developers的訪談。本次對話探討了 Scaling Law的現狀、基準測試的本質、Gemini 關注的重點領域,強調指令遵循、工具呼叫和國際化,以及多模態模型最終走向“單一權重”的演進路徑等話題。Koray Kavukcuoglu 堅信,AI 進步的步伐並未放緩,Scaling 仍在持續。他指出,基準測試不等於進步,它只是定義“未解決問題”的臨時工具。當模型分數接近頂峰,舊基準便失效,真正的進步標準必須從“刷榜”轉向模型在現實世界中被科學家、律師、工程師等專業人士使用的廣度與深度。在技術路徑上,Koray 強調程式碼與工具呼叫是智能的全新“倍增器”。模型不僅是工具的使用者,更是工具的製造者。他認為,直接從軟體工程師等終端使用者處獲取的反饋訊號,對模型後訓練階段的質量提升具有決定性意義,這種“與產品整合並獲取訊號”的模式已成為理解問題的核心驅動力。Koray 預測,圖像生成與文字生成最終將統一於“單一模型權重”之下,儘管目前仍面臨像素級完美與概念連貫性的雙重挑戰,但這將是必然趨勢。此外,他透露Gemini 面臨的最大風險並非外界擔憂的安全問題,而是“創新枯竭”——即誤以為只要照搬成功公式進行擴展即可,他認為唯有持續在架構和理念上進行創新,才是通往 AGI 的唯一路徑。01 基準測試的侷限與 Scaling LawGemini 3 已經上線,反響積極。回看從 2.5 到 3.0 的處理程序,感覺進步的步伐並未放緩。目前業界對 Scaling有諸多討論,你認為這種趨勢還能持續嗎?此外,有些基準測試如 HLE、ARC-AGI-2 分數飆升,而像 GPQA Diamond 這樣的靜態基準測試依然屹立不倒。你是如何看待這些基準測試的演變以及它們與實際進步之間的關係的?Koray Kavukcuoglu:我對這些進步感到非常興奮,尤其是研究方面的進展。身處研究一線時,你會發現各個領域都充滿了令人興奮的事物,從資料、預訓練、後訓練到方方面面。我們看到了很多熱情、進步和新想法。歸根結底,這一切都源於創新和想法。我們做出的東西越有影響力,越能進入現實世界被人們使用,我們實際上就會獲得更多的靈感,因為你的接觸面擴大了,獲得的訊號種類也增加了。我認為問題會變得更難、更多樣化,隨之而來的挑戰也會升級,但這種挑戰是好事。這也是我們建構智能的動力。有時如果你只看一兩個基準測試,可能會覺得分數提升的空間變小了,但我認為這很正常。基準測試是在某個任務還具有挑戰性時定義的。隨著技術進步,舊的基準測試就不再能代表最前沿的水平了。於是你會定義新的基準測試。這在機器學習中非常正常。基準測試和模型開發總是相輔相成的。你需要基準測試來指導模型開發,但只有當你接近現有目標時,你才知道下一個前沿在那裡,從而定義新的基準。(關於 GPQA 等難題)那裡面確實有一些很難的問題。那些我們仍然無法解決的難題,依然在測試著某種能力。但如果你看看我們在 GPQA 上的表現,我們並不是停留在二三十分需要追趕到九十分,而是已經接近頂峰,所以它所定義的“未解決問題”正在減少。在某種程度上,尋找新的前沿和基準是件好事。定義基準測試真的很重要。如果我們把基準測試等同於進步,那並不一定總是一致的。進步是進步,基準是基準。理想情況下它們是百分百一致的,但現實從來不是這樣。對我來說,衡量進步最重要的標準是我們的模型被現實世界中的科學家、學生、律師、工程師所使用。人們用它做各種事情,比如創意寫作、發郵件。從簡單到困難的光譜,以及不同的主題和領域都很重要。如果你能持續在這些方面提供更大的價值,我認為那就是進步。基準測試只是幫助你量化這一點。02 程式碼與工具呼叫是智能的倍增器,模型本身正在變成一種可建構工具的工具你是如何考慮從一個模型版本到下一個版本的持續最佳化的?比如在指令遵循、國際化語言支援以及程式碼和工具呼叫方面,我們的最佳化目標是什麼?此外,作為 Gemini 3 發佈的一部分,我們推出了 Google Anti-Gravity 作為一個新的 Agentic 編碼平台。為了從模型角度提升質量,你有多看重這種“產品腳手架”(Product Scaffolding)在獲取反饋訊號方面的作用?Koray Kavukcuoglu:有幾個重要的領域。其中之一是指令遵循。這要求模型能夠理解使用者的請求並嚴格執行。你不希望模型只是回答它覺得自己該回答的內容。指令遵循能力非常重要,這也是我們一直在做的。對我們來說,國際化也很重要。Google 是一家非常國際化的公司,我們希望觸達全球使用者,所以這部分很關鍵。你必須持續關注這些領域。它們看起來可能不像知識的前沿,但因為要在那裡與使用者互動,所以非常重要。正如我所說,這一切都是為了從使用者那裡獲得訊號。(關於程式碼與工具呼叫)接下來,如果你進入稍微技術一點的領域,函數呼叫、工具呼叫、Agentic 行為和程式碼真的很重要。函數呼叫和工具呼叫之所以重要,是因為我認為這是智能的一個全新倍增器,不僅模型可以自然地使用我們建立的所有工具和函數進行推理,而且模型還可以編寫自己的工具。你可以認為模型本身也是一種工具。這是一件大事。顯然程式碼很重要,不僅因為我們是軟體工程師,還因為有了程式碼,你實際上可以建構任何在你筆記型電腦上運行的東西。而在筆記型電腦上發生的不只是軟體工程。我們現在做的很多事情都發生在數字世界中,而程式碼是這一切的基礎,它能與你生活中幾乎所有事情整合。這就是為什麼這兩者結合在一起能極大地擴展使用者的能力。我喜歡舉 Vibe coding 這個例子。很多人很有創造力,有很多想法,突然之間你讓他們變得高產了。從有創意到有產出,你只需要把它寫下來,應用程式就會在你面前呈現。大多數時候它都管用,而當它管用時感覺棒極了。這種反饋循環很棒。突然之間,你讓更多人成為了建設者。能夠建構東西的感覺是很棒的。(關於產品腳手架的作用)對我來說這非常重要。Anti-Gravity 本身是一個令人興奮的產品,但從模型的角度看它具有雙重價值。首先從模型端來看,能夠與終端使用者,在這裡是軟體工程師整合,並直接向他們學習,瞭解模型那裡需要改進,這對我們來說至關重要。Gemini App 也是出於同樣的原因,直接理解使用者非常重要。Anti-Gravity 和 AI Studio 也是如此。擁有這些我們緊密合作的產品,然後理解、學習並獲取使用者訊號,作用是巨大的。Anti-Gravity 一直是非常關鍵的發佈合作夥伴。雖然他們加入不久,但在發佈的最後兩三周,他們的反饋真的起到了決定性作用。Search AI Overviews 搜尋 AI 概覽也是一樣,我們從中獲得了很多反饋。對我來說,與產品的整合並獲取訊號是我們理解問題的主要驅動力。當然我們有基準測試,所以我們知道如何推動 STEM、科學、數學這些硬核智能的發展。但理解現實世界的用例真的很重要,因為技術必須在現實世界中有用。03 通過產品連接使用者是建構智能的路徑作為新任首席 AI 架構師,你的職責擴展到了確保 Google 的產品能真正利用這些模型,Gemini 3 發佈首日就覆蓋了所有產品介面。相比一年半前單純的研發,這種“既要模型好,又要產品用好”的雙重目標增加了多少複雜性?此外,我們在某種意義上正在與客戶共同建構 AGI,在這種開放模式下,你是如何考量安全與穩健性的?Koray Kavukcuoglu:確實增加了複雜性,但我們在建構智能。很多人問我身兼雙職的問題。我有兩個頭銜,但這在很大程度上是同一件事。如果我們要建構智能,就必須通過產品、通過連接使用者來實現。作為架構師,我試圖做的是確保 Google 的產品能獲得最好的技術支援。我們不是要親自“做”產品,我們不是產品經理,我們是技術開發者。我們開發技術,訓練模型。當然每個人都有自己的觀點,但對我來說,最重要的是以最佳方式提供模型和技術,然後與產品團隊合作,讓他們在這個 AI 世界中建構最好的產品。這是一個新世界。新技術正在定義使用者的期望、產品的表現形式、資訊的傳遞方式,以及你可以用它做的所有新鮮事。對我來說,這就是要在整個 Google 範圍內實現這一點,與所有產品團隊合作。這令人興奮,不僅從使用者獲得的產品角度,也從我之前提到的角度,那是我們的主要驅動力。感知使用者需求、獲取使用者訊號對我們來說至關重要。這就是我想做這件事的原因。這是我們建構 AGI 的路徑。這也是我們建構智能的路徑,通過產品。(關於安全與穩健性)而且我認為這實際上也是一個非常值得信賴、久經考驗的系統。這是一種我們正在越來越多採用的工程思維。在這個問題上保持工程思維很重要。當東西經過精心設計,你知道它是穩健的、安全的。所以我們在現實世界中做事,採用的是所有經過驗證的建構理念。這也反映在我們如何考量安全和安保。我們試圖從底層、從一開始就考慮這些,而不是事後諸葛亮。所以在做後訓練模型、預訓練和處理資料時,我們始終銘記在心。每個人都要思考這個問題。我們有安全團隊嗎?顯然有,他們帶來了相關技術。安保團隊也一樣。但關鍵是讓參與 Gemini 的每個人都深入參與這個開發過程,並將其作為第一原則。這些團隊本身也是我們後訓練團隊的一部分。當我們開發這些模型、進行迭代和發佈候選版本時,就像我們關注 GPQA、HLE 這些基準測試一樣,我們也關注安全和安保指標。我認為這種工程思維很重要。04 程式碼與智能體仍需突破最後的體驗瓶頸Gemini 3 的發佈就像 NASA 的阿波羅計畫,雖然參與者眾多,但這確實是 Google 全球團隊的共同努力。你如何評價這種跨國協作?同時,雖然模型在許多基準測試上都是 SOTA,反響也很積極,但如果快進到下一次發佈,還有什麼事是你希望列在“真希望我們做了 X、Y、Z”的清單上的?在享受當下的同時,你看到了那些具體的差距?Koray Kavukcuoglu:關於 Gemini 3,我們也剛反思過。對我來說,重要的一點是這個模型是一個真正的 Team Google 模型。每個 Gemini 版本的發佈都需要來自美洲、歐洲、亞洲等世界各地的人員參與。我們有遍佈全球的團隊在做貢獻。不只是 Google DeepMind 團隊,而是 Google 的所有團隊。這是一個巨大的協作成果。我們與 AI Mode 同步發佈,與 Gemini App 同步發佈。這些都不容易。他們在開發過程中與我們並肩作戰。只有這樣,在模型準備好的第一天,我們才能一起發佈。我們一直在這樣做。當我們說“跨越 Google”時,不僅僅是指那些積極建構模型的人,所有的產品團隊也在貢獻力量。(關於未來的差距)我認為應該兼顧。我們要享受這一刻,那怕只享受一天也是好的。這是發佈日,人們在讚賞這個模型,所以我希望團隊也能享受這一刻。但與此同時,在每一個領域,我們也看到了差距。寫作完美嗎?不完美。編碼完美嗎?也不完美。特別是在 Agentic 行為和編碼領域,我認為還有很大的提升空間。那是增長最令人興奮的領域之一。我們需要識別那裡可以做得更多,並且我們會去做。我認為我們已經走了很遠。可以說,對於那些從事編碼的人,無論是軟體工程師還是想建構東西的創意人士,這個模型基本上滿足了他們 90% 到 95% 的需求。我願意認為這個模型是他們能用的最好的工具。但在某些情況下,我們可能還需要做得更好。關於程式碼和工具使用,回顧 Gemini 的發展歷程,顯然我們在 1.0 版本時非常側重於多模態能力,而在 2.0 版本中,我們才開始建構一些智能體基礎設施。你覺得為什麼我們沒有從一開始就在智能體工具使用方面處於業內領先地位?畢竟在多模態領域,Gemini 1 從一開始就是業內領先的。Koray Kavukcuoglu:我不認為這是刻意為之。坦率地說,回過頭看,我認為這與模型的使用方式有關,也就是開發環境與現實世界的聯絡緊密程度。我們與現實世界的聯絡越緊密,就越能理解實際發生的真實需求。在 Gemini 的研發征程中,我們的起點是 Google 深厚的 AI 研究底蘊。我們擁有大量傑出的研究人員和輝煌的 AI 研究歷史。但 Gemini 的研發也是一個從研究環境向工程思維轉變的過程,讓我們進入了一個真正與產品緊密相連的領域。看著現在的團隊,我感到非常自豪,因為這個團隊的大多數成員,包括我自己,在四五年前還在寫論文。那時我們在做 AI 研究。而現在,我們站在技術的最前沿,通過與產品使用者的互動來開發技術。這是一種完全不同的思維模式。以前我們可能很久才出一個成果,現在我們每六個月建構一次大模型,然後每一到一個半月就進行一次更新。這是一個驚人的轉變,而我們成功跨越了這一轉變。05 圖像與文字架構正在趨同,最終將融合為單一模型的“物理理解力”隨著 Veo 3、Nano Banana 模型的出現,我們在產品化方面取得了巨大成功。在追求 AGI 的過程中,你是如何看待生成式媒體模型的定位?它們是否也是理解物理世界和萬物運行規律的關鍵部分?Koray Kavukcuoglu:如果你回到 10 到 15 年前,生成式模型主要集中在圖像上,因為我們可以更直觀地檢查結果。此外,這種理解世界、理解物理規律的想法正是開發圖像生成模型的主要驅動力。我們在生成式模型方面做過的一些令人興奮的工作可以追溯到 10 年前,比如 WaveNet。20 年前,我們還在做圖像模型。我在讀博士時,那時大家都在做生成式圖像模型。我們經歷過那個階段。我們當時有叫 PixelCNNs 的圖像生成模型。某種程度上,當時大家意識到文字領域能取得更快的進展。但我認為圖像模型的回歸是非常自然的。在 Google DeepMind,我們在很長一段時間裡都擁有非常強大的圖像、視訊和音訊模型。將這些能力結合起來是順理成章的。我們現在的方向正是我們一直強調的多模態,而且是輸入輸出層面的多模態。這就是我們的方向。隨著技術的進步,這兩個不同領域之間的架構和理念正在相互融合。過去這些架構截然不同,但現在它們正在高度趨同。所以並不是我們在強行整合什麼,而是技術在自然地融合。隨著這種融合,大家都明白了從那裡可以獲得更高的效率,理念在何處演進,我們看到了一條共同的路徑。這條共同路徑結合得非常好。Nano Banana 是最初的那些時刻之一,你可以對圖像進行迭代,可以與模型對話。文字模型通過文字擁有了大量的世界認知,而圖像模型則從另一個角度理解世界。當你將這兩者結合時,會產生令人興奮的化學反應,因為人們會感覺到這個模型理解了他們想要表達的神韻。我們談談 Nano Banana Pro,這是在 Gemini 3 Pro 之上建構的全新業內領先圖像生成模型。團隊是否看到了在 Pro 級模型中做這件事的早期訊號,即利用 Pro 的架構可能會在文字渲染和世界理解等更細微的用例上獲得更強的性能?Koray Kavukcuoglu:我認為這可能是我們看到不同技術協同發揮作用的地方。對於 Gemini 模型,我們一直秉持的理念是,每個模型版本都是一個模型家族。我們有 Pro、Flash、Flash-Lite 這一系列模型。因為在不同的尺寸下,你在速度、精準性、成本等方面會有不同的權衡。隨著技術融合,我們在圖像方面自然也有同樣的體驗。所以我認為團隊的想法是,既然有 3.0 Pro 的架構,我們是否可以利用在第一版中學到的所有經驗,通過增加尺寸來調整這個模型,使其更側重於圖像生成?我認為最終我們得到了能力更強的東西。它能理解非常複雜的文件。一些最令人興奮的用例是,你有一大堆非常複雜的文件,輸入進去,我們依靠這些模型來回答問題,你還可以要求它生成一張相關的資訊圖表,效果非常好。這就是自然的輸入輸出多模態發揮作用的地方,這感覺就像魔法一樣。(關於統一權重)Tulsee 曾承諾我們將擁有統一的 Gemini 模型權重。現在的進展表明我們實際上已經非常接近那個目標了,即在圖像生成和文字生成上實現統一,儘管歷史上架構是不同的。這是否是一個確定的目標?目前有那些因素在阻礙這一處理程序?Koray Kavukcuoglu:正如我所說,技術和架構正在對齊,所以我們看到這正在發生。人們在定期進行嘗試。但這只是一個假設,你不能基於意識形態來做這件事。科學方法就是科學方法。我們提出假設,進行嘗試,然後看結果。有時成功,有時失敗。但這就是我們必須經歷的過程。目標越來越近了。我很確定在不久的將來,我們會看到這些東西結合在一起。逐漸地,它將越來越趨向於單一模態。但這需要大量的創新。仔細想想,這其實很難。輸出空間對模型來說至關重要,因為那是學習訊號的來源。目前,我們的學習訊號主要來自程式碼和文字。這是輸出空間的主要驅動力,也是我們在這些方面表現出色的原因。現在,要能夠生成圖像,我們在影像品質上的調整已經非常精細。這是一件很難的事情。生成像素級完美的質量很難。而且圖像在概念上必須是連貫的,每個像素不僅關乎質量,還關乎它如何與圖片的整體概念相融合。訓練一個能同時做好這兩件事的模型更難。我看待這個問題的方式是,我認為這絕對是可能的。這終將實現。關鍵在於找到正確的模型創新來達成它。06 DeepMind 利用 DeepThink 等項目在主線外探索新邊界DeepMind 現在擁有許多業內領先的模型。13 年前你是 DeepMind 的第一位元深度學習研究員,當時人們對這項技術並不興奮,而現在它驅動著所有核心產品。當你反思這段旅程時,你想到了什麼?Koray Kavukcuoglu:這令人驚訝嗎?這是充滿希望的、積極的結果。當我在讀博士時,我想每個讀博士的人都一樣,你相信你所做的東西很重要,或者將會變得重要。你對那個課題充滿熱情,你認為它會產生巨大的影響。我當時也是這種心態。這就是為什麼當 Demis 和 Shane 聯絡我,我們交談後,我對 DeepMind 感到非常興奮。得知有一個地方真正專注於建構智能,並且將深度學習作為核心,我非常激動。在那個年代,擁有一家專注於深度學習、專注於 AI 的初創公司是很不尋常的。我認為那是非常有遠見的。後來我組建了深度學習團隊,團隊不斷壯大。我認為其中一件事,我對深度學習的方法一直是一種關於如何處理問題的心態。第一原則是它總是基於學習的。這就是 DeepMind 的核心,一切都押注在學習上。從我們早期的工作開始,到強化學習和智能體,以及我們要一路走來所做的一切,這是一段令人興奮的旅程。你投身這些事業,總是希望有一個積極的結果。但反思過去,我想說我們很幸運。我們很幸運生活在這個時代,因為我認為很多人投身 AI 或他們熱衷的領域,都認為那是屬於他們的時代,是技術將會成功的時候。但它確實正在當下發生。我們也必須意識到,AI 之所以能在當下爆發,不僅僅是因為機器學習和深度學習的進步,還因為硬體的進化達到了某種狀態,網際網路和資料積累達到了某種狀態。是許多因素因緣際會。我很幸運能實際從事 AI 工作並一路走到這一刻。(關於里程碑對比)回顧 AlphaFold 等歷史里程碑,與現在相比,我們在組織團隊、將科學轉化為結果的經驗上有何不同?DeepThink 作為一個在奧林匹克數學競賽中實戰的模型,在其中扮演了什麼角色?Koray Kavukcuoglu:我認為在如何組織團隊,或者什麼是成功的文化特質,以及如何將艱難的科學和技術問題轉化為成功的結果方面,我們在過去的許多項目中積累了大量經驗,從 DQN、AlphaGo、AlphaZero 到 AlphaFold。所有這些項目都極具影響力。通過它們,我們學到了很多關於如何圍繞一個特定目標、一個特定使命進行組織,以及如何作為一個較大的團隊進行協作。我記得在 DeepMind 早期,我們會有一個 25 人的團隊一起做一個項目,並且 25 個人一起署名寫論文。每個人都會對我們說,肯定沒有 25 個人真的都在做這個吧。我會說,不,他們確實都做了。因為在科學和研究領域,這種規模並不常見。我認為那種知識、那種心態是關鍵。我們通過這些經歷完成了進化。這真的很重要。同時,對於最近這兩三年,我們將這種經驗與工程思維相結合,即我們要開發一條模型主線,並且我們學會了如何利用現有模型在這條主線上進行探索。我看到這一點的絕佳例子,每次想到這個我都感到很高興,是我們的 DeepThink 模型。那些是我們用來參加國際數學奧林匹克競賽、ICPC 競賽的模型。我認為那是一個非常酷且恰當的例子,因為我們在進行探索。你挑選這些宏大的目標。國際數學奧林匹克競賽真的很重要,它涉及真正極難的問題。向每一位參賽的學生致敬,這真的是了不起的事情。能夠把一個模型放到那個賽場上,當然,你會有一種衝動去為此專門定製一些東西。但我們試圖做的是利用那個機會來進化我們現有的技術,或者構想出與我們現有模型相容的新想法。因為我們相信我們所擁有技術的通用性。回顧當年那篇論文只有 25 位作者,而今天 Gemini 3 的貢獻者名單可能有 2500 人。看到這些問題現在的規模如此之大,這種從科學小團隊向大規模工程協同的轉變帶來了那些思考?Koray Kavukcuoglu:確實如此。這對我們很重要,這也是 Google 最棒的地方之一:這裡有太多各自領域的頂尖專家。我們受益於 Google 擁有的全端方法,因為在每一層都有專家,從資料中心到晶片再到網路,以及如何大規模運行這些系統。目前已經發展到一種狀態,再次回到這種工程思維,即這些環節是密不可分的。當我們設計一個模型時,是基於它將運行在什麼硬體上來設計的。同樣,我們在設計下一代硬體時,也知道模型大概會往那個方向發展。這非常美妙。但是協調這一切,當然需要成千上萬的人協同工作並做出貢獻。我們需要認識到這一點,這本身就是一件美妙的事情。07 Gemini 最大的風險是創新枯竭在這個時代,你如何看待 DeepMind 在“純粹的科學探索”與“僅僅試圖擴大 Gemini 規模”之間的平衡?要繼續擴大規模顯然需要創新,你如何看待這種決策?Koray Kavukcuoglu:那是關鍵所在,找到這種平衡真的非常重要。即使是現在,當人們問我“Gemini 最大的風險是什麼”時,我思考過很多,我認為 Gemini 最大的風險是創新枯竭。因為我真的不相信我們已經找到了“成功秘籍”,接下來只需要照章執行就行了。我不相信這一套。如果我們的目標是建構智能,我們要通過產品與使用者一起實現這一目標,那麼擺在面前的問題是非常具有挑戰性的。我們的目標依然極具挑戰且尚未實現。我不覺得我們已經掌握了既定公式,只需要單純地擴展或執行。唯有創新才能實現這一目標。關於創新,你可以將其視為在不同尺度上,或在與當前方向不同的切入點上進行的探索。當然我們有 Gemini 模型,在 Gemini 項目內部我們也進行了大量探索。我們探索新架構、新想法、不同的做事方式。我們必須這樣做,我們也在持續地這樣做。這就是所有創新的源泉。但同時,我認為 DeepMind 或整個 Google DeepMind 進行更多的探索對我們來說至關重要。我們必須做這些事,因為有些東西可能受限於 Gemini 項目本身而無法在其中探索。所以我們能做的最好的事情是,無論是在 Google DeepMind 還是在 Google Research,我們都要探索各種各樣的想法,並將這些想法引入進來。歸根結底,Gemini 不僅僅是一種架構。Gemini 是你想要實現的目標。你想要實現的目標是智能,你想通過產品來實現它,使整個 Google 真正運行在這個 AI 引擎上。從某種意義上說,具體是什麼架構並不重要。我們目前有一套方案,我們有演進的方法,我們將通過它不斷進化。而這背後的動力源泉將是創新,永遠都是創新。因此找到這種平衡,或者找到以不同方式進行創新的機會是非常關鍵的。在 I/O 大會現場我親身感受到了你、Sergey Brin 和 Demis Hassabis 展現出的人性溫暖。當你思考幫助塑造和營運這個團隊時,這種文化對你意味著什麼?Koray Kavukcuoglu:首先非常感謝你,你讓我有點不好意思了。但我認為這很重要。我相信我們的團隊,我相信信任夥伴並給予人們機會。團隊的層面很重要,這至少是我可以說我在 DeepMind 工作期間學到的東西。因為我們曾經是一個小團隊,你在那裡建立了那種信任。然後當你成長時,如何維持這種信任很重要,要創造這樣一種環境,讓人們感覺到我們真的在乎解決那些具有挑戰性的技術和科學問題,那些能產生影響、對現實世界有意義的問題。我認為這仍然是我們正在做的事情。正如我所說,Gemini 就是關於這一點的。建構智能是一個高度技術化、極具挑戰性的科學問題。我們必須以這種方式去處理它。我們也必須懷著謙卑之心去處理它,必須時刻審視自己。希望團隊也有同樣的感受。這就是為什麼我總是說我真的為團隊感到驕傲,他們配合得驚人地好。今天我們在樓上的茶水間聊天,我對他們說:“雖然很累人,很艱難,我們都筋疲力盡了,但這正是它的本質。”對此我們沒有完美的架構。每個人都聚在一起,協同工作並互相支援。這很難,但讓這一切變得有趣和愉快的,以及讓你能解決真正難題的,我認為在很大程度上是因為擁有正確的團隊在一起並肩作戰。 (數字開物)
全線大漲!聯準會,重磅發佈對大型銀行年度「壓力測試」全面改革!
近期再度面臨信用風險的美國銀行業,即將迎來重大變革。聯準會於當地時間周五公佈了對大型銀行年度「壓力測試」的全面改革。根據新計畫,聯準會將要求監管機構每年在「壓力測試」執行前披露當年的關鍵模型和情境細節。該改革方案在聯準會內部引起了不小的分歧。聯準會理事巴爾對擬議中的修改持反對態度,他警告這些修改會削弱測試並降低銀行資本。聯準會理事鮑曼則表示,這些變化有助於改善銀行的資本規劃。預計聯準會理事會將推進這項提案,並在徵求公眾意見後於明年定案。在市場層面,美股大型金融機構股價周五全線大漲,截至收盤,高盛大漲超4%,摩根大通、摩根士丹利、花旗、富國銀行均大漲超2%。有分析指出,市場對聯準會進一步降息將刺激經濟活動的預期,也推動了大型銀行股走強。「壓力測試」將全面改革美國東部時間10月24日,聯準會公佈了對大型銀行年度「壓力測試」的全面改革。聯準會的方案目標是改進部分模型的設計,包括信貸損失、操作風險和證券相關模型。此外,聯準會還計畫在最終確定下一輪「壓力測試」改採用的「嚴重不利情景」之前,提前徵求業界反饋意見。此檔案也公佈了2026年版「壓力測試」的初步標準,其中最嚴苛的情景要求銀行評估在全球經濟衰退、股市與房地產暴跌,以及美國失業率達到兩位數的情況下將如何應對。根據新框架,聯準會周五公佈了擬用於2026年壓力測試的最嚴重情境假設:該假設設想出現全球嚴重衰退、風險資產價格大幅下跌、無風險利率下降、金融市場波動劇烈的局面——包括股價在前三個季度暴跌54%。企業債券利差擴大至5.7個百分點,美國失業率上升至約10%,房地產價格崩跌,同時亞洲經濟出現急劇放緩。需要指出的是,上述情境純屬測試假設,並非經濟預測。聯準會負責金融監管的副主席、理事鮑曼(Michelle Bowman)表示,她希望能在公開徵求意見後,於2026年測試前正式採納這些改革方案。聯準會理事會已於周五在華盛頓的會議上投票,正式提出該改革建議。鮑曼在會議發言稿中指出,目前,「壓力測試」模型、情境設計框架以及具體情境都沒有完全公開或接受公眾評論。這種缺乏透明度的狀況會導致銀行在資本規劃中出現不確定性,使資本要求與實際風險可能不匹配,也限制了公眾對壓力測試過程的理解和監督。根據新計畫,聯準會將要求監管機構每年在「壓力測試」執行前披露當年的關鍵模型和情境細節。此外,改革方案還包括將「壓力測試」所使用的資產負債表資料日期從12月31日改為9月30日。聯準會表示,整體調整預計不會對參與銀行的資本需求產生實質性影響。「壓力測試」是2008年金融危機後引入的監管措施,旨在評估銀行在假設性經濟衰退中能否保持穩健。多年來,銀行一直推動放鬆相關資本監管,認為規則過於繁重,限制了其業務彈性。今年稍早,美國22家大型銀行均順利通過年度壓力測試,為其增加股票回購和股利鋪平了道路。大型金融機構股票全線大漲聯準會公佈改革方案後,美國銀行政策研究所(Bank Policy Institute)和金融服務論壇(Financial Services Forum)分別發表聲明表示歡迎。美股周五盤中,包括銀行股在內的大型金融機構股價全線大漲,截至收盤,高盛大漲超4%,摩根大通、摩根士丹利、花旗、富國銀行均大漲超2%,美國銀行漲1.56%。另有分析指出,市場對聯準會降息將刺激經濟活動的預期,也一定程度推動了美國大型金融機構股票走強。根據芝商所聯準會利率觀察工具,12月降息的機率從資料公佈前的約91%跳升至98.5%,而下周降息的機率仍高於95%。但值得一提的是,在聯準會內部,上述改革方案引起了較大的分歧。聯準會前首席監管官、現任聯準會理事巴爾(Michael Barr)在演講稿中表示,他反對提前披露測試內容的做法,認為此舉削弱了測試的可信度。巴爾指出,這種新模式有可能讓壓力測試變成僵化的形式化流程,只會帶來虛假的安全感。較少保守的建模選擇和銀行可能的鑽空子行為,都可能導致測試結果過於樂觀。聯準會前銀行政策律師、現任密西根大學商法教授Jeremy Kress則批評稱,聯準會此舉是向銀行訴訟“妥協”,沒有任何法律要求必須把壓力測試變成一場“開卷考試”,讓銀行參與出題。這完全是一個政策選擇,而且是一個糟糕的選擇。其實,聯準會早在去年12月就曾表示將改革壓力測試流程,但同月,多個行業協會起訴該機構,指責標準“秘密制定”,導致銀行資本要求“反覆無常且缺乏解釋”。這些協會代表的機構包括摩根大通、高盛集團和美國銀行。另據美媒先前報導,聯準會已向其他美國監管機構展示了一份修訂方案,大幅放鬆對華爾街大型銀行的資本金要求,這標誌著川普上台後金融監管放鬆的最新訊號。部分官員估算,新方案將使多數大型銀行的資本金總增幅降至3%至7%之間,這一數字遠低於2023年提案中19%的增幅,也低於去年妥協版本提出的9%。擁有較大交易業務組合的銀行增幅可能更小,甚至可能出現下降。 (券商中國)
GPT-5攻克「量子NP難題」,首篇論文引爆學界!人類2周壓縮至30分鐘
【新智元導讀】GPT-5正改寫科學發現的規則!一篇重磅論文揭秘,「量子版NP難題」竟被GPT-5在30分鐘之內攻克了,然而這要耗費人類1-2周的時間。照這種速度發展下去,AI離完成「諾獎級」突破真的不遠了。幾天前,GPT-5成功通過「哥德爾測試」,破解了數學三大猜想。意想不到的是,這一次,GPT-5又「攻陷」了量子領域的難題。量子計算專家Scott Aaronson首次發表論文,證明其中一個老難題竟被GPT-5助攻破解了。論文中,Scott一直在死磕量子計算中的一個核心問題——QMA複雜度類別,堪稱「量子版的NP問題」。其中,關鍵在於證明過程中的誤差機率,能否被無限降低,特別是,能否實現完美完備性。論文地址:https://arxiv.org/pdf/2509.21131之前學界研究中已經把誤差壓到很低,但最新研究卻發現:「雙指數級誤差」是現有方法的理論極限,無法進一步突破。在關鍵推導環節受阻後,作者開始向GPT-5尋求幫助。一開始,AI給出了錯誤的思路。但在大約30分鐘互動後,它最終提出一個精妙的數學函數,精確分析出特徵值行為。研究證明,這一構想成為了論文中最關鍵的突破。在最新博文中,Scott驚嘆地表示,「這思路要是那個學生想出來的,我絕對會誇一句——真是絕了」!這個難題預估需要1-2周人力才能完成OpenAI科學家Sebastien、產品負責人Kevin再次激動轉發,並稱「一場重大變革開始了」。量子版NP難題:QMA奇點這篇於25日提交至arXiv的論文,主要研究了量子複雜性類「QMA中黑盒放大的侷限性」。那麼,QMA是什麼?QMA,即量子梅林-亞瑟(Quantum Merlin Arthur),可以看作是NP的典型量子版本。它包含了一類決策問題:如果答案是「是」,Merlin可以傳送給Arthur一個量子見證態,能讓Arthur(在經過多項式時間的量子計算後)以至少2/3的機率接受;而如果答案是「否」,無論Merlin傳送什麼見證態,Arthur接受的機率都至多為1/3。在這裡,如同複雜性理論中常見的那樣,常數2/3和1/3隻是慣例,可以通過放大取代為,比如1-2⁻ⁿ和2⁻ⁿ。在這個領域,一個長期懸而未決的問題是——QMA是否等於QMA₁,其中QMA₁是QMA的一個子類,允許協議具有「完美完備性」?2008年,Scott Aaronson通過實用分析方法,證明了存在一個「量子預言機」,使得QMA≠QMA₁。這意味著,任何證明QMA=QMA₁的嘗試,都需要「量子非相對化技術」。這倒並不是說這個障礙難以踰越,但至少說明了問題的複雜性。突破:雙指數放大侷限直到今年6月,Freek Witteveen和Stacey Jeffery發表了一篇重磅論文,證明了QMA協議可通過黑盒方式放大,讓完備性誤差達到了「雙指數級小」,即 1/exp(exp(n))。論文地址:https://arxiv.org/pdf/2506.15551他們採用了一種Scott從未想過的方法:將接受機率編碼到一個量子態的振幅中,而這些振幅以幾何級數遞減。事實證明,QMA這位相識25年的「老朋友」,依然能帶來驚喜。在8月的線上會議,Scott問道:這個雙指數的完備性,是黑盒技術的極限嗎?能否進一步放大到三指數級小,即1/exp(exp(exp(n)))。30分鐘攻克,GPT-5上大分一周後,Scott聯手Freek寫出了完整證明,表明在黑盒技術下,雙指數級小的完備性誤差已是極限。換句話說,他們將2008年的「QMA≠QMA₁」預言機分離結果量化,得到的「下界」(lower bound)恰好與6月論文的協議相匹配。這項研究最引人注目的部分,或許並不是量子複雜性本身,而是AI在其中的角色。如前所述,這是Scott Aaronson第一篇論文,其主要成果證明中的一個關鍵技術步驟來自AI。具體來說,是GPT5-Thinking。當時,作者面臨的一個問題是:分析一個N×N的厄米矩陣E(θ)(比如,N=2ⁿ),其每個元素都是一個關於實參數θ的poly(n)次三角多項式。需要證明的是,當θ從0變化到1時E(θ)的最大特徵值,以證明λₘₐₓ(E(θ))不可能從一個接近0的值開始,然後長時間「停留」在接近1的狀態,例如接近 1/exp(exp(exp(n)))。針對這一問題,如有1-2周的時間,Scott和合著者查閱文獻也可以解決。但他選擇了GPT5-Thinking,5分鐘後,它給出了一個自信但明顯錯誤的答案。Scott並沒有嘲笑AI,而是告訴它錯在那裡。GPT5-Thinking在思考片刻後,再次嘗試給出了一個更好的方案。就這樣,經過了幾次反覆迭代,如同研究生/同事交流一樣,GPT-5給出了以下函數:它正確指出,這是一個關於θ的次數可控的有理函數,並且恰好編碼了最大特徵值 λₘₐₓ(E(θ))與1的接近程度的相關資訊。令人欣喜的是,這個方法奏效了,不用AI協助就能輕鬆完成驗證。Scott認為,或許GPT5在訓練資料中,某個地方見過類似結構,但若是學生提出的方案,他會毫不猶豫地稱其為「巧妙」。最後,他回憶道,一年前,自己曾用當時的GPT推理模型嘗試類似問題,結果遠不如人意。現在,是2025年9月,我可以明確告訴你——AI已經開始真正觸及那些我認為最具人類智慧特徵的核心工作:證明量子複雜性類之間的預言機分離。雖然它現在還做不到獨立撰寫整篇研究論文,但如果你清楚自己在做什麼,它能幫你擺脫困境,這可以說是一個絕佳的應用場景。誰知道,這種情況會持續多久?Scott Aaronson調侃道,「想到這兒,不禁慶幸自己還有個鐵飯碗——終身教職」。 (新智元)
剛剛,GPT-5首次通過「哥德爾測試」!破解三大數學猜想
【新智元導讀】GPT-5首次通過「哥德爾測試」,連破三大組合最佳化猜想!甚至,它能自主推翻原有猜想,給出全新有效解法,當場驚呆OpenAI研究科學家。AI迎來歷史性一刻!GPT-5成功破解三大猜想,通過了「哥德爾測試」。OpenAI科學家Sebastien Bubeck驚嘆地表示,這類開放性問題,頂尖博士生往往耗費數日才能解決。不同以往,這項由海法大學和思科主導的研究,首次讓AI直面「開放性數學猜想」的挑戰。論文中,團隊設計了五項「組合最佳化」領域的測試任務,每項任務提供1-2篇文獻作為瞭解。在三個相對簡單的問題上,GPT-5給出了近乎完美的解法,證明了其強大的邏輯推理水平。令人驚喜的是,在猜想二中,它不僅成功求解,還推匯出與研究人員預期不同的有效解法,顛覆了原有猜想。這一突破,標誌著頂尖AI正從「學習數學」邁向「真正做數學」的關鍵跨越。不難看出,AI正為數學發現做出實質性貢獻,提前預演了2030年代科研範式的深遠變革。AI單挑「哥德爾測試」遠超陶哲軒想像此前,陶哲軒曾分享了自己與OpenAI o1合作經驗,生動地將其比作「指導一名平庸,但並非完全無能的研究生」。在他看來,LLM雖能在大量提示後,逐步得出解決方案,但無法獨立生成關鍵概念性想法。不過,經過一兩次迭代,結合工具,AI就能達到「合格研究生」的水平。OpenAI和Google均宣稱,自家前沿LLM無需外部工具,即可拿下IMO金牌。但這個具有挑戰性的問題,畢竟是為高中生設計的。在最新論文中,研究焦點不同:讓AI處理更高級的數學猜想,即「哥德爾測試」。這些猜想要求的不只是解題能力,還需要整合背景知識和創新思維。為此,研究人員從「組合數學」的子領域——子模最大化中挑選問題。這類問題具體、有明確動機,且控制在能展示數學推理範圍內。與陶哲軒實驗不同,團隊沒有提供大量提示或指導。論文中,他們精心設計了五大猜想。只給每個問題一個最小化描述,外加上1-2篇參考文獻。難度設定為:優秀本科生、研究生,有望在一天內解決所有問題,同時確保大部分問題,存在明確猜想及已知解決路徑。GPT-5的任務是,基於有限輸入,生成完整證明。這模擬了真實研究場景:數學家往往從少量線索出發,獨立探索。在測試中,GPT-5表現既有亮點,也有短板,一起看看具體的解題能力。GPT-5破解三大猜想猜想一:「單調+非單調」的子模函數在凸多面體上取最大這個要求好像是,讓「兩個互相掣肘的收益」加在一起最大化:一部分收益G會越加東西越大(單調),另一部分 H 可能先漲後跌(非單調),而選擇必須落在一個「不能超過上限」的凸集合裡。GPT-5做法是套用連續Frank-Wolfe思路,從零開始,每一步朝著「此刻最能漲分」的方向挪一小步,並使用「遮罩」保證不越界。它把參考論文裡「凹函數」的位置換成 H,推了個遞推式,最後得到一個拆分保證——至少拿到約63%的G(o),再加上37%的H(o)(若H也單調則也是63%),外加一個隨步長參數ε線性衰減的小誤差。猜想二:p-system約束下的「雙指標」演算法這題允許「價值幾乎最優(1−ε)」,但在可行性上稍微超一點(放寬倍數g(ε)),目標是在越廣泛的p-system約束下把g(ε)壓到儘量小。GPT-5提了個樸素而有效的流程,每一輪都在當前解的基礎上,再做一次「在約束裡儘可能有價值」的貪心選集(greedy),最後把若干輪的結果並起來。證明關鍵是:每一輪都能把「距離最優」的差距按p/(p+1)的比例縮小,多滾幾輪差距就指數式消退,於是只要做 ℓ≈ln(1/ε)/ln((p+1)/p)輪,就能把價值推到1−ε。這也意味著,放寬倍數 g_p(ε)=⌈ln(1/ε)/ln((p+1)/p)⌉。部分解題過程如下:令人意想不到的是,猜想二中,GPT-5甚至推匯出不同的近似保證,經核查後推翻原有猜想,並提供了有效解。猜想三:γ-弱DR子模+凸約束的最大化這個猜想把「邊際收益遞減」的連續版放寬為一個強度參數 γ(γ=1即標準情形;γ越小,遞減越弱)。GPT-5還是用Frank-Wolfe:步步解一個「沿梯度的線性子問題」,用小步長前進,並靠平滑性控制離散化誤差。核心一步是把經典證明中的關鍵不等式按γ縮放,於是把著名的1−1/e近似比提升為更一般的1−e^{−γ},再加上一個可調的L/(2K)等級誤差項(K為迭代輪數)。在研究人員看來,結論與推理主體靠譜。只是GPT-5多假設了「向下封閉」這種其實用不上的條件、以及對「步長總和=1」的細節有點不一致。可以看出,如果題目有明確的、單一的推理路徑,GPT-5表現不錯——五道題裡有三道能給出幾乎正確的證明。一旦需要把不同證明結合起來,比如4和5,GPT-5就搞不定了。猜想五中,GPT-5倒是識別出了和作者設想一樣的演算法,但分析得不對。他們後來復盤發現,這個證明其實有可能做出來,只是難度比預想的高。比起早期模型,GPT-5在組合最佳化這種專業領域裡,數學能力明顯進步,偶爾還會冒出一點小創新。這恰恰說明了,它現在還缺乏「整合性推理」能力,這是個主要短板。作者介紹Moran FeldmanMoran Feldman是海法大學電腦科學系的教授。在此之前,他曾擔任以色列開放大學的教職,並在洛桑聯邦理工學院(EPFL)擔任博士後研究員,師從Ola Svensson教授。Amin KarbasiAmin Karbasi思科基金會AI負責人,曾任Robust Intelligence首席科學家,耶魯大學教授,Google工程師。 (新智元)