#測試
Gemini 面臨的最大風險|DeepMind 首席技術官最新訪談實錄
11月25日,Google DeepMind 首席技術官兼 Google 首席 AI 架構師 Koray Kavukcuoglu 接受了Google for Developers的訪談。本次對話探討了 Scaling Law的現狀、基準測試的本質、Gemini 關注的重點領域,強調指令遵循、工具呼叫和國際化,以及多模態模型最終走向“單一權重”的演進路徑等話題。Koray Kavukcuoglu 堅信,AI 進步的步伐並未放緩,Scaling 仍在持續。他指出,基準測試不等於進步,它只是定義“未解決問題”的臨時工具。當模型分數接近頂峰,舊基準便失效,真正的進步標準必須從“刷榜”轉向模型在現實世界中被科學家、律師、工程師等專業人士使用的廣度與深度。在技術路徑上,Koray 強調程式碼與工具呼叫是智能的全新“倍增器”。模型不僅是工具的使用者,更是工具的製造者。他認為,直接從軟體工程師等終端使用者處獲取的反饋訊號,對模型後訓練階段的質量提升具有決定性意義,這種“與產品整合並獲取訊號”的模式已成為理解問題的核心驅動力。Koray 預測,圖像生成與文字生成最終將統一於“單一模型權重”之下,儘管目前仍面臨像素級完美與概念連貫性的雙重挑戰,但這將是必然趨勢。此外,他透露Gemini 面臨的最大風險並非外界擔憂的安全問題,而是“創新枯竭”——即誤以為只要照搬成功公式進行擴展即可,他認為唯有持續在架構和理念上進行創新,才是通往 AGI 的唯一路徑。01 基準測試的侷限與 Scaling LawGemini 3 已經上線,反響積極。回看從 2.5 到 3.0 的處理程序,感覺進步的步伐並未放緩。目前業界對 Scaling有諸多討論,你認為這種趨勢還能持續嗎?此外,有些基準測試如 HLE、ARC-AGI-2 分數飆升,而像 GPQA Diamond 這樣的靜態基準測試依然屹立不倒。你是如何看待這些基準測試的演變以及它們與實際進步之間的關係的?Koray Kavukcuoglu:我對這些進步感到非常興奮,尤其是研究方面的進展。身處研究一線時,你會發現各個領域都充滿了令人興奮的事物,從資料、預訓練、後訓練到方方面面。我們看到了很多熱情、進步和新想法。歸根結底,這一切都源於創新和想法。我們做出的東西越有影響力,越能進入現實世界被人們使用,我們實際上就會獲得更多的靈感,因為你的接觸面擴大了,獲得的訊號種類也增加了。我認為問題會變得更難、更多樣化,隨之而來的挑戰也會升級,但這種挑戰是好事。這也是我們建構智能的動力。有時如果你只看一兩個基準測試,可能會覺得分數提升的空間變小了,但我認為這很正常。基準測試是在某個任務還具有挑戰性時定義的。隨著技術進步,舊的基準測試就不再能代表最前沿的水平了。於是你會定義新的基準測試。這在機器學習中非常正常。基準測試和模型開發總是相輔相成的。你需要基準測試來指導模型開發,但只有當你接近現有目標時,你才知道下一個前沿在那裡,從而定義新的基準。(關於 GPQA 等難題)那裡面確實有一些很難的問題。那些我們仍然無法解決的難題,依然在測試著某種能力。但如果你看看我們在 GPQA 上的表現,我們並不是停留在二三十分需要追趕到九十分,而是已經接近頂峰,所以它所定義的“未解決問題”正在減少。在某種程度上,尋找新的前沿和基準是件好事。定義基準測試真的很重要。如果我們把基準測試等同於進步,那並不一定總是一致的。進步是進步,基準是基準。理想情況下它們是百分百一致的,但現實從來不是這樣。對我來說,衡量進步最重要的標準是我們的模型被現實世界中的科學家、學生、律師、工程師所使用。人們用它做各種事情,比如創意寫作、發郵件。從簡單到困難的光譜,以及不同的主題和領域都很重要。如果你能持續在這些方面提供更大的價值,我認為那就是進步。基準測試只是幫助你量化這一點。02 程式碼與工具呼叫是智能的倍增器,模型本身正在變成一種可建構工具的工具你是如何考慮從一個模型版本到下一個版本的持續最佳化的?比如在指令遵循、國際化語言支援以及程式碼和工具呼叫方面,我們的最佳化目標是什麼?此外,作為 Gemini 3 發佈的一部分,我們推出了 Google Anti-Gravity 作為一個新的 Agentic 編碼平台。為了從模型角度提升質量,你有多看重這種“產品腳手架”(Product Scaffolding)在獲取反饋訊號方面的作用?Koray Kavukcuoglu:有幾個重要的領域。其中之一是指令遵循。這要求模型能夠理解使用者的請求並嚴格執行。你不希望模型只是回答它覺得自己該回答的內容。指令遵循能力非常重要,這也是我們一直在做的。對我們來說,國際化也很重要。Google 是一家非常國際化的公司,我們希望觸達全球使用者,所以這部分很關鍵。你必須持續關注這些領域。它們看起來可能不像知識的前沿,但因為要在那裡與使用者互動,所以非常重要。正如我所說,這一切都是為了從使用者那裡獲得訊號。(關於程式碼與工具呼叫)接下來,如果你進入稍微技術一點的領域,函數呼叫、工具呼叫、Agentic 行為和程式碼真的很重要。函數呼叫和工具呼叫之所以重要,是因為我認為這是智能的一個全新倍增器,不僅模型可以自然地使用我們建立的所有工具和函數進行推理,而且模型還可以編寫自己的工具。你可以認為模型本身也是一種工具。這是一件大事。顯然程式碼很重要,不僅因為我們是軟體工程師,還因為有了程式碼,你實際上可以建構任何在你筆記型電腦上運行的東西。而在筆記型電腦上發生的不只是軟體工程。我們現在做的很多事情都發生在數字世界中,而程式碼是這一切的基礎,它能與你生活中幾乎所有事情整合。這就是為什麼這兩者結合在一起能極大地擴展使用者的能力。我喜歡舉 Vibe coding 這個例子。很多人很有創造力,有很多想法,突然之間你讓他們變得高產了。從有創意到有產出,你只需要把它寫下來,應用程式就會在你面前呈現。大多數時候它都管用,而當它管用時感覺棒極了。這種反饋循環很棒。突然之間,你讓更多人成為了建設者。能夠建構東西的感覺是很棒的。(關於產品腳手架的作用)對我來說這非常重要。Anti-Gravity 本身是一個令人興奮的產品,但從模型的角度看它具有雙重價值。首先從模型端來看,能夠與終端使用者,在這裡是軟體工程師整合,並直接向他們學習,瞭解模型那裡需要改進,這對我們來說至關重要。Gemini App 也是出於同樣的原因,直接理解使用者非常重要。Anti-Gravity 和 AI Studio 也是如此。擁有這些我們緊密合作的產品,然後理解、學習並獲取使用者訊號,作用是巨大的。Anti-Gravity 一直是非常關鍵的發佈合作夥伴。雖然他們加入不久,但在發佈的最後兩三周,他們的反饋真的起到了決定性作用。Search AI Overviews 搜尋 AI 概覽也是一樣,我們從中獲得了很多反饋。對我來說,與產品的整合並獲取訊號是我們理解問題的主要驅動力。當然我們有基準測試,所以我們知道如何推動 STEM、科學、數學這些硬核智能的發展。但理解現實世界的用例真的很重要,因為技術必須在現實世界中有用。03 通過產品連接使用者是建構智能的路徑作為新任首席 AI 架構師,你的職責擴展到了確保 Google 的產品能真正利用這些模型,Gemini 3 發佈首日就覆蓋了所有產品介面。相比一年半前單純的研發,這種“既要模型好,又要產品用好”的雙重目標增加了多少複雜性?此外,我們在某種意義上正在與客戶共同建構 AGI,在這種開放模式下,你是如何考量安全與穩健性的?Koray Kavukcuoglu:確實增加了複雜性,但我們在建構智能。很多人問我身兼雙職的問題。我有兩個頭銜,但這在很大程度上是同一件事。如果我們要建構智能,就必須通過產品、通過連接使用者來實現。作為架構師,我試圖做的是確保 Google 的產品能獲得最好的技術支援。我們不是要親自“做”產品,我們不是產品經理,我們是技術開發者。我們開發技術,訓練模型。當然每個人都有自己的觀點,但對我來說,最重要的是以最佳方式提供模型和技術,然後與產品團隊合作,讓他們在這個 AI 世界中建構最好的產品。這是一個新世界。新技術正在定義使用者的期望、產品的表現形式、資訊的傳遞方式,以及你可以用它做的所有新鮮事。對我來說,這就是要在整個 Google 範圍內實現這一點,與所有產品團隊合作。這令人興奮,不僅從使用者獲得的產品角度,也從我之前提到的角度,那是我們的主要驅動力。感知使用者需求、獲取使用者訊號對我們來說至關重要。這就是我想做這件事的原因。這是我們建構 AGI 的路徑。這也是我們建構智能的路徑,通過產品。(關於安全與穩健性)而且我認為這實際上也是一個非常值得信賴、久經考驗的系統。這是一種我們正在越來越多採用的工程思維。在這個問題上保持工程思維很重要。當東西經過精心設計,你知道它是穩健的、安全的。所以我們在現實世界中做事,採用的是所有經過驗證的建構理念。這也反映在我們如何考量安全和安保。我們試圖從底層、從一開始就考慮這些,而不是事後諸葛亮。所以在做後訓練模型、預訓練和處理資料時,我們始終銘記在心。每個人都要思考這個問題。我們有安全團隊嗎?顯然有,他們帶來了相關技術。安保團隊也一樣。但關鍵是讓參與 Gemini 的每個人都深入參與這個開發過程,並將其作為第一原則。這些團隊本身也是我們後訓練團隊的一部分。當我們開發這些模型、進行迭代和發佈候選版本時,就像我們關注 GPQA、HLE 這些基準測試一樣,我們也關注安全和安保指標。我認為這種工程思維很重要。04 程式碼與智能體仍需突破最後的體驗瓶頸Gemini 3 的發佈就像 NASA 的阿波羅計畫,雖然參與者眾多,但這確實是 Google 全球團隊的共同努力。你如何評價這種跨國協作?同時,雖然模型在許多基準測試上都是 SOTA,反響也很積極,但如果快進到下一次發佈,還有什麼事是你希望列在“真希望我們做了 X、Y、Z”的清單上的?在享受當下的同時,你看到了那些具體的差距?Koray Kavukcuoglu:關於 Gemini 3,我們也剛反思過。對我來說,重要的一點是這個模型是一個真正的 Team Google 模型。每個 Gemini 版本的發佈都需要來自美洲、歐洲、亞洲等世界各地的人員參與。我們有遍佈全球的團隊在做貢獻。不只是 Google DeepMind 團隊,而是 Google 的所有團隊。這是一個巨大的協作成果。我們與 AI Mode 同步發佈,與 Gemini App 同步發佈。這些都不容易。他們在開發過程中與我們並肩作戰。只有這樣,在模型準備好的第一天,我們才能一起發佈。我們一直在這樣做。當我們說“跨越 Google”時,不僅僅是指那些積極建構模型的人,所有的產品團隊也在貢獻力量。(關於未來的差距)我認為應該兼顧。我們要享受這一刻,那怕只享受一天也是好的。這是發佈日,人們在讚賞這個模型,所以我希望團隊也能享受這一刻。但與此同時,在每一個領域,我們也看到了差距。寫作完美嗎?不完美。編碼完美嗎?也不完美。特別是在 Agentic 行為和編碼領域,我認為還有很大的提升空間。那是增長最令人興奮的領域之一。我們需要識別那裡可以做得更多,並且我們會去做。我認為我們已經走了很遠。可以說,對於那些從事編碼的人,無論是軟體工程師還是想建構東西的創意人士,這個模型基本上滿足了他們 90% 到 95% 的需求。我願意認為這個模型是他們能用的最好的工具。但在某些情況下,我們可能還需要做得更好。關於程式碼和工具使用,回顧 Gemini 的發展歷程,顯然我們在 1.0 版本時非常側重於多模態能力,而在 2.0 版本中,我們才開始建構一些智能體基礎設施。你覺得為什麼我們沒有從一開始就在智能體工具使用方面處於業內領先地位?畢竟在多模態領域,Gemini 1 從一開始就是業內領先的。Koray Kavukcuoglu:我不認為這是刻意為之。坦率地說,回過頭看,我認為這與模型的使用方式有關,也就是開發環境與現實世界的聯絡緊密程度。我們與現實世界的聯絡越緊密,就越能理解實際發生的真實需求。在 Gemini 的研發征程中,我們的起點是 Google 深厚的 AI 研究底蘊。我們擁有大量傑出的研究人員和輝煌的 AI 研究歷史。但 Gemini 的研發也是一個從研究環境向工程思維轉變的過程,讓我們進入了一個真正與產品緊密相連的領域。看著現在的團隊,我感到非常自豪,因為這個團隊的大多數成員,包括我自己,在四五年前還在寫論文。那時我們在做 AI 研究。而現在,我們站在技術的最前沿,通過與產品使用者的互動來開發技術。這是一種完全不同的思維模式。以前我們可能很久才出一個成果,現在我們每六個月建構一次大模型,然後每一到一個半月就進行一次更新。這是一個驚人的轉變,而我們成功跨越了這一轉變。05 圖像與文字架構正在趨同,最終將融合為單一模型的“物理理解力”隨著 Veo 3、Nano Banana 模型的出現,我們在產品化方面取得了巨大成功。在追求 AGI 的過程中,你是如何看待生成式媒體模型的定位?它們是否也是理解物理世界和萬物運行規律的關鍵部分?Koray Kavukcuoglu:如果你回到 10 到 15 年前,生成式模型主要集中在圖像上,因為我們可以更直觀地檢查結果。此外,這種理解世界、理解物理規律的想法正是開發圖像生成模型的主要驅動力。我們在生成式模型方面做過的一些令人興奮的工作可以追溯到 10 年前,比如 WaveNet。20 年前,我們還在做圖像模型。我在讀博士時,那時大家都在做生成式圖像模型。我們經歷過那個階段。我們當時有叫 PixelCNNs 的圖像生成模型。某種程度上,當時大家意識到文字領域能取得更快的進展。但我認為圖像模型的回歸是非常自然的。在 Google DeepMind,我們在很長一段時間裡都擁有非常強大的圖像、視訊和音訊模型。將這些能力結合起來是順理成章的。我們現在的方向正是我們一直強調的多模態,而且是輸入輸出層面的多模態。這就是我們的方向。隨著技術的進步,這兩個不同領域之間的架構和理念正在相互融合。過去這些架構截然不同,但現在它們正在高度趨同。所以並不是我們在強行整合什麼,而是技術在自然地融合。隨著這種融合,大家都明白了從那裡可以獲得更高的效率,理念在何處演進,我們看到了一條共同的路徑。這條共同路徑結合得非常好。Nano Banana 是最初的那些時刻之一,你可以對圖像進行迭代,可以與模型對話。文字模型通過文字擁有了大量的世界認知,而圖像模型則從另一個角度理解世界。當你將這兩者結合時,會產生令人興奮的化學反應,因為人們會感覺到這個模型理解了他們想要表達的神韻。我們談談 Nano Banana Pro,這是在 Gemini 3 Pro 之上建構的全新業內領先圖像生成模型。團隊是否看到了在 Pro 級模型中做這件事的早期訊號,即利用 Pro 的架構可能會在文字渲染和世界理解等更細微的用例上獲得更強的性能?Koray Kavukcuoglu:我認為這可能是我們看到不同技術協同發揮作用的地方。對於 Gemini 模型,我們一直秉持的理念是,每個模型版本都是一個模型家族。我們有 Pro、Flash、Flash-Lite 這一系列模型。因為在不同的尺寸下,你在速度、精準性、成本等方面會有不同的權衡。隨著技術融合,我們在圖像方面自然也有同樣的體驗。所以我認為團隊的想法是,既然有 3.0 Pro 的架構,我們是否可以利用在第一版中學到的所有經驗,通過增加尺寸來調整這個模型,使其更側重於圖像生成?我認為最終我們得到了能力更強的東西。它能理解非常複雜的文件。一些最令人興奮的用例是,你有一大堆非常複雜的文件,輸入進去,我們依靠這些模型來回答問題,你還可以要求它生成一張相關的資訊圖表,效果非常好。這就是自然的輸入輸出多模態發揮作用的地方,這感覺就像魔法一樣。(關於統一權重)Tulsee 曾承諾我們將擁有統一的 Gemini 模型權重。現在的進展表明我們實際上已經非常接近那個目標了,即在圖像生成和文字生成上實現統一,儘管歷史上架構是不同的。這是否是一個確定的目標?目前有那些因素在阻礙這一處理程序?Koray Kavukcuoglu:正如我所說,技術和架構正在對齊,所以我們看到這正在發生。人們在定期進行嘗試。但這只是一個假設,你不能基於意識形態來做這件事。科學方法就是科學方法。我們提出假設,進行嘗試,然後看結果。有時成功,有時失敗。但這就是我們必須經歷的過程。目標越來越近了。我很確定在不久的將來,我們會看到這些東西結合在一起。逐漸地,它將越來越趨向於單一模態。但這需要大量的創新。仔細想想,這其實很難。輸出空間對模型來說至關重要,因為那是學習訊號的來源。目前,我們的學習訊號主要來自程式碼和文字。這是輸出空間的主要驅動力,也是我們在這些方面表現出色的原因。現在,要能夠生成圖像,我們在影像品質上的調整已經非常精細。這是一件很難的事情。生成像素級完美的質量很難。而且圖像在概念上必須是連貫的,每個像素不僅關乎質量,還關乎它如何與圖片的整體概念相融合。訓練一個能同時做好這兩件事的模型更難。我看待這個問題的方式是,我認為這絕對是可能的。這終將實現。關鍵在於找到正確的模型創新來達成它。06 DeepMind 利用 DeepThink 等項目在主線外探索新邊界DeepMind 現在擁有許多業內領先的模型。13 年前你是 DeepMind 的第一位元深度學習研究員,當時人們對這項技術並不興奮,而現在它驅動著所有核心產品。當你反思這段旅程時,你想到了什麼?Koray Kavukcuoglu:這令人驚訝嗎?這是充滿希望的、積極的結果。當我在讀博士時,我想每個讀博士的人都一樣,你相信你所做的東西很重要,或者將會變得重要。你對那個課題充滿熱情,你認為它會產生巨大的影響。我當時也是這種心態。這就是為什麼當 Demis 和 Shane 聯絡我,我們交談後,我對 DeepMind 感到非常興奮。得知有一個地方真正專注於建構智能,並且將深度學習作為核心,我非常激動。在那個年代,擁有一家專注於深度學習、專注於 AI 的初創公司是很不尋常的。我認為那是非常有遠見的。後來我組建了深度學習團隊,團隊不斷壯大。我認為其中一件事,我對深度學習的方法一直是一種關於如何處理問題的心態。第一原則是它總是基於學習的。這就是 DeepMind 的核心,一切都押注在學習上。從我們早期的工作開始,到強化學習和智能體,以及我們要一路走來所做的一切,這是一段令人興奮的旅程。你投身這些事業,總是希望有一個積極的結果。但反思過去,我想說我們很幸運。我們很幸運生活在這個時代,因為我認為很多人投身 AI 或他們熱衷的領域,都認為那是屬於他們的時代,是技術將會成功的時候。但它確實正在當下發生。我們也必須意識到,AI 之所以能在當下爆發,不僅僅是因為機器學習和深度學習的進步,還因為硬體的進化達到了某種狀態,網際網路和資料積累達到了某種狀態。是許多因素因緣際會。我很幸運能實際從事 AI 工作並一路走到這一刻。(關於里程碑對比)回顧 AlphaFold 等歷史里程碑,與現在相比,我們在組織團隊、將科學轉化為結果的經驗上有何不同?DeepThink 作為一個在奧林匹克數學競賽中實戰的模型,在其中扮演了什麼角色?Koray Kavukcuoglu:我認為在如何組織團隊,或者什麼是成功的文化特質,以及如何將艱難的科學和技術問題轉化為成功的結果方面,我們在過去的許多項目中積累了大量經驗,從 DQN、AlphaGo、AlphaZero 到 AlphaFold。所有這些項目都極具影響力。通過它們,我們學到了很多關於如何圍繞一個特定目標、一個特定使命進行組織,以及如何作為一個較大的團隊進行協作。我記得在 DeepMind 早期,我們會有一個 25 人的團隊一起做一個項目,並且 25 個人一起署名寫論文。每個人都會對我們說,肯定沒有 25 個人真的都在做這個吧。我會說,不,他們確實都做了。因為在科學和研究領域,這種規模並不常見。我認為那種知識、那種心態是關鍵。我們通過這些經歷完成了進化。這真的很重要。同時,對於最近這兩三年,我們將這種經驗與工程思維相結合,即我們要開發一條模型主線,並且我們學會了如何利用現有模型在這條主線上進行探索。我看到這一點的絕佳例子,每次想到這個我都感到很高興,是我們的 DeepThink 模型。那些是我們用來參加國際數學奧林匹克競賽、ICPC 競賽的模型。我認為那是一個非常酷且恰當的例子,因為我們在進行探索。你挑選這些宏大的目標。國際數學奧林匹克競賽真的很重要,它涉及真正極難的問題。向每一位參賽的學生致敬,這真的是了不起的事情。能夠把一個模型放到那個賽場上,當然,你會有一種衝動去為此專門定製一些東西。但我們試圖做的是利用那個機會來進化我們現有的技術,或者構想出與我們現有模型相容的新想法。因為我們相信我們所擁有技術的通用性。回顧當年那篇論文只有 25 位作者,而今天 Gemini 3 的貢獻者名單可能有 2500 人。看到這些問題現在的規模如此之大,這種從科學小團隊向大規模工程協同的轉變帶來了那些思考?Koray Kavukcuoglu:確實如此。這對我們很重要,這也是 Google 最棒的地方之一:這裡有太多各自領域的頂尖專家。我們受益於 Google 擁有的全端方法,因為在每一層都有專家,從資料中心到晶片再到網路,以及如何大規模運行這些系統。目前已經發展到一種狀態,再次回到這種工程思維,即這些環節是密不可分的。當我們設計一個模型時,是基於它將運行在什麼硬體上來設計的。同樣,我們在設計下一代硬體時,也知道模型大概會往那個方向發展。這非常美妙。但是協調這一切,當然需要成千上萬的人協同工作並做出貢獻。我們需要認識到這一點,這本身就是一件美妙的事情。07 Gemini 最大的風險是創新枯竭在這個時代,你如何看待 DeepMind 在“純粹的科學探索”與“僅僅試圖擴大 Gemini 規模”之間的平衡?要繼續擴大規模顯然需要創新,你如何看待這種決策?Koray Kavukcuoglu:那是關鍵所在,找到這種平衡真的非常重要。即使是現在,當人們問我“Gemini 最大的風險是什麼”時,我思考過很多,我認為 Gemini 最大的風險是創新枯竭。因為我真的不相信我們已經找到了“成功秘籍”,接下來只需要照章執行就行了。我不相信這一套。如果我們的目標是建構智能,我們要通過產品與使用者一起實現這一目標,那麼擺在面前的問題是非常具有挑戰性的。我們的目標依然極具挑戰且尚未實現。我不覺得我們已經掌握了既定公式,只需要單純地擴展或執行。唯有創新才能實現這一目標。關於創新,你可以將其視為在不同尺度上,或在與當前方向不同的切入點上進行的探索。當然我們有 Gemini 模型,在 Gemini 項目內部我們也進行了大量探索。我們探索新架構、新想法、不同的做事方式。我們必須這樣做,我們也在持續地這樣做。這就是所有創新的源泉。但同時,我認為 DeepMind 或整個 Google DeepMind 進行更多的探索對我們來說至關重要。我們必須做這些事,因為有些東西可能受限於 Gemini 項目本身而無法在其中探索。所以我們能做的最好的事情是,無論是在 Google DeepMind 還是在 Google Research,我們都要探索各種各樣的想法,並將這些想法引入進來。歸根結底,Gemini 不僅僅是一種架構。Gemini 是你想要實現的目標。你想要實現的目標是智能,你想通過產品來實現它,使整個 Google 真正運行在這個 AI 引擎上。從某種意義上說,具體是什麼架構並不重要。我們目前有一套方案,我們有演進的方法,我們將通過它不斷進化。而這背後的動力源泉將是創新,永遠都是創新。因此找到這種平衡,或者找到以不同方式進行創新的機會是非常關鍵的。在 I/O 大會現場我親身感受到了你、Sergey Brin 和 Demis Hassabis 展現出的人性溫暖。當你思考幫助塑造和營運這個團隊時,這種文化對你意味著什麼?Koray Kavukcuoglu:首先非常感謝你,你讓我有點不好意思了。但我認為這很重要。我相信我們的團隊,我相信信任夥伴並給予人們機會。團隊的層面很重要,這至少是我可以說我在 DeepMind 工作期間學到的東西。因為我們曾經是一個小團隊,你在那裡建立了那種信任。然後當你成長時,如何維持這種信任很重要,要創造這樣一種環境,讓人們感覺到我們真的在乎解決那些具有挑戰性的技術和科學問題,那些能產生影響、對現實世界有意義的問題。我認為這仍然是我們正在做的事情。正如我所說,Gemini 就是關於這一點的。建構智能是一個高度技術化、極具挑戰性的科學問題。我們必須以這種方式去處理它。我們也必須懷著謙卑之心去處理它,必須時刻審視自己。希望團隊也有同樣的感受。這就是為什麼我總是說我真的為團隊感到驕傲,他們配合得驚人地好。今天我們在樓上的茶水間聊天,我對他們說:“雖然很累人,很艱難,我們都筋疲力盡了,但這正是它的本質。”對此我們沒有完美的架構。每個人都聚在一起,協同工作並互相支援。這很難,但讓這一切變得有趣和愉快的,以及讓你能解決真正難題的,我認為在很大程度上是因為擁有正確的團隊在一起並肩作戰。 (數字開物)
全線大漲!聯準會,重磅發佈對大型銀行年度「壓力測試」全面改革!
近期再度面臨信用風險的美國銀行業,即將迎來重大變革。聯準會於當地時間周五公佈了對大型銀行年度「壓力測試」的全面改革。根據新計畫,聯準會將要求監管機構每年在「壓力測試」執行前披露當年的關鍵模型和情境細節。該改革方案在聯準會內部引起了不小的分歧。聯準會理事巴爾對擬議中的修改持反對態度,他警告這些修改會削弱測試並降低銀行資本。聯準會理事鮑曼則表示,這些變化有助於改善銀行的資本規劃。預計聯準會理事會將推進這項提案,並在徵求公眾意見後於明年定案。在市場層面,美股大型金融機構股價周五全線大漲,截至收盤,高盛大漲超4%,摩根大通、摩根士丹利、花旗、富國銀行均大漲超2%。有分析指出,市場對聯準會進一步降息將刺激經濟活動的預期,也推動了大型銀行股走強。「壓力測試」將全面改革美國東部時間10月24日,聯準會公佈了對大型銀行年度「壓力測試」的全面改革。聯準會的方案目標是改進部分模型的設計,包括信貸損失、操作風險和證券相關模型。此外,聯準會還計畫在最終確定下一輪「壓力測試」改採用的「嚴重不利情景」之前,提前徵求業界反饋意見。此檔案也公佈了2026年版「壓力測試」的初步標準,其中最嚴苛的情景要求銀行評估在全球經濟衰退、股市與房地產暴跌,以及美國失業率達到兩位數的情況下將如何應對。根據新框架,聯準會周五公佈了擬用於2026年壓力測試的最嚴重情境假設:該假設設想出現全球嚴重衰退、風險資產價格大幅下跌、無風險利率下降、金融市場波動劇烈的局面——包括股價在前三個季度暴跌54%。企業債券利差擴大至5.7個百分點,美國失業率上升至約10%,房地產價格崩跌,同時亞洲經濟出現急劇放緩。需要指出的是,上述情境純屬測試假設,並非經濟預測。聯準會負責金融監管的副主席、理事鮑曼(Michelle Bowman)表示,她希望能在公開徵求意見後,於2026年測試前正式採納這些改革方案。聯準會理事會已於周五在華盛頓的會議上投票,正式提出該改革建議。鮑曼在會議發言稿中指出,目前,「壓力測試」模型、情境設計框架以及具體情境都沒有完全公開或接受公眾評論。這種缺乏透明度的狀況會導致銀行在資本規劃中出現不確定性,使資本要求與實際風險可能不匹配,也限制了公眾對壓力測試過程的理解和監督。根據新計畫,聯準會將要求監管機構每年在「壓力測試」執行前披露當年的關鍵模型和情境細節。此外,改革方案還包括將「壓力測試」所使用的資產負債表資料日期從12月31日改為9月30日。聯準會表示,整體調整預計不會對參與銀行的資本需求產生實質性影響。「壓力測試」是2008年金融危機後引入的監管措施,旨在評估銀行在假設性經濟衰退中能否保持穩健。多年來,銀行一直推動放鬆相關資本監管,認為規則過於繁重,限制了其業務彈性。今年稍早,美國22家大型銀行均順利通過年度壓力測試,為其增加股票回購和股利鋪平了道路。大型金融機構股票全線大漲聯準會公佈改革方案後,美國銀行政策研究所(Bank Policy Institute)和金融服務論壇(Financial Services Forum)分別發表聲明表示歡迎。美股周五盤中,包括銀行股在內的大型金融機構股價全線大漲,截至收盤,高盛大漲超4%,摩根大通、摩根士丹利、花旗、富國銀行均大漲超2%,美國銀行漲1.56%。另有分析指出,市場對聯準會降息將刺激經濟活動的預期,也一定程度推動了美國大型金融機構股票走強。根據芝商所聯準會利率觀察工具,12月降息的機率從資料公佈前的約91%跳升至98.5%,而下周降息的機率仍高於95%。但值得一提的是,在聯準會內部,上述改革方案引起了較大的分歧。聯準會前首席監管官、現任聯準會理事巴爾(Michael Barr)在演講稿中表示,他反對提前披露測試內容的做法,認為此舉削弱了測試的可信度。巴爾指出,這種新模式有可能讓壓力測試變成僵化的形式化流程,只會帶來虛假的安全感。較少保守的建模選擇和銀行可能的鑽空子行為,都可能導致測試結果過於樂觀。聯準會前銀行政策律師、現任密西根大學商法教授Jeremy Kress則批評稱,聯準會此舉是向銀行訴訟“妥協”,沒有任何法律要求必須把壓力測試變成一場“開卷考試”,讓銀行參與出題。這完全是一個政策選擇,而且是一個糟糕的選擇。其實,聯準會早在去年12月就曾表示將改革壓力測試流程,但同月,多個行業協會起訴該機構,指責標準“秘密制定”,導致銀行資本要求“反覆無常且缺乏解釋”。這些協會代表的機構包括摩根大通、高盛集團和美國銀行。另據美媒先前報導,聯準會已向其他美國監管機構展示了一份修訂方案,大幅放鬆對華爾街大型銀行的資本金要求,這標誌著川普上台後金融監管放鬆的最新訊號。部分官員估算,新方案將使多數大型銀行的資本金總增幅降至3%至7%之間,這一數字遠低於2023年提案中19%的增幅,也低於去年妥協版本提出的9%。擁有較大交易業務組合的銀行增幅可能更小,甚至可能出現下降。 (券商中國)
GPT-5攻克「量子NP難題」,首篇論文引爆學界!人類2周壓縮至30分鐘
【新智元導讀】GPT-5正改寫科學發現的規則!一篇重磅論文揭秘,「量子版NP難題」竟被GPT-5在30分鐘之內攻克了,然而這要耗費人類1-2周的時間。照這種速度發展下去,AI離完成「諾獎級」突破真的不遠了。幾天前,GPT-5成功通過「哥德爾測試」,破解了數學三大猜想。意想不到的是,這一次,GPT-5又「攻陷」了量子領域的難題。量子計算專家Scott Aaronson首次發表論文,證明其中一個老難題竟被GPT-5助攻破解了。論文中,Scott一直在死磕量子計算中的一個核心問題——QMA複雜度類別,堪稱「量子版的NP問題」。其中,關鍵在於證明過程中的誤差機率,能否被無限降低,特別是,能否實現完美完備性。論文地址:https://arxiv.org/pdf/2509.21131之前學界研究中已經把誤差壓到很低,但最新研究卻發現:「雙指數級誤差」是現有方法的理論極限,無法進一步突破。在關鍵推導環節受阻後,作者開始向GPT-5尋求幫助。一開始,AI給出了錯誤的思路。但在大約30分鐘互動後,它最終提出一個精妙的數學函數,精確分析出特徵值行為。研究證明,這一構想成為了論文中最關鍵的突破。在最新博文中,Scott驚嘆地表示,「這思路要是那個學生想出來的,我絕對會誇一句——真是絕了」!這個難題預估需要1-2周人力才能完成OpenAI科學家Sebastien、產品負責人Kevin再次激動轉發,並稱「一場重大變革開始了」。量子版NP難題:QMA奇點這篇於25日提交至arXiv的論文,主要研究了量子複雜性類「QMA中黑盒放大的侷限性」。那麼,QMA是什麼?QMA,即量子梅林-亞瑟(Quantum Merlin Arthur),可以看作是NP的典型量子版本。它包含了一類決策問題:如果答案是「是」,Merlin可以傳送給Arthur一個量子見證態,能讓Arthur(在經過多項式時間的量子計算後)以至少2/3的機率接受;而如果答案是「否」,無論Merlin傳送什麼見證態,Arthur接受的機率都至多為1/3。在這裡,如同複雜性理論中常見的那樣,常數2/3和1/3隻是慣例,可以通過放大取代為,比如1-2⁻ⁿ和2⁻ⁿ。在這個領域,一個長期懸而未決的問題是——QMA是否等於QMA₁,其中QMA₁是QMA的一個子類,允許協議具有「完美完備性」?2008年,Scott Aaronson通過實用分析方法,證明了存在一個「量子預言機」,使得QMA≠QMA₁。這意味著,任何證明QMA=QMA₁的嘗試,都需要「量子非相對化技術」。這倒並不是說這個障礙難以踰越,但至少說明了問題的複雜性。突破:雙指數放大侷限直到今年6月,Freek Witteveen和Stacey Jeffery發表了一篇重磅論文,證明了QMA協議可通過黑盒方式放大,讓完備性誤差達到了「雙指數級小」,即 1/exp(exp(n))。論文地址:https://arxiv.org/pdf/2506.15551他們採用了一種Scott從未想過的方法:將接受機率編碼到一個量子態的振幅中,而這些振幅以幾何級數遞減。事實證明,QMA這位相識25年的「老朋友」,依然能帶來驚喜。在8月的線上會議,Scott問道:這個雙指數的完備性,是黑盒技術的極限嗎?能否進一步放大到三指數級小,即1/exp(exp(exp(n)))。30分鐘攻克,GPT-5上大分一周後,Scott聯手Freek寫出了完整證明,表明在黑盒技術下,雙指數級小的完備性誤差已是極限。換句話說,他們將2008年的「QMA≠QMA₁」預言機分離結果量化,得到的「下界」(lower bound)恰好與6月論文的協議相匹配。這項研究最引人注目的部分,或許並不是量子複雜性本身,而是AI在其中的角色。如前所述,這是Scott Aaronson第一篇論文,其主要成果證明中的一個關鍵技術步驟來自AI。具體來說,是GPT5-Thinking。當時,作者面臨的一個問題是:分析一個N×N的厄米矩陣E(θ)(比如,N=2ⁿ),其每個元素都是一個關於實參數θ的poly(n)次三角多項式。需要證明的是,當θ從0變化到1時E(θ)的最大特徵值,以證明λₘₐₓ(E(θ))不可能從一個接近0的值開始,然後長時間「停留」在接近1的狀態,例如接近 1/exp(exp(exp(n)))。針對這一問題,如有1-2周的時間,Scott和合著者查閱文獻也可以解決。但他選擇了GPT5-Thinking,5分鐘後,它給出了一個自信但明顯錯誤的答案。Scott並沒有嘲笑AI,而是告訴它錯在那裡。GPT5-Thinking在思考片刻後,再次嘗試給出了一個更好的方案。就這樣,經過了幾次反覆迭代,如同研究生/同事交流一樣,GPT-5給出了以下函數:它正確指出,這是一個關於θ的次數可控的有理函數,並且恰好編碼了最大特徵值 λₘₐₓ(E(θ))與1的接近程度的相關資訊。令人欣喜的是,這個方法奏效了,不用AI協助就能輕鬆完成驗證。Scott認為,或許GPT5在訓練資料中,某個地方見過類似結構,但若是學生提出的方案,他會毫不猶豫地稱其為「巧妙」。最後,他回憶道,一年前,自己曾用當時的GPT推理模型嘗試類似問題,結果遠不如人意。現在,是2025年9月,我可以明確告訴你——AI已經開始真正觸及那些我認為最具人類智慧特徵的核心工作:證明量子複雜性類之間的預言機分離。雖然它現在還做不到獨立撰寫整篇研究論文,但如果你清楚自己在做什麼,它能幫你擺脫困境,這可以說是一個絕佳的應用場景。誰知道,這種情況會持續多久?Scott Aaronson調侃道,「想到這兒,不禁慶幸自己還有個鐵飯碗——終身教職」。 (新智元)
剛剛,GPT-5首次通過「哥德爾測試」!破解三大數學猜想
【新智元導讀】GPT-5首次通過「哥德爾測試」,連破三大組合最佳化猜想!甚至,它能自主推翻原有猜想,給出全新有效解法,當場驚呆OpenAI研究科學家。AI迎來歷史性一刻!GPT-5成功破解三大猜想,通過了「哥德爾測試」。OpenAI科學家Sebastien Bubeck驚嘆地表示,這類開放性問題,頂尖博士生往往耗費數日才能解決。不同以往,這項由海法大學和思科主導的研究,首次讓AI直面「開放性數學猜想」的挑戰。論文中,團隊設計了五項「組合最佳化」領域的測試任務,每項任務提供1-2篇文獻作為瞭解。在三個相對簡單的問題上,GPT-5給出了近乎完美的解法,證明了其強大的邏輯推理水平。令人驚喜的是,在猜想二中,它不僅成功求解,還推匯出與研究人員預期不同的有效解法,顛覆了原有猜想。這一突破,標誌著頂尖AI正從「學習數學」邁向「真正做數學」的關鍵跨越。不難看出,AI正為數學發現做出實質性貢獻,提前預演了2030年代科研範式的深遠變革。AI單挑「哥德爾測試」遠超陶哲軒想像此前,陶哲軒曾分享了自己與OpenAI o1合作經驗,生動地將其比作「指導一名平庸,但並非完全無能的研究生」。在他看來,LLM雖能在大量提示後,逐步得出解決方案,但無法獨立生成關鍵概念性想法。不過,經過一兩次迭代,結合工具,AI就能達到「合格研究生」的水平。OpenAI和Google均宣稱,自家前沿LLM無需外部工具,即可拿下IMO金牌。但這個具有挑戰性的問題,畢竟是為高中生設計的。在最新論文中,研究焦點不同:讓AI處理更高級的數學猜想,即「哥德爾測試」。這些猜想要求的不只是解題能力,還需要整合背景知識和創新思維。為此,研究人員從「組合數學」的子領域——子模最大化中挑選問題。這類問題具體、有明確動機,且控制在能展示數學推理範圍內。與陶哲軒實驗不同,團隊沒有提供大量提示或指導。論文中,他們精心設計了五大猜想。只給每個問題一個最小化描述,外加上1-2篇參考文獻。難度設定為:優秀本科生、研究生,有望在一天內解決所有問題,同時確保大部分問題,存在明確猜想及已知解決路徑。GPT-5的任務是,基於有限輸入,生成完整證明。這模擬了真實研究場景:數學家往往從少量線索出發,獨立探索。在測試中,GPT-5表現既有亮點,也有短板,一起看看具體的解題能力。GPT-5破解三大猜想猜想一:「單調+非單調」的子模函數在凸多面體上取最大這個要求好像是,讓「兩個互相掣肘的收益」加在一起最大化:一部分收益G會越加東西越大(單調),另一部分 H 可能先漲後跌(非單調),而選擇必須落在一個「不能超過上限」的凸集合裡。GPT-5做法是套用連續Frank-Wolfe思路,從零開始,每一步朝著「此刻最能漲分」的方向挪一小步,並使用「遮罩」保證不越界。它把參考論文裡「凹函數」的位置換成 H,推了個遞推式,最後得到一個拆分保證——至少拿到約63%的G(o),再加上37%的H(o)(若H也單調則也是63%),外加一個隨步長參數ε線性衰減的小誤差。猜想二:p-system約束下的「雙指標」演算法這題允許「價值幾乎最優(1−ε)」,但在可行性上稍微超一點(放寬倍數g(ε)),目標是在越廣泛的p-system約束下把g(ε)壓到儘量小。GPT-5提了個樸素而有效的流程,每一輪都在當前解的基礎上,再做一次「在約束裡儘可能有價值」的貪心選集(greedy),最後把若干輪的結果並起來。證明關鍵是:每一輪都能把「距離最優」的差距按p/(p+1)的比例縮小,多滾幾輪差距就指數式消退,於是只要做 ℓ≈ln(1/ε)/ln((p+1)/p)輪,就能把價值推到1−ε。這也意味著,放寬倍數 g_p(ε)=⌈ln(1/ε)/ln((p+1)/p)⌉。部分解題過程如下:令人意想不到的是,猜想二中,GPT-5甚至推匯出不同的近似保證,經核查後推翻原有猜想,並提供了有效解。猜想三:γ-弱DR子模+凸約束的最大化這個猜想把「邊際收益遞減」的連續版放寬為一個強度參數 γ(γ=1即標準情形;γ越小,遞減越弱)。GPT-5還是用Frank-Wolfe:步步解一個「沿梯度的線性子問題」,用小步長前進,並靠平滑性控制離散化誤差。核心一步是把經典證明中的關鍵不等式按γ縮放,於是把著名的1−1/e近似比提升為更一般的1−e^{−γ},再加上一個可調的L/(2K)等級誤差項(K為迭代輪數)。在研究人員看來,結論與推理主體靠譜。只是GPT-5多假設了「向下封閉」這種其實用不上的條件、以及對「步長總和=1」的細節有點不一致。可以看出,如果題目有明確的、單一的推理路徑,GPT-5表現不錯——五道題裡有三道能給出幾乎正確的證明。一旦需要把不同證明結合起來,比如4和5,GPT-5就搞不定了。猜想五中,GPT-5倒是識別出了和作者設想一樣的演算法,但分析得不對。他們後來復盤發現,這個證明其實有可能做出來,只是難度比預想的高。比起早期模型,GPT-5在組合最佳化這種專業領域裡,數學能力明顯進步,偶爾還會冒出一點小創新。這恰恰說明了,它現在還缺乏「整合性推理」能力,這是個主要短板。作者介紹Moran FeldmanMoran Feldman是海法大學電腦科學系的教授。在此之前,他曾擔任以色列開放大學的教職,並在洛桑聯邦理工學院(EPFL)擔任博士後研究員,師從Ola Svensson教授。Amin KarbasiAmin Karbasi思科基金會AI負責人,曾任Robust Intelligence首席科學家,耶魯大學教授,Google工程師。 (新智元)
雷軍心力交瘁,小米汽車又攤上事了
雷軍心力交瘁,小米汽車又攤上事了買車買到"測試車"?小米高管緊急回應自從小米YU7發售之後,小米汽車遭受的輿論風波是一波接著一波,彷彿陷進泥潭一般,好幾次都沒能徹底爬出來。今年6月26日,小米YU7正式上市,憑藉其獨特的設計和小米品牌的影響力,吸引了眾多消費者的關注。而就在近期,有小米YU7車主反饋,自己剛提新車不久卻偶然發現擋風玻璃上面存在“測試車”的字樣。圖源:騰訊新聞無獨有偶,在事件爆出後不久,又有另一位車主在一次夜晚行駛中,因為被對面車道的車輛遠光燈照了一下,意外發現前擋風玻璃右上角上印有“測試車”三個字。該車主表示,此前他一直沒察覺到這個標誌,這讓他對自己提的車是否為新車產生了懷疑。隨後,車主立馬與小米的售後工作人員進行溝通,得到的解釋是工廠會對下線車輛進行隨機抽選,進行靜態的評審,保證質量一致性。被選中的被評審車輛會貼上“測試車”的靜電貼,便於評審組識別,而他看到的玻璃上的字跡,是靜電貼薄膜留下的印記,用濕毛巾即可擦乾淨。圖源:讀特對於小米售後的解釋,車主第一時間並沒有接受,並繼續表達了對自己愛車被拿去做動態路測的懷疑。工作人員再次回覆,稱“評審僅為在下線停車場進行的靜態評審,不涉及路測。”並且車子的初始里程也可以證明這一點。隨著事件在網上迅速發酵,小米汽車副總裁李肖爽和公關部總經理王化先後在微博上對此公開回應。兩位高管與售後人員的說法幾乎一致,即為確保產品質量,會隨機抽選工廠下線車輛做靜態評審,並貼上靜電貼便於檢驗員標識,評審通過後再去掉靜電貼走下線流程。他們再次強調,該現像是靜電貼隱性留痕,通過濕毛巾可有效清除。對於給車主帶來的困惑,他們深表歉意,並已對靜電貼做改良處理,後續抽檢車輛不會再有同類情況發生。圖源:微博對於這個回應,很多網友並不買帳。有網友在知乎提問:“如果只是靜態評審,為何不用'評審車'或'待檢車'標籤?'測試車'三個字難免讓人聯想到工程樣車。”某汽車博主更是直言,雖然這只是靜態評審,但“測試車”三個字還是會讓車主心裡膈應。博主建議除了後續最佳化處理之外,對於現在已經買到手,車上出現“測試車”靜電字樣的車主,還是要給予一定的補償。圖源:微博不過,據瞭解,有一位之前在網上維權的車主最終獲得了小米售後提供的價值人民幣1000元的10000積分補償,為此次事件暫時畫上了一個句號。小米汽車交付問題頻發正如開頭所說,"測試車" 事件只是近期小米汽車交付風波的冰山一角。早在上個月初,就有多位准車主在社交平台吐槽"還沒交車就被催交全款"。根據小米汽車的購車協議,使用者需在收到尾款通知後7 天內支付全款,否則面臨訂單取消、定金不退的風險。有車主曬出的聊天記錄顯示,車輛尚未下線,銷售就頻繁催促付款,"連車架號都沒看到,就要我打 30 多萬,這誰敢輕易轉帳?"圖源:小紅書一波未平一波又起,8月底,網友"智齒這個小妖精"的控訴將交付問題推向新的輿論高潮。該網友稱,8月21日,他接到通知要求當天完成支付28萬多元的尾款以提取車輛,他按照要求支付了尾款。然而,8月22日晚,他卻接到電話通知,原本定給他的車被其他客戶提走了,需要繼續等待。隨後他多次與南京地區負責人溝通,要求盡快提車,但截至8月25日,仍未收到任何回覆。原帖中,車主還表達了對小米汽車處理方式的極度失望與無奈,甚至還明確表示自己準備找個律師,希望大家在評論區給他推薦一下。圖源:微博這一事件,被網友戲稱為小米“一車兩賣”。業內人士分析,這類"一車兩賣"現象可能與小米內部交付流程設計缺陷有關。網友開始議論為何會出現這種情況,是訂單管理混亂,還是車輛調配出了問題?有知乎網友扒出企查查上關於小米汽車買賣合同糾紛的眾多案件,引發評論區一大群網友開始討論是不是“誰先起訴誰先提車”。以上種種,小米汽車並未就此做出回應。圖源:知乎細節決定成敗,小米汽車面臨大考整體來看,確實在小米YU7發售之後,有關小米汽車的節奏是一波接著一波,負面消息不斷。有網友猜測這會不會是友商搞“惡性競爭”的操作,畢竟在目前小米汽車交付周期過長的情況下,搞臭了小米的名聲就能自然的接手小米的訂單。早前,有媒體爆出蔚來、極氪等品牌經銷商曾一度推出"轉購補償"政策,用於報銷小米YU7的5000元鎖單定金,以此來打消顧客重新下單的後顧之憂。從目前的輿論來看,小米YU7的關注度依舊很高,這台車也確實有其獨特的亮點。小米YU7作為小米汽車旗下首款SUV車型,其外觀設計時尚,線條流暢,具有較高的辨識度。在配置方面,全系標配800V碳化矽高壓超充,續航里程也達到了行業領先水平,標準版續航835公里,零下十度高速行駛600公里後電池余量18%,續航達成率81%,位列純電SUV第一梯隊。此外,小米YU7車內的生態設計也讓人眼前一亮,全車16處磁吸點和標準螺紋介面、五音區語音互動、外語音識別等細節設計,都體現了小米對使用者需求的深刻理解。圖源:小紅書9月1日,小米汽車公佈2025年8月整車銷量資料,其單月交付量持續穩固在30000台以上,成功實現連續兩個月破3萬的成績。這一資料表明,儘管面臨諸多問題,但消費者對小米汽車的需求依然旺盛。據供應鏈內部人士透露,小米汽車對2025年全年交付量目標滿懷信心,預計將攀升至42萬輛。與年初小米董事長雷軍設定的35萬輛目標相比,這一數字大幅提高了20%。不過,產能瓶頸仍是最大隱患。目前YU7標準版交付周期仍長達57周,部分准車主擔心"等到提車時,購置稅優惠政策可能已調整"。據悉,小米汽車在北京亦莊的一期工廠預計將承擔34萬輛的產能重擔,二期工廠的建設也在快速推進,預計今年下半年即可投產,新增8萬輛年產能,將進一步釋放市場潛力。總之,小米汽車目前正處於一個關鍵的發展階段,雖然取得了一定的成績,但也面臨著諸多挑戰。希望小米汽車能夠正視問題,積極改進,為消費者提供更加優質的產品和服務,同時也為中國新能源汽車事業的發展做出更大的貢獻。同時,小米汽車也需要不斷創新和提升產品競爭力,以應對日益激烈的市場競爭。隨著新能源汽車技術的不斷發展和消費者需求的不斷變化,小米汽車需要持續投入研發,推出更多符合市場需求的產品,提升使用者體驗,才能在未來的市場競爭中立於不敗之地。 (網際網路頭條)
特斯拉贏了,但不是真相的全部
懂車帝周三中午開始陸續推送的“36車智駕大測試”,在整整兩天之後被馬斯克本人看到。後者極盡克制但還是透露些許自豪感地寫到:「由於法律禁止資料出境,特斯拉在沒有本地訓練資料的情況下,在中國取得了最高成績。」再次引爆了前兩天一度稍微平息的「中國車企的智駕,怎麼做得還不如特斯拉?」話題。圍繞著這場測試,各種討論和陰謀論四起,甚至有很多人當起了偵探,開始一幀一幀分析測試視頻。但在虎嗅汽車看來,專注於細節上的「找茬」反而錯過此番大測試背後的全貌與真相。懂車帝測了啥?公允麼?簡單總結測試場景如下:消失的前車真高速版、高速臨時施工、施工路遇卡車、高速驚現事故車、高速入口遇野蠻加塞、莽撞橫穿的豬。圖自:AI科學小棧(下同)上圖為紅外夜成像圖,下圖為空拍俯檢視這些場景,都是屬於智駕能力中的corner case(邊緣案例,不是使用者最常見的使用場景),但在現實中又有不少人遇到過的(高速入口強行低速加塞那個我本人都遇到過不止一次,消失的前車也遇到過容易一些的版本)。很多人吐槽懂車帝在測試中的「控制變數」不夠好,在筆者看來,大機率不是懂車帝故意為之。實在是因為車輛測試要做到完全精準與標準,是一個耗資巨大的活。下圖是耗資5億的某碰撞測試場地:國內某車廠自建的碰撞測試場地,總耗資5億以「控制變數」標準化做到極致的車輛碰撞實驗為例,為了確保測試的公允性,車輛其實本身並不具備動力,而是由場地中的測試軌道負責提供動力,從根本上保證測試車輛的速度和碰撞角度精準。但代入到智駕測試場景,尤其是目前已經放出的高速場景,懂車帝測試過程中的許多動作只能靠人完成,因為市面上暫時不存在對應的測試裝置。更不提智駕車輛本身的行駛,處於接管狀態,如何既部分控制智駕車輛的運動過程(例如速度和初始路徑等等),又要反過來評估他智駕的表現(油門剎車的選擇,路徑的選擇),目前看起來還是個頗為薛定諤的事情。加上測試裝置目前沒辦法實現極高的加速度(本質就是車輛拖動的靶子),所以即便觸發條件一致(大機率是測試車輛走到特定點就釋放靶車),在實際情況中也無法做到場景的完全複製,更做不到對所有測試產品100%的公允。總的來看,懂車帝能夠將測試做到這個水平,實屬不易。即便不夠完美,但這場測試足以證明──對於高速NOA這個被認為不是最難的場景,中國車企的智駕水準的確發生了一定程度的倒退。為什麼特斯拉會在測試中表現更好?謎底其實就藏在謎面上,正如馬斯克自己所說,特斯拉的智駕能力目前並沒有用本地資料訓練。實際上特斯拉FSD的能力,是用美國的智駕思維和智駕資料打造的。那麼中美道路情況到底有多大的差距呢?借用前華為智駕負責人蘇菁地平線副總裁兼首席架構師的話來說:“中國道路基建的隨意性比美國大太多;中國的外賣騎手和電動車工具開車的行為在美國也是沒有的,會導致大量需要處理的博弈問題。”蘇菁所指的這個“基建隨意性”,主要指涉的是普通道路的情況,而非中國建設較為標準化的高速。對車企而言,要適應國內普通道路的情況,就要在智駕系統中建構完全不同的架構和底層,在現實資料方面也完全不同,最後又繼續根據現實情況不斷調優。具像一點說,這就是兩種水土下孕育出的兩種「大腦」(大模型本質就是一個局部的大腦)。也可以說,一方水土養一方會智駕。而最近幾年,中國的「大腦」聚精會神在做什麼?搞各種NOA,尤其是博弈需求最重的城市NOA,充滿了各種各樣不按規則行駛的汽車,有膽子一個比一個大的行人和電動車。這些再多規則都無法解決的場景(因為變數實在太多),到了大模型時代終於有瞭解決的辦法。中國車企在大模型結構上加入了對不同交通參與者的關注,考慮到了許多美國不會發生的意外場景,再加上中國老司機的數據持續輸入,最終讓現如今的國產智駕大模型已經有了非常強的「博弈」能力。什麼叫」博弈「能力?簡單解釋起來就是,有了充足的「博弈」能力之後,車輛在遇到突發情況下,會更偏向於以老司機的思維來解決,不至於一點挑戰就急剎退縮。你也可以理解為“不慫”,其中一個最直觀的結果在本次測試中,體現為前方有故障車,智駕“比起簡單的剎車,更偏向於復雜的繞道”。這種在日常使用中甚至會被使用者稱讚的高級能力水平,到了此次懂車帝相對極限的測試場景中,最終暴露了「不慫」風格下的短板。也是為了完成更冒風險、更高難度的駕駛,智駕系統必然需要對路線進行更多的思考和決策,體現為此次測試中許多智駕系統的“猶豫不決”,也一定程度上侵佔了減速所需的時間。可以簡單粗暴地理解為:智力能力沒有符合其風格與野心。很諷刺是不是,用來在城區保證通行效率的演算法結構,反過來又在高速上降低了安全係數。相較之下,雖然特斯拉目前在國內已經架設了服務器,用本土的數據對FSD進行訓練調優,但是其核心的智駕大模型架構仍基於美國本土相對簡單的版本,也就是沒有了“強博弈”的負擔,對於高速這種“反應時間”比“優選路線”更優先的場景中,反而輸出了更優的表現。如果你看到這裡還不理解,我再做一個形象的比喻:這就好比兩個人,第一個你讓他連玩十次腦筋急轉彎,第二個只做十次簡單的算術題。當第十一次給兩個人極為簡單的算術題,第一個人反倒不會直接給出那個最直白的答案,反而要絞盡腦汁想想這道題「腦筋急轉彎」在那裡。結果只可能是第二個人的反應速度遙遙領先。為什麼懂車帝只做這種對中國智駕不利的場景?難不成真的收了特斯拉的錢?非也非也,其實本次懂車帝整個智駕測試總計15個場景。除了上面已經提到的6個高速場景,還有9個城市場景。它們的名字分別是:開進大轉盤、轉盤內匯出、過馬路四小學生、故障車躲不躲、平庸的掉頭、斜刺電池和兒童過馬路、倒車難題、瘋狂電池、盲區藏輛左轉車。光是念其中幾個名字,就已經讓我這個老司機都「膽寒」。城區車型較少是因為部分車輛為未開通城區功能就在昨天下午,懂車帝已經放出了這些城區場景下的測試成績,雖然特斯拉Model X的表現依舊很不錯,但是國產智駕的表現已經有了大幅的提升,有多款車能夠做到在9個測試中只未通過2~4個項目。誰才是這次測試的真正“推手”明明也有國產智駕系統擅長的場景,為什麼不一起發出來?這麼多國產品牌智駕表現都這麼糟糕,為什麼懂車帝還要發出來?難道不會影響他們自己的商業利益麼?這幾個問題有共同的答案:這次智駕大測試真正的推手壓根不是懂車帝,而是官方。先不說懂車帝視頻發佈之初,特別強調了央視視頻的背書(央視視頻後來刪除了部分推廣,大機率是車企申訴“打壓創新”的結果),在懂車帝第一次發布視頻的同一天,還有兩個官方機構發布了智駕相關的內容,一個是公安部,一個是科技部。其中公安部交管局局長王強強調了兩點:要加強車企管理。積極配合工業和資訊化部等行業主管部門,督促車企落實主體責任,充分開展組合駕駛輔助測試驗證,明確係統功能的邊界和安全響應措施,嚴格遵守《中華人民共和國廣告法》,杜絕進行誇大和虛假宣傳;督促車企嚴格履行告知義務,強化新使用者培訓,幫助新使用者熟悉掌握汽車輔助駕駛功能的使用方法和行為,嚴格履行告知義務,強化新使用者培訓,幫助新使用者熟悉掌握汽車輔助駕駛功能的使用方法和行為,嚴格履行告知義務,強化新使用者培訓,幫助新使用者熟悉使用汽車輔助駕駛功能的使用方法和行為,嚴格履行告知義務,強化新使用者培訓,幫助新使用者熟悉掌握汽車輔助駕駛功能的使用方法和行為,嚴格履行告知義務,強化新使用者培訓,幫助新使用者熟悉使用汽車輔助駕駛功能的使用方法和行為,嚴格履行告知義務,強化新使用者培訓,幫助新使用者熟悉使用汽車輔助駕駛功能的使用方法和行為,嚴格履行告知義務,強化新使用者培訓,幫助新使用者熟悉掌握汽車輔助駕駛功能的使用方法和行為,嚴格履行告知義務,強化新使用者培訓,幫助新使用者熟悉掌握汽車輔助駕駛功能的使用方法和行為,嚴格履行告知義務,強化新使用者培訓,幫助新使用者熟悉掌握汽車輔助駕駛功能的使用方法和行為,嚴格履行告知義務,加強駕駛人始終是行車安全的第一責任人。我們希望透過採取多種形式的宣傳提示,使廣大駕駛人清楚認識到現階段輔助駕駛不等於自動駕駛,在購車和使用的時候,都應該全面理解、掌握輔助駕駛系統的功能特性以及啟動和關閉的方法。在使用的過程中,應該清楚認知輔助駕駛的技術邊界,一旦我們“脫手脫眼”,可能面臨嚴重交通安全隱患和法律風險。而科技部發布的則是一份《駕駛自動化技術研發倫理指引》,目的在於“指導駕駛自動化技術研究開發和應用的規範開展,防範駕駛自動化技術研究開發與應用過程中的科技倫理風險,推動該領域健康發展,確保駕駛自動化技術研發和推廣符合社會公眾利益。”值得一提的是,這次懂車帝測試所使用的道路,全部為日常使用的真實道路。海南儋州的許多測試場地為此最多封路了10天,其中包括G98環島高速這樣的大動脈,部分城區道路也導致了公車線路改道。三個完全不同責任分屬的官方,就智駕在同一天發聲,傻子都知道不是巧合事件。在虎嗅汽車看來,這就是頂層在此前「叫停」智駕宣傳之後,在研究了汽車行業的現狀、汽車消費者現狀所製訂的一次大規劃——既然澄清智駕能力不符合汽車從業者的利益,對於駕駛者的培訓遲遲無法落實到位,那麼這個工作只能由官方牽頭來做。一方面對車企下達嚴格的倫理要求,明確智駕下的責任歸屬,同時用一場測試集中破除消費者心目中因為車企宣傳、自我想像、有限的親身和非親身體驗所形成的對智駕的「盲目信任」。這本質上壓根不是什麼行業測評,而是國家級的安全警示教育活動。這樣的活動有了第一次,就會有第二第三次,顯然持續保證“智駕推廣的風險可控”,已經成為了官方新核心邏輯。但究竟能夠對車企宣傳側形成怎樣合理的約束,能否讓使用者充分意識到技術的不成熟性,同時還不影響中國智駕技術和產業的發展,官方在眾多細節上的平衡,仍需要通過時間的檢驗。 (虎嗅APP)
馬斯克轉發“特斯拉在中國測試第一”,懂車帝測試引熱議!
特斯拉CEO馬斯克的一個轉發,讓懂車帝的輔助駕駛測試「火」了。多家車企回應懂車帝的輔助駕駛科普影片。近日,央視新聞報導,隨著新能源、汽車發展,輔助駕駛成為大眾關心的話題,與此同時,一些因為輔助駕駛產生的事故也引發關注。近日,汽車資訊平台懂車帝發起了一場輔助駕駛真實事故場景模擬科普實驗,事故場景模擬選擇在真實高速公路與城市道路上進行,總共15個科目,使用國內外20多個品牌,近40款車型設定了車輛假人的模型,並模擬出真實車流。上述科普實驗影片顯示,高速夜間遇施工+卡車場景,僅47%的測試車輛能安全避讓;兒童突然衝出過馬路場景,58%的測試車輛能有效剎停。專家強調L2級輔助駕駛非自動駕駛,駕駛人需全程監管、隨時接管,仍為安全責任主體。據澎湃新聞報導,這次參與測試的具體車型包括特斯拉Model 3和Model X、小鵬G6、問界M9、智界R7、阿維塔12、理想L6、騰勢Z9GT EV、魏牌藍山、小米SU7、蔚來ES6、零跑C10、極度護達10、雙極氪2000190000000001秦迪車。圖片來源:每經記者李星攝7月24日晚間,懂車帝相關負責人發佈的資料顯示,此次測試的近40款車,在城區道路、高速公路中的15個場景測試中,平均通過率只有35.74%。從參與車型和測試科目來看,這是目前比較少見的國內大規模輔助駕駛測試,但多個品牌的測試結果並不理想。這一結果也因與部分車企的宣傳以及消費者對國產智駕車型的期待存在較大差距,引發爭議。有網友質疑其測試方法和流程不夠嚴謹,認為場景設計和變數控制有漏洞。 「懂車帝的測試和車企測試標準不太一樣。」某新能源車企相關工作人員向《每日經濟新聞》記者表示。根據網上流傳的兩張表格,測試結果最好的是特斯拉,在36款車「高速事故場景模擬」綜合表現中,15款車為「0通過」。7月25日,特斯拉CEO馬斯克轉發了懂車帝《懂車智煉場》輔助駕駛科普節目的高速公路場景的測試視訊,並配文稱: “由於法律禁止資料出境,特斯拉在沒有本地訓練資料的情況下,在中國取得了最高成績。”當日,特斯拉副總裁陶琳發文稱:“這次測試的結果我們和大家一樣都是從媒體上看到的,我們不關注排名,因為任何測試、排名都是相對的、短暫的,但對安全的要求卻沒有上限。同時,也希望大家看到,這次測試的本意並不是排名,而是提醒大家專注路況,安全第一。”7月25日,鴻蒙智行、智界汽車、AITO汽車分別在官方微博發文稱:已看到某平台所謂“測試”,不予置評。微博認證為廣汽豐田銷售副總的@廣汽豐田彭寶林回應:近期懂車帝發佈多款輔助駕駛車型測試,鉑智3X在城區場景中表現優異,9個場景完成7個,通過率達78%。在所有車型中並列第二,也是達成該成績車型中唯一一款14萬級純電車型。 “在此也呼籲安全優先、生命至上,再好的智駕都是輔助駕駛。”嵐圖汽車邵明峰發文表示:懂車帝封閉高速測試如同一面鏡子,映照出行業在極端場景下仍存技術共性瓶頸:高速避險、感知系統對非標障礙物識別等能力需進一步提高。「這折射出兩點思考,一方面,隨著行業從硬體軍備競賽轉向軟體,'技術可靠性'亟需各家廠商重點解決;另一方面,無論輔助駕駛多先進,使用者真正需要的都是一輛'撞了也能保命'的安全車。我想說,中國汽車的技術飛躍,需要行業共建,更需要'國標護航'。邵明峰有兩點倡議,一是要將「失效兜底能力」 納入行業強制標準,如碰撞自動解鎖、夜間施工區誤判率等;二是要以「最差場景通過率」取代行銷話術,倒逼企業築牢安全底線。嵐圖願意踐行國家隊責任,開放全系車型用於各行業機構實測驗證。需要指出的是,嵐圖並未參與此測試。7月25日,懂車帝相關工作人員在接受《每日經濟新聞》記者採訪時表示,懂車帝此次推出的是一檔輔助駕駛科普節目,僅代表事故模擬當時該車輛的碰撞結果,不代表其在所有輔助駕駛場景下的表現,本節目旨在提醒公眾正確認識輔助駕駛的相關功能和安全邊界,增強安全意識,未做過任何官方意識,未做過任何官方排名。「當前的輔助駕駛功能無法勝任某些危險複雜的交通場景,使用者使用輔助駕駛功能時,應隨時準備接管車輛。」懂車帝相關負責人強調。中南大學發佈的《智慧網聯汽車輔助駕駛安全場景研究報告》也指出,目前的組合駕駛輔助系統無法勝任某些危險複雜交通場景,系統在某些特殊情況下可能無法及時做出正確的決策,需要駕駛員隨時準備接管車輛。同濟大學汽車學院教授、汽車安全技術研究所所長朱西產在接受《每日經濟新聞》記者採訪時則強調,目前,市面上的智駕車型所搭載的都不是自動駕駛系統,而是L2級的“組合駕駛輔助系統”,消費者必須引起高度重視。北京航空航太大學教授、中國智慧交通協會交通安全專業技術委員會秘書長魯光泉表示,目前市面上沒有經過認證的L3級智慧駕駛產品,L2級要求駕駛人必須全程不離眼不離手接管,要正確認識輔助駕駛的相關功能,關注自身駕駛安全。事實上,過去兩年,部分車企將L2級輔助駕駛包裝成“自動駕駛”,存在誇大和過度行銷行為,這一情況也引發了監管部門的重視。科技部最新發表的《駕駛自動化技術研發倫理指引》指出,「在發佈重大研究成果時,相關主體應堅持客觀精準、實事求是,避免片面誇大、隱密風險,不得編造、傳播與駕駛自動化系統實際功能和效果不相符的虛假資訊」。今年4月,工業及資訊化部裝備工業一司組織召開的智慧網聯汽車產品准入及軟體線上升級管理工作推進會也強調,汽車生產企業要充分開展組合駕駛輔助測試驗證,明確係統功能邊界和安全響應措施,不得進行誇大和虛假宣傳。在監管部門的引導下,車企紛紛調整宣傳話術。如,上汽通用五菱已將靈眸智駕系統的功能定位調整為「輔助駕駛」;比亞迪也把「天神之眼」智駕系統更名為「駕駛輔助系統」;華為干昆在發佈高速L3商用解決方案時,華為車BU CEO靳玉志對智駕的宣傳術也是「智慧輔助駕駛」時,華為車BU CEO靳玉志對智駕的宣傳術也是「智慧輔助駕駛」;今年3月,特斯拉中國官網也調整了輔助駕駛系統的命名,將“Autopilot 自動輔助駕駛套件”更名為“輔助駕駛套件”,其中的“FSD智慧輔助駕駛”調整為“智慧輔助駕駛”。7月23日,在國新辦「高品質完成'十四五'規劃」系列主題新聞發佈會上,公安部交通管理局局長王強表示,目前中國市場上銷售的汽車搭載的「智駕」系統都不具備「自動駕駛」功能。這些「智駕」系統都還暫時停留在輔助駕駛階段,也就是說是由系統輔助駕駛人來去執行一些動態駕駛的任務,車輛還是需要人來操控,駕駛人才是最終的責任主體。「如果駕駛人在駕駛車輛的時候『脫手脫眼』,也就是我們說的雙手脫把,兩眼不是觀察前方,而是低頭看手機,甚至是睡覺打盹,不僅存在嚴重的交通安全風險,一旦出事,還可能面臨著民事賠償、行政處罰和刑事追責三重法律風險。」王強說。(每日經濟新聞)