DeepMind首席科學家訪談|真正的AGI需要推理、智能體與記憶系統的協同突破


4月6日,Google DeepMind 的首席科學家Jack Rae接受海外播客Cognitive Revolution訪談。

Jack Rae同時也是Gemini 2.5 Pro 的關鍵貢獻者之一,本次對話深入探討該模型背後的研發歷程,為何前沿開發者相繼發布相似的具備推理能力模型,是路徑清晰還是思想碰撞?推理能力與AI Agent 能力的關係如何? Google 如何收集人類推理資料,以及在多大程度上引導模型遵循特定認知模式? AGI藍圖以及實現AGI的關鍵等話題。

以下是本次對話實錄經數字開物團隊編譯整理

01 推理能力的提升並非突變而是長期累積跨越能力閾值的結果

主持人提問:為何基於正確性訊號的簡單強化學習方法,現在才開始發揮作用?為何這種方法未能更早成功?現在,這種方法似乎隨處可見且效果顯著,是真正的突破還是累積的結果?

Jack Rae 實錄:非常感謝邀請函。我們對Gemini 2.5 Pro 這個模型非常滿意,對其發展軌跡感到欣慰。它是整個Gemini 團隊——包括預訓練、'思考'能力、後訓練和許多其他團隊——共同努力和卓越工作的結晶。我們內部評價很高,測試時就很喜歡,當然發佈前也不完全確定外界反響。現在看到使用者覺得它非常有用,能感受到AGI 的潛力,並在實際任務中觀察到顯著性能提升,感覺很棒。這確實是整個Gemini 團隊的傑出成果,我很高興能在此聊聊模型研發,特別是在'思考'能力方面的工作。

關於強化學習用於推理的問題,根據我的觀察,至少在Gemini 大語言模型項目近一年中,我們一直我們一直越來越依賴通過強化學習來提升模型的推理能力。隨著新模型迭代,強化學習在基於精準率的任務中應用日益廣泛和深入,我們從中獲得離散且可驗證的獎勵信號來改進模型推理過程。實際上,在專門啟動'思考'能力研究之前,我們就已在這樣做,並且發布的模型中也包含了這項技術,它持續幫助改善模型推理。所以我個人認為,這項技術是許多優秀的推理研究員和強化學習專家長期努力改進的結果。它最近似乎達到了某個進展的轉折點,從而引起廣泛關注,也許像DeepSeek 技術報告的發布讓許多人感覺像是一個標誌性時刻。但我認為它其實已經有效運作了一段時間,並非某個單一關鍵因素突然使其生效,更像是能力積累跨過了一個閾值,使人們真正注意到其潛力。

主持人提問:外部觀察到的'湧現'進展與內部平穩發展曲線是否有差異?為何幾乎所有頂尖開發者都在短時間內發布了相似的具備推理能力的模型,是條件成熟還是交流的結果?這個方向是否因其潛力巨大且易於獲得初步成果,吸引了大家投入?對於先前在較小模型上嘗試強化學習失敗的情況(如R1論文所述),您如何解釋其合理性?

Jack Rae 實錄:關於進展曲線,我個人是這樣看的。許多這類能力,當我們在內部追蹤時,其發展有時呈現出近乎'驚人'的可預測性,幾乎像摩爾定律式的增長。我逐漸體會到確實存在這種平穩提升的現象。對於改進策略的每項具體措施,無論是針對強化學習或模型本身,事先並不總能確定那項一定有效,因此存在一定的隨機性。但隨著各種改進不斷累積,整體上確實呈現出一種趨勢性提升。而在公眾視野中,通常是當進展跨越某個閾值時,人們才會真正注意到並感到興奮,這極大地激發了想像力。關鍵在於,模型能力提升到足夠高的程度,使得每次發布都讓人感覺像是一次質的飛躍。

關於產業趨同,這其實是普遍現象,甚至在所謂的舊金山科技派對出現之前就一直存在。人們總是在探尋能夠取得進展的方向。我認為,即便是微小的進展信號——例如觀察到一個模型正以特定方式改進,人們也能迅速捕捉到。尤其是當前,我們擁有空前規模的頂尖人才投身於AI 領域,以及前所未有的算力支援我們快速回應。當一種新的範式出現時——例如這次的測試時計算(thinking/reasoning time),並且這個方向展現出巨大的性能和能力探索空間時,這種快速響應的速度達到了前所未有的水平,人才和資源會迅速湧入這個領域。

以Google 內部,特別是Gemini 項目為例,我們大約在去年九、十月組建了推理團隊,聚焦於思考和測試時計算這個問題。大約專注投入一個月左右,我們就取得了一些激動人心的模型層面突破。這促使我們在十二月發布了第一個具備思考能力的實驗模型。回顧那個團隊的進展過程,會發現這是一個非常自然的發展:大家深入探索這個領域,越來越多的人參與思考、進行實驗,然後進展速度非常快。我推測,這在當前頂尖研究團隊中是普遍現象。這就是為什麼能在相當短的時間內,看到一批推理模型相繼問世。這正是當前好奇心、探索精神與人才匯聚的自然結果。大家總有動力去尋找下一個重大突破,並且盡可能快地探索它。

至少在Gemini 內部,情況就是如此。我們也確實看到了許多初步跡象表明該方向可行,並且取得了一些初步成果。同時我們也很幸運,要做好這件事,需要對在大型語言模型上應用強化學習有十足的信心,而這正是Google 非常熟悉且持續投入研究的領域。因此,從這個角度來說,我們進入這個領域探索、並透過「思考」發現一系列很酷的能力突破,進入門檻相對較低。因此這對我們來說是自然的延伸。我無法評論其他實驗室的情況,但我相信整個行業也在發生類似的事情。

關於小模型強化學習失敗,這種說法(R1 論文提到在小模型上失敗)完全成立。我認為,要讓這些技術穩定運行,其難度遠超普遍認知。即使是預訓練,如今看似已解決,但在我大約六年前從事預訓練工作時,訓練千億參數等級或更大規模的模型,有無數環節可能出錯或導致訓練發散,那時如同煉金術。同樣,在這些強大的大型語言模型上訓練強化學習,讓它們進行更深入的推理思考,我能想像到,肯定有許多人屢試屢敗,因為有太多關鍵細節需要精準把握。所以我認為這確實困難重重,需要解決許多潛在問題。當你同時遇到好幾個問題時,調試就變得異常困難,可能你發現並修復了某個問題,卻毫無起色,令人非常沮喪。到某個地步,你甚至可能覺得此路不通。然而,往往需要重複迭代修正,直到各環節協同一致,整個系統才能開始展現威力。我們去年就看到了一些非常酷的初步跡象:僅通過強化學習,模型就開始運用'思考'能力,並且在思考過程中,我們就觀察到了有趣的現象,如自我修正、探索不同思路等。這正是我們期望從強化學習中自然湧現的能力,但在實驗中親眼證實前,我們並不確定其可行性。

02 訓練傾向選擇最簡潔有效的方法並結合利用人類資料與模型湧現能力

主持人提問:您個人如何分配時間在閱讀文獻和動手實踐之間?是否有AI工具幫助您處理資訊洪流?在訓練模型的認知行為時,團隊在多大程度上主動塑造和培養這些行為,又有多少是觀察到它們自然出現的?是否觀察到思維鏈中語言切換或其他「異常」行為,並採取了措施抑制,還是透過設定先驗使其不出現?取得人類記錄的解決問題過程資料(非思維鏈獨白)是否有價值,實際操作中取得這類資料的現狀如何?

Jack Rae 實錄:關於閱讀研究文獻與實際程式設計、實驗等工作的時間分配,某種程度上受職業發展階段影響。早期我會花很多時間閱讀文獻,學習跟進進展。現在作為需要指導研究方向的角色,面臨大量已知問題但無現成解決方案,更多需要和團隊共同探索發現。因此,相較於五到十年前,我現在閱讀文獻的時間確實大幅減少了。當然,看到別人的好點子仍覺有啟發。我還是會用X (推特) 等關注同行動態,用arXiv 過濾器篩選論文、部落格、播客或視頻。現在有價值資訊傳播形式多樣。工具方面,我現在確實經常使用Gemini,主要用它閱讀、總結論文或就論文內容提問。它可以處理整篇論文甚至一批帶有參考文獻的檔案,並進行問答或生成摘要,這非常有用,尤其能幫助我快速抓住核心思想和關鍵結果。 Gemini 的長上下文處理能力在這方面很棒,處理長篇技術文字問答和總結表現優異,是我的首選工具。

關於訓練認知行為,對此大家看法不一。我們團隊非常注重結果,最終選擇能帶來最佳結果、模型泛化能力及表現的方法。我個人傾向於選擇能達成目標的最簡潔方法,類似奧卡姆剃刀。若能對模型認知能力施加盡可能少的先驗假設,讓模型能力更能從數據中學習,這通常是較好的路徑。儘管如此,我們實際探索各種可能:利用人類資料,也用基於模型的合成蒸餾資料,若某些能力能透過端到端強化學習自然湧現,我們也會嘗試。在確定最終模型的'配方組合'時,主要看那種效果最佳,同時傾向於選擇更簡潔、泛化能力更強的方法。具體訓練細節在快速迭代中,不能深入透露,但這些是我們遵循的基本原則。

關於思維鏈異常行為,我們的最終原則是希望模型利用思考Token 成為更聰明、表現更優的模型。思考Token 中可能出現些許異常,如循環重複或生成無用文字,但若最終有助於模型解決問題,一種理念是應允許其存在,將其視為模型的'草稿空間'。儘管如此,我們確實注意到關於模型'思考'內容的一些現象。其一,Gemini 的思考過程通常用英文進行,即使處理非英語推理任務時也傾向於英語思考。這就引發討論:這是否影響產品體驗?或若用英語思考有助於表現出色,是否就應允許?可以說,Gemini 的思考過程傾向於不切換語言。另一個觀察是,部分思考內容,尤其在初代Flash thinking模型中,顯得相當範本化,常選擇公式化結構分解問題。我們不希望思考過程高度範本化,它應是自然的,體現模型真正思考,而非套用範本導致未充分利用計算資源。此外,思考Token 需考慮效率和最大化提升模型能力。這些都是我們持續關注和思考的問題。

關於取得人類過程資料,你的問題可分為兩部分:取得「過程資料」(懂得如何得出結果)和思維鏈(過程資料實例)。讓人們忠實記錄真實思維鏈很難,因思維過程很大程度上是隱性的。實際上,模型能進行逐步推理,部分原因在於預訓練資料中已包含大量人們詳述思考過程的範例(如寫作、報告、線上討論)。這就是為什麼即使未引導,用「讓我們一步步思考」提示,模型也能零樣本推理。然而,當明確要求人們記錄解決問題的推理步驟時,似乎很難從中獲得太多價值。但這與你問題中關於記錄「過程」本身有所不同。獲取更多關於人們在自然狀態下解決任務過程的訓練樣本非常有價值。我只是不確定人們是否擅長描述自己的內心獨白,以及基於這種刻意描述進行訓練的效果如何。當我說記錄「過程」時,我設想的更多是解決相對開放的任務場景,其中涉及大量中間計算或執行某些行動。但這部分問題已延伸到如何獲取更多主體性/代理性資料等領域,這並非我的專長。

03 思維鍊是模型的“草稿空間”,核心價值在於提升最終結果

主持人提問: AI Studio 中看到的思維鍊是完整、原始、未經修改的嗎? AI Studio 和Gemini 應用展示的內容是否不同?當初決定分享完整思維鏈時,內部有那些考量或不同意見,特別是考慮到競爭對手可能利用其進行蒸餾等工作?對於OpenAI 論文提出的在思維鏈上進行強化學習可能導致「混淆獎勵駭客」的擔憂,您怎麼看?是否認為不應對思維鏈品質進行過度干預是禁忌,還是有安全優化的方法?您認為推理能力與AI Agent 的主體性/代理性行為之間是何關係,是否有明顯差異?

Jack Rae 實錄:是的,我們在12 月發表Gemini,並在1 月更新至1.5 Pro。在這些版本中,無論通過AI Studio 還是Gemini 應用,你看到的都是模型輸出的原始思維鏈Token。如何最好地呈現這些資訊,是我們持續探討的問題,尚無定論。用戶確實喜歡看到原始Token,但它們可能非常冗長。我們或許可以提供更有用的摘要或進行其他形式的轉換,例如NotebookLM 中類似帶有圖譜的思維瀏覽器功能。這仍是一個新興領域,我們尚未確定展示思維鏈的最佳方式。目前呈現的只是原始內容。

關於分享決策這類決策通常是綜合安全團隊、研究人員及領導等多方意見的結果,過程相當複雜,我無法提供明確流程。每次發佈前都會仔細權衡利弊。我個人並未參與此決策。我的工作是確保模型本身足夠強大,提供豐富選項。這仍是積極探索的領域。至於OpenAI 為何選擇展示摘要,我不清楚具體原因,相信是多種因素綜合結果,不僅是防止蒸餾。有團隊擔心展示思維鏈可能需要對其進行RHF 使其更友好,但這可能無意中鼓勵模型產生誤導性思維。另一種觀點認為思維鏈對可解釋性有益。關於如何處理和呈現思維鏈仍在廣泛討論中。我主要關注確保思維鏈能帶來更準確的答案和更強的模型能力。

關於思維鏈強化學習風險,我們目前展示思維鏈,是作為實驗性模型發布的一部分,旨在收集回饋並從真實使用者行為中學習,這是技術發布的關鍵環節。我們會認真對待回饋,觀察功能實際使用情況,並據此在未來就如何呈現思維鏈資訊做出更明智的決策。安全性是此決策過程中的重要考量。一個穩妥的出發點是:我們期望思維鏈能​​切實提升模型的事實性、安全性和能力,希望模型有這樣的「草稿空間」。同時,若要展示思維鏈,我們希望其是可解釋的,並能忠實地反映模型的實際計算過程。我們可能不希望引入鼓勵模型產生欺騙行為的訓練目標。因此,你提到的擔憂是有道理的。

關於推理與主體性它們絕對是緊密相關的。從研究角度來看,推理與主體性/代理性行為高度耦合。但可以區分不同的研究重點,例如關於行動本身以及為AI Agent 建立環境的關鍵問題。我們有專門的優秀團隊負責這部分工作,研究領域有所劃分。我們負責'思考'的領域,主要在涉及行動或響應背後的推理層面與他們合作。

04 AGI需在後訓練中學習新技能,潛空間推理若可解釋則前景廣闊

主持人提問:您是否認同這種理解:預訓練決定模型掌握的概念(特徵),後訓練決定模型運用這些概念的行為模式?預訓練與後訓練的界線是否正在模糊,未來是否會演變成連續統一體?模型是在後訓練階段學習新概念,還是主要在預訓練階段掌握?隨著後訓練算力佔比提升,學習方式會改變嗎?如何看待在潛空間進行推理(如Meta論文所述)?是否因其「黑箱」特性而應視為禁忌,還是有安全運用途徑?您對機制可解釋性技術的整體前景持何看法,它能否跟上模型能力的發展速度,讓我們在強AI出現時能理解其內部運作?對於「柏拉圖模型假說」(不同模型隨規模增長趨同於統一世界模型),您在多大程度上認同?若成立,是否代表更大規模模型更易解讀?

Jack Rae 實錄:我很大程度上同意你的看法,可以這樣表述:預訓練可視為學習一個龐大的函數逼近器集合,使模型能模擬數據的整體分佈,包括各種好壞行為、強弱推理能力等。其根本目的是反映所有行為類型並側重於'理解'數據,預測下一個Token 能力越強,壓縮效率越高,可能意味著對數據分佈理解越深刻。後訓練階段則會『捨棄'分佈中的許多模式和行為,專注於特定的推理、響應或行動方式,以便更好地完成重要任務。理想情況下,若強化學習效果好,模型還能學會組合運用基礎技能,建構更高級能力,以應付更重要任務。

關於後訓練學習新概念,我的看法是,模型必須在後訓練階段學習新概念。若要建構AGI ,模型在強化學習階段就必須掌握新技能,而不能只是調整已有的概念,這一點極為關鍵。 尤其是期望模型最終能在核心任務上全面超越人類時,它便不能只依賴於復用預訓練階段通過行為克隆學到的知識。這正是當前研究中最激動人心的方向之一:如何利用強化學習的組合效應,驅動模型能力實現螺旋式提升,使其變得極其強大、通用和穩健。我堅信,關鍵在於強化學習階段。

關於潛空間推理,我個人認為,在一項技術得到充分研究和理解之前就對其設立禁區是不可取的,除非有極其充分的理由。就潛空間推理而言,爭議核心在於可解釋性。我們需要確保所用潛向量可解釋。我想用MuZero 類比:MuZero 在潛向量空間進行推演,而非具體狀態,但這些潛向量仍可解碼回具體狀態,保留了可解釋性。在潛空間搜尋讓MuZero 獲得顯著優勢。這顯示潛空間推理很可能是一個非常有前景的研究方向,在現階段不應被排除。若能提升模型思考能力且做到可解釋且安全可控,探索這個方向就是理所當然的。

關於可解釋性前景,模型能力確實在飛速發展,但我認為這種能力提升同樣也會加速機制性可解釋性的研究進展。更強大的模型本身就為我們提供了研究其內部運作的更強大工具。因此,我不認為必然會出現能力指數增長而可解釋性線性增長導致的巨大鴻溝,傾向於相信兩者會同步發展。無論是潛向量還是Token 表徵,我們都需要高品質研究、工具和方法來追蹤模型內部表徵與計算過程的關聯,並理解其如何影響最終輸出。這是一個極其重要的研究課題。 Anthropic 的工作很出色,Gemini 內部也有頂尖研究人員在攻關。解決可解釋性問題是必須面對的挑戰,因為使用者需要這種透明度和可理解性。

關於柏拉圖模型假說,您的意思是,隨著所有不同模型在訓練中規模不斷擴大,它們會開始表現出更強的趨同性嗎?這些模型是否正在趨同於某種對現實的真實表徵?我唯一有較強理論把握的是關於預訓練階段。預訓練目標是降低困惑度、提升壓縮效率。理論上,最優壓縮器必然內化了資料產生過程的最佳模型(可追溯至資訊理論)。但這更像哲學推演,並非建構AGI 的全部。AGI 不僅要理解現有模式,還要執行任務、遵循指令、處理未知問題、泛化到新環境,這些都超越了單純基於預訓練的「世界模型」範疇。

我堅信預訓練絕非建構AGI 的唯一要素。因此,我或許部分認同該假說理論上的可能性,但不認為它描繪了完整圖景。一旦進入大規模強化學習訓練階段,我認為這些模型絕對不會趨同於單一模型。如何負責任地做好這個階段的訓練,直接關係到能否建構出真正有用的系統。現實中我們已看到不同模型展現顯著差異,各有優劣。像我們在Gemini 內部的工作,就需要非常有針對性地去開發和增強模型在特定領域的能力,這些並非所有模型都能自然湧現。因此,目前模型發展方向感覺仍是高度可控且可引導的,而非必然匯聚到唯一終極世界模型的過程。當然,我並非哲學家,主要專注於技術實踐。

05 AGI需要推理、智能體和記憶系統的協同突破

主持人提問:從當前狀態通往AGI 的宏觀路線圖是怎樣的?持續擴大上下文視窗規模是否足以解決記憶問題,還是需要更整合的記憶與遺忘機制等概念性突破?您是否認為記憶問題已基本解決?在通往AGI 的道路上,整合更多模態(如文字與圖像的深度融合擴展到生物資訊等)扮演什麼角色?是傾向於單一深度融合的世界模型,還是保留獨立專家系統作為工具呼叫? Gemini 2.5 Pro 的系統卡片何時發佈?是否有規定模型滿足何種條件才能發佈完整技術報告?目前所有的安全測試都完成了嗎?紅隊演練過程是否包含第三方測試人員,例如Apollo、Haze Labs 等機構?技術報告發佈時會包含外部合作夥伴名單嗎?

Jack Rae 實錄:這是個好問題。記憶這個主題對我啟發很大,我博士研究的就是稀疏持久記憶用於終身推理。當初從未設想過今日進展,我們已有能處理百萬乃至千萬Token 上下文的模型,開始逼近「終身」時間尺度。但我仍不認為記憶問題已徹底解決,遠未終結。未來定會有激動人心的突破。 DeepMind 曾有神經圖靈機等絕佳構想,融合大型注意力與讀寫機制。我預感此方向某些成果可能最終勝出,實現極長、無限甚至終身記憶的高效途徑。但這仍是活躍研究領域。

至於通往AGI 的路線圖,我們建構的每個模組似乎都能很好地產生疊加效應。長上下文技術與推理思考工作實現了絕佳整合,能夠對問題進行極長時間、極深入的思考,並利用海量上下文,這兩者存在極有價值的耦合,助我們攻克了諸多額外難題。

我認為,在通往AGI 的餘下征途中,AI Agent 無疑是優先順序極高的領域。思考與推理方面仍未抵達終點,要讓模型夠可靠、通用,能在開放任務中被信任,仍有漫長的路要走。因此仍有大量工作要做,持續改進系統,攻克已知瓶頸。須讓思考能力更強,同理,也要讓AI Agent 更強大。我預感,若能結合大幅改進的智能體能力、更強的推理能力,以及理想狀況下更優的記憶系統(具備近乎終身範圍的跨時間理解與推理能力)——屆時,對許多人而言,那才真正稱得上是AGI 。

就我個人而言,目前系統已頗具AGI 雛形,Gemini 2.5 Pro 能零樣本處理複雜程式碼庫,三年前尚屬未來科技。這些能力的組合——更優記憶、更深思考推理、與多種工具互動、高度開放行動空間——才會真正帶來AGI 的體驗。具體何時降臨難以預測,但所有相關技術均在積極研發,感覺其腳步日益臨近。

關於多模態整合,Gemini 從一開始就設計為多模態模型,在影像、視訊理解方面一直很強勁。 Gemini 1 內部已訓練原生影像產生能力。實現萬物的深度多模態化至關重要,訓練所有數據讓世界模型覆蓋文字、視頻、圖像、音頻。這一直是Gemini 的亮點。使用者喜愛原生影像產生功能,樂見即時編輯互動,而非靜態輸出。任何能引入世界模型並聯合訓練的元素,都將帶來更深層次體驗與理解。問題是界線何在?如何決定何時將某些元素納入預訓練資料組合?當前策略是優先選用資訊最壓縮及規模最大的資訊來源(如文字),再逐步擴展。決定拓展至規模較小或壓縮程度稍低的資料來源(如基因組學)頗具挑戰。關鍵在於從既有知識遷移至新任務時存在多少正向遷移。若有限,聯合訓練裨益不多,可能只需作為工具使用。這些是決定整合入單一世界模型還是保留為獨立專家系統的主要考慮。我個人更傾向於單一世界模型的前景。

關於系統卡片與發布,對於實驗性版本,我們做法是:發布模型主要是為了讓消費者與開發者能儘早接觸,獲取真實回饋,理解侷限性。它們帶有「實驗性」標籤,意味著未對其進行完整的支援與部署組態,因此不一定提供系統卡片等所有配套檔案。我們正全力將這些模型推向穩定狀態,達到正式發佈標準。待模型正式發佈時,便會附帶相應系統卡。

關於安全測試,在發布模型前,我們進行了廣泛、甚至可以說是業界前所未有的大量安全測試。不過我們確實有一些實驗性模型,可能會經歷不同等級或標準的測試。進行實驗性發布的部分原因也是為了收集真實世界回饋,這對測試過程本身非常有價值。對於這些即將發布的模型,都遵循著非常標準化的流程,涉及政策團隊、安全團隊,並進行了大量的紅隊演練等工作。目前我們確實處於實驗階段,正努力推進,爭取早日實現正式發布,屆時將提供更完善的支援檔案。上周有人問模型何時能在Vertex 上可用,我說快了,結果隔天就上線了。有時我們傾向於保守承諾、超額交付。進展確實非常迅速。

關於紅隊演練,我們發布的Gemini 技術報告,通常會詳細說明外部紅隊演練情況。但現階段我無法透露具體合作夥伴。不總是公開夥伴身份是有理由的。但可以肯定,我們確實與外部紅隊演練者合作。至於技術報告發佈時是否會包含外部合作夥伴名單,我需要確認,但據我所知,過去的技術報告中確實會提及。

06 使用者回饋與未來展望:長上下文能力的革新體驗

主持人提問:試用Gemini 2.5 Pro 一段時間後,感覺它是否帶來了前所未見的新功能或可能性?有何具體使用反饋?最後,還有什麼我們沒討論到、而你想分享給大家的想法或概念嗎?

Jack Rae 實錄:我很好奇,你試用2.5 Pro 一段時間了,有沒有感覺它帶來了前所未見的新功能或可能性?或有什麼使用反饋?

聽到你關於長上下文能力的反饋真是太好了。去年我們為實現最初技術突破而努力時,我和許多研究長上下文的同事一起工作。而且,我和一些以前長期在預訓練團隊、後來特別專注於提升2.5 Pro 長上下文能力的同事也經常交流。我們投入了大量工作,不僅是在初始階段將上下文長度提升到100 萬、200 萬Token(未來還會更長),還要讓它真正有效。隨著2.5 Pro 的發布,有一個外部排行榜顯示在處理128k Token 上下文時,Gemini 2.5 Pro 的效率遠超當前幾乎所有其他模型。這很了不起。它不僅能處理百萬級Token,而且現在尤其在2.5 Pro 上,給人的感覺是它閱讀並理解了所有內容,不會丟失資訊,不會錯過關鍵細節,就像仔細研究了所有資訊。這種能力確實給了人們一種接近AGI 的感覺,彷彿一秒鐘內就研究透了一個非常龐大的代碼庫,對每個細節都有相當深入的理解。這確實非常了不起。聽到你的回饋真是太好了。 (數字開物)