DeepMind首席科學家萬字深度訪談｜“慢思考”正帶來一種全新的scaling law

2025/02/26

•

2月25日，Google DeepMind首席科學家Jack Rae接受訪談，就Google思維模型的發展進行深入討論。

Jack Rae指出，推理模型是 AI 發展的新範式，推理模型並非追求即時響應，而是通過增加推理時的思考時間來提升答案質量，這導致了一種新的Scaling Law，“慢思考”模式是提升 AI 性能的有效途徑。

Jack Rae認為長語境對於推理至關重要，“延長上下文、加速運算、降低成本”這一循環過程將持續推進。

Jack Rae表示，無限語境可能存在一個模糊的邊界。使用者真正需要的或許不是無限的輸入長度，而是模型能夠有效地處理和利用長語境資訊，並在合理的時間內給出高品質的答案。此外，他還指出，推理模型是建構強大 AI Agent 的核心驅動力。

以下是本次對話實錄，經翻譯編輯：

Logan:在今天的節目中，我們邀請到了Google DeepMind的首席科學家Jack Rae，他也是Gemini推理項目的主要負責人之一。歡迎你，Jack。

Jack:你好，Logan。感謝邀請。

Logan:Jack，你能否快速介紹一下，推理模型在最基本的層面上究竟是什麼？

推理模型的定義

Jack:如果我們先考慮預訓練模型，它可能已經吸收了大量關於世界的有用知識。而推理模型的關鍵直覺在於，它會嘗試將這些知識組合應用於可能新穎或前所未見的特定場景。它會嘗試超越已知資訊進行泛化。推理過程實際上就是對已知資訊的整合，並可能在邏輯上遵循一系列陳述。也許它還會進一步探究問題本身，或者更深入地探究自身的知識體系。正是這種組合過程，使得模型能夠在全新的場景中實現真正的泛化，而這正是我們所定義的推理。

Logan:對於不熟悉我們在推理領域工作的朋友們，你能否簡要概述一下我們在過去兩個月裡發佈了那些成果，以及我們目前的進展？

Jack:當然。我們有一個推理模型，名為Gemini Flash Thinking。它目前已經發佈，你可以在AIStudio上免費使用。這款模型速度非常快，而且功能強大。它在速度和能力之間實現了很好的權衡。目前，它的工作原理主要是，我們對其進行了訓練，使其在回答問題時能夠生成大量的中間思考步驟。如果你在AI Studio上用自然語言提出一個複雜的問題，你可以查看、檢查和閱讀模型在回答問題時生成的這些中間思考過程。這些思考步驟有助於模型處理問題，收集中間細節，搜尋或推理各種不同的方法（如果問題很困難），並最終幫助模型找到更正確或更合理的解決方案。這就是我們一月份發佈的模型。實際上，我們一直都在快速迭代。我們在去年12月份也發佈了一個版本。所以，Gemini Flash Thinking就像是V2版本，目前仍處於實驗階段，因為我們還在不斷迭代並收集反饋。這就是我們目前的進展。

Logan:你能再簡要概括一下，這些模型實際上是用來做什麼的嗎？

推理模型的應用場景

Jack:我認為，對於許多不需要模型立即響應且對延遲不敏感的用例來說，推理模型都非常適用。例如，在編碼應用中，如果你希望模型編寫一段重要的、有一定難度的程式碼，比如建構一個React元件，並且你已經詳細說明了你的需求，那麼模型可能需要首先深入思考它需要匯入那些庫，以及如何建構這個元件。實際上，你需要的是這樣一種模型：它能夠在真正開始編寫第一行程式碼之前，就先規劃和思考任務的各個方面。這只是推理模型應用的一個例子。另一個例子可能是，你有一份可能非常複雜的財務檔案，可能有數百頁，包含圖表和文字。你需要提取的資訊並非僅存在於單一位置，無法通過簡單的尋找完成，而是需要彙總多處資訊。在這種情況下，你可能也需要一個模型，它能夠首先思考可以從那些地方查詢資訊，然後收集這些資訊，並利用一些思考token——即一些文字——來整合資訊，最終得出解決方案。因此，這兩種情況都屬於複雜任務。你願意為了換取模型在給出答案前進行思考而接受一定的延遲。你對答案的質量有更高的期望。我認為以上這些都是人們需要推理模型的典型應用場景。

Logan:我很喜歡你說的這些。關於這一點，我想快速追問兩個問題。第一，如果大家還沒看過那張圖表，我記得它應該在GDM網站的推理/思考版塊。圖表顯示，許多指標都呈線性上升趨勢，這讓我感到非常興奮。稍後我想深入探討一下這張圖表。但在我們深入瞭解模型性能提升的進展之前，我想先問一下，如果我只是一個日常的大語言模型使用者，比如通過常用的聊天應用程式、Gemini應用程式或其它外部介面來使用大語言模型，那麼，對於像我這樣的普通使用者，或者說不是開發者的使用者而言，模型具備推理能力究竟能帶來什麼？

Jack:我認為，最重要的提升是能力增強。過去，我們會訓練一組預先設定好的、不同規模的預訓練模型，它們會使用不同的計算量來響應你的問題。規模較大的模型會消耗更多計算資源，但也意味著模型可能更複雜，更理解你的問題意圖，從而給出更好的答案。現在，我們有了一種新的方案，可以利用現有模型，無需擴大模型規模，而是花費更多推理時間進行計算。本質上，通過增加思考時間，模型能夠嘗試完成原本超出其能力範圍的任務，避免在沒有充分思考的情況下倉促給出答案。因此，對於普通使用者而言，我認為在許多對延遲不敏感的場景中，當你尋求更高確定性的答案，或者希望體驗更強大的未來模型時，這種特性就顯得非常直觀且實用，你也願意為此等待模型進行更深入的思考。

推理模型是新範式，模型“慢思考”，能力大幅提升

Logan:我不知道是否只有我一個人有這種感覺，我很想知道其他人或聽眾的想法。但我發現，僅僅讓模型思考更長時間就能獲得更好答案，這非常不符合直覺。你可能會認為模型有一個基本能力水平，能夠解決一定難度的問題，在少數情況下，深入思考可能會幫助以不同方式解決問題。但通常情況下，用同樣的智力水平重新審視自己的工作，為何能帶來更好的結果呢？所以我很想知道，是否存在一些潛在的原則或機制，使得更多思考或花費更多tokens進行推理與模型給出更好答案之間存在關聯？我很想知道，你是否瞭解更多相關背景。

Jack:我認為，實際上這非常直觀，即使對於人類而言，我們在回應之前也會花更多時間思考。我們有所謂的“快思考和慢思考”的概念。我們可能會有一些直覺的初步反應。也許這些初步反應很大程度上受到語言模型強烈先驗知識的引導，即答案應該是什麼。但是，一旦我們真正開始詳細闡述要說的邏輯過程或進行更深入的思考，就可能會發現錯誤。我們會發現最初提出的一些條件，然後意識到其中一些實際上沒有意義，需要重新評估。因此，我們可以進行批判，可以進行修改。我們還可以探索多種方法來嘗試解決問題，即使我們不太確定如何精準解決，我們會嘗試多種不同的方法。很多情況都發生在模型進行更長時間思考時。反過來，這通常會使其更準確。

Logan:關於我們在推理模型方面取得的進展。我們在12月發佈首個2.0flash版本後不久，就發佈了第一個推理模型，並分享了一系列進展。評估指標非常出色。緊接著在1月21日，我們又推出了第二個版本的思考模型。與此同時，世界現在對推理模型以及能夠思考並在推理時計算、測試時計算的模型感到非常興奮。從您的角度來看，是什麼促成了如此快速的創新步伐？是資料效率的大幅提升嗎？還是演算法取得了大量突破，亦或是計算資源變得充裕了？那麼，究竟是什麼在驅動這種能力在如此短時間內實現瘋狂的提升呢？

Jack:我們現在看到的確實是一個新的範式。我們發現了多種途徑可以在推理時間上投入更多計算資源，就像在響應過程中，模型正在輸出思考Token。這導致了一種新的Scaling Law，即如果我們不斷增加在X軸上的推理算力投入，並採用對數刻度，X軸為對數刻度，Y軸為我們關心的指標，比如數學或編碼任務。我們觀察到一種對數線性關係，性能呈線性增長，而推理時間算力則呈指數增長。儘管這些推理時間算力的範圍完全在我們可用的算力領域之內，因為我們一直在擴展高性能計算叢集，以服務於大語言模型。我們具備這種能力，並且一直在投資以獲取更多高性能算力用於預訓練。現在，我們可以將這些算力重新用於另一種計算範式，這就像一道閃電擊中我們一樣，因為這在很短時間內發生，而且我們確實看到了令人印象深刻的能力提升，與過去幾年相比，這是肯定的。我認為這是一個值得關注的現象。

Logan:作為一個快速的跟進，您最初的職業生涯是做預訓練相關的工作。您能回顧一下您從預訓練到今天所做的工作嗎？

Jack:過去五年或六年，預訓練工作實際上主要集中在擴展算力上，包括擴展訓練規模，以及在預訓練大語言模型時所使用的資料量和每秒浮點運算次數。這也有一個非常符合經驗規律的現象。大語言模型的可壓縮性、負對數似然與訓練所用的算力之間存在冪律關係。在過去的五六年裡，這一直是改進AI語言模型的指導方向。現在我們有了一個新的方向。所以，我覺得這也許是我思考AI如何進步的方式。AI的進步往往伴隨著新發現的、但又符合經驗規律的現象。我們通常需要做的就是遵循這些現象，以提高整體能力。

Logan:也許這是一個有點奇怪的後續問題。您認為，如果我們回到大約一年半以前，甚至不是六年，考慮到那時GPT-3時代早期模型的能力水平，我們是否能夠做到今天我們正在做的事情？或者說，是否需要一個循序漸進的過程，基礎模型必須變得足夠強大，推理能力才能真正開始發揮作用？因為最終，模型正在進行某種內在反省，或者無論如何定義模型在思考時如何看待Token才更合適。我們是否需要所有其他基礎模型的進步才能實現今天的成果？

Jack:我認為這是一個非常好的問題。現在看來很明顯，擁有一個非常強大的基礎模型，幾乎使這項發現變得異常容易。你有一個更強大的模型，它實際上已經在網際網路上閱讀了大量的自我批評或推理的例子。因此，它已經對如何使用這些工具，以及工具箱的概念有了一定的理解。當我們用強化學習訓練它時，我認為這些工具又重新顯現出來，並且模型非常擅長詳細地推理事情，捕捉錯誤等等。因此，擁有一個強大的基礎模型，使得發現這種方法變得非常具有吸引力。我不知道如果我們使用一個較弱的模型會怎麼樣，也許這些能力也可能出現。我認為這是一個很好的問題。我認為要建立起這樣一套系統會更加脆弱，以至於所有元件都能協同工作並啟動。但是，是的，我猜想人們肯定會嘗試這樣做，因為大家都喜歡使用儘可能小的模型。而且我猜想人們會嘗試探索這種想法。

Logan:我有一個隨機的題外問題。模型是否有可能花費大量時間進行推理，但實際上對改進結果沒有任何幫助？就像他們只是在說一些隨機的東西，或者自言自語，或者制定一個最終沒有成功的計畫，就像人類有時也會做的那樣。我們是否看到過這種情況發生？或者，如果發生這種情況，這是否屬於評估資料集的問題？

Jack:你肯定可以找到很多關於思考模型的有趣例子，尤其是在處理比較棘手的數學問題時。一開始可能存在一個簡單而優雅的解決方案，但模型可能一開始就走錯了方向，然後花費大量時間思考，結果卻陷入了最初的錯誤想法中，無法擺脫。是的，我認為我們已經看到過這樣的情況。我們一直在努力訓練模型，使其變得更好。我猜這有點像模型版本的怯場。模型似乎執著於某個特定的想法，然後就卡在這個想法裡，無法跳出來，說出真正有用的東西。但是，這種情況確實會發生，我們也在不斷改進模型。所以，這種情況可能會偶爾發生，但頻率不高。

Logan:Jack，您和我們都多次提到過這一點。您之前是正式從事預訓練相關的工作。我想我對您在DeepMind的一些經歷有所瞭解，您能否重點介紹一下，在今天您和Nome共同領導Gemini的推理工作之前，您主要從事那些方面的工作？

Jack:我在2014年加入了位於倫敦的DeepMind，當時正值Google收購DeepMind不久後。從一開始，我就專注於記憶體系統的研究。那時，DeepMind的主要精力都集中在用於遊戲的強化學習上，尤其是Atari遊戲。因此我在強化學習領域做了很多關於記憶體方面的工作。一些Atari遊戲需要相當大的記憶體，比如《Montezuma'sRevenge》這類遊戲，玩家需要在迷宮中探索，可能需要記住撿拾的物品或去過的地點。但在某個時候，我個人對更貼近真實世界的任務產生了濃厚的興趣，希望借此評估記憶體系統。語言建模恰好是其中之一，它尤其吸引我，因為語言建模需要使用記憶體，而且使用方式多種多樣。不僅僅是簡單地回憶過去提到的具名實體等事實性資訊，還可能需要關聯關鍵細節，有時還需要積累資訊。我感覺語言建模就像是一個需要AGI才能完全解決的任務，同時也以多種不同的方式運用了記憶體。因此，我當時主要關注的是，用現在的術語來說，可以稱之為用於語言建模的長上下文。後來，當GPT-2模型發佈後，它讓我意識到，我一直專注於擴展語言模型的上下文長度，但對擴展資料算力的關注還不夠。因此，我們轉移了研究重點，並在DeepMind倫敦啟動了一項大規模的語言建模工作。我們在那個方向上進展迅速，並且成為首個在Google跨多個TPU Pod訓練大語言模型的團隊，我們在2020年實現了這一目標。我在大規模語言模型擴展方面獲得了許多樂趣。我想在主要從事語言模型研究工作八年後，我在去年決定完全轉變研究方向，轉而研究思考。因此，我更多地回到了強化學習領域，並與來自Google DeepMind的一組傑出的後訓練和推理研究人員合作，當然也包括與Nome合作，他一直是我非常仰慕的語言建模領域的明星研究員。我讀過他所有的論文。所以，他是一位非常棒的合作夥伴。是的，這一切都發生在最近五六個月內。因此，從某些方面來看，這仍然是一個相當新的轉變。

長語境的關鍵作用

Logan:我從中體會到的一點是，當前的創新實際上在很大程度上是建立在先前的創新之上的。也許我理解有誤，Jack，您需要幫我確認一下，但所有這些創新似乎都是在先前創新的基礎上迭代發展的。我之前沒有將這些聯絡起來，但現在感覺，就像我們之前討論的，優秀的預訓練和後訓練模型可能是實現推理能力的前提。長上下文似乎也是如此。模型需要能夠對非常長的輸出和輸入進行推理。您是否認為，如果我們沒有長輸出或長輸入，我們今天就無法利用推理模型實現現在的成果？

Jack:我認為這些能力擴展帶來的倍增效應真的很酷。顯然，在競相擴展Gemini的上下文長度時，我們並沒有預見到這會成為一個應用方向。但關鍵在於，如果你不斷建構這些能力，它們往往會產生巨大的附加值。所有你已知的功能用途固然有用，但那些我們未曾預料到的用途，往往最令人驚喜。所以我完全認同，我們能夠提供快速思考能力，不僅支援超長上下文，還能以超長輸出來呈現結果，這非常酷，而且長上下文的創新是解鎖這一能力的關鍵所在。

Logan:是的，趁著今天採訪你的機會，我必須向你請教一個問題。我們已經見證了100萬token上下文，以及200萬token上下文。很久以前我們就提到過，從理論研究角度來看，1000萬token上下文是有可能實現的。作為長期從事上下文研究的開發者之一，我認為開發者們會持續要求擴展上下文長度。我們該如何持續擴展上下文呢？你認為我們現有的方法是否還能支援我們擴展到1000萬甚至更長的上下文？如果要將上下文窗口擴展到100萬到200萬token以上，是否需要技術突破或另闢蹊徑？

Jack:通常，當我們取得新發現，並找到提高效率和降低成本的方法時，成本降低就會隨之而來。對於長上下文而言，我們不僅延長了上下文長度，還經常找到加速和降低成本的途徑。我認為“延長上下文、加速運算、降低成本”這一循環過程將持續推進。目前，許多有待探索的研究方向都展現出推動這一處理程序的潛力。我也認為“無限上下文”的概念很有意思。感覺在某種程度上，無限上下文的定義以及何時能稱之為“無限”將變得模糊。但我認為很多人確實希望感受到，他們可以持續輸入任意數量的歷史記錄和資料，而模型能夠真正理解所有內容，關聯所有資訊，並能非常出色地加以應用。我認為，這就是人們理想中的“無限上下文”。這感覺是有可能實現的。我真的不認為這實際上需要研究上的突破。我不認為這是科幻小說般的幻想，我認為我們已經具備大部分要素，剩下的只是工程實現了。這只是我的猜測。

Logan:讓我們來談談關於模型思考能力的開發者用例。我認為我們已經看到了很多，我個人已經看到了很多圍繞編碼的激動人心的應用。開發者們正在探索各種各樣新奇的用例。你提到了財務分析的用例，我認為它非常有前景，並且能夠創造巨大的價值。實際上，在深入探討這些用例之前，我想先瞭解一下，從研究角度來看，你們的研究目標是如何設定的？例如，你們是否認為“我們需要通過評估指標來衡量模型的能力，因此我們設計了許多優秀的學術評估方法”？或者，你們建構推理模型的目的是“為了讓推理模型擅長我們預期的特定用例，因為市場反饋表明這些用例具有商業價值”？從研究方法論的角度來看，你們是如何做的？

Jack:研究方向的選擇，以及評估指標的選取，實際上都非常微妙。你可能會想當然地認為，將所有你關心的事物和能力的評估指標都集中起來，會更有利。但實際情況往往是，這樣做細粒度的訊號反而會被掩蓋，關鍵演算法的開發也會變得更加困難。因此，我們通常會專注於非常具體的基準，這在外界看來可能有些奇怪。這並非因為我們真的認為這些基準本身是衡量模型能力的絕對指標，而是我們認為，這些基準有助於我們理清思路，從而更好地進行演算法的開發和改進工作。

然而，我們仍然會進行更廣泛的評估，以此來要求自己，確保在各個方面都能取得進步。因此，我認為我們的工作方式是將這種“內部循環”和“外部循環”結合起來。“內部循環”側重於小範圍的評估，而“外部循環”則更貼近開發者實際的應用場景。我們始終致力於不斷改進評估方法。我們不斷創新，並持續擴充評估指標，這幾乎與演算法開發本身同等重要，因為只有能夠有效衡量，才能獲得有意義的反饋訊號。以上就是我對“內部循環”和“外部循環”的理解。目前，我認為我們在演算法上取得了一些非常重要的突破，我們希望能借此全面提升Gemini模型的通用推理能力。我們希望模型在任何領域都能有效運用思考能力，並切實提升性能。

因此，我們不斷尋找思考能力尚未充分發揮作用的領域，並對自身保持高標準要求。我認為，目前的閃電思考在程式碼生成方面已經表現出色，但我們仍有更高的目標。因為我們身處一個快速發展的競爭環境中。因此，程式碼生成領域是我們關注的重點，我們需要投入額外的精力，確保推理能力能夠充分提升程式碼在各種應用場景下的性能。這是我目前重點思考的問題之一。

Logan:因此，你我一直在努力推動Gemini最新版本，希望為“Gemini思考模型”啟用工具功能。目前，我們已經啟用了程式碼執行功能，並正積極探索將搜尋功能也整合為工具。但一直讓我有些困惑的是，為什麼模型在思考過程中不能使用工具？人類在驗證工作成果時，會自然而然地使用各種工具，例如計算器、文書處理器和網際網路等等。你認為，對於這些推理模型而言，未來在多大程度上應該僅僅依賴於自身的“思考”和原始token？而不是在思考過程中配備一套工具，從而產出更優質的結果？

Jack:完全正確。我完全認同模型在思考過程中會越來越多地使用工具，以便深入理解問題的核心和本質。工具的意義在於增強模型的能力。模型不僅需要學會使用程式碼執行和搜尋工具，還需要學習使用各種其他類型的工具。我們可以預見，未來工具的種類將更加多樣化。據我所知，在Gemini應用程式中，模型通常已經可以使用其他工具，例如搜尋、地圖整合以及其他Google內部整合的工具。總而言之，我認為這是一個非常有趣的發展方向，它能提升模型的“能動性”，不僅在執行操作時，甚至在思考時也是如此。這非常重要。

Logan:Jack，我們剛才討論了工具等問題，而工具恰恰是使用者反饋中最集中的一點。實際上，除了長上下文之外，在最初的使用者反饋中，開發者們集中反映了兩點：一是希望模型支援更長的上下文（例如100萬token甚至更長），二是希望Gemini模型能夠支援工具和函數呼叫等功能。開發者們還表示，希望模型能夠像之前的Gemini模型一樣，支援工具使用、函數呼叫以及其他功能。你剛才也提到了使用者反饋的重要性。那麼，從你的角度來看，開發者反饋對模型發展方向、功能發佈等方面究竟起著怎樣的影響？

Jack:是啊，當然。我很高興能盡快發佈一個實驗性模型，這樣我們就能開始瞭解使用者如何使用它，使用者在使用過程中遇到了那些困惑，以及他們的反饋是什麼。實際上，長上下文功能讓我有些意外，說來也挺有意思的。我當時完全專注於思考推理能力本身，甚至沒有意識到32K上下文可能無法滿足使用者的需求。模型發佈後，我向一些正在研究中使用推理模型的學者詢問他們的使用體驗如何。他們表示，他們面臨兩難：既想輸入大量論文，又想深入探討技術主題，但32K的上下文長度限制了他們。所以他們要麼選擇Flash模型，並將所有內容放入上下文中（因為Flash模型當時支援長上下文），要麼使用Flash Thinking模型，但只能選擇一篇論文或相關材料進行分析。我這才意識到，這完全超出了我的認知，直到現在我們才意識到這個問題，我們會盡快解決它。

另一個問題是，這只是一個相對簡單的問題。在去年12月份發佈時，如果使用者嘗試在API層面將模型從Flash切換到Flash Thinking，則需要修改程式碼，因為當時API會同時返回思考過程的內容和最終答案。因此，使用者如果不注意呼叫模型的方式，可能會從思考內容中錯誤地提取答案或期望的輸出。這個問題給一些運行基準評測的使用者造成了困擾。所以，我們進行了一些溝通和指導，但也意識到，下次我們應該改進，以便使用者能夠無縫切換模型並正常使用。那麼，我們該如何實現這一點呢？在1月份的更新中，我們默認關閉了思考過程內容的輸出，因為這個功能確實容易引起混淆。是的，以上就是我們收到的一些反饋。我知道你處於各種反饋意見的中心。我很好奇是否有讓你覺得特別有趣或意外的反饋？

Logan:是的，問得很好。我認為你說的“風暴眼”這種說法非常貼切。我目前最大的挑戰是如何有效地收集開發者反饋，並傳遞給像Jack這樣的人，並確保這些反饋能夠付諸行動。我認為最有趣的反饋之一，也讓我想起了去年12月首次發佈推理模型時，我分享過的一張圖片，是關於多模態性能的。我看到許多非常棒的用例，而且並非模型在多模態處理上犯了什麼明顯的錯誤，而是使用者普遍在積極探索多模態能力。

這與我們之前討論的許多話題都息息相關：這些新功能的出現，確實全面提升了開發者們關注的所有應用場景的性能。所以我個人非常期待看到多模態推理領域即將迎來的突破。因為目前，關於生成式AI的討論，要麼過於關注程式碼生成，要麼過於關注文字處理，但似乎缺乏對多模態推理的系統性闡述。不過，我已經注意到在Twitter和其他平台上出現了一些初步的探索。所以我期待開發者們能深入挖掘多模態推理的潛力。

Jack:是啊，這真是個很好的觀點。我實際上認為，像Gemini Flash Thinking模型在圖像方面，例如視覺推理，它非常強大。我實際上認為我們真的沒有充分強調它。這是我實際上也覺得它非常有用的一個領域。我一直在大量嘗試它。是的，我認為這是因為基本上公平地說，在整個Gemini模型系列中，圖像，例如視覺推理，然後還有視訊推理一直都是被重點強調的東西。我們試圖使Gemini成為多模態優先的某種項目，而且我認為它真的得到了回報，我們沒有，這是真的。我們真的沒有充分告訴人們關於它的資訊。

Logan:是啊，我有一個問題，之後我想聊聊Agent。我覺得這就像一個非常重要的方向，回歸到開發者們對什麼感到興奮？我認為大家想要建構智能體，但在我們深入探討智能體、工具使用等等之前，我想先問一下。為什麼推理模型在數單詞中的字母時會遇到困難？還有，你是否從敘事的角度思考過，為什麼這個用例會如此受到關注？我們之前也來回討論過很多次，關於數草莓裡“R”字母的例子。為什麼這對推理模型來說會成為一個問題呢？

Jack:數草莓裡的“R”字母簡直是我們的噩夢，我們存在的噩夢。我認為坦誠的回答是，根本問題在於模型的分詞，我個人也對根本原因感到好奇。但是，當你讓模型數草莓中“R”的數量時，我認為，如果我們回顧一下這個問題出現的歷史，因為我稍微研究了一下，我認為這實際上是在GPT-4發佈後開始流行起來的一個測試，因為它相對於GPT-3.5出現了退步。GPT-3.5通常會回答“三個”，而GPT-4出於某些原因通常會回答“兩個”，然後很多人指出了這個問題。之後人們開始用它作為一種測試，這個問題就變得流行起來，所以它實際上比推理模型更早出現。

然後我的感覺是，來自OpenAI方面，隨著各種傳言，你經常會看到人們將OpenAI正在研發的某種神秘演算法與“草莓裡有多少個R”這個問題聯絡起來。所以它在這方面變得有點像病毒式傳播。但是，為什麼這對這些模型來說具有挑戰性呢？我認為可能是因為某些PDF文字在進行光學字元識別（OCR）時，雙“R”被對應到了一個奇怪的雙“R”Unicode字元，導致模型對這些字元的確切作用感到不確定。模型不是逐字元閱讀文字的。我們首先使用tokenizer將文字預處理成tokenized形式，我認為這最終變成了一個有趣的對抗性任務，儘管模型理解很多很多事情，一旦你將token組合在一起形成單詞和概念，但這種細枝末節的、單詞本身組成的細節，在可靠性方面仍然讓模型感到困惑.這就是我的看法。但是，我也不確定具體原因。

Logan:我有一個可能有點silly的後續問題，為什麼我們不能輕鬆地訓練模型來解決這個問題呢？如果Tokenization是根本限制，為什麼我們不直接加入一些額外的步驟，比如將一個詞按字元拆分，然後在字元周圍加入一些buffer，讓模型以計算單詞字母為訓練任務來訓練模型？或者說，問題實際上是在於獲取單詞並在那個過程中拆分它？

Jack:不，我認為如果你建立一個任務，一個強化學習任務，即使模型目前在Tokenization方面存在問題，需要拼寫單詞，需要數字母，模型仍然可以學會可靠地完成這項任務。而且我認為，這並不是人們專門策劃的任務，因為它確實是一個很奇怪的任務。但是，是的，這確實是解決問題的另一種方法。

Logan:Jack，你是否可以介紹一下推理技術創新的時間線？我的個人感受是，看到我們在過去兩三個月裡取得的巨大進步，我感到非常興奮，而且我認為很多內部人員也有同感。

Jack:你可以把時間撥回到十月份，那時我們組建了一個專注於“思考”的團隊，整合了許多推理模型。但實際上，甚至在那之前，我想指出的是，我們在去年一整年都在Gemini中融入了很多非常酷的基於強化學習的推理技術。我們從DeepMind一些頂尖的推理研究團隊那裡獲得了很多基礎技術。最初我們只是把大家召集起來，重新分組，確立了我們的“北極星”目標，以及我們將如何協同工作，然後就開始行動了。我們在十月份啟動，我想說，到十一月份，我們對所取得的進展感到非常驚訝，我們致力於推動更深入的“思考”研究，即在模型給出回覆之前進行更多思考，並採用更優的強化學習方法。我們看到在數學、科學、技術、工程和數學、編碼、多模態等領域的能力都得到了顯著提升。所以當時大家都很興奮，因為一切都在朝著好的方向發展，將大家聚集在一起是非常有價值的。

我和Nome對整個項目都感覺非常好。然後問題就來了，我們是否有可能在今年發佈一個足夠好的模型？我們覺得這是有可能的，儘管當時項目才啟動大約四周。所以我們繼續推進。到十二月中旬，我們有了一個感覺可以放心發佈的模型。我們希望它是一個實驗性模型，以獲得一些真實的開發者反饋。我們也認為使用者會非常樂於使用這個模型。它是免費、快速且高性能的。所以我們就發佈了那個模型。在假期期間，我們收到了很多反饋，並且持續迭代模型方案。到一月中旬，我們實際上有了一個明顯更出色的模型，我們認為它在很多關鍵領域都得到了顯著改進，並緩解了一些開發者反饋的問題。那時，我們整個團隊都感到士氣高漲。我感覺，將大家聚集在一起進行實驗的策略奏效了。大家都能感受到強勁的發展勢頭。我們發佈了那個模型，我認為使用者很喜歡它。它還具備工具使用、更長的上下文窗口以及其他一些使用者非常欣賞的功能。現在這個團隊，我認為，它像一個真正的整體，我們士氣高昂，動力十足。我們感覺我們已經發佈的模型已經是“昨天的舊聞”了，我們期待著未來發佈更多令人興奮的新版本。

GA 思維模型的方向

Logan:開發人員的反饋之一是，這個反饋在我們所有模型的版本迭代中都很常見，不只是推理模型。所以，Jack，不必有壓力，大家都期待正式發佈GA（GeneralAvailability通用可用性）版本。他們覺得模型很棒，我們試用後也認為這是一個積極的訊號，表明我們正在做的事情受到了外界的認可。從研究角度來看，你認為正式發佈GA版本的時間表是怎樣的？或者說，從研究角度，我們是在修復最後的Bug收尾階段，還是在性能指標上繼續努力？對於FlashThinking模型而言，通往正式發佈GA的路徑是怎樣的？

Jack:我們希望為使用者提供更優秀的正式發佈GA模型，這是重中之重。在研究方面，我們有很多方向性的改進想要實現。同時，模型的穩定性也至關重要。正式發佈GA版本對我們至關重要，因為使用者顯然希望以這個模型為基礎進行建構，並將其作為穩定的基石，正式發佈GA版本是關鍵。所以，正式發佈GA版本已在規劃中。

Logan:您和團隊是如何權衡這種平衡的？比如，回顧三個月前，11月份的時候，似乎沒人預料到我們會在幾周內發佈正式發佈GA版本。但現在情況突然轉變，在你們出色地完成了模型開發之後，重心轉向“我們需要盡快發佈，讓大家基於它進行開發”。你們是如何看待探索性研究與模型產品化、提升模型能力這兩者之間存在的張力的？

Jack:我認為需要對不同團隊進行職能劃分。核心研究團隊就像高速列車，不會減速。我們需要找到方法，將研究成果移交給專門的團隊，讓他們負責後續的發佈工作。對我們而言，保證核心研究持續高速推進至關重要，模型發佈不應拖慢研究的節奏。所以，關鍵是嚴格劃分職能。這有點像軟體開發，可以設立主分支和實驗性分支。實驗性分支可以定期合併主分支的更新，同時保持自身開發工作的持續進行。我個人是這樣理解的。

Logan:我認為，無論是外部開發者生態，還是內部AI Studio團隊，以及Gemini應用團隊，都在討論一個有趣的話題：思考模型的使用者體驗應該是怎樣的？當模型開始“思考”時，響應時間不可避免會延長。過去兩年，大家一直關注首個Token響應時間、延遲等指標。但FlashThinking模型的出現，似乎顛覆了這種傳統思路。現在，我們反而希望模型能“靜下心來，好好思考”。我想知道，從研究角度來看，在探索思考模型的全新使用者體驗方面，還有那些工作要做？對於開發者而言，在考慮如何基於這類模型建構產品，以及如何應對模型固有的行為特點時，您有什麼想法或建議嗎？

Jack:關於思考模型的使用者體驗，一些重要的研究問題確實與我們願意投入多少“思考預算”相關。目前，Flash Thinking模型會根據訓練情況自主決定思考的程度和時長。模型會力求高效，儘可能減少思考，但在需要時也會增加思考量。但未來，這可能無法為使用者提供充分的控制。我們希望模型能夠實現“可操控”，例如，使用者可以設定“思考預算”，以T恤尺碼（小、中、大）或具體的數值（如Token預算）來定義思考量。這是一個研究與產品體驗交叉的領域，我們正在積極探索，而且我認為非常有趣。另一個研究方向是關於“提前終止思考過程”。使用者可能不介意模型長時間思考，但希望能隨時中斷思考，並讓模型在當前狀態下，盡力給出最佳答案。我認為這是一個非常有價值的功能，目前模型還不具備，我們希望未來有機會探索實現。我同意你的看法，對於思考模型而言，除了提升模型性能的研究外，產品體驗本身也是一個持續演進的研究領域。我們需要不斷探索，才能發現使用者期望思考模型以何種方式呈現。目前，最佳的解決方案還不清楚。這些想法對您有所啟發嗎？

Logan:我還有一個補充問題，是關於人機協作的。我想知道，從訓練或模型的角度來看，是否有可能引導模型主動與使用者互動？例如，當模型判斷“僅靠自身思考無法取得進展”時，主動向使用者請求更多輸入？你認為未來我們會探索這種人與模型之間的互動模式嗎？

Jack:我在網上看到有人說，很多人發現在使用推理模型時，為了避免模型誤解提問或提問者自身表述不清，在模型長時間思考前，明確提示模型先提出幾個澄清問題，這樣做非常有用。因此，我認為必須提示模型這樣做有點笨拙，我們應該訓練模型使其更自然地在適當時候主動提問。我是這樣認為的，多輪互動式訓練非常重要。

Logan:我想請教一個高層次的問題，或者說一個觀點，希望聽聽你的看法。我們最近推出了Gemini2.0Flash，並將其定位為“為智能體時代建構的模型”，這成為了新聞頭條。我感覺推理模型正是我們實現“建構AI智能體”這一使命的關鍵。從你目前所看到的情況來看，你認為這種說法有多正確？如果我們放棄所有在推理方面的努力，我們還有可能建構出世界所期望的智能體能力嗎？或者說，推理是否真的是實現智能體的必經之路？

推理模型驅動 AI Agent

Jack:是的，我深信如此。我認為，對於建構有用的智能體能力而言，推理能力至關重要，原因有二：首先是可靠性。在智能體應用場景中，模型需要執行大量的操作，並且要確保每個操作都正確無誤，儘管其中許多操作可能非常簡單。我認為，在智能體應用中，模型的可靠性至關重要。目前的大語言模型，即使在自然語言文字生成方面，可靠性也並不高。它們經常出現幻覺或小錯誤。我認為，除了追求模型能力的極限之外，推理以及我們正在研究的思維訓練方法，還可以顯著提升模型的可靠性。模型可以在行動之前進行思考，並在“思維空間”中發現並糾正錯誤，然後再將其付諸“行動空間”。這是推理的價值之一。

其次是複雜問題的解決能力。智能體要發揮作用，還需要能夠解決非常複雜和開放式的問題。為了實現這一目標，模型需要在真正開始執行第一個動作之前，充分理解要做什麼以及為什麼要做。模型可能需要進行大量的思考，尤其是在編寫軟體庫或處理其他重要任務時。因此，我認為智能體能力與思考和推理能力是緊密相連、不可分割的。

Logan:Jack，在一月份發佈的模型中，有一個亮點是，該模型在LMS評測中排名第一。LMS作為使用者偏好的一個代表，在業界備受關注。你對此有何看法？你認為使用者為什麼更喜歡這個模型？是因為我們改變了模型的個性或行為嗎？你能詳細談談嗎？

Jack:是的，我認為，在思考研究和後訓練方法中，我們投入了大量精力來提升模型在各種推理基準上的表現，幾乎沒有花時間去最佳化模型以迎合人類偏好。因此，有趣的是，模型在LMS評測中表現更好了。在某些方面，比如編碼和需要大量推理的謎題類難題，模型性能提升顯著，這或許可以理解。此外，與去年12月份的模型相比，一月份發佈的模型在訓練後，輸出文字長度更長，也更健談，平均生成更多的tokens和文字。我認為，這可能給使用者一種更健談、內容更豐富的印象。我並不認為模型在個性或風格上發生了根本變化，它仍然像是Flash模型的風格，但內容更加豐富，能夠更詳細地解釋事物，並生成更多文字。這也許是使用者偏好提升的原因之一。但實際上，我們並沒有刻意針對風格進行最佳化，也沒有使用任何LMS指標來指導最佳化。看到模型在LMS評測中取得進步固然是好事，但我們關注的基準還有很多。

Logan:這實際上是一個很好的引言，可以過渡到我一直在思考的一些事情，這些事情是基於您之前就模型進展以及與此平行的大量評估指標的快速飽和所做的評論，而這些評估指標在歷史上一直被我們視為模型質量的代表。我很好奇，並且圍繞這個問題正在進行一場大型辯論，隨著過去幾個月出現的所有新模型。但是，從評估的角度來看，您認為我們未來6到12個月會走向何方？就像我們是否真的需要，你知道，需要編寫評估擴展定律，然後由生態系統實際執行，以確保我們有一種方法來評估這些模型的能力。

Jack:評估正變得越來越具有挑戰性。我認為看到像Scale這樣的機構為社區貢獻評估標準，真的很棒，例如他們最近贊助了類似人文科學期末考試的評估。他們過去也做過其他基準，比如Seal。而且，是的，我認為關鍵在於，我們確實需要一些獨立的第三方來建立真正有挑戰性的評估，這些評估最好能夠反映我們在AI領域真正關注的實際應用。我認為SweetBench是另一個很好的例子，它有效地推動了編碼智能體的能力發展，並將其融入到一個基準測試中，這個基準測試非常具有挑戰性，我們也看到了由此帶來的進步。所以，是的，未來6到12個月情況會如何發展呢？我的意思是，作為一個對技術進步速度非常樂觀的人，我確實認為，未來某些模型將不得不開始在實際任務中接受評估，這些任務不能再是簡單的或純學術性的基準，它們應該真正成為衡量實際應用價值的指標，甚至本身就應該是有實際用途的。

所以，我不太清楚這具體會如何演變，但你知道，我們期望這些模型在未來能夠達到SweetBench所設定的軟體工程師的專業水平，如果真的達到了，我們又該如何衡量模型的進步呢？我認為我們或許需要將標準提升到頂尖軟體工程師的水平，而新的基準，也應該只有頂尖的軟體工程師才能真正完成。然而，我個人甚至樂觀地認為，在未來12個月內，我們就能超越這個標準。到那時，我真的不知道該如何評估這些模型了。

也許我們不得不依靠AI模型自身來評估其他模型，或者採用其他類型的評估方法，可能更像是遊戲化的大語言模型協同競技，讓它們共同建構一些東西，或者採用其他類似的機制，因為模型評估肯定會變得越來越難。我不知道你是否也注意到了這一點，當我在X平台上瀏覽資訊流時，關於那些模型優秀、那些模型糟糕，總是充斥著各種完全矛盾的看法，而且這些看法往往基於非常主觀的、零散的互動體驗。還有很多人似乎熱衷於進行個人評估，並在網上分享他們自己評估結果的柱狀圖。雖然我們不清楚這些評估的具體內容，但他們似乎很喜歡用這些圖來表達自己對特定模型優劣的判斷。所以，我也不知道你是否也對此感到困惑？

Logan:我認為，對我而言，最大的挑戰之一在於，目前缺乏一個統一的平台，可以全面瞭解全球所有AI模型的狀況。我們現在看到的模型資訊，就像是時間軸上的一個個孤立的點，或者僅僅是在特定時間節點上的表現，這些資訊反而讓情況變得更加難以理解。我感覺，我自己也有同感，我們看到的只是某個模型在特定方面的性能、一些零散的評測結果，或者僅僅是在特定應用領域內的表現。而我實際上並不清楚，為了達成這些性能，模型在其他方面做了那些權衡和犧牲，或者除了我們看到的，模型還能實現那些其他功能。所以我覺得，我們需要對模型的能力進行更多基於實踐的檢驗。也許可以考慮舉辦人工智慧奧林匹克這樣的活動。我只是隨便想想，看看有沒有可能找到一種方法，讓所有人都能直觀地瞭解模型的真實能力。

而且我認為，奧林匹克這個比喻，雖然聽起來有點像玩笑，但實際上相當合理，因為它提供了一個公平的競爭平台。奧林匹克的規則和流程都非常透明。你可以觀察比賽的全過程，所有細節都清晰可見。但我感覺，現在很多模型評估工作都是在不公開的情況下進行的，普通使用者很難清楚地瞭解評估的具體過程和最終結果。因此，我認為，隨著模型能力的不斷增強，未來評估結果的透明度和可解釋性將變得至關重要。

Jack:是的。我也想知道，評估指標（evals），目前我們使用評估指標在內部幫助我們，指導研究，然後我們也對外使用它們，也許幫助人們理解能力。在未來的某個時候，隨著模型變得越來越強大，外部溝通評估指標的意義可能會逐漸降低，而且人們可能會非常清楚地認識到，就像，人們將會瞭解實際的應用成果，而這將是他們理解這些實用性的方式。因此，例如，與其我們說，這個在數學方面真的很好。它在數學方面取得了出色的成果，不如說，人們正在使用像Gemini模型這樣的模型，並且他們已經取得了許多數學突破，這些突破震驚了數學界，而且這種情況現在幾乎每周都在發生，並且已經成為常態。然後，Gemini模型再次改進了它們，然後這導致了一個特別的新突破，正在生物學或其他領域產生深遠影響。所以我感覺這可能是人們理解進步水平的另一種非常有趣的方式，而不是總是那種柱狀圖和關於這些預設的特定基準的數字。

Logan:Jack，我認為DeepMind一直是強化學習領域的前沿研究實驗室，實際上已經有十年歷史了。你是在2014年加入DeepMind的，我記得你提到過那是你最初加入的時間。我們在這個領域已經深耕多年。我認為在外部，我的看法是大家都認為推理能力將會實現。我很好奇，DeepMind內部是否也這樣認為？而且，考慮到我們在強化學習領域的深厚積累，為什麼我們沒有率先發佈第一個推理模型呢？

Jack:你知道，我們為自己設定了非常高的標準，力求在各個方面都做到領先。事實上，我們一直以來都掌握著許多核心要素，並且這些要素在去年以一種非常有趣的方式運作。我們擁有一批世界頂級的強化學習人才。他們致力於研究用於推理的強化學習，並將許多非常出色的成果應用於Gemini模型，顯著提升了模型的推理能力，這非常棒。我認為，如果我們當時的目標是爭奪第一，我們可能應該減少在其他方向上的探索，集中力量擴展在推理方向上的研究。儘管如此，一旦我們明確了協作方向，行動就變得非常迅速。在一個月內，我們不僅取得了一系列演算法突破，還迅速發佈了第一個實驗性模型。它是免費且快速的，使用者可以方便地使用。我們積極收集使用者反饋，並在假期期間不斷最佳化模型，收集更多反饋，最終在一月中旬發佈了第二個模型。團隊的研發勢頭非常強勁，我認為大家確實找對了方向，並且在正確的領域進行研究。我們只需要重新調整團隊的研究重心，然後協同快速推進，而我們最終也做到了這一點。

Logan:Jack，這次對話真的很有意思。說實話，我們目前在推理方面所做的一切工作都令人驚嘆。請繼續保持這種出色的工作狀態。期待與你合作發佈更多模型。感謝你今天抽出時間參與這次對話。

Jack:謝謝你Logan。我也很榮幸能參與這次對話。

Logan:感謝收聽本期節目。本期節目就到這裡，感謝大家的收聽，我們下期再見。 (數字開物)