11月25日,Google DeepMind首席科學家 Jeff Dean在史丹佛 AI 俱樂部發表演講。本次演講 Jeff Dean全面復盤了過去 15 年 AI 技術的關鍵轉折點,探討了算力硬體與模型架構的協同進化、計算範式從 CPU 向TPU的必然轉移、大規模深度學習系統的工程哲學、Transformer 架構的效率革命、自監督學習與多模態模型的崛起,以及 AI 在數學推理與科學研究中的前沿應用。Jeff Dean 指出,機器學習在過去十年徹底重塑了計算能力的邊界。這種變革並非單點突破,而是“規模”與“演算法”的乘數效應。他詳細拆解了 Google Brain 早期的工程決策,指出為了突破算力瓶頸,團隊採用了在數學上看似“完全不成立”的非同步訓練方法,這種工程實踐最終被證明是實現大規模神經網路訓練的關鍵。他還特別強調了硬體演進的底層邏輯:Google 研發 TPU 並非為了追求單純的算力堆疊,而是被“1億使用者每天使用3分鐘語音識別”這一實際算力缺口倒逼出的架構創新,他強調,硬體的演變不僅僅是速度的提升,更是為了適應低精度線性代數運算的本質需求。在模型架構層面,Jeff Dean 深入剖析了從 LSTM 到 Transformer 的範式跨越,並提出了當前前沿模型的一個關鍵共識:現代大模型(如 Gemini)本質上應是“稀疏”的。他指出,處理單一任務時啟動整個網路是巨大的資源浪費,通過稀疏架構僅啟動 1%-5% 的參數,可以在算力成本不變的前提下實現性能的指數級躍升。此外,他還探討了自監督學習如何利用海量文字資料進行“填空訓練”,以及在後訓練階段如何通過強化學習和蒸餾技術進一步提升模型的安全性和推理能力。01. 計算範式的重構:從通用 CPU 到機器學習專用算力的演進Jeff Dean:今天我想和大家探討AI 領域的重要趨勢,主要是回顧過去 15 年左右的發展,以及這些進展是如何緊密結合,從而建構出我們今天所擁有的現代高能力模型的。這展示了 Google 許多人的工作成果,其中一些也源自其他地方,我有時只是一個信使,有時是合作者,也是其中部分技術的開發者。首先有幾個觀察。我認為在過去十年左右,機器學習已經完全改變了我們對電腦能力的預期。十年前,你無法獲得非常自然的語音識別體驗,也無法與電腦流暢對話。它們在圖像識別或理解視覺內容方面表現不佳,也並不真正理解語言。發生的變化是,我們發現了一種特定的基於深度學習的方法範式,也就是神經網路。隨著我們擴大規模,增加算力確實帶來了極好的結果。在這個過程中,我們開發了真正新穎且有趣的演算法和模型架構,這些改進也帶來了巨大的提升。這些因素通常能很好地結合,因此更大的規模配合更好的演算法,往往能發揮出更優異的效果。另一件在整個計算行業產生重大影響的事情是,我們想要運行的計算類型以及運行這些計算的硬體已經發生了巨大變化。十五年前,你主要關心 CPU 有多快,也許關心它有多少個核心,能否快速運行 Microsoft Word 和 Chrome 或傳統的手工編寫程序。而現在你關心的是:它能在各種不同的約束條件下運行有趣的機器學習計算嗎?02. 你需要一百萬倍的算力才能製作出真正好的神經網路讓我們快速回顧一下機器學習 15 年來的進步。神經網路被證明是一個相對古老的想法。這種在邊緣具有權重並可以學習識別特定模式的人工神經元概念,實際上非常重要。與之相結合,反向傳播作為一種學習邊緣權重的方法被證明是關鍵所在,因為這樣你就可以根據擁有的一些錯誤訊號,對整個網路進行端到端學習。這是我在 1990 年,也就是大四那年第一次瞭解神經網路時的情況。我當時非常興奮,心想:“這是一個如此偉大的抽象概念,這將非常棒。我們可以建構真正偉大的模式識別系統並解決各種問題。”我當時激動地說:“我要寫一篇關於神經網路平行訓練的畢業論文。”我最終做的是嘗試使用系裡的 32 處理器機器而不是單台機器,我想我們將能夠建構真正令人印象深刻的神經網路。我基本上在這台時髦的基於超立方體架構的機器上實現了現在所說的神經網路資料平行和模型平行訓練,然後觀察加入更多處理器時它是如何擴展的。結果證明我完全錯了。你需要一百萬倍的算力才能製作出真正好的神經網路,而不是僅僅 32 倍。這是一個有趣的練習,但結果表明當時的算力規模遠不足以支撐這一概念。2012 年,我在 Google 的茶水間碰到了 Andrew Ng。我問他:“嗨 Andrew,你在這裡做什麼?”他說:“我開始每周在 Google 花一天時間。我還沒完全搞清楚要做什麼,但我在 Stanford 的學生開始在各種語音問題上用神經網路取得不錯的結果。”我說:“那很酷,我們應該訓練真正大規模的神經網路。”這就是 Google Brain 項目的起源:我們如何利用海量計算來擴展神經網路的大規模訓練?那時我們的資料中心實際上沒有加速器,只有大量擁有許多核心的 CPU。我們最終建構了名為 DistBelief 的軟體抽象,這最終支援了模型平行以及資料平行。03. 非同步訓練悖論:“這在數學上完全不成立,但結果證明它有效”事實上,我們對模型的多個副本進行了這種時髦的非同步訓練。在用一批資料進行每一步訓練之前,其中一個副本會下載當前的參數集,它會全力處理這批資料的訓練並計算梯度更新,即 ΔW,並將其傳送給參數伺服器,然後參數伺服器會將 ΔW 累加到當前的參數狀態中。這在數學上完全不成立,因為與此同時,所有其他模型副本也在計算梯度並將它們非同步地加入到這組共享的參數狀態中。這讓很多人感到緊張,因為它實際上不符合理論上的做法,但結果證明它有效。我們建構了系統,讓模型的 200 個副本都非同步地運轉並更新參數,效果相當不錯。我們還有模型平行,可以將非常大的模型劃分到許多電腦上。這個系統使我們在 2012 年能夠訓練比以前任何人訓練過的規模都要大 50 到 100 倍的神經網路。它們現在看起來真的很小,但在那時我們非常興奮。04. 無監督學習的湧現:“它從未被教過貓是什麼,卻自己總結出了貓的概念”我們使用這個系統做的第一件事就是後來聞名的“貓論文”,我們從隨機的 YouTube 視訊中提取了 1000 萬個隨機幀,並僅僅使用一個無監督目標函數來學習一種表示,然後用它來重建每一幀的原始像素。學習目標有點像是試圖最小化給定輸入幀的重建誤差。你不需要任何標籤,事實上,系統從未看到過無監督部分的任何標記資料。我們發現,在這個模型的頂層,最終會得到對圖像是否包含不同種類的高級概念敏感的神經元。即使它從未被教過貓是什麼,也有一個神經元,你能給它的最強刺激就是像貓臉一樣的東西。它只是通過接觸這些資料就自己總結出了貓的概念。還有針對人臉、行人背部或類似事物的其他神經元。也許更重要的是,我們在較為冷門的 ImageNet 22,000 類別基準測試上獲得了現有技術的巨大提升。大多數人競爭的是 1,000 類別那個。我們當時想,讓我們做 22,000 類別的那個。我們在現有技術上獲得了 70% 的相對提升。我們還證明,如果做無監督預訓練,實際上在精準性上獲得了相當顯著的增加。05. 從詞向量到 LSTM 的序列預測我們也開始思考語言,並研究如何獲得單詞的良好分佈式表示。與其將單詞表示為離散的符號,我們希望為每個單詞建立一個類似神經網路的表示,然後能夠學習這些表示,以便最終得到代表系統中每個單詞或短語的高維向量。如果你這樣做並且擁有大量訓練資料,也就是你需要用來訓練的原始文字,你會發現當訓練完成後,在高維空間中位置相近的單詞都是相當相關的,比如 Cat、Puma 和 Tiger 都在附近。但也很有趣的是,我們發現方向是有意義的。如果你對這些向量進行減法運算,你會發現改變單詞性別的方向是相同的,例如無論你是從 King 開始還是從 Man 開始。你最終能夠做到這一點,還有針對動詞過去時和動詞將來時的其他方向,那確實有點有趣。然後我的同事 Ilya Sutskever、Oriol Vinyals 和 Quoc Le 致力於使用 LSTM,即循環長短期記憶模型,來解決一個特別好的問題抽象,也就是你有一個序列,並使用它來預測另一個不同的序列。結果證明這在世界上有各種各樣的用途,包括翻譯。如果你看到足夠多的英語-法語句子對並使用這個基於序列到序列的學習目標,那麼你最終會得到一個相當高品質的翻譯系統。結果證明你也可以將此用於各種其他事情。06. 硬體倒逼軟體:為瞭解決一億人的語音識別需求而誕生 TPU隨著我們在將神經網路用於語音識別、視覺和語言等各種有趣領域獲得越來越多的成功,我們開始意識到的另一件事是——我做了一個粗略的估算。我們剛剛研發出一個真正高品質的語音識別模型,雖然還沒有推出,但我們可以看到它的錯誤率比 Google 當前運行在資料中心的生產級語音識別系統低得多。我說:“如果語音識別變得好很多,人們將會想要更多地使用它。所以如果 1 億人想要開始每天對著他們的手機說三分鐘話怎麼辦?”結果證明,如果我們想要在 CPU 上運行這個高品質模型,也就是我們當時在資料中心擁有的硬體,我們將需要將 Google 擁有的電腦數量增加一倍,僅僅為了推出這個改進的語音識別功能。我說:“我們真的應該考慮專用硬體,因為我們可以通過建構專用硬體來利用神經網路計算的各種優良屬性。”特別是它們非常容忍極低精度的計算。你不需要 32 位浮點數。我們當時研究的所有神經網路本質上都只是密集線性代數運算的不同組合,如矩陣乘法、向量點積等等。如果你能建構真正擅長低精度線性代數的專用硬體,那麼突然之間你可以擁有效率高得多的東西。我們開始與一組晶片設計者和電路板設計者合作。在 2015 年,我們最終擁有了 TPU v1,即張量處理單元,它真的是設計來加速推理的,並部署到了我們的資料中心。我們做了一系列實證比較,結果表明它比當時的 CPU 和 GPU 快 15 到 30 倍,能效高 30 到 80 倍。與同一組人合作,我們意識到我們也想研究訓練問題,因為推理是一個不錯的小規模問題,但對於訓練,它是一個規模大得多的問題。所以我們開始圍繞擁有低精度、高速定製網路和一個可以將高級計算對應到實際硬體上的編譯器的想法,來設計機器學習超級電腦。最終我們推出了一系列 TPU 設計,這些設計逐漸變得越來越快,規模越來越大。我們最近的一個叫做 IronWood。這個系統的 Pod 叢集大小是 9,216 個晶片,都連接在一個 3D 環面網路中,擁有相當大的頻寬和容量。07. Transformer 革命:少10倍計算量換取更高精準性另一件已經發生的事情是開源工具真正賦能了整個社區。我們開發並開源了 TensorFlow,隨後 PyTorch 和 JAX 也相繼出現,這些框架在很多方面真正賦能了整個社區。在 2017 年,我的幾位同事致力於這個基於注意力的機制,建立在一些早期關於注意力的工作之上,但提出了這個非常棒的架構,它現在是你今天看到的那些令人興奮的語言模型的核心。他們的觀察實際上是:不像 LSTM 那樣,在 LSTM 中你有一個詞,你通過更新內部狀態來消耗那個詞,然後繼續處理下一個詞;他們的觀察是,不要試圖把所有那些狀態強制壓縮排一個每一步都更新的向量中。相反,讓我們保存經過的所有狀態,然後讓我們能夠在任何試圖根據過去的上下文做某事的時候,關注所有的狀態。這真的是《Attention Is All You Need》這篇論文標題的核心。他們能夠展示的是,你可以用少 10 到 100 倍的計算獲得高得多的精準性,並且在這種情況下,用小 10 倍的模型(這是對數尺度上的參數數量)對於一個語言模型來說,可以將 Loss 降低到一個特定的水平。他們能夠展示的是,Transformer 基礎模型中少 10 倍的參數會讓你達到那個效果,而且在論文的其他資料中,他們展示了計算量減少了 10 到 100 倍。08. 自監督學習:利用海量文字的填空遊戲是現代語言模型的核心另一個超級重要的發展僅僅是使用自監督資料的大規模語言建模。世界上有海量的文字。基於這些文字的自監督學習可以給你幾乎無限數量的訓練樣本,其中正確的答案是已知的,因為你有一些從模型的視野中移除的詞,然後你試圖預測那個詞。這有幾種不同的形式。一種是自回歸的,你可以向左看並嘗試根據在那之前看到的所有詞來預測下一個詞是什麼。例如“Stanford [空白]”,“Stanford [空白] University”,“Stanford is a [空白] University”。你為這個詞做一個猜測。所以你投入到做這種事情的所有努力使得模型能夠利用所有這些上下文並做出越來越好的預測。還有另一個你可以使用的目標,你可以看左邊和右邊更多的上下文,只是試圖猜測缺失的詞。如果你玩過填詞遊戲,它有點像那樣。“The Stanford [空白] Club”,“ [空白] together [空白] and Computer [空白] enthusiasts”。其中一些你可能可以猜到,其中一些更難猜。但這真的是在文字上做自監督學習的關鍵,這是現代語言模型的核心。結果證明你也可以將這些基於 Transformer 的模型應用於電腦視覺。我的另一組同事研究了我們如何做到這一點。他們再次發現,對於不同大小的配置,使用大約少 4 到 20 倍的計算量,你可以達到最好的結果。再次強調,演算法改進在這裡產生了很大的不同,因為現在突然之間你可以訓練大得多的模型或使用更少的計算來獲得相同的精準性。這是Jeff Dean演講實錄的下半部分,涵蓋了稀疏模型、Pathways架構、後訓練技術(蒸餾與強化學習)、Gemini模型的具體突破以及對未來的展望。09. 僅啟動1%的參數,在同等精準度下實現8倍算力效率提升我和幾位同事共同倡導並組建了一個小團隊,致力於研究稀疏模型。我們認為,在普通的神經網路中,處理每一個輸入示例都需要啟動整個模型,這無疑是一種巨大的資源浪費。如果能建構一個規模極其龐大的模型,並讓其中的不同部分專精於不同類型的任務,效果會優越得多。這樣,當你呼叫模型中所需的特定“專業知識”時,只需啟動整體模型中極小的一部分,比如在進行任何給定的預測時,可能只呼叫了模型總參數量的 1% 到 5%。我們要再次強調,在同等精準度水平下,這帶來了算力效率的重大飛躍。相關資料曲線顯示,在保持相同精準度的前提下,訓練成本算力降低了約 8 倍。換個角度看,你也可以利用這些節省下來的算力預算,在成本不變的情況下訓練出一個性能更優的模型。隨後,我們繼續在稀疏模型領域進行了大量深入研究,因為我們堅信這一方向至關重要。事實上,大家今天所熟知的大多數前沿模型,例如 Gemini 模型,本質上都是稀疏模型。為了支援更多結構獨特且複雜的稀疏模型,我們開始建構計算抽象層。這允許我們將有趣的機器學習模型對應到硬體上,而研究人員無需過多操心計算的具體部分位於何處。Pathways 是我們建構的一個系統,其設計初衷就是具備極高的可擴展性,從而簡化這些超大規模訓練計算的運行。假設每一個計算單元都是一個 TPU Pod,在 Pod 內部的晶片之間存在超高速網路連線,但有時你需要運行一個跨越多個 Pod 的任務。此時,Pathways 的核心作用之一就是編排所有這些計算資源,包括本地資料中心網路、園區網路甚至跨越大都會區域的長距離鏈路。作為機器學習研究員,你不必思考應該使用那條網路鏈路。系統會在最佳時間選擇最佳路徑,並自動處理故障,比如應對某個晶片或 Pod 當機等突發情況。Pathways 提供的一個重要抽象層位於 JAX 之下,即 Pathways 執行階段系統。這使得我們可以讓單個 Python 處理程序看起來像是一個擁有 10,000 個裝置而非僅有 4 個裝置的 JAX 程式設計環境。你可以使用所有標準的 JAX 機制來表達想要在所有這些裝置上運行的計算任務。10. 知識蒸餾的威力:僅用3%的訓練資料即可逼近全量資料效果我的另一組同事則致力於研究如何通過更好的模型提示來引匯出更優質的答案。他們的觀察是,在進行自監督學習時,教師模型會給出缺失單詞的機率分佈。事實證明,當學生模型出錯時,利用這個分佈可以提供比單一答案豐富得多的資訊。因為缺失的詞很可能是小提琴、鋼琴或小號,但極不可能是飛機。這種豐富的訊號實際上能讓模型學得更快、更輕鬆。特別是在這篇論文中,我們展示了一個語音資料集的案例,試圖正確預測音訊幀中的聲音。基準情況是,如果使用 100% 的訓練集,在測試幀上可以達到 58.9% 的精準率。但如果只使用 3% 的訓練資料,精準率會大幅跌落至 44%。然而,如果利用蒸餾過程產生的軟目標,即便只用 3% 的訓練資料,也能達到 57% 的精準率。這就是為什麼蒸餾是一項如此關鍵的技術。因為你可以先訓練一個超大規模的模型,然後利用蒸餾技術,將其能力遷移到一個小得多的模型上,最終得到一個高品質的小模型,其性能非常接近大模型。11. 強化學習進階:在數學和程式碼等可驗證領域,模型能夠自我探索並超越人類資料進入 2020 年代後,業界開始在後訓練階段大量應用強化學習。一旦你基於自監督目標訓練好了一個模型,你會希望鼓勵模型表現出符合預期的行為模式。例如在回覆風格方面,你可以給予它強化學習反饋,或者提供有禮貌的示例並進行微調。此外,你還可以通過向模型展示如何處理更複雜的問題來增強其能力。這些訊號來源多種多樣。一種是基於人類反饋的強化學習(RLHF),利用人類對模型輸出的反饋讓模型逼近人類獎勵訊號所期望的行為。另一種是基於機器反饋的強化學習,利用另一個“獎勵模型”來提供反饋。但在數學或程式碼等可驗證領域中的強化學習可能最為重要。在這裡,你可以讓模型嘗試生成數學問題的解,假設是一個證明,由於這是一個可驗證的領域,你可以運行傳統的證明檢查器來驗證模型生成的證明。證明檢查器會判定證明正確,或者指出在第 73 步出錯。當模型推理正確時,給予正向獎勵。同樣的方法也適用於程式碼生成,程式碼能編譯通過給予獎勵,如果能編譯並通過單元測試則給予更高獎勵。當你有一系列問題讓模型嘗試解決並根據結果給予獎勵時,模型就能真正探索潛在的解決方案空間。隨著時間推移,它探索該空間的能力會越來越強。12. Gemini 的多模態突破綜上所述,我們在 Google 一直致力於研發 Gemini 模型,它將許多上述理念融合成了非常有趣的模型。我們開展 Gemini 項目的目標是訓練世界上最優秀的多模態模型,並將其應用於 Google 的全線產品,同時也開放給外部開發者。我們希望它從一開始就是多模態的,即能夠接受各種不同模態的輸入,也能產生多種模態的輸出。我們一直在增加更多的模態支援,包括生成視訊、音訊等內容的能力。我們堅信超長上下文長度的重要性,這樣模型就能查閱大量輸入片段,並對其進行推理、總結或回顧。Gemini 2.0 在某種程度上建立在這些理念之上,是一個能力相當強的模型。為了展示數學推理能力的發展程度,我們今年使用 Gemini 1.5 Pro 的一個變體參加了國際數學奧林匹克競賽,去年我們也參加了,但今年是一個純語言模型系統。我們在六道題目中正確解決了五道,這相當於金牌水平的得分。這是問題描述,這是我們模型的輸入,這是模型能夠生成的輸出。推理過程很長,評委們很欣賞我們解法的優雅,最終我們完成了論證,Q.E.D.。回想 2022 年時,我們還在試圖解決“約翰有四隻兔子,又得到了兩隻,他現在有幾隻?”這樣的問題,現在靜下心來欣賞這些模型在數學推理能力上走了多遠,確實令人感慨。13. 從程式碼生成到多模態食譜轉換,AI 正在模擬人類思維過程本周早些時候,我們發佈了 Gemini 1.5 Pro 模型。它在眾多基準測試中表現優異,特別是我們在 LM Arena 中排名第一,這是一種很好的非基準測試評估方法,顯示了模型在盲測中普遍比其他模型更受使用者青睞。真正的突破之一是我們在 Web 開發風格的程式碼生成上,相比早期模型有了巨大飛躍。例如,輸入“Gemini 滑板”或“Gemini 衝浪”,模型實際上是在編寫程式碼來生成這些動畫場景。你可以給這些模型非常高層的指令並讓它們編寫程式碼。雖然不總是成功,但當它奏效時,那種神奇的感覺非常棒。另一個很好的例子是多模態能力的綜合運用。使用者可以將一大堆各種語言(韓語、英語)的食譜照片輸入模型,要求翻譯並轉錄,然後建立一個雙語網站。模型不僅完成了轉錄,還為網站生成了漂亮的配圖和程式碼,最終生成了一個包含食譜的可用網站。這結合了模型的多種能力,最終生成了某種有用的東西。我們也推出了更好的圖像生成模型。例如,你可以輸入“將這張藍圖變成房子外觀的 3D 圖像”,或者拿原始的《Attention Is All You Need》論文配圖,要求在每一個不同的點註釋發生的重要方面。此外,Nano-Banana 項目展示了在中間圖像層面進行推理的能力。問題是“告訴我球會落在那個桶裡”,模型使用圖像一步一步解決它,某種程度上模擬了人類的思維過程:首先球滾到那裡,然後滾向另一邊到坡道三,最後落在 B 桶裡。14. AI 輔助的未來是光明的,但必須正視錯誤資訊等潛在風險總之,我希望你們看到,這些模型在各種不同的任務上正變得相當強大。進一步的研究和創新將延續這一趨勢。這將對眾多領域產生巨大的影響,特別是醫療保健、教育、科學研究、媒體創作以及錯誤資訊應對等。它有潛力讓真正的深度專業知識觸達更多人。想想那些編碼的例子,許多沒有受過程式設計訓練的人,可以獲得電腦的輔助,他們的願景可以幫助他們為食譜或其他任何東西生成有趣的網站。如果利用得當,我認為我們 AI 輔助的未來是光明的。但我並非完全無視風險。像錯誤資訊這樣的領域是潛在的關注點。實際上,John Hennessy、Dave Patterson 和我,以及其他幾位合著者去年寫了一篇論文,探討了所有這些不同領域,並採訪了這些領域的專家,詢問他們的意見,以及我們如何確保在獲得醫療、教育和科學研究等驚人益處的同時,又能最小化來自錯誤資訊或其他方面的潛在負面影響。 (數字開物)