Google:人工智慧的重要趨勢:回顧、現狀與未來展望

人工智慧的重要發展趨勢

近年來,我們所需的計算類型和運行它們的硬體正在發生巨大變化。大規模計算、資料和模型規模不斷擴大,為我們帶來更好的結果。機器學習徹底改變了我們對電腦可能性的期望,而演算法和模型架構的改進也帶來了巨大的進步。

Jeff Dean(Google Research & Google DeepMind 首席科學家)ETH蘇黎世演講(2025年4月14日)摘要

機器學習的十五年進展歷程

基礎建構塊:神經網路與反向傳播

神經網路是由人工神經元組成的,這些神經元鬆散地設計為模模擬實神經元的行為。而反向傳播(使用鏈式法則)是更新神經網路權重以最小化訓練資料錯誤的有效演算法。

2012年:規模的重要性

Le等人在2012年的研究表明,使用16,000個CPU核心訓練非常大的神經網路(比之前最大的神經網路大60倍)可以顯著提高品質(ImageNet 22K最先進水平提高約70%)。同年,Dean等人提出了分佈式訓練方法,結合模型平行和資料平行,使得訓練比以前大50-100倍的神經網路成為可能。

2013年:分佈式詞表示的力量

Word2Vec模型展示了詞的分佈式表示的強大功能:(1)高維空間中相近的詞具有相關性,如貓、美洲獅、老虎等都很接近;(2)方向具有意義,如"國王-王后≈男人-女人"。

2014年:序列到序列模型

使用神經編碼器處理輸入序列生成狀態,然後用該狀態初始化神經解碼器的狀態。擴大LSTM規模,這種方法效果很好。

2015年:神經網路推理專用硬體

Google開發了張量處理單元(TPU):

  • TPU v1(2015年):92兆次運算/秒(僅用於推理)
  • 與當時的CPU和GPU相比:TPU v1速度快15-30倍,能效高30-80倍

2016年:神經網路訓練專用超級電腦

將數千個晶片通過定製高速網路連線在一起(TPU pods),以實現更快的神經網路訓練。硬體性能和能效持續擴展,從TPU v2到Ironwood,能效提高了約30倍。與此同時,開源工具如JAX、PyTorch和TensorFlow使整個社區受益。

2017年:Transformer模型架構

Vaswani等人提出的"注意力機制"(Attention is All You Need)不再試圖將狀態強制到單一循環分佈式表示中,而是保存所有過去的表示並關注它們。這帶來了更高的精準性,同時計算量減少10-100倍,模型大小減少10倍。

2018年:大規模自監督語言建模

利用世界上大量文字進行自監督學習,提供了非常大量的訓練資料,其中"正確"答案是已知的("錯誤猜測"用於提供梯度下降損失訓練訊號)。不同類型的訓練目標包括:

  • 自回歸(看前綴,預測下一個詞)
  • 填空(雙向查看,如BERT)

這種在大型模型上進行的文字自監督學習是聊天/語言模型如此強大的主要原因之一。

2021年:視覺Transformer

Alexey Dosovitskiy等人表明Transformer架構也可以用於圖像識別。

2017-2024年:稀疏模型(專家混合)

Shazeer等人的工作表明,稀疏模型優於密集模型。通過擁有更多專家但每個token只啟動少數選定專家,可以:(A)在相同精度下訓練計算成本減少約8倍,或(B)在相同訓練計算成本下顯著提高精度。Gemini 1.5 Pro/2.0/2.5都使用了專家混合(MoE)架構,建立在Google研究團隊關於稀疏模型的長期研究基礎上。

2018年:分佈式ML計算的軟體抽象

Pathways系統簡化了運行大規模計算,使得單個Python處理程序可以驅動整個訓練過程。現在,這一技術也向雲客戶開放,使單個JAX客戶端可以查看和使用多達10萬個晶片。

2022年:推理時"更長思考"的有用性

"思維鏈提示"(Chain of Thought prompting)等技術表明,在推理任務上,提示模型"展示其工作"可以顯著提高精準性。

2014年:蒸餾技術

使用強大的"教師"模型來製作更小、更便宜的"學生"模型。教師模型提供更豐富的訓練訊號,使學生模型嘗試匹配大模型的"軟機率分佈"。

2022年:推理時的多種平行方案

分佈式推理計算的正確選擇受到批處理大小或延遲約束等因素的嚴重影響。

2023年:推測解碼

使用小型"起草者"模型預測下一個K個token,然後用大型模型一次性預測下一個K個token(更高效:批次大小為K而非1),並根據大小為K的前綴中匹配的token數量推進生成。

多層次創新

從硬體(TPU系列)、軟體抽象(Pathways)、模型架構(Word2Vec、Seq2Seq、Transformers、MoEs)到訓練演算法(無監督和自監督學習、蒸餾)和推理演算法(思維鏈、推測解碼),創新發生在多個層次。

Gemini:整合這些進展

項目於2023年2月啟動,目標是訓練世界上最好的多模態模型,並在Google各個方面使用它們:

  • Gemini 1.0:2023年12月
  • Gemini 1.5:2024年2月(展示了1000萬token上下文窗口)
  • Gemini 2.0:2024年12月
  • Gemini 2.0 Thinking:2025年1月
  • Gemini 2.5:2025年3月(2.5 Pro發佈),2025年4月(2.5 Flash推出)

Gemini從一開始就是多模態的,建構在前面描述的許多創新基礎上:TPU、跨資料中心訓練、Pathways、JAX、詞的分佈式表示、Transformers、稀疏專家混合、蒸餾等。

Gemini 1.5增加了上下文長度(現在可以處理多達1000萬個token)並提高了上下文清晰度,從而減少了幻覺並支援上下文內學習。

Gemini 2.5 Pro是目前最強大的模型,在多個排行榜上排名第一,包括LMSYS、LiveBench、Humanity's Last Exam、SEAL等。使用者普遍喜歡其功能,特別是對程式碼的長上下文能力非常有幫助。

組織大規模科學努力

Gemini項目涉及許多不同領域的貢獻者,包括預訓練、後訓練、裝置上模型、資料、基礎設施、服務、評估、程式碼庫以及長期研究等核心領域,還有能力、安全、視覺、音訊、程式碼、代理和國際化等領域。

約1/3的人員在舊金山灣區,1/3在倫敦,1/3在其他地方(紐約、巴黎、波士頓、蘇黎世、班加羅爾、特拉維夫、西雅圖等)。時區問題很煩人,加州/西海岸和倫敦/歐洲之間的"黃金時段"很重要。

項目通過Google Chat Spaces進行大量討論和資訊共享,通過RFC(請求意見稿)獲取反饋,瞭解其他人的工作。排行榜和通用基線使決策更加資料驅動,通過多輪實驗、小規模實驗、成功實驗擴展到下一個規模,以及定期(每隔幾周)將最大實驗規模下的成功實驗納入新的候選基線。

大規模訓練的挑戰:靜默資料損壞

儘管做出最大努力,但考慮到ML系統的規模和ML訓練作業的規模,硬體錯誤仍然可能發生,有時一個有缺陷的晶片的錯誤計算可能會擴散並感染整個訓練系統。ML控製器可以透明地處理靜默資料損壞(SDC),通過SDC檢查器自動識別SDC,將訓練移至熱備份,並將有缺陷的機器送去維修。

這些模型能做什麼?

Gemini展示了許多能力,包括:

  • 上下文學習:卡拉曼語翻譯(一種僅由東印度尼西亞巴布亞約130人使用的語言)
  • 視訊理解與總結
  • 歷史資料數位化
  • 通過高級語言進行程式碼生成
  • 推理時計算為質量擴展提供了另一個維度

現在我們擁有這些強大的模型,這意味著什麼?

一個由高級電腦科學家和AI新星組成的團隊(來自學術界、大型科技公司和初創公司)提出了在針對公共利益的AI研究和政策努力的情況下可能產生的影響,而不是預測在自由放任方法下AI的社會影響。

他們的研究"塑造AI對數十億人生活的影響"提出了五個針對公共利益AI的指導方針:

1. 人類和AI系統作為團隊工作可以做更多事情:

  • 專注於人類生產力的AI比專注於替代人類勞動的AI產生更多積極效益
  • 增加人類就業能力
  • 人們可以作為AI在未經良好訓練的領域偏離軌道時的保障
  • 人和AI往往會犯不同的錯誤,因此專家與AI的合作也可以改善結果

2. 為增加就業,應該在創造更多就業機會的領域提高生產力:

  • 儘管在計算和客機方面取得了巨大的生產力提升,但2020年美國的商業航空飛行員比1970年多8倍,程式設計師多11倍
  • 對乘客旅行和程式設計的需求是彈性的⇒更多工作
  • 美國農業需求缺乏彈性,因此生產力提高⇒更少的工作(從1940年到2020年,美國勞動力從20%降至2%)

研究提出了幾個領域的AI里程碑:

1. 教育AI里程碑:全球導師

  • 為每個孩子加速一般教育的輔導工具
  • 使用他們的語言、文化和最佳學習方式
  • 幫助教師應對支援不同能力學生的挑戰

2. 醫療保健AI里程碑:廣泛醫療AI

  • 從多種資料模式學習:圖像、實驗室結果、健康記錄、基因組學、醫學研究等
  • 可以幫助執行多樣化的任務:床邊決策支援、與出院後患者互動、起草放射學報告等
  • 可以使用書面或口頭文字和圖像解釋建議

3. 資訊AI里程碑:公民話語平台

  • 調解對話或態度以增強公眾理解和公民話語
  • AI系統提出如何更外交地重新表述評論和問題的建議
  • AI系統與陰謀論者進行討論
  • AI系統可以幫助在整個人口中就困難問題達成共識

4. 科學AI里程碑:科學家的AI助手/合作者

  • 通過提高科學家的生產力來加速科學處理程序
  • 幫助提出有趣的假設並自動化實驗
  • 識別重要的新相關研究,理想情況下為個人定製,總結與科學家已知內容相比的新內容

結論

AI模型和產品正在成為令人難以置信的強大和有用的工具,進一步的研究和創新將繼續這一趨勢。它們將在許多不同領域產生巨大影響:醫療保健、教育、科學研究、媒體創作、錯誤資訊等。如果做得好,我們的AI輔助未來是光明的。 (AI Prime)