近年來,我們所需的計算類型和運行它們的硬體正在發生巨大變化。大規模計算、資料和模型規模不斷擴大,為我們帶來更好的結果。機器學習徹底改變了我們對電腦可能性的期望,而演算法和模型架構的改進也帶來了巨大的進步。
基礎建構塊:神經網路與反向傳播
神經網路是由人工神經元組成的,這些神經元鬆散地設計為模模擬實神經元的行為。而反向傳播(使用鏈式法則)是更新神經網路權重以最小化訓練資料錯誤的有效演算法。
2012年:規模的重要性
Le等人在2012年的研究表明,使用16,000個CPU核心訓練非常大的神經網路(比之前最大的神經網路大60倍)可以顯著提高品質(ImageNet 22K最先進水平提高約70%)。同年,Dean等人提出了分佈式訓練方法,結合模型平行和資料平行,使得訓練比以前大50-100倍的神經網路成為可能。
2013年:分佈式詞表示的力量
Word2Vec模型展示了詞的分佈式表示的強大功能:(1)高維空間中相近的詞具有相關性,如貓、美洲獅、老虎等都很接近;(2)方向具有意義,如"國王-王后≈男人-女人"。
2014年:序列到序列模型
使用神經編碼器處理輸入序列生成狀態,然後用該狀態初始化神經解碼器的狀態。擴大LSTM規模,這種方法效果很好。
2015年:神經網路推理專用硬體
Google開發了張量處理單元(TPU):
2016年:神經網路訓練專用超級電腦
將數千個晶片通過定製高速網路連線在一起(TPU pods),以實現更快的神經網路訓練。硬體性能和能效持續擴展,從TPU v2到Ironwood,能效提高了約30倍。與此同時,開源工具如JAX、PyTorch和TensorFlow使整個社區受益。
2017年:Transformer模型架構
Vaswani等人提出的"注意力機制"(Attention is All You Need)不再試圖將狀態強制到單一循環分佈式表示中,而是保存所有過去的表示並關注它們。這帶來了更高的精準性,同時計算量減少10-100倍,模型大小減少10倍。
2018年:大規模自監督語言建模
利用世界上大量文字進行自監督學習,提供了非常大量的訓練資料,其中"正確"答案是已知的("錯誤猜測"用於提供梯度下降損失訓練訊號)。不同類型的訓練目標包括:
這種在大型模型上進行的文字自監督學習是聊天/語言模型如此強大的主要原因之一。
2021年:視覺Transformer
Alexey Dosovitskiy等人表明Transformer架構也可以用於圖像識別。
2017-2024年:稀疏模型(專家混合)
Shazeer等人的工作表明,稀疏模型優於密集模型。通過擁有更多專家但每個token只啟動少數選定專家,可以:(A)在相同精度下訓練計算成本減少約8倍,或(B)在相同訓練計算成本下顯著提高精度。Gemini 1.5 Pro/2.0/2.5都使用了專家混合(MoE)架構,建立在Google研究團隊關於稀疏模型的長期研究基礎上。
2018年:分佈式ML計算的軟體抽象
Pathways系統簡化了運行大規模計算,使得單個Python處理程序可以驅動整個訓練過程。現在,這一技術也向雲客戶開放,使單個JAX客戶端可以查看和使用多達10萬個晶片。
2022年:推理時"更長思考"的有用性
"思維鏈提示"(Chain of Thought prompting)等技術表明,在推理任務上,提示模型"展示其工作"可以顯著提高精準性。
2014年:蒸餾技術
使用強大的"教師"模型來製作更小、更便宜的"學生"模型。教師模型提供更豐富的訓練訊號,使學生模型嘗試匹配大模型的"軟機率分佈"。
2022年:推理時的多種平行方案
分佈式推理計算的正確選擇受到批處理大小或延遲約束等因素的嚴重影響。
2023年:推測解碼
使用小型"起草者"模型預測下一個K個token,然後用大型模型一次性預測下一個K個token(更高效:批次大小為K而非1),並根據大小為K的前綴中匹配的token數量推進生成。
從硬體(TPU系列)、軟體抽象(Pathways)、模型架構(Word2Vec、Seq2Seq、Transformers、MoEs)到訓練演算法(無監督和自監督學習、蒸餾)和推理演算法(思維鏈、推測解碼),創新發生在多個層次。
項目於2023年2月啟動,目標是訓練世界上最好的多模態模型,並在Google各個方面使用它們:
Gemini從一開始就是多模態的,建構在前面描述的許多創新基礎上:TPU、跨資料中心訓練、Pathways、JAX、詞的分佈式表示、Transformers、稀疏專家混合、蒸餾等。
Gemini 1.5增加了上下文長度(現在可以處理多達1000萬個token)並提高了上下文清晰度,從而減少了幻覺並支援上下文內學習。
Gemini 2.5 Pro是目前最強大的模型,在多個排行榜上排名第一,包括LMSYS、LiveBench、Humanity's Last Exam、SEAL等。使用者普遍喜歡其功能,特別是對程式碼的長上下文能力非常有幫助。
Gemini項目涉及許多不同領域的貢獻者,包括預訓練、後訓練、裝置上模型、資料、基礎設施、服務、評估、程式碼庫以及長期研究等核心領域,還有能力、安全、視覺、音訊、程式碼、代理和國際化等領域。
約1/3的人員在舊金山灣區,1/3在倫敦,1/3在其他地方(紐約、巴黎、波士頓、蘇黎世、班加羅爾、特拉維夫、西雅圖等)。時區問題很煩人,加州/西海岸和倫敦/歐洲之間的"黃金時段"很重要。
項目通過Google Chat Spaces進行大量討論和資訊共享,通過RFC(請求意見稿)獲取反饋,瞭解其他人的工作。排行榜和通用基線使決策更加資料驅動,通過多輪實驗、小規模實驗、成功實驗擴展到下一個規模,以及定期(每隔幾周)將最大實驗規模下的成功實驗納入新的候選基線。
儘管做出最大努力,但考慮到ML系統的規模和ML訓練作業的規模,硬體錯誤仍然可能發生,有時一個有缺陷的晶片的錯誤計算可能會擴散並感染整個訓練系統。ML控製器可以透明地處理靜默資料損壞(SDC),通過SDC檢查器自動識別SDC,將訓練移至熱備份,並將有缺陷的機器送去維修。
Gemini展示了許多能力,包括:
一個由高級電腦科學家和AI新星組成的團隊(來自學術界、大型科技公司和初創公司)提出了在針對公共利益的AI研究和政策努力的情況下可能產生的影響,而不是預測在自由放任方法下AI的社會影響。
他們的研究"塑造AI對數十億人生活的影響"提出了五個針對公共利益AI的指導方針:
1. 人類和AI系統作為團隊工作可以做更多事情:
2. 為增加就業,應該在創造更多就業機會的領域提高生產力:
研究提出了幾個領域的AI里程碑:
1. 教育AI里程碑:全球導師
2. 醫療保健AI里程碑:廣泛醫療AI
3. 資訊AI里程碑:公民話語平台
4. 科學AI里程碑:科學家的AI助手/合作者
AI模型和產品正在成為令人難以置信的強大和有用的工具,進一步的研究和創新將繼續這一趨勢。它們將在許多不同領域產生巨大影響:醫療保健、教育、科學研究、媒體創作、錯誤資訊等。如果做得好,我們的AI輔助未來是光明的。 (AI Prime)