谷歌向微軟英特爾全面宣戰！首款自研Arm CPU，最強大模型公測，AI視訊對壘Sora

2024/04/10

•

昨晚的Google Cloud Next 2024大會上，Google接連放出一堆模型和產品王炸：Gemini 1.5 Pro公開可用、上線音頻處理能力；代碼模型CodeGemma上新，首款自研Arm處理器Axion正式向微軟和亞馬遜宣戰……這次，Google要以量取勝。

昨天的GoogleNext大會可是太精彩了，Google一連放不少炸彈。

- 升級「影片版」Imagen 2.0，下場AI視訊模型大混戰

- 發佈時Sora光環掩蓋的Gemini 1.5 Pro，正式開放

- 首款Arm架構CPU發布，全面對壘微軟/亞馬遜/輝達˙/英特爾

此外，Google的AI超算平台也進行了一系列重大升級——最強TPU v5p上線、升級軟體存儲，以及更靈活的消費模式，都讓谷歌雲在AI領域的競爭力進一步提升。

連放大招的谷歌，必不會在這場AI大戰中退讓。

來自OpenAI跳槽的研究員Logan Kilpatrick，在第一時間也轉發了Gemini 1.5 Pro的訊息。看得出來，他已經是真真正正的Google員工了

在短短兩個月內，Google一鍵將多種前緣模型引入Vertex AI，包括自家的Gemini 1.0 Pro、輕量級開源模型Gemma，以及Anthropic的Claude 3。

Gemini 1.5 Pro，人人可用了！

傳說中的Google最強殺器Gemini 1.5 Pro，已經在Vertex AI上開放公測了！

開發者們終於可以親自體驗到，前所未有的最長上下文視窗是什麼感覺。

Gemini 1.5 Pro的100萬token，比Claude 3中最大的200K上下文，直接高出了五倍！而GPT-4 Turbo，上下文也只有128K。

當然，超長上下文在無縫處理輸入資訊方面，仍有一定的限制。

但無論如何，它讓對大量資料進行本機多模態推理成為可能。從此，多海量的數據，都可以進行全面、多角度的分析。

自然而然地，我們可以正式用Gemini 1.5 Pro開發新的用例了。例如AI驅動的客戶服務智能體和線上學術導師，分析複雜的金融文件，發現文件中的遺漏，查詢整個程式碼庫，或自然語言資料集。

現在，已經有無數企業用Gemini 1.5 Pro真實地改變了自己的工作流程。

例如，軟體供應商思愛普用它來為客戶提供與業務相關的AI解決方案；日本廣播公司TBS用它實現了大型媒體檔案的自動元資料標註，極大提高了資料搜尋的效率；新創公司Replit，則用它更有效率、更快、更準確地產生、解釋和轉換程式碼。

加入音訊處理能力

不僅如此，Gemini 1.5 Pro現在增加了音訊功能。

它能處理音訊串流，包括語音和視訊中的音訊。

這直接就無縫打破了文字、圖像、音訊和視訊的邊界，一鍵開啟多模態檔案之間的無縫分析。

在財報電話會議中，一個模型就能對多種媒介進行轉錄、搜尋、分析、提問了。

Imagen 2.0能生影片了：4秒24幀640p

而且，這次Google也下場開卷AI模型了！

AI生圖工具Imagen，現在可以產生影片了。

只用文字提示，Imagen就能創造出即時的動態影像，幀率為每秒24幀，解析度達到360x640像素，持續時間為4秒。

谷歌表示，Imagen在處理自然景觀、食物圖像和動物等主題時，表現尤為出色。

它不僅能夠創造出一系列多樣的攝影角度和動作，還能確保整個序列的視覺一致性。

同時，這些動態影像也配備了安全過濾和數位浮水印技術。

圖像編輯

並且，Google對Imagen 2.0也升級了影像編輯功能，增加了影像修復、擴充、數位浮水印功能。

想把圖中這個男人去掉？一鍵圈出，他就沒了！而模型還自動補全了山上的背景。

想讓遠處的山高一點？ Imagen 2.0也能輕鬆做到。

另外，它還可以幫助我們擴大圖片邊緣，獲得更廣闊的視角。

而數位浮水印功能，由Google DeepMind的SynthID強力驅動。

這樣，使用者為就可以圖片和影片產生隱形浮水印，並且驗證它們是否由Imagen所產生。

全新程式碼模型CodeGemma發布，核心團隊華人佔6成

最新發布輕量級程式碼產生模型CodeGemma，採用的是與Gemma系列相同的架構，並進一步在超過5000億個程式碼Token上進行了訓練。

目前， CodeGemma已經全系加入Vertex AI。

論文網址：https://storage.googleapis.com/deepmind-media/gemma/codegemma_report.pdf

具體來說，CodeGemma共有三個模型檢查點（Checkpoint）：

CodeGemma 7B的預訓練版本（PT）和指令微調版本（IT）在理解自然語言方面表現出色，具有出眾的數學推理能力，並且在程式碼生成能力上與其他開源模型不相上下。

CodeGemma 2B則是SOTA的程式碼補全模型，可以進行快速的程式碼填入和開放式產生。

預訓練數據

CodeGemma的訓練資料包括了來自網頁文檔、數學和程式碼的5000億個Token（主要是英文）。

2B規模的模型完全使用程式碼進行訓練，而7B規模的模型則採用了80%程式碼外加20%自然語言的方式。

為了確保資料的質量，Google對資料集進行了去重和過濾，移除了可能影響評估的程式碼樣本和一些個人或敏感資訊。

此外，Google也對CodeGemma模型的預訓練採用了改良的中間填空（Fill-in-the-Middle, FIM）方法，以提升了模型的訓練效果。

具體可以分為兩種模式：PSM（前綴-後綴-中間）和SPM（後綴-前綴-中間）。

指令微調

透過讓模型接觸各種數學問題，可以提升它在邏輯推理和解決問題方面的能力，這對編寫程式碼來說是非常重要的。

為此，Google選用了多個主流的數學資料集進行監督微調，包括：MATH、GSM8k、MathQA，以及合成數學資料。

在程式碼方面，Google採用了合成程式碼指令的方法來創建資料集，用於後續的監督微調（SFT）和基於人類回饋的強化學習（RLHF）之中。

為了確保產生的程式碼指令資料既有用又準確，Google採取了以下方法：

- 範例產生：根據OSS-Instruct的方法，製作一系列獨立的問題與答案對；

- 後期過濾：利用大語言模型來篩選這些問題與答案對，評估它們的實用性和準確性。

程式碼補全

如表2所示，CodeGemma 2B在程式碼補全場景下展現了卓越的效能，尤其是在低延遲的表現上。

其中，推理速度更是比不少模型快了有2倍之多。

Python

HumanEval和Mostly Basic Python Problems的評估結果如表3所示。

與Gemma基礎模型相比，CodeGemma在程式設計領域的任務上表現明顯更強。

多種程式語言

BabelCode通常用來評估模型在多種程式語言中的程式碼產生效能，結果如表4所示。

語言處理能力

圖3展示了多個領域的效能評估結果，包括問答、自然語言處理以及數學推理。

可以看到，CodeGemma同樣有著Gemma基礎模型的自然語言處理能力，其PT和IT版本在性能上均優於Mistral 7B和Llama2 13B——分別領先了7.2%和19.1%。

進一步地，如表5所示，CodeGemma在數學推理方面，相較於同等規模的模型有著較優的表現。

推理建議

如圖4所示，在進行程式碼補全任務時，例如函數補全、註解文件字串產生或匯入模組建議，應依照一定的格式來設計輸入提示。

官宣自研Arm架構CPU處理器Axion

這次Next大會上，Google也正式宣布，將自研首款基於Arm的CPU。

據稱這款CPU處理器Axion，將提供比英特爾CPU更好的效能和能源的效率，其中效能提高50%，能源效率提高60%。

據悉，比起目前基於Arm的最快通用晶片，Axion的性能還要高出30%。

憑著這個新武器，Google也在AI軍備競賽中，正式向微軟和亞馬遜宣戰！

新CPU Axion，顯然是谷歌跟隨亞馬遜AWS和微軟Azure的動作——它也想自研處理器了。

Axion將幫助Google提高通用工作負載的效能，例如開源資料庫、Web和應用程式伺服器、記憶體快取、資料分析引擎、媒體處理和AI訓練。

由此，Google在開發新的運算資源方面，又向前邁進了一步。今年晚些時候，Axion就可用於雲端服務了。

AI軍備競賽加快，CPU重要性凸顯

對於AI軍備競賽來說，像Axion這樣的CPU至關重要，因為它能提升訓練AI模型所需的算力。

要訓練複雜的AI模型，就需要處理大型資料集，而CPU有助於更快地運行這些資料集。

要說此舉的最大的好處，無疑就是──省錢！

眾所周知，購買AI晶片的成本驚人，輝達˙的Backwell晶片，預計售價在3萬美元到4萬美元之間。

現在，Axion晶片已經在為YouTube 廣告、Google Earth引擎提供加持了。

而且，很快就可以在Google運算引擎、GoogleKubernetes引擎、Dataproc、Dataflow、Cloud Batch等雲端服務中使用。

不僅如此，原本在使用Arm的客戶，無需重新架構或重寫應用程式就可以輕鬆地遷移到Axion上來。

TPU v5p上線，與輝達˙合作加速AI開發

在此次Google Cloud Next 2024年會上，Google宣布：對自家超算平台進行大規模升級！

升級清單中的第一位，就是Google雲端的張量處理單元TPU v5p了。如今，這款客製化晶片全面向雲端客戶開放。

谷歌的TPU，一直被用作輝達˙GPU的替代品，用於AI加速任務。

作為下一代加速器，TPU v5p專門用於訓練一些最大、最苛刻的生成式AI模型。其中，單一TPU v5p pod包含8,960個晶片，是TPU v4 pod晶片數量的兩倍之多。

另外，Google雲端也將和輝達˙合作加速AI開發－推出配備H100的全新A3 Mega VM虛擬機，單晶片搭載高達800億個電晶體。

而且Google雲端也會將輝達˙最新核彈Blackwell整合進產品中，增強對高效能運算和AI工作負載的支持，尤其是以B200和GB200提供支援的虛擬機形式。

其中，B200專為「最苛刻的AI、數據分析和HPC工作負載而設計」。

而配備液冷的GB200，將為萬億參數模型的即時LLM推理和大規模訓練提供算力。

雖然現在萬億參數的模型還不多（少量幾個選手是SambaNova和谷歌的Switch Transformer），但輝達˙和Cerebras都在衝萬億參數模型硬體了。

顯然，他們已經預見到，AI模型的規模還會迅速擴大。

軟體

在軟體方面，Google雲端推出了JetStream，這是一款針對LLM的吞吐量和記憶體優化了的推理引擎。

這個新工具可以提高開源模型的單位美元效能，並與JAX和PyTorch/XLA框架相容，從而降本增效。

儲存大戰

此外，Google的儲存解決方案也不斷升級——不僅加速了AI訓練和微調，優化了GPU和TPU的使用，還提高了能源效率和成本效益。

此次，Google推出的Hyperdisk ML，顯著縮短了模型載入時間，提高了吞吐量，並對AI推理和服務工作負載進行了最佳化。

不僅支援每個儲存卷承載2,500個實例，還提供了高達1.2TiB/s的資料吞吐量，效能直接超越微軟和AWS。

已發布的Cloud Storage FUSE，可將基礎模型的訓練吞吐量提高2.9倍，效能提高2.2倍。

高效能平行檔案系統Parallelstore可將訓練速度提高到3.9倍，並將訓練吞吐量提高到3.7倍。

而專為AI模型量身定制的Filestore系統，允許在叢集中的所有GPU和TPU之間同時存取數據，將訓練時間縮短56%。

總之，這次Google超算的大規模更新表明，Google正在努力為客戶帶來實際的商業利益，創建無縫整合、高效可擴展的AI訓練和推理環境。(新智元)

參考資料：

https://cloud.google.com/blog/products/ai-machine-learning/google-cloud-gemini-image-2-and-mlops-updates

https://storage.googleapis.com/deepmind-media/gemma/codegemma_report.pdf

https://www.businessinsider.com/google-ramped-up-ai-competition-against-microsoft-amazon-2024-4

https://www.theverge.com/2024/4/9/24125074/google-axion-arm-cpu-ai-chips-cloud-server-data-center

https://blogs.nvidia.com/blog/nvidia-google-cloud-ai-development/

https://venturebeat.com/ai/google-upgrades-its-ai-hypercomputer-for-enterprise-use-at-cloud-next/