Google沒有護城河，美國也沒有

2025/04/04

•

兩年前，Google內部喊出「我們沒有護城河，OpenAI也沒有」。當時，他們擔心的是Meta剛剛發布的開源模型Llama。如今，更擔心的是以DeepSeek為代表的中國開源勢力。美國也沒有護城河，在AI領域的優勢，正被淹沒到最後的塔尖。

這周，DeepSeek與Google都更新了自己的基礎模型，都將推理增強融入其中。前者的新版V3（DeepSeek-V3-0334），參數規模從6710億微增至6850億，不是推理模型，勝似推理模型。後者的Gemini-2.5-Pro，仍處於實驗版階段，桑達爾·皮查伊（ Sundar Pichai ）稱之為前沿「思考」模型。

推理模型與基礎模型相互獨立，或許只是階段的產物。OpenAI就曾放風說，即將發表的GPT-5，會是GPT-4.5與o3的融合。但DeepSeek與Google行動更快，新版V3與Gemini 2.5 Pro，都將重點落在了提升模型推理與編碼能力之上。只不過，前者不算是版本大更新，沒有思維鏈，是對基礎模型的推理能力的增強；後者是一次大更新，有思維鏈，是將推理能力完全融入了基礎模型。

DeepSeek強調了新版V3對推理、前端開發、中文寫作與搜尋的優化。在科學、數學與程式碼等領域，新版V3相較3個月前的初版，提昇明顯，與剛發布不久的GPT-4.5不相上下，並全面超越了Claude-Sonnet-3.7。它的數學與程式碼能力，在與可比較對象的基準測試中，排名第一。

在新版V3發布後不久，模型託管與分析機構Artificial Analysis稱之為目前得分最高的非推理模型，標誌著開放權重模型首次成為領先的非推理模型，“這比R1更令人印象深刻，暗示R2將是另一個重要的飛躍。”不過，非營利研究機構AI2的後訓練負責人Nathan Lambert則認為，在目前，推理模型已經有與程度的概念已經區別的概念。

隔日，Google發表了Gemini 2.5 Pro。它的命名看起來是基礎模型，儘管沒有像以往那樣，直接冠以 Flash Thinking 的後綴，但它有思維鏈。在官方公佈的基準測試成績中，它在常見的編程、數學和科學基準測試中均處於領先地位；除了編程，其他所有項目都強於o3-mini。它的「思考」能力，來自顯著增強的基礎模型和改進的後訓練的結合。未來，Google將把這類思考能力，直接建構到旗下的所有的模型中。

要論思考能力，沒有思維鏈的新版V3，仍然不如有思維鏈的Gemini-2.5-Pro。由於發佈時間過於接近，雙方都沒有在官方測評結果中將對方納入對比；但是，兩者都在GPQA鑽石級、AIME2024兩項基準中，與GPT-4.5做了對比，且後者在兩份榜單中的成績一致。

在科學領域的GPQA鑽石級測評中，Gemini-2.5-Pro得分84，新版V3得分68，GPT-4.5得分71；在數學領域的AIME2024測評中，Gemini-2.5-Pro得分92，新版V3得分59，GPT- 4.537 。在基準測試中，新版V3離Gemini-2.5-Pro有點距離。

不過，回歸應用場景，考慮性價比，新版V3仍充滿競爭力。今年可能是人類程式設計能力被AI永久超越的一年。人們對新版V3的興奮點之一，就是低成本的編碼能力的提升。它的API通話價格，每百萬token輸入/輸出價格0.14美元/0.28美元，而水平相近的Claude-Sonnet-3.7需要3美元/15美元。Gemini-2.5-Pro目前只對月費20美元的高級用戶開放，規模應用定價策略尚未公佈。新版V3同樣開源，可以微調與商用；甚至可以本地部署於蘋果最新的基於M3 Ultra 的 Mac Studio，每秒跑出20個token。

新版V3提升了程式碼執行效率，以及網頁和遊戲前端的設計感；工具使用能力也變得更為智慧。有用戶拿Gemini-2.5-Pro與DeepSeek-V3-0324製作小遊戲（提示詞：在一個html檔案中製作完整的工作象棋遊戲），前者寫了570行代碼，後者寫了2372行。行數不是比較代碼能力的優秀標準，但該用戶試用了兩個模型製作小遊戲後，發現Gemini製作的“象棋AI對手超級笨”，DeepSeek的“非常聰明，還有音效等等”。

Gemini-2.5-Pro與新版V3，本身之於各自公司的重要性就不一樣。Gemini-2.5-Pro對於Google的意義，在於它是僅次於跨入下一代前沿模型（Gemini 3）的一次大更新；它作為Gemini 2.5家族的代表第一個亮相，拉滿了市場對那些原本基於Gemini 2的模型或應用性能提升的期望。而DeepSeek並沒有將新版V3當成V3.5來發布，有什麼，就向開源社區分享什麼；它也沒有論文。

Google擁有最強大的AI應用生態。它們需要更強大的模型的支援，以提供更好的AI使用者體驗。 Google已經基本完成了追趕OpenAI等前沿模型，甚至開始出現反超。Gemini-2.5-Pro剛推出，就登頂了Arena排行榜的第1，而且領先優勢巨大。

今年，Google將Deep Research從Gemini 1.5 Pro升級Gemini 2.0 Flash Thinking，將Gemini 2的多模態理解能力擴展至Gemini Robotic-ER 的實體智慧推理，將Gemini 2.0 Flash升級至原生影像功能。它在圍堵OpenAI。相應的，OpenAI也一邊拚命將大模型能力產品化，一邊努力實現垂直整合，自研晶片、自建資料中心；GPT-4o原生影像功能在拖延了近一年後終於上線。

但是，這一切都建立在閉源的生態環境中。正如Google在兩年前面對Llama的衝擊，認為自己與 OpenAI 都沒有護城河，如今美國這一套閉源創新的生態，面對中國開源AI的瘋狂蔓延，也沒有護城河。

DeepSeek掀起了中國企業的開源潮流，為美國AI的商業化帶來了巨大的壓力。開源、高效的DeepSeek與Qwen模型，正在全球滲透、複製與應用，包括美國與印度。中國的大模型正在大幅降價，「內捲」可能不會盡興，外卷的架勢已經拉開。大量AI應用可以基於更高性價比的智能，頻繁試錯，規模落地。阿里巴巴蔡崇信昨日就匪夷所思，美國居然真的有人在談論數以千億美元計的資本開支。

反觀美國，目前，Meta下一代開源模型Llama4，似乎被近幾個月的開源衝擊搞亂了陣腳，遲遲沒有任何消息；xAI的Grok 3要等下一代模型成熟才能開源，主要靠馬斯克在X上的吆喝。

美國在開源模型上行動遲緩，已經引發華盛頓圈的反思，擔心如果中國開發的開源模型主導全球市場，全球計算生態可能會轉向中國的晶片架構和計算框架。這一切正在悄悄發生，HuggingFace最受歡迎的就是中國開源模式。也許很快，中國將最前沿模型開放原始碼的趨勢，將從大型語言模型擴展至具身智慧等模型，推動先進製造的產業升級。

Gemma 3 是Google最新的開源嘗試，它是基於Gemini 2.0的，曾是全球最好的非推理開源模型，但領先優勢僅僅保持了不足兩周，就被新版V3超越。 DeepSeek證明Google沒有護城河，也逐步證明了美國更沒有，它的優勢越來越成為一種暫時的領先，而且就像實力接近的比賽一樣，與對手呈現出交錯領先的局面。（未盡研究）