Google沒有護城河,美國也沒有

兩年前,Google內部喊出「我們沒有護城河,OpenAI也沒有」。當時,他們擔心的是Meta剛剛發布的開源模型Llama。如今,更擔心的是以DeepSeek為代表的中國開源勢力。美國也沒有護城河,在AI領域的優勢,正被淹沒到最後的塔尖。

這周,DeepSeek與Google都更新了自己的基礎模型,都將推理增強融入其中。前者的新版V3(DeepSeek-V3-0334),參數規模從6710億微增至6850億,不是推理模型,勝似推理模型。後者的Gemini-2.5-Pro,仍處於實驗版階段,桑達爾·皮查伊( Sundar Pichai )稱之為前沿「思考」模型。

推理模型與基礎模型相互獨立,或許只是階段的產物。OpenAI就曾放風說,即將發表的GPT-5,會是GPT-4.5與o3的融合。但DeepSeek與Google行動更快,新版V3與Gemini 2.5 Pro,都將重點落在了提升模型推理與編碼能力之上。只不過,前者不算是版本大更新,沒有思維鏈,是對基礎模型的推理能力的增強;後者是一次大更新,有思維鏈,是將推理能力完全融入了基礎模型。

DeepSeek強調了新版V3對推理、前端開發、中文寫作與搜尋的優化。在科學、數學與程式碼等領域,新版V3相較3個月前的初版,提昇明顯,與剛發布不久的GPT-4.5不相上下,並全面超越了Claude-Sonnet-3.7。它的數學與程式碼能力,在與可比較對象的基準測試中,排名第一。

在新版V3發布後不久,模型託管與分析機構Artificial Analysis稱之為目前得分最高的非推理模型,標誌著開放權重模型首次成為領先的非推理模型,“這比R1更令人印象深刻,暗示R2將是另一個重要的飛躍。”不過,非營利研究機構AI2的後訓練負責人Nathan Lambert則認為,在目前,推理模型已經有與程度的概念已經區別的概念。

隔日,Google發表了Gemini 2.5 Pro。它的命名看起來是基礎模型,儘管沒有像以往那樣,直接冠以Flash Thinking的後綴,但它有思維鏈。在官方公佈的基準測試成績中,它在常見的編程、數學和科學基準測試中均處於領先地位;除了編程,其他所有項目都強於o3-mini。它的「思考」能力,來自顯著增強的基礎模型和改進的後訓練的結合。未來,Google將把這類思考能力,直接建構到旗下的所有的模型中。

要論思考能力,沒有思維鏈的新版V3,仍然不如有思維鏈的Gemini-2.5-Pro。由於發佈時間過於接近,雙方都沒有在官方測評結果中將對方納入對比;但是,兩者都在GPQA鑽石級、AIME2024兩項基準中,與GPT-4.5做了對比,且後者在兩份榜單中的成績一致。

在科學領域的GPQA鑽石級測評中,Gemini-2.5-Pro得分84,新版V3得分68,GPT-4.5得分71;在數學領域的AIME2024測評中,Gemini-2.5-Pro得分92,新版V3得分59,GPT- 4.537 。在基準測試中,新版V3離Gemini-2.5-Pro有點距離。

不過,回歸應用場景,考慮性價比,新版V3仍充滿競爭力。今年可能是人類程式設計能力被AI永久超越的一年。人們對新版V3的興奮點之一,就是低成本的編碼能力的提升。它的API通話價格,每百萬token輸入/輸出價格0.14美元/0.28美元,而水平相近的Claude-Sonnet-3.7需要3美元/15美元。Gemini-2.5-Pro目前只對月費20美元的高級用戶開放,規模應用定價策略尚未公佈。新版V3同樣開源,可以微調與商用;甚至可以本地部署於蘋果最新的基於M3 UltraMac Studio,每秒跑出20個token。

新版V3提升了程式碼執行效率,以及網頁和遊戲前端的設計感;工具使用能力也變得更為智慧。有用戶拿Gemini-2.5-Pro與DeepSeek-V3-0324製作小遊戲(提示詞:在一個html檔案中製作完整的工作象棋遊戲),前者寫了570行代碼,後者寫了2372行。行數不是比較代碼能力的優秀標準,但該用戶試用了兩個模型製作小遊戲後,發現Gemini製作的“象棋AI對手超級笨”,DeepSeek的“非常聰明,還有音效等等”。

Gemini-2.5-Pro與新版V3,本身之於各自公司的重要性就不一樣。Gemini-2.5-Pro對於Google的意義,在於它是僅次於跨入下一代前沿模型(Gemini 3)的一次大更新;它作為Gemini 2.5家族的代表第一個亮相,拉滿了市場對那些原本基於Gemini 2的模型或應用性能提升的期望。而DeepSeek並沒有將新版V3當成V3.5來發布,有什麼,就向開源社區分享什麼;它也沒有論文。

Google擁有最強大的AI應用生態。它們需要更強大的模型的支援,以提供更好的AI使用者體驗。 Google已經基本完成了追趕OpenAI等前沿模型,甚至開始出現反超。Gemini-2.5-Pro剛推出,就登頂了Arena排行榜的第1,而且領先優勢巨大。

今年,Google將Deep Research從Gemini 1.5 Pro升級Gemini 2.0 Flash Thinking,將Gemini 2的多模態理解能力擴展至Gemini Robotic-ER的實體智慧推理,將Gemini 2.0 Flash升級至原生影像功能。它在圍堵OpenAI。相應的,OpenAI也一邊拚命將大模型能力產品化,一邊努力實現垂直整合,自研晶片、自建資料中心;GPT-4o原生影像功能在拖延了近一年後終於上線。

但是,這一切都建立在閉源的生態環境中。正如Google在兩年前面對Llama的衝擊,認為自己與OpenAI都沒有護城河,如今美國這一套閉源創新的生態,面對中國開源AI的瘋狂蔓延,也沒有護城河。

DeepSeek掀起了中國企業的開源潮流,為美國AI的商業化帶來了巨大的壓力。開源、高效的DeepSeek與Qwen模型,正在全球滲透、複製與應用,包括美國與印度。中國的大模型正在大幅降價,「內捲」可能不會盡興,外卷的架勢已經拉開。大量AI應用可以基於更高性價比的智能,頻繁試錯,規模落地。阿里巴巴蔡崇信昨日就匪夷所思,美國居然真的有人在談論數以千億美元計的資本開支

反觀美國,目前,Meta下一代開源模型Llama4,似乎被近幾個月的開源衝擊搞亂了陣腳,遲遲沒有任何消息;xAI的Grok 3要等下一代模型成熟才能開源,主要靠馬斯克在X上的吆喝。

美國在開源模型上行動遲緩,已經引發華盛頓圈的反思,擔心如果中國開發的開源模型主導全球市場,全球計算生態可能會轉向中國的晶片架構和計算框架。這一切正在悄悄發生,HuggingFace最受歡迎的就是中國開源模式。也許很快,中國將最前沿模型開放原始碼的趨勢,將從大型語言模型擴展至具身智慧等模型,推動先進製造的產業升級。

Gemma 3是Google最新的開源嘗試,它是基於Gemini 2.0的,曾是全球最好的非推理開源模型,但領先優勢僅僅保持了不足兩周,就被新版V3超越。 DeepSeek證明Google沒有護城河,也逐步證明了美國更沒有,它的優勢越來越成為一種暫時的領先,而且就像實力接近的比賽一樣,與對手呈現出交錯領先的局面。 (未盡研究)


最近長文
關於鉅亨號
「鉅亨號」是《Anue鉅亨網》以AI 大數據和推薦引擎所推出具影響力的自媒體社群平台,從投資理財為主題擴展到金融財經、房地產、汽車、數位虛擬貨幣、影音視頻及Podcast的數位生活圈。讀者可透過一面牆及個人化功能關注一天的大小事;對創作者而言更是一個直接能與1,000萬用戶互動的舞台。
最好用的投資平台,幫你找到最適合自己的標的
看真實的投資分享文章,跟隨達人腳步取得最佳利益
多元投資社群平台,掌握最新市場動態熱門議題