AI模型便宜100倍！矽谷AI圈瘋搶東方DeepSeek

2026/06/08

•

S.H.E 2007年發行的歌曲《中國話》裡面有一段歌詞：

好聰明的中國人，好優美的中國話......

全世界都在學中國話，

孔夫子的話，越來越國際化，

全世界都在講中國話，

我們說的話，讓世界都認真聽話。

時隔20年，AI時代下，DeepSeek梁文鋒又在全球“長臉”了。

如今，矽谷AI工程師都開始用DeepSeek，而非GPT-5.5，或Claude Opus模型。

Ramp 最新調查報告顯示，DeepSeek 首次登上了“軟體趨勢榜單”第一。

該榜單主要追蹤的是企業向某軟體供應商的首次採購情況，這也意味著DeepSeek成為該平台上增速最快的軟體之一。

主要原因在於，“美國AI太貴了”。而中國的DeepSeek-V4 Flash模型性價比高，API價格永久下調 75%、模型成本壓至行業新低。

怎麼形容呢，DeepSeek堪稱“AI界拼多多”，果然名副其實。

矽谷悄悄搶瘋了。

當前，Claude CoWork和Codex是最火的兩個軟體，也是我每天都在用的AI產品。

所以，我非常清楚，當前矽谷AI圈選擇DeepSeek的核心原因：

1、價格差距100倍。

有資料統計，矽谷開發工程師每個月跑Claude Opus 4.7模型，需要投入25000美金左右，而每百萬tokens價格是25美金。

但做同樣的業務，DeepSeek每百萬tokens成本才0.28美元，一個月才需要至少280美金。

你沒有看錯，模型成本便宜了100倍。

如果換成人民幣，主流價格差距在10–36倍左右。

反過來說，在同等快取輸入成本下，DeepSeek V4 Flash模型的價格只有Opus 4.7系列、GPT-5.5系列模型的1%左右，甚至不到1%。

但兩者的性能差距大概只有2%-3%而已。

甚至可以說，DeepSeek V4 Flash的快取能力、反饋速度、網際網路搜尋能力、DeepResearch深度搜尋能力，已經遠超Claude Opus。

至少，GPT-5.5在DeepResearch能力上，比 opus 強很多，opus基本不可用，它的搜尋能力幾乎無法用。

一個例證在於，如今，微軟已取消大部分內部 Claude Code 許可證，轉向 GitHub Copilot CLI，距首次開放該工具僅六個月。

Uber 同樣遭遇成本難題：其CTO稱，公司在 2026 年頭四月就花光了全年 AI 編碼工具預算，此前還通過內部排行榜激勵員工多用 AI。

這些案例折射出“更便宜 token、更高總帳單”的悖論。

高盛預測，代理式 AI 到 2030 年可能使每月 token 消耗升至 120 兆美元。輝達高管也表示，算力成本已遠超員工工資。即便單一 token 價格下滑，企業級 AI 部署的總支出仍在急劇攀升。

2、CC Switch的加注。

一般來說，Claude Code和Codex直接接入的都是自家模型。

但過去幾個月，在中美AI競爭下，兩個產品的帳號不約而同對國內市場進行限號措施，這也誕生了很多模型中轉站業務，也讓CC Switch這款產品異軍突起。

你可以理解，CC Switch是一個中轉站，通過本地host修改等方式，讓Agent產品直接接入DeepSeek、Qwen等第三方模型，有點類似於龍蝦接入不同的model方式。

本來上個月依然還是只能接入Claude。但5月底最新版發佈之後，除了Codex++，CC Switch終於穩定支援Codex接入DeepSeek，讓第三方模型能夠體驗到兩款頂級Coding Agent。

再加上V4系列、Qwen 3.6系列、Kimi K2.6系列模型開始支援AI Coding Agent。

因此，價格足夠低、開源、性能足夠強的DeepSeek-V4 Flash，成為矽谷AI圈爭搶關注的焦點。

根據openrouter資料，通過DeepSeek V4 Flash消耗的token總數超過了3.35兆。

真的是遙遙領先。

最近關於DeepSeek的還有兩個消息值得關注。

1、本周報導稱，DeepSeek 正準備在其首輪外部融資中籌集約 500 億元人民幣（約合 74 億美元）。

可能的估值：520億美元至590億美元。

投資者名單才是真正的焦點：騰訊和寧德時代有望成為最大的外部投資者。網易、京東等網際網路大廠也在洽談中。

而DeepSeek創始人梁文鋒或將投入200億元人民幣自有資金。

2、另一則算力消息補充了DeepSeek全貌。

6月5日，“深圳發佈”消息稱，深圳河套學院AI訓練平台項目團隊，聯合哈爾濱工業大學(深圳)、深圳市巨量資料研究院、華為有關團隊，協同深智城AI算力平台，面向國產算力大模型訓練開展聯合攻關。

依託昇騰910C國產AI算力叢集，完成1.6兆參數大模型DeepSeek-V4-Pro全參數後訓練。

換句話說，該團隊成功進行了模型“全參數”後訓練，這意味著模型的整個架構都得到了更新和改進，而沒有任何縮水或“偷工減料”。

雖然，國產晶片在支援人工智慧推理方面取得了成功，但這只是一個相對簡單的過程。

而大模型訓練，是一個更為複雜的過程，即建構或改進模型的“大腦”。

如果說初始“預訓練”是通過吸收大量資料來教會模型如何說話，那麼後訓練則是通過遵循人類指令、安全規則和特定任務來教會模型如何工作。

此前，訓練算力層面一直依賴NV卡，面臨諸多挑戰。

本質上來說，國產GPU和AI晶片裡面，除了昇騰之外，很少有真正實現“訓推一體”的技術能力，大部分依然是推理能力大於訓練能力。

所以，去年推理卡賣的不錯，本質還是企業不需要再花更多的錢訓練模型了，如何蒸餾、調優、做獎勵模型、做Infra等，才是核心。

今年4月發佈的DeepSeek V4系列模型，算力層面嗎採用了昇騰叢集與輝達叢集共同加持。

DeepSeek-V4報告指出，將工作負載約束轉化為晶片設計要求：記憶體、頻寬、功耗預算、通訊比率和低精度部署。

如今，新模型來了、新國產算力也來了，最後加上新一輪融資。

這意味著：DeepSeek未來不會再作為中國的一個探索型的AI實驗室。

當然，這並不意味著DeepSeek會取代OpenAI或Anthropic。

簡單來說，隨著企業對DeepSeek模型使用需求的上升，成本壓力正從開發者實驗轉移到企業預算。

Ramp Economics Lab 的首席經濟學家 Ara Kharazian 在周三的報告中指出，值得注意的是，美國公司直接向 DeepSeek 付款，這表明他們直接通過 DeepSeek 傳送和接收資料，而不是將 DeepSeek 的開源模型託管在自己的內部伺服器上。

“目前看來，企業似乎又回到了 DeepSeek 平台，”Kharazian 表示，並補充說他不會“過分誇大這一趨勢的持久性”。

如果將DeepSeek融資、算力最佳化、模型需求三點結合起來，情況就更清晰了：

DeepSeek 正在成為一個新的案例，檢驗稀缺計算資源能否實現經濟效益，國產晶片能否通過軟體最佳化縮小差距，以及中國廠商能否克服算力制約風險，將開發者採用轉化為企業實際支出。

所以，總結來說：

DeepSeek已經進入到下半場——

500億融資情況是焦點，

而算力+模型需求帶來的國產AI生態，將是梁文鋒的新故事。 (智能紀元AGI)