S.H.E 2007年發行的歌曲《中國話》裡面有一段歌詞:
好聰明的中國人,好優美的中國話......
全世界都在學中國話,
孔夫子的話,越來越國際化,
全世界都在講中國話,
我們說的話,讓世界都認真聽話。
時隔20年,AI時代下,DeepSeek梁文鋒又在全球“長臉”了。
如今,矽谷AI工程師都開始用DeepSeek,而非GPT-5.5,或Claude Opus模型。
Ramp 最新調查報告顯示,DeepSeek 首次登上了“軟體趨勢榜單”第一。
該榜單主要追蹤的是企業向某軟體供應商的首次採購情況,這也意味著DeepSeek成為該平台上增速最快的軟體之一。
主要原因在於,“美國AI太貴了”。而中國的DeepSeek-V4 Flash模型性價比高,API價格永久下調 75%、模型成本壓至行業新低。
怎麼形容呢,DeepSeek堪稱“AI界拼多多”,果然名副其實。
矽谷悄悄搶瘋了。
當前,Claude CoWork和Codex是最火的兩個軟體,也是我每天都在用的AI產品。
所以,我非常清楚,當前矽谷AI圈選擇DeepSeek的核心原因:
1、價格差距100倍。
有資料統計,矽谷開發工程師每個月跑Claude Opus 4.7模型,需要投入25000美金左右,而每百萬tokens價格是25美金。
但做同樣的業務,DeepSeek每百萬tokens成本才0.28美元,一個月才需要至少280美金。
你沒有看錯,模型成本便宜了100倍。
如果換成人民幣,主流價格差距在10–36倍左右。
反過來說,在同等快取輸入成本下,DeepSeek V4 Flash模型的價格只有Opus 4.7系列、GPT-5.5系列模型的1%左右,甚至不到1%。
但兩者的性能差距大概只有2%-3%而已。
甚至可以說,DeepSeek V4 Flash的快取能力、反饋速度、網際網路搜尋能力、DeepResearch深度搜尋能力,已經遠超Claude Opus。
至少,GPT-5.5在DeepResearch能力上,比 opus 強很多,opus基本不可用,它的搜尋能力幾乎無法用。
一個例證在於,如今,微軟已取消大部分內部 Claude Code 許可證,轉向 GitHub Copilot CLI,距首次開放該工具僅六個月。
Uber 同樣遭遇成本難題:其CTO稱,公司在 2026 年頭四月就花光了全年 AI 編碼工具預算,此前還通過內部排行榜激勵員工多用 AI。
這些案例折射出“更便宜 token、更高總帳單”的悖論。
高盛預測,代理式 AI 到 2030 年可能使每月 token 消耗升至 120 兆美元。輝達高管也表示,算力成本已遠超員工工資。即便單一 token 價格下滑,企業級 AI 部署的總支出仍在急劇攀升。
2、CC Switch的加注。
一般來說,Claude Code和Codex直接接入的都是自家模型。
但過去幾個月,在中美AI競爭下,兩個產品的帳號不約而同對國內市場進行限號措施,這也誕生了很多模型中轉站業務,也讓CC Switch這款產品異軍突起。
你可以理解,CC Switch是一個中轉站,通過本地host修改等方式,讓Agent產品直接接入DeepSeek、Qwen等第三方模型,有點類似於龍蝦接入不同的model方式。
本來上個月依然還是只能接入Claude。但5月底最新版發佈之後,除了Codex++,CC Switch終於穩定支援Codex接入DeepSeek,讓第三方模型能夠體驗到兩款頂級Coding Agent。
再加上V4系列、Qwen 3.6系列、Kimi K2.6系列模型開始支援AI Coding Agent。
因此,價格足夠低、開源、性能足夠強的DeepSeek-V4 Flash,成為矽谷AI圈爭搶關注的焦點。
根據openrouter資料,通過DeepSeek V4 Flash消耗的token總數超過了3.35兆。
真的是遙遙領先。
最近關於DeepSeek的還有兩個消息值得關注。
1、本周報導稱,DeepSeek 正準備在其首輪外部融資中籌集約 500 億元人民幣(約合 74 億美元)。
可能的估值:520億美元至590億美元。
投資者名單才是真正的焦點:騰訊和寧德時代有望成為最大的外部投資者。網易、京東等網際網路大廠也在洽談中。
而DeepSeek創始人梁文鋒或將投入200億元人民幣自有資金。
2、另一則算力消息補充了DeepSeek全貌。
6月5日,“深圳發佈”消息稱,深圳河套學院AI訓練平台項目團隊,聯合哈爾濱工業大學(深圳)、深圳市巨量資料研究院、華為有關團隊,協同深智城AI算力平台,面向國產算力大模型訓練開展聯合攻關。
依託昇騰910C國產AI算力叢集,完成1.6兆參數大模型DeepSeek-V4-Pro全參數後訓練。
換句話說,該團隊成功進行了模型“全參數”後訓練,這意味著模型的整個架構都得到了更新和改進,而沒有任何縮水或“偷工減料”。
雖然,國產晶片在支援人工智慧推理方面取得了成功,但這只是一個相對簡單的過程。
而大模型訓練,是一個更為複雜的過程,即建構或改進模型的“大腦”。
如果說初始“預訓練”是通過吸收大量資料來教會模型如何說話,那麼後訓練則是通過遵循人類指令、安全規則和特定任務來教會模型如何工作。
此前,訓練算力層面一直依賴NV卡,面臨諸多挑戰。
本質上來說,國產GPU和AI晶片裡面,除了昇騰之外,很少有真正實現“訓推一體”的技術能力,大部分依然是推理能力大於訓練能力。
所以,去年推理卡賣的不錯,本質還是企業不需要再花更多的錢訓練模型了,如何蒸餾、調優、做獎勵模型、做Infra等,才是核心。
今年4月發佈的DeepSeek V4系列模型,算力層面嗎採用了昇騰叢集與輝達叢集共同加持。
DeepSeek-V4報告指出,將工作負載約束轉化為晶片設計要求:記憶體、頻寬、功耗預算、通訊比率和低精度部署。
如今,新模型來了、新國產算力也來了,最後加上新一輪融資。
這意味著:DeepSeek未來不會再作為中國的一個探索型的AI實驗室。
當然,這並不意味著DeepSeek會取代OpenAI或Anthropic。
簡單來說,隨著企業對DeepSeek模型使用需求的上升,成本壓力正從開發者實驗轉移到企業預算。
Ramp Economics Lab 的首席經濟學家 Ara Kharazian 在周三的報告中指出,值得注意的是,美國公司直接向 DeepSeek 付款,這表明他們直接通過 DeepSeek 傳送和接收資料,而不是將 DeepSeek 的開源模型託管在自己的內部伺服器上。
“目前看來,企業似乎又回到了 DeepSeek 平台,”Kharazian 表示,並補充說他不會“過分誇大這一趨勢的持久性”。
如果將DeepSeek融資、算力最佳化、模型需求三點結合起來,情況就更清晰了:
DeepSeek 正在成為一個新的案例,檢驗稀缺計算資源能否實現經濟效益,國產晶片能否通過軟體最佳化縮小差距,以及中國廠商能否克服算力制約風險,將開發者採用轉化為企業實際支出。
所以,總結來說:
DeepSeek已經進入到下半場——
500億融資情況是焦點,
而算力+模型需求帶來的國產AI生態,將是梁文鋒的新故事。 (智能紀元AGI)
