Deepseek 能否為中國節省 1 兆美元？

2026/06/07

•

2026 年下半年，輝達將交付它迄今最強大的 AI 平台：Vera Rubin VR200 NVL72。一個整機櫃裡塞進 72 顆 Rubin GPU 和 36 顆 Vera CPU。摩根士丹利估算，這台機器的物料成本約為 780 萬美元。

這個數字已經夠嚇人了。但更值得盯住的，是它的錢花在了那裡。

在這 780 萬里，有大約 200 萬美元，既沒花在那顆舉世聞名的 GPU 晶片上，也沒花在運算核心上，而是花在了記憶體上——高頻寬視訊記憶體（HBM4）與普通記憶體（LPDDR5X）。僅僅一年之間，這部分記憶體的成本就因為漲價飆升了 435%。

這是一個訊號。在 AI 這台越來越貴的機器裡，錢正在從“負責計算的零件”，大量流向“負責記憶和儲存的零件”。

請記住這個訊號。因為這篇文章要講的 DeepSeek，做的恰恰是一件相反的事：所有人都被時代推著，為越來越貴的記憶體支付 AI 硬體溢價。而它在想辦法，在不削弱競爭力的前提下，通過軟硬體融合，讓這些昂貴的硬體提升 4 倍以上的 token 產能，也就是等效於節省了 75% 的硬體投資。

而這件事的盡頭，近來有一個猜想在被熱議——DeepSeek 能否通過自己的努力，為中國的 AI 基礎設施建設節省一兆美元？

這真的可能嗎？

——導語

01 一兆美元，是省出來的

剛才那張輝達的報價單，是最近 AI 基建帳本裡最硬的一筆錢。在當前供需格局下，你要買最先進的 AI 機器，就必須接受這張帳單。

DeepSeek 改變不了這件事。

它改變的是另一件事：同樣一台機器，同樣那 200 萬美元的昂貴儲存硬體，究竟能吐出多少 Token。

這個問題，在 DeepSeek V4 發佈之後，變得尤其具體。

V4 更值得關注的，不只是模型本身，而是它展示出的三板斧：第一，繼續壓縮“記性”，讓長上下文不再拖垮視訊記憶體；第二，按需喚醒“身體”，讓巨大的專家模型不必每次全員上陣；第三，把重複計算變成可復用資產，讓算過的上下文不再一遍遍燒錢。

這些技術的特性部分呈現一個突出的特點——它們在軟硬體協同上下了功夫，而非純軟體的最佳化。所以才有人用那個玩笑式的比喻——DeepSeek也許會成為中國最大的AI硬體公司。

它的模型頁顯示，在 100 萬 Token 上下文場景下，V4-Pro 相比上一代只需要 27% 的單 Token 推理算力和 10% 的快取佔用。本文裡，我們取約等於四分之一算力這個值來算後面的帳。

傳統路線下，這些硬體只能支撐一份吞吐，而通過長上下文壓縮、按需啟動、快取復用與推理調度，DeepSeek 能讓同樣硬體的有效 Token 產出提升到四倍——那麼成本不是被“砍掉”了，而是被攤薄了。原來 4 台機器干的活，現在 1 台也許就能幹；原來每生成 1 個 Token 都要完整吃掉一份昂貴硬體成本，現在同一份硬體可以攤到 4 個 Token 上。

這就是 DeepSeek 真正厲害的地方：它沒有改變輝達的報價，卻改變了輝達機器在 AI 帳本裡的產出率。這件事的意義，遠遠大過一次 API 降價。

而 1 兆美元這個數量級，也不是憑空假設出來的。

麥肯錫 2026 年那份《計算的成本》報告給了一個具體的數：到 2030 年，全球資料中心為跟上算力需求，需要約 6.7 兆美元的投資，其中專門處理 AI 負載的那部分，就要吃掉約 5.2 兆美元。

換句話說，未來幾年裡，全人類計畫砸向 AI 硬體的錢，是以兆美元為單位計量的。

而這筆巨款中的很大一部分，會流向那部分最尖端、最稀缺的硬體——也就是 HBM 高頻寬視訊記憶體和LPDDR 記憶體。DeepSeek 正在做的，就是系統性地降低整個中國AI產業對這部分昂貴硬體的依賴。那怕只壓低一部分，它替行業省下的，價值就將是兆級的天文數字。

當中國的日均 Token 消耗從今天的一百多兆，繼續推向數百、數千個兆時，任何一點單位 Token 成本的下降，都會被放大成巨額的基建差額。假如同樣的吞吐真的可以用四分之一的硬體完成，那麼在可見的未來，它就有可能為中國 AI 基建省下接近 1 兆美元的算力硬體投資。

這是一道基礎設施帳：誰能讓同樣一筆剛性硬體開支生產出更多 Token，誰就在少建機房、少買 GPU、少堆視訊記憶體，誰就在重新分配未來 AI 的入場券。

那麼，DeepSeek 是怎麼做到的？答案是，它給大模型這台機器，動了三刀。

02 兩個油老虎

一種流行的誤解是，大模型最燒錢的地方在於“思考”，在於運算。其實不是。

它真正的兩個油老虎，一個叫“記性”，一個叫“身體”。而它們燒的，是同一種最貴的燃料——高頻寬視訊記憶體（HBM），一種直接整合在 GPU 封裝體系內、速度極快也極昂貴的記憶體。

先說記性。大模型生成文字時有個笨拙的特點：每吐出一個新字，它都要回頭把前面的全部內容重看一遍。因為語言的意義是層層鋪墊出來的，後文該說什麼，完全取決於前文已經鋪設了怎樣的語境。

這就像一位同聲傳譯員。他沒法只憑你的最後一句話就開口，而必須始終揣著你先前說過的一切——只有記著那些鋪墊，他才能聽懂此刻這句話真正的指向。你說得越久，他要記憶的就越多。

為了不在每個字上都從頭重算（那會慢到沒法用），模型會把已經算過的中間結果暫存起來。這份存檔叫 KV 快取（Key-Value Cache，可理解為模型的短期記憶）。

麻煩在於，它會隨著對話變長而瘋狂膨脹。

舉個具體的數：按某一類標準結構估算，處理約十二萬字的上下文，光這份記性就可能吃掉 488GB 的高頻寬視訊記憶體。而輝達即將交付的那顆頂級 Rubin GPU，單卡視訊記憶體是 288GB。也就是說，光存這一份記性，就要佔滿將近一顆半、甚至接近兩顆最先進 GPU 的全部視訊記憶體——這時模型還沒真正開始幹活。

再說身體。模型的“身體”，指它的參數權重，可以粗略理解為它全部知識與能力的載體。能力越強，身體往往越龐大，動輒上千億、上兆個參數。

傳統的稠密模型（Dense Model，指處理任何輸入都要動用全部參數的模型）有個毛病：你不管問它什麼，它都得把整個身體調動一遍。這就好比你去一家醫院只想看個牙，結果全院所有科室的醫生都被叫來，圍著你從頭到腳檢查一輪，最後才輪到牙科。荒唐，但費用照單全收。

這副龐大的身體，同樣得常駐在昂貴的高頻寬視訊記憶體裡隨時待命。

記性和身體，這兩個油老虎，把整個硬體體系的價值分配，死死壓在那部分最貴、最稀缺、最受制於人的硬體上。而過去十幾年，行業的對策樸素而粗暴：算力不夠就堆，視訊記憶體不夠就再堆。於是產業的財富，高度淤積在這條最尖端的硬體鏈條上，最肥的利潤，卡在最稀缺的那一環。

Token 的價格，就這樣被一種硬體的稀缺性綁架了。而DeepSeek 的三刀，恰好刀刀都在松這道綁。

03 第一刀：在大腦上動刀

第一刀，落在“記性”上。而它下刀的位置，恰恰是整台機器最不該碰、或說最沒人敢碰的地方——注意力機制（Attention，大模型用來理解上下文關聯的核心機制）。

注意力機制是大模型的大腦。它能讀懂上下文、能在長對話裡抓住重點，全靠這套機制在每個字之間反覆權衡關聯。前面那份昂貴的記性，正是這顆大腦每一次脈動留下的產物。

想省記性，又怕風險，所以幾乎所有人都選擇繞開這顆大腦，只在外圍動手。從 2019 年 Transformer 原作者之一 Noam Shazeer 提出的多查詢注意力（MQA），到 2023 年Google提出、被 Llama 等廣泛採用的分組查詢注意力（GQA），主流路線的思路始終是“讓多個查詢頭共用同一份記憶”——本質上是“少記幾份、湊合用”。省地方的效果驚人，但代價是模型質量打折。說白了，這條路線的共識始終是“妥協”：默認壓縮必然損傷質量，只在損傷多少之間討價還價。

DeepSeek 偏不妥協。它選擇直接在大腦上動刀，改造注意力機制本身。

它的方案叫多頭潛在注意力（MLA，Multi-head Latent Attention），最早出現在 2024 年的 DeepSeek-V2 里。打個比方：別的模型記筆記，是把每個細節原樣謄抄，寫滿好幾大本；MLA 則先把筆記提煉成一份高度濃縮的摘要，只存摘要，用時再據摘要把細節精準還原。術語上這叫“低秩壓縮”——把那些看似龐雜、實則高度冗餘的記憶，投影進一個緊湊得多的空間裡存放。

效果有多驚人？DeepSeek-V2 論文給出的結果是，相比上一代同門模型，V2 在能力更強的同時，訓練成本降低 42.5%，KV Cache 減少 93.3%，最大生成吞吐提升到 5.76 倍。前面那個吃掉 488GB 的例子，換成這一路線，就可能被壓到幾個 GB 的量級。

但真正牛的，不是省了多少，而是它幾乎沒付細節損失的代價。

按常理，把一本書壓成一頁摘要，再怎麼還原也找不回所有細節了。可在 DeepSeek 公佈的實驗裡，這份壓縮版的記憶，效果不僅沒輸給“謄抄全本”的標準注意力，某些情況下還略好一點。

到 V4，這條路線又被推向了更極端的長上下文場景：V4-Pro 採用混合注意力架構，在 100 萬 Token 上下文設定下，相比上一代只需要 27% 的推理算力和 10% 的快取佔用。

要體會這有多難，得知道這是在一架飛行中的飛機上動手術。改注意力機制，意味著要重寫模型最底層的計算邏輯、重新訓練整個模型、重做支撐它運行的整套服務系統。任一環出錯，智能就崩了。這不是給輪胎換個氣嘴，是開顱手術。

而 DeepSeek 做到了，讓 AI 在術後比術前還健康。

04 第二刀與第三刀：給機器裝上編號的儲物櫃

第一刀降伏了記性。第二刀，對付那個龐大的“身體”。

這一刀的思路，DeepSeek 不是首創，而是接續了一條清晰的老路：混合專家（MoE），指把模型拆成許多“專家”、每次只呼叫其中少數幾個的結構。

這個概念 1991 年就有了，2017 年由 Shazeer 等人引入神經網路，隨後Google的 GShard、Switch Transformer 把它搬進 Transformer；真正讓它出圈的，是 2023 年底法國 Mistral 公司那個只甩了個種子連結就發佈的 Mixtral 8x7B——總參數約 467 億，但處理每個字時只啟動約 129 億。

回到那家“看牙卻驚動全院”的醫院。MoE做的，就是把它改造成一家分科明確的醫院：你來看牙，前台直接把你引到口腔科，其餘科室的醫生該幹嘛幹嘛。醫院的總人數照樣龐大，參數總量可以上千億、數千億，但每次真正出動的，只是其中很小一部分。

DeepSeek 在 V3 里把這條路線推到了相當激進的規模，到 V4 時代更誇張——V4-Pro 是 1.6 兆總參數、490 億啟動參數；V4-Flash 是 2840 億總參數、130 億啟動參數。也就是說，模型的“總身體”繼續變大，但每一步真正動起來的部分，仍然被壓在很小的一塊。

但第二刀真正的巧思，不止於“少出動幾個醫生”。它順勢改造了模型存取這些“身體”的方式。

這裡可以換一個更貼切的畫面。過去的大模型，像一個巨大卻毫無章法的儲物間：東西全堆在一起，每次那怕只想取一樣，都得拉開大門，從最底層開始，把所有東西翻一遍才找得到。為了讓這種翻找足夠快以應付盈門的顧客，你只能把整個儲物間都搬進最貴的“市中心鋪面”——也就是高頻寬視訊記憶體裡。

DeepSeek 把這個儲物間，改造成了一個有上萬個格子、每個格子都編了號的櫃子。想用那樣東西，按編號直接拉開對應的那個格子就行，絕不去碰其餘的。這意味著，你再也不需要把整櫃東西都堆在最貴的鋪面裡了。絕大多數暫時用不上的格子，完全可以放進便宜得多的普通記憶體（LPDDR），甚至更便宜的固態硬碟裡，要用時再快速調出那一格。圍繞這類解除安裝與流式載入，DeepSeek 生態和 SGLang 等開源推理系統都在持續探索。

到這裡，三刀裡頭兩刀的協同就出來了：第一刀把“記性”壓小，第二刀給“身體”編上號、只取該取的那一格。兩刀合起來，這台機器在任一時刻，真正需要佔用最貴視訊記憶體的部分，都被壓到了極低。

第三刀，則把這套“按編號取用”的邏輯推到了極致：連“運算”這個動作，能省則省。有些計算結果，其實可以提前算好、當成一個個編了號的格子存起來，用時直接取，而不必每次重算。就像背熟乘法口訣的人，不會每次掰手指算七乘八，而是張口報五十六。這等於用成本極低的“查取”（記憶體讀取），頂替成本極高的“硬算”（晶片運算）。

在 V4 里，這一刀有了更直接的商業化表達：快取命中價被壓得極低，長上下文復用被直接寫進價格體系——重複計算不只是技術上可以省，商業上也被鼓勵去省。

三刀連起來看，它們不是三件孤立的事，而是同一套邏輯的層層遞進：把一個非翻不可的爛攤子，改造成一個事事都能按編號精準取用的系統。記性壓到最小，身體只喚醒該喚醒的，運算能查表就不重算。每一刀都讓這台機器對最貴硬體的佔用更小一點，三刀疊在一起，它跑同樣的活，對最尖端硬體的消耗，就只有從前的零頭。

05 便宜到什麼程度

2026 年 5 月，DeepSeek 宣佈將 V4-Pro 此前 75% 的折扣價轉為長期價格，把快取命中、快取未命中、輸出 Token 的價格拉開了巨大差距。快取命中價之所以重要，是因為它把 DeepSeek 的第三刀直接變成了商業規則：算過的上下文，不該一遍遍按“新活”收費。

放到真實帳單裡對比，落差才具體。按一個每月跑十億 token 的中等規模應用算，同樣的工作量：用 DeepSeek V4-Pro，月帳單約 522 美元；換成 Claude Opus 4.7，約 9000 美元；換成 GPT-5.5，約 1 萬美元。差距是十七到十九倍。

再看一個極端但常見的場景：一個長上下文程式設計助手，反覆重讀一份 10 萬 Token 的程式碼庫一百次。靠著便宜到幾乎免費的快取命中，DeepSeek 這一趟只花約 0.036 美元；同樣的活，GPT-5.5 和 Claude Opus 4.7 都要約 5 美元——差出一百多倍。

這個價格低到爆，但它不是賠本賺吆喝，而是這台改裝過的機器，本就跑得這麼省——是中國人靠工程一點點摳出來的成本。兩年前梁文鋒談定價時說過，原則是“不貼錢，也不賺取暴利”。其實應該這麼理解：當你的成本結構和別人根本不在同一條線上，你的定價自然也不在同一個區間。

當然，這場改裝並非穩賺不賠。比如把負載挪到便宜記憶體和硬碟，已有研究指出，頻繁搬運可能在耗電、延遲和調度複雜度上吃虧。某些情況下，每生成一個字的系統總成本未必更低，除非硬體、軟體棧和儲存介質都進一步最佳化。所以這三刀是一門火候極難拿捏的權衡，不是無腦省錢。但方向是確定的：用便宜的、自己更容易獲得的資源，去替換那個最貴、最被掐住喉嚨的資源。

06 把“一兆”算成一筆看得見的帳

說了這麼多“省”，不妨把它換成一個更直觀的畫面：少建多少座智算中心？

先看 Token 流量。國家口徑是，到 2026 年 3 月，中國日均 Token 呼叫量已經超過 140 兆，相比 2024 年初增長了一千多倍。產業口徑上，單是豆包大模型，同月日均使用量也突破了 120 兆。統計邊界雖不相同，但它們共同說明一件事：中國 AI 的 Token 消耗，已經進入百兆級日常運行，並正在向千兆級快速推進。所以，500 兆 Token/日，可以看作不遠的下一站；而 5000 兆 Token/日，則是智能體、多模態、程式碼生成全面鋪開後的高流量情景。

在這個背景下，再看算力中心成本，DeepSeek 的價值才凸顯。2025 年，中國聯通在武漢開建千卡智算推理中心，首期投資近 2 億元。我們可以粗略把它視作一個千卡級推理中心的投資樣本：一座這樣的中心，大約 2 億元。

而按 DeepSeek V4 的效率提升來算，至少在它擅長的長上下文場景裡，給出的變化已經不是百分之十幾的最佳化，而是數倍等級的硬體效率提升。我們不取最激進的口徑，而是取一個更保守、更容易理解的假設：V4 這套三板斧，讓同樣一批硬體的有效 Token 吞吐提升 4 倍。也就是說，原來要 4 座中心干的活，現在 1 座夠了，中間少掉 3 座，等於節省 75% 的等效硬體投資。

注意，DeepSeek 不是簡單少用儲存。恰恰相反，它是在善用儲存——用壓縮注意力、按需啟動、快取命中和推理調度，把最貴的 GPU 與視訊記憶體時間用得更狠。真正被省掉的，是同等 Token 吞吐下，本來還要額外購買的那部分硬體。

那麼，一兆美元對應什麼？1 兆美元約等於 7 兆元人民幣。按每座千卡級推理中心 2 億元計算，7 兆元相當於 3.5 萬座這樣的中心。如果 V4 路線帶來 4 倍有效吞吐提升，要少建 3.5 萬座這樣的等效中心，對應的日均 Token 流量，大約就是 5000 兆。

這就是本文所說的“一兆美元”所對應的產業圖景。這不是工程招標書裡的精確核算，而是一筆基礎設施量級帳，對應的也是未來數年、而非當下就已兌現的流量情景。它真正要說明的是：在低呼叫量時代，效率提升省下的是幾張卡、幾個機櫃；在數千個兆 Token/日的時代，效率提升省下的，就是成千上萬座本該拔地而起的智算中心。

所以，DeepSeek 真正改變的不是某次呼叫的價格，而是未來 AI 基建的帳本。

07 它逆轉了一個危險的趨勢

現在，回到開頭那台機器。還記得嗎？Vera Rubin 那 780 萬美元裡，有 200 萬壓在記憶體上，而且這部分還在瘋狂漲價。這透露出一個危險的趨勢——整個行業的價值，被越來越多地、不健康地綁死在記憶體晶片上。而記憶體，本不該被推到這麼貴。

很多人誤以為 DeepSeek 是在“順應”這個趨勢，因為它也在大量使用記憶體。恰恰相反，DeepSeek 是在逆轉它。老辦法是被動地、低效地吞噬硬體，把價值倒掛地堆在晶片上，任由記憶體被漲價潮推著走；DeepSeek 是先用三刀把對硬體的真實需求大幅壓低，再把剩下的少量需求，精明地分配給最便宜、最合適的那一檔儲存。前者是“被價格推著走”，後者是“先把帳算明白，再決定花在那”。

這個區別，對中國格外重要。因為它把戰場，從一個我們處於劣勢的地方，挪到了一個我們更有勝算的地方。最尖端的算力晶片，我們暫時追不上。但記憶體這類儲存晶片，恰恰是中國今年實打實補上來的能力。

國產 DRAM 龍頭長鑫儲存，2026 年第一季度營收達到 508 億元，淨利潤約 250 億元，公司預計上半年淨利潤將達 660 億到 750 億元，相當於半年就賺到了字節跳動去年的全年淨利潤。雖然長鑫在全球 DRAM 市場仍然只是第四把交椅，但這塊過去幾乎為零的國產產能，今年終於支棱了起來。

而這，正是 DeepSeek 那三刀的戰略意義所在。這不是“用儲存替代算力”，而是降低對最稀缺算力的邊際依賴，並把一部分壓力轉移到更可獲得的儲存、快取和系統工程上。當一台 AI 機器更多倚重記憶體、快取、調度和系統工程這些我們自己更有機會掌握的環節，中國現有的供應鏈，就突然從“處處受制”變得“夠用”，甚至“好用”。這極大地提升了整條鏈路的安全性。

結語

一個把“消滅低效”當本能的梁文鋒，不會滿足於讓某個模型便宜一點。他盯上的，是整個 AI 產業裡最大的那處低效——“想要更強的智能，就必須依賴最尖端、最稀缺、最貴的硬體”這個被全行業當成天經地義的前提。

如果它能讓整個行業，用少得多的尖端硬體辦成同樣的事，它為行業憑空省下的，就是一座兆量級的、虛擬的產能基地——不佔一吋廠房，卻實實在在地釋放出本該砸進硬體的巨額投資。那個“一兆”，於是不再是一個估值故事，而是一道基礎設施帳。

把 DeepSeek 寫成“用演算法消滅輝達”，是另一種廉價神話。但如果換一種問法，答案就有意思了：DeepSeek 有沒有可能讓行業少買一部分最貴的硬體，少佔用一部分最稀缺的視訊記憶體，少支付一部分原本被認為天經地義的推理成本？有。它有沒有可能把 AI 基礎設施的價值，從單一的高端 GPU 敘事，重新分配到模型結構、推理系統、快取管理、儲存調度和工程最佳化上？也有。這才是它真正的產業意義。

真正的技術革命，往往不是把一切變得更貴，而是讓過去只有少數人用得起的東西，突然變成大多數人也能負擔的日常基礎設施。從更大的維度看，這盤棋真正要緊的，從來不是省下了多少錢，而是省錢這件事，悄悄把通往未來的入場券，重新發到了需要被 AI 賦能的中國千行百業裡。 (胡說成理)