DeepSeek過了算力的河，美團LongCat正在彎腰造船

2026/04/30

•

中國算力迎來“DeepSeek+LongCat”節點。

Token，是未來數字世界最核心、最值錢的大宗商品。

2026年GTC大會上，黃仁勳這樣定義AI時代的底層通貨，而資料中心就是生產智能的工廠。

過去幾年，全球絕大多數這樣的“工廠”都依賴同一套裝置：輝達的GPU與CUDA生態。當荷姆茲海峽的開放與關閉，影響地緣政治與能源安全格局，全球AI市場的Token供給也需要回答：算力供應鏈出現單點依賴，如何保障Token的穩定產出？

4月24日上午，DeepSeek V4正式發佈，其官方技術報告明確將華為昇騰950PR寫入硬體驗證清單，實現了從輝達CUDA到國產算力的全端遷移。下午，美團LongCat-2.0-Preview開放測試，這是目前唯一公開確認由國產算力完成兆參數預訓練的大模型，訓練全程動用了5萬至6萬張國產算力卡，其訓練規模是迄今為止最大的。

兩款模型在同一天跨入“兆參數俱樂部”，更關鍵的是，這意味著一條自主的“國產Token”供應鏈，正在輝達體系之外加速接通。

理解這一天意味著什麼，需要拆開來看。

兆參數俱樂部的新玩家

過去一段時間裡，兆參數如同大模型的“珠峰”。玩家們想登頂，需要刷美國技術堆疊的“裝備”，尤其離不開輝達。

Open AI、Anthropic等矽谷獨角獸，無不是輝達H100/A100叢集上的“付費玩家”。憑藉軟硬一體的CUDA生態系統，輝達在全球AI訓練負載市場中佔據了90%以上的絕對壟斷地位。

對中國AI企業而言，這有諸多不確定性。近年來，美國對華高端AI晶片的出口管制持續收緊，從最初的A100、H100禁售，延伸至特供版H20的許可限制，到今年4月，美國高端晶片實質對華禁售。即便通過其他管道拿到晶片，也隨時面臨升級路徑被切斷的風險。

至此，算力不再只是支出成本，也是生存成本。

2026年4月24日，備受關注的DeepSeek V4發佈，同日美團LongCat-2.0-Preview啟動開放測試，雙雙加入了“兆參數模型”的行列。這兩個大模型用不同方式，實現了國產算力替代的進展。

DeepSeek V4的早期訓練基於輝達CUDA架構和GPU硬體，之後全端遷移至華為晶片。V4適配的華為昇騰950PR推理晶片，甚至在低精度推理中展現出超越通用GPU的效率。

同期進行測試的LongCat-2.0-Preview選擇了另一種方式，這是目前唯一由國產算力訓練的兆參數大模型。其訓練與推理全程依託國產算力叢集獨立完成，動用的國產算力卡數量在5萬至6萬張之間，是國產算力上完成的規模最大的訓練任務。

從技術層面來看，DeepSeek V4和LongCat-2.0-Preview均採用MoE架構，支援1M（100萬token）超長上下文窗口，單次推理可處理數百萬字輸入，處理量級與GPT-5.5處於同一水平。兩款模型在知識容量、長文字理解及複雜邏輯推理的上限上，已正式跨入全球第一梯隊。

沒有採取行業通行的“堆算力”路線，DeepSeek V4和LongCat-2.0-Preview都是通過架構最佳化，對每一張國產卡算力進行極致搾取，同時它們也用實踐證明，極致最佳化算力效率，可以抵消硬體的帳面差距。

V4通過混合注意力架構（CSA + HCA）、Muon最佳化器等底層架構創新，在上下文長度放大8倍的前提下，算力消耗比V3.2降低七成以上。LongCat-2.0-Preview每token啟動參數約48B，從一些測試反饋來看，在保持較高性能的同時，實現了不錯的推理效率。

效率革命最終轉化為顛覆性的商業定價。DeepSeek V4最新的API定價，V4 Flash每百萬tokens輸入（快取命中）價格為0.02元，V4 Pro為0.025元。海外社交媒體上，有網友表示，這是從Claude或者GPT遷移到DeepSeek的最佳窗口期。

兩款模型的發佈，引發了國產算力適配的連鎖反應，國產算力替代逐漸成為趨勢。

從華為昇騰、百度崑崙芯、寒武紀思元、海光資訊DCU到阿里平頭哥，國產AI晶片在性能與生態上持續迭代；摩爾線程、壁仞科技、沐曦股份等創業企業也在加速追趕。

TrendForce預測，2026年國產晶片在高端市場的份額將增長到70%，行業對國產算力的期待，不再停留在“可用”層面。

算力突圍前後

中國AI廠商們加速佈局國產替代，除了此前說到的美國高端晶片出口管制等政策壓力，還有一個重要的考量：算力荒傳導至價格端，導致算力變得越來越貴。

中信證券指出，Token呼叫量井噴帶來的是算力需求極大爆發，與此同時供給側受到各類硬約束短期邊際增量有限，目前國內外均出現了嚴重的算力荒。

而中國AI使用者的算力消耗極其巨大，根據OpenRouter的資料， 2026年3月30日-4月5日，中國AI模型的周呼叫量突破12.96兆Token，是同期美國的4.3倍。如此龐大的需求，如果長期高度依賴單一的“輝達+台積電”供應鏈，將面臨供應受限與價格持續上漲的雙重風險。

這種結構性矛盾，使得國產算力替代不再只是“備選題”，而是“必答題”。然而，替代之路向來艱難。

其難點在於拋棄現成的程式碼庫、編譯和偵錯工具，從“零”開始。輝達CUDA經過20年積累，擁有超400萬開發者和成熟的cuBLAS、cuDNN、NCCL庫。國產算力平台的算子庫覆蓋度、最佳化深度以及測試工具都不完整，需要工程團隊進行大量底層開發與偵錯工作。

另一個難點在於硬體的平行計算。由於單卡性能存在差距，國產晶片想要實現同樣的計算性能，勢必要平行更多硬體，而算力硬體平行容易帶來故障。

在大模型訓練中，叢集規模一旦擴大至萬卡等級，故障機率呈指數級上升，任何微小的計算錯誤、通訊延遲或數值精度偏差，都會在平行運算中指數級放大，導致整個訓練任務中斷或模型收斂失敗。

LongCat-2.0-Preview在5、6萬張國產叢集上完成兆參數MoE模型的穩定訓練，意味著團隊必須在平行策略、通訊拓撲、混合精度訓練及容錯機制上進行深度自研與調優。這是對國產算力系統工程能力的一次高強度的壓力測試。

工程能力還只是冰山一角，晶片設計製造、軟體棧乃至應用，需要更多產業力量的長期投入。來自網際網路巨頭、產業資本與風險投資的資金，成為這些長期進化背後的重要支撐。

以美團為例，近幾年在算力、科技硬體和大模型等領域進行了廣泛的早期投資。晶片方面，美團投資了摩爾線程、沐曦股份、紫光展銳、愛芯元智、榮芯半導體等眾多企業，覆蓋了多家國產GPU頭部和“國家隊”等級的半導體公司。

這些企業的技術方向各有側重：摩爾線程與沐曦股份聚焦通用GPU設計；紫光展銳在移動通訊與物聯網晶片領域根基深厚，為端側AI提供底層連接能力；愛芯元智專注邊緣算力、AI視覺晶片；榮芯半導體則涉足晶圓代工，立足於晶片的產能提升。

美團還同時投資了包括宇樹科技、銀河通用、星海圖在內的多家具身智能公司和科技硬體公司。從大模型上游的晶片設計製造、到大模型研發，再到AI在各個領域的應用，用王興的話來說，美團將AI視為戰略機遇。

美團的密集投資並非孤例，它所折射的，是中國科技資本對國產算力賽道乃至未來科技發展的系統性佈局。

模型在國產算力上跑通了，然後呢？

當國產晶片鋪開、兆參數模型跑通，本土AI能否走向“更好用”階段，面臨著資料層面的挑戰。

一方面，是工程反饋資料。

當超大規模AI模型在國產晶片叢集上訓練時，會暴露出各種問題，比如某些計算環節精度有誤差、晶片之間資料傳輸太慢、軟體編譯最佳化不到位、多卡平行時通訊通道擁堵、低精度計算時數值丟失等。

技術團隊逐一攻克這些問題的過程，本身就是一場對國產晶片軟硬體的大規模測試。每一個被修復的bug、每一段被調優的通訊協議，都會反饋給國產晶片廠商，推動下一代硬體的改進和軟體棧的成熟。

對LongCat-2.0-Preview這樣的“原生國產模型”來說，從訓練階段起便全程依託國產算力叢集完成，產生的工程反饋較為完整和真實。這種“模型反哺晶片”的閉環，有利於國產算力生態向下紮根。

另一方面，大模型需要物理底座，和具體任務、真實世界產生高品質的資料互動。

特斯拉憑藉全球最大的真實駕駛資料庫，建構了其自動駕駛的核心基石，從真實世界採集、到模擬訓練、再到演算法迭代的“Real-to-Sim-to-Real”飛輪，同時驅動了自動駕駛汽車與人形機器人的進化。

同樣的邏輯，正在一個更複雜高頻，貼近日常生活的場景展開，那不是加州的高速公路，而是中國城市的街頭巷尾。美團擁有全國2800多個市縣的即時配送網路，覆蓋中國最複雜的物理環境。美團無人機已累計完成商業訂單超78萬筆，國內外開通70條航線。美團無人車已至少已完成550萬單配送任務，自動駕駛總里程突破1900萬公里。

無人機在樓宇間穿行時的視覺避障資料、無人車在複雜路況下的即時決策軌跡、騎手與機器協同調度中的動態最佳化樣本，都是高價值、高密度的真實世界資料。這些是LongCat大模型持續進化的養料，也是國產算力晶片在嚴苛環境中驗證可靠性、能效比的真實環境。

同一天裡先後發佈和開放測試的DeepSeek V4與LongCat-2.0-Preview，構成了國產算力進化的一體兩面。前者以開源、低價與通用能力，證明了國產算力可支撐全球頂尖的基礎模型；後者以原生國產訓練、兆參數規模與物理世界閉環，證明了國產算力叢集可獨立完成極限的工程任務。

這不僅僅是算力焦慮下的替代敘事，更是一場“主動定義”的轉身，獨立生長、正向循環的中國AI產業鏈，還需要長期努力，但正在加速成型。 (豹變)

科技