#DeepSeek
梁文鋒冒著自己淪為二流大模型的風險,給整個中國 AI 企業探路了
V4 出來這天,DeepSeek 沒開發佈會。只發了一份技術報告。封面上印了兩行字:輝達 GPU,華為昇騰 NPU。注意這兩行字的順序。這是中國大模型公司第一次,把輝達和華為放在同一張技術報告的封面上。更狠的是後面那一句:模型 1.6 兆參數,100 萬 token 上下文,全端跑通昇騰。也就是說,這個兆參數的大模型,可以徹底不依賴輝達。先看一組資料,事情就清楚了去年 5 月,DeepSeek R1 橫空出世,矽谷開會研究中國人怎麼做到的。一年過去,國際同行進度是這樣的:OpenAI GPT-5 已經迭代到 5.4。 Anthropic Claude 4.7 出了。 Gemini 3.1 Pro 上線了。DeepSeek 這邊呢?V3.2 原地不動。整整 5 個月沒出新模型。同期業內 11 家頭部公司平均每 2.8 天發一次迭代。第三方榜單上,V3.2 綜合成績跌到全球第 16,程式碼生成第 17。外面已經在傳一個判斷:DeepSeek 淪為二流了。這就是題面。但誰也沒想到,沉默 5 個月不是技術不行。是梁文鋒自己關了門,幹一件比追榜單更難的事。把 1.6 兆參數的大模型,從輝達 CUDA 整套搬到華為昇騰 CANN。這件事到底有多難得講一點背景,不繞。你今天用的所有大模型,幾乎都跑在輝達 GPU 上。CUDA 是輝達自家的開發語言,2007 年到現在,全球幾乎所有 AI 工程師都是在 CUDA 生態里長大的。所有快、所有省、所有穩定的訣竅,都沉澱在這套工具鏈裡。華為昇騰也是 AI 晶片,但它用自己的語言,叫 CANN。讓一個兆參數模型在輝達上跑通,已經夠難。讓同一個兆參數模型同時在昇騰上跑通,性能不能差太多,相當於讓一個寫慣了漢語的作家,臨時學德語,再把《紅樓夢》翻譯重寫一遍,還要讓德國讀者覺得好看。DeepSeek 把這件事做了。技術細節不難懂:V4 用了 FP4 精度。這個精度,恰好是華為今年 3 月新發佈的昇騰 950PR 原生支援的。MoE 專家權重、稀疏注意力索引器,全部按昇騰的硬體特性設計。整個工程總共重寫了 40 萬行算子,全端架構重做,精度對齊誤差控制在 0.5% 以內。翻譯成大白話:DeepSeek 直接給昇騰量身定做了一個兆參數模型。代價是 484 天沒出新版本。這 484 天裡,GPT、Gemini、Claude 在輝達上各自把版本號往前推了好幾代。DeepSeek 主動把自己最鋒利的那把刀放下,去打磨另一把還沒開刃的刀。一道反商業直覺的題這就有意思了。按所有商學院的邏輯,企業要先保自己。R1 那波之後,DeepSeek 的局面其實非常硬:第一,全端跑在輝達上,CUDA 用了多少年,所有最佳化都是熟手。第二,量化基金幻方做爹,2025 年收益率 56.6%,一年抽五十億現金不缺錢。第三,技術口碑天花板,融資排隊的人能從知春路排到中關村。最聰明的選擇,是接著按輝達這條路猛衝。把模型做到全球第一,把品牌做到頂。R2 踩 OpenAI,V4 跨過 Gemini,整個 2026 年的中國 AI 故事可以由 DeepSeek 一個人寫。梁文鋒偏偏沒這麼做。他選的是反過來。先做生態,再保自己。為什麼?因為他看到一個誰都不願意承認的真相。中國 AI 整個行業都在賭一件事:什麼時候,國產晶片能跑兆參數大模型。這個賭局,誰都不敢押。兆參數模型一旦在國產晶片上跑掛,損失的是幾億美元算力帳單加半年研發周期。沒有那家公司的 CFO 敢簽這個字。阿里不簽,字節不簽,騰訊不簽。DeepSeek 簽了。簽字那個人是梁文鋒。註冊資本從 10 萬元變成 510 萬元,他個人持股從 1% 漲到 34%。把身家全壓上去,讓 V4 同時跑通昇騰和輝達。跑通的那一刻,整個遊戲的規則變了。一夜之間,盟友全跟上來了V4 發佈當天,8 家國產 AI 晶片公司同時宣佈完成適配。華為昇騰 950 超節點、寒武紀、海光、燧原、摩爾線程,一個不少。阿里、字節、百度,都在自己的雲上線了 V4。更扎眼的是後面這條消息:阿里、字節、騰訊已經向華為下單數十萬顆昇騰 950PR。中國 AI 圈很少出現這個畫面。平時大家是競爭對手,互相挖人,互相壓價。這一次罕見地朝同一個方向使勁。為什麼?因為 DeepSeek 把那塊最難搬的石頭,自己一個人搬開了。兆參數模型在昇騰上跑通這件事,相當於一份公開的合格證。證書一出,所有國產晶片廠商都可以走同一條技術路徑去適配。所有雲廠商都敢把國產算力推給客戶,因為有 V4 這個標竿站在那裡。輝達 CEO 黃仁勳去年說過一句話,被反覆引用:中國如果讓 DeepSeek 這種公司用上華為昇騰,那就是輝達的災難。他沒想到這一天來得這麼快。這才是梁文鋒真正干的事。他要的不是榜單第一名的模型。要的是能讓國產晶片跑得動的最強模型。沖榜單,是為自己。把行業抬起來,是給中國 AI 整體趟雷。代價是真的但代價不是嘴上說說。第一個代價,人才。V3 模型最重要的貢獻者羅福莉,去了小米。 核心研究員郭達雅,去了字節。 多模態核心阮翀、第一代大語言模型核心王炳宣,去了騰訊。每一個名字,背後都是幾百萬年薪和股權。DeepSeek 給不出市場最高的價。第二個代價,市場。阿里通義千問把 V3 階段 DeepSeek 佔的那部分使用者場景,慢慢做了回去。豆包靠字節的流量入口,把日活拉到第一。Kimi 在長上下文這條賽道,已經走在 DeepSeek 前面。DeepSeek 月活從 1.38 億漲到 1.60 億,看起來還在增長,但增長曲線明顯平了。第三個代價,原則。去年梁文鋒斬釘截鐵說過:DeepSeek 暫時不融資。2026 年 4 月 20 日,DeepSeek 被曝尋求百億美元估值,至少 3 億美元戰略融資。阿里、騰訊都在溝通名單。永不融資這條鐵律,在 V4 出來前一周,破了。底層原因不複雜。R1 當年訓練成本是 587 萬美元,V4 單輪訓練成本飆到約 5 億美元。漲了快 100 倍。昇騰這條路要燒的錢,比輝達多得多。晶片產能不夠,工程師要重新培訓,工具鏈要從頭建。幻方那點錢,撐不住一個兆模型時代的全產業鏈投入。梁文鋒低頭了。低頭的姿勢,是為了把整個國產 AI 算力產業鏈拽起來。圈內的新評價V4 發佈後,圈內最準的一句評價是這樣的:V4-Pro 比 GPT-5.4、Gemini 3.1 Pro 落後 3 到 6 個月。3 到 6 個月,聽起來不長。在 AI 這個行業,足夠把一家公司從第一梯隊拉到第二梯隊。落後是梁文鋒自己選的。V4 是不是 DeepSeek 最強的模型?不是。V4 是不是 2026 年中國 AI 公司最重要的一次發佈?我傾向於是。因為它做的事情,是把整個國產 AI 生態抬起一截,不是把自家排名再往上挪一格。第一梯隊的位置可以再爭。算力的底子如果沒打牢,爭到也站不住。跟普通人有什麼關係繞了這麼大一圈,跟普通人有什麼關係?第一件,AI 應用價格還會接著掉。V4 把 API 壓到每百萬 token 0.3 美元。這個價格一出來,國內所有大模型都得跟著降。意味著你以後用的所有 AI 工具,寫文件、做翻譯、改程式碼、生成圖片,成本都要再低一檔。最直接的體感,是各種 AI 會員包月降價。第二件,國產晶片產業鏈開始轉起來了。華為昇騰、寒武紀、海光,這些名字以前主要是 A 股投資者關心。現在是真有大模型在用,訂單是看得見的。這條產業鏈上下游幾百家公司,包括伺服器、記憶體、散熱、電源,都跟著進入新一輪訂單周期。第三件,AI 這件事不再被一根線綁住。過去三年,業內一直擔心一件事:如果美國把輝達完全斷供,中國 AI 是不是要原地停擺。V4 跑通昇騰這件事,把這個最壞假設的機率往下打了一截。還談不上徹底安全,但至少有了第二條腿。第四件,離你的工作更近了一步。價格便宜的大模型,意味著越來越多公司開始把 AI 接入業務流程。客服、文案、設計、初級程式設計、報表分析,這些崗位被替代的速度只會更快。這不是好消息,但是該提前知道的事。一句話收束梁文鋒這次的選擇,可能讓 DeepSeek 在未來一年裡看起來不那麼耀眼。模型評測榜單上的名次會往下掉,融資估值會被國際同行甩開,明星光環會被分給其他公司。這都是真實的代價。但如果兩年後回頭看,會發現 2026 年 4 月這周,是中國 AI 從「跟在輝達後面跑」切換到「能靠自己跑」的一個分水嶺。切這一刀的人,是梁文鋒。你覺得他這步棋,賭對了嗎? (有知識青年)
DeepSeek多模態上線開源:給AI裝上"數字手指",視覺推理碾壓GPT-5.4
DeepSeek正式發佈多模態大模型及技術報告《Thinking with Visual Primitives》。同日,GitHub開源上線,網頁端與App端"識圖模式"灰度發佈。5月1日,核心技術免費商用。這意味著什麼?DeepSeek首次在多模態領域拿出主戰場級成果,提出了一個被長期忽視的根本問題:"看見"和"指准"是兩件事。01. 從"看不見"到"指不准":多模態的真正瓶頸給GPT-5.4一張密集人群的照片,問"圖裡有多少人",它很可能數錯。給Claude Sonnet 4.6一張複雜迷宮圖,問"從起點到終點有沒有路",正確率接近50%——和擲硬幣差不多。圖:傳統多模態模型在複雜視覺任務中容易"指錯對象"這不是模型"看不清"的問題。它們能識別出圖片裡的每個元素,但一旦開始用語言"思考",邏輯就崩了。你說"左邊那個紅色的",在擁擠的場景裡,這個"紅色的"到底指那一個?模型的注意力在推理過程中像沒拴住的船,慢慢漂移,最後得出錯誤結論。DeepSeek將這個問題命名為"指代鴻溝"(Reference Gap):看見和能說清楚在說那個,是兩件完全不同的事。業界此前的思路,是讓模型"看得更清":提高圖片解析度、動態切割分塊。這解決的是"感知鴻溝"(Perception Gap)——確保模型能看見細節。但論文指出:感知能力再好,也無法解決"指不准"的問題。02. 視覺原語思考:給AI裝上"數字手指"DeepSeek的解法簡單粗暴:讓模型"邊想邊指"。它不再只用文字思考,而是把點坐標和邊界框變成了思維鏈的基本單位。圖:AI在推理過程中同步輸出坐標,像人"用手指著思考"舉個例子,它的思考過程會這樣呈現:找到一隻熊[452,23,804,411],正在爬樹,排除。再往左下看,找到另一隻[50,447,647,771],站在岩石邊緣,符合條件。這裡的坐標不再是事後標註的答案,而是推理過程中消除歧義的空間錨點。每提到一個對象,就用一個"圖釘"把它釘死在圖像的物理位置上。這套機制有兩種"視覺原語"(Visual Primitives):邊界框(Bounding Box):用於錨定對象,定位物體範圍。適合計數、屬性對比、多物體空間推理。點坐標(Point):用於追蹤軌跡,描畫路徑。適合迷宮導航、曲線追蹤等連續空間描述任務。03. 7056倍壓縮:極致的效率藝術讓模型每一步思考都帶坐標,聽起來計算量會爆炸。但DeepSeek通過壓縮稀疏注意力(Compressed Sparse Attention,CSA)機制,實現了極致的效率。圖:7056倍壓縮流程示意架構基於DeepSeek V4-Flash:284B總參數,13B啟動參數(MoE架構)。視覺壓縮流程:① 圖片經ViT處理,生成2916個圖像塊token② 3×3空間壓縮,合併為324個token③ CSA機制壓縮4倍,最終只剩81個視覺KV條目端到端壓縮比:7056倍。論文的核心論點:不需要"看更多",而需要"指更準"。04. 跑分屠榜:在"最難"的題上碾壓對手在11個benchmark橫評中,DeepSeek展現了強大實力。圖:11個基準測試性能對比最具代表性的差距出現在拓撲推理上:迷宮導航任務中,GPT-5.4、Claude、Gemini的正確率在48.9%至50.6%之間——幾乎就是在隨機猜。DeepSeek達到66.9%,提升約17個百分點。模型解迷宮時會一邊走一邊把當前位置point出來,遇到死路就回溯,一步步走出來的。這種"邊推理邊落點"的形態,是純語言CoT做不到的。05. 訓練哲學:先專家化,後統一DeepSeek的訓練策略可以用一句話概括:先讓專家各司其職,再合併成全科醫生。圖:從專家模型到統一模型的訓練流程預訓練階段:團隊從近10萬個目標檢測資料集中篩選,經過語義稽核和幾何質量稽核,最終保留約3.17萬個高品質資料來源。生成超過4000萬條訓練樣本,覆蓋計數、空間推理、迷宮導航、路徑追蹤四類任務。冷啟動資料設計:團隊故意構造了一批"看似可解實則不可解"的迷宮。破壞點放在中段而非起終點附近,逼模型完整搜尋而不是憑直覺判斷。專門化訓練:先分別訓練邊界框專家和點坐標專家兩個"專科醫生"。經強化學習最佳化後,通過線上策略蒸餾合併為統一模型。RL階段還有一個細緻設計:訓練資料按N次rollout的正確數分Easy/Normal/Hard三檔,只用Normal檔訓練。06. 開源與時間線:48小時完整動作閉環這次發佈的節奏乾淨利落,48小時內完成全域覆蓋。圖:DeepSeek多模態GitHub開源倉庫4月29日:DeepSeek多模態組負責人陳小康在X平台發佈"Now, we see you"預告,暗示識圖功能即將上線。4月30日:GitHub正式發佈模型權重+技術報告《Thinking with Visual Primitives》,網頁端/App端灰度上線"識圖模式"。5月1日:核心技術開源,免費商用,引發全球開發者熱議。開源策略:無隱藏後門、無強制雲端繫結、無商用額度鎖。開發者僅需基礎適配硬體,即可完成本地離線完整部署。值得注意的是,論文曾短暫被刪除後恢復。有分析認為可能因技術細節曝光度較高,團隊進行了內容稽核調整。此外,模型同步完成輝達通用算力、華為昇騰國產算力雙生態深度適配最佳化,兼顧效率與安全合規。07. 侷限與展望:多模態競賽的新起點論文坦誠列出了當前的三條侷限:圖:多模態AI的未來發展方向第一:坐標精度有限。極細粒度場景(如數手指)下,視覺原語的輸出可能不夠精確。第二:需要觸發詞啟動。"用視覺原語思考"的能力依賴於顯式的觸發詞才能啟用。第三:泛化能力待提升。跨場景的通用性仍在探索中。但從更宏觀的視角看,這篇論文標誌著多模態競賽從"廣度"轉向"深度"。別人卷"看更多像素",DeepSeek這次卷的是"看更少像素,但思考時手指點得更準"。競爭焦點正在從"看更多像素"轉向"指更準坐標"。DeepSeek產品矩陣趨於完整:快速模式+專家模式+視覺模式。低價策略極可能延伸至多模態,掀起新一輪價格戰。從純文字強者到多模態全能選手,DeepSeek用硬核技術打破行業痛點,補上國產AI關鍵短板。這不僅是DeepSeek的里程碑,更是國產AI從單點突破到全面開花的新起點。 (熱火AI)
DeepSeek-V4技術報告暗藏的10個神級彩蛋,“煉丹玄學”也被寫進論文
DeepSeek在“省錢”和“省資源”上達到了變態的程度。DeepSeek-V4總算來了。4月24日,DeepSeek官方帳號發佈了一篇名為《DeepSeek-V4 預覽版:邁入百萬上下文普惠時代》的文章。文章中正式宣佈,“全新系列模型 DeepSeek-V4 的預覽版本正式上線並同步開源。”同時,還介紹:DeepSeek-V4 擁有百萬字超長上下文,在 Agent 能力、世界知識和推理性能上均實現國內與開源領域的領先。模型按大小分為兩個版本:發佈後,測評、討論已非常充分,不再贅述。盒飯財經關注到,DeepSeek同步發佈了一篇關於DeepSeek-V4 技術報告。地址如下:https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf這份名為《DeepSeek-V4:Towards Highly Efficient Million-Token Context Intelligence》的技術報告,共55頁,從架構、通用基礎設施、預訓練、訓練後等6個部分介紹了V4。而這份高度專業的技術報告中,隱藏了10個有意思的小彩蛋。彩蛋一:“Think Max”模式,絕不允許走捷徑的“壓榨”指令位置:第30頁,Table 3原文為:Reasoning Effort: Absolute maximum with no shortcuts permitted. You MUST be very thorough in your thinking... rigorously stress-testing your logic against all potential paths, edge cases, and adversarial scenarios.翻譯過來,大概的意思就是:推理投入度:絕對最大化,不容許任何捷徑。你的思考必須極其徹底,全面拆解問題以觸及根本原因,並針對所有可能的路徑、邊緣案例及對抗性場景,對你的邏輯進行嚴苛的壓力測試。要明確寫出完整的深思過程,記錄每一個中間步驟、考慮過的替代方案以及被否決的假設,確保絕對沒有任何未經審視的預設。這段話是模型開啟 Think Max(極致思考模式)時,後台偷偷塞給大模型的“系統提示詞(System Prompt)”。寫得極具壓迫感,像是一個嚴厲的導師在逼學生榨乾腦力,不準有任何偷懶。DeepSeek為其式設定了一套極為嚴苛的系統提示詞。用詞極具壓迫感,還全部使用了絕對祈使句:“絕對最大化”“不許走捷徑”“必須徹底”“嚴酷地壓力測試”“不放過任何一個假設”。它還顯式地命令模型“禁止走捷徑”,要求記錄每一個被拒絕的假設和中間步驟。通過這種極度嚴厲的工程化Prompt,榨乾大模型在 1M Context(百萬上下文)裡的算力去驗證程式碼和邏輯錯誤。這就像是給模型戴上了“邏輯緊箍咒”,確保在處理複雜邏輯或程式碼時,模型不會因為追求速度而忽略細節。彩蛋二:給硬體廠商的“公開信”:別瞎忙活頻寬了位置:第16頁,Section 3.1原文為:Once bandwidth meets this threshold, it ceases to be the bottleneck, and devoting additional silicon area to further bandwidth brings diminishing returns. We encourage future hardware designs to target such balance points rather than scale bandwidth unconditionally.意思是:一旦頻寬達到該閾值,便不再是瓶頸,此時將更多的晶片面積用於進一步提升頻寬,會帶來邊際收益遞減。我們鼓勵未來的硬體設計瞄準這樣的平衡點,而非一味地無條件擴展頻寬。DeepSeek在報告中反客為主,給輝達和華為等硬體廠商開出了“方子”。體面表達了他們在硬體方面的觀點:盲目提升頻寬對現在的AI訓練效率提升有限,建議廠商把晶片面積留給更能提高計算通訊比的地方。彩蛋三:極致效率,1M長度下僅需V3.2的10%快取位置:摘要,Abstract原文:In the one-million-token context setting, DeepSeekV4-Pro requires only 27% of single-token inference FLOPs and 10% of KV cache compared with DeepSeek-V3.2.意思是:在百萬級token上下文設定下,與DeepSeek-V3.2相比,DeepSeek-V4-Pro僅需其27%的單token推理FLOPs,以及10%的KV快取。DeepSeek在“省錢”和“省資源”上達到了變態的程度。通過 CSA(壓縮稀疏注意力)和 HCA(重度壓縮注意力)技術,它在處理100萬字的長文字時,佔用的記憶體竟然只有前代版本的十分之一。這意味著未來個人電腦甚至手機運行百萬超長文字分析將成為可能。彩蛋四:坦誠的“煉丹玄學”:知其然不知其所以然位置:第26頁,Section 4.2.3原文為:Although a comprehensive theoretical understanding of their underlying mechanisms remains an open question for now, we are sharing them openly to foster further exploration by the community.意思是:儘管目前對其底層機制的全面理論理解仍是一個懸而未決的問題,但我們將其公開分享,以推動社區的進一步探索。在Mitigating Training Instability 緩解訓練不穩定性章節中,DeepSeek團隊分享了兩個解決兆參數模型訓練崩潰的獨門絕技,Anticipatory Routing和SwiGLU Clamping。技術報告中,他們也非常耿直地承認:這種“雖然我不知道原理是啥,但它跑起來確實有用,大家拿去用吧”的坦誠,可以說是AI煉丹界的真實寫照了,非常有開源精神。彩蛋五:“快指令”(Quick Instruction)特供Token位置:第33頁,Table 5<|action|> (判斷是否搜網), <|title|> (生成標題), <|query|> (生成搜尋詞)。為了讓Chatbot響應更快,DeepSeek在模型內部植入了一系列專用Token“暗號”。V4之所以能這麼快,是因為它直接復用了已經算好的長文字 KV Cache(快取)。不用像以前那樣把幾十萬字重新喂給另一個小模型去判斷,從而徹底消除了“冗餘的預填充(redundant prefilling)”,這樣使用者的等待時間就能大幅縮短。彩蛋六:Codeforces全球排名第23位位置:第39頁,Section 5.3.2原文為:On the Codeforces leaderboard, DeepSeek-V4-Pro-Max currently ranks 23rd among human candidates.這句話的意思是,在 Codeforces 排行榜上,DeepSeek-V4-Pro-Max 當前在人類參賽者中位列第23名。這個“彩蛋”極具含金量。在純人類參與的全球頂級程式設計競賽Codeforces排名中,DeepSeek-V4的預估分值(3206分)足以排到全球第23名。這意味著它已經超越了絕大多數頂級程式設計師,進入了人類程式設計智力的最頂端一小撮。彩蛋七:內部“員工大調查”,52%的人已離不開它位置:第44頁,Section 5.4.4原文為:In a survey asking DeepSeek developers and researchers (𝑁= 85) — all with experience of using DeepSeek-V4-Pro for agentic coding in their daily work— whether DeepSeek-V4-Pro is ready to serve as their default and primary coding model compared to other frontier models, 52% said yes, 39% leaned toward yes, and fewer than 9% said no.翻譯過來是:在一項面向DeepSeek開發者和研究人員的調查(N=85)中,這些受訪者均有在日常工作中使用DeepSeek-V4-Pro進行智能體編碼的經驗。當被問及與其他前沿模型相比,DeepSeek-V4-Pro是否已準備好成為他們默認且主要的程式設計模型時,52%給出了肯定回答,39%傾向於肯定,而表示否定的不足9%。DeepSeek非常罕見地公開了公司內部85名頂尖研究員的真實反饋。超過一半的DeepSeek內部核心人員已經將其作為日常首選程式設計工具。這種“吃自己的狗糧”的行為比跑分資料更能說明模型在實際生產中的情況。彩蛋八:內部員工的真實“吐槽”被寫進技術報告位置:第44頁,Section 5.4.4原文:Respondents find DeepSeek-V4-Pro to deliver satisfactory results across most tasks, but note trivial mistakes, misinterpretation of vague prompts, and occasional over-thinking.翻譯過來就是:受訪者認為DeepSeek-V4-Pro在大多數任務上都能給出令人滿意的結果,但也指出它存在一些細小的錯誤、對模糊提示的理解偏差,以及偶爾的過度思考。這句話緊挨著上一條“內部員工調查”的彩蛋,DeepSeek選擇把內部員工的吐槽也寫了進去。彩蛋九:親民的“中國特色”評測題位置:第43頁,Figure 13為了展示模型在複雜長文字白領工作中的能力,DeepSeek放出的示例任務非常親民。“寫一份某知名奶茶品牌與北京地鐵的聯名行銷策劃”“UGC傳播與社交裂變設計”,比起國外大模型測寫全英文的莎士比亞詩歌,DeepSeek的評測題真的很懂國內打工人的日常PPT需求。彩蛋十:致謝名單裡的神秘測試Dolly Deng位置:第55頁,附錄 A.2 致謝部分附錄 A.2 致謝(Acknowledgment)部分,除了全體作者外,團隊特別單獨點名感謝了一位非作者人士:“We would like to thank Dolly Deng and other testers for their valuable suggestions and feedback...”翻譯過來就是,我們要感謝 Dolly Deng 及其他測試人員,就DeepSeek-V4系列模型的能力所提出的寶貴建議與反饋。能在這樣一份AI基礎模型技術報告中被單獨拎出來感謝的測試(或外部反饋者),不知道他在V4內測期間提交了怎樣關鍵的Bug或改進建議。 (盒飯財經)
梁文鋒和楊植麟的默契:AGI不是終點,定義規則才是
484天的沉默,換來一場1.6兆參數的爆發。4月24日,DeepSeek V4-Pro正式發佈,總參數1.6兆、百萬token上下文、首次將華為昇騰與輝達GPU並列寫進硬體驗證清單。而就在4天前,與DeepSeek相距僅1.4公里的月之暗面剛開源了Kimi K2.6,SWE-Bench Pro得分58.6,首次讓國產開源模型站上全球程式碼評測之巔。兩家公司在五天內連發兩款兆級模型,這不是巧合,是海淀區知春路上兩個男人——梁文鋒與楊植麟,長達一年半的默契共振終於公開化。先說一個被大多數媒體忽略的真相:DeepSeek和Kimi的"技術撞車",恰恰是開源生態最理想的進化方式。2025年初,DeepSeek在V3中推出的MLA多頭潛在注意力機制,Kimi直接沿用;2025年7月,Kimi在兆參數K2中率先規模化驗證自研Muon二階最佳化器,訓練成本降低50%以上,而這次DeepSeek V4的技術報告裡,也跟進採用了Muon。表面上看是路線同質化,實際上這是兩家公司在兆參數無人區裡的"交叉驗證"。你探一步,我確認一步,共同把國產大模型的技術水位抬到全球第一梯隊。它們是在互相兜底。這種默契,比單打獨鬥更難得。更關鍵的是,DeepSeek V4的發佈證明了一件事:中國AI已經具備了"晶片-模型-系統"全端自主的能力。技術報告裡那行關於昇騰950的備註,很多人讀出了"算力受限"的焦慮,但我讀出了另一種訊號:DeepSeek敢於在發佈當天就把國產晶片的適配進度寫進官方文件,這意味著"芯模協同"不再是PPT概念,而是正在發生的工程現實。下半年昇騰950超節點批次上市後,V4-Pro的價格會大幅下調,到時候國產模型的性價比優勢將進一步放大。當然,挑戰也是真實存在。DeepSeek近300人的研發團隊中,已有10位核心成員標註"已離職",包括初代LLM核心作者王炳宣、R1核心研究員郭達雅等,分別流向騰訊、字節跳動。人才流失倒逼DeepSeek打破"零融資"的執念,融前估值已達3000億人民幣,計畫增資500億,50億起投。騰訊、阿里正在爭搶入局。但換個角度看,這恰恰說明DeepSeek的技術實力已經強到讓大廠無法忽視。挖不走整個團隊,就挖核心骨幹;投不了整個公司,就搶份額入局。這裡有一個反常識的判斷:DeepSeek和Kimi越是被資本追捧,中國AI的"去中心化"生態反而越穩固。梁文鋒曾拒絕所有外部投資,擔心喪失決策權;楊植麟去年12月還在內部信裡說"短期內不著急上市"。智譜和MiniMax在港股上市後的暴漲並沒有讓這兩家公司跟風IPO,而是選擇了更靈活的一級市場融資。有意思的是,當國內為DeepSeek和Kimi的融資歡呼時,美國那邊Anthropic的ARR已經突破300億美元,15個月翻了30倍,正式超越OpenAI的240億美元。OpenAI剛完成1220億美元融資,估值8520億美元。相比之下,中國大模型的融資額"顯得小情小調"。但體量差距背後,是商業模式的代際差異。Anthropic 80%收入來自企業端,30萬家企業客戶,財富十強裡八家在用Claude。而DeepSeek至今堅持模型全部開源,C端產品免費。這不是不會賺錢,是主動選擇用開源換生態。Kimi雖然月活使用者從巔峰期的3600萬回落至1000-1500萬,但海外API收入四個月翻了四倍。Cursor套殼Kimi事件更讓全球開發者意識到:中國開源模型的性能已經不輸閉源旗艦。中國大模型公司不是在重複網際網路時代的"燒錢換規模"劇本,而是在走一條更硬核的路:先用技術實力打開全球市場,再用生態粘性鎖定長期價值。歷史正在寫下新的註腳。當DeepSeek把昇騰寫進技術報告,當Kimi的模型ID出現在Cursor的API呼叫裡,當馬斯克親自轉發評價"Impressive work from Kimi"。這些訊號都在指向同一個趨勢:中國AI不再只是"本土童話",而是全球開源生態的規則制定者之一。朱嘯虎去年說"大模型已經變成水電煤,沒有超額利潤"。目前來看,他錯了一半:大模型確實在變成基礎設施,但超額利潤沒有消失,只是從閉源壟斷轉移到了開源生態的規模化營運。DeepSeek和Kimi的估值飆漲,本質上不是泡沫,是資本對"開源即權力"這一新範式的提前下注。DeepSeek和Kimi的"知春路雙雄"敘事,不是精緻的本土童話,而是正在發生的全球級技術事件。它們的結局也不只有兩種:被資本收編,或在獨立與規模之間找到平衡。還有第三種可能,用開源生態的廣度,避險閉源壟斷的深度,最終在全球AI格局中佔據不可替代的位置。AGI不是終點,定義規則才是。 (識焗)
實測!DeepSeek V4-pro是第一個接近Claude開源模型,前Meta研究員震驚
DeepSeek V4-pro是第一個接近Claude開源模型DAIR.AI創始人、前Meta AI研究員Elvis最近花了幾個小時,用DeepSeek-V4-Pro在Pi這個Agent框架裡搭了一個LLM知識庫。結果他直接被整震驚了。開箱即用他用的是Pi,一個基礎的Agent腳手架,沒有做任何特殊配置,直接把DeepSeek-V4-Pro接進去,就跑起來了。他特別強調這一點:這是他第一次見到一個開源模型,可以就這樣插進一個基礎框架,什麼都不用調,直接工作。以前遇到的模型,基本都需要大量的配置和前期準備工作。能做到這一步,本身就已經很罕見了。推理服務跑在Fireworks AI上。Agent幹了什麼這個Agent承擔的任務並不輕鬆,是一次覆蓋面很廣的知識密集型多步研究任務:從Anthropic、OpenAI、Google、Stripe、Meta、Modal、DeepSeek、Mistral、Cohere等多家公司的官方文件裡,抓取Agent工程的最佳實踐;同時搜尋並消化Reddit和Hacker News上的相關討論帖;總結arXiv上的學術論文;挖掘GitHub上的熱門倉庫。最後,把所有這些來源的內容彙總,提煉成分類清晰、可以直接落地執行的建議,組成一整個知識庫Wiki。Wiki已經開源,可以直接查看:https://github.com/dair-ai/dair-workshops/tree/main/agentic-engineering-wikiElvis對成品質量的評價是:真的很好。模型在整個過程中沒有出任何問題多步研究查詢、為腳手架生成程式碼、跨多個來源的重度上下文推理,全部流暢完成,沒有卡頓,沒有中斷。他對DeepSeek-V4-Pro的判斷是兩點:第一,在開源模型裡,它在Agent程式設計任務上可能是最強的;第二,它在知識密集型、需要推理的任務上同樣表現出色,不只是會寫程式碼。在程式設計能力這件事上,他給出了一個更直接的評價:這是他見過的第一個開源模型,真正能讓人感受到接近Codex或Claude Code的體驗。不是說能力差不多,而是在實際的多輪Agent任務裡,它能真正比肩這兩個產品。他也提到,這是他第一次感受到,有一個開源模型的推理能力真正達到了Claude和Codex的水平,同時還以一種經濟實惠的方式實現了對100萬token上下文長度的支援。跑得快,背後有架構原因整個Agent循環之所以響應迅速,有兩個因素。一個是Fireworks AI的推理速度,Elvis認為這是目前市場上最快的,並且Fireworks在上線模型之前會在系統層面做驗證,沒有出現推理鏈損壞的問題,迭代穩定可靠。另一個是DeepSeek-V4-Pro自身的架構設計。它採用了混合CSA和HCA注意力機制,在100萬token的上下文長度下,KV快取只有原來的10%,推理所需的FLOPs降低了近4倍。這兩點加在一起,讓Agent循環在實際使用中足夠快、足夠便宜,真正可以跑起來。給一直在等的開發者Elvis最後說,對於那些一直在觀察開源模型能否真正追上閉源模型、但始終沒找到一個能在實踐中真正交付的人來說,DeepSeek-V4-Pro是他目前見過最接近那個答案的模型。 (AI寒武紀)
DeepSeek V4:是AI開源大事件,更是產業變革新開端
推理效率提升74%、KV快取壓縮90%、API定價不及閉源競品1%。當大模型的邊際成本趨近於零,AI產業的真正變局才剛剛開始。2026年4月24日,DeepSeek在沉寂長達15個月後,正式發佈並開源新一代旗艦模型DeepSeek-V4。這不是一次常規的模型迭代,而是一次從架構底層到價格體系、從算力生態到產業邏輯的全方位重塑。如果說過去兩年AI圈的競爭是“誰能做出更聰明的模型”,那麼從這一天開始,競爭正在轉向:“誰能讓AI變成人人用得起的水電煤”。一、暴力破解的終結:當AI開始“聰明地花算力”DeepSeek-V4系列包含兩款模型:V4-Pro(1.6兆總參數,每次推理啟動490億參數)和V4-Flash(2840億總參數,每次推理啟動130億參數),兩者均原生支援100萬token超長上下文。1M上下文從此不再是一個“高端功能”——一年前它還是Gemini獨家的王牌,如今被DeepSeek直接挪成了行業標配的“水電煤”。這組資料之所以震驚業界,不是因為參數大,而是因為效率做到了前所未有的極致。在100萬token的極端長度下,V4-Pro的單token推理FLOPs僅為上一代V3.2的27%,KV快取佔用僅為10%。V4-Flash則更進一步,只需要10%的單token FLOPs和7%的KV快取。這意味著什麼?處理同樣長度的超長文件,V4不僅讀得更多,而且讀得更快、更省、更穩。效率提升的核心來自一系列值得深挖的架構創新:壓縮稀疏注意力(CSA) :每4個token合併成一個壓縮條目,然後用閃電索引器快速篩選出最相關的少量塊進行注意力計算——“拿著放大鏡找關鍵線索的偵探”。重度壓縮注意力(HCA) :以高達128倍的壓縮率濃縮全域資訊——“站在山頂俯瞰全景的指揮官”。兩者交錯部署在模型的各層中,形成精準定位與全域把握的互補。流形約束超連接(mHC) :給訊號傳播加上“安全閥”,從根本上保證訓練穩定性。Muon最佳化器:取代業界標配的AdamW,進一步降低訓練成本。這一切的底層哲學,不是“堆參數”,而是“每瓦特算力的最大產出”。DeepSeek V4把注意力機製做了一次“手術級”的改造,讓超長上下文從實驗室裡的“高端展示”變成了普通開發者也能跑得動的日常工具。這種效率革命帶來的是價格上的斷崖式下降。DeepSeek V4-Flash每百萬token輸出價僅0.279美元,而同期OpenAI發佈的GPT-5.5 Pro輸出價高達180美元——價差整整645倍。V4-Pro輸出端成本則僅為GPT-5.5 Pro的2%。如果把V4-Pro考慮折扣後的API輸入價壓到0.25元/百萬詞元,與GPT-5.5 Pro加權平均價格30美元/百萬token相比,價差超過700倍。更直觀地說:V4呼叫一次的價格,還不到對手的千分之一。 在推理效率層面,華為昇騰950超節點的測試資料顯示,V4-Pro單卡Decode吞吐可達4700TPS,V4-Flash在8K長序列場景下單卡Decode吞吐1600TPS。DeepSeek V4的回答是:快,是能力的下限;省,才是格局的起點。二、一扇門打開,另一扇門關上當DeepSeek V4以700倍的價格差距直插市場時,它激發的連鎖反應遠遠超出模型本身。開源vs閉源:矽谷在“造牆”,中國在“修路”。矽谷的頭部玩家們不約而同地選擇了閉源路線。OpenAI、Anthropic、Google的Gemini,當前沿技術創新被鎖死在各自的資料中心裡,玩家們不可避免地陷入了零和博弈的“權力遊戲”。就在V4發佈前夕,一場圍繞新模型的輿論狙擊戰剛剛上演——4月16日Anthropic剛發佈Claude Opus 4.7,OpenAI兩個多小時後便宣佈Codex大幅更新;隨後又圍繞營收資料互相拆台,敵意滲透進每一個決策環節。而DeepSeek走了一條完全不同的路。它聚焦基礎模型的核心能力攻堅,進一步築牢了全球開源大模型的性能天花板,為全行業提供了性能比肩閉源旗艦的基礎底座。巧合的是,就在V4發佈前後,國內的Kimi也開源了K2.6,兩個兆參數模型同時亮相,卻沒有一絲互掐,甚至還在技術底層進行了“換防”。正如大量評論所指出的,這背後是中美AI路線的一次分岔:矽谷在“造牆”,守住既得利益;中國在“修路”,走開源協同之路。這種路線的分野,背後是根本邏輯的差異。閉源路線的本質是技術作為“護城河”和賺錢的工具,一旦共享就會失去競爭優勢;而開放原始碼的邏輯是模型越開放,生態越繁榮,蛋糕才能越做越大。網際網路巨頭:戰火從“參數比拚”燒向“應用落地”。DeepSeek V4發佈僅一天後,阿里雲百煉就火速上線,API價格與官網一致;國家超算網際網路同步上線服務。科大訊飛、中關村科金、華為昇騰等廠商也在第一時間完成了適配對接。對於騰訊、字節跳動、阿里這樣的巨頭來說,V4的衝擊更多是戰略層面的:以前大家的競爭焦點是“誰的模型參數更大、榜單更高”,現在V4用700倍的成本優勢提醒所有人——接下來真正決定勝負的戰場,是誰能在真實業務場景中用模型創造價值。誰先學會“用好V4”,誰就可能在下一階段佔據卡位優勢。各行各業:一次從“能不能用”到“用不用得起”的跨越。在此之前,企業引入大模型最大的瓶頸不是技術夠不夠好,而是成本夠不夠低。一次API呼叫幾十上百美元的成本,對中小企業來說等於把AI鎖在實驗室裡。V4的出現改變了這一切。在金融行業,國泰海通率先完成DeepSeek-V4基於昇騰的本地化部署,將依託模型實現在智能投行、智能投研、智能投顧、智能風控等八大業務領域的全面突破。保險行業聚焦投保、核保、理賠查勘等高重複性、知識密集型和互動高頻度場景展開部署。在醫療領域,深圳市南山區人民醫院基於昇騰率先部署V4,全面升級了政策諮詢、醫保監管、門診病歷質控等30余項應用,全方位覆蓋醫療全流程。廣西移動落地部署V4,聚焦行銷服務、研發設計等核心領域,全面賦能16個業務場景。河北交投智能科技公司在行業內率先完成V4本地化部署,建構了“自主創新算力+頂尖大模型”的全端自主創新AI底座。從金融到醫療,從通訊到交通——DeepSeek V4發佈後24小時內,各行業頭部企業就火速跟進部署。這本身就是最好的訊號:當AI足夠便宜,企業就不再觀望。“用得起”的真正意義,在於讓AI從實驗室資源變成基礎設施,從而催生前所未有的創新。三、AI便宜到人人敢用,模式才敢真變如果說過去兩年AI的變革是“天變了”,那麼V4之後,我們才第一次站在真正的變局起點上。為什麼這麼說?因為模式創新的土壤不是技術能力本身,而是足夠低的試錯成本。當一個團隊可以毫不心疼地跑十次不同提示詞、對比輸出質量而不是在意API帳單,產品經理可以大膽設想的每個互動都即時呼叫AI,企業可以把AI植入到那些“不太重要但希望更好的環節”——這才是模式創新真正開始的時候。DeepSeek V4的Agent能力經過了專門最佳化。在Agentic Coding評測中,V4-Pro已達到當前開源模型最佳水平,交付質量接近Claude Opus 4.6非思考模式;在世界知識測評中大幅領先其他開源模型,僅稍遜於頂尖閉源模型Gemini-Pro-3.1;在數學、STEM、競賽型程式碼等推理任務中超越所有已公開評測的開源模型。V4-Pro還在Codeforces程式設計任務中拿下3206分的測評成績,位列全球活躍使用者第23位。這意味著,過去只有頂級閉源模型才具備的強大執行能力,現在以1/700的價格向所有人開放。中小企業可以部署自動處理客戶問題的7×24小時AI客服系統;個體開發者建構的Agent能自主呼叫API完成多步任務;創業公司可以在產品中“鋪滿AI”,讓大模型程式碼改寫、文件生成、資料清洗成為功能的默認組成部分。當AI便宜到可以和“發一條簡訊”比較成本的時候,所有行業都值得重新問自己一個問題:如果AI呼叫幾乎是免費的,我的產品應該長什麼樣?四、Token經濟的興起:當消耗量三年增長一千多倍在把模型做得更高效、更便宜的同時,一個更深層的經濟變革正在發生。Token——大模型的基本計量單位——正在從後台技術參數變成AI經濟的前台結算單位。商湯科技大裝置產品總經理盧國強在2026中國生成式AI大會上提出的“AI Token Factory”概念,精準概括了這一趨勢:行業正在從“AI原生”邁向“Agent原生”,Token替代Flops成為新的度量衡,AI系統的核心使用者將從人轉向Agent。Token消耗量的增長數字令人震撼。國家資料局公佈的資料顯示,到2026年3月,中國日均Token呼叫量已超過140兆,相比2024年初的1000億增長了1000多倍,相比2025年底的100兆,短短三個月又增長了40%以上。中國工程院院士鄭緯民指出,AI產業的競爭核心正從MaaS(模型即服務)向TaaS(Token即服務)躍遷,從比拚算力叢集規模轉向比拚每瓦Token生產效率。圍繞Token經濟的整套產業邏輯正在逐步成型:生產層:對應算力、晶片、資料中心與推理引擎,把Token作為核心產品來組織基礎設施。分發層:對應雲平台、大模型廠商與API服務商,將底層能力打包按量計費分發。轉化層:對應各行業的AI原生應用和Agent系統,將Token轉化為實際的業務結果。阿里巴巴已正式成立Alibaba Token Hub事業群,騰訊雲將MaaS平台升級為TokenHub,行業從藍海迅速變為紅海。Token兩年激增千倍,智能體市場規模2025年達78.4億元,預計2026年將達135.3億元,增速超過70%。Token正從技術參數,變成AI時代最核心的生產資料和度量衡。誰能高效生產Token、精準分發Token、有效轉化Token,誰就能在智能經濟的新賽道上佔據先機。五、變局中的挑戰與耐心V4帶來的不可能全是好消息。巨大的機遇背後,挑戰同樣不容迴避。安全邊界重構需要時間。 當模型能夠讀取百萬token的超長上下文,風險不再只存在於使用者的當前問題中,而可能藏在龐大材料的某個角落——長長的郵件鏈的腳註裡、PDF的不可見區域中、程式碼註釋裡或歷史聊天記錄中。攻擊者可以把惡意指令藏在這些地方,在模型執行複雜的跨文件推理時“潛伏發動”。強制長上下文安全做前置治理,對使用者指令和外部資料做來源標註和風險掃描,已經成為迫在眉睫的工程需求。落地到用好有個過程。 企業部署了V4並不等於馬上獲得商業價值。從部署到真正融入核心業務流程創造收益,中間還有漫長的產品化、場景適配和組織變革之路。Token成本大幅下降後,產品經理如何在AI能力邊界內重新設計功能,才是決定成敗的關鍵因素之一。地緣政治與算力安全需要關注。 DeepSeek-V4首次在官方技術報告中,將華為昇騰與輝達GPU並列寫進硬體驗證清單,這是中國大模型首次將國產晶片與進口晶片放到了同等戰略高度。適配的昇騰新款推理晶片採購價格僅為輝達晶片的1/4,端到端延遲比原有叢集降低35%。輝達CEO黃仁勳此前警告稱:“如果頂尖的AI模型被最佳化在華為晶片上運行,對美國而言將是可怕的後果”。V4的發佈標誌著中國AI基礎設施的重心正從依賴美國半導體轉向本土化算力底座建構。但技術代差客觀存在,DeepSeek也坦承其能力整體落後於同期主要閉源對手約3至6個月。六、變局的開端才剛剛到來回到標題的那個判斷:DeepSeek V4是AI開源大事件,更是產業變革新開端。是的,事件已經發生——V4-Pro和V4-Flash雙雙開源,百萬上下文成為標配,API定價低至全球閉源競品的1/700,Agent能力逼近頂尖水平。但真正的變革才剛剛開始。因為V4真正的意義,不在於它本身有多強,而在於它重新定義了什麼才是AI產業真正的“兵家必爭之地” 。V4向行業宣告:當模型能力開始逐步趨同(開源會逐步追平閉源),真正決定勝負的將是:誰能讓AI更便宜、更易用、更快地融入真實世界。從長遠來看,AI產業的終極形態是:大模型成為像電力一樣的基礎設施,上面的Agent和智能應用才是創造價值的核心。而DeepSeek V4用700倍的成本優勢一次性把基礎設施的“電費”降到了幾乎可以忽略不計的水平。接下來,誰能在上面建造出更有創造力的智能應用,誰才是真正的贏家。2026年4月24日以前,AI還在比拚“能力的天花板”。從這一天開始,AI產業的真正競賽才剛剛開始。 (數字新財報)
DeepSeek升級,氣到了黃仁勳
接下來,黃仁勳的無奈和氣憤大機率還將繼續。“不誘於譽,不恐於誹,率道而行,端然正己。”這是上周DeepSeek-V4發佈稿的結尾,DeepSeek自己引用的一句話。字面意思是,不被讚譽誘惑,不被誹謗嚇到,按自己認定的道往前走,端正自己。過去一年多,同行動作頻頻,而DeepSeek除了零散的更新,幾乎毫無動靜,繼而引發不少質疑,但DeepSeek沒有回應過一次。DeepSeek淡定地做自己,輝達卻不能從容了。DeepSeek已明確表示,V4在下半年將正式支援華為算力。巧合的是,在此之前不久,黃仁勳在一檔播客節目裡提到:“如果像DeepSeek這樣頂尖的模型優先在華為晶片上運行,對我們來說將是‘可怕的後果’。”過去兩年,黃仁勳一直苦口婆心地勸告美國:“如果中國不能從美國購買(高端晶片),他們就會自己建造。”但勸告無果,他只能眼睜睜地看著輝達在中國的市場份額從2024年的70%降到2025年的55%。接下來,黃仁勳的無奈和氣憤大機率還將繼續。黃仁勳心裡的意難平,份量越來越重了AI時代之前,黃仁勳只是眾多遊戲宅眼裡刀法精準的“黃狗”。到了AI時代,黃仁勳迎來人生巔峰,輝達市值一路突破5兆美元,全球第一。逆襲背後,靠的是一次豪賭。2006年,輝達推出CUDA開發平台,能夠降低GPU程式設計門檻,讓多個GPU平行運算,從而大幅提升計算性能。但當時除了輝達,誰都沒把它當回事。一名輝達深度學習團隊的成員說道:“在CUDA推出十年以來,整個華爾街一直在問輝達,為什麼你們做了這項投入,卻沒有人使用它?他們對我們的市值估值為0美元。”CUDA十年無人問津,輝達雖然痛苦,但也獲得了先發優勢。所以當AI大潮轟然而至,輝達一飛衝天。時至今日,輝達的GPU更是變成了原油般的存在,幾乎所有大模型都奔跑在輝達的算力晶片上。豪賭成功的黃仁勳,如今不論到那兒都是意氣風發。如果說他還有什麼意難平,恐怕只有中國市場了。黃仁勳在2023年年底接受媒體採訪時表示,中國市場佔輝達銷售額的大約20%。騰訊、阿里、字節等巨頭的訓練叢集,清一色的輝達GPU。此外,在發展得如火如荼的中國智駕市場裡,彼時有超過80%的輔助駕駛晶片也來自輝達。然而一紙禁令,徹底攪了輝達在中國市場的美夢。輝達的高端晶片無法繼續給中國的AI大業添磚加瓦,後來專門為中國市場開發的閹割版的A800和H800也沒能繞開管制,黃仁勳一邊鬱悶一邊絞盡腦汁。2023年11月,矽谷DealBook峰會上,黃仁勳在對著全息演示屏上的中國地圖重申:“失去這個市場,我們沒有Plan B。”2024年1月,黃仁勳來華,在北京、上海、深圳三地的年會連軸轉。上海那一場,他脫下黑皮衣,換上東北大花馬甲,扭起了大秧歌;11月在港科大的講台上,他又動之以理“開放研究是全球合作的最終形式”。進入2025年,黃仁勳一方面繼續向中國市場示好,身著“唐裝”用生硬中文讚揚中國科技發展,一邊對著大洋彼岸曉之以利:“中國是一個不可替代的市場,服務這裡符合美國的利益。”可惜任憑他做足了各種姿態,說盡好賴話,還是事與願違。輝達在中國市場一家獨大的格局一去不復返,華為昇騰、阿里平頭哥、百度崑崙芯和寒武紀,毫不客氣地瓜分了它空出來的位置。到嘴的鴨子越飛越遠,黃仁勳忍不了了。DeepSeek-V4,戳中輝達的命門2026年4月15日,黃仁勳做客美國知名播客節目。面對主持人的一連串追問,其中還夾帶著指責他為了利益不顧國家安全的暗示,黃仁勳罕見地發飆了。他表示,管制的邏輯“極其愚蠢”,是典型的“失敗者心態”。在黃仁勳看來,如果是強者心態,一開始就不該關注要不要限制高端晶片出口。他曾公開表示:“無論有沒有美國晶片,中國的人工智慧技術都在快速發展。問題不是中國是否會擁有人工智慧,它已經擁有了。真正的問題是,世界上最大的人工智慧市場之一是否將運行在美國的平台上。”所以,黃仁勳反覆呼籲放開對華晶片銷售。他不只是怕少賣幾塊GPU,更擔心的是輝達的生態地位被挑戰。一直以來,他真正在意的是CUDA生態。有人比喻,如果把輝達GPU看作“電腦主機”,CUDA就是“Windows系統”。只要該生態能讓大部分人離不開,輝達就立於不敗之地。截至2025年,全球超過450萬開發者在使用CUDA。幾乎整個AI圈子的人都習慣在CUDA上寫程式碼、開發應用。他們所有的學習成本、項目程式碼、工程經驗,全都有輝達的印記。要離開這個生態也不是不行,但那就意味著程式碼重寫,工具鏈重搭,工程師重新培訓。有業內測算指出,非輝達平台上開發周期可能延長6個月,成本增加40%。所謂“賣產品不如賣品牌,賣品牌不如賣標準”,科技行業同樣如此。因此輝達不怎麼操心誰家的AI強不強,只關心他們的AI在不在自家生態裡黃仁勳對於DeepSeek的態度,就是一個例子。去年DeepSeek發佈R1,直接衝擊了行業對算力堆疊的路徑依賴,業內突然意識到原來搞頂級AI可能不需要海量GPU,於是輝達股價大跌,短短三天蒸發了6000億美元。但當時黃仁勳對外沒有顯出一點慌亂,還宣稱DeepSeek及其開源推理模型所帶來的能量“令人無比興奮”,並且篤定這種技術創新反而會帶來更多算力需求。那時他確實有底氣。畢竟R1再怎麼驚豔,終究是跑在輝達的GPU上,活在CUDA的生態裡。DeepSeek-V4的出現,則是把他最擔心的事變成了現實。V4預覽版上線的文件裡有一行小字寫著:“受限於高端算力,目前Pro的服務吞吐十分有限,預計下半年昇騰950超節點批次上市後,Pro的價格會大幅下調。”言外之意是,等下半年華為昇騰950鋪開了,V4不但會更流暢,價格還能再砍幾刀。V4的存在也是在告訴其他人:離開輝達的晶片和生態,也能幹旗艦模型的活。輝達的生態壁壘就此裂出了一條縫,雖然還微不足道,但對於喜歡把“輝達離倒閉只有30天”之類的話掛嘴邊的黃仁勳,不得不警惕。“全面替代”的口號,不是說說而已想挑戰輝達的遠不止國內企業。2024年,AMD、英特爾、Meta、微軟、Google等9家科技巨頭成立了一個UALink聯盟,針對的就是輝達的護城河——NVLink。OpenAI則是推出Triton編譯器,試圖繞開CUDA的“語言壟斷”。所以段永平曾表達過對輝達的一個顧慮:輝達的護城河雖然很強大,但這麼多巨頭針對它,不能改變一些什麼嗎?對此,輝達見招拆招,收效頗豐。客戶和競爭對手想在NVLink之外另起爐灶,輝達乾脆直接開放NVLink,讓出一部分權限,讓客戶可以把其他品牌的晶片也混進算力叢集裡。中國這邊全然不同,局勢促使我們堅定自研,歷史也反覆證明了爹有娘有不如自己有,必須把輝達從“唯一選擇”變成“備選之一”,那怕中國的晶片在許多方面還暫時落後。這也成了許多中國企業的共識。科大訊飛是一個典型案例,明知遷移成本極高,用輝達方案一個月能完成的任務,遷移到昇騰可能需要三個月,但其董事長劉慶峰直言:“這一步非走不可。”這種不計代價的投入,大概才是真正會讓黃仁勳頭疼的東西。更何況,中國同行也有不少與輝達對壘的底氣。一個是基建優勢。在播客裡,主持人認為輝達如果把高端晶片賣給中國企業,會幫助對手開發出頂尖AI模型。黃仁勳當即反駁道,頂尖的AI模型,不一定要最頂尖的晶片才能訓練出來。中國企業的解決方案是“芯海戰術”,通過相關技術把數百甚至數千顆國產晶片高速互聯,形成一個龐大的算力叢集,用數量優勢彌補單點性能的不足。叢集模式功耗巨大,但好消息是,中國不缺能源。還有市場優勢。晶片和AI好不好用,需要在市場裡驗證和迭代。中國不僅內需市場足夠龐大,中國頭部AI公司還普遍採用開源策略,大幅降低了開發者和企業的使用和二次開發門檻,疊加成本優勢,中國的AI模型能輕易觸達全球使用者。例如2024年初,Meta的大模型Llama下載量為1060萬次,而阿里的大模型Qwen下載量只有50萬次。但到了2025年10月,Qwen的累計下載量為3.853億次,超過了Llama的3.462億次。就像最近很火的何潤東版項羽說的“打仗靠的是決心和勇氣”,挑戰輝達也需要實力、動力和決心。還好這些我們也都不缺。國產晶片“能用”了,“好用”還會遠嗎? (36氪)
AGI很蠢?AI教父Hinton預警:4.8兆美元市場已鎖死,AI正撕裂全球! https://hao.cnyes.com/post/244479
DeepSeek“開眼”背後的技術,公開了! https://hao.cnyes.com/post/244795
DeepSeek連夜刪新論文,梁文鋒到底怕什麼
5月1日消息,今天AI領域的最大事件,無疑是DeepSeek刪論文的消息。昨天,DeepSeek多模態團隊負責人陳小康宣佈灰度基於多模態模型技術的“識圖模式”,以及在GitHub平台上傳了一篇長達25頁的多模態研究論文:《Thinking with Visual Primitives》(用視覺基元思考)。然而,到了今晨,陳小康的推文刪了,這篇多模態研究論文也撤了、GitHub庫也404了。在未刪除之前,我把這篇論文下載並且讀完了。我靜下心把整篇內容捋完之後,反倒有了不一樣的感受。你以為,這是簡單DeepSeek的識圖模式論文,但其實,這篇論文對應出DeepSeek揭露了行業的發展趨勢:多模態AI模型的下一階段競爭重點,可能從單純的“看得更清”轉向“思考時能精確指向”。通過將坐標嵌入思維鏈,多模態模型模仿了人類“邊指邊想”的協同機制,為解決複雜空間結構化推理提供了一條新穎路徑——最終其實也要走向世界模型。值得一提的是,就在8小時前,DeepSeek正式公佈了Agent接入指南,親手教大家接入OpenClaw、Hermes等方式,深入到Agent技術層面。所以,在我看來,DeepSeek連夜刪論文,刪除的原因不是“論文有問題”,實際可能是灰度下重新修正“識圖模式”的能力,以及這篇論文可能太超前,透露太多了。很多資料需要重新進行查驗和修正,並且有望重新上傳到arxiv上。越往後深入瞭解,越能體會到這次DeepSeek V4以及多模態新模型的含金量,也真切感覺到AI行業的技術迭代。實際上,梁文鋒一直都在悄悄提速,AI技術的真正核心突破往往都藏在這種技術論文裡。DeepSeek新論文到底講了什麼?先做總結。這篇DeepSeek已撤回的多模態研究論文《Thinking with Visual Primitives》,核心在於探討自然語言模型到視覺等多模態模型的瓶頸和變化,從而揭示DeepSeek多模態領域的新研究方向:從單純的“看得更清”,轉向“推理思考時能精確指向”。換句話說,未來模型既有AI聊天和深度研究,而且還能用AI大模型技術(非OCR)識別圖像視訊中的核心資訊。而通過將坐標嵌入思維鏈,DeepSeek的多模態模型模仿了人類“邊指邊想”的協同機制,這將解決世界模型、3D空間的結構化推理等方向。提供了一條新穎而有效的路徑。下面再基於這篇已刪新技術報告,具體看看DeepSeek、北京大學、清華大學又創造了怎樣的奇蹟。首先,大型語言模型(LLMs)與電腦視覺的融合,開啟了多模態大型語言模型時代,使其具備了複雜的場景理解能力。然而,當我們推動這些模型進行複雜的推理,當前範式的一個根本性侷限便顯現出來。儘管這些模型的內部推理(通常以思維鏈的形式呈現)在語言領域已變得越來越穩健,但它與視覺領域在很大程度上仍然是割裂的。而當前多模態模型主要解決的是感知差距。然而,“看見”不等於“推理”。即使擁有完美的感知能力,多模態大模型在處理涉及複雜空間佈局或密集物體互動的任務時,仍常常遭遇邏輯崩潰。在密集計數或多步驟空間推理等場景中,模型的“語言”思維會失去對其試圖指代的視覺實體的追蹤,從而導致連鎖幻覺。因此,DeepSeek聯合北京大學和清華大學,提出一種範式轉變:基於視覺基元進行思考。團隊超越將視覺定位視為次要任務或最終輸出的傳統做法,將空間標記——點和邊界框——提升為“思維的最小單元”,直接交錯嵌入模型的推理軌跡中。這一機制從人類的認知過程中汲取靈感。當人類在複雜迷宮中導航或清點密集物體時,會自然地運用指示性指針(例如手勢)來降低認知負荷並保持邏輯一致性。這項工作以DeepSeek剛發佈的V4-Flash為語言主幹。該模型混合專家模型(MoE)擁有284B 總參數、推理時啟動 13B 參數,視覺編碼部分則使用DeepSeek自研的視覺Transformer ViT,支援任意解析度輸入。通過將視覺基元交錯融入思考過程,這個模型模仿了這種“指向‑推理”的協同作用,有效地將抽象的語言思維錨定到具體的空間坐標上。此外,該模型框架建立在架構高效的基礎之上,專為高吞吐、長上下文的多模態互動而設計。與依賴海量視覺標記序列來彌補視覺缺陷的傳統方法不同,我們的模型利用壓縮稀疏注意力技術,它將每個視覺標記的鍵值快取壓縮為單一條目。總結這個研究報告的三個創新點:第一大核心創新,是重構視覺推理邏輯,把坐標與邊界框做成可即時參與思考的思維單元。傳統模型先推理、後補坐標,屬於事後標註;但該模型全程在思維鏈中同步框選、打點定位,用空間錨點鎖定邏輯路徑,避免推理跑偏,同時配套點、框兩類標準視覺原語,適配各類複雜視覺場景定位需求。第二項硬核創新為超高倍率視覺輕量化壓縮,通過圖像分塊編碼、多層空間降採樣與壓縮稀疏注意力聯動最佳化,整體達成7056倍視覺資訊壓縮。大幅削減KV快取佔用,視訊記憶體開銷遠低於同類旗艦模型,做到看得準、開銷低,高效平衡視覺表徵精度與推理落地算力成本。第三項關鍵創新,是全流程的高校資料定製化搭建,搭配專屬進階訓練體系。團隊嚴控資料來源篩選雙重稽核標準,首先爬取了近 10 萬個與目標檢測相關的資料集,經過兩輪嚴格篩選(語義稽核和幾何質量稽核),最終保留約 3.17 萬個高品質資料來源,生成超過 4000 萬條訓練樣本。在針對性設計的計數、多跳空間問答、迷宮導航、曲線路徑追蹤四個任務中,該模型專門補齊拓撲空間推理短板。而且,團隊採用先分訓專家模型、再統一強化微調的分體融合訓練策略,搭配多維精細化獎勵機制與線上策略蒸餾最佳化,穩步提升模型視覺理解穩定性,強化複雜場景下的綜合推理適配能力。測試成果層面,DeepSeek團隊在11個基準測試上進行了評測,與GoogleGemini-3-Flash、GPT-5.4、Claude Sonnet 4.6、GoogleGemma4-31B、阿里Qwen3-VL-235B等主流模型對比,DeepSeek新的視覺模型,與其他海外模型差距懸殊,並且超越了阿里Qwen3-VL-235B。DeepSeek多模態識別的圖片顯示,DeepSeek視覺模型在Pixmo-Count(精確匹配)上得分89.2%,超過Gemini-3-Flash的88.2%、GPT-5.4的76.6%和Claude Sonnet 4.6的68.7%。在空間推理的多個基準上,整體表現與頭部模型持平或略有超越,在 MIHBench(85.3%)和 SpatialMQA(69.4%)上均排名第一。在拓撲推理的迷宮導航(DS_Maze_Navigation)任務上,該模型得分66.9%,而GPT-5.4為50.6%、Gemini-3-Flash為49.4%、Claude Sonnet 4.6 為 48.9%,新模型提升了約17個百分點。不過目前,DeepSeek灰度“識圖模式”功能的使用者太少,包括我在內都沒辦法使用,只能說用普通模式、專家模型識別一些簡單圖片。猜測五一假期之後,DeepSeek可能還會上很多新功能。梁文鋒想的AGI到底是什麼:物理世界AI總結來說,這篇論文完全體現出DeepSeek未來發展節奏,絕對不是單純的多模態視覺識別,而是瞄準了更大的發展前奏——物理世界AI。最近,世界模型和物理AI是模型層新的發展趨勢。我也是總結了最近幾天發佈的模型,發現大家10天發佈了10款AI基礎模型,其中80%來自中國企業。20日:Kimi K2.6發佈;Qwen3.6 27B系列模型測試結果陸續出來。21日:螞蟻Ling 2.6 Flash模型發佈;Qwen3.6 35B A3B推理和非推理模型開始在各大算力平台測試;23日:OpenAl GPT-5.5模型公佈,小米Xiaomi MiMo-V2.5系列大模型正式開啟公測;騰訊混元Hy3-preview 推理模型發佈;24日:DeepSeek V4 Pro和DeepSeek V4 Flash系列模型發佈;28日:IBM Granite 4.1模型基準測試公佈;小米Mimo-V2.5 Pro正式發佈。30日:Ling 2.6 -1T基礎模型正式開源;DeepSeek上線識圖模式開啟灰測。目前來看,無論是Kimi K2.6,還是DeepSeek V4系列,顯示出今年基礎模型層最大的三個方向:Agent智能體、Coding程式設計能力、多模態和世界模型技術。一個例子就是Kimi。近期,月之暗面Kimi發佈並開放原始碼的Kimi K2.6模型,在通用Agent、程式碼、視覺理解等綜合能力全面提升,在多個基準測試優於或持平GPT-5.4、Claude Opus 4.6和Gemini 3.1 Pro等閉源模型。而Kimi K2.6長程編碼能力得到顯著提升,在測試中可不間斷編碼13小時,編寫或修改超過4000行程式碼。同時大幅增強了Agent自主化執行能力,由 K2.6 模型驅動的Agent叢集架構,支援300個子Agent平行完成4000個協作步驟,實現更大規模的平行化。針對高負載工作流與OpenClaw、Hermes Agent等主動式Agent框架,K2.6具備自動化任務處理能力,支援長達5天的持續自主運行。簡單來說,現在很多模型,增加了Agent和世界物理AI的功能和適配。但DeepSeek這套視覺多模態模型其實還比較落後,原因在於DeepSeek之前沒往多模態層面考量,更多還是在語言模型層面實現AGI。值得一提的是,論文也提出了一些侷限性:1、受限於圖片輸入解析度,模型在超高精細視覺場景中表現不佳,容易出現坐標、點位等視覺思維單元標註不准的問題,後續可結合感知缺口最佳化演算法聯動最佳化補足短板。2、核心視覺思維推理能力依賴專屬觸發詞才能啟用,無法自主讀懂場景需求、主動呼叫坐標框選推理機制,智能自適應適配性有待提升。3、用單點坐標處理高難度複雜拓撲推理難題時能力偏弱,跨場景泛化穩定性不足,同類能力很難靈活適配多樣化複雜空間任務,也是後續技術迭代重點攻堅方向。因此,新的研究成果並非真正意義的物理AI、世界模型,也不是完全的多模態識別,其頂多是DeepSeek OCR 2和V4的結合體。這或許是DeepSeek提前撤下論文的原因之一。2500年前,古希臘哲學家普羅泰戈拉提出:“人是萬物的尺度。”這句話的真正含義是,世界本身沒有固有價值,所有意義與判斷,都由人的感知與思考來定義。而DeepSeek這篇論文想要揭示的核心趨勢,正是 AI 視覺能力的一次本質躍遷:從只會 “看清畫面”,升級為思考時精準定位、理解空間、判斷價值。未來十年,AI一定會深度重塑工作方式、改變產業格局、重構生活節奏。但無論技術如何進化,人類獨有的情感、經驗創造力與同理心,永遠無法被演算法替代。人的價值,來自真實的生活閱歷;人與人之間的情感連接,才是我們願意彼此關心、持續前行的根本理由。因此,無論 AI 如何飛速發展,有一件事永遠不會改變:我們依然需要珍惜身邊真實的關係,保有真實的內心感受,理性適應技術變化,不斷去探索人類最本質的力量 ——創造價值、感知意義、彼此相連。五一節快樂。 (智能紀元AGI)