#梁文鋒
梁文鋒冒著自己淪為二流大模型的風險,給整個中國 AI 企業探路了
V4 出來這天,DeepSeek 沒開發佈會。只發了一份技術報告。封面上印了兩行字:輝達 GPU,華為昇騰 NPU。注意這兩行字的順序。這是中國大模型公司第一次,把輝達和華為放在同一張技術報告的封面上。更狠的是後面那一句:模型 1.6 兆參數,100 萬 token 上下文,全端跑通昇騰。也就是說,這個兆參數的大模型,可以徹底不依賴輝達。先看一組資料,事情就清楚了去年 5 月,DeepSeek R1 橫空出世,矽谷開會研究中國人怎麼做到的。一年過去,國際同行進度是這樣的:OpenAI GPT-5 已經迭代到 5.4。 Anthropic Claude 4.7 出了。 Gemini 3.1 Pro 上線了。DeepSeek 這邊呢?V3.2 原地不動。整整 5 個月沒出新模型。同期業內 11 家頭部公司平均每 2.8 天發一次迭代。第三方榜單上,V3.2 綜合成績跌到全球第 16,程式碼生成第 17。外面已經在傳一個判斷:DeepSeek 淪為二流了。這就是題面。但誰也沒想到,沉默 5 個月不是技術不行。是梁文鋒自己關了門,幹一件比追榜單更難的事。把 1.6 兆參數的大模型,從輝達 CUDA 整套搬到華為昇騰 CANN。這件事到底有多難得講一點背景,不繞。你今天用的所有大模型,幾乎都跑在輝達 GPU 上。CUDA 是輝達自家的開發語言,2007 年到現在,全球幾乎所有 AI 工程師都是在 CUDA 生態里長大的。所有快、所有省、所有穩定的訣竅,都沉澱在這套工具鏈裡。華為昇騰也是 AI 晶片,但它用自己的語言,叫 CANN。讓一個兆參數模型在輝達上跑通,已經夠難。讓同一個兆參數模型同時在昇騰上跑通,性能不能差太多,相當於讓一個寫慣了漢語的作家,臨時學德語,再把《紅樓夢》翻譯重寫一遍,還要讓德國讀者覺得好看。DeepSeek 把這件事做了。技術細節不難懂:V4 用了 FP4 精度。這個精度,恰好是華為今年 3 月新發佈的昇騰 950PR 原生支援的。MoE 專家權重、稀疏注意力索引器,全部按昇騰的硬體特性設計。整個工程總共重寫了 40 萬行算子,全端架構重做,精度對齊誤差控制在 0.5% 以內。翻譯成大白話:DeepSeek 直接給昇騰量身定做了一個兆參數模型。代價是 484 天沒出新版本。這 484 天裡,GPT、Gemini、Claude 在輝達上各自把版本號往前推了好幾代。DeepSeek 主動把自己最鋒利的那把刀放下,去打磨另一把還沒開刃的刀。一道反商業直覺的題這就有意思了。按所有商學院的邏輯,企業要先保自己。R1 那波之後,DeepSeek 的局面其實非常硬:第一,全端跑在輝達上,CUDA 用了多少年,所有最佳化都是熟手。第二,量化基金幻方做爹,2025 年收益率 56.6%,一年抽五十億現金不缺錢。第三,技術口碑天花板,融資排隊的人能從知春路排到中關村。最聰明的選擇,是接著按輝達這條路猛衝。把模型做到全球第一,把品牌做到頂。R2 踩 OpenAI,V4 跨過 Gemini,整個 2026 年的中國 AI 故事可以由 DeepSeek 一個人寫。梁文鋒偏偏沒這麼做。他選的是反過來。先做生態,再保自己。為什麼?因為他看到一個誰都不願意承認的真相。中國 AI 整個行業都在賭一件事:什麼時候,國產晶片能跑兆參數大模型。這個賭局,誰都不敢押。兆參數模型一旦在國產晶片上跑掛,損失的是幾億美元算力帳單加半年研發周期。沒有那家公司的 CFO 敢簽這個字。阿里不簽,字節不簽,騰訊不簽。DeepSeek 簽了。簽字那個人是梁文鋒。註冊資本從 10 萬元變成 510 萬元,他個人持股從 1% 漲到 34%。把身家全壓上去,讓 V4 同時跑通昇騰和輝達。跑通的那一刻,整個遊戲的規則變了。一夜之間,盟友全跟上來了V4 發佈當天,8 家國產 AI 晶片公司同時宣佈完成適配。華為昇騰 950 超節點、寒武紀、海光、燧原、摩爾線程,一個不少。阿里、字節、百度,都在自己的雲上線了 V4。更扎眼的是後面這條消息:阿里、字節、騰訊已經向華為下單數十萬顆昇騰 950PR。中國 AI 圈很少出現這個畫面。平時大家是競爭對手,互相挖人,互相壓價。這一次罕見地朝同一個方向使勁。為什麼?因為 DeepSeek 把那塊最難搬的石頭,自己一個人搬開了。兆參數模型在昇騰上跑通這件事,相當於一份公開的合格證。證書一出,所有國產晶片廠商都可以走同一條技術路徑去適配。所有雲廠商都敢把國產算力推給客戶,因為有 V4 這個標竿站在那裡。輝達 CEO 黃仁勳去年說過一句話,被反覆引用:中國如果讓 DeepSeek 這種公司用上華為昇騰,那就是輝達的災難。他沒想到這一天來得這麼快。這才是梁文鋒真正干的事。他要的不是榜單第一名的模型。要的是能讓國產晶片跑得動的最強模型。沖榜單,是為自己。把行業抬起來,是給中國 AI 整體趟雷。代價是真的但代價不是嘴上說說。第一個代價,人才。V3 模型最重要的貢獻者羅福莉,去了小米。 核心研究員郭達雅,去了字節。 多模態核心阮翀、第一代大語言模型核心王炳宣,去了騰訊。每一個名字,背後都是幾百萬年薪和股權。DeepSeek 給不出市場最高的價。第二個代價,市場。阿里通義千問把 V3 階段 DeepSeek 佔的那部分使用者場景,慢慢做了回去。豆包靠字節的流量入口,把日活拉到第一。Kimi 在長上下文這條賽道,已經走在 DeepSeek 前面。DeepSeek 月活從 1.38 億漲到 1.60 億,看起來還在增長,但增長曲線明顯平了。第三個代價,原則。去年梁文鋒斬釘截鐵說過:DeepSeek 暫時不融資。2026 年 4 月 20 日,DeepSeek 被曝尋求百億美元估值,至少 3 億美元戰略融資。阿里、騰訊都在溝通名單。永不融資這條鐵律,在 V4 出來前一周,破了。底層原因不複雜。R1 當年訓練成本是 587 萬美元,V4 單輪訓練成本飆到約 5 億美元。漲了快 100 倍。昇騰這條路要燒的錢,比輝達多得多。晶片產能不夠,工程師要重新培訓,工具鏈要從頭建。幻方那點錢,撐不住一個兆模型時代的全產業鏈投入。梁文鋒低頭了。低頭的姿勢,是為了把整個國產 AI 算力產業鏈拽起來。圈內的新評價V4 發佈後,圈內最準的一句評價是這樣的:V4-Pro 比 GPT-5.4、Gemini 3.1 Pro 落後 3 到 6 個月。3 到 6 個月,聽起來不長。在 AI 這個行業,足夠把一家公司從第一梯隊拉到第二梯隊。落後是梁文鋒自己選的。V4 是不是 DeepSeek 最強的模型?不是。V4 是不是 2026 年中國 AI 公司最重要的一次發佈?我傾向於是。因為它做的事情,是把整個國產 AI 生態抬起一截,不是把自家排名再往上挪一格。第一梯隊的位置可以再爭。算力的底子如果沒打牢,爭到也站不住。跟普通人有什麼關係繞了這麼大一圈,跟普通人有什麼關係?第一件,AI 應用價格還會接著掉。V4 把 API 壓到每百萬 token 0.3 美元。這個價格一出來,國內所有大模型都得跟著降。意味著你以後用的所有 AI 工具,寫文件、做翻譯、改程式碼、生成圖片,成本都要再低一檔。最直接的體感,是各種 AI 會員包月降價。第二件,國產晶片產業鏈開始轉起來了。華為昇騰、寒武紀、海光,這些名字以前主要是 A 股投資者關心。現在是真有大模型在用,訂單是看得見的。這條產業鏈上下游幾百家公司,包括伺服器、記憶體、散熱、電源,都跟著進入新一輪訂單周期。第三件,AI 這件事不再被一根線綁住。過去三年,業內一直擔心一件事:如果美國把輝達完全斷供,中國 AI 是不是要原地停擺。V4 跑通昇騰這件事,把這個最壞假設的機率往下打了一截。還談不上徹底安全,但至少有了第二條腿。第四件,離你的工作更近了一步。價格便宜的大模型,意味著越來越多公司開始把 AI 接入業務流程。客服、文案、設計、初級程式設計、報表分析,這些崗位被替代的速度只會更快。這不是好消息,但是該提前知道的事。一句話收束梁文鋒這次的選擇,可能讓 DeepSeek 在未來一年裡看起來不那麼耀眼。模型評測榜單上的名次會往下掉,融資估值會被國際同行甩開,明星光環會被分給其他公司。這都是真實的代價。但如果兩年後回頭看,會發現 2026 年 4 月這周,是中國 AI 從「跟在輝達後面跑」切換到「能靠自己跑」的一個分水嶺。切這一刀的人,是梁文鋒。你覺得他這步棋,賭對了嗎? (有知識青年)
梁文鋒和楊植麟的默契:AGI不是終點,定義規則才是
484天的沉默,換來一場1.6兆參數的爆發。4月24日,DeepSeek V4-Pro正式發佈,總參數1.6兆、百萬token上下文、首次將華為昇騰與輝達GPU並列寫進硬體驗證清單。而就在4天前,與DeepSeek相距僅1.4公里的月之暗面剛開源了Kimi K2.6,SWE-Bench Pro得分58.6,首次讓國產開源模型站上全球程式碼評測之巔。兩家公司在五天內連發兩款兆級模型,這不是巧合,是海淀區知春路上兩個男人——梁文鋒與楊植麟,長達一年半的默契共振終於公開化。先說一個被大多數媒體忽略的真相:DeepSeek和Kimi的"技術撞車",恰恰是開源生態最理想的進化方式。2025年初,DeepSeek在V3中推出的MLA多頭潛在注意力機制,Kimi直接沿用;2025年7月,Kimi在兆參數K2中率先規模化驗證自研Muon二階最佳化器,訓練成本降低50%以上,而這次DeepSeek V4的技術報告裡,也跟進採用了Muon。表面上看是路線同質化,實際上這是兩家公司在兆參數無人區裡的"交叉驗證"。你探一步,我確認一步,共同把國產大模型的技術水位抬到全球第一梯隊。它們是在互相兜底。這種默契,比單打獨鬥更難得。更關鍵的是,DeepSeek V4的發佈證明了一件事:中國AI已經具備了"晶片-模型-系統"全端自主的能力。技術報告裡那行關於昇騰950的備註,很多人讀出了"算力受限"的焦慮,但我讀出了另一種訊號:DeepSeek敢於在發佈當天就把國產晶片的適配進度寫進官方文件,這意味著"芯模協同"不再是PPT概念,而是正在發生的工程現實。下半年昇騰950超節點批次上市後,V4-Pro的價格會大幅下調,到時候國產模型的性價比優勢將進一步放大。當然,挑戰也是真實存在。DeepSeek近300人的研發團隊中,已有10位核心成員標註"已離職",包括初代LLM核心作者王炳宣、R1核心研究員郭達雅等,分別流向騰訊、字節跳動。人才流失倒逼DeepSeek打破"零融資"的執念,融前估值已達3000億人民幣,計畫增資500億,50億起投。騰訊、阿里正在爭搶入局。但換個角度看,這恰恰說明DeepSeek的技術實力已經強到讓大廠無法忽視。挖不走整個團隊,就挖核心骨幹;投不了整個公司,就搶份額入局。這裡有一個反常識的判斷:DeepSeek和Kimi越是被資本追捧,中國AI的"去中心化"生態反而越穩固。梁文鋒曾拒絕所有外部投資,擔心喪失決策權;楊植麟去年12月還在內部信裡說"短期內不著急上市"。智譜和MiniMax在港股上市後的暴漲並沒有讓這兩家公司跟風IPO,而是選擇了更靈活的一級市場融資。有意思的是,當國內為DeepSeek和Kimi的融資歡呼時,美國那邊Anthropic的ARR已經突破300億美元,15個月翻了30倍,正式超越OpenAI的240億美元。OpenAI剛完成1220億美元融資,估值8520億美元。相比之下,中國大模型的融資額"顯得小情小調"。但體量差距背後,是商業模式的代際差異。Anthropic 80%收入來自企業端,30萬家企業客戶,財富十強裡八家在用Claude。而DeepSeek至今堅持模型全部開源,C端產品免費。這不是不會賺錢,是主動選擇用開源換生態。Kimi雖然月活使用者從巔峰期的3600萬回落至1000-1500萬,但海外API收入四個月翻了四倍。Cursor套殼Kimi事件更讓全球開發者意識到:中國開源模型的性能已經不輸閉源旗艦。中國大模型公司不是在重複網際網路時代的"燒錢換規模"劇本,而是在走一條更硬核的路:先用技術實力打開全球市場,再用生態粘性鎖定長期價值。歷史正在寫下新的註腳。當DeepSeek把昇騰寫進技術報告,當Kimi的模型ID出現在Cursor的API呼叫裡,當馬斯克親自轉發評價"Impressive work from Kimi"。這些訊號都在指向同一個趨勢:中國AI不再只是"本土童話",而是全球開源生態的規則制定者之一。朱嘯虎去年說"大模型已經變成水電煤,沒有超額利潤"。目前來看,他錯了一半:大模型確實在變成基礎設施,但超額利潤沒有消失,只是從閉源壟斷轉移到了開源生態的規模化營運。DeepSeek和Kimi的估值飆漲,本質上不是泡沫,是資本對"開源即權力"這一新範式的提前下注。DeepSeek和Kimi的"知春路雙雄"敘事,不是精緻的本土童話,而是正在發生的全球級技術事件。它們的結局也不只有兩種:被資本收編,或在獨立與規模之間找到平衡。還有第三種可能,用開源生態的廣度,避險閉源壟斷的深度,最終在全球AI格局中佔據不可替代的位置。AGI不是終點,定義規則才是。 (識焗)
DeepSeek連夜刪新論文,梁文鋒到底怕什麼
5月1日消息,今天AI領域的最大事件,無疑是DeepSeek刪論文的消息。昨天,DeepSeek多模態團隊負責人陳小康宣佈灰度基於多模態模型技術的“識圖模式”,以及在GitHub平台上傳了一篇長達25頁的多模態研究論文:《Thinking with Visual Primitives》(用視覺基元思考)。然而,到了今晨,陳小康的推文刪了,這篇多模態研究論文也撤了、GitHub庫也404了。在未刪除之前,我把這篇論文下載並且讀完了。我靜下心把整篇內容捋完之後,反倒有了不一樣的感受。你以為,這是簡單DeepSeek的識圖模式論文,但其實,這篇論文對應出DeepSeek揭露了行業的發展趨勢:多模態AI模型的下一階段競爭重點,可能從單純的“看得更清”轉向“思考時能精確指向”。通過將坐標嵌入思維鏈,多模態模型模仿了人類“邊指邊想”的協同機制,為解決複雜空間結構化推理提供了一條新穎路徑——最終其實也要走向世界模型。值得一提的是,就在8小時前,DeepSeek正式公佈了Agent接入指南,親手教大家接入OpenClaw、Hermes等方式,深入到Agent技術層面。所以,在我看來,DeepSeek連夜刪論文,刪除的原因不是“論文有問題”,實際可能是灰度下重新修正“識圖模式”的能力,以及這篇論文可能太超前,透露太多了。很多資料需要重新進行查驗和修正,並且有望重新上傳到arxiv上。越往後深入瞭解,越能體會到這次DeepSeek V4以及多模態新模型的含金量,也真切感覺到AI行業的技術迭代。實際上,梁文鋒一直都在悄悄提速,AI技術的真正核心突破往往都藏在這種技術論文裡。DeepSeek新論文到底講了什麼?先做總結。這篇DeepSeek已撤回的多模態研究論文《Thinking with Visual Primitives》,核心在於探討自然語言模型到視覺等多模態模型的瓶頸和變化,從而揭示DeepSeek多模態領域的新研究方向:從單純的“看得更清”,轉向“推理思考時能精確指向”。換句話說,未來模型既有AI聊天和深度研究,而且還能用AI大模型技術(非OCR)識別圖像視訊中的核心資訊。而通過將坐標嵌入思維鏈,DeepSeek的多模態模型模仿了人類“邊指邊想”的協同機制,這將解決世界模型、3D空間的結構化推理等方向。提供了一條新穎而有效的路徑。下面再基於這篇已刪新技術報告,具體看看DeepSeek、北京大學、清華大學又創造了怎樣的奇蹟。首先,大型語言模型(LLMs)與電腦視覺的融合,開啟了多模態大型語言模型時代,使其具備了複雜的場景理解能力。然而,當我們推動這些模型進行複雜的推理,當前範式的一個根本性侷限便顯現出來。儘管這些模型的內部推理(通常以思維鏈的形式呈現)在語言領域已變得越來越穩健,但它與視覺領域在很大程度上仍然是割裂的。而當前多模態模型主要解決的是感知差距。然而,“看見”不等於“推理”。即使擁有完美的感知能力,多模態大模型在處理涉及複雜空間佈局或密集物體互動的任務時,仍常常遭遇邏輯崩潰。在密集計數或多步驟空間推理等場景中,模型的“語言”思維會失去對其試圖指代的視覺實體的追蹤,從而導致連鎖幻覺。因此,DeepSeek聯合北京大學和清華大學,提出一種範式轉變:基於視覺基元進行思考。團隊超越將視覺定位視為次要任務或最終輸出的傳統做法,將空間標記——點和邊界框——提升為“思維的最小單元”,直接交錯嵌入模型的推理軌跡中。這一機制從人類的認知過程中汲取靈感。當人類在複雜迷宮中導航或清點密集物體時,會自然地運用指示性指針(例如手勢)來降低認知負荷並保持邏輯一致性。這項工作以DeepSeek剛發佈的V4-Flash為語言主幹。該模型混合專家模型(MoE)擁有284B 總參數、推理時啟動 13B 參數,視覺編碼部分則使用DeepSeek自研的視覺Transformer ViT,支援任意解析度輸入。通過將視覺基元交錯融入思考過程,這個模型模仿了這種“指向‑推理”的協同作用,有效地將抽象的語言思維錨定到具體的空間坐標上。此外,該模型框架建立在架構高效的基礎之上,專為高吞吐、長上下文的多模態互動而設計。與依賴海量視覺標記序列來彌補視覺缺陷的傳統方法不同,我們的模型利用壓縮稀疏注意力技術,它將每個視覺標記的鍵值快取壓縮為單一條目。總結這個研究報告的三個創新點:第一大核心創新,是重構視覺推理邏輯,把坐標與邊界框做成可即時參與思考的思維單元。傳統模型先推理、後補坐標,屬於事後標註;但該模型全程在思維鏈中同步框選、打點定位,用空間錨點鎖定邏輯路徑,避免推理跑偏,同時配套點、框兩類標準視覺原語,適配各類複雜視覺場景定位需求。第二項硬核創新為超高倍率視覺輕量化壓縮,通過圖像分塊編碼、多層空間降採樣與壓縮稀疏注意力聯動最佳化,整體達成7056倍視覺資訊壓縮。大幅削減KV快取佔用,視訊記憶體開銷遠低於同類旗艦模型,做到看得準、開銷低,高效平衡視覺表徵精度與推理落地算力成本。第三項關鍵創新,是全流程的高校資料定製化搭建,搭配專屬進階訓練體系。團隊嚴控資料來源篩選雙重稽核標準,首先爬取了近 10 萬個與目標檢測相關的資料集,經過兩輪嚴格篩選(語義稽核和幾何質量稽核),最終保留約 3.17 萬個高品質資料來源,生成超過 4000 萬條訓練樣本。在針對性設計的計數、多跳空間問答、迷宮導航、曲線路徑追蹤四個任務中,該模型專門補齊拓撲空間推理短板。而且,團隊採用先分訓專家模型、再統一強化微調的分體融合訓練策略,搭配多維精細化獎勵機制與線上策略蒸餾最佳化,穩步提升模型視覺理解穩定性,強化複雜場景下的綜合推理適配能力。測試成果層面,DeepSeek團隊在11個基準測試上進行了評測,與GoogleGemini-3-Flash、GPT-5.4、Claude Sonnet 4.6、GoogleGemma4-31B、阿里Qwen3-VL-235B等主流模型對比,DeepSeek新的視覺模型,與其他海外模型差距懸殊,並且超越了阿里Qwen3-VL-235B。DeepSeek多模態識別的圖片顯示,DeepSeek視覺模型在Pixmo-Count(精確匹配)上得分89.2%,超過Gemini-3-Flash的88.2%、GPT-5.4的76.6%和Claude Sonnet 4.6的68.7%。在空間推理的多個基準上,整體表現與頭部模型持平或略有超越,在 MIHBench(85.3%)和 SpatialMQA(69.4%)上均排名第一。在拓撲推理的迷宮導航(DS_Maze_Navigation)任務上,該模型得分66.9%,而GPT-5.4為50.6%、Gemini-3-Flash為49.4%、Claude Sonnet 4.6 為 48.9%,新模型提升了約17個百分點。不過目前,DeepSeek灰度“識圖模式”功能的使用者太少,包括我在內都沒辦法使用,只能說用普通模式、專家模型識別一些簡單圖片。猜測五一假期之後,DeepSeek可能還會上很多新功能。梁文鋒想的AGI到底是什麼:物理世界AI總結來說,這篇論文完全體現出DeepSeek未來發展節奏,絕對不是單純的多模態視覺識別,而是瞄準了更大的發展前奏——物理世界AI。最近,世界模型和物理AI是模型層新的發展趨勢。我也是總結了最近幾天發佈的模型,發現大家10天發佈了10款AI基礎模型,其中80%來自中國企業。20日:Kimi K2.6發佈;Qwen3.6 27B系列模型測試結果陸續出來。21日:螞蟻Ling 2.6 Flash模型發佈;Qwen3.6 35B A3B推理和非推理模型開始在各大算力平台測試;23日:OpenAl GPT-5.5模型公佈,小米Xiaomi MiMo-V2.5系列大模型正式開啟公測;騰訊混元Hy3-preview 推理模型發佈;24日:DeepSeek V4 Pro和DeepSeek V4 Flash系列模型發佈;28日:IBM Granite 4.1模型基準測試公佈;小米Mimo-V2.5 Pro正式發佈。30日:Ling 2.6 -1T基礎模型正式開源;DeepSeek上線識圖模式開啟灰測。目前來看,無論是Kimi K2.6,還是DeepSeek V4系列,顯示出今年基礎模型層最大的三個方向:Agent智能體、Coding程式設計能力、多模態和世界模型技術。一個例子就是Kimi。近期,月之暗面Kimi發佈並開放原始碼的Kimi K2.6模型,在通用Agent、程式碼、視覺理解等綜合能力全面提升,在多個基準測試優於或持平GPT-5.4、Claude Opus 4.6和Gemini 3.1 Pro等閉源模型。而Kimi K2.6長程編碼能力得到顯著提升,在測試中可不間斷編碼13小時,編寫或修改超過4000行程式碼。同時大幅增強了Agent自主化執行能力,由 K2.6 模型驅動的Agent叢集架構,支援300個子Agent平行完成4000個協作步驟,實現更大規模的平行化。針對高負載工作流與OpenClaw、Hermes Agent等主動式Agent框架,K2.6具備自動化任務處理能力,支援長達5天的持續自主運行。簡單來說,現在很多模型,增加了Agent和世界物理AI的功能和適配。但DeepSeek這套視覺多模態模型其實還比較落後,原因在於DeepSeek之前沒往多模態層面考量,更多還是在語言模型層面實現AGI。值得一提的是,論文也提出了一些侷限性:1、受限於圖片輸入解析度,模型在超高精細視覺場景中表現不佳,容易出現坐標、點位等視覺思維單元標註不准的問題,後續可結合感知缺口最佳化演算法聯動最佳化補足短板。2、核心視覺思維推理能力依賴專屬觸發詞才能啟用,無法自主讀懂場景需求、主動呼叫坐標框選推理機制,智能自適應適配性有待提升。3、用單點坐標處理高難度複雜拓撲推理難題時能力偏弱,跨場景泛化穩定性不足,同類能力很難靈活適配多樣化複雜空間任務,也是後續技術迭代重點攻堅方向。因此,新的研究成果並非真正意義的物理AI、世界模型,也不是完全的多模態識別,其頂多是DeepSeek OCR 2和V4的結合體。這或許是DeepSeek提前撤下論文的原因之一。2500年前,古希臘哲學家普羅泰戈拉提出:“人是萬物的尺度。”這句話的真正含義是,世界本身沒有固有價值,所有意義與判斷,都由人的感知與思考來定義。而DeepSeek這篇論文想要揭示的核心趨勢,正是 AI 視覺能力的一次本質躍遷:從只會 “看清畫面”,升級為思考時精準定位、理解空間、判斷價值。未來十年,AI一定會深度重塑工作方式、改變產業格局、重構生活節奏。但無論技術如何進化,人類獨有的情感、經驗創造力與同理心,永遠無法被演算法替代。人的價值,來自真實的生活閱歷;人與人之間的情感連接,才是我們願意彼此關心、持續前行的根本理由。因此,無論 AI 如何飛速發展,有一件事永遠不會改變:我們依然需要珍惜身邊真實的關係,保有真實的內心感受,理性適應技術變化,不斷去探索人類最本質的力量 ——創造價值、感知意義、彼此相連。五一節快樂。 (智能紀元AGI)
允許梁文鋒再「偉大一次」
一個技術理想主義者,如何被中國AI的“工程現實”重新定義。過去幾年,梁文鋒幾乎拒絕了所有網際網路時代熟悉的劇本。別人融資,他拒絕;別人搶入口,他開源;別人卷參數,他卷效率;別人把AI當成生意,他卻一直在談AGI。DeepSeek因此看起來更像一家“研究機構”,而非創業公司。直到2026年春天,事情開始變化。GPT-5.5發佈不到24小時,DeepSeek-V4預覽版上線。發佈後不到五天,接連三次降價,昨天,DeepSeek“識圖模式”又開始灰度測試,補上了多模態這塊缺失最久的拼圖。DeepSeek多模態團隊研究員陳小康在X上的發帖與此同時,那個長期拒絕騰訊、阿里和頂級VC的梁文鋒,第一次主動打開了融資的大門。一邊把價格打到骨折,一邊卻伸手拿錢;一邊叫苦算力吃緊,一邊承諾還要降價,梁文鋒這位把AGI掛在嘴邊的人,是向商業現實“繳械投降”,還是在醞釀一場更大的風暴?01. “反常識”的72小時4月24日,GPT-5.5發佈不到二十四小時後,DeepSeek-V4預覽版悄然上線。沒有發佈會,就像這家公司的一貫作風:事情做完了,放出來,你們自己看。V4-Pro發佈後,最先引發討論的不是能力,而是價格。相比前代V3.2,這一次V4-Pro的定價看起來明顯更高。很多人第一反應是DeepSeek終於開始走向“正常商業化”了。但很快,事情又出現反轉。不到一天,官網低調更新價格,直接打到2.5折。隨後又一次更新:快取命中價格永久降至發佈價的十分之一。研究員甚至在社交媒體上直接打出“AGI for Everyone”的標籤,強調這是永久價格,而非促銷活動。更耐人尋味的,是官網價格頁面裡那行不起眼的小字:“受限於高端算力,目前Pro服務吞吐有限,預計下半年昇騰950超節點批次上市後,Pro價格會大幅下調。”這意味著DeepSeek公開承諾未來還會繼續降價,且這次價格下調繫結的,不再只是DeepSeek自己的技術最佳化,還有中國國產高端算力的量產節奏。與此同時,DeepSeek還啟動了成立以來的首次外部融資,目標估值從100億美元迅速抬升至200億美元乃至更高,騰訊、阿里相繼被傳洽談入局。降價、又融資,看起來很矛盾,但回看DeepSeek的發展歷程,會發現到它的野心從不只是“做模型”。過去兩年,全球大模型行業的默認邏輯一直是模型越強,成本越高,能力越強,價格越貴。OpenAI、Anthropic都建立在這套邏輯之上。但DeepSeek-V4要做的不是“賣更貴的智能”,而是不斷降低“智能”的邊際成本,實現AGI平權。這種對“邊際成本”的執念,從DeepSeek的前身幻方量化就已經開始了。2021年,當大多數科技公司還在討論AI概念時,幻方已經囤積了上萬張A100,自建了“螢火”算力叢集。在高度競爭的市場裡,成本結構本身就是護城河,這是梁文鋒在幻方時便想明白的,這套理念也被完整地繼承到了DeepSeek。DeepSeek V4-Pro約5.22美元,快取命中後進一步降至3.6美元左右。同等輸入輸出量下,GPT-5.5的API成本約35美元,Claude Opus 4.7約30美元。V4-Flash更激進,成本不到競爭對手的2%。這已經不是簡單的價格差,而是“量級差”了。“超低價”背後是模型架構、推理系統與算力調度共同最佳化後的結果。V4-Pro支援100萬token上下文,在部分長文字場景下,單token推理所需算力相比前代明顯下降,KV Cache佔用也大幅減少。過去行業處理長上下文,很多時候依賴的是持續堆視訊記憶體、堆頻寬;DeepSeek嘗試通過架構最佳化減少一部分無效計算與資源浪費。當然,效率上的突破並不等於全面超越。DeepSeek內部的真實評測顯示,V4目前已成為公司員工日常使用的Agentic Coding模型,使用體驗優於Sonnet 4.5,交付質量接近Opus 4.6的非思考模式,但與Opus 4.6的思考模式仍存在一定差距。開源和低價建立了影響力,可“一分錢一分貨”的道理,在頂級閉源模型身上依然成立。某種程度上,V4真正改變的,其實不是模型能力,而是行業對“智能應該值多少錢”的認知。極客肖恩·多納霍在Facebook發帖稱,自己把部分程式設計工具切換到DeepSeek之後,月帳單下降了90%以上,效果卻並未明顯下降。科技博主 Simon Willison 每次 DeepSeek 發佈新版本,他都會用同一句提示詞 生成一張鵜鶘騎自行車的 SVG。這次也一樣,測試之後他稱DeepSeek-V4-Pro 是“大型前沿模型中最便宜的一款”。上:DeepSeek-V4-Flash 版 下:DeepSeek-V4-Pro 版這幾位開發者或許只是個例,但他們背後折射出的趨勢值得關注:當價格差拉到“量級差”,開發者重新分配算力預算的動機也會增強。而當越來越多應用、Agent和開發工具開始基於同一種模型生態建構時,真正形成護城河的,未必只是模型能力本身,還包括開發者習慣、呼叫路徑以及整個生態的成本慣性。Deepseek想用極致的性價比,成為那個被開發者“持續依賴”的選項。02. DeepSeek 的“二度奇襲”2025年1月,Deepseek R1發佈,引發全球震動。Deepseek應用很快登頂蘋果中國和美國地區App Store免費榜首,Nvidia單日市值蒸發約6000億美元,美國風投家馬克·安德森稱之為AI領域的"斯普特尼克時刻"。一個杭州的量化團隊,用560萬美元的訓練成本,做出了對標OpenAI頂級模型的效果,並且開源了。彼時,世界對梁文鋒的理解,是"用更少的錢做更好的模型"。很多人後來把R1理解成“受限條件下的逆襲”,但其實並不完全精準。早在行業真正意識到大模型價值之前,幻方就已經開始大規模採購算力、建設叢集。後來外界看到的“低成本奇蹟”,更像一次長期積累後的集中爆發。梁文鋒真正厲害的地方,是他比大多數人更早意識到未來AI競爭的核心,不只是模型能力,還有算力效率。但隨著DeepSeek從技術黑馬變成核心玩家,新的問題也開始浮現。過去的DeepSeek,很像一個隱秘的研究組織,幻方量化在背後輸血,梁文鋒不缺錢,研究員埋頭做模型。Deepseek在X上的簽名都是“用好奇心揭開通用人工智慧的奧秘,用長遠的眼光回答根本問題”,學術味兒十足。但AI行業不會長期尊重“隱士”,尤其當你手裡真的有“真經”的時候。從2025年底到2026年,多位DeepSeek核心成員相繼離開。V3架構關鍵開發者羅福莉去了小米,第一代大語言模型核心作者王炳宣去了騰訊,R1核心研究員郭達雅被字節跳動以傳聞中“近億元的總包”帶走,多模態方向核心研究員阮翀轉投元戎啟行。過去,大模型公司的目標相對統一:訓練更強的基礎模型,到了2026年,行業開始迅速分化,Agent、多模態、端側AI、機器人、自動駕駛,陸續變成新的戰場。這時候,一個研究員如果想做Agent,去字節會面對真實月活場景;想讓AI理解物理世界,去自動駕駛公司顯然更有吸引力。DeepSeek太專注把模型本身做到極致,這種組織文化,能夠吸引最純粹的研究者,卻很難長期承載所有方向。它最強的地方,在這一刻成為它最大的桎梏。主流AI公司搶的是有經驗的工程師,梁文鋒卻更青睞頂尖高校的年輕博士生,因為在他看來這些人"渴望證明自己","可以完全不帶功利地投入去做一件事"。初期DeepSeek的確可以用技術理想主義吸引天才,但很難長期用理想主義支付機會成本,尤其在同行已經開始形成市場估值的時候。近兩年,OpenAI、Anthropic不斷刷新融資數字,投後估值高達8400億、3800億美元,國內的智譜、MiniMax相繼掛牌港交所,市值一度突破4000億和3800億港元。大廠給的是有行權價、有IPO預期、有內部回購機制的期權,而不融資的DeepSeek,沒有“度量衡”。在競爭白熱化的AI人才市場裡,沒有市場化估值錨點的期權,等於一張無法兌現的期票。梁文鋒或許也是意識到了這一點,所以開放了融資。但這依然是一個極具“梁式色彩”的融資方案。此次融資目標募集金額不低於3億美元,計畫以不低於200億美元的估值進行。與此同時,工商資訊顯示,梁文鋒在增資後直接持股佔比由1%提升至34%,其作為實際控制人的最終受益股份仍為84.29%,表決權比例仍為100%。他用大約3%的股權,換來了市場對這家公司的價值認證。董事會的控制權,一票未讓。對比同行,這個數字更加意味深長。OpenAI 2026年完成的最新一輪融資,募集1220億美元,投後估值8520億美元;Anthropic 2026年2月完成300億美元G輪融資,投後估值3800億美元。3億美元,放在今天的AI賽道里,甚至比不上同行一輪融資的零頭。梁文鋒選擇用這個體量融資,就是為給員工手中的期權,建立起相對清晰的估值錨點和兌現預期,穩住人才,同時讓公司不被短期增長所裹挾。03. 允許梁文鋒再“偉大一次”R1證明了中國AI可以做出世界級模型,V4之後,梁文鋒試圖證明中國AI可以建立起自己的“底座標準”,那怕這條路,很難。有個細節,V4發佈後,華為昇騰生態官方帳號,專門為DeepSeek-V4做了一場直播。晶片廠商親自下場給一款模型站台,並不常見。它釋放的訊號超出產品本身:DeepSeek第一次公開地,把自己的模型路線與國產算力的量產節奏綁在一起。過去幾年,中國AI行業有個默認順序,模型可以開源,演算法可以追趕,但輝達的生態護城河最難撼動。CUDA是輝達二十年攢下的工具鏈、算子庫、開發框架和開發者習慣,全球AI幾乎默認運行在這套底座之上。要脫離它,可不是“換塊顯示卡”那麼簡單。尤其在兆級參數模型上,難度會被進一步放大。參數越大,對視訊記憶體頻寬、通訊效率、叢集穩定性的要求就越高。模型團隊不僅需要針對國產晶片重寫和最佳化核心算子,甚至還需要自研確定性算子,保證長時間訓練過程中的精確可復現。更現實的問題是在萬卡叢集裡,硬體故障不是意外,而是必然。於是,訓練框架必須同時具備完整的檢測、容錯與恢復能力。如果效率跑不上去,成本就只是空談。V4延期超過十五個月,遷移代價是原因之一。目前V4的細粒度專家平行方案已經同時在輝達GPU和華為昇騰NPU兩個平台上完成驗證,在通用推理場景中實現了1.5到1.96倍的加速。推理層面跑通了,但開放原始碼主體仍基於CUDA,底層工具鏈尚未完全轉移,原因在於昇騰950超節點尚未批次上市,現有產能撐不起V4-Pro的大規模服務。不過DeepSeek已經把下一輪降價,公開寫進了國產算力的量產時間表裡。昇騰950PR單卡算力達到輝達H20的2.87倍,是目前國內唯一支援FP4低精度推理的產品,HBM容量112GB。規格是真實的,只等工業化落地。梁文鋒當年從幻方量化的GPU叢集起家,把算力當作研究的彈藥。如今他讓中國模型和中國晶片的命運,在商業上深度捆綁,並在所有人面前承諾,這是梁文鋒在晶片封鎖的現實下,做出的務實選擇。但這條路有個前提:模型能力必須始終足夠硬。V4把1M上下文做成標配、對Agent能力做專項最佳化、推出三檔推理強度,這些不是給評測榜單準備的,是給真實企業工作流準備的。只有先在真實生產場景裡證明自己不可替代,Deepseek的“底座”敘事才能成立。未來,梁文鋒和Deepseek要走的路還很長,國產算力的工業化時間表能否如期兌現,模型能力能否在閉源頂級模型高速迭代的壓力下保持競爭力,開發者生態能否形成足夠的黏性……它們像棋盤上尚未閉合的“氣眼”,每一個都關乎生死,可這些問題,現在都還沒有答案。Deepseek爆火後,被問及"商業公司做無限投入的研究性探索是否瘋狂"時說,梁文鋒曾說過一句話:"我們終其一生所渴望的,就是找到自己,然後成為自己。"這句話在R1發佈後的語境裡讀,是一個創始人的理想宣言。如今再讀,份量更重了些。AI競爭的上半場,他用技術效率、定價顛覆和算力豪賭,贏得了繼續下棋的資格,成就了Deepseek的"偉大"。下半場,允許梁文鋒再“偉大一次”,不是因為他已經攻下了某個技術的山頭,而是他正在為一場漫長的遠征搭建底座。不誘於譽,不恐於誹,率道而行,端然正己。這是荀子的精神,也是Deepseek的信條。 (奇點研究社)
梁文鋒的風骨,就是DeepSeek的根基
用最有效的方式幫助企業解決問題、創造價值做一名“企業文化好醫生”4月24日,DeepSeek V4上線。沒有發佈會,沒有鋪天蓋地的宣傳,只是發了一份58頁的技術報告。這份報告裡,DeepSeek自己寫了這麼一句話:“Nevertheless, its performance falls marginally short of GPT-5.4 and Gemini-3.1-Pro, suggesting a developmental trajectory that trails state-of-the-art frontier models by approximately 3 to 6 months.”翻譯過來:我們比最前沿的閉源模型,還落後3到6個月。開源最強,但自曝落後。這種坦誠,比任何PR稿都更能看清這家公司的底色。△圖片來源於網路500天的“換心臟”:從輝達到昇騰2025年年中,DeepSeek面臨一次巨大挑戰。不是模型崩了,是“心臟”要換——訓練框架從輝達遷移到華為昇騰。這相當於在高速公路上一邊開車一邊換發動機。黃仁勳說過一句話:DeepSeek基於華為平台開發模型,“對美國來說將是一個糟糕的結果”。△圖片來源:百度百科黃仁勳9天後,V4適配昇騰完成,全面上線。被唱衰、被挖角V4發佈前,DeepSeek被唱衰了500多天。“Next Week”成了網友調侃的梗。同期,團隊核心人員被大廠挖角,開出的價碼是DeepSeek的幾倍。梁文鋒的反應?他早在採訪裡說過:“我們選人的標準一直都是熱愛和好奇心,很多人對做研究的渴望,遠超對錢的在意。”△圖片來源:百度百科梁文鋒因為他知道,留下的才是真正相信這件事的人。V4發佈後,業內評價:開源模型中性能最接近閉源旗艦的代表。他不藏著掖著。缺點也公開說,差距也公開說。“不誘於譽”——別人誇你不飄。“不恐於誹”——別人罵你不慫。“率道而行”——走自己的路。“端然正己”——把自己做好。1號位的風骨,就是企業文化的根基梁文鋒的風格,決定了DeepSeek的底層程式碼:關於開源:“在顛覆性的技術面前,閉源形成的護城河是短暫的。即使OpenAI閉源,也無法阻止被別人趕超。”關於創新:“過去三十年,我們都只強調賺錢,對創新是忽視的。創新不完全是商業驅動的,還需要好奇心和創造欲。”關於中國AI:“中國AI不可能永遠停留在跟隨階段。如果這個不改變,中國永遠只能是追隨者。”這些話不是PR稿,是他真的在做的。△圖片來源:百度百科梁文鋒梁文鋒不是什麼商學院的案例他是一個相信“中國必須有人站到技術前沿”的工程師,是一個願意把1.38億匿名捐出去的普通人,是一個在V4發佈時主動承認“落後3到6個月”的創始人。1號位的風骨,就是企業文化的根基。他有一句話,值得每個做企業的人記住:“當這個社會讓硬核創新的人功成名就,群體性想法就會改變。我們只是還需要一堆事實和一個過程。”不誘於譽,不恐於誹,率道而行,端然正己。 (大美嘮文化)