#梁文鋒
梁文鋒和楊植麟的默契:AGI不是終點,定義規則才是
484天的沉默,換來一場1.6兆參數的爆發。4月24日,DeepSeek V4-Pro正式發佈,總參數1.6兆、百萬token上下文、首次將華為昇騰與輝達GPU並列寫進硬體驗證清單。而就在4天前,與DeepSeek相距僅1.4公里的月之暗面剛開源了Kimi K2.6,SWE-Bench Pro得分58.6,首次讓國產開源模型站上全球程式碼評測之巔。兩家公司在五天內連發兩款兆級模型,這不是巧合,是海淀區知春路上兩個男人——梁文鋒與楊植麟,長達一年半的默契共振終於公開化。先說一個被大多數媒體忽略的真相:DeepSeek和Kimi的"技術撞車",恰恰是開源生態最理想的進化方式。2025年初,DeepSeek在V3中推出的MLA多頭潛在注意力機制,Kimi直接沿用;2025年7月,Kimi在兆參數K2中率先規模化驗證自研Muon二階最佳化器,訓練成本降低50%以上,而這次DeepSeek V4的技術報告裡,也跟進採用了Muon。表面上看是路線同質化,實際上這是兩家公司在兆參數無人區裡的"交叉驗證"。你探一步,我確認一步,共同把國產大模型的技術水位抬到全球第一梯隊。它們是在互相兜底。這種默契,比單打獨鬥更難得。更關鍵的是,DeepSeek V4的發佈證明了一件事:中國AI已經具備了"晶片-模型-系統"全端自主的能力。技術報告裡那行關於昇騰950的備註,很多人讀出了"算力受限"的焦慮,但我讀出了另一種訊號:DeepSeek敢於在發佈當天就把國產晶片的適配進度寫進官方文件,這意味著"芯模協同"不再是PPT概念,而是正在發生的工程現實。下半年昇騰950超節點批次上市後,V4-Pro的價格會大幅下調,到時候國產模型的性價比優勢將進一步放大。當然,挑戰也是真實存在。DeepSeek近300人的研發團隊中,已有10位核心成員標註"已離職",包括初代LLM核心作者王炳宣、R1核心研究員郭達雅等,分別流向騰訊、字節跳動。人才流失倒逼DeepSeek打破"零融資"的執念,融前估值已達3000億人民幣,計畫增資500億,50億起投。騰訊、阿里正在爭搶入局。但換個角度看,這恰恰說明DeepSeek的技術實力已經強到讓大廠無法忽視。挖不走整個團隊,就挖核心骨幹;投不了整個公司,就搶份額入局。這裡有一個反常識的判斷:DeepSeek和Kimi越是被資本追捧,中國AI的"去中心化"生態反而越穩固。梁文鋒曾拒絕所有外部投資,擔心喪失決策權;楊植麟去年12月還在內部信裡說"短期內不著急上市"。智譜和MiniMax在港股上市後的暴漲並沒有讓這兩家公司跟風IPO,而是選擇了更靈活的一級市場融資。有意思的是,當國內為DeepSeek和Kimi的融資歡呼時,美國那邊Anthropic的ARR已經突破300億美元,15個月翻了30倍,正式超越OpenAI的240億美元。OpenAI剛完成1220億美元融資,估值8520億美元。相比之下,中國大模型的融資額"顯得小情小調"。但體量差距背後,是商業模式的代際差異。Anthropic 80%收入來自企業端,30萬家企業客戶,財富十強裡八家在用Claude。而DeepSeek至今堅持模型全部開源,C端產品免費。這不是不會賺錢,是主動選擇用開源換生態。Kimi雖然月活使用者從巔峰期的3600萬回落至1000-1500萬,但海外API收入四個月翻了四倍。Cursor套殼Kimi事件更讓全球開發者意識到:中國開源模型的性能已經不輸閉源旗艦。中國大模型公司不是在重複網際網路時代的"燒錢換規模"劇本,而是在走一條更硬核的路:先用技術實力打開全球市場,再用生態粘性鎖定長期價值。歷史正在寫下新的註腳。當DeepSeek把昇騰寫進技術報告,當Kimi的模型ID出現在Cursor的API呼叫裡,當馬斯克親自轉發評價"Impressive work from Kimi"。這些訊號都在指向同一個趨勢:中國AI不再只是"本土童話",而是全球開源生態的規則制定者之一。朱嘯虎去年說"大模型已經變成水電煤,沒有超額利潤"。目前來看,他錯了一半:大模型確實在變成基礎設施,但超額利潤沒有消失,只是從閉源壟斷轉移到了開源生態的規模化營運。DeepSeek和Kimi的估值飆漲,本質上不是泡沫,是資本對"開源即權力"這一新範式的提前下注。DeepSeek和Kimi的"知春路雙雄"敘事,不是精緻的本土童話,而是正在發生的全球級技術事件。它們的結局也不只有兩種:被資本收編,或在獨立與規模之間找到平衡。還有第三種可能,用開源生態的廣度,避險閉源壟斷的深度,最終在全球AI格局中佔據不可替代的位置。AGI不是終點,定義規則才是。 (識焗)
DeepSeek連夜刪新論文,梁文鋒到底怕什麼
5月1日消息,今天AI領域的最大事件,無疑是DeepSeek刪論文的消息。昨天,DeepSeek多模態團隊負責人陳小康宣佈灰度基於多模態模型技術的“識圖模式”,以及在GitHub平台上傳了一篇長達25頁的多模態研究論文:《Thinking with Visual Primitives》(用視覺基元思考)。然而,到了今晨,陳小康的推文刪了,這篇多模態研究論文也撤了、GitHub庫也404了。在未刪除之前,我把這篇論文下載並且讀完了。我靜下心把整篇內容捋完之後,反倒有了不一樣的感受。你以為,這是簡單DeepSeek的識圖模式論文,但其實,這篇論文對應出DeepSeek揭露了行業的發展趨勢:多模態AI模型的下一階段競爭重點,可能從單純的“看得更清”轉向“思考時能精確指向”。通過將坐標嵌入思維鏈,多模態模型模仿了人類“邊指邊想”的協同機制,為解決複雜空間結構化推理提供了一條新穎路徑——最終其實也要走向世界模型。值得一提的是,就在8小時前,DeepSeek正式公佈了Agent接入指南,親手教大家接入OpenClaw、Hermes等方式,深入到Agent技術層面。所以,在我看來,DeepSeek連夜刪論文,刪除的原因不是“論文有問題”,實際可能是灰度下重新修正“識圖模式”的能力,以及這篇論文可能太超前,透露太多了。很多資料需要重新進行查驗和修正,並且有望重新上傳到arxiv上。越往後深入瞭解,越能體會到這次DeepSeek V4以及多模態新模型的含金量,也真切感覺到AI行業的技術迭代。實際上,梁文鋒一直都在悄悄提速,AI技術的真正核心突破往往都藏在這種技術論文裡。DeepSeek新論文到底講了什麼?先做總結。這篇DeepSeek已撤回的多模態研究論文《Thinking with Visual Primitives》,核心在於探討自然語言模型到視覺等多模態模型的瓶頸和變化,從而揭示DeepSeek多模態領域的新研究方向:從單純的“看得更清”,轉向“推理思考時能精確指向”。換句話說,未來模型既有AI聊天和深度研究,而且還能用AI大模型技術(非OCR)識別圖像視訊中的核心資訊。而通過將坐標嵌入思維鏈,DeepSeek的多模態模型模仿了人類“邊指邊想”的協同機制,這將解決世界模型、3D空間的結構化推理等方向。提供了一條新穎而有效的路徑。下面再基於這篇已刪新技術報告,具體看看DeepSeek、北京大學、清華大學又創造了怎樣的奇蹟。首先,大型語言模型(LLMs)與電腦視覺的融合,開啟了多模態大型語言模型時代,使其具備了複雜的場景理解能力。然而,當我們推動這些模型進行複雜的推理,當前範式的一個根本性侷限便顯現出來。儘管這些模型的內部推理(通常以思維鏈的形式呈現)在語言領域已變得越來越穩健,但它與視覺領域在很大程度上仍然是割裂的。而當前多模態模型主要解決的是感知差距。然而,“看見”不等於“推理”。即使擁有完美的感知能力,多模態大模型在處理涉及複雜空間佈局或密集物體互動的任務時,仍常常遭遇邏輯崩潰。在密集計數或多步驟空間推理等場景中,模型的“語言”思維會失去對其試圖指代的視覺實體的追蹤,從而導致連鎖幻覺。因此,DeepSeek聯合北京大學和清華大學,提出一種範式轉變:基於視覺基元進行思考。團隊超越將視覺定位視為次要任務或最終輸出的傳統做法,將空間標記——點和邊界框——提升為“思維的最小單元”,直接交錯嵌入模型的推理軌跡中。這一機制從人類的認知過程中汲取靈感。當人類在複雜迷宮中導航或清點密集物體時,會自然地運用指示性指針(例如手勢)來降低認知負荷並保持邏輯一致性。這項工作以DeepSeek剛發佈的V4-Flash為語言主幹。該模型混合專家模型(MoE)擁有284B 總參數、推理時啟動 13B 參數,視覺編碼部分則使用DeepSeek自研的視覺Transformer ViT,支援任意解析度輸入。通過將視覺基元交錯融入思考過程,這個模型模仿了這種“指向‑推理”的協同作用,有效地將抽象的語言思維錨定到具體的空間坐標上。此外,該模型框架建立在架構高效的基礎之上,專為高吞吐、長上下文的多模態互動而設計。與依賴海量視覺標記序列來彌補視覺缺陷的傳統方法不同,我們的模型利用壓縮稀疏注意力技術,它將每個視覺標記的鍵值快取壓縮為單一條目。總結這個研究報告的三個創新點:第一大核心創新,是重構視覺推理邏輯,把坐標與邊界框做成可即時參與思考的思維單元。傳統模型先推理、後補坐標,屬於事後標註;但該模型全程在思維鏈中同步框選、打點定位,用空間錨點鎖定邏輯路徑,避免推理跑偏,同時配套點、框兩類標準視覺原語,適配各類複雜視覺場景定位需求。第二項硬核創新為超高倍率視覺輕量化壓縮,通過圖像分塊編碼、多層空間降採樣與壓縮稀疏注意力聯動最佳化,整體達成7056倍視覺資訊壓縮。大幅削減KV快取佔用,視訊記憶體開銷遠低於同類旗艦模型,做到看得準、開銷低,高效平衡視覺表徵精度與推理落地算力成本。第三項關鍵創新,是全流程的高校資料定製化搭建,搭配專屬進階訓練體系。團隊嚴控資料來源篩選雙重稽核標準,首先爬取了近 10 萬個與目標檢測相關的資料集,經過兩輪嚴格篩選(語義稽核和幾何質量稽核),最終保留約 3.17 萬個高品質資料來源,生成超過 4000 萬條訓練樣本。在針對性設計的計數、多跳空間問答、迷宮導航、曲線路徑追蹤四個任務中,該模型專門補齊拓撲空間推理短板。而且,團隊採用先分訓專家模型、再統一強化微調的分體融合訓練策略,搭配多維精細化獎勵機制與線上策略蒸餾最佳化,穩步提升模型視覺理解穩定性,強化複雜場景下的綜合推理適配能力。測試成果層面,DeepSeek團隊在11個基準測試上進行了評測,與GoogleGemini-3-Flash、GPT-5.4、Claude Sonnet 4.6、GoogleGemma4-31B、阿里Qwen3-VL-235B等主流模型對比,DeepSeek新的視覺模型,與其他海外模型差距懸殊,並且超越了阿里Qwen3-VL-235B。DeepSeek多模態識別的圖片顯示,DeepSeek視覺模型在Pixmo-Count(精確匹配)上得分89.2%,超過Gemini-3-Flash的88.2%、GPT-5.4的76.6%和Claude Sonnet 4.6的68.7%。在空間推理的多個基準上,整體表現與頭部模型持平或略有超越,在 MIHBench(85.3%)和 SpatialMQA(69.4%)上均排名第一。在拓撲推理的迷宮導航(DS_Maze_Navigation)任務上,該模型得分66.9%,而GPT-5.4為50.6%、Gemini-3-Flash為49.4%、Claude Sonnet 4.6 為 48.9%,新模型提升了約17個百分點。不過目前,DeepSeek灰度“識圖模式”功能的使用者太少,包括我在內都沒辦法使用,只能說用普通模式、專家模型識別一些簡單圖片。猜測五一假期之後,DeepSeek可能還會上很多新功能。梁文鋒想的AGI到底是什麼:物理世界AI總結來說,這篇論文完全體現出DeepSeek未來發展節奏,絕對不是單純的多模態視覺識別,而是瞄準了更大的發展前奏——物理世界AI。最近,世界模型和物理AI是模型層新的發展趨勢。我也是總結了最近幾天發佈的模型,發現大家10天發佈了10款AI基礎模型,其中80%來自中國企業。20日:Kimi K2.6發佈;Qwen3.6 27B系列模型測試結果陸續出來。21日:螞蟻Ling 2.6 Flash模型發佈;Qwen3.6 35B A3B推理和非推理模型開始在各大算力平台測試;23日:OpenAl GPT-5.5模型公佈,小米Xiaomi MiMo-V2.5系列大模型正式開啟公測;騰訊混元Hy3-preview 推理模型發佈;24日:DeepSeek V4 Pro和DeepSeek V4 Flash系列模型發佈;28日:IBM Granite 4.1模型基準測試公佈;小米Mimo-V2.5 Pro正式發佈。30日:Ling 2.6 -1T基礎模型正式開源;DeepSeek上線識圖模式開啟灰測。目前來看,無論是Kimi K2.6,還是DeepSeek V4系列,顯示出今年基礎模型層最大的三個方向:Agent智能體、Coding程式設計能力、多模態和世界模型技術。一個例子就是Kimi。近期,月之暗面Kimi發佈並開放原始碼的Kimi K2.6模型,在通用Agent、程式碼、視覺理解等綜合能力全面提升,在多個基準測試優於或持平GPT-5.4、Claude Opus 4.6和Gemini 3.1 Pro等閉源模型。而Kimi K2.6長程編碼能力得到顯著提升,在測試中可不間斷編碼13小時,編寫或修改超過4000行程式碼。同時大幅增強了Agent自主化執行能力,由 K2.6 模型驅動的Agent叢集架構,支援300個子Agent平行完成4000個協作步驟,實現更大規模的平行化。針對高負載工作流與OpenClaw、Hermes Agent等主動式Agent框架,K2.6具備自動化任務處理能力,支援長達5天的持續自主運行。簡單來說,現在很多模型,增加了Agent和世界物理AI的功能和適配。但DeepSeek這套視覺多模態模型其實還比較落後,原因在於DeepSeek之前沒往多模態層面考量,更多還是在語言模型層面實現AGI。值得一提的是,論文也提出了一些侷限性:1、受限於圖片輸入解析度,模型在超高精細視覺場景中表現不佳,容易出現坐標、點位等視覺思維單元標註不准的問題,後續可結合感知缺口最佳化演算法聯動最佳化補足短板。2、核心視覺思維推理能力依賴專屬觸發詞才能啟用,無法自主讀懂場景需求、主動呼叫坐標框選推理機制,智能自適應適配性有待提升。3、用單點坐標處理高難度複雜拓撲推理難題時能力偏弱,跨場景泛化穩定性不足,同類能力很難靈活適配多樣化複雜空間任務,也是後續技術迭代重點攻堅方向。因此,新的研究成果並非真正意義的物理AI、世界模型,也不是完全的多模態識別,其頂多是DeepSeek OCR 2和V4的結合體。這或許是DeepSeek提前撤下論文的原因之一。2500年前,古希臘哲學家普羅泰戈拉提出:“人是萬物的尺度。”這句話的真正含義是,世界本身沒有固有價值,所有意義與判斷,都由人的感知與思考來定義。而DeepSeek這篇論文想要揭示的核心趨勢,正是 AI 視覺能力的一次本質躍遷:從只會 “看清畫面”,升級為思考時精準定位、理解空間、判斷價值。未來十年,AI一定會深度重塑工作方式、改變產業格局、重構生活節奏。但無論技術如何進化,人類獨有的情感、經驗創造力與同理心,永遠無法被演算法替代。人的價值,來自真實的生活閱歷;人與人之間的情感連接,才是我們願意彼此關心、持續前行的根本理由。因此,無論 AI 如何飛速發展,有一件事永遠不會改變:我們依然需要珍惜身邊真實的關係,保有真實的內心感受,理性適應技術變化,不斷去探索人類最本質的力量 ——創造價值、感知意義、彼此相連。五一節快樂。 (智能紀元AGI)
允許梁文鋒再「偉大一次」
一個技術理想主義者,如何被中國AI的“工程現實”重新定義。過去幾年,梁文鋒幾乎拒絕了所有網際網路時代熟悉的劇本。別人融資,他拒絕;別人搶入口,他開源;別人卷參數,他卷效率;別人把AI當成生意,他卻一直在談AGI。DeepSeek因此看起來更像一家“研究機構”,而非創業公司。直到2026年春天,事情開始變化。GPT-5.5發佈不到24小時,DeepSeek-V4預覽版上線。發佈後不到五天,接連三次降價,昨天,DeepSeek“識圖模式”又開始灰度測試,補上了多模態這塊缺失最久的拼圖。DeepSeek多模態團隊研究員陳小康在X上的發帖與此同時,那個長期拒絕騰訊、阿里和頂級VC的梁文鋒,第一次主動打開了融資的大門。一邊把價格打到骨折,一邊卻伸手拿錢;一邊叫苦算力吃緊,一邊承諾還要降價,梁文鋒這位把AGI掛在嘴邊的人,是向商業現實“繳械投降”,還是在醞釀一場更大的風暴?01. “反常識”的72小時4月24日,GPT-5.5發佈不到二十四小時後,DeepSeek-V4預覽版悄然上線。沒有發佈會,就像這家公司的一貫作風:事情做完了,放出來,你們自己看。V4-Pro發佈後,最先引發討論的不是能力,而是價格。相比前代V3.2,這一次V4-Pro的定價看起來明顯更高。很多人第一反應是DeepSeek終於開始走向“正常商業化”了。但很快,事情又出現反轉。不到一天,官網低調更新價格,直接打到2.5折。隨後又一次更新:快取命中價格永久降至發佈價的十分之一。研究員甚至在社交媒體上直接打出“AGI for Everyone”的標籤,強調這是永久價格,而非促銷活動。更耐人尋味的,是官網價格頁面裡那行不起眼的小字:“受限於高端算力,目前Pro服務吞吐有限,預計下半年昇騰950超節點批次上市後,Pro價格會大幅下調。”這意味著DeepSeek公開承諾未來還會繼續降價,且這次價格下調繫結的,不再只是DeepSeek自己的技術最佳化,還有中國國產高端算力的量產節奏。與此同時,DeepSeek還啟動了成立以來的首次外部融資,目標估值從100億美元迅速抬升至200億美元乃至更高,騰訊、阿里相繼被傳洽談入局。降價、又融資,看起來很矛盾,但回看DeepSeek的發展歷程,會發現到它的野心從不只是“做模型”。過去兩年,全球大模型行業的默認邏輯一直是模型越強,成本越高,能力越強,價格越貴。OpenAI、Anthropic都建立在這套邏輯之上。但DeepSeek-V4要做的不是“賣更貴的智能”,而是不斷降低“智能”的邊際成本,實現AGI平權。這種對“邊際成本”的執念,從DeepSeek的前身幻方量化就已經開始了。2021年,當大多數科技公司還在討論AI概念時,幻方已經囤積了上萬張A100,自建了“螢火”算力叢集。在高度競爭的市場裡,成本結構本身就是護城河,這是梁文鋒在幻方時便想明白的,這套理念也被完整地繼承到了DeepSeek。DeepSeek V4-Pro約5.22美元,快取命中後進一步降至3.6美元左右。同等輸入輸出量下,GPT-5.5的API成本約35美元,Claude Opus 4.7約30美元。V4-Flash更激進,成本不到競爭對手的2%。這已經不是簡單的價格差,而是“量級差”了。“超低價”背後是模型架構、推理系統與算力調度共同最佳化後的結果。V4-Pro支援100萬token上下文,在部分長文字場景下,單token推理所需算力相比前代明顯下降,KV Cache佔用也大幅減少。過去行業處理長上下文,很多時候依賴的是持續堆視訊記憶體、堆頻寬;DeepSeek嘗試通過架構最佳化減少一部分無效計算與資源浪費。當然,效率上的突破並不等於全面超越。DeepSeek內部的真實評測顯示,V4目前已成為公司員工日常使用的Agentic Coding模型,使用體驗優於Sonnet 4.5,交付質量接近Opus 4.6的非思考模式,但與Opus 4.6的思考模式仍存在一定差距。開源和低價建立了影響力,可“一分錢一分貨”的道理,在頂級閉源模型身上依然成立。某種程度上,V4真正改變的,其實不是模型能力,而是行業對“智能應該值多少錢”的認知。極客肖恩·多納霍在Facebook發帖稱,自己把部分程式設計工具切換到DeepSeek之後,月帳單下降了90%以上,效果卻並未明顯下降。科技博主 Simon Willison 每次 DeepSeek 發佈新版本,他都會用同一句提示詞 生成一張鵜鶘騎自行車的 SVG。這次也一樣,測試之後他稱DeepSeek-V4-Pro 是“大型前沿模型中最便宜的一款”。上:DeepSeek-V4-Flash 版 下:DeepSeek-V4-Pro 版這幾位開發者或許只是個例,但他們背後折射出的趨勢值得關注:當價格差拉到“量級差”,開發者重新分配算力預算的動機也會增強。而當越來越多應用、Agent和開發工具開始基於同一種模型生態建構時,真正形成護城河的,未必只是模型能力本身,還包括開發者習慣、呼叫路徑以及整個生態的成本慣性。Deepseek想用極致的性價比,成為那個被開發者“持續依賴”的選項。02. DeepSeek 的“二度奇襲”2025年1月,Deepseek R1發佈,引發全球震動。Deepseek應用很快登頂蘋果中國和美國地區App Store免費榜首,Nvidia單日市值蒸發約6000億美元,美國風投家馬克·安德森稱之為AI領域的"斯普特尼克時刻"。一個杭州的量化團隊,用560萬美元的訓練成本,做出了對標OpenAI頂級模型的效果,並且開源了。彼時,世界對梁文鋒的理解,是"用更少的錢做更好的模型"。很多人後來把R1理解成“受限條件下的逆襲”,但其實並不完全精準。早在行業真正意識到大模型價值之前,幻方就已經開始大規模採購算力、建設叢集。後來外界看到的“低成本奇蹟”,更像一次長期積累後的集中爆發。梁文鋒真正厲害的地方,是他比大多數人更早意識到未來AI競爭的核心,不只是模型能力,還有算力效率。但隨著DeepSeek從技術黑馬變成核心玩家,新的問題也開始浮現。過去的DeepSeek,很像一個隱秘的研究組織,幻方量化在背後輸血,梁文鋒不缺錢,研究員埋頭做模型。Deepseek在X上的簽名都是“用好奇心揭開通用人工智慧的奧秘,用長遠的眼光回答根本問題”,學術味兒十足。但AI行業不會長期尊重“隱士”,尤其當你手裡真的有“真經”的時候。從2025年底到2026年,多位DeepSeek核心成員相繼離開。V3架構關鍵開發者羅福莉去了小米,第一代大語言模型核心作者王炳宣去了騰訊,R1核心研究員郭達雅被字節跳動以傳聞中“近億元的總包”帶走,多模態方向核心研究員阮翀轉投元戎啟行。過去,大模型公司的目標相對統一:訓練更強的基礎模型,到了2026年,行業開始迅速分化,Agent、多模態、端側AI、機器人、自動駕駛,陸續變成新的戰場。這時候,一個研究員如果想做Agent,去字節會面對真實月活場景;想讓AI理解物理世界,去自動駕駛公司顯然更有吸引力。DeepSeek太專注把模型本身做到極致,這種組織文化,能夠吸引最純粹的研究者,卻很難長期承載所有方向。它最強的地方,在這一刻成為它最大的桎梏。主流AI公司搶的是有經驗的工程師,梁文鋒卻更青睞頂尖高校的年輕博士生,因為在他看來這些人"渴望證明自己","可以完全不帶功利地投入去做一件事"。初期DeepSeek的確可以用技術理想主義吸引天才,但很難長期用理想主義支付機會成本,尤其在同行已經開始形成市場估值的時候。近兩年,OpenAI、Anthropic不斷刷新融資數字,投後估值高達8400億、3800億美元,國內的智譜、MiniMax相繼掛牌港交所,市值一度突破4000億和3800億港元。大廠給的是有行權價、有IPO預期、有內部回購機制的期權,而不融資的DeepSeek,沒有“度量衡”。在競爭白熱化的AI人才市場裡,沒有市場化估值錨點的期權,等於一張無法兌現的期票。梁文鋒或許也是意識到了這一點,所以開放了融資。但這依然是一個極具“梁式色彩”的融資方案。此次融資目標募集金額不低於3億美元,計畫以不低於200億美元的估值進行。與此同時,工商資訊顯示,梁文鋒在增資後直接持股佔比由1%提升至34%,其作為實際控制人的最終受益股份仍為84.29%,表決權比例仍為100%。他用大約3%的股權,換來了市場對這家公司的價值認證。董事會的控制權,一票未讓。對比同行,這個數字更加意味深長。OpenAI 2026年完成的最新一輪融資,募集1220億美元,投後估值8520億美元;Anthropic 2026年2月完成300億美元G輪融資,投後估值3800億美元。3億美元,放在今天的AI賽道里,甚至比不上同行一輪融資的零頭。梁文鋒選擇用這個體量融資,就是為給員工手中的期權,建立起相對清晰的估值錨點和兌現預期,穩住人才,同時讓公司不被短期增長所裹挾。03. 允許梁文鋒再“偉大一次”R1證明了中國AI可以做出世界級模型,V4之後,梁文鋒試圖證明中國AI可以建立起自己的“底座標準”,那怕這條路,很難。有個細節,V4發佈後,華為昇騰生態官方帳號,專門為DeepSeek-V4做了一場直播。晶片廠商親自下場給一款模型站台,並不常見。它釋放的訊號超出產品本身:DeepSeek第一次公開地,把自己的模型路線與國產算力的量產節奏綁在一起。過去幾年,中國AI行業有個默認順序,模型可以開源,演算法可以追趕,但輝達的生態護城河最難撼動。CUDA是輝達二十年攢下的工具鏈、算子庫、開發框架和開發者習慣,全球AI幾乎默認運行在這套底座之上。要脫離它,可不是“換塊顯示卡”那麼簡單。尤其在兆級參數模型上,難度會被進一步放大。參數越大,對視訊記憶體頻寬、通訊效率、叢集穩定性的要求就越高。模型團隊不僅需要針對國產晶片重寫和最佳化核心算子,甚至還需要自研確定性算子,保證長時間訓練過程中的精確可復現。更現實的問題是在萬卡叢集裡,硬體故障不是意外,而是必然。於是,訓練框架必須同時具備完整的檢測、容錯與恢復能力。如果效率跑不上去,成本就只是空談。V4延期超過十五個月,遷移代價是原因之一。目前V4的細粒度專家平行方案已經同時在輝達GPU和華為昇騰NPU兩個平台上完成驗證,在通用推理場景中實現了1.5到1.96倍的加速。推理層面跑通了,但開放原始碼主體仍基於CUDA,底層工具鏈尚未完全轉移,原因在於昇騰950超節點尚未批次上市,現有產能撐不起V4-Pro的大規模服務。不過DeepSeek已經把下一輪降價,公開寫進了國產算力的量產時間表裡。昇騰950PR單卡算力達到輝達H20的2.87倍,是目前國內唯一支援FP4低精度推理的產品,HBM容量112GB。規格是真實的,只等工業化落地。梁文鋒當年從幻方量化的GPU叢集起家,把算力當作研究的彈藥。如今他讓中國模型和中國晶片的命運,在商業上深度捆綁,並在所有人面前承諾,這是梁文鋒在晶片封鎖的現實下,做出的務實選擇。但這條路有個前提:模型能力必須始終足夠硬。V4把1M上下文做成標配、對Agent能力做專項最佳化、推出三檔推理強度,這些不是給評測榜單準備的,是給真實企業工作流準備的。只有先在真實生產場景裡證明自己不可替代,Deepseek的“底座”敘事才能成立。未來,梁文鋒和Deepseek要走的路還很長,國產算力的工業化時間表能否如期兌現,模型能力能否在閉源頂級模型高速迭代的壓力下保持競爭力,開發者生態能否形成足夠的黏性……它們像棋盤上尚未閉合的“氣眼”,每一個都關乎生死,可這些問題,現在都還沒有答案。Deepseek爆火後,被問及"商業公司做無限投入的研究性探索是否瘋狂"時說,梁文鋒曾說過一句話:"我們終其一生所渴望的,就是找到自己,然後成為自己。"這句話在R1發佈後的語境裡讀,是一個創始人的理想宣言。如今再讀,份量更重了些。AI競爭的上半場,他用技術效率、定價顛覆和算力豪賭,贏得了繼續下棋的資格,成就了Deepseek的"偉大"。下半場,允許梁文鋒再“偉大一次”,不是因為他已經攻下了某個技術的山頭,而是他正在為一場漫長的遠征搭建底座。不誘於譽,不恐於誹,率道而行,端然正己。這是荀子的精神,也是Deepseek的信條。 (奇點研究社)
梁文鋒的風骨,就是DeepSeek的根基
用最有效的方式幫助企業解決問題、創造價值做一名“企業文化好醫生”4月24日,DeepSeek V4上線。沒有發佈會,沒有鋪天蓋地的宣傳,只是發了一份58頁的技術報告。這份報告裡,DeepSeek自己寫了這麼一句話:“Nevertheless, its performance falls marginally short of GPT-5.4 and Gemini-3.1-Pro, suggesting a developmental trajectory that trails state-of-the-art frontier models by approximately 3 to 6 months.”翻譯過來:我們比最前沿的閉源模型,還落後3到6個月。開源最強,但自曝落後。這種坦誠,比任何PR稿都更能看清這家公司的底色。△圖片來源於網路500天的“換心臟”:從輝達到昇騰2025年年中,DeepSeek面臨一次巨大挑戰。不是模型崩了,是“心臟”要換——訓練框架從輝達遷移到華為昇騰。這相當於在高速公路上一邊開車一邊換發動機。黃仁勳說過一句話:DeepSeek基於華為平台開發模型,“對美國來說將是一個糟糕的結果”。△圖片來源:百度百科黃仁勳9天後,V4適配昇騰完成,全面上線。被唱衰、被挖角V4發佈前,DeepSeek被唱衰了500多天。“Next Week”成了網友調侃的梗。同期,團隊核心人員被大廠挖角,開出的價碼是DeepSeek的幾倍。梁文鋒的反應?他早在採訪裡說過:“我們選人的標準一直都是熱愛和好奇心,很多人對做研究的渴望,遠超對錢的在意。”△圖片來源:百度百科梁文鋒因為他知道,留下的才是真正相信這件事的人。V4發佈後,業內評價:開源模型中性能最接近閉源旗艦的代表。他不藏著掖著。缺點也公開說,差距也公開說。“不誘於譽”——別人誇你不飄。“不恐於誹”——別人罵你不慫。“率道而行”——走自己的路。“端然正己”——把自己做好。1號位的風骨,就是企業文化的根基梁文鋒的風格,決定了DeepSeek的底層程式碼:關於開源:“在顛覆性的技術面前,閉源形成的護城河是短暫的。即使OpenAI閉源,也無法阻止被別人趕超。”關於創新:“過去三十年,我們都只強調賺錢,對創新是忽視的。創新不完全是商業驅動的,還需要好奇心和創造欲。”關於中國AI:“中國AI不可能永遠停留在跟隨階段。如果這個不改變,中國永遠只能是追隨者。”這些話不是PR稿,是他真的在做的。△圖片來源:百度百科梁文鋒梁文鋒不是什麼商學院的案例他是一個相信“中國必須有人站到技術前沿”的工程師,是一個願意把1.38億匿名捐出去的普通人,是一個在V4發佈時主動承認“落後3到6個月”的創始人。1號位的風骨,就是企業文化的根基。他有一句話,值得每個做企業的人記住:“當這個社會讓硬核創新的人功成名就,群體性想法就會改變。我們只是還需要一堆事實和一個過程。”不誘於譽,不恐於誹,率道而行,端然正己。 (大美嘮文化)
FORTUNE雜誌—梁文鋒,不再孤勇
4月的最後一周,梁文鋒做了一件簡單而精準的事。天眼查資訊顯示,4月27日,DeepSeek註冊資本由1000萬元增至1500萬元,增資幅度50%。梁文鋒的直接持股從1%躍升至34%,寧波程恩(合夥企業)持股則從99%降至66%,這位低調的創始人由此可支配公司約84%的股份。看似一次內部股權結構的微調,微妙之處在於時機,因其恰好發生在一場引爆中國AI產業鏈的旗艦發佈之後。三天前,DeepSeek-V4帶著1.6兆參數的開源模型登場,再次改寫了遊戲規則。而梁文鋒在這個時間點強化控制權,傳遞了一個明確的訊號——“孤勇者”的時代或許已經結束,屬於梁文鋒的時代則剛剛開始。圖片來源:視覺中國中國大模型的“DeepSeek時刻”4月24日,DeepSeek-V4預覽版正式上線並同步開源。這是梁文鋒迄今交給世界的最硬核的答案。V4包含兩個版本:V4-Pro總參數達1.6兆(啟動490億)、V4-Flash總參數2840億(啟動130億),雙版本均原生支援百萬token超長上下文。在性能維度上,24項基準測試的評估顯示,V4-Pro在其中3項中超越了所有參與比較的大語言模型;V4在MMMU多模態基準測試中較前代提升了21.4分,複雜場景理解能力顯著增強。更深遠的變化藏在效率裡。相比上一代V3.2,V4的單token推理算力需求下降了73%,KV快取被壓縮到原來的十分之一。DeepSeek自己在論文中也坦率承認——V4-Pro-Max的表現“小幅超越當前的領先開源模型,並高於GPT-5.2和Gemini-3.0-Pro,但仍然落後於GPT-5.4和Gemini-3.1-Pro,差距大概在三到六個月”。這句話傳遞了兩個關鍵資訊:中國大模型正以前所未有的速度逼近第一梯隊,而與此同時,這次發佈並未改變中美頂級大模型之間的基本格局——追趕仍在繼續。正是這種謙遜裡的“實誠”,讓整個行業的價值在這場效應中重新分配。在V4開源模型的衝擊下,市場給出了極其“教科書式”的反饋。最顯著的效應之一,是當日大模型類股的兩極分化。智譜收盤跌9%,盤中最大跌幅超12%;MiniMax收跌9.44%,盤中一度跳水超12%。“Token第一股”迅策收盤也跌近16%,成為當日港股科技類股跌幅最大的標的之一。與此同時,國產晶片類股全線爆發:華虹半導體港股盤中漲約17%,收漲15%;中芯國際收漲超10%。摩根大通將“大模型回呼”與“恆生指數當日上漲0.2%”的事實並列在一張結論表中,認為這並非系統性風險,而是一場產業鏈內部價值重分配在資本市場的集中定價,並稱DeepSeek-V4的發佈是“行業利多,而非零和衝擊”。為何如此樂觀?在摩根大通的分析框架裡,V4事實上強化了中國LLM行業的三個關鍵支柱——算力供應釋放、定價紀律和結構性成本曲線壓縮。DeepSeek一直在其分析師“4-5月事件日曆中最大的單一負面競爭催化劑”中佔據重要位置,隨著V4落地並被消化,這一不確定性正式出清了。招商證券指出,1M token上下文的V4全系標配“開源SOTA兌現,但並未全面超越海內外旗艦競品”,意味著競爭加劇但未到格局重塑的地步。瑞銀報告也仍然看好智譜在編碼領域的持續領先地位和MiniMax在V4未著重強調的多模態領域的差異化定位。但不得不承認的另一面是,DeepSeek的開源策略將大大擠壓其它大模型公司在B端市場的議價空間,畢竟企業客戶有了更多開源模型的選擇權,大模型公司的“純技術稀缺性溢價”也隨之下降。而且,這些公司還面臨一個共同的定價壓力:DeepSeek預告下半年昇騰950出貨後V4-Pro價格還會大幅下調,這會進一步壓縮模型的定價空間。“國芯+國模”:國產AI的雙向奔赴DeepSeek-V4的真正敘事,從來不僅僅在模型本身。很長一段時間裡,中國頂級大模型的訓練與推理幾乎完全依賴輝達的GPU和CUDA生態,國產晶片扮演的角色不過是“備選項”。但這一次,行業慣例發生了根本逆轉。DeepSeek-V4並未向輝達和AMD提供早期存取權,反而優先開放給華為昇騰,從而從設計階段就開始了芯模協同最佳化,獲得了數周時間進行底層適配,包括指令級、算子庫和推理框架。在深度最佳化後,V4在華為昇騰晶片上的推理速度較初期版本提升了整整35倍,華為CANN框架與輝達CUDA的程式碼相容性已逼近95%。而且這種“Day 0”等級的適配已從華為昇騰蔓延至更廣闊的本土晶片陣容,包括寒武紀、沐曦、海光、摩爾線程(FP8)、崑崙芯、平頭哥真武、天數等主流國產AI晶片都迅速實現了全量適配與推理部署。鏈式反應由此放射。數月之前,據The Information援引知情人士消息,阿里、字節和騰訊已累計訂購數十萬顆華為AI晶片。這不是一次試驗,而是一項“協調一致的努力,旨在建立一個純國產的AI技術堆疊”。2025年全年,國產AI晶片在國內市場的份額已躍升至41%,其中華為昇騰佔據近半。輝達曾在這個市場上佔據90%以上的絕對壟斷地位,如今,不可動搖的格局開始鬆動。中銀國際指出這一鏈條的深層意義:“國產大模型已基本跑通全端國產化,理論上已形成從底層硬體、基礎軟體、平台服務到上層應用、安全體系的完整技術鏈條,國產算力類股迎來質變臨界點”。華泰證券研報也表示,市場容易被“降本”二字迷惑,但真正的邊際變化,在於長上下文成本的斷崖式下降將讓複雜Agent、多文件分析、長周期任務等場景變得可用——推理呼叫量與儲存訪問頻次將隨之擴張。顯然,無論外界如何評價,梁文鋒截至目前仍然保有不被任何人設計好的時間線。他自掏腰包投入DeepSeek的資金據傳累計超過200億元。他曾被媒體貼上所有這些標籤——“不融資”、“不接受外部資本”、“不被任何人的商業化時間表綁架”。他營運著一家近乎“研究機構”而非商業公司的心態。只是即使是這位“AI隱士”,也不得不在2026年向現實邁出了一步。近期有消息稱DeepSeek正啟動成立以來的首次外部股權融資,以超100億美元的估值,計畫募集不少於3億美元資金。在V4面世之際,梁文鋒在融資啟動和內部增持方面同步推進,無疑是為未來的IPO鋪路,從而全面激發人才留存與發展。而他在融資真正落地前搶先出手加碼控制權,傳遞了清晰的訊號:資本可以進來,但控制權不在談判桌上。值得注意的是,DeepSeek-V4的發佈公告引用了《荀子》:“不誘於譽,不恐於誹,率道而行,端然正己。”這些話由DeepSeek自己寫上,指向某種遠超股價漲跌的東西,其中最關鍵的是“國芯+國模”的適配處理程序。4月27日,中國信通院宣佈,正式啟動DeepSeek V4國產化適配測試,推動模型與國產軟硬體深度協同、加速產業落地。本次測試依託工信部重點實驗室與AISHPerf基準體系開展,覆蓋晶片、伺服器、一體機、叢集、開發工具鏈、智算平台等全端AI軟硬體產品,聚焦DeepSeek V4全系列模型的推理、微調流程,並形成立體化評測體系。DeepSeek的股權變更可被視為其正式融入主流商業競爭的號角,梁文鋒也將不再是在中國大模型發展路上那個“孤勇者”。而這條路,是用國產算力鋪就的。 (財富FORTUNE)
梁文鋒:任正非的接棒者
一直以來,華為是自主創新的標竿企業,其創始人任正非也成為科技界的一代精神領袖。中國的科技要突破重圍,打破別人的封鎖,靠的是自力更生。華為和任正非正是契合了這一點,倍受國人尊重。華為的鴻蒙作業系統和麒麟系列、昇騰系列、海思Boudica系列、巴龍系列等晶片,是我們的希望和驕傲。但國人希望有更多的華為、更多的任正非站起來!終於,大家又等到了!2025年deepseek橫空出世後,經過15個月的沉寂和磨煉,終於在昨天宣佈deepseek v4閃亮登場。有人說,AI大模型更新有什麼可稀奇的,國內外的大模型時常在更新。確實,從更新角度看,deepseek v4一點也不稀奇。但你要知道,這次deepseek v4更新,建立在適配國產晶片的基礎上。用的是華為昇騰等國產晶片。近日,華為昇騰CANN官方日前通過直播宣佈,DeepSeek V4已在昇騰平台上完成首發。這意味著什麼?這意味著國產最強模型與國產自主算力的組合已進入實戰部署階段,徹底打破了以往對單一進口硬體的依賴。這意味著打破了輝達的AI統治力。AI算力有了另一種選擇,有了另一條棧道。這才是這次更新顛覆性的意義。輝達的黃仁勳最怕什麼?怕的就是這一點。就在幾天前,黃仁勳在接受美國記者的專訪時曾直言,如果DeepSeek率先在華為平台上發佈,對於他們而言將是災難性的。僅僅過去九天,這一憂慮便已精準應驗。黃仁勳在社交平台中氣憤地說:“美國的封鎖政策是失敗者的心態。”事實上,國內算力生態的轉向遠比市場預想得更快。除了華為,寒武紀、海光資訊以及摩爾線程等國產AI晶片主流廠商,也都在第一時間宣佈了對DeepSeek V4的適配支援。這清晰地傳遞出一個訊號:輝達正逐漸從國產大模型的必選項清單中消失。隨著國產晶片在演算法適配與底層最佳化上的快速跟進,國內開發者在算力供給上已經擁有了更多且更穩健的本土替代方案。而一旦這一趨勢形成,並且日趨成熟,國際上就會有跟從者。因為我們的AI更有性價比優勢。現在,在國際上,尤其在美國的科技界,已把deepseek創始人梁文鋒當成最大的威脅者,坐立不安。而對國人而言,梁文鋒或許已成了任正非的接棒者,是新一代自主創新的代表人物。 (涂巷人)
DeepSeek幕後核心人物全梳理|梁文鋒之外,撐起國產AI的天才們
DeepSeek爆火的時候,所有聚光燈都打在梁文鋒身上。但他自己說過一句話,原話是這樣的:▌ "在人工智慧領域,前50名頂尖人才可能不在中國,但排名51到500的一定在。"他說的那批51到500名的人,今天大部分人都叫不出名字。但DeepSeek真正是他們造的。這篇文章,試著把聚光燈往別的地方照一照。━━━━━━━━━━━━━━━━一、朱琪豪:用16篇頂會論文換來一個程式碼模型2024年,福建莆田人朱琪豪從北京大學電腦學院博士畢業。他的博士論文《語言定義感知的深度程式碼學習技術及應用》,入選2024年CCF軟體工程專業委員會博士學位論文激勵計畫。在校期間,他發表了16篇CCF-A類論文,還兩次拿下ACM SIGSOFT傑出論文獎。其中一篇論文進入ESEC/FSE會議同年引用前三名。ACM SIGSOFT傑出論文獎是軟體工程領域含金量極高的獎項,很多資深研究者一輩子都未曾觸及。這是什麼水平?可以這樣理解:國內大多數博士一輩子能發2-3篇CCF-A,他發了16篇。他的導師是北大電腦學院的熊英飛副教授和張路教授,兩位都是軟體工程領域的重量級學者。朱琪豪在這樣的團隊裡,不是最亮眼的學生,卻是產出最穩定的一個。他的研究方向是"語言定義感知"——用人話來理解程式碼,讓AI能像人一樣"讀"懂程序的意圖。畢業之後,他沒有去大廠。直接進了DeepSeek。他主導開發了DeepSeek-Coder-V1——這是第一個讓國產AI在程式碼生成上正式能打的模型。在此之前,國產大模型在程式碼場景基本處於弱勢,很多人覺得"國產模型寫程式碼就是個笑話"。朱琪豪把這個笑話,變成了認真的事情。他還是DeepSeekMath的核心作者之一,參與了DeepSeek-V2大模型的研發。他的個人首頁上寫的自我介紹很簡短:▌ "Currently, I am a researcher at DeepSeek, where I focus on developing advanced large models for code generation and logical reasoning."沒有華麗的修辭,沒有刻意展示。就事論事。他現在多大?應該還不到30歲。二、代達勱(mài):"我不是奇才,我只是不停地做下去"圈內有人叫他"戴大麥"。代達勱,2024屆北京大學電腦學院博士,師從穗志方教授。他的研究方向是預訓練語言模型的知識記憶機理——用人話說,就是研究AI怎麼"記住"東西的。在頂會發表論文20余篇,Google Scholar引用次數超過28000次。作為第三核心作者獲得EMNLP 2023最佳長論文獎——這是中國大陸機構首次獲得該獎項,論文題目叫《Label Words are Anchors: An Information Flow Perspective for Understanding In-Context Learning》,探索的是"情境學習"這個AI領域的核心問題。博士論文入選當年全國中文資訊學會激勵計畫,全國僅10篇。還拿過國家獎學金、校長獎學金、微軟學者提名獎、北京市優秀畢業生、北京大學三好學生標兵……但他真正值得說的,不是這些獎。他參與了DeepSeek從LLM v1一路走到V3的全程。更關鍵的是,他不是單純的"演算法人"。作為DeepSeek基礎設施負責人,他負責整個推理系統的工程最佳化與規模化部署。這意味著,他不僅要讓模型"聰明",還要讓模型在百萬級使用者同時湧入時不崩盤。他作為第一作者提出的DeepSeekMoE架構,發表於ACL 2024。這個架構通過"細粒度專家分割"和"隔離共享專家"解決了傳統MoE架構的知識冗餘問題,僅用28.5%的計算量就達到了DeepSeek 67B的性能。這是DeepSeek V2和V3的核心基礎。說得直白一點:沒有DeepSeekMoE,就沒有後來的V2和V3的性價比傳奇。36氪的報導這樣形容他:"理論上好使,工程上也能跑。"這個評價在學術圈其實很高,因為太多人能寫論文但不能落地,能工程實現的又往往缺理論深度。代達勱兩樣都行。他的工作在普通使用者眼裡就是一個問題:DeepSeek能不能用?轉不轉圈?在DeepSeek某次長達十余小時的大規模全站當機事件中,他是一線搶修核心。他的崗位就是這樣的:做好了沒人鼓掌,因為被視為理所當然;出問題會被全閘道器注。據公開報導,V4將全面基於國產晶片完成適配和最佳化——這意味著底層程式碼要大量重寫,推理系統要重新調優,性能瓶頸要重新排查。從輝達CUDA生態遷移到國產晶片框架,算子生態適配的工作量是巨大的。V4成敗,不只看模型跑分,更看發佈時系統能不能穩住。而"能不能穩住"這件事,得問代達勱。他負責的不是模型有多聰明,而是模型能不能在百萬級使用者同時湧入時不崩盤。V4傳聞四起,發佈時間從2月推到3月,又推到4月,外界都在盯著性能跑分,但真正的壓力測試,其實在代達勱這邊。伺服器資源是DeepSeek的軟肋,這已經不是秘密。問題是,留給代達勱的時間還有多少?三、邵智宏:在實習期間寫出了被全行業參考的演算法邵智宏,北京航空航天大學2015級電腦學院本科,後來去清華大學互動式人工智慧課題組讀博,師從黃民烈教授。他來DeepSeek,是實習。就是在這段實習期間,他提出並工程落地了改進版GRPO——Group Relative Policy Optimization,一個高效的強化學習對齊演算法。用大白話解釋這個演算法太複雜,但可以這樣理解它的意義:傳統的強化學習訓練需要一個"裁判"模型來給答案打分,而改進版GRPO直接弱化了裁判依賴,讓一組答案之間互相對比擇優,大幅降低訓練資源需求。這個方案後來被阿里Qwen 2.5技術報告明確引用。用人話說,就是別家AI公司,把一個在讀博士生實習期間的成果,用到了自家旗艦模型上。他後來以第一完成人身份領導了DeepSeekMath項目,通過高品質數學預訓練資料和GRPO強化學習,讓DeepSeek的數學推理能力達到世界級水平。還參與了DeepSeek-Prover(數學定理證明模型)、DeepSeek-Coder-v2、DeepSeek-R1。一個實習生,把腳印踩在了三個主力模型上。2024年度,他入選《麻省理工科技評論》"35歲以下科技創新35人"(TR35)中國區名單,當時28歲。他的個人首頁上寫的自我介紹:▌ "I'm interested in building self-improving systems that can reason."注意這個詞:self-improving。不是"我來訓練你",而是"你自己變得更好"。這是他對AI的核心信念,也是DeepSeek-R1背後的思想。四、羅福莉:"請網際網路還我一片安安靜靜做事的氛圍"在DeepSeek所有"離開"的成員裡,羅福莉是最廣為人知的一個。因為她是被雷軍親自挖走的。但她的故事,不只是一個跳槽的故事。羅福莉,95後,出生於四川宜賓。父親是電工,母親是教師,妹妹是醫生。普普通通的家庭,沒有所謂"程式設計貴族"背景。她本科讀的是北京師範大學電子專業,讀到一半決定轉電腦。父母一開始覺得女生不適合學電腦,說過:"你一個女生去修電腦,無論從學歷還是性別上來說都不具備優勢。"羅福莉的回應是:"我想探索更多可能性。"轉專業代價巨大。成績一度倒數,靠通宵補課才追上來。她的高中老師評價她"非常刻苦"——在四川的教育環境裡,這已是極高肯定。大三時,她進入北京大學語言計算實驗室實習,選擇NLP作為科研方向。3個月內自學Python,投出一篇頂會論文。之後保研進入北大。碩士期間在國際頂會發表超過20篇論文,其中ACL發表8篇,2篇為一作。畢業後拿到阿里星、騰訊技術大咖、百度AIDU計畫等多個大廠offer,最終選擇阿里達摩院。在達摩院,她主導開發多語言預訓練模型VECO,日均呼叫量達50億次,成為AliceMind八大模型之一。2022年離開達摩院,加入幻方量化,後轉入DeepSeek,參與V2多模態技術研發。她說過一句話,談到為什麼喜歡寫程式碼:▌ "很確定的事情,bug出在那會告訴你,鏈路非常短,幾秒就能收到反饋。"一個人喜歡什麼,從她描述它的方式就能看出來。2024年底,雷軍以高薪招攬她的消息傳遍科技圈。她一直沒有公開回應,直到2025年2月,她在朋友圈寫下:▌ "請網際網路還我一片安安靜靜做事的氛圍吧!捧得多高摔得多重!"反對"天才少女"標籤,呼籲"停止神化技術工作者"。這是一個真正做事的人的態度。2025年11月,她正式宣佈加入小米,任MiMo團隊負責人。12月發佈MiMo-V2-Flash,推理速度150 token/秒,在Agent複雜任務評測中位列全球開源模型Top 2。她寫的宣佈文裡有一句:"智能終將從語言邁向物理世界。"從四川宜賓的普通家庭,到"全力奮赴心目中的AGI"——這個女孩的路,走得很快,但每一步都是自己的。五、高華佐:那個從物理系走到AI最前沿的人高華佐,北京大學物理系畢業,來自廣東。他的名字在公開報導中出現頻率極低,低到很多人以為他不是核心成員。但他做的事,每一件都是硬核級的。2024年5月,DeepSeek-V2發佈。這個版本最被外界稱道的技術突破,是MLA——多頭潛在注意力機制,替代了傳統多頭注意力。簡單來說,它把推理視訊記憶體壓縮到此前常用架構的5%-13%。這意味著:同樣的算力,能服務的使用者量可以翻好幾倍。MLA的核心實現與最佳化,高華佐與曾旺丁是關鍵貢獻者。曾旺丁畢業於北郵,來自湖南新化縣,研究生導師是北郵人工智慧與網路搜尋教研中心主任張洪剛。兩人一個北大物理、一個北郵AI,沒有"標準大模型團隊"背景,卻合作完成了DeepSeek最關鍵的架構創新之一。高華佐高中就顯露天賦:2012年在華南師範大學附屬中學就讀時,獲第29屆全國中學生物理競賽一等獎,2013年保送北京大學物理學院。從物理到AI,跨度很大。但梁文鋒本身就是浙大信電工程出身,後來做量化投資。DeepSeek的招人邏輯很清楚:不看你學什麼,看你能不能解決問題。高華佐的名字,大多數人不知道。但你每次用DeepSeek的時候,背後都有他的程式碼在跑。六、趙成鋼:從衡水中學到DeepSeek的超算冠軍補一個細節:DeepSeek的硬體工程團隊裡,有人來自輝達、阿里雲,也有不少從幻方AI轉崗而來。但有一個人的經歷特別值得說。趙成鋼,河北衡水中學資訊學競賽班出身。2016年獲全國青少年資訊學競賽(CCF NOI)銀牌。進入清華大學後,大二就成為清華學生超算團隊正式成員。三次斬獲世界大學生超算競賽金牌。這個成績在超算圈意味著:他是全世界最會"把顯示卡用到極限"的年輕人之一。畢業後,他先後就職於Google、輝達。網友戲稱"老黃應該把招聘負責人開了",雖是玩笑,也說明一個問題:這樣的人才,在國外大廠做底層工程,回國後在DeepSeek能做更有影響力的事。在DeepSeek,他負責訓練與推理基礎架構。用輝達A100顯示卡,做到了相比官方DGX-A100更低的成本與能耗優勢。DeepSeek-V3訓練僅用約280萬GPU小時,遠低於國際同級模型的估算算力,約為Llama 3 405B估算值的1/10。以約1/10的算力,跑出了能與GPT-4o同台競技的模型。這背後,趙成鋼的基礎架構工程是關鍵。從衡水中學競賽班,到清華超算團隊,再到Google、輝達,最後到DeepSeek——他的每一步,都在"把硬體往極限操"。七、郭達雅:"入學第三天,我就完成了博士畢業要求"郭達雅,1994年生於廣東珠海,2023年中山大學博士畢業。導師是印鑑教授,並與微軟亞洲研究院前副院長周明博士聯合培養。周明是中國NLP領域標誌性人物,能被他看中的學生,本身已說明實力。但郭達雅最"驚人"的不是導師,而是成長速度。初中時期成績並不優秀,後來意識到自學的重要性,開始猛追。高考後的暑假,他自學完成大學一年級基礎課程。進入中山大學後,大四入選與微軟亞洲研究院的聯合培養項目。在微軟實習一年裡發表兩篇頂會論文。他本人笑稱:▌ "在剛入學的第三天,我就完成了中大博士生的畢業要求。"微軟實習前半年迷茫無方向,每周讀多篇論文,半年累計百余篇。後半年方向明確,進展極快:每篇論文約1個月實驗、2-3周撰寫。這是典型"慢熱型"人才:前半段厚積,後半段薄發。2023年7月,他加入DeepSeek,專注程式碼智能和大語言模型推理。V2、V3、R1等一系列模型的核心作者名單裡,都有他的名字。他的導師印鑑對他的期許是:"希望他能成為中大的'雷軍'。"據業內消息,郭達雅近期已離開DeepSeek,成為字節跳動等多家頭部公司爭搶的對象。能同時精通程式碼智能與推理最佳化的人,全球範圍內都屈指可數。他給中大學子的寄語裡說:▌ "一個人的學習能力才是最重要的'技術'。"從初中成績平平,到被導師寄予"中大雷軍"的期待,郭達雅的故事告訴我們:學習能力,比任何學歷都重要。八、那些"不合規"的人:undefinedDeepSeek裡有一個細節,很少被提到。梁文鋒說,團隊裡有人是物理專業畢業,靠自學電腦入職;還有維運工程師,入職前對大模型零經驗。對比其他AI大廠的招聘要求:N年大模型經驗、名校學歷、大廠履歷……還有吳信,DeepSeek後訓練團隊負責人,2019年北航博士畢業,在微軟亞洲研究院參與過小冰與必應百科項目。Google Scholar引用超12000次,影響力位居全球AI學者前列。但他加入DeepSeek前,工作年限並不長。還有王炳宣,北大元培學院碩士畢業,來自山東煙台,畢業後直接加入DeepSeek,參與了從V1開始的一系列重要工作。還有孫景翔,清華博士生,在DeepSeek實習期間與導師劉燁斌合作,完成3D生成相關開放原始碼專案。它不是語言模型,卻證明DeepSeek的技術佈局,比外界想像得更寬。這些人有一個共同點:年輕、經驗不算最長、沒有華麗海歸光環。但他們共同造出了讓全球AI行業刷屏的產品。━━━━━━━━━━━━━━━━梁文鋒的招人標準只有兩條Jack Clark,OpenAI前政策主管、Anthropic聯合創始人,評價DeepSeek僱傭了"高深莫測的奇才"。梁文鋒不同意。他說,我們要的不是"奇才",就兩條:第一,熱愛。第二,好奇心。不看名校,不看大廠履歷,不看有沒有做過大模型。他還說過一句話,我覺得最值得記下來:▌ "每個人有自己獨特的成長經歷,都是自帶想法的,不需要push他。讓每個人有自由發揮的空間和試錯機會。創新往往都是自己產生的,不是刻意安排的,更不是教出來的。"這句話,解釋了朱琪豪、代達勱、邵智宏、羅福莉、高華佐、趙成鋼、郭達雅這些人為什麼會選擇DeepSeek。不是因為錢最多,不是因為光環最大。是因為有一個地方,讓他們可以去做真正想做的事。他們在DeepSeek的時候,沒有聚光燈。V4發佈之後,也不會有。但DeepSeek的每一個版本,都是他們用程式碼一行一行堆出來的。 (章魚爸爸AI商業和搜一搜實戰)