DeepSeek幕後核心人物全梳理｜梁文鋒之外，撐起國產AI的天才們

2026/04/26

•

DeepSeek爆火的時候，所有聚光燈都打在梁文鋒身上。

但他自己說過一句話，原話是這樣的：

▌ "在人工智慧領域，前50名頂尖人才可能不在中國，但排名51到500的一定在。"

他說的那批51到500名的人，今天大部分人都叫不出名字。但DeepSeek真正是他們造的。

這篇文章，試著把聚光燈往別的地方照一照。

━━━━━━━━━━━━━━━━

一、朱琪豪：用16篇頂會論文換來一個程式碼模型

2024年，福建莆田人朱琪豪從北京大學電腦學院博士畢業。

他的博士論文《語言定義感知的深度程式碼學習技術及應用》，入選2024年CCF軟體工程專業委員會博士學位論文激勵計畫。在校期間，他發表了16篇CCF-A類論文，還兩次拿下ACM SIGSOFT傑出論文獎。

其中一篇論文進入ESEC/FSE會議同年引用前三名。ACM SIGSOFT傑出論文獎是軟體工程領域含金量極高的獎項，很多資深研究者一輩子都未曾觸及。

這是什麼水平？可以這樣理解：國內大多數博士一輩子能發2-3篇CCF-A，他發了16篇。

他的導師是北大電腦學院的熊英飛副教授和張路教授，兩位都是軟體工程領域的重量級學者。朱琪豪在這樣的團隊裡，不是最亮眼的學生，卻是產出最穩定的一個。他的研究方向是"語言定義感知"——用人話來理解程式碼，讓AI能像人一樣"讀"懂程序的意圖。

畢業之後，他沒有去大廠。直接進了DeepSeek。

他主導開發了DeepSeek-Coder-V1——這是第一個讓國產AI在程式碼生成上正式能打的模型。在此之前，國產大模型在程式碼場景基本處於弱勢，很多人覺得"國產模型寫程式碼就是個笑話"。朱琪豪把這個笑話，變成了認真的事情。

他還是DeepSeekMath的核心作者之一，參與了DeepSeek-V2大模型的研發。他的個人首頁上寫的自我介紹很簡短：

▌ "Currently, I am a researcher at DeepSeek, where I focus on developing advanced large models for code generation and logical reasoning."

沒有華麗的修辭，沒有刻意展示。就事論事。

他現在多大？應該還不到30歲。

二、代達勱（mài）："我不是奇才，我只是不停地做下去"

圈內有人叫他"戴大麥"。

代達勱，2024屆北京大學電腦學院博士，師從穗志方教授。他的研究方向是預訓練語言模型的知識記憶機理——用人話說，就是研究AI怎麼"記住"東西的。

在頂會發表論文20余篇，Google Scholar引用次數超過28000次。作為第三核心作者獲得EMNLP 2023最佳長論文獎——這是中國大陸機構首次獲得該獎項，論文題目叫《Label Words are Anchors: An Information Flow Perspective for Understanding In-Context Learning》，探索的是"情境學習"這個AI領域的核心問題。

博士論文入選當年全國中文資訊學會激勵計畫，全國僅10篇。還拿過國家獎學金、校長獎學金、微軟學者提名獎、北京市優秀畢業生、北京大學三好學生標兵……

但他真正值得說的，不是這些獎。

他參與了DeepSeek從LLM v1一路走到V3的全程。

更關鍵的是，他不是單純的"演算法人"。作為DeepSeek基礎設施負責人，他負責整個推理系統的工程最佳化與規模化部署。這意味著，他不僅要讓模型"聰明"，還要讓模型在百萬級使用者同時湧入時不崩盤。

他作為第一作者提出的DeepSeekMoE架構，發表於ACL 2024。這個架構通過"細粒度專家分割"和"隔離共享專家"解決了傳統MoE架構的知識冗餘問題，僅用28.5%的計算量就達到了DeepSeek 67B的性能。

這是DeepSeek V2和V3的核心基礎。

說得直白一點：沒有DeepSeekMoE，就沒有後來的V2和V3的性價比傳奇。

36氪的報導這樣形容他："理論上好使，工程上也能跑。"這個評價在學術圈其實很高，因為太多人能寫論文但不能落地，能工程實現的又往往缺理論深度。代達勱兩樣都行。

他的工作在普通使用者眼裡就是一個問題：DeepSeek能不能用？轉不轉圈？

在DeepSeek某次長達十余小時的大規模全站當機事件中，他是一線搶修核心。

他的崗位就是這樣的：做好了沒人鼓掌，因為被視為理所當然；出問題會被全閘道器注。

據公開報導，V4將全面基於國產晶片完成適配和最佳化——這意味著底層程式碼要大量重寫，推理系統要重新調優，性能瓶頸要重新排查。從輝達CUDA生態遷移到國產晶片框架，算子生態適配的工作量是巨大的。

V4成敗，不只看模型跑分，更看發佈時系統能不能穩住。而"能不能穩住"這件事，得問代達勱。

他負責的不是模型有多聰明，而是模型能不能在百萬級使用者同時湧入時不崩盤。V4傳聞四起，發佈時間從2月推到3月，又推到4月，外界都在盯著性能跑分，但真正的壓力測試，其實在代達勱這邊。伺服器資源是DeepSeek的軟肋，這已經不是秘密。

問題是，留給代達勱的時間還有多少？

三、邵智宏：在實習期間寫出了被全行業參考的演算法

邵智宏，北京航空航天大學2015級電腦學院本科，後來去清華大學互動式人工智慧課題組讀博，師從黃民烈教授。

他來DeepSeek，是實習。

就是在這段實習期間，他提出並工程落地了改進版GRPO——Group Relative Policy Optimization，一個高效的強化學習對齊演算法。

用大白話解釋這個演算法太複雜，但可以這樣理解它的意義：傳統的強化學習訓練需要一個"裁判"模型來給答案打分，而改進版GRPO直接弱化了裁判依賴，讓一組答案之間互相對比擇優，大幅降低訓練資源需求。

這個方案後來被阿里Qwen 2.5技術報告明確引用。

用人話說，就是別家AI公司，把一個在讀博士生實習期間的成果，用到了自家旗艦模型上。

他後來以第一完成人身份領導了DeepSeekMath項目，通過高品質數學預訓練資料和GRPO強化學習，讓DeepSeek的數學推理能力達到世界級水平。

還參與了DeepSeek-Prover（數學定理證明模型）、DeepSeek-Coder-v2、DeepSeek-R1。

一個實習生，把腳印踩在了三個主力模型上。

2024年度，他入選《麻省理工科技評論》"35歲以下科技創新35人"（TR35）中國區名單，當時28歲。

他的個人首頁上寫的自我介紹：

▌ "I'm interested in building self-improving systems that can reason."

注意這個詞：self-improving。不是"我來訓練你"，而是"你自己變得更好"。這是他對AI的核心信念，也是DeepSeek-R1背後的思想。

四、羅福莉："請網際網路還我一片安安靜靜做事的氛圍"

在DeepSeek所有"離開"的成員裡，羅福莉是最廣為人知的一個。因為她是被雷軍親自挖走的。

但她的故事，不只是一個跳槽的故事。

羅福莉，95後，出生於四川宜賓。父親是電工，母親是教師，妹妹是醫生。普普通通的家庭，沒有所謂"程式設計貴族"背景。

她本科讀的是北京師範大學電子專業，讀到一半決定轉電腦。

父母一開始覺得女生不適合學電腦，說過："你一個女生去修電腦，無論從學歷還是性別上來說都不具備優勢。"

羅福莉的回應是："我想探索更多可能性。"

轉專業代價巨大。成績一度倒數，靠通宵補課才追上來。她的高中老師評價她"非常刻苦"——在四川的教育環境裡，這已是極高肯定。

大三時，她進入北京大學語言計算實驗室實習，選擇NLP作為科研方向。3個月內自學Python，投出一篇頂會論文。之後保研進入北大。

碩士期間在國際頂會發表超過20篇論文，其中ACL發表8篇，2篇為一作。

畢業後拿到阿里星、騰訊技術大咖、百度AIDU計畫等多個大廠offer，最終選擇阿里達摩院。在達摩院，她主導開發多語言預訓練模型VECO，日均呼叫量達50億次，成為AliceMind八大模型之一。

2022年離開達摩院，加入幻方量化，後轉入DeepSeek，參與V2多模態技術研發。

她說過一句話，談到為什麼喜歡寫程式碼：

▌ "很確定的事情，bug出在那會告訴你，鏈路非常短，幾秒就能收到反饋。"

一個人喜歡什麼，從她描述它的方式就能看出來。

2024年底，雷軍以高薪招攬她的消息傳遍科技圈。她一直沒有公開回應，直到2025年2月，她在朋友圈寫下：

▌ "請網際網路還我一片安安靜靜做事的氛圍吧！捧得多高摔得多重！"

反對"天才少女"標籤，呼籲"停止神化技術工作者"。

這是一個真正做事的人的態度。

2025年11月，她正式宣佈加入小米，任MiMo團隊負責人。12月發佈MiMo-V2-Flash，推理速度150 token/秒，在Agent複雜任務評測中位列全球開源模型Top 2。

她寫的宣佈文裡有一句："智能終將從語言邁向物理世界。"

從四川宜賓的普通家庭，到"全力奮赴心目中的AGI"——這個女孩的路，走得很快，但每一步都是自己的。

五、高華佐：那個從物理系走到AI最前沿的人

高華佐，北京大學物理系畢業，來自廣東。

他的名字在公開報導中出現頻率極低，低到很多人以為他不是核心成員。但他做的事，每一件都是硬核級的。

2024年5月，DeepSeek-V2發佈。這個版本最被外界稱道的技術突破，是MLA——多頭潛在注意力機制，替代了傳統多頭注意力。

簡單來說，它把推理視訊記憶體壓縮到此前常用架構的5%-13%。這意味著：同樣的算力，能服務的使用者量可以翻好幾倍。

MLA的核心實現與最佳化，高華佐與曾旺丁是關鍵貢獻者。

曾旺丁畢業於北郵，來自湖南新化縣，研究生導師是北郵人工智慧與網路搜尋教研中心主任張洪剛。兩人一個北大物理、一個北郵AI，沒有"標準大模型團隊"背景，卻合作完成了DeepSeek最關鍵的架構創新之一。

高華佐高中就顯露天賦：2012年在華南師範大學附屬中學就讀時，獲第29屆全國中學生物理競賽一等獎，2013年保送北京大學物理學院。

從物理到AI，跨度很大。但梁文鋒本身就是浙大信電工程出身，後來做量化投資。DeepSeek的招人邏輯很清楚：不看你學什麼，看你能不能解決問題。

高華佐的名字，大多數人不知道。

但你每次用DeepSeek的時候，背後都有他的程式碼在跑。

六、趙成鋼：從衡水中學到DeepSeek的超算冠軍

補一個細節：DeepSeek的硬體工程團隊裡，有人來自輝達、阿里雲，也有不少從幻方AI轉崗而來。

但有一個人的經歷特別值得說。

趙成鋼，河北衡水中學資訊學競賽班出身。2016年獲全國青少年資訊學競賽（CCF NOI）銀牌。進入清華大學後，大二就成為清華學生超算團隊正式成員。

三次斬獲世界大學生超算競賽金牌。

這個成績在超算圈意味著：他是全世界最會"把顯示卡用到極限"的年輕人之一。

畢業後，他先後就職於Google、輝達。網友戲稱"老黃應該把招聘負責人開了"，雖是玩笑，也說明一個問題：這樣的人才，在國外大廠做底層工程，回國後在DeepSeek能做更有影響力的事。

在DeepSeek，他負責訓練與推理基礎架構。用輝達A100顯示卡，做到了相比官方DGX-A100更低的成本與能耗優勢。DeepSeek-V3訓練僅用約280萬GPU小時，遠低於國際同級模型的估算算力，約為Llama 3 405B估算值的1/10。

以約1/10的算力，跑出了能與GPT-4o同台競技的模型。

這背後，趙成鋼的基礎架構工程是關鍵。

從衡水中學競賽班，到清華超算團隊，再到Google、輝達，最後到DeepSeek——他的每一步，都在"把硬體往極限操"。

七、郭達雅："入學第三天，我就完成了博士畢業要求"

郭達雅，1994年生於廣東珠海，2023年中山大學博士畢業。

導師是印鑑教授，並與微軟亞洲研究院前副院長周明博士聯合培養。周明是中國NLP領域標誌性人物，能被他看中的學生，本身已說明實力。

但郭達雅最"驚人"的不是導師，而是成長速度。

初中時期成績並不優秀，後來意識到自學的重要性，開始猛追。高考後的暑假，他自學完成大學一年級基礎課程。

進入中山大學後，大四入選與微軟亞洲研究院的聯合培養項目。在微軟實習一年裡發表兩篇頂會論文。

他本人笑稱：

▌ "在剛入學的第三天，我就完成了中大博士生的畢業要求。"

微軟實習前半年迷茫無方向，每周讀多篇論文，半年累計百余篇。後半年方向明確，進展極快：每篇論文約1個月實驗、2-3周撰寫。

這是典型"慢熱型"人才：前半段厚積，後半段薄發。

2023年7月，他加入DeepSeek，專注程式碼智能和大語言模型推理。V2、V3、R1等一系列模型的核心作者名單裡，都有他的名字。

他的導師印鑑對他的期許是："希望他能成為中大的'雷軍'。"

據業內消息，郭達雅近期已離開DeepSeek，成為字節跳動等多家頭部公司爭搶的對象。能同時精通程式碼智能與推理最佳化的人，全球範圍內都屈指可數。

他給中大學子的寄語裡說：

▌ "一個人的學習能力才是最重要的'技術'。"

從初中成績平平，到被導師寄予"中大雷軍"的期待，郭達雅的故事告訴我們：學習能力，比任何學歷都重要。

八、那些"不合規"的人：undefined

DeepSeek裡有一個細節，很少被提到。

梁文鋒說，團隊裡有人是物理專業畢業，靠自學電腦入職；還有維運工程師，入職前對大模型零經驗。

對比其他AI大廠的招聘要求：N年大模型經驗、名校學歷、大廠履歷……

還有吳信，DeepSeek後訓練團隊負責人，2019年北航博士畢業，在微軟亞洲研究院參與過小冰與必應百科項目。Google Scholar引用超12000次，影響力位居全球AI學者前列。但他加入DeepSeek前，工作年限並不長。

還有王炳宣，北大元培學院碩士畢業，來自山東煙台，畢業後直接加入DeepSeek，參與了從V1開始的一系列重要工作。

還有孫景翔，清華博士生，在DeepSeek實習期間與導師劉燁斌合作，完成3D生成相關開放原始碼專案。它不是語言模型，卻證明DeepSeek的技術佈局，比外界想像得更寬。

這些人有一個共同點：年輕、經驗不算最長、沒有華麗海歸光環。

但他們共同造出了讓全球AI行業刷屏的產品。

━━━━━━━━━━━━━━━━

梁文鋒的招人標準只有兩條

Jack Clark，OpenAI前政策主管、Anthropic聯合創始人，評價DeepSeek僱傭了"高深莫測的奇才"。

梁文鋒不同意。他說，我們要的不是"奇才"，就兩條：

第一，熱愛。

第二，好奇心。

不看名校，不看大廠履歷，不看有沒有做過大模型。

他還說過一句話，我覺得最值得記下來：

▌ "每個人有自己獨特的成長經歷，都是自帶想法的，不需要push他。讓每個人有自由發揮的空間和試錯機會。創新往往都是自己產生的，不是刻意安排的，更不是教出來的。"

這句話，解釋了朱琪豪、代達勱、邵智宏、羅福莉、高華佐、趙成鋼、郭達雅這些人為什麼會選擇DeepSeek。

不是因為錢最多，不是因為光環最大。

是因為有一個地方，讓他們可以去做真正想做的事。

他們在DeepSeek的時候，沒有聚光燈。

V4發佈之後，也不會有。

但DeepSeek的每一個版本，都是他們用程式碼一行一行堆出來的。 (章魚爸爸AI商業和搜一搜實戰)