DeepSeek幕後核心人物全梳理|梁文鋒之外,撐起國產AI的天才們

DeepSeek爆火的時候,所有聚光燈都打在梁文鋒身上。

但他自己說過一句話,原話是這樣的:

▌ "在人工智慧領域,前50名頂尖人才可能不在中國,但排名51到500的一定在。"

他說的那批51到500名的人,今天大部分人都叫不出名字。但DeepSeek真正是他們造的。

這篇文章,試著把聚光燈往別的地方照一照。

━━━━━━━━━━━━━━━━

一、朱琪豪:用16篇頂會論文換來一個程式碼模型

2024年,福建莆田人朱琪豪從北京大學電腦學院博士畢業。

他的博士論文《語言定義感知的深度程式碼學習技術及應用》,入選2024年CCF軟體工程專業委員會博士學位論文激勵計畫。在校期間,他發表了16篇CCF-A類論文,還兩次拿下ACM SIGSOFT傑出論文獎。

其中一篇論文進入ESEC/FSE會議同年引用前三名。ACM SIGSOFT傑出論文獎是軟體工程領域含金量極高的獎項,很多資深研究者一輩子都未曾觸及。

這是什麼水平?可以這樣理解:國內大多數博士一輩子能發2-3篇CCF-A,他發了16篇。

他的導師是北大電腦學院的熊英飛副教授和張路教授,兩位都是軟體工程領域的重量級學者。朱琪豪在這樣的團隊裡,不是最亮眼的學生,卻是產出最穩定的一個。他的研究方向是"語言定義感知"——用人話來理解程式碼,讓AI能像人一樣"讀"懂程序的意圖。

畢業之後,他沒有去大廠。直接進了DeepSeek。

他主導開發了DeepSeek-Coder-V1——這是第一個讓國產AI在程式碼生成上正式能打的模型。在此之前,國產大模型在程式碼場景基本處於弱勢,很多人覺得"國產模型寫程式碼就是個笑話"。朱琪豪把這個笑話,變成了認真的事情。

他還是DeepSeekMath的核心作者之一,參與了DeepSeek-V2大模型的研發。他的個人首頁上寫的自我介紹很簡短:

▌ "Currently, I am a researcher at DeepSeek, where I focus on developing advanced large models for code generation and logical reasoning."

沒有華麗的修辭,沒有刻意展示。就事論事。

他現在多大?應該還不到30歲。

二、代達勱(mài):"我不是奇才,我只是不停地做下去"

圈內有人叫他"戴大麥"。

代達勱,2024屆北京大學電腦學院博士,師從穗志方教授。他的研究方向是預訓練語言模型的知識記憶機理——用人話說,就是研究AI怎麼"記住"東西的。

在頂會發表論文20余篇,Google Scholar引用次數超過28000次。作為第三核心作者獲得EMNLP 2023最佳長論文獎——這是中國大陸機構首次獲得該獎項,論文題目叫《Label Words are Anchors: An Information Flow Perspective for Understanding In-Context Learning》,探索的是"情境學習"這個AI領域的核心問題。

博士論文入選當年全國中文資訊學會激勵計畫,全國僅10篇。還拿過國家獎學金、校長獎學金、微軟學者提名獎、北京市優秀畢業生、北京大學三好學生標兵……

但他真正值得說的,不是這些獎。

他參與了DeepSeek從LLM v1一路走到V3的全程。

更關鍵的是,他不是單純的"演算法人"。作為DeepSeek基礎設施負責人,他負責整個推理系統的工程最佳化與規模化部署。這意味著,他不僅要讓模型"聰明",還要讓模型在百萬級使用者同時湧入時不崩盤。

他作為第一作者提出的DeepSeekMoE架構,發表於ACL 2024。這個架構通過"細粒度專家分割"和"隔離共享專家"解決了傳統MoE架構的知識冗餘問題,僅用28.5%的計算量就達到了DeepSeek 67B的性能。

這是DeepSeek V2和V3的核心基礎。

說得直白一點:沒有DeepSeekMoE,就沒有後來的V2和V3的性價比傳奇。

36氪的報導這樣形容他:"理論上好使,工程上也能跑。"這個評價在學術圈其實很高,因為太多人能寫論文但不能落地,能工程實現的又往往缺理論深度。代達勱兩樣都行。

他的工作在普通使用者眼裡就是一個問題:DeepSeek能不能用?轉不轉圈?

在DeepSeek某次長達十余小時的大規模全站當機事件中,他是一線搶修核心。

他的崗位就是這樣的:做好了沒人鼓掌,因為被視為理所當然;出問題會被全閘道器注。

據公開報導,V4將全面基於國產晶片完成適配和最佳化——這意味著底層程式碼要大量重寫,推理系統要重新調優,性能瓶頸要重新排查。從輝達CUDA生態遷移到國產晶片框架,算子生態適配的工作量是巨大的。

V4成敗,不只看模型跑分,更看發佈時系統能不能穩住。而"能不能穩住"這件事,得問代達勱。

他負責的不是模型有多聰明,而是模型能不能在百萬級使用者同時湧入時不崩盤。V4傳聞四起,發佈時間從2月推到3月,又推到4月,外界都在盯著性能跑分,但真正的壓力測試,其實在代達勱這邊。伺服器資源是DeepSeek的軟肋,這已經不是秘密。

問題是,留給代達勱的時間還有多少?

三、邵智宏:在實習期間寫出了被全行業參考的演算法

邵智宏,北京航空航天大學2015級電腦學院本科,後來去清華大學互動式人工智慧課題組讀博,師從黃民烈教授。

他來DeepSeek,是實習。

就是在這段實習期間,他提出並工程落地了改進版GRPO——Group Relative Policy Optimization,一個高效的強化學習對齊演算法。

用大白話解釋這個演算法太複雜,但可以這樣理解它的意義:傳統的強化學習訓練需要一個"裁判"模型來給答案打分,而改進版GRPO直接弱化了裁判依賴,讓一組答案之間互相對比擇優,大幅降低訓練資源需求。

這個方案後來被阿里Qwen 2.5技術報告明確引用。

用人話說,就是別家AI公司,把一個在讀博士生實習期間的成果,用到了自家旗艦模型上。

他後來以第一完成人身份領導了DeepSeekMath項目,通過高品質數學預訓練資料和GRPO強化學習,讓DeepSeek的數學推理能力達到世界級水平。

還參與了DeepSeek-Prover(數學定理證明模型)、DeepSeek-Coder-v2、DeepSeek-R1。

一個實習生,把腳印踩在了三個主力模型上。

2024年度,他入選《麻省理工科技評論》"35歲以下科技創新35人"(TR35)中國區名單,當時28歲。

他的個人首頁上寫的自我介紹:

▌ "I'm interested in building self-improving systems that can reason."

注意這個詞:self-improving。不是"我來訓練你",而是"你自己變得更好"。這是他對AI的核心信念,也是DeepSeek-R1背後的思想。

四、羅福莉:"請網際網路還我一片安安靜靜做事的氛圍"

在DeepSeek所有"離開"的成員裡,羅福莉是最廣為人知的一個。因為她是被雷軍親自挖走的。

但她的故事,不只是一個跳槽的故事。

羅福莉,95後,出生於四川宜賓。父親是電工,母親是教師,妹妹是醫生。普普通通的家庭,沒有所謂"程式設計貴族"背景。

她本科讀的是北京師範大學電子專業,讀到一半決定轉電腦。

父母一開始覺得女生不適合學電腦,說過:"你一個女生去修電腦,無論從學歷還是性別上來說都不具備優勢。"

羅福莉的回應是:"我想探索更多可能性。"

轉專業代價巨大。成績一度倒數,靠通宵補課才追上來。她的高中老師評價她"非常刻苦"——在四川的教育環境裡,這已是極高肯定。

大三時,她進入北京大學語言計算實驗室實習,選擇NLP作為科研方向。3個月內自學Python,投出一篇頂會論文。之後保研進入北大。

碩士期間在國際頂會發表超過20篇論文,其中ACL發表8篇,2篇為一作。

畢業後拿到阿里星、騰訊技術大咖、百度AIDU計畫等多個大廠offer,最終選擇阿里達摩院。在達摩院,她主導開發多語言預訓練模型VECO,日均呼叫量達50億次,成為AliceMind八大模型之一。

2022年離開達摩院,加入幻方量化,後轉入DeepSeek,參與V2多模態技術研發。

她說過一句話,談到為什麼喜歡寫程式碼:

▌ "很確定的事情,bug出在那會告訴你,鏈路非常短,幾秒就能收到反饋。"

一個人喜歡什麼,從她描述它的方式就能看出來。

2024年底,雷軍以高薪招攬她的消息傳遍科技圈。她一直沒有公開回應,直到2025年2月,她在朋友圈寫下:

▌ "請網際網路還我一片安安靜靜做事的氛圍吧!捧得多高摔得多重!"

反對"天才少女"標籤,呼籲"停止神化技術工作者"。

這是一個真正做事的人的態度。

2025年11月,她正式宣佈加入小米,任MiMo團隊負責人。12月發佈MiMo-V2-Flash,推理速度150 token/秒,在Agent複雜任務評測中位列全球開源模型Top 2。

她寫的宣佈文裡有一句:"智能終將從語言邁向物理世界。"

從四川宜賓的普通家庭,到"全力奮赴心目中的AGI"——這個女孩的路,走得很快,但每一步都是自己的。

五、高華佐:那個從物理系走到AI最前沿的人

高華佐,北京大學物理系畢業,來自廣東。

他的名字在公開報導中出現頻率極低,低到很多人以為他不是核心成員。但他做的事,每一件都是硬核級的。

2024年5月,DeepSeek-V2發佈。這個版本最被外界稱道的技術突破,是MLA——多頭潛在注意力機制,替代了傳統多頭注意力。

簡單來說,它把推理視訊記憶體壓縮到此前常用架構的5%-13%。這意味著:同樣的算力,能服務的使用者量可以翻好幾倍。

MLA的核心實現與最佳化,高華佐與曾旺丁是關鍵貢獻者。

曾旺丁畢業於北郵,來自湖南新化縣,研究生導師是北郵人工智慧與網路搜尋教研中心主任張洪剛。兩人一個北大物理、一個北郵AI,沒有"標準大模型團隊"背景,卻合作完成了DeepSeek最關鍵的架構創新之一。

高華佐高中就顯露天賦:2012年在華南師範大學附屬中學就讀時,獲第29屆全國中學生物理競賽一等獎,2013年保送北京大學物理學院。

從物理到AI,跨度很大。但梁文鋒本身就是浙大信電工程出身,後來做量化投資。DeepSeek的招人邏輯很清楚:不看你學什麼,看你能不能解決問題。

高華佐的名字,大多數人不知道。

但你每次用DeepSeek的時候,背後都有他的程式碼在跑。

六、趙成鋼:從衡水中學到DeepSeek的超算冠軍

補一個細節:DeepSeek的硬體工程團隊裡,有人來自輝達、阿里雲,也有不少從幻方AI轉崗而來。

但有一個人的經歷特別值得說。

趙成鋼,河北衡水中學資訊學競賽班出身。2016年獲全國青少年資訊學競賽(CCF NOI)銀牌。進入清華大學後,大二就成為清華學生超算團隊正式成員。

三次斬獲世界大學生超算競賽金牌。

這個成績在超算圈意味著:他是全世界最會"把顯示卡用到極限"的年輕人之一。

畢業後,他先後就職於Google、輝達。網友戲稱"老黃應該把招聘負責人開了",雖是玩笑,也說明一個問題:這樣的人才,在國外大廠做底層工程,回國後在DeepSeek能做更有影響力的事。

在DeepSeek,他負責訓練與推理基礎架構。用輝達A100顯示卡,做到了相比官方DGX-A100更低的成本與能耗優勢。DeepSeek-V3訓練僅用約280萬GPU小時,遠低於國際同級模型的估算算力,約為Llama 3 405B估算值的1/10。

以約1/10的算力,跑出了能與GPT-4o同台競技的模型。

這背後,趙成鋼的基礎架構工程是關鍵。

從衡水中學競賽班,到清華超算團隊,再到Google、輝達,最後到DeepSeek——他的每一步,都在"把硬體往極限操"。

七、郭達雅:"入學第三天,我就完成了博士畢業要求"

郭達雅,1994年生於廣東珠海,2023年中山大學博士畢業。

導師是印鑑教授,並與微軟亞洲研究院前副院長周明博士聯合培養。周明是中國NLP領域標誌性人物,能被他看中的學生,本身已說明實力。

但郭達雅最"驚人"的不是導師,而是成長速度。

初中時期成績並不優秀,後來意識到自學的重要性,開始猛追。高考後的暑假,他自學完成大學一年級基礎課程。

進入中山大學後,大四入選與微軟亞洲研究院的聯合培養項目。在微軟實習一年裡發表兩篇頂會論文。

他本人笑稱:

▌ "在剛入學的第三天,我就完成了中大博士生的畢業要求。"

微軟實習前半年迷茫無方向,每周讀多篇論文,半年累計百余篇。後半年方向明確,進展極快:每篇論文約1個月實驗、2-3周撰寫。

這是典型"慢熱型"人才:前半段厚積,後半段薄發。

2023年7月,他加入DeepSeek,專注程式碼智能和大語言模型推理。V2、V3、R1等一系列模型的核心作者名單裡,都有他的名字。

他的導師印鑑對他的期許是:"希望他能成為中大的'雷軍'。"

據業內消息,郭達雅近期已離開DeepSeek,成為字節跳動等多家頭部公司爭搶的對象。能同時精通程式碼智能與推理最佳化的人,全球範圍內都屈指可數。

他給中大學子的寄語裡說:

▌ "一個人的學習能力才是最重要的'技術'。"

從初中成績平平,到被導師寄予"中大雷軍"的期待,郭達雅的故事告訴我們:學習能力,比任何學歷都重要。

八、那些"不合規"的人:undefined

DeepSeek裡有一個細節,很少被提到。

梁文鋒說,團隊裡有人是物理專業畢業,靠自學電腦入職;還有維運工程師,入職前對大模型零經驗。

對比其他AI大廠的招聘要求:N年大模型經驗、名校學歷、大廠履歷……

還有吳信,DeepSeek後訓練團隊負責人,2019年北航博士畢業,在微軟亞洲研究院參與過小冰與必應百科項目。Google Scholar引用超12000次,影響力位居全球AI學者前列。但他加入DeepSeek前,工作年限並不長。

還有王炳宣,北大元培學院碩士畢業,來自山東煙台,畢業後直接加入DeepSeek,參與了從V1開始的一系列重要工作。

還有孫景翔,清華博士生,在DeepSeek實習期間與導師劉燁斌合作,完成3D生成相關開放原始碼專案。它不是語言模型,卻證明DeepSeek的技術佈局,比外界想像得更寬。

這些人有一個共同點:年輕、經驗不算最長、沒有華麗海歸光環。

但他們共同造出了讓全球AI行業刷屏的產品。

━━━━━━━━━━━━━━━━

梁文鋒的招人標準只有兩條

Jack Clark,OpenAI前政策主管、Anthropic聯合創始人,評價DeepSeek僱傭了"高深莫測的奇才"。

梁文鋒不同意。他說,我們要的不是"奇才",就兩條:

第一,熱愛。

第二,好奇心。

不看名校,不看大廠履歷,不看有沒有做過大模型。

他還說過一句話,我覺得最值得記下來:

▌ "每個人有自己獨特的成長經歷,都是自帶想法的,不需要push他。讓每個人有自由發揮的空間和試錯機會。創新往往都是自己產生的,不是刻意安排的,更不是教出來的。"

這句話,解釋了朱琪豪、代達勱、邵智宏、羅福莉、高華佐、趙成鋼、郭達雅這些人為什麼會選擇DeepSeek。

不是因為錢最多,不是因為光環最大。

是因為有一個地方,讓他們可以去做真正想做的事。

他們在DeepSeek的時候,沒有聚光燈。

V4發佈之後,也不會有。

但DeepSeek的每一個版本,都是他們用程式碼一行一行堆出來的。 (章魚爸爸AI商業和搜一搜實戰)