伯克利系主任出走Anthropic:一個理論演算法大牛背後,藏著Anthropic怎樣的野心?

“Anthropic在招募能證明什麼可能、什麼不可能的人。”

7月1日,Jelani Nelson在X上發了一條推文。

沒有長篇大論,沒有感性的告別辭,只有一句簡短的聲明:他將暫離加州大學伯克利分校,加入Anthropic。隨即引發了大量關注。

Nelson不是普通教授,他是伯克利EECS(電子工程與電腦科學系)的系主任,手握電腦科學領域最難拿到的終身教職之一,在學術界待了十五年,從MIT博士一路走到全美頂尖CS系的一把手。

YC總裁Garry Tan看完消息只說了一句:Anthropic現在吸人可太猛了。

但如果你把視線從Nelson一個人身上挪開,往後退兩步看全域,會發現一個更值得講的故事:過去兩周,Anthropic完成了一次教科書級的人才虹吸:諾貝爾化學獎得主John Jumper從Google DeepMind跳了過來,DeepMind兩位高級研究員Jonas Adler和Alexander Pritzel同期加入,Jelani Nelson緊隨其後。

兩周之內,一位諾獎得主、兩位DeepMind核心研究員、一位在任系主任,全部湧向同一家公司。

這不是“又一位教授加入Anthropic”的故事。這是Anthropic正在重塑AI行業人才格局的截面——它不只是在搶人,它在搭一種過去從未存在過的研究成員。

01 Nelson是誰:把演算法課講出2100萬播放量的人

很多人認識Nelson,是從哈佛YouTube頻道那節《Advanced Algorithms》課開始的。

九十分鐘,黑板手書,一路猛推公式。沒有花哨的幻燈片,沒有段子,只有粉筆和數學。這條視訊至今播放量超過2100 萬,以演算法公開課來論,幾乎是獨一檔的存在。

1984年出生的Nelson,走的是一條非常“古典”的理論電腦科學路線。他在MIT一口氣讀完了本科、碩士和博士,本科同時拿電腦科學和數學兩個學位。博士階段,他開始死磕一個看起來很抽象的問題:當資料量大到存不下、只能掃一遍、還在不斷變化的時候,怎麼用最小的記憶體保留足夠多的資訊?

他的博士論文《Sketching and Streaming High-Dimensional Vectors》拿了MIT的傑出博士論文獎。這個方向——流式演算法(Streaming Algorithms)和降維(Dimensionality Reduction)——後來貫穿了他整個學術生涯。

博士畢業後,Nelson在伯克利、普林斯頓和普林斯頓高等研究院做博士後。2013年加入哈佛,2019年跳到伯克利EECS,2024年7月出任電腦科學分部主任,2025年7月升任系主任。從助理教授到系主任,用了十二年。

他的學術貢獻集中在三個方向:流式演算法、降維理論、隨機演算法。其中最具標誌性的是兩件事:

第一,他和Kasper Green Larsen合作,證明了Johnson-Lindenstrauss引理的最優性。簡單說,這個引理是高維資料降維的數學基石,Nelson的工作確立了它的理論下界:沒有任何演算法能比這個極限做得更好。

第二,他和Daniel Kane、David Woodruff合作,給出了count-distinct問題(在資料流中數有多少個不同元素)的漸近最優演算法,用O(ε² + log d)的空間就能搞定。

這些成果看起來離AI很遠,但實際上——這正是Anthropic要他的原因。

02 流式演算法和大模型,為什麼是同一件事?

表面上看,Nelson研究的是“怎麼用極小記憶體處理海量資料流”,而大模型公司關心的是“怎麼用有限算力訓練和推理更大的模型”。兩件事的數學結構高度同構。

舉幾個具體場景:

KV Cache壓縮。 當上下文窗口拉到百萬token等級時,一個8B參數模型的KV Cache就要吃掉超過137GB視訊記憶體,遠超單張80GB GPU的容量。那些狀態該留、那些該丟、怎麼壓縮——這本質上就是一個流式演算法問題。Nelson的流式演算法下界理論,直接回答了“KV Cache壓縮的數學極限在那裡”。

向量資料庫與RAG。 檢索增強生成依賴高維向量的近似最近鄰搜尋。Nelson證明的JL引理最優性,確立了嵌入向量可被壓縮到的理論最小維度。工程上可以無限逼近這個下界,但數學上不可能突破它。

資料去重與頻率估計。 大模型預訓練要在海量資料裡去重、估計分佈、篩選高品質樣本,這正是count-distinct和頻率估計問題的直接應用。Nelson給出的最優空間界,為這些工程操作提供了“可證明的效率天花板”。

換句話說,Nelson的工作劃定了演算法效率的“絕對前沿”:在給定硬體約束下,模型能算什麼、不能算什麼,那些最佳化還有空間、那些已經到了數學極限——這些都是他的理論工具能回答的問題。

Anthropic發言人確認,Nelson加入的是預訓練團隊,該團隊目前聚焦於Claude核心知識和能力的研究。一個搞理論電腦的數學家,去了最需要算力效率最佳化的AI前沿,邏輯上是說得通的。

03 兩周人才地震:Anthropic在搭什麼成員?

把Nelson的加盟放回時間線裡,就會更清楚Anthropic在做什麼。

過去兩個月,Anthropic完成了一次結構性的人才佈局:

仔細看這個名單的結構:實驗工程(Karpathy)+ 生物計算(Jumper)+ 程式設計AI(Adler)+ 預訓練(Pritzel)+ 理論基礎(Nelson)。

這不是在“搶人”,這是在“搭成員”。

過去幾年AI公司的競爭邏輯是:誰能訓練更大的模型,誰就贏。所以大家搶的是工程師和實驗科學家。但Anthropic這波操作的訊號很不一樣——它在招募能證明什麼可能、什麼不可能的人

Nelson的價值就在這裡。當所有公司都在用經驗主義的方式“撞牆”——試更大的batch size、試更長的上下文、試更多的資料——Nelson能做的事是:在花掉幾百萬美元算力之前,先用數學告訴你那條路存在不可踰越的壁壘,那條路還有理論空間。

這是從“工程競爭”向“理論競爭”的轉向。Anthropic在賭:下一輪AI的突破,不取決於誰算力更多,而取決於誰先理解了模型的數學極限。

值得注意的是,Nelson去Anthropic的方式是“留職停薪”(Leave of Absence),不是辭職。他的伯克利教職還在,理論上隨時可以回去。這種模式在美國學術界已經越來越常見——教授保留終身教職,同時去企業干幾年,兩頭都不耽誤。

但對大學來說,這把雙刃劍的另一面是:教授人雖然還在編制裡,但研究生可能跟著轉向工業項目,研究方向可能在學術約束下無法延續,幾年後教授回不回得來,也是個問號。

04 “人才旋轉門”:美國學術向產業流動的制度裝置

Nelson的出走不是孤例,而是一種制度性現象。

在美國AI行業,高校教授去企業兼職或全職,有一條成熟的“旋轉門”通道。卡內基梅隆大學(CMU)與當地企業的人才流動率高達37%——這意味著超過三分之一的CMU AI研究者會在學術和產業之間來回切換。

這種旋轉門的底層邏輯是:企業能提供大學給不了的東西——算力、資料、真實場景、以及遠超教職薪酬的報酬。而大學能提供企業給不了的東西——學術自由、長期研究空間、研究生資源、社會聲望。兩邊互相需要,人才在門裡門外轉,知識也跟著轉。

Nelson自己就是旋轉門的典型產物。2021年到今年6月,他一邊在伯克利當教授,一邊在Google當研究科學家,兩肩挑了四年。現在從Google換到Anthropic,不過是旋轉門又轉了一圈。

但這一圈轉得比以前猛多了。

根據SignalFire 2025年人才報告,Google DeepMind工程師離職後選擇去Anthropic的機率,是反向流動的近11倍。Anthropic在2026年6月秘密提交了IPO檔案,估值約9650億美元,年化營收約470億。上市前的股權價值,再加上Anthropic能提供的算力規模和資料量級,每一項都讓這些教授難以拒絕。

所以旋轉門還在轉,只是轉速加快了,方向也更偏向產業一側。

這對伯克利的影響是實實在在的。Jelani Nelson不只是普通教授——他是整個EECS系的系主任。他的離開意味著這所全美AI研究重鎮,在理論演算法方向暫時失去了最核心的掌舵人。這不像普通的人才流失,這是一整個研究方向暫時的群龍無首。

AI人才正在以前所未有的速度從學術機構向產業公司聚集。Anthropic用兆美元估值、無限算力和上市前的股權,把學術向產業的人才流動轉速推到了歷史新高。這套“旋轉門”機制,讓知識在高校和企業之間持續循環,而Anthropic正在成為循環的終點站之一。 (雷峰網)