【新智元導讀】都說AI搶人搶的都是工程大神,這回Anthropic偏請來最冷門的理論學者。
7月1日下午,一條推文在矽谷學術圈炸開。
UC伯克利EECS電腦科學部的掌門人,理論電腦科學教授Jelani Nelson把辦公室鑰匙暫時放下,去了Anthropic。
他在X上發帖:
我已加入Anthropic,並從大學休假。很高興與許多有才華、有使命感的人一起,研究我們這個時代的決定性技術。
短短兩句話,資訊量拉滿:人已到崗,教職保留,方式是休假。至於職務、團隊、方向,一概沒提。
NelsonX上的簡介已同步更新:Anthropic技術研究員(Member of Technical Staff),和5月剛加盟的Karpathy成了同事。
執掌著全美第一梯隊電腦科學部的人,說走就走。
AI公司搶人搶了三年,從工程搶到產品,從對齊搶到多模態。
這一次,手伸進了理論電腦科學的塔尖。
從MIT一路打到伯克利 把「數數」做到世界最優的人
Nelson的履歷,幾乎是理論電腦科學的標準滿配。
他初中自學HTML搭網站,高中學會程式設計,大學期間靠競賽證明自己能最快寫出沒有bug的程式碼。
本碩博都在MIT一路讀完,2011年拿到電腦科學博士學位,方向是海量資料的高效演算法。
他形容這門學科對自己的吸引力「近乎宗教」:既是人類思維最核心的基礎問題,又和真實世界息息相關。
博士畢業後,他先後輾轉伯克利、普林斯頓大學和普林斯頓高等研究院(IAS)做博士後,2013年加入哈佛任教。
2019年,Nelson告別哈佛,西遷UC Berkeley。
哈佛校報直接把惋惜寫進了標題:他的離開,給電腦繫留下了一個巨大空白(Big Hole)。
到了伯克利的他如魚得水,一頭紮進西蒙斯理論計算研究所(Simons Institute)所在的理論圈。
2024年秋天,Nelson接過EECS電腦科學部主任(Chair)的位子,執掌這個全球最頂尖的CS學部之一。
他的主攻方向是流式演算法(streaming algorithms)、降維(dimensionality reduction)、隨機演算法(randomized algorithms)。
翻譯成人話,Nelson琢磨的是同一類事:資料大到裝不下的時候,怎麼算。
幾年前,他盯上了一個有點像小學題的問題:讓電腦學會數數。
這看上去簡單,但當數字大到手機和伺服器都記不住「前面數到那了」,儲存和速度的代價就會失控。
他的團隊給出了一個數學公式,證明任何解決這個問題的演算法,至少要用掉多少記憶體。
工程師讓程序跑得更快,Nelson證明程序最快只能跑多快。這就是理論電腦科學家的活:給計算定物理下限。
Nelson在學術圈的貢獻,遠不止「數數」這一筆。
一是和Kasper Green Larsen一起,證明了約翰遜-林登斯特勞斯引理(Johnson-Lindenstrauss lemma)的最優性。
這是降維領域的一塊基石,理論下界被他釘死了。此前,他還與Daniel Kane提出了稀疏JL變換。
二是和Kane、David Woodruff一起,給出了count-distinct問題(一條資料流裡究竟有多少個不同元素)的漸近最優演算法。
在他看來,連「數數」這種人人都會的事,背後都藏著理論最優解。
這些工作為他帶來了一長串榮譽:斯隆研究獎、美國總統青年科學家與工程師獎(PECASE),拿了個遍。
學術之外,Nelson還有另一面。
2011年,還在MIT讀博的他跑去衣索比亞,創辦了免費程式設計夏令營AddisCoder。
十四年下來,近700名學員從這裡走出,一批人進了哈佛、MIT、史丹佛讀博。
後來牙買加雷鬼巨星Chronixx主動找上門捐錢,又催生了姊妹項目JamCoders。
Nelson還是加州數學課程改革最激烈的反對者之一,理由很簡單:他的祖父出身貧寒,靠優質的公共教育成了一名醫生,改變了整個家族的軌跡。
因此,在他看來,把嚴格的數學課從公立學校抽走,等於抽走下一代人翻身的梯子。
這份「學術之外」的事業,後來也為他贏得了ACM Lawler人道主義貢獻獎。
Anthropic要一位理論學者幹什麼
一個做流式演算法的教授,和大模型公司有什麼關係?
Nelson的研究方向(流式演算法、降維、隨機演算法),研究的其實是同一件事:怎麼用最少的記憶體、最少的計算,處理最大的資料。
對應到大模型這邊,恰好是最燒錢的那幾件事:訓練效率、資料壓縮、計算複雜度。
拿前面提到的那條由他補完最後一塊拼圖的JL引理來說,它回答的問題樸素到近乎常識:高維資料最多能壓到多小,還不失真。
今天滿世界跑的向量檢索與嵌入壓縮,底層直覺都建立在這條引理上。
訓練一個前沿模型,本質上就是在天文數字的資料流上做壓縮與篩選;推理這一側,視訊記憶體、快取、上下文窗口,樁樁件件都在跟記憶體和複雜度死磕。
而這正是Nelson鑽了二十年的問題域。
當模型規模撞上算力和資料的天花板,「省」的價值開始超過「堆」,AI競爭的重心,正在從「誰的模型更強」,轉向「誰的底層演算法更省」。
而流式與隨機演算法這套工具箱,與「用有限資源逼近最優解」這個問題天然契合,這恰巧擊中了今天所有前沿實驗室的共同焦慮。
從這個角度看,Anthropic簽下一位理論電腦科學家,更像是補課:在模型、工程、對齊之外,將理論地基再打深一層。
頂級教授進AI公司 現在流行不辭職
關於入職Anthropic,Nelson的原話是「taken leave from the university」,從大學休假(leave of absence)。
休假與辭職是兩回事:教職保留,隨時可以回去。
這是美國學界的成熟制度,教授帶薪或停薪離校一段時間,去業界、去創業、去做任何事。
這條路早有人驗證過。
2017年,李飛飛就是利用學術假期出任Google副總裁兼雲AI首席科學家,兩年後回歸史丹佛。
如今,學界和產業之間的旋轉門越轉越快,「休假入職」正在成為一種主流模式。
對學者來說,這是一張保底的船票,何況產業界還有學界拿不到的算力、資料和真實問題。
對AI公司,這是一條低摩擦的引才通道。更划算的是,簽下一位學者,簽的從來不只是一個人,還有他身後的學生、同行和整張學術網路。
「拿到終身教職(tenure)、幹到退休」這條傳統單行道,正在被「半隻腳進產業」的休假模式取代。
對大學來說,這個口子一旦開了,就很難關上。
搶完同行 AI巨頭開始搶大學
剛剛過去的6月,AI人才市場瘋狂到什麼程度?
6月18日,Transformer論文作者、Gemini共同負責人Noam Shazeer宣佈離開Google,去OpenAI。
要知道,Google2024年才用一筆27億美元的交易把他從Character.AI買回來,結果不到兩年,人又走了。
6月19日,靠AlphaFold拿下2024年諾貝爾化學獎的John Jumper官宣:離開效力近九年的DeepMind,加入Anthropic。
受DeepMind高層競業條款約束,他可能要到明年才能正式到崗。
6月24日,Bloomberg爆出:Gemini核心研究員Jonas Adler和Alexander Pritzel也將跟進加入Anthropic。兩人都是Jumper蛋白質結構工作的合作者。
Alphabet股價應聲下跌,投資者開始公開質疑Google還留不留得住人。
到這裡,戰場還在AI公司之間。很快,戰火燒到了大學。
6月25日,在伯克利任教19年的AI安全學者Dawn Song宣佈加入Meta超級智能實驗室,出任AI研究副總裁。
7月1日,Nelson。
短短兩周:一位諾獎得主、兩位Gemini核心研究員、一位資深教授,再加上一位現任系主任。
其中Jumper、Adler、Pritzel、Nelson四人,全部流向Anthropic。
這波瘋狂的人才流動背景,也不難猜。
OpenAI已經秘密遞交IPO檔案,Anthropic同樣被多個信源指向臨近上市。對頂級研究者來說,此刻入職意味著上市前的股權,這是大廠給不出的價碼。
而伯克利在這輪遷徙裡的角色格外惹眼。
Simons理論計算研究所坐落於此,全美第一梯隊的EECS坐落於此——理論、機器學習系統、AI安全三條線,源源不斷地向Anthropic、OpenAI、DeepMind輸血。
AI巨頭們上一輪搶的是會訓模型的人,這一輪搶的是知道模型極限在那的人。
當頂級學者湧入,AI公司事實上正在長成一套「第二研究機構體系」。
如果最好的理論家都在公司「休假」,大學還剩下什麼?沒人知道。
唯一確定的是,AI競賽的爭奪焦點,已經從模型能力下探到了演算法理論的地基層。 (新智元)
