#姚順宇
Gemini 3.1 Pro 發佈!清華姚順宇站台宣傳,Karpathy:應用程式商店的時代結束了
剛在印度 AI 峰會上經歷了最尷尬的一幕,Google CEO Sundar Pichai 轉頭就在今天凌晨官宣了最新模型 Gemini 3.1 Pro。時機選得,相當精準(doge)。OpenAI CEO 和 Anthropic CEO 在合影時拒絕握手,而是高舉拳頭。雖然距離上周 Gemini 3 Deep Think 的更新沒幾天,但 3.1 Pro 的定位,Google 說得很清楚——專為那些「一個簡單答案遠遠不夠」的任務而設計,是解決複雜問題的基礎底座。按慣例,0.1 的版本號更新通常意味著小修小補,然而,在測試模型解決全新邏輯模式能力的 ARC-AGI-2 基準上,3.1 Pro 拿下 77.1%,是上代 3 Pro(31.1%)的兩倍多,同時壓過了 Anthropic 的 Opus 4.6(68.8%)和 OpenAI 的 GPT-5.2(52.9%)。其它方面,科學知識測試 GPQA Diamond 拿了 94.3%,智能體類基準 MCP Atlas 和 BrowseComp 分別拿下 69.2% 和 85.9%。程式設計能力方面,競爭性程式設計基準 LiveCodeBench Pro 的 Elo 評分達到 2887,超過 3 Pro 的 2439 和 GPT-5.2 的 2393。SWE-Bench Verified 上,3.1 Pro 拿了 80.6%,和 Opus 4.6 的 80.8% 基本打平。當然,3.1 Pro 也不是處處碾壓。多模態基準 MMMU Pro 上,上代 3 Pro 反而略勝(81.0% vs 80.5%);啟用工具支援的 Humanity's Last Exam 裡,Opus 4.6 以 53.1% 拿了第一。外界長期批評 Google 工具使用效率不如對手,這次還是沒能完全堵上嘴。第三方知名分析機構 Artificial Analysis 則給出了相當實在的評價。3.1 Pro 在他們的智能指數里排名第一,比 Opus 4.6 高 4 分;整個測試跑下來總計使用約 5700 萬 tokens,完成測試的成本不到 Opus 4.6 的一半。能打又省錢,這個組合還是很香的。Google DeepMind 首席科學家 Jeff Dean 也轉發了一個是用 3.1 Pro 模擬城市規劃、設計全新城市的應用,從零生成可互動的規劃介面 demo。Google 官方部落格則展示了幾個更日常的方向。程式碼動畫方面,3.1 Pro 可以直接根據文字提示生成動態 SVG,因為是純程式碼生成而非像素,任意縮放都不失真,檔案體積也遠小於傳統視訊。複雜系統方面,模型直接接入公開遙測資料流,搭出了一個即時追蹤國際空間站軌道的航天儀表盤。更有意思的是兩個創意類 demo。一個是 3D 椋鳥群模擬,不只是生成視覺程式碼,還支援用手勢操控鳥群,並配有隨鳥群動態變化的生成音樂;另一個是把《呼嘯山莊》的文學氛圍轉化成一個現代個人網站,模型沒有簡單概括情節,而是分析了小說的整體基調,設計出了貼合主人公氣質的介面風格。此外,網友們也貢獻了不少精彩的案例。有人讓 3.1 Pro 生成一個「鬼怪獵人穿越鬼屋」的動態 SVG 循環動畫,結果直接看呆,評價是「Google 這次是認真的」。還有網友認為讓它生成種子破土、根系延伸、莖稈冒出、葉片展開、直到長成完整大樹的互動動畫,每個生長階段的過渡都順滑自然,說這是見過最好的同類效果。去年從 Anthropic 轉投 Google DeepMind 的清華物理系特獎得主姚順宇也站台宣傳:「Gemini 不僅是一個優秀的模型,而且更好的模型正以不可阻擋的方式到來。」當然,這些 demo 加在一起說的是同一件事:模型能做的事,已經從單純的回答問題延伸到完成一整套專業或創意工作流了。價格方面,API 按分級付費,整體和上代 3 Pro 保持一致,但跟 Anthropic Opus 系列比還是相對便宜的。20 萬 tokens 以內,輸入 2 美元 / 每百萬 tokens,輸出 12 美元;超過 20 萬 tokens,輸入漲到 4 美元,輸出 18 美元。搜尋功能每月前 5000 次免費,之後每 1000 次查詢收費 14 美元。現在,開發者可以在 AI Studio、Gemini API、Gemini CLI、智能體開發平台 Google Antigravity 以及 Android Studio;企業使用者在 Vertex AI 和 Gemini Enterprise;普通使用者在 Gemini 應用和 NotebookLM 都能用,後者僅限 Pro 和 Ultra 訂閱。值得注意的是,3.1 Pro 目前只是預覽版,Google 大機率是要繼續打磨好智能體工作流再推正式版,向外界展示出一副還沒使全力的姿態。至於這種能力滲透到個人層面會發生什麼,這讓我聯想到了 OpenAI 聯創 Andrej Karpathy 剛剛發佈的推文:他想用 8 周時間把靜息心率從 50 降到 45,計畫是設定 Zone 2 有氧總時長目標,配合每周一次 HIIT。為了追蹤進展,他花了 1 小時用 vibe coding 做了一個專屬儀表盤。過程比想像中麻煩,Claude 需要對 Woodway 跑步機的雲 API 進行逆向工程,提取原始資料,處理篩選,搭出 Web 前端介面,中間還有公制英制單位混用、日曆日期對不上這些 bug 需要手動發現並要求修復。Karpathy 的感嘆很直接,兩年前這事得花 10 小時,現在 1 小時。但他更在意的是:這本來應該只需要 1 分鐘。他的判斷是,應用程式商店模式正在過時。300 行程式碼、LLM 幾秒生成的專屬工具,沒必要變成一個正經 App 讓你去搜尋下載。他同時也點了行業的問題:99% 的產品仍然沒有 AI 原生的 CLI,還在維護給人看的前端介面,而不是直接提供便於 Agent 呼叫的 API。Woodway 跑步機本質上就是個感測器,結果還得讓 LLM 去逆向工程它,完全沒必要。把 Jeff Dean 的城市規劃 demo 和 Karpathy 的跑步儀表盤放在一起看,其實是同一件事的兩面。當普通人花 1 小時就能為自己做一個高度定製的專屬工具,由 AI 原生感測器和執行器構成、LLM 負責編排、即興生成高度定製專屬應用的時代,就已經近在眼前了。 (APPSO)
Google Gemini最“小”的一次迭代,姚順宇為何高呼“不可阻擋”?
人們還在津津樂道OpenAI和Anthropic兩家公司的老闆拒絕牽手,以至於握拳高舉的滑稽畫面,另一邊,Google一個反手迭代了模型。而且這次迭代,頗像是狼披上了羊皮——從模型後綴的數字序號看,這是Google最“小”的一次迭代,之前都是從Gemini 2.0到Gemini 2.5這樣的迭代,這次從Gemini 3.0到Gemini 3.1Pro Preview。但是這“.1”的迭代,進步得卻不是一星半點。GoogleCEO皮查伊(Sundar Pichai)表示,新代模型非常擅長處理“超級複雜的任務”。例如將複雜概念可視化、將資料綜合成單一檢視或者將創意項目變為現實。姚順宇也專門在X上發帖為Gemini 3.1 Pro Preview振臂,盛讚:“Gemini不僅僅是一個好模型,更好的模型正在以不可阻擋之勢到來。”需要注意的是,大約一周前,Google推出了“專用推理模式”Gemini 3 Deep Think,專為科學、研究、工程等複雜、開放式問題設計。Demini 3 Deep Think是姚順宇從Anthropic跳槽到GoogleDeepMind之後參與的第一個項目。而如今的Gemini 3.1 Pro Preview和Gemini 3 Deep Think有千絲萬縷的關係,官方表示“直接建構在Gemini 3 Deep Think的經驗和技術之上”。相當於把Deep Think的核心推理提升技術“下放”到更廣泛可用的Pro模型中。01Gemini 3.1 Pro Preview能做什麼既然這次新代模型的突出能力在處理“超級複雜”的任務,那麼普通的對話放一邊,Google的官方博文中,重點給出了幾種示例秀肌肉。第一,通過簡單的提示詞,建立SVG動畫。這個功能前代也有,但是對比之下進步明顯。比如提示詞“生成一個SVG,描繪一隻變色龍靜靜地坐在樹枝上。讓變色龍的眼睛跟隨使用者的滑鼠游標在螢幕上移動。”Gemini 3 Pro生成的動畫背景是單一的白色,變色龍也看起來很呆板,甚至一側有兩隻眼睛。Gemini 3.1 Pro生成的動畫則有豐富的“深綠色叢林”背景,變色龍身體有黃色斑紋和圓點裝飾,眼睛立體,腿部姿勢自然彎曲。再比如提示詞“生成一個滑動切換開關的SVG,當滑鼠懸停在太陽圖示上時,將其變成發光的月亮,同時背景從明亮平滑漸變到黑暗。採用乾淨的扁平UI風格。”Gemini 3 Pro給出的動畫雖然完成了任務,圖示可以隨滑鼠變化,但是主圖示單一,是一個缺角的圓形圖案,用黃色代表白天,白色代表夜間。Gemini 3.1 Pro生成的動畫要複雜得多,白天是黃日白雲,夜間是月牙繁星,兩套圖示絲滑變換。總而言之,Gemini 3 Pro做的動畫,讓人想起多年前那個“學了三年動畫”的梗。而Gemini 3.1 Pro交付的SVG動畫,已經達到了可以直接使用的效果。第二,建構工程等級系統。Gemini 3.1 Pro已經可以根據一段高複雜度的自然語言指令,直接生成一個集3D渲染、即時太陽星曆計算、API非同步拉取和物理光效於一體的完整互動系統,而不是簡單頁面demo。Google給出的示例中,使用者給出文字指令,Gemini 3.1 Pro生成了建構一個高保真、可互動的3D國際空間站(ISS)軌道追蹤器。使用高解析度的Blue Marble紋理貼圖渲染一個精細的3D地球模型。第三,生成互動式創意系統。在另一個示例中,Google展示了Gemini 3.1 Pro編寫的一個複雜的3D椋鳥群舞(murmuration)模擬。它不僅生成視覺程式碼,還建構了一個沉浸式體驗,使用者可以通過手部追蹤操控鳥群,並聆聽根據鳥群運動變化的生成式配樂。對於研究人員和設計師而言,這提供了一種強有力的方式來原型化感官豐富的介面。第四,將文學主題轉化為可運行的程式碼。這個示例可能是普通人也最容易get到厲害之處的一個。當被要求為艾米莉·勃朗特(Emily Brontë)的《呼嘯山莊》(Wuthering Heights)打造一個現代個人作品集網站時,該模型並未簡單地總結文字內容,而是基於小說的氛圍與情緒進行推理,設計出一個簡潔、當代感十足的介面,建立出一個捕捉主人公精神核心的網站。抽象推理,這種能力的含金量不用多說。02到底有多強?新代模型免不了過一下刷榜這一步。而“.1”的升級,獲得了動輒倍數躍升的成績。根據Google官方博文放出的測試結果,在ARC-AGI-2基準測試中,3.1 Pro的驗證得分達到了77.1%。比3 Pro的推理性能提升了一倍以上。這也符合3.1 Pro的示例,因為這個測試評估的是模型解決全新邏輯模式的能力。用人話說就是,抽象推理解謎的能力。此外,在GPQA Diamond(科學知識測試)中,3.1 Pro得分94.3%;智能體類基準MCP Atlas上,得分69.2%;真實網路瀏覽與資訊整合能力的基準BrowseComp上,得分85.9%。這些成績,均超過了Anthropic的Sonnet 4.6、Opus 4.6,以及OpenAI的GPT-5.2與GPT-5.3-Codex。GoogleGemini 3.1 Pro這次在ARC抽象推理和BrowseComp搜尋任務上顯著拉開差距,顯示出明顯的Agent傾向,而非單純知識模型。此外,專門做大模型基準測試與對比分析的第三方評測機構也發佈了相關測試結果,大讚Gemini 3.1 Pro在構成Artificial Analysis Intelligence Index的10項評測中領先6項,相較於Gemini 3 Pro Preview在多項能力上顯著提升,尤其是在推理與知識、程式碼能力以及降低幻覺方面進步最大。而且,Gemini 3.1 Pro Preview保持較高的token效率。運行完整Artificial Analysis Intelligence Index約需5700萬token(比Gemini 3 Pro Preview多100萬)。這一token使用量低於其他在最大推理模式下運行的前沿模型,如Opus 4.6(max)和GPT-5.2(xhigh)。結合更低的單token定價,Gemini 3.1 Pro Preview在前沿模型中具有成本優勢,運行完整Intelligence Index的成本不到Opus 4.6(max)的一半,不過仍約為領先開源模型GLM-5的兩倍。03能力翻倍價格不變Google官方API定價顯示,Gemini 3 Pro/3.1 Pro Preview的收費結構是按token計費的:小於200k tokens時,每百萬token輸入約2美元,輸出價格為4美元。大於200k tokens時,每百萬token輸入4美元,輸出18美元。在上下文快取方面,根據提示詞規模,每百萬 token 收取 0.20 至 0.40 美元,外加每小時每百萬 token 4.50 美元的儲存費。這個價格,整體上和Gemini自己的上一代3 Pro一致,但要是和 Anthropic Opus 系列比起來,還是相對便宜的。 Opus這類模型輸入/輸出單價能在$5/$25左右。尤其是結合當下它在模型能力上相當突出,這個價格更顯得極具競爭力。不要忘了,Google這次發佈的只是“預覽(Preview)”,Google很快就會推出正式版。而“.1”的迭代,Google也是在暗示其只是小秀肌肉。目前,開發者可以在AI Studio、Gemini API、Gemini CLI、智能體開發平台Google Antigravity以及Android Studio使用3.1 Pro;企業使用者則可以在Vertex AI和Gemini Enterprise使用;普通使用者在Gemini應用和NotebookLM都能用上,不過後者僅限Pro和Ultra訂閱使用者。各個社區裡已經有不少人迫不及待上手操作,真的就和Google的演示一樣,手搓了不少驚豔的玩意。有人用Gemini 3.1 Pro 生成了一個可互動的 3D 機械級汽車懸架系統模擬器,包含真實幾何結構、連桿約束與即時轉向和行程計算,相當於把機械工程建模、物理邏輯和3D可視化一次性寫成可運行工具,接近工程級原型能力。有人用3.1 Pro製作“捉鬼獵人走過一棟鬧鬼的房子”的循環動畫,驚呼“Gemini沒有開玩笑”。總之,Google這回是真憋了個大招。小小一個“.1”,卻把推理和程式碼能力拉得飛起,定價還這麼穩。社區裡滿溢的手搓demo的熱情,也證明了它的能力與實用性。AI圈越來越現實了。模型再強,終究得看帳單值不值。企業開始精打細算每個token的回報,開發者也得掂量掂量性價比。Google這一步,不僅是搶回王座,更是把競爭推向“誰更會過日子”的新階段。且看接下來,捏著拳頭的Anthropic和OpenAI,以及xAI、Meta、微軟等一眾競爭對手該如何應對吧。 (字母AI)
清華傳奇姚順宇立功!全新Gemini一夜血洗程式設計,全球僅7人能贏它
【新智元導讀】剛剛,GoogleGemini 3 Deep Think原地進化!在Codeforces比賽中拿下全球第七,擊敗了人類選手。短短三個月,全方位刷爆SOTA。猝不及防,GoogleDeepMind深夜又放大招了!今天,Gemini 3 Deep Think重磅升級,幾乎刷爆全領域的SOTA,標誌著AI推理能力進入了全新維度。離職Anthropic入職Google的華人學者姚順宇參與了Gemini 3 Deep Think這一次,在科學研究和硬核工程領域,Deep Think堪稱一個「最強大腦」。它可以將草圖渲染成一個高保真、實用的3D筆記型電腦支架圖,並直接將其列印出來。GoogleVP曬出這個副項目,最終的成品是這樣子的。新版Deep Think的實力究竟有多恐怖?在程式設計界,它刷出了3455 Elo的驚人分數,達到世界冠軍級的水準,衝入了Codeforces比賽人類TOP 10!也就是說,全球只有7人擊敗了Gemini 3 Deep Think,一年前,最強o3也僅拿下2727 Elo。在人類最後考試(HLE)上,Gemini 3 Deep Think刷新SOTA,拿下了48.4%的成績。甚至,它在一夜之間讓最難的ARC-AGI-2基準直接飽和,以84.6%新SOTA一騎絕塵。與Gemini 3 Pro相比,Deep Think實現了全方位反超,並將Claude Opus 4.6、GPT-5.2直接踩在了腳下。更令人震撼的是,Gemini 3 Deep Think的實戰表現。羅格斯大學數學家Lisa Carbone在研究時,讓它審查一篇高深的物理數學論文。結果,Deep Think竟發現了一個連人類同行評審,都遺漏的細微邏輯漏洞。Gemini 3 Deep Think這波史詩級進化,又讓某些人睡不著了。目前,Google AI Ultra訂閱使用者即可在Gemini中體驗新版Deep Think。同時,首次通過API向部分研究人員、工程師和企業開放。實力刷爆SOTA,奧賽金牌大滿貫去年,Deep Think專門版成功解決了推理領域最艱巨的任務,在數學和程式設計世界錦標賽中奪下金牌。就在昨天,GoogleDeepMind還做了一個預熱。背靠初代Deep Think的「AI數學家」Aletheia可以獨立撰寫論文,證明了「Erdős猜想」中多個難題。不僅如此,Deep Think直接推翻了十年猜想,一舉攻克18大研究瓶頸。而現在,迭代後的Deep Think已在多項高難度的基準測試中刷新SOTA:人類最後的考試(HLE):設定了新標竿,在不使用工具的情況下精準率達48.4%;ARC-AGI-2:達到了前所未有的84.6%,並獲得ARC獎項基金會的驗證;演算法競賽平台Codeforces:Elo評分達到了驚人的3455分;2025 IMO:達到金牌水平。除了數學和演算法競賽,Gemini 3 Deep Think現在在化學和物理等廣泛的科學領域也表現優異。在2025年國際物理奧林匹克和化學奧林匹克的筆試部分,新版Deep Think同樣具備了金牌實力。此外,它在高級理論物理方面也遊刃有餘,在CMT-Benchmark測試中取得了50.5%的成績。另外,Gemini 3 Deep Think在ARC-AGI-1上,直接頂到頭了。官方演示中,Gemini 3 Deep Think可以根據論文,為「時空循環視訊Transformer」架構建立一個可視化方案。Deep Think殺入科研,十倍加速除了頂尖的性能表現,Deep Think還突破了智能邊界,能夠解決科學、研究和工程領域的現代難題。它不僅能幫助科研人員解讀複雜資料,還能輔助工程師通過程式碼對物理系統建模。在早期測試中,許多科學家在科研工作流中,顯著提升了研究產出質量。在杜克大學,Wang Lab用Deep Think最佳化了複雜晶體生長的製造方法,以用於潛在的半導體材料發現。令人意想不到,Deep Think成功設計出了一種生長大於100 μm薄膜的配方,達到了以前方法難以實現的精確目標。Google平台與裝置部門的研發主管Anupam Pathak表示——我不是CAD設計師,但有了Deep Think,可以直接將草圖變成可3D列印的實物。它會分析繪圖,對複雜形狀進行建模,並生成3D列印所需的模型檔案,讓物理零部件建模加速十倍。只需傳送一張圖片、一個提示詞,它就能夠深入思考,便可以提供幾個之前自己從未設想過的全新設計方案。Deep Think將深厚的科學知識與實用的工程能力相結合,超越了抽象理論,真正開始推動實際應用。網友驚豔實測,物理模擬太強在實測中,Gemini 3 Deep Think展現出超強的物理模擬能力。它可以模擬光線追蹤,在瀏覽器中就可以實現。並且還可以在單個HTML檔案中,建構出一個完整的Three.js場景,渲染出博物館中古典油畫難以區分的全3D室內房間。Simon Willison用Gemini 3 Deep Think畫了一張鵜鶘騎自行車的SVG向量圖,效果非常驚豔。他表示,這是自己目前見過最棒的一版了。既然在處理那條基礎的「生成一張鵜鶘騎自行車的SVG」指令時表現得這麼出色,Simon決定加大難度,試個更有挑戰性的版本:生成一張加州褐鵜鶘騎自行車的SVG圖像。自行車必須要有輻條,車架形狀要精準。鵜鶘必須具備其標誌性的大喉囊,且要有清晰的羽毛細節。必須能清楚地看出鵜鶘正在蹬車。圖像需要展示加州褐鵜鶘完整的繁殖羽特徵。結果如下:這一次,Google讓AI真正滲透進了科研工作的「最後一公里」:審閱論文、工業設計、實驗最佳化,無所不包。當AI能夠揪出連人類審稿人都忽略的邏輯漏洞時,「輔助工具」這四個字顯然已經配不上它了。如今,壓力球拋回給了OpenAI。面對Google這記直擊痛點的「深思」回擊,奧特曼的下一張王牌,必須足夠震撼。 (新智元)
“強烈反對”美國AI公司反華言論,姚順宇宣佈跳槽!
據香港《南華早報》10月8日報導,一名人工智慧(AI)領域的中國學者宣佈從美國AI初創公司Anthropic離職,加入其競爭對手Google的DeepMind實驗室。他表示,Anthropic的“反華言論”是自己離職的重要原因之一。人工智慧(AI)領域學者姚順宇曾在清華大學學習根據姚順宇(Shunyu Yao)6日在個人部落格發佈的文章,他在大語言模型Claude的開發商Anthropic工作不到一年就離開。他說自己“強烈反對”該公司的“反華言論”。上個月,Anthropic公司宣佈將停止向“中國實體控股的公司”提供人工智慧服務,並在內部檔案中將中國列為“敵對國家”。對此,姚順宇在文中寫道:“需要說明的是,我相信Anthropic的大多數員工並不同意這種定性,但我認為,我已沒有辦法繼續留下來。”報導稱,公開資料顯示,姚順宇本科畢業於清華大學,後在史丹佛大學獲得理論與數學物理學博士學位,並曾在加州大學伯克利分校從事博士後研究。2024年10月,他加入Anthropic,參與研發Claude 3.7 Sonnet大語言模型,該模型已於今年2月發佈。姚順宇表示,他之所以選擇加入Anthropic是因為該公司被視為是“物理學背景的學者進入人工智慧研究領域的理想起點之一”。他寫道:“與物理學相比,人工智慧的發展速度快得驚人。回顧過去一年,我對已發生的變化感到震驚。”《南華早報》報導稱,近年來,包括OpenAI在內的多家美國AI公司對中國的負面言論增加,包括直接點名來自中國的競爭者DeepSeek公司。一名要求匿名的前員工透露,OpenAI內部部分來自中國等國的技術人員對公司的相關言論感到不安。相比之下,GoogleDeepMind首席執行官德米斯·哈薩比斯(Demis Hassabis)呼籲中美兩國在人工智慧安全等共同關切的領域加強合作。目前,姚順宇已跳槽加入GoogleDeepMind的大語言模型“雙子星”(Gemini)團隊,負責參與開發該公司的基礎模型。針對Anthropic公司針對中國企業的相關做法,中國外交部發言人郭嘉昆在9月5日表示不瞭解具體情況,並強調中方一貫反對將科技和經貿問題政治化、工具化、武器化,這一做法不利於任何一方。 (環球時報)
清華物理傳奇Yao Shunyu,跳槽GoogleDeepMind!
【新智元導讀】清華物理系傳奇特獎得主姚順宇離職Anthropic,正式加盟GoogleDeepMind!他在Anthropic僅工作一年,離職原因中約40%與公司「價值觀」不合。他指出現階段AI研究如同17世紀熱力學探索:雖缺乏完整理論,卻充滿規律發現的契機。清華物理系傳奇特獎得主Yao Shunyu(姚順宇),官宣離職Anthropic,正式加盟GoogleDeepMind!從領英的履歷來看,他在2024畢業到加州伯克利做了幾個月博士後,2024年10月加入了Anthropic。滿打滿算,姚順宇在Anthropic只待了一年。此次離職,姚順宇在他的個人部落格(文末有全文)聲明了兩點原因,其中幾乎一半(40%)原因是因為Anthropic「價值觀」問題!眾所周知,Anthropic此前在2025年9月4日的博文裡把中國列為「adversarial nations」。此舉激起了AI領域國內外眾多反對之聲!姚順宇在部落格中也透露,即使Anthropic內部,大多數人也不同意這種說法。他認為這是離職的Anthropic的主要原因之一,其他原因涉及企業內部資訊,無法透露。順便一提,現在搞大模型的Yao Shunyu有兩位。一位就是今天的主角,本科就讀於清華大學物理系,研究方向為理論物理(包括但不限於理論凝聚態物理、理論高能物理和混沌系統)。另一位就是OpenAI的Yao Shunyu(姚順雨),目前最新動向還未「解禁」。順便說一句,這兩位大神名字都太硬了,Yao Shunyu(拼音同漢字,堯舜禹),也只有這兩位大神能壓得住了~姚順宇在最新的領英中同時更新了一篇部落格,詳細總結了這一年在AI領域的經歷。我的AI研究元年——從物理學到AI在我離開伯克利的博士後崗位、加入Anthropic 不久後,我曾計畫寫一篇短文,主要是為自己留下一份筆記,記錄我離開物理學、投身AI研究的心路歷程。然而,由於在Anthropic的工作異常緊張,我一直沒能抽出時間動筆。直到9月19日,我從Anthropic辭職,在加入GoogleDeepMind前有了一周的休息時間。我為什麼離開物理學,又為什麼選擇AI?主要原因在於,我想尋找一個對年輕人機會更多的方向。理論物理是一個絕佳的思維訓練領域:它充滿智力挑戰、博大精深,並需要運用來自數學、電腦科學(如複雜性理論)以及物理學本身等多個領域的知識。然而,這個領域多年來已缺乏新的實驗資料支撐。一個沒有實驗指引的領域,會面臨很多方面的問題。比如,我們很難客觀地評判一項理論工作的價值,也很難僅通過系統性的實驗來消除分歧、澄清困惑。於是,我將選擇範圍縮小到了AI和QC(Quantum Computing,量子計算)。儘管我相信QC在未來會變得至關重要,但我的感覺是,目前其瓶頸主要在於實驗平台。因此,我選擇了AI。有趣的是,我發現AI研究與物理學研究有如下相似之處。作為物理學家,從事AI研究是種怎樣的體驗?在某種意義上,這很像17世紀的熱力學研究。那時,人們甚至不知道「熱」究竟是什麼,事實上,當時學界依然信奉「燃素說」。但這並未阻止人們進行科學的實驗探索。例如,波義耳定律(Boyle's law)揭示了在溫度恆定時,壓力與體積之間的關係。正是通過這樣系統性地設計實驗,人們才總結出了足夠多的「定律」,並在此基礎上指導了熱機的發明與研究,最終改變了世界。在我粗淺看來,如今的大規模AI模型領域與之類似。一方面,我們仍未擁有可靠的理論或模型來描述大型神經網路的行為。另一方面,系統性的研究已開始為我們揭示許多寶貴的認知,例如Scaling Law。而進行這類系統性的研究,正成為在AI領域大規模取得持續進展的關鍵要素。為什麼選擇Anthropic,又為什麼離開?儘管我已經離開,但我依然認為Anthropic是物理學家(可能也包括其他STEM背景的博士)開啟AI研究生涯的最好去處之一。我於2024年10月1日加入Anthropic,當時我們開始為後來發佈的Claude 3.7 Sonnet進行研究。作為一名從事了多年物理研究的人,能夠親眼看到自己的研究成果迅速對前沿模型的能力產生影響,並見證人們與AI的互動方式隨著新能力的湧現而改變,這是一種無與倫比的激動人心的體驗。然而,我最終決定離開,主要出於兩個原因:1. 約40%的原因是:我強烈反對Anthropic發表的反華言論。尤其是在最近的公開聲明中,中國被稱為「敵對國家」。需要澄清的是,我相信Anthropic的大多數人並不同意這種說法,但我認為自己已無法再待下去。2. 剩下的60%則更為複雜。由於其中大部分涉及Anthropic的內部資訊,因此不便透露。是時候翻開新篇章了!與物理學相比,AI的發展速度快得驚人。回首過去一年,發生的一切都讓我感到驚訝。我非常榮幸能見證Claude從3.7迭代到4.5的過程,我個人也收穫良多。但,是時候繼續前行了。從個人發展的角度看,Anthropic是我第一份,也是唯一一份AI工作。因此,我不希望自己的經驗和認知被某一個實驗室所侷限。(尤其是在如今,核心研究團隊已不再公開發表論文的情況下。)所以Anthropic,與你共事很棒,但沒有你我會更好。我已於9月29日(2025年)加入GoogleDeepMind。 (新智元)