一夜200萬閱讀,OpenAI神同步!這項測評框架讓全球頂尖LLM全翻車

這篇中國團隊領銜發佈的論文,已經在外網刷屏了,僅一夜閱讀就達到了200萬!這位MIT博士回國創業後組建的團隊,拉來全球24所頂級機構,給AI如何助力科學發現來了一劑猛藥。

最近,一篇由中國團隊領銜全球24所TOP高校機構發佈,用於評測LLMs for Science能力高低的論文,在外網炸了!

當晚,Keras (最高效易用的深度學習框架之一)締造者François Chollet轉發論文連結,並喊出:「我們迫切需要新思路來推動人工智慧走向科學創新。」

AI領域KOL Alex Prompter分享論文核心摘要後,NBA獨行俠隊老闆Mark Cuban跟帖轉發,矽谷投資人、歐洲家族辦公室、體育媒體同時湧進評論區。

僅一夜,累計閱讀量逼近200萬。

值得一提的是,同一時間窗裡,OpenAI也發佈了對於AI在科學發現領域能力評測的論文《FrontierScience: Evaluating Al's Ability to Perform Scientific Research Tasks》概述,指出現有評測標準在AI for Science領域失靈。

神同步OpenAI、海外討論出圈,究竟是什麼樣的一份工作成果,攪動了全球AI輿論場?

AI距離可以助力科學發現,還有多遠?

前段時間,美國推出「創世紀計畫」,號稱要調動「自阿波羅計畫以來最大規模的聯邦科研資源」,目標是在十年內將美國科研的生產力和影響力翻倍。

但在人工智慧估值泡沫隱現、能耗與產出比飽受質疑的當下,一面是資本的狂歡,另一面卻是AI能力困於「文生圖」等表層應用的尷尬;一面是各類大語言模型頻繁霸榜GPQA、MMMU等題庫式Benchmark的層出不窮,另一面卻是現有LLMs還無法精準解析簡單核磁圖譜的尷尬現狀。

人們不禁要問:能在題庫拿高分,就能助力科學發現嗎?現在的模型距離科學發現還有多遠?究竟什麼樣的AI模型可以勝任,拓寬人類的生存邊界?這些討論,在中美AI競爭白熱化的當下變得愈發濃烈。

在此背景下,由中國AI for Science領域的初創企業「深度原理Deep Principle」領銜麻省理工學院、哈佛、普林斯頓、史丹佛、劍橋、牛津等全球24所科研院校共同發佈的《Evaluating LLMs in Scientific Discovery》論文,正式回答該時代之問。

論文推出了LLMs for Science首套評測體系SDE(Scientific Discovery Evaluation),從科學問題到研究項目,對GPT-5、Claude-4.5、DeepSeek-R1、Grok-4等全球主流大語言模型在生物、化學、材料、物理領域的科學研究與發現能力完成摸底。

同以往評測體系不同的是,SDE對模型能力的考量,從簡單的問答式,引向了具體的「假設->實驗->分析」實驗場景。

研究發現,GPT-5、Claude-4.5、DeepSeek-R1、Grok-4 平均精準率 50–70%,遠低於它們在GPQA、MMMU等題庫上的80–90%;在86道「SDE-Hard」難題中,最高分不足12%,共同暴露出多步推理、不確定性量化和實驗-理論閉環的短板。

更值得警惕的是,模型規模與推理能力的提升已呈現明顯的 「邊際效益遞減」。

GPT-5相較於前一代模型,參數規模和推理算力顯著增加,但在SDE基準的四大科學領域中,平均精準率僅提升3%-5%,部分場景(如NMR結構解析)甚至出現性能下滑。

換句話說,當前大語言模型在推動科學發現方面的表現,還不如一個普通的本科生。

能領銜24所頂尖科研院校發佈背後團隊是誰?

《Evaluating LLMs in Scientific Discovery》論文通訊作者段辰儒,是「深度原理Deep Principle」創始人兼CTO。

早在2021年,在MIT攻讀化學博士期間,他就已在圖靈獎得主Yoshua Bengio的支援下,發起了AI for Science社區的建立,並在NeurIPS上舉辦AI for Science workshop。

2024年初,他與MIT物理化學博士賈皓鈞回國,共同創立「深度原理Deep Principle」。賈皓鈞任CEO,段辰儒任CTO,兩人雖為95後,但已在全球AI for Science創業領域小有名氣。

創業一年半以來,其已獲得線性資本、高瓴創投、螞蟻集團等多家知名機構的投資,且與晶泰科技、深勢科技等AI for Science領域的知名企業建立戰略合作關係。

「深度原理Deep Principle」從創立之初,就帶著全球AI for Science頭部研究者們的期待。目前「深度原理Deep Principle」已深入全球材料研發中的第一線,將生成式人工智慧同量子化學結合起來,致力於推動材料發現等領域進入新紀元。

在過去的一年中,他們在Nature大子刊和JACS等頂級期刊上不斷扔出重磅成果,宣告著他們的技術領先和開放交流的「95後創業公司」心態。

從開拓擴散生成模型(Diffusion Models)在化學反應的生成,證明「不止要生成材料,更需要生成材料的合成路徑」,到機器學習勢(Machine Learning Potentials, MLPs)和擴散生成模型的直接對比,證明傳統的機器學習勢不是「萬能」的,再到現在組織各大頂級學者和高校推出SDE,證明傳統一問一答的Benchmark不能帶領我們走向科學超級智能,精準切入AI for Science領域的核心衝突。

但同時,對於所有的AI4S公司而言,在商業真金白銀的檢驗中,AI能否真正解決新產品研發問題、滿足客戶期待,是日復一日必須面對的拷問。

隨著與行業頭部客戶的商業化合作落地,「深度原理Deep Principle」的資料庫中已經匯聚了來源於客戶與自己實驗室、大量來自第一線的真實工業研發場景資料和模型應用經驗。

學術圈的深耕與在AI for Science商業化第一線的積累,讓「深度原理Deep Principle」在提出要建構一把新尺子評測LLMs for Science能力時,一呼百應,搖來了23家全球TOP科學發現機構的50餘位科學家,成立了制定SDE的「夢之隊」。

這其中,不乏活躍在LLM領域的大牛學者們,比如:

  • 孫歡(Huan Sun),MMMU發起人,俄亥俄州立教授
  • 杜沅豈(Yuanqi Du),康奈爾博士,AI4Science 社區「營運大管家」
  • 王夢迪,普林斯頓最年輕教授,AI+Bio Safety先驅者
  • Philippe Schwaller,IBM RXN之父,EPFL教授

而「深度原理Deep Principle」前期積累的科學發現場景,成為了後來SDE評測體系的前身。

在經歷近9個月的跨高校跨學科跨時區的協作後,《Evaluating LLMs in Scientific Discovery》論文正式發佈,通訊單位赫然寫著:深度原理,杭州,中國。

自此,匯聚著全球頂級科學發現機構的集體智慧,來自中國的創業團隊「深度原理Deep Principle」,和大洋彼岸的OpenAI,同時站在了向AI for Science——這一人類通往終極AGI頂峰攀登的起跑線。

或許千百年後,當人類回望AGI時代,在21世紀的四分之一結束的當口,這場由中美團隊共同呼應的,對於AI for Science的嚴肅討論,把LLMs在各類問答式榜單上的內卷,向真正科學發現的星辰大海推近了一步。

「深度原理Deep Principle」與20多所機構的50多位合作者的研究證明了,目前LLM的發展路徑並不能「順便攻克」科學發現。

這條通往科學超級智能之路,需要更多有識之士共同並肩而行。 (新智元)