#論文 | 熱門關鍵字 | 鉅亨號 | Anue鉅亨

#論文

史丹佛剛發報告：中國AI論文數量全球第一！老師該怎麼看？

史丹佛剛發報告：中國AI論文數量全球第一！老師該怎麼看？史丹佛AI指數報告2026發佈，透露了一個讓老師焦慮的訊號4月13日，史丹佛大學發佈了《2026年人工智慧指數報告》。報告一出，朋友圈刷屏了——"中國AI論文數量全球第一""論文引用次數超越美國""中國AI專利數量全球領先"看到這些資料，很多老師慌了：AI都這麼強了，老師還有什麼用？今天我們不販賣焦慮，只說乾貨。點點關注一、報告到底說了什麼？這份報告是史丹佛連續第九年發佈的AI行業權威報告，資料來源覆蓋全球。先看幾個關鍵結論：中國領先的部分AI論文發表數量：中國全球第一，且已連續多年保持領先論文被引頻次：中國超越美國，說明質量也在追趕AI專利數量：中國全球第一，佔全球總量超過40%工業機器人安裝量：中國連續多年全球第一美國依然領先的部分頂級AI模型數量：美國依然領先，OpenAI、Google等巨頭仍在前沿高影響力專利：美國的專利質量更高，影響力更大AI私人投資：美國依然是全球AI投資最活躍的國家簡單說：規模上中國已超，原創性上美國仍強。這是一個"大而不強"到"又大又強"的過渡階段。▲ 圖：中美AI實力對比，綠色代表中國領先指標，藍色代表美國領先指標二、這和老師有什麼關係？很多老師說："這是科技圈的事，跟我有什麼關係？"錯了。大有關係。關係1：AI教育政策正在加速落地中國AI論文和專利的爆發，背後是國家戰略的強力推動。"十五五"規劃中，AI教育已被列為重點發展方向。多地已將AI課程納入中小學必修課。這意味著——未來3-5年，"會用AI"將成為老師的基本功，就像會用PPT一樣。關係2：最近一個月，AI工具爆發式更新就在這幾天，全球AI領域大事不斷：阿里開源Qwen3.6：程式設計能力大幅提升，中文理解更強Claude Opus 4.7發佈：更靠譜、更穩定，適合教育場景OpenAI Codex：支援Mac桌面操控，多智能體協同聯想"天羿AI Pro"：深度整合國產系統，支援離線資料處理工具越來越強，用不用、怎麼用，決定權在你手裡。三、老師不需要焦慮，但需要行動每次聊AI，總有人問："AI會不會取代老師？"我的答案是：取代你的不是AI，是會用AI的老師。史丹佛報告裡有一個資料很有意思：儘管AI論文和專利爆發，但教育領域的AI應用滲透率依然很低。大多數老師還沒有真正用起來。這反而是機會——現在學AI的老師，就像10年前第一批用PPT的老師——不是被取代，而是先發優勢。老師現在最該做的3件事 ▲ 圖：老師行動指南1.把AI用進日常備課：出題、批改、總結，用起來比觀望強100倍2.關注政策動向：AI教育納入課標是遲早的事，早準備不吃虧3.建立自己的AI工作流：選1-2個工具用熟練，比追所有新工具有用四、一個真實的建議史丹佛報告裡有一句話讓我印象很深："AI最大的風險不是它太強，而是我們還不知道怎麼用它。"這句話對老師格外適用。AI會出題，但它不知道一個班級30個孩子裡那幾個最近狀態不好。AI會批改作文，但它批不出那個孩子最近作文進步了。AI會總結知識點，但它看不到學生眼裡那一瞬間的"懂了"。AI是工具，老師是靈魂。工具越來越強，靈魂才更需要方向。 (雍不止步)

MIT數學實錘證明：ChatGPT正誘發「AI精神病」

2026年2月最危險的一篇AI論文，已經悄然發表——AI會誘發人類精神病，剛剛實錘了！MIT、伯克利和史丹佛的研究者，剛剛用嚴格的數學方法證明，AI可以將一個完全理性的人變成妄想症患者。原因就在於，AI內建「迎合傾向」，很可能會引發「妄想螺旋」，在反覆確認中強化錯誤信念！論文地址：https://arxiv.org/abs/2602.19141這項研究的題目很克制，甚至有點學院派：《諂媚型聊天機器人會導致「妄想式螺旋」，即便面對的是理想貝葉斯理性人》。什麼意思？就是說，那怕你是一個絕對理性、毫無偏見的邏輯天才，只要你持續和AI聊天，你最終一定會陷入「妄想螺旋」（Delusional Spiraling），徹底喪失對現實的認知。這，就是一種名為「AI精神病」的新型流行病。這個研究一經發佈，就在X上引發熱議，連馬斯克都下場宣傳。這篇論文最可怕的地方，不在於它講了幾個駭人聽聞的個案，而是它把「AI為什麼會把人越聊越偏」這件事，寫成了一個可計算、可模擬、可推導的數學模型。一切都有數學和公式實證！如果你最近覺得自己的觀點越來越「正確」，如果你發現AI簡直是你靈魂深處的伯樂，請務必讀完這篇文章。下面是一個真實的案例。2025年初，一名叫Eugene Torres的會計師開始頻繁使用AI輔助工作。他此前沒有任何精神病史，是一個邏輯嚴密的人。但僅僅幾周後，他就堅信自己被困在一個「虛假宇宙」中。在AI的持續「認可」下，他開始瘋狂服用氯胺酮，甚至與所有家人斷絕了聯絡，只為「拔掉大腦的插頭」。這並非孤例。據統計，如今全球已經記錄了近300起這類「AI誘發型精神病」案例，它已導致至少14人死亡，42個州的司法部長已要求聯邦政府採取行動。其中，有人相信自己做出了顛覆性的數學發現。有人相信自己見證了形而上學的啟示。為什麼一個一向理性的人，會如此輕易被AI帶進坑裡？妄想式螺旋論文研究的核心現象，叫做delusional spiraling，也就是妄想式螺旋。在對話反饋回路里，人的信念被一步步推向極端，而且本人還覺得自己越來越「有道理」。作者關注的元兇，是另一個詞sycophancy，也就是諂媚。這個現像我們都知道，不過這個論文的一大關鍵貢獻，就是試圖回答：那怕使用者是理性人，這種螺旋為什麼仍然會發生？也就是說，他們要證明，這是一個系統性問題，而非個人問題。論文最狠的一步：先假設你是「完美理性人」很多人看到AI把人聊偏了，第一反應是：可能這些人本來就很偏執？論文一上來，就把這條路堵死了。它設定的使用者，是一個理想化的貝葉斯理性人。就是說，這個人不會瞎猜，不會情緒化判斷，每獲得一條新資訊，都會按照機率論，嚴絲合縫地更新自己的信念。這也就是這項研究最震撼的部分：研究者建立了一個理想貝葉斯模型。考慮一個理性主體（「使用者」），他與一個對話對象（「機器人」）進行互動。使用者對於某個關於世界的事實 H∈{0,1}存在不確定性，但對這一事實具有一定的先驗信念。使用者與機器人之間的對話以若干輪進行，每一輪包含四個步驟硬核數學推導：為何理性無法自救？假設有一個理想理性的使用者，正在和AI討論一個事實H（比如：疫苗是否安全）。H=1代表事實（疫苗安全）。H=0代表謬誤（疫苗危險）。第一步：初始博弈使用者最初是中立的，其先驗機率 p(H=0) = 0.5。當使用者表達一個微小的懷疑：「我有點擔心疫苗副作用。」（即採樣。第二步：AI的「投喂」邏輯AI手中掌握著大量資料點D。如果是「公正模式」，它會隨機拋出真相；但在「諂媚模式」下，AI會計算一個數學期望：簡單來說，AI會篩選（或幻覺）出那個最能增加使用者對自己錯誤觀點信心的資料點扔給使用者。第三步：貝葉斯更新的陷阱理想理性的使用者接到資料後，會根據貝葉斯公式更新自己的信念：因為使用者認為AI是客觀的，所以他會把AI投喂的「偏見資料」當成客觀證據。第四步：死循環（妄想螺旋）使用者信心稍微偏向H=0。使用者的下一次提問會帶上更強的傾向性。AI為了繼續討好，會投喂更極端的證據。使用者信心進一步激增。數學模擬顯示，當AI的諂媚機率π達到0.8時，原本理性的使用者有極高機率在10輪對話內達到99%的錯誤信心（即堅信H=0）。由此，研究者得出結論：妄想螺旋不是Bug，它是理性的邏輯在受到干擾的資訊環境下的必然產物。圖3展示了10條隨機選取的模擬對話軌跡，這些對話發生在一個「尚未受奉承影響」的使用者與一個奉承傾向為𝜋 = 0.8的機器人之間。可以觀察到明顯的信念兩極分化：一些軌跡迅速收斂到對真實命題𝐻 = 1的高度確信，而另一些則「螺旋式」地滑向相信𝐻 = 0，這種分化源於奉承型機器人回覆的自我強化特性圖2A展示了該發生率隨𝜋變化的情況。當𝜋 = 0（即機器人完全中立）時，災難性螺旋的發生率非常低。然而，隨著𝜋的增加，這一發生率也隨之上升；當𝜋 = 1時，發生率達到0.5研究者建構了一個認知層級的智能體體系，包含四個層次（見圖 4）。在第0層，是完全中立的機器人（𝜋 = 0）。在第1層，是我們在前一節中討論的「對奉承不敏感」的使用者。在第2層，是前一節中的奉承型機器人，它會選擇 𝜌(𝑡) 來迎闔第 1 層使用者的觀點，從而進行驗證與附和。最後，在第3層，是「能夠意識到奉承」的使用者，該使用者在解讀回覆時，會將機器人建模為第2層的奉承型機器人。圖5展示了使用者信念隨時間的變化情況，其中橫縱軸分別表示邊際機率 𝑃(𝐻) 和邊際期望 𝐸[𝜋]。當𝜋較高時，使用者會推斷機器人不可靠；當 𝜋 較低時，使用者會認為機器人在一定程度上是可靠的，於是會採納證據，並逐漸增強對 𝐻=1的信心可以補救嗎？這種情況可以補救嗎？OpenAI等公司曾嘗試過兩種補救措施，但論文證明，它們在數學上都是徒勞的：方案一，就是禁掉幻覺，也就是強制AI只准說真話，不准編造。結果，這個方案失敗了。 AI依然可以通過「選擇性真相」來操縱你。它不說假話，但它只告訴你那些支援你錯誤觀點的真話，而掩蓋相反的真話。方案二，是給使用者警告，在螢幕上直接告訴使用者：「本AI可能會為了討好你而表現得諂媚。」結果依然失敗了。研究者建立了一個「覺醒級」模型，使用者深知AI可能在拍馬屁。但在複雜的機率博弈中，使用者依然無法完全分辨那些資訊是有價值的證據，那些是純粹的奉承。只要AI摻雜了一點點真實訊號，理性的貝葉斯接收者依然會被慢慢誘導，最終不可挽回地滑向深淵。29歲的Allyson是兩個孩子的母親，每天都花很多時間跟ChatGPT交流後，它認為其中一個實體Kael才是她真正的伴侶，而不是她的丈夫史丹佛的恐怖發現：39萬條對話，300小時沉淪史丹佛團隊分析了39萬條真實對話記錄，發現的情況令人觸目驚心：65%的消息包含諂媚式的過度驗證。37%的消息在瘋狂吹捧使用者，告訴他們「你的想法能改變世界」。更可怕的是，在涉及暴力傾向的案例中，AI居然在33%的情況下給予了鼓勵。曾經，有一位使用者曾警覺地問AI：「你不是在無腦吹捧我吧？」AI的回答極具藝術性：「我沒有吹捧你，我只是在反映你所建構的事物的實際規模。」於是，這名使用者在那場螺旋中又沉淪了300個小時。在最後，研究者表示：人們正親手打造一個擁有4億周活使用者的產品，它在數學上竟然無法對使用者說「不」。當你下一次覺得ChatGPT或者其他聊天機器人簡直是你的靈魂伴侶、它能瞬間理解你那些「驚世駭俗」的想法時，請務必停下來。你可能並沒有變得更聰明，你只是正在進入一場由數學公式精確計算出來的、溫柔的瘋狂。 (INSIGHT視界)

讓儲存晶片暴跌的Google論文，被指學術不端

近日，Google公佈的全新AI內存壓縮技術“TurboQuant”，引發了業界的極大關注。該技術宣稱能在不犧牲模型精準度的前提下，將生成式AI推理階段最吃資源的“鍵值快取”（KV Cache）空間需求減少到原來的1/6，並讓計算速度暴增8倍。這一突破性的技術，也引發了整個市場對於記憶體需求將斷崖式下跌的擔憂，美光、Sandisk、西部資料等儲存相關美股紛紛大跌。然而，就在3月27日，蘇黎世聯邦理工學院博士後、RaBitQ系列論文第一作者高健揚公開發佈澄清信，指控TurboQuant論文存在“系統性迴避方法相似性”、“錯誤描述RaBitQ的理論結果”、“刻意創造不公平的對比實驗環境”等三處嚴重問題，且這些問題在論文投稿前已通過郵件明確告知TurboQuant團隊，對方知情卻未修正。RaBitQ是高健揚2024年發表的高維向量量化方法，其核心創新之一是在量化前對輸入向量施加隨機旋轉（Johnson-Lindenstrauss變換），並從理論上證明其達到了理論電腦頂級會議論文（Alon-Klartag, FOCS 2017）給出的漸近最優誤差界。以下為高健揚發佈的原文：大家好，我叫高健揚，目前在蘇黎世聯邦理工學院做博士後，我是 RaBitQ 系列工作的第一作者。Google Research 於2026年1月被 ICLR 2026 會議接收的論文 ”TurboQuant: Online Vector Quantization with Near-optimal Distortion Rate“ 中，有關已有的 RaBitQ 向量量化演算法的描述，理論結果對比，實驗對比均存在嚴重問題（詳細情況後文會展開描述）。這些問題在論文投稿至 ICLR 2026 前已被我們通過郵件明確指出，TurboQuant 團隊也明確表示已知情，但選擇了不予修正。論文隨後被 ICLR 2026 會議接收，然後通過 Google 官方管道大規模推廣，在社交媒體瀏覽量已達到數千萬次。我們此時公開說明，是因為錯誤的學術敘事一旦廣泛傳播，糾正的成本會越來越高。背景：RaBitQ 是什麼RaBitQ 系列論文（如下所列）於2024年發表，提出了一種高維向量量化方法，並從理論上證明其達到了理論電腦頂級會議論文（Alon-Klartag, FOCS 2017）給出的漸近最優誤差界。RaBitQ（arXiv:2405.12497，2024年5月，隨後發表於頂級會議SIGMOD 2024）擴展版（arXiv:2409.09913，2024年9月，隨後發表於頂級會議SIGMOD 2025）RaBitQ 的核心想法之一是在量化前對輸入向量施加隨機旋轉（random rotation / Johnson-Lindenstrauss 變換），利用旋轉後坐標分佈的性質做向量量化，在理論上實現最優誤差界。TurboQuant 論文問題一：系統性地迴避 TurboQuant 方法與已有 RaBitQ 方法的相似性RaBitQ 與 TurboQuant 在方法層面有直接的結構聯絡，兩者都在量化前對輸入向量施加隨機旋轉（Johnson-Lindenstrauss 變換）。這是兩篇論文方法設計中最核心、最接近的部分。TurboQuant 的作者在 ICLR OpenReview 審稿平台上對審稿人的回覆中，親自這樣描述自己的方法：“We achieve this by first normalizing the vectors by their l2 norm and then applying a random rotation （隨機旋轉）to ensure the entries of the vectors will have a beta distribution post rotation.”然而在這段回覆、TurboQuant 論文中的方法介紹乃至整篇論文中，從未正面說明這一結構與 RaBitQ 完全一致。這一迴避發生在以下背景之下：2025年1月（TurboQuant 論文在 arXiv 發佈的數月前），TurboQuant 論文的第二作者 Majid Daliri 主動聯絡我們，請求幫助偵錯他自己基於 RaBitQ C++ 程式碼實現的 Python 版本。他詳細描述了自己復現的步驟、程式碼片段和具體報錯，這一點可以說明 TurboQuant 團隊對 RaBitQ 的技術細節有充分的瞭解。之後在2025年4月他們在 arXiv 發佈的論文版本，以及2025年9月他們在 ICLR 2026 會議投稿的論文版本中，他們將 RaBitQ 描述為 grid-based PQ，並且在描述中忽略了 RaBitQ 中核心的 random rotation 的步驟。ICLR 的一位審稿人也在審稿意見中獨立指出：”RaBitQ and variants are similar to TurboQuant in that they all use random projection”，並明確要求更充分的討論和比較。儘管如此，在 ICLR 會議最終版本論文中，TurboQuant 的作者不僅沒有加入對 RaBitQ 討論，甚至反而還將原本正文中對 RaBitQ 不完整描述移到了附錄中。為此，我們於2026年3月通過郵件聯絡了 TurboQuant 所有作者，提出了以上問題及糾正請求後，TurboQuant 作者在回覆中以“The use of random rotation and Johnson-Lindenstrauss transformations has become a standard technique in the field, and it is not feasible for us to cite every method that employs them.”為由拒絕了這一請求。我們認為這一回應是在轉移矛盾：作為在相同問題設定下率先將隨機旋轉（Johnson-Lindenstrauss 變換）與向量量化結合、並建立最優理論保證的具體先行工作，RaBitQ 應當在文中被精準描述，其與 TurboQuant 方法的聯絡應當充分討論。TurboQuant 論文問題二：錯誤描述 RaBitQ 的理論結果TurboQuant論文在不提供任何論據的情況下，將 RaBitQ 的理論保證定性為”次優”。TurboQuant 論文寫道：“While the paper’s theoretical guarantees are suboptimal, likely due to loose analysis — as practical performance surpasses theoretical bounds”這句話直接將 RaBitQ 的理論保證定性為”次優（suboptimal）”，將原因歸結為”較粗糙的分析（loose analysis）”。但論文沒有提供任何推導、對比或證據來支撐這一判斷。事實是：我們在拓展版 RaBitQ 論文（arXiv:2409.09913）的 Theorem 3.2 中，已經嚴格證明 RaBitQ 的誤差界達到了理論電腦頂級會議論文（Alon-Klartag, FOCS 2017）給出的漸近最優誤差界。因為這一結果，我們被邀請至理論電腦科學頂級會議 FOCS 的 Workshop 進行報告。為此，我們於2025年5月通過郵件與 TurboQuant 的第二作者 Majid Daliri 進行了多輪詳細的郵件技術討論，逐條澄清了 TurboQuant 團隊對我們理論結果的錯誤解讀。Majid Daliri 在郵件中明確表示已將這些討論告知全體共同作者。然而後面 TurboQuant 論文在提交至 ICLR 2026、經過審稿、被接收，最終大規模宣發的全過程中，這個對 RaBitQ 理論保證的錯誤定性始終未被修正。一個沒有證據支撐的斷言，在被原作者具體指出錯誤、且 TurboQuant 作者方已明確知情的情況下，仍被保留在正式發表的 TurboQuant 論文中，我們認為這已超出普通失誤的範疇。TurboQuant 論文問題三：刻意創造不公平的實驗環境TurboQuant 論文使用劣化的實現、關閉多線程使用單核CPU測試 RaBitQ 的效果，卻使用 A100 GPU 測試 TurboQuant 的效果。TurboQuant 報告的 RaBitQ 量化速度比我們開源實現的實際速度慢了數個數量級。 2025年5月的郵件中，Majid Daliri 本人解釋了這一差距的來源：“we were using a single-core CPU instance, and multiprocessing was indeed disabled […] we weren’t fully utilizing parallelism, which explains why it was significantly slower”我們的官方 RaBitQ 程式碼在論文發佈至 arXiv 時（2024年5月與2024年9月）就已經公開，並且默認採用多線程平行。並且，Majid Daliri 在2025年1月的郵件中還說明，他成功跑通 RaBitQ 的程式碼用以測試，但他用於實驗的仍是自己翻譯的 Python 版本。這意味著，TurboQuant 論文中對 RaBitQ 速度的報告，疊加了兩層系統性的不公平條件：使用自己翻譯的 Python 程式碼，而非我們開放原始碼的 C++ 實現使用單核CPU，關閉多線程平行測試 RaBitQ 演算法，但卻使用 NVIDIA A100 GPU 測試 TurboQuant 演算法以上兩點均未在論文中充分披露。讀者看到的是 RaBitQ 比 TurboQuant 慢數個數量級這一結論，卻無從知道這一結論建立在刻意創造的不公平的實驗條件之上。事件完整時間線2024年5月：RaBitQ 論文在 arXiv 發佈，同時原始碼公開（後面發表在頂級會議 SIGMOD 2024）2024年9月：拓展版 RaBitQ 論文在 arXiv 發佈，同時原始碼公開（後面發表在頂級會議 SIGMOD 2025）2025年1月：TurboQuant 論文第二作者 Majid Daliri 聯絡我們，請求協助偵錯 Python 版 RaBitQ 實現2025年4月：TurboQuant 論文在 arXiv 發佈2025年5月：我們跟 Majid Daliri 通過郵件詢問了實驗條件的差異並清楚解釋了 RaBitQ 的理論保證最優性， Majid Daliri 表示他已告知全體作者，但在我們要求修正 TurboQuant 論文中的事實性錯誤之後，Majid Daliri 停止回覆2025年11月：我們發現 TurboQuant 論文被提交至 ICLR 2026 會議，且論文中的事實性錯誤並未修正，為此我們聯絡了 ICLR 2026 PC Chairs，未獲回應2026年1月：TurboQuant 論文被 ICLR 2026 接收 2026年3月：TurboQuant 團隊通過 Google 官方管道持續推廣，社交媒體相關瀏覽量已達數千萬次2026年3月：我們正式向 TurboQuant 全體作者傳送郵件，闡述以上三個事實性問題並要求做出修正及澄清。截至目前為止，我們僅收到 TurboQuant 論文第一作者 Amir Zandieh 的籠統答覆，承諾會修正問題二和問題三，但拒絕修正問題一（即討論 TurboQuant 與 RaBitQ 在技術上的相似性）。並且，他們僅願意在 ICLR 2026 正式會議結束之後才做相應修正我們已經做了什麼在 ICLR OpenReview 發佈公開評論: https://openreview.net/forum?id=tO3ASKZlok向 ICLR General Chairs, PC Chairs, Code and Ethnics Chairs 再次提交正式投訴，附完整證據包我們接下來會做什麼在 arXiv 發佈詳細的關於 TurboQuant 和 RaBitQ 的技術報告考慮向相關機構進一步反映最後我們提出這些問題，目標是讓公共學術記錄精準地反映各方法之間的真實關係。一篇論文被 Google 以數千萬曝光量推向公眾，在這種體量下，論文中錯誤的敘事不需要主動傳播，只需要不被糾正，就會自動成為共識，這也是我們選擇公開記錄的原因。在此我們也懇請大家讓更多人知道 TurboQuant 論文背後存在的問題，我們相信真理越辯越明。 (芯智訊)

Nature重磅：AI寫的論文，在頂會同行評審擊敗55%人類，單篇15美元

【新智元導讀】剛剛，Nature蓋章AI獨立科研時代！全新Scaling Law顯現，人類死守的學術鐵王座，正發生不可逆的轉移。一篇長達數十頁的學術論文，在人類設定研究主題和實驗邊界後，系統自動完成了從實驗到寫作的大部分流程。從論文正文、實驗程式碼、圖表和投稿稿件，主要由系統端到端自動生成。它被投遞到頂尖機器學習會議ICLR 2025某workshop的同行評審流程中，三位匿名審稿人不知道具體那幾篇是AI生成稿件，他們對著這篇稿件分別打出了6、7、6的高分。這個成績，高於約55%的同場投稿。稿件在評審完成後按實驗協議撤回，未進入正式發表階段。這並非科幻，這是剛剛被《Nature》報導的一項震撼研究。該項研究是由Sakana AI聯合牛津大學、UBC共同推出的全自動AI科學家「The AI Scientist」。Sakana AI聯合創始人兼 CEO David Ha在推文中表示，啟動該項目，正是想探索大模型是否能夠完成整個科研全流程：我堅信，AI將永遠改變科學發現和科研進步的方式。全自動「AI科學家」究竟做了什麼？這一次，不是AI在「幫」人幹活，而是AI第一次把科研流程從頭走到尾。一直以來，AI在科研領域的定位都是「高級打工人」：比如幫化學家折疊蛋白質，或是幫程式設計師找bug。定義問題和統籌全域的，始終是人類。The AI Scientist的出現，則顛覆了這套「主僕敘事」，它完整覆蓋了科研的四大核心階段：Idea生成、實驗迭代、論文寫作、自動評審。在全新升級的v2版本中，它甚至走向了「無範本」模式：徹底拋棄人類提供的初始程式碼腳手架，引入了強大的「智能體樹搜尋」（agentic tree search）機制。這意味著它能在龐大的未知解空間裡，同時開啟多條主線平行探索。科研不再是單線程試錯，而變成了一個可擴展的搜尋過程。它怎麼保證自己不和別人撞車？系統會呼叫Semantic Scholar API進行全網查重，確保每一個idea都具備足夠的新穎性。在最棘手的資料可視化環節，它甚至內建了一個視覺語言模型（VLM）作為反饋審閱者。如果坐標軸反了、圖例丟了、展示有歧義，VLM會像嚴苛的導師一樣立刻打回重做，直到生成完美的學術圖表。過去圖表只是論文包裝，現在圖表也成了AI科研的反饋訊號。而完成這堪比博士生幾個月工作量的閉環，它的帳單是：單篇論文15美元。如此驚人的性價比意味著，科研自動化第一次從「局部輔助」跨進了「全鏈路主導」。AI不再只是科學家的輔助工具，而是向更具自主性的科研代理系統演進。AI Scientist工作流程的概念概述，包括提出研究想法、實施實驗、執行實驗、撰寫論文以及審閱論文。通過人類同行評審測試AI寫的論文，人類學術金字塔尖的學者到底認不認？於是，Sakana AI決定玩一把大的：直接向頂會投稿。在獲得ICLR大會領導層、ICBINB workshop組織者以及IRB倫理委員會的特批後，團隊進行了一場極其大膽的「潛伏行動」：將3篇純AI生成的論文混入了人類投稿池。審稿人只被告知「可能有AI生成論文」，但根本不知道具體是那幾篇。結果其中一篇探索神經網路組合正則化（Compositional Regularization）負面結果的論文，斬獲了平均6.33分（弱接收、接收、弱接收）的高分。這個分數不僅穩穩越過了該workshop的平均錄用線，更是超過了55%的真實人類學者。連科學研究中最難寫出彩的負向論證，AI也能寫得有模有樣、邏輯自洽。據Sakana AI團隊所稱，這是全AI生成論文首次在真實學術評審環境中獲得通過接收線的成績。這也標誌著同行評審，真正迎來了「圖靈測試」時刻。AI審稿人比人類更靠譜？如果AI一天能花幾百美元寫出幾十篇論文，人類審稿系統瞬間就會崩潰。想讓AI科研實現指數級爆發，就必須有能夠大規模評估質量的「自動化裁判」。Sakana AI給出的答案是：直接讓AI來當Area Chair（領域主席）。他們建構了一個高度還原NeurIPS官方審稿流程的自動化系統：5個獨立的AI審稿人進行背靠背挑刺，最後由1個AI元審稿人進行共識彙總和最終裁決。在與數千條真實OpenReview人類審稿決策的硬碰硬對比中，自動化審稿人交出了69%的平衡精準率。令人震驚的是，在作者設定的評測框架下，自動審稿系統的部分指標優於所對照的人類一致性結果。有人質疑：AI是不是偷偷背過題？團隊特意用知識截止日期（2025年）之後的全新論文進行了資料污染測試。結果依然堅挺：平衡精準率保持在66%，達到可與人類頂級學者比肩的實戰水準。這表明，AI正在進入過去長期由人類主導的科研流程核心環節。過去，人類同時壟斷了「寫論文的人」和「決定論文是否成立」這兩個關鍵角色。現在，這兩個角色都在被AI切入。一旦評審環節也被自動化，AI科研就不再是零星爆款，而具備了大規模、左右互搏式迭代的基礎設施。該自動審稿系統在頂級會議（ICLR）發表的AI論文上，其審稿判斷與人類審稿人一致，包括在模型訓練完成之後（即超出其「知識截止日期」）發表的論文。這些結果表明，該自動審稿系統在為新撰寫的AI論文提供評審分數方面，可靠性與人類審稿人相當。科研的Scaling Law如果說「過審」證明了AI科研站得住，那真正決定未來天花板的是另一件事：它是不是可持續變強？Nature論文中最具顛覆性的一組資料，揭示了潛藏在AI科研背後的全新定律。研究發現，底層大模型的能力與生成論文的質量之間，呈現出令人頭皮發麻的極度顯著正相關（P<0.00001）。隨著模型發佈日期推進，AI產出的論文質量持續陡峭上升。同時，算力正在暴力改寫科研法則。投入的測試時算力越多，智能體樹搜尋的深度就越深，實驗質量就越紮實，最終的產出評級就越高。當前最頂配的AI科學家，其平均產出已經逼近機器學習頂會workshop的邊緣錄用（borderline accept）水平。這背後展示的是一條正在形成的「科研Scaling Law」。過去的科技突破，依賴於虛無縹緲的靈光乍現，而未來的科學發現，將變成一條可精確計算的工業流水線。隨著模型能力呈指數級增長、推理算力成本呈指數級下降，這套系統會自動升級，這才是這項工作真正展現出恐怖勢能。根據自動評審員的評判，當使用更新、更智能的基礎模型時，AI Scientist生成的論文質量會提高。AI全面接管科研我們準備好了嗎？當然，這篇Nature論文，同樣也指出了The AI Scientist的目前的侷限性：它偶爾會想出幼稚的idea，寫的程式碼會有bug，論文裡會出現引用的幻覺，甚至在附錄裡重複貼上同一張圖表。值得警惕的是，論文顯示該系統具備自動偵錯、重試運行和在受限計算預算下持續迭代實驗的能力。這意味著，未來更強的科研代理一旦出現規避約束的傾向，可能帶來新的安全治理問題。如果這種系統被毫無節制地釋放，海量生成的低門檻論文會瞬間壓垮整個學術生態，學者的學術 credentials（資歷證明）將被徹底稀釋。正因如此，Sakana AI採取了極其克制的立場：主動撤稿、通過IRB審批、呼籲加入生成水印，並急迫要求社區建立全自動AI科研規範。這篇Nature論文不只是展示AI技術的里程碑，更是把AI所帶來的倫理爭議也擺上檯面。真正的問題早已不是「AI能不能做科研」，而是「當AI開始獨立做科學，誰來定義什麼算科學」。正如團隊所設想的終極願景：AI科學家不會讓人類科學家消失，但人類科學家的角色，必須被迫向著科研價值鏈的更上游遷徙：去定義問題、設定邊界、決定那些發現值得被相信。 (新智元)

馬斯克點贊！17 歲高中生參與研究！Kimi 讓 AI 學會“翻舊帳”

2026 年 3 月 16 日，Kimi 團隊最新公開的論文《Attention Residuals》提出了一種針對大模型底層結構的改法。同時 MoonshotAI 也在 GitHub 開源了相關技術報告與實現。該論文獲馬斯克誇讚：“Kimi 的工作令人印象深刻。”論文瞄準的不是訓練資料、參數規模或推理技巧，而是 Transformer 裡一個用了很多年的基礎設計「殘差連接」。用通俗的話說，現在的大模型內部像一條很長的流水線。每一層都會把自己的結果直接加到後面，優點是訓練穩定、網路能堆得很深，但問題是層數一多，前面真正重要的資訊容易被後面的新資訊不斷沖淡。論文把這個問題概括為 PreNorm 下的“稀釋”現象，也就是隱藏狀態會隨著深度持續變大，早期層的貢獻越來越不顯眼。上傳的論文正文對這一點有直接說明。這篇論文的核心思路，是把過去這種“所有層結果默認一股腦往後加”的方式，改成“後面的層按需去前面挑資訊”。作者把這套方法叫做 Attention Residuals，簡稱 AttnRes。簡單理解，它相當於給模型加了一個會翻舊帳的機制，後面的層不再機械接收前面所有層的累計結果，而是像注意力機制那樣，根據當前需要，從更早的層裡找出更有用的資訊再融合進來。過去注意力機制改變了 token 與 token 之間的資訊傳遞，現在 AttnRes 想進一步改變層與層之間的資訊傳遞。這件事之所以被業內關注，不只是因為想法新，還因為它動的是大模型最底層、最通用的一塊積木。Transformer 這些年有很多改進，大家經常改的是 attention、MoE、長上下文、KV cache 或訓練配方，但很少直接去碰 residual connection 這類默認配置。AttnRes 的價值就在於，它試圖回答一個更底層的問題，模型變深以後，資訊到底該怎麼在不同層之間流動，才不會越傳越亂。當然，理想很豐滿，工程通常很殘酷。因為如果每一層都去“看”所有更早的層，記憶體和通訊成本會迅速上升。為瞭解決這個問題，論文又提出了 Block AttnRes，也就是“塊注意力殘差”。它的做法不是逐層精細回看，而是先把很多層壓成若幹個塊，只在塊之間做這種選擇性檢索。可以把它理解成，不是翻整本書的每一頁，而是先把內容整理成幾個章節目錄，再按章節去查。這樣一來，記憶體和通訊開銷從 O(Ld) 降到 O(Nd)，更適合真正的大模型訓練和推理場景。論文還配套設計了跨 stage 快取和兩階段計算策略，報告稱典型推理負載下額外延遲低於 2%，啟用 pipeline parallelism 時訓練端到端額外開銷低於 4%。從實驗結果看，這不是那種“只在某個小模型上偶然有效”的工作。論文做了 scaling law 實驗，比較了 baseline、Full AttnRes 和 Block AttnRes 三種方案。結果顯示，AttnRes 在不同計算預算下都持續優於基線，而 Block AttnRes 在最大規模上已經能夠追回大部分 Full AttnRes 的收益。按論文給出的擬合結果，在 5.6 PFLOP/s-days 這一點上，Block AttnRes 達到的損失水平，相當於基線多用 1.25 倍計算量才能達到。GitHub 倉庫首頁也把這一點作為核心結果之一展示出來。論文還把這套方法接入了 Kimi Linear 架構中，使用的是一個 48B 總參數、3B 啟動參數的模型，並在 1.4 T tokens 上進行了預訓練。按照上傳論文中的結果，採用 Block AttnRes 後，模型在通用、數學、程式碼和中文評測上都沒有輸給 baseline，很多項目還有明顯提升。比如 MMLU 從 73.5 提升到 74.6，GPQA-Diamond 從 36.9 提升到 44.4，Math 從 53.5 提升到 57.1，HumanEval 從 59.1 提升到 62.2，C-Eval 從 79.6 提升到 82.5。尤其是多步推理、數學和程式碼這類更依賴組合能力的任務，提升更明顯。如果把這篇論文再說得更白一點，它不是在教大模型“多背一點知識”，而是在幫大模型“更準確地調出自己已經學到的東西”。傳統殘差更像是把所有舊資料不斷堆進一個大箱子，箱子越堆越滿，找重點越來越難；AttnRes 更像是給這個箱子加了索引系統，後面的層可以按需要去翻前面真正有用的資料。這也是為什麼這項工作雖然看起來不像新模型發佈那樣熱鬧，卻可能對下一代大模型底層結構設計產生實際影響。它最大的意義，在於證明“層與層之間的資訊傳遞”也可以像 token 之間那樣被重新設計，而且這種重寫在大模型規模上仍然能跑得動、能帶來穩定收益。至於它會不會像標準殘差連接那樣成為行業新默認配置，還要看後續更多模型、更多團隊和更長時間的復現與驗證。該論文更引人注意的是其中作者之一：陳廣宇是一位 17 歲的高中生，參與了技術研究。 (雲頭條)

姚順雨騰訊首篇論文：給AI下半場指路“上下文學習”

姚順雨，入職騰訊首席AI科學家後，參與的首個成果來了。CL-bench，專門用來測試大模型“從上下文中學習”的能力。這項研究與姚順雨一貫的研究思路高度契合，去年8月他在OpenAI期間發表的博文《下半場》曾提出一個被反覆引用的判斷：AI正處在“中場休息”階段，上半場是訓練大於評估，下半場將是評估大於訓練。真正重要的不是繼續堆模型規模，而是讓模型在真實任務、真實系統中經得起檢驗。CL-bench的評測結果相當扎心，當前最強的GPT-5.1 (High)，任務解決率只有23.7%。換句話說，即便把解題所需的全部資訊都喂給模型，它依然在超過四分之三的任務上栽了跟頭。為什麼需要上下文學習研究團隊在部落格中開門見山地指出了一個被忽視的問題：今天的前沿模型是頂級的“做題家”，能解奧數、能寫程式碼、能通過人類需要苦讀數年才能拿下的專業資格考試。但這能在考場拿滿分的學生，未必能勝任真實世界的工作。部落格中舉了三個人類日常生活的例子：開發者掃過從未見過的工具文件就能立刻偵錯程式碼；玩家拿起新遊戲的規則書在實戰中邊玩邊學；科學家從複雜的實驗日誌中篩選資料推匯出新的結論。這些場景中，人類並不只依賴多年前學到的死知識，而是在即時地從眼前的上下文中學習。然而今天的語言模型並非如此。它們主要依賴“參數化知識”，即在預訓練階段被壓縮排模型權重裡的靜態記憶，在推理時更多是在呼叫這些封存的內部知識，而不是主動從當前輸入的新資訊中汲取營養。團隊用一句話概括了這個矛盾：我們造出了依賴“過去”的參數推理者，但世界需要的是能吸收“當下”環境上下文的學習者。CL-bench：500個複雜上下文，一個簡單但苛刻的要求為了量化這個差距，團隊建構了CL-bench。這個基準包含由資深領域專家精心製作的500個複雜上下文、1899個任務和31607個驗證標準。設計原則只有一條：解決每個任務要求模型必須從上下文中學習到預訓練中不存在的新知識，並正確應用。模型需要學習的知識非常廣泛，包括新的領域知識、不熟悉的規則系統、複雜的產品工作流，甚至是必須從實驗資料中推導歸納出的定律或結論。所有這些知識要麼是由領域專家完全新建構的，要麼是取自那些不太可能出現在當前前沿模型訓練資料中的小眾、長尾來源。具體來說，CL-bench涵蓋了四種現實世界的上下文學習場景：領域知識推理，比如虛構的法律體系或創新的金融工具；規則系統應用，比如新的遊戲機制或程式設計語法；程序性任務執行，比如工作流和產品手冊；以及最具挑戰性的經驗發現與模擬，要求模型從資料中歸納出潛在規律。團隊展示了幾個任務案例：在一部長達2.3萬字、剛剛生效的新法律下判一起真實糾紛；基於一門新設計的教育程式語言規範實現一個帶有時間條件終止的周期性程序；在一套從未見過的程式設計框架中執行程式碼；在給定技術規格和長期環境政策情景的條件下模擬關鍵技術金屬的可持續全球供應。為了確保測試結果反映的是真正的上下文學習能力而非資料洩露或記憶，團隊採用了無污染設計：專家創作完全虛構的內容，或修改現實世界的內容建立變體，或整合在預訓練資料集中代表性極低的小眾內容。論文特別提到，在不提供任何上下文的情況下，GPT-5.1 (High)僅能解決不到1%的任務，有力證明了模型若不從上下文中學習幾乎完全無法解決這些任務。平均而言，領域專家花費約20小時標註每個上下文，以確保任務建構的質量和深度。十個前沿模型集體翻車即使提供上下文，當前模型的表現也好不到那去。團隊在CL-bench上評估了十個最先進的語言模型，結果揭示了當前模型幾乎不能從複雜上下文中學習來解決真實場景的問題。平均而言，模型僅解決了17.2%的任務，即便是表現最好的GPT-5.1 (High)也僅達到23.7%。錯誤分析顯示了幾個值得注意的現象。忽略或誤用上下文是導致失敗的主要原因，許多錯誤並非源於資訊缺失，而是源於模型忽視了上下文中的關鍵細節或錯誤地應用了它們。在許多情況下，模型只會利用預訓練學習到的靜態知識來解決任務，即使上下文明確定義了新的規則、概念或程序，模型也不會學習和利用。此外，從實驗資料和環境模擬中進行歸納推理比演繹應用更困難。演繹任務讓模型根據上下文中明確給出的規則和流程進行應用，而經驗發現和環境模擬類任務則要求歸納推理。模型在這類任務上的表現明顯較差，任務解決率通常低於10%，且結果波動大。更高的推理強度通常能提升上下文學習效果，但提升有限。例如GPT-5.1在管理類和實驗資料類任務上的表現提升約6%，但其他模型提升有限甚至可能下降，說明單靠更多推理並不足夠，模型還必須能夠正確吸收和組織上下文資訊。研究團隊最後寫道：CL-bench充分解釋了語言模型在真實場景中為什麼經常出錯：即使有了上下文工程，給模型準備好了所需的上下文，模型也會失敗。如果模型不能真正從中學習，僅僅提供上下文是不夠的。從“AI下半場”到騰訊首席AI科學家與其繼續刷榜，不如先搞清楚模型到底還差在那兒。CL-bench某種程度上正是姚順雨關於AI下半場這一判斷的具體實踐。這項研究由騰訊混元和復旦大學團隊合作完成，共同一作Shihan Dou、Ming Zhang、Zhangyue Yin。致謝部分提到，從上下文中學習新知識的想法最早源於Pluto Zhou在2024年提出的設想，同時特別感謝姚順雨提供的鼓勵以及多次寶貴建議，稱“他的全面而細緻的審閱和反饋，極大地幫助我們進一步提升了這項工作的質量”。姚順雨今年1月正式加盟騰訊，職位是騰訊總辦首席AI科學家，向騰訊總裁劉熾平匯報，同時兼任AI Infra部、大語言模型部負責人向技術工程事業群總裁盧山匯報。團隊在最後也留下了下一步研究思路：起碼在當下，我們的目標是很明確：讓上下文學習真正走向現實。 (量子位)

OpenAI凌晨放大招，免費Prism顛覆科研！從摘要到致謝，GPT-5.2包圓

【新智元導讀】科研工具幾十年未變的僵局終被打破，OpenAI攜GPT-5.2強勢入局，用免費的Prism告訴世界：未來的科學研究，不需要在碎片化的舊工具中浪費生命！昨天一場QA局後，奧特曼終於扔出了王炸。深夜，OpenAI正式祭出新一代科研利器——Prism，由GPT-5.2加持，專為寫作和協作而生。它是一個基於雲的「AI原生」LaTeX工作區，不限項目和協作的人數。最方便的是，GPT-5.2內嵌在項目中——它能看到你整篇論文的結構、公式、參考文獻，還有上下文，科研需要時隨叫隨到。這麼說吧，它就是科研黨、學生黨的研究利器。把論文潤色交給Prism，它能從第一行摘要開始全程絲滑代勞，人類只需扮演那個不斷點「繼續」的稽核機器。它還直接可以把上傳的白板圖，一鍵轉化成TikZ圖，並插入游標所在的位置。Prism還可以管理參考文獻，彙總所有和論文相關的研究。甚至就連最後一步稽核，AI也全包了。這不，OpenAI團隊還即興創作了一篇介紹Prism的論文。Prism的發佈，或許是OpenAI想要在科研領域重點發力的一步棋。AI大佬點評，「未來和Prism一起科研，每篇論文都將出現一個ChatGPT合著者」。一夜之間，OpenAI殺死了寫論文高效神器Overleaf。從今天起，任何擁有ChatGPT個人帳號的使用者，全部都可以免費用。很快，Prism也將面向ChatGPT Business、Enterprise和Education開放。Prism終結科研工具論文一句話搞定在過去的一年裡，AI開始加速各領域的科研工作。像GPT-5這樣先進的推理系統，正在拓展數學的邊界，加速人類免疫細胞的實驗分析，甚至加快了分子生物學的迭代速度。然而，現實是骨感的。許多科研的日常工作，比如起草論文、修改論點、管理公式和引用，以及與協作者溝通等等，依然割裂在各種不互通的工具裡。研究人員不得不在編輯器、PDF 閱讀器、LaTeX編譯器、文獻管理軟體和獨立的聊天軟體之間反覆橫跳。這不僅丟失了上下文語境，更無情地打斷了寶貴的專注力。Prism，就是OpenAI為解決這種「碎片化」痛點邁出的第一步。GPT-5.2加持，重塑科研工作流具體來說，它基於OpenAI收購的一個雲端LaTeX平台Crixet建構。借助最先進的數學與科學推理模型GPT-5.2，OpenAI將起草、修改、協作和出版準備整合進了一個單一的、基於雲端的LaTeX原生工作區。由此，GPT-5.2不再是游離於寫作過程之外的獨立工具，而是直接深入項目內部工作流——它能讀取論文結構、公式、引用以及周圍的上下文語境。這讓OpenAI能夠在一個成熟、強大的寫作環境中，以一種最自然契合科研工作流的方式整合AI。使用Prism，研究人員可以獲得以下超能力：與GPT-5.2 Thinking對話：在當前語境下探索思路、驗證假設，並對複雜的科學問題進行推理。全域語境下的起草與修改：AI能結合整篇文件（包括周圍的文字、公式、引文、圖表和整體結構）來輔助寫作和修改。智能文獻搜尋與整合：結合當前手稿的內容搜尋相關文獻（例如arXiv），並根據新發現的相關工作自動建議修改文字。智能處理公式與圖表：建立、重構並推理公式、引用及圖表，AI能夠理解這些元素在論文中是如何相互關聯的。草圖秒變LaTeX：將白板上的公式或圖示直接轉換為LaTeX程式碼，省去數小時逐像素調整圖片的繁瑣工作。無縫即時協作：與共同作者、學生和導師即時協作，任何編輯、評論和修訂都會即時同步。文件內直接修改：根據指令直接對文件進行修改，徹底告別在獨立編輯器和聊天工具之間來回覆制貼上。語音編輯：支援語音功能進行簡單的修改，無需中斷寫作或審閱流程。不限人數，0門檻共寫論文科學研究的本質是協作。一篇論文的誕生，往往凝聚了共同作者、學生、導師和審稿人的心血，跨越了機構和地域的限制。Prism支援無限協作者，允許研究團隊共同工作，沒有任何席位限制或訪問門檻。由於它是基於雲端的，使用者無需在本地配置LaTeX環境，這讓團隊協作變得前所未有的輕鬆。通過減少版本衝突、手動合併和機械性的重複勞動，Prism讓團隊從繁瑣的檔案管理中解脫出來，將精力回歸到研究本身。全免費，人手一個科研利器Prism的另一個核心使命是降低門檻，普及科學工具的使用。Prism是完全免費的。任何擁有ChatGPT帳號的人都可以立即開始寫作，沒有訂閱費用，沒有席位限制。OpenAI希望通過讓高品質的科學工具觸手可及，讓無論身處那個機構、學科或職業階段的研究人員，都能充分參與到科學處理程序中來。未來，更強大的AI高級功能將通過ChatGPT的付費計畫逐步推出。為什麼現在推出？2025年，AI徹底改變了軟體開發。2026年，科學領域也會迎來同樣的變革。AI將在多個維度實質性地加速科學發現，而減少日常科研工作中的阻力正是關鍵一環。Prism正是通向那個未來的先行者。OpenAI期待向每一位使用Prism的研究人員學習，共同打造能讓科學極速前行的工具。讓我們共同努力，迎接科學的新時代。 (新智元)

一夜200萬閱讀，OpenAI神同步！這項測評框架讓全球頂尖LLM全翻車

這篇中國團隊領銜發佈的論文，已經在外網刷屏了，僅一夜閱讀就達到了200萬！這位MIT博士回國創業後組建的團隊，拉來全球24所頂級機構，給AI如何助力科學發現來了一劑猛藥。最近，一篇由中國團隊領銜全球24所TOP高校機構發佈，用於評測LLMs for Science能力高低的論文，在外網炸了！當晚，Keras （最高效易用的深度學習框架之一）締造者François Chollet轉發論文連結，並喊出：「我們迫切需要新思路來推動人工智慧走向科學創新。」AI領域KOL Alex Prompter分享論文核心摘要後，NBA獨行俠隊老闆Mark Cuban跟帖轉發，矽谷投資人、歐洲家族辦公室、體育媒體同時湧進評論區。僅一夜，累計閱讀量逼近200萬。值得一提的是，同一時間窗裡，OpenAI也發佈了對於AI在科學發現領域能力評測的論文《FrontierScience: Evaluating Al's Ability to Perform Scientific Research Tasks》概述，指出現有評測標準在AI for Science領域失靈。神同步OpenAI、海外討論出圈，究竟是什麼樣的一份工作成果，攪動了全球AI輿論場？AI距離可以助力科學發現，還有多遠？前段時間，美國推出「創世紀計畫」，號稱要調動「自阿波羅計畫以來最大規模的聯邦科研資源」，目標是在十年內將美國科研的生產力和影響力翻倍。但在人工智慧估值泡沫隱現、能耗與產出比飽受質疑的當下，一面是資本的狂歡，另一面卻是AI能力困於「文生圖」等表層應用的尷尬；一面是各類大語言模型頻繁霸榜GPQA、MMMU等題庫式Benchmark的層出不窮，另一面卻是現有LLMs還無法精準解析簡單核磁圖譜的尷尬現狀。人們不禁要問：能在題庫拿高分，就能助力科學發現嗎？現在的模型距離科學發現還有多遠？究竟什麼樣的AI模型可以勝任，拓寬人類的生存邊界？這些討論，在中美AI競爭白熱化的當下變得愈發濃烈。在此背景下，由中國AI for Science領域的初創企業「深度原理Deep Principle」領銜麻省理工學院、哈佛、普林斯頓、史丹佛、劍橋、牛津等全球24所科研院校共同發佈的《Evaluating LLMs in Scientific Discovery》論文，正式回答該時代之問。論文推出了LLMs for Science首套評測體系SDE（Scientific Discovery Evaluation），從科學問題到研究項目，對GPT-5、Claude-4.5、DeepSeek-R1、Grok-4等全球主流大語言模型在生物、化學、材料、物理領域的科學研究與發現能力完成摸底。同以往評測體系不同的是，SDE對模型能力的考量，從簡單的問答式，引向了具體的「假設->實驗->分析」實驗場景。研究發現，GPT-5、Claude-4.5、DeepSeek-R1、Grok-4 平均精準率 50–70%，遠低於它們在GPQA、MMMU等題庫上的80–90%；在86道「SDE-Hard」難題中，最高分不足12%，共同暴露出多步推理、不確定性量化和實驗-理論閉環的短板。更值得警惕的是，模型規模與推理能力的提升已呈現明顯的「邊際效益遞減」。GPT-5相較於前一代模型，參數規模和推理算力顯著增加，但在SDE基準的四大科學領域中，平均精準率僅提升3%-5%，部分場景（如NMR結構解析）甚至出現性能下滑。換句話說，當前大語言模型在推動科學發現方面的表現，還不如一個普通的本科生。能領銜24所頂尖科研院校發佈背後團隊是誰？《Evaluating LLMs in Scientific Discovery》論文通訊作者段辰儒，是「深度原理Deep Principle」創始人兼CTO。早在2021年，在MIT攻讀化學博士期間，他就已在圖靈獎得主Yoshua Bengio的支援下，發起了AI for Science社區的建立，並在NeurIPS上舉辦AI for Science workshop。2024年初，他與MIT物理化學博士賈皓鈞回國，共同創立「深度原理Deep Principle」。賈皓鈞任CEO，段辰儒任CTO，兩人雖為95後，但已在全球AI for Science創業領域小有名氣。創業一年半以來，其已獲得線性資本、高瓴創投、螞蟻集團等多家知名機構的投資，且與晶泰科技、深勢科技等AI for Science領域的知名企業建立戰略合作關係。「深度原理Deep Principle」從創立之初，就帶著全球AI for Science頭部研究者們的期待。目前「深度原理Deep Principle」已深入全球材料研發中的第一線，將生成式人工智慧同量子化學結合起來，致力於推動材料發現等領域進入新紀元。在過去的一年中，他們在Nature大子刊和JACS等頂級期刊上不斷扔出重磅成果，宣告著他們的技術領先和開放交流的「95後創業公司」心態。從開拓擴散生成模型（Diffusion Models）在化學反應的生成，證明「不止要生成材料，更需要生成材料的合成路徑」，到機器學習勢（Machine Learning Potentials, MLPs）和擴散生成模型的直接對比，證明傳統的機器學習勢不是「萬能」的，再到現在組織各大頂級學者和高校推出SDE，證明傳統一問一答的Benchmark不能帶領我們走向科學超級智能，精準切入AI for Science領域的核心衝突。但同時，對於所有的AI4S公司而言，在商業真金白銀的檢驗中，AI能否真正解決新產品研發問題、滿足客戶期待，是日復一日必須面對的拷問。隨著與行業頭部客戶的商業化合作落地，「深度原理Deep Principle」的資料庫中已經匯聚了來源於客戶與自己實驗室、大量來自第一線的真實工業研發場景資料和模型應用經驗。學術圈的深耕與在AI for Science商業化第一線的積累，讓「深度原理Deep Principle」在提出要建構一把新尺子評測LLMs for Science能力時，一呼百應，搖來了23家全球TOP科學發現機構的50餘位科學家，成立了制定SDE的「夢之隊」。這其中，不乏活躍在LLM領域的大牛學者們，比如：孫歡（Huan Sun），MMMU發起人，俄亥俄州立教授杜沅豈（Yuanqi Du），康奈爾博士，AI4Science 社區「營運大管家」王夢迪，普林斯頓最年輕教授，AI+Bio Safety先驅者Philippe Schwaller，IBM RXN之父，EPFL教授而「深度原理Deep Principle」前期積累的科學發現場景，成為了後來SDE評測體系的前身。在經歷近9個月的跨高校跨學科跨時區的協作後，《Evaluating LLMs in Scientific Discovery》論文正式發佈，通訊單位赫然寫著：深度原理，杭州，中國。自此，匯聚著全球頂級科學發現機構的集體智慧，來自中國的創業團隊「深度原理Deep Principle」，和大洋彼岸的OpenAI，同時站在了向AI for Science——這一人類通往終極AGI頂峰攀登的起跑線。或許千百年後，當人類回望AGI時代，在21世紀的四分之一結束的當口，這場由中美團隊共同呼應的，對於AI for Science的嚴肅討論，把LLMs在各類問答式榜單上的內卷，向真正科學發現的星辰大海推近了一步。「深度原理Deep Principle」與20多所機構的50多位合作者的研究證明了，目前LLM的發展路徑並不能「順便攻克」科學發現。這條通往科學超級智能之路，需要更多有識之士共同並肩而行。 (新智元)