姚順雨,入職騰訊首席AI科學家後,參與的首個成果來了。CL-bench,專門用來測試大模型“從上下文中學習”的能力。這項研究與姚順雨一貫的研究思路高度契合,去年8月他在OpenAI期間發表的博文《下半場》曾提出一個被反覆引用的判斷:AI正處在“中場休息”階段,上半場是訓練大於評估,下半場將是評估大於訓練。真正重要的不是繼續堆模型規模,而是讓模型在真實任務、真實系統中經得起檢驗。CL-bench的評測結果相當扎心,當前最強的GPT-5.1 (High),任務解決率只有23.7%。換句話說,即便把解題所需的全部資訊都喂給模型,它依然在超過四分之三的任務上栽了跟頭。為什麼需要上下文學習研究團隊在部落格中開門見山地指出了一個被忽視的問題:今天的前沿模型是頂級的“做題家”,能解奧數、能寫程式碼、能通過人類需要苦讀數年才能拿下的專業資格考試。但這能在考場拿滿分的學生,未必能勝任真實世界的工作。部落格中舉了三個人類日常生活的例子:開發者掃過從未見過的工具文件就能立刻偵錯程式碼;玩家拿起新遊戲的規則書在實戰中邊玩邊學;科學家從複雜的實驗日誌中篩選資料推匯出新的結論。這些場景中,人類並不只依賴多年前學到的死知識,而是在即時地從眼前的上下文中學習。然而今天的語言模型並非如此。它們主要依賴“參數化知識”,即在預訓練階段被壓縮排模型權重裡的靜態記憶,在推理時更多是在呼叫這些封存的內部知識,而不是主動從當前輸入的新資訊中汲取營養。團隊用一句話概括了這個矛盾:我們造出了依賴“過去”的參數推理者,但世界需要的是能吸收“當下”環境上下文的學習者。CL-bench:500個複雜上下文,一個簡單但苛刻的要求為了量化這個差距,團隊建構了CL-bench。這個基準包含由資深領域專家精心製作的500個複雜上下文、1899個任務和31607個驗證標準。設計原則只有一條:解決每個任務要求模型必須從上下文中學習到預訓練中不存在的新知識,並正確應用。模型需要學習的知識非常廣泛,包括新的領域知識、不熟悉的規則系統、複雜的產品工作流,甚至是必須從實驗資料中推導歸納出的定律或結論。所有這些知識要麼是由領域專家完全新建構的,要麼是取自那些不太可能出現在當前前沿模型訓練資料中的小眾、長尾來源。具體來說,CL-bench涵蓋了四種現實世界的上下文學習場景:領域知識推理,比如虛構的法律體系或創新的金融工具;規則系統應用,比如新的遊戲機制或程式設計語法;程序性任務執行,比如工作流和產品手冊;以及最具挑戰性的經驗發現與模擬,要求模型從資料中歸納出潛在規律。團隊展示了幾個任務案例:在一部長達2.3萬字、剛剛生效的新法律下判一起真實糾紛;基於一門新設計的教育程式語言規範實現一個帶有時間條件終止的周期性程序;在一套從未見過的程式設計框架中執行程式碼;在給定技術規格和長期環境政策情景的條件下模擬關鍵技術金屬的可持續全球供應。為了確保測試結果反映的是真正的上下文學習能力而非資料洩露或記憶,團隊採用了無污染設計:專家創作完全虛構的內容,或修改現實世界的內容建立變體,或整合在預訓練資料集中代表性極低的小眾內容。論文特別提到,在不提供任何上下文的情況下,GPT-5.1 (High)僅能解決不到1%的任務,有力證明了模型若不從上下文中學習幾乎完全無法解決這些任務。平均而言,領域專家花費約20小時標註每個上下文,以確保任務建構的質量和深度。十個前沿模型集體翻車即使提供上下文,當前模型的表現也好不到那去。團隊在CL-bench上評估了十個最先進的語言模型,結果揭示了當前模型幾乎不能從複雜上下文中學習來解決真實場景的問題。平均而言,模型僅解決了17.2%的任務,即便是表現最好的GPT-5.1 (High)也僅達到23.7%。錯誤分析顯示了幾個值得注意的現象。忽略或誤用上下文是導致失敗的主要原因,許多錯誤並非源於資訊缺失,而是源於模型忽視了上下文中的關鍵細節或錯誤地應用了它們。在許多情況下,模型只會利用預訓練學習到的靜態知識來解決任務,即使上下文明確定義了新的規則、概念或程序,模型也不會學習和利用。此外,從實驗資料和環境模擬中進行歸納推理比演繹應用更困難。演繹任務讓模型根據上下文中明確給出的規則和流程進行應用,而經驗發現和環境模擬類任務則要求歸納推理。模型在這類任務上的表現明顯較差,任務解決率通常低於10%,且結果波動大。更高的推理強度通常能提升上下文學習效果,但提升有限。例如GPT-5.1在管理類和實驗資料類任務上的表現提升約6%,但其他模型提升有限甚至可能下降,說明單靠更多推理並不足夠,模型還必須能夠正確吸收和組織上下文資訊。研究團隊最後寫道:CL-bench充分解釋了語言模型在真實場景中為什麼經常出錯:即使有了上下文工程,給模型準備好了所需的上下文,模型也會失敗。如果模型不能真正從中學習,僅僅提供上下文是不夠的。從“AI下半場”到騰訊首席AI科學家與其繼續刷榜,不如先搞清楚模型到底還差在那兒。CL-bench某種程度上正是姚順雨關於AI下半場這一判斷的具體實踐。這項研究由騰訊混元和復旦大學團隊合作完成,共同一作Shihan Dou、Ming Zhang、Zhangyue Yin。致謝部分提到,從上下文中學習新知識的想法最早源於Pluto Zhou在2024年提出的設想,同時特別感謝姚順雨提供的鼓勵以及多次寶貴建議,稱“他的全面而細緻的審閱和反饋,極大地幫助我們進一步提升了這項工作的質量”。姚順雨今年1月正式加盟騰訊,職位是騰訊總辦首席AI科學家,向騰訊總裁劉熾平匯報,同時兼任AI Infra部、大語言模型部負責人向技術工程事業群總裁盧山匯報。團隊在最後也留下了下一步研究思路:起碼在當下,我們的目標是很明確:讓上下文學習真正走向現實。 (量子位)