DeepSeek研究員讓AI自己研究自己！AI執筆99%，6天搞定45頁論文

2026/05/27

•

DeepSeek和GPT聯手執筆，76分鐘速成初稿。

DeepSeek和GPT合體寫論文了！

智東西5月27日報導，昨晚，DeepSeek資深研究員陳德里（Deli Chen）放出一篇他和Agent合寫的45頁論文，其中99%內容都是CodeAgent所寫。

論文題目是《從Copilots到同事：自主科研智能體綜述（From Copilots to Colleagues：A Survey of Autonomous Research Agents）》，作者是陳德里、DeepSeek-V4-Pro、GPT-Image2。

陳德里還特意發了免責聲明：這篇論文絕非嚴謹學術論文、不代表任何公司或組織觀點，只是出於興趣以及順便測試下他搭建的DeliAutoResearch。

他透露，論文共迭代6次，耗時6天搞定，而初稿僅用了76分鐘。期間智能體累計運行約108輪、消耗Token約64.8萬、LaTeX程式碼共2234行，最終成品45頁，其中包含7個圖示、4個表格，檔案大小538KB。陳德里也不禁感嘆，同樣的工作以前至少需要一個月才能完成，而這次他本人的“CPU運轉時長”不到2小時。

陳德里是DeepSeek-V1、V2、V3、V4、DeepSeek-R1、DeepSeek-Coder、DeepSeek-MoE架構的核心貢獻者，他曾獲得北京大學資訊管理學士學位及電腦科學碩士學位，曾在騰訊擔任微信AI研究員。

這篇論文梳理了機器學習、軟體工程、科學發現三大領域共計105篇相關文獻，陳德里稱已經對這些文獻進行了驗證。其核心目的是為能夠自主開展研究的AI智能體提供統一的分析框架，主要有四項研究成果：

1、提出一套五級自主能力分級體系（L1–L5），層級從程式碼自動補全延伸至完全自主制定研究規劃，為各類系統的界定與對比提供規範的術語標準。

2、剖析了四大主流架構模式：單智能體循環、多智能體協作、分層調度編排、工具增強執行；同時搭建對比分析框架，評估各類架構在可擴展性、成本、穩定性及人工監管方面的優劣取捨。

3、基於六維特徵矩陣，對17款主流系統展開分析。研究結果表明，當前前沿系統普遍處於L4等級（限定領域內可完成多步驟自主執行），而L5等級仍停留在目標構想階段。

4、梳理出六大核心待解難題：認知死循環、上下文窗口限制、創新價值評估、結果可復現性、安全風險與使用成本，並針對每項難題給出具體研究方向。

其研究分析發現，實現L5級自主能力的核心瓶頸並非模型基礎性能，而是在於長效知識沉澱、可靠的自我評估能力，以及具備理論支撐的智能體架構規模化方案三大難點。

不少開發者紛紛在陳德里的評論區下面求開源。

論文：

https://victorchen96.github.io/auto_research_survey.pdf

01. 當前系統多為能獨立產出論文的L4級已有系統展現出L5級特徵

論文將自主研究智能體定義為：一類軟體系統，在接收到高層級研究目標後，能夠獨立執行科學探究的迭代閉環，包括假設生成、實驗設計、執行、分析與迭代最佳化，且在執行流程中僅需極少、甚至完全無需人工干預。

自主研究智能體的五級自主能力分級體系（L1–L5），是基於兩個維度：

一是智能體可對什麼內容獨立做出決策，二是智能體在無需人工稽核介入的情況下，可持續自主運行多久。

L1的典型代表是GitHub Copilot等程式碼補全工具，這一層級中智能體可運行單個token或單行文字，核心能力是對人類撰寫文字後續內容的預測，且人類完全主導內容的方向、結構與正確性。

論文中提到，從CodeX演化而來的程式碼補全模型，在受控編碼任務中可實現30%-55%的效率提升，但無法獨立完成多步驟目標。

L2的代表是帶外掛的ChatGPT、支援工具呼叫的Claude等對話式AI助手，智能體能夠將定義清晰的任務拆解為多個步驟並執行，但每一步都需要人工的顯式或隱式審批。

其能力包括網頁搜尋、程式碼執行、資訊整合，全程需要人類引導對話、驗證中間結果。

L3是程式碼智能體，這之中，智能體可自主執行10-100個連續動作，僅在預設的檢查點、或遇到不確定情況時，才請求人工稽核。其能自主查看程式碼倉庫、編輯檔案，無需人類逐步驟審批。

L3與L2級的核心區別在於：智能體可自主做出決策，例如選擇編輯那個檔案、如何修複測試失敗，無需逐步驟獲得人工批准；人類僅保留監督權。

L4的代表是AI Scientist系統、Devin、SWE-Agent等，可自主生成研究思路、撰寫論文、運行實驗、產出完整論文，甚至完成自動化同行評審，全流程無人工干預。

這一層級的智能體接收到研究目標後，可獨立運行數小時至數天，包括自主從故障中恢復、迭代最佳化策略、最終產出完整的研究成果。人類僅需評估最終輸出結果，無需全程監督執行過程。

L5是自主能力的最高等級，智能體不僅能執行研究任務，還能自主選擇研究問題、在多個項目間分配資源、基於過往成果持續迭代。

其研究顯示目前尚無系統達到這一層級，可自主生成難度遞增任務學習課程的智能體Voyager，可基於過往成功程序迭代發現新數學構造的智能體FunSearch已經展現出了L5的部分特徵。

02. 四大主流架構可適配不同層級系統

論文歸納了四大主流架構模式：單智能體循環（ReAct/Reflexion）、多智能體協作（MetaGPT/AutoGen）、分層編排（Supervisor-Worker）、工具增強執行（CodeAct）。

單智能體循環（ReAct/Reflexion）：這是自主智能體中最簡單、應用最廣泛的基礎架構，由單個語言模型迭代執行“觀察環境→推理下一步動作→執行動作→吸收反饋”的閉環流程，是絕大多數L3-L4級系統的核心架構。

儘管架構設計簡單，但它是絕大多數L3-L4級系統的核心骨架，且在推理策略上存在大量可最佳化、可變化的空間，適配性極強。

多智能體協作（MetaGPT/AutoGen）：多智能體系統可以將任務責任拆分給多個專業化智能體，通過智能體間的通訊與協作完成目標。

分層編排（Supervisor-Worker）：隨著任務複雜度不斷提升，扁平化的多智能體通訊模式會逐漸失效，分層編排引入了明確的監督管控關係：由一個高層監督者智能體負責拆解任務，將子任務分配給專業化的執行者智能體，同時監控任務進度，並在必要時介入調整。

最後是工具增強執行（CodeAct）：這是自主研究智能體的核心標誌性特徵，是其與外部工具、外部環境互動的能力。工具增強執行將語言模型從被動的文字生成器，轉變為計算與物理工作流中的參與者，再加上其可以外接程式碼、實驗、網頁，能力上限最高。

總的來看，L2級系統用簡單的單智能體循環即可高效運行，L3級系統採用Reflexion，可天然嵌入檢查點機制，收益最大，L4級系統通常需要分層編排架構，搭配自主迭代最佳化，才能在長時間自主運行中維持輸出質量，理論上的L5級系統大機率需要具備自重組能力的圖結構架構才能實現。

03. 三大結論：開閉源差距縮小專用智能體超越通用，程式碼智能體最成熟

基於六維特徵矩陣，論文對17款主流系統展開分析，六維特徵包括前文提到的L1-L5自主等級、核心應用領域、架構模式、工具整合廣度、評測方法論、開源屬性。

其得到三大結論：

首先更聚焦某一領域的系統，能力上限更高，其中，程式碼智能體在所有維度中表現最優，受益於自動化評測體系、成熟的工具環境、大規模基準測試的支撐，是當前行業最成熟的賽道。

其次領域專用智能體全面超越通用智能體，SWE-Agent、Coscientist、FunSearch等L4級系統均通過收縮應用範圍實現了穩定輸出，AutoGPT、BabyAGI等通用智能體，始終無法在多樣化任務中實現穩定的L4級運行。

最後，開源與閉源的差距正在縮小，開源系統OpenHands的性能表現已經非常接近Devin等閉源系統。

在評測體系方面，論文提到了需要聚焦三大核心方向：

多維度指標：聯合評估創新性、正確性、效率、安全性，而非單一維度的最佳化；長周期評測：追蹤智能體在長期科研項目中的表現，而非孤立的單次任務；社群化評估：將專家反饋循環嵌入評測流程，建立行業共識的評估標準。

論文最後還給出了智能體系統六大核心待解難題：認知死循環、上下文窗口限制、創新價值評估、結果可復現性、安全風險與使用成本。

其中認知死循環、原創性評測、安全問題最為關鍵，因此認知循環問題使得智能體仍無法識別自身陷入困境，只會在失敗策略上持續堅持，而非尋找全新方法；再加上其沒有可靠的自動化指標，能衡量科研成果的質量與原創性，導致智能體無法在閉環中實現自我改進；最後隨著智能體能力提升，其安全邊界與倫理風險愈發突出。

04. 結語：雙AI協作產出完整論文智能體真變身科研同事了

陳德里此次的實驗，讓智能體實現了從想法到完整論文的自主產出，其僅投入2小時人類思考時間，通過雙AI協作就產出了AI科研綜述論文，證明了AI從工具進化為“科研同事”的可行性。

AI此次面對長周期、長流程的複雜工作，最後生成的論文邏輯清晰且沒有跑偏，展現出了超長文字處理、長流程持續執行、全程邏輯統一的核心能力。

在科研智能體領域，陳德里不僅用有趣的實驗展現出了科研智能體的能力，還通過完整的論文分析解讀展現出當下這一領域發展的現狀及痛點，可以說是雙管齊下，或為後續智能體的研究提供了新穎的參考方向。 (智東西)

科技

DeepSeek研究員讓AI自己研究自己！AI執筆99%，6天搞定45頁論文

01. 當前系統多為能獨立產出論文的L4級 已有系統展現出L5級特徵

02. 四大主流架構可適配不同層級系統

03. 三大結論：開閉源差距縮小 專用智能體超越通用，程式碼智能體最成熟

04. 結語：雙AI協作產出完整論文 智能體真變身科研同事了

01. 當前系統多為能獨立產出論文的L4級已有系統展現出L5級特徵

03. 三大結論：開閉源差距縮小專用智能體超越通用，程式碼智能體最成熟

04. 結語：雙AI協作產出完整論文智能體真變身科研同事了