港大90後開源,OpenAI 2萬刀博士級AI智能體平替!自主研究媲美頂會論文


AI-Researcher是一個開放原始碼的科學研究智能體框架,它能從文獻蒐集一路包辦至論文撰寫,徹底改變了科研方式,讓科研自動化觸手可及。

在AI技術迭代的座標系中,OpenAI建構的五級演進模型(對話系統→組織協調者)為產業發展提供了策略指引。

其中,處於第三至四階段的自主研究智能體(Autonomous Research Agent)正成為技術突破的焦點。

就在最近,來自香港大學HKUDS的3位研究團者開源了全新的AI-Researcher系統,正是這一關鍵領域的重要探索。

該系統實現了科學研究流程的全鏈路重構,涵蓋智慧文獻檢索、方法論架構設計、實驗最佳化到論文自動產生的完整閉環。

值得關注的是,同類功能在OpenAI商業化方案中需支付高達2萬美元/月的服務費用,而HKUDS透過開源策略打破了技術壁壘,使前沿AI工具真正成為科研共同體的普惠資源。

專案地址:https://github.com/HKUDS/AI-Researcher

自主產出學術成果,科學研究智能化典範革命

港大開放原始碼的AI-Researcher建構了突破性的開源科學研究智能體框架,成功將智能體建立門檻從專業級程式設計技能降維至直覺的自然語言互動範式。

這項創新框架實現了科學研究全流程的智慧化貫通——從文獻綜合研究、創新方法設計與實現、嚴謹實驗驗證分析,到最終高品質學術論文的完成,一氣呵成。

這種端到端的科學研究自動化顯著提升了研究效率,壓縮了從創意到成果的周期,同時降低了認知負擔,使研究人員能夠將更多精力投入到創造性思考和跨學科探索中。

該系統以Claude-3.5-sonnet為核心智慧引擎,並精心設計了相容於DeepSeek、HuggingFace等主流大模型生態的靈活架構。

透過大規模參數最佳化和任務適配,AI-Researcher成功探索了大模型智能體的能力邊界,展現出從複雜需求解析、多源知識整合到成果輸出的全方位能力,能夠持續產出符合學術標準的高品質研究結果。

這項技術突破不僅重新定義了科學研究輔助工具的標準,也為下一代智慧化學術生態提供了探索的方向。

以下展示了由AI-Researcher基於初步研究想法創作的多項科學研究探索。

影像生成

AI-Researcher在電腦視覺領域的影像生成技術「Vector Quantization」展現了卓越的科學研究能力。

僅憑使用者提供的研究方向-改進VQ-VAE中非可微量化層的梯度傳播問題及相關參考文獻,系統便獨立完成了從演算法理論建構到數學推導再到程式碼實現的完整研究閉環,展示了深度推理與創造性問題解決能力。

AI-Researcher智能體設計的解決方案包含三個互補創新元件:精確的旋轉與重縮放變換技術、高效能梯度流動最佳化方法和動態碼本管理機制。

這些技術巧妙配合,共同確保了編碼器到解碼器間的平滑梯度傳遞,成功解決了VQ-VAE架構中阻礙其效能提升的核心技術挑戰。實驗結果表明,該方法顯著提高了模型收斂速度與生成品質。

值得注意的是,AI-Researcher產生的研究成果與已發表的《Restructuring Vector Quantization with the Rotation Trick》論文也具有可比性,證明了其精準理解和實現現有研究方法的能力。該系統不僅能精準掌握論文中的核心思想和技術細節,還能獨立推匯出對應的數學原理和演算法框架。

自動產生的學術論文
演算法實現程式碼

影像壓縮

傳統的向量量化(VQ)方法雖然有效,但需要大型碼本和複雜的編碼-解碼機制,導致計算負擔重,尤其在大規模資料集上應用受限。這些複雜性和資源需求成為VAE實際部署的主要障礙,亟需更簡單且有效率的量化方法。

· AI-Researcher自主提出的技術創新點

對此,AI-Researcher提出了有限標量量化(FSQ)方法,並透過以下關鍵技術實現效能突破:

  1. 直通估計器(STE):解決量化不可微問題,確保梯度有效傳播
  2. 溫度退火與EMA更新:提高訓練穩定性並實現碼本動態適應
  3. 層次化量化結構:多層次設計減少冗餘,最佳化表示學習效率

· AI-Researcher自主完成的實驗驗證與分析

在CIFAR-10資料集上的實驗表明,FSQ方法在多項效能指標上與傳統VQ方法相當甚至更優:

  1. 效能優勢:溫度退火降低FID分數至6.284,大幅提升影像品質與多樣性
  2. 量化效率:自適應方法將量化損失從0.3059降至0.1552,層次化結構減少重建損失
  3. 架構最佳化:簡化VAE結構,降低運算負擔,同時維持高品質影像重建能力
自動產生的學術論文
演算法實現程式碼

生成式建模

雖然連續標準化流(CNF)在影像合成領域有潛力,但在生成穩定性和高維空間精確對應方面存在困難。傳統方法無法平衡計算效率與精度,限制了生成品質。

· AI-Researcher自主提出的技術創新點

AI-Researcher提出了增強型連續標準化流方法,透過四大技術創新改進CNF框架:

  1. 高階速度網路:結合增強時間嵌入、動態活化函數和殘差連結提高穩定性
  2. 速度一致性損失:確保軌跡對齊,強化生成過程穩定性與精準性
  3. 最佳化採樣:採用RK4等先進ODE求解器確保資料轉換精度
  4. EMA訓練穩定:減少梯度噪聲,提升模型收斂性

· AI-Researcher自主完成的實驗驗證與分析

  1. 效能提升:基於ResNet的增強型CNF模型FID分數由2469.50降至2448.96,最佳組態達2430.89
  2. 架構最佳化:增加網路深度並採用Tanh啟動函數顯著提高了樣本保真度和多樣性
  3. 未來方向:實驗為進一步最佳化速度一致性損失、高階取樣技術和參數調優提供了明確方向
自動產生的學術論文
演算法實現程式碼

智能體技術架構解析:自動化科學研究的全流程實現

AI-Researcher框架

智慧文獻研究Automated Literature Review

AI-Researcher透過先進的資源收集系統自動從arXiv、IEEE Xplore和ACM等權威學術資料庫取得相關文獻,並從GitHub和Hugging Face等開發平台收集高品質程式碼實例。

系統整合了智慧評估機制,精確篩選文獻品質與程式碼可用性,確保僅將最有價值的資源納入深度分析流程。

這個自動化文獻分析架構使研究人員能夠快速掌握領域前沿動態,精準辨識關鍵技術突破點和研究空白區域,為創新研究提供知識背景。

創意構思與方向引導Creative Ideation and Direction Guidance

在深入掌握現有研究成果的基礎上,AI-Researcher的創意產生器精確分析技術瓶頸並系統性地探索突破路徑。根據研究需求,系統提供兩種智慧工作模式:

  • L evel 1任務:基於使用者提供的詳細研究方向進行深度開發與創新延伸
  • Level 2任務:僅依託參考文獻自主建構前沿研究思路,實現原創性突破

系統採用多維度創意生成框架,首先透過啟髮式演算法產生多元化研究方向集合,隨後基於創新突破性、技術實現可行性和潛在學術影響力等關鍵指標進行綜合評估,最終鎖定最具發展前景的研究路徑,為使用者提供精準的創新指引。

演算法實作與實驗驗證

AI-Researcher在演算法設計與驗證階段採用系統化、循序漸進的方法論框架,包括:

  1. 設計規劃:精確制定實現策略與技術路線圖,深度評估方案的理論創新與工程可行性,確保研究方向價值最大化
  2. 程式碼開發:將抽象演算法概念轉化為高效可執行程式碼,建構完整測試環境與評估框架,確保實現的穩健性
  3. 嚴謹驗證:執行全面多維度測試,透過定量與定性結合的方式評估演算法效能,收集並分析關鍵效能指標
  4. 迭代最佳化:基於實驗結果進行資料驅動的演算法改進,針對性解決瓶頸問題,持續提升系統效能

這種自動化的實驗驗證閉環確保研究成果具備高度可靠性和可重現性,顯著提升科學研究效率並加速從概唸到實用技術的轉換過程。

學術論文撰寫

AI-Researcher的高階寫作模組能夠自動產生符合嚴格學術規範的完整研究論文,精確整合研究動機、理論架構和實驗結果。

系統採用精心設計的層次化寫作方法,確保論文結構嚴謹清晰、論證邏輯嚴密、專業用語精準。

產生的學術成果遠超簡單實驗報告,而是具備完整學術價值的研究貢獻,包含深入的理論分析、精確的演算法形式化描述和全面的實驗評估。

每篇論文均配備詳實的相關工作討論、清晰的創新點闡釋和深入的結果分析。

多維度研究評估

AI-Researcher建構了精密的綜合評估框架,從五個關鍵維度進行深度品質評估:

  1. 創新突破性:評估原創貢獻度、技術突破點和學術影響力
  2. 實驗嚴謹性:分析實驗設計科學性、評估指標完整性與結果可重複性
  3. 理論基礎深度:檢視數學嚴謹性、推導完整性與與既有知識體系的銜接
  4. 結果分析洞察力:評估資料解讀深度、比較分析能力和異常現象解釋合理性
  5. 學術寫作專業:檢視結構完整性、論證邏輯和專業表達精準性

此多維度評估機製為研究人員提供全面品質回饋,同時驅動AI-Researcher系統自身持續最佳化演化。

標準化評測體系

AI-Researcher開發了全面的基準測試套件,用於客觀衡量AI-Reseacher的研究能力:

  • 採用人類專家論文作為評斷標準
  • 目前涵蓋電腦視覺、自然語言處理、資料探勘與資訊檢索四大領域
  • 完全開放原始碼的評測體系,包括資料集和評估程式碼
  • 分級評估機制,適應不同研究階段的需求

這套透明、客觀的評測體系不僅確保了系統表現的可信度,也為整個AI賦能科學發現的探索提供了重要參考。

作者介紹

湯嘉斌

AI-Researcher計畫的第一作者湯嘉斌(1999年生),現為香港大學資料科學研究院的博士二年級學生,師從黃超教授。

他在AI領域表現卓越,並在KDD、SIGIR等頂尖國際會議發表多篇第一作者論文,其研究工作被評選為SIGIR 2024最有影響力論文之一,目前專注於大型語言模型與智能體系統的前沿技術研究。

他是開源社群的活躍貢獻者,開發了多個廣受學術界和工業界認可的開放原始碼專案,包括AutoAgent和GraphGPT等工作。

夏良昊

AI-Researcher計畫的共同第一作者夏良昊博士(1995年生),現為香港大學計算與資料科學學院研究助理教授,師從黃超教授。

他在圖學習和大語言模型領域取得了卓越成就,學術影響力顯著,其發表論文累計引用量已突破4,800次,因此被史丹佛大學評選為2024年全球前2%頂尖科學家。

他以第一作者身份發表的多篇開創性研究成果廣受認可,其中包括被評為WWW 2023、SIGIR 2022和SIGIR 2021最具影響力論文。

作為開源圖學習基礎模型領域的探索者,他領銜開發了OpenGraph和AnyGraph等前沿圖大模型專案。

黃超

AI-Researcher計畫的導師黃超現任香港大學電腦科學系和資料科學研究所助理教授及博士生導師。

他的研究興趣涵蓋人工智慧的多個關鍵領域,包括大語言模型(LLM)、智能體、圖學習、推薦系統和智慧城市。

他的學術論文已獲得超過9,600次引用,並在ACM MM 2024、WWW 2023、WSDM 2022等主要會議上獲得最佳論文獎或提名。

此外,他的學術貢獻也被選為KDD(2019/2023/2024)、WWW(2023/2024)和SIGIR(2021/2022/2023/2024)等頂尖會議的影響力論文。

他的實驗室也開發了多個廣受認可的開放原始碼專案,如LightRAG、AutoAgent、MiniRAG、GraphGPT、VideoRAG等。這些項目在開源平台上累計獲得超過23,000顆星標。

他獲得了2024年世界人工智慧大會(WAIC)的「明日之星獎」,並榮獲「2024年理論電腦科學與資訊科學前沿科學獎」。

參考資料:

https://github.com/HKUDS/AI-Researcher

https://x.com/huang_chao4969/status/1899505762684346685 (新智元)