#深度研究
阿里開源「深度研究」王炸Agent,登頂開源Agent模型榜首
3B參數超越OpenAI o3、DeepSeek V3.1。智東西9月17日報導,今天凌晨,阿里巴巴開源了其首個深度研究Agent模型:通義DeepResearch。在Humanity's Last Exam(HLE)、BrowseComp、BrowseComp-ZH、GAIA、xbench-deepsearch、WebWalkerQA以及Frames等權威Agent評測集中,通義DeepResearch模型憑藉3B啟動參數,性能超越基於OpenAI o3、DeepSeek V3.1和Claude-4-Sonnet等旗艦模型的ReAct Agent(推理-行動智能體)。▲基準測試成績排名▲基準測試分數目前,通義DeepResearch的模型、框架和方案已在Github、Hugging Face和魔搭社區全面開源,開發者和使用者可自行下載模型與程式碼。下載地址:Github:https://github.com/Alibaba-NLP/DeepResearchHugging Face:https://huggingface.co/Alibaba-NLP/Tongyi-DeepResearch-30B-A3B魔搭社區:https://modelscope.cn/models/iic/Tongyi-DeepResearch-30B-A3B深度研究作為近一年的AI研究熱點,吸引了Google、OpenAI、Anthropic等眾多主流企業投入研發。深度研究研發的現有方法大多採用“單窗口、線性累加”的資訊處理模式,在處理長周期任務時,Agent易遭遇“認知空間窒息”與“不可逆的噪聲污染”,導致推理能力降低,難以完成複雜研究任務。據介紹,為解決這些問題,阿里通義團隊建構了一套合成資料驅動的完整訓練鏈路,覆蓋預訓練與後訓練階段。該鏈路以Qwen3-30B-A3B模型為基礎進行最佳化,設計了RL演算法驗證與真實訓練模組,涵蓋真實與虛擬環境,並借助非同步強化學習演算法及自動化資料策展流程,有效提升了模型的迭代速度與泛化能力。在推理階段,通義團隊還設計了ReAct和基於自研IterResearch的Heavy兩種模式。ReAct用於精準評估模型的基礎內在能力,Heavy則通過test-time scaling策略,充分挖掘模型的性能上限,確保在長任務中也能實現高品質推理。結語:阿里進一步補全開源佈局今年以來,阿里已陸續開源WebWalker、WebDancer和WebSailor等多款檢索和推理智能體,且均取得開源SOTA成績。通義DeepResearch的開源,進一步豐富了阿里在AI智能體領域的開源佈局。通義DeepResearch的開源為深度研究Agent賽道提供了“輕量化高性能”的新選擇,也為全球開發者攻克長周期複雜研究任務提供了關鍵工具支撐。 (智東西)