【DeepSeek】接棒DeepSeek!阿里千問宣佈開源百萬Token上下文模型：主打閃電般的推理「附送詳細技術報告」

2025/01/27

•

繼DeepSeek R1後阿里通義千問團隊剛剛宣佈推出其最新的開源模型 Qwen2.5-1M！

此次發佈的 Qwen2.5-1M 系列包含了兩個開源模型：

Qwen2.5-7B-Instruct-1M 和 Qwen2.5-14B-Instruct-1M

這也是通義千問首次推出能夠原生支援百萬Token上下文長度的模型

處理超長文件： 輕鬆應對書籍、長篇報告、法律檔案等，無需進行繁瑣的文件分割。
進行深度對話： 支援更長時間、更深入的對話，模型能夠記住更長的對話歷史，實現更連貫、更自然的互動體驗。
理解複雜任務： 更好地理解需要長程依賴的任務，例如程式碼理解、複雜推理、多
輪對話等。

快如閃電的推理速度

除了令人震撼的百萬Token上下文長度，Qwen2.5-1M 還帶來了另一項重大突破：閃電般快速的推理框架！ 通義千問團隊完全開源了基於 vLLM 的推理框架，並整合了稀疏注意力機制。這一創新性的框架使得 Qwen2.5-1M 在處理百萬Token輸入時，速度提升了 3 倍到 7 倍！這意味著使用者可以更加高效地使用超長上下文模型，極大地提升了實際應用場景的效率和體驗

附送詳細的技術報告

為了讓使用者更深入地瞭解 Qwen2.5-1M 系列背後的技術細節，通義千問團隊還發佈了詳細的技術報告。報告中全面解析了模型的設計理念、訓練方法、性能表現以及推理框架的技術細節，為研究人員和開發者提供了寶貴的參考資料

技術報告:

https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen2.5-1M/Qwen2_5_1M_Technical_Report.pdf

體驗

1.通義千問 Chat 平台：

https://chat.qwenlm.ai

直接體驗支援百萬Token的 Qwen2.5-Turbo 模型，感受超長上下文帶來的流暢對話體驗

2.Hugging Face

https://huggingface.co/collections/Qwen/qwen25-1m-679325716327ec07860530ba

在 Hugging Face 上獲取 Qwen2.5-1M 模型，方便開發者進行二次開發和整合

3.Modelscope：

https://modelscope.cn/collections/Qwen25-1M-d6cf9fd33f0a40

在 Modelscope 平台上獲取模型，享受阿里雲提供的模型服務和生態支援 (AI寒武紀)