【DeepSeek】接棒DeepSeek!阿里千問宣佈開源百萬Token上下文模型:主打閃電般的推理「附送詳細技術報告」

繼DeepSeek R1後阿里通義千問團隊剛剛宣佈推出其最新的開源模型 Qwen2.5-1M!


此次發佈的 Qwen2.5-1M 系列包含了兩個開源模型:

Qwen2.5-7B-Instruct-1M 和 Qwen2.5-14B-Instruct-1M

這也是通義千問首次推出能夠原生支援百萬Token上下文長度的模型

  • 處理超長文件: 輕鬆應對書籍、長篇報告、法律檔案等,無需進行繁瑣的文件分割。
  • 進行深度對話: 支援更長時間、更深入的對話,模型能夠記住更長的對話歷史,實現更連貫、更自然的互動體驗。
  • 理解複雜任務: 更好地理解需要長程依賴的任務,例如程式碼理解、複雜推理、多
    輪對話等。

快如閃電的推理速度

除了令人震撼的百萬Token上下文長度,Qwen2.5-1M 還帶來了另一項重大突破:閃電般快速的推理框架! 通義千問團隊完全開源了基於 vLLM 的推理框架,並整合了稀疏注意力機制。這一創新性的框架使得 Qwen2.5-1M 在處理百萬Token輸入時,速度提升了 3 倍到 7 倍!這意味著使用者可以更加高效地使用超長上下文模型,極大地提升了實際應用場景的效率和體驗

附送詳細的技術報告

為了讓使用者更深入地瞭解 Qwen2.5-1M 系列背後的技術細節,通義千問團隊還發佈了詳細的技術報告。報告中全面解析了模型的設計理念、訓練方法、性能表現以及推理框架的技術細節,為研究人員和開發者提供了寶貴的參考資料

技術報告:

https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen2.5-1M/Qwen2_5_1M_Technical_Report.pdf

體驗

1.通義千問 Chat 平台 :

https://chat.qwenlm.ai

直接體驗支援百萬Token的 Qwen2.5-Turbo 模型,感受超長上下文帶來的流暢對話體驗

2.Hugging Face

https://huggingface.co/collections/Qwen/qwen25-1m-679325716327ec07860530ba

在 Hugging Face 上獲取 Qwen2.5-1M 模型,方便開發者進行二次開發和整合

3.Modelscope:

https://modelscope.cn/collections/Qwen25-1M-d6cf9fd33f0a40

在 Modelscope 平台上獲取模型,享受阿里雲提供的模型服務和生態支援 (AI寒武紀)