開源模型:DeepSeek-V3與Qwen2.5的顛覆性突破



在全球人工智慧模型快速發展的浪潮中,DeepSeek-V3和Qwen 2.5系列的亮相為開源模型注入了新的活力。這兩大模型通過技術創新和高效最佳化,成功將訓練成本和資源消耗降至最低,同時實現了與閉源頂級模型相媲美的性能。


DeepSeek-V3技術報告
報告內容詳見:

https://wcn4il2c5x2d.feishu.cn/wiki/G28mwxSAsis8Zykfyqbcsdzenbf


DeepSeek-V3模型--一個100%開放原始碼的LLM,在許多基準上擊敗了GPT 4o和Claude 3.5 Sonnet;一個強大的混合專家(MoE)語言模型,總參數為671B,每個令牌啟動了37B。DeepSeek團隊在HuggingFace上共享了模型,並在他們的“DeepSeek-V3技術報告”中提供了有關模型的詳細資訊。

DeepSeek MoE架構是一個精細的MoE,每個令牌有1個共享專家和256個路由專家,8個活躍路由專家。該架構還包括多頭潛在注意力,具有低等級聯合壓縮,用於關注鍵和值。它還具有多令牌預測,有助於投機解碼和更好地利用訓練資料。



Deepseek-V3使用14.8兆個培訓令牌進行訓練,使用了2788K H800 GPU小時,成本僅為560萬美元。DeepSeek-V3的這種具有成本效益的訓練是由於精細的MoE架構,在訓練中使用FP8混合精度,以及在訓練期間調整和擴展上下文長度。

他們通過演算法-框架-硬體共同設計克服了大型MoE模型訓練中的通訊瓶頸,實現了在訓練中有效使用計算。兩階段的上下文長度擴展首先將上下文從4k令牌擴展到32k令牌,然後擴展到128k令牌。與Llama、Claude和類似的人工智慧模型相比,這些最佳化的綜合結果是訓練效率極高,成本降低了10倍。

訓練後使用SFT和RL來與人類的偏好保持一致,並提煉DeepSeek-R1推理能力,他們的推理模型,這增強了其推理和數學能力。多令牌預測(MTP)可用於增強模型性能,並實現推理加速的投機解碼。



DeepSeek-V3對MoE LLM的基準非常令人印象深刻,只有37B個活動參數:MMLU上88.5,GPQA上59.1,MMLU-Pro上75.9,MATH上90.2,CodeForces上51.6等。DeepSeek-V3是目前最強的開源模型,其性能可與GPT-4o和Claude-3.5-Sonnet等領先的閉源模型相媲美。


Qwen2.5技術報告
報告內容詳見:

https://wcn4il2c5x2d.feishu.cn/wiki/PwpEwDPdMiJetPkaKY9cK4XFnOg


Qwen 2.5系列LLM於9月發佈,從那時起,阿里巴巴Qwen團隊發佈了有用的更新,包括Qwen-2.5編碼器32B模型,擴展了100萬個令牌上下文支援,以及基於Qwen 32B的推理人工智慧模型Qwen QwQ。本周,他們發佈了QvQ,這是一個基於Qwen2-VL-72B的視覺推理模型。這一系列版本使Qwen成為領先的LLM家族,擁有一些用於編碼、推理和本地使用的最佳人工智慧模型。

阿里巴巴Qwen團隊發佈了Qwen2.5技術報告,以提供有關該開放式權重系列LLM的更多詳細資訊。Qwen2.5系列由幾個開放式權重基礎和指令調整模型組成,參數範圍從0.5B到72B。此外,還有兩種專有的混合專家(MoE)型號,Qwen2.5-Turbo和Qwen2.5-Plus。開放式Qwen2.5-72B-Instruct的性能可與Llama-3-405B-Instruct相媲美。



一些關鍵功能&以前版本的對比

Qwen2.5 LLMs維護基於變壓器的解碼器架構,利用分組查詢注意力(GQA)、SwiGLU啟動、旋轉位置嵌入(RoPE)、QKV偏置和RMSNorm。令牌化採用字節級字節對編碼(BBPE),並具有擴展的控制令牌集。

Qwen團隊將訓練前資料集擴展到18兆個代幣,納入了更多樣和高品質的資料。預培訓包括複雜的資料過濾、專注於知識、程式碼和數學的戰略資料混合以及長上下文培訓。

對於訓練後,他們使用了超過100萬個樣本的複雜監督微調(SFT),並結合了多階段強化學習(DPO,然後是GRPO)。兩階段強化學習涉及用於複雜推理的離線學習和用於細微差別輸出質量的線上學習。

這些模型利用YARN和Dual Chunk Attention(DCA)來延長上下文長度,Qwen2.5-Turbo高達100萬個代幣。
訓練的這些進步導致了更好的人類偏好調整,增強了長文字生成,並改善了結構化資料分析。

評估展示了在語言理解、數學、編碼和人類偏好調整方面的頂級表現,該報告還強調了Qwen2.5的長上下文能力。例如,Qwen2.5-Turbo在1M令牌密碼檢索任務中實現了100%的精準率。Qwen2.5進一步成為他們最新和最偉大的專業模型的基礎:Qwen2.5-Math、Qwen2.5-Coder、QwQ和QvQ等多模態模型。


總結

雖然大多數專有人工智慧模型供應商都對技術細節保密,但Qwen團隊和DeepSeek團隊通過各自的技術報告對他們的模型及其細節進行了令人耳目一新的開放。這些模型的發佈不僅標誌著開源技術的進步,也凸顯了開放性在推動行業前行中的關鍵作用。隨著這些領先團隊的不斷努力,開源模型正在快速縮小與閉源頂級模型的差距,為全球人工智慧的發展注入新的動力。 (人工世界Artificial World)