阿里QwQ-32B用不到其5%的參數規模,玩虐DeepSeek-R1?

在人工智慧的戰場上,一場參數規模與性能的"反常"對決正在上演! 🚀

當所有人都在談論DeepSeek成為新一代"源神"時,阿里通義團隊強勢推出了他們的秘密武器——QwQ-32B推理模型。這款僅擁有320億參數的模型,居然能與擁有6710億參數(其中370億被啟動)的DeepSeek-R1性能媲美!

換句話說,QwQ-32B用不到DeepSeek-R1 5%的參數規模,就達到了同等級的效能!這是怎樣的技術突破? 👀

實力碾壓:小身材大能量

在一系列權威基準測試中,QwQ-32B展現出驚人的實力:

  • 在被譽為"最難LLMs評測榜"的LiveBench上,QwQ-32B竟然超越了R1
  • 在數學推理(AIME2024)、程式設計能力(LiveCodeBench)和通用能力測試中,都接近或超過DeepSeek-R1-671B模型
  • 在Google等提出的指令遵循能力IFEval評測集,以及加州大學柏克萊分校的BFCL測試中,QwQ-32B得分也全面超越DeepSeek-R1

更令人驚喜的是,QwQ-32B擁有131k的上下文長度,比R1的128k還要略長! 📏

親民優勢:Mac就能跑的超級模型

由於參數量大幅減少,QwQ-32B帶來了革命性的部署便利性:

  • 可在蘋果Mac等消費級裝置上本地運行
  • 相較於DeepSeek-R1需要22台伺服器(每台8張GPU)的硬體需求,部署成本大幅降低
  • 適合對響應速度和資料安全有高要求的應用場景

阿里通義團隊已將QwQ-32B在Hugging Face和ModelScope平台開源,採用Apache 2.0開源協議,任何人都可以免費下載和商用。

強化學習:AI進化的新密碼

QwQ-32B的驚人表現背後,是強化學習(RL)這項關鍵技術的功勞。通義團隊透露,該模型在冷啟動基礎上,針對數學、程式設計任務和通用能力分別進行了兩輪大規模強化學習,從而獲得了令人震驚的推理能力提升。

這項成就恰逢2024年圖靈獎(被稱為"電腦領域的諾貝爾獎")剛剛授予了"強化學習之父"理查德·薩頓及其導師安德魯·巴托,以表彰他們為強化學習奠定的概念和演算法基礎。

強化學習的力量曾在2016年透過AlphaGo震驚世界,如今再次在大語言模型領域放出耀眼光芒。 🌟

開源領域的新博弈

雖然DeepSeek採用了更為寬鬆的MIT開源協議,並公佈了訓練方法和代碼庫,但從規模上看,阿里仍是當之無愧的開源領頭羊:

  • 自2023年至今,阿里通義已開源200多款模型
  • 千問系列的全球衍生模型已突破9萬個,超越Llama系列,成為全球最大的開源模式族群

隨著智譜、百度等巨頭相繼宣佈將發表開源大模型,國內開源模型競爭將進一步加劇。

邁向AGI的可行之路?

"希望我們的一點努力能夠證明,強大的基礎模型疊加大規模強化學習也許是一條通往通用人工智慧的可行之路。"阿里通義團隊如此表示。

強化學習的核心是確保機器從經驗中學習,或理解回饋並從錯誤中學習,這與人類智慧的本質高度吻合。與ChatGPT採用的基於人類回饋的強化學習(RLHF)相比,通義和DeepSeek的純強化學習探索又向前推進了一大步。

技術的進步永無止境,而在強化學習的助力下,AI的未來將會更加光明。 ✨

你怎麼看待阿里這款新機型?是否認為強化學習真的是通往AGI的關鍵?歡迎在評論區分享你的觀點,也別忘了把這篇文章轉發給對AI有興趣的朋友們! (澤問科技)