在人工智慧的戰場上,一場參數規模與性能的"反常"對決正在上演! 🚀
當所有人都在談論DeepSeek成為新一代"源神"時,阿里通義團隊強勢推出了他們的秘密武器——QwQ-32B推理模型。這款僅擁有320億參數的模型,居然能與擁有6710億參數(其中370億被啟動)的DeepSeek-R1性能媲美!
換句話說,QwQ-32B用不到DeepSeek-R1 5%的參數規模,就達到了同等級的效能!這是怎樣的技術突破? 👀
在一系列權威基準測試中,QwQ-32B展現出驚人的實力:
更令人驚喜的是,QwQ-32B擁有131k的上下文長度,比R1的128k還要略長! 📏
由於參數量大幅減少,QwQ-32B帶來了革命性的部署便利性:
阿里通義團隊已將QwQ-32B在Hugging Face和ModelScope平台開源,採用Apache 2.0開源協議,任何人都可以免費下載和商用。
QwQ-32B的驚人表現背後,是強化學習(RL)這項關鍵技術的功勞。通義團隊透露,該模型在冷啟動基礎上,針對數學、程式設計任務和通用能力分別進行了兩輪大規模強化學習,從而獲得了令人震驚的推理能力提升。
這項成就恰逢2024年圖靈獎(被稱為"電腦領域的諾貝爾獎")剛剛授予了"強化學習之父"理查德·薩頓及其導師安德魯·巴托,以表彰他們為強化學習奠定的概念和演算法基礎。
強化學習的力量曾在2016年透過AlphaGo震驚世界,如今再次在大語言模型領域放出耀眼光芒。 🌟
雖然DeepSeek採用了更為寬鬆的MIT開源協議,並公佈了訓練方法和代碼庫,但從規模上看,阿里仍是當之無愧的開源領頭羊:
隨著智譜、百度等巨頭相繼宣佈將發表開源大模型,國內開源模型競爭將進一步加劇。
"希望我們的一點努力能夠證明,強大的基礎模型疊加大規模強化學習也許是一條通往通用人工智慧的可行之路。"阿里通義團隊如此表示。
強化學習的核心是確保機器從經驗中學習,或理解回饋並從錯誤中學習,這與人類智慧的本質高度吻合。與ChatGPT採用的基於人類回饋的強化學習(RLHF)相比,通義和DeepSeek的純強化學習探索又向前推進了一大步。
技術的進步永無止境,而在強化學習的助力下,AI的未來將會更加光明。 ✨
你怎麼看待阿里這款新機型?是否認為強化學習真的是通往AGI的關鍵?歡迎在評論區分享你的觀點,也別忘了把這篇文章轉發給對AI有興趣的朋友們! (澤問科技)