#Qwen2.5
阿里震撼發佈,32B的Qwen2.5,開發者福音!實測:AI可以幫抓小偷了!阿里撞車DS再次坐實“AI汪峰”;網友:美國模型完了
阿里今天發了Qwen2.5-VL的32B版本,達到同等規模的SOTA模型,堪稱開發者福音!千問接連兩三次的模型發佈時間都不太湊巧。今日與DeepSeek V3的更新撞車,而上次發的QwQ-32B以輕量推理模型擊敗了DeepSeek R1,但風頭完全被Manus搶走了!連網友都直呼阿里是AI屆汪峰。不過話說回來,Qwen2.5-VL-32B這個模型還是很值得關注,作為阿里放出的第二大視覺模型,性能甚至超過了更大規模的 Qwen2-VL-72B-Instruct!主要有以下三方面優勢:回覆更符合人類主觀偏好:調整了輸出風格,使回答更加詳細、格式更規範,並更符合人類偏好。數學推理能力:複雜數學問題求解的精準性顯著提升。圖像細粒度理解與推理:在圖像解析、內容識別以及視覺邏輯推導等任務中表現出更強的精準性和細粒度分析能力。從性能上看,Qwen2.5-VL-32B不僅在專長的視覺能力上一騎絕塵:連純文字能力,都達到了同規模模型的SOTA等級:無論是從開發者的本地部署需求出發,還是32B所做的架構更新,都有可圈可點之處。阿里大佬Binyuan Hui表示這個模型尺寸就是為開發人員準備的。在X上找資料的時候,我們甚至發現網友曾向千問團隊大佬隔空喊話。千問的反饋速度可以啊,網友這波許願成功!海外網友也是對該模型讚美有加,經過實測,該模型在識別物體、分析視覺效果、掃描等方面令人印象深刻!甚至能理解一小時的視訊!現在,Qwen2.5-VL-32B已經開源,大家可以在Qwen網頁版快速試用:網頁版:https://chat.qwen.ai/HF:https://huggingface.co/spaces/Qwen/Qwen2.5-VL-32B-Instruct加上DeepSeek的更新,今天可以說是中國開源模型的Big Day。一位網友在Hacker News上留言說:很快我就不會再使用任何美國模型了,而是 100% 採用中國的開源模型。(美)基礎模型公司完了,只有賣鏟子的(如 Nvidia、基礎設施公司)和產品公司會贏。案例實測:Qwen2.5-VL-32B可以做什麼雖然Qwen2.5-VL-32B並沒有類似R1的長推理能力,但是其視覺推理仍然表現出色!先來看一個阿里blog裡的demo案例:使用者將高速的限速牌拍給了AI,並問到:我駕駛一輛大卡車行駛在這條路上,現在是 12 點鐘。我能在 13 點之前到達 110 公里多遠的地方嗎?這個案例很有生活感了。就是咱們平時需要用的AI能力。然後AI就開始提取圖片的資訊,開始幫人吭哧吭哧地計算了。最後表示:目標是 13:00 之前到達。然而,根據計算,你將在 13:06 抵達,已經超過了 13:00。知乎網友@北方的郎,以超市的智能預警系統為例,對Qwen2.5-VL-32B進行了一把實測。感覺攝影機配個模型就可以出去打工了。先是測試了一個形跡可疑的男人:模型給出了通知安保的建議。然後又用了一張正常的超市圖進行測試,還是做出了正確識別!再來看一下Qwen2.5-VL-32B理解視訊的能力,據網友實測,本地部署後能做長達一小時的視訊理解。不過在網頁端,則支援10分鐘以內的短影片。小編使用之前看華為Pura的發佈會錄屏片段,詢問下智能助手小藝是如何在使用者的語音指令下,為觀看的B站視訊一鍵三連的:Qwen2.5-VL-32B的響應非常絲滑,而且主要的內容都get到了。不過很可惜的是,我希望AI識別出來這是目前AI大熱的智能體方向,並基於此出發談談技術實現,這一點AI稍弱一些。既要又要:更聰明、更輕量的模型是怎樣煉成的?那麼阿里是怎麼做到讓32B模型如此優秀的呢?HF中給出了一些Qwen2.5-VL的技術細節,可以猜測這仍然是32B模型進化的方面。讓 AI 更懂視訊:動態解析度與影格率訓練為了讓 AI 更好地理解視訊,Qwen2.5-VL 不僅能調整解析度,還在時間維度上引入了動態影格率(FPS)採樣。這樣一來,模型可以在不同的採樣速率下分析視訊,適應各種播放速度和場景。與此同時,mRoPE 也在時間維度上進行了升級——通過IDs(識別碼)和絕對時間對齊,模型學會了理解時間序列和速度變化,甚至能精準定位關鍵時刻,讓視訊分析更智能。高效精簡的視覺編碼器,讓推理更快在視覺處理方面,這一版本的 Qwen2.5-VL 也進行了最佳化。它在 ViT(視覺變換器) 中巧妙地加入了窗口注意力機制,顯著提升了訓練和推理的效率。One More Thing:千問即將支援MCP今天打開Qwen的網頁版,還發現千問已經計畫支援MCP!給不太熟悉MCP的朋友科普一句,這個開源協議由Anthropic去年年底提出,旨在統一大型語言模型(LLM)與外部資料來源和工具之間的通訊方式。簡單來說,MCP就像AI界的USB-C介面,讓AI系統能更方便地連接各種資料來源和功能模組,實現即插即用。對於千問來說,接入MCP意味著它們可以更高效地獲取和處理外部資訊,提升理解和決策能力。看來,阿里在智能體方向有了清晰的藍圖!希望阿里下次發重磅更新的時候,能有運氣選到一個好時機,有實力的同時,也能獲得值得的口碑和聲量。 (51CTO技術堆疊)