#視覺推理模型
阿里QVQ-Max來了!超絕視覺推理模型,會看網課學程式設計,免費可用
智東西3月28日報導,阿里大模型表情包軍團再添猛將!今日凌晨,大模型“勞模”阿里雲通義團隊發佈其首款視覺推理模型QVQ-Max。在數學問題、生活常識、程式設計程式碼、藝術創作等場景,該模型可以看懂圖片和視訊裡的內容,還能結合這些資訊進行分析、推理,並給出解決方案。例如,QVQ-Max可以協助使用者在工作中完成資料分析、資訊整理、程式設計寫程式碼等任務,幫助學生解答配有圖表的數學、物理等科目的難題,並通過直觀的方式講解複雜概念,在生活中根據衣櫃照片推薦穿搭方案、基於食譜圖片指導使用者烹飪。使用者只需上傳任何圖像或視訊然後提出問題,點選 “思考 ”按鈕,即可查看它如何逐步處理視覺資訊。多模態數學問題的資料集MathVision可以用來評估模型解決複雜數學問題的能力,研究人員發現,模型思考的token數越長,其MathVision的精準度就會越高。部落格中提到,他們設計QVQ-Max的目標,就是讓它成為一個既“眼尖”又“腦快”的助手,幫助使用者解決各種實際問題。體驗地址:https://chat.qwen.ai/4月1-2日,智東西聯合主辦的2025中國生成式AI大會將舉行。50+位嘉賓將在開幕式、GenAI應用論壇、大模型峰會、DeepSeek R1與推理模型技術研討會、AI智能體技術研討會、具身智能大模型技術研討會帶來報告、演講、對話和討論。最終議程已公佈,掃碼申請主會場觀眾票或購票參會。01. 秀多圖識別、數學推理 看視訊學習程式設計技能阿里通義團隊在部落格中放出了幾個新鮮的QVQ-Max演示案例。首先是多圖識別,QVQ-Max可以描述圖片中的景色,並且通過分析圖片資訊找到這兩張圖片的相關之處。其次是數學推理,這道難題需要模型從圖片中找問題和答案,QVQ-Max通過分析其餘8個數字之間的關係,得出了最後一格的數字應該是10的正確答案。第三個是讓QVQ-Max看手相,感情線、生命線、事業線分析得頭頭是道。第四個考驗了模型的視訊理解能力,演示中模型對一個簡筆畫的蝸牛視訊進行了分析,然後為這條視訊建立了貼合的字幕。最後一個是讓QVQ-Max看視訊自學程式設計,在觀看了一個類似貪吃蛇的小遊戲視訊後,QVQ-Max很快就復刻了一個類似遊戲,給出了完整的程式碼。02. 觀察細緻入微、深入分析 還能靈活創作QVQ-Max的能力可以總結為三個方面:細緻觀察、深入推理和靈活應用。細緻觀察方面,QVQ-Max能快速識別出複雜圖表、日常隨手拍照片中的關鍵元素,例如它可以找到圖片中有那些物品、有什麼文字標識等。深入推理就是讓模型基於看到的內容進行分析,然後結合背景知識得出結論。例如,在一道幾何題中,它可以根據題目附帶的圖形推匯出答案;在一段視訊裡,它能根據畫面內容推測出接下來可能發生的情節。除了分析和推理,QVQ-Max還可以靈活應用這些能力進行創作,例如幫助使用者設計插畫、生成短影片指令碼、創作角色扮演的內容,或者化身評論家、占卜師。這使得其在使用者工作、學習、生活中的應用場景增多。一般而言,大模型在回答問題、寫文章、生成程式碼時主要依賴文字輸入。但現實生活中,很多資訊並不只是用文字表達,而是圖片、圖表、視訊、文字互動出現,並且圖片中包含的資訊會比文字更直觀、更複雜,如其中的顏色、形狀、位置關係等。例如使用者分析建築圖紙時,僅靠文字描述是無法判斷其合理性的,需要結合圖紙以及專業知識分析,這也是阿里通用團隊研究視覺推理模型的原因。03. 結語:視覺推理模型的演進方向 更準確觀察、視覺Agent、互動多元目前發佈的QVQ-Max是阿里通義視覺推理模型的第一版,未來,研究人員會重點關注以下幾個方向:通過視覺內容的校驗來檢查觀察內容的精準性提高識別能力;通過視覺Agent提升模型在處理多步和更複雜的任務,如手機電腦操控,玩遊戲;讓模型在思考和互動中不侷限於文字,還可以涵蓋更多的模態,比如工具校驗,視覺生成等。作為一款能看懂又能深度推理的視覺模型,QVQ-Max已經展現出了完成創造性任務的應用潛力。 (智東西)