今天凌晨,阿里通義千問團(tuán)隊(duì)宣布推出新一代視覺推理模型 QVQ-Max。
據(jù)官方介紹,QVQ-Max 不僅能夠理解圖片和視頻內(nèi)容,還能為上述信息提供分析并推理。不止分析和推理,QVQ-Max 還可以完成設(shè)計插圖、生成短視頻劇本等內(nèi)容,甚至根據(jù)用戶的需求創(chuàng)建角色扮演內(nèi)容。
核心能力:從觀察到推理
QVQ-Max 的能力可以總結(jié)為三個方面:細(xì)致觀察、深入推理和靈活應(yīng)用。下面分別來說說它在這些方面的表現(xiàn)。
細(xì)致觀察:抓住每一個細(xì)節(jié)
QVQ-Max 對圖片的解析能力非常強(qiáng),無論是復(fù)雜的圖表還是日常生活中隨手拍的照片,它都能快速識別出關(guān)鍵元素。比如,它可以告訴你一張照片里有哪些物品、有什么文字標(biāo)識,甚至還能指出一些你可能忽略的小細(xì)節(jié)。
深入推理:不只是“看到”,還要“想到”
僅僅識別出圖片里的內(nèi)容還不夠,QVQ-Max 還能進(jìn)一步分析這些信息,并結(jié)合背景知識得出結(jié)論。例如,在一道幾何題中,它可以根據(jù)題目附帶的圖形推導(dǎo)出答案;在一段視頻里,它能根據(jù)畫面內(nèi)容推測出接下來可能發(fā)生的情節(jié)。
靈活應(yīng)用:從解答問題到創(chuàng)作
除了分析和推理,QVQ-Max 還能做一些有趣的事情,比如幫你設(shè)計插畫、生成短視頻腳本,甚至根據(jù)你的需求創(chuàng)作角色扮演的內(nèi)容。如果你上傳一幅草稿,它可能會幫你完善成一幅完整的作品;上傳一個日常照片,它可以化身犀利的評論家,占卜師。
QVQ-Max 的應(yīng)用范圍很廣,無論是在學(xué)習(xí)、工作還是日常生活中都能派上用場。
職場工具:在工作中,QVQ-Max 可以協(xié)助完成數(shù)據(jù)分析、信息整理、編程寫代碼等任務(wù)。
學(xué)習(xí)助手:對于學(xué)生來說,QVQ-Max 可以幫助解答數(shù)學(xué)、物理等科目的難題,尤其是那些配有圖表的題目。它還能通過直觀的方式講解復(fù)雜概念,讓學(xué)習(xí)變得更輕松。
生活小幫手:在生活中,QVQ-Max 也能提供不少實(shí)用建議。比如,它可以根據(jù)你的衣柜照片推薦穿搭方案,或者根據(jù)食譜圖片指導(dǎo)你如何烹飪一道新菜。
IT之家注意到,目前該模型已上線 Qwen Chat,用戶只需上傳任意圖片或視頻,提出問題,并點(diǎn)擊“Thinking”按鈕,即可使用 QVQ-Max 的推理能力。
阿里巴巴表示,這只是該模型演化過程中的一個階段,未來還將持續(xù)優(yōu)化其性能并擴(kuò)展功能。