C114通信網(wǎng)  |  通信人家園

人工智能
2025/3/28 11:26

阿里通義千問推出視覺推理模型 QVQ-Max:可分析、推理圖片和視頻內(nèi)容

IT之家  遠(yuǎn)洋

今天凌晨,阿里通義千問團(tuán)隊(duì)宣布推出新一代視覺推理模型 QVQ-Max。

據(jù)官方介紹,QVQ-Max 不僅能夠理解圖片和視頻內(nèi)容,還能為上述信息提供分析并推理。不止分析和推理,QVQ-Max 還可以完成設(shè)計插圖、生成短視頻劇本等內(nèi)容,甚至根據(jù)用戶的需求創(chuàng)建角色扮演內(nèi)容。

核心能力:從觀察到推理

QVQ-Max 的能力可以總結(jié)為三個方面:細(xì)致觀察、深入推理和靈活應(yīng)用。下面分別來說說它在這些方面的表現(xiàn)。

細(xì)致觀察:抓住每一個細(xì)節(jié)

QVQ-Max 對圖片的解析能力非常強(qiáng),無論是復(fù)雜的圖表還是日常生活中隨手拍的照片,它都能快速識別出關(guān)鍵元素。比如,它可以告訴你一張照片里有哪些物品、有什么文字標(biāo)識,甚至還能指出一些你可能忽略的小細(xì)節(jié)。

深入推理:不只是“看到”,還要“想到”

僅僅識別出圖片里的內(nèi)容還不夠,QVQ-Max 還能進(jìn)一步分析這些信息,并結(jié)合背景知識得出結(jié)論。例如,在一道幾何題中,它可以根據(jù)題目附帶的圖形推導(dǎo)出答案;在一段視頻里,它能根據(jù)畫面內(nèi)容推測出接下來可能發(fā)生的情節(jié)。

靈活應(yīng)用:從解答問題到創(chuàng)作

除了分析和推理,QVQ-Max 還能做一些有趣的事情,比如幫你設(shè)計插畫、生成短視頻腳本,甚至根據(jù)你的需求創(chuàng)作角色扮演的內(nèi)容。如果你上傳一幅草稿,它可能會幫你完善成一幅完整的作品;上傳一個日常照片,它可以化身犀利的評論家,占卜師。

QVQ-Max 的應(yīng)用范圍很廣,無論是在學(xué)習(xí)、工作還是日常生活中都能派上用場。

職場工具:在工作中,QVQ-Max 可以協(xié)助完成數(shù)據(jù)分析、信息整理、編程寫代碼等任務(wù)。

學(xué)習(xí)助手:對于學(xué)生來說,QVQ-Max 可以幫助解答數(shù)學(xué)、物理等科目的難題,尤其是那些配有圖表的題目。它還能通過直觀的方式講解復(fù)雜概念,讓學(xué)習(xí)變得更輕松。

生活小幫手:在生活中,QVQ-Max 也能提供不少實(shí)用建議。比如,它可以根據(jù)你的衣柜照片推薦穿搭方案,或者根據(jù)食譜圖片指導(dǎo)你如何烹飪一道新菜。

IT之家注意到,目前該模型已上線 Qwen Chat,用戶只需上傳任意圖片或視頻,提出問題,并點(diǎn)擊“Thinking”按鈕,即可使用 QVQ-Max 的推理能力。

阿里巴巴表示,這只是該模型演化過程中的一個階段,未來還將持續(xù)優(yōu)化其性能并擴(kuò)展功能。

給作者點(diǎn)贊
0 VS 0
寫得不太好

免責(zé)聲明:本文僅代表作者個人觀點(diǎn),與C114通信網(wǎng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實(shí)相關(guān)內(nèi)容。

熱門文章
    最新視頻
    為您推薦

      C114簡介 | 聯(lián)系我們 | 網(wǎng)站地圖 | 手機(jī)版

      Copyright©1999-2025 c114 All Rights Reserved | 滬ICP備12002291號

      C114 通信網(wǎng) 版權(quán)所有 舉報電話:021-54451141