2025/3/28 11:26

阿里通義千問推出視覺推理模型 QVQ-Max：可分析、推理圖片和視頻內(nèi)容

IT之家遠(yuǎn)洋

今天凌晨，阿里通義千問團(tuán)隊宣布推出新一代視覺推理模型 QVQ-Max。

據(jù)官方介紹，QVQ-Max 不僅能夠理解圖片和視頻內(nèi)容，還能為上述信息提供分析并推理。不止分析和推理，QVQ-Max 還可以完成設(shè)計插圖、生成短視頻劇本等內(nèi)容，甚至根據(jù)用戶的需求創(chuàng)建角色扮演內(nèi)容。

核心能力：從觀察到推理

QVQ-Max 的能力可以總結(jié)為三個方面：細(xì)致觀察、深入推理和靈活應(yīng)用。下面分別來說說它在這些方面的表現(xiàn)。

細(xì)致觀察：抓住每一個細(xì)節(jié)

QVQ-Max 對圖片的解析能力非常強(qiáng)，無論是復(fù)雜的圖表還是日常生活中隨手拍的照片，它都能快速識別出關(guān)鍵元素。比如，它可以告訴你一張照片里有哪些物品、有什么文字標(biāo)識，甚至還能指出一些你可能忽略的小細(xì)節(jié)。

深入推理：不只是“看到”，還要“想到”

僅僅識別出圖片里的內(nèi)容還不夠，QVQ-Max 還能進(jìn)一步分析這些信息，并結(jié)合背景知識得出結(jié)論。例如，在一道幾何題中，它可以根據(jù)題目附帶的圖形推導(dǎo)出答案；在一段視頻里，它能根據(jù)畫面內(nèi)容推測出接下來可能發(fā)生的情節(jié)。

靈活應(yīng)用：從解答問題到創(chuàng)作

除了分析和推理，QVQ-Max 還能做一些有趣的事情，比如幫你設(shè)計插畫、生成短視頻腳本，甚至根據(jù)你的需求創(chuàng)作角色扮演的內(nèi)容。如果你上傳一幅草稿，它可能會幫你完善成一幅完整的作品；上傳一個日常照片，它可以化身犀利的評論家，占卜師。

QVQ-Max 的應(yīng)用范圍很廣，無論是在學(xué)習(xí)、工作還是日常生活中都能派上用場。

職場工具：在工作中，QVQ-Max 可以協(xié)助完成數(shù)據(jù)分析、信息整理、編程寫代碼等任務(wù)。

學(xué)習(xí)助手：對于學(xué)生來說，QVQ-Max 可以幫助解答數(shù)學(xué)、物理等科目的難題，尤其是那些配有圖表的題目。它還能通過直觀的方式講解復(fù)雜概念，讓學(xué)習(xí)變得更輕松。

生活小幫手：在生活中，QVQ-Max 也能提供不少實用建議。比如，它可以根據(jù)你的衣柜照片推薦穿搭方案，或者根據(jù)食譜圖片指導(dǎo)你如何烹飪一道新菜。

IT之家注意到，目前該模型已上線 Qwen Chat，用戶只需上傳任意圖片或視頻，提出問題，并點擊“Thinking”按鈕，即可使用 QVQ-Max 的推理能力。

阿里巴巴表示，這只是該模型演化過程中的一個階段，未來還將持續(xù)優(yōu)化其性能并擴(kuò)展功能。

給作者點贊

0 VS 0

寫得不太好

免責(zé)聲明：本文僅代表作者個人觀點，與C114通信網(wǎng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實，對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾，請讀者僅作參考，并請自行核實相關(guān)內(nèi)容。

相關(guān)鏈接

阿里巴巴

通義千問正式推出Qwen3系列模型支持多語言和兩種思考模式
鳳凰網(wǎng)科技楊睿琪4-29
手機(jī)也能跑的模型來了！阿里宣布開源Qwen2.5-Omni-7B
快科技拾柒3-27
通義千問發(fā)布新一代端到端旗艦?zāi)Ｐ蚎wen2.5-Omni
快科技隨心3-27
阿里云推出最新通義千問 QwQ-32B 推理模型，僅 1/20 參數(shù)媲美 DeepSeek R1
IT之家問舟3-6