科技媒體 marktechpost 昨日(4 月 23 日)發(fā)布博文,報(bào)道稱(chēng)英偉達(dá)為應(yīng)對(duì)圖像和視頻中特定區(qū)域的詳細(xì)描述難題,最新推出了 Describe Anything 3B(DAM-3B)AI 模型。
視覺(jué)-語(yǔ)言模型(VLMs)在生成整體圖像描述時(shí)表現(xiàn)出色,但對(duì)特定區(qū)域的細(xì)致描述往往力不從心,尤其在視頻中需考慮時(shí)間動(dòng)態(tài),挑戰(zhàn)更大。
英偉達(dá)推出的 Describe Anything 3B(DAM-3B)直面這一難題,支持用戶(hù)通過(guò)點(diǎn)、邊界框、涂鴉或掩碼指定目標(biāo)區(qū)域,生成精準(zhǔn)且貼合上下文的描述文本。DAM-3B 和 DAM-3B-Video 分別適用于靜態(tài)圖像和動(dòng)態(tài)視頻,模型已在 Hugging Face 平臺(tái)公開(kāi)。
獨(dú)特架構(gòu)與高效設(shè)計(jì)
DAM-3B 的核心創(chuàng)新在于“焦點(diǎn)提示”和“局部視覺(jué)骨干網(wǎng)絡(luò)”。
焦點(diǎn)提示技術(shù)融合了全圖信息與目標(biāo)區(qū)域的高分辨率裁剪,確保細(xì)節(jié)不失真,同時(shí)保留整體背景。
局部視覺(jué)骨干網(wǎng)絡(luò)則通過(guò)嵌入圖像和掩碼輸入,運(yùn)用門(mén)控交叉注意力機(jī)制,將全局與局部特征巧妙融合,再傳輸至大語(yǔ)言模型生成描述。
DAM-3B-Video 進(jìn)一步擴(kuò)展至視頻領(lǐng)域,通過(guò)逐幀編碼區(qū)域掩碼并整合時(shí)間信息,即便面對(duì)遮擋或運(yùn)動(dòng)也能生成準(zhǔn)確描述。
數(shù)據(jù)與評(píng)估雙管齊下
為解決訓(xùn)練數(shù)據(jù)匱乏問(wèn)題,NVIDIA 開(kāi)發(fā)了 DLC-SDP 半監(jiān)督數(shù)據(jù)生成策略,利用分割數(shù)據(jù)集和未標(biāo)注的網(wǎng)絡(luò)圖像,構(gòu)建了包含 150 萬(wàn)局部描述樣本的訓(xùn)練語(yǔ)料庫(kù)。
通過(guò)自訓(xùn)練方法優(yōu)化描述質(zhì)量,確保輸出文本的高精準(zhǔn)度,團(tuán)隊(duì)同時(shí)推出 DLC-Bench 評(píng)估基準(zhǔn),以屬性級(jí)正確性而非僵硬的參考文本對(duì)比衡量描述質(zhì)量。
DAM-3B 在包括 LVIS、Flickr30k Entities 等七項(xiàng)基準(zhǔn)測(cè)試中領(lǐng)先,平均準(zhǔn)確率達(dá) 67.3%,超越 GPT-4o 和 VideoRefer 等模型。
DAM-3B 不僅填補(bǔ)了局部描述領(lǐng)域的技術(shù)空白,其上下文感知架構(gòu)和高質(zhì)量數(shù)據(jù)策略還為無(wú)障礙工具、機(jī)器人技術(shù)及視頻內(nèi)容分析等領(lǐng)域開(kāi)辟了新可能。