2025/4/24 14:52

英偉達(dá)推 DAM-3B 模型：突破局部描述難題，讓 AI 看懂圖像 / 視頻每一個(gè)角落

IT之家故淵

科技媒體 marktechpost 昨日（4 月 23 日）發(fā)布博文，報(bào)道稱(chēng)英偉達(dá)為應(yīng)對(duì)圖像和視頻中特定區(qū)域的詳細(xì)描述難題，最新推出了 Describe Anything 3B（DAM-3B）AI 模型。

視覺(jué)-語(yǔ)言模型（VLMs）在生成整體圖像描述時(shí)表現(xiàn)出色，但對(duì)特定區(qū)域的細(xì)致描述往往力不從心，尤其在視頻中需考慮時(shí)間動(dòng)態(tài)，挑戰(zhàn)更大。

英偉達(dá)推出的 Describe Anything 3B（DAM-3B）直面這一難題，支持用戶(hù)通過(guò)點(diǎn)、邊界框、涂鴉或掩碼指定目標(biāo)區(qū)域，生成精準(zhǔn)且貼合上下文的描述文本。DAM-3B 和 DAM-3B-Video 分別適用于靜態(tài)圖像和動(dòng)態(tài)視頻，模型已在 Hugging Face 平臺(tái)公開(kāi)。

獨(dú)特架構(gòu)與高效設(shè)計(jì)

DAM-3B 的核心創(chuàng)新在于“焦點(diǎn)提示”和“局部視覺(jué)骨干網(wǎng)絡(luò)”。

焦點(diǎn)提示技術(shù)融合了全圖信息與目標(biāo)區(qū)域的高分辨率裁剪，確保細(xì)節(jié)不失真，同時(shí)保留整體背景。

局部視覺(jué)骨干網(wǎng)絡(luò)則通過(guò)嵌入圖像和掩碼輸入，運(yùn)用門(mén)控交叉注意力機(jī)制，將全局與局部特征巧妙融合，再傳輸至大語(yǔ)言模型生成描述。

DAM-3B-Video 進(jìn)一步擴(kuò)展至視頻領(lǐng)域，通過(guò)逐幀編碼區(qū)域掩碼并整合時(shí)間信息，即便面對(duì)遮擋或運(yùn)動(dòng)也能生成準(zhǔn)確描述。

數(shù)據(jù)與評(píng)估雙管齊下

為解決訓(xùn)練數(shù)據(jù)匱乏問(wèn)題，NVIDIA 開(kāi)發(fā)了 DLC-SDP 半監(jiān)督數(shù)據(jù)生成策略，利用分割數(shù)據(jù)集和未標(biāo)注的網(wǎng)絡(luò)圖像，構(gòu)建了包含 150 萬(wàn)局部描述樣本的訓(xùn)練語(yǔ)料庫(kù)。

通過(guò)自訓(xùn)練方法優(yōu)化描述質(zhì)量，確保輸出文本的高精準(zhǔn)度，團(tuán)隊(duì)同時(shí)推出 DLC-Bench 評(píng)估基準(zhǔn)，以屬性級(jí)正確性而非僵硬的參考文本對(duì)比衡量描述質(zhì)量。

DAM-3B 在包括 LVIS、Flickr30k Entities 等七項(xiàng)基準(zhǔn)測(cè)試中領(lǐng)先，平均準(zhǔn)確率達(dá) 67.3%，超越 GPT-4o 和 VideoRefer 等模型。

DAM-3B 不僅填補(bǔ)了局部描述領(lǐng)域的技術(shù)空白，其上下文感知架構(gòu)和高質(zhì)量數(shù)據(jù)策略還為無(wú)障礙工具、機(jī)器人技術(shù)及視頻內(nèi)容分析等領(lǐng)域開(kāi)辟了新可能。

給作者點(diǎn)贊

0 VS 0

寫(xiě)得不太好

免責(zé)聲明：本文僅代表作者個(gè)人觀點(diǎn)，與C114通信網(wǎng)無(wú)關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí)，對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾，請(qǐng)讀者僅作參考，并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。

相關(guān)鏈接

骨干網(wǎng)融合網(wǎng)絡(luò)整合測(cè)試

Gartner：2024年全球半導(dǎo)體收入增長(zhǎng) 21% 英偉達(dá)首次躍居首位
C114通信網(wǎng) 4-25
美國(guó)企業(yè)提起337調(diào)查申請(qǐng) 英偉達(dá)、高通、一加手機(jī)等公司為列名被告
C114通信網(wǎng) 4-22
英偉達(dá)市值一夜蒸發(fā)1.3萬(wàn)億元：美國(guó)要嚴(yán)管芯片對(duì)華出口
快科技雪花4-17
源于谷歌，英偉達(dá)青睞：量子初創(chuàng)公司SandboxAQ宣布獲得4.5億美元E輪融資
C114通信網(wǎng) 南山4-8