阿里旗下通義萬(wàn)相宣布推出 2.1 版本模型升級(jí),視頻生成、圖像生成兩大能力均有顯著提升。
在視頻生成方面,通義萬(wàn)相 2.1 通過自研的高效 VAE 和 DiT 架構(gòu)增強(qiáng)了時(shí)空上下文建模能力,支持無(wú)限長(zhǎng) 1080P 視頻的高效編解碼,首次實(shí)現(xiàn)了中文文字視頻生成功能,登上 VBench 榜單第一。
據(jù)介紹,通義萬(wàn)相 2.1 支持中英文視頻,都可以一鍵生成藝術(shù)字,還提供多種視頻特效選項(xiàng),以增強(qiáng)視覺表現(xiàn)力,例如過渡、粒子效果、模擬等等。
▲ Prompt:以紅色新年宣紙為背景,出現(xiàn)一滴水墨,暈染墨汁緩緩暈染開來。文字的筆畫邊緣模糊且自然,隨著暈染的進(jìn)行,水墨在紙上呈現(xiàn)“福”字,墨色從深到淺過渡,呈現(xiàn)出獨(dú)特的東方韻味。背景高級(jí)簡(jiǎn)潔,雜志攝影感。
通義萬(wàn)相 2.1 還支持復(fù)雜運(yùn)鏡,可還原碰撞、反彈、切割、擠壓等真實(shí)世界的物理規(guī)律,例如雨滴落在傘上會(huì)濺起水花。
▲ Prompt:一對(duì)穿著正式晚禮服的夫婦在回家途中遭遇大雨,他們撐著黑色雨傘。平拍鏡頭下,男士穿著黑色西裝,女士穿著白色長(zhǎng)裙。他們?cè)谟曛芯従徯凶,雨水沿著傘面滴落。鏡頭跟隨他們的步伐平穩(wěn)移動(dòng),展現(xiàn)出他們?cè)谟曛械膬?yōu)雅姿態(tài)。
圖片生成方面,通義萬(wàn)相 2.1 支持文生組圖,采用了 IC-LoRA 圖像生成訓(xùn)練方法,利用 DiT 架構(gòu),增強(qiáng)文本到圖像的上下文能力;對(duì)多張圖像進(jìn)行拼接與聯(lián)合描述即可實(shí)現(xiàn)關(guān)聯(lián)圖像間的組合生成,并保持特征穩(wěn)定連續(xù)。