2024/12/17 13:08

圖森未來(lái)發(fā)布圖生視頻開(kāi)源大模型“Ruyi”：RTX 4090就能運(yùn)行，可生成5秒內(nèi)容

IT之家汪淼

圖森未來(lái)今日發(fā)布“Ruyi”圖生視頻大模型，并將 Ruyi-Mini-7B 版本開(kāi)源，用戶可以從 huggingface 上下載使用。

據(jù)介紹，Ruyi 是一個(gè)基于 DiT 架構(gòu)的圖生視頻模型，它由兩部分構(gòu)成：

一個(gè) Casual VAE 模塊負(fù)責(zé)視頻數(shù)據(jù)的壓縮和解壓

一個(gè) Diffusion Transformer 負(fù)責(zé)壓縮后的視頻生成

模型的總參數(shù)量約為 7.1B，使用了約 200M 個(gè)視頻片段進(jìn)行訓(xùn)練。“Ruyi”專為在消費(fèi)級(jí)顯卡（例如 RTX 4090）上運(yùn)行而設(shè)計(jì)，并提供部署說(shuō)明和 ComfyUI 工作流，以便用戶能夠快速上手。

多分辨率、多時(shí)長(zhǎng)生成：Ruyi 支持最小 384*384，最大 1024*1024 分辨率，任意長(zhǎng)寬比，最長(zhǎng) 120 幀 / 5 秒的視頻生成。

首幀、首尾幀控制生成：Ruyi 可以支持最多 5 個(gè)起始幀、最多 5 個(gè)結(jié)束幀基礎(chǔ)上的視頻生成，通過(guò)循環(huán)疊加可以生成任意長(zhǎng)度的視頻。

運(yùn)動(dòng)幅度控制：Ruyi 提供了 4 檔運(yùn)動(dòng)幅度控制，方便用戶對(duì)整體畫(huà)面的變化程度進(jìn)行控制。

鏡頭控制：Ruyi 提供了上、下、左、右、靜止共 5 種鏡頭控制。

Ruyi 是圖森未來(lái)正式發(fā)布的第一款“圖生視頻”模型。Ruyi 目前仍然存在手部畸形、多人時(shí)面部細(xì)節(jié)崩壞、不可控轉(zhuǎn)場(chǎng)等問(wèn)題，圖森未來(lái)稱正在改進(jìn)這些缺點(diǎn)，在日后的更新中對(duì)它們進(jìn)行修復(fù)。

圖森未來(lái)表示，公司致力于利用大模型降低動(dòng)漫和游戲內(nèi)容的開(kāi)發(fā)周期和開(kāi)發(fā)成本。本次發(fā)布的 Ruyi 大模型，已經(jīng)可以實(shí)現(xiàn)輸入關(guān)鍵幀后，生成之后 5 秒的內(nèi)容，或輸入兩個(gè)關(guān)鍵幀，由模型生成中間的過(guò)渡內(nèi)容，降低開(kāi)發(fā)周期。在下一次的發(fā)布中，圖森未來(lái)將同時(shí)發(fā)布兩個(gè)版本，為不同需求的創(chuàng)作者提供更加靈活的選擇。

附 Ruyi-Mini-7B 開(kāi)源鏈接如下：

https://huggingface.co/IamCreateAI/Ruyi-Mini-7B

給作者點(diǎn)贊

0 VS 0

寫(xiě)得不太好

免責(zé)聲明：本文僅代表作者個(gè)人觀點(diǎn)，與C114通信網(wǎng)無(wú)關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí)，對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾，請(qǐng)讀者僅作參考，并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。

相關(guān)鏈接