阿里云宣布今天發(fā)布新一代端到端多模態(tài)旗艦?zāi)P蚎wen2.5-Omni。
該模型專為全方位多模態(tài)感知設(shè)計(jì),能夠無(wú)縫處理文本、圖像、音頻和視頻等多種輸入形式,并通過(guò)實(shí)時(shí)流式響應(yīng)同時(shí)生成文本與自然語(yǔ)音合成輸出。
據(jù)介紹,Qwen2.5-Omni采用Thinker-Talker雙核架構(gòu)。
其中,Thinker 模塊如同大腦,負(fù)責(zé)處理文本、音頻、視頻等多模態(tài)輸入,生成高層語(yǔ)義表征及對(duì)應(yīng)文本內(nèi)容。
而Talker模塊則類似發(fā)聲器官,以流式方式接收Thinker實(shí)時(shí)輸出的語(yǔ)義表征與文本,流暢合成離散語(yǔ)音單元。
測(cè)試中,Qwen2.5-Omni在包括圖像,音頻,音視頻等各種模態(tài)下的表現(xiàn)都優(yōu)于類似大小的單模態(tài)模型以及封閉源模型,例如Qwen2.5-VL-7B、Qwen2-Audio和Gemini-1.5-pro。