C114通信網(wǎng)  |  通信人家園

人工智能
2025/3/27 08:31

通義千問(wèn)發(fā)布新一代端到端旗艦?zāi)P蚎wen2.5-Omni

快科技  隨心

阿里云宣布今天發(fā)布新一代端到端多模態(tài)旗艦?zāi)P蚎wen2.5-Omni。

該模型專為全方位多模態(tài)感知設(shè)計(jì),能夠無(wú)縫處理文本、圖像、音頻和視頻等多種輸入形式,并通過(guò)實(shí)時(shí)流式響應(yīng)同時(shí)生成文本與自然語(yǔ)音合成輸出。

通義千問(wèn)發(fā)布新一代端到端旗艦?zāi)P蚎wen2.5-Omni:看聽(tīng)說(shuō)寫(xiě)樣樣精通

據(jù)介紹,Qwen2.5-Omni采用Thinker-Talker雙核架構(gòu)。

其中,Thinker 模塊如同大腦,負(fù)責(zé)處理文本、音頻、視頻等多模態(tài)輸入,生成高層語(yǔ)義表征及對(duì)應(yīng)文本內(nèi)容。

而Talker模塊則類似發(fā)聲器官,以流式方式接收Thinker實(shí)時(shí)輸出的語(yǔ)義表征與文本,流暢合成離散語(yǔ)音單元。

通義千問(wèn)發(fā)布新一代端到端旗艦?zāi)P蚎wen2.5-Omni:看聽(tīng)說(shuō)寫(xiě)樣樣精通

測(cè)試中,Qwen2.5-Omni在包括圖像,音頻,音視頻等各種模態(tài)下的表現(xiàn)都優(yōu)于類似大小的單模態(tài)模型以及封閉源模型,例如Qwen2.5-VL-7B、Qwen2-Audio和Gemini-1.5-pro。

通義千問(wèn)發(fā)布新一代端到端旗艦?zāi)P蚎wen2.5-Omni:看聽(tīng)說(shuō)寫(xiě)樣樣精通

給作者點(diǎn)贊
0 VS 0
寫(xiě)得不太好

免責(zé)聲明:本文僅代表作者個(gè)人觀點(diǎn),與C114通信網(wǎng)無(wú)關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,請(qǐng)讀者僅作參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。

熱門文章
    最新視頻
    為您推薦

      C114簡(jiǎn)介 | 聯(lián)系我們 | 網(wǎng)站地圖 | 手機(jī)版

      Copyright©1999-2025 c114 All Rights Reserved | 滬ICP備12002291號(hào)

      C114 通信網(wǎng) 版權(quán)所有 舉報(bào)電話:021-54451141