今天,阿里云宣布通義千問Qwen2.5-Omni-7B正式開源。
這是通義系列模型中首個端到端全模態(tài)大模型,可同時處理文本、圖像、音頻和視頻等多種輸入,并實時生成文本與自然語音合成輸出。
在權威的多模態(tài)融合任務OmniBench等測評中,Qwen2.5-Omni刷新業(yè)界紀錄,全維度遠超谷歌的Gemini-1.5-Pro等同類模型。
阿里云表示,相較于動輒數(shù)千億參數(shù)的閉源大模型,Qwen2.5-Omni以7B的小尺寸讓全模態(tài)大模型在產(chǎn)業(yè)上的廣泛應用成為可能。
即便在手機上,也能部署和應用Qwen2.5-Omni模型。
目前,Qwen2.5-Omni已在魔搭社區(qū)和Hugging Face 同步開源,用戶也可在Qwen Chat上直接體驗。
據(jù)悉,2023年起,通義團隊陸續(xù)開發(fā)覆蓋0.5B、1.5B、3B、7B、14B、32B、72B、110B等參數(shù)的200多款全尺寸大模型,囊括文本生成模型、視覺理解/生成模型、語音理解/生成模型、文生圖及視頻模型等全模態(tài)。