C114通信網(wǎng)  |  通信人家園

人工智能
2024/10/23 08:22

消息稱微軟亞洲研究院前首席研究經(jīng)理譚旭加入月之暗面,研發(fā)類GPT-4o端到端語音模型

IT之家  清源

據(jù)“晚點(diǎn) Auto”昨晚報(bào)道,微軟亞洲研究院前首席研究經(jīng)理譚旭于 8 月加入大模型創(chuàng)業(yè)公司月之暗面,主要負(fù)責(zé)研發(fā)端到端語音模型。

報(bào)道稱,月之暗面的整個多模態(tài)研究早在去年 10 月就已開始。接近該公司人士稱,目前正有 10 人左右的團(tuán)隊(duì)在研發(fā)視頻模型,為確保產(chǎn)品更具差異性,對外發(fā)布計(jì)劃仍在推遲。

資料顯示,譚旭在離開微軟研究院前擔(dān)任首席研究經(jīng)理,方向是生成式 AI、語音 / 音頻 / 視頻內(nèi)容生成,論文引用量達(dá)上萬次,他也曾擔(dān)任 NeurIPS 等學(xué)術(shù)會議期刊的審稿人;其多項(xiàng)語言、語音、音樂、視頻生成成果已應(yīng)用在 Azure、Bing 等微軟的產(chǎn)品與服務(wù)中。

譚旭加入月之暗面后的主要目標(biāo)之一,可能即是幫助月之暗面打造“類似 GPT-4o”的語音體驗(yàn)。

注:OpenAI 今年 5 月發(fā)布多模態(tài)大模型 GPT-4o,基于端到端語音技術(shù)打造,具備更低延時、可隨時打斷等特性。隨后,OpenAI 于 9 月 25 日面向 ChatGPT Plus 付費(fèi)用戶推送了高級語音功能。

此前,主流的語音方案是 ASR(自動語音識別)+LLM(大語言模型)+TTS(語音合成):輸入端識別語音、轉(zhuǎn)化成文本;大模型處理內(nèi)容生成新文本;文本合成為語音、最終輸出。

但上述方案的不足在于機(jī)器響應(yīng)時間較長、人類無法隨時打斷,與人類的自然聊天狀態(tài)存在差距。相比之下,端到端省去了“語音轉(zhuǎn)文字再轉(zhuǎn)語音”的中間過程,可以壓縮機(jī)器響應(yīng)時間,人類也可隨時打斷機(jī)器。同時,端到端還可幫助改善“幻覺”:用戶可立即打斷輸出并給出新的提示詞。

給作者點(diǎn)贊
0 VS 0
寫得不太好

免責(zé)聲明:本文僅代表作者個人觀點(diǎn),與C114通信網(wǎng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實(shí)相關(guān)內(nèi)容。

熱門文章
    最新視頻
    為您推薦

      C114簡介 | 聯(lián)系我們 | 網(wǎng)站地圖 | 手機(jī)版

      Copyright©1999-2024 c114 All Rights Reserved | 滬ICP備12002291號

      C114 通信網(wǎng) 版權(quán)所有 舉報(bào)電話:021-54451141