2024/10/23 08:22

消息稱微軟亞洲研究院前首席研究經(jīng)理譚旭加入月之暗面，研發(fā)類GPT-4o端到端語音模型

IT之家清源

據(jù)“晚點 Auto”昨晚報道，微軟亞洲研究院前首席研究經(jīng)理譚旭于 8 月加入大模型創(chuàng)業(yè)公司月之暗面，主要負責研發(fā)端到端語音模型。

報道稱，月之暗面的整個多模態(tài)研究早在去年 10 月就已開始。接近該公司人士稱，目前正有 10 人左右的團隊在研發(fā)視頻模型，為確保產(chǎn)品更具差異性，對外發(fā)布計劃仍在推遲。

資料顯示，譚旭在離開微軟研究院前擔任首席研究經(jīng)理，方向是生成式 AI、語音 / 音頻 / 視頻內(nèi)容生成，論文引用量達上萬次，他也曾擔任 NeurIPS 等學術會議期刊的審稿人；其多項語言、語音、音樂、視頻生成成果已應用在 Azure、Bing 等微軟的產(chǎn)品與服務中。

譚旭加入月之暗面后的主要目標之一，可能即是幫助月之暗面打造“類似 GPT-4o”的語音體驗。

注：OpenAI 今年 5 月發(fā)布多模態(tài)大模型 GPT-4o，基于端到端語音技術打造，具備更低延時、可隨時打斷等特性。隨后，OpenAI 于 9 月 25 日面向 ChatGPT Plus 付費用戶推送了高級語音功能。

此前，主流的語音方案是 ASR（自動語音識別）+LLM（大語言模型）+TTS（語音合成）：輸入端識別語音、轉(zhuǎn)化成文本；大模型處理內(nèi)容生成新文本；文本合成為語音、最終輸出。

但上述方案的不足在于機器響應時間較長、人類無法隨時打斷，與人類的自然聊天狀態(tài)存在差距。相比之下，端到端省去了“語音轉(zhuǎn)文字再轉(zhuǎn)語音”的中間過程，可以壓縮機器響應時間，人類也可隨時打斷機器。同時，端到端還可幫助改善“幻覺”：用戶可立即打斷輸出并給出新的提示詞。

給作者點贊

0 VS 0

寫得不太好

免責聲明：本文僅代表作者個人觀點，與C114通信網(wǎng)無關。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實，對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾，請讀者僅作參考，并請自行核實相關內(nèi)容。

相關鏈接

微軟

中興通訊聯(lián)合合作伙伴成立開放智算產(chǎn)業(yè)聯(lián)盟，加速AI及大模型行業(yè)落地
C114通信網(wǎng) 12-20
火山引擎總裁回應豆包大模型定價：確保合理毛利讓AI技術普惠廣大開發(fā)者
快科技鹿角12-20
美國佛羅里達州啟用AI緊急廣播系統(tǒng)BEACON，利用大模型高效整合準確翻譯災情警報
IT之家漾仔12-20
國內(nèi)首個！國家電網(wǎng)發(fā)布電力行業(yè)千億級大模型：阿里、百度共建
快科技拾柒12-20

消息稱微軟亞洲研究院前首席研究經(jīng)理譚旭加入月之暗面，研發(fā)類GPT-4o端到端語音模型

消息稱微軟亞洲研究院前首席研究經(jīng)理譚旭加入月之暗面，研發(fā)類GPT-4o端到端語音模型