C114通信網(wǎng)  |  通信人家園

人工智能
2024/12/13 08:48

谷歌發(fā)布多模態(tài)直播API:解鎖看、聽、說,開啟音視頻交互新體驗

IT之家  故淵

谷歌昨日在發(fā)布 Gemini 2.0 的同時,還發(fā)布了全新的多模態(tài)直播(Multimodal Live)API,幫助開發(fā)人員開發(fā)具有實時音頻和視頻流功能的應用程序。

該 API 實現(xiàn)了低延遲、雙向的文本、音頻和視頻交互,以音頻和文本形式輸出,帶來更自然流暢、如同人類對話般的交互體驗。用戶可以隨時打斷模型,并通過共享攝像頭輸入或屏幕錄像與其進行互動,就內(nèi)容提問。

該模型的視頻理解功能擴展了通信模式,用戶能夠使用攝像頭實時拍攝或共享桌面并提出相關問題。該 API 已經(jīng)向開發(fā)者開放,同時也向用戶提供了一個多模態(tài)實時助手的演示應用。IT之家附上演示如下:

該 API 支持集成多種工具,開發(fā)者只需一次 API 調(diào)用,即可完成復雜的用例。

給作者點贊
0 VS 0
寫得不太好

免責聲明:本文僅代表作者個人觀點,與C114通信網(wǎng)無關。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實,對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關內(nèi)容。

熱門文章
    最新視頻
    為您推薦

      C114簡介 | 聯(lián)系我們 | 網(wǎng)站地圖 | 手機版

      Copyright©1999-2024 c114 All Rights Reserved | 滬ICP備12002291號

      C114 通信網(wǎng) 版權所有 舉報電話:021-54451141