C114通信網(wǎng)  |  通信人家園

人工智能
2024/12/30 15:03

靈初智能發(fā)布首個基于強化學習的端到端具身模型Psi R0,雙靈巧手協(xié)同進行復雜操作

IT之家  沛霖(實習)

靈初智能發(fā)布首個基于強化學習(RL)的端到端具身模型 Psi R0。

據(jù)悉,該模型支持雙靈巧手協(xié)同進行復雜操作,將多個技能串聯(lián)混訓,生成具有推理能力的智能體,從而完成并閉環(huán)長程靈巧操作任務(wù)。并且,Psi R0 還可以實現(xiàn)跨物品、跨場景級別的泛化。

以電商場景為例,商品打包是典型的長程任務(wù)作業(yè),需對上萬件商品進行抓取,掃碼,放置,塑料袋打結(jié)等多個操作。Psi R0 能夠使用雙靈巧手流暢地完成這一系列動作(官方稱此系列動作在客戶現(xiàn)場可以取代一個完整工位),成為首個基于強化學習訓練完成長程靈巧操作任務(wù)的具身機器人。

官方表示,基于 RL 的 Psi R0 模型,使用海量仿真數(shù)據(jù)訓練出雙手操作的智能體,并通過雙向訓練框架串聯(lián)多技能,在業(yè)界率先完成開放環(huán)境中的長程任務(wù),具備較強的泛化能力與較高的魯棒性(robustness)。

這一技能訓練框架從物體時空軌跡抽象出關(guān)鍵信息以構(gòu)建通用目標函數(shù),從而解決獎勵函數(shù)難設(shè)計的問題。在后訓練階段,通過少量高質(zhì)量真機數(shù)據(jù)對齊,進一步提升長程任務(wù)的成功率。

除此之外,雙向訓練框架中的轉(zhuǎn)移可行性函數(shù)發(fā)揮著重要作用,它能夠微調(diào)技能以提高串聯(lián)的成功率與泛化性,同時賦予模型自主切換技能的能力,使其在遭遇操作失敗時能夠迅速調(diào)整策略,確保高成功率。

給作者點贊
0 VS 0
寫得不太好

免責聲明:本文僅代表作者個人觀點,與C114通信網(wǎng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實,對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關(guān)內(nèi)容。

熱門文章
    最新視頻
    為您推薦

      C114簡介 | 聯(lián)系我們 | 網(wǎng)站地圖 | 手機版

      Copyright©1999-2025 c114 All Rights Reserved | 滬ICP備12002291號

      C114 通信網(wǎng) 版權(quán)所有 舉報電話:021-54451141