C114通信網(wǎng)  |  通信人家園

人工智能
2025/1/10 15:01

銀河通用發(fā)布全球首個端到端具身抓取基礎(chǔ)大模型GraspVLA,預(yù)訓(xùn)練數(shù)據(jù)十億幀“視覺-語言-動作”對

IT之家  沛霖(實習)

銀河通用昨日(1 月 9 日)宣布,聯(lián)合北京智源人工智能研究院(BAAI)及北京大學和香港大學研究人員,發(fā)布首個全面泛化的端到端具身抓取基礎(chǔ)大模型 GraspVLA。

注:“具身智能”是指將人工智能融入機器人等物理實體,賦予它們感知、學習和與環(huán)境動態(tài)交互的能力。

據(jù)介紹,GraspVLA 的訓(xùn)練包含預(yù)訓(xùn)練和后訓(xùn)練兩部分。其中預(yù)訓(xùn)練完全基于合成大數(shù)據(jù),訓(xùn)練數(shù)據(jù)達到了有史以來最大的數(shù)據(jù)體量 —— 十億幀「視覺-語言-動作」對,掌握泛化閉環(huán)抓取能力、達成基礎(chǔ)模型。

預(yù)訓(xùn)練后,模型可直接 Sim2Real(IT之家注:從模擬到現(xiàn)實)在未見過的、千變?nèi)f化的真實場景和物體上零樣本測試,官方宣稱滿足大多數(shù)產(chǎn)品的需求;而針對特別需求,后訓(xùn)練僅需小樣本學習即可遷移基礎(chǔ)能力到特定場景,維持高泛化性的同時形成符合產(chǎn)品需求的專業(yè)技能。

官方公布了 VLA 達到基礎(chǔ)模型需滿足的七大泛化“金標準”:光照泛化、背景泛化、平面位置泛化、空間高度泛化、動作策略泛化、動態(tài)干擾泛化、物體類別泛化。

  ▲ 光照泛化,二倍速播放

  ▲ 背景泛化,三倍速播放

  ▲ 平面位置泛化,二倍速播放

  ▲ 空間高度泛化,二倍速播放

  ▲ 動作策略泛化,三倍速播放

  ▲ 動態(tài)干擾泛化,二倍速播放

  ▲ 物體類別泛化,三倍速播放

給作者點贊
0 VS 0
寫得不太好

免責聲明:本文僅代表作者個人觀點,與C114通信網(wǎng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實,對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關(guān)內(nèi)容。

熱門文章
    最新視頻
    為您推薦

      C114簡介 | 聯(lián)系我們 | 網(wǎng)站地圖 | 手機版

      Copyright©1999-2025 c114 All Rights Reserved | 滬ICP備12002291號

      C114 通信網(wǎng) 版權(quán)所有 舉報電話:021-54451141