2025/1/10 15:01

銀河通用發(fā)布全球首個(gè)端到端具身抓取基礎(chǔ)大模型GraspVLA，預(yù)訓(xùn)練數(shù)據(jù)十億幀“視覺-語言-動(dòng)作”對(duì)

IT之家沛霖（實(shí)習(xí)）

銀河通用昨日（1 月 9 日）宣布，聯(lián)合北京智源人工智能研究院（BAAI）及北京大學(xué)和香港大學(xué)研究人員，發(fā)布首個(gè)全面泛化的端到端具身抓取基礎(chǔ)大模型 GraspVLA。

注：“具身智能”是指將人工智能融入機(jī)器人等物理實(shí)體，賦予它們感知、學(xué)習(xí)和與環(huán)境動(dòng)態(tài)交互的能力。

據(jù)介紹，GraspVLA 的訓(xùn)練包含預(yù)訓(xùn)練和后訓(xùn)練兩部分。其中預(yù)訓(xùn)練完全基于合成大數(shù)據(jù)，訓(xùn)練數(shù)據(jù)達(dá)到了有史以來最大的數(shù)據(jù)體量 —— 十億幀「視覺-語言-動(dòng)作」對(duì)，掌握泛化閉環(huán)抓取能力、達(dá)成基礎(chǔ)模型。

預(yù)訓(xùn)練后，模型可直接 Sim2Real（IT之家注：從模擬到現(xiàn)實(shí)）在未見過的、千變?nèi)f化的真實(shí)場(chǎng)景和物體上零樣本測(cè)試，官方宣稱滿足大多數(shù)產(chǎn)品的需求；而針對(duì)特別需求，后訓(xùn)練僅需小樣本學(xué)習(xí)即可遷移基礎(chǔ)能力到特定場(chǎng)景，維持高泛化性的同時(shí)形成符合產(chǎn)品需求的專業(yè)技能。

官方公布了 VLA 達(dá)到基礎(chǔ)模型需滿足的七大泛化“金標(biāo)準(zhǔn)”：光照泛化、背景泛化、平面位置泛化、空間高度泛化、動(dòng)作策略泛化、動(dòng)態(tài)干擾泛化、物體類別泛化。

　　▲ 光照泛化，二倍速播放

　　▲ 背景泛化，三倍速播放

　　▲ 平面位置泛化，二倍速播放

　　▲ 空間高度泛化，二倍速播放

　　▲ 動(dòng)作策略泛化，三倍速播放

　　▲ 動(dòng)態(tài)干擾泛化，二倍速播放

　　▲ 物體類別泛化，三倍速播放

給作者點(diǎn)贊

0 VS 0

寫得不太好

免責(zé)聲明：本文僅代表作者個(gè)人觀點(diǎn)，與C114通信網(wǎng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí)，對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾，請(qǐng)讀者僅作參考，并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。

相關(guān)鏈接

測(cè)試

銀河通用發(fā)布全球首個(gè)端到端具身抓取基礎(chǔ)大模型GraspVLA，預(yù)訓(xùn)練數(shù)據(jù)十億幀“視覺-語言-動(dòng)作”對(duì)

銀河通用發(fā)布全球首個(gè)端到端具身抓取基礎(chǔ)大模型GraspVLA，預(yù)訓(xùn)練數(shù)據(jù)十億幀“視覺-語言-動(dòng)作”對(duì)