英偉達團隊機器訓練新方法!僅5次演示讓機器生成1000個新demo
人類只需要演示五次,就能讓機器人學會一項複雜技能。
英偉達實驗室,提出了機器人訓練數據缺乏問題的新解決方案——DexMimicGen。
五次演示之後,DexMimicGen就可以直接模仿出1000個新的demo。
而且可用性強,用這些新demo訓練出的機器人,在仿真環境中的任務成功率可以高達97%,比用真人數據效果還要好。
參與此項目的英偉達科學家範麟熙(Jim Fan)認爲,這種用機器訓練機器的方式,解決了機器人領域最大的痛點(指數據收集)。
同時,Jim Fan還預言:
值得一提的是,DexMimicGen三名共同一作都是李飛飛的“徒孫”,具體說是德克薩斯大學奧斯汀分校(UT奧斯汀)助理教授朱玉可(Yuke Zhu)的學生。
而且三人均爲華人,目前都在英偉達研究院實習。
如前所述,DexMimicGen可以僅根據人類的5次演示,生成1000個新DEMO。
在整個實驗中,作者設置了9個場景,涵蓋了3種機器人形態,共進行了60次演示,獲得了21000多個生成DEMO。
在仿真環境當中,用DexMimicGen生成數據訓練出的策略執行整理抽屜這一任務,成功率可達76%,而單純使用人工數據只有0.7%。
對於積木組裝任務,成功率也從3.3%提升到了80.7%。
成功率最高的任務是罐子分類,更是高達97.3%,只用人工數據的成功率同樣只有0.7%。
整體來看,在仿真環境中,生成數據讓機器人在作者設計的九類任務上的成功率均明顯增加。
相比於baseline方法,用DexMimicGen生成的數據也更爲有效。
遷移到真實環境之後,作者測試了易拉罐分揀的任務,結果僅用了40個生成DEMO,成功率就達到了90%,而不使用生成數據時的成功率爲零。
除此之外,DexMimicGen還展現了跨任務的泛化能力,使訓練出的策略在各種不同任務上表現良好。
針對初始狀態分佈變化,DexMimicGen也體現出了較強的魯棒性,在更廣泛的初始狀態分佈D1和D2上測試時,仍然能夠擁有一定的成功率。
DexMimicGen是由MimicGen改造而成,MimicGen也出自英偉達和UT奧斯汀的聯合團隊。
朱玉可和範麟熙都參與過MimicGen的工作,該成果發表於CoRL 2023。
MimicGen的核心思想,是將人類示範數據分割成以目標物體爲中心的片段,然後通過變換物體相對位置和姿態,在新環境中復現人類示範軌跡,從而實現自動化數據生成。
DexMimicGen則在MimicGen系統的基礎上,針對雙臂機器人靈巧操作任務做了改進和擴展,具體包括幾個方面:
工作流程上,DexMimicGen會首先對人類示範進行採集和分割。
研究人員通過佩戴XR頭顯,遠程控制機器人完成目標任務,在這一過程中就會產生一小批示範數據,作者針對每個任務採集了5~10個人類示範樣本。
這些人類示範樣本會按照並行、協調、順序三種子任務定義被切分成片段——
總之,在示範數據被切分後,機器人的每個手臂會得到自己對應的片段集合。
在數據生成開始時,DexMimicGen隨機化模擬環境中物體的位置、姿態等數據,並隨機選擇一個人類示範作爲參考。
對於當前子任務,DexMimicGen會計算示範片段與當前環境中關鍵物體位置和姿態的變換。
之後用該變換對參考片段中的機器人動作軌跡進行處理,以使執行這一變換後的軌跡能夠與新環境中物體位置匹配。
生成變換後,DexMimicGen會維護每個手臂的動作隊列,手指關節的運動則直接重放示範數據中的動作。
在整個過程中,系統不斷檢查任務是否成功完成,如果一次執行成功完成了任務,則將執行過程記錄下來作爲有效的演示數據,失敗則將數據丟棄。
之後就是將生成過程不斷迭代,直到獲得足夠量的演示數據。
收集好數據後,作者用DexMimicGen生成的演示數據訓練模仿學習策略,策略的輸入爲RGB相機圖像,輸出爲機器人動作。
最後是模擬到現實的遷移,同樣地,作者使用DexMimicGen在數字孿生環境中生成的大規模演示數據,訓練模仿學習策略。
之後作者對在數字孿生環境中評估訓練得到的策略進行調優,以提高其泛化性能和魯棒性,並遷移到實際機器人系統中。
DexMimicGen的共同一作有三人,都是UT奧斯汀的華人學生。
並且三人均出自李飛飛的學生、浙大校友朱玉可(Yuke Zhu)助理教授門下,他們分別是:
朱玉可的另一重身份是英偉達的研究科學家,團隊的另外兩名負責人也都在英偉達。
他們分別是Ajay Mandlekar和範麟熙(Jim Fan),也都是李飛飛的學生,Mandlekar是整個DexMimicGen項目組中唯一的非華人。
另外,Zhenjia Xu和Weikang Wan兩名華人學者對此項目亦有貢獻,整個團隊的分工如下:
△中文爲機翻,僅供參考
項目主頁:https://dexmimicgen.github.io/論文地址:https://arxiv.org/abs/2410.24185參考鏈接:[1]https://x.com/SteveTod1998/status/1852365700372832707[2]https://x.com/DrJimFan/status/1852383627738239324