MIT開發新方法,無需從頭訓練機器人即可執行復雜任務

(來源:MIT News)

在經典動畫《傑森一家》中,機器人女傭 Rosie 可以輕鬆地從打掃房間切換到做飯、倒垃圾。然而在現實中,訓練一個通用機器人卻是極大的挑戰。

通常,工程師會爲某一特定的機器人和任務收集專門的數據,在一個受控環境中對其進行訓練。然而,這種數據收集不僅成本高昂且耗時,並且機器人在陌生環境或新任務下往往難以適應。

爲了訓練更高效的通用機器人,MIT 的研究人員開發了一種靈活的技術,將來自多種來源的大量異質數據整合到一個系統中,以此來教授機器人多種任務。

這種方法通過對來自不同領域的數據(如仿真數據和實際機器人數據)以及多種模態(如視覺傳感器和機械臂位置編碼器)進行對齊,將它們轉化爲一種“通用語言”,使得生成式 AI 模型可以處理。

通過整合大量數據,這一方法可以用於訓練機器人執行多種任務,而不必每次都從頭開始訓練。

這種方法不僅比傳統技術更快速、成本更低,而且在模擬和現實實驗中,相比從零開始的訓練提高了超過 20% 的性能。

“在機器人學領域,大家常說訓練數據不足。但在我看來,另一個大問題是數據來自於太多不同的領域、模態和機器人硬件。我們的研究展示瞭如何將這些數據整合起來訓練機器人。”電氣工程與計算機科學(EECS)專業的研究生、論文第一作者 Lirui Wang 說道。

Wang 的合作者包括同爲 EECS 研究生的 Jialiang Zhao、Meta 研究科學家Xinlei Chen,以及資深作者、EECS 副教授和計算機科學與人工智能實驗室(CSAIL)成員 Kaiming He。該研究將在神經信息處理系統會議上展示。

借鑑 LLM

機器人“策略”會接收來自傳感器的觀測數據,例如攝像頭圖像或機械臂的速度和位置測量數據,進而指導機器人如何移動、去往何處。

通常,策略通過模仿學習進行訓練,即由人類演示操作或遠程控制機器人生成數據,再將這些數據輸入 AI 模型中進行學習。然而,由於這種方法使用的任務數據量較少,機器人在環境或任務發生變化時往往表現不佳。

爲此,Wang 和他的團隊借鑑了 GPT-4 等大型語言模型的理念。

這些模型在訓練初期使用大量多樣化的語言數據進行預訓練,隨後再通過少量的任務數據進行微調,如此大量的預訓練數據使得模型能適應多種任務。

“語言領域中的數據都是句子,而機器人數據的多樣性極大。如果想以類似的方式進行預訓練,我們就需要不同的架構。”他說道。

機器人的數據形式多樣,從攝像頭圖像到語言指令,再到深度圖像。同時,每臺機器人在機械上也各不相同,臂數、夾持器和傳感器的排列各異,數據收集的環境也千差萬別。

MIT 的研究人員因此開發了一種新架構,稱爲異質預訓練變換器(HPT),將這些不同模態和領域的數據統一起來。

他們在架構的核心部分引入了一種名爲變換器的機器學習模型,用於處理視覺和本體感受(proprioception)輸入。變換器正是大型語言模型的基礎。

研究人員將視覺和本體感受數據對齊爲一種統一的輸入形式,稱爲“token”,變換器可以處理,每種輸入都以相同數量的 token 表示。

接着,變換器將所有輸入映射到一個共享空間中,隨着數據處理和學習量的增加,逐漸發展爲一個大型預訓練模型。變換器的規模越大,其表現也越好。

用戶只需向 HPT 提供少量關於機器人設計、設置和目標任務的數據,HPT 便能將預訓練期間獲得的知識轉移,學習新的任務。

實現靈活操作

開發 HPT 面臨的最大挑戰之一是建立用於預訓練的龐大數據集,涵蓋了 52 個數據集,包含超過 20 萬條機器人軌跡,分爲四個類別,包括人類示範視頻和仿真數據。

研究人員還需要開發一種高效的方法,將來自傳感器陣列的原始本體感受信號轉化爲變換器可處理的數據。

“本體感受對於實現很多靈巧的動作至關重要。由於在我們的架構中 token 數量總是相同,我們賦予本體感受和視覺相同的重要性,”Wang 解釋道。

在測試中,HPT 在模擬和現實任務中的機器人表現相比每次從零開始的訓練提升了超過 20%。即使任務與預訓練數據差異較大,HPT 的性能仍然得到了提升。

“這篇論文爲跨多種機器人結構訓練單一策略提供了新的方法。這使得能夠在多樣的數據集上進行訓練,並大幅擴大了機器人學習方法的數據集規模。同時,這種方法還能快速適應新的機器人結構,這對於新型機器人設計的不斷出現尤爲重要。”未參與該研究的卡內基梅隆大學機器人研究所副教授 David Held 說道。

未來,研究人員希望探索數據多樣性對 HPT 性能的提升作用,同時計劃增強 HPT,使其能夠像 GPT-4 和其他大型語言模型一樣處理無標註數據。

“我們的夢想是擁有一個通用的機器人‘大腦’,用戶無需任何訓練就能直接下載使用。雖然我們現在還處在起步階段,但會繼續努力,希望像大型語言模型的突破一樣,在機器人策略上取得突破性進展。”他表示。

該研究部分由亞馬遜大波士頓技術計劃和豐田研究院資助。

https://news.mit.edu/2024/training-general-purpose-robots-faster-better-1028