斯坦福爲機器人提了個醒

作者 | 山竹

出品 | 鋅產業(公衆號:xinchanye2021)

傅盛說,“2023年是人類歷史上第三個奇蹟年。”

這一年,大模型盛行,人工智能爆發,尤其是在具身智能領域的突破,讓機器人有了更大的想象空間。

整個機器人產業都在摩拳擦掌,希望能在這樣的利好背景下做些什麼,纔不至於錯失良機。

邁過2023年,也就是在剛剛進入2024年的第一週,斯坦福大學的研究團隊又對外公開了一個開源項目,一個名爲「Mobile ALOHA」的機器人開源項目。

在這個開源項目中,一臺配備了雙臂的“機器人”能夠疊被子、做家務,甚至還學會了烹飪。

尤其是在其公佈出的幾個忙起來像模像樣的視頻,一經短視頻大肆傳播,讓不少人驚歎,這不妥妥就是我們夢寐以求的保姆機器人嗎?

然而,和當年跑酷、蹦迪的波士頓動力超能機器人一樣,在如今失焦的媒體視角下,斯坦福研究團隊的這一項目的魔力再次被神話。

面對大家如此始料未及的反響,就連Mobile ALOHA項目聯合負責人Tony Z. Zhao都親自在Twitter上放出Mobile ALOHA執行任務失敗的視頻,並稱,“機器人還沒有準備好接管世界!”

一波熱度將Mobile ALOHA推上風口,一番鬧劇讓這一項目又面臨質疑。

實則,如果花些時間看完這篇論文,就會發現,Mobile ALOHA是一個不錯的開源項目,也是一個和現在主流視野中的具身智能略有不同的機器人項目。

從短視頻中看到過它的人都知道:

Mobile ALOHA是一個會收拾家務,又會煎蛋煮飯的機器人,而這臺機器人能完成的這些工作,正是家庭保姆機器人所需要的技能。

正因如此,Mobile ALOHA一度被認爲是保姆機器人的原型機,甚至被人認爲是未來幾年內推動機器人保姆出現的關鍵。

實際上,論文的作者們,並沒有想這麼多。

在這篇論文中,Mobile ALOHA在硬件上被定義爲「一種用於收集雙臂運動數據的低成本全身遠程操作系統」。

這臺機器人,也就是這套系統,主要由以下幾個部分組成:

移動底座——一臺AGV機器人;

供電系統——一塊1.26kW·h、14kg重的電池;

控制系統——一臺配備英偉達3070顯卡和英特爾i7-12800H的筆記本電腦;

運動系統——兩個機械臂;

視覺系統——3個分辨率爲480x640、頻率爲50Hz的攝像頭。

如此硬件配置打造出一臺如前文所述能在家庭環境下實現諸多功能的機器人,最爲關鍵的其實是兩點:

第一,機器人移動能力。

看過鋅產業此前文章的人應該都瞭解,在機器人領域,除去工業機械臂外,還有兩類機器人已經相當成熟:

一類是用在家庭地面清潔場景中的掃地機器人,另一類是用在倉儲搬運場景下的AGV。

實際上,正是關乎機器人移動能力的定位導航、路徑規劃等技術的成熟,推動了這兩類產品在上一個十年逐漸普及。

就移動底盤而言,Mobile ALOHA直接選用了市面上成熟的AGV產品,解決了機器人在家庭環境下的移動能力。

第二,機器人的運動控制能力。

這裡主要是指機械手臂的運動控制,也是Mobile ALOHA這一開源項目的獨特性和技術含量所在。

和現在通過強化學習模型、大模型等驅動機器人自主認識(感知)環境、執行(決策)任務不同的是:

Mobile ALOHA採用的依然是更直接的「模仿學習」——通過人類操作機器人,機器人學習模仿人類行爲,構成機器人的行爲邏輯。

在這一項目發佈的視頻中,我們看到的人類操作機械臂運動的場景,其實就是模仿學習中人類示教的過程,也是機器人模仿學習中最爲關鍵的一步。

正是憑藉這樣一套方法論,Mobile ALOHA僅需要人類通過50次演示的訓練,在處理日常家務時,就能夠達到80%以上的成功率。

在這篇論文中,作者一共對Mobile ALOHA進行了7項任務的訓練和研究,分別是擦紅酒、炒蝦仁、沖洗平底鍋、收納平底鍋、呼叫電梯、推椅子、擊掌。

在最終呈現出來的演示視頻中,最讓人驚訝的是,Mobile ALOHA竟然能很好地做出讓不少猛男少女都撓頭的滑蛋蝦仁。

然而,要讓機器人做出這樣一道菜,其實並沒有想象中的那般容易。

除了需要人類示教,讓機器人模仿學習外,作者還爲Mobile ALOHA導入了一個靜態數據集,這個數據集包含了825個任務的雙臂執行數據。

不過,這825個任務的雙臂執行數據與Mobile ALOHA要執行的任務不同,甚至產生這些數據的機器人原型與Mobile ALOHA雙臂安裝位置也不同。

科研是一條漫長的道路,所有成熟的技術最終能夠順利應用,都是衆多科學家不斷積累,一代代不斷基於前人研究成果推陳出新的結果。

而基於已有數據集,再加上模仿學習,能否讓Mobile ALOHA掌握更好的操作能力,也是這篇論文嘗試解釋的一個重要問題。

在實際實驗過程中,通過爲原有數據集加入模仿學習的方法,在執行「推椅子」、「擦紅酒」任務時,明顯有很好的能力提升,有更強的泛化能力。

具體而言,在將一排5把椅子收到桌子下時,當推到第4、第5把椅子時,這一方法的成功率分別提高了15%和89%。

從試驗中整體任務執行成功率來看,在進行50次示教(擊掌20次)後,擦紅酒、呼叫電梯、擊掌、收納平底鍋、沖洗平底鍋、推椅子6項任務的成功率分別達到了95%、95%、85%、85%、80%、80%。

然而,最驚豔的滑蛋蝦仁這項長達75秒的的艱鉅烹飪任務,實際上,Mobile ALOHA的任務執行成功率只有40%。

也就是說,我們看到的Mobile ALOHA完美地做好一道滑蛋蝦仁,同樣是一個概率沒有那麼大的事件。

看來,“蝦仁炒蛋”,不僅讓人類撓頭,如今也還在讓機器人撓頭。

“蝦仁炒蛋”做不好沒關係,畢竟,這也不是斯坦福這一個研究團隊,以一己之力能夠完美解決的問題。

實際上,他們想要解決的也並不是這個問題。

他們想要解決的是,能否將現在雙臂機器人運動控制的研究方法再往前推一步——驗證靜態數據集與不同模仿學習算法聯合訓練的可行性。

從這一點上來看,他們做到了。

在一系列試驗中,他們驗證了ACT、Diffusion Policy(擴散策略)、VINN三類重要的模仿學習算法在Mobile ALOHA上任務執行的成功率都得到了明顯的提高。

更重要的是,他們打造的這套平臺,成本只有3.2萬美元(約合22.7萬元)。

在此之前,類似Mobile ALOHA的雙臂機器人平臺PR2、TIAGo,價格普遍在20萬美元(約合142萬元)以上。

也就是說,斯坦福這一研究團隊,爲機器人雙臂運動控制的研究驗證了一個思路、提供了一套更便宜的研究平臺。

雖然沒有大家想象的直接搞出一個廚師機器人,甚至保姆機器人來得炫酷,但這樣一套開源平臺和算法展現出來的效果,尤其是在大模型被神話了的現在,讓大家再次意識到了模仿學習對於機器人的重要性。

同時也爲接下來機器人,乃至人形機器人的上肢運動控制研究,提供了一個新的思路。

而且,這又是一個由華人科學家團隊開源的項目。