Nature最新封面:AI戰勝了人類世界冠軍,創下最快無人機競速記錄

人工智能(AI)再次戰勝了人類冠軍。

這一次,是在無人機競速領域。

來自蘇黎世大學機器人與感知研究組(Robotics and Perception Group)的 Elia Kaufmann 博士團隊及其英特爾團隊聯合設計了一種自動駕駛系統——Swift,該系統駕駛無人機的能力可在一對一冠軍賽中戰勝人類對手。

這一重磅研究成果,剛剛以封面文章的形式發表在了最新一期的Nature雜誌上。

在一篇同期發表在 Nature 上的新聞與觀點文章中,荷蘭代爾夫特理工大學的研究院 Guido de Croon 教授寫道,“Kaufmann 等人的研究是機器人學家克服現實差距的一個很好的案例。儘管 Swift 使用 AI 學習技術和傳統工程算法的巧妙組合進行訓練,但該系統應該在一個更真實多變的環境中進一步開發,從而充分釋放這項技術的潛力。”

儘管如此,研究團隊表示,該研究標誌着移動機器人學和機器智能的一個里程碑,或可啓發在其他物理系統中部署基於混合學習的解決方案,如自動駕駛的地面車輛、飛行器和個人機器人。

當前,基於深度強化學習的人工智能(AI)系統在雅達利(Atari)遊戲、國際象棋、《星際爭霸》和 GT 賽車(Gran Turismo)等遊戲中已經超越了人類冠軍。然而,這些成就全部發生在虛擬環境中,而非真實世界中。

無人機競速對經驗飛行員和 AI 都具挑戰,但 AI 而言,更具挑戰性。因爲在虛擬環境中,資源幾乎是無限的,而轉向現實世界意味着必須使用有限的資源。對於無人機來說,情況尤爲如此,因爲取代人類飛行員的傳感器和計算設備必須被搭載到空中。

另外,現實世界比虛擬世界更加不可預測。雖然模擬的比賽無人機可以按照預先編程的軌跡完美地行駛,但對一個無人機發出的單一指令可能產生多種效果,影響難以預測,對於通過 AI 訓練的無人機尤爲複雜。

傳統的端到端學習方法難以將虛擬環境的映射轉移到現實世界,虛擬和現實兩者之間存在着現實差距,而現實差距構成了機器人領域中主要的挑戰之一。

在該研究中,Swift 系統通過將 AI 學習技術與傳統工程算法融合,實現了智能訓練。首先,該系統通過人工神經網絡處理無人機從相機中獲取的圖像,從而精準地檢測到門的角落。然後,利用雙目視覺軟件用來計算無人機的速度。

Swift 系統的創新之處在於另一個人工神經網絡,將無人機的狀態映射到調整推力和旋轉速率的命令。利用強化學習,通過模擬中的試錯過程來優化從環境中獲得的獎勵。在這個算法中,該系統採用了強化學習,而非端到端學習,從而可以通過抽象概念來彌合現實與模擬之間的差距。

由於狀態編碼的抽象層次高於原始圖像,強化學習模擬器不再需要複雜的視覺環境。這一優化減少了模擬系統與真實系統之間的差異,提升了模擬速度,使得系統能夠在大約50 分鐘內完成學習。

據論文描述,Swift 由兩個關鍵模塊組成:observation policy 和 control policy。其中,observation policy 由一個視覺慣性估計器和一個門檢測器組成,可以將高維視覺和慣性信息轉化爲任務特定的低維編碼;control policy 由一個兩層感知器表示,可以接受低維編碼,並將其轉化爲無人機指令。

此次比賽的賽道是由一位外部世界級 FPV(第一人稱主視角)飛行員設計的。賽道包括七個正方形的門,排列在一個 30×30×8 米的空間內,組成了一圈長達 75 米的賽道。

此外,該賽道具有特色鮮明且具有挑戰性的機動動作,包括 Split-S 等。即使發生碰撞,只要飛行器能夠繼續飛行,飛行員依舊可以繼續比賽。如果發生碰撞且兩架無人機均無法完成賽道,距離更遠的無人機獲勝。

Swift 與 Alex Vanover(2019 年無人機競賽聯盟世界冠軍)、Thomas Bitmatta(2019 年 MultiGP 冠軍)和 Marvin Schaepper(3X Swiss 冠軍)等人進行了多場比賽。

其中,Swift 在與 A. Vanover 的 9 場比賽中贏得了 5 場,在與 T. Bitmatta 的 7 場比賽中贏得了 4 場,在與 M. Schaepper 的 9 場比賽中贏得了 6 場。

另外,Swift 共有 10 次失利,其中 40% 因與對手碰撞,40% 因與門碰撞,20% 因比人類飛行員飛行較慢。

總體而言,Swift 在與每位人類飛行員的大多數比賽中取得了勝利。另外,Swift 還創下了最快的比賽時間記錄,比人類飛行員 A. Vanover 的最佳成績快了半秒鐘。

從數據分析中可以看出,Swift 在整體上比所有人類飛行員都要快,尤其在起飛和緊急轉彎等關鍵部分表現更爲出色。Swift 的起飛反應時間更短,平均比人類飛行員提前 120 毫秒。而且,Swift 的加速度更大,在第一個門處達到更高的速度。

此外,Swift 在急轉彎時表現出更緊密的機動動作,這可能是因爲它在較長時間尺度上優化了軌跡。與此相反,人類飛行員更傾向於在較短時間尺度內規劃動作,最多考慮到未來一個門的位置。

此外,Swift 在整體賽道上實現了最高的平均速度,找到了最短的比賽線路,併成功地將飛行器保持在極限附近飛行。在時間試驗中,Swift 與人類冠軍進行比較,自主無人機表現出更加一致的圈速,平均值和方差都較低,而人類飛行員的表現則更加因個體情況而異,平均值和方差較高。

綜合分析表明,自主無人機 Swift 在比賽中展現出了出色的性能,不僅在速度上表現優越,還在飛行策略上具備獨特的特點,使其能夠在整個比賽中保持高水平的表現。

這項研究探索了基於來自物理環境的嘈雜和不完整傳感輸入的自主無人機競速,展示了一個自主物理系統在競速中取得了冠軍級的表現,有時甚至可以超越人類世界冠軍,突顯了機器人在受歡迎體育項目中達到世界冠軍級表現的重要意義,爲機器人技術和智能取得了重要里程碑。

然而,與人類飛行員相比,研究中的系統並未經過撞擊後的恢復訓練。這限制了系統在撞擊後繼續飛行的能力,而人類飛行員可以在硬件損壞的情況下繼續競賽。

另外,與人類飛行員相比,Swift 系統對環境變化的適應能力較弱,使用的相機刷新率較低;儘管該方法在自主無人機競速中表現優異,但其在其他現實系統和環境中的泛化能力尚未充分探究。

顯然,Kaufmann 及其團隊的成就不僅僅侷限於無人機競速領域,這項技術或許可能會在軍事應用中找到用武之地。而且,他們的技術可使無人機更平穩、更快速、更長程,有助於機器人在駕駛、清潔、檢查等領域更有效地利用有限的資源。

但要實現這些目標,研究團隊依然需要解決諸多挑戰。正如 Croon 在評論文章中所說,“爲了在任何競賽環境中都能打敗人類飛行員,該系統必須能應對外部干擾,如風,光照條件變化,定義不太清晰的各種門,其他競速無人機和許多其他因素。”