Meta開源複雜虛擬人動作模型!用於控制基於虛擬物理的人形Agent
“無監督強化學習(RL)”的目標是預訓練出一種能夠在複雜環境中解決各種後續任務的智能體。雖然這一領域最近取得了不少進展,但現有方法仍存在一些問題:要想在某些任務上表現出色,可能仍需要對每個任務運行一次強化學習;需要用到覆蓋面良好的數據集或精心挑選的任務樣本;或者使用的無監督損失與後續任務的關聯性較差。(鏈接在文章底部,可直接在線體驗)
基於此,Meta提出了一種新算法,通過利用無標籤的行爲數據集中的軌跡進行模仿,來改進無監督強化學習。這種方法的技術創新點被稱爲“前向-後向表示與條件策略正則化”。爲驗證這種方法的效果,訓練了一個名爲META MOTIVO的模型,這是第一個能夠解決多種全身任務的“人形行爲基礎模型”。這些任務包括動作跟蹤、目標到達和獎勵優化等。這個模型不僅能夠表現出逼真的人類行爲,還在任務表現上達到了專用方法的競爭水平,同時超越了最先進的無監督強化學習和基於模型的方法。
01 技術原理
Forward-Backward Representations with Conditional Policy Regularization (FB-CPR) 是一種新算法,它結合了無監督的前後向表示學習和一種特殊的模仿學習機制,幫助策略學習覆蓋未標註軌跡數據中的狀態。
FB-CPR 是在直接與環境交互的過程中進行在線訓練的,關鍵在於它學會了一種“統一的表示方式”,把狀態、動作和獎勵映射到同一個潛在空間中。這樣,算法可以更好地理解行爲和獎勵的關係。結果就是,可以訓練出更“聰明”的模型,不僅能實現目標導向的強化學習、模仿學習,還能優化獎勵和完成目標跟蹤,而且可以直接在新任務中“無縫上手”,不需要重新調整。
模型也存在一些問題,例如模型試圖儘快達到所需的姿勢,有時會導致不自然的行爲(例如,直接摔倒在地上)。同時,還會有奇怪的抖動之類的問題。
02 實際效果
歡迎交流~,帶你學習AI,瞭解AI