AI絕悟推出升級版本 英雄池完全解禁

一個人精通金庸武俠裡的所有武功,這可能嗎?現實中很難,但“絕悟“做到了。

11月28日騰訊宣佈,由騰訊AI Lab 與王者榮耀聯合研發的策略協作型AI“絕悟”推出升級版本。“絕悟”一年內掌握的英雄數從1個增加到100+個,實現了王者榮耀英雄池的完全解禁,此版本因此得名“絕悟完全體”。

升級後的“絕悟”AI不但掌握王者榮耀所有英雄的所有技能,能應對高達10的15次方的英雄組合數變化,還“自帶軍師”,能夠做出最佳的英雄博弈策略選擇,綜合自身技能與對手情況等多重因素,派出最優英雄組合。

相關研究還被AI 頂級會議NeurIPS 2020 與頂級期刊TNNLS 收錄,展現出騰訊國際一流的AI 研究與應用能力

AI+遊戲研究是騰訊攻克AI 終極研究難題——通用人工智能(AGI)的關鍵一步。從絕藝到絕悟,不斷讓AI 從0到1去學習進化,並發展出一套合理的行爲模式,這中間的經驗方法結論,長期來看,將有望在大範圍內,對醫療、製造、無人駕駛、農業到智慧城市管理等領域帶來深遠影響。

解鎖“全能高手稱號,英雄池完全解禁

在王者榮耀中,若每個職業都有4個紫色熟練度英雄,你就能解鎖“全能高手”稱號。但因爲練習時間與精力限制,很少有人能精通所有英雄。

對於AI而言也有着巨大的挑戰:不同的英雄實際上共享着一套模型參數,從零開始掌握單個英雄的打法是易如反掌的。但在對戰中面對多英雄組合的時候,非完全的地圖信息、每個英雄的戰鬥策略差異以及相互之間的協同,都導致難度的幾何級增加。並且,多英雄組合還帶來了AI 的“災難性遺忘”問題,模型容易邊學邊忘,這成了長期困擾開發者的大難題。

但“絕悟”做到了,騰訊技術團隊一年內讓 AI 掌握的英雄數從1個增加到100+個,實現了王者榮耀英雄池的完全解禁。團隊的長期目標,則是要讓“絕悟”不但學會所有英雄的技能,而且每個英雄都能達到頂尖水平,可以根據陣型排列組合,打出制勝局。

“絕悟”是如何攻克這一難題的呢?技術團隊使用了三個方法:

第一是打造一個AI模型,綜合利用大量機器學習基本組件優勢,讓模型適配MOBA類任務表達能力強,還能對英雄操作精細建模

第二是是研究出CSPL的漸進學習方法(Curriculum Self-Play Learning,課程自對弈學習),讓 AI 能從易到難、一步一步掌握所有英雄能力。

第三是專門搭建了一個大規模訓練平臺——騰訊開悟(aiarena.tencent.com),爲訓練AI所需要的大規模運算保駕護航。這個平臺也開放給了 18 所一流高校使用,爲研究提供技術和資源支持。

自帶軍師輔佐——“AI教練智用田忌賽馬

一場比賽中,勝負的關鍵不僅在於擁有“絕悟”這樣的頂尖選手,排兵佈陣的教練也非常重要。團隊的第二個目標,就是爲“絕悟”找到一個能排兵佈陣的AI教練,也就是在遊戲BP環節(禁選英雄)的最優策略。

王者榮耀中的排位BP(BanPick,簡稱BP)環節,是可能影響到雙方對局博弈的重要節點。簡單的做法是採用“貪心策略”,即選擇當前勝率最高的英雄。但王者榮耀有上百個英雄,任意英雄間都有或促進或剋制的關係,只按勝率選擇很容易被對手針對,更需要綜合考慮敵我雙方、已選和未選英雄的相關信息,最大化己方優勢,最小化敵方優勢,這就對AI的決策能力提出了更高的要求。

受到圍棋 AI 算法的啓發,團隊創新採用了蒙特卡洛樹搜索(MCTS)和神經網絡結合的自動 BP 模型,能夠又快又準地選出具備最大長期價值的英雄。

除了常見的單輪BP ,AI 教練還學會了王者榮耀 KPL 賽場上常見的多輪 BP 賽制,該模式下不能選重複英雄,對選人策略要求更高。訓練後的BP模型在對陣基於“貪心策略”的基準方法時,能達到近70%勝率,對陣按位置隨機陣容的勝率更接近90%。