ABM+機器學習:如何理解終局之戰?

現實世界中的諸多場景,從古代的田忌賽馬到現代的核威懾、越南戰爭及俄烏衝突,都可以認爲是典型的博弈場景。在馮·諾伊曼和奧斯卡·摩根斯特恩的《博弈論與經濟行爲》奠定其理論研究基礎之後,博弈論作爲一個重要的分析工具,在衆多學科和領域中都得到了廣泛的應用。

不過,即便在“玩”博弈模型的專業人士看來,目前絕大部分的博弈論模型都只是具有啓發作用的“玩具”。這其中核心的原因是博弈論通常研究的都是高度簡化了的“常規博弈”問題,而真實世界裡的博弈情形卻是非常複雜的。

“常規博弈”場景所描繪的是相對簡單、規則明確的場景,通常包含2到3個行爲體,在享有“共同知識”(common knowledge)的情景下進行博弈。從各種棋類遊戲(象棋、圍棋),到“囚徒困境”等等,都是規則確定的常規博弈。對於這類博弈問題,我們通常的做法是去求它們數學上的均衡解,從而幫助我們理解這些問題。在均衡解下,每個行爲體的行爲都是最優策略,即任何一方都不可能通過單方面改變策略而獲得更好的結果。

但是,一旦博弈場景變得非常複雜,特別是博弈規則不太明確時,“常規博弈”的求解就會十分複雜——沒有均衡解或者有太多的均衡解,因而難以理解。

以田忌賽馬的故事爲例。如果田忌和齊威王各自有15匹馬,可以任意組合,但不能重複使用。比賽分爲五輪,而且每一輪之後雙方都可以根據上一輪的結果來調整策略,則該博弈的複雜度將呈指數級增長。但這也僅僅是一個稍顯複雜的博弈問題,而且是有雙方均接受的明確規則作爲“共同知識”的博弈問題。

何謂“非常規復雜戰略博弈”?

現實國際政治中的博弈場景,遠遠比傳統博弈複雜得多。絕大多數時候,這些博弈不僅涉及多個行爲體、多種行爲和行爲規則,行爲交互作用規則也呈多樣話(比如,不一定是你來我往),甚至由於行爲體需要考慮多個方面的得失,因此權衡得失也非常困難。

最爲重要的是,這類博弈問題通常還缺乏“共同知識”。也就是說,博弈的規則是不確定的,至少是不完整的。我們知道,任何棋類都是規則非常明確而且雙方必須遵守的。這些非常明確且雙方必須遵守的規則就是這類博弈問題中的核心的“共同知識”,也是這類博弈得以進行的核心基礎。

相比之下,國際關係博弈往往不那麼明確,不論過去朝鮮戰爭的停戰談判、越南戰爭的日內瓦談判,還是眼下俄烏戰爭可能的和談,都是多方多輪的博弈。參與各方均有“陰謀”與“陽謀”,而且手段大概率是“灰色”的(例如爾虞我詐、盟友背後捅刀等等),甚至談判參與方也會發生變化。各方都試圖“出奇制勝”,甚至可以說毫無規則可言,導致博弈更具不確定性。

顯然,國際政治的博弈場景和博弈論通常討論的博弈情形和模型有着天壤之別。這樣的博弈問題幾乎不可能有一個完整的數學刻畫,因而也不可能有數學均衡解。我們將這類博弈稱爲“非常規復雜戰略博弈”。而戰爭是最爲複雜的非常規博弈問題,《孫子兵法》所謂“兵者,詭道也”恰恰道出了非常規博弈的核心原則。

需要特別指出的是,非常規博弈與受同一行爲體(或者指揮官)指揮的個體或者智能體(如無人機)之間的“協同”也是非常不同的。

總之,傳統博弈論是無法有效解決“非常規復雜戰略博弈”問題的。面對“非常規復雜戰略博弈”問題,我們亟需超越傳統博弈論的框架,探索新的理論工具與分析方法。

ABM+機器學習:非常規復雜博弈的解決方案

我們認爲,要處理“非常規復雜戰略博弈”問題,以基於行爲體的建模(Agent-Based Modelling,ABM)系統爲核心,再結合強化學習以及其他的機器學習技術,可能是一種可行的解決方案。

ABM模型擅長模擬多個行爲體之間複雜的互動導致的涌現性結果,而強化學習則爲ABM中的行爲體提供了更加有效的自我學習的基礎,因而有助於我們更好地理解和預測博弈的可能結果。

事實上,ABM從一開始就受到了博弈論和演化思想的影響。馮·諾伊曼不僅是博弈論的奠基人之一,還發展了第一個ABM系統的雛形——“通用構造器”(Universal Constructor)或“元胞自動機”(Cellular Automata)。

世界上第一個社會科學領域的ABM系統,是1971年托馬斯·謝林關於種族隔離的著名研究。而謝林本人因爲對非合作博弈論的貢獻,於2005年與羅伯特·奧曼一起獲得諾貝爾經濟學獎。基於一個簡單的ABM模型,謝林發現,在一個有多個行爲體(住戶)的社區中,儘管各自的行爲相對簡單,且每個行爲體都不是“種族主義者”,但種族隔離現象仍然會產生。這樣的涌現性結果顯然是常規博弈模型無法呈現的。

受此啓發,我們認爲可行的研究路徑是:可以秉承某些常規博弈論的思想,爲非常規復雜戰略博弈進行建模,然後主要依賴ABM來探索其可能的結果,即通過多次(大於100次,甚至更多)模擬,基於不同的參數甚至方程系統,模擬不同行爲、行爲規則、互動規則的多種組合下的複雜博弈結果,來獲得不同博弈結果及中間狀態的概率分佈,從而加深對博弈系統的理解。

與絕大多數其他社會科學方法或技術相比,ABM具有極高的靈活性。在構建ABM時,研究者一般會對行爲體、行爲、行爲規則、互動規則、系統環境等先做設定,而且這些設定通常都不是固定數值,而是某個區間。在經過多輪模擬之後,我們可以通過更改這些設定來創建數量巨大的相鄰模型,然後基於驗證(validation)和校準(calibration),ABM可以靠修改方程和參數調參來迅速篩選出更符合實際世界的模型。

針對非常規復雜戰略博弈的ABM建模思路大致如下:我們首先需要基於相應的歷史或現實案例,從中抽象、提煉出行爲體特徵、環境特徵和其他初始設定;其次結合專家知識,大致明確行爲矩陣;然後是讓系統在各種行爲規則、互動規則的制約下不斷運行,系統狀態也會隨之不斷更新;通過多次模擬和不斷驗證和校準,最終獲得可靠的不同博弈結果及中間狀態的概率分佈。有了這樣的結果,我們便能倒推在特定博弈場景中,博弈各方的行爲策略和特定的行爲。

構建ABM基礎系統之後,我們還可以納入“部分可觀測馬爾可夫決策過程(POMDP)”來刻畫行爲體與環境(包括系統中其他所有的行爲體)的交互關係,並用強化學習技術來評估行爲體策略價值,擬合優化行爲體決策偏好。

部分可觀測馬爾可夫決策過程是一類複雜的決策模型,往往用於在不確定性情境中生成決策。其主要組成要素包括:環境狀態、行爲體的行爲空間、 狀態轉移概率、行爲獎勵、觀測空間、獎勵的衰減係數等。

強化學習是使行爲體通過與環境的互動來學習最佳策略的方法。與其他機器學習技術不同,強化學習特別關注不確定和動態環境下的決策,所以特別適用於探索模擬博弈場景中的策略。其基本邏輯是:在每個時間點中,行爲體接收到當前的狀態St和獎勵Rt;行爲體從可做出的行爲列表中,根據策略函數選擇出行爲At,接着發送給環境模型;然後環境模型根據接收的行爲通過轉移函數轉移到下一狀態St+1和獎勵Rt+1,以此循環往復。

強化學習的目的是讓行爲體學習並找到最優或接近最優的行爲策略方法,以此最大化獎勵收益。強化學習的演化性和動態性使我們能夠探索行爲體在複雜博弈場景中的決策及策略偏好變化,併爲ABM的驗證與校準提供支持。這種結合將幫助我們更好地把握系統的不同狀態及其概率分佈。

值得一提的是,非常規復雜戰略博弈幾乎不可能存有大量數據,因此,高度依賴大規模數據的機器學習的做法並不適用。針對這類博弈問題,我們需要的不是“大數據”而是“全數據”計算的思路,即基於問題來思考數據和技術路徑的思路。

總之,對於多個國家之間戰略層面的多回合博弈,常規博弈論的數學求解方法已經顯得力不從心。因此,針對這樣的複雜場景,我們只能發展基於博弈論核心思想的大規模高性能ABM系統,來捕捉複雜博弈所導致的各種複雜狀態及其概率分佈,並進一步反推不同行爲體的行爲、行爲規則等等,從而實現對非常規復雜戰略博弈的更全面的理解與應對。

總結

國家在國際大環境下面對的博弈基本都是多方多輪的非常規復雜戰略博弈問題。要更好地應對這些博弈問題,我們需要突破傳統的博弈建模方法,特別是突破“共同知識”對傳統博弈建模的禁錮,從而構建非常規復雜戰略博弈的模型,並運用大規模高性能的ABM來推演這類非常規復雜戰略博弈問題。這樣才能夠最終實現讓博弈建模從理論模型(“玩具”)到真實場景應用的決定性轉變。

唐世平,系復旦大學教授、複雜決策分析中心主任。