ゲーム理論から考える8人昼の護衛指示
概要
簡略化するために8人昼(村村村村狼狼狩狩、狩人は真狼)の護衛指示について以下の2つのどちらが優位であるか考える
① 一方の狩人候補に1人を固定で護衛させ、他方の狩人候補に3人の護衛ゾーンを割当てる場合
② 2人の狩人候補にそれぞれ2人の護衛ゾーンを割当てる場合
①の村人勝率は明らかに83.33%になるので②がこれに対して優位であるか検討する 従って、以下で焦点を当てるのは②のみであること、また今回は信用差は0であるということに留意してもらいたい
はじめに
5人昼(村村狼狩狩、狩人は真狼)や6人昼(村村村狼狩狩、狩人は真狼)と異なり8人昼の場合は村人陣営と人狼陣営の両方が支配戦略を持つ
例えば、護衛ゾーンを襲撃された狩人候補の信用が下がることを前提に6人昼の護衛指示、つまり信用の高い狩人候補に固定護衛、信用の低い狩人に2択護衛の指示を出すとする
このとき狼は狼の護衛ゾーンを襲撃すると勝利することができないため狩人の護衛ゾーンを襲撃しなければならない
ここで、護衛ゾーンを襲撃された狩人候補の信用について一方では信用が下がり、他方では信用が上がるという矛盾が生じる
つまり、この問題は村人陣営と人狼陣営の両方が支配戦略を持っているためナッシュ均衡を求める必要がある
確認
村人陣営と人狼陣営の勝率は以下のようになる(村人勝率, 人狼勝率で表記)
狼のゾーンを襲撃する | 狩人のゾーンを襲撃する | |
---|---|---|
ゾーンが襲撃された方の信用は高いとする | (, ) | (1, 0) |
ゾーンが襲撃された方の信用は高いとする | (1, 0) | (, ) |
Method1 ゲーム理論
村人がゾーンが襲撃された方の信用は高いとする確率を, 狼が狼のゾーンを襲撃する確率をとすると
村人がゾーンが襲撃された方の信用は高いとするときの期待利得は 村人がゾーンが襲撃された方の信用は低いとするときの期待利得は 従って、のとき村人は「ゾーンが襲撃された方の信用は高いとする」
同様に狼が狼の護衛ゾーンを襲撃するときの期待利得は 狼が狩人の護衛ゾーンを襲撃するときの期待利得は 従って、のとき狼は「狼の護衛ゾーンを襲撃する」
故に、, のときナッシュ均衡 このとき村人勝率は83.33%で①と同じであるということがわかる
Method2 Multi Q-Table Q-Learning
ゲーム理論の知識が皆無だったから最初に手をつけてしまった方法
簡単にいうとこれをマルチエージェント(狩人と人狼)で行うというもの
AlphaGo等のアルゴリズムもこの延長線上に存在する
結果は以下のようになった
1つ目の手法と同様の結果が得られている
結論
8人昼(村村村村狼狼狩狩、狩人は真狼)の護衛指示は「一方の狩人候補に1人を固定で護衛させ、他方の狩人候補に3人の護衛ゾーンを割当てる」のが良い
今回は深く追求していないが、護衛する人を選ぶことができることについても優位であると言える