『TAMING UNCERTAINTY』(R, Hertwig et al., MIT Press. 2019) から、5つめの論文「Strategic Uncertainty and Incomplete Information: The Homo Heuristics Does Not Fold (L, Spiliopoulos and R, Hertwig)」をご紹介します。
こちらもHeuristic(ヒューリスティック)についての論文ですが、この論文ではヒューリスティックな意思決定はどこまで有効なのか、設定環境のボーダーラインを検証しています。
お互いに相手の好みや特性もわからず、自分が置かれている環境についてもよくわからない。しかも相手とこれまで対戦したことがなく勝負は一度きり。そういう場合でも、果たしてヒューリスティックな判断は通用するのか。古典的な手法のほうがいいのではないか。その境界を探っています。
10種類の戦略を ランダムに環境を変えて 10,000回 対戦(=それぞれのモデルの計算を実行)してパフォーマンス評価しています。
「勝負は一度きり」の前提なので 事前学習なし。
<ヒューリスティックな戦略>
Level-1 相手の行動の予測レベル:相手の過去の行動を配慮する。このとき、相手は考えられる選択肢全てを同じ確率で選ぶと仮定する。
Level-2 相手の行動の予測レベル:相手がLevel-1 の行動を予測していると仮定する。
Level-3 相手の行動の予測レベル:相手がLevel-2 の行動を予測していると仮定する。
Level-k 相手の行動の予測レベル:相手が Level-(k-1) の行動を予測していると仮定する。
Social maximum ゲーム全体の報酬の合計が最大になる行動を選択する。
Equality 相手との報酬の差が最も小さい行動を選択する。
Dominance-1 相手が場を支配する行動は無視し、それ以外で自分が一番優位になる行動を選択する。
Maximax 行動ひとつひとつごとに、報酬が最大になる行動を選択する。
Maximin 行動ひとつひとつごとで、最小の報酬を計算し、その中で最大の報酬となる行動を選択する。
<ランダムベースライン戦略>
Random baseline 戦略を持たない。
<古典的戦略>
ナッシュ均衡 各プレイヤーが最適な戦略をとるときに、双方が最大の利益を得る。
具体的に、環境条件がどう違うのかというと (1)ゲームのサイズ(行動の数)、(2)報酬の不確実性、(3)相手の合理性 の3点です。
検証の結果、シンプルなヒューリスティックな戦略(Level-1 と Dominance-1) が最も優れたパフォーマンスを見せました。
いずれも、相手の行動の予測を最小限に抑えています。
初対戦且つ一発勝負の場合は 相手に対して特定の思い込みを持たないほうが良い 判断ができるようです。
この論文の目的である、ヒューリスティックな手法と古典的手法の境界はどこか、という課題への結果は以下の通りです。
Figure 1: 各ポリシーのゲーム結果。パフォーマンスは Indifference 基準で運用される。ペイオフの欠落の平均割合は0%から80%の範囲であり,行動空間のサイズは2から20の範囲で陰影が濃いほど性能が良い.
出典:Strategic Uncertainty and Incomplete Information: The Homo Heuristics Does Not Fold (L, Spiliopoulos and R, Hertwig)
Figure 1のY軸はゲームの規模を示し、X軸はペイオフ(プレイヤーが行動を選択した際に得られる利益や報酬に関する情報の欠損率を示しています。つまり、グラフの右に行くほどUncertaintyが高い状況です。
Y軸はゲームの規模を示し、今回は2から20です。
グラフ内の空間領域を等高線のように区切る線と、その線上に書かれた数字は、missing payoffsの平均値です。
平均値が高いほど、ポリシーのパフォーマンスが良いことを示しています。つまり、暗い色の領域が広いほど、その戦略が幅広い状況で優れたパフォーマンスを示すことを意味します。
確かに L1とD1が一番 黒っぽい領域が広いですね。
この実験結果では、シンプルな状況・複雑な状況とは、具体的にゲームの規模がどれくらい以下・以上のことをいっているのでしょうか。
グラフを見る限り、大雑把に言って、シンプルなゲームとはだいたい行動の数が10以下で、複雑なゲームはそれ以上の行動の数だといえそうです。
つまり、行動の数が10 以下のゲームで、 期待値の計算に必要な情報が50%以上不足している場合は、L1やD1のヒューリスティックな手法が有効だと示されています。
あくまでこの論文の実験結果としては、古典的手法のNE(ナッシュ均衡)では、特に暗い領域は見当たりませんので「古典手法のほうが、こういうケースに強い」という特性はみられません。
こういうシュミレーションを対戦相手同士で行っている場合はどうなのでしょうか。
いわば AI vs AI のシンギュラリティというか、どちらの性能が高いか・どのデータを使うかの凌ぎあいの 超過点というか、飽和点というか・・・相手のことをどこまで予測に盛り込むか、の課題はどうなっているのか、興味があります。
今回の論文は、そもそも相手のことをそこまで考えずにシンプルに予測するといいですよ、と言っていますから、それがもう、そのひとつの答えなのか。。