調和系工学ゲーム理論編

ゲーム理論第三部知的都市基盤工学 5 月 30 日 ( 水 5 限 (6:30~8:0

再掲 : 囚人のジレンマ囚人のジレンマの利得行列協調 (Cooperte:C プレイヤー裏切 (Deect:D ( 協調 = 黙秘裏切 = 自白プレイヤー C 3,3 4, D,4, 右がプレイヤーの利得左がプレイヤーの利得ナッシュ均衡点プレイヤーの合理的な意思決定の結果 (C,C はナッシュ均衡ではない

再掲 : 無限繰り返し囚人のジレンマ 3 4 δ ( δ / ll-c である場合の最適反応戦略プレイヤーのプレイヤーに対する最適反応戦略プレイヤーのプレイヤーに対する最適反応戦略 ( δ = / の場合の最適反応戦略プレイヤー ll-d しっぺ返しプレイヤー ll-c 3,3, 4 3,3 ll-d 4, 4 δ, +δ しっぺ返し 3, 3 3,3 ただし表中の値は全て δ 倍してある, + δ,4 δ つのナッシュ均衡

フォークの定理無限繰り返し囚人のジレンマ 3 つの戦略 ll-c, ll-d, しっぺ返しの中からつを選択可能な場合ナッシュ均衡 { (ll-d, ll-d, ( しっぺ返し, しっぺ返し (ll-d, ll-d 3 4 δ ( δ / 3 4 δ < ( δ </ 回限りのゲームのナッシュ均衡戦略に含まれない行動の組 (C,C の系列が無限繰り返しゲームのナッシュ均衡に含まれる無限の戦略集合を仮定した場合 ( 一般的な場合に拡大回限りのゲームのナッシュ均衡戦略に含まれない行動の組 (C,C の系列が無限繰り返しゲームのナッシュ均衡に含まれるか? フォークの定理

ミニマックス行動定義ミニマックス行動戦略形ゲーム G においてプレイヤーに対するミニマックス行動とは mx (, m を満たすプレイヤーの行動ミニマックス利得という m プレイヤーのミニマックス行動 mnmx (, のことで右辺の値をプレイヤーのプレイヤーが最適反応原理に基づいて選択した行動に対してプレイヤーの利得を最小化するプレイヤーの行動プレイヤーのミニマックス利得プレイヤーがミニマックス行動を選択した場合のプレイヤーの利得プレイヤーが最適反応原理によって行動を選択した場合に最低限獲得可能な利得 ( 保障水準

ミニマックス行動囚人のジレンマプレイヤーのミニマックス利得とプレイヤーのミニマックス行動プレイヤープレイヤー C D 3, 3 4 C, D, 4, プレイヤーがミニマックス行動 D を選択すればプレイヤーはミニマックス利得以上の利得を獲得できない mn mx (, = mn[mx( 3,4, mx(,] = = mn [4,] プレイヤーの C, D に対するプレイヤーの最適反応プレイヤーが D を選択してプレイヤーの利得を最小化プレイヤーのミニマックス行動同様にプレイヤーのミニマックス行動プレイヤーの :D : ミニマックス利得プレイヤーの :D : ミニマックス利得ミニマックス利得の組 (,

個人合理的定義プレイヤーの行動の組が成立するとき行動の組 = (, プレイヤーとプレイヤーのミニマックス利得個人合理的 ( v が成立するときをいう > = (, が個人合理的であるとは v ( v ( v ( > v に対しては強く個人合理的であるという

個人合理的囚人のジレンマにおける個人合理的な行動の組ミニマックス利得の組 (, 個人合理的な行動の組の条件を満たす利得の組個人合理的な行動の組強く個人合理的な場合 (3,3 (C,C 上の利得ベクトルは含まない強く個人合理的な行動の組の条件を満たす利得の組 (3,3 (, (D,D (, プレイヤー C C 3,3 プレイヤー D 4, (,4 (, ミニマックス利得の組 (, D,4, 個人合理的利得ベクトル集合 (3,3 (4, 強く個人合理的な行動の組 (C,C プレイヤーの利得

フォークの定理定理成分ゲーム G の強く個人合理的な任意の行動の組に対して将来利得の割引因子 δ が存在してが成り立つフォークの定理 δ mx mx (, ( を満たせば繰り返しゲーム * ( s = (,, ( v * * * G のナッシュ均衡点 s = ( s, s,..., =, (, 無限繰り返しゲームのナッシュ均衡の中の一つに強く個人合理的な行動の組を毎回実現する均衡点が存在 = が

フォークの定理定理の証明トリガー戦略規則規則 s *, s * 相手のプレイヤーだけが強く個人合理的な任意の行動の組 = (, ミニマックス行動の定義から離脱すれば以後相手に対する m, m に従う, 上記の場合以外は強く個人合理的な任意の行動をとる繰り返し囚人のジレンマでのトリガー戦略相手が D を出すまで自分は常に C を出し続ける ( 初回は C を出す一度相手が D を出せばそれ以降のゲームではそれ以降の相手の行動に関係なく D を出し続ける

フォークの定理定理の証明 Cse プレイヤープレイヤーがトリガー戦略を選択初回からお互いに強く個人合理的な行動を取り続けどちらもそこから離脱することがないので * ( s = が実現する (,,... お互いにトリガー戦略から変更しなかった場合のプレイヤーの t 回目以降の割引利得和は + δ ( +... = である. ( δ (

フォークの定理 3 定理の証明 Cse プレイヤーが戦略をトリガー戦略から異なる戦略に変更プレイヤーは t 回目のゲームでと異なる行動をとる. このときトリガー戦略の定義からプレイヤーは t + 回目以降のゲームで * s プレイヤーに対するミニマックス行動をとり続ける. 戦略を変更したプレイヤーの t 回目以降の割引利得和は (, + δ v + δ v +... = (, + v である. t 回目の利得 δ δ t+ 回目以降の割引利得和

フォークの定理 4 定理の証明 3 プレイヤーの t 回目以降の割引利得和トリガー戦略からの変更に関して行動 Cse ( 変更しないに対してならばトリガー戦略 : ( δ δ * s ( Cse : ( 変更した (, + v (, δ + v δ から他の戦略へ変更しても割引利得和を増やせない δ δ プレイヤーのトリガー戦略はプレイヤーのトリガー戦略に対する最適反応戦略トリガー戦略がナッシュ均衡戦略プレイヤーとプレイヤーの両方に対して成立

フォークの定理 5 定理の証明 4 v δ δ δ +, ( ( v, ( mx (, ( mx δ (, ( mx, ( mx ( v δ v δ δ +, ( mx, ( mx ( v δ δ +, ( mx ( ( v δ δ δ +, ( mx ( 右辺を最大化するについても成り立つ (, (,,, ( = 式変形式変形

フォークの定理 6 囚人のジレンマ強く個人合理的な行動の組 (C,C 割引因子 δの条件 mx (, δ, =, ナッシュ均衡点の実現する行動の組の系列に * t ( s = (,...,,... = (( C, C,..., ( C, C,... が含まれる mx (, 4 3 δ 4 + v = ( が成り立つ場合フォークの定理プレイヤー C C 3,3 プレイヤー D 4, (,4 (, ミニマックス利得の組 (, D,4, 個人合理的利得ベクトル集合 (3,3 (4, プレイヤーの利得

再掲 : 無限繰り返し囚人のジレンマ 3 3 4 δ < ( δ </ の場合プレイヤー : しっぺ返しプレイヤー : ll-d の場合の割引利得和のとる範囲 ( +δ,4 δ プレイヤーの利得 (,4 (, ナッシュ均衡お互いしっぺ返しの場合の割引利得和 (3,3 (4, プレイヤー ( 4 δ, + δ の利得プレイヤー : ll-d プレイヤー : しっぺ返しの場合の割引利得和のとる範囲しっぺ返しに対する ll-d の割引利得和 > 4 δ しっぺ返しに対するしっぺ返しの割引利得和しっぺ返しを選択する誘因がない 3

再掲 : 無限繰り返し囚人のジレンマ 4 3 4 δ ( δ / の場合プレイヤー : しっぺ返しプレイヤー : ll-d の場合の割引利得和のとる範囲 ( +δ,4 δ プレイヤーの利得 (,4 (, ナッシュ均衡お互いしっぺ返しの場合の割引利得和 (3,3 ナッシュ均衡 (4, しっぺ返しに対する ll-d の割引利得和 > 4 δ しっぺ返しに対するしっぺ返しの割引利得和 3 しっぺ返しを選択する誘因が発生プレイヤー ( 4 δ, + δ の利得プレイヤー : ll-d プレイヤー : しっぺ返しの場合の割引利得和のとる範囲

フォークの定理 7 トリガー戦略以外でも強く個人合理的な行動の組 (C,C の系列はナッシュ均衡戦略により実現可能か? 強く個人合理的な行動の組 (C,C からの離脱に対してミニマックス行動 D を選択する戦略との対戦 ex. しっぺ返し戦略強く個人合理的な戦略の組に留まる誘因発生の条件離脱により得られる利得 > + 強い個人合理的な戦略の組から離脱しない場合の割引利得和強い個人合理的な戦略の組から離脱してミニマックス行動を選択された場合の割引利得和割引因子 δ が十分に大きいと成立強く個人合理的な行動の組 (C,C の系列が実現可能

有限繰り返しゲームのナッシュ均衡有限繰り返しゲーム繰り返し回数が有限 = 未来に対する不確実がない割引因子 δ は導入しない定理成分ゲーム G が唯一のナッシュ均衡点もつとき任意の繰り返し回数 T に対して T 回繰り返しゲームである ( s * = ( e, e,..., e e = ( e, e T * * * G のナッシュ均衡点 s = ( s, s をは

有限繰り返しゲームのナッシュ均衡定理の証明後ろ向き帰納法で証明 T = の場合回限りのゲームと同様であるので繰り返しゲームのナッシュ均衡点は成分ゲームのナッシュ均衡点と一致する T = の場合定理は成立する

有限繰り返しゲームのナッシュ均衡 3 定理の証明 T の場合 T 回目のゲーム ( 最後の一回のゲーム以降のゲームに影響を与えないので T- 回目までのゲームの履歴にかかわらず回限りのゲームと同様に扱うことができる合理的な行動の結果は成分ゲーム G のナッシュ均衡 T- 回目のゲーム T 回目のゲームでは既に行動が決定していて T- 回目のゲームは T 回目のゲームに影響を与えない T- 回目までのゲームの履歴にかかわらず T- 回目のゲームも回限りのゲームと同様に扱うことができる合理的な行動の結果は成分ゲーム G のナッシュ均衡

有限繰り返しゲームのナッシュ均衡 4 定理の証明 3 T の場合回目のゲーム回目のゲームでも既に行動が成分ゲームのナッシュ均衡戦略と決定していて回目のゲームは回目のゲームに影響を与えない回目のゲームも回限りのゲームと同様に扱うことができる合理的な行動の結果は成分ゲーム G のナッシュ均衡したがって T の場合毎回のゲームにおけるナッシュ均衡点は成分ゲームのナッシュ均衡点と一致する

有限繰り返しゲームのナッシュ均衡 5 T =,T において定理が成立しているので定理成分ゲーム G が唯一のナッシュ均衡点もつとき任意の繰り返し回数 T に対して T 回繰り返しゲームである ( s * = ( e, e,..., e e = ( e, e T * * * G のナッシュ均衡点 s = ( s, s をはが成立する

有限繰り返しゲームのナッシュ均衡 6 有限繰り返し囚人のジレンマ定理の仮定成分ゲームのナッシュ均衡点が唯一一回限りの囚人のジレンマのナッシュ均衡点は定理の仮定を満たす ( D, D で唯一有限繰り返し囚人のジレンマのナッシュ均衡 ( s * = (,..., t = (( D, D,..., ( D, D 毎回成分ゲームの均衡点 (D,D が繰り返される

繰り返し囚人のジレンマコンテスト前述の繰り返し囚人のジレンマの分析ゲーム全体を俯瞰する立場からの考察 ex. 複数のナッシュ均衡点フォークの定理プレイヤー個人の立場からの考察有限繰り返し囚人のジレンマナッシュ均衡戦略 :ll-d 高い利得を獲得できるか? お互いにDを選択すればお互いCよりも低い利得実際に繰り返し囚人のジレンマをおこなう場合どのような戦略を選択すればよいのだろうか? 繰り返し囚人のジレンマコンテスト [Axelrod 984] 複数の戦略プログラムの総当たり対戦

繰り返し囚人のジレンマコンテスト第回コンテストの概要プレイヤールール結果心理学経済学政治学数学社会学の分野に属する 4 名に作成されたプログラム + ランダムプログラム総当り対戦各対戦は 00 回繰り返しを 5 回おこなう評価対戦で得られた利得の合計優勝しっぺ返しの戦略コンテストで用いられた利得行列上位を占めた戦略の特徴自分から裏切らない = 上品さ (nce キングメーカーの存在 C D C 3,3 4, D,4, 相手が裏切っても再び協調し合える = 心の広さ (orgveness

繰り返し囚人のジレンマコンテスト 3 第回コンテストの概要プレイヤールール結果前回の分野 + コンピュータサイエンス物理学等の分野に属する 6 名に作成されたプログラム + ランダムプログラム前回のルール + 繰り返し回数の確率的変動第回コンテストの結果を踏まえた参加プログラムのつの傾向. 上品で心が広いプログラム ( しっぺ返しの戦略の踏襲. のようなプログラムから搾取を狙うプログラム同士では協調同士で裏切り合い優勝しっぺ返しの戦略上位を占めた戦略の特徴上品で心が広い傾向前回と同様非協調的な相手 (ex. ll-d には裏切り

繰り返し囚人のジレンマコンテスト 4 最近の研究プレイヤー各戦略毎に種ルール結果前回のルール + 繰り返し回数の確率的変動高い利得を獲得した種が増加する tness 関数優性種の交代

調和系工学 ゲーム理論編

調和系工学ゲーム理論編