ゲーム理論 ゲーム理論の目的 動的価値環境下におけるエージェント群の意志決定 戦略的な反応の科学 エージェント 選択可能な手番の集合, 最良戦略の導出と行動 戦略は 純粋 ( 特定の動作 ) または, 混合 ( ランダム動作 ) ナッシュ均衡 ( 同じような手行動の繰り返しに落ち込む ) すべてのプレーヤーの最適な反応が お互いに調和したものになる
復習 : ミニ マックス定理 フォン ノイマン ゼロ和 2 人ゲームの最適戦略 一方のプレイヤーは最小利得を最大化する戦略 ( マックス ミニ戦略 ) をもち, 他方のプレイヤーは最大損失を最小化する戦略 ( ミニ マックス戦略 ) をもっており, しかも, これらの戦略は同じ値をもたらす 最小利得の最大化をもたらす.
繰り返しゲームの落ち着く先 2 人ゲームのナッシュ均衡 ( 利己的状態 ) 互いに, 相手が選んでいる戦略のもとでは, 自分の選んだ戦略は自分の利得を最大化している, 一般に, 相手が選ぶ戦略に対しては, 自分の利得を最大化する自分の戦略 最適反応 をとる. すると, 互いに最適反応となっているような戦略の組 ナッシュ均衡 となる. 互いに最適反応になっているので, 自分だけが, ほかの戦略に切り替えるという動機は存在しない.
ジョン F ナッシュの主要論文 http://www-groups.dcs.standrews.ac.uk/~history/mathematicians/nash.html "Equilibrium points in N-Person Games", 1950, Proceedings of NAS. "The Bargaining Problem", 1950, Econometrica. "A Simple Three-Person Poker Game", with L.S. Shapley, 1950, Annals of Mathematical Statistics. "Non-Cooperative Games", 1951, Annals of Mathematics. "Two-Person Cooperative Games", 1953, Econometrica.
n 人ゲームのナッシュ均衡 各プレイヤーの選んだ戦略の組で, 各プレイヤーについて, 自分が選んだ戦略が他のすべてのプレイヤーの選んでいる戦略に対する最適反応となっている場合. ナッシュは, このゲームの定式化と均衡の定義, およびその存在証明をほとんど数式を用いずに, 1 ページの論文として発表. 証明には, 不動点定理が使われた, この方法は, それ以後, 経済の均衡の存在証明のための標準的方法となる.
ゼロ 2 人和ゲームのナッシュ均衡 = ミニ マックス定理 ゼロ和 2 人ゲームでは, 相手はこちらの利得を最小化するように行動. そのため, ナッシュ均衡での利得は, 相手の戦略についての最小値となる. 解説 : 相手がその戦略からほかの戦略に切り替えても相手の利得は決して増加しないので, ゼロ和である以上, 自分の利得は決して減少しないことになる. すなわち, 均衡での自分の利得は, 確実に保証できる利得である. しかし, 自分だけがほかの戦略に切り替えたとすると, ナッシュ均衡から外れることになるので, 自分の利得は減少することはあっても決して増加しない. つまり, その戦略ではもはや均衡利得以下の値しか保証できません. こうして, ナッシュ均衡は, 保証利得を最大化する戦略, すなわちマックス ミニ戦略の組となっている.
ナッシュの非協力 n 人ゲーム ナッシュの非協力 n 人ゲームは, フォン ノイマンの 2 人ゼロ和ゲームの壮大な拡張となっている. ゲームの解であるナッシュ均衡も, 概念としては単純でよりわかりやすい. 保証利得が最大化されていることを検証するより, ナッシュ均衡であることを確かめることのほうが一般には容易. たとえば, ジャンケンでは, 相手が (1/3,1/3,1/3) という混合戦略をとるならば, 自分は, どんな混合戦略 (p,q,r) をとっても期待利得はゼロとなることが容易に計算できる. つまり, どんな混合戦略も, 相手の (1/3,1/3,1/3) に対する最適反応となっているわけですから, とくに (1/3,1/3,1/3) も相手の (1/3,1/3,1/3) に対する最適反応となり, この組はナッシュ均衡となる.
ナッシュ均衡の定義 交渉 (negotiation) とは 複数の人間もしくは集団の間で共同で行う意思決定のプロセスである. 交渉を分析するために定式化をおこなったものがゲーム理論 (game theory) である. 交渉の参加者 : プレーヤー (player)(p,q) 各プレーヤーがとり得る行為 : 戦略 (strategy): s p,s q
プレーヤー p,q のとり得るすべての戦略の集合 : S p S q 戦略の組 (s p, s q ) に対し各プレーヤーの効用 (utility): u p (s p, s q ) u q (s p, s q ) (s p, s q ) が選択される確率を z sp sq ここで, 確率分布 Z = ( z sp sq s p S p, s q S q ) を混合戦略 (mixed strategy) と呼び, その集合 Z を混合戦略集合という. z が Z のすべての値を取った時の集合 S S = { (u p (z),u q (z)) z Z } をゲーム G の交渉集合 (negotiation set) という. 現状を表す基準点を d で表すものとする. このとき交渉は (S,d) で表す.
交渉の成立要件 交渉が成立するためには以下の 3 条件が成立することが必要である 1.S は有界で閉な凸集合である sx+(1-s)y S ( 両プレーヤーとも混合戦略をとる ) 2. 現状点を表す d = (d p,d q ) をもつ ( 現状は実行可能な交渉解の 1 つである ) 3.u p d p かつ u q d q となるような (u p,u q ) が少なくとも 1 つは S に存在する ( 交渉の可能性の保証 ) さて この条件のもとで交渉の合理的な妥結点 f(s,d) = (u * p,u* q ) がどのような条件を満たすべきかを吟味する
合理的な妥結点 交渉を継続するために!
個人合理性 交渉が続くためには, 現状 ( d p,d q ) より良くなっている必要がある. 公準 1 個人合理性 u * p d p かつ u* q d q
集団合理性 プレーヤーの少なくとも一方の効用が改善される限り交渉は継続されることも要求される 公準 2 集団合理性( ナッシュ最適性 ) (u p,u q ) S かつ u p u * p,u q u* q ならば (u p,u q ) = (u * p,u* q ) である ただしこれだけでは妥結点は 1 点にはならない
独立性 I そこでさらに 合理的 と思われる条件を追加し, 妥結点を絞る. 公準 3 正 1 次変換からの独立性 集合 T 及び点 d' を (S,d) からの正 1 次変換で得られたものとする u' p = α p u p + β p u' q = α q u q + β q d p = α p d p + β p d q = α q d q + β q ただし α p,α q,β p,β q R, α p,α q > 0 このとき f( S, d ) = ( u * p, u* q ) ならば f( T, d' ) = ( u' * p, u'* q )
対称性 すなわち 効用を測定する単位や尺度を正 1 次変換しても交渉は本質的に変化しないということを要求している 公準 4 対称性 S が座標原典を通る 45 線について対象で d1 = d2 ならば u * p = u* q である
独立性 II 公準 5 無関係な代替案からの独立性 f( S,d ) = ( u * p, u* q ) とするとき ( u* p, u* q ) T S を満たす集合 T を交渉集合とする交渉問題 (T,d) に対し f( T, d ) = ( u * p, u* q ) この時次の定理が成立する
定理 : ナッシュ均衡点 交渉ゲーム (S,d) において 上記の公準 1から5 をすべて満たす妥結点 ( u * p, u* q ) はただ一つ存在する この解をナッシュ均衡解という 逆にナッシュ均衡解は上記の公準をすべて満たす ( u * p -d p )( u* q -d q ) = MAX( u p -d p )( u q -d q ) http://www.mahoroba.ne.jp/~felix/notes/complex ity/nash.html
例題 1( 支配戦略 ) 純粋戦略ゲーム : 参加者 ( プレーヤー ) が必ずどれかの戦略を選ぶゲーム A/B A1 A2 B1 (5,2) (4,6) B2 (2,4) (1,6) 強支配戦略 弱支配戦略 ( 支配するとは, ある戦略を選ぶことが他方の戦略を選ぶより有利であるという意味 ) 結果 :A にとっての最適戦略は A1,B にとっての最適戦略は B2 となり, 両者ともここから戦略を変更しても利得は減る可能性がある. よって, この組み合わせ (A1, B2) がナッシュ均衡となる.
例題 2 強支配の状態にある戦略を残してゆく Pa/Pb B1 B2 B3 A1 5, 2 2, 4 4, 0 A2 4, 6 3, 6 2, 5 A3 3, 3 1, 2 7, 2 B3 は B2 に支配 B3 を消去 A3 は A2 に支配 A3 を消去 B1 は B2 に支配 B1 を消去 ナッシュ均衡は (A2, B2)
Pa/Pb A1 確率 p A2 確率 (1-p) 例題 3( 混合戦略 ) B1 確率 q 1, 2 0, 0 0, 0 2, 1 B2 確率 (1-q) この表のゲームの場合は Pa の得る利得の期待値は : 1 pq + 2 (1 -p)(1 -q) = 3pq - 2p - 2q + 2 = (3q - 2)p + 2(1 - q) これを p の関数だと考えると : q > 2/3 なら : 単調増加の直線 期待値の最大値は p = 1 のとき 2q q < 2/3 なら : 単調減少の直線 期待値の最大値は p = 0 のとき 2-2q q = 2/3 なら : 期待値は一定で 2/3 Pb の得る利得の期待値の最大値も p によって同様に決定される この二つのグラフの交点がナッシュ均衡となる このゲームの場合は (2/3, 2/3)
例題 4( ジレンマ状態 ) 価値観テーブル A 協調 ( 黙秘 ) B 協調 ( 黙秘 ) (-2,-2) B 裏切り ( 自白 ) (-15,-1) パレート最適解群 互いに完全に優越する解を持たない解の群 A 裏切り (-1,-15) (-10,-10) ( 自白 ) ナッシュ均衡解
心理経済学 2002 年のノーベル経済学賞を米国とイスラエルの二重国籍を持つダニエル カーネマン米プリンストン大学教授 (68) と 米国人のバーノン スミス 米ジョージ メイソン大学教授 (75) に授与される カーネマン氏は心理経済学の発展に貢献し 投資家心理を分析 投資家の意思決定は客観的な確率ではなく 主観で行われるとの結論を導いた 例えば 10 万円の利益と損失を比べた場合に 損失の方を多く見積もる傾向がある点や 損失が発生したときに一かばちかの大勝負に出る傾向があるとした バーノン スミス教授は実験経済学を確立した
どっちが得?? 価値観テーブル 80 万円損 80 万円得 2 日後なら100 万円得 ( ただし15% の人はゼロ ) 2 日後なら100 万円損 ( ただし15% の人はゼロ )