<4D F736F F F696E74202D D8C7689E682C68DC5934B89BB B D985F8CE394BC816A2E707074>

ゲーム理論ゲーム理論の目的動的価値環境下におけるエージェント群の意志決定戦略的な反応の科学エージェント選択可能な手番の集合, 最良戦略の導出と行動戦略は純粋 ( 特定の動作 ) または, 混合 ( ランダム動作 ) ナッシュ均衡 ( 同じような手行動の繰り返しに落ち込む ) すべてのプレーヤーの最適な反応がお互いに調和したものになる

復習 : ミニマックス定理フォンノイマンゼロ和 2 人ゲームの最適戦略一方のプレイヤーは最小利得を最大化する戦略 ( マックスミニ戦略 ) をもち, 他方のプレイヤーは最大損失を最小化する戦略 ( ミニマックス戦略 ) をもっており, しかも, これらの戦略は同じ値をもたらす最小利得の最大化をもたらす.

繰り返しゲームの落ち着く先 2 人ゲームのナッシュ均衡 ( 利己的状態 ) 互いに, 相手が選んでいる戦略のもとでは, 自分の選んだ戦略は自分の利得を最大化している, 一般に, 相手が選ぶ戦略に対しては, 自分の利得を最大化する自分の戦略最適反応をとる. すると, 互いに最適反応となっているような戦略の組ナッシュ均衡となる. 互いに最適反応になっているので, 自分だけが, ほかの戦略に切り替えるという動機は存在しない.

ジョン F ナッシュの主要論文 http://www-groups.dcs.standrews.ac.uk/~history/mathematicians/nash.html "Equilibrium points in N-Person Games", 1950, Proceedings of NAS. "The Bargaining Problem", 1950, Econometrica. "A Simple Three-Person Poker Game", with L.S. Shapley, 1950, Annals of Mathematical Statistics. "Non-Cooperative Games", 1951, Annals of Mathematics. "Two-Person Cooperative Games", 1953, Econometrica.

n 人ゲームのナッシュ均衡各プレイヤーの選んだ戦略の組で, 各プレイヤーについて, 自分が選んだ戦略が他のすべてのプレイヤーの選んでいる戦略に対する最適反応となっている場合. ナッシュは, このゲームの定式化と均衡の定義, およびその存在証明をほとんど数式を用いずに, 1 ページの論文として発表. 証明には, 不動点定理が使われた, この方法は, それ以後, 経済の均衡の存在証明のための標準的方法となる.

ゼロ 2 人和ゲームのナッシュ均衡 = ミニマックス定理ゼロ和 2 人ゲームでは, 相手はこちらの利得を最小化するように行動. そのため, ナッシュ均衡での利得は, 相手の戦略についての最小値となる. 解説 : 相手がその戦略からほかの戦略に切り替えても相手の利得は決して増加しないので, ゼロ和である以上, 自分の利得は決して減少しないことになる. すなわち, 均衡での自分の利得は, 確実に保証できる利得である. しかし, 自分だけがほかの戦略に切り替えたとすると, ナッシュ均衡から外れることになるので, 自分の利得は減少することはあっても決して増加しない. つまり, その戦略ではもはや均衡利得以下の値しか保証できません. こうして, ナッシュ均衡は, 保証利得を最大化する戦略, すなわちマックスミニ戦略の組となっている.

ナッシュの非協力 n 人ゲームナッシュの非協力 n 人ゲームは, フォンノイマンの 2 人ゼロ和ゲームの壮大な拡張となっている. ゲームの解であるナッシュ均衡も, 概念としては単純でよりわかりやすい. 保証利得が最大化されていることを検証するより, ナッシュ均衡であることを確かめることのほうが一般には容易. たとえば, ジャンケンでは, 相手が (1/3,1/3,1/3) という混合戦略をとるならば, 自分は, どんな混合戦略 (p,q,r) をとっても期待利得はゼロとなることが容易に計算できる. つまり, どんな混合戦略も, 相手の (1/3,1/3,1/3) に対する最適反応となっているわけですから, とくに (1/3,1/3,1/3) も相手の (1/3,1/3,1/3) に対する最適反応となり, この組はナッシュ均衡となる.

ナッシュ均衡の定義交渉 (negotiation) とは複数の人間もしくは集団の間で共同で行う意思決定のプロセスである. 交渉を分析するために定式化をおこなったものがゲーム理論 (game theory) である. 交渉の参加者 : プレーヤー (player)(p,q) 各プレーヤーがとり得る行為 : 戦略 (strategy): s p,s q

プレーヤー p,q のとり得るすべての戦略の集合 : S p S q 戦略の組 (s p, s q ) に対し各プレーヤーの効用 (utility): u p (s p, s q ) u q (s p, s q ) (s p, s q ) が選択される確率を z sp sq ここで, 確率分布 Z = ( z sp sq s p S p, s q S q ) を混合戦略 (mixed strategy) と呼び, その集合 Z を混合戦略集合という. z が Z のすべての値を取った時の集合 S S = { (u p (z),u q (z)) z Z } をゲーム G の交渉集合 (negotiation set) という. 現状を表す基準点を d で表すものとする. このとき交渉は (S,d) で表す.

交渉の成立要件交渉が成立するためには以下の 3 条件が成立することが必要である 1.S は有界で閉な凸集合である sx+(1-s)y S ( 両プレーヤーとも混合戦略をとる ) 2. 現状点を表す d = (d p,d q ) をもつ ( 現状は実行可能な交渉解の 1 つである ) 3.u p d p かつ u q d q となるような (u p,u q ) が少なくとも 1 つは S に存在する ( 交渉の可能性の保証 ) さてこの条件のもとで交渉の合理的な妥結点 f(s,d) = (u * p,u* q ) がどのような条件を満たすべきかを吟味する

合理的な妥結点交渉を継続するために!

個人合理性交渉が続くためには, 現状 ( d p,d q ) より良くなっている必要がある. 公準 1 個人合理性 u * p d p かつ u* q d q

集団合理性プレーヤーの少なくとも一方の効用が改善される限り交渉は継続されることも要求される公準 2 集団合理性( ナッシュ最適性 ) (u p,u q ) S かつ u p u * p,u q u* q ならば (u p,u q ) = (u * p,u* q ) であるただしこれだけでは妥結点は 1 点にはならない

独立性 I そこでさらに合理的と思われる条件を追加し, 妥結点を絞る. 公準 3 正 1 次変換からの独立性集合 T 及び点 d' を (S,d) からの正 1 次変換で得られたものとする u' p = α p u p + β p u' q = α q u q + β q d p = α p d p + β p d q = α q d q + β q ただし α p,α q,β p,β q R, α p,α q > 0 このとき f( S, d ) = ( u * p, u* q ) ならば f( T, d' ) = ( u' * p, u'* q )

対称性すなわち効用を測定する単位や尺度を正 1 次変換しても交渉は本質的に変化しないということを要求している公準 4 対称性 S が座標原典を通る 45 線について対象で d1 = d2 ならば u * p = u* q である

独立性 II 公準 5 無関係な代替案からの独立性 f( S,d ) = ( u * p, u* q ) とするとき ( u* p, u* q ) T S を満たす集合 T を交渉集合とする交渉問題 (T,d) に対し f( T, d ) = ( u * p, u* q ) この時次の定理が成立する

定理 : ナッシュ均衡点交渉ゲーム (S,d) において上記の公準 1から5 をすべて満たす妥結点 ( u * p, u* q ) はただ一つ存在するこの解をナッシュ均衡解という逆にナッシュ均衡解は上記の公準をすべて満たす ( u * p -d p )( u* q -d q ) = MAX( u p -d p )( u q -d q ) http://www.mahoroba.ne.jp/~felix/notes/complex ity/nash.html

例題 1( 支配戦略 ) 純粋戦略ゲーム : 参加者 ( プレーヤー ) が必ずどれかの戦略を選ぶゲーム A/B A1 A2 B1 (5,2) (4,6) B2 (2,4) (1,6) 強支配戦略弱支配戦略 ( 支配するとは, ある戦略を選ぶことが他方の戦略を選ぶより有利であるという意味 ) 結果 :A にとっての最適戦略は A1,B にとっての最適戦略は B2 となり, 両者ともここから戦略を変更しても利得は減る可能性がある. よって, この組み合わせ (A1, B2) がナッシュ均衡となる.

例題 2 強支配の状態にある戦略を残してゆく Pa/Pb B1 B2 B3 A1 5, 2 2, 4 4, 0 A2 4, 6 3, 6 2, 5 A3 3, 3 1, 2 7, 2 B3 は B2 に支配 B3 を消去 A3 は A2 に支配 A3 を消去 B1 は B2 に支配 B1 を消去ナッシュ均衡は (A2, B2)

Pa/Pb A1 確率 p A2 確率 (1-p) 例題 3( 混合戦略 ) B1 確率 q 1, 2 0, 0 0, 0 2, 1 B2 確率 (1-q) この表のゲームの場合は Pa の得る利得の期待値は : 1 pq + 2 (1 -p)(1 -q) = 3pq - 2p - 2q + 2 = (3q - 2)p + 2(1 - q) これを p の関数だと考えると : q > 2/3 なら : 単調増加の直線期待値の最大値は p = 1 のとき 2q q < 2/3 なら : 単調減少の直線期待値の最大値は p = 0 のとき 2-2q q = 2/3 なら : 期待値は一定で 2/3 Pb の得る利得の期待値の最大値も p によって同様に決定されるこの二つのグラフの交点がナッシュ均衡となるこのゲームの場合は (2/3, 2/3)

例題 4( ジレンマ状態 ) 価値観テーブル A 協調 ( 黙秘 ) B 協調 ( 黙秘 ) (-2,-2) B 裏切り ( 自白 ) (-15,-1) パレート最適解群互いに完全に優越する解を持たない解の群 A 裏切り (-1,-15) (-10,-10) ( 自白 ) ナッシュ均衡解

心理経済学 2002 年のノーベル経済学賞を米国とイスラエルの二重国籍を持つダニエルカーネマン米プリンストン大学教授 (68) と米国人のバーノンスミス米ジョージメイソン大学教授 (75) に授与されるカーネマン氏は心理経済学の発展に貢献し投資家心理を分析投資家の意思決定は客観的な確率ではなく主観で行われるとの結論を導いた例えば 10 万円の利益と損失を比べた場合に損失の方を多く見積もる傾向がある点や損失が発生したときに一かばちかの大勝負に出る傾向があるとしたバーノンスミス教授は実験経済学を確立した

どっちが得?? 価値観テーブル 80 万円損 80 万円得 2 日後なら100 万円得 ( ただし15% の人はゼロ ) 2 日後なら100 万円損 ( ただし15% の人はゼロ )