調和系工学 ゲーム理論編

Similar documents
Microsoft PowerPoint - 13economics5_2.pptx

ゲーム理論の起源 フォン ノイマンモルゲンシュテルン ゲーム理論と経済行動 (944) 人間関係を科学的に分析 さまざまな分野に応用 経済学経営学政治学心理学社会学 : ナッシュハーサニーゼルテン 考え方 目的 自らの利得 ( 利益 満足度 ) の最大化 均衡の概念 But お互いの行動が影響を与え

ゲーム理論

<4D F736F F F696E74202D D8C7689E682C68DC5934B89BB B D985F8CE394BC816A2E707074>

オートマトン 形式言語及び演習 1. 有限オートマトンとは 酒井正彦 形式言語 言語とは : 文字列の集合例 : 偶数個の 1 の後に 0 を持つ列からなる集合 {0, 110, 11110,

スライド 1

千葉大学 ゲーム論II

オートマトン 形式言語及び演習 3. 正規表現 酒井正彦 正規表現とは 正規表現 ( 正則表現, Regular Expression) オートマトン : 言語を定義する機械正規表現 : 言語

ゲーム論 I 第二回

混合戦略

戦略的行動と経済取引 (ゲーム理論入門)

DVIOUT

経済と社会

申告番号 0187, 3666 合理的思考の技術 試験問題 担当小林憲正 試験時間 13:20 14:50 の 1 時間半 試験開始前に以下の注意を無視せずによく読むこと!!!! 問題冊子は試験開始まで閉じておくこと 回答用紙は A4 の白紙を3 枚配布する 配布されたすべての回答用紙の右上に試験開

融合規則 ( もっとも簡単な形, 選言的三段論法 ) ll mm ll mm これについては (ll mm) mmが推論の前提部になり mmであるから mmは常に偽となることがわかり ll mmはllと等しくなることがわかる 機械的には 分配則より (ll mm) mm (ll mm) 0 ll m

PowerPoint Presentation

2015年度 信州大・医系数学

Microsoft Word - 11 進化ゲーム

Microsoft PowerPoint - H21生物計算化学2.ppt

Microsoft Word ã‡»ã…«ã‡ªã…¼ã…‹ã…žã…‹ã…³ã†¨åłºæœ›å•¤(佒芤喋çfl�)

2-1 / 語問題 項書換え系 4.0. 準備 (3.1. 項 代入 等価性 ) 定義 3.1.1: - シグネチャ (signature): 関数記号の集合 (Σ と書く ) - それぞれの関数記号は アリティ (arity) と呼ばれる自然数が定められている - Σ (n) : アリ

2011年度 筑波大・理系数学

Are Proof Checkers useful in security?(preview)

Probit , Mixed logit

<4D F736F F D E4F8E9F82C982A882AF82E98D7397F1>

航空機の運動方程式

Microsoft PowerPoint - 10.pptx

篠原隆介氏の博士学位請求論文“Voluntary Participation Games in Public Good Mechanisms: Coalitional Deviations and Efficiency”(公共財供給メカニズムへの自発的参加ゲーム:結託離脱と効率性)は、経済メカニズムまたは契約への個人の自発的参加問題について、多様な角度から詳細に分析した一連の研究成果を纏めたものである

議会における政党のパワーを ゲーム理論から見ると?

子ども・子育て支援新制度 全国総合システム(仮称)に関するインターフェース仕様書 市町村・都道府県編(初版)

Microsoft Word - K-ピタゴラス数.doc

2014年度 信州大・医系数学

Microsoft PowerPoint - mp11-02.pptx

Microsoft PowerPoint - 2.ppt [互換モード]

喨微勃挹稉弑

() ): (1) f(x) g(x) x = x 0 f(x) + g(x) x = x 0 lim f(x) = f(x 0 ), lim g(x) = g(x 0 ) x x 0 x x0 lim {f(x) + g(x)} = f(x 0 ) + g(x 0 ) x x0 lim x x 0

社会保険料の賃金への影響について

<4D F736F F D208CF68BA48C6F8DCF8A C30342C CFA90B68C6F8DCF8A7782CC8AEE967B92E8979D32288F4390B394C529332E646F63>

調和系工学 ゲーム理論編

2014年度 筑波大・理系数学

経済数学演習問題 2018 年 5 月 29 日 I a, b, c R n に対して a + b + c 2 = a 2 + b 2 + c 2 + 2( a, b) + 2( b, c) + 2( a, c) が成立することを示しましょう.( 線型代数学 教科書 13 ページ 演習 1.17)

<4D F736F F F696E74202D208AF489BD8A7782C CF97CA82A882DC82AF2E B8CDD8AB B83685D>

東邦大学理学部情報科学科 2014 年度 卒業研究論文 コラッツ予想の変形について 提出日 2015 年 1 月 30 日 ( 金 ) 指導教員白柳潔 提出者 山中陽子

<4D F736F F D208C51985F82CD82B682DF82CC88EA95E A>

補足 中学で学習したフレミング左手の法則 ( 電 磁 力 ) と関連付けると覚えやすい 電磁力は電流と磁界の外積で表される 力 F 磁 電磁力 F li 右ねじの回転の向き電 li ( l は導線の長さ ) 補足 有向線分とベクトル有向線分 : 矢印の位

Microsoft PowerPoint - 09re.ppt [互換モード]

今週の内容 後半全体のおさらい ラグランジュの運動方程式の導出 リンク機構のラグランジュの運動方程式 慣性行列 リンク機構のエネルギー保存則 エネルギー パワー 速度 力の関係 外力が作用する場合の運動方程式 粘性 粘性によるエネルギーの消散 慣性 粘性 剛性と微分方程式 拘束条件 ラグランジュの未

MRI X......

.g.i.~.^.A

ヴィエトナム高原におけるマッシュルーム栽培の基本

2.

Microsoft PowerPoint - 9.pptx

Microsoft PowerPoint - 9.pptx

Microsoft PowerPoint - 7.pptx

PowerPoint プレゼンテーション

Microsoft PowerPoint - DA2_2018.pptx

PowerPoint プレゼンテーション

2018年度 筑波大・理系数学

2016年度 京都大・文系数学

( 最初の等号は,N =0, 番目は,j= のとき j =0 による ) j>r のときは p =0 から和の上限は r で十分 定義 命題 3 ⑵ 実数 ( 0) に対して, ⑴ =[] []=( 0 または ) =[6]+[] [4] [3] [] =( 0 または ) 実数 に対して, π()


数学 ⅡB < 公理 > 公理を論拠に定義を用いて定理を証明する 1 大小関係の公理 順序 (a > b, a = b, a > b 1 つ成立 a > b, b > c a > c 成立 ) 順序と演算 (a > b a + c > b + c (a > b, c > 0 ac > bc) 2 図

Microsoft Word 長岡優太.doc

2010年度 筑波大・理系数学

周期時系列の統計解析 (3) 移動平均とフーリエ変換 nino 2017 年 12 月 18 日 移動平均は, 周期時系列における特定の周期成分の消去や不規則変動 ( ノイズ ) の低減に汎用されている統計手法である. ここでは, 周期時系列をコサイン関数で近似し, その移動平均により周期成分の振幅

14 化学実験法 II( 吉村 ( 洋 mmol/l の半分だったから さんの測定値は くんの測定値の 4 倍の重みがあり 推定値 としては 0.68 mmol/l その標準偏差は mmol/l 程度ということになる 測定値を 特徴づけるパラメータ t を推定するこの手

ている 本研究はQ 学習のような特定の行動決定手法を想定していない点と 以下に述べるとおり より実社会に近い社会状況での行動選択をモデルに取り入れている点が異なっている 通常 合理性をもつ行動主体が 1 回限りの囚人のジレンマ問題で選択する行動は非協力となり 協力行動が引き出される余地はない これは

Information Theory

vecrot

untitled

工業数学F2-04(ウェブ用).pptx

Microsoft PowerPoint - KomabaMicro11ppt10.pptx

DVIOUT-17syoze

海生研ニュース

< 研究の背景背景と経緯 再生可能エネルギーなどの分散型電源が大量導入された次世代電力ネットワークでは 発電量の変動が大きいため ネットワーク全体を集中管理することが難しく 発電機を含めた電力ネットワークを分散的に管理することが求められています その中でも 細かい時間単位で電力価格を変動させるリアル

<4D F736F F F696E74202D208D8296D889EB8DC65F C835B8393>

アルゴリズムとデータ構造

財団法人母子健康協会第三十回シンポジウム

橡matufw


NewBead_no17_4c_pdf.indd

untitled

O

OCW-iダランベールの原理

スライド 1

Microsoft PowerPoint - Inoue-statistics [互換モード]

Microsoft Word - 1B2011.doc

耳桁の剛性の考慮分配係数の計算条件は 主桁本数 n 格子剛度 zです 通常の並列鋼桁橋では 主桁はすべて同じ断面を使います しかし 分配の効率を上げる場合 耳桁 ( 幅員端側の桁 ) の断面を大きくすることがあります 最近の桁橋では 上下線を別橋梁とすることがあり また 防音壁などの敷設が片側に有る

Microsoft PowerPoint - DA2_2019.pptx

syuryoku


資料4-1 一時預かり事業について

土壌環境行政の最新動向(環境省 水・大気環境局土壌環境課)

PSCHG000.PS

テンソル ( その ) テンソル ( その ) スカラー ( 階のテンソル ) スカラー ( 階のテンソル ) 階数 ベクトル ( 階のテンソル ) ベクトル ( 階のテンソル ) 行列表現 シンボリック表現 [ ]

2011年度 大阪大・理系数学

Microsoft PowerPoint - DA2_2017.pptx

横浜市環境科学研究所

2015年度 2次数学セレクション(整数と数列)

パソコンシミュレータの現状

Transcription:

ゲーム理論第三部 知的都市基盤工学 5 月 30 日 ( 水 5 限 (6:30~8:0

再掲 : 囚人のジレンマ 囚人のジレンマの利得行列 協調 (Cooperte:C プレイヤー 裏切 (Deect:D ( 協調 = 黙秘 裏切 = 自白 プレイヤー C 3,3 4, D,4, 右がプレイヤー の利得左がプレイヤー の利得 ナッシュ均衡点 プレイヤーの合理的な意思決定の結果 (C,C はナッシュ均衡ではない

再掲 : 無限繰り返し囚人のジレンマ 3 4 δ ( δ / ll-c である場合の最適反応戦略 プレイヤー のプレイヤー に対する最適反応戦略 プレイヤー のプレイヤー に対する最適反応戦略 ( δ = / の場合の最適反応戦略 プレイヤー ll-d しっぺ返し プレイヤー ll-c 3,3, 4 3,3 ll-d 4, 4 δ, +δ しっぺ返し 3, 3 3,3 ただし 表中の値は全て δ 倍してある, + δ,4 δ つのナッシュ均衡

フォークの定理 無限繰り返し囚人のジレンマ 3 つの戦略 ll-c, ll-d, しっぺ返しの中から つを選択可能な場合 ナッシュ均衡 { (ll-d, ll-d, ( しっぺ返し, しっぺ返し (ll-d, ll-d 3 4 δ ( δ / 3 4 δ < ( δ </ 回限りのゲームのナッシュ均衡戦略に含まれない行動の組 (C,C の系列が無限繰り返しゲームのナッシュ均衡に含まれる 無限の戦略集合を仮定した場合 ( 一般的な場合に拡大 回限りのゲームのナッシュ均衡戦略に含まれない行動の組 (C,C の系列が無限繰り返しゲームのナッシュ均衡に含まれるか? フォークの定理

ミニマックス行動 定義 ミニマックス行動 戦略形ゲーム G においてプレイヤー に対するミニマックス行動とは mx (, m を満たすプレイヤー の行動ミニマックス利得という m プレイヤー のミニマックス行動 mnmx (, のことで 右辺の値をプレイヤー の プレイヤー が最適反応原理に基づいて選択した行動に対してプレイヤー の利得を最小化するプレイヤー の行動 プレイヤー のミニマックス利得 プレイヤー がミニマックス行動を選択した場合のプレイヤー の利得 プレイヤー が最適反応原理によって行動を選択した場合に最低限獲得可能な利得 ( 保障水準

ミニマックス行動 囚人のジレンマ プレイヤー のミニマックス利得とプレイヤー のミニマックス行動 プレイヤー プレイヤー C D 3, 3 4 C, D, 4, プレイヤー がミニマックス行動 D を選択すれば プレイヤー はミニマックス利得 以上の利得を獲得できない mn mx (, = mn[mx( 3,4, mx(,] = = mn [4,] プレイヤー の C, D に対するプレイヤー の最適反応 プレイヤー が D を選択してプレイヤー の利得を最小化 プレイヤー のミニマックス行動 同様にプレイヤー のミニマックス行動 プレイヤー の :D : ミニマックス利得 プレイヤー の :D : ミニマックス利得 ミニマックス利得の組 (,

個人合理的 定義 プレイヤーの行動の組 が成立するとき 行動の組 = (, プレイヤー とプレイヤー のミニマックス利得 個人合理的 ( v が成立するときをいう > = (, が個人合理的であるとは v ( v ( v ( > v に対して は強く個人合理的であるという

個人合理的 囚人のジレンマにおける個人合理的な行動の組 ミニマックス利得の組 (, 個人合理的な行動の組の条件を満たす利得の組 個人合理的な行動の組 強く個人合理的な場合 (3,3 (C,C 上の利得ベクトルは含まない 強く個人合理的な行動の組の条件を満たす利得の組 (3,3 (, (D,D (, プレイヤー C C 3,3 プレイヤー D 4, (,4 (, ミニマックス利得の組 (, D,4, 個人合理的利得ベクトル集合 (3,3 (4, 強く個人合理的な行動の組 (C,C プレイヤー の利得

フォークの定理 定理 成分ゲーム G の強く個人合理的な任意の行動の組 に対して将来利得の割引因子 δ が 存在して が成り立つ フォークの定理 δ mx mx (, ( を満たせば 繰り返しゲーム * ( s = (,, ( v * * * G のナッシュ均衡点 s = ( s, s,..., =, (, 無限繰り返しゲームのナッシュ均衡の中の一つに強く個人合理的な行動の組を毎回実現する均衡点が存在 = が

フォークの定理 定理 の証明 トリガー戦略 規則 規則 s *, s * 相手のプレイヤーだけが強く個人合理的な任意の行動の 組 = (, ミニマックス行動 の定義 から離脱すれば 以後相手に対する m, m に従う, 上記の場合以外は強く個人合理的な任意の行動 をとる 繰り返し囚人のジレンマでのトリガー戦略 相手が D を出すまで 自分は常に C を出し続ける ( 初回は C を出す 一度相手が D を出せば それ以降のゲームではそれ以降の相手の行動に関係なく D を出し続ける

フォークの定理 定理 の証明 Cse プレイヤー プレイヤー がトリガー戦略を選択 初回からお互いに強く個人合理的な行動を取り続け どちらもそこから離脱することがないので * ( s = が実現する (,,... お互いにトリガー戦略から変更しなかった場合のプレイヤー の t 回目以降の割引利得和は + δ ( +... = である. ( δ (

フォークの定理 3 定理 の証明 Cse プレイヤー が戦略をトリガー戦略 から異なる戦略に変更 プレイヤー は t 回目のゲームでと異なる行動をとる. このとき トリガー戦略の定義から プレイヤー は t + 回目以降のゲームで * s プレイヤー に対するミニマックス行動をとり続ける. 戦略を変更したプレイヤー の t 回目以降の割引利得和は (, + δ v + δ v +... = (, + v である. t 回目の利得 δ δ t+ 回目以降の割引利得和

フォークの定理 4 定理 の証明 3 プレイヤー の t 回目以降の割引利得和 トリガー戦略からの変更に関して 行動 Cse ( 変更しない に対して ならば トリガー戦略 : ( δ δ * s ( Cse : ( 変更した (, + v (, δ + v δ から他の戦略へ変更しても割引利得和を増やせない δ δ プレイヤー のトリガー戦略はプレイヤー のトリガー戦略に対する最適反応戦略 トリガー戦略がナッシュ均衡戦略 プレイヤー とプレイヤー の両方に対して成立

フォークの定理 5 定理 の証明 4 v δ δ δ +, ( ( v, ( mx (, ( mx δ (, ( mx, ( mx ( v δ v δ δ +, ( mx, ( mx ( v δ δ +, ( mx ( ( v δ δ δ +, ( mx ( 右辺を最大化するについても成り立つ (, (,,, ( = 式変形式変形

フォークの定理 6 囚人のジレンマ 強く個人合理的な行動の組 (C,C 割引因子 δの条件 mx (, δ, =, ナッシュ均衡点の実現する行動の組の系列に * t ( s = (,...,,... = (( C, C,..., ( C, C,... が含まれる mx (, 4 3 δ 4 + v = ( が成り立つ場合 フォークの定理 プレイヤー C C 3,3 プレイヤー D 4, (,4 (, ミニマックス利得の組 (, D,4, 個人合理的利得ベクトル集合 (3,3 (4, プレイヤー の利得

再掲 : 無限繰り返し囚人のジレンマ 3 3 4 δ < ( δ </ の場合 プレイヤー : しっぺ返しプレイヤー : ll-d の場合の割引利得和のとる範囲 ( +δ,4 δ プレイヤー の利得 (,4 (, ナッシュ均衡 お互いしっぺ返しの場合の割引利得和 (3,3 (4, プレイヤー ( 4 δ, + δ の利得プレイヤー : ll-d プレイヤー : しっぺ返しの場合の割引利得和のとる範囲 しっぺ返しに対する ll-d の割引利得和 > 4 δ しっぺ返しに対するしっぺ返しの割引利得和 しっぺ返しを選択する誘因がない 3

再掲 : 無限繰り返し囚人のジレンマ 4 3 4 δ ( δ / の場合 プレイヤー : しっぺ返しプレイヤー : ll-d の場合の割引利得和のとる範囲 ( +δ,4 δ プレイヤー の利得 (,4 (, ナッシュ均衡 お互いしっぺ返しの場合の割引利得和 (3,3 ナッシュ均衡 (4, しっぺ返しに対する ll-d の割引利得和 > 4 δ しっぺ返しに対するしっぺ返しの割引利得和 3 しっぺ返しを選択する誘因が発生 プレイヤー ( 4 δ, + δ の利得プレイヤー : ll-d プレイヤー : しっぺ返しの場合の割引利得和のとる範囲

フォークの定理 7 トリガー戦略以外でも強く個人合理的な行動の組 (C,C の系列は ナッシュ均衡戦略により実現可能か? 強く個人合理的な行動の組 (C,C からの離脱に対してミニマックス行動 D を選択する戦略との対戦 ex. しっぺ返し戦略 強く個人合理的な戦略の組に留まる誘因発生の条件 離脱により得られる利得 > + 強い個人合理的な戦略の組から離脱しない場合の割引利得和 強い個人合理的な戦略の組から離脱してミニマックス行動を選択された場合の割引利得和 割引因子 δ が十分に大きいと成立 強く個人合理的な行動の組 (C,C の系列が実現可能

有限繰り返しゲームのナッシュ均衡 有限繰り返しゲーム 繰り返し回数が有限 = 未来に対する不確実がない 割引因子 δ は導入しない 定理 成分ゲーム G が唯一のナッシュ均衡点 もつとき 任意の繰り返し回数 T に対して T 回繰り返しゲーム である ( s * = ( e, e,..., e e = ( e, e T * * * G のナッシュ均衡点 s = ( s, s を は

有限繰り返しゲームのナッシュ均衡 定理 の証明 後ろ向き帰納法で証明 T = の場合 回限りのゲームと同様であるので繰り返しゲームのナッシュ均衡点は成分ゲームのナッシュ均衡点と一致する T = の場合 定理 は成立する

有限繰り返しゲームのナッシュ均衡 3 定理 の証明 T の場合 T 回目のゲーム ( 最後の一回のゲーム 以降のゲームに影響を与えないので T- 回目までのゲームの履歴にかかわらず 回限りのゲームと同様に扱うことができる 合理的な行動の結果は成分ゲーム G のナッシュ均衡 T- 回目のゲーム T 回目のゲームでは既に行動が決定していて T- 回目のゲームは T 回目のゲームに影響を与えない T- 回目までのゲームの履歴にかかわらず T- 回目のゲームも 回限りのゲームと同様に扱うことができる 合理的な行動の結果は成分ゲーム G のナッシュ均衡

有限繰り返しゲームのナッシュ均衡 4 定理 の証明 3 T の場合 回目のゲーム 回目のゲームでも既に行動が成分ゲームのナッシュ均衡戦略と決定していて 回目のゲームは 回目のゲームに影響を与えない 回目のゲームも 回限りのゲームと同様に扱うことができる 合理的な行動の結果は成分ゲーム G のナッシュ均衡 したがって T の場合 毎回のゲームにおけるナッシュ均衡点は成分ゲームのナッシュ均衡点と一致する

有限繰り返しゲームのナッシュ均衡 5 T =,T において定理 が成立しているので 定理 成分ゲーム G が唯一のナッシュ均衡点 もつとき 任意の繰り返し回数 T に対して T 回繰り返しゲーム である ( s * = ( e, e,..., e e = ( e, e T * * * G のナッシュ均衡点 s = ( s, s を は が成立する

有限繰り返しゲームのナッシュ均衡 6 有限繰り返し囚人のジレンマ 定理 の仮定 成分ゲームのナッシュ均衡点が唯一 一回限りの囚人のジレンマのナッシュ均衡点は 定理 の仮定を満たす ( D, D で唯一 有限繰り返し囚人のジレンマのナッシュ均衡 ( s * = (,..., t = (( D, D,..., ( D, D 毎回成分ゲームの均衡点 (D,D が繰り返される

繰り返し囚人のジレンマコンテスト 前述の繰り返し囚人のジレンマの分析 ゲーム全体を俯瞰する立場からの考察 ex. 複数のナッシュ均衡点 フォークの定理 プレイヤー個人の立場からの考察有限繰り返し囚人のジレンマナッシュ均衡戦略 :ll-d 高い利得を獲得できるか? お互いにDを選択すれば お互いCよりも低い利得 実際に繰り返し囚人のジレンマをおこなう場合 どのような戦略を選択すればよいのだろうか? 繰り返し囚人のジレンマコンテスト [Axelrod 984] 複数の戦略プログラムの総当たり対戦

繰り返し囚人のジレンマコンテスト 第 回コンテストの概要 プレイヤー ルール 結果 心理学 経済学 政治学 数学 社会学の分野に属する 4 名に作成されたプログラム + ランダムプログラム 総当り対戦 各対戦は 00 回繰り返しを 5 回おこなう 評価 対戦で得られた利得の合計 優勝 しっぺ返しの戦略 コンテストで用いられた利得行列 上位を占めた戦略の特徴自分から裏切らない = 上品さ (nce キングメーカーの存在 C D C 3,3 4, D,4, 相手が裏切っても再び協調し合える = 心の広さ (orgveness

繰り返し囚人のジレンマコンテスト 3 第 回コンテストの概要 プレイヤー ルール 結果 前回の分野 + コンピュータサイエンス 物理学等の分野に属する 6 名に作成されたプログラム + ランダムプログラム 前回のルール + 繰り返し回数の確率的変動 第 回コンテストの結果を踏まえた参加プログラムの つの傾向. 上品で心が広いプログラム ( しっぺ返しの戦略の踏襲. のようなプログラムから搾取を狙うプログラム 同士では協調 同士で裏切り合い 優勝 しっぺ返しの戦略 上位を占めた戦略の特徴 上品で心が広い 傾向 前回と同様 非協調的な相手 (ex. ll-d には裏切り

繰り返し囚人のジレンマコンテスト 4 最近の研究 プレイヤー 各戦略毎に種 ルール 結果 前回のルール + 繰り返し回数の確率的変動 高い利得を獲得した種が増加する tness 関数 優性種の交代