これからの強化学習サンプルページこの本の定価判型などは, 以下の URL からご覧いただけます. このサンプルページの内容は, 初版 1 刷発行時のものです.

Size: px

Start display at page:

Download "これからの強化学習サンプルページこの本の定価判型などは, 以下の URL からご覧いただけます. このサンプルページの内容は, 初版 1 刷発行時のものです."

しなつもちやま
5 years ago
Views:

2 これからの強化学習サンプルページこの本の定価判型などは, 以下の URL からご覧いただけます. このサンプルページの内容は, 初版 1 刷発行時のものです.

4 i

5 ii Sutton Barto Richard S. Sutton and Andrew G. Barto. Reinforcement Learning: An Introduction. MIT Press, Cambridge, MA, 1998., 2000

6 iii TD (Inverse Reinforcement Learning) XoL Q Atari

7 iv IBM NTT 3.3 IBM ATR

8 (MDP) (POMDP) 2

9 (reinforcement-learning problem) (agent) (environment) (action) (state)

10 main : 2016/10/4(15:54) 1.1 強化学習とは図無人島で生き残る方法を探すことは強化学習問題の一例であるる一方きれいな湧き水を飲めば元気が出てくるだろうあるいは砂浜を歩くと別の場所に移動できるが岩場を歩けば転倒して怪我をするかもしれない強化学習では未知の環境で発生するいろいろなことを統一的に比較する指標として報酬 (reward) とよばれるスカラー値で行動の結果の良さを表すきれいな水を飲むなどエージェントにとって良いことに対しては大きな報酬を海水を飲むなど悪いことには少ない報酬を割り当てる負値を使うことも多い報酬は経済学では利得 (utility) とよばれ制御工学では符号を反転して損失 (loss) またはコスト (cost) とよばれるが強化学習の文脈では同じものと思ってよい強化学習問題とは置かれた環境のなかで行動の選択を通して得られる報酬の総和を最大化する問題である強化学習では多くの場合行動の結果や与えられる報酬は確率的に変化するものとして与えられるため一連の行動を最初に決定しておくよりも行動の結果を観測してから次の行動を決めるほうがより良い行動を選択できるそこでエージェントの行動決定の方策 (policy) を観測の結果現在の環境の状態を入力として行動を出力とする関数の形で表す強化学習ではありうる数多くの方策のなかから最適な方策すなわち最も多くの報酬をもたらす方策を選択することが目的となる単純にはエージェントはより多くの報酬につながる行動を選べばよいわけだがある行動をとった直後の報酬値これを即時報酬 (immediate reward) とよぶだけに

11 4 1 (delayed reward) (return, income) (discount) (value) = = = =

12 1.1 5 (exploration-exploitation tradeoff) (exploitation) (exploration) Web

13 1.4 1 (policy) Q θ π θ (a s) θ G θ Q-learning Sarsa π s a Q(s, a) s a

14 Q(s, a) 2.1 Q(s, a) f(s, a) Q(s, a) Q(s, a) a 1 a 0.01 Q(s, a) ε-greedy Q(s, a)

15 44 1 Q(s, a) π(a s) π Q(s, a) Q π Q ε-greedy ε T

16 θ θ s 1 s 2 s = [s 1, s 2 ] T a f(s) w 1 w 2 f(s) = w 1 s 1 + w 2 s 2 (1.4.1) 2 θ = [w 1, w 2 ] T f θ (s) θ (1.4.1) (1.4.1) f(s) σ 2 N (f(s), σ 2 ) σ θ = {w 1, w 2, σ}

17 π θ

18 3.7 3 Q Atari 2600 deep neural network Q [30, 31] [10] [39] Atari 2600 Fan Hui 5 Lee Sedol Deep Q-Network (DQN) Atari 2600 [30, 31] [18], [2] Deep Q-Network (DQN) [20, 21] [31] [7, 16] [3, 41] DQN

19 258 3 DQN NIPS [20] Nature [21] NIPS DQN Nature DQN DQN DQN Q n (0) x 1 n (1) h (1) 2 n (l) h (l) (2 l L 1), n (L) y h (1) = sig(w (1) x + b (1) ) (3.7.1) h (l+1) = sig(w (l) h (l) + b (l) ) (3.7.2) y = o(w (l) h (L) + b (L) ) (3.7.3) sig(x) o(x) 1/(1 + exp( x)) x o(x) 1 sig(x) W (l) b (l) n (l+1) n (l) n (l+1) θ Q(s, a) θ Q(s, a; θ) L (deep neural network) (deep learning) DQN [42] [40], [43]

20 3.7 Q Atari W h Wh W DQN s a Q(s, a) DQN a a {a 1,..., a N } N DQN N DQN i f i (s) f i (s) i Q f i (s) = Q(s, a i ) N DQN N 4 18

21 2016/10/4(15:54) 260 第3章 main : 強化学習の工学応用図 DQN のアーキテクチャクの自由度を抑制し過学習を防いでいるまたこのような構造をとると行動ごとに関数を評価し直す必要がないため高速に Q 関数を評価するのに役立つこのネットワーク構造を図に示す図にあるとおり DQN には四つのフレームの画面の情報が入力されているただし実際の画面のフレームレートは 60 Hz であり Nature 版 DQN ではそのうち連続する 4 フレームのうち 3 フレーム目と 4 フレーム目のピクセルの最大値をとって一つのフレームとしているまたその 4 フレームの間行動は同じものを選択し続けるものとするまた既存の深層学習フレームワークにおいて GPU 計算機が効率的に畳み込み演算できるのが正方形の入力であったため前処理においての画面サイズをダウンサンプリングし正方形の画面に整形している RGB のカラーはグレースケールの輝度値に変換される DQN の学習アルゴリズム DQN の学習は基本的に以下の目的関数 J(θ) の最小化を意図してパラメータ更新がなされる J(θ) = E[(yt Q(st, at ; θ))2 ] (3.7.4) ここで yt は Q(st, at ; θ) が出力するべきターゲットを表すこの目的関数のパラメータ θ に関する微分は NIPS 版 DQN では 4 フレームおきのフレームをとっているただしスペースインベーダーの場合見えない弾が生じてしまうため 3 フレームおきのフレームとしている

22 311 α- 61 ε-greedy 9, 27, 113 accumulating trace 83 ACh action 2 Actor-Critic 50 Actor-Critic 155, 290 agent 2 AlphaGo 265 apprenticeship learning 128, 226 BG BRM: Bellman Residual Minimization 89 CDR classical conditioning 285 cost 3 Credit Assignment Problem DA DBN: Dynamic Bayesian Networks 218 deep learning delayed reward 4, 127 discount 4 double Q-learning 263 double sampling 89 DQN: Deep Q-Network 145, 257 DQN with PS 146 effectance EM environment 2 experience replay 79, 261 exploitation 5 exploration 5 exploration-exploitation tradeoff 5 fitted Q 99 GA: Genetic Algorithm 130 GAIRL 131 Gaussian Process 226 GQ: Gradient Q-learning 99 Gradient Temporal Difference (GTD) 88 greedy GQ 99 greedy 6 greedy 27 Hip IM imitation learning immediate reward 3 income 4 incremental pruning 63 instrumental conditioning 285 instrumental variable method 90 intracranial self-stimulation 286 inverse reinforcement learning law of effect 285 LEM loss 3 LSPE(Least-Squares Policy Evaluation) 96 LSPI(Least-Squares Policy Iteration) 98 LSTD(Least-Squares TD) 91 MDP: Markov Decision Process mirror neuron system multi-agent M 103 N-Persons Iterated Prisoner s Dilemma 160 NAC: Natural Actor-Critic 221 natural policy gradient NE neuromodulator NLP OnPS 183 operant conditioning 285 optimal learning policy optimal learning trajectory Pavlov s dog 284 PBVI: Point-Based Value Iteration 60, 216, 219 policy 3 POMDP prioritized experience replay 263 Profit Sharing (PS) 137 PS: Profit Sharing 137, 182 PSO: Particle Swarm Optimization 153 Q-learning Q 37, 87, 150 QoL: Quality of Life 249 Q 150 regret 112 reinforcement 285 reinforcement signal 285 reinforcement-learning problem 2 reinforcer 285 REINFORCE 52 return 4 reward 3 RoboCup

23 312 R 177 Sarsa 33, 85 Sarsa(0) 288 Skinner box 285 state 2 state-action space structured prediction TD(0) 286 TD 81, 109, 230 TD 34, 81 Thompson 114 UCB1 113 UCT: Upper Confidence bounds on Trees 114 Upper Confidence Bound (UCB) 10, 113 utility 3 value , , , 237, greedy , Q , 21, , , , 145, QoL Q , , , 112, 178 5

24 , 300 greedy Q 181 Sarsa , , 214, , 15, , 15, 150 MDP , 166, 214, , MDP , , ,

25 c FAX Printed in Japan ISBN

医系の統計入門第 2 版サンプルページこの本の定価判型などは, 以下の URL からご覧いただけます. このサンプルページの内容は, 第 2 版 1 刷発行時のものです.

医系の統計入門第 2 版サンプルページこの本の定価判型などは, 以下の URL からご覧いただけます. このサンプルページの内容は, 第 2 版 1 刷発行時のものです. 医系の統計入門第 2 版サンプルページこの本の定価判型などは, 以下の URL からご覧いただけます. http://www.morikita.co.jp/books/mid/009192 このサンプルページの内容は, 第 2 版 1 刷発行時のものです. i 2 t 1. 2. 3 2 3. 6 4. 7 5. n 2 ν 6. 2 7. 2003 ii 2 2013 10 iii 1987

これからの強化学習 サンプルページ この本の定価 判型などは, 以下の URL からご覧いただけます. このサンプルページの内容は, 初版 1 刷発行時のものです.

これからの強化学習サンプルページこの本の定価判型などは, 以下の URL からご覧いただけます. このサンプルページの内容は, 初版 1 刷発行時のものです.