これからの強化学習サンプルページこの本の定価判型などは, 以下の URL からご覧いただけます. このサンプルページの内容は, 初版 1 刷発行時のものです.

これからの強化学習サンプルページこの本の定価判型などは, 以下の URL からご覧いただけます. http://www.morikita.co.jp/books/mid/088031 このサンプルページの内容は, 初版 1 刷発行時のものです.

ii Sutton Barto 20 1 2 3 4 1 Richard S. Sutton and Andrew G. Barto. Reinforcement Learning: An Introduction. MIT Press, Cambridge, MA, 1998., 2000

iii 1 1 1.1 2 1.2 14 1.3 29 1.4 42 1.5 56 2 71 2.1 TD 72 2.2 112 2.3 (Inverse Reinforcement Learning) 127 2.4 XoL 136 2.5 148 2.6 165 2.7 177 3 189 3.1 190 3.2 199 3.3 214 3.4 225 3.5 237 3.6 249 3.7 Q Atari 2600 257 4 283 4.1 284 4.2 295 309 311

iv 1.1 1.3 2.2 3.5 1.2 1.3 1.5 1.4 50 4.2 3.6 2.3 3.4 2.5 4.1 3.2 2.5 3.1 IBM 3.5 4.1 2.1 3.7 2.7 3.3 2.4 NTT 3.3 IBM 1.4 2.6 ATR 3.1 3.2 4.1 2016 5

1 1.1 1.2 (MDP) 1.3 1.4 1.5 (POMDP) 2

1.1 1 1.1.1 (reinforcement-learning problem) (agent) (environment) 1.1.1 (action) (state)

main : 2016/10/4(15:54) 1.1 強化学習とは図 1.1.1 3 無人島で生き残る方法を探すことは強化学習問題の一例であるる一方きれいな湧き水を飲めば元気が出てくるだろうあるいは砂浜を歩くと別の場所に移動できるが岩場を歩けば転倒して怪我をするかもしれない強化学習では未知の環境で発生するいろいろなことを統一的に比較する指標として報酬 (reward) とよばれるスカラー値で行動の結果の良さを表すきれいな水を飲むなどエージェントにとって良いことに対しては大きな報酬を海水を飲むなど悪いことには少ない報酬を割り当てる負値を使うことも多い報酬は経済学では利得 (utility) とよばれ制御工学では符号を反転して損失 (loss) またはコスト (cost) とよばれるが強化学習の文脈では同じものと思ってよい強化学習問題とは置かれた環境のなかで行動の選択を通して得られる報酬の総和を最大化する問題である強化学習では多くの場合行動の結果や与えられる報酬は確率的に変化するものとして与えられるため一連の行動を最初に決定しておくよりも行動の結果を観測してから次の行動を決めるほうがより良い行動を選択できるそこでエージェントの行動決定の方策 (policy) を観測の結果現在の環境の状態を入力として行動を出力とする関数の形で表す強化学習ではありうる数多くの方策のなかから最適な方策すなわち最も多くの報酬をもたらす方策を選択することが目的となる単純にはエージェントはより多くの報酬につながる行動を選べばよいわけだがある行動をとった直後の報酬値これを即時報酬 (immediate reward) とよぶだけに

4 1 (delayed reward) (return, income) (discount) (value) = = = =

1.1 5 (exploration-exploitation tradeoff) (exploitation) (exploration) Web

1.4 1 (policy) Q θ π θ (a s) θ G θ Q-learning Sarsa π 1.4.1 1 1.4.1 s a Q(s, a) s a

1.4 43 1.4.1 Q(s, a) 2.1 Q(s, a) f(s, a) Q(s, a) Q(s, a) a 1 a 0.01 Q(s, a) 1 1.2 ε-greedy Q(s, a)

44 1 Q(s, a) π(a s) 1.4.2 π Q(s, a) 1.4.2 Q π Q ε-greedy ε T

1.4 45 θ θ s 1 s 2 s = [s 1, s 2 ] T a f(s) w 1 w 2 f(s) = w 1 s 1 + w 2 s 2 (1.4.1) 2 θ = [w 1, w 2 ] T f θ (s) θ (1.4.1) (1.4.1) f(s) σ 2 N (f(s), σ 2 ) σ θ = {w 1, w 2, σ}

46 1 1.4.3 1.4.3 π θ

3.7 3 Q Atari 2600 deep neural network Q [30, 31] [10] [39] Atari 2600 Fan Hui 5 Lee Sedol 5 4 3.7.1 Deep Q-Network (DQN) Atari 2600 [30, 31] [18], [2] Deep Q-Network (DQN) [20, 21] [31] [7, 16] [3, 41] DQN

258 3 DQN NIPS 2013 12 [20] 2015 2 Nature [21] NIPS DQN Nature DQN 3.7.2 DQN DQN Q n (0) x 1 n (1) h (1) 2 n (l) h (l) (2 l L 1), n (L) y h (1) = sig(w (1) x + b (1) ) (3.7.1) h (l+1) = sig(w (l) h (l) + b (l) ) (3.7.2) y = o(w (l) h (L) + b (L) ) (3.7.3) sig(x) o(x) 1/(1 + exp( x)) x o(x) 1 sig(x) W (l) b (l) n (l+1) n (l) n (l+1) θ Q(s, a) θ Q(s, a; θ) L (deep neural network) (deep learning) DQN [42] [40], [43]

3.7 Q Atari 2600 259 3.7.1 3.7.1 W h Wh W DQN s a Q(s, a) DQN a a {a 1,..., a N } N DQN N DQN i f i (s) f i (s) i Q f i (s) = Q(s, a i ) N DQN N 4 18

2016/10/4(15:54) 260 第3章 main : 強化学習の工学応用図 3.7.2 DQN のアーキテクチャクの自由度を抑制し過学習を防いでいるまたこのような構造をとると行動ごとに関数を評価し直す必要がないため高速に Q 関数を評価するのに役立つこのネットワーク構造を図 3.7.2 に示す図 3.7.2 にあるとおり DQN には四つのフレームの画面の情報が入力されているただし実際の画面のフレームレートは 60 Hz であり Nature 版 DQN ではそのうち連続する 4 フレームのうち 3 フレーム目と 4 フレーム目のピクセルの最大値をとって一つのフレームとしているまたその 4 フレームの間行動は同じものを選択し続けるものとするまた既存の深層学習フレームワークにおいて GPU 計算機が効率的に畳み込み演算できるのが正方形の入力であったため前処理において 210 160 の画面サイズをダウンサンプリングし 84 84 正方形の画面に整形している RGB のカラーはグレースケールの輝度値に変換される 3.7.3 DQN の学習アルゴリズム DQN の学習は基本的に以下の目的関数 J(θ) の最小化を意図してパラメータ更新がなされる J(θ) = E[(yt Q(st, at ; θ))2 ] (3.7.4) ここで yt は Q(st, at ; θ) が出力するべきターゲットを表すこの目的関数のパラメータ θ に関する微分は NIPS 版 DQN では 4 フレームおきのフレームをとっているただしスペースインベーダーの場合見えない弾が生じてしまうため 3 フレームおきのフレームとしている

311 α- 61 ε-greedy 9, 27, 113 accumulating trace 83 ACh action 2 Actor-Critic 50 Actor-Critic 155, 290 agent 2 AlphaGo 265 apprenticeship learning 128, 226 BG BRM: Bellman Residual Minimization 89 CDR classical conditioning 285 cost 3 Credit Assignment Problem DA DBN: Dynamic Bayesian Networks 218 deep learning delayed reward 4, 127 discount 4 double Q-learning 263 double sampling 89 DQN: Deep Q-Network 145, 257 DQN with PS 146 effectance EM environment 2 experience replay 79, 261 exploitation 5 exploration 5 exploration-exploitation tradeoff 5 fitted Q 99 GA: Genetic Algorithm 130 GAIRL 131 Gaussian Process 226 GQ: Gradient Q-learning 99 Gradient Temporal Difference (GTD) 88 greedy GQ 99 greedy 6 greedy 27 Hip IM imitation learning immediate reward 3 income 4 incremental pruning 63 instrumental conditioning 285 instrumental variable method 90 intracranial self-stimulation 286 inverse reinforcement learning law of effect 285 LEM loss 3 LSPE(Least-Squares Policy Evaluation) 96 LSPI(Least-Squares Policy Iteration) 98 LSTD(Least-Squares TD) 91 MDP: Markov Decision Process mirror neuron system multi-agent M 103 N-Persons Iterated Prisoner s Dilemma 160 NAC: Natural Actor-Critic 221 natural policy gradient NE neuromodulator NLP OnPS 183 operant conditioning 285 optimal learning policy optimal learning trajectory Pavlov s dog 284 PBVI: Point-Based Value Iteration 60, 216, 219 policy 3 POMDP prioritized experience replay 263 Profit Sharing (PS) 137 PS: Profit Sharing 137, 182 PSO: Particle Swarm Optimization 153 Q-learning Q 37, 87, 150 QoL: Quality of Life 249 Q 150 regret 112 reinforcement 285 reinforcement signal 285 reinforcement-learning problem 2 reinforcer 285 REINFORCE 52 return 4 reward 3 RoboCup

312 R 177 Sarsa 33, 85 Sarsa(0) 288 Skinner box 285 state 2 state-action space structured prediction TD(0) 286 TD 81, 109, 230 TD 34, 81 Thompson 114 UCB1 113 UCT: Upper Confidence bounds on Trees 114 Upper Confidence Bound (UCB) 10, 113 utility 3 value 4 301 177 154 130 300 249 138 2 21, 137 302 285 184 301 295 226 149 4, 22 2 56 155 160 128, 237, 242 285 2 137 285 285 136 127 greedy 178 148 162 136 285 238 2, 15 25 25 16 138 3 285 239 239 25 25 21 Q 153 180 237 220 4, 21, 150 160 127 2, 14 22 16 150 296 16 149 152 16 225 291, 300 137, 145, 258 296 102 285 227 306 QoL 156 138 131 291 287 Q 153 90 3 3 79, 261 287, 300 2 138 148 6, 112, 178 5

313 5 4 285 178 286, 300 greedy 295 89 180 291 295 286 301 139 284 152 154 162 56 Q 181 Sarsa 182 177 178 9, 113 56, 214, 249 172 177 119 118 36 89 31 3, 15, 150 86 3, 15, 150 MDP 179 16 127 27 16, 166, 214, 249 296 159 159 139 200 104 128, 226 298 138 153 291 163 127 237 266 296 138 263 115 10 177 MDP 180 177 112 165 175, 177 167, 170 165, 172 174 3 5 83 137 155 155 295 4 179 180 22

c 2016 2016 10 31 1 1 1-4-11 102-0071 03-3265-8341 FAX 03-3264-8709 http://www.morikita.co.jp/ Printed in Japan ISBN978-4-627-88031-3

これからの強化学習 サンプルページ この本の定価 判型などは, 以下の URL からご覧いただけます. このサンプルページの内容は, 初版 1 刷発行時のものです.

これからの強化学習サンプルページこの本の定価判型などは, 以下の URL からご覧いただけます. このサンプルページの内容は, 初版 1 刷発行時のものです.