これからの強化学習 サンプルページ この本の定価 判型などは, 以下の URL からご覧いただけます. http://www.morikita.co.jp/books/mid/088031 このサンプルページの内容は, 初版 1 刷発行時のものです.
i
ii Sutton Barto 20 1 2 3 4 1 Richard S. Sutton and Andrew G. Barto. Reinforcement Learning: An Introduction. MIT Press, Cambridge, MA, 1998., 2000
iii 1 1 1.1 2 1.2 14 1.3 29 1.4 42 1.5 56 2 71 2.1 TD 72 2.2 112 2.3 (Inverse Reinforcement Learning) 127 2.4 XoL 136 2.5 148 2.6 165 2.7 177 3 189 3.1 190 3.2 199 3.3 214 3.4 225 3.5 237 3.6 249 3.7 Q Atari 2600 257 4 283 4.1 284 4.2 295 309 311
iv 1.1 1.3 2.2 3.5 1.2 1.3 1.5 1.4 50 4.2 3.6 2.3 3.4 2.5 4.1 3.2 2.5 3.1 IBM 3.5 4.1 2.1 3.7 2.7 3.3 2.4 NTT 3.3 IBM 1.4 2.6 ATR 3.1 3.2 4.1 2016 5
1 1.1 1.2 (MDP) 1.3 1.4 1.5 (POMDP) 2
1.1 1 1.1.1 (reinforcement-learning problem) (agent) (environment) 1.1.1 (action) (state)
main : 2016/10/4(15:54) 1.1 強化学習とは 図 1.1.1 3 無人島で生き残る方法を探すことは 強化学習問題の一例である る一方 きれいな湧き水を飲めば元気が出てくるだろう あるいは 砂浜を歩くと別の 場所に移動できるが 岩場を歩けば転倒して怪我をするかもしれない 強化学習では 未知の環境で発生するいろいろなことを統一的に比較する指標として 報酬 (reward) とよばれるスカラー値で行動の結果の良さを表す きれいな水を飲むなど エージェ ントにとって良いことに対しては大きな報酬を 海水を飲むなど悪いことには少ない 報酬を割り当てる 負値を使うことも多い 報酬は 経済学では利得 (utility) とよ ばれ 制御工学では符号を反転して損失 (loss) またはコスト (cost) とよばれるが 強 化学習の文脈では同じものと思ってよい 強化学習問題とは 置かれた環境のなかで 行動の選択を通して得られる報酬の総和を最大化する問題である 強化学習では 多くの場合 行動の結果や与えられる報酬は確率的に変化するもの として与えられるため 一連の行動を最初に決定しておくよりも 行動の結果を観測 してから次の行動を決めるほうが より良い行動を選択できる そこで エージェン トの行動決定の方策 (policy) を 観測の結果 現在の環境の状態 を入力として 行 動を出力とする関数の形で表す 強化学習では ありうる数多くの方策のなかから 最適な方策 すなわち 最も多くの報酬をもたらす方策を選択することが目的となる 単純には エージェントはより多くの報酬につながる行動を選べばよいわけだが あ る行動をとった直後の報酬値 これを即時報酬 (immediate reward) とよぶ だけに
4 1 (delayed reward) (return, income) (discount) (value) = = = =
1.1 5 (exploration-exploitation tradeoff) (exploitation) (exploration) Web
1.4 1 (policy) Q θ π θ (a s) θ G θ Q-learning Sarsa π 1.4.1 1 1.4.1 s a Q(s, a) s a
1.4 43 1.4.1 Q(s, a) 2.1 Q(s, a) f(s, a) Q(s, a) Q(s, a) a 1 a 0.01 Q(s, a) 1 1.2 ε-greedy Q(s, a)
44 1 Q(s, a) π(a s) 1.4.2 π Q(s, a) 1.4.2 Q π Q ε-greedy ε T
1.4 45 θ θ s 1 s 2 s = [s 1, s 2 ] T a f(s) w 1 w 2 f(s) = w 1 s 1 + w 2 s 2 (1.4.1) 2 θ = [w 1, w 2 ] T f θ (s) θ (1.4.1) (1.4.1) f(s) σ 2 N (f(s), σ 2 ) σ θ = {w 1, w 2, σ}
46 1 1.4.3 1.4.3 π θ
3.7 3 Q Atari 2600 deep neural network Q [30, 31] [10] [39] Atari 2600 Fan Hui 5 Lee Sedol 5 4 3.7.1 Deep Q-Network (DQN) Atari 2600 [30, 31] [18], [2] Deep Q-Network (DQN) [20, 21] [31] [7, 16] [3, 41] DQN
258 3 DQN NIPS 2013 12 [20] 2015 2 Nature [21] NIPS DQN Nature DQN 3.7.2 DQN DQN Q n (0) x 1 n (1) h (1) 2 n (l) h (l) (2 l L 1), n (L) y h (1) = sig(w (1) x + b (1) ) (3.7.1) h (l+1) = sig(w (l) h (l) + b (l) ) (3.7.2) y = o(w (l) h (L) + b (L) ) (3.7.3) sig(x) o(x) 1/(1 + exp( x)) x o(x) 1 sig(x) W (l) b (l) n (l+1) n (l) n (l+1) θ Q(s, a) θ Q(s, a; θ) L (deep neural network) (deep learning) DQN [42] [40], [43]
3.7 Q Atari 2600 259 3.7.1 3.7.1 W h Wh W DQN s a Q(s, a) DQN a a {a 1,..., a N } N DQN N DQN i f i (s) f i (s) i Q f i (s) = Q(s, a i ) N DQN N 4 18
2016/10/4(15:54) 260 第3章 main : 強化学習の工学応用 図 3.7.2 DQN のアーキテクチャ クの自由度を抑制し 過学習を防いでいる また このような構造をとると 行動ごと に関数を評価し直す必要がないため 高速に Q 関数を評価するのに役立つ このネッ トワーク構造を図 3.7.2 に示す 図 3.7.2 にあるとおり DQN には四つのフレームの画面の情報が入力されている ただし 実際の画面のフレームレートは 60 Hz であり Nature 版 DQN ではそのうち 連続する 4 フレームのうち 3 フレーム目と 4 フレーム目のピクセルの最大値をとって 一つのフレームとしている また その 4 フレームの間 行動は同じものを選択し続 けるものとする また 既存の深層学習フレームワークにおいて GPU 計算機が効率 的に畳み込み演算できるのが正方形の入力であったため 前処理において 210 160 の画面サイズをダウンサンプリングし 84 84 正方形の画面に整形している RGB のカラーは グレースケールの輝度値に変換される 3.7.3 DQN の学習アルゴリズム DQN の学習は 基本的に以下の目的関数 J(θ) の最小化を意図してパラメータ更新 がなされる J(θ) = E[(yt Q(st, at ; θ))2 ] (3.7.4) ここで yt は Q(st, at ; θ) が出力するべきターゲットを表す この目的関数のパラ メータ θ に関する微分は NIPS 版 DQN では 4 フレームおきのフレームをとっている ただし スペースインベーダーの場 合 見えない弾が生じてしまうため 3 フレームおきのフレームとしている
311 α- 61 ε-greedy 9, 27, 113 accumulating trace 83 ACh action 2 Actor-Critic 50 Actor-Critic 155, 290 agent 2 AlphaGo 265 apprenticeship learning 128, 226 BG BRM: Bellman Residual Minimization 89 CDR classical conditioning 285 cost 3 Credit Assignment Problem DA DBN: Dynamic Bayesian Networks 218 deep learning delayed reward 4, 127 discount 4 double Q-learning 263 double sampling 89 DQN: Deep Q-Network 145, 257 DQN with PS 146 effectance EM environment 2 experience replay 79, 261 exploitation 5 exploration 5 exploration-exploitation tradeoff 5 fitted Q 99 GA: Genetic Algorithm 130 GAIRL 131 Gaussian Process 226 GQ: Gradient Q-learning 99 Gradient Temporal Difference (GTD) 88 greedy GQ 99 greedy 6 greedy 27 Hip IM imitation learning immediate reward 3 income 4 incremental pruning 63 instrumental conditioning 285 instrumental variable method 90 intracranial self-stimulation 286 inverse reinforcement learning law of effect 285 LEM loss 3 LSPE(Least-Squares Policy Evaluation) 96 LSPI(Least-Squares Policy Iteration) 98 LSTD(Least-Squares TD) 91 MDP: Markov Decision Process mirror neuron system multi-agent M 103 N-Persons Iterated Prisoner s Dilemma 160 NAC: Natural Actor-Critic 221 natural policy gradient NE neuromodulator NLP OnPS 183 operant conditioning 285 optimal learning policy optimal learning trajectory Pavlov s dog 284 PBVI: Point-Based Value Iteration 60, 216, 219 policy 3 POMDP prioritized experience replay 263 Profit Sharing (PS) 137 PS: Profit Sharing 137, 182 PSO: Particle Swarm Optimization 153 Q-learning Q 37, 87, 150 QoL: Quality of Life 249 Q 150 regret 112 reinforcement 285 reinforcement signal 285 reinforcement-learning problem 2 reinforcer 285 REINFORCE 52 return 4 reward 3 RoboCup
312 R 177 Sarsa 33, 85 Sarsa(0) 288 Skinner box 285 state 2 state-action space structured prediction TD(0) 286 TD 81, 109, 230 TD 34, 81 Thompson 114 UCB1 113 UCT: Upper Confidence bounds on Trees 114 Upper Confidence Bound (UCB) 10, 113 utility 3 value 4 301 177 154 130 300 249 138 2 21, 137 302 285 184 301 295 226 149 4, 22 2 56 155 160 128, 237, 242 285 2 137 285 285 136 127 greedy 178 148 162 136 285 238 2, 15 25 25 16 138 3 285 239 239 25 25 21 Q 153 180 237 220 4, 21, 150 160 127 2, 14 22 16 150 296 16 149 152 16 225 291, 300 137, 145, 258 296 102 285 227 306 QoL 156 138 131 291 287 Q 153 90 3 3 79, 261 287, 300 2 138 148 6, 112, 178 5
313 5 4 285 178 286, 300 greedy 295 89 180 291 295 286 301 139 284 152 154 162 56 Q 181 Sarsa 182 177 178 9, 113 56, 214, 249 172 177 119 118 36 89 31 3, 15, 150 86 3, 15, 150 MDP 179 16 127 27 16, 166, 214, 249 296 159 159 139 200 104 128, 226 298 138 153 291 163 127 237 266 296 138 263 115 10 177 MDP 180 177 112 165 175, 177 167, 170 165, 172 174 3 5 83 137 155 155 295 4 179 180 22
c 2016 2016 10 31 1 1 1-4-11 102-0071 03-3265-8341 FAX 03-3264-8709 http://www.morikita.co.jp/ Printed in Japan ISBN978-4-627-88031-3