これからの強化学習 サンプルページ この本の定価 判型などは, 以下の URL からご覧いただけます. このサンプルページの内容は, 初版 1 刷発行時のものです.

Size: px
Start display at page:

Download "これからの強化学習 サンプルページ この本の定価 判型などは, 以下の URL からご覧いただけます. このサンプルページの内容は, 初版 1 刷発行時のものです."

Transcription

1

2 これからの強化学習 サンプルページ この本の定価 判型などは, 以下の URL からご覧いただけます. このサンプルページの内容は, 初版 1 刷発行時のものです.

3

4 i

5 ii Sutton Barto Richard S. Sutton and Andrew G. Barto. Reinforcement Learning: An Introduction. MIT Press, Cambridge, MA, 1998., 2000

6 iii TD (Inverse Reinforcement Learning) XoL Q Atari

7 iv IBM NTT 3.3 IBM ATR

8 (MDP) (POMDP) 2

9 (reinforcement-learning problem) (agent) (environment) (action) (state)

10 main : 2016/10/4(15:54) 1.1 強化学習とは 図 無人島で生き残る方法を探すことは 強化学習問題の一例である る一方 きれいな湧き水を飲めば元気が出てくるだろう あるいは 砂浜を歩くと別の 場所に移動できるが 岩場を歩けば転倒して怪我をするかもしれない 強化学習では 未知の環境で発生するいろいろなことを統一的に比較する指標として 報酬 (reward) とよばれるスカラー値で行動の結果の良さを表す きれいな水を飲むなど エージェ ントにとって良いことに対しては大きな報酬を 海水を飲むなど悪いことには少ない 報酬を割り当てる 負値を使うことも多い 報酬は 経済学では利得 (utility) とよ ばれ 制御工学では符号を反転して損失 (loss) またはコスト (cost) とよばれるが 強 化学習の文脈では同じものと思ってよい 強化学習問題とは 置かれた環境のなかで 行動の選択を通して得られる報酬の総和を最大化する問題である 強化学習では 多くの場合 行動の結果や与えられる報酬は確率的に変化するもの として与えられるため 一連の行動を最初に決定しておくよりも 行動の結果を観測 してから次の行動を決めるほうが より良い行動を選択できる そこで エージェン トの行動決定の方策 (policy) を 観測の結果 現在の環境の状態 を入力として 行 動を出力とする関数の形で表す 強化学習では ありうる数多くの方策のなかから 最適な方策 すなわち 最も多くの報酬をもたらす方策を選択することが目的となる 単純には エージェントはより多くの報酬につながる行動を選べばよいわけだが あ る行動をとった直後の報酬値 これを即時報酬 (immediate reward) とよぶ だけに

11 4 1 (delayed reward) (return, income) (discount) (value) = = = =

12 1.1 5 (exploration-exploitation tradeoff) (exploitation) (exploration) Web

13 1.4 1 (policy) Q θ π θ (a s) θ G θ Q-learning Sarsa π s a Q(s, a) s a

14 Q(s, a) 2.1 Q(s, a) f(s, a) Q(s, a) Q(s, a) a 1 a 0.01 Q(s, a) ε-greedy Q(s, a)

15 44 1 Q(s, a) π(a s) π Q(s, a) Q π Q ε-greedy ε T

16 θ θ s 1 s 2 s = [s 1, s 2 ] T a f(s) w 1 w 2 f(s) = w 1 s 1 + w 2 s 2 (1.4.1) 2 θ = [w 1, w 2 ] T f θ (s) θ (1.4.1) (1.4.1) f(s) σ 2 N (f(s), σ 2 ) σ θ = {w 1, w 2, σ}

17 π θ

18 3.7 3 Q Atari 2600 deep neural network Q [30, 31] [10] [39] Atari 2600 Fan Hui 5 Lee Sedol Deep Q-Network (DQN) Atari 2600 [30, 31] [18], [2] Deep Q-Network (DQN) [20, 21] [31] [7, 16] [3, 41] DQN

19 258 3 DQN NIPS [20] Nature [21] NIPS DQN Nature DQN DQN DQN Q n (0) x 1 n (1) h (1) 2 n (l) h (l) (2 l L 1), n (L) y h (1) = sig(w (1) x + b (1) ) (3.7.1) h (l+1) = sig(w (l) h (l) + b (l) ) (3.7.2) y = o(w (l) h (L) + b (L) ) (3.7.3) sig(x) o(x) 1/(1 + exp( x)) x o(x) 1 sig(x) W (l) b (l) n (l+1) n (l) n (l+1) θ Q(s, a) θ Q(s, a; θ) L (deep neural network) (deep learning) DQN [42] [40], [43]

20 3.7 Q Atari W h Wh W DQN s a Q(s, a) DQN a a {a 1,..., a N } N DQN N DQN i f i (s) f i (s) i Q f i (s) = Q(s, a i ) N DQN N 4 18

21 2016/10/4(15:54) 260 第3章 main : 強化学習の工学応用 図 DQN のアーキテクチャ クの自由度を抑制し 過学習を防いでいる また このような構造をとると 行動ごと に関数を評価し直す必要がないため 高速に Q 関数を評価するのに役立つ このネッ トワーク構造を図 に示す 図 にあるとおり DQN には四つのフレームの画面の情報が入力されている ただし 実際の画面のフレームレートは 60 Hz であり Nature 版 DQN ではそのうち 連続する 4 フレームのうち 3 フレーム目と 4 フレーム目のピクセルの最大値をとって 一つのフレームとしている また その 4 フレームの間 行動は同じものを選択し続 けるものとする また 既存の深層学習フレームワークにおいて GPU 計算機が効率 的に畳み込み演算できるのが正方形の入力であったため 前処理において の画面サイズをダウンサンプリングし 正方形の画面に整形している RGB のカラーは グレースケールの輝度値に変換される DQN の学習アルゴリズム DQN の学習は 基本的に以下の目的関数 J(θ) の最小化を意図してパラメータ更新 がなされる J(θ) = E[(yt Q(st, at ; θ))2 ] (3.7.4) ここで yt は Q(st, at ; θ) が出力するべきターゲットを表す この目的関数のパラ メータ θ に関する微分は NIPS 版 DQN では 4 フレームおきのフレームをとっている ただし スペースインベーダーの場 合 見えない弾が生じてしまうため 3 フレームおきのフレームとしている

22 311 α- 61 ε-greedy 9, 27, 113 accumulating trace 83 ACh action 2 Actor-Critic 50 Actor-Critic 155, 290 agent 2 AlphaGo 265 apprenticeship learning 128, 226 BG BRM: Bellman Residual Minimization 89 CDR classical conditioning 285 cost 3 Credit Assignment Problem DA DBN: Dynamic Bayesian Networks 218 deep learning delayed reward 4, 127 discount 4 double Q-learning 263 double sampling 89 DQN: Deep Q-Network 145, 257 DQN with PS 146 effectance EM environment 2 experience replay 79, 261 exploitation 5 exploration 5 exploration-exploitation tradeoff 5 fitted Q 99 GA: Genetic Algorithm 130 GAIRL 131 Gaussian Process 226 GQ: Gradient Q-learning 99 Gradient Temporal Difference (GTD) 88 greedy GQ 99 greedy 6 greedy 27 Hip IM imitation learning immediate reward 3 income 4 incremental pruning 63 instrumental conditioning 285 instrumental variable method 90 intracranial self-stimulation 286 inverse reinforcement learning law of effect 285 LEM loss 3 LSPE(Least-Squares Policy Evaluation) 96 LSPI(Least-Squares Policy Iteration) 98 LSTD(Least-Squares TD) 91 MDP: Markov Decision Process mirror neuron system multi-agent M 103 N-Persons Iterated Prisoner s Dilemma 160 NAC: Natural Actor-Critic 221 natural policy gradient NE neuromodulator NLP OnPS 183 operant conditioning 285 optimal learning policy optimal learning trajectory Pavlov s dog 284 PBVI: Point-Based Value Iteration 60, 216, 219 policy 3 POMDP prioritized experience replay 263 Profit Sharing (PS) 137 PS: Profit Sharing 137, 182 PSO: Particle Swarm Optimization 153 Q-learning Q 37, 87, 150 QoL: Quality of Life 249 Q 150 regret 112 reinforcement 285 reinforcement signal 285 reinforcement-learning problem 2 reinforcer 285 REINFORCE 52 return 4 reward 3 RoboCup

23 312 R 177 Sarsa 33, 85 Sarsa(0) 288 Skinner box 285 state 2 state-action space structured prediction TD(0) 286 TD 81, 109, 230 TD 34, 81 Thompson 114 UCB1 113 UCT: Upper Confidence bounds on Trees 114 Upper Confidence Bound (UCB) 10, 113 utility 3 value , , , 237, greedy , Q , 21, , , , 145, QoL Q , , , 112, 178 5

24 , 300 greedy Q 181 Sarsa , , 214, , 15, , 15, 150 MDP , 166, 214, , MDP , , ,

25 c FAX Printed in Japan ISBN

医系の統計入門第 2 版 サンプルページ この本の定価 判型などは, 以下の URL からご覧いただけます. このサンプルページの内容は, 第 2 版 1 刷発行時のものです.

医系の統計入門第 2 版 サンプルページ この本の定価 判型などは, 以下の URL からご覧いただけます.   このサンプルページの内容は, 第 2 版 1 刷発行時のものです. 医系の統計入門第 2 版 サンプルページ この本の定価 判型などは, 以下の URL からご覧いただけます. http://www.morikita.co.jp/books/mid/009192 このサンプルページの内容は, 第 2 版 1 刷発行時のものです. i 2 t 1. 2. 3 2 3. 6 4. 7 5. n 2 ν 6. 2 7. 2003 ii 2 2013 10 iii 1987

More information

微分積分 サンプルページ この本の定価 判型などは, 以下の URL からご覧いただけます. このサンプルページの内容は, 初版 1 刷発行時のものです.

微分積分 サンプルページ この本の定価 判型などは, 以下の URL からご覧いただけます.   このサンプルページの内容は, 初版 1 刷発行時のものです. 微分積分 サンプルページ この本の定価 判型などは, 以下の URL からご覧いただけます. ttp://www.morikita.co.jp/books/mid/00571 このサンプルページの内容は, 初版 1 刷発行時のものです. i ii 014 10 iii [note] 1 3 iv 4 5 3 6 4 x 0 sin x x 1 5 6 z = f(x, y) 1 y = f(x)

More information

IPSJ SIG Technical Report Vol.2016-GI-35 No /3/9 StarCraft AI Deep Q-Network StarCraft: BroodWar Blizzard Entertainment AI Competition AI Convo

IPSJ SIG Technical Report Vol.2016-GI-35 No /3/9 StarCraft AI Deep Q-Network StarCraft: BroodWar Blizzard Entertainment AI Competition AI Convo StarCraft AI Deep Q-Network StarCraft: BroodWar Blizzard Entertainment AI Competition AI Convolutional Neural Network(CNN) Q Deep Q-Network(DQN) CNN DQN,,, 1. StarCraft: Brood War *1 Blizzard Entertainment

More information

<4D F736F F D B B BB2D834A836F815B82D082C88C602E646F63>

<4D F736F F D B B BB2D834A836F815B82D082C88C602E646F63> 入門モーター工学 サンプルページ この本の定価 判型などは, 以下の URL からご覧いただけます. http://www.morikita.co.jp/books/mid/074351 このサンプルページの内容は, 初版 1 刷発行当時のものです. 10 kw 21 20 50 2 20 IGBT IGBT IGBT 21 (1) 1 2 (2) (3) ii 20 2013 2 iii iv...

More information

b2-reinforcement-learning-mw

b2-reinforcement-learning-mw 強化学習 最適制御のためのディープラーニングの応用 吉田剛士 2015 The MathWorks, Inc. 1 はじめに強化学習 = Reinforcement Learning AlphaGo がプロ棋士に勝利 (2015) そして 人類を超える (2017) 強化学習の特徴 自律的に学習し賢くなっていく 2 Agenda : 強化学習 ~ 最適制御のためのディープラーニングの応用 ~ 強化学習とは

More information

情報 システム工学概論 コンピュータゲームプレイヤ 鶴岡慶雅 工学部電子情報工学科 情報理工学系研究科電子情報学専攻

情報 システム工学概論 コンピュータゲームプレイヤ 鶴岡慶雅 工学部電子情報工学科 情報理工学系研究科電子情報学専攻 情報 システム工学概論 2018-1-15 コンピュータゲームプレイヤ 鶴岡慶雅 工学部電子情報工学科 情報理工学系研究科電子情報学専攻 DEEP Q-NETWORK (DQN) Deep Q-Network (Mnih et al., 2015) Atari 2600 Games ブロック崩し スペースインベーダー ピンポン etc. 同一のプログラムですべてのゲームを学習 CNN+ 強化学習 (Q-Learning)

More information

知能科学:ニューラルネットワーク

知能科学:ニューラルネットワーク 2 3 4 (Neural Network) (Deep Learning) (Deep Learning) ( x x = ax + b x x x ? x x x w σ b = σ(wx + b) x w b w b .2.8.6 σ(x) = + e x.4.2 -.2 - -5 5 x w x2 w2 σ x3 w3 b = σ(w x + w 2 x 2 + w 3 x 3 + b) x,

More information

<4D F736F F D B B83578B6594BB2D834A836F815B82D082C88C602E646F63>

<4D F736F F D B B83578B6594BB2D834A836F815B82D082C88C602E646F63> スピントロニクスの基礎 サンプルページ この本の定価 判型などは, 以下の URL からご覧いただけます. http://www.morikita.co.jp/books/mid/077461 このサンプルページの内容は, 初版 1 刷発行時のものです. i 1 2 ii 3 5 4 AMR (anisotropic magnetoresistance effect) GMR (giant magnetoresistance

More information

Mastering the Game of Go without Human Knowledge ( ) AI 3 1 AI 1 rev.1 (2017/11/26) 1 6 2

Mastering the Game of Go without Human Knowledge ( ) AI 3 1 AI 1 rev.1 (2017/11/26) 1 6 2 6 2 6.1........................................... 3 6.2....................... 5 6.2.1........................... 5 6.2.2........................... 9 6.2.3................. 11 6.3.......................

More information

<4D F736F F D B B83578B6594BB2D834A836F815B82D082C88C60202E646F63>

<4D F736F F D B B83578B6594BB2D834A836F815B82D082C88C60202E646F63> 単純適応制御 SAC サンプルページ この本の定価 判型などは, 以下の URL からご覧いただけます. http://www.morikita.co.jp/books/mid/091961 このサンプルページの内容は, 初版 1 刷発行当時のものです. 1 2 3 4 5 9 10 12 14 15 A B F 6 8 11 13 E 7 C D URL http://www.morikita.co.jp/support

More information

<4D F736F F D B B83578B6594BB2D834A836F815B82D082C88C60202E646F63>

<4D F736F F D B B83578B6594BB2D834A836F815B82D082C88C60202E646F63> 通信方式第 2 版 サンプルページ この本の定価 判型などは, 以下の URL からご覧いただけます. http://www.morikita.co.jp/books/mid/072662 このサンプルページの内容は, 第 2 版発行当時のものです. i 2 2 2 2012 5 ii,.,,,,,,.,.,,,,,.,,.,,..,,,,.,,.,.,,.,,.. 1990 5 iii 1 1

More information

<4D F736F F D B B83578B6594BB2D834A836F815B82D082C88C60202E646F63>

<4D F736F F D B B83578B6594BB2D834A836F815B82D082C88C60202E646F63> MATLAB/Simulink による現代制御入門 サンプルページ この本の定価 判型などは, 以下の URL からご覧いただけます. http://www.morikita.co.jp/books/mid/9241 このサンプルページの内容は, 初版 1 刷発行当時のものです. i MATLAB/Simulink MATLAB/Simulink 1. 1 2. 3. MATLAB/Simulink

More information

ばらつき抑制のための確率最適制御

ばらつき抑制のための確率最適制御 ( ) http://wwwhayanuemnagoya-uacjp/ fujimoto/ 2011 3 9 11 ( ) 2011/03/09-11 1 / 46 Outline 1 2 3 4 5 ( ) 2011/03/09-11 2 / 46 Outline 1 2 3 4 5 ( ) 2011/03/09-11 3 / 46 (1/2) r + Controller - u Plant y

More information

フリーソフトでつくる音声認識システム ( 第 2 版 ) サンプルページ この本の定価 判型などは, 以下の URL からご覧いただけます. このサンプルページの内容は, 第 2 版 1 刷発行時のものです.

フリーソフトでつくる音声認識システム ( 第 2 版 ) サンプルページ この本の定価 判型などは, 以下の URL からご覧いただけます.   このサンプルページの内容は, 第 2 版 1 刷発行時のものです. フリーソフトでつくる音声認識システム ( 第 2 版 ) サンプルページ この本の定価 判型などは, 以下の URL からご覧いただけます. http://www.morikita.co.jp/books/mid/084712 このサンプルページの内容は, 第 2 版 1 刷発行時のものです. i 2007 10 1 Scilab 2 2017 2 1 2 1 ii 2 web 2007 9 iii

More information

最新耐震構造解析 ( 第 3 版 ) サンプルページ この本の定価 判型などは, 以下の URL からご覧いただけます. このサンプルページの内容は, 第 3 版 1 刷発行時のものです.

最新耐震構造解析 ( 第 3 版 ) サンプルページ この本の定価 判型などは, 以下の URL からご覧いただけます.   このサンプルページの内容は, 第 3 版 1 刷発行時のものです. 最新耐震構造解析 ( 第 3 版 ) サンプルページ この本の定価 判型などは, 以下の URL からご覧いただけます. http://www.morikita.co.jp/books/mid/052093 このサンプルページの内容は, 第 3 版 1 刷発行時のものです. i 3 10 3 2000 2007 26 8 2 SI SI 20 1996 2000 SI 15 3 ii 1 56 6

More information

<4D F736F F D B B83578B6594BB2D834A836F815B82D082C88C60202E646F63>

<4D F736F F D B B83578B6594BB2D834A836F815B82D082C88C60202E646F63> 電気電子数学入門 サンプルページ この本の定価 判型などは, 以下の URL からご覧いただけます. http://www.morikita.co.jp/books/mid/073471 このサンプルページの内容は, 初版 1 刷発行当時のものです. i 14 (tool) [ ] IT ( ) PC (EXCEL) HP() 1 1 4 15 3 010 9 ii 1... 1 1.1 1 1.

More information

地盤環境振動の対策技術-00-前付.indd

地盤環境振動の対策技術-00-前付.indd 地盤環境振動の対策技術 サンプルページ この本の定価 判型などは, 以下の URL からご覧いただけます. http://www.morikita.co.jp/books/mid/048561 このサンプルページの内容は, 初版 1 刷発行当時のものです. i 23 25 28 8 ii 1 8 2 9 3 10 4 11 5 12 6 13 7 iii 1 1 1.1 1.1.11 1.1.22

More information

<4D F736F F D B B83578B6594BB2D834A836F815B82D082C88C60202E646F63>

<4D F736F F D B B83578B6594BB2D834A836F815B82D082C88C60202E646F63> 新 Excel コンピュータシミュレーション サンプルページ この本の定価 判型などは, 以下の URL からご覧いただけます. http://www.morikita.co.jp/books/mid/084871 このサンプルページの内容は, 初版 1 刷発行当時のものです. Microsoft Excel Excel Visual Basic Visual Basic 2007 Excel Excel

More information

provider_020524_2.PDF

provider_020524_2.PDF 1 1 1 2 2 3 (1) 3 (2) 4 (3) 6 7 7 (1) 8 (2) 21 26 27 27 27 28 31 32 32 36 1 1 2 2 (1) 3 3 4 45 (2) 6 7 5 (3) 6 7 8 (1) ii iii iv 8 * 9 10 11 9 12 10 13 14 15 11 16 17 12 13 18 19 20 (2) 14 21 22 23 24

More information

<4D F736F F D B B BB2D834A836F815B82D082C88C602E646F63>

<4D F736F F D B B BB2D834A836F815B82D082C88C602E646F63> 信号処理の基礎 サンプルページ この本の定価 判型などは, 以下の URL からご覧いただけます. http://www.morikita.co.jp/books/mid/081051 このサンプルページの内容は, 初版 1 刷発行時のものです. i AI ii z / 2 3 4 5 6 7 7 z 8 8 iii 2013 3 iv 1 1 1.1... 1 1.2... 2 2 4 2.1...

More information

<4D F736F F D B B83578B6594BB2D834A836F815B82D082C88C60202E646F63>

<4D F736F F D B B83578B6594BB2D834A836F815B82D082C88C60202E646F63> 基礎からの冷凍空調 サンプルページ この本の定価 判型などは, 以下の URL からご覧いただけます. http://www.morikita.co.jp/books/mid/067311 このサンプルページの内容は, 初版 1 刷発行当時のものです. http://www.morikita.co.jp/support. 03-3817-5670FAX 03-3815-8199 i () () Q&A

More information

44 4 I (1) ( ) (10 15 ) ( 17 ) ( 3 1 ) (2)

44 4 I (1) ( ) (10 15 ) ( 17 ) ( 3 1 ) (2) (1) I 44 II 45 III 47 IV 52 44 4 I (1) ( ) 1945 8 9 (10 15 ) ( 17 ) ( 3 1 ) (2) 45 II 1 (3) 511 ( 451 1 ) ( ) 365 1 2 512 1 2 365 1 2 363 2 ( ) 3 ( ) ( 451 2 ( 314 1 ) ( 339 1 4 ) 337 2 3 ) 363 (4) 46

More information

i ii i iii iv 1 3 3 10 14 17 17 18 22 23 28 29 31 36 37 39 40 43 48 59 70 75 75 77 90 95 102 107 109 110 118 125 128 130 132 134 48 43 43 51 52 61 61 64 62 124 70 58 3 10 17 29 78 82 85 102 95 109 iii

More information

[1] AI [2] Pac-Man Ms. Pac-Man Ms. Pac-Man Pac-Man Ms. Pac-Man IEEE AI Ms. Pac-Man AI [3] AI 2011 UCT[4] [5] 58,990 Ms. Pac-Man AI Ms. Pac-Man 921,360

[1] AI [2] Pac-Man Ms. Pac-Man Ms. Pac-Man Pac-Man Ms. Pac-Man IEEE AI Ms. Pac-Man AI [3] AI 2011 UCT[4] [5] 58,990 Ms. Pac-Man AI Ms. Pac-Man 921,360 TD(λ) Ms. Pac-Man AI 1,a) 2 3 3 Ms. Pac-Man AI Ms. Pac-Man UCT (Upper Confidence Bounds applied to Trees) TD(λ) UCT UCT Progressive bias Progressive bias UCT UCT Ms. Pac-Man UCT Progressive bias TD(λ)

More information

ルベーグ積分 サンプルページ この本の定価 判型などは, 以下の URL からご覧いただけます. このサンプルページの内容は, 初版 1 刷発行時のものです.

ルベーグ積分 サンプルページ この本の定価 判型などは, 以下の URL からご覧いただけます.   このサンプルページの内容は, 初版 1 刷発行時のものです. ルベーグ積分 サンプルページ この本の定価 判型などは, 以下の URL からご覧いただけます. http://www.morikita.co.jp/books/mid/005431 このサンプルページの内容は, 初版 1 刷発行時のものです. Lebesgue 1 2 4 4 1 2 5 6 λ a

More information

<4D F736F F D B B83578B6594BB2D834A836F815B82D082C88C60202D B202D B202D

<4D F736F F D B B83578B6594BB2D834A836F815B82D082C88C60202D B202D B202D わかりやすい熱力学第 3 版 サンプルページ この本の定価 判型などは, 以下の URL からご覧いただけます. http://www.morikita.co.jp/books/mid/060013 このサンプルページの内容は, 第 3 版発行時のものです. i ii 49 7 iii 3 38 40 90 3 2012 9 iv 1 1 2 4 2.1 4 2.2 5 2.3 6 2.4 7 2.5

More information

<4D F736F F D B B83578B6594BB2D834A836F815B82D082C88C60202E646F63>

<4D F736F F D B B83578B6594BB2D834A836F815B82D082C88C60202E646F63> 常微分方程式の局所漸近解析 サンプルページ この本の定価 判型などは, 以下の URL からご覧いただけます. http://www.morikita.co.jp/books/mid/007651 このサンプルページの内容は, 初版 1 刷発行当時のものです. i Leibniz ydy = y 2 /2 1675 11 11 [6] 100 Bernoulli Riccati 19 Fuchs

More information

dlshogiアピール文章

dlshogiアピール文章 第 28 回世界コンピュータ将棋選手権 dlshogi アピール文章 山岡忠夫 2018 年 5 月 1 日更新 下線部分は 第 5 回将棋電王トーナメントからの差分を示す 1 特徴 ディープラーニングを使用 指し手を予測する Policy Network 局面の勝率を予測する Value Network 入力特徴にドメイン知識を活用 モンテカルロ木探索 並列化 自己対局による強化学習 既存将棋プログラムの自己対局データを使った事前学習

More information

RL_tutorial

RL_tutorial )! " = $ % & ' "(& &*+ = ' " + %' "(- + %. ' "(. + γ γ=0! " = $ " γ=0.9! " = $ " + 0.9$ " + 0.81$ "+, + ! " #, % #! " #, % # + (( + #,- +. max 2 3! " #,-, % 4! " #, % # ) α ! " #, % ' ( )(#, %)!

More information

<4D F736F F D B B83578B6594BB2D834A836F815B82D082C88C60202E646F63>

<4D F736F F D B B83578B6594BB2D834A836F815B82D082C88C60202E646F63> 確率的手法による構造安全性の解析 サンプルページ この本の定価 判型などは, 以下の URL からご覧いただけます. http://www.morikita.co.jp/books/mid/55271 このサンプルページの内容は, 初版 1 刷発行当時のものです. i 25 7 ii Benjamin &Cornell Ang & Tang Schuëller 1973 1974 Ang Mathematica

More information

soturon.dvi

soturon.dvi 12 Exploration Method of Various Routes with Genetic Algorithm 1010369 2001 2 5 ( Genetic Algorithm: GA ) GA 2 3 Dijkstra Dijkstra i Abstract Exploration Method of Various Routes with Genetic Algorithm

More information

<4D F736F F D B B83578B6594BB2D834A836F815B82D082C88C60202E646F63>

<4D F736F F D B B83578B6594BB2D834A836F815B82D082C88C60202E646F63> マイクロメカトロニクス サンプルページ この本の定価 判型などは, 以下の URL からご覧いただけます. http://www.morikita.co.jp/books/mid/077331 このサンプルページの内容は, 初版 1 刷発行当時のものです. 1984.10 1986.7 1995 60 1991 Piezoelectric Actuators and Ultrasonic Motors

More information

i

i 14 i ii iii iv v vi 14 13 86 13 12 28 14 16 14 15 31 (1) 13 12 28 20 (2) (3) 2 (4) (5) 14 14 50 48 3 11 11 22 14 15 10 14 20 21 20 (1) 14 (2) 14 4 (3) (4) (5) 12 12 (6) 14 15 5 6 7 8 9 10 7

More information

Excel ではじめる数値解析 サンプルページ この本の定価 判型などは, 以下の URL からご覧いただけます. このサンプルページの内容は, 初版 1 刷発行時のものです.

Excel ではじめる数値解析 サンプルページ この本の定価 判型などは, 以下の URL からご覧いただけます.   このサンプルページの内容は, 初版 1 刷発行時のものです. Excel ではじめる数値解析 サンプルページ この本の定価 判型などは, 以下の URL からご覧いただけます. http://www.morikita.co.jp/books/mid/009631 このサンプルページの内容は, 初版 1 刷発行時のものです. Excel URL http://www.morikita.co.jp/books/mid/009631 i Microsoft Windows

More information

パワープロジェクター WUX10 使用説明書

パワープロジェクター WUX10 使用説明書 2 1 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 1 2 3 26 27 28 29 30 1 2 31 32 33 34 35 36 37 38 39 1 2 3 4 40 5 41 42 43 44 45 1 2 3 46 1 2 1 2 3 3 1 2 3 4 47 48 1 2 3 49 1 2 3 50 1

More information

<4D F736F F D B B83578B6594BB2D834A836F815B82D082C88C60202E646F63>

<4D F736F F D B B83578B6594BB2D834A836F815B82D082C88C60202E646F63> デザイン言語 Processing 入門 サンプルページ この本の定価 判型などは, 以下の URL からご覧いただけます. http://www.morikita.co.jp/books/mid/084931 このサンプルページの内容は, 初版 1 刷発行当時のものです. Processing Ben Fry Casey Reas Windows Mac Linux Lesson 1 Processing

More information

main.dvi

main.dvi Java でつくる RoboCup サッカー選手プログラム サンプルページ この本の定価 判型などは, 以下の URL からご覧いただけます. http://www.morikita.co.jp/books/mid/084531 このサンプルページの内容は, 初版 1 刷発行当時のものです. http://www.morikita.co.jp/soft/robocup/ ( 03 3817 5670

More information

<4D F736F F D B B BB2D834A836F815B82D082C88C60202D B2E646F63>

<4D F736F F D B B BB2D834A836F815B82D082C88C60202D B2E646F63> 入社 5 年目までに身につけたい建設エンジニアの仕事術 サンプルページ この本の定価 判型などは, 以下の URL からご覧いただけます. http://www.morikita.co.jp/books/mid/087141 このサンプルページの内容は, 初版 1 刷発行当時のものです. i 3 5 2009 1 ii 1 1 1 2 3 3 6 13 1.1 14 1.2 15 1.3 17 1.4

More information

- 2 -

- 2 - - 2 - - 3 - (1) (2) (3) (1) - 4 - ~ - 5 - (2) - 6 - (1) (1) - 7 - - 8 - (i) (ii) (iii) (ii) (iii) (ii) 10 - 9 - (3) - 10 - (3) - 11 - - 12 - (1) - 13 - - 14 - (2) - 15 - - 16 - (3) - 17 - - 18 - (4) -

More information

2 1980 8 4 4 4 4 4 3 4 2 4 4 2 4 6 0 0 6 4 2 4 1 2 2 1 4 4 4 2 3 3 3 4 3 4 4 4 4 2 5 5 2 4 4 4 0 3 3 0 9 10 10 9 1 1

2 1980 8 4 4 4 4 4 3 4 2 4 4 2 4 6 0 0 6 4 2 4 1 2 2 1 4 4 4 2 3 3 3 4 3 4 4 4 4 2 5 5 2 4 4 4 0 3 3 0 9 10 10 9 1 1 1 1979 6 24 3 4 4 4 4 3 4 4 2 3 4 4 6 0 0 6 2 4 4 4 3 0 0 3 3 3 4 3 2 4 3? 4 3 4 3 4 4 4 4 3 3 4 4 4 4 2 1 1 2 15 4 4 15 0 1 2 1980 8 4 4 4 4 4 3 4 2 4 4 2 4 6 0 0 6 4 2 4 1 2 2 1 4 4 4 2 3 3 3 4 3 4 4

More information

1 (1) (2)

1 (1) (2) 1 2 (1) (2) (3) 3-78 - 1 (1) (2) - 79 - i) ii) iii) (3) (4) (5) (6) - 80 - (7) (8) (9) (10) 2 (1) (2) (3) (4) i) - 81 - ii) (a) (b) 3 (1) (2) - 82 - - 83 - - 84 - - 85 - - 86 - (1) (2) (3) (4) (5) (6)

More information

untitled

untitled 2007 2 * (i) (ii) 2006 7 1999 2 2000 8 1 (2003) Oda and Ueda (2005) 2005 Kimura and Small(2006) Iwamura, Shiratsuka and Watanabe (2006) (2006) 3 (i) (ii) (iii) 2 2 3 4 2.1 (2003) (2005) 1) (i) (ii) (i)

More information

Microsoft PowerPoint - qcomp.ppt [互換モード]

Microsoft PowerPoint - qcomp.ppt [互換モード] 量子計算基礎 東京工業大学 河内亮周 概要 計算って何? 数理科学的に 計算 を扱うには 量子力学を計算に使おう! 量子情報とは? 量子情報に対する演算 = 量子計算 一般的な量子回路の構成方法 計算って何? 計算とは? 計算 = 入力情報から出力情報への変換 入力 計算機構 ( デジタルコンピュータ,etc ) 出力 計算とは? 計算 = 入力情報から出力情報への変換 この関数はどれくらい計算が大変か??

More information

<4D F736F F D B B83578B6594BB2D834A836F815B82D082C88C60202E646F63>

<4D F736F F D B B83578B6594BB2D834A836F815B82D082C88C60202E646F63> 高速流体力学 サンプルページ この本の定価 判型などは, 以下の URL からご覧いただけます. http://www.morikita.co.jp/books/mid/067361 このサンプルページの内容は, 第 1 版発行時のものです. i 20 1999 3 2 2010 5 ii 1 1 1.1 1 1.2 4 9 2 10 2.1 10 2.2 12 2.3 13 2.4 13 2.5

More information

(a) (b) (c) Canny (d) 1 ( x α, y α ) 3 (x α, y α ) (a) A 2 + B 2 + C 2 + D 2 + E 2 + F 2 = 1 (3) u ξ α u (A, B, C, D, E, F ) (4) ξ α (x 2 α, 2x α y α,

(a) (b) (c) Canny (d) 1 ( x α, y α ) 3 (x α, y α ) (a) A 2 + B 2 + C 2 + D 2 + E 2 + F 2 = 1 (3) u ξ α u (A, B, C, D, E, F ) (4) ξ α (x 2 α, 2x α y α, [II] Optimization Computation for 3-D Understanding of Images [II]: Ellipse Fitting 1. (1) 2. (2) (edge detection) (edge) (zero-crossing) Canny (Canny operator) (3) 1(a) [I] [II] [III] [IV ] E-mail [email protected]

More information

フリーソフトではじめる機械学習入門 サンプルページ この本の定価 判型などは, 以下の URL からご覧いただけます. このサンプルページの内容は, 初版 1 刷発行時のものです.

フリーソフトではじめる機械学習入門 サンプルページ この本の定価 判型などは, 以下の URL からご覧いただけます.   このサンプルページの内容は, 初版 1 刷発行時のものです. フリーソフトではじめる機械学習入門 サンプルページ この本の定価 判型などは, 以下の URL からご覧いただけます. http://www.morikita.co.jp/books/mid/085211 このサンプルページの内容は, 初版 1 刷発行時のものです. Weka Weka 2014 2 i 1 1 1.1... 1 1.2... 3 1.3... 6 1.3.1 7 1.3.2 11

More information

ファイナンスのための数学基礎 第1回 オリエンテーション、ベクトル

ファイナンスのための数学基礎 第1回 オリエンテーション、ベクトル 時系列分析 変量時系列モデルとその性質 担当 : 長倉大輔 ( ながくらだいすけ 時系列モデル 時系列モデルとは時系列データを生み出すメカニズムとなるものである これは実際には未知である 私たちにできるのは観測された時系列データからその背後にある時系列モデルを推測 推定するだけである 以下ではいくつかの代表的な時系列モデルを考察する 自己回帰モデル (Auoregressive Model もっとも頻繁に使われる時系列モデルは自己回帰モデル

More information

Overview (Gaussian Process) GPLVM GPDM 2 / 59

Overview (Gaussian Process) GPLVM GPDM 2 / 59 [email protected] 2015-3-3( ) 1 / 59 Overview (Gaussian Process) GPLVM GPDM 2 / 59 (Gaussian Process) y 2 1 0 1 2 3 8 6 4 2 0 2 4 6 8 x x y (regressor) D = { (x (n), y (n) ) } N, n=1 x (n+1) y (n+1), (

More information