RL_tutorial
|
|
|
- そう あると
- 7 years ago
- Views:
Transcription
1
2
3
4
5
6
7
8
9
10
11
12 )! " = $ % & ' "(& &*+ = ' " + %' "(- + %. ' "(. + γ γ=0! " = $ " γ=0.9! " = $ " + 0.9$ " $ "+, +
13
14
15
16
17
18
19 ! " #, % #! " #, % # + (( + #,- +. max 2 3! " #,-, % 4! " #, % # ) α
20
21 ! " #, % ' ( )(#, %)! "#," %,," ' (, ) +, -., ( ( (, ) ) )
22
23
24
25
26 ! " #, % #! " #, % # + (( + #,- +. max 2 3! " #,-, % 4! " #, % # )
27
28
29 ! " #, % #! " #, % # + (( + #,- +. max 2 3! " #,-, % 4! " #, % # ) " #$% + '((* #$%, argmax 1 2( * #$%, 3; 5 #, 5 # 6 )
30
31 ! ", $ & ' + ) max! " '-., $! ", $ & ' + )& '*+ + ), max!(" '*,, $)
32
33
34
35
36
37
38
39
40
41
42
43
44 git clone cd gym // pip install e. // pip install e.[all]
45 import gym env = gym.make( CartPole-v0 ) env.reset() // env.render() //
46 import gym env = gym.make( CartPole-v0 ) env.reset() // for _ in range(1000): env.render() action = env.action_space.sample() // env.step(action) //
47
48
49
50
51 import chainer import chainer.functions as F import chainer.links as L import chainerrl import gym import numpy as np
52 env = gym.make('cartpole-v0 ) print("observation space : {}".format(env.observation_space)) print("action space : {}".format(env.action_space)) obs = env.reset() env.render() print( observation : {}.format(obs)) observation space : Box(4,) action space : Discrete(2) observation : [ ]
53 class QFunction(chainer.Chain): def init (self, obs_size, n_actions, n_hidden_channels=50): # For Python 2.* super(qfunction, self). init ( # For Python 3.* super(self). init ( l0=l.linear(obs_size, n_hidden_channels), l1=l.linear(n_hidden_channels,n_hidden_channels), l2=l.linear(n_hidden_channels, n_actions)) def call (self, x): h = F.tanh(self.l0(x)) h = F.tanh(self.l1(h)) return chainerrl.action_value.discreteactionvalue(self.l2(h)) obs_size = env.observation_space.shape[0] n_actions = env.action_space.n q_func = QFunction(obs_size, n_actions) # GPU q_func.to_gpu(0)
54 # optimizer = chainer.optimizers.adam(eps=1e-2) optimizer.setup(q_func) # gamma = 0.95 # epsilon greedy explorer = chainerrl.explorers.constantepsilongreedy( epsilon=0.3, random_action_func=env.action_space.sample) # experience replay replay_buffer = chainerrl.replay_buffer.replaybuffer(capacity = 10**6) phi = lambda x:x.astype(np.float32, copy=false) agent = chainerrl.agents.dqn( q_func, optimizer, replay_buffer, gamma, explorer, replay_start_size=500, update_interval=1, target_update_interval=100, phi=phi)
55 for i in range(1, ): obs = env.reset() reward = 0 done = False R = 0 t = 0 while not done and t < 200: env.render() action = agent.act_and_train(obs.astype(np.float32), reward) obs, reward, done, _ = env.step(action) R += reward t += 1 agent.stop_episode_and_train(obs, reward, done) # agent.save( filename )
56 for i in range(10): obs = env.reset() done = False R = 0 t = 0 while not done and t < 200: env.render() action = agent.act(obs.astype(np.float32)) obs, r, done, _ = env.step(action) R += r t += 1 print('test episode:', i, 'R:', R) agent.stop_episode()
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72 1.
73 1. 2.
74
75
76
77
78
79
80
81
82
83
84
85
86
Python Speed Learning
Python Speed Learning 1 / 76 Python 2 1 $ python 1 >>> 1 + 2 2 3 2 / 76 print : 1 print : ( ) 3 / 76 print : 1 print 1 2 print hello 3 print 1+2 4 print 7/3 5 print abs(-5*4) 4 / 76 print : 1 print 1 2
PYTHON 資料 電脳梁山泊烏賊塾 PYTHON 入門 ゲームプログラミング スプライトの衝突判定 スプライトの衝突判定 スプライトの衝突判定の例として インベーダーゲームのコードを 下記に示す PYTHON3 #coding: utf-8 import pygame from pygame.lo
PYTHON 入門 ゲームプログラミング スプライトの衝突判定 スプライトの衝突判定 スプライトの衝突判定の例として インベーダーゲームのコードを 下記に示す #coding: utf-8 import pygame from pygame.locals import * import os import sys SCR_RECT = Rect(0, 0, 640, 480) def main():
平成20年5月 協会創立50年の歩み 海の安全と環境保全を目指して 友國八郎 海上保安庁 長官 岩崎貞二 日本船主協会 会長 前川弘幸 JF全国漁業協同組合連合会 代表理事会長 服部郁弘 日本船長協会 会長 森本靖之 日本船舶機関士協会 会長 大内博文 航海訓練所 練習船船長 竹本孝弘 第二管区海上保安本部長 梅田宜弘
第86回日本感染症学会総会学術集会後抄録(II)
χ μ μ μ μ β β μ μ μ μ β μ μ μ β β β α β β β λ Ι β μ μ β Δ Δ Δ Δ Δ μ μ α φ φ φ α γ φ φ γ φ φ γ γδ φ γδ γ φ φ φ φ φ φ φ φ φ φ φ φ φ α γ γ γ α α α α α γ γ γ γ γ γ γ α γ α γ γ μ μ κ κ α α α β α
17. (1) 18. (1) 19. (1) 20. (1) 21. (1) (3) 22. (1) (3) 23. (1) (3) (1) (3) 25. (1) (3) 26. (1) 27. (1) (3) 28. (1) 29. (1) 2
1. (1) 2. 2 (1) 4. (1) 5. (1) 6. (1) 7. (1) 8. (1) 9. (1) 10. (1) 11. (1) 12. (1) 13. (1) 14. (1) 15. (1) (3) 16. (1) 1 17. (1) 18. (1) 19. (1) 20. (1) 21. (1) (3) 22. (1) (3) 23. (1) (3) 24. 1 (1) (3)
cards.gif from Tkinter import * root = Tk() c0 = Canvas(root, width = 400, height = 300) c0.pack() image_data = PhotoImage(file = c1.gif ) c0.create_i
(Python ) Python Python 2 1. 2 2. 52 3. A, K, Q, J, 10, 9, 8, 7, 6, 5, 4, 3, 2 4. 13 5. 6. 7. 8. 9. 13 10. 11. 12. Python http://www.jftz.com/cards/ 1 cards.gif from Tkinter import * root = Tk() c0 = Canvas(root,
:56 1 (Forward kinematics) (Global frame) G r = (X, Y, Z) (Local frame) L r = (x, y, z) 1 X Y, Z X Y, Z 1 ( ) ( ) 1.2 (Joint rotati
2013.09.21 17:56 1 (Forward kinematics) 1.1 2 (Global frame) G r (X, Y, Z) (Local frame) L r (x, y, z) 1 X Y, Z X Y, Z 1 ( ) ( ) 1.2 (Joint rotation) 3 P G r, L r G r L r Z α : G r Q L Z,α r (1) 1 G r
from Tkinter import * root = Tk() c0 = Canvas(root, width = 400, height = 300) c0.pack() image_data = PhotoImage(file = c1.gif ) c0.create_image(200,
(Python ) Python Python 2 1. 2 2. 52 3. A, K, Q, J, 10, 9, 8, 7, 6, 5, 4, 3, 2 4. 13 5. 6. 7. 8. 9. 13 10. 11. 12. Python.gif 1 from Tkinter import * root = Tk() c0 = Canvas(root, width = 400, height =
Python Speed Learning
Python Speed Learning 1 / 89 1 2 3 4 (import) 5 6 7 (for) (if) 8 9 10 ( ) 11 12 for 13 2 / 89 Contents 1 2 3 4 (import) 5 6 7 (for) (if) 8 9 10 ( ) 11 12 for 13 3 / 89 (def) (for) (if) etc. 1 4 / 89 Jupyter
IPSJ SIG Technical Report Vol.2016-GI-35 No /3/9 StarCraft AI Deep Q-Network StarCraft: BroodWar Blizzard Entertainment AI Competition AI Convo
StarCraft AI Deep Q-Network StarCraft: BroodWar Blizzard Entertainment AI Competition AI Convolutional Neural Network(CNN) Q Deep Q-Network(DQN) CNN DQN,,, 1. StarCraft: Brood War *1 Blizzard Entertainment
離散数理工学 第 2回 数え上げの基礎:漸化式の立て方
2 [email protected] 2015 10 20 2015 10 18 15:29 ( ) (2) 2015 10 20 1 / 45 ( ) 1 (10/6) ( ) (10/13) 2 (10/20) 3 ( ) (10/27) (11/3) 4 ( ) (11/10) 5 (11/17) 6 (11/24) 7 (12/1) 8 (12/8) ( ) (2) 2015 10 20
8-7th
画像認識 人物検出を例に 特徴抽出 人らしさ を取り出す写像 特 徴 抽 出 画像認識 人物検出を例に 特徴抽出 人らしさ を取り出す写像 特 徴 抽 出 cifar10 一般物体認識のデータセット 物体カテゴリ10 各カテゴリ1000枚 画像サイズ32x32 http://www.cs.toronto.edu/ kriz/cifar.html 同ページからcifar10 python version
Visual Python, Numpy, Matplotlib
Visual Python, Numpy, Matplotlib 1 / 38 Contents 1 2 Visual Python 3 Numpy Scipy 4 Scipy 5 Matplotlib 2 / 38 Contents 1 2 Visual Python 3 Numpy Scipy 4 Scipy 5 Matplotlib 3 / 38 3 Visual Python: 3D Numpy,
Anaconda (2019/7/3)
Published on Research Center for Computational Science (https://ccportal.ims.ac.jp) Home > Anaconda3-2019.03 (2019/7/3) Anaconda3-2019.03 (2019/7/3) 1 利用方法 conda, anaconda に関する情報はウェブ上にたくさんありますので それらも参考にしてください
PowerPoint プレゼンテーション
3Q 3Q 3Q 3Q 7:00 014 7:30) 051 7:00) 20051 2005/ 051 9 20053 PS2&GC 2 2 2Max Heart 2 DVD 26 14,000 BOX BOX 15,000 26 5,000 DVD \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ 20052
listings-ext
(6) Python (2) ( ) [email protected] 5 Python (2) 1 5.1 (statement)........................... 1 5.2 (scope)......................... 11 5.3 (subroutine).................... 14 5 Python (2) Python 5.1
19 3!! (+) (>) (++) (+=) for while 3.1!! (20, 20) (1)(Blocks1.java) import javax.swing.japplet; import java.awt.graphics;
19 3!!...... (+) (>) (++) (+=) for while 3.1!! 3.1.1 50 20 20 5 (20, 20) 3.1.1 (1)(Blocks1.java) public class Blocks1 extends JApplet { public void paint(graphics g){ 5 g.drawrect( 20, 20, 50, 20); g.drawrect(
第85 回日本感染症学会総会学術集会後抄録(III)
β β α α α µ µ µ µ α α α α γ αβ α γ α α γ α γ µ µ β β β β β β β β β µ β α µ µ µ β β µ µ µ µ µ µ γ γ γ γ γ γ µ α β γ β β µ µ µ µ µ β β µ β β µ α β β µ µµ β µ µ µ µ µ µ λ µ µ β µ µ µ µ µ µ µ µ
O1-1 O1-2 O1-3 O1-4 O1-5 O1-6
O1-1 O1-2 O1-3 O1-4 O1-5 O1-6 O1-7 O1-8 O1-9 O1-10 O1-11 O1-12 O1-13 O1-14 O1-15 O1-16 O1-17 O1-18 O1-19 O1-20 O1-21 O1-22 O1-23 O1-24 O1-25 O1-26 O1-27 O1-28 O1-29 O1-30 O1-31 O1-32 O1-33 O1-34 O1-35
lifedesign_contest_No3
1 3 5 Apple Developer Program 5 AWS 8 Raspberry Pi 14 18 19 { "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "sns:createplatformendpoint" ], "Resource": [ ] ] #
or a 3-1a (0 b ) : max: a b a > b result a result b ( ) result Python : def max(a, b): if a > b: result = a else: result = b ret
4 2018.10.18 or 1 1.1 3-1a 3-1a (0 b ) : max: a b a > b result a result b result Python : def max(a, b): if a > b: result = a result = b return(result) : max2: a b result a b > result result b result 1
9 rbenv rbenv ruby 9.1 rbenv rbenv rbenv ruby ruby-build ruby 9.2 rbenv macos.bash_profile ~/.bash_profile ~/.bash_profile.bak $ touch ~/.bash_profile
9 rbenv rbenv ruby 9.1 rbenv rbenv rbenv ruby ruby-build ruby 9.2 rbenv macos.bash_profile ~/.bash_profile ~/.bash_profile.bak $ touch ~/.bash_profile $ cp -f ~/.bash_profile ~/.bash_profile.bak ~/.bash_profile
: Shift-Return evaluate 2.3 Sage? Shift-Return abs 2 abs? 2: abs 3: fac
Bulletin of JSSAC(2012) Vol. 18, No. 2, pp. 161-171 : Sage 1 Sage Mathematica Sage (William Stein) 2005 2 2006 2 UCSD Sage Days 1 Sage 1.0 4.7.2 1) Sage Maxima, R 2 Sage Firefox Internet Explorer Sage
CuPy とは何か?
GTC Japan 2018 CuPy NumPy 互換 GPU ライブラリによる Python での高速計算 Preferred Networks 取締役最高技術責任者奥田遼介 [email protected] CuPy とは何か? CuPy とは GPU を使って NumPy 互換の機能を提供するライブラリ import numpy as np X_cpu = np.zeros((10,))
第86回日本感染症学会総会学術集会後抄録(I)
κ κ κ κ κ κ μ μ β β β γ α α β β γ α β α α α γ α β β γ μ β β μ μ α ββ β β β β β β β β β β β β β β β β β β γ β μ μ μ μμ μ μ μ μ β β μ μ μ μ μ μ μ μ μ μ μ μ μ μ β
Visual Python, Numpy, Matplotlib
Visual Python, Numpy, Matplotlib 1 / 57 Contents 1 2 Visual Python 3 Numpy Scipy 4 Scipy 5 Matplotlib 2 / 57 Contents 1 2 Visual Python 3 Numpy Scipy 4 Scipy 5 Matplotlib 3 / 57 3 Visual Python: 3D Numpy,
Java演習(4) -- 変数と型 --
50 20 20 5 (20, 20) O 50 100 150 200 250 300 350 x (reserved 50 100 y 50 20 20 5 (20, 20) (1)(Blocks1.java) import javax.swing.japplet; import java.awt.graphics; (reserved public class Blocks1 extends
EnSight 10.1の新機能
EnSight の処理の自動化のためのテクニックのご紹介 CEI ソフトウェア株式会社 松野康幸 2016 年 11 月 4 日 本日の予定 EnSight の処理の自動化に向けて EnSight のコマンドでできること EnSight で利用できるコマンドの種類 コマンド ファイルの作り方 Python 形式のコマンドの作り方作成したコマンド ファイルの実行方法ユーザー定義ツールの作り方ユーザー定義ツールの使い方
-1 - -2 - -3 - -4 - -5 - -6 - -7 - -8 - -9- 44-10 - -11 - - 12 - - 13 - - 14 - - 15 - - 16 - - 17 - - 18 - - 19 - - 20 - - 21 - - 22 - - 23 - - 24 - - 25 - - 26 - - 27 - 372 304-28 - - 29 - - 30 - - 31
Emacs Ruby..
command line editor 27014533 2018 3 1 5 1.1................................... 5 1.2................................... 5 2 6 2.1 Emacs...................................... 6 2.2 Ruby.......................................
Python C/C++ IPMU IRAF
Python C/C++ IPMU 2010 11 24IRAF Python Swig Numpy array Image Python 2.6.6 swig 1.3.40 numpy 1.5.0 pyfits 2.3 pyds9 1.1 svn co hjp://svn.scipy.org/svn/numpy/tags/1.5.0/doc/swig swig/numpy.i /usr/local/share/swig/1.3.40/python
1 matplotlib matplotlib Python matplotlib numpy matplotlib Installing A 2 pyplot matplotlib 1 matplotlib.pyplot matplotlib.pyplot plt import import nu
Python Matplotlib 2016 ver.0.06 matplotlib python 2 3 (ffmpeg ) Excel matplotlib matplotlib doc PDF 2,800 python matplotlib matplotlib matplotlib Gallery Matplotlib Examples 1 matplotlib 2 2 pyplot 2 2.1
