UCT探索を用いた大貧民クライアント
|
|
|
- いとは かんざとばる
- 9 years ago
- Views:
Transcription
1 UCT.. ( ) UCT 1 / 34
2 1 2 UEC UCT UCB1 UCB1-Tuned 5 ( ) UCT 2 / 34
3 1 ( ) UCT 3 / 34
4 1 : (1997) : (1997) : (2010) : 4 (2012) ( ) UCT 4 / 34
5 1 UEC ( ) ( ) UCT 5 / 34
6 1 ( ) UCT 6 / 34
7 2 UEC AI ( ) ( ) UCT 7 / 34
8 2.1 ( ) ( ) UCT 8 / 34
9 2.2 ( ) ( ) UCT 9 / 34
10 2.3 ( ) UCT 10 / 34
11 2.3 ( ) UCT 11 / 34
12 ( ) : ( ) ( ) UCT 12 / 34
13 3 ( ) UCT 13 / 34
14 3.1 ( ) ( ) UCT 14 / 34
15 3.2 (B.Brügmann ) ( ) UCT 15 / 34
16 3.2 ( ) ( ) UCT 16 / 34
17 3.2 i s i ( ) X i X i X i = X i s i ( ) UCT 17 / 34
18 3.2 ( ) UCT 18 / 34
19 3.2 ( ) ( ) UCT 19 / 34
20 3.3 ( ) UCT ( ) ( ) ( ) UCT 20 / 34
21 3.4 UCB1 ( ) UCT 21 / 34
22 ( ) UCT 22 / 34
23 3.4 A ( ) B ( ) ( ) UCT 23 / 34
24 4 ( ) UCT 24 / 34
25 4.1 3( ) ( ) 3( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) UCT 25 / 34
26 4.1 ( ) UCT 26 / 34
27 4.2 UCT UCT ( ) UCT 27 / 34
28 4.2.1 UCB1 (P.Auer, N. Cesa-Bianchi, P.Fischer 2002) UCB(Upper Confidence Bound) X i i s i i n i UCB UCB(i) = X i + c log n s i UCB UCB c ( c = 2) ( ) UCT 28 / 34
29 4.2.1 UCB1 UCT ( / ) ( ) UCT 29 / 34
30 4.2.1 UCB1 800 ( ) UCT 30 / 34
31 4.2.2 UCB1-Tuned(B. Bouzy and G. Chaslot. 2005) ( ) UCT 31 / 34
32 4.2.2 UCB1-Tuned(B. Bouzy and G. Chaslot. 2005) UCB1 UCB(i) = X i + c log n s i UCB1 UCB c σ 2 i c = min( 1 4, V i), V i = σ 2 i + 2 log n s i ( ) UCT 32 / 34
33 4.2.2 UCB1-Tuned(B. Bouzy and G. Chaslot. 2005) UCB(i) = X i + c log n c = min( 1 s 4, V i), V i = σi 2 2 log n + i s i ( ) V i c 1 4 ( ) V i c UCB ( ) UCT 33 / 34
34 UCT ( ) UCT 34 / 34
IPSJ SIG Technical Report Vol.2016-GI-35 No /3/9 StarCraft AI Deep Q-Network StarCraft: BroodWar Blizzard Entertainment AI Competition AI Convo
StarCraft AI Deep Q-Network StarCraft: BroodWar Blizzard Entertainment AI Competition AI Convolutional Neural Network(CNN) Q Deep Q-Network(DQN) CNN DQN,,, 1. StarCraft: Brood War *1 Blizzard Entertainment
[1] AI [2] Pac-Man Ms. Pac-Man Ms. Pac-Man Pac-Man Ms. Pac-Man IEEE AI Ms. Pac-Man AI [3] AI 2011 UCT[4] [5] 58,990 Ms. Pac-Man AI Ms. Pac-Man 921,360
TD(λ) Ms. Pac-Man AI 1,a) 2 3 3 Ms. Pac-Man AI Ms. Pac-Man UCT (Upper Confidence Bounds applied to Trees) TD(λ) UCT UCT Progressive bias Progressive bias UCT UCT Ms. Pac-Man UCT Progressive bias TD(λ)
p-9-10.eps
Root 08M37189 21 22 1 29 Root Tree Fuego Root Tree Root Root 2 Fuego Root CPU Root 64CPU Chaslot Root Root 1 1 7 1.1................................ 7 1.2................................. 8 1.3..................................
「産業上利用することができる発明」の審査の運用指針(案)
1 1.... 2 1.1... 2 2.... 4 2.1... 4 3.... 6 4.... 6 1 1 29 1 29 1 1 1. 2 1 1.1 (1) (2) (3) 1 (4) 2 4 1 2 2 3 4 31 12 5 7 2.2 (5) ( a ) ( b ) 1 3 2 ( c ) (6) 2. 2.1 2.1 (1) 4 ( i ) ( ii ) ( iii ) ( iv)
…K…E…X„^…x…C…W…A…fi…l…b…g…‘†[…N‡Ì“‚¢−w‘K‡Ì‹ê™v’«‡É‡Â‡¢‡Ä
2009 8 26 1 2 3 ARMA 4 BN 5 BN 6 (Ω, F, µ) Ω: F Ω σ 1 Ω, ϕ F 2 A, B F = A B, A B, A\B F F µ F 1 µ(ϕ) = 0 2 A F = µ(a) 0 3 A, B F, A B = ϕ = µ(a B) = µ(a) + µ(b) µ(ω) = 1 X : µ X : X x 1,, x n X (Ω) x 1,,
チュートリアル:ノンパラメトリックベイズ
{ x,x, L, xn} 2 p( θ, θ, θ, θ, θ, } { 2 3 4 5 θ6 p( p( { x,x, L, N} 2 x { θ, θ2, θ3, θ4, θ5, θ6} K n p( θ θ n N n θ x N + { x,x, L, N} 2 x { θ, θ2, θ3, θ4, θ5, θ6} log p( 6 n logθ F 6 log p( + λ θ F θ
36
36 37 38 P r R P 39 (1+r ) P =R+P g P r g P = R r g r g == == 40 41 42 τ R P = r g+τ 43 τ (1+r ) P τ ( P P ) = R+P τ ( P P ) n P P r P P g P 44 R τ P P = (1 τ )(r g) (1 τ )P R τ 45 R R σ u R= R +u u~ (0,σ
(interval estimation) 3 (confidence coefficient) µ σ/sqrt(n) 4 P ( (X - µ) / (σ sqrt N < a) = α a α X α µ a σ sqrt N X µ a σ sqrt N 2
7 2 1 (interval estimation) 3 (confidence coefficient) µ σ/sqrt(n) 4 P ( (X - µ) / (σ sqrt N < a) = α a α X α µ a σ sqrt N X µ a σ sqrt N 2 (confidence interval) 5 X a σ sqrt N µ X a σ sqrt N - 6 P ( X
AD5934 R I MCLK AVDD DVDD DAC R OUT VOUT SCL SDA Z(ω) AD5934 RFB LPF VDD/2 VIN AGND DGND 5325-1 SDA t 9 t 3 t 1 t 11 t 4 SCL t 4 t6 t 2 t 5 t 7 t 1 t 8 5325-2 NC 1 NC 2 NC 3 RFB 4 VIN 5 VOUT 6 NC 7
61“ƒ/61G2 P97
σ σ φσ φ φ φ φ φ φ φ φ σ σ σ φσ φ σ φ σ σ σ φ α α α φα α α φ α φ α α α φ α α α σ α α α α α α Σα Σ α α α α α σ σ α α α α α α α α α α α α σ α σ φ σ φ σ α α Σα Σα α σ σ σ σ σ σ σ σ σ σ σ σ Σ σ σ σ σ
π, R { 2, 0, 3} , ( R),. R, [ 1, 1] = {x R 1 x 1} 1 0 1, [ 1, 1],, 1 0 1,, ( 1, 1) = {x R 1 < x < 1} [ 1, 1] 1 1, ( 1, 1), 1, 1, R A 1
sup inf (ε-δ 4) 2018 1 9 ε-δ,,,, sup inf,,,,,, 1 1 2 3 3 4 4 6 5 7 6 10 6.1............................................. 11 6.2............................... 13 1 R R 5 4 3 2 1 0 1 2 3 4 5 π( R) 2 1 0
Mastering the Game of Go without Human Knowledge ( ) AI 3 1 AI 1 rev.1 (2017/11/26) 1 6 2
6 2 6.1........................................... 3 6.2....................... 5 6.2.1........................... 5 6.2.2........................... 9 6.2.3................. 11 6.3.......................
日本糖尿病学会誌第58巻第1号
α β β β β β β α α β α β α l l α l μ l β l α β β Wfs1 β β l l l l μ l l μ μ l μ l Δ l μ μ l μ l l ll l l l l l l l l μ l l l l μ μ l l l l μ l l l l l l l l l l μ l l l μ l μ l l l l l l l l l μ l l l l
PowerPoint プレゼンテーション
モンテカルロ木探索 並列化 囲碁 マリオ AI 美添一樹 ETATO 研究員 湊離散構造処理系プロジェクト 2013 年度秋のワークショップ 2013 年 11 月 26 日 並列モンテカルロ木探索の意義 コンピュータ囲碁で人間を超える 情報科学の有効性を示す 大規模並列探索ライブラリ 近い将来 全てのアルゴリズムは大規模並列化が必要 並列探索は実装が 非常に 大変なのでライブラリとして提供できると良い
概況
2 4 6 2 2 2 3 2 4 22 5 23 27 34 37 44 45 46 2 78.67 85.77 2.6. 7. 2 2, 65 85,464 93,8 65 85.5 93.2 8 56.2 77.9 2 8.87 88.8 3 () 65 3 6 2 2 2 2 2 22 3 2 2 2 2 2 2 2 2 28.58 28.74 29.9 8.8 8.84 2.63 65 28.3
Logistello 1) playout playout 1 5) SIMD Bitboard playout playout Bitboard Bitboard 8 8 = black white 2 2 Bitboard 2 1 6) position rev i
SIMD 1 1 1 playout playout Cell B. E. SIMD SIMD playout playout Implementation of an Othello Program Based on Monte-Carlo Tree Search by Using a Multi-Core Processor and SIMD Instructions YUJI KUBOTA,
0 (1 ) 0 (1 ) 01 Excel Excel ( ) = Excel Excel =5+ 5 + 7 =5-5 3 =5* 5 10 =5/ 5 5 =5^ 5 5 ( ), 0, Excel, Excel 13E+05 13 10 5 13000 13E-05 13 10 5 0000
1 ( S/E) 006 7 30 0 (1 ) 01 Excel 0 7 3 1 (-4 ) 5 11 5 1 6 13 7 (5-7 ) 9 1 1 9 11 3 Simplex 1 4 (shadow price) 14 5 (reduced cost) 14 3 (8-10 ) 17 31 17 3 18 33 19 34 35 36 Excel 3 4 (11-13 ) 5 41 5 4
1 1.1 Excel Excel Excel log 1, log 2, log 3,, log 10 e = ln 10 log cm 1mm 1 10 =0.1mm = f(x) f(x) = n
1 1.1 Excel Excel Excel log 1, log, log,, log e.7188188 ln log 1. 5cm 1mm 1 0.1mm 0.1 4 4 1 4.1 fx) fx) n0 f n) 0) x n n! n + 1 R n+1 x) fx) f0) + f 0) 1! x + f 0)! x + + f n) 0) x n + R n+1 x) n! 1 .
Chap9.dvi
.,. f(),, f(),,.,. () lim 2 +3 2 9 (2) lim 3 3 2 9 (4) lim ( ) 2 3 +3 (5) lim 2 9 (6) lim + (7) lim (8) lim (9) lim (0) lim 2 3 + 3 9 2 2 +3 () lim sin 2 sin 2 (2) lim +3 () lim 2 2 9 = 5 5 = 3 (2) lim
これからの強化学習 サンプルページ この本の定価 判型などは, 以下の URL からご覧いただけます. このサンプルページの内容は, 初版 1 刷発行時のものです.
これからの強化学習 サンプルページ この本の定価 判型などは, 以下の URL からご覧いただけます. http://www.morikita.co.jp/books/mid/088031 このサンプルページの内容は, 初版 1 刷発行時のものです. i ii Sutton Barto 20 1 2 3 4 1 Richard S. Sutton and Andrew G. Barto. Reinforcement
1 n i i 1 i n index = 0; [ index] = 1; = = ; if ( == ) { // [ index ]++; } else if () { if( index == 0 ) { // // // // [ index ]++; = ; } else { // //
7 1 2008 12 22 1 Copyright c 2008 The Japanese Committee for International Olympiad in Informatics 1 n i i 1 i n index = 0; [ index] = 1; = = ; if ( == ) { // [ index ]++; } else if () { if( index == 0
<4D6963726F736F667420576F7264202D204850835483938376838B8379815B83578B6594BB2D834A836F815B82D082C88C60202E646F63>
例 題 で 学 ぶ Excel 統 計 入 門 第 2 版 サンプルページ この 本 の 定 価 判 型 などは, 以 下 の URL からご 覧 いただけます. http://www.morikita.co.jp/books/mid/084302 このサンプルページの 内 容 は, 第 2 版 発 行 当 時 のものです. i 2 9 2 Web 2 Excel Excel Excel 11 Excel
スライド 1
モンテカルロ法によるゲームAIの可能性 美添一樹 [email protected] スライドの最後に 当日説明しきれなかった内容の補足があります 自己紹介 ( 最初の ) 大学院生時代には並列計算を研究 その後 某研究所に就職 携帯関係の研究開発 なぜか大学院に戻って 人工知能の研究 今はいわゆるポスドクで 量子計算機の研究中 コンピュータ囲碁の研究も続けている 専門はたぶん 探索アルゴリズム 囲碁は自称三段
a n a n ( ) (1) a m a n = a m+n (2) (a m ) n = a mn (3) (ab) n = a n b n (4) a m a n = a m n ( m > n ) m n 4 ( ) 552
3 3.0 a n a n ( ) () a m a n = a m+n () (a m ) n = a mn (3) (ab) n = a n b n (4) a m a n = a m n ( m > n ) m n 4 ( ) 55 3. (n ) a n n a n a n 3 4 = 8 8 3 ( 3) 4 = 8 3 8 ( ) ( ) 3 = 8 8 ( ) 3 n n 4 n n
離散数学 第 4回 集合の記法 (1):外延的記法と内包的記法
4 (1) [email protected] 2014 5 13 2014 5 12 09:28 ( ) (4) 2014 5 13 1 / 35 () 1 (1) (4 8 ) 2 (2) (4 15 ) 3 (3) (4 22 ) () (4 29 ) () (5 6 ) 4 (1) (5 13 ) 5 (2) (5 20 ) 6 (4) (5 27 ) 7 (1) (6 3 ) (6 10
Report C: : ( )
Report2 045713C: : 18 07 23 ( ) 1 3 SCILAB (lpc.sci) Hamming DTF LPC (Levinson-Durbin ) LPC (1) (2) Levinson-Durbin SCILAB lev() SCILAB (3) =0 roots() 0 5KHz 0 5KHz (4) 100 300 8 20 (5) pre emp 1.0 2 fft_len=512;
HILIC 90% CH3CN 80% CH3CN 70% CH3CN 40% CH3CN 0 5 10 15 [ min ] PC N + P R
PC HILIC HILIC 90% CH3CN 80% CH3CN 70% CH3CN 40% CH3CN 0 5 10 15 [ min ] PC N + P R PC HILIC 1 2 3 0 4 8 12 16 [ min ] PC HILIC 0 2 4 6 8 10 [ min ] Allantoin As = 1.09 N = 19800 0 2 4 6 8 10 [ min ] Amitriptyline
4 4. A p X A 1 X X A 1 A 4.3 X p X p X S(X) = E ((X p) ) X = X E(X) = E(X) p p 4.3p < p < 1 X X p f(i) = P (X = i) = p(1 p) i 1, i = 1,,... 1 + r + r
4 1 4 4.1 X P (X = 1) =.4, P (X = ) =.3, P (X = 1) =., P (X = ) =.1 E(X) = 1.4 +.3 + 1. +.1 = 4. X Y = X P (X = ) = P (X = 1) = P (X = ) = P (X = 1) = P (X = ) =. Y P (Y = ) = P (X = ) =., P (Y = 1) =
1 1. x 1 (1) x 2 + 2x + 5 dx d dx (x2 + 2x + 5) = 2(x + 1) x 1 x 2 + 2x + 5 = x + 1 x 2 + 2x x 2 + 2x + 5 y = x 2 + 2x + 5 dy = 2(x + 1)dx x + 1
. ( + + 5 d ( + + 5 ( + + + 5 + + + 5 + + 5 y + + 5 dy ( + + dy + + 5 y log y + C log( + + 5 + C. ++5 (+ +4 y (+/ + + 5 (y + 4 4(y + dy + + 5 dy Arctany+C Arctan + y ( + +C. + + 5 ( + log( + + 5 Arctan
20139 mother-river homing 9 282:00 4,0007,500 2,000 7 * AIHALL * Nagai Ai Tanoue Yutaka
舞台芸術レパートリーの創造 上演 2013 3 3 1935-83 197830 30 10 22 26 * 2014 3 2 1 2 2015.3 * Tada Junnosuke 197620104 LOVE TV 2013 가모메 50 2011,2012 2013 4 5 20139 mother-river homing 9 282:00 4,0007,500 2,000 7 * 558
