IPSJ SIG Technical Report Vol.2016-GI-35 No /3/9 StarCraft AI Deep Q-Network StarCraft: BroodWar Blizzard Entertainment AI Competition AI Convo

Similar documents
2015 3

1 StarCraft esportsleague WallPlayed.org 200 StarCraft Benzene StarCraft 3 Terran Zerg Protoss Terran Terran Terran 3 Terran Zerg Zerg Worker D



Vol. 52 No (Dec. 2011) Ms. Pac-Man IEEE CIG Ms. Pac-Man Ms. Pac-Man AI AI Ms. Pac-Man Ms. Pac-Man Competition Ms. Pac-Man Monte

UCT探索を用いた大貧民クライアント

Terran( テラン ) Terran のユニットは人間に近い見た目をしている. 施設建設の際に他の種族と異なり場所の制約が無く, 指定した場所に建設出来る. 更に, 建設後に施設を浮遊させて移動することも可能である. また,Terran のユニットや施設はダメージを受けた際に修理が可能である.3

,.,., ( ).,., A, B. A, B,.,...,., Python Long Short Term Memory(LSTM), Unity., Asynchronous method, Deep Q-Network(DQN), LSTM, TORCS. Asynchronous met

[1] AI [2] Pac-Man Ms. Pac-Man Ms. Pac-Man Pac-Man Ms. Pac-Man IEEE AI Ms. Pac-Man AI [3] AI 2011 UCT[4] [5] 58,990 Ms. Pac-Man AI Ms. Pac-Man 921,360

DQN Pathak Intrinsic Curiosity Module (ICM) () [2] Pathak VizDoom Super Mario Bros Mnih A3C [3] ICM Burda ICM Atari 2600 [4] Seijen Hybrid Reward Arch

ii


2

untitled

i

i


Wide Scanner TWAIN Source ユーザーズガイド

DL_UCT



untitled

入門ガイド

Mastering the Game of Go without Human Knowledge ( ) AI 3 1 AI 1 rev.1 (2017/11/26) 1 6 2

<4D F736F F F696E74202D C835B B E B8CDD8AB B83685D>

SC-85X2取説


活用ガイド (ソフトウェア編)

「産業上利用することができる発明」の審査の運用指針(案)

Convolutional Neural Network A Graduation Thesis of College of Engineering, Chubu University Investigation of feature extraction by Convolution

活用ガイド (ソフトウェア編)

o 2o 3o 3 1. I o 3. 1o 2o 31. I 3o PDF Adobe Reader 4o 2 1o I 2o 3o 4o 5o 6o 7o 2197/ o 1o 1 1o


II

これわかWord2010_第1部_ indd

パワポカバー入稿用.indd

これでわかるAccess2010


平成18年版 男女共同参画白書

178 5 I 1 ( ) ( ) ( ) ( ) (1) ( 2 )

生活設計レジメ

44 4 I (1) ( ) (10 15 ) ( 17 ) ( 3 1 ) (2)

I II III 28 29


AI



III


エクセルカバー入稿用.indd

活用ガイド (ハードウェア編)

01_.g.r..


M41 JP Manual.indd


AccessflÌfl—−ÇŠš1

知能科学:ニューラルネットワーク

知能科学:ニューラルネットワーク


困ったときのQ&A

これからの強化学習 サンプルページ この本の定価 判型などは, 以下の URL からご覧いただけます. このサンプルページの内容は, 初版 1 刷発行時のものです.

ii


i

(報告書まとめ 2004/03/  )

86 7 I ( 13 ) II ( )

家族を強める

プログラム

放射線専門医認定試験(2009・20回)/HOHS‐05(基礎二次)

CRS4

橡6.プログラム.doc

医系の統計入門第 2 版 サンプルページ この本の定価 判型などは, 以下の URL からご覧いただけます. このサンプルページの内容は, 第 2 版 1 刷発行時のものです.

活用ガイド (ソフトウェア編)

パソコン機能ガイド

パソコン機能ガイド

Research on decision making in multi-player games with imperfect information

163 prépension prépension prépension prépension prépension

Javaと.NET



2004年度日本経団連規制改革要望

untitled

松竹映画ファンド重要事項説明書

プログラム

The 23rd Game Programming Workshop ,a) 2,3,b) Deep Q-Network Atari2600 Minecraft AI Minecraft hg-dagger/q Imitation Learning and Reinforcement L

第1部 一般的コメント

N cos s s cos ψ e e e e 3 3 e e 3 e 3 e

untitled

表1票4.qx4

福祉行財政と福祉計画[第3版]

第1章 国民年金における無年金

長崎県地域防災計画

ONLINE_MANUAL

ONLINE_MANUAL

はしがき・目次・事例目次・凡例.indd

,255 7, ,355 4,452 3,420 3,736 8,206 4, , ,992 6, ,646 4,

85 4


橡ミュラー列伝Ⅰ.PDF

_314I01BM浅谷2.indd

Transcription:

StarCraft AI Deep Q-Network StarCraft: BroodWar Blizzard Entertainment AI Competition AI Convolutional Neural Network(CNN) Q Deep Q-Network(DQN) CNN DQN,,, 1. StarCraft: Brood War *1 Blizzard Entertainment ( RTS ) RTS 2010 StarCraft AI Competition * 2 2014 18 AI BWAPI *3 API StarCraft () () TerranZargProtoss 3 1 HP HP 0 HP 0 StarCraft *1 http://us.blizzard.com/en-us/games/sc/ *2 http://www.sscaitournament.com/ *3 http://bwapi.github.io/ AI AI Convolutional Neural Network(CNN) Q Deep Q-Network(DQN) AI StarCraft DQN 125 2 Starcraft 3 Starcraft 4 5 6 1

2. StarCraft StarCraft () () TerranZargProtoss 3 1 Terran SCV Zarg Drone Zarg Terran Creep Creep Protoss Zarg HP HP Pylon HP HP 0 HP Terran Medic Heal Terran Vessel Defensive Matrix 1 HP250 1 StarCraft 3. 3.1 StarCraft AI StarCraft [1] StarCraft AI 1 AI AI 2

α w(z) = Ue iα z w(z) = Q log z(q > 0) w(z) = iγ log z 2 3.2 AI [2] 3 AI HP 2 HP r m r t+1 = enemy health it enemy health it+1 i=1 (agent health t agent healt t+1 ) (1) Terran Vulture Marine 6 Vulture 1000 AI 100% RTS AI Kiting 3.4 UCB UCT(UCB applied to Tree) [4] UCT UCB(Upper Confidence Bound) i UCB 3.3 Kiting [3] Kiting one-step Q-learning Watkins s Q(λ)one-step Sarsa Sarsa(λ) UCB(i) = Q i + C ln N N i (2) Q i i C N i N i i C UCB 3

i j q (j) i q (j) i = ω 1 HP + ω 2 DM + ω 3 CP + ω 4 EG (3) HP DMCP EG ω n Q i q i 3.5 Deep Q-Network Deep Q-Network Atari 2600 [5] Deep Q-Network Q Q(s, a) CNN Q Experience Replay Replay Memory CNN 2 2 Atari 2600 4 110x84 epsilon-greedy Deep Q-Network ( 1 ) Replay-Memory D N ( 2 ) ( 3 ) ( a ) s 1 = {x 1 } ϕ 1 = ϕ(s 1 ) ( b ) t = 1 T ( s T ) ( i ) ϵ a a t ( ii ) Q (ϕ(s t ), a; θ) a t ( iii ) a t r t x t+1 ( iv )s t, a t, x t+1 ϕ(t + 1) ( v ) (ϕ t, a t, r t, ϕ t+1 ) D ( vi )D 1 minibatch 4 (ϕ j, a j, r j, ϕ j+1 ) ( vii )minibatch y j Q r j () y j = b() Deep Q-Network 1000 BreakoutPongEnduro Space Invaders Deep Q-Network *4 StarCraft RTS Deep Q-Network 4. 4.1 HP DQN 2 4.2 1 3 CNN CNN *4 http://research.preferred.jp/2015/06/ distributed-deep-reinforcement-learning/ 4

地形 情報 CNN ユニット情報 3 DQN Q 学習 DQN 行動 ( 1 ) 32x32 1 8x8 () ( 2 ) CNN ( 3 ) HP Q 9 1 DQN 8 t i reward(i, t) cause damage(i, t) i t unit health(i, t) i t HP unit reward(i, t) =cause damage(i, t) 4.3 2 {unit health(i, t) unit health(i, t + 1)} (4) reward(i, t) = 2 unit reward(i, t) 3 1 + unit reward(j, t) (5) 3 j i epsilon-greedy AI 1 DQN 2 1 DQN 4 D enemy (x, y) 4.3.1 4 D enemy (x, y) D enemy (x, y) (D enemy (x, y) ) A* (D enemy (x, y) ) 4.4 5 Marine 8 Marine 8 5. 1 1 Intel Corei7 6700KPalit NE5XTIX015KB- PG600F (GTX TITAN X 12GB) Windows 10 Starcraft C++ BWAPI 5

7 5 8 6 Python Chainer * 5 MessagePack-RPC *6 125 6 7 1 *5 http://chainer.org/ *6 https://github.com/msgpack-rpc 9 8 2 9 1 HP HP AI 10 6

10 1 6. StarCraft DQN DQN AI 2 [1] StarCraft AI 10 (2015). [2] Tung, N., Kien, N. and Ruck, T.: Potential flow for unit positioning during combat in StarCraft, IEEE 2nd Global Conference on Consumer Electronics (GCCE 2013), IEEE, pp. 10 11 (2013). [3] Wender, S. and Watson, I.: Applying reinforcement learning to small scale combat in the real-time strategy game starcraft: broodwar, IEEE Conference on Computational Inteligence and Games (CIG 2012),, IEEE, pp. 402 408 (2012). [4] Zhe W., Kien Quang N., Ruck T., Frank R.: MONTE- CARLO PLANNING FOR UNIT CONTROL IN STAR- CRAFT, The 1st IEEE Global Conference on Consumer Electronics 2012, pp. 263 264 (2012). [5] Mnih, V., Kavukcuoglu, K., Silver, D., Graves, A., Antonoglou, I., Wierstra, D. and Riedmiller, M.: Playing Atari With Deep Reinforcement Learning, NIPS Deep Learning Workshop (2013). 7