情報処理学会研究報告 IPSJ SIG Technical Report Vol.2015-GI-34 No /7/ % Selections of Discarding Mahjong Piece Using Neural Network Matsui

2 3 2000 3.3% Selections of Discarding Mahjong Piece Using Neural Network Matsui Kazuaki Matoba Ryuichi 2 Abstract: Mahjong is one of games with imperfect information, and its rule is very complicated to construct mahjong AI. In this study, as a way of discarding mahjong piece, we employed three layer neural networks to calculate evaluation value of each pieces for discarding. Inputs of the neural networks are a current state and pieces on which a player holds, and outputs are evaluation values for deciding a discard piece. Each parameter of the evaluation function is adjusted by backpropagation. As learning data, we employed score sheets of players who have rating over 2000, from the Internet mahjong sever called Tonpuso. As a result, our NN selects discarding pieces that correspond to learning data with 3.3% accuracy ratio. Keywords: Neural Network, Backpropagation, Reinforcement Learning., AI 950 AI [] mini-max [2] 2 AI AI[3] 2. [4] [5] c 205 Information Processing Society of Japan

Table Representation of each Mahjong Piece. 2 Table 2 Base point. 9 m 9m 9 p 9p 9 s 9s AI [6] AI [7] 56% AI [8] 38 AI 2.2 AI 2. 2. m 5 5p 4 4 34 6 3-2 2 2 4-6 4 36 3 3 70 4 3 m,2m,3m,, 2 5p,5p, () 4 ( ) ( ) ( ) ( ) () 4 4 30,000 30,000 27,000 30,000 2.2 500 500 400 500 2 6 2 2 3-2 4-6 () R ( ) : R R 300 () c 205 Information Processing Society of Japan 2

Fig. 3 Three layer Neural Network 400 (2) () : + 400 00 (2) 2.3 3 3 ( ) 820 3 BOOL 34 2 Sigmoid a (x) = +e ax a x i X i m h m X i h m w mi o V o h m V o v om h m (3) V o (4) M 280 h m = Sigmoid a ( X i w mi ) (3) i= M V o = Sigmoid a ( h m v om ) (4) m= 2 Fig. 2 3 Table 3 Sigmoid function Input Data. 4 36 544 36 820 2.4 V o T o E (5) E = 34 o= 2 (V o T o ) 2 (5) h m V o v om, X i h m w mi (6) (7) η v om = v om η v om (6) w mi = w mi η w mi (7) v om w mi (8) (9) v om = E v o = (V o T o )V o ( V o )h m (8) w mi = E w m = { 34 o= (V o T o )V o ( V o )v om } h m ( h m )X i (9) c 205 Information Processing Society of Japan 3

3. 3. Intel Core i7 3.20GHz 32.0GB [4] 2000 340,000 Ruby 2000 0 C++ 340,000 340,000 820 η = 0.0 24 AI AI (v0.92) 3.2 3 340,000 820 η = 0.0 3.3% 300 5.95% 5000 4.98% h m V o v om X i h m w mi 4 5 v om w mi 3 Fig. 3 Rate of concordance with learning frequency. 4 v om Fig. 4 Transition of w om w mi X i X i 0 6 0,000 30 820 340,000 820 η = 0.0 6 4. c 205 Information Processing Society of Japan 4

図 6 各牌の選択回数 Fig. 6 Number of saelection mahjong piece. 今後の課題としてパラメータが偏ることによって特定の種類の評価値が高くなってしまう問題を解決する必要があるその他に面子や雀頭をニューラルネットワークに学習させるために入力データとして新たに面子や雀頭の情報を加えることやより面子や雀頭について学習し易いニューラルネットワークの構造を考える必要があるこれにより学習後のニューラルネットワークと麻雀上級者の打牌一致率の向上が期待できる参考文献図 5 重み wmi の推移 Fig. 5 Transition of wmi 手に対局できるレベルには達しなかった [] [2] [3] 今回作成したニューラルネットワークで教師データとの一致率が上がらなかった要因に入力データの偏りが挙げられる学習回数 340,000 回の場合教師データの種類別の打牌選択回数は最も少ない牌が 4m の 5,707 となり最も多い牌が西で 6,7 と 3 倍以上もの差があるこのため教師データにおいて多く選択された種類の牌の評価値が高 [4] [5] [6] [7] [8] 松原仁完全情報ゲームから不完全情報ゲームへ (202). 作田誠不完全情報ゲームの研究公益社団法人日本オペレーションズリサーチ学会 (2007). Martin Zinkevich Michael Johanson Michael Bowling Carmelo Piccione Regret Minimization in Games with Incomplete Information, (2007). とつげき東北システマティック麻雀研究所 http://totutohoku.b23.coreserver.jp/hp/ とつげき東北科学する麻雀, 講談社現代新書 (2004). まったり麻雀 http://homepage2.nifty.com/kmo2/ 北川竜平三輪誠近山隆麻雀の牌譜からの打ち手評価関数の学習 (2004). インターネット雀荘東風荘 http://mj.giganet.net/ くなるように学習されてしまったこれに対して各種類の打牌が一定の回数となるものを入力データとしたものを試みたが良い結果とはならなかったこれはニューラルネットワークのパラメータが局所解に陥ってしまった可能性が考えられるまた入力データの情報量が少なかったのが原因のつに挙げられる先行研究では面子や雀頭の情報を直接入力データとして使用していたのに対し本研究では手牌の情報から面子や雀頭をニューラルネットワークが勝手に学習してくれることを期待したしかし今回の手法では面子や雀頭の学習が出来ないことがわかった 205 Information Processing Society of Japan 5