2 3 2000 3.3% Selections of Discarding Mahjong Piece Using Neural Network Matsui Kazuaki Matoba Ryuichi 2 Abstract: Mahjong is one of games with imperfect information, and its rule is very complicated to construct mahjong AI. In this study, as a way of discarding mahjong piece, we employed three layer neural networks to calculate evaluation value of each pieces for discarding. Inputs of the neural networks are a current state and pieces on which a player holds, and outputs are evaluation values for deciding a discard piece. Each parameter of the evaluation function is adjusted by backpropagation. As learning data, we employed score sheets of players who have rating over 2000, from the Internet mahjong sever called Tonpuso. As a result, our NN selects discarding pieces that correspond to learning data with 3.3% accuracy ratio. Keywords: Neural Network, Backpropagation, Reinforcement Learning., AI 950 AI [] mini-max [2] 2 AI AI[3] 2. [4] [5] c 205 Information Processing Society of Japan
Table Representation of each Mahjong Piece. 2 Table 2 Base point. 9 m 9m 9 p 9p 9 s 9s AI [6] AI [7] 56% AI [8] 38 AI 2.2 AI 2. 2. m 5 5p 4 4 34 6 3-2 2 2 4-6 4 36 3 3 70 4 3 m,2m,3m,, 2 5p,5p, () 4 ( ) ( ) ( ) ( ) () 4 4 30,000 30,000 27,000 30,000 2.2 500 500 400 500 2 6 2 2 3-2 4-6 () R ( ) : R R 300 () c 205 Information Processing Society of Japan 2
Fig. 3 Three layer Neural Network 400 (2) () : + 400 00 (2) 2.3 3 3 ( ) 820 3 BOOL 34 2 Sigmoid a (x) = +e ax a x i X i m h m X i h m w mi o V o h m V o v om h m (3) V o (4) M 280 h m = Sigmoid a ( X i w mi ) (3) i= M V o = Sigmoid a ( h m v om ) (4) m= 2 Fig. 2 3 Table 3 Sigmoid function Input Data. 4 36 544 36 820 2.4 V o T o E (5) E = 34 o= 2 (V o T o ) 2 (5) h m V o v om, X i h m w mi (6) (7) η v om = v om η v om (6) w mi = w mi η w mi (7) v om w mi (8) (9) v om = E v o = (V o T o )V o ( V o )h m (8) w mi = E w m = { 34 o= (V o T o )V o ( V o )v om } h m ( h m )X i (9) c 205 Information Processing Society of Japan 3
3. 3. Intel Core i7 3.20GHz 32.0GB [4] 2000 340,000 Ruby 2000 0 C++ 340,000 340,000 820 η = 0.0 24 AI AI (v0.92) 3.2 3 340,000 820 η = 0.0 3.3% 300 5.95% 5000 4.98% h m V o v om X i h m w mi 4 5 v om w mi 3 Fig. 3 Rate of concordance with learning frequency. 4 v om Fig. 4 Transition of w om w mi X i X i 0 6 0,000 30 820 340,000 820 η = 0.0 6 4. c 205 Information Processing Society of Japan 4
図 6 各牌の選択回数 Fig. 6 Number of saelection mahjong piece. 今後の課題として パラメータが偏ることによって特定 の種類の評価値が高くなってしまう問題を解決する必要が ある その他に 面子や雀頭をニューラルネットワークに 学習させるために 入力データとして新たに面子や雀頭の 情報を加えることや より面子や雀頭について学習し易い ニューラルネットワークの構造を考える必要がある これ により 学習後のニューラルネットワークと麻雀上級者の 打牌一致率の向上が期待できる 参考文献 図 5 重み wmi の推移 Fig. 5 Transition of wmi 手に対局できるレベルには達しなかった [] [2] [3] 今回作成したニューラルネットワークで教師データとの 一致率が上がらなかった要因に 入力データの偏りが挙げ られる 学習回数 340,000 回の場合 教師データの種類別 の打牌選択回数は最も少ない牌が 4m の 5,707 となり 最も 多い牌が西で 6,7 と 3 倍以上もの差がある このため 教師データにおいて多く選択された種類の牌の評価値が高 [4] [5] [6] [7] [8] 松原仁 完全情報ゲームから不完全情報ゲームへ (202). 作田誠 不完全情報ゲームの研究公益社団法人日本オペ レーションズ リサーチ学会 (2007). Martin Zinkevich Michael Johanson Michael Bowling Carmelo Piccione Regret Minimization in Games with Incomplete Information, (2007). と つ げ き 東 北 シ ス テ マ テ ィ ッ ク 麻 雀 研 究 所 http://totutohoku.b23.coreserver.jp/hp/ とつげき東北 科学する麻雀, 講談社現代新書 (2004). まったり麻雀 http://homepage2.nifty.com/kmo2/ 北川竜平 三輪誠 近山隆 麻雀の牌譜からの打ち手評価 関数の学習 (2004). インターネット雀荘 東風荘 http://mj.giganet.net/ くなるように学習されてしまった これに対して 各種類 の打牌が一定の回数となるものを入力データとしたものを 試みたが 良い結果とはならなかった これは ニューラ ルネットワークのパラメータが局所解に陥ってしまった可 能性が考えられる また 入力データの情報量が少なかったのが原因の つ に挙げられる 先行研究では面子や雀頭の情報を直接入力 データとして使用していたのに対し 本研究では 手牌の 情報から面子や雀頭をニューラルネットワークが勝手に学 習してくれることを期待した しかし 今回の手法では面 子や雀頭の学習が出来ないことがわかった 205 Information Processing Society of Japan 5