コンピュータ囲碁に起きた革命 2008 年 3 月末パリ囲碁トーナメントのエキシビションでプロ対コンピュータの対戦が実現 (http://paris2008.jeudego.org/) プロ:タラヌカタリン五段 ( 日本棋院中部総本部所

Similar documents

2 役員の報酬等の支給状況平成 27 年度年間報酬等の総額就任退任の状況役名報酬 ( 給与 ) 賞与その他 ( 内容 ) 就任退任 2,142 ( 地域手当 ) 17,205 11,580 3,311 4 月 1

<819A955D89BF92B28F BC690ED97AA8EBA81418FA48BC682CC8A8890AB89BB816A32322E786C7378>

将棋ソフトウェアにおける棋譜データの利用と機械学習

任意整理について | 多重債務Q＆A | 公益財団法人　日本クレジットカウンセリング協会

預金を確保しつつ資金調達手段も確保する収益性を示す指標として営業利益率を採用し営業利益率の目安となる数値を公表する株主の皆様への還元については持続的な成長による配当可

Taro-学校だより学力調査号.jtd

(Microsoft Word - \221\346\202P\202U\201@\214i\212\317.doc)

<4D F736F F D E598BC68A8897CD82CC8DC490B68B7982D18E598BC68A8893AE82CC8A C98AD682B782E993C195CA915B C98AEE82C382AD936F985E96C68B9690C582CC93C197E1915B927582CC898492B75F8E96914F955D89BF8F915F2E646F6

する ( 評定の時期 ) 第条成績評定の時期は第 3 次評定者にあっては完成検査及び部分引渡しに伴う検査の時とし第次評定者及び第次評定者にあっては工事の完成の時とする ( 成績評定

ていることからそれに先行する形で下請業者についても対策を講じることとしました本県としましてはそれまでの間に未加入の建設業者に加入していただきますよう 28 年 4 月から実施することとしました問 6 公共工事の

私立大学等研究設備整備費等補助金（私立大学等

Ⅰ 調査の概要 1 目的義務教育の機会均等その水準の維持向上の観点から的な児童生徒の学力や学習状況を把握分析し教育施策の成果課題を検証しその改善を図るもに学校におけ

KINGSOFT Office 2016 動作環境対応日本語版版共通利用上記動作以上以上空容量以上他接続環境推奨必要 2

国家公務員の年金払い退職給付の創設について検討を進めるものとする平成 19 年法案をベースに一元化の具体的内容について検討する関係省庁間で調整の上平成 24 年通常国会への法案提

った場合など監事の任務懈怠の場合はその程度に応じて業績勘案率を減算する (8) 役員の法人に対する特段の貢献が認められる場合はその程度に応じて業績勘案率を加算することができる

<4D F736F F D2095BD90AC E D738FEE816A939A905C91E D862E646F63>

Microsoft Word 印刷ver　本編最終no1（黒字化） .doc

高松市緊急輸送道路沿道建築物耐震改修等事業補助金交付要綱（案）

募集新株予約権（有償ストック・オプション）の発行に関するお知らせ

積載せずかつ燃料冷却水及び潤滑油の全量を搭載し自動車製作者が定める工具及び付属品 (スペアタイヤを含む )を全て装備した状態をいうこの場合において燃料の全量を搭載するとは燃料

入札公告機動装備センター

平成25年度　独立行政法人日本学生支援機構の役職員の報酬・給与等について

(3) その他市長が必要と認める書類 ( 補助金の交付決定 ) 第 6 条市長は前条の申請書を受理したときは速やかにその内容を審査し補助金を交付すべきものと認めたときは規則第 7 条に規定す

6 構造等コンクリートブロック造平屋建て4 戸長屋 16 棟 64 戸建築年 1 戸当床面積棟数住戸改善後床面積昭和 42 年 36.00m m2 昭和 43 年 36.50m m2 昭和 44 年 36.

検討検討の進め方検討状況簡易収支の世帯からサンプリング世帯名作成事務の廃止 4 5 必要な世帯数の確保が可能か簡易収支を実施している民間事業者との連絡等に伴う事務の複雑

Microsoft Word - 12 職員退職手当規程_H 改正_

2 県公立高校の合格者はこのように決まる (1) 選抜の仕組み選抜の資料選抜の資料は主に下記の3つがあり全高校で使用する共通のものと高校ごとに決めるものとがあります 1 学力検査 ( 国語数

2 役員の報酬等の支給状況役名法人の長理事理事 ( 非常勤 ) 平成 25 年度年間報酬等の総額就任退任の状況報酬 ( 給与 ) 賞与その他 ( 内容 ) 就任退任 16,936 10,654 4,36

<4D F736F F D2093CD8F6F82AA954B977682C88C9A95A882CC94BB926682CC DD5F48508C668DDA E646F63>

続に基づく一般競争 ( 指名競争 ) 参加資格の再認定を受けていること ) c) 会社更生法に基づき更生手続開始の申立てがなされている者又は民事再生法に基づき再生手続開始の申立てがなさ

4 承認コミュニティ組織は市長若しくはその委任を受けた者又は監査委員の監査に応じなければならない ( 状況報告 ) 第 7 条承認コミュニティ組織は市長が必要と認めるときは交付金事業の遂行の

その他事業推進体制平成 20 年 3 月 26 日に石垣島国営土地改良事業推進協議会を設立し事業を推進 ( 構成 : 石垣市石垣市議会石垣島土地改良区石垣市農業委員会沖縄県農

Box-Jenkinsの方法

頸がん予防措置の実施の推進のために講ずる具体的な施策等について定めることにより子宮頸がんの確実な予防を図ることを目的とする ( 定義 ) 第二条この法律において子宮頸がん予防措置とは子宮

( 別途調査様式 1) 減損損失を認識するに至った経緯等 1 列 2 列 3 列 4 列 5 列 6 列 7 列 8 列 9 列 10 列 11 列 12 列 13 列 14 列 15 列 16 列 17 列 18 列 19 列 20 列 21 列 22 列固定

<6D313588EF8FE991E58A778D9191E5834B C8EAE DC58F4992F18F6F816A F990B32E786C73>

< DB8CAF97BF97A6955C2E786C73>

Ｑ　IFRSの特徴について教えてください

3. 選任固定資産評価員は固定資産の評価に関する知識及び経験を有する者のうちから市町村長が当該市町村の議会の同意を得て選任する二以上の市町村の長は当該市町村の議

一般競争入札について

1 総合設計一定規模以上の敷地面積及び一定割合以上の空地を有する建築計画について特定行政庁の許可により容積率斜線制限などの制限を緩和する制度である建築敷地の共同化や

工業用水道更新耐震化事業の費用対効果の算定工業用水道更新耐震化事業における費用対効果を工業用水道事業に係る政策評価実施要領 ( 経済産業省 ) 及び費用対効果分析

(6) Qualification for participating in the tendering procedu

2 前項に定める日に支給する給与は総額給与を12 分割した額 ( 以下給与月額という ) 扶養手当住居手当通勤手当単身赴任手当寒冷地手当及び業績手当並びに前月分の超過勤務

１　変更の許可等（都市計画法第35条の2）

<4D F736F F D AC90D1955D92E CC82CC895E DD8C D2816A2E646F63>

為が行われるおそれがある場合に都道府県公安委員会がその指定暴力団等を特定抗争指定暴力団等として指定しその所属する指定暴力団員が警戒区域内において暴力団の事務所を新たに設

< F2D A C5817A C495B6817A>

入札公告次のとおり一般競争入札に付します平成 2 4 年 3 月 2 1 日経理責任者独立行政法人国立病院機構東京医療センター院長松本純夫調達機関番号所在地番号 1 3

( 別紙 ) 以下法とあるのは改正法第 5 条の規定による改正後の健康保険法を指す ( 施行期日は平成 28 年 4 月 1 日 ) 1. 標準報酬月額の等級区分の追加について問 1 法改正により追加

<6D33335F976C8EAE CF6955C A2E786C73>

(1) 社会保険等未加入建設業者の確認方法等受注者から提出される施工体制台帳及び添付書類により確認を行います (2) 違反した受注者へのペナルティー違反した受注者に対しては下記のペ

m07 北見工業大学様式①

弁護士報酬規定（抜粋）

は固定流動及び繰延に区分することとし減価償却を行うべき固定の取得又は改良に充てるための補助金等の交付を受けた場合においてはその交付を受けた金額に相当する額を長期前受金とし

<4D F736F F D F8D828D5A939982CC8EF68BC697BF96B38F9E89BB82CC8A6791E52E646F63>

競争参加資格審査等事務取扱要領 ( 抜粋 ) ( 有資格者としない者 ) 第 6 条契約事務責任者は契約を締結する能力を有しない者破産者で復権を得ない者及び暴力団等の反社会的勢

入札参加者は入札の執行完了に至るまではいつでも入札を辞退することができこれを理由として以降の指名等において不利益な取扱いを受けることはない 12 入札保証金免除 13 契約保証金免除 14 入

<4D F736F F D208E52979C8CA78E598BC68F5790CF91A390698F9590AC8BE08CF D6A2E646F6378>

<4D F736F F D F93878CA797708F4390B3816A819A95CA8B4C976C8EAE91E682538B4C8DDA97E12E646F6378>

<4D F736F F F696E74202D B E E88E68C9A90DD8BC65F E DC58F4994C52E >

4 調査の対話内容 (1) 調査対象財産の土地建物等を活用して展開できる事業のアイディアをお聞かせください事業アイディアには, 次の可能性も含めて提案をお願いしますア地域の活性化と様々な世

2 1.ヒアリング対象 (1) 対象範囲分類年金医療保険雇用保険税備考厚生年金の資格喪失国民年金の加入老齢給付裁定請求など健康保険の資格喪失国民健康保険の加入健康保険

Ⅰ 元請負人を社会保険等加入建設業者に限定平成 28 年 10 月 1 日以降に入札公告指名通知随意契約のための見積依頼を行う工事から以下に定める届出の義務 ( 以下届出義務と

SNSとLMSの強みと弱み統合環境を目指して（教育学部紀要投稿用）

< E8BE08F6D2082C682B DD2E786C7378>

1.3. 距離による比較距離による比較を行う ( 基本的に要求される能力が違うと思われるトラック別に集計を行った ) 表 -3 に距離別の比較を示す表 -3 距離別比較

試験概略試験目的同同一一規規格格のの電電熱熱線線式式ヒーティングユニットを2 台台並並べべ片片方方のユニットに遠遠赤赤外外線線放放射射材材料料であるアルミ合金エキスパンションメタルを組

1 書誌作成機能 (NACSIS-CAT)の軽量化合理化電子情報資源への適切な対応のための資源 ( 人的資源,システム資源, 経費を含む) の確保のために, 書誌作成と書誌管理作業の軽量化を図

入札公告次のとおり一般競争入札に付します平成 3 0 年 1 1 月 2 6 日経理責任者独立行政法人国立病院機構四国がんセンター院長谷水正人調達機関番号所在地番号 3

4. その他 (1) 期中における重要な子会社の異動 ( 連結範囲の変更を伴う特定子会社の異動 ) 無 (2) 簡便な会計処理及び四半期連結財務諸表の作成に特有の会計処理の適用有

<4D F736F F D208C6F D F815B90A BC914F82CC91CE899E8FF38BB582C982C282A282C42E646F63>

< F2D8ED089EF95DB8CAF939996A289C193FC91CE8DF42E6A7464>

総合評価点算定基準（簡易型建築・電気・管工事）

2020年の住宅市場　～人口・世帯数減少のインパクト～

財政再計算結果_色変更.indd

<4D F736F F F696E74202D D382E982B382C68AF1958D8BE090A C98AD682B782E B83678C8B89CA81698CF6955C A2E >

目次 1 報酬給与額事例 1 報酬給与額に含める賞与の金額が誤っていた事例 1 事例 2 役員退職金 ( 役員退職慰労金 )を報酬給与額として申告していなかった事例 1 事例 3 持株奨励金を

主要生活道路について

Microsoft Word - 佐野市生活排水処理構想（案）.doc

岡山県警察用航空機の運用等に関する訓令

目次第 1. 土区画整理事業の名称等 1 (1) 土区画整理事業の名称 1 (2) 施行者の名称 1 第 2. 施行区 1 (1) 施行区の位置 1 (2) 施行区位置図 1 (3) 施行区の区域 1 (4) 施

PowerPoint プレゼンテーション

Microsoft Word - 目次.doc

国立研究開発法人土木研究所の役職員の報酬・給与等について

第5回法人課税ディスカッショングループ　法Ｄ５－４

<4D F736F F D208DE3905F8D8291AC8B5A8CA48A948EAE89EF8ED0208BC696B18BA492CA8E64976C8F BD90AC E378C8E89FC92F994C5816A>

4. その他 (1) 期中における重要な子会社の異動 ( 連結範囲の変更を伴う特定子会社の異動 ) 無 (2) 簡便な会計処理及び四半期連結財務諸表の作成に特有の会計処理の適用有

2. 当初の目的と現状コア会議の役割目的現状分析マネジメント会議の運営やあり方問題取り組みについての議論会員からの意見の吸い上げと内容の各会議への振り分け全体会運営会議

(2) 勤続 5 年を超え 10 年までの期間については勤続期間 1 年につき本俸月額の100 分の140 (3) 勤続 10 年を超え 20 年までの期間については勤続期間 1 年につき本俸月額の100 分の180 (4)

01.活性化計画（上大久保）

平成２２年度

Taro-01-1_入札公告（産廃）

想像思行ず消毒擦む薄血混じ滲みぶ痂ぶ取下薄来経験沢山お思健常人間元々備能力中具的何起ょ簡単説明ず人間負部リンパ球血小板マクロファジ悪食べ集死溶食べ清浄

Transcription:

コンピュータ囲碁におけるモンテカルロ法 ~ 理論編 ~ 美添一樹

コンピュータ囲碁に起きた革命 2008 年 3 月末パリ囲碁トーナメントのエキシビションでプロ対コンピュータの対戦が実現 (http://paris2008.jeudego.org/) プロ:タラヌカタリン五段 ( 日本棋院中部総本部所属 ) コンピュータ:MoGo 9 路盤はハンデなしで3 局対戦 MoGoの1 勝 2 敗 19 路盤はMoGoが9 子のハンデをもらい 1 局対戦カタリン五段の勝利ここが革命です念のため

コンピュータの強さ囲碁だけが弱かった主な二人零和完全情報ゲームの中で囲碁だけが他と比較して際立って人間優勢だったコンピュータが勝利したのは正式に用いられる19 路盤ではなくコンピュータ有利と思われる9 路盤だが公の場でプロにコンピュータが勝利するというのは3 年前の状況からは想像できない快挙であるチェッカーオセロチェス将棋囲碁 1994 年に世界チャンピオンに勝利 (2007 年に初期配置の引き分け証明 ) 1996 年に世界チャンピオンに完勝 1997 年にIBMのDeepBlueが当時世界チャンピオンのKasparovを破るアマトップレベルの強さと言われているアマ初段をようやく超えた程度主なゲームにおけるコンピュータの強さ

快挙の原動力は? 2006 年に登場した画期的なアルゴリズム通称モンテカルロ木探索評価関数不要な探索アルゴリズムどのようなアルゴリズムか? なぜ囲碁に有効なのか?

コンピュータプレイヤーの進歩囲碁だけが難しかったつまり他のゲームで有効だった手法が囲碁には通用しなかったなぜか? まず他のゲームのコンピュータプレイヤーのアルゴリズムについて説明する

mini-max 探索 +αβ 枝刈り 50 50 47 αカット βカットにより探索が省略される候補手が理想的な順番にソートされていれば探索ノード数は元のツリーのノード数のほぼsqrtになる[Moore and Knuth 1975] 50 70 47 67 Max node 50 24 70 25 47 15 67 65 探索順序 Min node

囲碁のルール黒白交互に交点に石を置いていく 19x19の盤が普通最終的に地が大きいほうが勝ち地とは一方の色の石だけで囲われた範囲のこと

囲碁のルール : 囲んだら取れるのところに黒が打つと白石を取れる空点が無くなると取られる空点のことを呼吸点ダメなどと言うつながっている石は一蓮托生になっている取られるときはまとめて取られるつながっている石の集合を連という

囲碁のルール : 着手禁止点と例 Aに打つと反則そのまま取られる場所には打てない Bには打って良い打った瞬間に黒石を取れるから外

囲碁のルール : 同型反復禁止右図の形になったら簡単に無限反復が生じる取られてもすぐに取り返してはいけない取り返すと反則

生き死にという概念着手禁止点が二つある石は絶対に取られる事はない絶対に取られない石を生きていると言う着手禁止点のことを眼と言う二眼あると生き

実戦例とある商用ソフトと私が打った例これは終局図先手の黒が有利なためそれを是正するために黒にハンデを負わせるのが普通それをコミという 19 路盤でも9 路盤でも 6.5 目か7.5 目が普通

囲碁の難しさその1 探索空間が大きい 19 路盤囲碁は探索空間が巨大チェッカーは初期局面が引き分けになることが解明された(2007 年 ) 同様に 5 路盤の囲碁は最善手順が完全解明されているチェッカーオセロチェス 20 10 28 10 50 10 ところで 9 路盤の探索空間はチェス以下それでも2005 年までは弱かったどっちもアマ初段くらいおかしいだって他のゲームだと性質の似たゲームなら探索空間が小さい方がコンピュータ有利将棋チェス中国将棋などの比較チェッカー(8 路 )とドラフト(10 路 )の比較なぜ 19 路盤と9 路盤の強さに差が無いの? 将棋囲碁 (9 路盤 ) 囲碁 (19 路盤 ) 71 10 38 10 171 10 探索空間 ( 可能な局面数 )

この数値はゲームのスコア囲碁の難しさその2 評価関数が作れないしかし実際のスコアは勝敗がつくまで深く探索しなければ分からない 50 50 47 50 70 47 67 よって探索を途中で打ち切りその時点でのスコアを近似する評価関数を用意する 50 24 70 25 47 15 67 65 評価関数はどうやって作るもの?

オセロ評価関数の例囲碁以外のゲーム隅や辺の重要な箇所のパターンを学習して評価関数を作成チェスや将棋駒の価値玉の安全度駒が自由に動けるか等チェスの例 :ポーン1 点ビショップとナイト3 点ルーク 5 点クイーン9 点キング点ボナンザメソッドなどもあり

囲碁の評価関数の難しさ石の価値は平等駒の価値などは用いることができない領域の広さを競うなら広さを基準にする? 領域が確定するのはゲームの最後オセロのような明らかに特徴のある箇所が少ない特に19 路盤で顕著局所的な最善手が全局的な最善手になりにくい石を取るのは局所的には得捨石は基本的なテクニック

人間はどうやってプレイしてるの? 説明不能です特に中盤は難しいです石が厚かったり薄かったり形が良かったり悪かったり味が良かったり悪かったり石が軽かったり重かったり初段くらい無いと用語の意味が通じません

つまり囲碁は難しいチェスや将棋の駒得のような明らかな評価基準がない何かの要素の足し算で局面の優劣を評価するのは難しい評価関数は速く正確である必要がある囲碁の評価関数は遅いか不正確である両方という説も

従来の囲碁プログラムの例 GNU Go 商用ソフトの中身は分からないのでオープンソースの囲碁プログラム GNU Goについて説明 GNU Goは最強の商用プログラムよりも少し弱い多数の複雑な評価関数を用いているコードはCで約 80,000 行パターンデータベースがテキストで約 52,000 行棋力はアマ初段より少し弱い 19 路でも9 路でも

GNU Goの着手選択職人芸の結晶 (?) 盤面の状況を分析する連絡切断をある程度調査それから石の安全度を調査パターンデータベースにマッチする手を発見し評価値を割当てる着手の目的別に候補手を生成し評価値を割当てる目的 : 自分の石を守る / 相手の石を攻める / 自分の領域を広げるなど複数の評価値の依存関係を調査一番評価値の高い手をプレイする

モンテカルロ木探索によるプログラム囲碁の評価関数は難しいこれは本当であるしかし囲碁でも終局した状態なら簡単に勝敗の判定が可能この性質をうまく利用したプログラムが2006 年に登場した CrazyStone

原始モンテカルロ囲碁乱数を用いて囲碁をプレイする [Brügmann][Bouzy][Cazenave] 囲碁は終盤に近づくに連れて合法手が減少する合法手の中からランダムに選んで打つだけのプレイヤーでも終局可能ただし少し制約が必要自分の眼には打たないようにする二つ眼を持つ石は取られない

プレイアウトとは乱数を用いて終局までプレイすることをプレイアウトと呼ぶ

プレイアウトによる局面評価要するにたくさんプレイアウトを行って勝てそうな手を選ぶ

もちろん原始モンテカルロは弱い深さが2 段以上の木に対しては最善手を返す保証は無い相手がミスをしたら得だが正しく応じられると損をする手があるとする正解の手が少なければプレイアウト中には正解を打つ確率は低い相手がミスをすることに期待してその手を打つどれくらい弱いのか調べた論文あり GNU Go 相手の勝率は1 割くらいでした H. Yoshimoto, K. Yoshizoe, T. Kaneko, A. Kishimoto and K. Taura, Monte Carlo Go Has a Way to Go, AAAI-06, pp 1070-1075

CrazyStone 2006 年のComputer Olympiad 囲碁 9 路盤部門優勝プログラム [Rémi Coulom 2006] 原始モンテカルロ囲碁を改良したアルゴリズムを用いたそれがモンテカルロ木探索

モンテカルロ木探索 Monte Carlo Tree Search 変更点は2つ有利な手に多くのプレイアウトを割当てるプレイアウトの回数が閾値を超えたら木が生長するさらに以下の工夫が重要プレイアウトが返す値はスコアでなく勝ち/ 負けスコア差ではなく勝率を最大化するようにプレイするリードしているときは安全に負けている時は無理な手も勝率最大化により対 GNU Go 勝率が3 割台から6 割以上に跳ね上がった

理論的背景 Multi-Armed Bandit 問題統計学や機械学習の分野で研究されてきた Multi-Armed Bandit とは? 腕が複数あるスロットマシンのこと( 空想上の存在 ) One-Armed Bandit とはスロットマシンの俗称

Multi-Armed Bandit 問題与えられた枚数のコインでできるだけ多くの報酬を得るための戦略を考えよ

最善の戦略は? Multi-Armed Bandit 問題の最善の戦略は知られている [Lai and Robbins 1985] しかし計算量メモリ消費ともに大きいために実際にはあまり用いられない各確率分布同士のKL 情報量を計算する必要があるよって計算量が小さくかつ性能もそれほど悪くない戦略が求められる

全部に同じ枚数を投入しよう! そして平均を比べればいい? 原始モンテカルロ囲碁と同様の戦略つまり全然ダメ

UCB1という戦略各マシンについてUCB1 値という値 (Upper Confidence Bound)を計算 [Auer, Cesa-Bianchi, Fischer 2002] UCB1 値が最大になるマシンにコインを投入 X j : j 番目のマシンの報酬の期待値 X j + c 2log n n j n :それまでに投入したコイン数の合計 n j : j 番目のマシンに投入したコインの数 c : 期待値の値域によって決まる定数

有望なマシンにたくさんコインを投入しよう! それがつまりUCB1 有望な手に多くのプレイアウトを割当てる

UCT (UCB applied to Trees) CrazyStoneの成功を受けて提案された木探索アルゴリズム [Kocsis and Szepesvári 2006] UCB1を木探索に応用 UCB1 値の高い候補手を辿って探索を行う末端の候補手でプレイアウトの回数が閾値を超えるとその手を展開する探索回数 nが大きくなると UCB1 値が以下のように期待値に収束することが証明されている X j 2log n æ log n ö + c X + ç n j O è n ø j

UCTを使えば深さ2 以上の木でも最善手に到達する! 最初にUCTを取り入れた囲碁プログラムが MoGo ( 冒頭でプロと対戦 ) [Gelly et al. 2006]

その後の進歩 MoGoがUCTを採用して猛威を奮って以降 CrazyStoneを含め多くのプログラムがUCTを採用 Computer Olympiad 電通大で開催されたUEC 杯コンピュータ囲碁大会などでモンテカルロ木探索を用いたプログラムが上位を独占全て UCTか又は同様に木が成長するモンテカルロ木探索を用いている 19 路盤でも強くなった当初は9 路盤はアマ3 級程度 19 路盤では非常に弱かった現在では19 路盤でもアマ有段者並み(CrazyStoneはKGSという囲碁サイトで2 級 = 普通の碁会所なら二段?) 何が改良されたのか説明したい

探索部分の改良 Progressive Widening 囲碁の知識を用い良さそうな手から順に候補手をソートしておくそれを徐々に探索木に加えていく AMAF (All Moves As First) プレイアウト中に打たれた初手のみを用いるのが通常の考え方だが AMAFでは全ての手を初手に打ったとみなす UCTのパラメータの調整 UCTよりも最善手を優遇する探索手法

プレイアウトの改良初期のCrazyStoneのプレイアウトは単純 19 路盤では非常に弱かったパターンを用いてプレイアウトを改良速度は数分の1になったが棋力は大幅に向上初期のCrazyStone ( 秒間 4 万回程度?) 強化版 CrazyStone ( 秒間 1 万回程度?)

なぜ囲碁に有効なの? プレイアウトで普通に終局するゲームだからチェスや将棋では普通に終局を迎えるのは難しい現在プレイアウトと探索を組み合わせる研究などが行われているオセロや五目並べは終局に至る囲碁同様に有効であると思われるがまだ研究途上囲碁では最善手と次善手の価値の差が小さい(ことが多い) 手順に関係なくある位置を占めておけば有利という点が多い

モンテカルロ木探索の弱点細く長い正解手順がある場合最善手が1 手だけあるという局面が長手順連続すると確率的に正解にたどり着かない例シチョウ : プレイアウトをパターンで強化して回避死活攻め合い : まだ対処法は不明山下さんは探索との組合せなどを試しているらしい

今後の展望モンテカルロ木探索の利点単純に強いプログラミングの労力が少ない探索部分とプレイアウトの実装だけプレイアウトの強化には機械学習も有効多くの研究者が参入機械学習のプロなど並列化の研究も行われている冒頭のMoGoは256コアのクラスタを用いていた現在も日々強化されている今後が非常に楽しみです

参考文献 P. Auer, N. Cesa-Bianchi and P. Fischer, Finite-time analysis of the multi-armed bandit problem, Machine Learning, vol. 47, pp 235-256, 2002. R. Coulom, Computing Elo Ratings of Move Patterns in the Game of Go, Computer Games Workshop, 2007. S. Gelly, Y. Wang, R. Munos and O. Teytaud, Modification of UCT with patterns in Monte-Carlo Go, Technical Report No.6062, INRIA, 2006. L. Kocsis and C. Szepesvári, Bandit Based Monte-Carlo Planning, LNCS vol.4212 (ECML 2006), pp. 282-293, 2006. T. L. Lai and H. Robbins, Asymptotically efficient adaptive allocation rules, Advances in Applied Mathematics, vol. 6, pp. 4-22, 1985. H. Yoshimoto, K. Yoshizoe, T. Kaneko, A. Kishimoto and K. Taura, Monte Carlo Go Has a Way to Go, AAAI-06, pp. 1070-1075, 2006.