点予測と能動学習を用いた効率的なコーパス構築 形態素解析における実証実験 京都大学情報学研究科 Graham NEUBIG 1
1. はじめに 2
形態素解析 べた書きの文字列を意味のある単位に分割し 様々な情報を付与 品詞 基本形 読み 発音等を推定 農産物価格安定法を施行した 価格 / 名詞 / 価格 / かかく / かかく安定 / 名詞 / 安定 / あんてい / あんてー法 / 接尾辞 / 法 / ほう / ほーを / 助詞 / を / を / お施行 / 動詞 / 施行 / しこう / しこーした / 動詞 / する / した / した 言語処理の中で特に高い精度が必要 3
単語分割 形態素解析の現状 ルールベース ( JUMAN 等 ) TODO 機械学習の系列ラベリング ( ChaSen MeCab 等 ) TODO 4
既存の手法の問題点 一般分野における利用を想定 それ以外の分野で利用すると精度が著しく下がる 5
本研究 目的 : 単語分割や形態素解析の分野適応に必要な労力の軽減 提案手法 : 部分的アノテーション : 文全体ではなく 必要な箇所だけをアノテーションする 点予測を利用することで学習を実現 能動学習 : アノテーションがもっとも有効な箇所を選択し 作業者に提示する 分野適応のためのツールをオープンソースで公開 評価実験 : 医療分野における分野適応 時間効率を評価基準とする 6
言語処理の応用に必要な情報 多くの応用では 形態素解析のほとんどの情報が不要 応用 分割 品詞 読み 発音 機械翻訳 質問応答 かな漢字変換 音声認識 これらの情報を利用するより 形態素解析の精度が上がった方が結果的に良いシステム出力となる 7
2. 言語資源とアノテーション法 8
単語分割に必要な言語資源 辞書 単語の表記のみ 一般分野 厳密な単語分割基準に沿った物は入手可 UniDic IPADIC JUMAN 適応分野 厳密な単語分割基準に沿っていない物 ( 複合語を含む物 ) は多くの場合入手可能 9
アノテーション法 : フルアノテーション 従来の学習法では文全体をアノテーション 分割される単語の間に空白を挿入 単語境界に関する 2 つタグ : = 単語境界あり = 単語境界なし 農産物価格安定法を施行 農産物価格安定法を施行 + 直感的で分かりやすい - 文全体のアノテーションを行う必要がある 10
アノテーション法 : 部分的アノテーション 文の中で重要な部分のみをアノテーション タグの種類を拡張 = 単語境界あり ー = 単語境界なし = 単語境界の有無が未知 農産物価格安定法を施行 農産物 価 - 格 安 - 定法を施行 + 重要な箇所だけをアノテーションすることが可能 - フルアノテーションより少し手間がかかる 11
3. 単語分割の推定法 12
従来の単語分割 従来の単語分割法は HMM や CRF など 文全体の解を求める解析法を利用することが多い 文全体がアノテーションされた学習データが必要 Tsuboi et al. 08 は部分的アノテーションで CRF を学習 スパースなアノテーションでは膨大な学習時間 本研究では各単語境界の有無を個別に判定する点推定を利用 13
点推定による単語分割 各文字間で分割を行うかどうかの 2 値分類問題 農産物価格安定法を施行 0110101110 農産物価格安定法を施行 適当な素性を決め SVM やロジスティック回帰などを利用して解く 本研究では線形 SVM を利用 14
単語分割の素性 文字 n-gram と文字種 n-gram 素性 判定点 農産物価格安定法を施行 1-gram: 2-gram: 3-gram: 辞書単語素性 窓幅 = 2 文字 -2/ 定 -1/ 法 +1/ を +2/ 施 -2/ 定法 -1/ 法を +1/ を施 -2/ 定法を -1/ 法を施 文字種 -2/K -1/K +1/H +2/K -2/KK -1/KH +1/HK -2/KKH -1/KHK 判定点 農産物価格安定法を施行 辞書単語の範囲 L1( 定 ) R1( 法 ) L2( 安定 ) I2( 定法 ) 15
京都テキスト解析ツールキット ( KyTea ) 単語分割 読み推定の機能 部分的アノテーションから学習可能 点推定を利用 分類器として線形 SVM やロジスティック回帰 LIBLINEAR で実装 オープンソースで公開中 http://www.phontron.com/kytea 16
4. アノテーション戦略 17
アノテーション過程の概要 部分的アノテーションを最大限に活かすために有用な箇所をアノテーションする必要がある 以下の能動学習手順を用いて有用なタグを付与 C g D g モデル (1) D C a a 自動分割 コーパス 信頼度付きコーパス (3) 人手によるアノテーション 点選択 (2) アノテーションすべき点 18
ベースライン戦略 : フルアノテーション 一般分野の学習コーパス C g を利用して学習された分割器で適応コーパスを分割 C a 人手でこの分割結果を訂正 農産物価格安定法を施行 農産物価格安定法を施行 + 誤り箇所を修正するだけで 量的には効率的 - 学習に有用でないところもアノテーション 19
提案戦略 1: 点アノテーション 自動分割結果から信頼度の最も低い 100 点を選択 この点の単語境界にタグを付与 農産物? 価格安定法を施行 農産物 価格安定法を施行 + 有用箇所を積極的にアノテーションできる - 知らない単語が出た場合 インターネットや辞書で調べる必要があり 1 点に付き多くの作業時間 20
提案戦略 2: 単語アノテーション 自動分割結果から信頼度の最も低い 100 点を選択 その点だけでなくその点に隣接する ( または含む ) 単語全体をアノテーション 農産物? 価格安定法を施行 農産 物 価 - 格 安定法を施行 + アノテーションの有効性と速度の釣り合いが取れる 21
5. 評価 22
医療分野への適応実験 実験条件 一般分野コーパス C g : 現代日本語書き言葉コーパス ( モニター公開データ 1.29M 文字 ) 一般分野辞書 : UniDic ver. 1.3.9 (223k 単語 ) 適応分野コーパス C : 医療分野のコーパス (20.1M 文字 ) a 適応分野辞書 : ライフサイエンス辞書 (95.3k 単語 ) 1 人の作業者が交互に各戦略を順に繰り返す ( 点 単語 フル 点 単語 フル ) C a D g D a 実験開始時点では作業者は初心者 評価基準 : から取り除いた 1000 文に対する境界精度 23
実験結果 : アノテーション時間 各戦略のアノテーション時間を検証 戦略 100 点 100 タグ フルアノテーション - 16s 点アノテーション 9m15s 9m15s 単語アノテーション 10m35s 2m15s フルアノテーションは圧倒的に早い 点アノテーションは 1 点のアノテーションにかかる時間は単語アノテーションより早いが 1 タグは遅い 24
実験結果 : 時間効率 Accuracy vs. Annotation Time Segmentation Accuracy 99.50% 99.00% 98.50% 98.00% F ull (F ) Point (P) W ord (W ) 97.50% 0 60 120 180 240 Annotation Time (Minutes) フルと点アノテーションはほぼ同等の精度 単語アノテーションは両方を上回る 25
むすび 能動学習と点推定に基づいた分野適応法を提案した 3 つのアノテーション戦略を比較し 単語アノテーションは時間効率でもっとも高い精度を実現 このような分野適応は他の解析タスクでも利用可能 読み推定 品詞推定 固有表現抽出 インタフェースの改善でさらに効率の良いアノテーションが期待できる 26
ご清聴ありがとうございました 27
量効率 Accuracy vs. Annotated Tags 99. 50% F ull (F ) Point (P) W ord (W ) 99. 00% Segmentation Accuracy 98. 50% 98. 00% 97. 50% 10 100 1000 10000 100000 Number of Tags Annotated 28