1. はじめに 2 - PDF 無料ダウンロード

点予測と能動学習を用いた効率的なコーパス構築形態素解析における実証実験京都大学情報学研究科 Graham NEUBIG 1

1. はじめに 2

形態素解析べた書きの文字列を意味のある単位に分割し様々な情報を付与品詞基本形読み発音等を推定農産物価格安定法を施行した価格 / 名詞 / 価格 / かかく / かかく安定 / 名詞 / 安定 / あんてい / あんてー法 / 接尾辞 / 法 / ほう / ほーを / 助詞 / を / を / お施行 / 動詞 / 施行 / しこう / しこーした / 動詞 / する / した / した言語処理の中で特に高い精度が必要 3

単語分割形態素解析の現状ルールベース ( JUMAN 等 ) TODO 機械学習の系列ラベリング ( ChaSen MeCab 等 ) TODO 4

既存の手法の問題点一般分野における利用を想定それ以外の分野で利用すると精度が著しく下がる 5

本研究目的 : 単語分割や形態素解析の分野適応に必要な労力の軽減提案手法 : 部分的アノテーション : 文全体ではなく必要な箇所だけをアノテーションする点予測を利用することで学習を実現能動学習 : アノテーションがもっとも有効な箇所を選択し作業者に提示する分野適応のためのツールをオープンソースで公開評価実験 : 医療分野における分野適応時間効率を評価基準とする 6

言語処理の応用に必要な情報多くの応用では形態素解析のほとんどの情報が不要応用分割品詞読み発音機械翻訳質問応答かな漢字変換音声認識これらの情報を利用するより形態素解析の精度が上がった方が結果的に良いシステム出力となる 7

2. 言語資源とアノテーション法 8

単語分割に必要な言語資源辞書単語の表記のみ一般分野厳密な単語分割基準に沿った物は入手可 UniDic IPADIC JUMAN 適応分野厳密な単語分割基準に沿っていない物 ( 複合語を含む物 ) は多くの場合入手可能 9

アノテーション法 : フルアノテーション従来の学習法では文全体をアノテーション分割される単語の間に空白を挿入単語境界に関する 2 つタグ : = 単語境界あり = 単語境界なし農産物価格安定法を施行農産物価格安定法を施行 + 直感的で分かりやすい - 文全体のアノテーションを行う必要がある 10

アノテーション法 : 部分的アノテーション文の中で重要な部分のみをアノテーションタグの種類を拡張 = 単語境界ありー = 単語境界なし = 単語境界の有無が未知農産物価格安定法を施行農産物価 - 格安 - 定法を施行 + 重要な箇所だけをアノテーションすることが可能 - フルアノテーションより少し手間がかかる 11

3. 単語分割の推定法 12

従来の単語分割従来の単語分割法は HMM や CRF など文全体の解を求める解析法を利用することが多い文全体がアノテーションされた学習データが必要 Tsuboi et al. 08 は部分的アノテーションで CRF を学習スパースなアノテーションでは膨大な学習時間本研究では各単語境界の有無を個別に判定する点推定を利用 13

点推定による単語分割各文字間で分割を行うかどうかの 2 値分類問題農産物価格安定法を施行 0110101110 農産物価格安定法を施行適当な素性を決め SVM やロジスティック回帰などを利用して解く本研究では線形 SVM を利用 14

単語分割の素性文字 n-gram と文字種 n-gram 素性判定点農産物価格安定法を施行 1-gram: 2-gram: 3-gram: 辞書単語素性窓幅 = 2 文字 -2/ 定 -1/ 法 +1/ を +2/ 施 -2/ 定法 -1/ 法を +1/ を施 -2/ 定法を -1/ 法を施文字種 -2/K -1/K +1/H +2/K -2/KK -1/KH +1/HK -2/KKH -1/KHK 判定点農産物価格安定法を施行辞書単語の範囲 L1( 定 ) R1( 法 ) L2( 安定 ) I2( 定法 ) 15

京都テキスト解析ツールキット ( KyTea ) 単語分割読み推定の機能部分的アノテーションから学習可能点推定を利用分類器として線形 SVM やロジスティック回帰 LIBLINEAR で実装オープンソースで公開中 http://www.phontron.com/kytea 16

4. アノテーション戦略 17

アノテーション過程の概要部分的アノテーションを最大限に活かすために有用な箇所をアノテーションする必要がある以下の能動学習手順を用いて有用なタグを付与 C g D g モデル (1) D C a a 自動分割コーパス信頼度付きコーパス (3) 人手によるアノテーション点選択 (2) アノテーションすべき点 18

ベースライン戦略 : フルアノテーション一般分野の学習コーパス C g を利用して学習された分割器で適応コーパスを分割 C a 人手でこの分割結果を訂正農産物価格安定法を施行農産物価格安定法を施行 + 誤り箇所を修正するだけで量的には効率的 - 学習に有用でないところもアノテーション 19

提案戦略 1: 点アノテーション自動分割結果から信頼度の最も低い 100 点を選択この点の単語境界にタグを付与農産物? 価格安定法を施行農産物価格安定法を施行 + 有用箇所を積極的にアノテーションできる - 知らない単語が出た場合インターネットや辞書で調べる必要があり 1 点に付き多くの作業時間 20

提案戦略 2: 単語アノテーション自動分割結果から信頼度の最も低い 100 点を選択その点だけでなくその点に隣接する ( または含む ) 単語全体をアノテーション農産物? 価格安定法を施行農産物価 - 格安定法を施行 + アノテーションの有効性と速度の釣り合いが取れる 21

5. 評価 22

医療分野への適応実験実験条件一般分野コーパス C g : 現代日本語書き言葉コーパス ( モニター公開データ 1.29M 文字 ) 一般分野辞書 : UniDic ver. 1.3.9 (223k 単語 ) 適応分野コーパス C : 医療分野のコーパス (20.1M 文字 ) a 適応分野辞書 : ライフサイエンス辞書 (95.3k 単語 ) 1 人の作業者が交互に各戦略を順に繰り返す ( 点単語フル点単語フル ) C a D g D a 実験開始時点では作業者は初心者評価基準 : から取り除いた 1000 文に対する境界精度 23

実験結果 : アノテーション時間各戦略のアノテーション時間を検証戦略 100 点 100 タグフルアノテーション - 16s 点アノテーション 9m15s 9m15s 単語アノテーション 10m35s 2m15s フルアノテーションは圧倒的に早い点アノテーションは 1 点のアノテーションにかかる時間は単語アノテーションより早いが 1 タグは遅い 24

実験結果 : 時間効率 Accuracy vs. Annotation Time Segmentation Accuracy 99.50% 99.00% 98.50% 98.00% F ull (F ) Point (P) W ord (W ) 97.50% 0 60 120 180 240 Annotation Time (Minutes) フルと点アノテーションはほぼ同等の精度単語アノテーションは両方を上回る 25

むすび能動学習と点推定に基づいた分野適応法を提案した 3 つのアノテーション戦略を比較し単語アノテーションは時間効率でもっとも高い精度を実現このような分野適応は他の解析タスクでも利用可能読み推定品詞推定固有表現抽出インタフェースの改善でさらに効率の良いアノテーションが期待できる 26

ご清聴ありがとうございました 27

量効率 Accuracy vs. Annotated Tags 99. 50% F ull (F ) Point (P) W ord (W ) 99. 00% Segmentation Accuracy 98. 50% 98. 00% 97. 50% 10 100 1000 10000 100000 Number of Tags Annotated 28