1. 2 1 NEUBIG Graham 1 1 1 Improving Part-of-Speech Tagging by Combining Pointwise and Sequence-based Predictors Yosuke NAKATA, 1 Graham NEUBIG, 1 Shinsuke MORI 1 and Tatsuya KAWAHARA 1 This paper proposes an approach to part-of-speech sequence reranking based on POS transition tendencies fot the result of morphological analysis with pointwise predictors. Pointwise prediction uses as its feature set only surface information about the surrounding character strings, without relying on predicted information such as surrounding POS tags or word boundaries. This allows for the flexible use of a variety of linguistic resources, making it possible to achieve domain adaptation with a minimum amount of annotation. But pointwise prediction cannot use POS transition information that is important in POS prediction. It can be assumed that the transition tendencies of POSs are not highly domain dependent, transition information learned in one domain can be used in another domain. By applying POS sequence reranking that considers POS transition information to the result of pointwise predictors, we were able to achieve an improvement in POS tagging accuracy. 1) 2 1 2 1 Kyoto University, School of Informatics 1 2),3) 1 c 211 Information Processing Society of Japan
x i 2 x x i i 1 i xi+ 1xi+ 2x i+ 3 健康児に本剤を接種し ( 窓幅 3 n-gram 長の上限 3 の場合 ) 文字 ( 種 )1-gram: -3/ 児 (K) -2/ に (H) -1/ 本 (K) 1/ 剤 (K) 2/ を (H) 3/ 接 (K) 文字 ( 種 )2-gram: -3/ 児に (KH) -2/ に本 (HK) -1/ 本剤 (KK) 1/ 剤を (KH) 2/ を接 (HK) 文字 ( 種 )3-gram: -3/ 児に本 (KHK) -2/ に本剤 (HKK) -1/ 本剤を (KH) 1/ 剤を接 (KHK) 単語辞書素性 : L1( 本 ), R1( 剤 ), I2( 本剤 ) 2. 1 t 1) SVM 4) 2.1 5) x = x 1 x 2 x n t = t 1t 2 t n 1 t i x i x i+1 2 2 3 ( 1 ) n-gram: i m n 2m x i m+1,, x i 1, x i, x i+1,, x i+m n n-gram 1 ( 2 ) n-gram: n-gram KkH R NO 6 ( 3 ) : i x 3 x 2 x 1 w x1 x2 x3 健康児に本剤を接種し ( 窓幅 3 n-gram 長の上限 3 の場合 ) 文字 ( 種 )1-gram: -3/ 康 (K) -2/ 児 (K) -1/ に (H) 1/ を (H) 2/ 接 (K) 3/ 種 (K) 文字 ( 種 )2-gram: -3/ 康児 (KK) -2/ 児に (KH) -1/ にを (HH) 1/ を接 (HK) 2/ 接種 (KK) 文字 ( 種 )3-gram: -3/ 康児に (KKH) -2/ 児にを (KHH) -1/ にを接 (HHK) 1/ を接種 (HKK) 2.2 2 4 ( 1 ) ( 2 ) 1 ( 3 ) ( 4 ) one v.s. rest w x x + w m x m x 2x 1, w, x 1x 2 x m w w 2 ( 1 ) x x + n-gram ( 2 ) x x + n-gram 2.3 ( 1 ) : 2 c 211 Information Processing Society of Japan
( 2 ) : 3. 2 3.1 3.2 2.2 3 r r 1 d r r C r = d r d 2 1 L2 1 2 3 健康 名詞 1 児 名詞.897814 接尾辞 3 に 助詞 2.23378 助 -.167628 本剤 名詞 を 助 1.3772 助詞 接種 名詞 1 し 2.23378 助詞 助 -.246451 2.2 4 1 2.2 2 3 1 3 3.3 CRF 6) CRF 3 3.4 CRF 3 c 211 Information Processing Society of Japan
3 T T 3T 1 1 T : 2 T+1 2T : 3 2T+1 3T : 1 1 1 1 2 3 1 ( 1 ) m n-gram ( 2 ) m n-gram 2.1 6 2 6 1 n-gram n 3.5 CRF 4 ( 1 ) k C 1, C 2,..., C k ( 2 ) i C i k 1 C i i 1, 2,..., k C 1, C 2,..., C k CRF 3.6 5 学習コーパス ( 単語境界 品詞のフルアノテーションコーパス ) 1 番目の1/3 2 番目の1/3 3 番目の1/3 点予測による形態素解析 1 番目の 1/3 信頼度付きコーパス 4 学習 点予測による形態素解析 2 番目の1/3 信頼度付きコーパス学習 系列予測による品詞のリランキング 学習 テスト 点予測による形態素解析 3 番目の 1/3 信頼度付きコーパス k = 3 GTF 7),8) 6 6 3 3 3 9) 3 3 : - : : - / GWF AWF: 4 c 211 Information Processing Society of Japan
一般分野 (G) 適応分野 (A) 単語境界 (W) 単語境界品詞 (T) 単語境界 (W) 単語境界品詞 (T) フルアノテーション (GWF) 部分的アノテーション (GWP) フルアノテーション (GTF) 部分的アノテーション (GTP) フルアノテーション (AWF) 部分的アノテーション (AWP) フルアノテーション (ATF) 部分的アノテーション (ATP) 理論的に利用可能なコーパスは破線と実線の矢印であり 現実的に利用可能はコーパスは実線の矢印である 5 GWP AWP: 解析対象 点予測による単語境界推定 点予測による品詞推定 系列予測による品詞のリランキング 形態素解析済みコーパス GTF ATF: GTP ATP: GWP GWF AWP AWF GTF ATF GTF AWP ATP AWF ATF G F : - - - W P : - F : - / - / / - / / /T P : - / A F : - - W P : - F : / - / / - / / /T P : - / 6 5 4. 2 1 1 n-gram n 2 m 5 9 CRFsuite 1) 4.1 BCCWJ 8) 1 21 Yahoo! Yahoo! 11) Yahoo! 1 4.2 12) 1 29 5 c 211 Information Processing Society of Japan
1 2 27,338 782,584 1,131,317 3,38 87,458 126,154 BCCWJ Yahoo! 5,8 114,265 158, 645 13,18 17,98 BCCWJ N REF N SY S N COR N COR/N REF N COR /N SY S / / / / / / / / / / / // / N COR = 3 6 5 N REF = 6, N SY S = 5 N COR/N REF = 3/6 N COR/N SY S = 3/5 F 2 / + 4.3 1 1) CRF MeCab-.98 13) n-gram n=2,3 14) 2-gram HMM 15) 4 5 GTF CRF 3.5 2 3 5 [%] [%] F [%] [%] F 2-gram HMM 96.32 96.84 96.58 93.77 94.27 94.2 2-gram 97.44 98.52 97.98 96.58 97.65 97.11 3-gram 97.49 98.53 98. 96.7 97.73 97.21 CRF MeCab-.98 97.19 98.3 97.74 96.72 97.84 97.28 KyTea-.1.1 98.73 98.71 98.72 98.7 98.6 98.6 98.73 98.71 98.72 98.38 98.37 98.38 3 Yahoo! [%] [%] F [%] [%] F 2-gram HMM 93.17 94.44 93.8 86.78 87.96 87.36 2-gram 94.52 96.65 95.57 92.1 94.9 93.4 3-gram 94.52 96.71 95.6 92.1 94.24 93.16 CRF MeCab-.98 94.89 96.87 95.87 93.69 95.65 94.66 KyTea-.1.1 96.93 97.26 97.9 95.19 95.51 95.35 96.93 97.26 97.9 95.86 96.18 96.2 3 4.4 2 1) Pointwise:part CRF 7 ( 1 ) 5 GTF ( 2 ) ( 3 ) 1 6 c 211 Information Processing Society of Japan
一般分野の学習コーパス ( フルアノテーションコーパス ) 適応分野の学習コーパス ( 部分的アノテーションコーパス ) 97.1 Pointwise+CRFsuite:part 適応分野のテストコーパス 1. 学習 点予測による形態素解析器 系列予測による品詞再推定器 3. 情報の追加 F 値 96.6 96.1 95.6 95.1 Pointwise:part CRF:part 解析結果 ( 評価対象 ) 1 箇所の人手によるアノテーション 94.6 2 4 6 8 1 12 14 16 18 2 アノテーション形態素数 ( 1) 7 8 5 ATP 13 2 CRF CRF MeCab-.98 CRF part 8 8 5. 2 1) Neubig, G. 198 (NL198) (21). 2) pp.29 3 (21). 3) N-best Vol.51, No.8, pp.1443 1451 (21). 4) Fan, R.-E., Chang, K.-W., Hsieh, C.-J., Wang, X.-R. and Lin, C.-J.: LIBLINEAR: A Library for Large Linear Classication, Journal of Machine Learning Research, Vol.9, pp.1871 1874 (28). 5) Neubig, G. 16 (21). 6) Lafferty, J., McCallum, A. and Pereira, F.: Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data, Proceedings of the Eighteenth ICML (21). 7 c 211 Information Processing Society of Japan
7) 3 pp.115 118 (1997). 8) KOTONOHA Vol.4, No.1, pp.82 95 (28). 9) Mori, S. and Oda, H.: Automatic Word Segmentation using Three Types of Dictionaries, Proceedings of the Eighth International Conference Pacific Association for Computational Linguistics (29). 1) Okazaki, N.: CRFsuite: a fast implementation of Conditional Random Fields (CRFs) (27). 11) Maekawa, K., Yamazaki, M., Maruyama, T., Yamaguchi, M., Ogura, H., Kashino, W., Ogiso, T., Koiso, H. and Den, Y.: Design, Compilation, and Preliminary Analyses of Balanced Corpus of Contemporary Written Japanese, Proceedings of the Seventh International Conference on Language Resources and Evaluation (21). 12) EDR EDR pp.49 56 (1995). 13) Conditional Random Fields. Vol.24, No.47, pp.89 96 (24). 14) Vol.5, No.2, pp.75 13 (1998). 15) Nagata, M.: A Stochastic Japanese Morphological Analyzer Using a Forward-DP Backward-A N-Best Search Algorithm, Proceedings of the 15th International Conference on Computational Linguistics, pp.21 27 (1994). 8 c 211 Information Processing Society of Japan