ol2013-nl-214 No6 1,a) 2,b) n-gram 1 M [1] (TG: Tree ubstitution Grammar) [2], [3] TG TG 1 2 a) ohno@ilabdoshishaacjp b) khatano@maildoshishaacjp [4], [5] [6] 2 Pitman-Yor 3 Pitman-Yor 1
21 Pitman-Yor Pitman- Yor [7] n -gram W w n-gram G Pitman-Yor P Y (d, θ, G 0 ) (1) G P Y (d, θ, G 0 ) (1) Pitman-Yor d, θ, G 0 d 0 d 1 θ Pitman-Yor G 0 = [G 0 (w)] w W G o Pitman-Yor d Pitman-Yor Pitman-Yor d = 0 Pitman-Yor (2) DP (θ, G 0 ) G DP (θ, G 0 ) = θg 0 (2) (2) G r (3) Dir(θG 0 (w 1 ),, θg 0 (w r )) (G(w 1 ),, G(w r )) Dir(θG 0 (w 1 ),, θg 0 (w r ))(3) n-gram G [8] n-gram G (G 0 ) 1 1 1 G 0 θ + d ( ) G 0 (w k ) t w k c k Pitman-Yor G c (4) Pitman-Yor P Y (d, θ, G 0 ) = c k d θ + c + θ + dt θ + c G 0 (w k ) (4) Pitman-Yor d, θ G 0 22 Pitman-Yor Pitman-Yor [9] Pitman-Yor n-gram Pitman-Yor Pitman-Yor n 1 u n-gram n-gram n-gram G u u n-gram G π(u) Pitman-Yor G u P Y (d u, θ u, G π(u) ) (5) θ u d u u u π(u) u G πu (5) n-gram n 1 G ϕ Pitman-Yor n uffix-array n 1 Pitman-Yor n 1 Kneser and Ney [10] n-gram 3 ol2013-nl-214 No6 (TG)[11] (CFG: Context Free Grammar) TG, CFG CFG 1 2
TG TG TG G = (T, N,, R) T, N N R TG P John books 1 John TG P cookies 1 (P ( like) ) ( (P ( ) )) ( John) ( cookies) TG (PTG:Probabilistic Tree ubstitution Grammar) TG e c P (ec) P (ec) PTG G c Pitman-Yor [9] (6) G c PY(d c, θ c, G π(c) ) (6) d c θ c c Pitman-Yor G π(c) c e G ϕ c 1,, c m e 1 e 2,, e m G π(c1),, G π(cm) John P cookies 2 John cookies P TG c e PTG Gibbs 2 TG [5] TG TG 4 41 ngram n-gram n-gram ol2013-nl-214 No6 n-gram n P 3
トムは この 本を ジムを見た 女性に <s> トムは 渡した ( )</s> 渡した ( ) (a) ol2013-nl-214 No6 <s> この <s> ジムを 渡した ( )</s> 本を 見た女性に 渡した ( )</s> (b) トムは この 本を ジムを 見た 女性に 渡した ( ) 3 トムは この 本を ジムを 見た 女性に 渡した ( ) Pitman-Yor n Pitman-Yor [12] 3 <s> </s> P D ( ) 42 41 CYK [13] [6] 4 4(a) P D ( ) P D ( ) P D ( ) 4(a) P D ( ) P D ( ) P D ( ) P D ( ) 4(b) [1] [6] 4
ol2013-nl-214 No6 トムは この 本を トムは この 5 ジムを見た 女性に 本を美しい 女性に <s> トムは 渡した ( )</s> 2 <s> この <s> ジムを <s> 美しい 渡した ( )</s> 2 本を 見た女性に 女性に 渡した ( ) 渡した ( ) 渡した ( )</s> 渡した ( )</s> Pitman-Yor <s> トムは 渡した ( )</s> 2 <s> この 6 渡した ( )</s> 2 本を 女性に 渡した ( )</s> 2 <s> 美しい <s> ジムを 女性に 見た女性に Pitman-Yor 43 [6] Pitman-Yor Pitman-Yor n-gram n-gram n-gram 5 Pitman-Yor 6 Pitman-Yor Pitman-Yor Nested Hierarchical Pitman-Yor [14] 6 5 1995 51 1995 1 1 Nested Hierarchical Pitman-Yor Nested Hierarchical Pitman-Yor Gibbs 50 Nested Hierarchical Pitman-Yor uni-gram Pitman-Yor Nested Hierarchical Pitman-Yor uni-gram Pitman-Yor bi-gram 5
1995 1 3 200 52 (7)[1] X = Y = = X Y 1 uni-gram CaboCha-066 (%) 881 775 783 1 6 (7) ( : 25540150) ol2013-nl-214 No6 [1] Kudo, T and Matsumoto, Y: Japanese Dependency Analysis using Cascaded Chunking, CoNLL 2002: Proceedings of the 6th Conference on Natural Language Learning 2002 (COLING 2002 Post-Conference Workshops), pp 63 69 (2002) [2] Cohn, T, Blunsom, P and Goldwater, : Inducing Tree-ubstitution Grammars, Journal of Machine Learning Research, ol 11, pp 3053 3096 (2010) [3] Post, M and Gildea, D: Weight Pushing and Binarization for Fixed-Grammar Parsing, Proceedings of the 11th International Conference on Parsing Technologies (IWPT 09), Association for Computational Linguistics, pp 89 98 (2009) [4] Blunsom, P and Cohn, T: Unsupervised induction of tree substitution grammars for dependency parsing, Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing, (EMNLP 10), Association for Computational Linguistics, pp 1204 1213 (2010) [5] hindo, H, Miyao, Y, Fujino, A and Nagata, M: Bayesian symbol-refined tree substitution grammars for syntactic parsing, Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics: Long Papers - olume 1, ACL 12, Association for Computational Linguistics, pp 440 448 (2012) [6] 2013 (2013) [7] Pitman, J and Yor, M: The Two-Parameter Poisson- Dirichlet Distribution Derived from a table ubordinator, The Annals of Probability, ol 25, No 2, pp 855 900 (1997) [8] Pitman, J: Exchangeable and partially exchangeable random partitions, Probability Theory and Related Fields, ol 102, No 2, pp 145 158 (1995) [9] Teh, Y W: A hierarchical Bayesian language model based on Pitman-Yor processes, Proceedings of the 21st International Conference on Computational Linguistics and the 44th annual meeting of the Association for Computational Linguistics, ACL-44, Association for Computational Linguistics, pp 985 992 (2006) [10] Kneser, R and Ney, H: Improved backing-off for M- gram language modeling, Acoustics, peech and ignal Processing, ol 1, pp 181 184 (1995) [11] Cohn, T and Lapata, M: entence Compression as Tree Transduction, Journal of Artificial Intelligence Research (JAIR), ol 34, pp 637 674 (2009) [12] Mochihashi, D and umita, E: The Infinite Markov Model, Advances in Neural Information Processing ystems 20 (NIP 2007), pp 1017 1024 (2007) [13] Jurafsky, D and Martin, J H: peech and Language Processing (2nd Edition) (Prentice Hall eries in Artificial Intelligence), Prentice Hall, 2nd edition (2008) [14] Mochihashi, D, Yamada, T and Ueda, N: Bayesian unsupervised word segmentation with nested Pitman-Yor language modeling, In Proc of ACL (2009) 6