f ê ê = arg max Pr(e f) (1) e M = arg max λ m h m (e, f) (2) e m=1 h m (e, f) λ m λ m BLEU [11] [12] PBMT 2 [13][14] 2.2 PBMT Hiero[9] Chiang PBMT [X

1,a) Graham Neubig 1,b) Sakriani Sakti 1,c) 1,d) 1,e) 1. Statistical Machine Translation: SMT[1] [2] [3][4][5][6] 2 Cascade Translation [3] Triangulation [7] Phrase-Based Machine Translation: PBMT[8] 1 Nara Institute of Science and Technology a) miura.akiba.lr9@is.naist.jp b) neubig@is.naist.jp c) ssakti@is.naist.jp d) tomoki@is.naist.jp e) s-nakamura@is.naist.jp PBMT Hierarchical Phrase-Based Machine Translation: Hiero[9] PBMT SMT Hiero PBMT Hiero [10] 2. 2.1 Koehn PBMT[8] PBMT PBMT 1

f ê ê = arg max Pr(e f) (1) e M = arg max λ m h m (e, f) (2) e m=1 h m (e, f) λ m λ m BLEU [11] [12] PBMT 2 [13][14] 2.2 PBMT Hiero[9] Chiang PBMT [X 1 ]visit[x 2 ] [X 1 ] [X 2 ] X 1 X 2 X 1 X 2 X 1,X 2 PBMT 3. PBMT 3.1 [3] 1 PBMT 2 1 n-best [4] 3.2 [3] 2 SMT De Gispert [3] 3.3 PBMT 3 Cohn [7] PBMT T FE,T EG 2

1 2 T FG T FG φ( ) p ω ( ) φ ( f g ) ( ) = φ f e φ (e g) (3) φ ( g f ) ( ) = φ (g e) φ e f (4) ( ) ( ) p ω f g = f e pω (e g) (5) p ω ( ) ( ) p ω g f = p ω (g e) p ω e f f,e, g e T FE T EG e T FE,T EG Utiyama [4] n =1n = 15 BLEU (6) 4. Hiero 4.1 3.1 PBMT 3.3 Hiero PBMT Moses[15] Hiero Travatar[16] Moses PBMT Travatar Hiero Direct ( ) Cascade ( ) Triangulation ( ) 3

3 Direct SMT Cascade 3.1 PBMT Hiero 2 Triangulation 3.3 Moses PBMT (3)-(6) Moses [17] Travatar Hiero PBMT (3)-(6) f,e, g 4.2 MultiUN [10] 5 1 1 0.5 300 Hiero 50 1500 1 Dataset Lang Words Sentencees Average Sentence Length En 13.2M 500k 26.3 Fr 15.7M 500k 31.3 Train Zh 12.4M 500k 24.8 Ar 11.6M 500k 23.2 Ru 11.9M 500k 23.9 En 37.9k 1.5k 25.3 Fr 44.9k 1.5k 29.9 Dev Zh 35.0k 1.5k 23.4 Ar 33.2k 1.5k 22.2 Ru 34.5k 1.5k 23.0 En 38.5k 1.5k 25.7 Fr 45.2k 1.5k 30.2 Test Zh 36.0k 1.5k 24.0 Ar 33.6k 1.5k 22.2 Ru 34.7k 1.5k 23.2 1 KyTea[18] 4

Moses PBMT Travatar Hiero KenLM[19] 5-gram GIZA++[20] Moses Travatar BLEU[11] BLEU 4.3 4.1 Direct 2 Direct Triangulation Cascade 3 3 Direct Pivot Triangulation Cascade BLEU BLEU Score [%] Lang 1 Lang 2 Moses Hiero En Ar 43.03 52.47 37.22 47.82 En Fr 53.58 54.68 50.33 49.56 En Ru 46.21 53.59 41.03 49.66 En Zh 33.87 40.20 34.91 40.80 Ar Zh 31.54 30.29 29.84 28.93 Fr Ru 41.65 47.43 34.70 43.38 Fr Zh 29.77 35.38 28.05 34.36 Ru Zh 32.46 30.64 30.78 30.50 2 PBMT Triangulation Cascade 3 Hiero Triangulation Cascade Cascade Direct Cascade Direct 2 Hiero Triangulation Cascade PBMT 4.1 Hiero Triangulation PBMT (3)-(6) 1 X Hiero a X b() X c( ) X c( ) d X e( ) 2 a X b() c X d( ) X [21] 3 4 Hiero Triangulation Cascade 2 3 Hiero PBMT Hiero PBMT PBMT Hiero 5 Moses PBMT 7 PBMT 5. PBMT Hiero 5

Source Pivot Target MT Method BLEU Score [%] Direct Triangulation Cascade Ar En Zh Moses 31.54 29.40 28.78 Hiero 29.84 28.41 29.11 Fr En Zh Moses 29.77 29.31 29.16 Hiero 28.05 27.57 29.64 Ru En Zh Moses 32.46 30.67 30.25 Hiero 30.78 29.32 30.10 Zh En Ar Moses 30.29 28.82 28.27 Hiero 28.93 26.22 27.62 Zh En Fr Moses 35.38 35.21 35.16 Hiero 34.36 32.26 35.23 Zh En Ru Moses 30.64 30.12 29.55 Hiero 30.50 27.82 29.88 En Fr Zh Moses 33.87 32.13 31.09 Hiero 34.91 32.79 30.57 Zh Fr En Moses 40.20 36.52 35.37 Hiero 40.80 34.94 34.28 En Zh Fr Moses 53.58 45.29 41.21 Hiero 50.33 43.79 35.78 Fr Zh En Moses 54.68 45.22 41.12 Hiero 49.56 43.51 35.16 3 Hiero PBMT [22] Hiero [1] Peter F. Brown, Vincent J.Della Pietra, Stephen A. Della Pietra, and Robert L. Mercer. The mathematics of statistical machine translation: Parameter estimation. Computational Linguistics, Vol. 19, pp. 263 312, 1993. [2] Christopher Dyer, Aaron Cordova, Alex Mont, and Jimmy Lin. Fast, easy, and cheap: construction of statistical machine translation models with mapreduce. In Proc. WMT, pp. 199 207, 2008. [3] Adrià de Gispert and José B. Mariño. Catalan-english statistical machine translation without parallel corpus: Bridging through spanish. In Proc. of LREC 5th Workshop on Strategies for developing machine translation for minority languages, 2006. [4] Masao Utiyama and Hitoshi Isahara. A comparison of pivot methods for phrase-based statistical machine translation. In Proc. NAACL, pp. 484 491, 2007. [5] Jörg Tiedemann. Character-based pivot translation for under-resourced languages and domains. In EACL12, pp. 141 151, 2012. [6] Xiaoning Zhu, Zhongjun He, Hua Wu, Conghui Zhu, Haifeng Wang, and Tiejun Zhao. Improving pivotbased statistical machine translation by pivoting the cooccurrence count of phrase pairs. In Proc. EMNLP, 2014. [7] Trevor Cohn and Mirella Lapata. Machine translation by triangulation: Making effective use of multi-parallel corpora. In Proc. ACL, pp. 728 735, June 2007. [8] Phillip Koehn, Franz Josef Och, and Daniel Marcu. Statistical phrase-based translation. In Proc. HLT, pp. 48 54, 2003. [9] David Chiang. Hierarchical phrase-based translation. Computational Linguistics, Vol. 33, No. 2, pp. 201 228, 2007. [10] Andreas Eisele and Yu Chen. MultiUN: A Multilingual Corpus from United Nation Documents. In Proc. of the Seventh conference on International Language Resources and Evaluation, pp. 2868 2872, 2010. [11] Kishore Papineni, Salim Roukos, Todd Ward, and Wei- Jing Zhu. BLEU: a method for automatic evaluation of machine translation. In Proc. ACL, pp. 311 318, 2002. [12] Franz Josef Och. Minimum error rate training in statistical machine translation. In Proceedings of the 41st Annual Meeting on Association for Computational Linguistics - Volume 1, pp. 160 167, 2003. [13] Michel Galley and Christopher D. Manning. A simple and effective hierarchical phrase reordering model. In Proc. EMNLP, pp. 848 856, 2008. [14] Isao Goto, Masao Utiyama, Eiichiro Sumita, Akihiro 6

Tamura, and Sadao Kurohashi. Distortion model considering rich context for statistical machine translation. In Proc. ACL, pp. 155 165, August 2013. [15] Philipp Koehn, Hieu Hoang, Alexandra Birch, Chris Callison-Burch, Marcello Federico, Nicola Bertoldi, Brooke Cowan, Wade Shen, Christine Moran, Richard Zens, Chris Dyer, Ondrej Bojar, Alexandra Constantin, and Evan Herbst. Moses: Open source toolkit for statistical machine translation. In Proc. ACL, pp. 177 180, 2007. [16] Graham Neubig. Travatar: A forest-to-string machine translation engine based on tree transducers. In Proc. ACL Demo Track, pp. 91 96, 2013. [17] Philipp Koehn, Amittai Axelrod, Alexandra Birch Mayne, Chris Callison-Burch, Miles Osborne, and David Talbot. Edinburgh system description for the 2005 IWSLT speech translation evaluation. In Proc. IWSLT, 2005. [18] Graham Neubig, Yosuke Nakata, and Shinsuke Mori. Pointwise prediction for robust, adaptable Japanese morphological analysis. In Proc. ACL, pp. 529 533, 2011. [19] Kenneth Heafield. KenLM: faster and smaller language model queries. In Proc, WMT, July 2011. [20] Franz Josef Och and Hermann Ney. A systematic comparison of various statistical alignment models. Computational Linguistics, Vol. 29, No. 1, pp. 19 51, 2003. [21] Michel Galley, Mark Hopkins, Kevin Knight, and Daniel Marcu. What s in a translation rule? In Proc. HLT, pp. 273 280, 2004. [22] Michael Paul, Hirofumi Yamamoto, Eiichiro Sumita, and Satoshi Nakamura. On the importance of pivot language selection for statistical machine translation. In Proc. NAACL, pp. 221 224, June 2009. 7