統計的機械翻訳モデルの構築 各モデルを対訳文から学習 対訳文 太郎が花子を訪問した Taro visited Hanako. 花子にプレセントを渡した He gave Hanako a present.... モデル翻訳モデル並べ替えモデル言語モデル 2

Similar documents
How does machine translation work? Divide sentence into translatable patterns, reorder, combine Today I will give a lecture on machine translation. To

2

生命情報学

NLP プログラミング勉強会 5 HMM による品詞推定 自然言語処理プログラミング勉強会 5 隠れマルコフモデルによる品詞推定 Graham Neubig 奈良先端科学技術大学院大学 (NAIST) 1

フレーズベース機械翻訳システムの構築 フレーズベース機械翻訳システムの構築 Graham Neubig & Kevin Duh 奈良先端科学技術大学院大学 (NAIST) 5/10/2012 1

NLP プログラミング勉強会 6 かな漢字変換 自然言語処理プログラミング勉強会 6 - かな漢字変換 Graham Neubig 奈良先端科学技術大学院大学 (NAIST) 1

自然言語処理23_175

IBM-Mode1 Q: A: cash money It is fine today 2

IPSJ SIG Technical Report Vol.2014-NL-219 No /12/17 1,a) Graham Neubig 1,b) Sakriani Sakti 1,c) 1,d) 1,e) 1. [23] 1(a) 1(b) [19] n-best [1] 1 N

f ê ê = arg max Pr(e f) (1) e M = arg max λ m h m (e, f) (2) e m=1 h m (e, f) λ m λ m BLEU [11] [12] PBMT 2 [13][14] 2.2 PBMT Hiero[9] Chiang PBMT [X

文章のトピック 文章には様々なトピックが存在する Cuomo to Push for Broader Ban on Assault Weapons 2012 Was Hottest Year in U.S. History 2

言語モデルの基礎 2

1. はじめに 2

数理言語

21 Pitman-Yor Pitman- Yor [7] n -gram W w n-gram G Pitman-Yor P Y (d, θ, G 0 ) (1) G P Y (d, θ, G 0 ) (1) Pitman-Yor d, θ, G 0 d 0 d 1 θ Pitman-Yor G

5_motif 公開版.ppt

( ) Kevin Duh

nlp1-12.key

共起頻度は, そのものです. 例えば, 野球 の Dice 係数の上位の単語は, サッカー : 格闘技 : プロ野球 : ゴルフ : テニス : 試合 : 選手 : 高校野球 :0.157

nlp1-04a.key

No. 3 Oct The person to the left of the stool carried the traffic-cone towards the trash-can. α α β α α β α α β α Track2 Track3 Track1 Track0 1

カイ二乗フィット検定、パラメータの誤差

nlp1-05.key

Vol. 23 No. 5 December (Rule-Based Machine Translation; RBMT (Nirenburg 1989)) 2 (Statistical Machine Translation; SMT (Brown, Pietra, Piet

自然言語は曖昧性だらけ! I saw a girl with a telescope 構文解析 ( パージング ) は構造的な曖昧性を解消 2

Vol. 23 No. 5 December (Rule-Based Machine Translation; RBMT (Nirenburg 1989)) 2 (Statistical Machine Translation; SMT (Brown, Pietra, Piet

NLP プログラミング勉強会 4 単語分割 自然言語処理プログラミング勉強会 4 - 単語分割 Graham Neubig 奈良先端科学技術大学院大学 (NAIST) 1

taro.watanabe at nict.go.jp

<4D F736F F D A A838B B96E291E82E646F63>

ズテーブルを 用 いて 対 訳 専 門 用 語 を 獲 得 する 手 法 を 提 案 する 具 体 的 には まず 専 門 用 語 対 訳 辞 書 獲 得 の 情 報 源 として 用 いる 日 中 対 訳 文 対 に 対 して 句 に 基 づく 統 計 的 機 械 翻 訳 モデルを 適 用 すること

A Japanese Word Dependency Corpus ÆüËܸì¤Îñ¸ì·¸¤ê¼õ¤±¥³¡¼¥Ñ¥¹

46 583/4 2012

自然言語処理22_289

ニュラールネットに基づく機械翻訳 ニューラルネットに 基づく機械翻訳 Graham Neubig 奈良先端科学技術大学院大学 (NAIST)

Outline ACL 2017 ACL ACL 2017 Chairs/Presidents

Mimehand II[1] [2] 1 Suzuki [3] [3] [4] (1) (2) 1 [5] (3) 50 (4) 指文字, 3% (25 個 ) 漢字手話 + 指文字, 10% (80 個 ) 漢字手話, 43% (357 個 ) 地名 漢字手話 + 指文字, 21

文法と言語 ー文脈自由文法とLR構文解析2ー

Graham Neubig ノンパラメトリックベイズ法 ノンパラメトリックベイズ法 Graham Neubig 2011 年 5 月 10 1

89-95.indd

¥ì¥·¥Ô¤Î¸À¸ì½èÍý¤Î¸½¾õ

音声翻訳技術 音声翻訳技術 Graham Neubig 奈良先端科学技術大学院大学 NAIST 2015/5/11 共著者 中村哲 戸田智基 Sakriani Sakti 叶高朋 大串正矢 藤田朋希

演習 レシピテキストの係り受け解析

Microsoft PowerPoint - 3.ppt [互換モード]

PowerPoint プレゼンテーション

数値計算法

数理言語

概要 単語の分散表現に基づく統計的機械翻訳の素性を提案 既存手法の FFNNLM に CNN と Gate を追加 dependency- to- string デコーダにおいて既存手法を上回る翻訳精度を達成

統計的データ解析

講義「○○○○」

: : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : :

PowerPoint プレゼンテーション


PowerPoint Presentation

Probit , Mixed logit

情報処理学会研究報告 IPSJ SIG Technical Report Vol.2013-MPS-93 No /5/23 統計的文法獲得モデルのための部分木ブロック化サンプリング法 進藤裕之 1,a) 松本裕治 2 永田昌明 1 概要 : 自然言語処理分野における統計的文法獲得では,

2014/1 Vol. J97 D No. 1 2 [2] [3] 1 (a) paper (a) (b) (c) 1 Fig. 1 Issues in coordinating translation services. (b) feast feast feast (c) Kran

Columbus_Writing

トピックモデルの応用: 関係データ、ネットワークデータ

[1] B =b 1 b n P (S B) S S O = {o 1,2, o 1,3,, o 1,n, o 2,3,, o i,j,, o n 1,n } D = {d 1, d 2,, d n 1 } S = O, D o i,j 1 i

分子進化モデルと最尤系統推定法 東北大 院 生命科学田邉晶史

特許侵害訴訟における無効の主張を認めた判決─半導体装置事件−

open / window / I / shall / the? something / want / drink / I / to the way / you / tell / the library / would / to / me

Unknown

Microsoft PowerPoint _ビッグデータWS.pptx

Microsoft Word - 補論3.2

新中問英1年_発展_本冊p indb

<4D F736F F F696E74202D CEA8D758DC E396BC8E8C F92758E8C81458C E8C81458F9593AE8E8C>

共有辞書を用いた 効率の良い圧縮アルゴリズム

Microsoft PowerPoint - ad11-09.pptx

NLMIXED プロシジャを用いた生存時間解析 伊藤要二アストラゼネカ株式会社臨床統計 プログラミング グループグルプ Survival analysis using PROC NLMIXED Yohji Itoh Clinical Statistics & Programming Group, A

Parade-Parade 2003年サハリンツーリング

スライド 1

IPSJ SIG Technical Report Vol.2010-NL-199 No /11/ treebank ( ) KWIC /MeCab / Morphological and Dependency Structure Annotated Corp

英語の女神 No.9 過去進行形の疑問文 学習 POINT 1 You were studying English. ( あなたは英語を勉強していました ) は 過去進行形の文です 過去進行形の文には 必ず be 動詞の過去形 was または were が使われているので 疑問文は今までと同じように

11/27/2003 ( ) 1 UC Berkely FrameNet (FN) ( Frame Semantics (FS) Lexical Unit (LU) Commercial Transaction Fram

英語の女神 No.21 不定詞 3 学習 POINT 1 次の 2 文を見てください 1 I want this bike. ワント ほっ want ほしい 欲する 2 I want to use this bike. 1は 私はこの自転車がほしい という英文です 2は I want のあとに to

学習 POINT 2 ~に + ~を の文に使われる不定詞 I gave your sister my bike. という英文を覚えていますか give(gave) という一般動詞は その後に ~に + ~を という語句が続きます 従って この英文は 私はあなたの妹に私の自転車をあげました となりま

ボルツマンマシンの高速化

言語切替 4 つの検索モードが用意されている 今回は 複数の検索項目を設定でき より目的に近い検索ができることから 構造化検索 モードを選択 した事例を紹介する 調査目的および調査対象調査対象例として下記の調査目的および開発技術を設定した 調査目的 : 下記開発技術について 欧州における参入企業や技

Unit 8-1 目標関係代名詞 ( 主格 ) を理解する! date 月日 基本文 1 私はアメリカに住んでいるおじがいます I have a uncle who(that) lives in America. 2 私は日本製の車を持ってます I have a car which(that) wa

Microsoft PowerPoint - ●SWIM_ _INET掲載用.pptx

進捗状況の確認 1. gj も gjp も動いた 2. gj は動いた 3. gj も動かない 2

11yama

Microsoft PowerPoint - 03BNFScanner.ppt [互換モード]

PowerPoint プレゼンテーション

MATLAB®製品紹介セミナー

日本語‐ウズベク語機械翻訳

gengo.dvi

(i) 1 (ii) ,, 第 5 回音声ドキュメント処理ワークショップ講演論文集 (2011 年 3 月 7 日 ) 1) 1 2) Lamel 2) Roy 3) 4) w 1 w 2 w n 2 2-g

A Constructive Approach to Gene Expression Dynamics

ニューホライズン 1 年生 基本文 単語テスト この単語テスト集は 一般社団法人 / 教学図書協会 による教科書名等の表記利用の許諾を得て 発行しております 発行者に無断で複写 複製 配布 販売をされますと教科書著作権等の法律に触れ 罰金等が科せられます 発行者安村知倫

アジア言語を中心とした機械翻訳の評価 第 1 回アジア翻訳ワークショップ概要 Evaluation of Machine Translation Focusing on Asian Languages Overview of the 1st Workshop on Asian Translation

EBNと疫学

自己紹介 名前 : 竹田卓也 年齢 : 20 歳 ( 大学生 ) 経歴 : 人工知能歴 1ヶ月プログラミング歴 5 年くらい 言語 : PythonとかJavaとかGoとか 趣味 : オンライン オフラインゲーム 2

<4D F736F F F696E74202D208E9197BF C A836F815B B E A B CA48B868F8A82CC89B990BA8F88979D91BD8CBE8CEA967C96F38B5A8F D E9197BF817A2E >

Microsoft PowerPoint - H17-5時限(パターン認識).ppt

例 e 指数関数的に減衰する信号を h( a < + a a すると, それらのラプラス変換は, H ( ) { e } e インパルス応答が h( a < ( ただし a >, U( ) { } となるシステムにステップ信号 ( y( のラプラス変換 Y () は, Y ( ) H ( ) X (

Microsoft Word - problem3.doc

ポイント 1 文型の意義? The ship made for the shore. She made a good wife. I will make a cake for her birthday. make (SVC) (SVO) S V X = [ ] 5

Microsoft PowerPoint - 04_01_text_UML_03-Sequence-Com.ppt

Transcription:

ALAGIN 機械翻訳セミナー単語アライメント Graham Neubig 奈良先端科学技術大学院大学 (NAIST) 2014 年 3 月 5 日 https://sites.google.com/site/alaginmt2014/ 1

統計的機械翻訳モデルの構築 各モデルを対訳文から学習 対訳文 太郎が花子を訪問した Taro visited Hanako. 花子にプレセントを渡した He gave Hanako a present.... モデル翻訳モデル並べ替えモデル言語モデル 2

単語アライメント 単語の対応を取ってくる技術 太郎が花子を訪問した taro visited hanako. 太郎が花子を訪問した taro visited hanako. 教師なしの確率モデルが最も広く利用されている 日本語日本語日本語 English English English P( 花子 hanako) = 0.99 P( 太郎 taro) = 0.97 P(visited 訪問 ) = 0.46 P(visited した ) = 0.04 P( 花子 taro) = 0.0001 3

ヒューリスティクスに基づくアライメント

アライメントの学習 例えば 日本語メニューのあるイタリア料理屋にて チーズムース Mousse di formaggi 対応を見つけよう! タリアテッレ 4 種のチーズソース Tagliatelle al 4 formaggi 本日の鮮魚 Pesce del giorno 鮮魚のソテーお米とグリーンピース添え Filetto di pesce su Risi e Bisi ドルチェとチーズ Dolce e Formaggi 5

アライメントの学習 例えば 日本語メニューのあるイタリア料理屋にて チーズムース Mousse di formaggi タリアテッレ 4 種のチーズソース Tagliatelle al 4 formaggi 本日の鮮魚 Pesce del giorno 鮮魚のソテーお米とグリーンピース添え Filetto di pesce su Risi e Bisi ドルチェとチーズ Dolce e Formaggi パターンを見つけよう! 6

共起頻度 対応の手がかりとして最も単純なのは共起 チーズムース Mousse di formaggi タリアテッレ 4 種のチーズソース Tagliatelle al 4 formaggi 本日の鮮魚 Pesce del giorno c( チーズ ) = 3 c( の ) = 3 c( と ) = 2 頻度 共起頻度 c(formaggi) = 3 c(pesce) = 2 c(e) = 2... 鮮魚のソテーお米とグリーンピース添え Filetto di pesce su Risi e Bisi ドルチェとチーズ Dolce e Formaggi c( チーズ, formaggi) = 3 c( チーズ, mousse) = 1 c( チーズ, di) = 1 c( チーズ, tagliatelle) = 1

共起頻度の問題 共起頻度は頻度の高い単語に偏る the banker met a tall man 銀行員が背の高い男に会った a man ran out of the room 男が部屋から飛び出た 共起頻度 c(the, 男 ) = 3 c(man, 男 ) = 2 the young boy is good at soccer あの男の子はサッカーが上手だ the statue of liberty 自由の女神 he enjoys the olympics 彼はオリンピックが大好きだ

ダイス係数 [Dice 45] ダイス係数は頻度の高い単語にペナルティを与える dice(e, f )= 2 c(e, f ) c(e)+c( f ) the banker met a tall man 銀行員が背の高い男に会った a man ran out of the room 男が部屋から飛び出た the young boy is good at soccer あの男の子はサッカーが上手だ the statue of liberty 自由の女神 he enjoys the olympics 彼はオリンピックが大好きだ ダイス係数 dice(the, 男 ) = (2 * 3) / (5 + 3) = 0.75 dice(man, 男 ) = (2 * 2) / (2 + 3) = 0.80

スコア アライメント Now, we need a way to change dice coefficients to alignments historical cold outbreaks 歴代 0.596 0.018 0.250 の 0.002 0.003 0.000 風邪 0.020 0.909 0.037 大 0.007 0.002 0.085 流行 0.025 0.010 0.240 歴代の風邪大流行 historical cold outbreaks

最大スコア ある単語に対して 最もスコアの高い相手言語の単語を利用 historical cold outbreaks 歴代 0.596 0.018 0.250 の 0.002 0.003 0.000 風邪 0.020 0.909 0.037 大 0.007 0.002 0.085 流行 0.025 0.010 0.240 historical cold cold outbreaks outbreaks

閾値 スコアが閾値を超える単語を利用 historical cold outbreaks 歴代 0.596 0.018 0.250 の 0.002 0.003 0.000 風邪 0.020 0.909 0.037 大 0.007 0.002 0.085 流行 0.025 0.010 0.240 t > 0.1

競合リンク 最もスコアの高いアライメントを順に選択 ( 1 対 1 対応に限る ) historical cold outbreaks 歴代 0.596 0.018 0.250 の 0.002 0.003 0.000 風邪 0.020 0.909 0.037 大 0.007 0.002 0.085 流行 0.025 0.010 0.240 1. 風邪 cold 2. 歴代 historical 3. 流行 outbreaks

確率モデルによるアライメント : IBM モデル 1

確率モデルに基づくアライメント 2 つの文の確率モデルを作成 F= チーズムース E= mousse di formaggi モデル M を確率的にパラメータ化 確率により 洗練されたモデルが構築可能 ほかのモデルと組み合わせやすい P(F E; M) P(f= チーズ e=formaggi) = 0.92 P(f= チーズ e=di) = 0.001 P(f= チーズ e=mousse) = 0.02 P(f= ムース e=formaggi) = 0.07 P(f= ムース e=di) = 0.002 P(f= ムース e=mousse) = 0.89

IBM モデル 1 [Brown+ 93] F の各単語 f j を以下の過程で生成 単語インデックス a j をランダムに生成 (P(a j ) = 1/( E +1)) 特別な NULL 単語を含む 単語 f j を P(f e aj ) により生成 2 単語を生成 : チーズ Choose: チーズ ( P(f e) = 0.92 ) Choose: a 1 = 3 ( P(a 1 =3) = 0.25 ) ムース Choose: ムース ( P(f e) = 0.89 ) Choose: a 2 = 1 ( P(a 2 =1) = 0.25 ) mousse di formaggi NULL

IBM モデル 1 の式 インデックスと単語の確率を計算すると : P (F, A E)= j=1 J 1 I +1 P ( f j e a j ) インデックス 単語 全てのアライメントに対して和を取ることも可能 P ( F E )= A j =1 J 1 J 1 I +1 P ( f j e a j ) I +1 P ( f j e i ) = j =1 I +1 i=1

モデル 1 の学習 モデルのパラメータを学習したい 尤度が最大になるように求める ( 最尤推定 ) M =argmax M P ( F E ) 最尤のパラメータをいかにして求めるのか?

EM アルゴリズム モデルの尤度を最大化する標準的な手法 : EM (Expectation-Maximization) アルゴリズム アイデア : E ステップ : モデルに基づいて e が f へと翻訳される頻度を計算 M ステップ : 計算された頻度に基づいてモデルのパラメータを更新 反復を何度も繰り返して 反復ごとにモデルの尤度が向上 19

初期化 : 共起を数える チーズムース Mousse di formaggi 本日の鮮魚 Pesce del giorno 本日のチーズ Formaggi del giorno ドルチェとチーズ EM の例 Dolce e Formaggi 20

EM の例 M ステップ : パラメータを更新 チーズムース Mousse di formaggi 本日の鮮魚 Pesce del giorno 本日のチーズ Formaggi del giorno ドルチェとチーズ Dolce e Formaggi P( チーズ formaggi) = 0.375 P( ムース formaggi) = 0.125 P( 本日 formaggi) = 0.125 P( の formaggi) = 0.125 P( ドルチェ formaggi) = 0.125 P( と formaggi) = 0.125 P( 本日 giorno) = 0.33 P( の giorno) = 0.33 P( 鮮魚 giorno) = 0.16 P( チーズ giorno) = 0.16... 21

EM の例 E ステップ : 単語の翻訳頻度を計算 チーズムース Mousse di formaggi 本日の鮮魚 Pesce del giorno 本日のチーズ Formaggi del giorno ドルチェとチーズ Dolce e Formaggi P( チーズ formaggi) = 0.375 P( ムース formaggi) = 0.125 P( 本日 formaggi) = 0.125 P( の formaggi) = 0.125 P( ドルチェ formaggi) = 0.125 P( と formaggi) = 0.125 P( 本日 giorno) = 0.33 P( の giorno) = 0.33 P( 鮮魚 giorno) = 0.16 P( チーズ giorno) = 0.16... 22

EM の例 M ステップ : パラメータを更新 チーズムース Mousse di formaggi 本日の鮮魚 Pesce del giorno 本日のチーズ Formaggi del giorno ドルチェとチーズ Dolce e Formaggi P( チーズ formaggi) = 0.9 P( ムース formaggi) = 0.02 P( 本日 formaggi) = 0.02 P( の formaggi) = 0.02 P( ドルチェ formaggi) = 0.02 P( と formaggi) = 0.02 P( 本日 giorno) = 0.48 P( の giorno) = 0.48 P( 鮮魚 giorno) = 0.02 P( チーズ giorno) = 0.02... 23

EM の例 E ステップ : 単語の翻訳頻度を計算 チーズムース Mousse di formaggi 本日の鮮魚 Pesce del giorno 本日のチーズ Formaggi del giorno ドルチェとチーズ Dolce e Formaggi P( チーズ formaggi) = 0.9 P( ムース formaggi) = 0.02 P( 本日 formaggi) = 0.02 P( の formaggi) = 0.02 P( ドルチェ formaggi) = 0.02 P( と formaggi) = 0.02 P( 本日 giorno) = 0.48 P( の giorno) = 0.48 P( 鮮魚 giorno) = 0.02 P( チーズ giorno) = 0.02... 24

初期化の式 x と y がそれぞれ対応付けられる頻度の期待値を定義 q(e=x, f = y) 初期化では 共起頻度として初期化 q(e=x, f = y)=c(e= x, f = y) 25

モデルパラメータを更新 M ステップの式 単純に 共起頻度を x の頻度で割る ( 最尤推定 ) P ( f = y e= x)= where q(e= x, f = y) q (e= x) q (e=x)= y q (e= x, f = y) 26

E ステップの式 E ステップ : パラメータに基づいて頻度の期待値計算 ある文において a j =i の確率は : P (a j =i F, E, M )= 1 I +1 P ( f j e i ) / ĩ =1 I +1 1 I +1 P ( f j e ĩ) 現在の単語 全ての単語 P (a j =i F, E, M )= P ( f j e i ) / ĩ =1 I +1 P ( f j e ĩ) 全ての文を考慮すると期待値を以下のように計算 (δ = クロネッカーの δ 真の場合は 1 偽の場合は 0 ) I +1 q (e=x, f = y)= E, F i=1 J j =1 P (a j =i F, E, M )δ (e i =x, f j = y) 27

対応の求め方 学習後 翻訳確率が最も高い単語を用いる : a j =argmax P (a j F, E, M ) a j F E historical cold outbreaks NULL 歴代 0.596 0.018 0.250 0.001 の 0.002 0.003 0.000 0.010 風邪 0.020 0.909 0.037 0.000 大 0.007 0.002 0.085 0.005 流行 0.025 0.010 0.240 0.001 historical NULL cold outbreaks outbreaks 28

確率モデルによるアライメント : Model 2-5, HMM

モデル 1 の問題 単語の順番を全く気にしない big oranges and big apples 大きなオレンジと大きなりんご この問題に対応するために多くのモデルが提案

モデル 2 のアイデア 両言語の単語はだいたい同じ語順でしょう big oranges and big apples 大きなオレンジと大きなりんご

モデル 1 モデル 2 モデル 1 P (F, A E)= j=1 J 1 I +1 P ( f j e a j ) インデックス 単語 モデル 2 P (F, A E)= j=1 J P (a j j) P ( f j e a j ) インデックス 単語 モデル 1 と同じ効率的な学習が可能

隠れマルコフモデル (HMM) に基づくアライメント [Vogel+ 96] f j に対応する単語は f j-1 に対応する単語に近いことが多 い big oranges and big apples last 大きなオレンジと大きなりんご 語順が大きく変わる言語でも局所的に成り立つ

HMM で広く使われる前向き後ろ向きアルゴリズムで学習可能 ALAGIN 機械翻訳セミナー - アライメント モデル 1 HMM モデル 1 モデル 2 P (F, A E)= j=1 J 1 I +1 P ( f j e a j ) インデックス単語 P (F, A E)= j=1 J P (a j a j 1 ) P ( f j e a j ) インデックス 単語

HMM Graph 機械翻訳 より

IBM モデル 3-5 稔性 という 1 単語が何単語に対応するかを考慮 Fertility 1 I 私僕俺 Fertility 3.5 adopted 採用された養子になった モデル化 学習 対応付けが全体的に複雑で 近似が必要

アライメントの組み合わせ

一対多アライメントの組み合わせ [Koehn+ 03] ホテルの受付 X the hotel front desk the hotel front desk X ホテルの受付 組み合わせ the hotel front desk ホテルの受付 主にヒューリスティクスによって行われる 38

和集合 いずれかの方向に存在すれば採用 the hotel front desk ホテ受ルの付 the hotel front desk ホテ受ルの付 the hotel front desk ホテ受ルの付 39

積集合 両方向に存在する場合のみ採用 the hotel front desk ホテ受ルの付 the hotel front desk ホテ受ルの付 the hotel front desk ホテ受ルの付 40

Grow 積集合を利用するが 積集合に隣接するものを追加 ( 斜めも考慮したものは grow-diag ) 41

フレーズ抽出 42

フレーズ とは? 言語学で フレーズ ( 句 ) は名詞句 動詞句など 文法的な役割を持つ フレーズベース翻訳 では単なる単語列 Today 今日は I will give を行います a lecture on の講義 machine translation 機械翻訳. Today 今日は machine translation 機械翻訳 a lecture on の講義 I will give を行います.

フレーズ抽出 アライメント情報に基づきフレーズ対を抽出 the hotel front desk ホテ受ルの付 ホテルの hotel 受付 front desk ホテルの the hotel ホテルの受付 hotel front desk ホテルの受付 the hotel front desk

フレーズ抽出の条件 すべての単語列対の中で以下の条件に合致するもの 1) 少なくとも 1 つの対応する単語対が中に含まれる 2) フレーズ内の単語がフレーズ外の単語に対応しない OK! the hotel front desk ホテ受ルの付 対応する単語を含まない の がフレーズ外

フレーズのスコア計算 5 つの標準的なスコアでフレーズの信頼性 使用頻度 フレーズ翻訳確率 P(f e) = c(f,e)/c(e) P(e f) = c(f,e)/c(f) 例 : c( ホテルの, the hotel) / c(the hotel) 語彙 (lexical) 翻訳確率 フレーズ内の単語の翻訳確率を利用 (IBM Model 1) 低頻度のフレーズ対の信頼度判定に役立つ P(f e) = Π f 1/ e e P(f e) 例 : (P( ホテル the)+p( ホテル hotel))/2 * (P( の the)+p( の hotel))/2 フレーズペナルティ : すべてのフレーズで 1

アライメントの発展 47

反転トランスダクション文法 (ITG) [Wu 97] 2 言語に対して定義される文脈自由文法の一種 非終端記号単調 (reg) 反転 (inv) 前終端記号 (term) 終端記号フレーズ対 reg inv term term term term 7/7 kilos/ キロ Mr./ さん Smith/ スミス English 7 kilos Japanese 7 キロ English Mr. Smith Japanese スミスさん 48

ITG の構文解析 確率分布を定義し 構文解析を行う 構文解析で広く利用される CKY アルゴリズムの一種が適応可能 P x (inv) P x (reg) P x (reg) P x (term) P x (term) P x (term) P x (reg) P x (term) P x (term) P t (Mrs./ さん ) P t (Smith/ スミス ) P t ('s/ の ) P t (red/ 赤い ) P t (cookbook/ 料理本 ) 解析結果からアライメントが一意に決まる Mrs. Smith 's red cookbook スミスさんの赤い料理本 49

ITG の利点 欠点 利点 : 多対多アライメントをヒューリスティクスなしで対応 ( ベイズ推定を使ったモデルで過学習を防ぐ [DeNero+ 08, Neubig+ 11] ) 多項式時間で計算可能 O(n 6 ) 欠点 : 一対多の IBM モデルに比べて計算量が多い 50

教師ありアライメント [Haghighi+ 09] 人手で正解を用意し 学習データとする 教師なしモデルの誤りを訂正するモデルを構築 正解 this is a pen これはペンです 教師なし this is a pen これはペンです 重み : c(is, です )++ c(is, は )-- c(a, です )-- 統語情報など 色々な情報が利用可能 [Riesa+ 10] 51

クラスに基づく単語アライメント [Och 99, Och+ 03] クラスを使ってアライメント確率を平滑化 this is a pen 10 5 9 20 10 8 20 5 これはペンです this is a pencil 10 5 9 20 10 8 20 5 これは鉛筆です クラスを言語間で同時に学習 52

アライメントの評価 53

アライメントの評価 2 つのアライメント法があった時 どれを採用? the hotel front desk 正解システム A システム B ホテ受ルの付 the hotel front desk ホテ受ルの付 the hotel front desk ホテ受ルの付 54

適合率 再現率 F 値 適合率 : システムアライメントの中で正解の割合 再現率 : 正解の中で システムが出力した割合 F 値 : 適合率と再現率の調和平均 the hotel front desk 正解システム A システム B ホテ受ルの付 the hotel front desk ホテ受ルの付 the hotel front desk ホテ受ルの付 P=1.0 R=0.75 F=2*1.0*0.75/(1.0+0.75)=0.85 P=0.8 R=1.0 55 F=2*0.8*1.0/(0.8+1.0)=0.88

ツール 資料 56

アライメントツールキット GIZA++: 最も標準的なツール IBM/HMM モデルとクラスを実装 Nile: 統語情報を用いた教師ありアライメント 日英で高い精度を確認 [Neubig 13] Pialign: ITG モデルを実装 フレーズベース翻訳のためのコンパクトなモデル fast_align: IBM Model 2 の拡張版の超高速な実装 ただ 語順が異なる言語には不向き 57

人手対応付きデータ 日本語 日英 : 京都フリー翻訳タスクの対応付きデータ http://www.phontron.com/kftt/#alignments 日本語はこれ以外ない? 日中近日公開? その他 仏英 独英 チェコ英はダウンロード可 中英などは購入可 58

更に勉強するには 4 章 59

参考文献 [1] P. F. Brown, V. J. Pietra, S. A. D. Pietra, and R. L. Mercer. The mathematics of statistical machine translation: Parameter estimation. Computational Linguistics, 19:263-312, 1993. [2] J. DeNero, A. Bouchard-Cote, and D. Klein. Sampling alignment structure under a Bayesian translation model. In Proc. EMNLP, pages 314-323, Honolulu, USA, 2008. [3] L. R. Dice. Measures of the amount of ecologic association between species. Ecology, 26(3):297-302, 1945. [4] A. Haghighi, J. Blitzer, J. DeNero, and D. Klein. Better word alignments with supervised ITG models. In Proc. ACL, pages 923-931, Singapore, 2009. [5] P. Koehn, F. J. Och, and D. Marcu. Statistical phrase-based translation. In Proc. HLT, pages 48-54, Edmonton, Canada, 2003. [6] G. Neubig. Travatar: A forest-to-string machine translation engine based on tree transducers. In Proc. ACL Demo Track, Sofia, Bulgaria, August 2013. [7] G. Neubig, T. Watanabe, E. Sumita, S. Mori, and T. Kawahara. An unsupervised model for joint phrase alignment and extraction. In Proc. ACL, pages 632-641, Portland, USA, June 2011. [8] F. J. Och. An efficient method for determining bilingual word classes. In Proc. EACL, 1999. [9] F. J. Och and H. Ney. A systematic comparison of various statistical alignment models. Computational Linguistics, 29(1):19-51, 2003. [10] J. Riesa and D. Marcu. Hierarchical search for word alignment. In Proc. ACL, pages 157-166, 2010. [11] S. Vogel, H. Ney, and C. Tillmann. HMM-based word alignment in statistical translation. In Proc. COLING, pages 836-841, Copenhagen, Denmark, 1996. [12] D. Wu. Stochastic inversion transduction grammars and bilingual parsing of parallel corpora. Computational Linguistics, 23(3):377-403, 1997. 2 60