講義目的と内容 統計的機械翻訳入門 統計的機械翻訳に関する講習会 28.8.28-29 山本幹雄筑波大学 Ptnt Trnston Ts Group, Custr of Focusd Dons, NTCIR (NII Tst Cocton for IR Systs) Proct 講習会後修正版 (28.9) 2 目的 実習で用いるシステムの仕組みを理解する 特に Moss という統計的機械翻訳システムについて理解する 内容 統計的機械翻訳の概要 言語モデル : ngrモデル 翻訳モデル : フレーズ翻訳モデル デコーダ : Mutstc & B-srch フレーズ翻訳モデルの推定 方向のある単語対応 (IBM モデル,GIZA++) 対称化単語対応 フレーズペアの抽出 自動翻訳性能評価 チューニング : Mnu Error Rt Trnng 午後の実習の流れ 訓練データの準備 言語モデルの構築 フレーズ翻訳モデルの構築と確認 Moss 設定ファイルの作成 チューニング 翻訳実験と評価 最終課題 この入門よりもう少し詳しいチュートリアル : Phpp Kohn. Sttstc Mchn Trnston: bsc, nov, nd spcutv. Tutor t EACL 26. http://www.ccs.nfortcs.d.c.u/~pohn/ 統計的機械翻訳 Corpus-bsd NLP データ + 人間の知識重視の度合い : 経験主義合理主義 経験主義の最も極端な立場 : 統計的機械翻訳大量の言語データ プレーンテキスト( 新聞 WEBなど ) 対訳テキスト( 議事録 特許文など ) パラメータの自動推定 ( 数理統計学 ) 翻訳の ( 確率 ) モデル 翻訳辞書単語の並び替え 4 前午後講義では省略午3 98 年代から 万文ペア以上存在 対訳コーパスの例 :Hnsrds ( カナダの国会議事録 ) 英語フランス語 Th 35th Prnt hvng bn dssovd by procton on Sundy, Apr 27, 997, nd wrts hvng bn ssud nd rturnd, nw Prnt ws suond to t for dsptch of busnss on Mondy, Sptbr 22, 997, nd dd ccordngy t on tht dy. Mondy, Sptbr 22, 997. Ths bng dy on whch Prnt ws convod by procton of Hs Excncy Govrnor Gnr of Cnd for dsptch of busnss,nd brs of Hous bng ssbd: L trnt-cnquè égstur ynt été prorogé t s Chbrs dssouts pr procton dnch 27 vr 997, pus s brfs ynt été és t rpportés, s nouvs Chbrs ont été convoqués pour 'xpédton ds ffrs und 22 sptbr 997 t, n conséqunc, s sont réuns our dt. L und 22 sptbr 997. L Prnt ynt été convoqué pour uourd'hu, pr procton d Son Excnc Gouvrnur génér du Cnd pour 'xpédton ds ffrs, t s députés étnt réuns: http://www.s.du/ntur-ngug/downod/hnsrd/ 5 約 8 万文ペア 対訳コーパスの例 : NTCIR-7 英語 Th oc fg s outputtd to contror 2 fro rgstr 6. A purty of cnts r connctd to srvr. Nxt, srvr ppcton progr ssus rcv cond 26 by dsgntng dt rcvng buffr 26. As shown n FIG. 2, countr 5 nd fp-fop 6 gnrt pus hvng wdth proporton to vu (Tf) ccutd by sgn procssng crcut 4. A gt ctrod 6 s ford on prphry of gt nsutng f 63 n trnch 53. Th procss for trnstng nput sntnc s s s n bov-ntond xp. また このロックフラグは レジスタ 6 からコントローラ 2 に出力される サーバには複数のクライアントが接続する 次にサーバアプリケーションプログラムはデータ受信バッファ 26 を指定して rcv コマンド 2 6 を発行する 図 2 を参照すると カウンタ 5 およびフリップフロップ 6 は 信号処理回路 4 によって計算された値 (Tf) に比例した幅を持つパルスを発生するためのものである ゲート電極 6 はトレンチ 53 内に位置し ゲート絶縁膜 63 の周囲に形成されている 入力文を翻訳する過程は 上記した例と同様である 日本語 ( 日米特許 ) 6 何故 いま統計的機械翻訳なのか? 性能の目覚しい向上 ( ここ 5 年 ) 性能向上の原因 翻訳モデルの発展 IBM モデル ( 単語 ) フレーズモデル デコーダ等の仕組みが公開 年前は職人技 ツールの普及 GIZA++, SRILM, Phroh, Moss 自動評価手法の開発と普及 BLEU チューニング手法 (+ 識別モデル ) MERT : Mnu Error Rt Trnng ACL Bst Ppr Awrd ACL2: デコーダ ACL22: 識別モデルとチューニング ACL25: 翻訳モデル 対訳データの拡充 Hnsrds( 英仏 ) Europr( ヶ国語 万文以上並記 ) 特許対訳データ (NTCIR-7) : 日英 8 万文
チューニング7 機械翻訳 アラビア 英語 26.5よりサービス開始 (NIST 26 MT Evutonで 位 ) ユニセフのあるページ أحدث النشرات في خريف عام 27 سيجتمع قادة الحكومات في مقر الا مم المتحدة في نيويورك للتوص ل إلى حلول وتقديم توصيات لحماية الا طفال في الحرب. سينظر هو لاء القادة فيما تم إحرازه من تقد م منذ تقرير عام 996 الذي أعد ته امرأة من الموزمبيق اسمها غراسا ماشيل. قد م التقرير توصيات مبتكرة حول ما يمكن وما يجب القيام به. وفي سعيه لا يصال أصوات الشباب أجرى موقع أصوات الشباب مسحا للشباب يستطلع ا راءهم حول ما يجب القيام به لاحترام حقوق الا طفال المتا ثرين بالنزاع المسل ح وحمايتها وتلبيتها. وسيتم إدراج إجابات الشباب - من خلال المسح والمجموعات البو رية - في التقرير الذي سيكون وثيقة ري يسية في النقاشات القادمة في الا مم المتحدة. وتقد م النشرة الا خبارية لهذا الشهر لمحة أولى حول رأي الشباب في أسباب الحرب وتبعاتها وآيفية التا قلم معها وتوصياتهم لقادة.الحكومات w Th tst rss In utun 27, w t govrnnt drs t Untd Ntons Hdqurtrs n Nw Yor to fnd soutons nd rcondtons to protct chdrn n wr. W s (S)MT のアイデア (Wvr 947) BLEU (Ppnn t. 22) 8 IBM モデル (Brown t. 993) 統計的機械翻訳の発展 翻Invrson Trnsducton Grr (Wu 997) Phrs&JontProb. (Mrcu&Wong 22) Agnnt-Tpt (Och&Ny 23) Phrs (Kohn t. 23) EGYPT proct (A-Onzn t. 999) GIZA++ ISI-rwrt デコーダ (Och&Ny 23) (*Grnn t. 2) Phroh (Kohn t. 24) (Chng 27) Dscrntv Trnng (*Och&Ny 22) 訳モデル自動評価4 年 WER PER NIST デコーダ ツール MERT (Och 23) Moss (Kohn t. 26) Syntx (Yd&Nght 2) Hrrchc Phrs (*Chng 25) Hro *ACL Bst Ppr Awrd 参考文献 * ACL Bst Ppr Awrd Brown, P.F. t. 993. Th tcs of sttstc chn trnston: prtr stton. Coputton Lngustcs 9(2):263-3. *Chng, D. 27. Hrrchc phrs-bsd trston. Coputton Lngustcs 33(2):2-228. *Grnn, U. t. 2. Fst dcodng nd opt dcodng for chn trnston. In Proc. of ACL 2. Kohn, P. t. 23. Sttstc phrs-bsd trnston. In Proc. of HLT-NAACL 23. Kohn, P. t. 27. Moss: opn sourc toot for sttstc chn trnston. In Proc. of ACL 27. Mrcu, D. nd W. Wong. 22. A phrs-bsd, ont probbty od for sttstc chn trnston. In Proc. of EMNLP-22. Och, F.J. nd H. Ny. 23. A systtc coprson of vrous sttstc gnnt ods. Coputton Lngustcs 29():9-5. Och, F.J. 23. Mnu rror rt trnng n sttstc chn trnston. In Proc. of ACL 23. *Och, F.J. nd H. Ny. 22. Dscrntv trnng nd xu ntropy ods for sttstc chn trnston. In Proc. of ACL 22. Ppnn, K, t. 22. Bu: thod for utotc vuton of chn trnston. In Proc. of ACL 22. Wvr, W. 947. Th ttr of W. Wvr pprs n hs ppr "Trnston" whch ws pubshd n boo of "Mchn Trnston of Lngugs: Fourtn Essys" dtd by W.N. Loc nd A.D. Booth, 955. (Aso ppr s rprntd n "Rdngs n Mchn Trnston" dtd by S Nrnburg t., 23.) Wu, D. 997. Stochstc nvrson trnsducton grrs nd bngu prsng of pr corpor. Coputton Lngustcs 23(3):377-44. Yd, K., nd K. Knght. 2. A syntx-bsd sttstc trnston od. In Proc. of ACL 2. 9 統計的機械翻訳の概要 言語モデル : ngr モデル 翻訳モデル : フレーズ翻訳モデル デコーダ : Mutstc & B-srch 基本モデル : Nosy Chnn Mod 確率論の復習 ˆ rg x P( f) P( f ) P( ) rg x P( f ) rg x P( f ) P( ) 翻訳モデルデコーダ ( 原言語に対して ( 意味的等価性の意味的に等価でモデル ) 流暢な目的言語を探す ) f: 原言語文 Sourc ngug (forgn ngug or Frnch) : 目的言語 Trgt ngug (Engsh) 言語モデル (( 目的 ) 言語らしさのモデル ) f f f, f,, f,,, 2 2 2 P(): 確率 という事象が起きる確率 例 : P( 曇り ) /3 P(, b): 同時確率 と b という事象が同時に起きる確率 例 : P( 今日曇り, 明日曇り ) /6 P( b): 条件付確率 b という事象が起こった状況で という事象が起きる確率 例 : P( 明日曇り 今日曇り ) /2 定理 ( 定義 ): P( b) P(, b)/ P(b) P(b ) P() / P(b) P() ΣP(, b) : 周辺確率 b ベイズの定理
2 つのモデル デコーダ : 翻訳システム本体 f H t soup wth spoon. 英日方向 f f H t soup wth spoon. 3 スプーン確からしさヘリウムスープ彼食べたとは飲んだをでがに 位置 翻訳モデル P( f ) : 翻訳候補ヘリウム食べたスープとスプーン彼は飲んだスープでスプーン ヘリウムはスプーンでスープを飲んだ 彼はスプーンでスープを飲んだ 言語モデル P() 同じ意味でかつ日本語らしい 4 デコーダ ˆ rg x P( f ) P( ) ヘリウム食べたスープとスプーン 2 彼は食べたスープでスプーン 3 ヘリウム飲んだスプーンとスープ 28459 ヘリウムはスプーンでスープを飲んだ 2846 彼はスプーンでスープを飲んだ 2846 典型例 2 2 2! 翻訳候補数 M f f! ^ 彼はスプーンでスープを飲んだ単語ごとの翻訳候補数 f の文長 以降のスライド 午前 統計的機械翻訳の概要 言語モデル 翻訳モデル デコーダ 午後 フレーズ翻訳モデルの推定 方向のある単語対応 (IBMモデル&GIZA++) 対称化単語対応 フレーズペア抽出 評価指標 (BLEU) Mnu Error Rt Trnng (MERT) 講義では省略 全体概要 モデル推定 その他 統計的機械翻訳の概要 言語モデル : ngr モデル 翻訳モデル : フレーズ翻訳モデル デコーダ : Mutstc & B-srch 5 6 7 ngr モデル ngrモデル n- 重マルコフモデル P() P(, 2,, N ) P ( ) P ( ) P (, ) L P (,,, ) 2 3 2 N 2 N N P (, 2,, ) n- 個前までの単語にのみ依存するとする N P (,,, ) n+ n+ 2 例 : Bgr 2gr : P() P ( ) P( I thn so ) P( My thn so ) 文頭単語 N n : Ungr モデル n2 : Bgr モデル n3 : Trgr モデル P(I w ) P(thn I) P(so thn) 7 億回 万回 スライドに文字化け Goog ヒット数 P(My w ) P(thn My) P(so thn) 8 ngrモデルのパワー Bg trnston 文の単語 ( 文字 ) を乱数ででたらめに入れ換える ngrモデルで元に戻す 例 : 最も高い確率を与える並びを出力とする 彼はスプーンでスープを飲んだ 飲んだ,, を, は, スープ, 彼, スプーン, 彼はスプーンでスープを飲んだ??
正解率6~7 8~9 ~ 2~3 4~5 Bg trnston の実験結果 /2 使用モデル 単語 Trgr (Bc-off Soothng) 訓練データ : 毎日新聞 5 年分 最尤推定の改良 Bg trnston の実験結果 2/2 入力例 : を, て, その,, た, うかがっ,, い, 絶対, で, チャンス, 斉藤, は, の, 自信 完全に正しい復元 (4~5 単語の文で 6% 強 ) 元の文 : 斉藤は絶対の自信で そのチャンスをうかがっていた 復元文 : 同上 8 6 おしい! 元の文 : その後結婚した妻や 2 人の子どもも失った 復元文 : その後結婚した 2 人の妻や子どもも失った 9 4 2 単語数 2 誤った復元 元の文 : 更新には警視庁の担当者が皇居に出張してくる 復元文 : 警視庁の担当者には更新が皇居に出張してくる 言語モデルの研究は終わっている? 言語モデルの性能は重要 ngr モデルの推定 問題 : データのスパースネス trgr モデル & 語彙 万単語, 3 [Pt] 最尤推定の改良 工学的な手法としてはほぼ確立している bc-off soothng や Intrpoton 言語モデルの性能 Prpxty( 小さいほどよい ) 翻訳システムの性能 BLEU( 大きいほどよい ) 英日特許翻訳, フレーズ翻訳モデル 8 万文ペア (NTCIR7), Rordrng モデルなし 研究 2 音声認識の言語モデル 約 年ほど前に研究は下火 言語モデルの性能改善が音声認識率の改善に結びつかない SMT の場合 言語モデルの性能改善は音声認識よりもはるかに翻訳性能の改善に効果がある (?) 22 ngr の次数 ( 学習データ量 8 万文固定 ) 言語モデルの訓練データ量 (ngr は 5gr に固定 ) Prpxty と BLEU はきれいに反比例する Goog ngr T.Brnts t. 27. Lrg ngug ods n chn trnston. EMNLP-CoNLL27. より アラビア語 英語方向 ( 言語モデルは英語 ) 5-gr モデル 統計的機械翻訳の概要 言語モデル : ngr モデル 翻訳モデル : フレーズ翻訳モデル デコーダ : Mutstc & B-srch P.Kohn, F.Och nd D. Mrcu. 23. Sttstc phrs-bsd trnston, NAACL-23, pp.48-54. D. Mrcu nd W.Wong. 22. A phrs-bsd, ont probbty od for SMT, EMNLP-22, pp.33-39. をベースに厳密かつ分かりやすく (?) 改変 ベースシステム 23 : NIST 26 Mchn Trnston Evutonで 位だったGoogのシステム 24 Phrs Agnnt( アラインメント or 対応 ) フレーズ翻訳モデル 歪モデル
小さい単位への分解 Agnnt /3 P( f ) : が f に翻訳される確率 f rns r s s n fg. 2. それ以外は図 2 と同様である フレーズの翻訳確率 t( f ) が与えられていて t( rns それ以外は ).8, t( s s n と同様 ).3, かつ あるフレーズ対応 (Agnnt) が与えられれば P( f )?? 文や単語のように順序関係がない離散確率変数に対する確率分布は表で与えるしか方法がない 文 ( の組 ) は 表にするには多すぎる f rns r s s n fg. 2 それ以外は図 2 と同様である 25 単語または単語列の対訳対の翻訳確率 を組み合わせる フレーズ と呼ぶ 26 P( f,) P( rns それ以外は )P(r である ) P( s s n と同様 )P(fg. 2 図 2) Agnnt 2/3 Agnnt の表現 rns r s s n fg. 2 4 f f f f f f 27 前ページは 2 3 4 4 2 3 4 それ以外は図 2 と同様である と表現し は f を意味する, 2,, 4 上記の例 : :, 2 4, 3 3, 4 2 f P( f, ) P( f ) と書ける 2 2 4 28 2 3 Agnnt 3/3 P( f,) から P( f ) はどうやって求める? P( f ) P( f, ) P( f, ) P( ) f rns r s s n fg. 2 それ以外は図 2 と同様である f rns r s s n fg. 2 それ以外は図 2 と同様である f rns r s s n fg. 2 それ以外は図 2 と同様である P( f, ) P( f ) P(f, ) P(f, 2 ) P(f, 3 ) rordrng モデル 合計が P(f ) Moss の Rordrng モデル P( f ) P( f, ) P( f, ) P( ) f rns r s s n fg. 2 それ以外は図 2 と同様である () 4 2 3 3 (d) (s) 2 4 (s) ( と考える ) 実習のときのオプション sd-bdrcton-f orntton P( ) P(, ) P (, ) P( orntton ) onoton(), f swp(s), f dscontnuous(d), orws. xcsd sd モデル 統計的機械翻訳の概要 言語モデル : ngr モデル 翻訳モデル : フレーズ翻訳モデル デコーダ : Mutstc & B-srch Phroh, Moss ( フレーズベースの代表的 dcodr) 29 C.Tn. 24. A Ungr Orntton Mod for Sttstc Mchn Trnston. HLT-NAACL24. P.Kohn t. 25. Ednburgh Syst Dscrpton for 25 IWSLT Spch Trnston Evuton. IWSLT25. 3
デコーダ 3 デコーダ : 翻訳システム本体 f H t soup wth spoon. ˆ rg x P( f ) P( ) 膨大 P( f, ) P( ) ^ 彼はスプーンでスープを飲んだ なんらかの近似解法が必要 ヘリウム食べたスープとスプーン 2 彼は食べたスープでスプーン 3 ヘリウム飲んだスプーンとスープ 28459 ヘリウムはスプーンでスープを飲んだ 2846 彼はスプーンでスープを飲んだ 2846 翻訳候補数 M f 単語ごとの翻訳候補数 典型例 2 2! f! f の文長 32 2 つの近似 ˆ rg x P( f ) P( ) 膨大 () に対する近似 P( f ) P( f, ) P( ) x P( f, ) P( ) ˆ rg x P( f, ) P( ) P( ) P( f, ) P( ), (2), に対する近似全探索をあきらめる AI における探索問題 33 デコーダの技 職人技 年くらい前までは 文献は IBM の特許だけ 今はかなり公開されているが ノウハウの部分もいまだ多い 基本技 整数計画法単語ベース 局所探索 動的計画法 :DP フレーズベース A* 探索 B-srch (or/& Mutstc) 階層フレーズベース CKYパージング キュービック プルーニングフレーズベースモデルの主流 (?) Mutstc & B-srch 34 f: フレーズ ラティス ( オプション ) 英日翻訳 :( 原言語 英語, 目的言語 日本語 ) H t c. ヘリウム 彼は 食べた 食べた デコーダの選択肢 : フレーズの選択 訳語の位置 を食べた は ケーキ 系統的に全翻訳候補を列挙する方法は? <,> ケーキ フレーズ翻訳モデル H ヘリウム. H 彼は.8 H t 食べた.2 t 食べた.2 t を食べた.7 35 デコーダの選択肢 : フレーズの選択 訳語の位置 系統的な翻訳候補の列挙 f: 系統的な全翻訳候補の列挙 システマティックな選択肢の選択左から右 : H t c. ヘリウム 彼は 食べた 食べた を食べた は ケーキ ケーキ アルゴリズム( 直感的 ): () フレーズを左から順に選択 いろいろあってダメアルゴリズム2( 主流 )(Lft-to-rght 展開 ): () 訳語の位置を左から順に選択 (2) その位置に入れるフレーズを選択 36 デコーダの問題 AI の探索問題 探索木 Lft-to-rght 展開 : まったく翻訳されていない仮説からスタート まだ翻訳されていない f 側フレーズを選択 翻訳フレーズを仮説の 部分の右端に接続 ( 言語モデルの計算をするため ) 仮説の部分翻訳確率を計算する スタート f: H t c. : 確率 :. : 食べた確率 :.7 : ケーキ確率 :.69 : 彼は確率 :.8 : ケーキ確率 :.7 仮説 : f: すでに翻訳した部分 : 翻訳候補 ( 先頭から途中まで ) 確率 : 翻訳した部分の確率 f(h) : 彼は食べた確率 :.76 : 彼はケーキ確率 :.3 : 彼はケーキ確率 :.29
基本探索手法 知識なし探索手法 : Dpth-frst, Brdth-frst 知識あり探索手法 : Bst-frst 仮説 : Bst-frst srch f: すでに翻訳した部分 : 翻訳候補 ( 先頭から途中まで ) 確率 : 翻訳した部分の確率 f(h) Stc dcodr と呼ばれることもある Dpth-frst Bst-frst Brdth-frst 探索 : f: H t c. : 確率 :. : ケーキ確率 :.69 : 彼は確率 :.8 : 食べた確率 :.7 : ケーキ確率 :.7 3 2 : 彼は食べた確率 :.76 : 彼はケーキ確率 :.3 : 彼はケーキ確率 :.29 37 38 Futur cost Bst-frst + Futur cost 39 f(h) の問題 f(h) は部分翻訳確率の * 積 * なので 翻訳が進むほど f(h) が小さくなる 全体で見たとき 翻訳が進んだ仮説は展開されない傾向にある Brdth-frst srch になってしまう 評価値を翻訳された部分の長さに依存しないようにする未翻訳部分の翻訳コスト ( 確率 ) を推測して加える ( 積 ) Futur cost g(h) g(h) がある条件を満たせば A* srch になる 4 Futur cost の例 (Moss) 未翻訳部分のフレーズ翻訳確率 言語モデルはフレーズ内部のみ rordrng モデルは無視 : 確率 :. : ケーキ確率 :.69..69 : 彼は g(h) 確率 :.8..8 : 食べた確率 :.7.2.4 : ケーキ確率 :.7..7 2 動的計画法 (DP or Vtrb) で高速計算できる 未翻訳部分の確率を最大とする組合せ : 彼は食べた確率 :.76..76 : 彼はケーキ確率 :.3.25.78 : 彼はケーキ確率 :.29.3.87 4 Bst-frst srch の問題 B-srch すべての展開仮説を保持するのは困難 枝刈り () 全体で 上位 b 個 (b 幅と呼ばれる ) しか仮説を保持しない (b) 仮説の展開毎に : 確率 :. : ケーキ確率 :.69 : 彼は確率 :.8 : 食べた確率 :.4 f: H t c. : ケーキ確率 :.7 2 : 彼は食べた確率 :.76 : 彼はケーキ確率 :.78 : 彼はケーキ確率 :.87 例えば 全体で上位 3 個しか保持しない場合 (). 42 Mutstc & B-srch 枝刈りつき Bst-frst srrch の問題 Futur cost が真の cost より小さめの場合 翻訳が進んでいない仮説を切りすぎる Futur cost が真の cost より大きめの場合 : 翻訳が進んだ仮説を切りすぎる 結局 未翻訳部分の長さが異なる仮説の優劣を比較すること自体に無理がある 未翻訳部分の長さごとに分けて枝刈りを行う Mutstc & B-srch 現在の主流
Mutstc & B-srch 例 b2 とした場合 Mutstc & B-srch 例 2 f: H t c. : 確率 :. 翻訳部分の長さ毎に異なるスタックを持つ H t c. Sort & Prunng : 彼は確率 :.8 : ケーキ確率 :.69 : 食べた確率 :.7 : 彼は食べた確率 :.76 : 彼はケーキ確率 :.29 : ケーキ確率 :.2 : 彼はケーキ確率 :.3 Sort & Prunng Sort & Prunng 彼はケーキを食べた 43 翻訳単語 翻訳単語 2 翻訳単語 3 44 最後にここの一番上の仮説をとる フレーズ翻訳モデル推定の手順 フレーズ翻訳モデルの推定 フレーズ翻訳モデル推定の手順 方向のある単語対応 対称化単語対応 フレーズペア抽出 手順 () 方向のある単語対応 GIZA++(Och&Ny 23) P( f ) に対して IBM モデルを推定しながら 対訳データの各ペアに対して IBMモデルによる最尤の単語 gnnt ( ˆ rg x P( f, ) ) を計算する 逆方向 P( f ) に対しても同じことをする (2) 対称化単語対応 : Sytrczd word gnnt ヒューリスティックス 各ペアに対して 両方向の単語 gnnt を用いて対称単語対応を得る 例えば : Grow-dg-fn-nd(Kohn t. 25) (3) フレーズ抽出 一貫した対訳フレーズ < f, > を抽出する フレーズ翻訳確率 t( f ) を計算する 45 46 フレーズ翻訳モデル推定の手順 : 例 () 方向のある単語対応 :P(f 日 英 ) それ以外は図 2 と同様である rns r s s n fg. 2 () 方向のある単語対応 :P(f 英 日 ) それ以外は図 2 と同様である rns r s s n fg. 2 フレーズ翻訳モデルの推定 それ以外は図 2 と同様である (2) 対称化単語対応 rns r s s n fg. 2 (3) フレーズ抽出それ以外は図 2 と同様である 積 : のみ 和 : と その他 フレーズ翻訳モデル推定の手順 方向のある単語対応 (IBM モデル &GIZA++) 対称化単語対応 フレーズペア抽出 rns r s s n fg. 2 47 48
翻訳モデル :P( f ) IBM モデル ( 単語に基づく翻訳モデル ) P.F.Brown t.. 993. Th tcs of sttstc chn trnston: Prtr stton. Coputton Lngustcs, 9(2), pgs 263-3. ( http://c.dc.upnn.du/j/j93/j93-23.pdf ) Mod ~5 P( f ) の近似方法の違い だんだん精巧なモデルとなる パラメータ推定 データ : 文対応の対訳コーパス 推定手法 : 最尤推定 (EM アルゴリズム ) Agnnt /4 P( f ) : が f に翻訳される確率 f It s not cr P( f )?? 文や単語のように順序関係がない離散確率変数に対する確率分布は表で与えるしか方法がない 文 ( の組 ) は 表にするには多すぎる 単語対の翻訳確率 を組み合わせる 49 5 Agnnt 2/4 Agnnt 3/4 5 単語の翻訳確率 t( f ) が与えられていて t(ce t).8, t(ne t)., (f と は単語 ) かつ ある単語対応 (Agnnt) が与えられれば f It s not cr P( f,) P(CE t)p(ne not)p(est s)p(pas not)p(clair cr) P( f,) からP( f ) はどうやって求める? P( f ) P( f, ) P( f, ) P( ) これを一様分布とおくのが Mod 52 IBM od における Agnnt の条件 f 側の各単語は 側に対応する単語をそれぞれ つもつ 側の各単語は f 側の ~ 単語に対応する可能性がある 側には空単語 が存在すると仮定する f 側のある単語に対応する 側単語がない場合は に対応させる 2 3 It s not cr It s not cr It s not cr P(f, ) P(f, 2 ) P(f, 3 ) 合計が P(f ) (+) 種類 53 Agnnt 4/4 Agnnt の表現 f f f f f f f 2 3 4 5 2 3 4 It s not cr, 2,, と表現する は f を意味する 5 上記の例 : :, 2 3, 3 2, 4 3, 5 4 f 2 2 3 54 P( f ) P( f, ) P( ) P( f, ) εt( f ) ε IBM Mod IBM Mod は t( f ) だけを用いた翻訳モデル 特長 : EM アルゴリズムで大域的に最適なモデル推定が可能 ( 最尤推定 ) L t( f ) Mod では一様分布とする It s not cr 2 3 4 5
55 翻訳モデルの推定 : 最尤推定 対訳コーパス : D 対訳ペア <f,> の集合 尤度 < f, > 各対訳ペアが独立に生起したと仮定する 最尤推定 尤度を最大とするパラメータを求める 対数尤度 P( f ) LD ( ) og P( f ) < f, > < f, > og P( f ) ˆ rg x LD ( ) ただし 全対訳ペアで共起しない単語ペアを確率ゼロと仮定すると計算する必要はない この場合パラメータは数百万 Modの場合 t ( f ) 最低でも 万 万 億のパラメータ 56 対数尤度 IBM Mod の推定 LD ( { t( f )}) og P( f ) < f, > og ε L t( f ) < f, > const. + og L t( f ) < f, > 目的関数 ( 最大化 ) L( ) og L t( f ) 制約条件 f < f, > t( f ) for. IBM Mod の推定 EMアルゴリズム od od nw nw 現在の を L( ) L( ) を満たすような に更新 ポイント : owr boundの最大化を繰り返す L ( ) T. Mn. 998. Expctton-Mxzton s owr bound xzton. http://rsrch.crosoft.co/~n/pprs/.ht < f, > < f, > < f, > IBM Mod の推定 nw nw L( ) og L t ( f ) nw og t ( f ) nw og t ( f ) t ( f ) nw od og p ( ) < f, > p od ( ) 当たり前?( 説明は次ページ ) od t ( f ) od p ( ) od t ( f ) 57 t t + pr t + 2 t + 3 t + 4 EMアルゴリズムは p を使う ( p ) ( 幾何平均は算術平均より小さいか等しい ) r 58 nw t ( f ) og od p ( ) < f, > < f, > od p ( ) od nw p ( )og t ( f ) + const. Lowr bound, これを最大化する nw L ( ) 59 参考 : L t( f ) t( f ) L t( f ) L t, 上式は 以下の図で パス ( ~ ) 上の t, の積 をあらゆるパスについて和をとったものである 2 3 2 3 t, t, t,2 t,3 t 2, t, t 2, t, t 2,2 t 2,3 同じことは以下の式でもできる (t, + t, + t,2 + t,3 ) (t 2, + t 2, + t 2,2 + t 2,3 ) t t( f ), 6 等式制約条件 : ラグランジュ関数 nw nw λ 最大化 IBM Mod の推定 f t( f ) for. h( ) L( ) + ( P( f ) ) nw h( ) t( f ) f od nw λ < f, > f p ( )og t ( f ) + ( P( f ) ) クロネッカーの δ (ff のとき 他は ) od nw t ( f ) t ( f ) δ( f, f ) δ(, ) od od < f, > t ( f ) + L + t ( f ) 目的関数はもともと上に凸なので 最適解が求まる
6 IBM Mod 推定の解釈 Agnnt が与えられていたら? t(ce It) に投票 だったのが It s not cr t(ce It) Agnnt の数 ( 例では 5) だけ投票 Agnnt が与えられていない場合 It s not cr od nw t ( f ) t ( f ) δ( f, f ) δ(, ) od od < f, > t ( f ) + L + t ( f ) It CE の出現回数 It * の出現回数 t(ce ), t(ce It), t(ce s), t(ce not), t(ce cr) に分配して投票 62 IBM Mod ~5 IBM Mod ~5 Mod : trnston prob. t(f ) Mod 2 : Mod + prutton prob.( 絶対位置 ) Mod 3 : Mod 2 + frtty prob. n(φ ) Mod 4 : Mod 3 の prutton prob. を改良 ( 相対位置 ) Mod 5 : Mod 4 の prutton prob. をさらに改良 Mod 4 : P(f, ) frtty trnston prutton 単語対応数単語対応交換 frtty probbty 目的言語のある単語 が原言語の何単語 (φ ) に対応するか trnston probbty 目的言語のある単語 が原言語の単語 f に対応する ( 訳される ) 確率 prutton probbty 目的言語のある単語 に対応する原言語の単語 f の原言語文中での位置 の確率 ( 直前の目的言語単語 - に対応する原言語単語からの相対位置 :π ) IBM Mod 4 P(f, ) frtty trnston prutton 単語対応数単語対応交換 It s not cr 目的言語単語 : 2 3 4 frttyφ : 2 n(φ ) trnston f : - c st n,ps cr t (f ) 推定実験 /2 実験条件 コーパス :Hnsrds corpus,778,62 英仏文ペア 語彙 : 英 42,5 単語 +, 仏 58,6 単語 モデルパラメータ :(Mod 5) t(f ): 42,6 58,6 2,437,2,96 文ペア内に共起した単語だけを考慮 25,427,6 n(φ ): 5(?) 42,6 d(π ): notの場合の例 prutton π : - 2 -,2 2 63 d(π c( -, f )) 64 P.F.Brown t.. 993. Th tcs of sttstc chn trnston: Prtr stton. Coputton Lngustcs, 9(2), pgs 263-3. not 推定実験 2/2 t(n not).497 n(2 not).735 t(ps not).442 n( not).54 t(non not).29 n( not).7 t( ).497 t( ).27 t(s ).55 n( ).746 n( ).254 o t(ptro o).442 t(ptrors o).38 t(ptror o).9 t( o).54 フレーズ翻訳モデルの最尤推定 フレーズ翻訳モデル P( f ) P( f, ) P P( ) P( f, ) ε P( f ) 単語翻訳モデル (IBM Mod ) P( f ) P( f, ) P( ) ( f, ) 計算量 : ε t( f ) (+) ε t( f ) (+) 現実な計算量かつ大域的最適化を行える美しいアルゴリズム 近似が必要となる Agnnt の可能性が単語のときより膨大 フレーズの階層性の問題 が単語のときよりも複雑 計算量を下げられない 65 P.F.Brown t.. 993. Th tcs of sttstc chn trnston: 単語モデルと最尤推定は相性がよい Prtr stton. Coputton Lngustcs, 9(2), pgs 263-3. 66 ヒューリスティックス
最尤単語アラインメント : GIZA++ GIZA++ IBM Mod (+ HMM) モデルの推定 訓練用対訳文ペアに対して最尤単語アライメント Vtrbアラインメント ˆ rg x P( f, ) 最尤単語アラインメントの計算方法 シンプルなモデルのVtrbアラインメント ( 厳密解 ) を求める - f 側単語に同期させてVtrbアルゴリズムを適用 - Mod, Mod2, HMM 上のVtrbアラインメントを初期値として局所探索でよりよいアラインメントを探す - Mod3 以上 (Frttyが難点) フレーズ翻訳モデルの推定 フレーズ翻訳モデル推定の手順 方向のある単語対応 対称化単語対応 フレーズペア抽出 67 Och, F.J. nd H. Ny. 23. A systtc coprson of vrous sttstc gnnt ods. Coputton Lngustcs 29():9-5. 68 69 目的 対称化単語対応 対称化単語対応 ()IBM モデルは方向のある 対多の gnnt 両方向の 対多の gnnt にしたい (2)IBM モデルの gnnt にも誤りは多い正しそうな対応だけを残したい 最尤単語対応 :P(f 日 英 ) 最尤単語対応 :P(f 英 日 ) 対 それ以外は図 2 と同様である 多 それ以外は図 2 と同様である対 多 rns r s s n fg. 2 rns r s s n fg. 2 それ以外は図 2 と同様である rns r s s n fg. 2 は 以外の対応は正しそう 積 : 和 : のみと 7 最尤単語対応 :P(f 日 英 ) ある で 同様 と 2 図 は 以外 それ rns r s s 対称化単語対応 対称化単語対応 n fg. 2 ある で 同様 と 2 図 は 以外 それ rns r s s 最尤単語対応 :P(f 英 日 ) ある で 同様 と 2 図 は 以外 それ n fg. 2 rns r s s 積 : のみ和 : と grow-dg: n fg. 2 を除く と P.Kohn t. 25. Ednburgh syst dscrpton for 25 IWSLT spch trnston vuton. IWSLT25. 対称化単語対応 : ヒューリスティックス 7 基本 3 種 積 (ntrscton): 両方向共にある対応点のみを用いる gnnt pont 高 prcson, 低 rc 和 (unon): 両方向の対応点をすべて使う 低 prcson, 高 rc 成長 (grow): 積と和の中間 積からスタート ( 和の対応点 ) すでに採用した対応点の周りに候補の対応点を加えていく 周り : grow 縦 横, grow-dg 縦 横 対角 最終処理 ( 追加 )3 種 ( 和の対応点 ) 対応がついてない単語に関する候補対応点を加える fn : 少なくとも片方の言語の単語の単語対応がない場合 fn-nd : 両側言語の単語に単語対応がない場合 最終処理を行わない 72 フレーズ翻訳モデルの推定 フレーズ翻訳モデル推定の手順 方向のある単語対応 対称化単語対応 フレーズペア抽出
あるで同様と 2 図は以外それ 73 対称化単語対応 (grow-dg) 一貫したフレーズペア rns r s s n fg. 2 定義 : フレーズ 連続する単語列フレーズペア 英日のフレーズの対応 左の図のgnntポイントを囲む四角で任意のフレーズペアを表現できる 例 : 左のは と同様 と s s n のペア 一貫したフレーズペア 灰色部分に Agnnt ポイントがないフレーズ 一貫したフレーズペアをすべて取り出す 74 対称化単語対応 (grow-dg) ある で 同様 と 2 図 は 以外 それ rns r s s n fg. 2 一貫しないフレーズペア 対称化単語対応 (grow-dg) ある で 同様 と 2 図 は 以外 それ rns r s s n fg. 2 一貫したフレーズペア 灰色部分に Agnnt ポイントがないフレーズ 75 一貫したフレーズペア ( 別の図 ) 対称化単語対応 (grow-dg) それ以外は図 2 と同様である rns r s s n fg. 2 と同様 s s n 一貫している 対称化単語対応 (grow-dg) それ以外は図 2 と同様である rns r s s n fg. 2 と同様 s s n 一貫しない 一貫したフレーズペア フレーズペア内の単語対応から外に出て行く対応がない あるで同様と 2 図は以外それ 76 対称化単語対応 (grow-dg) フレーズペア抽出 rns r s s n fg. 2 抽出されるフレーズペア ( それ, )( 以外,rns) ( 図, fg.)(2,2)( 同様,s) ( と, s n)( 同様, s) ( である,r)( は図, fg.) ( 以外は, rns) ( 図 2, fg. 2)( である, r ) ( それ以外, rns) ( と同様,s s n) ( それ以外は, rns) ( は図 2, fg. 2) ( 図 2 と, s n fg. 2) ( と同様, s s n) ( 同様である, r s) ( は図 2 と, s n fg. 2) ( と同様である,r s s n) ( 図 2 と同様, s s n fg. 2) ( 図 2 と同様, s s n fg. 2) ( は図 2 と同様, s s n fg. 2) ( は図 2 と同様, s s n fg. 2) 評価方法の種類 77 翻訳性能評価 人手評価 自動評価 - BLEU, WER, NIST 人手評価と自動評価の相関 78 人手評価 (nu vuton) 翻訳結果は最終的に人が読む ( ことが多い ) 翻訳性能 を測る場合は人手評価が基本 欠点 : 高コスト ( 労力 & 時間 ) 自動評価 (ntrnsc vuton) 人手をかけない評価 主に 正解翻訳例との一致率 ( 様々 ) で定義されることが多い 問題 : 人手評価と正確に同じではない 利点 : 正解翻訳例さえあればあとは低労力 少時間 自動評価 (xtrnsc vuton) 人手をかけない評価 翻訳システムを利用したより大きなタスクの達成率で評価 例 : NTCIR-7 の Ptnt Trnston Ts における CLIR 評価
人手評価 Adqucy & Funcy ( 代表的 ) Adqucy: 翻訳結果は正しく意味を伝えているか? Funcy : 翻訳結果は言葉として自然か? 複数の人間によるそれぞれ 5 段階評価の平均 例 (HLT-NAACL26 の SMT Worshop) Adqucy 5: A nng 4: Most nng 3: Much nng 2: Ltt nng : Non Funcy 5: Fwss Engsh 4: Good Engsh 3: Non-ntv Engsh 2: Dsfunt Engsh : Incoprhnsb 自動評価 (ntrnsc vuton) BLEU: BLngu Evuton Undrstudy 翻訳結果とrfrncとの~4grの一致率の幾何平均 短い文にはペナルティ 4.~.で 大きいほどよい BLEU BP 4 pn WER : Word Error Rt ペナルティ 翻訳結果とrfrncの編集距離を正規化 置換 挿入 削除誤りの割合 音声認識におけるいわゆる 認識率.~. で 小さいほどよい NIST trc : NIST( 米国標準技術局 ) の BLEU BLEU の幾何平均を重み付き幾何平均にする 語順よりも単語訳の正しさ ( 特に内容語 ) を重視.~ 無限大で 大きいほどよい n ngr の一致率 PER 語順を無視した WER (Poston-ndpndnt word Error Rt) 79 8 NIST: Nton Insttut of Stndrds & Tchnoogy 8 人手評価と BLEU の相関 P.Kohn nd C.Monz. 26. Mnu nd utotc vuton of chn trnston btwn Europn ngugs. Proc. of worshop on SMT, pgs 2-2. ドイツ語 英語 ( 標準化されている ) ( 標準化されている ) ルールベース SMT ルールベース SMT SMT システム同士の比較では高い相関異種システム (SMT 以外?) の比較には使わない方がよい 82 参考文献など BLEU オリジナルが以下 K.Ppnn t. 22. Bu: thod for utotc vuton of chn trnston. Proc. of ACL22, pgs 3-38. WER Wpd( 英語版 ) の``word rror rt の項 最初に定義 ( 使用 ) したオリジナルな論文は不明 比較的正確に書いてある論文は例えば以下 McCown t. 25. On us of nforton rtrv surs for spch rcognton vuton. IDIAP Rsrch Rport, IDIAP-RR 4-73. NIST trc Wpd( 英語版 ) の``NIST (trc) の項 オリジナルは以下らしいがインターネット上にない (?) ので見たことがない G.Doddngton. 22. Autotc vuton of chn trnston quty usng n- gr co-occurrnc sttstcs. HLT22. (ACL AnthoogyからHLT22だけ全部欠落している ) MERT : Mnu Error Rt Trnng チューニング Mnu Error Rt Trnng og-nr モデル ˆ rg x P ( ) P ( f, ) P ( ), LM ˆ rg x P TM ( ) P RM ( f, ) P ( ), 83 84 λ ˆ rg x f ( f,, ),,, ˆ rg x og f ( f,, ) rg x λ og f ( f,, ) Mnu Error Rt Trnng(MERT): ê がよくなるようにを決める λ 本当は 基本モデルが Nosy Chnn Mod から Dscrntv Mod へとドラスティックに変化しているが 本講義ではそこには立ち入らない 詳しくは [Och&Ny22] など λ
85 MERT : Mnu Error Rt Trnng Mnu Error Rt Trnng(MERT): ê がよくなるようにを決める ê のよさ 翻訳性能評価関数 : BLEU, NIST, WER, いずれも正解例との一致率 MERT: λ ˆ λ rg x v ( st ( λ ), ) n x が 2 段階適用されているので最適化は簡単ではない ( 近似 : 次ページ ) λ st( λ) ˆ rg xλ og f (, ), rf λ v(, ˆ rf ) とおく ( 大きいほどよい ) BLEUは文の集合に対して定義されるので ê や rf は文集合となる rf 86 MERT : Mnu Error Rt Trnng λ ˆ λ rg x v ( st ( λ ), ) n λ st( λ) ˆ rg xλ og f (, ) 具体的な手続き ()λ を初期値に設定する () 現在の λ でデコーダを走らせ N-bst を出力する (2)N-bst の中で rrnng した評価が最大になるように λ を最適化する (3)()~(2) を収束するまで繰り返す (2) の最適化 : Downh spx 各次元で順番に最適化 (N-bst で離散化できる [Och 23]) Pow 法 rf, dvopnt H t c. データ ( 原言語 ) Sh t soup. 87 各モデルの確率 ( 対数 ) 付 N-bst 出力 位 2 位 3 位 dcodr MERT の図解 λ.3, λ.3, λ.3 LM TM RM f H t c. LM TM RM Tot Cost 彼はケーキを食べ -3.8-3. -8. -4.47 ヘリウムがケーキ -3.2-4.3-7.7-4.56 彼がケーキを食べた -2.9-3.5-8.9-4.59 λ og f ( f,, ) λ を更新して繰り返す Tot Cost -4.4-4. -3.99 BLEU や WER の改善 彼はケーキを食べた dvopnt λ 彼女はスープを飲んだ LM.4, λtm.3, λrm.2 データ ( 参照訳 ) 参照と比較すると N-bstの中でどの候補がよいのかが分かる (BLEUやWER) 前半 (2 時間強 ) 訓練データの準備 英日データの分離と前処理 言語モデルの構築 5 万文の日本語テキストと SRILM で 5-gr モデルを作る 88 まとめ : 午後の実習 フレーズ翻訳モデルの構築と確認 Moss のスクリプトでフレーズ翻訳モデルを作成 途中ファイルを確認 方向のある単語アラインメント (IBM モデルの結果 ) 対称化単語アラインメント 抽出されたフレーズテーブル Moss 設定ファイルの作成 ( 英日方向のシステム ) チューニング MERT の実行 翻訳実験と評価 Moss でテスト文 (3 文 ) の翻訳 BLEU 値の計算 後半 ( 時間強 ) 最終課題 指定された条件で全体を繰り返す 89 おまけ : SMT の研究テーマ 言語モデル 音声認識と様子が違う & あまり研究されていないので穴場? 翻訳モデル フレーズモデル推定の脱ヒューリスティックス フレーズモデルの次 : 構文情報をいかに取り込むか Rordrng Mod( 特に日英 ) デコーダ Mutstc & B-srch がベスト? 普通に考えると局所探索がよいに決まっているのだが 自動評価 ルールベースと SMT が比較できる指標 チューニング 対訳データ 2nd Worshop on SMT 27: Topcs of ntrst ncud, but r not td to: word-bsd, phrs-bsd, syntx-bsd SMT usng coprb corpor for SMT usng orphoogc nd POS nforton for SMT ntgrton of ru-bsd MT nd sttstc MT dcodng rror nyss vuton tchnqus for MT しかし いずれを研究するとしても大規模な日英対訳データがないことには面白くない? NTCIR-7 のデータを使いましょう!