ニュラールネットに基づく機械翻訳ニューラルネットに基づく機械翻訳 Graham Neubig 奈良先端科学技術大学院大学 (NAIST)

Size: px

Start display at page:

Download "ニュラールネットに基づく機械翻訳ニューラルネットに基づく機械翻訳 Graham Neubig 奈良先端科学技術大学院大学 (NAIST)"

ねんたろうきちや
5 years ago
Views:

1 ニューラルネットに基づく機械翻訳 Graham Neubig 奈良先端科学技術大学院大学 (NAIST)

2 I am giving a talk at Kyoto University 私は京都大学で講演をしています ( 終 ) 2

3 次の単語確率を推測 F = I am giving a talk P(e= 私 F) = 0.8 P(e= 僕 F) = 0.03 P(e= 講演 F) = e= 私 P(e2= は F, e) = 0.9 P(e2= が F, e) = e2= は P(e3= 講演 F, e,2) = 0.4 P(e3= トーク F, e,2) = e3= 講演... e4= を P(e3= 話 F, e,2) = 0.03 P(e4= を F, e,3) = 0.99 P(e5= しています F, e,4) = 0.4 P(e5= している F, e,4) = P(e5= 行っています F, e,4) = 0.3 P(e5= 行っている F, e,4) = 0. P(e6=( 終 ) F, e,5) = 0.8 P(e6= よ F, e,5) = e5= しています e6= ( 終 ) 3

4 確率モデルつまり機械翻訳は I + P( E F )= i = P(ei F, e 訳出過程 i ) i=0 while ei is not equal to ( 終 ) : i i+ ei argmaxe P(ei F, e,i-) として定式化することができる 4

5 確率の推定法 5

6 翻訳モデル言語モデル翻訳モデル確率 I + P( E F )= i = P(ei F, e i ) いったん入力を忘れて言語モデル確率 I + P( E)= i= P(ei e 問題次の単語の確率 P(e i e i i ) ) をどう計算する 6

7 単語列の数え上げによる確率計算 P(ei e i )= i i c (e ) c (e ) 私は講演をしている </s> 私の勤め先は奈良にある </s> 奈良は大阪に近い </s> P( は <s> 私 ) = c(<s> 私は )/c(<s> 私 ) = / 2 = 0.5 P( の <s> 私 ) = c(<s> 私の )/c(<s> 私 ) = / 2 = 0.5 7

8 数え上げの問題頻度の低い現象に弱い学習私は講演をしている </s> 私の勤め先は奈良にある </s> 奈良は大阪に近い </s> 私の勤め先は大阪にある </s> 確率計算 P( 大阪 <s> 私の勤め先は ) = 0/ = 0 P(E= 私の勤め先は大阪にある </s>) = 0 8

9 履歴の制限 n-gram モデル 2-gram モデル直前の単語のみを利用 I + 入力学習 P( E)= i= P(ei ei ) 私の勤め先は大阪にある </s> 私は講演をしている </s> 私の勤め先は奈良にある </s> 奈良は大阪に近い </s> 3-gram, 4-gram, 5-gram なども + 精度が向上 - メモリ量スパース性の問題が悪化 9

10 対数線形言語モデル [Chen+ 00] () より柔軟な確率計算法履歴の単語に基づいて全単語のスコア s を計算 s (e i i n+ n )=b+ k = w k, e i k ei-2= 勤め先 ei-= はは 3.0 が 2.5 奈良 b = -0.2 同僚 0. 行う.2 w, は = w2, 勤め先 = s =

11 対数線形言語モデル [Chen+ 00] (2) 確率計算のためスコアの指数を取り正規化 p (ei=x e i i n+ )= e s(ei= x ei i n +) ~x e s(e i =~ x e ii n+) ベクトルに対して行う際 softmax 関数とも言う p(ei e はが奈良同僚行う i i n s = )=softmax ( s(ei e softmax p= i i n ))

12 対数線形モデルの学習確率的勾配降下法 (SGD) を利用することが多い学習データの各単語 ei に対してパラメータ w をどの方向に動かしたら正解の確率が良くなりそうかを計算 d i δ= p (ei ei n+) dw ( 尤度の勾配 ) これを学習率 α にかけてパラメータを更新 w w +α δ 2

13 問題変数の相互作用をうまく表現できていない勤め先は奈良勤め先は同僚勤め先の奈良勤め先の同僚単純と足し合わせるだけでは表現不可解決策は勤め先はなどの単語列もパラメータ化奈良同僚 w2,, 勤め先, は = w2,, 勤め先, の = パラメータ数メモリの爆発ニューラルネット 3

14 ニューラルネット 4

15 対数線形モデルの概念図 ei- ei-2 W W2 soft max pi b ( n pi=softmax b+ k = W k e i k ei- と ei-2 は各単語に当たるだけがの one-hot ベクトルは ei- = {, ei-2 = {0, が 0, 0, 奈良同僚勤め先 0, 0, 0, 0, 0,, W, W2 は重み行列 b は重みベクトル...}...} 5 )

16 ニューラルネット入力と出力の間に非線形関数を計算する隠れ層を追加 ei- W W2 ei-2 b tanh Wh hi soft max pi ( n hi=tanh b+ k = W k ei k ) pi=softmax ( W h hi ) tanh

17 ニューラルネットで何ができるか特徴量が学習可能例話者本人が主語の文脈 { 私, 僕, 俺 } { は, が } はが私僕 W2[]= 奈良同僚俺 W[]= 私は tanh() b[]=- 彼は tanh(-) 彼の tanh(-3) 両方が成り立てば隠れ層の１ノード目は正の値そうでなければ負の値数え上げなら全パターンを覚える必要あり 7

18 ニューラルネット言語モデル [Nakamura+ 90, Bengio+ 06] <s> <s> this is a pen </s> 低次元隠れ層で出力の類似性を考慮単語表現で文脈の類似性を考慮文脈のすべての単語を直接考慮するため未知語を含めた文脈で壊れない 8

19 ニューラルネットの学習逆伝搬勾配を出力に近い方から逆順に伝搬 ei- W W2 ei-2 b δh tanh 逆伝搬 Wh hi soft max δp pi 正解と比較して直接計算 9

20 リカレントニューラルネット 20

21 リカレントニューラルネット (RNN) ノードの一部の出力が入力として戻ってくる ei- W W2 ei-2 b Wr tanh Wh hi soft max pi 理由長距離に渡る依存性の記憶が可能 2

22 系列モデルとしての RNN y y2 y3 y4 NET NET NET NET x x2 x3 x4 22

23 リカレントニューラルネット言語モデル [Mikolov+ 0] <s> <s> this is a pen </s> 以前の単語を記憶する機械翻訳音声認識などで精度の向上を実現 23

24 RNN の勾配計算 y δ δo, y2 δ δo,2 y3 δ δo,3 y4 δo,4 δ NET NET NET NET x x2 x3 x4 まず系列のネット結果全体を計算後ろからエラーを計算 24

25 ニューラルネットにおける消える勾配極微 y δ 微 y2 δ 小 y3 δ 中 y4 δo,4 δ NET NET NET NET x x2 x3 x4 25

26 Long Short-term Memory [Hochreiter+ 97] 線形関数を使った隠れ状態ゲートで勾配をコントロール 26

27 Encoder-Decoder 翻訳モデル [Kalchbrenner+ 3, Sutskever+ 4] 27

28 LSTM ニューラルネット翻訳モデル [Sutskever+ 4] this is pen </s> これはペンです a これはペンです </s> つまり入力言語で条件付けられた言語モデル I + P(e f )= i = P(ei f, e I J J i ) 28

29 訳文の生成 this is a pen </s> これはペンですこれは入力文をエンコードペンです </s> 一単語ずつ生成 J argmax e P(ei f, e i i ) 29

30 詳細入力を逆順にする学習が容易に pen a ビーム探索 is this </s> これはペンですこれはペンです </s> モデルのアンサンブル 30

31 疑問１本当にそれだけで翻訳できるか 3

32 日英における再現実験旅行会話.6 万文で学習 BLEU RIBES Moses PBMT Encoder-Decoder

33 疑問２人手で評価しても通用するか再現実験はいある程度は入力: バスタブからお湯があふれてしまいました正解: the hot water overflowed from the bathtub. PBMT the hot water up the bathtub. EncDec:the bathtub has overflowed. 入力: コーヒーのクリーム入りをください正解: i 'll have some coffee with cream, please. PBMT: cream of coffee, please. EncDec: i 'd like some coffee with cream. 33

34 ただし問題はあるあきらめ入力: 正解: PBMT: EncDec: ギブスをしなければなりません you 'll have to have a cast. i have a ギブス. you have to have a chance. 繰り返し入力: 正解: PBMT: EncDec: どのファンデーションが私の肌の色に近いですか which foundation comes close to my natural skin color? which foundation near my natural skin color? which foundation is my favorite foundation with a foundation? 34

35 注意型ニューラルネットに基づく翻訳 35

36 疑問３可変長の文を一定のベクトルで表せるか no? [Pouget-Abadie+ 204] yes? [Sutskever+ 204] PBMT RNN 36

37 注意型ニューラル翻訳 [Bahdanau+ 5] 対象の文をエンコーディングし文のどこに注意するかを決定しながら翻訳 37

38 再現実験日英旅行対話.6 万文で学習 Moses PBMT Encoder-Decoder Attentional BLEU RIBES

39 従来法との組み合わせリランキング 39

40 リランキング従来のシステムから結果を出しニューラル翻訳のスコアを使いながら選択出力入力候補生成出力 2 出力 3 スコア付け選択 40

41 [Sutskever+ 204] の結果英語フランス語 Workshop on Machine Translation 204 4

42 Workshop on Asian Translation における日本語を用いた実験ベースラインは構文情報を用いる強いシステムすべての言語自動人手評価で一貫して大きな性能向上 en-ja ja-en zh-ja ja-zh Baseline Reranking Baseline Reranking Baseline Reranking Baseline Reranking BLEU RIBES HUMAN

43 実例入力另外各国也进行了本国销售的食品的实态调查正解また各国でも自国で販売している食品の実態調査が行われた Base: また各国は自国販売の食品の実態調査を行った Rerank:また各国でも本邦で販売される食品の実態調査を行った入力: 在此以研究教育现场的风险交流的实情为前提整理了如下项目正解: ここでは教育現場におけるリスクコミュニケーションのあり方を検討するための前提を以下の項目に分けて整理した Base: ここではリスクコミュニケーションの教育現場研究の実情を前提として以下の項目について整理した Rerank: ここでは教育現場におけるリスクコミュニケーションの実態を前提 43 として以下の項目について整理した

44 今後の課題 44

45 大語彙学習の都合上出力語彙が増えると大変低頻度後に弱い未知語処理で対応 [Luong+ 5] 効率的な学習法ノイズ対照推定 (NCE) [Vaswani+ 3] 学習データの分割 [Jean+ 5] 45

46 統語形態論情報の利用現在は言語構造はいっさい未考慮統語情報を使った事前並べ替え系列モデル [ 外山 +5] 統語情報を考慮したニューラルネットは利用可 [Socher+, Luong+3] 46

47 制御可能性細かく訳出結果を制御することは不可今のところデータの追加以外の改良法はない 47

48 参考資料文献 Kevin Duh: Deep Learning for Machine Translation D. Bahdanau, K. Cho, and Y. Bengio. Neural machine translation by jointly learning to align and translate. In Proc. ICLR, 205. Y. Bengio, H. Schwenk, J.-S. Sen ecal, F. Morin, and J.-L. Gauvain. Neural probabilistic language models. In Innovations in Machine Learning, S. F. Chen and R. Rosenfeld. A survey of smoothing techniques for me models. Speech and Audio Processing, IEEE Transactions on, 8():37 50, Jan S. Hochreiter and J. Schmidhuber. Long short-term memory. Neural computation, 9(8): , 997. S. Jean, K. Cho, R. Memisevic, and Y. Bengio. On using very large target vocabulary for neural machine translation. In Proc. ACL, 205. N. Kalchbrenner and P. Blunsom. Recurrent continuous translation models. In Proc. EMNLP, pages , Seattle, Washington, USA, 203. Association for Computational Linguistics. M.-T. Luong, I. Sutskever, Q. Le, O. Vinyals, and W. Zaremba. Addressing the rare word problem in neural machine translation. In Proc. ACL, 205. T. Luong, R. Socher, and C. Manning. Better word representations with recursive neural networks for morphology. pages 04 3, 203. T. Mikolov, M. Karafi at, L. Burget, J. Cernocky`, and S. Khudanpur. Recurrent neural network based language model. In Proc. InterSpeech, pages , 200. M. Nakamura, K. Maruyama, T. Kawabata, and K. Shikano. Neural network approach to word category prediction for English texts. In Proc. COLING, 990. R. Socher, C. C. Lin, C. Manning, and A. Y. Ng. Parsing natural scenes and natural language with recursive neural networks. pages 29 36, 20. I. Sutskever, O. Vinyals, and Q. V. Le. Sequence to sequence learning with neural networks. In Proc. NIPS, pages , A. Vaswani, Y. Zhao, V. Fossum, and D. Chiang. Decoding with large-scale neural language models improves translation. In Proc. EMNLP, pages , 203.

49 追加資料 49

50 NN に関する考え方 (980 年代ごろ ) 生理学的解釈を重視 50 画像 Wikipedia

51 NN に対する考え方 (200 年代 ) pt wr,h ht- wr,x xt b r bo softmax wo,h tanh pt+ wr,h ht wr,x xt+ b bo softmax wo,h ht+ tanh r ただの微分可能な関数のつながり 5

言語モデルの基礎 2

自然言語処理プログラミング勉強会 1 1-gram 言語モデル Graham Neubig 奈良先端科学技術大学院大学 (NAIST) 1 言語モデルの基礎 2 言語モデル英語の音声認識を行いたい時にどれが正解英語音声 W1 = speech recognition system W2 = speech cognition system W3 = speck podcast histamine

ニュラールネットに基づく機械翻訳 ニューラルネットに 基づく機械翻訳 Graham Neubig 奈良先端科学技術大学院大学 (NAIST)

ニュラールネットに基づく機械翻訳ニューラルネットに基づく機械翻訳 Graham Neubig 奈良先端科学技術大学院大学 (NAIST)