IBIS2009 企画セッション 音響 音声処理と機械学習 音声系列パターン認識のための識別学習 Discriminative Training for Speech Sequential Pattern Recognition NTT コミュニケーション科学基礎研究所 中村篤
1 確率的アプローチによる音声認識 - ベイズ決定則に基づく系列探索 py ( S) ps ( ) ps ( Y) = py ( ) Sˆ = arg max p( S Y) = S arg max py ( S) ps ( ) S 未知入力認識結果認識エンジン Y arg max S 音響モデル ( ; ) py S ΛA 単語発音モデル 言語モデル ( ; ) p S ΛL - 最大尤度基準による ( 生成 ) モデルのパラメータ推定 (X: 学習データ ) Λˆ arg max px ( Sr, X; ΛA ) ps ( r, X; ΛL ) arg max pxs (, r, X Λ) = = Λ Λ X A X F X p X S p X S ML( r, Λ) = (, r, X Λ) Λ ( r, r) Xr Sr : 学習データ特徴量系列 : Xr に対応する正解シンボル系列 最大尤度 は 識別能力の直接向上につながる基準ではない Ŝ
発表の内容 音声系列パターン認識において広く用いられている代表的識別学習手法の概観 最大相互情報量最小識別誤り最小シンボル ( 音素 / 単語 ) 誤り 成り立ちを異にする各手法について基本関数 (ψ- 確率 ) を用いた統一的な解釈 表現 本解釈に基づく各手法の拡張や一般化 ψ- 確率を中心とする目的関数の関係 2
3 識別学習によるモデルパラメータ推定 - 最大相互情報量 (MMI: Maximum Mutual Information) 基準 [Bahl et al. 86; Valtchev et al. 97] I( X, S) = p( X, S)log p( S X) p( X, S)log p( S) X, S X, S pxs (, ) = pxs (, )log + HS ( ) px ( ) X, S 学p ( X, Sr, X Λ ) X px ( Λ ) pxs (, r, X Λ ) X pxs (, Λ ) p Λ ( Xr, Sr) Λ = p Λ ( Xr, S) Λ ˆ = arg max log = Λ arg max log Λ FMMI ( Xr, ) S1 S2 S 昨日 今日 N-best リスト構造 シンボルグラフ ( ラティス ) 構造 の も 北海道都会 認識結果から獲得習データXの
4 大語彙識別学習 - 大語彙識別学習の流れ [McDermot et al. 07] Composition Language models Lexical models Composition Training data Speech samples Reference WFSTs Speech Recognition Engine Reference score(s) & segmentation(s) Reference transcriptions Correct Discriminative Trainer Recognized p Λ ( Xr, Sr) Acoustic models Feedbac Full competitor WFST or lattice-derived subset Competitor score(s) & segmentation(s) p ( X r, S ) Λ 学習データ認識して得られる大規模仮説 (N-best リスト / ラティス ) を利用 超高速音声認識エンジンの恩恵大 仮説 (/ ラティスの弧 ) ごとの偏微分係数 ( F MMI / Λ ) の計算が膨大
大語彙識別学習 ( つづき ) - 並列化による大規模な識別学習の実現 学習後 ˆΛ Training data X Training data データトークン x ( X ) 最適化 データの分割 目的関数の勾配 F ( X, Λ ) トークン別の目的関数値 (, ) f x Λ 計算の並列化 iii トークン別目的関数勾配 f ( x, Λ ) Σ f ( x i; Λ ) f ( x j; Λx ) f ( ; Λ ) iii 学習前 Λ 5
6 最小識別誤り学習 - MCE: Minimum Classification Error 基準 [Katagiri et al. 92; McDermot et al 97] 識別関数 : G i( X r, Λ ) = log ( S) log ( ) L i + X A r Si 1 1 ( X, ) φ dr( Xr, ) = r( Xr, ) + log G Λ 誤分類尺度 : Λ G Λ e C S r S φ 正解に対する識別関数値 不正解に対する識別関数値の一般化平均 損失関数による評価と総和 ( 総損失 ) の最小化によるパラメータ推定 Λˆ = arg min ( d( X, Λ)) Λ X 正例 / 負例を陽に区別し 両者の識別関数値の差を元に誤りの度合い ( 損失 ) を直接定義 計算 r
7 最小識別誤り学習 ( つづき ) - ( シグモイド ) 損失関数 : 1 ( d( X, Λ )) = 1 + exp( η d( X, Λ ) + ν ) 他に単位階段 / 区分線形 / ヒンジ /( 全域 ) 線形損失関数等 1 正解 0 ( d ) 不正解 d - 誤分類尺度の等価変形 φ φ 1 L( S) A( Xr S) S r S dr( Xr, Λ ) = log logc φ φ φ L( Sr) A( Xr Sr) 1 ( Xr, S) S r S 1 = log log C log FMCE ( Xr, Λ ) log C φ ( Xr, Sr) φ p Λ ( XS, p ( X ) r, S) S r S FMCE ( Xr, ) = Λ Λ ( p Λ ( ) ( )) φ L S A X S ( Xr, Sr) ( ) Lattice Smoothing factor
8 最小シンボル (e.g., 音素, 単語 ) 誤り学習 - MPE/MWE: Minimum Phone/Word Error [Povey 02] Sr = = Δ ( Xr, S) Δ ( Sr, S) FMPE ( Xr, Λ ) E[ ( Sr, S )] ( Xr, S) FMPE ( Xr, Λ ) ( Xr, S) = Δ log p ( X, S) Λ ( X, S ) r r p Λ ( Xr, S) が大きくなるよう学習 が小さくなるよう学習 ( ( Sr, S) FMPE( Xr, Λ )) 0: S はみなし正解仮説 > 0: みなし不正解仮説 S1 S2 S Δ ( Sr, S) Δ(, ) は相違尺度正解との相違尺度 = 誤り数 仮説の正 / 誤 という二値尺度の代りに 誤り数 という細粒的尺度を導入陽に正解を意識せず 誤り数の期待値を基準とした大小関係に注目ラティス上で累積期待値を伝播させる特殊な FW-BW アルゴリズム [Povey 02]
9 識別的目的関数 ( 主要部 ) と派生形 -MMI FMMI ( Xr, Λ ) = p Λ ( Xr, Sr) p Λ ( Xr, S) -MCE FMMI ( Xr, Λ ) Δ( Sr, S) 0 = Λ ( Xr, Sr) p ( Xr, S) - MPE/MWE FMPE ( Xr, Λ ) - Boosted MMI [Povey et al. 08] p Λ ( Xr, Sr) FbMMI ( Xr, Λ ) = p Λ ( Xr, S)exp( σ Δ ( Sr, S)) - Boosted MPE/MWE FbMPE ( Xr, Λ ) = = p Λ ( Xr, S) Δ ( Sr, S) ( Xr, S)exp( σ Δ ( Sr, S)) Δ ( Sr, S) ( Xr, S) ( Xr, S)exp( σ Δ ( Sr, S)) Boosting factor 仮説のスパースネスを考慮して確率を補正
識別学習の体系化 / 相互関係性考察 W. Macherey, et al., Investigations on error minimizing training criteria for discriminative training in automatic speech recognition, in Proc. Eurospeech, pp. 2133-2136, 2005. E. McDermott & S. Katagiri: "Discriminative training via minimization of ris estimates based on Parzen smoothing", Journal of Applied Intelligence, Kluwer Academic Publishers, Vol. 25, No. 1, pp. 37-57, August 2006. G. Heigold, et al., Modified MMI/MPE: A direct evaluation of the margin in speech recognition, In Proc. ICML, pp. 384-391, 2008. X. He, et al., Discriminative learning in sequential pattern recognition, IEEE SP Mag. 25, 5, pp. 14-36, September 2008. A. Naamura, et al., "A unified view for discriminative objective functions based on negative exponential of difference measure between strings, " Proc. ICASSP, pp. 1633-1636, (2009) 10
11 目的関数を統一表現する基本関数 - 文字列間相違尺度の逆指数関数 ψ σ ( Xr, Λ ) = p ( Xr, Si)exp( σ Δ( Sr, Si)) = i i Λ ( Xr, S i) X S ( Xr, Sr) i exp( σ Δ( S, S ) ) 1 2 decay rate difference measure between strings - 逆指数 (exp( σδ)) 重みつき確率 / 密度和 (ψ- 確率 ) σ σ 0 σ Δ( Sr, S i) ( r, i) e 0 σ = > 1 0.8 0.6 0.4 0.2 指数関数の一般性 解析的取り回しのよさ 細粒的尺度を介した MMI, MCE の定義へ stands for pseudo (ψευδο) probability 2 4 6 8 10 ψ- 確率をもとにして 既存目的関数 それらの拡張 一般化等を広く統一的に表現できる Δ
ψ- 確率による既存目的関数の表現 (1) -MMI ψ ψ 0 Λ ψ σ ( Xr, Λ ) = p ( Xr, Si)exp( σ Δ) p Λ ( Xr, Sr) = ( Xr, S) FMMI ( Xr, Λ ). (, ) r S S Δ =Δ - Boosted MMI ψ p Λ ( Xr, Sr) = ψ ( σ ) ( Xr, S)exp( σ Δ ) FbMMI ( Xr, Λ ). - MCE (inverted) ψ ψ ψ p ( X, S ) 1 (, ) (, ) (, ) 0 Λ r r = 0 Xr S Xr Sr FMCE Xr Λ. 12
ψ- 確率による既存目的関数の表現 (2) - MPE/MWE (negated) ψ 0 ( Xr, S) Δ = ψ 0 ( Xr, S) ただし FMPE ( Xr, Λ ) ψ υ ψ σ p ( X, S ) e σ Δ = = Δ υ Λ υ = σ Λ ψ σ ( Xr, Λ ) = p ( Xr, Si)exp( σ Δ) r (, ) r S S Δ =Δ 微分操作によって引っ張り出された素の誤り数 - Boosted MPE/MWE (negated) ψ ( σ ) ( Xr, S)exp( σ Δ ) Δ = ψ ( σ ) ( Xr, S)exp( σδ ) FbMPE ( Xr, Λ ). 13
14 識別的目的関数の拡張 一般化 - 一般化 MMI (G-MMI) ψ ψ σ σ 1 2 σ 1 Δ ( Xr, S) e = > σ 2 Δ ( Xr, S) e σ 1, σ 2 = 0 で (Plain) MMIに一致 σ σ ( 1 2) p Λ ( Xr, Sr) p Λ ( Xr, S) Δ に対して急速に減衰 ( 正解の一般化 ) Δ に対して緩やかに減衰 または増大 ( 不正解への Boosting 効果 ) Δ=0 の値のみ Δ の値による減衰無し - 一般化 MCE (G-MCE; inverted) σ 1 ψ Δ σ 1 ( Xr, S) e = ψ σ 2 ψ σ 3 ( X, S ) e ( X, S ) e σ Δ σ Δ 2 3 r r σ 1 = σ 3, σ 2 = 0 で (Plain) MCE に一致 σ σ > σ ( 1 3 2)
G-MMI/MCE における Δ ψ 減衰特性 15
最大類似度学習 - 一般化 MMI 目的関数の等価変形 ψ ψ σ σ 0 1 2 p Λ X S e X S e e = = p X S e p X S e - 最大類似度目的関数 σ 0 ψ ψ σ σ 1 Δ σ Δ σδ ( r, ) ( r, ) σ 2 Δ σ Δ ( r, ) ( r, ) Λ Λ ( = 1 2, = 2) σ σ σ σ σ ( Xr, S)exp( σ Δ( Sr, S)) = E[exp( σ Δ( Sr, S))] ( Xr, S) (0,1]- 正規化類似度 σ を適切に ( 小さく ) 定めることで MPE/MWE を近似通常の FW-BW アルゴリズムでラティスに適用可 16
一般化最小誤りモーメント学習 (1) - 相違尺度 ( 誤り数 ) の累積分布 χδ ( ) = Δ( Sr, S) δ p Λ ( Xr, S) ( Xr, S) - χ(δ) の Laplace-Stieltjes 変換 [ r ] ψ 0 [ χδ ( )] = e σδ dχδ ( ) = E exp( σ Δ( S, S )) ψσ 0 L Laplace Stieltjes Transform Maximum Similarity Objective Function E[ ( Sr, S )] ψ, E ( ( Sr, S )) ψ Δ = Δ =,, E ( Δ ( Sr, S) ) = ( 1) ψ ψ ψ ψ 0 2 0 n n 0 0 0 0 ( n ) 17
18 一般化最小誤りモーメント学習 (2) - 一般化最小誤りモーメント (G-MEM: Generalized Minimum Error Moment; negated) 基準 n n 1 υ Δ( Sr, S) ( 1) ( Xr, S) e ( n ) i 1 ψ σ υ υ= σ σ ( Sr, S) ψ Δ σ ( Xr, S) e σ Δ( Sr, S) n ( Xr, S) e ( Δ ( Sr, S) ) = σ Δ( Sr, S) ( Xr, S) e n ( 1) = ( n = 1,2, ; σ1 σ 2 0) n=1, σ=0 のとき 1 次 ( 原点 ) モーメントとして MPE/MWE (negated) に一致誤り数別 FW-BW アルゴリズム [McDermott & Naamura 08] でラティスに適用可
識別学習目的関数の関係 19
まとめ 音声系列パターン認識において広く用いられている 代表的識別学習手法 : MMI, MCE, MPE/MWE 成り立ちを異にする各手法について 基本関数 (ψ- 確率 ) を用いた統一的な解釈 表現が可能であることを示した 本解釈に基づく各手法の拡張や一般化についても言及し ψ- 確率を中心とする目的関数の関係を示した 以下 補足 ψ- 確率 : ラティス上で相違尺度 ( 誤り数 ) が積形式に分解される 通常の FW-BW アルゴリズムを適用可 ψ- 確率と MPE/MWE の微分解析的関係から数値計算的手法による新たな MPE/MWE の実装を導出 [McDermott et al. 09] 20