Microsoft PowerPoint - ibis_upload.ppt

Similar documents
カイ二乗フィット検定、パラメータの誤差

音響モデル triphone 入力音声 音声分析 デコーダ 言語モデル N-gram bigram HMM の状態確率として利用 出力層 triphone: 3003 ノード リスコア trigram 隠れ層 2048 ノード X7 層 1 Structure of recognition syst


Microsoft Word doc

NLMIXED プロシジャを用いた生存時間解析 伊藤要二アストラゼネカ株式会社臨床統計 プログラミング グループグルプ Survival analysis using PROC NLMIXED Yohji Itoh Clinical Statistics & Programming Group, A

Microsoft PowerPoint - H17-5時限(パターン認識).ppt

生命情報学

統計的データ解析

NLP プログラミング勉強会 6 かな漢字変換 自然言語処理プログラミング勉強会 6 - かな漢字変換 Graham Neubig 奈良先端科学技術大学院大学 (NAIST) 1

Microsoft PowerPoint - …Z…O…†…fi…g…‡…f…‰‡É‡æ‡é™ñ‘oflÅ

Kumamoto University Center for Multimedia and Information Technologies Lab. 熊本大学アプリケーション実験 ~ 実環境における無線 LAN 受信電波強度を用いた位置推定手法の検討 ~ InKIAI 宮崎県美郷

I A A441 : April 15, 2013 Version : 1.1 I Kawahira, Tomoki TA (Shigehiro, Yoshida )

医系の統計入門第 2 版 サンプルページ この本の定価 判型などは, 以下の URL からご覧いただけます. このサンプルページの内容は, 第 2 版 1 刷発行時のものです.

スライド 1

ohpmain.dvi

様々なミクロ計量モデル†

集中理論談話会 #9 Bhat, C.R., Sidharthan, R.: A simulation evaluation of the maximum approximate composite marginal likelihood (MACML) estimator for mixed mu

CVaR

2005 1

Probit , Mixed logit

PowerPoint プレゼンテーション

トピックモデルの応用: 関係データ、ネットワークデータ


Microsoft PowerPoint SIGAL.ppt

PowerPoint プレゼンテーション

N cos s s cos ψ e e e e 3 3 e e 3 e 3 e

Microsoft Word - Time Series Basic - Modeling.doc

3 filename=quantum-3dim110705a.tex ,2 [1],[2],[3] [3] U(x, y, z; t), p x ˆp x = h i x, p y ˆp y = h i y, p z ˆp z = h

GJG160842_O.QXD

微分積分 サンプルページ この本の定価 判型などは, 以下の URL からご覧いただけます. このサンプルページの内容は, 初版 1 刷発行時のものです.

x T = (x 1,, x M ) x T x M K C 1,, C K 22 x w y 1: 2 2

ベイズ統計入門

03.Œk’ì

Microsoft PowerPoint - 資料04 重回帰分析.ppt

Takeuchi, J., and Yamanishi, K.: A Unifying Framework for Detecting Outliers and Change Points from Time Series, IEEE Trans. on Knowledge and Data Eng

入力環境に依存 /a, i, u, e, o / X P(X/W) 入力音声 信号処理 探索 ( デコーダ ) P(W/X) P(W) P(X/W) P(W) 京都 ky o: t o 単語辞書 タスクドメインに依存 京都 + の + 天気 時間 1000 時間 100 時間 10 時間

Kalman ( ) 1) (Kalman filter) ( ) t y 0,, y t x ˆx 3) 10) t x Y [y 0,, y ] ) x ( > ) ˆx (prediction) ) x ( ) ˆx (filtering) )

ばらつき抑制のための確率最適制御

…X…p†[…X’³‚¥›»‡¨‡æ‡Ñ…}…‰…`…J†[…l…‰−w‘K‡Ì‡½‡ß‡Ì“ÅfiK›»…A…‰…S…−…Y…•‡ÆCV†EPR‡Ö‡Ì›žŠp

IPSJ SIG Technical Report Vol.2019-MUS-123 No.23 Vol.2019-SLP-127 No /6/22 Bidirectional Gated Recurrent Units Singing Voice Synthesi

PowerPoint プレゼンテーション

Optical Flow t t + δt 1 Motion Field 3 3 1) 2) 3) Lucas-Kanade 4) 1 t (x, y) I(x, y, t)

Microsoft PowerPoint - survey-sp hori

言語モデルの基礎 2



NLP プログラミング勉強会 5 HMM による品詞推定 自然言語処理プログラミング勉強会 5 隠れマルコフモデルによる品詞推定 Graham Neubig 奈良先端科学技術大学院大学 (NAIST) 1

? (EM),, EM? (, 2004/ 2002) von Mises-Fisher ( 2004) HMM (MacKay 1997) LDA (Blei et al. 2001) PCFG ( 2004)... Variational Bayesian methods for Natural


SAP11_03

3 2 2 (1) (2) (3) (4) 4 4 AdaBoost 2. [11] Onishi&Yoda [8] Iwashita&Stoica [5] 4 [3] 3. 3 (1) (2) (3)

統計学 - 社会統計の基礎 - 正規分布 標準正規分布累積分布関数の逆関数 t 分布正規分布に従うサンプルの平均の信頼区間 担当 : 岸 康人 資料ページ :

基礎統計

OpRisk VaR3.2 Presentation

201711grade1ouyou.pdf

CLEFIA_ISEC発表

ビジネス統計 統計基礎とエクセル分析 正誤表

it-ken_open.key


講義「○○○○」

.2 ρ dv dt = ρk grad p + 3 η grad (divv) + η 2 v.3 divh = 0, rote + c H t = 0 dive = ρ, H = 0, E = ρ, roth c E t = c ρv E + H c t = 0 H c E t = c ρv T

: , 2.0, 3.0, 2.0, (%) ( 2.

Microsoft PowerPoint - qcomp.ppt [互換モード]


日心TWS

Microsoft Word - eviews6_

例 e 指数関数的に減衰する信号を h( a < + a a すると, それらのラプラス変換は, H ( ) { e } e インパルス応答が h( a < ( ただし a >, U( ) { } となるシステムにステップ信号 ( y( のラプラス変換 Y () は, Y ( ) H ( ) X (

Microsoft PowerPoint - 時系列解析(11)_講義用.pptx

スケーリング理論とはなにか? - --尺度を変えて見えること--

Mantel-Haenszelの方法

「産業上利用することができる発明」の審査の運用指針(案)

Microsoft PowerPoint - S11_1 2010Econometrics [互換モード]

Sパラメータによる電子部品の評価

[1] SBS [2] SBS Random Forests[3] Random Forests ii

スライド 1

ii 3.,. 4. F. (), ,,. 8.,. 1. (75% ) (25% ) =9 7, =9 8 (. ). 1.,, (). 3.,. 1. ( ).,.,.,.,.,. ( ) (1 2 )., ( ), 0. 2., 1., 0,.

PowerPoint プレゼンテーション

IPSJ SIG Technical Report GPS LAN GPS LAN GPS LAN Location Identification by sphere image and hybrid sensing Takayuki Katahira, 1 Yoshio Iwai 1

講義「○○○○」

基礎数学I

1.民営化

スライド 1

Microsoft PowerPoint - Compiler03note.pptx

Microsoft PowerPoint - 3.ppt [互換モード]

(MIRU2008) HOG Histograms of Oriented Gradients (HOG)

Microsoft PowerPoint - pr_12_template-bs.pptx

数学の基礎訓練I

スライド 1


Microsoft Word - 補論3.2

chap10.dvi


画像解析論(2) 講義内容

On the Limited Sample Effect of the Optimum Classifier by Bayesian Approach he Case of Independent Sample Size for Each Class Xuexian HA, etsushi WAKA

Microsoft PowerPoint - 第3回2.ppt

動画コンテンツ 動画 1 動画 2 動画 3 生成中の映像 入力音楽 選択された素片 テンポによる伸縮 音楽的構造 A B B B B B A C C : 4) 6) Web Web 2 2 c 2009 Information Processing S

untitled

0 スペクトル 時系列データの前処理 法 平滑化 ( スムージング ) と微分 明治大学理 学部応用化学科 データ化学 学研究室 弘昌

TC1-31st Fuzzy System Symposium (Chofu, September -, 15) cremental Neural Networ (SOINN) [5] Enhanced SOINN (ESOINN) [] ESOINN GNG Deng Evolving Self-

スライド 1

Transcription:

IBIS2009 企画セッション 音響 音声処理と機械学習 音声系列パターン認識のための識別学習 Discriminative Training for Speech Sequential Pattern Recognition NTT コミュニケーション科学基礎研究所 中村篤

1 確率的アプローチによる音声認識 - ベイズ決定則に基づく系列探索 py ( S) ps ( ) ps ( Y) = py ( ) Sˆ = arg max p( S Y) = S arg max py ( S) ps ( ) S 未知入力認識結果認識エンジン Y arg max S 音響モデル ( ; ) py S ΛA 単語発音モデル 言語モデル ( ; ) p S ΛL - 最大尤度基準による ( 生成 ) モデルのパラメータ推定 (X: 学習データ ) Λˆ arg max px ( Sr, X; ΛA ) ps ( r, X; ΛL ) arg max pxs (, r, X Λ) = = Λ Λ X A X F X p X S p X S ML( r, Λ) = (, r, X Λ) Λ ( r, r) Xr Sr : 学習データ特徴量系列 : Xr に対応する正解シンボル系列 最大尤度 は 識別能力の直接向上につながる基準ではない Ŝ

発表の内容 音声系列パターン認識において広く用いられている代表的識別学習手法の概観 最大相互情報量最小識別誤り最小シンボル ( 音素 / 単語 ) 誤り 成り立ちを異にする各手法について基本関数 (ψ- 確率 ) を用いた統一的な解釈 表現 本解釈に基づく各手法の拡張や一般化 ψ- 確率を中心とする目的関数の関係 2

3 識別学習によるモデルパラメータ推定 - 最大相互情報量 (MMI: Maximum Mutual Information) 基準 [Bahl et al. 86; Valtchev et al. 97] I( X, S) = p( X, S)log p( S X) p( X, S)log p( S) X, S X, S pxs (, ) = pxs (, )log + HS ( ) px ( ) X, S 学p ( X, Sr, X Λ ) X px ( Λ ) pxs (, r, X Λ ) X pxs (, Λ ) p Λ ( Xr, Sr) Λ = p Λ ( Xr, S) Λ ˆ = arg max log = Λ arg max log Λ FMMI ( Xr, ) S1 S2 S 昨日 今日 N-best リスト構造 シンボルグラフ ( ラティス ) 構造 の も 北海道都会 認識結果から獲得習データXの

4 大語彙識別学習 - 大語彙識別学習の流れ [McDermot et al. 07] Composition Language models Lexical models Composition Training data Speech samples Reference WFSTs Speech Recognition Engine Reference score(s) & segmentation(s) Reference transcriptions Correct Discriminative Trainer Recognized p Λ ( Xr, Sr) Acoustic models Feedbac Full competitor WFST or lattice-derived subset Competitor score(s) & segmentation(s) p ( X r, S ) Λ 学習データ認識して得られる大規模仮説 (N-best リスト / ラティス ) を利用 超高速音声認識エンジンの恩恵大 仮説 (/ ラティスの弧 ) ごとの偏微分係数 ( F MMI / Λ ) の計算が膨大

大語彙識別学習 ( つづき ) - 並列化による大規模な識別学習の実現 学習後 ˆΛ Training data X Training data データトークン x ( X ) 最適化 データの分割 目的関数の勾配 F ( X, Λ ) トークン別の目的関数値 (, ) f x Λ 計算の並列化 iii トークン別目的関数勾配 f ( x, Λ ) Σ f ( x i; Λ ) f ( x j; Λx ) f ( ; Λ ) iii 学習前 Λ 5

6 最小識別誤り学習 - MCE: Minimum Classification Error 基準 [Katagiri et al. 92; McDermot et al 97] 識別関数 : G i( X r, Λ ) = log ( S) log ( ) L i + X A r Si 1 1 ( X, ) φ dr( Xr, ) = r( Xr, ) + log G Λ 誤分類尺度 : Λ G Λ e C S r S φ 正解に対する識別関数値 不正解に対する識別関数値の一般化平均 損失関数による評価と総和 ( 総損失 ) の最小化によるパラメータ推定 Λˆ = arg min ( d( X, Λ)) Λ X 正例 / 負例を陽に区別し 両者の識別関数値の差を元に誤りの度合い ( 損失 ) を直接定義 計算 r

7 最小識別誤り学習 ( つづき ) - ( シグモイド ) 損失関数 : 1 ( d( X, Λ )) = 1 + exp( η d( X, Λ ) + ν ) 他に単位階段 / 区分線形 / ヒンジ /( 全域 ) 線形損失関数等 1 正解 0 ( d ) 不正解 d - 誤分類尺度の等価変形 φ φ 1 L( S) A( Xr S) S r S dr( Xr, Λ ) = log logc φ φ φ L( Sr) A( Xr Sr) 1 ( Xr, S) S r S 1 = log log C log FMCE ( Xr, Λ ) log C φ ( Xr, Sr) φ p Λ ( XS, p ( X ) r, S) S r S FMCE ( Xr, ) = Λ Λ ( p Λ ( ) ( )) φ L S A X S ( Xr, Sr) ( ) Lattice Smoothing factor

8 最小シンボル (e.g., 音素, 単語 ) 誤り学習 - MPE/MWE: Minimum Phone/Word Error [Povey 02] Sr = = Δ ( Xr, S) Δ ( Sr, S) FMPE ( Xr, Λ ) E[ ( Sr, S )] ( Xr, S) FMPE ( Xr, Λ ) ( Xr, S) = Δ log p ( X, S) Λ ( X, S ) r r p Λ ( Xr, S) が大きくなるよう学習 が小さくなるよう学習 ( ( Sr, S) FMPE( Xr, Λ )) 0: S はみなし正解仮説 > 0: みなし不正解仮説 S1 S2 S Δ ( Sr, S) Δ(, ) は相違尺度正解との相違尺度 = 誤り数 仮説の正 / 誤 という二値尺度の代りに 誤り数 という細粒的尺度を導入陽に正解を意識せず 誤り数の期待値を基準とした大小関係に注目ラティス上で累積期待値を伝播させる特殊な FW-BW アルゴリズム [Povey 02]

9 識別的目的関数 ( 主要部 ) と派生形 -MMI FMMI ( Xr, Λ ) = p Λ ( Xr, Sr) p Λ ( Xr, S) -MCE FMMI ( Xr, Λ ) Δ( Sr, S) 0 = Λ ( Xr, Sr) p ( Xr, S) - MPE/MWE FMPE ( Xr, Λ ) - Boosted MMI [Povey et al. 08] p Λ ( Xr, Sr) FbMMI ( Xr, Λ ) = p Λ ( Xr, S)exp( σ Δ ( Sr, S)) - Boosted MPE/MWE FbMPE ( Xr, Λ ) = = p Λ ( Xr, S) Δ ( Sr, S) ( Xr, S)exp( σ Δ ( Sr, S)) Δ ( Sr, S) ( Xr, S) ( Xr, S)exp( σ Δ ( Sr, S)) Boosting factor 仮説のスパースネスを考慮して確率を補正

識別学習の体系化 / 相互関係性考察 W. Macherey, et al., Investigations on error minimizing training criteria for discriminative training in automatic speech recognition, in Proc. Eurospeech, pp. 2133-2136, 2005. E. McDermott & S. Katagiri: "Discriminative training via minimization of ris estimates based on Parzen smoothing", Journal of Applied Intelligence, Kluwer Academic Publishers, Vol. 25, No. 1, pp. 37-57, August 2006. G. Heigold, et al., Modified MMI/MPE: A direct evaluation of the margin in speech recognition, In Proc. ICML, pp. 384-391, 2008. X. He, et al., Discriminative learning in sequential pattern recognition, IEEE SP Mag. 25, 5, pp. 14-36, September 2008. A. Naamura, et al., "A unified view for discriminative objective functions based on negative exponential of difference measure between strings, " Proc. ICASSP, pp. 1633-1636, (2009) 10

11 目的関数を統一表現する基本関数 - 文字列間相違尺度の逆指数関数 ψ σ ( Xr, Λ ) = p ( Xr, Si)exp( σ Δ( Sr, Si)) = i i Λ ( Xr, S i) X S ( Xr, Sr) i exp( σ Δ( S, S ) ) 1 2 decay rate difference measure between strings - 逆指数 (exp( σδ)) 重みつき確率 / 密度和 (ψ- 確率 ) σ σ 0 σ Δ( Sr, S i) ( r, i) e 0 σ = > 1 0.8 0.6 0.4 0.2 指数関数の一般性 解析的取り回しのよさ 細粒的尺度を介した MMI, MCE の定義へ stands for pseudo (ψευδο) probability 2 4 6 8 10 ψ- 確率をもとにして 既存目的関数 それらの拡張 一般化等を広く統一的に表現できる Δ

ψ- 確率による既存目的関数の表現 (1) -MMI ψ ψ 0 Λ ψ σ ( Xr, Λ ) = p ( Xr, Si)exp( σ Δ) p Λ ( Xr, Sr) = ( Xr, S) FMMI ( Xr, Λ ). (, ) r S S Δ =Δ - Boosted MMI ψ p Λ ( Xr, Sr) = ψ ( σ ) ( Xr, S)exp( σ Δ ) FbMMI ( Xr, Λ ). - MCE (inverted) ψ ψ ψ p ( X, S ) 1 (, ) (, ) (, ) 0 Λ r r = 0 Xr S Xr Sr FMCE Xr Λ. 12

ψ- 確率による既存目的関数の表現 (2) - MPE/MWE (negated) ψ 0 ( Xr, S) Δ = ψ 0 ( Xr, S) ただし FMPE ( Xr, Λ ) ψ υ ψ σ p ( X, S ) e σ Δ = = Δ υ Λ υ = σ Λ ψ σ ( Xr, Λ ) = p ( Xr, Si)exp( σ Δ) r (, ) r S S Δ =Δ 微分操作によって引っ張り出された素の誤り数 - Boosted MPE/MWE (negated) ψ ( σ ) ( Xr, S)exp( σ Δ ) Δ = ψ ( σ ) ( Xr, S)exp( σδ ) FbMPE ( Xr, Λ ). 13

14 識別的目的関数の拡張 一般化 - 一般化 MMI (G-MMI) ψ ψ σ σ 1 2 σ 1 Δ ( Xr, S) e = > σ 2 Δ ( Xr, S) e σ 1, σ 2 = 0 で (Plain) MMIに一致 σ σ ( 1 2) p Λ ( Xr, Sr) p Λ ( Xr, S) Δ に対して急速に減衰 ( 正解の一般化 ) Δ に対して緩やかに減衰 または増大 ( 不正解への Boosting 効果 ) Δ=0 の値のみ Δ の値による減衰無し - 一般化 MCE (G-MCE; inverted) σ 1 ψ Δ σ 1 ( Xr, S) e = ψ σ 2 ψ σ 3 ( X, S ) e ( X, S ) e σ Δ σ Δ 2 3 r r σ 1 = σ 3, σ 2 = 0 で (Plain) MCE に一致 σ σ > σ ( 1 3 2)

G-MMI/MCE における Δ ψ 減衰特性 15

最大類似度学習 - 一般化 MMI 目的関数の等価変形 ψ ψ σ σ 0 1 2 p Λ X S e X S e e = = p X S e p X S e - 最大類似度目的関数 σ 0 ψ ψ σ σ 1 Δ σ Δ σδ ( r, ) ( r, ) σ 2 Δ σ Δ ( r, ) ( r, ) Λ Λ ( = 1 2, = 2) σ σ σ σ σ ( Xr, S)exp( σ Δ( Sr, S)) = E[exp( σ Δ( Sr, S))] ( Xr, S) (0,1]- 正規化類似度 σ を適切に ( 小さく ) 定めることで MPE/MWE を近似通常の FW-BW アルゴリズムでラティスに適用可 16

一般化最小誤りモーメント学習 (1) - 相違尺度 ( 誤り数 ) の累積分布 χδ ( ) = Δ( Sr, S) δ p Λ ( Xr, S) ( Xr, S) - χ(δ) の Laplace-Stieltjes 変換 [ r ] ψ 0 [ χδ ( )] = e σδ dχδ ( ) = E exp( σ Δ( S, S )) ψσ 0 L Laplace Stieltjes Transform Maximum Similarity Objective Function E[ ( Sr, S )] ψ, E ( ( Sr, S )) ψ Δ = Δ =,, E ( Δ ( Sr, S) ) = ( 1) ψ ψ ψ ψ 0 2 0 n n 0 0 0 0 ( n ) 17

18 一般化最小誤りモーメント学習 (2) - 一般化最小誤りモーメント (G-MEM: Generalized Minimum Error Moment; negated) 基準 n n 1 υ Δ( Sr, S) ( 1) ( Xr, S) e ( n ) i 1 ψ σ υ υ= σ σ ( Sr, S) ψ Δ σ ( Xr, S) e σ Δ( Sr, S) n ( Xr, S) e ( Δ ( Sr, S) ) = σ Δ( Sr, S) ( Xr, S) e n ( 1) = ( n = 1,2, ; σ1 σ 2 0) n=1, σ=0 のとき 1 次 ( 原点 ) モーメントとして MPE/MWE (negated) に一致誤り数別 FW-BW アルゴリズム [McDermott & Naamura 08] でラティスに適用可

識別学習目的関数の関係 19

まとめ 音声系列パターン認識において広く用いられている 代表的識別学習手法 : MMI, MCE, MPE/MWE 成り立ちを異にする各手法について 基本関数 (ψ- 確率 ) を用いた統一的な解釈 表現が可能であることを示した 本解釈に基づく各手法の拡張や一般化についても言及し ψ- 確率を中心とする目的関数の関係を示した 以下 補足 ψ- 確率 : ラティス上で相違尺度 ( 誤り数 ) が積形式に分解される 通常の FW-BW アルゴリズムを適用可 ψ- 確率と MPE/MWE の微分解析的関係から数値計算的手法による新たな MPE/MWE の実装を導出 [McDermott et al. 09] 20