Microsoft PowerPoint - …Z…O…†…ﬁ…g…‡…f…‰‡É‡æ‡é™ñ‘oﬂÅ

セグメントモデルによる音声認識 NTTコミュニケーション科学基礎研究所南泰浩

セグメントモデルとは? HMM の欠点継続時間モデルが導入されていない状態内の観測系列の時間依存性を反映できない改良セグメントモデル

HMM とセグメントモデルの違い y t y 1 y 2 y 3 y T P s (y t ) P a,t (y 1,y 2,y 3 y T ) s HMM a P(T a) セグメントモデル

セグメントモデルの分類継続時間長制御モデル条件付ガウスモデル動的システムモデルグラフィカルモデル ( ベイジアンネットワーク ) 制約付平均トラジェクトリモデルパラメトリックノンパラメトリック非線形モデル生成モデル

セグメントモデルの分類継続時間長制御モデル条件付分布 ( ガウス ) モデル動的システムモデルグラフィカルモデル ( ベイジアンネットワーク ) 制約付平均トラジェクトリモデルパラメトリックノンパラメトリック非線形モデル生成モデル

条件付分布 ( ガウス ) モデル出力確率を以下のように近似 P a, T (y 1,y 2,y 3 y T ) =ΠP(y t y t-1, a) (Wellekens, 高橋 ) より複雑な条件付確率 P(y t y t-3,y t-2,y t-1,a) ( 中川 )

グラフィカルモデルグラフィカルモデルとは? 依存関係をグラフを用いる統計モデルで表現したもの例因子分析確率的主成分分析独立成分分析 X 1 X K Λ Y 1 Y 2 Y D 以下 Ghahramani に基づくグラフィカルモデルの分類

グラフィカルモデル無向グラフィカルモデルマルコフネットワーク例ボルツマンマシンマルコフランダムフィールド

グラフィカルモデル有向グラフィカルモデル非巡回ベイジアンネットワーク A P(A,B,C,D) = P(A)P(C A)P(D C)P(B C,D) C A, B, C, D は離散連続確率変数 ( 隠れ変数の場合もある ) B D

グラフィカルモデルダイナミックベイジアンネットワーク (DBN) ベイジアンネットワークを時系列変数を扱えるように拡張 HMM 線形動的システムを含む大きなモデル HMM/ASR ダイナミックベイジアンネット *CLSP WS2001 より

グラフィカルモデル例 HMMとの対応 ( 隠れ変数が離散値 ) X 1 X 2 X 3 X 4 Y 1 Y 2 Y 3 Y 4 P(x 1,x 2 x T,y 1,y 2 y T )=P(x 1 )P(y 1 x 1 ) Π P(x t x t-1 )P(y t x t ) P(y t x t ): 出力確率 ( 密度 ) P(x t x t-1 ): 遷移確率 X t : 状態確率変数 ( 離散値 )

グラフィカルモデル例線形ガウス状態モデルとの対応 ( 隠れ変数が連続値 ) X 1 X 2 X 3 X 4 Y 1 Y 2 Y 3 Y 4 P(x 1,x 2 x T,y 1,y 2 y T )=P(x 1 )P(y 1 x 1 ) Π P(x t x t-1 )P(y t x t ) P(y t x t ): y t =Cx t +v t P(x t x t-1 ): x t = Ax t-1 +w t X t : 状態確率変数 ( 連続値 ) w t, v t : 無相関 0 平均ガウスノイズベクトル

グラフィカルモデルベイジアンネットによる音声認識条件付分布 ( ガウス ) モデルの拡張 (Zweig) X 1 X 2 X 3 X 4 ベクトルの各要素 P(Y t Y t-1 ) を表現より複雑条件付モデル Y 1 Y 2 Y 3 Y 4

グラフィカルモデルベイジアンネットによる音声認識様々な変数の依存関係を記述できる X 1 X 2 X 3 X 4 Deviren Y 1 Y 2 Y 3 Y 4

グラフィカルモデルベイジアンネットによる音声認識モデル構造 ( 依存関係 ) の決定も可能尤度 +MDL 識別的構造学習法 (Zweig) ベイジアンネットの難しさ理論実際の音声認識 GMTK: ツールキット (Bilmes) パラメータ数データ量

生成モデル音声生成系を考慮して音声認識をモデル化音声の連続性の拘束条件を導入したいセグメント間の影響をモデル化したい調音結合のモデル化

生成モデル生成モデルの例線形動的システムと非線形処理を組み合わせたもの Hidden Dynamic Model (Richards) Vocal Tract Resonance dynamic model (Deng)

生成モデル Hidden Dynamic Model (Richards, Bridle) 目標値 T i Target Switch セグメンテーション S j a b a d c フィルター E MLP h(x) 音声信号 X 観測信号 Y 時間

生成モデル Center for Language and Speech Processing (CLSP) Summer Work Shop 98 の結果 HMM に比べ優位ではない少なくとも音声特徴量上での連続性拘束は必要

生成モデル HMM からのトラジェクトリ合成を使う ( 南 ) HMM 平均値 (μ) Target Switch セグメンテーション S j a b a d c E フィルター音声信号 X 観測信号 Y 時間

HMM を用いて制約付平均トラジェクトリを生成する手法 ( 南 ) C ビタービデコーディング上位 10 候補トラジェクトリ生成 O 尤度の計算 HMM 特徴量と動的特徴量の間の制約分散候補の入れ替え認識結果

認識実験による評価学習データ : 音響学会の503 音韻バランス文各状態の正規分布数 :3 HMMタイプ: 環境依存型 HMM 評価データ :100 都市発声 ( 男女各 35 人 ) 100 都市認識での誤認識率連続性に関する拘束条件は重要

セグメントモデルグラフィカルモデル HMM 線形動的システムを含む記述力の高いモデル成功例 ( 古山 Zweig Deviren) 学習データの量パラメータの数数学モデル実際の音声認識生成モデル音声生成系を考慮して音声認識をモデル化成功例少 NTT の研究パラメータの連続性は重要

参考文献セグメントモデルの分類のために参照とした文献 From HMM s to Segment Models: A Unified View of Stochastic Modeling for Speech Recognition, M. Ostendorf et al., IEEE Trans. SAP, 1996. 音声認識においてHMMとトライグラムを超えるもの ( 中川人工知能学会誌 2002 年 1 月 ). 音声認識研究の動向 ( 中川電子情報通信学会 D-II 2000 年 2 月 ).

参考文献条件付ガウスモデル ( 様々な文献があるが以下のものだけあげておく ) Wellekens et al, Explicit correlation in hidden Markov model for speech recognition, ICASSP 1987.( 条件付ガウスモデルを提案した初期の文献 ) 高橋他フレーム間相関を利用した音韻 HMM による音声認識信学論 1994.( データの少なさを平滑化 ) 中川他セグメント統計量を用いた隠れマルコフモデルによる音声認識信学論 1996. ( 時間的に長い条件を導入 ) より詳しく調べたい方は Ostendorf の文献を参照してください

参考文献グラフィカルモデル ( 音声認識音声認識関連 ) Zweig et al. Structurally discriminative graphical models for automatic speech recognition results from the 2001 Johns Hopkins summer workshop, ICASSP 2002.2. Zweig et al. Probabilistic modeling with Bayesian networks for automatic speech recognition, Australian Journal of Intelligent Information Processing, 1999. Deviren et al. Structural learning of dynamic Bayesian networks in speech recognition, Eurospeech 2001. Murphy Dynamic Bayesian networks: representation, inference and learning, UC, Berkeley Dr. thesis, 2002. Murphyのホームページ http://www.ai.mit.edu/~murphyk/ Bilmes, Buried Markov models for speech recognition, ICASSP 1999. Bilmes et al. The graphical models toolkit: an open source software system for speech and time-series processing, ICASSP 2002. Ozgur Cetin et al. The 2001 GMTK-based SPINE ASR system, ICSLP 2002. Bilmes の発表論文のページ http://ssli.ee.washington.edu/people/bilmes/pubs-frame.html グラフィカルモデルツールキットのページ http://ssli.ee.washington.edu/~bilmes/gmtk/ WS2001 のページ (CLSP) http://www.clsp.jhu.edu/ws2001/groups/gmsr/

参考文献グラフィカルモデルの一般的な説明統計数理研究所公開講座のページ http://juban.ism.ac.jp/seminar.html Zoubin Ghahramani のレクチャページ http://www-2.cs.cmu.edu/~zoubin/sald/ Learning dynamic Bayesian networks Statistical approaches to learning and discovery グラフィカルモデル朝倉書店ベイジアンネットの一般的な説明ベイジアンネットセミナー http://www.aist.go.jp/etl/~motomura/bn2001/ http://www.aist.go.jp/etl/~motomura/bn2002/paper.html ベイジアンネットの概要 http://www.etl.go.jp/~motomura/ds/

参考文献調音器官モデル Deng et al., A statistical coarticulatory model for the hidden vocal-tractresonance dynamics, EUROSPEECH 1999. Deng et al., Spontaneous speech recognition using a statistical model of VTRdynamics, WS98 Slide. http://www.clsp.jhu.edu/ws98/projects/dynamic/presentations/final/ldeng/sld 001.htm R. Togneri et al., An EKF-based algorithm for learning statistical hidden dynamic model parameters for phonetic recognition, ICASSP 2001. Richards et al., The HDM: a segmental hidden dynamic model of coarticulation, ICASSP 1999. Bridal et al., An investigation of segmental hidden dynamic models of speech coarticulation for automatic speech recognition, WS98 final report. Picone et all., Initial evaluation of hidden dynamic models on conversational speech, ICASSP, 1999.