セグメントモデルによる音声認識 NTTコミュニケーション科学基礎研究所南泰浩
セグメントモデルとは? HMM の欠点 継続時間モデルが導入されていない 状態内の観測系列の時間依存性を反映できない 改良 セグメントモデル
HMM とセグメントモデルの違い y t y 1 y 2 y 3 y T P s (y t ) P a,t (y 1,y 2,y 3 y T ) s HMM a P(T a) セグメントモデル
セグメントモデルの分類 継続時間長制御モデル 条件付ガウスモデル 動的システムモデル グラフィカルモデル ( ベイジアンネットワーク ) 制約付平均トラジェクトリモデル パラメトリック ノンパラメトリック 非線形モデル 生成モデル
セグメントモデルの分類 継続時間長制御モデル 条件付分布 ( ガウス ) モデル 動的システムモデル グラフィカルモデル ( ベイジアンネットワーク ) 制約付平均トラジェクトリモデルパラメトリック ノンパラメトリック 非線形モデル 生成モデル
条件付分布 ( ガウス ) モデル 出力確率を以下のように近似 P a, T (y 1,y 2,y 3 y T ) =ΠP(y t y t-1, a) (Wellekens, 高橋 ) より複雑な条件付確率 P(y t y t-3,y t-2,y t-1,a) ( 中川 )
グラフィカルモデル グラフィカルモデルとは? 依存関係をグラフを用いる統計モデルで表現したもの 例因子分析 確率的主成分分析独立成分分析 X 1 X K Λ Y 1 Y 2 Y D 以下 Ghahramani に基づくグラフィカルモデルの分類
グラフィカルモデル 無向グラフィカルモデルマルコフネットワーク例ボルツマンマシンマルコフランダムフィールド
グラフィカルモデル 有向グラフィカルモデル 非巡回 ベイジアンネットワーク A P(A,B,C,D) = P(A)P(C A)P(D C)P(B C,D) C A, B, C, D は離散 連続確率変数 ( 隠れ変数の場合もある ) B D
グラフィカルモデル ダイナミックベイジアンネットワーク (DBN) ベイジアンネットワークを時系列変数を扱えるように拡張 HMM 線形動的システムを含む大きなモデル HMM/ASR ダイナミックベイジアンネット *CLSP WS2001 より
グラフィカルモデル 例 HMMとの対応 ( 隠れ変数が離散値 ) X 1 X 2 X 3 X 4 Y 1 Y 2 Y 3 Y 4 P(x 1,x 2 x T,y 1,y 2 y T )=P(x 1 )P(y 1 x 1 ) Π P(x t x t-1 )P(y t x t ) P(y t x t ): 出力確率 ( 密度 ) P(x t x t-1 ): 遷移確率 X t : 状態確率変数 ( 離散値 )
グラフィカルモデル例線形ガウス状態モデルとの対応 ( 隠れ変数が連続値 ) X 1 X 2 X 3 X 4 Y 1 Y 2 Y 3 Y 4 P(x 1,x 2 x T,y 1,y 2 y T )=P(x 1 )P(y 1 x 1 ) Π P(x t x t-1 )P(y t x t ) P(y t x t ): y t =Cx t +v t P(x t x t-1 ): x t = Ax t-1 +w t X t : 状態確率変数 ( 連続値 ) w t, v t : 無相関 0 平均ガウスノイズベクトル
グラフィカルモデル ベイジアンネットによる音声認識条件付分布 ( ガウス ) モデルの拡張 (Zweig) X 1 X 2 X 3 X 4 ベクトルの各要素 P(Y t Y t-1 ) を表現 より複雑条件付モデル Y 1 Y 2 Y 3 Y 4
グラフィカルモデル ベイジアンネットによる音声認識様々な変数の依存関係を記述できる X 1 X 2 X 3 X 4 Deviren Y 1 Y 2 Y 3 Y 4
グラフィカルモデル ベイジアンネットによる音声認識 モデル構造 ( 依存関係 ) の決定も可能 尤度 +MDL 識別的構造学習法 (Zweig) ベイジアンネットの難しさ 理論実際の音声認識 GMTK: ツールキット (Bilmes) パラメータ数 データ量
生成モデル 音声生成系を考慮して音声認識をモデル化 音声の連続性の拘束条件を導入したい セグメント間の影響をモデル化したい 調音結合のモデル化
生成モデル 生成モデルの例 線形動的システムと非線形処理を組み合わせたもの Hidden Dynamic Model (Richards) Vocal Tract Resonance dynamic model (Deng)
生成モデル Hidden Dynamic Model (Richards, Bridle) 目標値 T i Target Switch セグメンテーション S j a b a d c フィルター E MLP h(x) 音声信号 X 観測信号 Y 時間
生成モデル Center for Language and Speech Processing (CLSP) Summer Work Shop 98 の結果 HMM に比べ優位ではない 少なくとも音声特徴量上での連続性拘束は必要
生成モデル HMM からのトラジェクトリ合成を使う ( 南 ) HMM 平均値 (μ) Target Switch セグメンテーション S j a b a d c E フィルター 音声信号 X 観測信号 Y 時間
HMM を用いて制約付平均トラジェクトリを生成する手法 ( 南 ) C ビタービデコーディング 上位 10 候補 トラジェクトリ生成 O 尤度の計算 HMM 特徴量と動的特徴量の間の制約 分散 候補の入れ替え 認識結果
認識実験による評価 学習データ : 音響学会の503 音韻バランス文 各状態の正規分布数 :3 HMMタイプ: 環境依存型 HMM 評価データ :100 都市発声 ( 男女各 35 人 ) 100 都市認識での誤認識率 連続性に関する拘束条件は重要
セグメントモデル グラフィカルモデル HMM 線形動的システムを含む記述力の高いモデル成功例 ( 古山 Zweig Deviren) 学習データの量 パラメータの数数学モデル 実際の音声認識 生成モデル音声生成系を考慮して音声認識をモデル化成功例少 NTT の研究 パラメータの連続性は重要
参考文献 セグメントモデルの分類のために参照とした文献 From HMM s to Segment Models: A Unified View of Stochastic Modeling for Speech Recognition, M. Ostendorf et al., IEEE Trans. SAP, 1996. 音声認識においてHMMとトライグラムを超えるもの ( 中川人工知能学会誌 2002 年 1 月 ). 音声認識研究の動向 ( 中川電子情報通信学会 D-II 2000 年 2 月 ).
参考文献 条件付ガウスモデル ( 様々な文献があるが 以下のものだけあげておく ) Wellekens et al, Explicit correlation in hidden Markov model for speech recognition, ICASSP 1987.( 条件付ガウスモデルを提案した初期の文献 ) 高橋他 フレーム間相関を利用した音韻 HMM による音声認識 信学論 1994.( データの少なさを平滑化 ) 中川他 セグメント統計量を用いた隠れマルコフモデルによる音声認識 信学論 1996. ( 時間的に長い条件を導入 ) より詳しく調べたい方は Ostendorf の文献を参照してください
参考文献 グラフィカルモデル ( 音声認識音声認識関連 ) Zweig et al. Structurally discriminative graphical models for automatic speech recognition results from the 2001 Johns Hopkins summer workshop, ICASSP 2002.2. Zweig et al. Probabilistic modeling with Bayesian networks for automatic speech recognition, Australian Journal of Intelligent Information Processing, 1999. Deviren et al. Structural learning of dynamic Bayesian networks in speech recognition, Eurospeech 2001. Murphy Dynamic Bayesian networks: representation, inference and learning, UC, Berkeley Dr. thesis, 2002. Murphyのホームページ http://www.ai.mit.edu/~murphyk/ Bilmes, Buried Markov models for speech recognition, ICASSP 1999. Bilmes et al. The graphical models toolkit: an open source software system for speech and time-series processing, ICASSP 2002. Ozgur Cetin et al. The 2001 GMTK-based SPINE ASR system, ICSLP 2002. Bilmes の発表論文のページ http://ssli.ee.washington.edu/people/bilmes/pubs-frame.html グラフィカルモデルツールキットのページ http://ssli.ee.washington.edu/~bilmes/gmtk/ WS2001 のページ (CLSP) http://www.clsp.jhu.edu/ws2001/groups/gmsr/
参考文献 グラフィカルモデルの一般的な説明統計数理研究所公開講座のページ http://juban.ism.ac.jp/seminar.html Zoubin Ghahramani のレクチャページ http://www-2.cs.cmu.edu/~zoubin/sald/ Learning dynamic Bayesian networks Statistical approaches to learning and discovery グラフィカルモデル朝倉書店 ベイジアンネットの一般的な説明ベイジアンネットセミナー http://www.aist.go.jp/etl/~motomura/bn2001/ http://www.aist.go.jp/etl/~motomura/bn2002/paper.html ベイジアンネットの概要 http://www.etl.go.jp/~motomura/ds/
参考文献 調音器官モデル Deng et al., A statistical coarticulatory model for the hidden vocal-tractresonance dynamics, EUROSPEECH 1999. Deng et al., Spontaneous speech recognition using a statistical model of VTRdynamics, WS98 Slide. http://www.clsp.jhu.edu/ws98/projects/dynamic/presentations/final/ldeng/sld 001.htm R. Togneri et al., An EKF-based algorithm for learning statistical hidden dynamic model parameters for phonetic recognition, ICASSP 2001. Richards et al., The HDM: a segmental hidden dynamic model of coarticulation, ICASSP 1999. Bridal et al., An investigation of segmental hidden dynamic models of speech coarticulation for automatic speech recognition, WS98 final report. Picone et all., Initial evaluation of hidden dynamic models on conversational speech, ICASSP, 1999.