Microsoft PowerPoint - …Z…O…†…fi…g…‡…f…‰‡É‡æ‡é™ñ‘oflÅ

Similar documents
SAP11_03

音響モデル triphone 入力音声 音声分析 デコーダ 言語モデル N-gram bigram HMM の状態確率として利用 出力層 triphone: 3003 ノード リスコア trigram 隠れ層 2048 ノード X7 層 1 Structure of recognition syst


PowerPoint プレゼンテーション

トピックモデルの応用: 関係データ、ネットワークデータ

ばらつき抑制のための確率最適制御

スライド 1

Probit , Mixed logit

Microsoft PowerPoint - 人工知能研究振興財団.pptx

Microsoft PowerPoint - H17-5時限(パターン認識).ppt

PowerPoint プレゼンテーション

? (EM),, EM? (, 2004/ 2002) von Mises-Fisher ( 2004) HMM (MacKay 1997) LDA (Blei et al. 2001) PCFG ( 2004)... Variational Bayesian methods for Natural

1 はじめに 85

NLMIXED プロシジャを用いた生存時間解析 伊藤要二アストラゼネカ株式会社臨床統計 プログラミング グループグルプ Survival analysis using PROC NLMIXED Yohji Itoh Clinical Statistics & Programming Group, A

IPSJ SIG Technical Report Vol.2012-MUS-96 No /8/10 MIDI Modeling Performance Indeterminacies for Polyphonic Midi Score Following and

Microsoft PowerPoint PresentationPRMU2008Nov.ppt [互換モード]

PowerPoint プレゼンテーション

IPSJ SIG Technical Report Vol.2019-MUS-123 No.23 Vol.2019-SLP-127 No /6/22 Bidirectional Gated Recurrent Units Singing Voice Synthesi

集中理論談話会 #9 Bhat, C.R., Sidharthan, R.: A simulation evaluation of the maximum approximate composite marginal likelihood (MACML) estimator for mixed mu

01.Œk’ì/“²fi¡*

ii 3.,. 4. F. (), ,,. 8.,. 1. (75% ) (25% ) =9 7, =9 8 (. ). 1.,, (). 3.,. 1. ( ).,.,.,.,.,. ( ) (1 2 )., ( ), 0. 2., 1., 0,.

様々なミクロ計量モデル†

IPSJ SIG Technical Report Vol.2015-MUS-107 No /5/23 HARK-Binaural Raspberry Pi 2 1,a) ( ) HARK 2 HARK-Binaural A/D Raspberry Pi 2 1.

Learning Bayesian Network from data 本論文はデータから大規模なベイジアン ネットワークを構築する TPDA(Three Phase Dependency Analysis) のアルゴリズムを記述 2002 年の発表だが 現在も大規模用 BN モデルのベンチマークと

03.Œk’ì

Microsoft Word doc

4d_06.dvi

Microsoft Word - Time Series Basic - Modeling.doc

3 2 2 (1) (2) (3) (4) 4 4 AdaBoost 2. [11] Onishi&Yoda [8] Iwashita&Stoica [5] 4 [3] 3. 3 (1) (2) (3)

& 3 3 ' ' (., (Pixel), (Light Intensity) (Random Variable). (Joint Probability). V., V = {,,, V }. i x i x = (x, x,, x V ) T. x i i (State Variable),

No. 3 Oct The person to the left of the stool carried the traffic-cone towards the trash-can. α α β α α β α α β α Track2 Track3 Track1 Track0 1

Microsoft PowerPoint 新道路研究会_公開用.pptx


IPSJ SIG Technical Report Vol.2016-MUS-111 No /5/21 1, 1 2,a) HMM A study on an implementation of semiautomatic composition of music which matc

TC1-31st Fuzzy System Symposium (Chofu, September -, 15) cremental Neural Networ (SOINN) [5] Enhanced SOINN (ESOINN) [] ESOINN GNG Deng Evolving Self-

Haiku Generation Based on Motif Images Using Deep Learning Koki Yoneda 1 Soichiro Yokoyama 2 Tomohisa Yamashita 2 Hidenori Kawamura Scho

IPSJ SIG Technical Report Vol.2013-SLP-98 No /10/25 1,a) 1 ( Q&A ) ( ) YJVOICE Development of speech recognition and natural language processing

i

力 出力 ÝÒ 源分離 f å 2 š ž 伸縮率 f g å ² f œå 1 ( F0) audio-to-audio 3 2 RNMF [2] DTW audio-to-audio [3] [4] MIDI 2.2 [5 10] Dannenberg [5] Verc

Microsoft PowerPoint - 時系列解析(11)_講義用.pptx


目次 ガウス過程 (Gaussian Process; GP) 序論 GPによる回帰 GPによる識別 GP 状態空間モデル 概括 GP 状態空間モデルによる音楽ムードの推定

したがって このモデルではの長さをもつ潜在履歴 latent history が存在し 同様に と指標化して扱うことができる 以下では 潜在的に起こりうる履歴を潜在履歴 latent history 実際にデ ータとして記録された履歴を記録履歴 recorded history ということにする M

<4D F736F F F696E74202D2091E6824F82568FCD8CEB82E892F990B382CC8CF889CA82BB82CC82515F B834E838A B9797A3959C8D F A282E982C682AB82CC8CEB82E897A62E >

Microsoft Word - 補論3.2

Microsoft PowerPoint - ICS修士論文発表会資料.ppt

 

untitled

VocaListener2(ぼかりす2): ユーザ歌唱の音高と音量だけでなく声色変化も真似る歌声合成システム

生命情報学

情報処理学会研究報告 IPSJ SIG Technical Report 調音運動 HMM 音声合成における調音特徴 - 声道パラメータ変換と音源の改良 小野田高幸 桂田浩一 新田恒雄 音声認識と合成を同じ調音運動モデルを用いて実現するシステムの開発を行っている. 調音特徴を用いて HMM を設計す

統計学 - 社会統計の基礎 - 正規分布 標準正規分布累積分布関数の逆関数 t 分布正規分布に従うサンプルの平均の信頼区間 担当 : 岸 康人 資料ページ :

memo

Missing Data NMF

Coding theorems for correlated sources with cooperative information

Coding theorems for correlated sources with cooperative information

スライド 1

自動車感性評価学 1. 二項検定 内容 2 3. 質的データの解析方法 1 ( 名義尺度 ) 2.χ 2 検定 タイプ 1. 二項検定 官能検査における分類データの解析法 識別できるかを調べる 嗜好に差があるかを調べる 2 点比較法 2 点識別法 2 点嗜好法 3 点比較法 3 点識別法 3 点嗜好

PowerPoint プレゼンテーション

腎不全-第22回.indd

0 部分的最小二乗回帰 Partial Least Squares Regression PLS 明治大学理 学部応用化学科 データ化学 学研究室 弘昌

入力環境に依存 /a, i, u, e, o / X P(X/W) 入力音声 信号処理 探索 ( デコーダ ) P(W/X) P(W) P(X/W) P(W) 京都 ky o: t o 単語辞書 タスクドメインに依存 京都 + の + 天気 時間 1000 時間 100 時間 10 時間

ベイズ統計入門

Microsoft PowerPoint slide2forWeb.ppt [互換モード]


スライド 1

10_08.dvi

Microsoft PowerPoint - 測量学.ppt [互換モード]

Microsoft PowerPoint - survey-sp hori

C3 データ可視化とツール

Presentation Title

回帰分析の用途・実験計画法の意義・グラフィカルモデリングの活用 | 永田 靖教授(早稲田大学)

MDD PBL ET 9) 2) ET ET 2.2 2), 1 2 5) MDD PBL PBL MDD MDD MDD 10) MDD Executable UML 11) Executable UML MDD Executable UML

<4D F736F F D208EC08CB18C7689E68A E F193F18D8095AA957A C C839395AA957A814590B38B4B95AA957A2E646F63>

2 HMM HTK[2] 3 left-to-right HMM triphone MLLR 1 CSJ 10 1 : 3 1: GID AM/CSJ-APS/hmmdefs.gz

ii 2. F. ( ), ,,. 5. G., L., D. ( ) ( ), 2005.,. 6.,,. 7.,. 8. ( ), , (20 ). 1. (75% ) (25% ). 60.,. 2. =8 5, =8 4 (. 1.) 1.,,

NLP プログラミング勉強会 5 HMM による品詞推定 自然言語処理プログラミング勉強会 5 隠れマルコフモデルによる品詞推定 Graham Neubig 奈良先端科学技術大学院大学 (NAIST) 1

1 Fig. 1 Extraction of motion,.,,, 4,,, 3., 1, 2. 2.,. CHLAC,. 2.1,. (256 ).,., CHLAC. CHLAC, HLAC. 2.3 (HLAC ) r,.,. HLAC. N. 2 HLAC Fig. 2

& Vol.5 No (Oct. 2015) TV 1,2,a) , Augmented TV TV AR Augmented Reality 3DCG TV Estimation of TV Screen Position and Ro

1 7.35% 74.0% linefeed point c 200 Information Processing Society of Japan

CAEシミュレーションツールを用いた統計の基礎教育 | (株)日科技研

概要 単語の分散表現に基づく統計的機械翻訳の素性を提案 既存手法の FFNNLM に CNN と Gate を追加 dependency- to- string デコーダにおいて既存手法を上回る翻訳精度を達成

1.0, λ. Holt-Winters t + h,ỹ t ỹ t+h t = ỹ t + hf t.,,.,,,., Hassan [5],,,.,,,,,,Hassan EM,, [6] [8].,,,,Stenger [9]. Baum-Welch, Baum-Welch (Incremen

2016 年熊本地震の余震の確率予測 Probability aftershock forecasting of the M6.5 and M7.3 Kumamoto earthquakes of 2016 東京大学生産技術研究所統計数理研究所東京大学地震研究所 Institute of Indus

PowerPoint プレゼンテーション

Takeuchi, J., and Yamanishi, K.: A Unifying Framework for Detecting Outliers and Change Points from Time Series, IEEE Trans. on Knowledge and Data Eng

TCX γ 0.9,, H / H, [4], 3. 3., ( /(,,,,,,, Mel Log Spectrum Approximation (MLSA [5],, [6], [7].,,,,,,, (,,, 3.,,,,,,,, sinc,,, [8], W, ( Y ij Y ij W l

2

(a) (b) 2 2 (Bosch, IR Illuminator 850 nm, UFLED30-8BD) ( 7[m] 6[m]) 3 (PointGrey Research Inc.Grasshopper2 M/C) Hz (a) (b

Microsoft PowerPoint SIGAL.ppt

Taro13-第6章(まとめ).PDF


2014/1 Vol. J97 D No. 1 2 [2] [3] 1 (a) paper (a) (b) (c) 1 Fig. 1 Issues in coordinating translation services. (b) feast feast feast (c) Kran

4. C i k = 2 k-means C 1 i, C 2 i 5. C i x i p [ f(θ i ; x) = (2π) p 2 Vi 1 2 exp (x µ ] i) t V 1 i (x µ i ) 2 BIC BIC = 2 log L( ˆθ i ; x i C i ) + q

OpRisk VaR3.2 Presentation

Overview Simulation Kleisli Simulation Contribution 1. Implementation 2. Increasing the Chance of Simulation Experimental Results and Comparison 2

2007/8 Vol. J90 D No. 8 Stauffer [7] 2 2 I 1 I 2 2 (I 1(x),I 2(x)) 2 [13] I 2 = CI 1 (C >0) (I 1,I 2) (I 1,I 2) Field Monitoring Server


10

Introduction to System Identification

Transcription:

セグメントモデルによる音声認識 NTTコミュニケーション科学基礎研究所南泰浩

セグメントモデルとは? HMM の欠点 継続時間モデルが導入されていない 状態内の観測系列の時間依存性を反映できない 改良 セグメントモデル

HMM とセグメントモデルの違い y t y 1 y 2 y 3 y T P s (y t ) P a,t (y 1,y 2,y 3 y T ) s HMM a P(T a) セグメントモデル

セグメントモデルの分類 継続時間長制御モデル 条件付ガウスモデル 動的システムモデル グラフィカルモデル ( ベイジアンネットワーク ) 制約付平均トラジェクトリモデル パラメトリック ノンパラメトリック 非線形モデル 生成モデル

セグメントモデルの分類 継続時間長制御モデル 条件付分布 ( ガウス ) モデル 動的システムモデル グラフィカルモデル ( ベイジアンネットワーク ) 制約付平均トラジェクトリモデルパラメトリック ノンパラメトリック 非線形モデル 生成モデル

条件付分布 ( ガウス ) モデル 出力確率を以下のように近似 P a, T (y 1,y 2,y 3 y T ) =ΠP(y t y t-1, a) (Wellekens, 高橋 ) より複雑な条件付確率 P(y t y t-3,y t-2,y t-1,a) ( 中川 )

グラフィカルモデル グラフィカルモデルとは? 依存関係をグラフを用いる統計モデルで表現したもの 例因子分析 確率的主成分分析独立成分分析 X 1 X K Λ Y 1 Y 2 Y D 以下 Ghahramani に基づくグラフィカルモデルの分類

グラフィカルモデル 無向グラフィカルモデルマルコフネットワーク例ボルツマンマシンマルコフランダムフィールド

グラフィカルモデル 有向グラフィカルモデル 非巡回 ベイジアンネットワーク A P(A,B,C,D) = P(A)P(C A)P(D C)P(B C,D) C A, B, C, D は離散 連続確率変数 ( 隠れ変数の場合もある ) B D

グラフィカルモデル ダイナミックベイジアンネットワーク (DBN) ベイジアンネットワークを時系列変数を扱えるように拡張 HMM 線形動的システムを含む大きなモデル HMM/ASR ダイナミックベイジアンネット *CLSP WS2001 より

グラフィカルモデル 例 HMMとの対応 ( 隠れ変数が離散値 ) X 1 X 2 X 3 X 4 Y 1 Y 2 Y 3 Y 4 P(x 1,x 2 x T,y 1,y 2 y T )=P(x 1 )P(y 1 x 1 ) Π P(x t x t-1 )P(y t x t ) P(y t x t ): 出力確率 ( 密度 ) P(x t x t-1 ): 遷移確率 X t : 状態確率変数 ( 離散値 )

グラフィカルモデル例線形ガウス状態モデルとの対応 ( 隠れ変数が連続値 ) X 1 X 2 X 3 X 4 Y 1 Y 2 Y 3 Y 4 P(x 1,x 2 x T,y 1,y 2 y T )=P(x 1 )P(y 1 x 1 ) Π P(x t x t-1 )P(y t x t ) P(y t x t ): y t =Cx t +v t P(x t x t-1 ): x t = Ax t-1 +w t X t : 状態確率変数 ( 連続値 ) w t, v t : 無相関 0 平均ガウスノイズベクトル

グラフィカルモデル ベイジアンネットによる音声認識条件付分布 ( ガウス ) モデルの拡張 (Zweig) X 1 X 2 X 3 X 4 ベクトルの各要素 P(Y t Y t-1 ) を表現 より複雑条件付モデル Y 1 Y 2 Y 3 Y 4

グラフィカルモデル ベイジアンネットによる音声認識様々な変数の依存関係を記述できる X 1 X 2 X 3 X 4 Deviren Y 1 Y 2 Y 3 Y 4

グラフィカルモデル ベイジアンネットによる音声認識 モデル構造 ( 依存関係 ) の決定も可能 尤度 +MDL 識別的構造学習法 (Zweig) ベイジアンネットの難しさ 理論実際の音声認識 GMTK: ツールキット (Bilmes) パラメータ数 データ量

生成モデル 音声生成系を考慮して音声認識をモデル化 音声の連続性の拘束条件を導入したい セグメント間の影響をモデル化したい 調音結合のモデル化

生成モデル 生成モデルの例 線形動的システムと非線形処理を組み合わせたもの Hidden Dynamic Model (Richards) Vocal Tract Resonance dynamic model (Deng)

生成モデル Hidden Dynamic Model (Richards, Bridle) 目標値 T i Target Switch セグメンテーション S j a b a d c フィルター E MLP h(x) 音声信号 X 観測信号 Y 時間

生成モデル Center for Language and Speech Processing (CLSP) Summer Work Shop 98 の結果 HMM に比べ優位ではない 少なくとも音声特徴量上での連続性拘束は必要

生成モデル HMM からのトラジェクトリ合成を使う ( 南 ) HMM 平均値 (μ) Target Switch セグメンテーション S j a b a d c E フィルター 音声信号 X 観測信号 Y 時間

HMM を用いて制約付平均トラジェクトリを生成する手法 ( 南 ) C ビタービデコーディング 上位 10 候補 トラジェクトリ生成 O 尤度の計算 HMM 特徴量と動的特徴量の間の制約 分散 候補の入れ替え 認識結果

認識実験による評価 学習データ : 音響学会の503 音韻バランス文 各状態の正規分布数 :3 HMMタイプ: 環境依存型 HMM 評価データ :100 都市発声 ( 男女各 35 人 ) 100 都市認識での誤認識率 連続性に関する拘束条件は重要

セグメントモデル グラフィカルモデル HMM 線形動的システムを含む記述力の高いモデル成功例 ( 古山 Zweig Deviren) 学習データの量 パラメータの数数学モデル 実際の音声認識 生成モデル音声生成系を考慮して音声認識をモデル化成功例少 NTT の研究 パラメータの連続性は重要

参考文献 セグメントモデルの分類のために参照とした文献 From HMM s to Segment Models: A Unified View of Stochastic Modeling for Speech Recognition, M. Ostendorf et al., IEEE Trans. SAP, 1996. 音声認識においてHMMとトライグラムを超えるもの ( 中川人工知能学会誌 2002 年 1 月 ). 音声認識研究の動向 ( 中川電子情報通信学会 D-II 2000 年 2 月 ).

参考文献 条件付ガウスモデル ( 様々な文献があるが 以下のものだけあげておく ) Wellekens et al, Explicit correlation in hidden Markov model for speech recognition, ICASSP 1987.( 条件付ガウスモデルを提案した初期の文献 ) 高橋他 フレーム間相関を利用した音韻 HMM による音声認識 信学論 1994.( データの少なさを平滑化 ) 中川他 セグメント統計量を用いた隠れマルコフモデルによる音声認識 信学論 1996. ( 時間的に長い条件を導入 ) より詳しく調べたい方は Ostendorf の文献を参照してください

参考文献 グラフィカルモデル ( 音声認識音声認識関連 ) Zweig et al. Structurally discriminative graphical models for automatic speech recognition results from the 2001 Johns Hopkins summer workshop, ICASSP 2002.2. Zweig et al. Probabilistic modeling with Bayesian networks for automatic speech recognition, Australian Journal of Intelligent Information Processing, 1999. Deviren et al. Structural learning of dynamic Bayesian networks in speech recognition, Eurospeech 2001. Murphy Dynamic Bayesian networks: representation, inference and learning, UC, Berkeley Dr. thesis, 2002. Murphyのホームページ http://www.ai.mit.edu/~murphyk/ Bilmes, Buried Markov models for speech recognition, ICASSP 1999. Bilmes et al. The graphical models toolkit: an open source software system for speech and time-series processing, ICASSP 2002. Ozgur Cetin et al. The 2001 GMTK-based SPINE ASR system, ICSLP 2002. Bilmes の発表論文のページ http://ssli.ee.washington.edu/people/bilmes/pubs-frame.html グラフィカルモデルツールキットのページ http://ssli.ee.washington.edu/~bilmes/gmtk/ WS2001 のページ (CLSP) http://www.clsp.jhu.edu/ws2001/groups/gmsr/

参考文献 グラフィカルモデルの一般的な説明統計数理研究所公開講座のページ http://juban.ism.ac.jp/seminar.html Zoubin Ghahramani のレクチャページ http://www-2.cs.cmu.edu/~zoubin/sald/ Learning dynamic Bayesian networks Statistical approaches to learning and discovery グラフィカルモデル朝倉書店 ベイジアンネットの一般的な説明ベイジアンネットセミナー http://www.aist.go.jp/etl/~motomura/bn2001/ http://www.aist.go.jp/etl/~motomura/bn2002/paper.html ベイジアンネットの概要 http://www.etl.go.jp/~motomura/ds/

参考文献 調音器官モデル Deng et al., A statistical coarticulatory model for the hidden vocal-tractresonance dynamics, EUROSPEECH 1999. Deng et al., Spontaneous speech recognition using a statistical model of VTRdynamics, WS98 Slide. http://www.clsp.jhu.edu/ws98/projects/dynamic/presentations/final/ldeng/sld 001.htm R. Togneri et al., An EKF-based algorithm for learning statistical hidden dynamic model parameters for phonetic recognition, ICASSP 2001. Richards et al., The HDM: a segmental hidden dynamic model of coarticulation, ICASSP 1999. Bridal et al., An investigation of segmental hidden dynamic models of speech coarticulation for automatic speech recognition, WS98 final report. Picone et all., Initial evaluation of hidden dynamic models on conversational speech, ICASSP, 1999.