1(FST ) FST FST FST 2(FST ) FST FST 4 FST MMDAgent FST FST 5 MMDAgent FST FST FST MMDAgent FST FST FSTFST 状態番号, 遷移先状態番号, 遷移条件, 出 FST 例 / ε ε / ε / は 1

DEIM Forum 2016 B8-5 排他制御機能を有する状態遷移機械に基づく音声対話コンテンツ制御手法石川博規堤修平山本大介高橋直久名古屋工業大学大学院工学研究科情報工学専攻 466 8555 愛知県名古屋市昭和区御器所町 E-mail: hiroki@moss.elcom.nitech.ac.jp, {tsutsumi.shuhei,yamamoto.daisuke,naohisa}@nitech.ac.jp あらまし我々は音声インタラクションシステム構築ツールキット MMDAgent [1] を用いた研究を行ってきた MMDA- gent は FST(有限状態遷移機械) [12] に基づいた FST ファイルと呼ばれる対話スクリプトファイルを編集することで自由に音声対話内容を編集することができる [2] 従来の MMDAgent においては特定の目的と状況に合わせてその都度１つの FST ファイルを作成することが一般的であったそこで本研究では対話シナリオを独立した対話内容を持つ複数の FST ファイルを分割し並行制御を行う手法を提案する提案手法によって FST ファイルの保守性や移植性が高まると考えているキーワード音声対話システム, MMDAgent, FST, デジタルコンテンツ, コンテンツ管理, モジュール化, 排他制御 1. はじめにプによる先行研究 [13] においても音声対話システムを容易にマルチタスクで使用できるようする必要性が述べられているま近年モジュール化されたコンテンツを配信する GooglePlay た FST ファイルの保守性を向上させるため FST ファイルや AppStore 等のシステムやサービスが普及しているこれらを対話シナリオに応じて分割し並列実行する方法も考えられのシステムやサービスでは独立したモジュール化されたコンていたしかし従来では後述する FST 競合といった問題かテンツをユーザが任意に切り替えることで自分好みの機能をら FST ファイルの並列実行を効果的に実現することが出来容易に構築していくことが可能となっている一方で我々は音なかったそこで本研究では分割され独立した対話シナリ声インタラクションシステム構築ツールキット MMDAgent [1] オを持つ FST ファイルをモジュール化した FST ファイルとを用いた研究を行ってきた MMDAgent は音声認識音声合定義し複数のモジュール化した FST ファイルを並行制御す成 3D モデル描写を高度に統合したマルチモーダルな音声対る手法を実現することを目的とするこれにより個々の FST 話システムであり FST ファイルと呼ばれるテキスト形式のファイルに記述される状態数が少なくなり保守性が向上した対話スクリプトファイルを編集することで自由に音声対話内また目的に合わせて動作させる FST ファイルを動的に変更容を編集することができる [2] MMDAgent の実行画面の例をすることも可能になった例えば図 3 のように大学の南門と図 1 に示す音声対話を記述する言語としては XML ベースの北門それぞれにおいて構内を案内する音声対話システムを考え VoiceXML [9] や XISL [10] 等があるまた VoiceXML を用ると従来では構内の案内を１つの FST ファイルで網羅したいたマルチモーダル音声対話システムを構築する試み [11] もあ結果数千行という膨大なサイズとなっていたものが個々のるが MMDAgent においてはテキストベースの FST ファイル建物の案内に分割することで数十行単位までサイズが小さくを用いて音声対話を記述する FST ファイルは FST(有限状態なり保守性を高められると考えられるまた１号館や２１遷移機械) [12] に基づいており FST ファイルと FST は１対１号館の案内のように両方の門で共通している FST ファイルをに対応し FST ファイルを読み込んだ数だけ FST が生成されそれぞれの音声対話システムに容易に追加することができるとる FST ファイルは図 2 のような形式で記述される状態番考えられる号遷移先状態番号遷移条件 (入力イベント) 遷移時のコマ提案手法を実現する上で従来の MMDAgent において次のンド (出力コマンド) の４つ組で表せられる FST は独立した現在の状態番号を持ち状態番号と遷移条件となっている入力イベントが共に合致した時に状態遷移を実行する実行中の各 FST は MMDAgent の対話管理部によって制御されている従来の MMDAgent においては特定の目的と状況に合わせてその都度 FST ファイルを作成することが一般的であったしかしそのような利用法では状態数の増加によって対話シナリオの編集が煩雑となる傾向がありまた FST ファイルの保守性が低いといった問題があった MMDAgent とは異なる音声対話システムではあるが豊橋技術科学大学の小暮らのグルー図 1 MMDAgent の実行画面

1(FST ) FST FST FST 2(FST ) FST FST 4 FST MMDAgent FST FST 5 MMDAgent FST FST FST MMDAgent FST FST FSTFST 状態番号, 遷移先状態番号, 遷移条件, 出 FST 例 / ε ε / ε / は 1 10 11 12 FST 2 SYNTH_EVENT_STOP / ε FST 独した機能を持った FST 追加変更削除 / 変更 / が容易にえる FST A 北門 FST B FST FST 1 FST MMDAgent FST 2 1 FST FST 1. 同じ認識キーワードで状態遷移する複数の FST が実 2. 同じ声認識内容で作成者が状態遷移すると FSTFST FSTA 1 FSTB 99 1 2 声認識 A 99 100 認識 B FST FSTFST 4 FST FST 1 12 声認識 1 22 声認識 5 2. FST FST 1. MMDAgent 1 MMDAgent 6 FST FST FST FST FST FST 3 FST

2 MMDAgent FST FST 声認識部 POP イベント処理フレーム終了後 6 出 3. FST A FST B FST C. MMDAgent 3. 1 FST MMDAgent FST FST MMDAgent MMDAgent FST FST FST FST FST FST FST FST Active Inactive FST MMDAgent Active/Inactive Active Inactive FST FST Active Active FST Active FST Active/Inactive FST Active FST FST Active Active FST Active FST Inactive 3. 2 MMDAgent FST 3. 1 FST FST FST FST FST Active FST FST pop pop pop Active FST

Active Active FST Inactive FST push Active FST Inactive 4. 4. 1 MMDAgent MMDAgent C++ C++MMDAgent 3D MMDAgent FST FST NoSyncModeQueueSyncModeSyncMode FST FST 4. 1 @ FST 3. 1 4. 1 FST FST 4. 1 # @ WAITSTATE 0 1 # @ TRANSITIONMODE QueueSync 0 31 RECOG_EVENT_STOP <eps>... 4. 2 NoSyncMode NoSyncMode MMDAgent Active/Inactive FST FST FST 1. FST FST QueueSyncMode 3. 1 FST 3. 2 FST FST Active FST Active FST Inactive FST push Active FST pop FST MMDAgent FST FST FST FST QueueSyncMode FST FST SyncMode 3. 1 FST Active FST Inactive FST 5. 5. 1 FST

MMDAgent FST 6 2goukan.fst 2 FST 51goukan.fst 51 FST FST 51 51 seiza.fst 12 FST uranai.fst 12 FST weatherforecast.fst FST countup.fst FST MMDAgent SYNTH EVENT START 6 FST 6 3 FST FST 6C 3 = 20 A 3 NoSync- Mode B 3 SyncMode C FST 1 20 3 = 60 C 2goukan.fst 51goukan.fstweatherforecast.fst QueueSyncMode FST 1 C FST 2goukan.fst QueueSyncMode 51goukan.fst QueueSyncMode seiza.fst SyncMode uranai.fst SyncMode weatherforecast.fst QueueSyncMode countup.fst NoSyncMode QueueSyncMode 51goukan.fst Active FST QueueSyncMode Active FST FST 2goukan.fst 51goukan.fst seiza.fst uranai.fst SyncMode FST seiza.fst MMDAgent uranai.fst MMDAgent FST QueueSyncMode MMDAgent FST SyncMode countup.fst NoSyncMode FST FST FST NoSyncMode FST 5. 2 FST 2 3 3 C MMDAgent FST

2 OK MMDAgent OKi FST FST NG i FST FST 3 OK OK NG A 0% 60% 40% B 20% 30% 50% C 80% 20% 0% A FST FST 3D FST B FST FST FST FST FST FST FST FST FST FST FST B FST (SyncMode) FST FST FST C FST FST FST FST C FST FST C OK 20% seiza.fst uranai.fst uranai.fst MMDAgent seiza.fst FST [1] Akinobu Lee, Keiichiro Oura, Keiichi Tokuda, MMDAgent - A fully open-source toolkit for voice interaction systems, Proceedings of the ICASSP 2013, pp. 8382-8385, 2013.5 [2],,. SP, 111(365)pp. 153-1572011 [3],,,, 2014 (2), pp. 200, 2014.3 [4],,,, 2014 2014, pp. 789-795, 2014.7 [5],,,, 2014 2014, pp. 781-788, 2014.7 [6] Wakabayashi Keitaro, Daisuke Yamamoto, Naohisa Takahashi, A Voice Dialog Editor Based on Finite State Transducer Using Composite State for Tablet Devices, Computer and Information Science 2015, Springer International Publishing, pp. 125-139, 2016 [7],,,, 2014 2014, pp. 294-300, 2014.7 [8] Yanagi Tomohiro, Daisuke Yamamoto, Naohisa Takahashi, Development of mobile voice navigation system using userbased mobile maps annotations, Computer and Information Science (ICIS), 2015 IEEE/ACIS 14th International Conference on. IEEE, pp. 373-378, 2015. [9] VoiceXMl Forum technical working group, Voice Extensible Markup Language (VoiceXML) version2.0, http://www.w3.org/tr/voicexml20/ [10],,,,, XISL,, pp. 43-48, 2001.7 [11],,,,, VoiceXML,, pp. 43-48, 2001.10 [12] Allauzen C., Riley M., Schalkwyk J., Skut, W., Mohri M., OpenFst: A general and efficient weighted finite-state transducer library, Implementation and Application of Automata Springer Berlin Heidelberg, pp. 11-23, 2007 [13],,,,, pp. 139-144, 2002.2 [14],..,,, D-II, No.5, pp. 608-615, 2003.5