WISS2006 A Presentation Training System using Speech and Image Processing. Web 1 [19] Copyright is held by the author(s). Kazutaka Kurihara and Takeo Igarashi,, Masataka Goto and Jun Ogata and Yosuke Matsusaka,, Takeo Igarashi, 1. 1
WISS 2006 2 PowerPoint [3] [16] Mehrabian [10] 7% 93% [10] [19][18] Hindus [7] Lyons [9] [8] [14] TalkMan [4] [5] [6] 3 [19][18] [19] [19] 1 F0 [11] 7.6 / F0 10Hz [19] [19] 15% 80% 15% [19][18] [18] SI(Speech Index) t SI = 50 (when t < 1) SI = 50 + 12.5(t 1) (when t 1) SI = 100 (when SI > 100) t SI = 50 50t/13 SI = 0 (when SI < 0) SI 50 100 1
A Presentation Training System using Speech and Image Processing 2. 3. 50 13 0 13 80% 100% 4 4.1 [13] 2 F0 RVCP [16] 4.2 4.2.1 3 3 2 3 4.2.2 4 2 3
WISS 2006 図 6. AR ツールキットを用いたマーカ 図 4. オフラインフィードバックとして作成される個々 のグラフの例 ペンによるアノテーションが可能 検出手法は 任意の母音の引き延ばしを言語非依存 に検出できる特長を持ち 有声休止が持つ二つの音 響的特徴 (F0 の変動が小さい スペクトル包絡の変 形が小さい) をボトムアップな信号処理によって検 出する 4.4 音声認識部 話速度 音声認識部では マイクから得られた発表者の発 話を入力として 音節を単位とした音声認識を行い その認識結果 (音節列) と対応する発話区間情報を 情報統合部に送信する 検出された音節数を発話区 間の長さで割ることで 無音区間を除く単位時間当 たりの音節数を計算する 音声認識器としては julian [2] を 各発話の認 識結果が情報統合部に逐次送信されるように拡張し たものを用いた [17] 認識時の言語モデルとしては 121 種類の音節 (無音も含む) が任意の接続を許す ネットワーク文法を用いている 図 5. プレゼンテーション資料に蓄積される過去の発表 練習履歴 囲の領域に 発表に関連する情報を自由に書き加え ることが可能である 一度発表練習を行うと 資料 の右端にグラフ群がタイムスタンプとともに添付さ れ 閲覧やペンアノテーションによるコメント書き 込みが行える また左右方向には過去の練習におけ る同一指標の履歴が残っているため 比較も容易で ある 図 5 オフラインフィードバックについて 現在はグラ フの提示のみにとどまっているが 今後多数の発表 データを収集し それと比較しての総合評価 改善 に向けてのアドバイス提示などを行う予定である 4.3 音響分析部 発話区間 声の高さ 有声休止 音響分析部では マイクから得られた発表者の音 声を入力として発話区間 声の高さ (F0) 有声休止 を 10ms ごとにリアルタイムに求め 情報統合部に 送信する 発話区間は 音声のパワーの大きい箇所 に基づいて検出する F0 推定と有声休止検出には 文献 [15] の F0 推定手法 有声休止検出手法を用い る F0 推定手法は 背景雑音等を伴う音響信号に 対してもロバストに機能する特長を持ち コムフィ ルタの考え方に基づいて 最も優勢な高調波構造の F0 を音声の F0 として推定する 一方 有声休止の 本手法による音声認識は通常スペックのラップトッ プPCを用いても数秒程度の遅れで出力される こ れはユーザが発表中に最近の話速度をチェックする という用途には十分な性能である 4.5 画像情報処理部 顔の位置と向き 画像情報処理部では Web カメラから取得した画 像から発表者の顔の位置および顔の向きを計算し 情 報統合部に逐次送信する作業を行う プロトタイプ 版の実装として AR ツールキット [1] を用いたマー カによる方式と 部分空間法および SVM(Support Vector Machine) を用いた純粋な画像処理による方 式 [12] の2方式を開発した どちらの手法も単眼カ メラからリアルタイムに発表者の顔の位置と向きの 6 自由度情報を得ることが可能である 以下に詳細 を示す 4.5.1 AR ツールキットを用いたマーカ方式 AR ツールキットを用いたマーカ方式では発表者 は図 6 で示すような特殊なマーカを頭部に着用する 発泡スチロール製の立方体の各面に AR ツールキッ トの2次元コードを貼ることにより 発表者がどこ を向いていても頭部の位置と向きの検出を行うこと が可能である 本方式はユーザごとに画像処理用の 学習データ等を与えなくても動作する
A Presentation Training System using Speech and Image Processing 7. SVM 2 360 8. Web 4.5.2 SVM SVM SVM 7 4.5.3 2 8 5 5.1 3 A B C 8 4 5.2 5.2.1 5.2.2 18 73 1 1 12 0 9 A C 1 F0 20Hz 40Hz Hz F0 4 PowerPoint
WISS 2006 17 (B)17700095 18 18 11190 9. 1. A B C 6 [1] AR-toolkit. http://www.hitl.washington.edu/ artoolkit/. [2] julian. http://julius.sourceforge.jp. [3] PowerPoint. http://www.microsoft.com/office/ powerpoint/prodinfo/. [4] TalkMan. http://www.jp.playstation.com/scej /title/talkman/. [5]. http://www.jp.playstation.com/scej /title/shibaimichi/index.html. [6] Heer et al. Presiding Over Accidents: System Mediation of Human Action. In CHI 04, pp. 463 470, 2004. [7] Hindus et al. Ubiquitous Audio: Capturing Spontane-ous Collaboration. In CSCW 02, pp. 210 217, 1992. [8] Kurihara et al. Speech Pen: Predictive Handwriting based on Ambient Multimodal Recognition. In CHI 06, pp. 851 860, 2006. [9] Lyons et al. Augmenting Conversations Using Dual-Purpose Speech. In UIST 02, pp. 237 246, 2004. [10] A. Mehrabian. Silent messages, Implicit Communication of Emotions and Attitudes. In 2nd Ed., Wadsworth Pub. Co., 1981. [11].. 16, pp. 151 156, 2002. [12]. SVM 2 360. PRMU vol.106, no.72, pp. 19 24, 2006. [13].., ( ). [14].., SLP40-02, pp. 7 12, 2002. [15].. D-II, Vol.J83-D-II, No.11, pp. 2330 2340, 2000. [16]. :., Vol.19, No.4, pp. 10 21, 2002. [17]. : SWITCH on Speech. 2003-SLP-46-12, Vol.2003, No.58, pp. 67 72, 2003. [18].., 2005. [19].., 1998.