WISS 2006 2 PowerPoint [3] [16] Mehrabian [10] 7% 93% [10] [19][18] Hindus [7] Lyons [9] [8] [14] TalkMan [4] [5] [6] 3 [19][18] [19] [19] 1 F0 [11] 7



Similar documents
バイノーラルマイクを用いたライフログ映像のショット識別 Life-log Video Shot Discrimination using Binaural Microphone 山野貴一郎 伊藤克亘 法政大学大学院情報科学研究科 法政大学情報科学部 Kiichiro YAMANO Katunobu

(fnirs: Functional Near-Infrared Spectroscopy) [3] fnirs (oxyhb) Bulling [4] Kunze [5] [6] 2. 2 [7] [8] fnirs 3. 1 fnirs fnirs fnirs 1

2008 年度下期未踏 IT 人材発掘 育成事業採択案件評価書 1. 担当 PM 田中二郎 PM ( 筑波大学大学院システム情報工学研究科教授 ) 2. 採択者氏名チーフクリエータ : 矢口裕明 ( 東京大学大学院情報理工学系研究科創造情報学専攻博士課程三年次学生 ) コクリエータ : なし 3.

Lecture on

REALV5_A4…p_Ł\1_4A_OCF

untitled

「都市から地方への人材誘致・移住促進に関する調査」

<91498EE88CA D815B2E786C73>

〔 大 会 役 員 〕

橡本体資料+参考条文.PDF

IPSJ SIG Technical Report Vol.2014-HCI-160 No.8 Vol.2014-UBI-44 No /10/14 1,a) 1,b) 1,c) 1,d) 1. [1] HMD 1 Kyoto Institute of Technology a) kyok

HMD VR VR HMD VR HMD VR Eye-Gaze Interface on HMD for Virtual Reality Hiromu MIYASHITA Masaki HAYASHI Kenichi OKADA Faculty of Science and Technology,

3 2 2 (1) (2) (3) (4) 4 4 AdaBoost 2. [11] Onishi&Yoda [8] Iwashita&Stoica [5] 4 [3] 3. 3 (1) (2) (3)

音響モデル triphone 入力音声 音声分析 デコーダ 言語モデル N-gram bigram HMM の状態確率として利用 出力層 triphone: 3003 ノード リスコア trigram 隠れ層 2048 ノード X7 層 1 Structure of recognition syst

WISS 2018 [2 4] [5,6] Query-by-Dancing Query-by- Dancing Cao [1] OpenPose 2 Ghias [7] Query by humming Chen [8] Query by rhythm Jang [9] Query-by-tapp

使用説明書(Macintosh)


今泉.indd

特別寄稿.indd

[12] [5, 6, 7] [5, 6] [7] 1 [8] 1 1 [9] 1 [10, 11] [10] [11] 1 [13, 14] [13] [14] [13, 14] [10, 11, 13, 14] 1 [12]


yamato_2016_0915_色校_CS3.indd

1

01_渡部先生_21-2.indd

intra-mart Accel Collaboration — ファイルライブラリ 管理者操作ガイド   第6版  

5104-toku3.indd

目次 1: スペック 2 ページ 2: 付属品を確かめる 3 ページ 3: 接続方法 カメラ調整 3 ページ 3-1: カメラ本体と電源ケーブルの接続について 3 ページ 3-2:PLC アダプタの接続について 3 ページ 3-3: カメラ調整について 4 ページ 4: スマートフォンからの監視 4

Microsoft PowerPoint _秀英体の取組み素材(予稿集).ppt

国土技術政策総合研究所 研究資料

スライド 1

(Microsoft Word - 01PowerPoint\217\343\213\211C\203p\203^\201[\203\223\222m\216\257\225\\\216\206.doc)


Jupyter Notebook を活用したプログラムライブラリ構築の検討 吹谷芳博 1, 藤澤正樹 1 ( 1 あすか製薬株式会社 ) Examination of the program library construction using Jupyter Notebook ASKA Pharm

報告書.PDF

help_ja

歌声情報処理: 歌声を対象とした音楽情報処理

円筒面で利用可能なARマーカ


IPSJ SIG Technical Report Vol.2014-CDS-10 No /5/ Intuitive appliance control method based on high-accurate indoor localization system

(MIRU2008) HOG Histograms of Oriented Gradients (HOG)

出力ログ管理ソリューションカタログ

KHS シリーズ HD ネットワークカメラ KHS201 / KHS303 / KHS316/ KHS400 /KHS410 特徴 H.264 ビデオ高画質画像 PoE 対応 (KHS316) 夜間撮影機能 動体検知機能 HD 解像度 旧モデル KHS200 /KHS301 / KHS302 /KH

Raspberry Pi BF BF BF Raspberry Pi PC USB HDMI OS SD SD OS Raspberry Pi Model B MicroUSB MicroSD OS SD GPIO HDMI USB LAN Raspberry Pi MicroUSB MicroSD

Microsoft PowerPoint - masayukiakiyama_ pptx

S: E: O: C: V : 5

AR技術を用いたグリーティングカード作成ソフトの開発

_Print

9

戦後の補欠選挙

日経テレコン料金表(2016年4月)

73 p p.152


Microsoft Word - 田中亮太郎.doc

122011pp

2

p

Transcription:

WISS2006 A Presentation Training System using Speech and Image Processing. Web 1 [19] Copyright is held by the author(s). Kazutaka Kurihara and Takeo Igarashi,, Masataka Goto and Jun Ogata and Yosuke Matsusaka,, Takeo Igarashi, 1. 1

WISS 2006 2 PowerPoint [3] [16] Mehrabian [10] 7% 93% [10] [19][18] Hindus [7] Lyons [9] [8] [14] TalkMan [4] [5] [6] 3 [19][18] [19] [19] 1 F0 [11] 7.6 / F0 10Hz [19] [19] 15% 80% 15% [19][18] [18] SI(Speech Index) t SI = 50 (when t < 1) SI = 50 + 12.5(t 1) (when t 1) SI = 100 (when SI > 100) t SI = 50 50t/13 SI = 0 (when SI < 0) SI 50 100 1

A Presentation Training System using Speech and Image Processing 2. 3. 50 13 0 13 80% 100% 4 4.1 [13] 2 F0 RVCP [16] 4.2 4.2.1 3 3 2 3 4.2.2 4 2 3

WISS 2006 図 6. AR ツールキットを用いたマーカ 図 4. オフラインフィードバックとして作成される個々 のグラフの例 ペンによるアノテーションが可能 検出手法は 任意の母音の引き延ばしを言語非依存 に検出できる特長を持ち 有声休止が持つ二つの音 響的特徴 (F0 の変動が小さい スペクトル包絡の変 形が小さい) をボトムアップな信号処理によって検 出する 4.4 音声認識部 話速度 音声認識部では マイクから得られた発表者の発 話を入力として 音節を単位とした音声認識を行い その認識結果 (音節列) と対応する発話区間情報を 情報統合部に送信する 検出された音節数を発話区 間の長さで割ることで 無音区間を除く単位時間当 たりの音節数を計算する 音声認識器としては julian [2] を 各発話の認 識結果が情報統合部に逐次送信されるように拡張し たものを用いた [17] 認識時の言語モデルとしては 121 種類の音節 (無音も含む) が任意の接続を許す ネットワーク文法を用いている 図 5. プレゼンテーション資料に蓄積される過去の発表 練習履歴 囲の領域に 発表に関連する情報を自由に書き加え ることが可能である 一度発表練習を行うと 資料 の右端にグラフ群がタイムスタンプとともに添付さ れ 閲覧やペンアノテーションによるコメント書き 込みが行える また左右方向には過去の練習におけ る同一指標の履歴が残っているため 比較も容易で ある 図 5 オフラインフィードバックについて 現在はグラ フの提示のみにとどまっているが 今後多数の発表 データを収集し それと比較しての総合評価 改善 に向けてのアドバイス提示などを行う予定である 4.3 音響分析部 発話区間 声の高さ 有声休止 音響分析部では マイクから得られた発表者の音 声を入力として発話区間 声の高さ (F0) 有声休止 を 10ms ごとにリアルタイムに求め 情報統合部に 送信する 発話区間は 音声のパワーの大きい箇所 に基づいて検出する F0 推定と有声休止検出には 文献 [15] の F0 推定手法 有声休止検出手法を用い る F0 推定手法は 背景雑音等を伴う音響信号に 対してもロバストに機能する特長を持ち コムフィ ルタの考え方に基づいて 最も優勢な高調波構造の F0 を音声の F0 として推定する 一方 有声休止の 本手法による音声認識は通常スペックのラップトッ プPCを用いても数秒程度の遅れで出力される こ れはユーザが発表中に最近の話速度をチェックする という用途には十分な性能である 4.5 画像情報処理部 顔の位置と向き 画像情報処理部では Web カメラから取得した画 像から発表者の顔の位置および顔の向きを計算し 情 報統合部に逐次送信する作業を行う プロトタイプ 版の実装として AR ツールキット [1] を用いたマー カによる方式と 部分空間法および SVM(Support Vector Machine) を用いた純粋な画像処理による方 式 [12] の2方式を開発した どちらの手法も単眼カ メラからリアルタイムに発表者の顔の位置と向きの 6 自由度情報を得ることが可能である 以下に詳細 を示す 4.5.1 AR ツールキットを用いたマーカ方式 AR ツールキットを用いたマーカ方式では発表者 は図 6 で示すような特殊なマーカを頭部に着用する 発泡スチロール製の立方体の各面に AR ツールキッ トの2次元コードを貼ることにより 発表者がどこ を向いていても頭部の位置と向きの検出を行うこと が可能である 本方式はユーザごとに画像処理用の 学習データ等を与えなくても動作する

A Presentation Training System using Speech and Image Processing 7. SVM 2 360 8. Web 4.5.2 SVM SVM SVM 7 4.5.3 2 8 5 5.1 3 A B C 8 4 5.2 5.2.1 5.2.2 18 73 1 1 12 0 9 A C 1 F0 20Hz 40Hz Hz F0 4 PowerPoint

WISS 2006 17 (B)17700095 18 18 11190 9. 1. A B C 6 [1] AR-toolkit. http://www.hitl.washington.edu/ artoolkit/. [2] julian. http://julius.sourceforge.jp. [3] PowerPoint. http://www.microsoft.com/office/ powerpoint/prodinfo/. [4] TalkMan. http://www.jp.playstation.com/scej /title/talkman/. [5]. http://www.jp.playstation.com/scej /title/shibaimichi/index.html. [6] Heer et al. Presiding Over Accidents: System Mediation of Human Action. In CHI 04, pp. 463 470, 2004. [7] Hindus et al. Ubiquitous Audio: Capturing Spontane-ous Collaboration. In CSCW 02, pp. 210 217, 1992. [8] Kurihara et al. Speech Pen: Predictive Handwriting based on Ambient Multimodal Recognition. In CHI 06, pp. 851 860, 2006. [9] Lyons et al. Augmenting Conversations Using Dual-Purpose Speech. In UIST 02, pp. 237 246, 2004. [10] A. Mehrabian. Silent messages, Implicit Communication of Emotions and Attitudes. In 2nd Ed., Wadsworth Pub. Co., 1981. [11].. 16, pp. 151 156, 2002. [12]. SVM 2 360. PRMU vol.106, no.72, pp. 19 24, 2006. [13].., ( ). [14].., SLP40-02, pp. 7 12, 2002. [15].. D-II, Vol.J83-D-II, No.11, pp. 2330 2340, 2000. [16]. :., Vol.19, No.4, pp. 10 21, 2002. [17]. : SWITCH on Speech. 2003-SLP-46-12, Vol.2003, No.58, pp. 67 72, 2003. [18].., 2005. [19].., 1998.