WISS 2006 2 PowerPoint [3] [16] Mehrabian [10] 7% 93% [10] [19][18] Hindus [7] Lyons [9] [8] [14] TalkMan [4] [5] [6] 3 [19][18] [19] [19] 1 F0 [11] 7



Similar documents
WISS 2008 [2] PowerPoint[7] KeyNote[8] ZUI(Zooming User Interface) ZUI 1. : Pad[9] CounterPoint[10] KidPad[11] ( ); ( ). [12] 3 4 [12] 5 3 TabletPC 2

バイノーラルマイクを用いたライフログ映像のショット識別 Life-log Video Shot Discrimination using Binaural Microphone 山野貴一郎 伊藤克亘 法政大学大学院情報科学研究科 法政大学情報科学部 Kiichiro YAMANO Katunobu

IPSJ SIG Technical Report Vol.2014-NL-216 No.6 Vol.2014-SLP-101 No /5/ MMDAgent 1. [1] Wikipedia[2] YouTube[3] [4] [5] [6] [7] 1 Graduate


(fnirs: Functional Near-Infrared Spectroscopy) [3] fnirs (oxyhb) Bulling [4] Kunze [5] [6] 2. 2 [7] [8] fnirs 3. 1 fnirs fnirs fnirs 1

中小企業 indd

広報1606月号_最終.indd

2008 年度下期未踏 IT 人材発掘 育成事業採択案件評価書 1. 担当 PM 田中二郎 PM ( 筑波大学大学院システム情報工学研究科教授 ) 2. 採択者氏名チーフクリエータ : 矢口裕明 ( 東京大学大学院情報理工学系研究科創造情報学専攻博士課程三年次学生 ) コクリエータ : なし 3.

untitled

untitled

Lecture on

REALV5_A4…p_Ł\1_4A_OCF

untitled

「都市から地方への人材誘致・移住促進に関する調査」

<91498EE88CA D815B2E786C73>

〔 大 会 役 員 〕

橡本体資料+参考条文.PDF

IPSJ SIG Technical Report Vol.2014-HCI-160 No.8 Vol.2014-UBI-44 No /10/14 1,a) 1,b) 1,c) 1,d) 1. [1] HMD 1 Kyoto Institute of Technology a) kyok

WISS BGM BGM N 1 1 N N 2 N N N 1 N YouTube N BGM 1

untitled

Web 1 q q Step1) Twitter Step2) (w i, w j ) S(w i, w j ) Step3) q I Twitter MeCab[6] URL 2.2 (w i, w j ) S(w i, w j ) I w i w

IPSJ SIG Technical Report Vol.2015-MUS-106 No.10 Vol.2015-EC-35 No /3/2 BGM 1,4,a) ,4 BGM. BGM. BGM BGM. BGM. BGM. BGM. 1.,. YouTube 201

HMD VR VR HMD VR HMD VR Eye-Gaze Interface on HMD for Virtual Reality Hiromu MIYASHITA Masaki HAYASHI Kenichi OKADA Faculty of Science and Technology,

3 2 2 (1) (2) (3) (4) 4 4 AdaBoost 2. [11] Onishi&Yoda [8] Iwashita&Stoica [5] 4 [3] 3. 3 (1) (2) (3)

グループ会話対応型会話エージェントにおける 受話者推定システム Identifying the Addressee in Multiparty Human-Agent Conversations 馬場直哉 1* 黄宏軒 2 中野有紀子 Naoya Baba 1, Hung-Hsuan Huang 2

(255) Vol. 19 No. 4 July (completion) tcsh bash UNIX Emacs/Mule 2 ( ) [2] [9] [11] 2 (speech completion) 3 ( ) [7] 2 ( 7.1 )

ImageBrowser ソフトウエアガイド(Ver5.6)

音響モデル triphone 入力音声 音声分析 デコーダ 言語モデル N-gram bigram HMM の状態確率として利用 出力層 triphone: 3003 ノード リスコア trigram 隠れ層 2048 ノード X7 層 1 Structure of recognition syst

Vol.53 No (Mar. 2012) 1, 1,a) 1, 2 1 1, , Musical Interaction System Based on Stage Metaphor Seiko Myojin 1, 1,a

27 AR

2-1. システム概要 2-2. システムの設計 SNS Twitter Web-GIS 推薦システム スマートグラスを統合 平常時は観光回遊行動支援 災害時は避難行動支援 情報の蓄積 共有 推薦とナビゲーションを可能にする 有用性 時間的制約の緩和 スマートグラスの統合 動的 リアルタイム性 SN

WISS 2018 [2 4] [5,6] Query-by-Dancing Query-by- Dancing Cao [1] OpenPose 2 Ghias [7] Query by humming Chen [8] Query by rhythm Jang [9] Query-by-tapp

使用説明書(Macintosh)

untitled

VocaListener2(ぼかりす2): ユーザ歌唱の音高と音量だけでなく声色変化も真似る歌声合成システム

i


今泉.indd

特別寄稿.indd

[12] [5, 6, 7] [5, 6] [7] 1 [8] 1 1 [9] 1 [10, 11] [10] [11] 1 [13, 14] [13] [14] [13, 14] [10, 11, 13, 14] 1 [12]

2

IRA1046-A


3 アカウント画面で新しいアカウント作成 :[ メール ] をクリックします 4 新しいメールアドレスを使いたい方という画面の下部にある [ メールアカウントを設定する ] ボタ ンをクリックします 2

yamato_2016_0915_色校_CS3.indd

IPSJ SIG Technical Report Vol.2017-GN-100 No.40 Vol.2017-CDS-18 No.40 Vol.2017-DCC-15 No /1/21 1,a) 1,b) ,c) % 60% *1 1 Wakayama

NSR-S10/S20

1. はじめに 2

1

Microsoft Word - Si Multi Digitalカード.docx

IPSJ SIG Technical Report Vol.2015-CVIM-196 No /3/6 1,a) 1,b) 1,c) U,,,, The Camera Position Alignment on a Gimbal Head for Fixed Viewpoint Swi

スライド 1

PowerPoint プレゼンテーション

12_26.dvi

25 fmri A study of discrimination of musical harmony using brain activity obtained by fmri

01_渡部先生_21-2.indd

intra-mart Accel Collaboration — ファイルライブラリ 管理者操作ガイド   第6版  

5104-toku3.indd

目次 1: スペック 2 ページ 2: 付属品を確かめる 3 ページ 3: 接続方法 カメラ調整 3 ページ 3-1: カメラ本体と電源ケーブルの接続について 3 ページ 3-2:PLC アダプタの接続について 3 ページ 3-3: カメラ調整について 4 ページ 4: スマートフォンからの監視 4

Microsoft PowerPoint _秀英体の取組み素材(予稿集).ppt

国土技術政策総合研究所 研究資料

スライド 1

)

(Microsoft Word - 01PowerPoint\217\343\213\211C\203p\203^\201[\203\223\222m\216\257\225\\\216\206.doc)

徳島大学附属図書館報メールマガジン「す だ ち」2周年記念総集編

indd


< >

図 2: 高周波成分を用いた超解像 解像度度画像とそれらを低解像度化して得られる 低解像度画像との差により低解像度の高周波成分 を得る 高解像度と低解像度の高周波成分から位 置関係を保ったままパッチ領域をそれぞれ切り出 し 高解像度パッチ画像と低解像度パッチ画像の ペアとしてデータベースに登録する

Jupyter Notebook を活用したプログラムライブラリ構築の検討 吹谷芳博 1, 藤澤正樹 1 ( 1 あすか製薬株式会社 ) Examination of the program library construction using Jupyter Notebook ASKA Pharm

プレゼンテーション

報告書.PDF

untitled

RM quick guide

DEIM Forum 2016 F / [1] ht

help_ja

歌声情報処理: 歌声を対象とした音楽情報処理

(trip) ( ) 1 1

円筒面で利用可能なARマーカ


IPSJ SIG Technical Report Vol.2014-CDS-10 No /5/ Intuitive appliance control method based on high-accurate indoor localization system

(MIRU2008) HOG Histograms of Oriented Gradients (HOG)

出力ログ管理ソリューションカタログ

KHS シリーズ HD ネットワークカメラ KHS201 / KHS303 / KHS316/ KHS400 /KHS410 特徴 H.264 ビデオ高画質画像 PoE 対応 (KHS316) 夜間撮影機能 動体検知機能 HD 解像度 旧モデル KHS200 /KHS301 / KHS302 /KH

Raspberry Pi BF BF BF Raspberry Pi PC USB HDMI OS SD SD OS Raspberry Pi Model B MicroUSB MicroSD OS SD GPIO HDMI USB LAN Raspberry Pi MicroUSB MicroSD

IPSJ SIG Technical Report Vol.2017-AAC-4 No /8/26 AR AR AR Speech understanding system with AR glasses for hearing impaired Daiki Wata

Microsoft PowerPoint - masayukiakiyama_ pptx

S: E: O: C: V : 5

Microsoft Word - 6_D_秋本.docx

AR技術を用いたグリーティングカード作成ソフトの開発

_Print

9

戦後の補欠選挙

日経テレコン料金表(2016年4月)

73 p p.152


Microsoft Word - 田中亮太郎.doc

122011pp

2

p

Transcription:

WISS2006 A Presentation Training System using Speech and Image Processing. Web 1 [19] Copyright is held by the author(s). Kazutaka Kurihara and Takeo Igarashi,, Masataka Goto and Jun Ogata and Yosuke Matsusaka,, Takeo Igarashi, 1. 1

WISS 2006 2 PowerPoint [3] [16] Mehrabian [10] 7% 93% [10] [19][18] Hindus [7] Lyons [9] [8] [14] TalkMan [4] [5] [6] 3 [19][18] [19] [19] 1 F0 [11] 7.6 / F0 10Hz [19] [19] 15% 80% 15% [19][18] [18] SI(Speech Index) t SI = 50 (when t < 1) SI = 50 + 12.5(t 1) (when t 1) SI = 100 (when SI > 100) t SI = 50 50t/13 SI = 0 (when SI < 0) SI 50 100 1

A Presentation Training System using Speech and Image Processing 2. 3. 50 13 0 13 80% 100% 4 4.1 [13] 2 F0 RVCP [16] 4.2 4.2.1 3 3 2 3 4.2.2 4 2 3

WISS 2006 図 6. AR ツールキットを用いたマーカ 図 4. オフラインフィードバックとして作成される個々 のグラフの例 ペンによるアノテーションが可能 検出手法は 任意の母音の引き延ばしを言語非依存 に検出できる特長を持ち 有声休止が持つ二つの音 響的特徴 (F0 の変動が小さい スペクトル包絡の変 形が小さい) をボトムアップな信号処理によって検 出する 4.4 音声認識部 話速度 音声認識部では マイクから得られた発表者の発 話を入力として 音節を単位とした音声認識を行い その認識結果 (音節列) と対応する発話区間情報を 情報統合部に送信する 検出された音節数を発話区 間の長さで割ることで 無音区間を除く単位時間当 たりの音節数を計算する 音声認識器としては julian [2] を 各発話の認 識結果が情報統合部に逐次送信されるように拡張し たものを用いた [17] 認識時の言語モデルとしては 121 種類の音節 (無音も含む) が任意の接続を許す ネットワーク文法を用いている 図 5. プレゼンテーション資料に蓄積される過去の発表 練習履歴 囲の領域に 発表に関連する情報を自由に書き加え ることが可能である 一度発表練習を行うと 資料 の右端にグラフ群がタイムスタンプとともに添付さ れ 閲覧やペンアノテーションによるコメント書き 込みが行える また左右方向には過去の練習におけ る同一指標の履歴が残っているため 比較も容易で ある 図 5 オフラインフィードバックについて 現在はグラ フの提示のみにとどまっているが 今後多数の発表 データを収集し それと比較しての総合評価 改善 に向けてのアドバイス提示などを行う予定である 4.3 音響分析部 発話区間 声の高さ 有声休止 音響分析部では マイクから得られた発表者の音 声を入力として発話区間 声の高さ (F0) 有声休止 を 10ms ごとにリアルタイムに求め 情報統合部に 送信する 発話区間は 音声のパワーの大きい箇所 に基づいて検出する F0 推定と有声休止検出には 文献 [15] の F0 推定手法 有声休止検出手法を用い る F0 推定手法は 背景雑音等を伴う音響信号に 対してもロバストに機能する特長を持ち コムフィ ルタの考え方に基づいて 最も優勢な高調波構造の F0 を音声の F0 として推定する 一方 有声休止の 本手法による音声認識は通常スペックのラップトッ プPCを用いても数秒程度の遅れで出力される こ れはユーザが発表中に最近の話速度をチェックする という用途には十分な性能である 4.5 画像情報処理部 顔の位置と向き 画像情報処理部では Web カメラから取得した画 像から発表者の顔の位置および顔の向きを計算し 情 報統合部に逐次送信する作業を行う プロトタイプ 版の実装として AR ツールキット [1] を用いたマー カによる方式と 部分空間法および SVM(Support Vector Machine) を用いた純粋な画像処理による方 式 [12] の2方式を開発した どちらの手法も単眼カ メラからリアルタイムに発表者の顔の位置と向きの 6 自由度情報を得ることが可能である 以下に詳細 を示す 4.5.1 AR ツールキットを用いたマーカ方式 AR ツールキットを用いたマーカ方式では発表者 は図 6 で示すような特殊なマーカを頭部に着用する 発泡スチロール製の立方体の各面に AR ツールキッ トの2次元コードを貼ることにより 発表者がどこ を向いていても頭部の位置と向きの検出を行うこと が可能である 本方式はユーザごとに画像処理用の 学習データ等を与えなくても動作する

A Presentation Training System using Speech and Image Processing 7. SVM 2 360 8. Web 4.5.2 SVM SVM SVM 7 4.5.3 2 8 5 5.1 3 A B C 8 4 5.2 5.2.1 5.2.2 18 73 1 1 12 0 9 A C 1 F0 20Hz 40Hz Hz F0 4 PowerPoint

WISS 2006 17 (B)17700095 18 18 11190 9. 1. A B C 6 [1] AR-toolkit. http://www.hitl.washington.edu/ artoolkit/. [2] julian. http://julius.sourceforge.jp. [3] PowerPoint. http://www.microsoft.com/office/ powerpoint/prodinfo/. [4] TalkMan. http://www.jp.playstation.com/scej /title/talkman/. [5]. http://www.jp.playstation.com/scej /title/shibaimichi/index.html. [6] Heer et al. Presiding Over Accidents: System Mediation of Human Action. In CHI 04, pp. 463 470, 2004. [7] Hindus et al. Ubiquitous Audio: Capturing Spontane-ous Collaboration. In CSCW 02, pp. 210 217, 1992. [8] Kurihara et al. Speech Pen: Predictive Handwriting based on Ambient Multimodal Recognition. In CHI 06, pp. 851 860, 2006. [9] Lyons et al. Augmenting Conversations Using Dual-Purpose Speech. In UIST 02, pp. 237 246, 2004. [10] A. Mehrabian. Silent messages, Implicit Communication of Emotions and Attitudes. In 2nd Ed., Wadsworth Pub. Co., 1981. [11].. 16, pp. 151 156, 2002. [12]. SVM 2 360. PRMU vol.106, no.72, pp. 19 24, 2006. [13].., ( ). [14].., SLP40-02, pp. 7 12, 2002. [15].. D-II, Vol.J83-D-II, No.11, pp. 2330 2340, 2000. [16]. :., Vol.19, No.4, pp. 10 21, 2002. [17]. : SWITCH on Speech. 2003-SLP-46-12, Vol.2003, No.58, pp. 67 72, 2003. [18].., 2005. [19].., 1998.