THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS IEICE Technical Report IN ( ),

Similar documents
1., 1 COOKPAD 2, Web.,,,,,,.,, [1]., 5.,, [2].,,.,.,, 5, [3].,,,.,, [4], 33,.,,.,,.. 2.,, 3.., 4., 5., ,. 1.,,., 2.,. 1,,

THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS TECHNICAL REPORT OF IEICE.

Table 1 Table 2

1 Web [2] Web [3] [4] [5], [6] [7] [8] S.W. [9] 3. MeetingShelf Web MeetingShelf MeetingShelf (1) (2) (3) (4) (5) Web MeetingShelf

Web Web Web Web Web, i

スライド 1

1. HNS [1] HNS HNS HNS [2] HNS [3] [4] [5] HNS 16ch SNR [6] 1 16ch 1 3 SNR [4] [5] 2. 2 HNS API HNS CS27-HNS [1] (SOA) [7] API Web 2

3D UbiCode (Ubiquitous+Code) RFID ResBe (Remote entertainment space Behavior evaluation) 2 UbiCode Fig. 2 UbiCode 2. UbiCode 2. 1 UbiCode UbiCode 2. 2

21 e-learning Development of Real-time Learner Detection System for e-learning

1 1 tf-idf tf-idf i

DEIM Forum 2010 A Web Abstract Classification Method for Revie

Vol.54 No (July 2013) [9] [10] [11] [12], [13] 1 Fig. 1 Flowchart of the proposed system. c 2013 Information

WebRTC P2P Web Proxy P2P Web Proxy WebRTC WebRTC Web, HTTP, WebRTC, P2P i

7,, i

Microsoft Word - toyoshima-deim2011.doc


1 Table 1: Identification by color of voxel Voxel Mode of expression Nothing Other 1 Orange 2 Blue 3 Yellow 4 SSL Humanoid SSL-Vision 3 3 [, 21] 8 325

paper.dvi

,,,,., C Java,,.,,.,., ,,.,, i

10_細川直史.indd

IPSJ SIG Technical Report Vol.2011-EC-19 No /3/ ,.,., Peg-Scope Viewer,,.,,,,. Utilization of Watching Logs for Support of Multi-

& Vol.5 No (Oct. 2015) TV 1,2,a) , Augmented TV TV AR Augmented Reality 3DCG TV Estimation of TV Screen Position and Ro

08-特集04.indd

IPSJ SIG Technical Report Vol.2014-EIP-63 No /2/21 1,a) Wi-Fi Probe Request MAC MAC Probe Request MAC A dynamic ads control based on tra

SNS ( ) SNS(Social Networking Service) SNS SNS i

SOM SOM(Self-Organizing Maps) SOM SOM SOM SOM SOM SOM i

MA3-1 30th Fuzzy System Symposium (Kochi, September 1-3, 2014) Analysis of Comfort Given to Human by Using Sound Generation System Based on Netowork o

(MIRU2008) HOG Histograms of Oriented Gradients (HOG)

THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS TECHNICAL REPORT OF IEICE

大学における原価計算教育の現状と課題

THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS TECHNICAL REPORT OF IEICE. UWB UWB

経済論集 44‐1(よこ)/2.李

Web Basic Web SAS-2 Web SAS-2 i

IPSJ SIG Technical Report Vol.2014-GN-90 No.16 Vol.2014-CDS-9 No.16 Vol.2014-DCC-6 No /1/24 1,a) 2,b) 2,c) 1,d) QUMARION QUMARION Kinect Kinect

...S.....\1_4.ai

1_26.dvi

IPSJ SIG Technical Report Vol.2014-IOT-27 No.14 Vol.2014-SPT-11 No /10/10 1,a) 2 zabbix Consideration of a system to support understanding of f

AP AP AP AP AP AP AP( AP) AP AP( AP) AP AP Air Patrol[1] Air Patrol Cirond AP AP Air Patrol Senser Air Patrol Senser AP AP Air Patrol Senser AP


IPSJ SIG Technical Report Vol.2017-CLE-21 No /3/21 e 1,2 1,2 1 1,2 1 Sakai e e e Sakai e Current Status and Challenges on e-learning T

A Study of Effective Application of CG Multimedia Contents for Help of Understandings of the Working Principles of the Internal Combustion Engine (The

1: ( 1) 3 : 1 2 4

1: A/B/C/D Fig. 1 Modeling Based on Difference in Agitation Method artisoc[7] A D 2017 Information Processing

1 Fig. 1 Extraction of motion,.,,, 4,,, 3., 1, 2. 2.,. CHLAC,. 2.1,. (256 ).,., CHLAC. CHLAC, HLAC. 2.3 (HLAC ) r,.,. HLAC. N. 2 HLAC Fig. 2

3_23.dvi

24 Region-Based Image Retrieval using Fuzzy Clustering

28 TCG SURF Card recognition using SURF in TCG play video

12) NP 2 MCI MCI 1 START Simple Triage And Rapid Treatment 3) START MCI c 2010 Information Processing Society of Japan

1 2. Nippon Cataloging Rules NCR [6] (1) 5 (2) 4 3 (3) 4 (4) 3 (5) ISSN 7 International Standard Serial Number ISSN (6) (7) 7 16 (8) ISBN ISSN I

17 Proposal of an Algorithm of Image Extraction and Research on Improvement of a Man-machine Interface of Food Intake Measuring System

58 10

wki_shuronn.pdf

1 7.35% 74.0% linefeed point c 200 Information Processing Society of Japan

SERPWatcher SERPWatcher SERP Watcher SERP Watcher,

ActionScript Flash Player 8 ActionScript3.0 ActionScript Flash Video ActionScript.swf swf FlashPlayer AVM(Actionscript Virtual Machine) Windows

3_39.dvi

: ( ) ( ) 1 *1 *2 *3 [1] *4 () *1 *2 e-portfolio *3 *4 [2] [1] (1) (2) ICT *5 CMS / LMS *6 ([3], ) 2 Mahara[4] () *7 *5 Information and Commu

情報科学研究 第19号


国民年金保険料における未納 免除 猶予 追納の分析 Analysis of People's Decision-Making for the Absence of Contribution Payments, the Exemption, the Contribution Postponement

untitled

kut-paper-template.dvi

22 Google Trends Estimation of Stock Dealing Timing using Google Trends

SURF,,., 55%,.,., SURF(Speeded Up Robust Features), 4 (,,, ), SURF.,, 84%, 96%, 28%, 32%.,,,. SURF, i

IPSJ SIG Technical Report Secret Tap Secret Tap Secret Flick 1 An Examination of Icon-based User Authentication Method Using Flick Input for

, IT.,.,..,.. i

Web Web [4] Web Web [5] Web 2 Web 3 4 Web Web 2.1 Web Web Web Web Web 2.2 Web Web Web *1 Web * 2*3 Web 3. [6] [7] [8] 4. Web 4.1 Web Web *1 Ama

Webサービス本格活用のための設計ポイント

untitled

25 Removal of the fricative sounds that occur in the electronic stethoscope

kut-paper-template.dvi

2 : Open Clip Art Library [4] Microsoft Office PowerPoint Web PowerPoint 2 Yahoo! Web [5] SlideShare Yahoo! Web Yahoo! Web

TA3-4 31st Fuzzy System Symposium (Chofu, September 2-4, 2015) Interactive Recommendation System LeonardoKen Orihara, 1 Tomonori Hashiyama, 1

IPSJ SIG Technical Report Vol.2010-SLDM-144 No.50 Vol.2010-EMB-16 No.50 Vol.2010-MBL-53 No.50 Vol.2010-UBI-25 No /3/27 Twitter IME Twitte

人文学部研究年報12号.indb

実教の教科書_H24+

橡最新卒論

11夏特集号初校.indd

Social Intelligence []... [] ( ) ( ) 一 般 の 情 報 他 人 の 情 報 人 コンテキスト 付 与 ソーシャル メディアの 普 及 により 受 け 手 は 自 分 の 認 識 を 発 信 機 械 コンテキスト 分 析 私 の 情 報 神 沼 靖 子, 内 木

第 1 回バイオメトリクス研究会 ( 早稲田大学 ) THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS Proceedings of Biometrics Workshop,169



<303288C991BD946797C797592E696E6464>

IPSJ SIG Technical Report Vol.2012-MUS-94 No.3 Vol.2012-SLP-90 No /2/ DTM 200 GUIN-Resonator: A system synthesizing voice with the styl

計量国語学 アーカイブ ID KK 種別 特集 招待論文 A タイトル Webコーパスの概念と種類, 利用価値 語史研究の情報源としてのWebコーパス Title The Concept, Types and Utility of Web Corpora: Web Corpora as

P2P Web Proxy P2P Web Proxy P2P P2P Web Proxy P2P Web Proxy Web P2P WebProxy i

第62巻 第1号 平成24年4月/石こうを用いた木材ペレット

IPSJ SIG Technical Report Vol.2012-IS-119 No /3/ Web A Multi-story e-picture Book with the Degree-of-interest Extraction Function

DEIM Forum 2009 E

IPSJ SIG Technical Report Vol.2016-MUS-111 No /5/21 1, 1 2,a) HMM A study on an implementation of semiautomatic composition of music which matc

2 3

知能と情報, Vol.30, No.5, pp

Web UX Web Web Web 1.2 Web GIF Kevin Burg Jamie Beck GIF GIF [2] Flixel Cinemagraph pro *1 Adobe Photoshop *2 GIMP *3 Web *1 Flixel Photos Inc. *2 *3


untitled

untitled

THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS TECHNICAL REPORT OF IEICE k


.,,, [12].,, [13].,,.,, meal[10]., [11], SNS.,., [14].,,.,,.,,,.,,., Cami-log, , [15], A/D (Powerlab ; ), F- (F-150M, ), ( PC ).,, Chart5(ADIns

DEIM Forum 2015 F8-4 Twitter Twitter 1. SNS

Transcription:

THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS IEICE Technical Report IN215-96 (216-1), 5 8585 27 1 E-mail: 122422@mmm.muroran-it.ac.jp, hattori@csse.muroran-it.ac.jp Web Web Web Abstract Recognition Using Voice and Cast Information of Anime Video Motoki EIDA and Shun HATTORI, Web Intelligence Time-Space (WITS) Laboratory, Muroran Institute of Technology 27 1 Mizumoto-cho, Muroran, Hokkaido 5 8585, Japan E-mail: 122422@mmm.muroran-it.ac.jp, hattori@csse.muroran-it.ac.jp When we hear a voice from amusement media such as animes, games, movies, and music, we sometimes feel like that we have heard the voice somewhere. To check whose voice it is in a playing anime video, we have to carry extra burdens of skipping the anime video to the staff roll of the ending once and searching the Web by the anime title and/or character name. This paper proposes a Recognition system that recognize a voice actor s name from her/his voice in a playing anime video and displays the name automatically in real time. The system uses the sound waveform data of a playing anime video and each voice actor s sound waveform data stored in a voice actor database to calculate their similarity. And moreover it filters by cast information (textual information of pairs of a character name and its voice actor s name) on the Web searched by the title of a playing anime video. Key words Recognition, Speech Recognition, Cast Information, Web Text Extraction 1. Web A A Web A Web 7

B, 583,587,587,587,565, B C YouTube Web Web 1 A 2 Android API Visualizer [4] Visualizer Android 2 : 3 a i,1 a i,3 1 Android t v t.1 3 2 v t i a i 3 3 v t.1 2 3 2. 2 3 1 2 a i 4 4 4 a i 3 a i.1 1 3 a i 1 2. 2. 1 [1 3] a i : 3 Actor 3 A, 583,587,565,578,591, Voice a i : 3 8

2. 3 3 Android startpoint startpoint v t = (v t,1 startpoint,, v t,3 startpoint) a i = (a i,1 startpoint,, a i,3 startpoint) (1) (3).1 4 3 v t 3 A,B,C : 3 2. 4 2. 4. 1 2 A B C v t a i 3 4 3 v t v t,1, v t,2, v t,3 a i a i,1, a i,2,, a i,3 1 v t = (v t,1,, v t,3 ), a i = (a i,1,, a i,3 ) A.3 B.8 C.4 B d(v t, a i ) = (v t,1 a i,1) 2 + + (v t,3 a i,3) 2 4 = 3 (v t,j a i,j ) 2 sim(v t, a i ) = 2 sim(v t, a i ) = 1 d(v t, a i ) + 1 v t = (v t,1,, v t,3 ), a i = (a i,1,, a i,3 ) 3 sim(v t, a i ) = 3 v t,j a i,j v t,j (1) a i,j (2) v t = (v t,1,, v t,3), a i = (a i,1,, a i,3) (v t,j v t)(a i,j a i) 3 (v t,j v t ) 2 (a i,j a i ) 2 (3) 2. 4. 2.1.1 N N P % 1.1 N N P % 1 N :.1 P % : N 1 N 1 P 6% 5 5.1 1 A 6 B 2 C 2 A 1 6% 1 1 1 A.1 1 A 4 B 3 C 3 6 1 6 1 1 9

N 1 P 4%.1 1 A 4 B 4 C 2 7 A B 1 4 1 1.1 1 A.1 1 2.5315 B.1 1 1.2521 A B 1 A 2 N P % 3 8 N : NP%1 A,B,C : 3 12.1s.1s.1s.1s N.1s.1s.1s A B A A C A B A C A 11A61 1A 5 8 : A,B,C : 3 6.1s.1s.1s.1s.1s.1s.1s A B A C C B B A C A 1161 1 2. 5 Web Web 9 : A,B,C : 3 A C.1s.1s.1s.1s.1s.1s.1s A B A C B B B A C A 11A,B41.11 7 A = 2.5315 B = 1.2521 B A1 1 A B C D E D A C D 9 1

3. 3 1 1 2 16 2 2 i a i 1 2 16 1 2 3 3 PC 2 N P % = = 3. 1 3 N P % 3 N = 1 P 3 F 1 1 1 (1) F 9 4 7 9 6 1 9 F 1 (2) 1 1 3. 2 N = 1 F 2 11 2 11 2 (1) F 1 9 8 9 3 F 11 (2) 3. 3 N P % N P %F F 2 16 16 2 2 4 4 11

変動させて比較する 図 12 から図 15 の全体を比較してみると どの条件下でも 2 つのパラメータが小さい場合に F 値が高い 5 5 5.5 1 2 5 5 5.5 し となる危険性も低くなるからである また F 値が高くな るか低くなるかは パラメータ P %の変動に依って大きく変わ ることがわかる これは N 回の声優認識が精確にされていな いため 声優認識にばらつきが生じているのが原因ではないか と考えられる.1 秒毎の声優認識にばらつきがあると N 回 中 P %以上の閾値には届かないため 必然的に判定 なし が 1 2 多くなる また パラメータ P %と同様に パラメータ N 回の 3 3 図 12 ことがわかる これは各パラメータの値が小さいと 判定 な キャスト情報ありでコサイン類似度を用いた時の F 値 方も少なからず影響を及ぼしている 図 12 と図 13 図 15 か ら N が大きくなるにつれて F 値が下がっているのがわかる 4. まとめと今後の課題 本稿ではアニメ動画から声優を認識するために 動画の音声.8.8 2 して出力させて その音声波形から取得できる数値を用いた 3 種類の類似度計算に基づいて声優認識する手法を提案した さ らに声優認識の精度をより向上させるために Web 上でキャス ト情報を取得したり 2 種類のパラメータを設けたり 音声波形 1 1 データを Android 標準 API の Visualizer を用いて音声波形と データの数値を正規化したり 様々な改善方法を検討した そ の結果 キャスト情報を取得してデータベースに入っている声 2 3 3 優の候補を出来る限り絞った方が声優認識の精度が向上するこ 図 13 キャスト情報ありで相関係数を用いた時の F 値 とがわかった また 類似度の計算において ユークリッド距 離を用いると著しく精度が低くなることがわかった パラメー タに関しては N 回毎にばらついた声優認識結果が出ているた めに高い閾値 P %を設けると途端に精度が低くなることを確認 した 全体の考察として Visualizer で取得する音声波形デー.4.35.3.25.2.15.1.4.35.3.25.2.15.1 データが合成波形であるからではないかと考えられる 今後の課題として 音声の認識の精度の向上を目指していく フーリエ変換して周波数の情報も取り入れることが考えられる 6 また 本稿では Visualizer の音声波形データの数値の軌跡を用 7 は Android 標準 API の Visualizer から取得できる音声波形 まず初めに 今後は Android の他の機能を使って音声データを 1 2 タを使って声優認識するシステムの精度が低いと感じる これ 8 3 いた声優認識を行ったが Android 搭載の db を算出できる機 図 14 キャスト 2 人でコサイン類似度を用いた時の F 値 能を使って db の情報を使うことも考えている 次に 本稿の 声優データベースには声優 1 名につき 1 種類の 1 つの音声波形 データしか入っていなかったが 複数の種類の複数の音声デー タを入れておき それらを組み合わせることで声優認識の精度 向上を図る 最後に 本稿で用いた類似度計算だけでなく 他.35 の類似度の定義を用いる方法なども検討していく.3.35.25.3.2.25.15.2.1.15.1 1 2 6 7 8 3 図 15 キャスト 2 人で相関係数を用いた時の F 値 文 献 [1] 古井 貞熙, 話者認識の現状と展望, 電子通信学会誌, Vol.67, No.5, pp.537 543 (1984). [2] 小林 光 田中 章浩, 木下 健太郎, 岸田 悟, 声紋による個人認 証システムの構築, 電子情報通信学会 ニューロコンピューティ ング研究会, 信学技報, Vol.18, No.48, pp.13 17 (29). [3] @y benjo, 音声による既婚声優の判別問題, 日本声優統計学 会, 声優統計, Vol.2 (213). [4] Google Android Visualizer, http://developer.android. com/reference/android/media/audiofx/visualizer.html. 12