THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS IEICE Technical Report IN ( ),

THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS IEICE Technical Report IN215-96 (216-1), 5 8585 27 1 E-mail: 122422@mmm.muroran-it.ac.jp, hattori@csse.muroran-it.ac.jp Web Web Web Abstract Recognition Using Voice and Cast Information of Anime Video Motoki EIDA and Shun HATTORI, Web Intelligence Time-Space (WITS) Laboratory, Muroran Institute of Technology 27 1 Mizumoto-cho, Muroran, Hokkaido 5 8585, Japan E-mail: 122422@mmm.muroran-it.ac.jp, hattori@csse.muroran-it.ac.jp When we hear a voice from amusement media such as animes, games, movies, and music, we sometimes feel like that we have heard the voice somewhere. To check whose voice it is in a playing anime video, we have to carry extra burdens of skipping the anime video to the staff roll of the ending once and searching the Web by the anime title and/or character name. This paper proposes a Recognition system that recognize a voice actor s name from her/his voice in a playing anime video and displays the name automatically in real time. The system uses the sound waveform data of a playing anime video and each voice actor s sound waveform data stored in a voice actor database to calculate their similarity. And moreover it filters by cast information (textual information of pairs of a character name and its voice actor s name) on the Web searched by the title of a playing anime video. Key words Recognition, Speech Recognition, Cast Information, Web Text Extraction 1. Web A A Web A Web 7

B, 583,587,587,587,565, B C YouTube Web Web 1 A 2 Android API Visualizer [4] Visualizer Android 2 : 3 a i,1 a i,3 1 Android t v t.1 3 2 v t i a i 3 3 v t.1 2 3 2. 2 3 1 2 a i 4 4 4 a i 3 a i.1 1 3 a i 1 2. 2. 1 [1 3] a i : 3 Actor 3 A, 583,587,565,578,591, Voice a i : 3 8

2. 3 3 Android startpoint startpoint v t = (v t,1 startpoint,, v t,3 startpoint) a i = (a i,1 startpoint,, a i,3 startpoint) (1) (3).1 4 3 v t 3 A,B,C : 3 2. 4 2. 4. 1 2 A B C v t a i 3 4 3 v t v t,1, v t,2, v t,3 a i a i,1, a i,2,, a i,3 1 v t = (v t,1,, v t,3 ), a i = (a i,1,, a i,3 ) A.3 B.8 C.4 B d(v t, a i ) = (v t,1 a i,1) 2 + + (v t,3 a i,3) 2 4 = 3 (v t,j a i,j ) 2 sim(v t, a i ) = 2 sim(v t, a i ) = 1 d(v t, a i ) + 1 v t = (v t,1,, v t,3 ), a i = (a i,1,, a i,3 ) 3 sim(v t, a i ) = 3 v t,j a i,j v t,j (1) a i,j (2) v t = (v t,1,, v t,3), a i = (a i,1,, a i,3) (v t,j v t)(a i,j a i) 3 (v t,j v t ) 2 (a i,j a i ) 2 (3) 2. 4. 2.1.1 N N P % 1.1 N N P % 1 N :.1 P % : N 1 N 1 P 6% 5 5.1 1 A 6 B 2 C 2 A 1 6% 1 1 1 A.1 1 A 4 B 3 C 3 6 1 6 1 1 9

N 1 P 4%.1 1 A 4 B 4 C 2 7 A B 1 4 1 1.1 1 A.1 1 2.5315 B.1 1 1.2521 A B 1 A 2 N P % 3 8 N : NP%1 A,B,C : 3 12.1s.1s.1s.1s N.1s.1s.1s A B A A C A B A C A 11A61 1A 5 8 : A,B,C : 3 6.1s.1s.1s.1s.1s.1s.1s A B A C C B B A C A 1161 1 2. 5 Web Web 9 : A,B,C : 3 A C.1s.1s.1s.1s.1s.1s.1s A B A C B B B A C A 11A,B41.11 7 A = 2.5315 B = 1.2521 B A1 1 A B C D E D A C D 9 1

3. 3 1 1 2 16 2 2 i a i 1 2 16 1 2 3 3 PC 2 N P % = = 3. 1 3 N P % 3 N = 1 P 3 F 1 1 1 (1) F 9 4 7 9 6 1 9 F 1 (2) 1 1 3. 2 N = 1 F 2 11 2 11 2 (1) F 1 9 8 9 3 F 11 (2) 3. 3 N P % N P %F F 2 16 16 2 2 4 4 11

変動させて比較する図 12 から図 15 の全体を比較してみるとどの条件下でも 2 つのパラメータが小さい場合に F 値が高い 5 5 5.5 1 2 5 5 5.5 しとなる危険性も低くなるからであるまた F 値が高くなるか低くなるかはパラメータ P %の変動に依って大きく変わることがわかるこれは N 回の声優認識が精確にされていないため声優認識にばらつきが生じているのが原因ではないかと考えられる.1 秒毎の声優認識にばらつきがあると N 回中 P %以上の閾値には届かないため必然的に判定なしが 1 2 多くなるまたパラメータ P %と同様にパラメータ N 回の 3 3 図 12 ことがわかるこれは各パラメータの値が小さいと判定なキャスト情報ありでコサイン類似度を用いた時の F 値方も少なからず影響を及ぼしている図 12 と図 13 図 15 から N が大きくなるにつれて F 値が下がっているのがわかる 4. まとめと今後の課題本稿ではアニメ動画から声優を認識するために動画の音声.8.8 2 して出力させてその音声波形から取得できる数値を用いた 3 種類の類似度計算に基づいて声優認識する手法を提案したさらに声優認識の精度をより向上させるために Web 上でキャスト情報を取得したり 2 種類のパラメータを設けたり音声波形 1 1 データを Android 標準 API の Visualizer を用いて音声波形とデータの数値を正規化したり様々な改善方法を検討したその結果キャスト情報を取得してデータベースに入っている声 2 3 3 優の候補を出来る限り絞った方が声優認識の精度が向上するこ図 13 キャスト情報ありで相関係数を用いた時の F 値とがわかったまた類似度の計算においてユークリッド距離を用いると著しく精度が低くなることがわかったパラメータに関しては N 回毎にばらついた声優認識結果が出ているために高い閾値 P %を設けると途端に精度が低くなることを確認した全体の考察として Visualizer で取得する音声波形デー.4.35.3.25.2.15.1.4.35.3.25.2.15.1 データが合成波形であるからではないかと考えられる今後の課題として音声の認識の精度の向上を目指していくフーリエ変換して周波数の情報も取り入れることが考えられる 6 また本稿では Visualizer の音声波形データの数値の軌跡を用 7 は Android 標準 API の Visualizer から取得できる音声波形まず初めに今後は Android の他の機能を使って音声データを 1 2 タを使って声優認識するシステムの精度が低いと感じるこれ 8 3 いた声優認識を行ったが Android 搭載の db を算出できる機図 14 キャスト 2 人でコサイン類似度を用いた時の F 値能を使って db の情報を使うことも考えている次に本稿の声優データベースには声優 1 名につき 1 種類の 1 つの音声波形データしか入っていなかったが複数の種類の複数の音声データを入れておきそれらを組み合わせることで声優認識の精度向上を図る最後に本稿で用いた類似度計算だけでなく他.35 の類似度の定義を用いる方法なども検討していく.3.35.25.3.2.25.15.2.1.15.1 1 2 6 7 8 3 図 15 キャスト 2 人で相関係数を用いた時の F 値文献 [1] 古井貞熙, 話者認識の現状と展望, 電子通信学会誌, Vol.67, No.5, pp.537 543 (1984). [2] 小林光田中章浩, 木下健太郎, 岸田悟, 声紋による個人認証システムの構築, 電子情報通信学会ニューロコンピューティング研究会, 信学技報, Vol.18, No.48, pp.13 17 (29). [3] @y benjo, 音声による既婚声優の判別問題, 日本声優統計学会, 声優統計, Vol.2 (213). [4] Google Android Visualizer, http://developer.android. com/reference/android/media/audiofx/visualizer.html. 12