THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS IEICE Technical Report IN215-96 (216-1), 5 8585 27 1 E-mail: 122422@mmm.muroran-it.ac.jp, hattori@csse.muroran-it.ac.jp Web Web Web Abstract Recognition Using Voice and Cast Information of Anime Video Motoki EIDA and Shun HATTORI, Web Intelligence Time-Space (WITS) Laboratory, Muroran Institute of Technology 27 1 Mizumoto-cho, Muroran, Hokkaido 5 8585, Japan E-mail: 122422@mmm.muroran-it.ac.jp, hattori@csse.muroran-it.ac.jp When we hear a voice from amusement media such as animes, games, movies, and music, we sometimes feel like that we have heard the voice somewhere. To check whose voice it is in a playing anime video, we have to carry extra burdens of skipping the anime video to the staff roll of the ending once and searching the Web by the anime title and/or character name. This paper proposes a Recognition system that recognize a voice actor s name from her/his voice in a playing anime video and displays the name automatically in real time. The system uses the sound waveform data of a playing anime video and each voice actor s sound waveform data stored in a voice actor database to calculate their similarity. And moreover it filters by cast information (textual information of pairs of a character name and its voice actor s name) on the Web searched by the title of a playing anime video. Key words Recognition, Speech Recognition, Cast Information, Web Text Extraction 1. Web A A Web A Web 7
B, 583,587,587,587,565, B C YouTube Web Web 1 A 2 Android API Visualizer [4] Visualizer Android 2 : 3 a i,1 a i,3 1 Android t v t.1 3 2 v t i a i 3 3 v t.1 2 3 2. 2 3 1 2 a i 4 4 4 a i 3 a i.1 1 3 a i 1 2. 2. 1 [1 3] a i : 3 Actor 3 A, 583,587,565,578,591, Voice a i : 3 8
2. 3 3 Android startpoint startpoint v t = (v t,1 startpoint,, v t,3 startpoint) a i = (a i,1 startpoint,, a i,3 startpoint) (1) (3).1 4 3 v t 3 A,B,C : 3 2. 4 2. 4. 1 2 A B C v t a i 3 4 3 v t v t,1, v t,2, v t,3 a i a i,1, a i,2,, a i,3 1 v t = (v t,1,, v t,3 ), a i = (a i,1,, a i,3 ) A.3 B.8 C.4 B d(v t, a i ) = (v t,1 a i,1) 2 + + (v t,3 a i,3) 2 4 = 3 (v t,j a i,j ) 2 sim(v t, a i ) = 2 sim(v t, a i ) = 1 d(v t, a i ) + 1 v t = (v t,1,, v t,3 ), a i = (a i,1,, a i,3 ) 3 sim(v t, a i ) = 3 v t,j a i,j v t,j (1) a i,j (2) v t = (v t,1,, v t,3), a i = (a i,1,, a i,3) (v t,j v t)(a i,j a i) 3 (v t,j v t ) 2 (a i,j a i ) 2 (3) 2. 4. 2.1.1 N N P % 1.1 N N P % 1 N :.1 P % : N 1 N 1 P 6% 5 5.1 1 A 6 B 2 C 2 A 1 6% 1 1 1 A.1 1 A 4 B 3 C 3 6 1 6 1 1 9
N 1 P 4%.1 1 A 4 B 4 C 2 7 A B 1 4 1 1.1 1 A.1 1 2.5315 B.1 1 1.2521 A B 1 A 2 N P % 3 8 N : NP%1 A,B,C : 3 12.1s.1s.1s.1s N.1s.1s.1s A B A A C A B A C A 11A61 1A 5 8 : A,B,C : 3 6.1s.1s.1s.1s.1s.1s.1s A B A C C B B A C A 1161 1 2. 5 Web Web 9 : A,B,C : 3 A C.1s.1s.1s.1s.1s.1s.1s A B A C B B B A C A 11A,B41.11 7 A = 2.5315 B = 1.2521 B A1 1 A B C D E D A C D 9 1
3. 3 1 1 2 16 2 2 i a i 1 2 16 1 2 3 3 PC 2 N P % = = 3. 1 3 N P % 3 N = 1 P 3 F 1 1 1 (1) F 9 4 7 9 6 1 9 F 1 (2) 1 1 3. 2 N = 1 F 2 11 2 11 2 (1) F 1 9 8 9 3 F 11 (2) 3. 3 N P % N P %F F 2 16 16 2 2 4 4 11
変動させて比較する 図 12 から図 15 の全体を比較してみると どの条件下でも 2 つのパラメータが小さい場合に F 値が高い 5 5 5.5 1 2 5 5 5.5 し となる危険性も低くなるからである また F 値が高くな るか低くなるかは パラメータ P %の変動に依って大きく変わ ることがわかる これは N 回の声優認識が精確にされていな いため 声優認識にばらつきが生じているのが原因ではないか と考えられる.1 秒毎の声優認識にばらつきがあると N 回 中 P %以上の閾値には届かないため 必然的に判定 なし が 1 2 多くなる また パラメータ P %と同様に パラメータ N 回の 3 3 図 12 ことがわかる これは各パラメータの値が小さいと 判定 な キャスト情報ありでコサイン類似度を用いた時の F 値 方も少なからず影響を及ぼしている 図 12 と図 13 図 15 か ら N が大きくなるにつれて F 値が下がっているのがわかる 4. まとめと今後の課題 本稿ではアニメ動画から声優を認識するために 動画の音声.8.8 2 して出力させて その音声波形から取得できる数値を用いた 3 種類の類似度計算に基づいて声優認識する手法を提案した さ らに声優認識の精度をより向上させるために Web 上でキャス ト情報を取得したり 2 種類のパラメータを設けたり 音声波形 1 1 データを Android 標準 API の Visualizer を用いて音声波形と データの数値を正規化したり 様々な改善方法を検討した そ の結果 キャスト情報を取得してデータベースに入っている声 2 3 3 優の候補を出来る限り絞った方が声優認識の精度が向上するこ 図 13 キャスト情報ありで相関係数を用いた時の F 値 とがわかった また 類似度の計算において ユークリッド距 離を用いると著しく精度が低くなることがわかった パラメー タに関しては N 回毎にばらついた声優認識結果が出ているた めに高い閾値 P %を設けると途端に精度が低くなることを確認 した 全体の考察として Visualizer で取得する音声波形デー.4.35.3.25.2.15.1.4.35.3.25.2.15.1 データが合成波形であるからではないかと考えられる 今後の課題として 音声の認識の精度の向上を目指していく フーリエ変換して周波数の情報も取り入れることが考えられる 6 また 本稿では Visualizer の音声波形データの数値の軌跡を用 7 は Android 標準 API の Visualizer から取得できる音声波形 まず初めに 今後は Android の他の機能を使って音声データを 1 2 タを使って声優認識するシステムの精度が低いと感じる これ 8 3 いた声優認識を行ったが Android 搭載の db を算出できる機 図 14 キャスト 2 人でコサイン類似度を用いた時の F 値 能を使って db の情報を使うことも考えている 次に 本稿の 声優データベースには声優 1 名につき 1 種類の 1 つの音声波形 データしか入っていなかったが 複数の種類の複数の音声デー タを入れておき それらを組み合わせることで声優認識の精度 向上を図る 最後に 本稿で用いた類似度計算だけでなく 他.35 の類似度の定義を用いる方法なども検討していく.3.35.25.3.2.25.15.2.1.15.1 1 2 6 7 8 3 図 15 キャスト 2 人で相関係数を用いた時の F 値 文 献 [1] 古井 貞熙, 話者認識の現状と展望, 電子通信学会誌, Vol.67, No.5, pp.537 543 (1984). [2] 小林 光 田中 章浩, 木下 健太郎, 岸田 悟, 声紋による個人認 証システムの構築, 電子情報通信学会 ニューロコンピューティ ング研究会, 信学技報, Vol.18, No.48, pp.13 17 (29). [3] @y benjo, 音声による既婚声優の判別問題, 日本声優統計学 会, 声優統計, Vol.2 (213). [4] Google Android Visualizer, http://developer.android. com/reference/android/media/audiofx/visualizer.html. 12