2. [2], [3], [4] [5] [6], [7], [8] Agnihotri [6] Xu [7] [8] [9] Nakamura [10] TRECVID (TREC Video Retrieval Evaluation) [11] TRECVID TRECVID Singing s

1,a) 2,b) 2,c) 3,d) PV Audio-visual 1. Videotrine[1] YouTube 30 29 PSY GANGNAM STYLE Music clip 2014 4 19.5 29 26 Music clip 3 Music clip 1 Waseda University 2 National Institute of Advanced Industrial Science and Technology (AIST) 3 / JST Waseda Research Institute for Science and Engineering / Japan Science and Technology Agency a) tatsunori hirai@asagi.waseda.jp b) t.nakano@aist.go.jp c) m.goto@aist.go.jp d) shigeo@waseda.jp Audio-visual 1

2. [2], [3], [4] [5] [6], [7], [8] Agnihotri [6] Xu [7] [8] [9] Nakamura [10] TRECVID (TREC Video Retrieval Evaluation) [11] TRECVID TRECVID Singing scene MFCC [12] TRECVID Audio-Visual [13], [14], [15], [16] Hrybyk [14] Petridis MFCC [15] Audio-Visual 2

Fig. 1 1 Definitions of singer appearing scene, vocal part, and singing scene. MAD Mouth Aperture Detection VAD Vocal Activity Detection 3. 3 1 ( 1 ) i.e. ( 2 ) ( 3 ) 3 10 10 1 10 5 Let it be 9 Music clip Music clip 8 Music clip 1 1 3

Table 1 1 Music clips used in experiments and its ratio of each scene. [%] [%] [%] 1 Almost Human Kimonos 28.1 62.1 42.4 2 Baby ft. Ludacris Justin Bieber 38.0 89.7 71.4 3 First Love 44.5 75.5 74.4 4 Island in the sun Weezer 31.1 66.5 42.0 5 Let it be The Beatles 41.0 66.7 54.6 6 SMILE 37.4 70.3 62.7 7 Winter, again GLAY 66.8 66.8 87.0 8 64.8 64.8 95.9 9 39.5 59.3 51.5 10 BAND 56.1 70.4 75.1 4. 4.1 [17], [18] 2 3 2 Table 2 The accuracy of singer appearance detection and singing scene detection with face detection. F F 1 0.463 0.887 0.608 0.344 0.997 0.512 2 0824 0.758 0.790 0.523 0.903 0.663 3 0.867 0.699 0.774 0.665 0.895 0.763 4 0.465 0.881 0.608 0.345 0.883 0.496 5 0.630 0.775 0.695 0.447 0.733 0.555 6 0.771 0.596 0.672 0.648 0.840 0.732 7 0.914 0.999 0.955 0.701 0.998 0.824 8 1.000 1.000 1.000 0.676 1.000 0.807 9 0.669 0.376 0.482 0.626 0.459 0.530 10 0.882 0.882 0.882 0.729 0.976 0.834 0.680 0.714 0.679 0.570 0.869 0.672 F 2 9 45.9 4

情報処理学会研究報告図 3 図 2 唇間の距離の抽出動画 8 における唇間距離の推移の様子 Fig. 3 A transition of lip distance in video no.8. Fig. 2 An extraction of the degree of mouth aperture. は Irie らの手法 [19] によって推定できる 3 次元の顔向きのうち歌唱している箇所の方が顔が検出しやすいという情報を基に両目間の長さが 50 ピクセルとなるように 3 ことを示している実際に動画を鑑賞してみると歌手が次元アフィン変換を行うここで 3 次元アフィン変換を登場しながらも歌唱していないシーンは歌手が移動して行う際に顔の奥行きを推定することはできないため顔をいるシーンやダンスをしているシーンなど顔が大きく動 3 次元空間中の平面の板とみなして変換をすることになるいているような顔検出に不向きなシーンであることが多しかし上唇と下唇の奥行きは大きく変わらないため唇かった一方歌唱シーンでは顔の動きは比較的小さく間の距離はこの平面近似の影響をあまり受けない顔がしっかりと撮影されているケースが目立ったこのここの正規化によって唇間の距離は 0 40 ピクセル程度とから音楽動画において歌唱シーンははっきりと撮影さの範囲の値となる唇間の距離が変動する頻度の高い箇所れる傾向にあると予想できるがより多くの音楽動画を基は歌唱シーンであると予想できるため映像をショット毎に検証する必要がある歌唱シーン検出の方が適合率が低に分割しショット内の唇間距離の標準偏差を特徴量としい理由は表 1 における歌手登場区間の割合と歌唱シーンて口の動き検出を行うショットとは映像においてシーの割合の比較からも明らかで歌手が登場しているシーンンやカメラの切り替わりがなくフレームが連続に繋がっが歌唱シーンであるとは限らないことによるている区間のことであり [17] に示した映像フレームのヒここで顔検出で注目するのは映像中に顔が映っているストグラムを用いた手法で自動検出するかどうかだけでありそれが歌手であるか否かは判定できショット内の唇間距離の標準偏差が n ピクセル以上であないそのため本研究では検出した顔が歌手であるかをる時該当ショット全体を歌唱シーンであるとする本稿判定するために口の動き検出を行うでは n の値を変えて検証した結果実験的に n = 3 としている図 3 に動画 8 の冒頭 1200 フレームにおける唇間 4.2 口の動き検出手法距離の推移の様子を示すこのように唇間距離は非歌唱上述した手法によって検出した顔における口の動きを検区間においても顔特徴点検出の不安定さに起因するノイズ出する本手法では Irie らの顔器官検出手法 [19] を用いてが大きく乗ってしまうそのため唇間距離を直接用いるこいるため口の位置特徴点の位置については [17] のとは効果的ではなく本稿ではその標準偏差に注目した手法における顔検出及び顔トラッキングが成功したフレー表 3 に口の動き検出手法単体による歌唱シーンの検出ムにおいて検出可能である検出した口領域を基にその人精度を示す顔検出のみによる歌唱シーンの検出精度と比物が歌っているかどうかを判定する較するとわずかではあるが精度が向上している特に適歌唱をする際口は開閉を繰り返すそれにより歌唱合率が 0.570 から 0.609 に向上しており口の動きを考慮区間では非歌唱区間に比べて唇の開閉の頻度が多くなるすることで口の動きを考慮しない場合に比べて歌唱シーそこで本稿では口の動き検出手法として唇間の距離をンをより的確に検出できることがわかるただし再現率用いる唇間の距離は図 2 に示すように上唇の中央下端とについては 0.869 から 0.823 に低下しており実際の歌唱下唇の中央上端によって測るシーンの一部を非歌唱区間であると推定してしまっている唇間の距離をそのまま用いると顔の大きさや顔向きに本研究では唇間距離を直接特徴量としてショット毎によって値が変わってしまうそこで唇間の距離を算出す閾値を定め唇間距離が閾値以上となるフレームを開口フるにあたって顔の向きと大きさを正規化する具体的にレームとし開口フレームの間隔によって歌唱シーンを検 2014 Information Processing Society of Japan 5

4 Table 4 The accuracy of vocal part detection and singing scene detection with VAD. 4 Fig. 4 A transition of lip distance in laboratory environment. 3 Table 3 The accuracy of singing scene detection with MAD. F 1 Almost Human 0.333 0.851 0.479 2 Baby ft. Ludacris 0.555 0.891 0.684 3 First Love 0.809 0.809 0.809 4 Island in the sun 0.409 0.842 0.551 5 Let it be 0.453 0.733 0.560 6 SMILE 0.706 0.809 0.754 7 Winter, again 0.701 0.998 0.824 8 0.676 1.000 0.807 9 0.679 0.331 0.445 10 0.767 0.965 0.855 0.609 0.823 0.677 Web 4 3 4 F F 1 0.836 0.641 0.726 0.407 0.690 0.512 2 1.000 0.537 0.699 0.508 0.644 0.568 3 0.987 0.722 0.834 0.599 0.742 0.663 4 0.998 0.632 0.774 0.449 0.609 0.517 5 0.990 0.814 0.893 0.634 0.849 0.726 6 0.933 0.653 0.769 0.517 0.680 0.587 7 0.995 0.831 0.906 0.995 0.831 0.906 8 0.880 0.787 0.831 0.880 0.787 0.830 9 0.962 0.660 0.783 0595 0.613 0.604 10 0.991 0.941 0.965 0738 0.879 0.803 0.957 0.722 0.818 0.632 0.732 0.672 5. 3 Fujihara HMM [20] GMM HMM 4 6. 3 1 1 0 1 0 1 1 6

5 Table 5 10 The accuracy of singing scene detection with a combination of MAD and VAD using logical conjunction and disjunction (Average of 10 clips). F 10 0.755 0.604 0.654 10 0.545 0.951 0.683 6 Table 6 The accuracy of singing scene detection with a combination of MAD and VAD. F 1 Almost Human 0.464 0.766 0.578 2 Baby ft. Ludacris 0.585 0.719 0.645 3 First Love 0.855 0.809 0.831 4 Island in the sun 0.575 0.619 0.597 5 Let it be 0.488 0.713 0.579 6 SMILE 0.821 0.670 0.738 7 Winter, again 0.701 0.998 0.824 8 0.676 1.000 0.807 9 0.679 0.331 0.445 10 0.773 0.965 0.858 0.662 0.759 0.690 5 Fig. 5 A combination of detection results. 0 5 3 4 F 5 6 F 0.690 3 4 6 0 1 7. Audio-visual 7

DC1 JST CREST [1] Videotrine: http://en.videotrine.com/ [2] Cooper, M., Foote, J.: Summarizing popular music via structural similarity analysis, Proc. of IEEE Workshop on Application of Signal Processing to Audio and Acoustics, pp.127 130 (2003). [3] Chai, W., and Vercoe, B.: Music Thumbnailing via Structural Analysis, Proc. of ACMMM2003, pp.223 226 (2003). [4] Bartsch, M., and Wakefield, G.: Audio Thumbnailing of Popular Music Using Chroma-Based Representations, IEEE Trans. on Multimedia Vol.7, pp.96 104 (2005). [5] Money, A., and Agius, H.: Video summarisation: A conceptual framework and survey of the state of the art, Journal of Visual Communication and Image Representation, Vol.19, pp.121 143 (2008). [6] Agnihotri, L., Dimitrova, N., and Kender, J.: Design and Evaluation of a Music Video Summarization System, Proc. of ICME2004, pp.1943 1946 (2004). [7] Xu, C., Shao, X., Maddage, N., and Kankanhalli, M.: Automatic Music Video Summarization Based on Audio-Visual-Text Analysis and Alignment, Proc. of SI- GIR2005, pp.361 368 (2005). [8] (TOD) Vol.6 No.3 pp.148 158 (2013) [9] Vol.52 No.12 pp.3471 3482 (2011) [10] Nakamura, S., and Tanaka, K.: Video Search by Impression Extracted from Social Annotation, Proc. of WISE2009, pp.401 414 (2009). [11] Smeaton, A., Over, P., and Kraaij, W.: Evaluation campaigns and TRECVid, Proc. of MIR 06, pp.321 330 (2006). [12] Muhling, M., Ewerth, R., Zhou, J., and Freisleben, B.: Multimodal Video Concept Detection via Bag of Auditory Words and Multiple Kernel Learning,, Advances in Multimedia Modeling, Vol. 7131, pp,40 50 (2012). [13] Potamianos, G., Neti, C., Gravier, G., Garg, A., and Senior, A.: Recent Advances in the Automatic Recognition of Audio-Visual Speech, Proc. of IEEE, Vol.91, pp. 1306 1326 (2003). [14] Hrybyk, A., and Kim, Y.: Combined Audio and Video Analysis for Guitar Chord Identification, Proc. of IS- MIR2010, pp.159 164 (2010). [15] Petridis, S., and Pantic, M.: Audiovisual Discrimination Between Speech and Laughter: Why and When Visual Information Might Help, IEEE Trans. on Multimedia, Vol.13, pp.216 234 (2011). [16] Eyben, F., Petridis, S., Schuller, B. and Pantic, M.: Audiovisual Vocal Outburst Classification in Noisy Acoustic Conditions, Proc. of ICASSP2012, pp.5097 5100 (2012). [17] Vol.66 No.7 pp.j251 J259 (2012) [18] 2012-MUS-94-24 pp.1 8 (2012) [19] Irie, A., Takagiwa, M., Moriyama, K., and Yamashita, T.: Improvements to Facial Contour Detection by Hierarchical Fitting and Regression, Proc. of ACPR2011, pp.273 277 (2011) [20] Fujihara, H., Goto, M., Ogata, J., Okuno, H.: LyricSynchronizer: Automatic Synchronization System Between Musical Audio Signals and Lyrics, IEEE Journal of Selected Topics in Signal Processing, Vol.5, pp.1252 1261 (2011) 8