1,a) 2,b) 2,c) 3,d) PV Audio-visual 1. Videotrine[1] YouTube 30 29 PSY GANGNAM STYLE Music clip 2014 4 19.5 29 26 Music clip 3 Music clip 1 Waseda University 2 National Institute of Advanced Industrial Science and Technology (AIST) 3 / JST Waseda Research Institute for Science and Engineering / Japan Science and Technology Agency a) tatsunori hirai@asagi.waseda.jp b) t.nakano@aist.go.jp c) m.goto@aist.go.jp d) shigeo@waseda.jp Audio-visual 1
2. [2], [3], [4] [5] [6], [7], [8] Agnihotri [6] Xu [7] [8] [9] Nakamura [10] TRECVID (TREC Video Retrieval Evaluation) [11] TRECVID TRECVID Singing scene MFCC [12] TRECVID Audio-Visual [13], [14], [15], [16] Hrybyk [14] Petridis MFCC [15] Audio-Visual 2
Fig. 1 1 Definitions of singer appearing scene, vocal part, and singing scene. MAD Mouth Aperture Detection VAD Vocal Activity Detection 3. 3 1 ( 1 ) i.e. ( 2 ) ( 3 ) 3 10 10 1 10 5 Let it be 9 Music clip Music clip 8 Music clip 1 1 3
Table 1 1 Music clips used in experiments and its ratio of each scene. [%] [%] [%] 1 Almost Human Kimonos 28.1 62.1 42.4 2 Baby ft. Ludacris Justin Bieber 38.0 89.7 71.4 3 First Love 44.5 75.5 74.4 4 Island in the sun Weezer 31.1 66.5 42.0 5 Let it be The Beatles 41.0 66.7 54.6 6 SMILE 37.4 70.3 62.7 7 Winter, again GLAY 66.8 66.8 87.0 8 64.8 64.8 95.9 9 39.5 59.3 51.5 10 BAND 56.1 70.4 75.1 4. 4.1 [17], [18] 2 3 2 Table 2 The accuracy of singer appearance detection and singing scene detection with face detection. F F 1 0.463 0.887 0.608 0.344 0.997 0.512 2 0824 0.758 0.790 0.523 0.903 0.663 3 0.867 0.699 0.774 0.665 0.895 0.763 4 0.465 0.881 0.608 0.345 0.883 0.496 5 0.630 0.775 0.695 0.447 0.733 0.555 6 0.771 0.596 0.672 0.648 0.840 0.732 7 0.914 0.999 0.955 0.701 0.998 0.824 8 1.000 1.000 1.000 0.676 1.000 0.807 9 0.669 0.376 0.482 0.626 0.459 0.530 10 0.882 0.882 0.882 0.729 0.976 0.834 0.680 0.714 0.679 0.570 0.869 0.672 F 2 9 45.9 4
情報処理学会研究報告 図 3 図 2 唇間の距離の抽出 動画 8 における唇間距離の推移の様子 Fig. 3 A transition of lip distance in video no.8. Fig. 2 An extraction of the degree of mouth aperture. は Irie らの手法 [19] によって推定できる 3 次元の顔向き のうち 歌唱している箇所の方が顔が検出しやすいという 情報を基に 両目間の長さが 50 ピクセルとなるように 3 ことを示している 実際に動画を鑑賞してみると 歌手が 次元アフィン変換を行う ここで 3 次元アフィン変換を 登場しながらも歌唱していないシーンは 歌手が移動して 行う際に顔の奥行きを推定することはできないため 顔を いるシーンやダンスをしているシーンなど 顔が大きく動 3 次元空間中の平面の板とみなして変換をすることになる いているような顔検出に不向きなシーンであることが多 しかし 上唇と下唇の奥行きは大きく変わらないため 唇 かった 一方歌唱シーンでは 顔の動きは比較的小さく 間の距離はこの平面近似の影響をあまり受けない 顔がしっかりと撮影されているケースが目立った このこ この正規化によって 唇間の距離は 0 40 ピクセル程度 とから 音楽動画において歌唱シーンははっきりと撮影さ の範囲の値となる 唇間の距離が変動する頻度の高い箇所 れる傾向にあると予想できるが より多くの音楽動画を基 は歌唱シーンであると予想できるため 映像をショット毎 に検証する必要がある 歌唱シーン検出の方が適合率が低 に分割し ショット内の唇間距離の標準偏差を特徴量とし い理由は 表 1 における歌手登場区間の割合と歌唱シーン て口の動き検出を行う ショットとは 映像においてシー の割合の比較からも明らかで 歌手が登場しているシーン ンやカメラの切り替わりがなく フレームが連続に繋がっ が歌唱シーンであるとは限らないことによる ている区間のことであり [17] に示した映像フレームのヒ ここで 顔検出で注目するのは映像中に顔が映っている ストグラムを用いた手法で自動検出する かどうかだけであり それが歌手であるか否かは判定でき ショット内の唇間距離の標準偏差が n ピクセル以上であ ない そのため 本研究では検出した顔が歌手であるかを る時 該当ショット全体を歌唱シーンであるとする 本稿 判定するために 口の動き検出を行う では n の値を変えて検証した結果 実験的に n = 3 とし ている 図 3 に動画 8 の冒頭 1200 フレームにおける唇間 4.2 口の動き検出手法 距離の推移の様子を示す このように唇間距離は 非歌唱 上述した手法によって検出した顔における口の動きを検 区間においても顔特徴点検出の不安定さに起因するノイズ 出する 本手法では Irie らの顔器官検出手法 [19] を用いて が大きく乗ってしまう そのため唇間距離を直接用いるこ いるため 口の位置 特徴点の位置 については [17] の とは効果的ではなく 本稿ではその標準偏差に注目した 手法における顔検出及び顔トラッキングが成功したフレー 表 3 に口の動き検出手法単体による歌唱シーンの検出 ムにおいて検出可能である 検出した口領域を基にその人 精度を示す 顔検出のみによる歌唱シーンの検出精度と比 物が歌っているかどうかを判定する 較すると わずかではあるが精度が向上している 特に適 歌唱をする際 口は開閉を繰り返す それにより 歌唱 合率が 0.570 から 0.609 に向上しており 口の動きを考慮 区間では非歌唱区間に比べて唇の開閉の頻度が多くなる することで 口の動きを考慮しない場合に比べて歌唱シー そこで 本稿では口の動き検出手法として 唇間の距離を ンをより的確に検出できることがわかる ただし 再現率 用いる 唇間の距離は図 2 に示すように上唇の中央下端と については 0.869 から 0.823 に低下しており 実際の歌唱 下唇の中央上端によって測る シーンの一部を非歌唱区間であると推定してしまっている 唇間の距離をそのまま用いると 顔の大きさや顔向きに 本研究では 唇間距離を直接特徴量としてショット毎に よって値が変わってしまう そこで 唇間の距離を算出す 閾値を定め 唇間距離が閾値以上となるフレームを開口フ るにあたって 顔の向きと大きさを正規化する 具体的に レームとし 開口フレームの間隔によって歌唱シーンを検 2014 Information Processing Society of Japan 5
4 Table 4 The accuracy of vocal part detection and singing scene detection with VAD. 4 Fig. 4 A transition of lip distance in laboratory environment. 3 Table 3 The accuracy of singing scene detection with MAD. F 1 Almost Human 0.333 0.851 0.479 2 Baby ft. Ludacris 0.555 0.891 0.684 3 First Love 0.809 0.809 0.809 4 Island in the sun 0.409 0.842 0.551 5 Let it be 0.453 0.733 0.560 6 SMILE 0.706 0.809 0.754 7 Winter, again 0.701 0.998 0.824 8 0.676 1.000 0.807 9 0.679 0.331 0.445 10 0.767 0.965 0.855 0.609 0.823 0.677 Web 4 3 4 F F 1 0.836 0.641 0.726 0.407 0.690 0.512 2 1.000 0.537 0.699 0.508 0.644 0.568 3 0.987 0.722 0.834 0.599 0.742 0.663 4 0.998 0.632 0.774 0.449 0.609 0.517 5 0.990 0.814 0.893 0.634 0.849 0.726 6 0.933 0.653 0.769 0.517 0.680 0.587 7 0.995 0.831 0.906 0.995 0.831 0.906 8 0.880 0.787 0.831 0.880 0.787 0.830 9 0.962 0.660 0.783 0595 0.613 0.604 10 0.991 0.941 0.965 0738 0.879 0.803 0.957 0.722 0.818 0.632 0.732 0.672 5. 3 Fujihara HMM [20] GMM HMM 4 6. 3 1 1 0 1 0 1 1 6
5 Table 5 10 The accuracy of singing scene detection with a combination of MAD and VAD using logical conjunction and disjunction (Average of 10 clips). F 10 0.755 0.604 0.654 10 0.545 0.951 0.683 6 Table 6 The accuracy of singing scene detection with a combination of MAD and VAD. F 1 Almost Human 0.464 0.766 0.578 2 Baby ft. Ludacris 0.585 0.719 0.645 3 First Love 0.855 0.809 0.831 4 Island in the sun 0.575 0.619 0.597 5 Let it be 0.488 0.713 0.579 6 SMILE 0.821 0.670 0.738 7 Winter, again 0.701 0.998 0.824 8 0.676 1.000 0.807 9 0.679 0.331 0.445 10 0.773 0.965 0.858 0.662 0.759 0.690 5 Fig. 5 A combination of detection results. 0 5 3 4 F 5 6 F 0.690 3 4 6 0 1 7. Audio-visual 7
DC1 JST CREST [1] Videotrine: http://en.videotrine.com/ [2] Cooper, M., Foote, J.: Summarizing popular music via structural similarity analysis, Proc. of IEEE Workshop on Application of Signal Processing to Audio and Acoustics, pp.127 130 (2003). [3] Chai, W., and Vercoe, B.: Music Thumbnailing via Structural Analysis, Proc. of ACMMM2003, pp.223 226 (2003). [4] Bartsch, M., and Wakefield, G.: Audio Thumbnailing of Popular Music Using Chroma-Based Representations, IEEE Trans. on Multimedia Vol.7, pp.96 104 (2005). [5] Money, A., and Agius, H.: Video summarisation: A conceptual framework and survey of the state of the art, Journal of Visual Communication and Image Representation, Vol.19, pp.121 143 (2008). [6] Agnihotri, L., Dimitrova, N., and Kender, J.: Design and Evaluation of a Music Video Summarization System, Proc. of ICME2004, pp.1943 1946 (2004). [7] Xu, C., Shao, X., Maddage, N., and Kankanhalli, M.: Automatic Music Video Summarization Based on Audio-Visual-Text Analysis and Alignment, Proc. of SI- GIR2005, pp.361 368 (2005). [8] (TOD) Vol.6 No.3 pp.148 158 (2013) [9] Vol.52 No.12 pp.3471 3482 (2011) [10] Nakamura, S., and Tanaka, K.: Video Search by Impression Extracted from Social Annotation, Proc. of WISE2009, pp.401 414 (2009). [11] Smeaton, A., Over, P., and Kraaij, W.: Evaluation campaigns and TRECVid, Proc. of MIR 06, pp.321 330 (2006). [12] Muhling, M., Ewerth, R., Zhou, J., and Freisleben, B.: Multimodal Video Concept Detection via Bag of Auditory Words and Multiple Kernel Learning,, Advances in Multimedia Modeling, Vol. 7131, pp,40 50 (2012). [13] Potamianos, G., Neti, C., Gravier, G., Garg, A., and Senior, A.: Recent Advances in the Automatic Recognition of Audio-Visual Speech, Proc. of IEEE, Vol.91, pp. 1306 1326 (2003). [14] Hrybyk, A., and Kim, Y.: Combined Audio and Video Analysis for Guitar Chord Identification, Proc. of IS- MIR2010, pp.159 164 (2010). [15] Petridis, S., and Pantic, M.: Audiovisual Discrimination Between Speech and Laughter: Why and When Visual Information Might Help, IEEE Trans. on Multimedia, Vol.13, pp.216 234 (2011). [16] Eyben, F., Petridis, S., Schuller, B. and Pantic, M.: Audiovisual Vocal Outburst Classification in Noisy Acoustic Conditions, Proc. of ICASSP2012, pp.5097 5100 (2012). [17] Vol.66 No.7 pp.j251 J259 (2012) [18] 2012-MUS-94-24 pp.1 8 (2012) [19] Irie, A., Takagiwa, M., Moriyama, K., and Yamashita, T.: Improvements to Facial Contour Detection by Hierarchical Fitting and Regression, Proc. of ACPR2011, pp.273 277 (2011) [20] Fujihara, H., Goto, M., Ogata, J., Okuno, H.: LyricSynchronizer: Automatic Synchronization System Between Musical Audio Signals and Lyrics, IEEE Journal of Selected Topics in Signal Processing, Vol.5, pp.1252 1261 (2011) 8