2. [2], [3], [4] [5] [6], [7], [8] Agnihotri [6] Xu [7] [8] [9] Nakamura [10] TRECVID (TREC Video Retrieval Evaluation) [11] TRECVID TRECVID Singing s

Similar documents
IPSJ SIG Technical Report Vol.2015-MUS-106 No.10 Vol.2015-EC-35 No /3/2 BGM 1,4,a) ,4 BGM. BGM. BGM BGM. BGM. BGM. BGM. 1.,. YouTube 201

OngaCREST [10] A 3. Latent Dirichlet Allocation: LDA [11] Songle [12] Pitman-Yor (VPYLM) [13] [14,15] n n n 3.1 [16 18] PreFEst [19] F

動画コンテンツ 動画 1 動画 2 動画 3 生成中の映像 入力音楽 選択された素片 テンポによる伸縮 音楽的構造 A B B B B B A C C : 4) 6) Web Web 2 2 c 2009 Information Processing S

IPSJ SIG Technical Report Vol.2015-MUS-107 No /5/23 HARK-Binaural Raspberry Pi 2 1,a) ( ) HARK 2 HARK-Binaural A/D Raspberry Pi 2 1.

IPSJ SIG Technical Report Vol.2011-MUS-91 No /7/ , 3 1 Design and Implementation on a System for Learning Songs by Presenting Musical St

WISS 2018 [2 4] [5,6] Query-by-Dancing Query-by- Dancing Cao [1] OpenPose 2 Ghias [7] Query by humming Chen [8] Query by rhythm Jang [9] Query-by-tapp

log F0 意識 しゃべり 葉の log F0 Fig. 1 1 An example of classification of substyles of rap. ' & 2. 4) m.o.v.e 5) motsu motsu (1) (2) (3) (4) (1) (2) mot

図 2: 高周波成分を用いた超解像 解像度度画像とそれらを低解像度化して得られる 低解像度画像との差により低解像度の高周波成分 を得る 高解像度と低解像度の高周波成分から位 置関係を保ったままパッチ領域をそれぞれ切り出 し 高解像度パッチ画像と低解像度パッチ画像の ペアとしてデータベースに登録する

IPSJ SIG Technical Report Vol.2012-MUS-94 No.3 Vol.2012-SLP-90 No /2/ DTM 200 GUIN-Resonator: A system synthesizing voice with the styl

3 2 2 (1) (2) (3) (4) 4 4 AdaBoost 2. [11] Onishi&Yoda [8] Iwashita&Stoica [5] 4 [3] 3. 3 (1) (2) (3)

力 出力 ÝÒ 源分離 f å 2 š ž 伸縮率 f g å ² f œå 1 ( F0) audio-to-audio 3 2 RNMF [2] DTW audio-to-audio [3] [4] MIDI 2.2 [5 10] Dannenberg [5] Verc

& Vol.5 No (Oct. 2015) TV 1,2,a) , Augmented TV TV AR Augmented Reality 3DCG TV Estimation of TV Screen Position and Ro

The copyright of this material is retained by the Information Processing Society of Japan (IPSJ). The material has been made available on the website

1 Fig. 1 Extraction of motion,.,,, 4,,, 3., 1, 2. 2.,. CHLAC,. 2.1,. (256 ).,., CHLAC. CHLAC, HLAC. 2.3 (HLAC ) r,.,. HLAC. N. 2 HLAC Fig. 2

IPSJ SIG Technical Report Vol.2011-EC-19 No /3/ ,.,., Peg-Scope Viewer,,.,,,,. Utilization of Watching Logs for Support of Multi-

IPSJ SIG Technical Report Vol.2012-MUS-96 No /8/10 MIDI Modeling Performance Indeterminacies for Polyphonic Midi Score Following and

[2][3][4][5] 4 ( 1 ) ( 2 ) ( 3 ) ( 4 ) 2. Shiratori [2] Shiratori [3] [4] GP [5] [6] [7] [8][9] Kinect Choi [10] 3. 1 c 2016 Information Processing So

IPSJ-SLP

1 UD Fig. 1 Concept of UD tourist information system. 1 ()KDDI UD 7) ) UD c 2010 Information Processing S

9_18.dvi

THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS IEICE Technical Report IN ( ),

2007/8 Vol. J90 D No. 8 Stauffer [7] 2 2 I 1 I 2 2 (I 1(x),I 2(x)) 2 [13] I 2 = CI 1 (C >0) (I 1,I 2) (I 1,I 2) Field Monitoring Server

ホットスポット 1 音リアクションイベント BIC GMM 2 3 BIC GMM HMM 10) SVM 11) 12) 13) Bayesian Information Criterion BIC 14) BIC M = M 1, M 2,,

IPSJ SIG Technical Report Vol.2011-CVIM-177 No /5/ TRECVID2010 SURF Bag-of-Features 1 TRECVID SVM 700% MKL-SVM 883% TRECVID2010 MKL-SVM A

sigmusdemo.dvi

Fig. 2 Signal plane divided into cell of DWT Fig. 1 Schematic diagram for the monitoring system


(3.6 ) (4.6 ) 2. [3], [6], [12] [7] [2], [5], [11] [14] [9] [8] [10] (1) Voodoo 3 : 3 Voodoo[1] 3 ( 3D ) (2) : Voodoo 3D (3) : 3D (Welc

1 4 4 [3] SNS 5 SNS , ,000 [2] c 2013 Information Processing Society of Japan

Vol.54 No (July 2013) [9] [10] [11] [12], [13] 1 Fig. 1 Flowchart of the proposed system. c 2013 Information

IPSJ SIG Technical Report Vol.2017-MUS-116 No /8/24 MachineDancing: 1,a) 1,b) 3 MachineDancing MachineDancing MachineDancing 1 MachineDan

音響モデル triphone 入力音声 音声分析 デコーダ 言語モデル N-gram bigram HMM の状態確率として利用 出力層 triphone: 3003 ノード リスコア trigram 隠れ層 2048 ノード X7 層 1 Structure of recognition syst

情報処理学会研究報告 IPSJ SIG Technical Report Vol.2011-MBL-57 No.27 Vol.2011-UBI-29 No /3/ A Consideration of Features for Fatigue Es


Microsoft Word - toyoshima-deim2011.doc

1., 1 COOKPAD 2, Web.,,,,,,.,, [1]., 5.,, [2].,,.,.,, 5, [3].,,,.,, [4], 33,.,,.,,.. 2.,, 3.., 4., 5., ,. 1.,,., 2.,. 1,,

IPSJ SIG Technical Report Pitman-Yor 1 1 Pitman-Yor n-gram A proposal of the melody generation method using hierarchical pitman-yor language model Aki

Wikipedia YahooQA MAD 4)5) MAD Web 6) 3. YAMAHA 7) 8) Vocaloid PV YouTube 1 minato minato ussy 3D MAD F EDis ussy

本文6(599) (Page 601)

Fig. 3 Flow diagram of image processing. Black rectangle in the photo indicates the processing area (128 x 32 pixels).

1 Web [2] Web [3] [4] [5], [6] [7] [8] S.W. [9] 3. MeetingShelf Web MeetingShelf MeetingShelf (1) (2) (3) (4) (5) Web MeetingShelf

Studies of Foot Form for Footwear Design (Part 9) : Characteristics of the Foot Form of Young and Elder Women Based on their Sizes of Ball Joint Girth

IPSJ SIG Technical Report Secret Tap Secret Tap Secret Flick 1 An Examination of Icon-based User Authentication Method Using Flick Input for

1 7.35% 74.0% linefeed point c 200 Information Processing Society of Japan

2006 [3] Scratch Squeak PEN [4] PenFlowchart 2 3 PenFlowchart 4 PenFlowchart PEN xdncl PEN [5] PEN xdncl DNCL 1 1 [6] 1 PEN Fig. 1 The PEN

2 Fig D human model. 1 Fig. 1 The flow of proposed method )9)10) 2.2 3)4)7) 5)11)12)13)14) TOF 1 3 TOF 3 2 c 2011 Information

1. HNS [1] HNS HNS HNS [2] HNS [3] [4] [5] HNS 16ch SNR [6] 1 16ch 1 3 SNR [4] [5] 2. 2 HNS API HNS CS27-HNS [1] (SOA) [7] API Web 2

DT pdf

(fnirs: Functional Near-Infrared Spectroscopy) [3] fnirs (oxyhb) Bulling [4] Kunze [5] [6] 2. 2 [7] [8] fnirs 3. 1 fnirs fnirs fnirs 1

1 (PCA) 3 2 P.Viola 2) Viola AdaBoost 1 Viola OpenCV 3) Web OpenCV T.L.Berg PCA kpca LDA k-means 4) Berg 95% Berg Web k-means k-means

1 Kinect for Windows M = [X Y Z] T M = [X Y Z ] T f (u,v) w 3.2 [11] [7] u = f X +u Z 0 δ u (X,Y,Z ) (5) v = f Y Z +v 0 δ v (X,Y,Z ) (6) w = Z +

2. Twitter Twitter 2.1 Twitter Twitter( ) Twitter Twitter ( 1 ) RT ReTweet RT ReTweet RT ( 2 ) URL Twitter Twitter 140 URL URL URL 140 URL URL

DEIM Forum 2012 E Web Extracting Modification of Objec

IPSJ SIG Technical Report Vol.2014-MUS-104 No /8/27 F0 1,a) 1,b) 1,c) 2,d) (F0) F0 F0 Graphical User Interface (GUI) F0 1. [1] CD MIDI [2] [3,

ActionScript Flash Player 8 ActionScript3.0 ActionScript Flash Video ActionScript.swf swf FlashPlayer AVM(Actionscript Virtual Machine) Windows

IPSJ SIG Technical Report Vol.2016-CE-137 No /12/ e β /α α β β / α A judgment method of difficulty of task for a learner using simple

(a) (b) 2 2 (Bosch, IR Illuminator 850 nm, UFLED30-8BD) ( 7[m] 6[m]) 3 (PointGrey Research Inc.Grasshopper2 M/C) Hz (a) (b

経済論集 44‐1(よこ)/2.李

Gaze Head Eye (a) deg (b) 45 deg (c) 9 deg 1: - 1(b) - [5], [6] [7] Stahl [8], [9] Fang [1], [11] Itti [12] Itti [13] [7] Fang [1],

情報処理学会研究報告 図 1 LYRICS RADAR の歌詞検索用インタフェースの表示例 実際にはポピュラー音楽 (J-POP) を用いて実装しているが 本図では歌詞の例示のために RWC 研究用音楽デー タベースの楽曲 (RWC-MDB-P-2001 No.30) を用いた る動作 というトピッ

IPSJ SIG Technical Report An Evaluation Method for the Degree of Strain of an Action Scene Mao Kuroda, 1 Takeshi Takai 1 and Takashi Matsuyama 1

MDD PBL ET 9) 2) ET ET 2.2 2), 1 2 5) MDD PBL PBL MDD MDD MDD 10) MDD Executable UML 11) Executable UML MDD Executable UML

Vol.55 No (Jan. 2014) saccess 6 saccess 7 saccess 2. [3] p.33 * B (A) (B) (C) (D) (E) (F) *1 [3], [4] Web PDF a m

(MIRU2008) HOG Histograms of Oriented Gradients (HOG)

ID 3) 9 4) 5) ID 2 ID 2 ID 2 Bluetooth ID 2 SRCid1 DSTid2 2 id1 id2 ID SRC DST SRC 2 2 ID 2 2 QR 6) 8) 6) QR QR QR QR

(a) 1 (b) 3. Gilbert Pernicka[2] Treibitz Schechner[3] Narasimhan [4] Kim [5] Nayar [6] [7][8][9] 2. X X X [10] [11] L L t L s L = L t + L s

258 5) GPS 1 GPS 6) GPS DP 7) 8) 10) GPS GPS ) GPS Global Positioning System

IPSJ SIG Technical Report Vol.2009-BIO-17 No /5/26 DNA 1 1 DNA DNA DNA DNA Correcting read errors on DNA sequences determined by Pyrosequencing

IPSJ SIG Technical Report 1, Instrument Separation in Reverberant Environments Using Crystal Microphone Arrays Nobutaka ITO, 1, 2 Yu KITANO, 1

20 Method for Recognizing Expression Considering Fuzzy Based on Optical Flow

Web UX Web Web Web 1.2 Web GIF Kevin Burg Jamie Beck GIF GIF [2] Flixel Cinemagraph pro *1 Adobe Photoshop *2 GIMP *3 Web *1 Flixel Photos Inc. *2 *3

1(a) (b),(c) - [5], [6] Itti [12] [13] gaze eyeball head 2: [time] [7] Stahl [8], [9] Fang [1], [11] 3 -

Microsoft Word - deim2011_new-ichinose doc

IPSJ SIG Technical Report Vol.2010-CVIM-170 No /1/ Visual Recognition of Wire Harnesses for Automated Wiring Masaki Yoneda, 1 Ta

Automatic Collection of Web Video Shots Corresponding to Specific Actions using Web Images

IPSJ SIG Technical Report Vol.2009-CVIM-167 No /6/10 Real AdaBoost HOG 1 1 1, 2 1 Real AdaBoost HOG HOG Real AdaBoost HOG A Method for Reducing

28 TCG SURF Card recognition using SURF in TCG play video

A Study on Throw Simulation for Baseball Pitching Machine with Rollers and Its Optimization Shinobu SAKAI*5, Yuichiro KITAGAWA, Ryo KANAI and Juhachi

202

( ) [1] [4] ( ) 2. [5] [6] Piano Tutor[7] [1], [2], [8], [9] Radiobaton[10] Two Finger Piano[11] Coloring-in Piano[12] ism[13] MIDI MIDI 1 Fig. 1 Syst

dsample.dvi

1 1 tf-idf tf-idf i

3_39.dvi

21 e-learning Development of Real-time Learner Detection System for e-learning

Vol. 43 No. 2 Feb. 2002,, MIDI A Probabilistic-model-based Quantization Method for Estimating the Position of Onset Time in a Score Masatoshi Hamanaka

第 1 回バイオメトリクス研究会 ( 早稲田大学 ) THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS Proceedings of Biometrics Workshop,169

A Study of Effective Application of CG Multimedia Contents for Help of Understandings of the Working Principles of the Internal Combustion Engine (The

TF-IDF TDF-IDF TDF-IDF Extracting Impression of Sightseeing Spots from Blogs for Supporting Selection of Spots to Visit in Travel Sat

IPSJ SIG Technical Report Vol.2009-DPS-141 No.23 Vol.2009-GN-73 No.23 Vol.2009-EIP-46 No /11/27 t-room t-room 2 Development of

.,,, [12].,, [13].,,.,, meal[10]., [11], SNS.,., [14].,,.,,.,,,.,,., Cami-log, , [15], A/D (Powerlab ; ), F- (F-150M, ), ( PC ).,, Chart5(ADIns

4. C i k = 2 k-means C 1 i, C 2 i 5. C i x i p [ f(θ i ; x) = (2π) p 2 Vi 1 2 exp (x µ ] i) t V 1 i (x µ i ) 2 BIC BIC = 2 log L( ˆθ i ; x i C i ) + q

2009/9 Vol. J92 D No. 9 HTML [3] Microsoft PowerPoint Apple Keynote OpenOffice Impress XML 4 1 (A) (C) (F) Fig. 1 1 An example of slide i

Vol. 48 No. 3 Mar PM PM PMBOK PM PM PM PM PM A Proposal and Its Demonstration of Developing System for Project Managers through University-Indus

SICE東北支部研究集会資料(2017年)

main.dvi

IPSJ SIG Technical Report Vol.2012-HCI-149 No /7/20 1 1,2 1 (HMD: Head Mounted Display) HMD HMD,,,, An Information Presentation Method for Weara

07九州工業大学.indd

IPSJ SIG Technical Report Vol.2012-EC-23 No /3/ Video Retrieval System of Handwriting Sketch using Relevance Feedback Akihiro Aita 1 and M

[2] OCR [3], [4] [5] [6] [4], [7] [8], [9] 1 [10] Fig. 1 Current arrangement and size of ruby. 2 Fig. 2 Typography combined with printing

IPSJ SIG Technical Report Vol.2009-DPS-141 No.20 Vol.2009-GN-73 No.20 Vol.2009-EIP-46 No /11/27 1. MIERUKEN 1 2 MIERUKEN MIERUKEN MIERUKEN: Spe

Transcription:

1,a) 2,b) 2,c) 3,d) PV Audio-visual 1. Videotrine[1] YouTube 30 29 PSY GANGNAM STYLE Music clip 2014 4 19.5 29 26 Music clip 3 Music clip 1 Waseda University 2 National Institute of Advanced Industrial Science and Technology (AIST) 3 / JST Waseda Research Institute for Science and Engineering / Japan Science and Technology Agency a) tatsunori hirai@asagi.waseda.jp b) t.nakano@aist.go.jp c) m.goto@aist.go.jp d) shigeo@waseda.jp Audio-visual 1

2. [2], [3], [4] [5] [6], [7], [8] Agnihotri [6] Xu [7] [8] [9] Nakamura [10] TRECVID (TREC Video Retrieval Evaluation) [11] TRECVID TRECVID Singing scene MFCC [12] TRECVID Audio-Visual [13], [14], [15], [16] Hrybyk [14] Petridis MFCC [15] Audio-Visual 2

Fig. 1 1 Definitions of singer appearing scene, vocal part, and singing scene. MAD Mouth Aperture Detection VAD Vocal Activity Detection 3. 3 1 ( 1 ) i.e. ( 2 ) ( 3 ) 3 10 10 1 10 5 Let it be 9 Music clip Music clip 8 Music clip 1 1 3

Table 1 1 Music clips used in experiments and its ratio of each scene. [%] [%] [%] 1 Almost Human Kimonos 28.1 62.1 42.4 2 Baby ft. Ludacris Justin Bieber 38.0 89.7 71.4 3 First Love 44.5 75.5 74.4 4 Island in the sun Weezer 31.1 66.5 42.0 5 Let it be The Beatles 41.0 66.7 54.6 6 SMILE 37.4 70.3 62.7 7 Winter, again GLAY 66.8 66.8 87.0 8 64.8 64.8 95.9 9 39.5 59.3 51.5 10 BAND 56.1 70.4 75.1 4. 4.1 [17], [18] 2 3 2 Table 2 The accuracy of singer appearance detection and singing scene detection with face detection. F F 1 0.463 0.887 0.608 0.344 0.997 0.512 2 0824 0.758 0.790 0.523 0.903 0.663 3 0.867 0.699 0.774 0.665 0.895 0.763 4 0.465 0.881 0.608 0.345 0.883 0.496 5 0.630 0.775 0.695 0.447 0.733 0.555 6 0.771 0.596 0.672 0.648 0.840 0.732 7 0.914 0.999 0.955 0.701 0.998 0.824 8 1.000 1.000 1.000 0.676 1.000 0.807 9 0.669 0.376 0.482 0.626 0.459 0.530 10 0.882 0.882 0.882 0.729 0.976 0.834 0.680 0.714 0.679 0.570 0.869 0.672 F 2 9 45.9 4

情報処理学会研究報告 図 3 図 2 唇間の距離の抽出 動画 8 における唇間距離の推移の様子 Fig. 3 A transition of lip distance in video no.8. Fig. 2 An extraction of the degree of mouth aperture. は Irie らの手法 [19] によって推定できる 3 次元の顔向き のうち 歌唱している箇所の方が顔が検出しやすいという 情報を基に 両目間の長さが 50 ピクセルとなるように 3 ことを示している 実際に動画を鑑賞してみると 歌手が 次元アフィン変換を行う ここで 3 次元アフィン変換を 登場しながらも歌唱していないシーンは 歌手が移動して 行う際に顔の奥行きを推定することはできないため 顔を いるシーンやダンスをしているシーンなど 顔が大きく動 3 次元空間中の平面の板とみなして変換をすることになる いているような顔検出に不向きなシーンであることが多 しかし 上唇と下唇の奥行きは大きく変わらないため 唇 かった 一方歌唱シーンでは 顔の動きは比較的小さく 間の距離はこの平面近似の影響をあまり受けない 顔がしっかりと撮影されているケースが目立った このこ この正規化によって 唇間の距離は 0 40 ピクセル程度 とから 音楽動画において歌唱シーンははっきりと撮影さ の範囲の値となる 唇間の距離が変動する頻度の高い箇所 れる傾向にあると予想できるが より多くの音楽動画を基 は歌唱シーンであると予想できるため 映像をショット毎 に検証する必要がある 歌唱シーン検出の方が適合率が低 に分割し ショット内の唇間距離の標準偏差を特徴量とし い理由は 表 1 における歌手登場区間の割合と歌唱シーン て口の動き検出を行う ショットとは 映像においてシー の割合の比較からも明らかで 歌手が登場しているシーン ンやカメラの切り替わりがなく フレームが連続に繋がっ が歌唱シーンであるとは限らないことによる ている区間のことであり [17] に示した映像フレームのヒ ここで 顔検出で注目するのは映像中に顔が映っている ストグラムを用いた手法で自動検出する かどうかだけであり それが歌手であるか否かは判定でき ショット内の唇間距離の標準偏差が n ピクセル以上であ ない そのため 本研究では検出した顔が歌手であるかを る時 該当ショット全体を歌唱シーンであるとする 本稿 判定するために 口の動き検出を行う では n の値を変えて検証した結果 実験的に n = 3 とし ている 図 3 に動画 8 の冒頭 1200 フレームにおける唇間 4.2 口の動き検出手法 距離の推移の様子を示す このように唇間距離は 非歌唱 上述した手法によって検出した顔における口の動きを検 区間においても顔特徴点検出の不安定さに起因するノイズ 出する 本手法では Irie らの顔器官検出手法 [19] を用いて が大きく乗ってしまう そのため唇間距離を直接用いるこ いるため 口の位置 特徴点の位置 については [17] の とは効果的ではなく 本稿ではその標準偏差に注目した 手法における顔検出及び顔トラッキングが成功したフレー 表 3 に口の動き検出手法単体による歌唱シーンの検出 ムにおいて検出可能である 検出した口領域を基にその人 精度を示す 顔検出のみによる歌唱シーンの検出精度と比 物が歌っているかどうかを判定する 較すると わずかではあるが精度が向上している 特に適 歌唱をする際 口は開閉を繰り返す それにより 歌唱 合率が 0.570 から 0.609 に向上しており 口の動きを考慮 区間では非歌唱区間に比べて唇の開閉の頻度が多くなる することで 口の動きを考慮しない場合に比べて歌唱シー そこで 本稿では口の動き検出手法として 唇間の距離を ンをより的確に検出できることがわかる ただし 再現率 用いる 唇間の距離は図 2 に示すように上唇の中央下端と については 0.869 から 0.823 に低下しており 実際の歌唱 下唇の中央上端によって測る シーンの一部を非歌唱区間であると推定してしまっている 唇間の距離をそのまま用いると 顔の大きさや顔向きに 本研究では 唇間距離を直接特徴量としてショット毎に よって値が変わってしまう そこで 唇間の距離を算出す 閾値を定め 唇間距離が閾値以上となるフレームを開口フ るにあたって 顔の向きと大きさを正規化する 具体的に レームとし 開口フレームの間隔によって歌唱シーンを検 2014 Information Processing Society of Japan 5

4 Table 4 The accuracy of vocal part detection and singing scene detection with VAD. 4 Fig. 4 A transition of lip distance in laboratory environment. 3 Table 3 The accuracy of singing scene detection with MAD. F 1 Almost Human 0.333 0.851 0.479 2 Baby ft. Ludacris 0.555 0.891 0.684 3 First Love 0.809 0.809 0.809 4 Island in the sun 0.409 0.842 0.551 5 Let it be 0.453 0.733 0.560 6 SMILE 0.706 0.809 0.754 7 Winter, again 0.701 0.998 0.824 8 0.676 1.000 0.807 9 0.679 0.331 0.445 10 0.767 0.965 0.855 0.609 0.823 0.677 Web 4 3 4 F F 1 0.836 0.641 0.726 0.407 0.690 0.512 2 1.000 0.537 0.699 0.508 0.644 0.568 3 0.987 0.722 0.834 0.599 0.742 0.663 4 0.998 0.632 0.774 0.449 0.609 0.517 5 0.990 0.814 0.893 0.634 0.849 0.726 6 0.933 0.653 0.769 0.517 0.680 0.587 7 0.995 0.831 0.906 0.995 0.831 0.906 8 0.880 0.787 0.831 0.880 0.787 0.830 9 0.962 0.660 0.783 0595 0.613 0.604 10 0.991 0.941 0.965 0738 0.879 0.803 0.957 0.722 0.818 0.632 0.732 0.672 5. 3 Fujihara HMM [20] GMM HMM 4 6. 3 1 1 0 1 0 1 1 6

5 Table 5 10 The accuracy of singing scene detection with a combination of MAD and VAD using logical conjunction and disjunction (Average of 10 clips). F 10 0.755 0.604 0.654 10 0.545 0.951 0.683 6 Table 6 The accuracy of singing scene detection with a combination of MAD and VAD. F 1 Almost Human 0.464 0.766 0.578 2 Baby ft. Ludacris 0.585 0.719 0.645 3 First Love 0.855 0.809 0.831 4 Island in the sun 0.575 0.619 0.597 5 Let it be 0.488 0.713 0.579 6 SMILE 0.821 0.670 0.738 7 Winter, again 0.701 0.998 0.824 8 0.676 1.000 0.807 9 0.679 0.331 0.445 10 0.773 0.965 0.858 0.662 0.759 0.690 5 Fig. 5 A combination of detection results. 0 5 3 4 F 5 6 F 0.690 3 4 6 0 1 7. Audio-visual 7

DC1 JST CREST [1] Videotrine: http://en.videotrine.com/ [2] Cooper, M., Foote, J.: Summarizing popular music via structural similarity analysis, Proc. of IEEE Workshop on Application of Signal Processing to Audio and Acoustics, pp.127 130 (2003). [3] Chai, W., and Vercoe, B.: Music Thumbnailing via Structural Analysis, Proc. of ACMMM2003, pp.223 226 (2003). [4] Bartsch, M., and Wakefield, G.: Audio Thumbnailing of Popular Music Using Chroma-Based Representations, IEEE Trans. on Multimedia Vol.7, pp.96 104 (2005). [5] Money, A., and Agius, H.: Video summarisation: A conceptual framework and survey of the state of the art, Journal of Visual Communication and Image Representation, Vol.19, pp.121 143 (2008). [6] Agnihotri, L., Dimitrova, N., and Kender, J.: Design and Evaluation of a Music Video Summarization System, Proc. of ICME2004, pp.1943 1946 (2004). [7] Xu, C., Shao, X., Maddage, N., and Kankanhalli, M.: Automatic Music Video Summarization Based on Audio-Visual-Text Analysis and Alignment, Proc. of SI- GIR2005, pp.361 368 (2005). [8] (TOD) Vol.6 No.3 pp.148 158 (2013) [9] Vol.52 No.12 pp.3471 3482 (2011) [10] Nakamura, S., and Tanaka, K.: Video Search by Impression Extracted from Social Annotation, Proc. of WISE2009, pp.401 414 (2009). [11] Smeaton, A., Over, P., and Kraaij, W.: Evaluation campaigns and TRECVid, Proc. of MIR 06, pp.321 330 (2006). [12] Muhling, M., Ewerth, R., Zhou, J., and Freisleben, B.: Multimodal Video Concept Detection via Bag of Auditory Words and Multiple Kernel Learning,, Advances in Multimedia Modeling, Vol. 7131, pp,40 50 (2012). [13] Potamianos, G., Neti, C., Gravier, G., Garg, A., and Senior, A.: Recent Advances in the Automatic Recognition of Audio-Visual Speech, Proc. of IEEE, Vol.91, pp. 1306 1326 (2003). [14] Hrybyk, A., and Kim, Y.: Combined Audio and Video Analysis for Guitar Chord Identification, Proc. of IS- MIR2010, pp.159 164 (2010). [15] Petridis, S., and Pantic, M.: Audiovisual Discrimination Between Speech and Laughter: Why and When Visual Information Might Help, IEEE Trans. on Multimedia, Vol.13, pp.216 234 (2011). [16] Eyben, F., Petridis, S., Schuller, B. and Pantic, M.: Audiovisual Vocal Outburst Classification in Noisy Acoustic Conditions, Proc. of ICASSP2012, pp.5097 5100 (2012). [17] Vol.66 No.7 pp.j251 J259 (2012) [18] 2012-MUS-94-24 pp.1 8 (2012) [19] Irie, A., Takagiwa, M., Moriyama, K., and Yamashita, T.: Improvements to Facial Contour Detection by Hierarchical Fitting and Regression, Proc. of ACPR2011, pp.273 277 (2011) [20] Fujihara, H., Goto, M., Ogata, J., Okuno, H.: LyricSynchronizer: Automatic Synchronization System Between Musical Audio Signals and Lyrics, IEEE Journal of Selected Topics in Signal Processing, Vol.5, pp.1252 1261 (2011) 8