OS5-O2 TRECVID Semantic Indexing Taskと Multimedia Event Detection Taskへの取り組み 樋爪和也, 柳井啓司 ( 電気通信大学 )
背景 コンテンツベースの映像検索手法が盛んに TRECVID: 国際的な評価ワークショップ 膨大なデータ処理の必要性 4000 時間の大規模データ
本発表について TRECVID の概要 SIN タスク MED タスク 参加タスクに対する実行手法
TRECVID とは 映像検索技術に関連する競争型ワークショップ NIST と DTO が主催 東工大 NTT IBM コロンビア大 アムステルダム大など各国の研究チームが参加 TRECVID2012 の 6 つのタスク Semantic indexing (SIN) Known-item search (KIS) Interactive surveillance event detection (SED) Instance search (INS) Multimedia event detection (MED) Multimedia event recounting (MER) 本研究は SIN タスク MED タスクに関連
Semantic INdexing task ショット (= シーンごとの短い動画 ) の認識 1ショットあたり 最長で3.5 分 主に対象となるのは物体 人 :Chair George_Bush Skier... 動作 :Singing Sitting_down Walking_Running... 風景 :Hill Kitchen Forest... Airplane Bus Hand
Semantic INdexing task カテゴリ数 :346 20(2008, 09) 130(2010) と増加 カテゴリ数を減らしたlight 組み合わせたpairも 最終結果を提出できないチームも多い データ 学習データ :403,800 ショット (600 時間 ) テストデータ :145,634 ショット (200 時間 ) 評価形式 : 平均適合率 テストデータは翌年の学習データに ランキング付けした上位結果からサンプリングして計算 カテゴリごとに上位 2000 ショットが対象 2011 2012 は東工大チームが TOP
Multimedia Event Detection task 複雑なイベントの判定 SIN タスクよりも複合的な高次概念を検出動作 :Reparing an appliance Rock climbing 状態 :Birthday party Winning a race without a vehicle Working on a sewing project Parade Birthday party
Multimedia Event Detection task ビデオ イベント数 :20+5 事前に告知されるイベント20 追加のAdHocイベント5 Ad Hocイベント 締め切りまでの期間が短く メタデータも十分でない状態 データ SINデータと異なり ショット分割が行われていないビデオクリップが対象 SIN MED ショット 学習データ :47430 クリップ (1474 時間 ) テストデータ :98117 クリップ (3722 時間 )
Multimedia Event Detection task FN= 評価形式 各チームが独自に Threshold と スコアを決定 正解 非正解データのエラー率が対象 未検出率誤分類した正解データ数全正解データ数 FP= 誤検出率誤分類した非正解データ数全非正解データ数 Normalized Detection Cost(NDC) MEDでのシステム全体の評価指針 FN 0.08 + FP 0.999 NDC = 0.08 NDC が低い =FN FP が低いほど高性能
認識手法 :SIN タスク 特徴抽出 画像特徴 : 全フレームから SURF RGB 色特徴 データ 特徴抽出 BoF ベクトル変換 時空間特徴 [Noguchi et al. 2010] SVM 学習 分類
認識手法 :SIN タスク Bag-of-Features 表現に変換 soft assignment 複数のコードワードへの割り当て 空間ピラミッド表現 (1+2 2) データ 特徴抽出 画像特徴はコードワード 1000 時空間特徴はコードワード 5000 BoF ベクトル変換 SVM 学習 分類
認識手法 :SIN タスク Multiple Kernel Learning-SVM データ 複数の特徴を統合 出力値をソートしてランキング付け K K K x, x = β j k j x, x β j 0, β j = 1 j=1 j=1 特徴抽出 Airplane Airplane_Flying Basketball Boat_Ship 0% 20% 40% 60% 80% 100% SURF 色時空間 BoF ベクトル変換 SVM 学習 分類
認識手法 :MED タスク SIN タスクの手法を MED に適用 MED データはショット分割がされていない ビデオ ショット分割 学習 分類 ショットスコア ビデオスコア 学習データにイベントを含まないショットが存在する
認識手法 :MED タスク 学習データの中からショットを選択 VisualRank: 教師なしショットランキング ランキング上位のショットを学習に使用 Birthday party
認識手法 :MED タスク 元のビデオクリップのスコア決定 ビデオ ショット分割 学習 分類 ショットスコア ビデオスコア 元の動画のスコア = S 1 + S 2 + S 3 3 S i : 上位 i 番目のショットスコア
認識手法 :MED タスク ショット分割結果 最大 3000 フレーム (100 秒分 ) ランキング上位 500 ショットをポジティブに 学習データ数 (25 クラス ) テストデータ 元動画 4225 98118 分割後ショット数 48792 733764 使用したポジティブデータ 12500 ー
実験環境 80 台のクラスタマシン 4 コア CPU 8GB メモリ AMD:Phenom II X4 (3.00GHz) Intel :Xeon X3230 (2.66GHz) Xeon X3363 (2.83GHz) Core2 Quad Q9650(3.00GHz) Core i7 870 (2.93GHz) Core i7-2600 (3.40GHz) 計 320 コア 計算に使用したのは平均 3 コア / マシン 全行程の計算時間 SIN タスク : 約 4 日 MED タスク : 約 6 日 特徴抽出の時間は約 80% ただし 実時間は表記以上マシンの不具合 エラーファイルチェック etc
SIN タスク認識結果 1.2 1 0.8 max median ours 346 カテゴリ中 46 カテゴリが評価対象 全チームの最大値 中央値と比較 Average max :0.321 median:0.187 ours :0.115 0.6 0.4 0.2 0
1.0 SIN タスク認識結果 1.2 1 0.8 max median ours 346 カテゴリ中 46 カテゴリが評価対象 全チームの最大値 中央値と比較 Average max :0.321 median:0.187 ours :0.115 0.6 0.4 0.2 0
SIN タスク認識結果 1.2 1 0.8 max median ours 346 カテゴリ中 46 カテゴリが評価対象 全チームの最大値 中央値と比較 Average max :0.321 median:0.187 ours :0.115 0.6 0.4 0.2 0
SIN タスク全チーム結果. 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 F_A_TokyoTechCanon2_brn_2 F_A_TokyoTechCanon1_brn_1 F_A_TokyoTechCanon3_brn_3 F_A_TokyoTechCanon4_4 F_A_UvA.Sheldon_1 F_A_UvA.Raj_2 F_A_UvA.Leonard_4 F_A_-Quaero1_1 F_A_-Quaero3_3 F_A_-Quaero4_4 F_A_-Quaero2_2 F_A_IRIM1_1 F_A_IRIM3_3 F_A_PicSOM_1_1 F_A_PicSOM_2_2 F_A_IRIM2_2 F_A_PicSOM_3_3 F_A_IRIM4_4 F_A_nii.Kitty-AF1_1 F_A_FTRDBJ-SIN-1_1 F_A_CMU4_4 F_A_CMU3_1 F_A_CMU1_3 F_A_CMU2_2 F_A_PicSOM_4_4 F_A_FTRDBJ-SIN-2_2 F_A_nii.Kitty-AF2_2 F_A_VIREO.Baseline_2 F_A_IBM_2 F_A_IBM_3 F_A_ITI_CERTH_4 F_A_ITI_CERTH_1 F_A_ITI_CERTH_2 F_A_UEC1_1 F_A_ITI_CERTH_3 F_A_CEALIST_1 F_A_NHKSTRL1_1 F_A_CEALIST_2 F_A_NHKSTRL3_3 F_A_NHKSTRL2_2 F_A_NHKSTRL4_4 F_A_FIU-UM-1-brn_1 F_A_CEALIST_3 F_A_FIU-UM-2_2 F_A_FIU-UM-4_4 F_A_FIU-UM-3-brn_3 F_A_CEALIST_4 34/47
SIN タスク上位手法 : 東工大 特徴量 ( 画像特徴 5+ 音響特徴 1) SIFT-Har, SIFT-Hes, SIFTH-Dense, HOG-Dense, LBP-Dense, MFCC GMM Supervector SVM 木構造 GMM を用いた Fast MAP Adaptation により高速化 http://www-nlpir.nist.gov/projects/tvpubs/tv11.slides/tv11.tokyotechcanon.sin.slides.pdf より
MED タスク全チーム結果 3 2.5 2 コストが高い =NDC に大きく影響 FN:0.6429 FP :0.1559 1.5 1 NDC FN FP 0.5 0
MED タスク上位手法 :CMU 画像特徴 SIFT, C-SIFT, Transformed Color Histogram Semantic Indexing Concept, Object Bank Optical Character Recognition 動画像特徴 Motion SIFT, STIP, Dense Trajectory MFCC, AUDs Acoustic Scene Analysis Automatic Speech Recognition BoF GMM Tiling SVM (early, late) fusion KR (early, late) fusion score
まとめ 映像検索のワークショップ TRECVID の概要 Semantic Indexing タスク Multimedia Event Detection タスク 実行手法の紹介 TRECVID 全チームの手法は公開済み http://trecvid.nist.gov/
ご清聴ありがとうございました
MED タスク全チーム結果 0.9 random: 全ショットからランダムに 100 ショット top500:visualrank 上位 500 からランダムに 100 ショット ( 今回の手法 ) top100:visualrank 上位 100 0.8 0.7 0.6 0.5 0.4 0.3 0.2 random VisualRank top500 VisualRank top100 0.1 0