TRECVID Semantic Indexing TaskとMultimedia Event Detection Taskへの取り組み

OS5-O2 TRECVID Semantic Indexing Taskと Multimedia Event Detection Taskへの取り組み樋爪和也, 柳井啓司 ( 電気通信大学 )

背景コンテンツベースの映像検索手法が盛んに TRECVID: 国際的な評価ワークショップ膨大なデータ処理の必要性 4000 時間の大規模データ

本発表について TRECVID の概要 SIN タスク MED タスク参加タスクに対する実行手法

TRECVID とは映像検索技術に関連する競争型ワークショップ NIST と DTO が主催東工大 NTT IBM コロンビア大アムステルダム大など各国の研究チームが参加 TRECVID2012 の 6 つのタスク Semantic indexing (SIN) Known-item search (KIS) Interactive surveillance event detection (SED) Instance search (INS) Multimedia event detection (MED) Multimedia event recounting (MER) 本研究は SIN タスク MED タスクに関連

Semantic INdexing task ショット (= シーンごとの短い動画 ) の認識 1ショットあたり最長で3.5 分主に対象となるのは物体人 :Chair George_Bush Skier... 動作 :Singing Sitting_down Walking_Running... 風景 :Hill Kitchen Forest... Airplane Bus Hand

Semantic INdexing task カテゴリ数 :346 20(2008, 09) 130(2010) と増加カテゴリ数を減らしたlight 組み合わせたpairも最終結果を提出できないチームも多いデータ学習データ :403,800 ショット (600 時間 ) テストデータ :145,634 ショット (200 時間 ) 評価形式 : 平均適合率テストデータは翌年の学習データにランキング付けした上位結果からサンプリングして計算カテゴリごとに上位 2000 ショットが対象 2011 2012 は東工大チームが TOP

Multimedia Event Detection task 複雑なイベントの判定 SIN タスクよりも複合的な高次概念を検出動作 :Reparing an appliance Rock climbing 状態 :Birthday party Winning a race without a vehicle Working on a sewing project Parade Birthday party

Multimedia Event Detection task ビデオイベント数 :20+5 事前に告知されるイベント20 追加のAdHocイベント5 Ad Hocイベント締め切りまでの期間が短くメタデータも十分でない状態データ SINデータと異なりショット分割が行われていないビデオクリップが対象 SIN MED ショット学習データ :47430 クリップ (1474 時間 ) テストデータ :98117 クリップ (3722 時間 )

Multimedia Event Detection task FN= 評価形式各チームが独自に Threshold とスコアを決定正解非正解データのエラー率が対象未検出率誤分類した正解データ数全正解データ数 FP= 誤検出率誤分類した非正解データ数全非正解データ数 Normalized Detection Cost(NDC) MEDでのシステム全体の評価指針 FN 0.08 + FP 0.999 NDC = 0.08 NDC が低い =FN FP が低いほど高性能

認識手法 :SIN タスク特徴抽出画像特徴 : 全フレームから SURF RGB 色特徴データ特徴抽出 BoF ベクトル変換時空間特徴 [Noguchi et al. 2010] SVM 学習分類

認識手法 :SIN タスク Bag-of-Features 表現に変換 soft assignment 複数のコードワードへの割り当て空間ピラミッド表現 (1+2 2) データ特徴抽出画像特徴はコードワード 1000 時空間特徴はコードワード 5000 BoF ベクトル変換 SVM 学習分類

認識手法 :SIN タスク Multiple Kernel Learning-SVM データ複数の特徴を統合出力値をソートしてランキング付け K K K x, x = β j k j x, x β j 0, β j = 1 j=1 j=1 特徴抽出 Airplane Airplane_Flying Basketball Boat_Ship 0% 20% 40% 60% 80% 100% SURF 色時空間 BoF ベクトル変換 SVM 学習分類

認識手法 :MED タスク SIN タスクの手法を MED に適用 MED データはショット分割がされていないビデオショット分割学習分類ショットスコアビデオスコア学習データにイベントを含まないショットが存在する

認識手法 :MED タスク学習データの中からショットを選択 VisualRank: 教師なしショットランキングランキング上位のショットを学習に使用 Birthday party

認識手法 :MED タスク元のビデオクリップのスコア決定ビデオショット分割学習分類ショットスコアビデオスコア元の動画のスコア = S 1 + S 2 + S 3 3 S i : 上位 i 番目のショットスコア

認識手法 :MED タスクショット分割結果最大 3000 フレーム (100 秒分 ) ランキング上位 500 ショットをポジティブに学習データ数 (25 クラス ) テストデータ元動画 4225 98118 分割後ショット数 48792 733764 使用したポジティブデータ 12500 ー

実験環境 80 台のクラスタマシン 4 コア CPU 8GB メモリ AMD:Phenom II X4 (3.00GHz) Intel :Xeon X3230 (2.66GHz) Xeon X3363 (2.83GHz) Core2 Quad Q9650(3.00GHz) Core i7 870 (2.93GHz) Core i7-2600 (3.40GHz) 計 320 コア計算に使用したのは平均 3 コア / マシン全行程の計算時間 SIN タスク : 約 4 日 MED タスク : 約 6 日特徴抽出の時間は約 80% ただし実時間は表記以上マシンの不具合エラーファイルチェック etc

SIN タスク認識結果 1.2 1 0.8 max median ours 346 カテゴリ中 46 カテゴリが評価対象全チームの最大値中央値と比較 Average max :0.321 median:0.187 ours :0.115 0.6 0.4 0.2 0

1.0 SIN タスク認識結果 1.2 1 0.8 max median ours 346 カテゴリ中 46 カテゴリが評価対象全チームの最大値中央値と比較 Average max :0.321 median:0.187 ours :0.115 0.6 0.4 0.2 0

SIN タスク全チーム結果. 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 F_A_TokyoTechCanon2_brn_2 F_A_TokyoTechCanon1_brn_1 F_A_TokyoTechCanon3_brn_3 F_A_TokyoTechCanon4_4 F_A_UvA.Sheldon_1 F_A_UvA.Raj_2 F_A_UvA.Leonard_4 F_A_-Quaero1_1 F_A_-Quaero3_3 F_A_-Quaero4_4 F_A_-Quaero2_2 F_A_IRIM1_1 F_A_IRIM3_3 F_A_PicSOM_1_1 F_A_PicSOM_2_2 F_A_IRIM2_2 F_A_PicSOM_3_3 F_A_IRIM4_4 F_A_nii.Kitty-AF1_1 F_A_FTRDBJ-SIN-1_1 F_A_CMU4_4 F_A_CMU3_1 F_A_CMU1_3 F_A_CMU2_2 F_A_PicSOM_4_4 F_A_FTRDBJ-SIN-2_2 F_A_nii.Kitty-AF2_2 F_A_VIREO.Baseline_2 F_A_IBM_2 F_A_IBM_3 F_A_ITI_CERTH_4 F_A_ITI_CERTH_1 F_A_ITI_CERTH_2 F_A_UEC1_1 F_A_ITI_CERTH_3 F_A_CEALIST_1 F_A_NHKSTRL1_1 F_A_CEALIST_2 F_A_NHKSTRL3_3 F_A_NHKSTRL2_2 F_A_NHKSTRL4_4 F_A_FIU-UM-1-brn_1 F_A_CEALIST_3 F_A_FIU-UM-2_2 F_A_FIU-UM-4_4 F_A_FIU-UM-3-brn_3 F_A_CEALIST_4 34/47

SIN タスク上位手法 : 東工大特徴量 ( 画像特徴 5+ 音響特徴 1) SIFT-Har, SIFT-Hes, SIFTH-Dense, HOG-Dense, LBP-Dense, MFCC GMM Supervector SVM 木構造 GMM を用いた Fast MAP Adaptation により高速化 http://www-nlpir.nist.gov/projects/tvpubs/tv11.slides/tv11.tokyotechcanon.sin.slides.pdf より

MED タスク全チーム結果 3 2.5 2 コストが高い =NDC に大きく影響 FN:0.6429 FP :0.1559 1.5 1 NDC FN FP 0.5 0

MED タスク上位手法 :CMU 画像特徴 SIFT, C-SIFT, Transformed Color Histogram Semantic Indexing Concept, Object Bank Optical Character Recognition 動画像特徴 Motion SIFT, STIP, Dense Trajectory MFCC, AUDs Acoustic Scene Analysis Automatic Speech Recognition BoF GMM Tiling SVM (early, late) fusion KR (early, late) fusion score

まとめ映像検索のワークショップ TRECVID の概要 Semantic Indexing タスク Multimedia Event Detection タスク実行手法の紹介 TRECVID 全チームの手法は公開済み http://trecvid.nist.gov/

ご清聴ありがとうございました

MED タスク全チーム結果 0.9 random: 全ショットからランダムに 100 ショット top500:visualrank 上位 500 からランダムに 100 ショット ( 今回の手法 ) top100:visualrank 上位 100 0.8 0.7 0.6 0.5 0.4 0.3 0.2 random VisualRank top500 VisualRank top100 0.1 0