TRECVID Semantic Indexing TaskとMultimedia Event Detection Taskへの取り組み

Similar documents
スライド 1

Microsoft PowerPoint - IBIS-shinoda-print.pptx

時空間特徴を用いた Web動画からの特定動作対応ショットの 自動抽出

Automatic Collection of Web Video Shots Corresponding to Specific Actions using Web Images

スライド 1

Microsoft PowerPoint - pr_12_template-bs.pptx

第121回関東連合産科婦人科学会総会・学術集会 プログラム・抄録

Microsoft PowerPoint PresentationPRMU2008Nov.ppt [互換モード]

SICE東北支部研究集会資料(2013年)

shono_DIA06.ppt

Microsoft PowerPoint - SSII_harada pptx

“nice to meet you”

円筒面で利用可能なARマーカ

色の類似性に基づいた形状特徴量CS-HOGの提案

IS2-06 第21回画像センシングシンポジウム 横浜 2015年6月 画像をスーパーピクセルに変換する手法として SLIC[5] を用いる Achanta らによって提案された SLIC 2.2 グラフマッチング は K-means をベースにした手法で 単純な K-means に いる SPIN

音響モデル triphone 入力音声 音声分析 デコーダ 言語モデル N-gram bigram HMM の状態確率として利用 出力層 triphone: 3003 ノード リスコア trigram 隠れ層 2048 ノード X7 層 1 Structure of recognition syst

田向研究室PPTテンプレート

(VKIR) VKIR VKIR DCT (R) (G) (B) Ward DCT i

:30 18:00 9:30 12:00 13:00 17:00

PowerPoint プレゼンテーション

untitled

Kullback-Leibler 情報量を用いた亜種マルウェアの同定 電気通信大学 中村燎太 松宮遼 高橋一志 大山恵弘 1

リソース制約下における組込みソフトウェアの性能検証および最適化方法

JSP58-program

IPSJ SIG Technical Report Vol.2013-CG-153 No.14 Vol.2013-CVIM-189 No /11/29 1,a) 1,b) 1,c) 1,d) ROI(Region of Interest) Research for Automatic

,45M5D,45M3D 高性能CPU ブルーレイディスクドライブ搭載モデルをラインアップ 快適に使えるスタンダードノートPC リュクスホワイト プレシャスブラック モデナレッド ライトゴールド PT55-56MBXWD PT55-45MSXWD PT55-45MSXW3D PT55-56MBXBD

コンピュータグラフィックス第8回


TOP

バイノーラルマイクを用いたライフログ映像のショット識別 Life-log Video Shot Discrimination using Binaural Microphone 山野貴一郎 伊藤克亘 法政大学大学院情報科学研究科 法政大学情報科学部 Kiichiro YAMANO Katunobu

4 本体の入力を USB-B 端子に対応する入力に切り換える 下記の画面表示になります 手順 8 の画面になるまでしばらくお待ちください 5 解凍したフォルダー内にある "Setup.exe" をダブルクリックして実行する InstallShield ウィザードが表示されます xxxxxxxxxx.

PowerPoint プレゼンテーション

操作説明書(抜粋)_2013_03

untitled

IBM Internet Security Systems NTFS ファイルシステム必須 一覧の 以後にリリースされた Service Pack (Release 2 等は除く ) は特に記載の無い限りサポートいたします メモリ 最小要件 512MB 推奨要件 1GB 最小要件 9GB 推奨要件

[1] SBS [2] SBS Random Forests[3] Random Forests ii

040402.ユニットテスト

高次元データ スパース正則化学習法 最適化手法 proximal point algorithm 確率最適化手法 2



共有辞書を用いた 効率の良い圧縮アルゴリズム

EnSightのご紹介

endo.PDF


2

WISS 2018 [2 4] [5,6] Query-by-Dancing Query-by- Dancing Cao [1] OpenPose 2 Ghias [7] Query by humming Chen [8] Query by rhythm Jang [9] Query-by-tapp

[2] OCR [3], [4] [5] [6] [4], [7] [8], [9] 1 [10] Fig. 1 Current arrangement and size of ruby. 2 Fig. 2 Typography combined with printing

Release Note for Media File Player v1.6.3 (Japanese)

FFT




平成13年度 地域工業活性化支援事業報告書(多摩全域)

はたらく若者ハンドブック

PowerPoint Presentation

Title 中國宗教文獻研究國際シンポジウム報告書 ( 大規模佛教文獻群に對する確率統計的分析の試み / 師茂樹 ) Author(s) Citation (2004) Issue Date URL Right Typ

Transcription:

OS5-O2 TRECVID Semantic Indexing Taskと Multimedia Event Detection Taskへの取り組み 樋爪和也, 柳井啓司 ( 電気通信大学 )

背景 コンテンツベースの映像検索手法が盛んに TRECVID: 国際的な評価ワークショップ 膨大なデータ処理の必要性 4000 時間の大規模データ

本発表について TRECVID の概要 SIN タスク MED タスク 参加タスクに対する実行手法

TRECVID とは 映像検索技術に関連する競争型ワークショップ NIST と DTO が主催 東工大 NTT IBM コロンビア大 アムステルダム大など各国の研究チームが参加 TRECVID2012 の 6 つのタスク Semantic indexing (SIN) Known-item search (KIS) Interactive surveillance event detection (SED) Instance search (INS) Multimedia event detection (MED) Multimedia event recounting (MER) 本研究は SIN タスク MED タスクに関連

Semantic INdexing task ショット (= シーンごとの短い動画 ) の認識 1ショットあたり 最長で3.5 分 主に対象となるのは物体 人 :Chair George_Bush Skier... 動作 :Singing Sitting_down Walking_Running... 風景 :Hill Kitchen Forest... Airplane Bus Hand

Semantic INdexing task カテゴリ数 :346 20(2008, 09) 130(2010) と増加 カテゴリ数を減らしたlight 組み合わせたpairも 最終結果を提出できないチームも多い データ 学習データ :403,800 ショット (600 時間 ) テストデータ :145,634 ショット (200 時間 ) 評価形式 : 平均適合率 テストデータは翌年の学習データに ランキング付けした上位結果からサンプリングして計算 カテゴリごとに上位 2000 ショットが対象 2011 2012 は東工大チームが TOP

Multimedia Event Detection task 複雑なイベントの判定 SIN タスクよりも複合的な高次概念を検出動作 :Reparing an appliance Rock climbing 状態 :Birthday party Winning a race without a vehicle Working on a sewing project Parade Birthday party

Multimedia Event Detection task ビデオ イベント数 :20+5 事前に告知されるイベント20 追加のAdHocイベント5 Ad Hocイベント 締め切りまでの期間が短く メタデータも十分でない状態 データ SINデータと異なり ショット分割が行われていないビデオクリップが対象 SIN MED ショット 学習データ :47430 クリップ (1474 時間 ) テストデータ :98117 クリップ (3722 時間 )

Multimedia Event Detection task FN= 評価形式 各チームが独自に Threshold と スコアを決定 正解 非正解データのエラー率が対象 未検出率誤分類した正解データ数全正解データ数 FP= 誤検出率誤分類した非正解データ数全非正解データ数 Normalized Detection Cost(NDC) MEDでのシステム全体の評価指針 FN 0.08 + FP 0.999 NDC = 0.08 NDC が低い =FN FP が低いほど高性能

認識手法 :SIN タスク 特徴抽出 画像特徴 : 全フレームから SURF RGB 色特徴 データ 特徴抽出 BoF ベクトル変換 時空間特徴 [Noguchi et al. 2010] SVM 学習 分類

認識手法 :SIN タスク Bag-of-Features 表現に変換 soft assignment 複数のコードワードへの割り当て 空間ピラミッド表現 (1+2 2) データ 特徴抽出 画像特徴はコードワード 1000 時空間特徴はコードワード 5000 BoF ベクトル変換 SVM 学習 分類

認識手法 :SIN タスク Multiple Kernel Learning-SVM データ 複数の特徴を統合 出力値をソートしてランキング付け K K K x, x = β j k j x, x β j 0, β j = 1 j=1 j=1 特徴抽出 Airplane Airplane_Flying Basketball Boat_Ship 0% 20% 40% 60% 80% 100% SURF 色時空間 BoF ベクトル変換 SVM 学習 分類

認識手法 :MED タスク SIN タスクの手法を MED に適用 MED データはショット分割がされていない ビデオ ショット分割 学習 分類 ショットスコア ビデオスコア 学習データにイベントを含まないショットが存在する

認識手法 :MED タスク 学習データの中からショットを選択 VisualRank: 教師なしショットランキング ランキング上位のショットを学習に使用 Birthday party

認識手法 :MED タスク 元のビデオクリップのスコア決定 ビデオ ショット分割 学習 分類 ショットスコア ビデオスコア 元の動画のスコア = S 1 + S 2 + S 3 3 S i : 上位 i 番目のショットスコア

認識手法 :MED タスク ショット分割結果 最大 3000 フレーム (100 秒分 ) ランキング上位 500 ショットをポジティブに 学習データ数 (25 クラス ) テストデータ 元動画 4225 98118 分割後ショット数 48792 733764 使用したポジティブデータ 12500 ー

実験環境 80 台のクラスタマシン 4 コア CPU 8GB メモリ AMD:Phenom II X4 (3.00GHz) Intel :Xeon X3230 (2.66GHz) Xeon X3363 (2.83GHz) Core2 Quad Q9650(3.00GHz) Core i7 870 (2.93GHz) Core i7-2600 (3.40GHz) 計 320 コア 計算に使用したのは平均 3 コア / マシン 全行程の計算時間 SIN タスク : 約 4 日 MED タスク : 約 6 日 特徴抽出の時間は約 80% ただし 実時間は表記以上マシンの不具合 エラーファイルチェック etc

SIN タスク認識結果 1.2 1 0.8 max median ours 346 カテゴリ中 46 カテゴリが評価対象 全チームの最大値 中央値と比較 Average max :0.321 median:0.187 ours :0.115 0.6 0.4 0.2 0

1.0 SIN タスク認識結果 1.2 1 0.8 max median ours 346 カテゴリ中 46 カテゴリが評価対象 全チームの最大値 中央値と比較 Average max :0.321 median:0.187 ours :0.115 0.6 0.4 0.2 0

SIN タスク認識結果 1.2 1 0.8 max median ours 346 カテゴリ中 46 カテゴリが評価対象 全チームの最大値 中央値と比較 Average max :0.321 median:0.187 ours :0.115 0.6 0.4 0.2 0

SIN タスク全チーム結果. 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 F_A_TokyoTechCanon2_brn_2 F_A_TokyoTechCanon1_brn_1 F_A_TokyoTechCanon3_brn_3 F_A_TokyoTechCanon4_4 F_A_UvA.Sheldon_1 F_A_UvA.Raj_2 F_A_UvA.Leonard_4 F_A_-Quaero1_1 F_A_-Quaero3_3 F_A_-Quaero4_4 F_A_-Quaero2_2 F_A_IRIM1_1 F_A_IRIM3_3 F_A_PicSOM_1_1 F_A_PicSOM_2_2 F_A_IRIM2_2 F_A_PicSOM_3_3 F_A_IRIM4_4 F_A_nii.Kitty-AF1_1 F_A_FTRDBJ-SIN-1_1 F_A_CMU4_4 F_A_CMU3_1 F_A_CMU1_3 F_A_CMU2_2 F_A_PicSOM_4_4 F_A_FTRDBJ-SIN-2_2 F_A_nii.Kitty-AF2_2 F_A_VIREO.Baseline_2 F_A_IBM_2 F_A_IBM_3 F_A_ITI_CERTH_4 F_A_ITI_CERTH_1 F_A_ITI_CERTH_2 F_A_UEC1_1 F_A_ITI_CERTH_3 F_A_CEALIST_1 F_A_NHKSTRL1_1 F_A_CEALIST_2 F_A_NHKSTRL3_3 F_A_NHKSTRL2_2 F_A_NHKSTRL4_4 F_A_FIU-UM-1-brn_1 F_A_CEALIST_3 F_A_FIU-UM-2_2 F_A_FIU-UM-4_4 F_A_FIU-UM-3-brn_3 F_A_CEALIST_4 34/47

SIN タスク上位手法 : 東工大 特徴量 ( 画像特徴 5+ 音響特徴 1) SIFT-Har, SIFT-Hes, SIFTH-Dense, HOG-Dense, LBP-Dense, MFCC GMM Supervector SVM 木構造 GMM を用いた Fast MAP Adaptation により高速化 http://www-nlpir.nist.gov/projects/tvpubs/tv11.slides/tv11.tokyotechcanon.sin.slides.pdf より

MED タスク全チーム結果 3 2.5 2 コストが高い =NDC に大きく影響 FN:0.6429 FP :0.1559 1.5 1 NDC FN FP 0.5 0

MED タスク上位手法 :CMU 画像特徴 SIFT, C-SIFT, Transformed Color Histogram Semantic Indexing Concept, Object Bank Optical Character Recognition 動画像特徴 Motion SIFT, STIP, Dense Trajectory MFCC, AUDs Acoustic Scene Analysis Automatic Speech Recognition BoF GMM Tiling SVM (early, late) fusion KR (early, late) fusion score

まとめ 映像検索のワークショップ TRECVID の概要 Semantic Indexing タスク Multimedia Event Detection タスク 実行手法の紹介 TRECVID 全チームの手法は公開済み http://trecvid.nist.gov/

ご清聴ありがとうございました

MED タスク全チーム結果 0.9 random: 全ショットからランダムに 100 ショット top500:visualrank 上位 500 からランダムに 100 ショット ( 今回の手法 ) top100:visualrank 上位 100 0.8 0.7 0.6 0.5 0.4 0.3 0.2 random VisualRank top500 VisualRank top100 0.1 0