スライド 1

Similar documents
TRECVID Semantic Indexing TaskとMultimedia Event Detection Taskへの取り組み

時空間特徴を用いた Web動画からの特定動作対応ショットの 自動抽出

Microsoft PowerPoint - pr_12_template-bs.pptx

Automatic Collection of Web Video Shots Corresponding to Specific Actions using Web Images

スライド 1

第121回関東連合産科婦人科学会総会・学術集会 プログラム・抄録

3 2 2 (1) (2) (3) (4) 4 4 AdaBoost 2. [11] Onishi&Yoda [8] Iwashita&Stoica [5] 4 [3] 3. 3 (1) (2) (3)

色の類似性に基づいた形状特徴量CS-HOGの提案

homes01_P _chousa_sai.indd

スライド 1

Microsoft Word - 卒論レジュメ_最終_.doc

円筒面で利用可能なARマーカ

スライド 1

Microsoft PowerPoint - IBIS-shinoda-print.pptx

LBP 2 LBP 2. 2 Local Binary Pattern Local Binary pattern(lbp) [6] R

Microsoft Word - SKY操作マニュアル.doc

0 21 カラー反射率 slope aspect 図 2.9: 復元結果例 2.4 画像生成技術としての計算フォトグラフィ 3 次元情報を復元することにより, 画像生成 ( レンダリング ) に応用することが可能である. 近年, コンピュータにより, カメラで直接得られない画像を生成する技術分野が生

21 e-learning Development of Real-time Learner Detection System for e-learning

コンピュータグラフィックス第6回

高次元データ スパース正則化学習法 最適化手法 proximal point algorithm 確率最適化手法 2

ZoomBrowser EX Ver5.7 使用説明書(Windows)

コンピュータグラフィックス第8回

1 はじめに

RF_1

u u u 1 1

Microsoft PowerPoint _秀英体の取組み素材(予稿集).ppt


JSP58-program

EOS-1D Mark IV 製品カタログ

カメラレディ原稿

MATLAB ではじめる画像処理とロボットビジョン ~ 機械学習による物体認識と SLAM~ MathWorks Japan アプリケーションエンジニアリング部信号処理 通信 木川田亘 2015 The MathWorks, 1Inc.

(fnirs: Functional Near-Infrared Spectroscopy) [3] fnirs (oxyhb) Bulling [4] Kunze [5] [6] 2. 2 [7] [8] fnirs 3. 1 fnirs fnirs fnirs 1

(VKIR) VKIR VKIR DCT (R) (G) (B) Ward DCT i

スライド 1

<4D F736F F D2081A193B98BE EA97708CFB8DC08B4B92E D8D878CFB8DC0817A B4B816A81798A6D92E894C5817A2E646F63>


夏目小兵衛直克

( )


h1-h4(京産版)2016

使用説明書(Windows)

画像解析論(2) 講義内容


喀痰吸引

平成18年度「商品先物取引に関する実態調査」報告書

画像処理工学

2016年度 九州大・理系数学

Microsoft PowerPoint - 9.pptx

Microsoft PowerPoint CRCフォーラム「動的背景差分(中島)」Web公開用.ppt

測量士補 重要事項 応用測量 点高法による土量計算

Transcription:

Bag-of-Frames と時空間特徴量を用いた Semantic Indexing Task への取り組み

アウトライン はじめに 関連研究 手法 時空間特徴抽出手法 Bag of Framesによる全フレーム認識 キーフレームの利用 実行環境 結果 反省点 おわりに

はじめに 国際映像処理ワークショップ TRECVID 膨大な動画データを利用 課題の提示 結果の公表 Semantic Indexing Task 動画中の概念を認識し 概念に沿った動画から順に索引付けを行うタスク 2010 年から概念カテゴリが 20 種類から 130 種類に増加 公式の平均適合率の算出は 30 種類の概念

関連研究 TRECVID におけるマルチフレーム認識 MediaMill チーム [2] 複数のフレームから取得した特徴量を統合 東京工業大学チーム [3] 時空間特徴と視覚特徴の統合 Liu[4] らの研究 Adaboost による統合

方針 2010 年から TRECVID のデータセットが更新 Web から収集した動画に 野口 [1] による Web 動画認識で利用した特徴 ドロネー三角形を利用した時空間特徴など 本チームが TRECVID 2009 で利用した特徴 キーフレームから取得したカラーヒストグラムなど Multiple Kernel Learning で統合

動画認識の概要 ショット動画 野口の作成した特徴 ST: 時空間特徴 Motion: 動き特徴 Gabor: 視覚特徴 TRECVID2009 で利用した特徴 キーフレーム特徴 (RGB ヒストグラムなど 7 特徴 ) ドロネー三角形を用いた手法 Bag-of-Spatio-temporal- Feature 表現 オプティカルフローによる表現 フレーム毎に取得 ヒストグラムを Bag of Frames 表現にする キーフレームから取得 Multiple Kernel Learning(MKL) による学習 認識

ST: 時空間特徴 1.SURFによる特徴点抽出 2. オプティカルフローの小さい特徴点を除去 (Lucas-Kanade 法 ) 3. ドロネー三角分割法により三座標による特徴を取得 4. 各特徴の3 頂点のオプティカルフローと面積変化を計算 5. 視覚特徴と動き特徴を結合し257 次元の特徴抽出 SURF 視覚特徴 64 次元 3 動き特徴ヒストグラム (5 次元 *4フレーム*3 座標 ) 三角面積 (1 次元 *5フレーム)

Bag-of-Spatio Temporal Feature(BoSTF) Bag-of-Features(BoF) を動画に拡張したもの 画像を局所特徴の出現頻度で表現する (BoF) 動画を時空間特徴の出現頻度で表現する (BoSTF) ベクトル量子化 ST: 時空間特徴は 5000 次元の BoSTF 表現として利用

Motion: 動き特徴 オプティカルフローを用いてフレーム全体の動き情報を表現 8 方向 7 段階に分類し 56 次元のヒストグラムを抽出 カメラモーションが生じたフレームからは取得しない

カメラモーション除去 動画特有の特徴利用の際 カメラモーション除去が重要 グリッドで動きを計算 動いた領域の割合が一定以上ならカメラモーションと見なす カメラモーションが検出されたフレームは時空間特徴 動き特徴に利用しない

Gabor: ガボール特徴 ガボールフィルターを用い, 画像の局所的な濃淡情報を表現 フィルタカーネル :6 方向,4 周期 画像を 20 20 グリッドに分割 一つのフレームから 400 個の 24 次元の特徴を抽出 合計 9600 次元の特徴として利用

Bag of Frames(BoFr) による全フレーム認識 Gabor Motion 特徴は Bag of Frames 表現で利用する フレーム一枚から得られた特徴全体を 一つの局所特徴と見なし 1 動画中の出現頻度で動画を表現 全フレームの利用により動画の大域的な特徴の取得 ベクトル量子化 Motion: 動き特徴は 3000 次元の BoFr 表現として利用 Gabor: ガボール特徴は 5000 次元の BoFr 表現として利用

キーフレームの利用 2009 年の TRECVID で用いたキーフレームから取得した視覚特徴も一部利用した カラーヒストグラム 画像全体から HSV RGB Luv それぞれの色空間ヒストグラム 64 次元 1 画像 4*3 分割し HSV RGB Luv それぞれの色空間ヒストグラム 768 次元 顔特徴 Haar-Like による顔検出を利用 検出した顔個数 1 次元のみ取得

Multiple Kernel Learning(MKL) カテゴリごとに認識で重要な特徴は異なるはず 重要な特徴に適切な重みづけを行うことで実現 複数のサブカーネルの線形結合 最適な重み β を求める (MKL 問題 ) 凸面最適化問題として解く

実行環境 主に利用した計算クラスタマシン Phenom II X4 3.0 quad core メモリ4GB OS:Fedora 11(x64) 処理時間 (130 カテゴリ合計 ) 特徴抽出 :3.5 週間程度 学習データ :2 週間程度 (40 コア程度利用 ) テストデータ :1.5 週間程度 (80 コア利用 ) MKL の学習 :2 日前後 (100 コア利用 ) テスト分類 :2 日前後 (100 コア利用 )

実験 TRECVID データセット 学習動画 118305ショットテスト動画 144591ショット 2000 位までの推定平均適合率 (infap) で評価 Full Category 30 カテゴリ認識 Light Category 手法 10 カテゴリ認識 統合手法にMKLを利用 (UEC_MKL) 特徴を単純結合しSVMを利用 (UEC_AVG)

F_A_MM.CaptainSlow_4 F_A_REGIM_4_2 F_A_FTRDBJ-HLF-2_2 F_A_TT+GT_run1_1 F_A_PicSOM_2geom-max_2 F_C_MM.Jezza_2 F_A_CU.Athena_3 F_A_Marburg2_3 F_A_Marburg1_4 F_A_UC3M_4_4 F_A_UC3M_2_2 F_A_Quaero_RUN03_3 F_A_inria.willow_1 F_A_DFKI-MADM_4 F_A_VIREO.baseline_vk_c F_A_VIREO.baseline_vk_3 F_A_IRIM_RUN4_4 F_A_TT+GT_run2_2 F_A_ITI-CERTH_2 F_A_NHKSTRL3_3 F_A_NTU-RF-L_3 F_A_Fudan.TV10.2_2 F_A_NTURFB_4 F_A_inria.willow_3 F_A_LIF_RUN4_4 F_C_nii.ksc.run1002_2 F_D_KBVR_2 F_A_Fuzhou_Run1_1 F_D_KBVR_1 F_A_FIU-UM-3_3 F_A_CMU4_4 F_A_CMU2_2 F_A_FIU-UM-4_4 F_A_Fzu_Run3_130c_3 結果 (Full Category) 全 30 チーム中 14 位 (UEC_MKL) infap=0.0478(uec_mkl)86 手法中 32 位 infap=0.0117(uec_avg) 86 手法中 70 位 0.1 0.09 0.08 0.07 0.06 0.05 0.04 0.03 0.02 0.01 0 UEC_MKL UEC_AVG 系列 2 系列 1

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 Airplane Animal Asian_People Bicycling Boat_Ship Bus Car Cheering Cityscape Classroom Dancing Dark-skinned_People Demonstration_Or_Protest Doorway Explosion_Fire Female_Person Flowers Ground_Vehicles Hand Mountain Nighttime Old_People Running Singing Sitting_Down Swimming Telephone Throwing Vehicle Walking_Running Median Max Ours Flowers Full Category のカテゴリ別認識精度 Mountain Swimming Car Bus Sitting Down Dancing Classroom

F_A_REGIM F_A_MM.Ca L_A_Eureco F_A_NEC- F_A_TT+G F_A_CU.Ar F_A_NEC- F_A_PicSO F_A_PicSO F_A_CU.He F_A_Marbu F_A_Marbu F_A_UC3M F_A_Quaer F_A_TT+G F_A_VIREO F_A_UC3M F_A_VIREO F_A_inria.wi L_A_MCPR F_A_MUG- L_A_Eureco L_A_MMM- L_A_MMM- F_A_Fudan. F_A_NHKS F_A_brno.b L_A_MMM- L_A_CMU3_3 F_A_Fuzhou F_A_NTUR F_A_LIF_R F_A_MUG- F_D_NTU- L_B_JRS- L_A_SJTU- F_C_nii.ksc. F_A_nii.ksc. F_A_brno.r F_A_LIF_R L_A_MMM- F_A_uzay.sy L_A_IRIT_2_2 F_A_CMU1_1 F_A_nii.PyC L_B_ntt-ut- L_A_IRIT_1_1 L_A_LSIS_ F_A_FIU- F_A_IIPLA_ 結果 (Light Category) 全 37チーム中 12 位 (UEC_MKL) infap=0.0393(uec_mkl) 128 手法中 31 位 infap=0.0077(uec_avg)128 手法中 94 位 0.12 0.1 UEC_MKL 0.08 0.06 UEC_AVG 0.04 0.02 系列 2 系列 1 0

Light Category のカテゴリ別認識精度 0.3 0.25 0.2 Bus Classroom 0.15 0.1 0.05 Median Best Ours 0

結果紹介 成功例 :Dancing 466 枚 :1 つの動画から複数選択されていることが多い 失敗例 :Bus 31 枚 : わずかな学習データ 失敗例 2:Walking_Running 2379 枚 : 多様な学習データ

反省点 メモリ容量による学習データ数の限度あり 15000 個利用した場合 2 週間計算しても終わらないことも たくさんのネガティブデータをどう利用するか 今回の場合ネガティブデータ 5000 個程度 段取りが重要 130 種類のカテゴリの認識なので 計画的に行う必要 MKL のパラメータ調整を行う時間が作れなかった

おわりに まとめ 時空間特徴 bag-of-frames などの特徴の利用 MKL による統合を行った結果 30 チーム中 14 位 86 手法中 32 位の結果を得た TRECVID 2011 に向けて 学習データの少ないカテゴリが存在 認識精度向上のため Web 上の情報を利用する (Image-net)