時空間特徴を用いた Web動画からの特定動作対応ショットの 自動抽出

Similar documents
Automatic Collection of Web Video Shots Corresponding to Specific Actions using Web Images

Microsoft PowerPoint - pr_12_template-bs.pptx

TRECVID Semantic Indexing TaskとMultimedia Event Detection Taskへの取り組み

スライド 1

スライド 1

WISS 2018 [2 4] [5,6] Query-by-Dancing Query-by- Dancing Cao [1] OpenPose 2 Ghias [7] Query by humming Chen [8] Query by rhythm Jang [9] Query-by-tapp

SICE東北支部研究集会資料(2013年)

shono_DIA06.ppt

00-01-‡Í‡¶‡ß‡É

電子情報通信学会ワードテンプレート (タイトル)

色の類似性に基づいた形状特徴量CS-HOGの提案

Kumamoto University Center for Multimedia and Information Technologies Lab. 熊本大学アプリケーション実験 ~ 実環境における無線 LAN 受信電波強度を用いた位置推定手法の検討 ~ InKIAI 宮崎県美郷

[1] SBS [2] SBS Random Forests[3] Random Forests ii

P1〜14/稲 〃

3 2 2 (1) (2) (3) (4) 4 4 AdaBoost 2. [11] Onishi&Yoda [8] Iwashita&Stoica [5] 4 [3] 3. 3 (1) (2) (3)

1.`16



TOP

u u u 1 1

BDH Cao BDH BDH Cao Cao Cao BDH ()*$ +,-+.)*$!%&'$!"#$ 2. 1 Weng [4] Metric Learning Weng DB DB Yang [5] John [6] Sparse Coding sparse coding DB [7] K

nlp1-12.key

PDF

Netcommunity SYSTEM X7000 IPコードレス電話機 取扱説明書

.A. D.S

多摩のかけはしNo98 表1表4色

PowerPoint Presentation

1

画像処理工学

-2-

平成20年度内部評価実施結果報告書《本編》

PowerPoint プレゼンテーション

Microsoft PowerPoint _3a-SEO.pptx

<4D F736F F D2081A193B98BE EA97708CFB8DC08B4B92E D8D878CFB8DC0817A B4B816A81798A6D92E894C5817A2E646F63>


( )


夏目小兵衛直克

(MIRU2008) HOG Histograms of Oriented Gradients (HOG)

IPSJ SIG Technical Report Vol.2013-CVIM-187 No /5/30 1,a) 1,b), 1,,,,,,, (DNN),,,, 2 (CNN),, 1.,,,,,,,,,,,,,,,,,, [1], [6], [7], [12], [13]., [

2. Apple iphoto 1 Google Picasa 2 Calendar for Everything [1] PLUM [2] LifelogViewer 3 1 Apple iphoto, 2 Goo

2. 30 Visual Words TF-IDF Lowe [4] Scale-Invarient Feature Transform (SIFT) Bay [1] Speeded Up Robust Features (SURF) SIFT 128 SURF 64 Visual Words Ni

Microsoft Word - 06.doc

28 TCG SURF Card recognition using SURF in TCG play video

画像工学入門

二項ソフトクラスタリング分析例 この資料では Visual Mining Studio のアイコン Dyadic Soft Clustering を使って 二項ソフトクラスタリング 分析をする方法を説明します 二項ソフトクラスタリングは一般的には PLSI, PLSA などの名前で知られています 株

9 WEB監視

IPSJ SIG Technical Report Vol.2012-CG-149 No.13 Vol.2012-CVIM-184 No /12/4 3 1,a) ( ) DB 3D DB 2D,,,, PnP(Perspective n-point), Ransa

IPSJ SIG Technical Report Vol.2013-CG-153 No.14 Vol.2013-CVIM-189 No /11/29 1,a) 1,b) 1,c) 1,d) ROI(Region of Interest) Research for Automatic



Microsoft Word - 卒論レジュメ_最終_.doc

OpRisk VaR3.2 Presentation

スライド 1

KeyCreator2019 SP2 主な新機能と改良内容

Poincaré Embedding による 分散表現の獲得 M1 橋本隼人 森信介 京都大学情報学研究科 / 学術情報メディアセンター森研究室 1

Transcription:

Web 動画 画像を用いた 特定動作ショットの自動収集 DO HANG NGA 樋爪和也柳井啓司 電気通信大学情報工学科

背景 既存の動画学習手法制限のある動画像 (e.g. KTH, Caltech) 教師なし学習手法 Web 上の動画 教師信号あり 動画量が少ない

研究の目的 特定動作についての Web データを使用して その動作の対応ショットを自動抽出 大量の Web 動画 ランキング 学習の必要なし 上位 Running marathon の対応ショット 下位 Running marathon の非対応ショット

関連研究 N. I. Cinbis, R. G. Cinbis and S. Sclaroff: Learning actions from the web, ICCV2009 Cinbis らの研究 Web 画像静的特徴 我々の研究 Web 動画 +Web 画像 時空間特徴

テキスト処理 提案手法 既存手法 タグ共起辞書作成 タグ共起による動画ランキング tags YouTube ランク上位動画収集 Bing 画像収集 ショット分割 特徴抽出 人間検出 ショット特徴抽出 ショットと画像の類似度の計算 ショット BoF 表現化 Web 画像導入 VisualRank 計算 画像処理

YouTube tags 既存手法 (*) タグ共起辞書作成 タグ共起による動画ランキング ランク上位動画収集 動画のみ 利用 ショット分割 時空間特徴抽出 タグ共起ランク ショット BoF 表現化 VisualRank 計算 (*) DoHang Nga, 柳井啓司 : 大量の Web 動画からの教師なし特定動作ショット抽出, MIRU2011 H.N.Do, K.Yanai: Automatic Construction of an Action Database using Web Videos, ICCV2011

既存手法 : タグ共起辞書作成ステップ WEB API TAGS YouTube タグ共起辞書作成

タグ共起辞書 タグ共起辞書 : Web2.0 辞書 (*) を適用したもの Web2.0 辞書 : 共起出現関係により言葉を定義する 見出し語 :Cinema 共起語 : movie theater theatre architecture film 共起出現頻度 (*)Q.Yang, X.Chen, G.Wang. Web2.0 Dictionary CVIR2008

タグ共起辞書作成 ステップ 1 ステップ 2 ステップ 3 各動作について1000 動画のタグを収集タグを集計し 出現頻度上位 2000タグについて それぞれ1000 動画のタグを収集約 200 万動画のタグのうち 5 回以上出現したタグの共起頻度を集計 P(b a) = count(a,b) count(a) where count a, b : a, b の共起出現回数 count a : a の出現回数

既存手法 : 動画ランキング WEB API TAGS YouTube タグ共起辞書作成 タグ共起による 動画ランキング クエリ : running+marathon タグ ( 共起スコア ):0.1828 Run (0.18248175) Training(0.13321168) Sport (0.11678832)

既存手法 : 動画収集ステップ タグ共起辞書による動画ランキング YouTube ランク上位動画の収集 共起関係 上位 200 動画のみ

既存手法 : ショット分割ステップ タグ共起による動画ランキング ランク上位動画収集 ショット分割 色情報

特徴抽出ステップ YouTube Web2.0 辞書による動画ランキング ランク上位動画収集 ショット分割 時空間特徴 (ST) 抽出 ( ショットの間の類似度の計算のため ) SURF 特徴抽出 ( 画像との類似度の計算のため )

時空間特徴 (*) 1. 5 フレームを 1 ユニットとする 2. SURF を抽出 オプティカルフローを計算 3. 動きがある点 : 特徴点 4. ドロネー三角形を作成以降三点で一組の特徴と考える 5. ユニットを更に区切り, それぞれのインターバルから動き特徴を抽出 6 視覚特徴と動き特徴を統合し 特徴をヒストグラム化する (*) A.Noguchi and K.Yanai: A SURF-based Spatio-Temporal Feature for feature-fusion-based action recognition, ECCV WS on Human Motion: Understanding, Modeling, Capture and Animation

既存手法 : ショット BoF 化ステップ VisualRank 計算ステップ YouTub e タグ共起による動画ランキング ランク上位動画収集 ショット分割 時空間特徴抽出 コードブック ショット BoF 表現化 VisualRank 計算

提案手法 :Web 画像の導入 Web 画像収集ステップ Bing 画像収集 Poselet (*) 人間の形状の一部だけでも検出ができる 人間検出 (*) Lubomir Bourdev, Jitendra Malik, Poselets: Body Parts Detectors Trained using 3D Human Pose Annotations, ICCV 2009

Poselet 3D 特徴点を使用し パーツまたはポーズ毎に人間検出を行う PASCAL VOC 2007 challenge person カテゴリで AP=0.365

提案手法 : 特徴抽出ステップ類似度計算ステップ Bing 画像収集 既存手法... 人間検出 SURF 特徴抽出 ショット分割 特徴抽出 ショットと画像の類似度の計算 Poselet で選ばれた画像 n 枚 フレーム画像との対応点数をカウント... VisualRank 計算

ショットの VisualRank の計算 VisualRank (*) 計算 : r = ds r + 1 d p where r: ランク値ベクトル S : 正規化した類似度行列 d: 補正パラメータ p: 補正ベクトル 補正ベクトル ( バイアスなし ): 1 p = n nx 1

補正ベクトルの設定 既存手法 : 共起スコアの高いショットにバイアス p = v j = 1 m,1 j m 0, m < j n 実験設定 : n 2000, m = 1000 提案手法 :Poselet で選択された画像との類似度が高いショットにバイアス p i = exp γ S i n j=1 exp γ S j γ = log2:( 定数値 ) S(i) : ショットの類似度

提案手法 タグ共起辞書作成 タグ共起による動画ランキング tags YouTube ランク上位動画収集 Bing 特徴抽出 画像収集 人間検出 ショット分割 特徴抽出 ショット BoF 表現化 特徴マッチング ショットと画像の類似度の計算 VisualRank 計算 ショットの間の類似度の計算 ヒストグラムインターセクション ( 画像との類似度が高いショットを強調 )

実験 目的 : Web 画像導入の有効性の検討 既存手法のデータおよび結果評価法を利用 - ランキング後の上位 1~100 ショットについての適合率で結果を評価

実験 実験 1: 既存手法で適合率が 50% 以下の 6 種類の動作を選び 実験を行う 実験 2: 精度が良い種類に対する提案手法の有効性の検討 - 既存手法で適合率が 50% 以上の 4 種類 実験 3:Poselet で選択する画像数の影響の検討 - 既存手法で適合率が 10% 以下の 6 種類

実験データ 1 テーブル1: 適合率が50% 以下の6 種類 動作 動画数 利用ショット数 bake+bread 198 2000 brush+teeth 173 1652 iron+clothes 181 1944 jog 169 2000 jump+rope 162 1675 wash+face 173 1277 平均 176 1758

Web 画像適用の有効性の検討 ( その 1) 動作 既存手法 手動で選択 20 画像 Poselet 適用あり TOP20 画像 Poselet 適用なし TOP20 画像 bake+bread 6 16 19 12 brush+teeth 28 38 33 27 iron+clothes 47 48 47 49 jog 5 21 19 14 jump+rope 26 24 34 30 wash+face 29 30 29 24 平均 23.5 29.5 30.2 26.0 6.7%

実験データ 2 適合率が50% 以上の4 種類 動作 動画数 利用ショット数 curl+bicep 165 832 do+yoga 151 1641 ride+bicycle 197 2000 laugh 196 2000 平均 120 1412

実験 2 の結果 Web 画像適用の有効性の検討 ( その 2) 動作既存手法提案手法 curl+bicep 58 42 do+yoga 77 40 ride+bicycle 62 55 laugh 50 15 平均 61.8 38.3 23.5%

実験 3 のデータ 適合率が10% 以下の6 種類動作動画数利用ショット数 boil+egg 187 2000 head+ball 183 1973 cook+rice 190 2000 grill+fish 191 2000 swim+butterfly 193 2000 swim+backstroke 177 1777 平均 187 1958

実験 3 Poselet で選択する画像数の影響の検討 動作既存手法 10 画像 20 画像 30 画像 50 画像 boil+egg 9 10 13 7 6 head+ball 9 7 10 6 6 cook+rice 6 15 16 15 13 grill+fish 5 21 23 27 17 swim+butterfly 7 29 33 30 37 swim+backstroke 9 10 11 13 12 平均 7.5 15.3 17.7 16.3 15.2 10.2%

結論 Web 動画からの自動ショット抽出において, Web 画像を導入した 低い精度の動作に関して, 精度が向上 ただし, 元の精度が高い場合, 精度低下

今後の課題 Web 画像の選択の仕方の改良 Poselet 以外の人物検出手法の利用 動作対象物体の認識 画像とショットの類似度の計算法の改良 多数画像 (Web 画像 ) 対多数画像 ( フレーム ) の新しい類似度計算手法の考案 BoF や色などの特徴の利用

データセット公開 http://mm.cs.uec.ac.jp/webvideo/video.html

Exp No. Tagbased Ranking 5 (1) Motion 1 31.8% (1) p 1 i m i = m 6 (1) Appear. 39.7% 0 m < i n 7 (1) nfusion 2000, m 49.5% = 1000 1 (1) p 1 i m i = m 0 m < i n n 2000, m = 1000 Biased damp. vec. (2) Visual Feature p i = S c j Mean prec@100 RND Randomly-selected 100 shots 14.2% TAG - - 23.5% 1 - - ST 33.7% 2 - ST 41.0% 3(1) (1) ST 47.3% 3(2) (2) ST 44.8% n, C = j=1 S c j C Sc(j): ショットjのビデオのタグ共起スコア