Automatic Collection of Web Video Shots Corresponding to Specific Actions using Web Images

Similar documents
時空間特徴を用いた Web動画からの特定動作対応ショットの 自動抽出

スライド 1

2 Fig D human model. 1 Fig. 1 The flow of proposed method )9)10) 2.2 3)4)7) 5)11)12)13)14) TOF 1 3 TOF 3 2 c 2011 Information

- 4 -

(Microsoft PowerPoint - \203|\203X\203^\201[\224\255\225\\\227p\216\221\227\ ppt)

IPSJ SIG Technical Report Vol.2011-CVIM-177 No /5/ TRECVID2010 SURF Bag-of-Features 1 TRECVID SVM 700% MKL-SVM 883% TRECVID2010 MKL-SVM A

IPSJ SIG Technical Report Vol.2010-CVIM-171 No /3/19 1. Web 1 1 Web Web Web Multiple Kernel Learning(MKL) Web ( ) % MKL 68.8% Extractin

TRECVID Semantic Indexing TaskとMultimedia Event Detection Taskへの取り組み

WISS 2018 [2 4] [5,6] Query-by-Dancing Query-by- Dancing Cao [1] OpenPose 2 Ghias [7] Query by humming Chen [8] Query by rhythm Jang [9] Query-by-tapp

IPSJ SIG Technical Report Vol.2010-CVIM-170 No /1/ Visual Recognition of Wire Harnesses for Automated Wiring Masaki Yoneda, 1 Ta

bag-of-words bag-of-keypoints Web bagof-keypoints Nearest Neighbor SVM Nearest Neighbor SIFT Nearest Neighbor bag-of-keypoints Nearest Neighbor SVM 84

Microsoft PowerPoint - pr_12_template-bs.pptx

(MIRU2008) HOG Histograms of Oriented Gradients (HOG)

24 Region-Based Image Retrieval using Fuzzy Clustering

2 1 Liang [2] Liang Zhai [3] Zhai [4] MPEG 1 [5] [6] Goromi-TV Goromi-TV [1] Kelm [7] Kelm Wikipedia GeoNames Crandall [8] Quack [9] Quack Qua

2

2008 年度下期未踏 IT 人材発掘 育成事業採択案件評価書 1. 担当 PM 田中二郎 PM ( 筑波大学大学院システム情報工学研究科教授 ) 2. 採択者氏名チーフクリエータ : 矢口裕明 ( 東京大学大学院情報理工学系研究科創造情報学専攻博士課程三年次学生 ) コクリエータ : なし 3.

Microsoft Word - deim論文2.docx

スライド 1

1.`16

人生90年時代のライフキャリアデザイン― 自立への準備とクオリティー・オブ・ライフ ―

ε

2007年08月号 022416/0812 会告

1 1

1


Microsoft PowerPoint _秀英体の取組み素材(予稿集).ppt

4 ソーシャルネットワークが変える画像の認識 理解 JPEG EXIF GPS EXIF Flickr EXIF 2 Wi Fi PlaceEngine GPS Foursquare SNS Twitter Facebook SNS Web SNS Panoramio 画像 付加情報 ユーザ相互の関

IPSJ SIG Technical Report Vol.2015-MUS-106 No.10 Vol.2015-EC-35 No /3/2 BGM 1,4,a) ,4 BGM. BGM. BGM BGM. BGM. BGM. BGM. 1.,. YouTube 201

00-01-‡Í‡¶‡ß‡É

孫文について

-2-

平成20年度内部評価実施結果報告書《本編》

untitled

Microsoft PowerPoint - SSII_harada pptx

日本内科学会雑誌第102巻第4号

[1] SBS [2] SBS Random Forests[3] Random Forests ii

1 (PCA) 3 2 P.Viola 2) Viola AdaBoost 1 Viola OpenCV 3) Web OpenCV T.L.Berg PCA kpca LDA k-means 4) Berg 95% Berg Web k-means k-means

IPSJ SIG Technical Report Vol.2012-EC-23 No /3/ Video Retrieval System of Handwriting Sketch using Relevance Feedback Akihiro Aita 1 and M

nlp1-12.key

untitled

i

THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS IEICE Technical Report IN ( ),

web用_A4

平成20年5月 協会創立50年の歩み 海の安全と環境保全を目指して 友國八郎 海上保安庁 長官 岩崎貞二 日本船主協会 会長 前川弘幸 JF全国漁業協同組合連合会 代表理事会長 服部郁弘 日本船長協会 会長 森本靖之 日本船舶機関士協会 会長 大内博文 航海訓練所 練習船船長 竹本孝弘 第二管区海上保安本部長 梅田宜弘

aphp37-11_プロ1/ky869543540410005590

Œ{Ł¶/1ŒÊ −ªfiª„¾ [ 1…y†[…W ]

本文/扉1

プログラム


Program


日本内科学会雑誌第96巻第11号

PDF


バイノーラルマイクを用いたライフログ映像のショット識別 Life-log Video Shot Discrimination using Binaural Microphone 山野貴一郎 伊藤克亘 法政大学大学院情報科学研究科 法政大学情報科学部 Kiichiro YAMANO Katunobu

Netcommunity SYSTEM X7000 IPコードレス電話機 取扱説明書

.A. D.S

IS2-06 第21回画像センシングシンポジウム 横浜 2015年6月 画像をスーパーピクセルに変換する手法として SLIC[5] を用いる Achanta らによって提案された SLIC 2.2 グラフマッチング は K-means をベースにした手法で 単純な K-means に いる SPIN

(MIRU2009) cuboid cuboid SURF 6 85% Web. Web Abstract Extracting Spatio-te

1., 1 COOKPAD 2, Web.,,,,,,.,, [1]., 5.,, [2].,,.,.,, 5, [3].,,,.,, [4], 33,.,,.,,.. 2.,, 3.., 4., 5., ,. 1.,,., 2.,. 1,,

THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS TECHNICAL REPORT OF IEICE. TRECVID2012 Instance Search {sak

2014 年電子情報通信学会総合大会ネットワークシステム B DNS ラウンドロビンと OpenFlow スイッチを用いた省電力法 Electric Power Reduc8on by DNS round- robin with OpenFlow switches 池田賢斗, 後藤滋樹

Google Goggles [1] Google Goggles Android iphone web Google Goggles Lee [2] Lee iphone () [3] [4] [5] [6] [7] [8] [9] [10] :

IPSJ SIG Technical Report Vol.2012-CG-149 No.13 Vol.2012-CVIM-184 No /12/4 3 1,a) ( ) DB 3D DB 2D,,,, PnP(Perspective n-point), Ransa

研究成果報告書

人芯経営論 ・・・リーダーシップ考②

平成13年度 地域工業活性化支援事業報告書(多摩全域)

はたらく若者ハンドブック


shono_DIA06.ppt

untitled

<4D F736F F D2081A193B98BE EA97708CFB8DC08B4B92E D8D878CFB8DC0817A B4B816A81798A6D92E894C5817A2E646F63>


untitled

橡okamura-ppt.PDF

2


1

夏目小兵衛直克

nenkin.PDF

-1-

( )


a n a n ( ) (1) a m a n = a m+n (2) (a m ) n = a mn (3) (ab) n = a n b n (4) a m a n = a m n ( m > n ) m n 4 ( ) 552

Duplicate Near Duplicate Intact Partial Copy Original Image Near Partial Copy Near Partial Copy with a background (a) (b) 2 1 [6] SIFT SIFT SIF

中期経営計画 「NEXTAGE‐05」説明会

1



Microsoft PowerPoint CRCフォーラム「動的背景差分(中島)」Web公開用.ppt

Webコンテンツを用いた人物紹介映像の自動編集に向けて

磐田市水道事業ビジョン

理工ジャーナル 23‐1☆/1.外村

01-11_20-22.indd

2.2 6).,.,.,. Yang, 7).,,.,,. 2.3 SIFT SIFT (Scale-Invariant Feature Transform) 8).,. SIFT,,. SIFT, Mean-Shift 9)., SIFT,., SIFT,. 3.,.,,,,,.,,,., 1,

CONTENTS

Kumamoto University Center for Multimedia and Information Technologies Lab. 熊本大学アプリケーション実験 ~ 実環境における無線 LAN 受信電波強度を用いた位置推定手法の検討 ~ InKIAI 宮崎県美郷



Transcription:

視覚特徴およびタグ共起を用いた 大規模 Web ビデオショットランキング 電気通信大学大学院情報理工学研究科 総合情報学専攻 Do Hang Nga 柳井啓司

背景 Web 動画 : 無限に存在 無料で取得可能 - YouTube, Daily Motion etc. Web 動画による動作データ収集 ただし Web 上の動画はノイズが多い

関連動画 Play trumpet 非関連動画

非対応ショット Play trumpet 対応ショット

目的 Play trumpet 特定動作 の対応ショット の自動収集 動作との関連性によるショットランキング Rank 1 Rank 2

関連研究 N. I. Cinbins, R. G. Cinbins, and S. Sclaroff. Learning actions from the web. ICCV 09. Web 画像を利用して動作モデルを自動学習 学習したモデルによる Web 動画アノテーション Cinbis ら Web 画像 静的特徴 本研究 Web 動画 Web 画像 時空間特徴 テキスト

関連研究 X. J. Wang, W. Y. Ma, G. R. Xue, X.Li. Multi-model similarity propagation and its application for web image retrieval. ACMMM 04. Web 画像とそれらのテキストのリンク構造による類似画像検索

既存手法

既存手法 [ICCV 11] Web 動画 タグ共起に基づく関連ビデオ選択 関連ビデオ ショット分割 ビデオショット 視覚特徴に基づくショットランキング 対応ショット surf wave ランク上位 タグ ( 共起スコア )8 Surf (0.182) Island (0.116) [ICCV 11] Do Hang Nga and Keiji Yanai: Automatic Construction of an Action Video Shot Database using Web Videos. ICCV2011.

タグ共起による動画選択 ビデオ V のタグ共起スコア : Sc V/t = 1 T V log 2 F t, t i t i εt V F t, t i : t と t i の両方が付けられたビデオの数 T V : ビデオ V のタグの集合

VisualRank (*) によるショットランキング r = ds r + 1 d p ランクベクトル類似度行列補正ベクトル S ij = ショット i とショット j の時空間特徴のヒストグラムのインターセクション p i = 1 i < k k 0 i k タグ共起スコア上位 k ショットはバイアスされる (*) Y. Jing and S. Baluja. Visualrank: Applying pagerank to large-scale image search. PAMI, 30(11):1870 1890, 2008.

既存手法 [LSVSM 12] Web 動画 タグ共起に基づく関連ビデオ選択 関連ビデオ ショット分割 ビデオショット 視覚特徴に基づくショットランキング 対応ショット Web 画像 人間検出によるアクション画像選択 改良 関連画像 画像と類似 したショット をバイアス [LSVSM 12] Do Hang Nga and Keiji Yanai: Automatic Collection of Web Video Shots Corresponding to Specific Actions using Web Images. CVPR Workshop on Large-Scale Video Search and Mining (LSVSM). Jun. 2012.

画像導入によるショットバイアス Play trumpet ビデオショット アクション画像 p i ~ ショット i の画像との類似度

ポーズマッチングによる類似度計算 ポーズ推定 ボディパート配置 オリエンテーション計算 ユークリッド距離 類似度計算 Y. Yang, D. Ramanan: Articulated pose estimation using flexible mixture of parts. CVPR 2011.

提案システム

提案システム 改良 VisualTextualRank タグ共起に基づく関連ビデオ選択 Web 動画 関連ビデオ タグ ショット分割 ビデオショット 視覚 + テキスト特徴視覚特に徴基にづ基くづくシショッョットトラランンキキンンググ 対応ショット Web 画像 人間検出によるアクション画像選択 関連画像

VisualTextualRank:VisualRank の拡張 アイデア 例 : catch+fish fisherman food river ocean tuna sport giant

ショットランク VisualTextualRank ショット類似度行列 ショット - タグ類似度行列 RS k = α SM SC RT k + 1 α p RT k+1 = タグランク SC RS k タグ - ショット類似度行列 ショット S とタグ t の類似度 = S のビデオの t に対するタグ共起スコア

VisualTextualRank 同時にショットランキングとタグランキングを行なう タグランキング : コンテンツ情報も考慮することによってタグノイズの影響は減らす ショットランキング : テキスト情報を導入することによって視覚類似のショットしかもらわないことがない

評価 : Precision@100 実験 上位 100ショットのなかの関連ショットの割合 手動で評価 実験 : 以下の 4 つの手法を比較 既存手法 1: VisualRank 既存手法 2: VisualRank+Web 画像とのポーズマッチング Exp.1: VisualTextualRank Exp.2: VisualTextualRank+Web 画像とのポーズマッチング データ : 既存手法で精度が悪かった 13 人間動作

実験結果 Action 既存手法 1 既存手法 2 Exp. 1 Exp. 2 Action 既存手法 1 既存手法 2 Exp. 1 blow+candle 29 35 44 35 wash+dishes 15 40 39 39 wash+clothes 15 31 39 39 tie+necktie 11 24 28 27 eat+sushi 12 15 23 15 row+dumbell 16 30 30 33 jump+rope 26 39 49 47 play+guitar 28 38 41 43 catch+fish 28 45 59 54 serve+tennis 11 24 27 30 drive+car 28 35 40 34 roll+makizushi 24 26 26 27 Exp. 2 slap+face 20 36 45 44 平均 20.2 32.1 37.7 35.9 17.5%

画像導入の有効性 serve+tennis row+dumbbell ポーズマッチングが有効の場合 blow+candle eat+sushi drive+car ポーズマッチングが失敗の場合

実験結果例 上位 15 ショットのなかの関連ショット 従来 blow candle brush teeth ride horse 提案

VisualTextualRank の有効性 さらに実験 データ : 既存手法で精度が良かった 10 人間動作 実験 : 既存手法 1 & Exp.1 (VisualTextualRank) Action 既存手法 1 Exp.1 Action 既存 手法 1 Exp.1 harvest+rice 49 46 shave+mustache 31 30 play+trumpet 41 59 dance+flamenco 45 53 ski 49 60 clean+floor 31 38 dance+hiphop 43 68 pick+lock 30 28 play+drum 40 45 swim+crawl 36 49 平均 39.5 47.6

結果例 従来 play trumpet 提案

結論 視覚特徴およびタグ共起を用いた大規模 Web 動画ショットランキングフレームワークを提案した 視覚特徴のみを適用した既存フレームワークを改良できた