Automatic Collection of Web Video Shots Corresponding to Specific Actions using Web Images
|
|
|
- いぶき かむら
- 7 years ago
- Views:
Transcription
1 視覚特徴およびタグ共起を用いた 大規模 Web ビデオショットランキング 電気通信大学大学院情報理工学研究科 総合情報学専攻 Do Hang Nga 柳井啓司
2 背景 Web 動画 : 無限に存在 無料で取得可能 - YouTube, Daily Motion etc. Web 動画による動作データ収集 ただし Web 上の動画はノイズが多い
3 関連動画 Play trumpet 非関連動画
4 非対応ショット Play trumpet 対応ショット
5 目的 Play trumpet 特定動作 の対応ショット の自動収集 動作との関連性によるショットランキング Rank 1 Rank 2
6 関連研究 N. I. Cinbins, R. G. Cinbins, and S. Sclaroff. Learning actions from the web. ICCV 09. Web 画像を利用して動作モデルを自動学習 学習したモデルによる Web 動画アノテーション Cinbis ら Web 画像 静的特徴 本研究 Web 動画 Web 画像 時空間特徴 テキスト
7 関連研究 X. J. Wang, W. Y. Ma, G. R. Xue, X.Li. Multi-model similarity propagation and its application for web image retrieval. ACMMM 04. Web 画像とそれらのテキストのリンク構造による類似画像検索
8 既存手法
9 既存手法 [ICCV 11] Web 動画 タグ共起に基づく関連ビデオ選択 関連ビデオ ショット分割 ビデオショット 視覚特徴に基づくショットランキング 対応ショット surf wave ランク上位 タグ ( 共起スコア )8 Surf (0.182) Island (0.116) [ICCV 11] Do Hang Nga and Keiji Yanai: Automatic Construction of an Action Video Shot Database using Web Videos. ICCV2011.
10 タグ共起による動画選択 ビデオ V のタグ共起スコア : Sc V/t = 1 T V log 2 F t, t i t i εt V F t, t i : t と t i の両方が付けられたビデオの数 T V : ビデオ V のタグの集合
11 VisualRank (*) によるショットランキング r = ds r + 1 d p ランクベクトル類似度行列補正ベクトル S ij = ショット i とショット j の時空間特徴のヒストグラムのインターセクション p i = 1 i < k k 0 i k タグ共起スコア上位 k ショットはバイアスされる (*) Y. Jing and S. Baluja. Visualrank: Applying pagerank to large-scale image search. PAMI, 30(11): , 2008.
12 既存手法 [LSVSM 12] Web 動画 タグ共起に基づく関連ビデオ選択 関連ビデオ ショット分割 ビデオショット 視覚特徴に基づくショットランキング 対応ショット Web 画像 人間検出によるアクション画像選択 改良 関連画像 画像と類似 したショット をバイアス [LSVSM 12] Do Hang Nga and Keiji Yanai: Automatic Collection of Web Video Shots Corresponding to Specific Actions using Web Images. CVPR Workshop on Large-Scale Video Search and Mining (LSVSM). Jun
13 画像導入によるショットバイアス Play trumpet ビデオショット アクション画像 p i ~ ショット i の画像との類似度
14 ポーズマッチングによる類似度計算 ポーズ推定 ボディパート配置 オリエンテーション計算 ユークリッド距離 類似度計算 Y. Yang, D. Ramanan: Articulated pose estimation using flexible mixture of parts. CVPR 2011.
15 提案システム
16 提案システム 改良 VisualTextualRank タグ共起に基づく関連ビデオ選択 Web 動画 関連ビデオ タグ ショット分割 ビデオショット 視覚 + テキスト特徴視覚特に徴基にづ基くづくシショッョットトラランンキキンンググ 対応ショット Web 画像 人間検出によるアクション画像選択 関連画像
17 VisualTextualRank:VisualRank の拡張 アイデア 例 : catch+fish fisherman food river ocean tuna sport giant
18 ショットランク VisualTextualRank ショット類似度行列 ショット - タグ類似度行列 RS k = α SM SC RT k + 1 α p RT k+1 = タグランク SC RS k タグ - ショット類似度行列 ショット S とタグ t の類似度 = S のビデオの t に対するタグ共起スコア
19 VisualTextualRank 同時にショットランキングとタグランキングを行なう タグランキング : コンテンツ情報も考慮することによってタグノイズの影響は減らす ショットランキング : テキスト情報を導入することによって視覚類似のショットしかもらわないことがない
20 評価 : Precision@100 実験 上位 100ショットのなかの関連ショットの割合 手動で評価 実験 : 以下の 4 つの手法を比較 既存手法 1: VisualRank 既存手法 2: VisualRank+Web 画像とのポーズマッチング Exp.1: VisualTextualRank Exp.2: VisualTextualRank+Web 画像とのポーズマッチング データ : 既存手法で精度が悪かった 13 人間動作
21 実験結果 Action 既存手法 1 既存手法 2 Exp. 1 Exp. 2 Action 既存手法 1 既存手法 2 Exp. 1 blow+candle wash+dishes wash+clothes tie+necktie eat+sushi row+dumbell jump+rope play+guitar catch+fish serve+tennis drive+car roll+makizushi Exp. 2 slap+face 平均 %
22 画像導入の有効性 serve+tennis row+dumbbell ポーズマッチングが有効の場合 blow+candle eat+sushi drive+car ポーズマッチングが失敗の場合
23 実験結果例 上位 15 ショットのなかの関連ショット 従来 blow candle brush teeth ride horse 提案
24 VisualTextualRank の有効性 さらに実験 データ : 既存手法で精度が良かった 10 人間動作 実験 : 既存手法 1 & Exp.1 (VisualTextualRank) Action 既存手法 1 Exp.1 Action 既存 手法 1 Exp.1 harvest+rice shave+mustache play+trumpet dance+flamenco ski clean+floor dance+hiphop pick+lock play+drum swim+crawl 平均
25 結果例 従来 play trumpet 提案
26 結論 視覚特徴およびタグ共起を用いた大規模 Web 動画ショットランキングフレームワークを提案した 視覚特徴のみを適用した既存フレームワークを改良できた
時空間特徴を用いた Web動画からの特定動作対応ショットの 自動抽出
Web 動画 画像を用いた 特定動作ショットの自動収集 DO HANG NGA 樋爪和也柳井啓司 電気通信大学情報工学科 背景 既存の動画学習手法制限のある動画像 (e.g. KTH, Caltech) 教師なし学習手法 Web 上の動画 教師信号あり 動画量が少ない 研究の目的 特定動作についての Web データを使用して その動作の対応ショットを自動抽出 大量の Web 動画 ランキング 学習の必要なし
スライド 1
CNN を用いた弱教師学習による画像領域分割 下田和, 柳井啓司 電気通信大学 大学院情報理工学 研究科 総合情報学専攻 c 2015 UEC Tokyo. Convolutional Neural Network CNN クラス分類タスクにおいてトップの精度 CNN の応用 ( 物体位置の認識 ) 物体検出 物体に BB を付与 領域分割 ピクセル単位の認識 CNN を用いた領域分割 CNN による完全教師ありのセグメンテーション
TRECVID Semantic Indexing TaskとMultimedia Event Detection Taskへの取り組み
OS5-O2 TRECVID Semantic Indexing Taskと Multimedia Event Detection Taskへの取り組み 樋爪和也, 柳井啓司 ( 電気通信大学 ) 背景 コンテンツベースの映像検索手法が盛んに TRECVID: 国際的な評価ワークショップ 膨大なデータ処理の必要性 4000 時間の大規模データ 本発表について TRECVID の概要 SIN タスク
WISS 2018 [2 4] [5,6] Query-by-Dancing Query-by- Dancing Cao [1] OpenPose 2 Ghias [7] Query by humming Chen [8] Query by rhythm Jang [9] Query-by-tapp
Query-by-Dancing: WISS 2018. Query-by-Dancing Query-by-Dancing 1 OpenPose [1] Copyright is held by the author(s). DJ DJ DJ WISS 2018 [2 4] [5,6] Query-by-Dancing Query-by- Dancing Cao [1] OpenPose 2 Ghias
Microsoft PowerPoint - pr_12_template-bs.pptx
12 回パターン検出と画像特徴 テンプレートマッチング 領域分割 画像特徴 テンプレート マッチング 1 テンプレートマッチング ( 図形 画像などの ) 型照合 Template Matching テンプレートと呼ばれる小さな一部の画像領域と同じパターンが画像全体の中に存在するかどうかを調べる方法 画像内にある対象物体の位置検出 物体数のカウント 物体移動の検出などに使われる テンプレートマッチングの計算
(MIRU2008) HOG Histograms of Oriented Gradients (HOG)
(MIRU2008) 2008 7 HOG - - E-mail: [email protected], {takigu,ariki}@kobe-u.ac.jp Histograms of Oriented Gradients (HOG) HOG Shape Contexts HOG 5.5 Histograms of Oriented Gradients D Human
2008 年度下期未踏 IT 人材発掘 育成事業採択案件評価書 1. 担当 PM 田中二郎 PM ( 筑波大学大学院システム情報工学研究科教授 ) 2. 採択者氏名チーフクリエータ : 矢口裕明 ( 東京大学大学院情報理工学系研究科創造情報学専攻博士課程三年次学生 ) コクリエータ : なし 3.
2008 年度下期未踏 IT 人材発掘 育成事業採択案件評価書 1. 担当 PM 田中二郎 PM ( 筑波大学大学院システム情報工学研究科教授 ) 2. 採択者氏名チーフクリエータ : 矢口裕明 ( 東京大学大学院情報理工学系研究科創造情報学専攻博士課程三年次学生 ) コクリエータ : なし 3. プロジェクト管理組織 株式会社オープンテクノロジーズ 4. 委託金支払額 3,000,000 円 5.
1.`16
44 No. 44 2 3 4 5 6 7 SPORT SPORT SPORT SPORT SPORT SPORT SPORT SPORT SPORT SPORT SPORT SPORT SPORT SPORT SPORT SPORT SPORT SPORT SPORT SPORT SPORT SPORT SPORT SPORT SPORT SPORT SPORT SPORT SPORT SPORT
Microsoft PowerPoint - 201409_秀英体の取組み素材(予稿集).ppt
1 2 3 4 5 6 7 8 9 10 11 No Image No Image 12 13 14 15 16 17 18 19 20 21 22 23 No Image No Image No Image No Image 24 No Image No Image No Image No Image 25 No Image No Image No Image No Image 26 27 28
-2-
-1- -2- -3- -4- -5- -6- -7- -8- 10-9- -10-1 2 -11-1 1-12- -13- -14- Plan Do Check Action Check Action 1 -15- -16- -17- -18- -19- -20- -21- -22- 10 2 9 3 9 2 1 10 2 9 3 6 4 1 6 6 10 2 10 2 11 1 8 1 8 4
平成20年度内部評価実施結果報告書《本編》
10 11 12 13 14 15 16 17 Plan Do Check Action 1 2 3 4 146 13 20 43 44 45 62 104 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47
Microsoft PowerPoint - SSII_harada pptx
The state of the world The gathered data The processed data w d r I( W; D) I( W; R) The data processing theorem states that data processing can only destroy information. David J.C. MacKay. Information
[1] SBS [2] SBS Random Forests[3] Random Forests ii
Random Forests 2013 3 A Graduation Thesis of College of Engineering, Chubu University Proposal of an efficient feature selection using the contribution rate of Random Forests Katsuya Shimazaki [1] SBS
1 (PCA) 3 2 P.Viola 2) Viola AdaBoost 1 Viola OpenCV 3) Web OpenCV T.L.Berg PCA kpca LDA k-means 4) Berg 95% Berg Web k-means k-means
Web, Web k-means 62% Associating Faces and Names in Web Photo News Akio Kitahara and Keiji Yanai We propose a system which extracts faces and person names from news articles with photographs on the Web
nlp1-12.key
自然言語処理論 I 12. テキスト処理 ( 文字列照合と検索 ) 情報検索 information retrieval (IR) 広義の情報検索 情報源からユーザの持つ問題 ( 情報要求 ) を解決できる情報を見つけ出すこと 狭義の情報検索 文書集合の中から ユーザの検索質問に適合する文書を見つけ出すこと 適合文書 : 検索質問の答えが書いてある文書 テキスト検索 (text retrieval)
平成20年5月 協会創立50年の歩み 海の安全と環境保全を目指して 友國八郎 海上保安庁 長官 岩崎貞二 日本船主協会 会長 前川弘幸 JF全国漁業協同組合連合会 代表理事会長 服部郁弘 日本船長協会 会長 森本靖之 日本船舶機関士協会 会長 大内博文 航海訓練所 練習船船長 竹本孝弘 第二管区海上保安本部長 梅田宜弘
バイノーラルマイクを用いたライフログ映像のショット識別 Life-log Video Shot Discrimination using Binaural Microphone 山野貴一郎 伊藤克亘 法政大学大学院情報科学研究科 法政大学情報科学部 Kiichiro YAMANO Katunobu
バイノーラルマイクを用いたライフログ映像のショット識別 Life-log Video Shot Discrimination using Binaural Microphone 山野貴一郎 伊藤克亘 法政大学大学院情報科学研究科 法政大学情報科学部 Kiichiro YAMANO Katunobu ITOU Graduate School of Computer and Information Sciences,
Netcommunity SYSTEM X7000 IPコードレス電話機 取扱説明書
4 5 6 7 8 9 . 4 DS 0 4 5 4 4 4 5 5 6 7 8 9 0 4 5 6 7 8 9 4 5 6 4 0 4 4 4 4 5 6 7 8 9 40 4 4 4 4 44 45 4 6 7 5 46 47 4 5 6 48 49 50 5 4 5 4 5 6 5 5 6 4 54 4 5 6 7 55 5 6 4 56 4 5 6 57 4 5 6 7 58 4
.A. D.S
1999-1- .A. D.S 1996 2001 1999-2- -3- 1 p.16 17 18 19 2-4- 1-5- 1~2 1~2 2 5 1 34 2 10 3 2.6 2.85 3.05 2.9 2.9 3.16 4 7 9 9 17 9 25 10 3 10 8 10 17 10 18 10 22 11 29-6- 1 p.1-7- p.5-8- p.9 10 12 13-9- 2
IS2-06 第21回画像センシングシンポジウム 横浜 2015年6月 画像をスーパーピクセルに変換する手法として SLIC[5] を用いる Achanta らによって提案された SLIC 2.2 グラフマッチング は K-means をベースにした手法で 単純な K-means に いる SPIN
Cosegmentation E-mail: {tamanaha, nakayama}@nlab.ci.i.u-tokyo.ac.jp Abstract Cosegmentation Cosegmentation Cosegmentation 1 Never Ending Image Learner[1] Google Cosegmentation Cosegmentation Rother [2]
1., 1 COOKPAD 2, Web.,,,,,,.,, [1]., 5.,, [2].,,.,.,, 5, [3].,,,.,, [4], 33,.,,.,,.. 2.,, 3.., 4., 5., ,. 1.,,., 2.,. 1,,
THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS TECHNICAL REPORT OF IEICE.,, 464 8601 470 0393 101 464 8601 E-mail: [email protected], {ide,murase,hirayama}@is.nagoya-u.ac.jp,
2014 年電子情報通信学会総合大会ネットワークシステム B DNS ラウンドロビンと OpenFlow スイッチを用いた省電力法 Electric Power Reduc8on by DNS round- robin with OpenFlow switches 池田賢斗, 後藤滋樹
ネットワークシステム B- 6-164 DNS ラウンドロビンと OpenFlow スイッチを用いた省電力法 Electric Power Reduc8on by DNS round- robin with OpenFlow switches 池田賢斗, 後藤滋樹 早稲田大学基幹理工学研究科情報理工学専攻 1 研究の背景 n インターネットトラフィックが増大 世界の IP トラフィックは 2012
IPSJ SIG Technical Report Vol.2012-CG-149 No.13 Vol.2012-CVIM-184 No /12/4 3 1,a) ( ) DB 3D DB 2D,,,, PnP(Perspective n-point), Ransa
3,a) 3 3 ( ) DB 3D DB 2D,,,, PnP(Perspective n-point), Ransac. DB [] [2] 3 DB Web Web DB Web NTT NTT Media Intelligence Laboratories, - Hikarinooka Yokosuka-Shi, Kanagawa 239-0847 Japan a) [email protected]
shono_DIA06.ppt
8.6. 研究背景 大容量記憶メディアの普及 動画圧縮 転送技術の発達 放送方式のシフト シーン自動検出と投球動作分析を用いた 野球中継映像のインデキシング手法の提 案Detection and Automatic Scene マルチメディアコンテンツの氾濫 芝浦工業大学大学院 工学研究科 電気電子情報工学専攻 メディア工学研究室 庄野 雄紀 青木 義満 効率よい検索 管理技術への要求 6/3/ 研究背景
<4D6963726F736F667420576F7264202D2081A193B98BE257656290EA97708CFB8DC08B4B92E88179918D8D878CFB8DC0817A816990568B4B816A81798A6D92E894C5817A2E646F63>
夏目小兵衛直克
39(1906)1222 14(1817) 3(1832)1514(1843) 2628 6 (1853) (1854)3727 3(1856) 1 / 13 5(1858)6(1859) 5(1853) () () () () () () 3(1867)29 504111( 2 / 13 )98 23 18 2(1869)310283 100 50() 58 226 3313200982 5033
( )
Web Web 1 3 1 21 11 22 23 24 3 2 3 4 5 1 1 11 22 9 2 3 15 11 22 2 11 21 4 5 ( ) 102 ( ) 1 ( 1 2001 Web 1 5 4 1 1 - 7 - [] - 7 10 11 12 12 1 10 1 12 - [] 1 1 2 Q1 Q2 Q3 Q4 Q5 Q6 Q7 Q8 Q9 Q10 3 1 47
a n a n ( ) (1) a m a n = a m+n (2) (a m ) n = a mn (3) (ab) n = a n b n (4) a m a n = a m n ( m > n ) m n 4 ( ) 552
3 3.0 a n a n ( ) () a m a n = a m+n () (a m ) n = a mn (3) (ab) n = a n b n (4) a m a n = a m n ( m > n ) m n 4 ( ) 55 3. (n ) a n n a n a n 3 4 = 8 8 3 ( 3) 4 = 8 3 8 ( ) ( ) 3 = 8 8 ( ) 3 n n 4 n n
1
1 5% 4% 11% 8% 13% 12% 10% 6% 17% 6% 8% 4% 6% 6% 2% 17% 17% 12% 14% 16% 6% 37% 11% 17% 35% 2 (N=6,239) 0 200 400 600 800 1,000 1,200 1,400 1,600 1,800 1,585 1,126 950 494 345 296 242 263 191 150 131 116
Microsoft PowerPoint CRCフォーラム「動的背景差分(中島)」Web公開用.ppt
第 5 回 ( 平成 26 年度第 2 回 )CRCフォーラム( 平成 26 年 9 月 19 日 ( 金 ) 開催 ) 安全 安心のための画像 映像技術 動的背景差分による移動物体の検出 中島克人教授未来科学部情報メディア学科 平成 26 年度東京電機大学第 2 回 CRC フォーラム 安全 安心のための画像 映像技術 動的背景差分法による 移動物体の検出 2014.9.19 東京電機大学未来科学部情報メディア学科中島克人
理工ジャーナル 23‐1☆/1.外村
Yoshinobu TONOMURA Professor, Department of Media Informatics 1 10 YouTube 2 1900 100 1 3 2 3 3 3 1 2 3 4 90 1 90 MIT Project Athena 1983 1991 2 3 4 5 6 7 8 9 10 2 90 11 12 7 13 14 15 16 17 18 19 390 5
Kumamoto University Center for Multimedia and Information Technologies Lab. 熊本大学アプリケーション実験 ~ 実環境における無線 LAN 受信電波強度を用いた位置推定手法の検討 ~ InKIAI 宮崎県美郷
熊本大学アプリケーション実験 ~ 実環境における無線 LAN 受信電波強度を用いた位置推定手法の検討 ~ InKIAI プロジェクト @ 宮崎県美郷町 熊本大学副島慶人川村諒 1 実験の目的 従来 信号の受信電波強度 (RSSI:RecevedSgnal StrengthIndcator) により 対象の位置を推定する手法として 無線 LAN の AP(AccessPont) から受信する信号の減衰量をもとに位置を推定する手法が多く検討されている
