Microsoft PowerPoint - IBIS-shinoda-print.pptx

Similar documents
TRECVID Semantic Indexing TaskとMultimedia Event Detection Taskへの取り組み

Microsoft PowerPoint - SSII_harada pptx

Automatic Collection of Web Video Shots Corresponding to Specific Actions using Web Images

(MIRU2008) HOG Histograms of Oriented Gradients (HOG)

時空間特徴を用いた Web動画からの特定動作対応ショットの 自動抽出

(VKIR) VKIR VKIR DCT (R) (G) (B) Ward DCT i

Microsoft PowerPoint - pr_12_template-bs.pptx

音響モデル triphone 入力音声 音声分析 デコーダ 言語モデル N-gram bigram HMM の状態確率として利用 出力層 triphone: 3003 ノード リスコア trigram 隠れ層 2048 ノード X7 層 1 Structure of recognition syst

2017 (413812)

28 TCG SURF Card recognition using SURF in TCG play video

第122号.indd

shono_DIA06.ppt

(fnirs: Functional Near-Infrared Spectroscopy) [3] fnirs (oxyhb) Bulling [4] Kunze [5] [6] 2. 2 [7] [8] fnirs 3. 1 fnirs fnirs fnirs 1

[1] SBS [2] SBS Random Forests[3] Random Forests ii

nlp1-12.key

10_08.dvi

塗装深み感の要因解析

& Vol.5 No (Oct. 2015) TV 1,2,a) , Augmented TV TV AR Augmented Reality 3DCG TV Estimation of TV Screen Position and Ro

WISS 2018 [2 4] [5,6] Query-by-Dancing Query-by- Dancing Cao [1] OpenPose 2 Ghias [7] Query by humming Chen [8] Query by rhythm Jang [9] Query-by-tapp

IPSJ SIG Technical Report Vol.2012-CG-149 No.13 Vol.2012-CVIM-184 No /12/4 3 1,a) ( ) DB 3D DB 2D,,,, PnP(Perspective n-point), Ransa

A comparative study of the team strengths calculated by mathematical and statistical methods and points and winning rate of the Tokyo Big6 Baseball Le

Microsoft PowerPoint PresentationPRMU2008Nov.ppt [互換モード]

THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS TECHNICAL REPORT OF IEICE.

..,,,, , ( ) 3.,., 3.,., 500, 233.,, 3,,.,, i

IPSJ SIG Technical Report Vol.2011-EC-19 No /3/ ,.,., Peg-Scope Viewer,,.,,,,. Utilization of Watching Logs for Support of Multi-

スライド 1

Vol. 42 No MUC-6 6) 90% 2) MUC-6 MET-1 7),8) 7 90% 1 MUC IREX-NE 9) 10),11) 1) MUCMET 12) IREX-NE 13) ARPA 1987 MUC 1992 TREC IREX-N

paper.dvi

3 2 2 (1) (2) (3) (4) 4 4 AdaBoost 2. [11] Onishi&Yoda [8] Iwashita&Stoica [5] 4 [3] 3. 3 (1) (2) (3)

特別寄稿.indd

Studies of Foot Form for Footwear Design (Part 9) : Characteristics of the Foot Form of Young and Elder Women Based on their Sizes of Ball Joint Girth

21 e-learning Development of Real-time Learner Detection System for e-learning

THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS TECHNICAL REPORT OF IEICE {s-kasihr, wakamiya,

ビジュアル情報処理

Microsoft PowerPoint CRCフォーラム「動的背景差分(中島)」Web公開用.ppt

1 Kinect for Windows M = [X Y Z] T M = [X Y Z ] T f (u,v) w 3.2 [11] [7] u = f X +u Z 0 δ u (X,Y,Z ) (5) v = f Y Z +v 0 δ v (X,Y,Z ) (6) w = Z +

IEEE e

HOG HOG LBP LBP 4) LBP LBP Wang LBP HOG LBP 5) LBP LBP 1 r n 1 n, 1

1 Fig. 1 Extraction of motion,.,,, 4,,, 3., 1, 2. 2.,. CHLAC,. 2.1,. (256 ).,., CHLAC. CHLAC, HLAC. 2.3 (HLAC ) r,.,. HLAC. N. 2 HLAC Fig. 2

PowerPoint プレゼンテーション

1 2. Nippon Cataloging Rules NCR [6] (1) 5 (2) 4 3 (3) 4 (4) 3 (5) ISSN 7 International Standard Serial Number ISSN (6) (7) 7 16 (8) ISBN ISSN I

% 2 3 [1] Semantic Texton Forests STFs [1] ( ) STFs STFs ColorSelf-Simlarity CSS [2] ii

WebRTC P2P Web Proxy P2P Web Proxy WebRTC WebRTC Web, HTTP, WebRTC, P2P i

kubostat2017c p (c) Poisson regression, a generalized linear model (GLM) : :

PowerPoint Presentation

Step 1 Feature Extraction Featuer Extraction Feature Extraction Featuer Extraction Image Analysis Start>Programs>Agilent-Life Sciences>Feature Extract


画像工学入門

GID Haar-like Mean-Shift Multi-Viewpoint Human Tracking Based on Face Detection Using Haar-like Features and Mean-Shift Yu Ito (Shizuoka Univers

Fig. 3 Flow diagram of image processing. Black rectangle in the photo indicates the processing area (128 x 32 pixels).

スライド 1

GPGPU

* Meso- -scale Features of the Tokai Heavy Rainfall in September 2000 Shin-ichi SUZUKI Disaster Prevention Research Group, National R

スライド 1

Fig. 2 Signal plane divided into cell of DWT Fig. 1 Schematic diagram for the monitoring system

A Japanese Word Dependency Corpus ÆüËܸì¤Îñ¸ì·¸¤ê¼õ¤±¥³¡¼¥Ñ¥¹

概要 単語の分散表現に基づく統計的機械翻訳の素性を提案 既存手法の FFNNLM に CNN と Gate を追加 dependency- to- string デコーダにおいて既存手法を上回る翻訳精度を達成

[2] OCR [3], [4] [5] [6] [4], [7] [8], [9] 1 [10] Fig. 1 Current arrangement and size of ruby. 2 Fig. 2 Typography combined with printing

¥¤¥ó¥¿¡¼¥Í¥Ã¥È·×¬¤È¥Ç¡¼¥¿²òÀÏ Âè2²ó

理工ジャーナル 23‐1☆/1.外村

Transcription:

第 15 回情報理論的学習理論ワークショップ (IBIS2012) コミュニケーションとしての 映像とその検索 篠 浩 ( 東京 業 学 )

講演の内容 1. 声と映像 2. TRECVID Semantic Indexing (SIN) 3. SIN のための 声技術 4. TRECVID Multimedia Event Detection (MED) 5. まとめ 2

EB/Month 600 500 400 300 インターネット映像の急増 Youtube (2011): Increase 48 hours / min 3,000,000,000 views / day VIDEO 200 100 OTHER 0 2010 2011 2012 2013 2014 2015 IP Traffic (Cisco Visual Networking Index 2010-2015) 3

No Meta data Low quality Large Variety Mostly Useless

課題 インターネット映像からの Content-Based Video Retrieval (CBVR) これまでの研究対象 TV ドラマ, 映画, ニュース, スポーツなど ジャンルが特定 品質 プロによる編集 メタデータが豊富 インターネット映像とは明らかに異なる どのような 法論をとるべきか? 5

Babble Gartner Hype Cycle for 2011 Image Recognition Video Analysis for Consumer Service Gesture Recognition Biometric Authentication Method Speech Recognition Crash! 6

声研究から学べないか? 映像研究はこれから Babble 声研究は Babble Crash から き延びた Babble Video Analysis for Consumer Service Speech Recognition Crash! 7

声 萌芽開発実 画像 萌芽開発実 映像 萌芽開発実 80 90 00 10 year 8

国国防省 (DARPA) 声認識ベンチマーク WORD ERROR RATE 100% 10% 1k Spontaneous Speech ATIS Resource Management Read Speech WSJ 20k 5k Switchboard Conversational Speech Varied Microphone Noisy foreign Broadcast Speech NAB foreign 段階的にタスクを設定 着実に技術を蓄積 1% Courtesy NIST 1999 DARPA HUB-4 Report, Pallett et al. 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003

声と映像は違う? 声は1 次元 映像は3 次元 声には Semantic Gap がない (? ) 声はコミュニケーションの道具であるが映像は違う (? ) 映像は 声のような明確な構造がない (?) ( 素 形態素 単語 法 ) 10

声と映像は同じ 送り 受け Audio Channel メッセージ メッセージ Video Channel 映像はコミュニケーションの 段 ( 明 的な ) 語彙や 法をもつ 声にも Semantic Gap は存在する 11

映像検索のための 声技術 1. 送り をモデル化するための 成モデル 2. 低品質 多様性 データ不 に頑健な確率的フレームワーク 3. 速計算 法 12

機械学習によるアプローチ ( 共通 ) 声 画像 映像 + = データ量計算量 Semantic gap 特定の応 に集中 他機関との協働 13

TRECVID Semantic Indexing 14

TRECVID (TREC Video Retrieval Evaluation) 2001 年に Text REtrieval Conference (TREC) から独 NIST(National Institute of Standard and Technology) が主催 的 : 映像コンテンツ分析 検索研究の促進クローズドな国際競争型ワークショップホームページ : http://trecvid.nist.gov 規模データが使える ( 著作権等の問題をクリア ) 法の 較が容易 そのため進歩が速い ラベル付け作業を分担 勝ち負けがはっきりする 15

TRECVID タスクの歴史 Known item search Semantic indexing Shot boundary detection Story segmentation Low-level feature extraction Rushes summarization Content-based copy detection Surveillance event detection Instance search Multimedia event detection 2001 2006 2012 16

TRECVID データセット TV news TV shows Internet video Data (hours) http://www-nlpir.nist.gov/projects/tvpubs/tv11.slides/tv11.intro.slides.pdf 17

2011 年 TRECVID 66 チームが参加 ( 本からは 12 チーム ) 5 tasks: Semantic indexing (SIN) Multimedia event detection (MED) Known item search (KIS) Instance search (INS) Surveillance event detection (SED) 18

的 Semantic Indexing (SIN) ビデオショットからの Concept を検出 Concepts: objects, scenes,... TRECVID の中核的タスク 静 画の 般物体認識に対応 19

Multimedia Event Detection (MED) 的ビデオクリップからのイベント検出 e.g. Batting a run in Making a cake SIN より 次の対象 スポーツ番組からのハイライト検出 をインターネット映像まで延 20

的 Instance Search (INS) 特定の 物 場所 ロゴを検出 対象は明確 学習データは少ない データベース :BBC rushes 21

Known Item Search (KIS) 的 詳細なテキスト記述に合致する映像シーンを検出 例 : いシャツの男が にりんごをあげている 学習データなし SIN タスクで得られた コンセプトを利 22

Surveillance Event Detection (SED) 的監視カメラからのイベント検出 イベント : PeopleRuns, Pointing, PeopleMeet, など 混雑状況 固定カメラ データベース イギリス ガトウィック空港における 5 台の監視カメラ映像 (145 時間 ) 23

Semantic Indexing (SIN) 24

タスク設定 データベース :IACC (Internet Archive videos with Creative Commons licenses) : 600 h コンセプト数 : 346 Run: 各々のコンセプトについて上位 2000 個のショットのリストを提出 各々のチームは最 4 つの Run を提出できる 評価基準 : Average Precision (AP) 1 : Rank :Number of true shots from 1st to k-th 25

コンセプトの出現頻度 Number of positive samples in 264,673 training video shots Outdoor (29,997 shots) more than 10,000 5% # positive shots Singing (3875 shots) 1% of development data Airplane (371 shots) 346 semantic concepts 26

Bag of Words (BoW) 静 画における 般物体認識で主流 ショット局所特徴ヒストグラム SVM キーフレームを利 計算量が 較的少ない 量 化誤差が きい 27

新たな動き (1) : 頑健性 低品質 多様性 データ不 に対応 More features SIFT, Color SIFT, SURF, HOG, GIST, Dense features Multi-modal 声の利 : Singing, Dance, Car, etc. Multi-frame キーフレーム以外を利 Soft clustering 量 化誤差の低減 28

新たな動き (2) : 速化 参加 58チーム中 28チーム ( 半分 ) しか結果を提出できなかった 近似アルゴリズム 分散処理 Graphical Processing Unit (GPU) の利 29

期待したが効果のなかったもの 局特徴 ( ヒストグラムなど ) 局所特徴だけで 分 ( 相補的な関係にない ) 声認識, OCR それら 体の性能が低い 物体の位置検出 位置検出性能が低い 位置のない Concept も Concept 間のコンテキスト データ量が少なすぎる 30

Semantic Indexing のための 声技術 31

3 つの 声技術 1. 多様性 低品質 Gaussian Mixture Models (GMM) 2. データ不 MAP 適応 3. 速化 構造サーチ 32

フレームワーク video (shot) Tree-structured GMM 1) SIFT-Har GMMs supervectors 2) SIFT-Hes 3) SIFTH-Dense 4) HOG-Dense 5) HOG-Sub 6) MFCC SVM score SVM score Score fusion 33

特徴抽出 video (shot) Tree-structured GMMs 1) SIFT-Har GMM supervectors 2) SIFT-Hes 3) SIFTH-Dense 4) HOG-Dense 5) HOG-Sub 6) MFCC SVM score SVM score Score fusion 34

低次特徴 6 つの画像特徴 SIFT-Har, SIFT-Hes, SIFTH-Dense, HOG-Dense, HOG-Sub Multi-modal 響特徴 : Mel-Frequency Cepstral Coefficient (MFCC) Multi-frame 毎フレーム 1 フレームおき 2 秒に 1 フレームなど 35

1) SIFT-Har - Harris-affine detector - Multi-frame (every two frame) 2) SIFT-Hes - Hessian-affine detector - Multi-frame (every two frame) 3) SIFTH-Dense - SIFT + Hue histogram - 30,000 samples in a key frame 4) HOG-Dense - 32 dim HOG feature - 10,000 samples in a key frame 5) HOG-Sub - Temporal differential of HOG - Detect movement 画像特徴 Reduce dim to 32 by PCA 36

響特徴 :MFCC Mel-frequency cepstral coefficients 声認識 響イベント認識でよく いられる MFCC(12) MFCC(12) MFCC(12) Log-power(1) Log-power(1) 37

コンセプトのモデル video (shot) Tree-structured GMMs 1) SIFT-Har GMM supervectors 2) SIFT-Hes 3) SIFTH-Dense 4) HOG-Dense 5) HOG-Sub 6) MFCC SVM score SVM score Score fusion 38

声技術その 1 Gaussian Mixture Model (GMM) ガウス分布の重み付け和 : 特徴 : 混合成分 k の重み 1), Σ : 混合成分 k の平均と分散 各々のショットを GMM でモデル化 39

GMM は BoW の拡張 BoW GMM Code vector Gaussian mean Histogram Weight distribution Red Color: ショットごとに推定 40

声技術その 2 Maximum A Posteriori (MAP) 適応 転移学習の 法 GMMの平均ベクトルに対し その事前分布を仮定 1. すべての学習データを いて Universal background model (UBM) を推定 2. UBM を初期モデルとして MAP 適応により GMM の平均ベクトルを推定する 事前分布 :UBM における 対応する分布 UBM MAP adaptation より少ないデータ量で 精度な推定 32

MAP 適応 :,,,Σ : UBMにおける混合成分 の平均と分散 : 混合成分 の平均のMAP 推定量 : 制御パラメータ where に対する混合成分の負担率 漸近的な性質をもつ データが少なくなると データが多くなると は最尤推定量に近づく 42

識別器 video (shot) Tree-sturuc 1) SIFT-Hartured GMMs GMM supervectors 2) SIFT-Hes 3) SIFTH-Dense 4) HOG-Dense 5) HOG-Sub 6) MFCC SVM score SVM score Score fusion 43

GMM Supervector + SVM 1. GMM の平均ベクトルを連結 GMM supervector where normalized mean 2. Support Vector Machine (SVM) with RBF kernel GMM に対する Fisher Kernel の近似

Score fusion SVM スコアの重み付け和 where 重みは Concept ごとに cross validation で決定 45

計算量 HOG-Dense 特徴を いたときの計算時間 (sec) Feature PCA GMM Estimation SVM GMM の推定が 部分 46

負担率の計算の高速化 where High cost! に対する混合成分の負担率 47

声技術その 3 構造 GMM を いた 速計算 がどの混合成分に属するか? (BoW: をどのコードに割り当てるか?) Gaussian components 48

負担率 : 局所特徴に対する混合成分の負担率 Gaussian components 49

特徴量空間の 部でのみ計算 Gaussian components 50

構造 GMM (1) Leaf layer 混合成分間の距離 : Symmetric KL divergence Gaussian components 51

構造 GMM (2) Non-leaf layers ノードのガウス分布は リーフのガウス分布集合を近似 Gaussian components 52

構造 GMM (3) Non-leaf layers ノードのガウス分布は リーフのガウス分布集合を近似 Gaussian components 53

構造 GMM (4) Non-leaf layers ノードのガウス分布は リーフのガウス分布集合を近似 Gaussian components 54

速サーチ (1) : Active nodes 55

速サーチ (2) : Active nodes 56

速サーチ (3) : Active nodes 57

TRECVID2011 SIN の結果 Mean InfAP: Inferred AP averaged over all concepts 58

コンセプト毎の Average Precision 59

効果的な低次特徴は? 60

GMM 推定の計算時間 検出性能の劣化なしに 4.2 倍の 速化 61

Multimedia Event Detection (MED) 62

Multimedia Event Detection (MED) 的ビデオクリップからのイベント検出 e.g. Batting a run in Making a cake SIN より 次の対象 スポーツ番組からのハイライト検出をインターネット映像まで延 データベース HAVIC : 2000 時間のホームビデオ Linguistic data consortium (LDC) が提供 63

MED (2) 2010に開始された新しいタスク 2011 年は18チーム ( 本からは5チーム ) 国情報省 (IARPA) のAutomated Low-Level Analysis and Description of Diverse Intelligence Video (ALADDIN) プロジェクトが援助 64

HAVIC データベース ビデオクリップ (2 分程度 ): 3488 個 サンプル : 各々のイベントに付き100 個 ( 半分が開発 半分がテスト ) 2010 (3 events) 2011 (10 events) Assembling a shelter Birthday party Making a sandwich Batting a run in Changing a vehicle tire Parade Making a cake Flash mob gathering Parkour Getting a vehicle unstuck Grooming an animal Repairing an appliance Working on a sewing project 65

評価基準 : Missed Detection Probability P miss 1 Recall False Alarm Probability P FA False Alarm / Clips with no events Normalized Detection Cost (NDC) 上記 2つを適当な重みで混合したもの 1 1 Cost Miss = 80 Cost FA = 1 P target = 0.001 66

SIN の 法を応 多くの特徴 +BoW+SVM トレンド 時空間特徴 STIP (Space-time interest point), etc. コンテキストのモデル化 (Semantic model) 効果があまりない データが少ない? 声認識 OCR 効果なし SIN と同じ理由 67

TRECVID2011 Mean Minimum NDC 1.5 1.3 1.1 0.9 0.7 0.5 0.3 0.1 0.1 TRECVID 2011 MED runs Mean MNDC Mean ANDC 1 st Team 0.448 0.465 2 nd Team 0.499 0.522 3 rd Our team 0.525 0.556 68

69

70

頑健かつ 速な映像検索 おわりに 声分野で開発された技術が性能向上に寄与 GMM, MAP 適応, 構造サーチ 単語レベル (SIN) から レベル (MED) へ 映像のコミュニケーションモデル コンテキストの活 No data like more data データ量にスケールする技術が重要 計算の 速化がますます重要に 他に使える 声技術は? 語モデル 識別学習 Deep Learning, etc. 71