Microsoft PowerPoint - IBIS-shinoda-print.pptx

Size: px

Start display at page:

Download "Microsoft PowerPoint - IBIS-shinoda-print.pptx"

ただきよたけすえ
5 years ago
Views:

1 第 15 回情報理論的学習理論ワークショップ (IBIS2012) コミュニケーションとしての映像とその検索篠浩 ( 東京業学 )

2 講演の内容 1. 声と映像 2. TRECVID Semantic Indexing (SIN) 3. SIN のための声技術 4. TRECVID Multimedia Event Detection (MED) 5. まとめ 2

3 EB/Month インターネット映像の急増 Youtube (2011): Increase 48 hours / min 3,000,000,000 views / day VIDEO OTHER IP Traffic (Cisco Visual Networking Index ) 3

4 No Meta data Low quality Large Variety Mostly Useless

5 課題インターネット映像からの Content-Based Video Retrieval (CBVR) これまでの研究対象 TV ドラマ, 映画, ニュース, スポーツなどジャンルが特定品質プロによる編集メタデータが豊富インターネット映像とは明らかに異なるどのような法論をとるべきか? 5

6 Babble Gartner Hype Cycle for 2011 Image Recognition Video Analysis for Consumer Service Gesture Recognition Biometric Authentication Method Speech Recognition Crash! 6

7 声研究から学べないか? 映像研究はこれから Babble 声研究は Babble Crash からき延びた Babble Video Analysis for Consumer Service Speech Recognition Crash! 7

8 声萌芽開発実画像萌芽開発実映像萌芽開発実 year 8

9 国国防省 (DARPA) 声認識ベンチマーク WORD ERROR RATE 100% 10% 1k Spontaneous Speech ATIS Resource Management Read Speech WSJ 20k 5k Switchboard Conversational Speech Varied Microphone Noisy foreign Broadcast Speech NAB foreign 段階的にタスクを設定着実に技術を蓄積 1% Courtesy NIST 1999 DARPA HUB-4 Report, Pallett et al

10 声と映像は違う? 声は1 次元映像は3 次元声には Semantic Gap がない (? ) 声はコミュニケーションの道具であるが映像は違う (? ) 映像は声のような明確な構造がない (?) ( 素形態素単語法 ) 10

11 声と映像は同じ送り受け Audio Channel メッセージメッセージ Video Channel 映像はコミュニケーションの段 ( 明的な ) 語彙や法をもつ声にも Semantic Gap は存在する 11

12 映像検索のための声技術 1. 送りをモデル化するための成モデル 2. 低品質多様性データ不に頑健な確率的フレームワーク 3. 速計算法 12

13 機械学習によるアプローチ ( 共通 ) 声画像映像 + = データ量計算量 Semantic gap 特定の応に集中他機関との協働 13

14 TRECVID Semantic Indexing 14

15 TRECVID (TREC Video Retrieval Evaluation) 2001 年に Text REtrieval Conference (TREC) から独 NIST(National Institute of Standard and Technology) が主催的 : 映像コンテンツ分析検索研究の促進クローズドな国際競争型ワークショップホームページ : 規模データが使える ( 著作権等の問題をクリア ) 法の較が容易そのため進歩が速いラベル付け作業を分担勝ち負けがはっきりする 15

16 TRECVID タスクの歴史 Known item search Semantic indexing Shot boundary detection Story segmentation Low-level feature extraction Rushes summarization Content-based copy detection Surveillance event detection Instance search Multimedia event detection

17 TRECVID データセット TV news TV shows Internet video Data (hours) 17

18 2011 年 TRECVID 66 チームが参加 ( 本からは 12 チーム ) 5 tasks: Semantic indexing (SIN) Multimedia event detection (MED) Known item search (KIS) Instance search (INS) Surveillance event detection (SED) 18

19 的 Semantic Indexing (SIN) ビデオショットからの Concept を検出 Concepts: objects, scenes,... TRECVID の中核的タスク静画の般物体認識に対応 19

20 Multimedia Event Detection (MED) 的ビデオクリップからのイベント検出 e.g. Batting a run in Making a cake SIN より次の対象スポーツ番組からのハイライト検出をインターネット映像まで延 20

21 的 Instance Search (INS) 特定の物場所ロゴを検出対象は明確学習データは少ないデータベース :BBC rushes 21

22 Known Item Search (KIS) 的詳細なテキスト記述に合致する映像シーンを検出例 : いシャツの男がにりんごをあげている学習データなし SIN タスクで得られたコンセプトを利 22

23 Surveillance Event Detection (SED) 的監視カメラからのイベント検出イベント : PeopleRuns, Pointing, PeopleMeet, など混雑状況固定カメラデータベースイギリスガトウィック空港における 5 台の監視カメラ映像 (145 時間 ) 23

24 Semantic Indexing (SIN) 24

25 タスク設定データベース :IACC (Internet Archive videos with Creative Commons licenses) : 600 h コンセプト数 : 346 Run: 各々のコンセプトについて上位 2000 個のショットのリストを提出各々のチームは最 4 つの Run を提出できる評価基準 : Average Precision (AP) 1 : Rank :Number of true shots from 1st to k-th 25

26 コンセプトの出現頻度 Number of positive samples in 264,673 training video shots Outdoor (29,997 shots) more than 10,000 5% # positive shots Singing (3875 shots) 1% of development data Airplane (371 shots) 346 semantic concepts 26

27 Bag of Words (BoW) 静画における般物体認識で主流ショット局所特徴ヒストグラム SVM キーフレームを利計算量が較的少ない量化誤差がきい 27

28 新たな動き (1) : 頑健性低品質多様性データ不に対応 More features SIFT, Color SIFT, SURF, HOG, GIST, Dense features Multi-modal 声の利 : Singing, Dance, Car, etc. Multi-frame キーフレーム以外を利 Soft clustering 量化誤差の低減 28

29 新たな動き (2) : 速化参加 58チーム中 28チーム ( 半分 ) しか結果を提出できなかった近似アルゴリズム分散処理 Graphical Processing Unit (GPU) の利 29

30 期待したが効果のなかったもの局特徴 ( ヒストグラムなど ) 局所特徴だけで分 ( 相補的な関係にない ) 声認識, OCR それら体の性能が低い物体の位置検出位置検出性能が低い位置のない Concept も Concept 間のコンテキストデータ量が少なすぎる 30

31 Semantic Indexing のための声技術 31

32 3 つの声技術 1. 多様性低品質 Gaussian Mixture Models (GMM) 2. データ不 MAP 適応 3. 速化構造サーチ 32

33 フレームワーク video (shot) Tree-structured GMM 1) SIFT-Har GMMs supervectors 2) SIFT-Hes 3) SIFTH-Dense 4) HOG-Dense 5) HOG-Sub 6) MFCC SVM score SVM score Score fusion 33

34 特徴抽出 video (shot) Tree-structured GMMs 1) SIFT-Har GMM supervectors 2) SIFT-Hes 3) SIFTH-Dense 4) HOG-Dense 5) HOG-Sub 6) MFCC SVM score SVM score Score fusion 34

35 低次特徴 6 つの画像特徴 SIFT-Har, SIFT-Hes, SIFTH-Dense, HOG-Dense, HOG-Sub Multi-modal 響特徴 : Mel-Frequency Cepstral Coefficient (MFCC) Multi-frame 毎フレーム 1 フレームおき 2 秒に 1 フレームなど 35

36 1) SIFT-Har - Harris-affine detector - Multi-frame (every two frame) 2) SIFT-Hes - Hessian-affine detector - Multi-frame (every two frame) 3) SIFTH-Dense - SIFT + Hue histogram - 30,000 samples in a key frame 4) HOG-Dense - 32 dim HOG feature - 10,000 samples in a key frame 5) HOG-Sub - Temporal differential of HOG - Detect movement 画像特徴 Reduce dim to 32 by PCA 36

37 響特徴 :MFCC Mel-frequency cepstral coefficients 声認識響イベント認識でよくいられる MFCC(12) MFCC(12) MFCC(12) Log-power(1) Log-power(1) 37

38 コンセプトのモデル video (shot) Tree-structured GMMs 1) SIFT-Har GMM supervectors 2) SIFT-Hes 3) SIFTH-Dense 4) HOG-Dense 5) HOG-Sub 6) MFCC SVM score SVM score Score fusion 38

39 声技術その 1 Gaussian Mixture Model (GMM) ガウス分布の重み付け和 : 特徴 : 混合成分 k の重み 1), Σ : 混合成分 k の平均と分散各々のショットを GMM でモデル化 39

40 GMM は BoW の拡張 BoW GMM Code vector Gaussian mean Histogram Weight distribution Red Color: ショットごとに推定 40

41 声技術その 2 Maximum A Posteriori (MAP) 適応転移学習の法 GMMの平均ベクトルに対しその事前分布を仮定 1. すべての学習データをいて Universal background model (UBM) を推定 2. UBM を初期モデルとして MAP 適応により GMM の平均ベクトルを推定する事前分布 :UBM における対応する分布 UBM MAP adaptation より少ないデータ量で精度な推定 32

42 MAP 適応 :,,,Σ : UBMにおける混合成分の平均と分散 : 混合成分の平均のMAP 推定量 : 制御パラメータ where に対する混合成分の負担率漸近的な性質をもつデータが少なくなるとデータが多くなるとは最尤推定量に近づく 42

43 識別器 video (shot) Tree-sturuc 1) SIFT-Hartured GMMs GMM supervectors 2) SIFT-Hes 3) SIFTH-Dense 4) HOG-Dense 5) HOG-Sub 6) MFCC SVM score SVM score Score fusion 43

44 GMM Supervector + SVM 1. GMM の平均ベクトルを連結 GMM supervector where normalized mean 2. Support Vector Machine (SVM) with RBF kernel GMM に対する Fisher Kernel の近似

45 Score fusion SVM スコアの重み付け和 where 重みは Concept ごとに cross validation で決定 45

46 計算量 HOG-Dense 特徴をいたときの計算時間 (sec) Feature PCA GMM Estimation SVM GMM の推定が部分 46

47 負担率の計算の高速化 where High cost! に対する混合成分の負担率 47

48 声技術その 3 構造 GMM をいた速計算がどの混合成分に属するか? (BoW: をどのコードに割り当てるか?) Gaussian components 48

49 負担率 : 局所特徴に対する混合成分の負担率 Gaussian components 49

50 特徴量空間の部でのみ計算 Gaussian components 50

51 構造 GMM (1) Leaf layer 混合成分間の距離 : Symmetric KL divergence Gaussian components 51

52 構造 GMM (2) Non-leaf layers ノードのガウス分布はリーフのガウス分布集合を近似 Gaussian components 52

53 構造 GMM (3) Non-leaf layers ノードのガウス分布はリーフのガウス分布集合を近似 Gaussian components 53

54 構造 GMM (4) Non-leaf layers ノードのガウス分布はリーフのガウス分布集合を近似 Gaussian components 54

55 速サーチ (1) : Active nodes 55

56 速サーチ (2) : Active nodes 56

57 速サーチ (3) : Active nodes 57

58 TRECVID2011 SIN の結果 Mean InfAP: Inferred AP averaged over all concepts 58

59 コンセプト毎の Average Precision 59

60 効果的な低次特徴は? 60

61 GMM 推定の計算時間検出性能の劣化なしに 4.2 倍の速化 61

62 Multimedia Event Detection (MED) 62

63 Multimedia Event Detection (MED) 的ビデオクリップからのイベント検出 e.g. Batting a run in Making a cake SIN より次の対象スポーツ番組からのハイライト検出をインターネット映像まで延データベース HAVIC : 2000 時間のホームビデオ Linguistic data consortium (LDC) が提供 63

64 MED (2) 2010に開始された新しいタスク 2011 年は18チーム ( 本からは5チーム ) 国情報省 (IARPA) のAutomated Low-Level Analysis and Description of Diverse Intelligence Video (ALADDIN) プロジェクトが援助 64

65 HAVIC データベースビデオクリップ (2 分程度 ): 3488 個サンプル : 各々のイベントに付き100 個 ( 半分が開発半分がテスト ) 2010 (3 events) 2011 (10 events) Assembling a shelter Birthday party Making a sandwich Batting a run in Changing a vehicle tire Parade Making a cake Flash mob gathering Parkour Getting a vehicle unstuck Grooming an animal Repairing an appliance Working on a sewing project 65

66 評価基準 : Missed Detection Probability P miss 1 Recall False Alarm Probability P FA False Alarm / Clips with no events Normalized Detection Cost (NDC) 上記 2つを適当な重みで混合したもの 1 1 Cost Miss = 80 Cost FA = 1 P target =

67 SIN の法を応多くの特徴 +BoW+SVM トレンド時空間特徴 STIP (Space-time interest point), etc. コンテキストのモデル化 (Semantic model) 効果があまりないデータが少ない? 声認識 OCR 効果なし SIN と同じ理由 67

68 TRECVID2011 Mean Minimum NDC TRECVID 2011 MED runs Mean MNDC Mean ANDC 1 st Team nd Team rd Our team

69 69

70 70

71 頑健かつ速な映像検索おわりに声分野で開発された技術が性能向上に寄与 GMM, MAP 適応, 構造サーチ単語レベル (SIN) からレベル (MED) へ映像のコミュニケーションモデルコンテキストの活 No data like more data データ量にスケールする技術が重要計算の速化がますます重要に他に使える声技術は? 語モデル識別学習 Deep Learning, etc. 71

TRECVID Semantic Indexing TaskとMultimedia Event Detection Taskへの取り組み

OS5-O2 TRECVID Semantic Indexing Taskと Multimedia Event Detection Taskへの取り組み樋爪和也, 柳井啓司 ( 電気通信大学 ) 背景コンテンツベースの映像検索手法が盛んに TRECVID: 国際的な評価ワークショップ膨大なデータ処理の必要性 4000 時間の大規模データ本発表について TRECVID の概要 SIN タスク