第 15 回情報理論的学習理論ワークショップ (IBIS2012) コミュニケーションとしての 映像とその検索 篠 浩 ( 東京 業 学 )
講演の内容 1. 声と映像 2. TRECVID Semantic Indexing (SIN) 3. SIN のための 声技術 4. TRECVID Multimedia Event Detection (MED) 5. まとめ 2
EB/Month 600 500 400 300 インターネット映像の急増 Youtube (2011): Increase 48 hours / min 3,000,000,000 views / day VIDEO 200 100 OTHER 0 2010 2011 2012 2013 2014 2015 IP Traffic (Cisco Visual Networking Index 2010-2015) 3
No Meta data Low quality Large Variety Mostly Useless
課題 インターネット映像からの Content-Based Video Retrieval (CBVR) これまでの研究対象 TV ドラマ, 映画, ニュース, スポーツなど ジャンルが特定 品質 プロによる編集 メタデータが豊富 インターネット映像とは明らかに異なる どのような 法論をとるべきか? 5
Babble Gartner Hype Cycle for 2011 Image Recognition Video Analysis for Consumer Service Gesture Recognition Biometric Authentication Method Speech Recognition Crash! 6
声研究から学べないか? 映像研究はこれから Babble 声研究は Babble Crash から き延びた Babble Video Analysis for Consumer Service Speech Recognition Crash! 7
声 萌芽開発実 画像 萌芽開発実 映像 萌芽開発実 80 90 00 10 year 8
国国防省 (DARPA) 声認識ベンチマーク WORD ERROR RATE 100% 10% 1k Spontaneous Speech ATIS Resource Management Read Speech WSJ 20k 5k Switchboard Conversational Speech Varied Microphone Noisy foreign Broadcast Speech NAB foreign 段階的にタスクを設定 着実に技術を蓄積 1% Courtesy NIST 1999 DARPA HUB-4 Report, Pallett et al. 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003
声と映像は違う? 声は1 次元 映像は3 次元 声には Semantic Gap がない (? ) 声はコミュニケーションの道具であるが映像は違う (? ) 映像は 声のような明確な構造がない (?) ( 素 形態素 単語 法 ) 10
声と映像は同じ 送り 受け Audio Channel メッセージ メッセージ Video Channel 映像はコミュニケーションの 段 ( 明 的な ) 語彙や 法をもつ 声にも Semantic Gap は存在する 11
映像検索のための 声技術 1. 送り をモデル化するための 成モデル 2. 低品質 多様性 データ不 に頑健な確率的フレームワーク 3. 速計算 法 12
機械学習によるアプローチ ( 共通 ) 声 画像 映像 + = データ量計算量 Semantic gap 特定の応 に集中 他機関との協働 13
TRECVID Semantic Indexing 14
TRECVID (TREC Video Retrieval Evaluation) 2001 年に Text REtrieval Conference (TREC) から独 NIST(National Institute of Standard and Technology) が主催 的 : 映像コンテンツ分析 検索研究の促進クローズドな国際競争型ワークショップホームページ : http://trecvid.nist.gov 規模データが使える ( 著作権等の問題をクリア ) 法の 較が容易 そのため進歩が速い ラベル付け作業を分担 勝ち負けがはっきりする 15
TRECVID タスクの歴史 Known item search Semantic indexing Shot boundary detection Story segmentation Low-level feature extraction Rushes summarization Content-based copy detection Surveillance event detection Instance search Multimedia event detection 2001 2006 2012 16
TRECVID データセット TV news TV shows Internet video Data (hours) http://www-nlpir.nist.gov/projects/tvpubs/tv11.slides/tv11.intro.slides.pdf 17
2011 年 TRECVID 66 チームが参加 ( 本からは 12 チーム ) 5 tasks: Semantic indexing (SIN) Multimedia event detection (MED) Known item search (KIS) Instance search (INS) Surveillance event detection (SED) 18
的 Semantic Indexing (SIN) ビデオショットからの Concept を検出 Concepts: objects, scenes,... TRECVID の中核的タスク 静 画の 般物体認識に対応 19
Multimedia Event Detection (MED) 的ビデオクリップからのイベント検出 e.g. Batting a run in Making a cake SIN より 次の対象 スポーツ番組からのハイライト検出 をインターネット映像まで延 20
的 Instance Search (INS) 特定の 物 場所 ロゴを検出 対象は明確 学習データは少ない データベース :BBC rushes 21
Known Item Search (KIS) 的 詳細なテキスト記述に合致する映像シーンを検出 例 : いシャツの男が にりんごをあげている 学習データなし SIN タスクで得られた コンセプトを利 22
Surveillance Event Detection (SED) 的監視カメラからのイベント検出 イベント : PeopleRuns, Pointing, PeopleMeet, など 混雑状況 固定カメラ データベース イギリス ガトウィック空港における 5 台の監視カメラ映像 (145 時間 ) 23
Semantic Indexing (SIN) 24
タスク設定 データベース :IACC (Internet Archive videos with Creative Commons licenses) : 600 h コンセプト数 : 346 Run: 各々のコンセプトについて上位 2000 個のショットのリストを提出 各々のチームは最 4 つの Run を提出できる 評価基準 : Average Precision (AP) 1 : Rank :Number of true shots from 1st to k-th 25
コンセプトの出現頻度 Number of positive samples in 264,673 training video shots Outdoor (29,997 shots) more than 10,000 5% # positive shots Singing (3875 shots) 1% of development data Airplane (371 shots) 346 semantic concepts 26
Bag of Words (BoW) 静 画における 般物体認識で主流 ショット局所特徴ヒストグラム SVM キーフレームを利 計算量が 較的少ない 量 化誤差が きい 27
新たな動き (1) : 頑健性 低品質 多様性 データ不 に対応 More features SIFT, Color SIFT, SURF, HOG, GIST, Dense features Multi-modal 声の利 : Singing, Dance, Car, etc. Multi-frame キーフレーム以外を利 Soft clustering 量 化誤差の低減 28
新たな動き (2) : 速化 参加 58チーム中 28チーム ( 半分 ) しか結果を提出できなかった 近似アルゴリズム 分散処理 Graphical Processing Unit (GPU) の利 29
期待したが効果のなかったもの 局特徴 ( ヒストグラムなど ) 局所特徴だけで 分 ( 相補的な関係にない ) 声認識, OCR それら 体の性能が低い 物体の位置検出 位置検出性能が低い 位置のない Concept も Concept 間のコンテキスト データ量が少なすぎる 30
Semantic Indexing のための 声技術 31
3 つの 声技術 1. 多様性 低品質 Gaussian Mixture Models (GMM) 2. データ不 MAP 適応 3. 速化 構造サーチ 32
フレームワーク video (shot) Tree-structured GMM 1) SIFT-Har GMMs supervectors 2) SIFT-Hes 3) SIFTH-Dense 4) HOG-Dense 5) HOG-Sub 6) MFCC SVM score SVM score Score fusion 33
特徴抽出 video (shot) Tree-structured GMMs 1) SIFT-Har GMM supervectors 2) SIFT-Hes 3) SIFTH-Dense 4) HOG-Dense 5) HOG-Sub 6) MFCC SVM score SVM score Score fusion 34
低次特徴 6 つの画像特徴 SIFT-Har, SIFT-Hes, SIFTH-Dense, HOG-Dense, HOG-Sub Multi-modal 響特徴 : Mel-Frequency Cepstral Coefficient (MFCC) Multi-frame 毎フレーム 1 フレームおき 2 秒に 1 フレームなど 35
1) SIFT-Har - Harris-affine detector - Multi-frame (every two frame) 2) SIFT-Hes - Hessian-affine detector - Multi-frame (every two frame) 3) SIFTH-Dense - SIFT + Hue histogram - 30,000 samples in a key frame 4) HOG-Dense - 32 dim HOG feature - 10,000 samples in a key frame 5) HOG-Sub - Temporal differential of HOG - Detect movement 画像特徴 Reduce dim to 32 by PCA 36
響特徴 :MFCC Mel-frequency cepstral coefficients 声認識 響イベント認識でよく いられる MFCC(12) MFCC(12) MFCC(12) Log-power(1) Log-power(1) 37
コンセプトのモデル video (shot) Tree-structured GMMs 1) SIFT-Har GMM supervectors 2) SIFT-Hes 3) SIFTH-Dense 4) HOG-Dense 5) HOG-Sub 6) MFCC SVM score SVM score Score fusion 38
声技術その 1 Gaussian Mixture Model (GMM) ガウス分布の重み付け和 : 特徴 : 混合成分 k の重み 1), Σ : 混合成分 k の平均と分散 各々のショットを GMM でモデル化 39
GMM は BoW の拡張 BoW GMM Code vector Gaussian mean Histogram Weight distribution Red Color: ショットごとに推定 40
声技術その 2 Maximum A Posteriori (MAP) 適応 転移学習の 法 GMMの平均ベクトルに対し その事前分布を仮定 1. すべての学習データを いて Universal background model (UBM) を推定 2. UBM を初期モデルとして MAP 適応により GMM の平均ベクトルを推定する 事前分布 :UBM における 対応する分布 UBM MAP adaptation より少ないデータ量で 精度な推定 32
MAP 適応 :,,,Σ : UBMにおける混合成分 の平均と分散 : 混合成分 の平均のMAP 推定量 : 制御パラメータ where に対する混合成分の負担率 漸近的な性質をもつ データが少なくなると データが多くなると は最尤推定量に近づく 42
識別器 video (shot) Tree-sturuc 1) SIFT-Hartured GMMs GMM supervectors 2) SIFT-Hes 3) SIFTH-Dense 4) HOG-Dense 5) HOG-Sub 6) MFCC SVM score SVM score Score fusion 43
GMM Supervector + SVM 1. GMM の平均ベクトルを連結 GMM supervector where normalized mean 2. Support Vector Machine (SVM) with RBF kernel GMM に対する Fisher Kernel の近似
Score fusion SVM スコアの重み付け和 where 重みは Concept ごとに cross validation で決定 45
計算量 HOG-Dense 特徴を いたときの計算時間 (sec) Feature PCA GMM Estimation SVM GMM の推定が 部分 46
負担率の計算の高速化 where High cost! に対する混合成分の負担率 47
声技術その 3 構造 GMM を いた 速計算 がどの混合成分に属するか? (BoW: をどのコードに割り当てるか?) Gaussian components 48
負担率 : 局所特徴に対する混合成分の負担率 Gaussian components 49
特徴量空間の 部でのみ計算 Gaussian components 50
構造 GMM (1) Leaf layer 混合成分間の距離 : Symmetric KL divergence Gaussian components 51
構造 GMM (2) Non-leaf layers ノードのガウス分布は リーフのガウス分布集合を近似 Gaussian components 52
構造 GMM (3) Non-leaf layers ノードのガウス分布は リーフのガウス分布集合を近似 Gaussian components 53
構造 GMM (4) Non-leaf layers ノードのガウス分布は リーフのガウス分布集合を近似 Gaussian components 54
速サーチ (1) : Active nodes 55
速サーチ (2) : Active nodes 56
速サーチ (3) : Active nodes 57
TRECVID2011 SIN の結果 Mean InfAP: Inferred AP averaged over all concepts 58
コンセプト毎の Average Precision 59
効果的な低次特徴は? 60
GMM 推定の計算時間 検出性能の劣化なしに 4.2 倍の 速化 61
Multimedia Event Detection (MED) 62
Multimedia Event Detection (MED) 的ビデオクリップからのイベント検出 e.g. Batting a run in Making a cake SIN より 次の対象 スポーツ番組からのハイライト検出をインターネット映像まで延 データベース HAVIC : 2000 時間のホームビデオ Linguistic data consortium (LDC) が提供 63
MED (2) 2010に開始された新しいタスク 2011 年は18チーム ( 本からは5チーム ) 国情報省 (IARPA) のAutomated Low-Level Analysis and Description of Diverse Intelligence Video (ALADDIN) プロジェクトが援助 64
HAVIC データベース ビデオクリップ (2 分程度 ): 3488 個 サンプル : 各々のイベントに付き100 個 ( 半分が開発 半分がテスト ) 2010 (3 events) 2011 (10 events) Assembling a shelter Birthday party Making a sandwich Batting a run in Changing a vehicle tire Parade Making a cake Flash mob gathering Parkour Getting a vehicle unstuck Grooming an animal Repairing an appliance Working on a sewing project 65
評価基準 : Missed Detection Probability P miss 1 Recall False Alarm Probability P FA False Alarm / Clips with no events Normalized Detection Cost (NDC) 上記 2つを適当な重みで混合したもの 1 1 Cost Miss = 80 Cost FA = 1 P target = 0.001 66
SIN の 法を応 多くの特徴 +BoW+SVM トレンド 時空間特徴 STIP (Space-time interest point), etc. コンテキストのモデル化 (Semantic model) 効果があまりない データが少ない? 声認識 OCR 効果なし SIN と同じ理由 67
TRECVID2011 Mean Minimum NDC 1.5 1.3 1.1 0.9 0.7 0.5 0.3 0.1 0.1 TRECVID 2011 MED runs Mean MNDC Mean ANDC 1 st Team 0.448 0.465 2 nd Team 0.499 0.522 3 rd Our team 0.525 0.556 68
69
70
頑健かつ 速な映像検索 おわりに 声分野で開発された技術が性能向上に寄与 GMM, MAP 適応, 構造サーチ 単語レベル (SIN) から レベル (MED) へ 映像のコミュニケーションモデル コンテキストの活 No data like more data データ量にスケールする技術が重要 計算の 速化がますます重要に 他に使える 声技術は? 語モデル 識別学習 Deep Learning, etc. 71