グラフコストの逐次更新を用いた映像顕著領域の自動抽出 2009 年 5 月 28 日 福地賢宮里洸司 (2) 木村昭悟 (1) 高木茂 (2) 大和淳司 (1) (1) 日本電信電話 ( 株 )NTT) コミュニケーション科学基礎研究所メディア情報研究部メディア認識研究グループ (2) 国立沖縄工業高等専門学校情報通信システム工学科
背景 ヒトはどのようにして もの を認識する能力を獲得するのか? 成長過程で 自然にその能力を獲得していく 乳幼児の行動にヒントがあるのでは? 目立つ もの に目を向ける 外観から もの を学習する もの の名前を聞いて覚える 電子情報通信学会 PRMU 研究会 2009 年 5 月 Page 2
新しい映像認識 検索の枠組 目立つかどうか = 顕著性を手がかりに もの がどの辺りにあるか? をまず特定 もの と思われる領域に関する情報を双方向でやり取りして 徐々に成長 映像入力 教示情報 注目位置推定 注目すべき箇所を視覚特性を考慮した処理により自動特定 モデル学習 重要領域抽出 本発表の主題 もの らしい領域を注目位置から自動抽出 画像認識 探索 重要領域の画像特徴量と教示情報との関係性を学習 重要領域から もの が何であるか? を特定 電子情報通信学会 PRMU 研究会 2009 年 5 月 Page 3
映像領域分割 問題設定 映像から 興味の対象である領域 ( 物体領域 ) を 背景などそれ以外の領域 ( 背景領域 ) と区別して抽出 グラフカットを用いたセグメンテーション セグメンテーションを MRF の MAP 推定問題として定式化 この種の MRF は その MAP 推定解が MRF と等価なグラフの最小カット解と完全に一致 [Greig 1989] [Boykov-Jolly 2001] [Boykov-Lea 2006] 映像領域分割への拡張 [Kohli-Torr 2007] [ 永橋ら @MIRU2008] 手動でのラベル付けを行う必要がある ( 半自動 ) 電子情報通信学会 PRMU 研究会 2009 年 5 月 Page 4
映像領域分割の全自動化へ向け 目立つかどうか? = 顕著性を用いることは分割自動化への有望なアプローチ 顕著性に基づく人間の視覚機構の計算モデル Saliency map [Itti 1998] [Koch-Ullman 1985] Koch-Ullman model の拡張 [Peters-Itti 2002] [Li-Lee 2007] 映像への拡張 [Itti-Baldi 2005] [Leung et al.@miru2007] 確率的なモデルの導入 [Pang@PRMU2008Jun] [ 宮里ら @PRMU2009May] 電子情報通信学会 PRMU 研究会 2009 年 5 月 Page 5
本手法のポイント (1) 顕著度に基づく事前確率の決定 グラフカットに基づく手法の懸案であった手動ラベリングの問題を解消 全自動化を可能に 静止画像領域分割における類似の既存研究で有効性が示されている [ 福田ら @MIRU2008] [Fu et al.@icpr2008] [ 藤崎ら @PRMU2009Feb] High prob. of attention Input frame Attention Priors 電子情報通信学会 PRMU 研究会 2009 年 5 月 Page 6
本手法のポイント (1) 顕著度に基づく事前確率の決定 グラフカットに基づく手法の懸案であった手動ラベリングの問題を解消 全自動化を可能に 静止画像領域分割における類似の既存研究で有効性が示されている [ 福田ら @MIRU2008] [Fu et al.@icpr2008] [ 藤崎ら @PRMU2009Feb] 近接フレームで顕著度の高い領域が異なる場合に 分割結果が時系列として不安定になる 入力映像 分割結果 電子情報通信学会 PRMU 研究会 2009 年 5 月 Page 7
本手法のポイント (2) 過去の分割結果を用いた事前確率の逐次推定 過去のフレームの分割結果からの事前確率と現在のフレームの顕著度からの事前確率を カルマンフィルターの考え方を利用して更新 + Kalman filter Original priors Segmentation result Updated priors 特徴量尤度についても 過去のフレームの分割結果から取得した尤度と現在のフレームで得た尤度を組み合わせて更新 電子情報通信学会 PRMU 研究会 2009 年 5 月 Page 8
提案手法の枠組 Priors Input frame Estimated density of visual attention Feature likelihoods ポイント 1 Segmentation result Features for obj Features for bkg ポイント 2 MRF setup Update 電子情報通信学会 PRMU 研究会 2009 年 5 月 Page 9
グラフカットを用いた静止画像領域分割 Interactive graph cuts [Boykov-Jolly 2001] 手動で与えられたラベル ( 物体 or 背景 ) を用いたグラフカットに基づく静止画像分割の手法 (manually) GMM fitting of color features Features for obj Features for bkg Input image Input image with labels Segmentation result Graph creation and Segmentation with graph cuts 電子情報通信学会 PRMU 研究会 2009 年 5 月 Page 10
Interactive graph cuts 法の定式化 与えられた画像 D からラベル A を決定するエネルギー関数最小化問題として定式化 当該画素の色 テクスチャ特徴の GMM 手動ラベルから決定 隣接画素の輝度値の類似性に基づく 一般化 Potts 電子情報通信学会 PRMU 研究会 2009 年 5 月 Page 11
エネルギー最小化 最小グラフカット導出 前述のエネルギー最小化問題は 下記のグラフの最小カット問題に置換可能 最小カット問題を多項式時間で解くアルゴリズムがある [Ford-Fulkerson 1956] [Boykov-Jolly 2001] etc. 電子情報通信学会 PRMU 研究会 2009 年 5 月 Page 12
本手法のポイント (1) 顕著性に基づく事前確率の決定 グラフカットに基づく手法の懸案であった手動ラベリングの問題を解消 全自動化を可能に 具体的には 第 1 の事前確率項を [Pang et al. 2008] [ 宮里ら 2009] に基づいて決定 High prob. of attention Input frame Attention EFDM ( 第 1 発表の出力 ) Priors 第 1 の尤度項の GMM 学習の際に サンプルの重みを上記事前確率項により決定 電子情報通信学会 PRMU 研究会 2009 年 5 月 Page 13
顕著性に基づく事前確率 尤度の決定 事前確率項 : 物体事前確率 の決定 [ 宮里ら 2009] の出力 (EFDM) を GMM でモデル化 ただし フレームの縁については 物体である可能性は低いので 背景事前確率 尤度項 : 尤度 の決定 色 テクスチャ特徴を GMM でモデル化 GMM 学習の際のサンプルの数を事前確率で決定 電子情報通信学会 PRMU 研究会 2009 年 5 月 Page 14
本手法のポイント (2) 過去の分割結果を用いた事前確率の逐次推定 過去のフレームの分割結果からの事前確率と現在のフレームの顕著度からの事前確率を カルマンフィルターの考え方を利用して更新 + Kalman filter Original priors Segmentation result Updated priors 特徴量尤度についても 過去のフレームの分割結果から取得した尤度と現在のフレームで得た尤度を組み合わせて更新 電子情報通信学会 PRMU 研究会 2009 年 5 月 Page 15
事前確率の逐次推定 物体事前確率に関して 以下のモデルを仮定 1 時点前に物体の箇所は 現在も物体の可能性が高い 顕著性のみから決定した事前確率に近い形で現在の事前確率が決定される これを現在の事前確率として採用 Kalman filter と同様にして最尤解を導出可能 電子情報通信学会 PRMU 研究会 2009 年 5 月 Page 16
特徴量尤度の逐次更新 過去のフレームから決定した尤度と現在のフレームから計算される尤度を混合 過去の分割結果から算出した特徴量尤度 現在の画像から算出した特徴量尤度 電子情報通信学会 PRMU 研究会 2009 年 5 月 Page 17
動作例 良好な分割結果の一例 VideoSegmentationFox.flv 同じ映像が下記の URL にて公開されています http://www.brl.ntt.co.jp/people/akisato/saliency3-j.html 事前確率の逐次更新が効果的である例 入力映像逐次更新なし逐次更新あり 電子情報通信学会 PRMU 研究会 2009 年 5 月 Page 18
デモ 実機デモをご覧下さい デモ機材のスペック CPU: Intel Core2 Duo P8600 2.40GHz RAM: 4.0GB GPU: NVIDIA GeForce 9600M GT (32 cores, 512MB VRAM) 開発環境 : Microsoft Visual C++ 2008, OpenCV 1.1 pre, NVIDIA CUDA 2.1 Webcam: Logicool Qcam Pro for Notebook 電子情報通信学会 PRMU 研究会 2009 年 5 月 Page 19
むすび 映像から自動的に顕著領域を抽出する方法の提案 顕著性に基づく事前確率の決定 過去の分割結果を用いた事前確率の逐次更新 今後の課題 定量的評価 : Benchmark データの作成が必要 高精度化 : 特徴量検討 分割アルゴリズム改良 高速化 : アルゴリズム面 実装面 電子情報通信学会 PRMU 研究会 2009 年 5 月 Page 20
Thank you. Questions/Comments E-mail: akisato@ieee.org 電子情報通信学会 PRMU 研究会 2009 年 5 月 Page 21
付録 電子情報通信学会 PRMU 研究会 2009 年 5 月 Page 22