俯瞰カメラと人物視点カメラの連携 によるシーンの四次元構造化 成果報告 大阪大学産業科学研究所 満上育久 1
背景 今や世界は多種多様なカメラで溢れている! 膨大な数の固定カメラ 防犯 犯罪捜査での有効性の認知 デジタルサイネージ等, マーケティング解析への利用可能性 ウェアラブルカメラの出現 普及 新たな映像コンテンツ (GoPro, SONY アクションカム等 ) 日常生活をサポートする新たな情報デバイス (Google Glass) Google Glass GoPro SONY アクションカム 2
俯瞰 人間視点映像の処理 俯瞰 ( 客観視点 ) 映像 人物検出 追跡ジェスチャー認識人間関係の推定 人物視点 ( 主観視点 ) 映像 周囲の三次元形状復元手元物体認識行動認識注意対象の推定 映像の特性が大きく異なるため, これら映像処理は別々の研究として実施されている 3
目的 研究目的 : 俯瞰映像 (Global) と人物視点映像 (Local) を密に連携させたシーン理解 共同研究者 : 西野恒 ( ドレクセル大学教授 ) 大阪大学国際共同研究促進プログラム (2015-2017) 八木康史 ( 大阪大学理事 副学長 ) JST-CREST (2010-2016) 4
研究項目 1. 複数台の Kinect を用いたシーンの四次元構造復元 2. 俯瞰映像と人物視点映像を用いたシーンの三次元復元精度の向上 3. 俯瞰映像に対する人物位置アノテーションツールの開発 4. 注視ヒートマップ可視化による購買客と万引き犯の注視行動の違いに関する解析 5. 人物視点映像によるアイトラッカーレス注視推定 5
複数台の Kinect を用いたシーンの四次元構造復元 6
俯瞰センサ群によるシーンの四次元構造化 複数のセンシングデータ 3D 形状 + 時間変化 Microsoft Kinect カラー画像 + 奥行き画像 手頃な価格 Color image Depth map Integrated image Microsoft http://www.xbox.com/en-us/xbox360/ 7
複数台 Kinect によるシーンの四次元構造化 Kinect 7200 12670 8
複数台 Kinect データを統合する際の難しさ Kinect B Kinect A Kinect の非同期撮影によって動的シーンで形状にずれが発生 9
非同期 Kinect 群の擬似同期 Kinect1 Time Kinect2 10
非同期 Kinect 群の擬似同期 Kinect1 Time Kinect2 Point Cloud Transport i-th frame i+1-th frame Point cloud Clustering Earth mover s distance flow Interpolated Point cloud 11
実験結果 動的シーンの復元結果 ( 足踏み ) カラー画像従来手法提案手法 12
実環境に設置した俯瞰カメラ 人物視点カメラ群による人物行動解析 注視ヒートマップ可視化による購買客と万引き犯の注視行動の違いに関する解析 人物視点映像によるアイトラッカーレス注視推定 13
目は口ほどにものを言う 購買客 万引き犯 注視行動は人の意図の表出である 14
実環境での映像データ収集 データ収集実験の実施 場所 : 大阪大学吹田キャンパス工学部生協ショップ内 日時 : 平成 26 年 9 月 20 日 ( 土 ) 9:30~16:30( 撮影 ) 実施内容 : 被撮影者は八木研メンバーおよびアルバイト ( 計 140 人 ) すべての被撮影者からデータ公開に関する同意書を収集 各被撮影者には通常の購買行動 or 万引きの指示を与える 各シーンでは, 購買客役と万引き犯役 ( 合計 4~5 名 ) が同時に行動 15
実環境での映像データ収集 環境側のカメラ レジ レジ 出入口 ( 使用しない ) 出入口 ( 使用しない ) 出入口 ( 屋根付き通路 ) 16
実環境での映像データ収集 被験者側のカメラ 頭部カメラ (GoPro) 眼球計測装置 (EMR-9) 胸部カメラ (GoPro) 17
注視ヒートマップ可視化による購買客と万引き犯の注視行動の違いに関する解析 18
注視ヒートマップ 1. 三次元環境モデルの構築 2. 環境モデル表面への注視の投票 19
三次元環境モデルの構築 Manhattan-World 仮説 1 st axis: normal vector of a plane which fits to chest camera s trajectory 2 nd axis: manually selected 3 rd axis: 1 st 2 nd 局所平面仮説 Make inlier histogram along each axis 1 peak => 1 plane Add some hypotheses manually Floor, ceiling, texture-less surface 2 nd 3 rd 2 nd 3 rd 20
三次元環境モデルの構築 Extract Piecewise-Planar Model [Chauve+, CVPR2010] Input: bounding box, plane hypotheses, visibility rays 21
三次元環境モデルの構築 復元された環境モデル 22
環境モデル表面への注視の投票 Gaze model Gaussian centered at point of gaze σ = 20 pixel 23
注視ヒートマップの可視化と万引き犯検出の可能性 棚の裏側 ( ボールペン棚 ) ボールペン 阪大グッズ 防犯ミラー 防犯ミラー 購買客への指示 : 阪大グッズを買ってきてください 遠くの壁 万引き犯への指示 : ボールペンを万引きしてきてください 指定された商品に加えて指定された商品のみ注視ミラーや防犯カメラを注視注視の可視化による行動認識への展開 24
人物視点映像によるアイトラッカーレス注視推定 25
アイトラッカーを使わない注視情報獲得 頭部の見えによる注視方向推定 歩容を用いた注視方向推定? 視線方向 = 頭部方向 視線 頭部 [Kojima et al. 2015] 0 度 45 度 90 度 3 方向のみの推定 [Nakazawa et al. 2014] 26
頭部運動と眼球運動 注視点の固定時 R 水平方向 注視点の遷移時 L U 垂直方向 D 視線方向 [ 度 ] 非歩行時 歩行時 頭部視線 眼球 [Yu Fang et al. 2015] [Okada et al. 2013] 頭部方向 [ 度 ] [ 前迫 et al. 1993] 27
推定手法 胸部 頭部 視線方向の取得 頭部方向と視線方向の関係のモデル化 既知視線方向 頭部方向胸部方向 視線推定モデル 既知 未知 推定視線方向 28
Structure from Motion (SfM) による方向情報の算出 http://www.cs.cornell.edu/~snavely/bundler / 胸部方向頭部方向視線方向 29
視線推定モデル HHHHHHHH GGGGGGGG GGGGGGGG: 視線角度 HHHHHHHH: 頭部角度 GGGGGGGG HHHHHHHH 粘性抵抗 : λxxx(tt) 頭部 視線 30 眼球 HHHHHHHH GGGGGGGG HHHHHHHH GGGGGGGG ll ll + Δx FF = mmm tt = kk{gg tt h tt ll} λh (tt) FF gg tt = aaa tt + bbh tt + cch tt + dd 30
推定結果 水平方向 実測値推定視線方向頭部方向 31
モデルの妥当性評価 実際の視線方向との誤差ヒストグラム (4 シーン ) 頻度 600 頭部方向との差 頻度 600 推定視線方向との差 500 500 400 400 300 300 200 200 100 100 0-40 -35-30 -25-20 -15-10 -5 0 5 10 15 20 25 30 35 40 0 [ 度 ] -40-35 -30-25 -20-15 -10-5 0 5 10 15 20 25 30 35 40 [ 度 ] 頭部方向 推定視線方向 誤差平均 [ 度 ] 11.6 7.9 32
注視推定性能評価 被験者学習テスト頭部方向との差推定視線方向との差 A シーン1 シーン2 9.2 7.7 シーン2 シーン1 9.7 8.2 B シーン3 シーン4 22.2 16.8 シーン4 シーン3 14.9 9.9 C シーン5 シーン6 15.6 10.9 シーン6 シーン5 12.9 9.5 すべての被験者において 推定精度が向上 33
まとめ まとめ 1. 複数台の Kinect を用いたシーンの四次元構造復元 2. 注視ヒートマップ可視化による購買客と万引き犯の注視行動の違いに関する解析 3. 人物視点映像によるアイトラッカーレス注視推定 今後の展開 俯瞰カメラ映像からの注視 興味の推定 注視活動を中心とした人物行動解析 mitsugami@am.sanken.osaka-u.ac.jp 満上 mitsugami 34