バイノーラルマイクを用いたライフログ映像のショット識別 Life-log Video Shot Discrimination using Binaural Microphone 山野貴一郎伊藤克亘法政大学大学院情報科学研究科法政大学情報科学部 Kiichiro YAMANO Katunobu

バイノーラルマイクを用いたライフログ映像のショット識別 Life-log Video Shot Discrimination using Binaural Microphone 山野貴一郎伊藤克亘法政大学大学院情報科学研究科法政大学情報科学部 Kiichiro YAMANO Katunobu ITOU Graduate School of Computer and Information Sciences, Hosei University Faculty of Computer and Information Sciences, Hosei University. アブストラクトライフログ映像を効率よく扱うためには映像へのインデキシングのためのシーンの検出が必要であるシーンは映像情報によって検出されることが多いが映像情報のみでは不十分な場合がある本論文ではそのようなシーンである駅構内における電車待ちシーン検出に必要なショット識別をスペクトル包絡パワー音源の移動などの特徴量のモデル化により行った平均識別率はスペクトル包絡を用いた手法では 67.8%(7 ショットフィルタ次数 39) 94.8%(3 ショットフィルタ次数 12) スペクトル包絡にパワーを加えてモデル化した手法では 73.5%(7 ショットフィルタ次数 39) 91.7% 3 ショットフィルタ次数 39 移動音源のモデル化をした手法では 31.7%(7 ショット) 67.2%(3 ショット) であった 1 図 1. シーンとショットの例上段は色相変化でシーンを検出した場合で不必要なシーンが検出されている下段は正しいシーン検出の例 (電車待ち車内がそれぞれ 1 つのシーンとなっている ) まえがき個人の体験や生活を常時記録し利用するという研究がきく変化して別のシーンとして検出されてしまうこの場行われている [1] [3] 記録された個人の生活や体験の記合は図 1 の下図のように電車の発着などはショットとして録をライフログというライフログは映像音声位置情識別をし電車待ちを 1 つのシーンとして検出するのが報文書など様々な形式で記録され備忘録日記防犯望ましいショットとはシーンの構成要素でありショッなどへの利用が期待されている映像は最も出来事の再トが集まることでシーンが構成される現性が高いが常時記録された映像はデータ量が膨大でこのようなシーンは色相情報だけでは検出が困難であ冗長であるこのような映像を効率よく閲覧使用するるしかし音響情報を併用することでシーンを正しくためには映像を検索整理するためのインデキシング検出できる可能性がある音響情報が有効な例として本が必要であるそのためにはインデクスとなるシーンを論文では駅ホームでの電車待ちシーンを正しく検出する検出しなければならないためのショット識別について述べる識別はバイノーラル映像のシーン検出は色相情報に着目し行われることがマイクで収録したデータを用いてショットをモデル化する多い例えば文献 [4] では放送用スポーツ映像にアノテーことで行った音響情報のモデルはスペクトル包絡を用ションを付けるためのシーン分割を色相ヒストグラムいたものスペクトル包絡とパワーを用いたもの音を用いたブロックマッチング法で行っている色相情報源移動を用いたものの 3 つのモデルを提案するの利用はテレビ番組のような編集された映像には有効であるがライフログ映像では不規則にカメラの前を人や 2 音響情報を用いたライフログ映像インデキシング物が横切る場合があるので色相情報だけでは不必要なライフログ映像の音データには様々な環境音 (背景雑シーンを検出する場合がある例えば駅構内において映音) や音声が収録されているこれらの音データには様々像情報のみを用いてシーン検出を行った場合図 1 の上な情報が含まれており特に音声からはその時に話した図のように電車の停車などがあるたびに映像情報が大り聞いたりしたことの内容だけでなくその時の感情や

[5] comb [6] [7] [8] MUSIC [9] [10] 3 3 3.1 1 6 F F R R 1 6 ( ) 1 5 3 7 3 3.2 2048 1024 2048 FFT ( 2)

3.3 3.3.1 2. (39 ) 200 300 400 ( ) 1 3 1. 200 300 400 500 600 700 39 25 19 15 12 10 2 48kHz 24 (adphox BME-200) PCM (EDIROL R-09) 15 15 10 16 11 13 2 3 2. ( ( )) F F R R 21 19 25 30 24 74 20 25 13 13 24 17 53 130 3. ( ( )) F F R R 16 11 10 13 10 36 8 22 11 12 24 16 42 123 3.3.2 3. ( ) (1) SF i x shot = argmax [p(x SF i )] (1) i 7 39 25 19 15 12 3 10 ( ) ( 4 5) 4. (7 ) 39 25 19 15 12 F 32.6 18.8 12.5 12.5 6.3 F 0 0 0 0 0 R 80.0 80.0 80.0 90.0 80.0 R 100 100 92.3 92.3 92.3 90.0 90.0 90.0 80.0 80.0 72.2 80.6 80.6 80.6 88.9 100 100 100 100 100 67.8 67.1 65.1 65.1 63.9

5. (3 ) 39 25 19 15 12 10 78.3 85.0 86.7 85.0 90.0 83.3 75.0 86.1 86.1 86.1 94.4 100 100 100 100 100 100 100 84.4 90.4 90.9 90.4 94.8 94.4 3.3.3 7 F F F R F R F R F R 3 7 F R 7 39 3 12 1 3.4 ( F R R F) ( ) 2048 1024 2 (2) vol(n) n 0 Power = vol(n + 1) vol(n) (2) 1 3.4.1 39 25 19 15 12 6 6. (7 ) 39 25 19 15 12 F 37.5 31.3 12.5 25.0 25.0 F 0 0 0 0 0 R 90.0 90.0 90.0 90.0 90.0 R 100 92.3 92.3 92.3 92.3 90.0 90.0 60.0 40.0 20.0 97.2 94.4 94.4 94.4 91.7 100 75.0 37.5 25.0 25.0 73.5 67.6 60.6 57.0 49.1 7. (3 ) 39 25 19 15 12 3.4.2 75.0 76.7 71.7 66.7 65.0 100 100 100 100 100 100 75.0 37.5 25.0 25.0 91.7 83.9 69.7 63.9 63.3 39 F R F R

3.5 0.3m 50km/h 30m 30m 4 0 n L R n 100 100 5000 2500 6 0 ( ) 1 20 1 ( 7) 8,9 2 direction = argmax n 4800 i=1 L2 i R2 i+n 4800 4800 i=1 L2 i i=1 R2 i+n (3) 4. 4 1 ( 5) 1 1 2 1 6. 5. 1 (3) 7. 1

4 8. 67.8%(7 39) 94.8%(3 12) 73.5%(7 39) 91.7% 3 39 31.7%(7 ) 67.2%(3 ) 3.5.1 9. 1 7 3 8 8. F 12.5 F 9.1 R 30.0 R 30.8 10.0 41.7 87.5 31.7 3.5.2 61.2 52.8 87.5 67.2 7 3 4 [1] M. Lamming, et. al., Forget-me-not Intimate Computing in Support of Human Memory, Proceedings of FRIEND21,1994 [2] J. Gemmell, et. al., MyLifeBits: Fulfilling the Memex Vision, Proceedings of the tenth ACM Multimedia, pp.235-238, 2002 [3] K. Aizawa, et. al., Capture and Efficient Retrieval of Life Log, Proceedings of the pervasive 2004 workshop on memory and sharing experience, pp.15-20, 2004 [4] (D-II), Vol.J84-D-II, No. 8, pp.1838-1847, Aug., 2001 [5] (D-II), Vol.J81-D-II, No. 3, pp.529-537, Mar, 1998 [6]. PRMU, Vol. 105, No. 415, pp.33-38, Nov., 2005 [7]. EA, Vol. 105, No. 54, pp.25-33, May., 2005 [8]. EA, Vol. 100, No. 724, pp.21-28, Mar., 2001 [9]. EA, Vol. 105, No. 651, pp.23-28, Mar., 2006 [10] 3 C, Vol. 72, No. 723, pp.3567-3575, Nov., 2006

バイノーラルマイクを用いたライフログ映像のショット識別 Life-log Video Shot Discrimination using Binaural Microphone 山野貴一郎 伊藤克亘 法政大学大学院情報科学研究科 法政大学情報科学部 Kiichiro YAMANO Katunobu

バイノーラルマイクを用いたライフログ映像のショット識別 Life-log Video Shot Discrimination using Binaural Microphone 山野貴一郎伊藤克亘法政大学大学院情報科学研究科法政大学情報科学部 Kiichiro YAMANO Katunobu