Walking Person Recognition by Matching Video Fragments Masashi Nishiyama, Mayumi Yuasa, Tomokazu Wakasugi, Tomoyuki Shibata, Osamu Yamaguchi ( ), Corporate Research and Development Center, TOSHIBA Corporation E-mail: masashi.nishiyama@toshiba.co.jp Abstract 349 1 [1] [2] FacePass[3] 1(a) FacePassenger[4] 1(a) 1(b) 1 2 3
2 4 2 3 4 3 [12] 2 3 4 5 1 1 [5, 6, 7] [5, 6] [7] 1 [8] 1 1 [9] 1 [10, 11] [10] [11] 1 [13, 14] [13] [14] [13, 14] [10, 11, 13, 14] 1 [12]
図6 カメラ内における断片的な動画像の生成 的な追跡処理を用いる 3 次元的な追跡を精度よく行う 図7 相互部分空間法による断片的な動画像同士 ために厳密なカメラキャリブレーションが要求される の比較 図5 段階的な対応付けの流れ 手法では 複数の歩行者の顔の様々な見え方を登録す るために 検出と追跡のタスクをそれぞれのカメラに 動的に割り当て顔画像の集合を生成する 各カメラか ら得られる人物毎の顔画像を対応付けるために 3 次元 また 運用中に何らかの原因でカメラの位置がずれる と追跡処理が破綻し識別性能が低下する ベルを判定する 同じラベルをもつ x を断片的な動画 3 段階的な対応付け 像 X に加える 一定の時間 T 1 以上新たな顔画像が追 複数カメラを用いて複数の歩行者を 動画像を用い た識別手法で個人識別するために カメラキャリブレー ション行うことなく顔画像を段階的に対応付け 人物 毎の動画像を生成する方法について述べる 加されなかった断片的な動画像 X は通過した人物と判 定し カメラ間の断片的な動画像の対応付けへ進む X のラベルを関数 M2 で判定し 同じラベルをもつ断片 的な動画像 X, X 0 を統合する 一定の時間 T 2 を経過し た断片的な動画像は対応付けが終了したと判断し 統 3.1 段階的な対応付けの枠組み 合された動画像 X とする この X を用いて個人識別を 最初に各カメラにおいて顔画像を対応付けし断片的 な動画像を生成する 断片的な動画像を式 (1) で定義 する 行う 3.2 断片的な動画像を生成するためのラベル付け 各カメラで獲得された顔画像 x は 関数 M1 により Xl {xi M1 (xi ) = l, i = 1,..., N } (1) 図 6 のように 同じカメラにおいて蓄積された断片的 な動画像と対応付けられる 対応付ける際には 断片 ここで x は 1 枚の顔画像 M1 は顔画像に対してラベ ルを返す関数 l は断片的な動画像に付けられたラベル 的な動画像に属する最新の顔画像 x X と x との間で 式 (3) の類似度 S を算出する N は獲得された顔画像の枚数を表す 関数 M1 につい S= ては 3.2 節で述べる 次に カメラ間で断片的な動画像 を対応付けし 個人識別で用いる統合された動画像 X Ssimple 1 + α(t t ) (3) ここで Ssimple は x, x 間の単純類似度 α は定数 t, t は を生成する X は式 (2) で定義される x, x が獲得された時間を表す 単純類似度は Ssimple = Xk {Xj M2 (Xj ) = k, j = 1,..., M } (2) ここで M2 は断片的な動画像に対してラベルを返す関 数 k は統合された動画像に付けられたラベル M は 獲得された断片的な動画像の個数を表す 関数 M2 に ついては 3.3 節で述べる 図 5 に 三台のカメラの下 で 二人の人物が歩行したときに段階的に対応付けさ れる流れを示す 実システム上では 顔画像は時間の経過と共に順に 獲得される 各カメラにおいて断片的な動画像を生成 するために 顔画像 x が獲得される毎に関数 M1 でラ cos2 θ で定義される θ は 顔画像をラスタースキャン することで変換されたベクトル同士のなす角度を表す 関数 M1 は 閾値 S1 を越え最も高い類似度が算出さ れた断片的な動画像のラベルを返す また 算出され た全ての類似度が S1 未満の場合 新たな人物が表れた と判定し 新たなラベルを返す 対応付ける断片的な 動画像が 1 個も蓄積されていない場合も新たなラベル を返す
8 3.3 M 2 S 7 (OMSM Orthogonal Mutual Subspace Method)[15] OMSM OMSM M 2 S2 S2 3.4 OMSM X [16] O P, Q P Q S θ (4) S = cos 2 θ (4) θ = 0 cos 2 θ R Ra = λa (5) R = (r mn ) (m, n = 1... D P ) (6) D Q r mn = (ψ m, φ l )(φ l, ψ n ) (7) l=1 ψ m, φ l P,Q m, l (ψ m, φ l ) ψ m φ l D P, D Q P, Q D P D Q 4 4.1 9 10 (a) (b) (c) (d) (e) (f) x 8 (i) (ii)3 [17] (iii) [18] 4.2 x 3 9 14 Joint Haar-like AdaBoost [19] [20] [21] 4.3 [20]
(i) without occlusion (ii) with occlusion 11 12 10(a) (b) 10(f) [20] 2 η (8) 13 η = η + β(p 1 P 2 ) (8) η P 1 P 2 1 2 β 2 (c) 2 (d) (e) 4.4 [20] 5 5.1 1 1 11(i),(ii) 3 (i) 3 (ii) 1024 768 pixels 7.5 1 7 14 12 64 64 [17] [18] 1024 (i) 76 (ii) 59 S1 (i) A 19 B 5 C 4 (ii) A 7 B 8 C 11 (ii) 5.2
2 1 Camera CMR(%) EER(%) C1 81.4 16.0 C2 92.6 7.2 C3 91.7 7.4 All 97.7 2.0 14 1 (i) (ii)349 2 7 (%) Camera (i) (ii) C1 14.8 12.0 C2 20.4 5.2 C3 19.3 5.4 All 54.5 1.6 349 3 (C1, C2, C3) 13 2 768 1024 pixels 15 1 4 14 1(i) 5.1 All C1, C2, C3 7 1024 7 7 0 1(ii) 349 2 7 C2, C3 C1 2 1. (CMR:Correct Match Rate) 2. (EER:Equal Error Rate) FAR( ) FRR( ) FAR F AR = (9) FRR F RR = (10) (1 ) 1 1 2 C1, C2, C3 All C2, C3 C1 1(ii) 7 All
98 CMR(%) 97 96 95 94 93 (i) without matching fragmented sequences (ii) with matching fragmented sequences (ii) ideal 92 91 15 10 90 89 10 20 30 40 50 60 70 80 90 100 Number of individuals M False Matching Rate(%) 9 8 7 6 5 4 3 2 1 0 10 20 30 40 50 60 70 80 90 100 Number of individuals M 17 EER(%) 8 7 6 5 4 (i) without matching fragmented sequences (ii) with matching fragmented sequences (ii) ideal 16 3 2 10 20 30 40 50 60 70 80 90 100 Number of individuals M C1, C2, C3 ( ) M M 1 15 349 M 1 10 M 2 2 S2 0 M 16 2 All 349 M CMR 17 EER 18 (i) 2 C1, C2, C3 (ii) 18 (iii) 2 All 16 CMR EER EER (i) (ii) 7 (iii) (ii) 10 (i) CMR EER 6 349
5 89.9% 94.2% 8.3% 4.2% [1],, D-II Vol. J80-D-II, No. 8, pp. 2031-2046, 1997 [2],,,, D-II Vol. J88-D-II, No. 8, pp. 1339-1348, 2005. [3],,,,,, FacePass, Vol. 56, No.7, pp.1111-1117, 2002 [4],,,,,,, FacePassenger, FIT2005 I-010 pp.27-28, 2005. [5],,,, M. Jones, J. Thornton,, 10, pp. 541-546, 2004. [6] Z. Yang, H. AI, B. Wu, S. Lao, and L. Cai, Face Pose Estimation and its Application in Video Shot Selection, International Conference on Pattern Recognition 2004, pp. 322-325, 2004. [7] R. Chellappa, V. Kruger, and S. Zhou, Probabilistic Recognition of Human Faces from Video, The IEEE International Conference on Image Processing, Vol. I, pp. 41-44, 2002. [8] K. S. Huang, and M. M. Trivedi, Streaming Face Recognition using Multicamera Video Arrays, International Conference on Pattern Recognition 2002, pp. 213-216, 2002. [9],,,,, :, Vol. 43, No. SIG 4(CVIM 4), pp.95-104, 2002. [10],,,,,, D-II, Vol.J84-D-II, No.8, pp.1772-1780, 2001. [11],,,, 8, pp. 319-324, 2002. [12],,,,, D-II, Vol.J84- D-II, No.3, pp.500-508, 2001. [13] J. G. Wang, R. Venkateswarlu, and E. T. Lim, Face tracking and recognition from stereo sequence, 4th International Conference on Audio- and Video-based Biometric Person Authentication, pp. 145-153, 2003. [14],,,,,,, PRMU2005-268, pp. 61-68, 2006. [15],,,, 2005-CVIM-151 (3), pp. 17-24, 2005. [16] E. Oja, Subspace Methods of Pattern Recognition, Research Studies Press, England, 1983 [17] T. Kozakaya, and O. Yamaguchi, Face Recognition by Projection-based 3D Normalization and Shading Subspace Orthogonalization, 7th International Conference Automatic Face and Gesture Recognition, 2006. [18] M. Nishiyama, and O. Yamaguchi, Face Recognition Using the Classified Appearance-based Quotient Image, 7th International Conference Automatic Face and Gesture Recognition, 2006. [19] T. Mita, T. Kaneko, and O. Hori, Joint Haar-like Features for Face Detection, Tenth IEEE International Conference on Computer Vision 2005, pp.1619-1626, 2005. [20],,, (D-II), Vol. J80-D-II, No. 8, pp. 2170-2177, Aug. 1997. [21],,,, 6 (SI2005), pp.1103-1104, 2005.