[12] [5, 6, 7] [5, 6] [7] 1 [8] 1 1 [9] 1 [10, 11] [10] [11] 1 [13, 14] [13] [14] [13, 14] [10, 11, 13, 14] 1 [12]

Walking Person Recognition by Matching Video Fragments Masashi Nishiyama, Mayumi Yuasa, Tomokazu Wakasugi, Tomoyuki Shibata, Osamu Yamaguchi ( ), Corporate Research and Development Center, TOSHIBA Corporation E-mail: masashi.nishiyama@toshiba.co.jp Abstract 349 1 [1] [2] FacePass[3] 1(a) FacePassenger[4] 1(a) 1(b) 1 2 3

2 4 2 3 4 3 [12] 2 3 4 5 1 1 [5, 6, 7] [5, 6] [7] 1 [8] 1 1 [9] 1 [10, 11] [10] [11] 1 [13, 14] [13] [14] [13, 14] [10, 11, 13, 14] 1 [12]

図6 カメラ内における断片的な動画像の生成的な追跡処理を用いる 3 次元的な追跡を精度よく行う図7 相互部分空間法による断片的な動画像同士ために厳密なカメラキャリブレーションが要求されるの比較図5 段階的な対応付けの流れ手法では複数の歩行者の顔の様々な見え方を登録するために検出と追跡のタスクをそれぞれのカメラに動的に割り当て顔画像の集合を生成する各カメラから得られる人物毎の顔画像を対応付けるために 3 次元また運用中に何らかの原因でカメラの位置がずれると追跡処理が破綻し識別性能が低下するベルを判定する同じラベルをもつ x を断片的な動画 3 段階的な対応付け像 X に加える一定の時間 T 1 以上新たな顔画像が追複数カメラを用いて複数の歩行者を動画像を用いた識別手法で個人識別するためにカメラキャリブレーション行うことなく顔画像を段階的に対応付け人物毎の動画像を生成する方法について述べる加されなかった断片的な動画像 X は通過した人物と判定しカメラ間の断片的な動画像の対応付けへ進む X のラベルを関数 M2 で判定し同じラベルをもつ断片的な動画像 X, X 0 を統合する一定の時間 T 2 を経過した断片的な動画像は対応付けが終了したと判断し統 3.1 段階的な対応付けの枠組み合された動画像 X とするこの X を用いて個人識別を最初に各カメラにおいて顔画像を対応付けし断片的な動画像を生成する断片的な動画像を式 (1) で定義する行う 3.2 断片的な動画像を生成するためのラベル付け各カメラで獲得された顔画像 x は関数 M1 により Xl {xi M1 (xi ) = l, i = 1,..., N } (1) 図 6 のように同じカメラにおいて蓄積された断片的な動画像と対応付けられる対応付ける際には断片ここで x は 1 枚の顔画像 M1 は顔画像に対してラベルを返す関数 l は断片的な動画像に付けられたラベル的な動画像に属する最新の顔画像 x X と x との間で式 (3) の類似度 S を算出する N は獲得された顔画像の枚数を表す関数 M1 につい S= ては 3.2 節で述べる次にカメラ間で断片的な動画像を対応付けし個人識別で用いる統合された動画像 X Ssimple 1 + α(t t ) (3) ここで Ssimple は x, x 間の単純類似度 α は定数 t, t はを生成する X は式 (2) で定義される x, x が獲得された時間を表す単純類似度は Ssimple = Xk {Xj M2 (Xj ) = k, j = 1,..., M } (2) ここで M2 は断片的な動画像に対してラベルを返す関数 k は統合された動画像に付けられたラベル M は獲得された断片的な動画像の個数を表す関数 M2 については 3.3 節で述べる図 5 に三台のカメラの下で二人の人物が歩行したときに段階的に対応付けされる流れを示す実システム上では顔画像は時間の経過と共に順に獲得される各カメラにおいて断片的な動画像を生成するために顔画像 x が獲得される毎に関数 M1 でラ cos2 θ で定義される θ は顔画像をラスタースキャンすることで変換されたベクトル同士のなす角度を表す関数 M1 は閾値 S1 を越え最も高い類似度が算出された断片的な動画像のラベルを返すまた算出された全ての類似度が S1 未満の場合新たな人物が表れたと判定し新たなラベルを返す対応付ける断片的な動画像が 1 個も蓄積されていない場合も新たなラベルを返す

8 3.3 M 2 S 7 (OMSM Orthogonal Mutual Subspace Method)[15] OMSM OMSM M 2 S2 S2 3.4 OMSM X [16] O P, Q P Q S θ (4) S = cos 2 θ (4) θ = 0 cos 2 θ R Ra = λa (5) R = (r mn ) (m, n = 1... D P ) (6) D Q r mn = (ψ m, φ l )(φ l, ψ n ) (7) l=1 ψ m, φ l P,Q m, l (ψ m, φ l ) ψ m φ l D P, D Q P, Q D P D Q 4 4.1 9 10 (a) (b) (c) (d) (e) (f) x 8 (i) (ii)3 [17] (iii) [18] 4.2 x 3 9 14 Joint Haar-like AdaBoost [19] [20] [21] 4.3 [20]

(i) without occlusion (ii) with occlusion 11 12 10(a) (b) 10(f) [20] 2 η (8) 13 η = η + β(p 1 P 2 ) (8) η P 1 P 2 1 2 β 2 (c) 2 (d) (e) 4.4 [20] 5 5.1 1 1 11(i),(ii) 3 (i) 3 (ii) 1024 768 pixels 7.5 1 7 14 12 64 64 [17] [18] 1024 (i) 76 (ii) 59 S1 (i) A 19 B 5 C 4 (ii) A 7 B 8 C 11 (ii) 5.2

2 1 Camera CMR(%) EER(%) C1 81.4 16.0 C2 92.6 7.2 C3 91.7 7.4 All 97.7 2.0 14 1 (i) (ii)349 2 7 (%) Camera (i) (ii) C1 14.8 12.0 C2 20.4 5.2 C3 19.3 5.4 All 54.5 1.6 349 3 (C1, C2, C3) 13 2 768 1024 pixels 15 1 4 14 1(i) 5.1 All C1, C2, C3 7 1024 7 7 0 1(ii) 349 2 7 C2, C3 C1 2 1. (CMR:Correct Match Rate) 2. (EER:Equal Error Rate) FAR( ) FRR( ) FAR F AR = (9) FRR F RR = (10) (1 ) 1 1 2 C1, C2, C3 All C2, C3 C1 1(ii) 7 All

98 CMR(%) 97 96 95 94 93 (i) without matching fragmented sequences (ii) with matching fragmented sequences (ii) ideal 92 91 15 10 90 89 10 20 30 40 50 60 70 80 90 100 Number of individuals M False Matching Rate(%) 9 8 7 6 5 4 3 2 1 0 10 20 30 40 50 60 70 80 90 100 Number of individuals M 17 EER(%) 8 7 6 5 4 (i) without matching fragmented sequences (ii) with matching fragmented sequences (ii) ideal 16 3 2 10 20 30 40 50 60 70 80 90 100 Number of individuals M C1, C2, C3 ( ) M M 1 15 349 M 1 10 M 2 2 S2 0 M 16 2 All 349 M CMR 17 EER 18 (i) 2 C1, C2, C3 (ii) 18 (iii) 2 All 16 CMR EER EER (i) (ii) 7 (iii) (ii) 10 (i) CMR EER 6 349

5 89.9% 94.2% 8.3% 4.2% [1],, D-II Vol. J80-D-II, No. 8, pp. 2031-2046, 1997 [2],,,, D-II Vol. J88-D-II, No. 8, pp. 1339-1348, 2005. [3],,,,,, FacePass, Vol. 56, No.7, pp.1111-1117, 2002 [4],,,,,,, FacePassenger, FIT2005 I-010 pp.27-28, 2005. [5],,,, M. Jones, J. Thornton,, 10, pp. 541-546, 2004. [6] Z. Yang, H. AI, B. Wu, S. Lao, and L. Cai, Face Pose Estimation and its Application in Video Shot Selection, International Conference on Pattern Recognition 2004, pp. 322-325, 2004. [7] R. Chellappa, V. Kruger, and S. Zhou, Probabilistic Recognition of Human Faces from Video, The IEEE International Conference on Image Processing, Vol. I, pp. 41-44, 2002. [8] K. S. Huang, and M. M. Trivedi, Streaming Face Recognition using Multicamera Video Arrays, International Conference on Pattern Recognition 2002, pp. 213-216, 2002. [9],,,,, :, Vol. 43, No. SIG 4(CVIM 4), pp.95-104, 2002. [10],,,,,, D-II, Vol.J84-D-II, No.8, pp.1772-1780, 2001. [11],,,, 8, pp. 319-324, 2002. [12],,,,, D-II, Vol.J84- D-II, No.3, pp.500-508, 2001. [13] J. G. Wang, R. Venkateswarlu, and E. T. Lim, Face tracking and recognition from stereo sequence, 4th International Conference on Audio- and Video-based Biometric Person Authentication, pp. 145-153, 2003. [14],,,,,,, PRMU2005-268, pp. 61-68, 2006. [15],,,, 2005-CVIM-151 (3), pp. 17-24, 2005. [16] E. Oja, Subspace Methods of Pattern Recognition, Research Studies Press, England, 1983 [17] T. Kozakaya, and O. Yamaguchi, Face Recognition by Projection-based 3D Normalization and Shading Subspace Orthogonalization, 7th International Conference Automatic Face and Gesture Recognition, 2006. [18] M. Nishiyama, and O. Yamaguchi, Face Recognition Using the Classified Appearance-based Quotient Image, 7th International Conference Automatic Face and Gesture Recognition, 2006. [19] T. Mita, T. Kaneko, and O. Hori, Joint Haar-like Features for Face Detection, Tenth IEEE International Conference on Computer Vision 2005, pp.1619-1626, 2005. [20],,, (D-II), Vol. J80-D-II, No. 8, pp. 2170-2177, Aug. 1997. [21],,,, 6 (SI2005), pp.1103-1104, 2005.