Geo A Survey on Image Recognition Using Geo-tag Information 1 48106417 Abstract Geo-tag is a type of metadata of various media such as photographs, videos, websites and more other media. In the case of photographs, Geo-tag is GPS coordinates where it was taken. In recent years, we have so many Geo-tagged images on the 2006 Web Flickr GPS Geo 2008 20 Geo Flickr photo sharing web site, such as Flickr. This paper shows some works, which apply geo-tag information to image recognition problem. GPS coordinates has only 2 values, latitude and longitude, a point on the earth. However, GPS coordinates has richer information than 2 dimension vector. We can consider GPS coordinates as a hint of more informative resources or some works apply GPS coordinates to latent semantic analysis. Geo-tag is also used to build the database concerning the sightseeing spot and the landmark. Moreover, there are some Geolocalization works; they estimate the place where an untagged image was taken. 1 Geo GPS 2 Exif Exchangeable image file Figure 1 Geo-tag of image format 1 Geo GPS GPS GPS Geo 2010 GoogleMaps Geo 2 Geo 1
Figure 2 Geo-tagged Image localize in Google Maps Geo semantic gap World Wide Web Flickr Geo GPS GPS Geo GPS Geo 4 Geo GPS GPS Geo Geo Geolocalization 2 Geo 2 Geo GPS Web GPS Luo GPS 2 GoogleEarth [10] 3 Geo 2
, GPS 3 25m, 50m, 150m bag-of-visualwords[3] SIFT [9] HSV, SVM Supprt Vector Machine multiboost tree classifier[6] SVM RBF SVM Luo Geo [12] Flickr Geo GPS plsa LDA GPS Geo Joshi Geonames GIS geographic information system GPS bag-of-geotag Geo [8] GIS GPS,, GIS GPS GPS bag-of-geotag (1) Geo GPS 20 Geonames (2) GPS k = 2 k-means (3) GPS (4) bag-of-geotag Figure 3 Event recognition of using third view I bag-of-geotag : G(I) = {w 1,w 2,...,w mi } 3
bag-of-geotag P(I,w) = P(I) P(w z)p(z I) (1) z,em z plsa Cristani Region (2) P(l,w) = P(l) z P(w z) P(z r)p(r l) (2) r l GPS r Region P(l,w) = P(l) z P(w z) P(z r)p(l r)p(r) (3) r p(l r) r GPS 5) Region Visual Figure 4 Event recognition framework of using geographic information system visualwords Geo EM 3 GPS GPS GPS GPS Cristani bag-ofvisualwords plsa Visual Region [2] plsa bagof-visualwords (1) plsa I P(I) Visual z P(z I) visual word w P(w z) (I,w) visual word Geo Geolocalization 4 Geo Flickr Geo Geo GPS 4
Figure 6 A geospatial grid is overlaid over the earth Gammeter らは Quack らの研究の根本的な発想を受け 継ぎ 観光地やランドマークを重視したデータベース構築 手法を提案した [5] この研究は 最初に Wikipedia の記事 Figure 5 distribution of region topics につけられている Geo タグ情報を利用し 全手順をすべて 自動化してデータベースを構築している が近い手頃な数の画像間のみで済ませるようにすれば 明 (1) wikipedia の記事で GPS 座標の情報が付いている記事 らかに類似度の低い大量の画像間での計算を行う回数が減 を見つけ その座標をシード座標とする 少し 効率的なデータベースの構築を行うことができると (2) 地球を格子状に分け シード座標で Flickr を検索し 考えられる シード座標を含む格子内にある画像を集めてくる Quack らは GPS 座標を用いた物体とイベント認識のた (3) 格子内で bag-of-visualwords を利用して k-means クラ めのデータベースの効率的な構築手法を提案した [11] こ スタリングを行ない オブジェクトクラスタを作る の手法では 地球を分割する 100m ごとの格子を与え そ (4) オブジェクトクラスタの写真についているタグを利用 の内部でのみ高次元の画像特徴量を用いた計算を行ってい して オブジェクトクラスタへのラベル付けを行う る 図 6 以下のような手順によって 地球規模の大規模 なデータベースを構築している この研究では このようにして構築されたデータベース (1) 地球を格子状に分け 各格子の中心の緯度経度を求め 内の最近傍探索を行うことで クエリ画像に写っている物 る 求めた緯度経度で Flickr を検索し 格子内にある 体の認識が行えるようにしている この研究は 各ランド 画像を集めてくる マークを表す特徴点をクエリ画像から検出し それらの点 を囲うバウンディングボックスも表示するという 物体検 (2) 格子内では SURF[1] による bag-of-visualwords を画像 出の領域にまで踏み込んだ研究となっている 図 7 特徴量として用いてクラスタリングを行ない それら Zheng らは 画像の GPS 座標を用いて効率的に観光地の のクラスタがオブジェクト 建物や像など かイベン データベースを構築する手法を提案した [14] 先の 2 つの ト コンサートやお祭りなど かを人手で判別する 研究と発想は似ているが この研究では格子ではなく GPS (3) クラスタの写真についているタグを利用して クラス 座標のみによるクラスタリングを行うことで近い位置に タへのラベル付を行う 存在している画像のクラスタを作っている この手法は (4) ラベルで Wikipedia の記事を検索し その記事を各ク GPS 座標が近い画像であれば 特に観光地に関しては 似 ラスタに関連させる 5
Figure 7 landmark recognition and detection Hay 650 Geo Geolocalization 8 GPS 1 GPS wikitravel 5 Geolocalization Geo Geolocalization Hays 1 Geo GPS [7] Flickr Geo, cameraphone GPS Gallagher IM2GPS [4] Flickr IM2GPS Geolocalization semantic gap Geolocalization Zamir Google Geolocalization [13] Google 12 Google 12 6
Figure 8 Results of IM2GPS 分布している また 民生用の GPS 機器より正確な位 計算してしまうも避けたい そこで地理的な距離が一定以 置を得ることができる 上離れている画像間で似た特徴が得られる場合 その特徴 多少の歪みはあるものの 視点を限定すれば 一般的 は地理的な特徴ではないと考え除去するという方法を採っ なレンズで撮影した写真と同様の画像を簡単に得るこ ている つまり GPS 座標を手がかりに 必要十分な画像特 とができる 徴を得ることに成功しているのである GoogleMaps の多機能されたデータセットは 様々なア 6 まとめ プリケーションへの拡張を容易にしてくれると予想さ 本稿では Geo タグ情報が画像認識に及ぼした影響と そ れる 例えば Geolocalization によってカメラの地理 れを利用した研究について述べた GPS 座標自体が潜在的 的な位置が分かれば その地点でのストリートビュー に持っている情報や GPS 座標から得られる 2 次的な情報を の視点を動かして得られる画像とクエリ画像の間で 利用する研究や 地理的な区画を利用して効率的にデータ 簡単なマッチングを行えば カメラの東西南北や上下 ベースを構築する研究 そして Geo タグのついていない画 の姿勢までもが分かることになる 今現在のデジタル 像の地理的な位置を推定する Geolocalization に関する研究 カメラではカメラ自身の姿勢を記録することはできな について述べた いが この研究を用いれば 十分可能になると考えら 現在のところ画像における Geo タグは GPS 座標と同義 れる であるが 画像フォーマットのどのように変化するのか 撮 一方でデータセットが巨大で 通行人や車が写っている事 影デバイスにどのようなセンサを搭載されるのか あるい が多いなどといった欠点も抱えている は どのような画像共有サービスが生まれるのか という 筆者らはデータセットとして 200km の道路の 12 メー こといった事情によって 今後 GPS 座標以外の情報も含む トルごと各地点についての前後/側面/天頂という 5 枚の画 ようになるはずである 例えば 近年の標準的な携帯電話 像とその地点の GPS 座標のセットを作成している 図 9 やスマートフォンには電子コンパスが搭載されており カ データベースが巨大になるため 比較に使用する SIFT 特 メラの地理的な向きに関する情報を得ることは現在でも技 徴を減らす必要がある上 Google ストリートビューでは通 術的には問題なく出来ると思われる より豊かな Geo タグ 行人や車なども写っているため それらの特徴で類似度を が利用出来るようになれば より高度な画像認識を行うこ 7
Figure 9 Dataset of Google Street View [1] H. Bay, T. Tuytelaars, and L. Van Gool. Surf: Speeded up robust features. Computer Vision ECCV 2006, pp. 404 417, 2006. [2] M. Cristani, A. Perina, U. Castellani, and V. Murino. Geo-located image analysis using latent representations. In Computer Vision and Pattern Recognition, 2008. CVPR 2008. IEEE Conference on, pp. 1 8. IEEE, 2008. [3] G. Csurka, C. Dance, L. Fan, J. Willamowski, and C. Bray. Visual categorization with bags of keypoints. In Workshop on statistical learning in computer vision, ECCV, Vol. 1, p. 22. Citeseer, 2004. [4] A. Gallagher, D. Joshi, J. Yu, and J. Luo. Geo-location inference from image content and user tags. 2009. [5] S. Gammeter, L. Bossard, T. Quack, and L.V. Gool. I know what you did last summer: object-level autoannotation of holiday snaps. In Computer Vision, 2009 IEEE 12th International Conference on, pp. 614 621. IEEE, 2010. [6] W. Hao and J. Luo. Generalized multiclass adaboost and its applications to multimedia classification. 2006. [7] J. Hays and A.A. Efros. IM2GPS: estimating geographic information from a single image. In Computer Vision and Pattern Recognition, 2008. CVPR 2008. IEEE Conference on, pp. 1 8. IEEE, 2008. [8] D. Joshi and J. Luo. Inferring generic activities and events from image content and bags of geo-tags. In Proceedings of the 2008 international conference on Content-based image and video retrieval, pp. 37 46. ACM, 2008. [9] D.G. Lowe. Distinctive image features from scaleinvariant keypoints. International journal of computer vision, Vol. 60, No. 2, pp. 91 110, 2004. [10] J. Luo, J. Yu, D. Joshi, and W. Hao. Event recognition: viewing the world with a third eye. In Proceeding of the 16th ACM international conference on Multimedia, pp. 1071 1080. ACM, 2008. [11] T. Quack, B. Leibe, and L. Van Gool. World-scale mining of objects and events from community photo collections. In Proceedings of the 2008 international conference on Content-based image and video retrieval, pp. 47 56. ACM, 2008. [12] K. Yaegashi and K. Yanai. Can Geotags Help Image Recognition? Advances in Image and Video Technology, pp. 361 373, 2009. [13] A. Zamir and M. Shah. Accurate Image Localization Based on Google Maps Street View. Computer Vision ECCV 2010, pp. 255 268, 2010. 8
[14] Y.T. Zheng, M. Zhao, Y. Song, H. Adam, U. Buddemeier, A. Bissacco, F. Brucher, T.S. Chua, and H. Neven. Tour the world: building a web-scale landmark recognition engine. In Computer Vision and Pattern Recognition, 2009. CVPR 2009. IEEE Conference on, pp. 1085 1092. IEEE, 2009. 9