A Survey on Image Recognition Using Geo-tag Information

Similar documents
LBP 2 LBP 2. 2 Local Binary Pattern Local Binary pattern(lbp) [6] R

2. 30 Visual Words TF-IDF Lowe [4] Scale-Invarient Feature Transform (SIFT) Bay [1] Speeded Up Robust Features (SURF) SIFT 128 SURF 64 Visual Words Ni

3 2 2 (1) (2) (3) (4) 4 4 AdaBoost 2. [11] Onishi&Yoda [8] Iwashita&Stoica [5] 4 [3] 3. 3 (1) (2) (3)

(MIRU2008) HOG Histograms of Oriented Gradients (HOG)

28 TCG SURF Card recognition using SURF in TCG play video

IPSJ SIG Technical Report Vol.2012-CG-149 No.13 Vol.2012-CVIM-184 No /12/4 3 1,a) ( ) DB 3D DB 2D,,,, PnP(Perspective n-point), Ransa

SICE東北支部研究集会資料(2013年)

(a) 1 (b) 3. Gilbert Pernicka[2] Treibitz Schechner[3] Narasimhan [4] Kim [5] Nayar [6] [7][8][9] 2. X X X [10] [11] L L t L s L = L t + L s

1 Web [2] Web [3] [4] [5], [6] [7] [8] S.W. [9] 3. MeetingShelf Web MeetingShelf MeetingShelf (1) (2) (3) (4) (5) Web MeetingShelf

258 5) GPS 1 GPS 6) GPS DP 7) 8) 10) GPS GPS ) GPS Global Positioning System

1 Fig. 1 Extraction of motion,.,,, 4,,, 3., 1, 2. 2.,. CHLAC,. 2.1,. (256 ).,., CHLAC. CHLAC, HLAC. 2.3 (HLAC ) r,.,. HLAC. N. 2 HLAC Fig. 2

& Vol.5 No (Oct. 2015) TV 1,2,a) , Augmented TV TV AR Augmented Reality 3DCG TV Estimation of TV Screen Position and Ro

28 Horizontal angle correction using straight line detection in an equirectangular image

29 jjencode JavaScript

Core Ethics Vol. a

Microsoft PowerPoint - SSII_harada pptx

(VKIR) VKIR VKIR DCT (R) (G) (B) Ward DCT i

WebRTC P2P Web Proxy P2P Web Proxy WebRTC WebRTC Web, HTTP, WebRTC, P2P i

Web Web Web Web Web, i

DEIM Forum 2012 E Web Extracting Modification of Objec

(b) BoF codeword codeword BoF (c) BoF Fergus Weber [11] Weber [12] Weber Fergus BoF (b) Fergus [13] Fergus 2. Fergus 2. 1 Fergus [3]

1 (PCA) 3 2 P.Viola 2) Viola AdaBoost 1 Viola OpenCV 3) Web OpenCV T.L.Berg PCA kpca LDA k-means 4) Berg 95% Berg Web k-means k-means

08-特集04.indd

WASEDA RILAS JOURNAL

<95DB8C9288E397C389C88A E696E6462>

untitled

10_細川直史.indd

DEIM Forum 2009 C8-4 QA NTT QA QA QA 2 QA Abstract Questions Recomme

IPSJ SIG Technical Report Vol.2013-CVIM-187 No /5/30 1,a) 1,b), 1,,,,,,, (DNN),,,, 2 (CNN),, 1.,,,,,,,,,,,,,,,,,, [1], [6], [7], [12], [13]., [

2. Apple iphoto 1 Google Picasa 2 Calendar for Everything [1] PLUM [2] LifelogViewer 3 1 Apple iphoto, 2 Goo

IPSJ SIG Technical Report PIN(Personal Identification Number) An Examination of Icon-based User Authentication Method for Mobile Terminals Fum

16−ª1“ƒ-07‘¬ŠÑ

Microsoft PowerPoint - pr_12_template-bs.pptx

橡最終原稿.PDF

Journal of Geography 116 (6) Configuration of Rapid Digital Mapping System Using Tablet PC and its Application to Obtaining Ground Truth

16_.....E...._.I.v2006


DPA,, ShareLog 3) 4) 2.2 Strino Strino STRain-based user Interface with tacticle of elastic Natural ObjectsStrino 1 Strino ) PC Log-Log (2007 6)

WikiWeb Wiki Web Wiki 2. Wiki 1 STAR WARS [3] Wiki Wiki Wiki 2 3 Wiki 5W1H Wiki Web 2.2 5W1H 5W1H 5W1H 5W1H 5W1H 5W1H 5W1H 2.3 Wiki 2015 Informa

IPSJ SIG Technical Report Vol.2009-DPS-141 No.20 Vol.2009-GN-73 No.20 Vol.2009-EIP-46 No /11/27 1. MIERUKEN 1 2 MIERUKEN MIERUKEN MIERUKEN: Spe

17 Proposal of an Algorithm of Image Extraction and Research on Improvement of a Man-machine Interface of Food Intake Measuring System

IPSJ SIG Technical Report Vol.2013-HCI-152 No /3/13 1,a) 1,b) 2,c) / GPS Bluetooth(BT) WiFi BT WiFi 1. Bluetooth WiFi 1 / 1 2 a)

1., 1 COOKPAD 2, Web.,,,,,,.,, [1]., 5.,, [2].,,.,.,, 5, [3].,,,.,, [4], 33,.,,.,,.. 2.,, 3.., 4., 5., ,. 1.,,., 2.,. 1,,

21 e-learning Development of Real-time Learner Detection System for e-learning

Google Social Influences and Legal Issues of Google Street View Hiroshi Takada

Lytro [11] The Franken Camera [12] 2.2 Creative Coding Community Creative Coding Community [13]-[19] Sketch Fork 2.3 [20]-[23] 3. ourcam 3.1 ou

(a) (b) 1 JavaScript Web Web Web CGI Web Web JavaScript Web mixi facebook SNS Web URL ID Web 1 JavaScript Web 1(a) 1(b) JavaScript & Web Web Web Webji

生研ニュースNo.132

[1] SBS [2] SBS Random Forests[3] Random Forests ii

D-Cubis [5] [6] 3D D-Cubis PasQ( ) PasQ PasQ Web HotMedia HotMedia [7] IBM Java 3D Audio 360 Web HotMedia PanoramaStudio Panorama

Webサービス本格活用のための設計ポイント

kut-paper-template.dvi

Web Hashtag Hashtag Twitter Hashtag Twitter Hashtag Hashtag Hashtag Twitter Hashtag Twitter Hashtag contexthashtag contexthashtag Hashtag contexthasht

,,.,.,,.,.,.,.,,.,..,,,, i

”Лï−wŁfl‰IŠv‚æ89“ƒ/‚qfic“NŸH

ÿþ

The copyright of this material is retained by the Information Processing Society of Japan (IPSJ). The material has been made available on the website


22 1,936, ,115, , , , , , ,

1: DTS r 1, r 2 v ρ(x) = π(r1 2 r2) 2 dr dt 1 v x (2) t=x/v DTS [2] wt% KCl %/ 2 3 5wt% NaCl 3wt% ( ) 2 45 NaCl 300Hz 4-1.3%/ [2]

Transcription:

Geo A Survey on Image Recognition Using Geo-tag Information 1 48106417 Abstract Geo-tag is a type of metadata of various media such as photographs, videos, websites and more other media. In the case of photographs, Geo-tag is GPS coordinates where it was taken. In recent years, we have so many Geo-tagged images on the 2006 Web Flickr GPS Geo 2008 20 Geo Flickr photo sharing web site, such as Flickr. This paper shows some works, which apply geo-tag information to image recognition problem. GPS coordinates has only 2 values, latitude and longitude, a point on the earth. However, GPS coordinates has richer information than 2 dimension vector. We can consider GPS coordinates as a hint of more informative resources or some works apply GPS coordinates to latent semantic analysis. Geo-tag is also used to build the database concerning the sightseeing spot and the landmark. Moreover, there are some Geolocalization works; they estimate the place where an untagged image was taken. 1 Geo GPS 2 Exif Exchangeable image file Figure 1 Geo-tag of image format 1 Geo GPS GPS GPS Geo 2010 GoogleMaps Geo 2 Geo 1

Figure 2 Geo-tagged Image localize in Google Maps Geo semantic gap World Wide Web Flickr Geo GPS GPS Geo GPS Geo 4 Geo GPS GPS Geo Geo Geolocalization 2 Geo 2 Geo GPS Web GPS Luo GPS 2 GoogleEarth [10] 3 Geo 2

, GPS 3 25m, 50m, 150m bag-of-visualwords[3] SIFT [9] HSV, SVM Supprt Vector Machine multiboost tree classifier[6] SVM RBF SVM Luo Geo [12] Flickr Geo GPS plsa LDA GPS Geo Joshi Geonames GIS geographic information system GPS bag-of-geotag Geo [8] GIS GPS,, GIS GPS GPS bag-of-geotag (1) Geo GPS 20 Geonames (2) GPS k = 2 k-means (3) GPS (4) bag-of-geotag Figure 3 Event recognition of using third view I bag-of-geotag : G(I) = {w 1,w 2,...,w mi } 3

bag-of-geotag P(I,w) = P(I) P(w z)p(z I) (1) z,em z plsa Cristani Region (2) P(l,w) = P(l) z P(w z) P(z r)p(r l) (2) r l GPS r Region P(l,w) = P(l) z P(w z) P(z r)p(l r)p(r) (3) r p(l r) r GPS 5) Region Visual Figure 4 Event recognition framework of using geographic information system visualwords Geo EM 3 GPS GPS GPS GPS Cristani bag-ofvisualwords plsa Visual Region [2] plsa bagof-visualwords (1) plsa I P(I) Visual z P(z I) visual word w P(w z) (I,w) visual word Geo Geolocalization 4 Geo Flickr Geo Geo GPS 4

Figure 6 A geospatial grid is overlaid over the earth Gammeter らは Quack らの研究の根本的な発想を受け 継ぎ 観光地やランドマークを重視したデータベース構築 手法を提案した [5] この研究は 最初に Wikipedia の記事 Figure 5 distribution of region topics につけられている Geo タグ情報を利用し 全手順をすべて 自動化してデータベースを構築している が近い手頃な数の画像間のみで済ませるようにすれば 明 (1) wikipedia の記事で GPS 座標の情報が付いている記事 らかに類似度の低い大量の画像間での計算を行う回数が減 を見つけ その座標をシード座標とする 少し 効率的なデータベースの構築を行うことができると (2) 地球を格子状に分け シード座標で Flickr を検索し 考えられる シード座標を含む格子内にある画像を集めてくる Quack らは GPS 座標を用いた物体とイベント認識のた (3) 格子内で bag-of-visualwords を利用して k-means クラ めのデータベースの効率的な構築手法を提案した [11] こ スタリングを行ない オブジェクトクラスタを作る の手法では 地球を分割する 100m ごとの格子を与え そ (4) オブジェクトクラスタの写真についているタグを利用 の内部でのみ高次元の画像特徴量を用いた計算を行ってい して オブジェクトクラスタへのラベル付けを行う る 図 6 以下のような手順によって 地球規模の大規模 なデータベースを構築している この研究では このようにして構築されたデータベース (1) 地球を格子状に分け 各格子の中心の緯度経度を求め 内の最近傍探索を行うことで クエリ画像に写っている物 る 求めた緯度経度で Flickr を検索し 格子内にある 体の認識が行えるようにしている この研究は 各ランド 画像を集めてくる マークを表す特徴点をクエリ画像から検出し それらの点 を囲うバウンディングボックスも表示するという 物体検 (2) 格子内では SURF[1] による bag-of-visualwords を画像 出の領域にまで踏み込んだ研究となっている 図 7 特徴量として用いてクラスタリングを行ない それら Zheng らは 画像の GPS 座標を用いて効率的に観光地の のクラスタがオブジェクト 建物や像など かイベン データベースを構築する手法を提案した [14] 先の 2 つの ト コンサートやお祭りなど かを人手で判別する 研究と発想は似ているが この研究では格子ではなく GPS (3) クラスタの写真についているタグを利用して クラス 座標のみによるクラスタリングを行うことで近い位置に タへのラベル付を行う 存在している画像のクラスタを作っている この手法は (4) ラベルで Wikipedia の記事を検索し その記事を各ク GPS 座標が近い画像であれば 特に観光地に関しては 似 ラスタに関連させる 5

Figure 7 landmark recognition and detection Hay 650 Geo Geolocalization 8 GPS 1 GPS wikitravel 5 Geolocalization Geo Geolocalization Hays 1 Geo GPS [7] Flickr Geo, cameraphone GPS Gallagher IM2GPS [4] Flickr IM2GPS Geolocalization semantic gap Geolocalization Zamir Google Geolocalization [13] Google 12 Google 12 6

Figure 8 Results of IM2GPS 分布している また 民生用の GPS 機器より正確な位 計算してしまうも避けたい そこで地理的な距離が一定以 置を得ることができる 上離れている画像間で似た特徴が得られる場合 その特徴 多少の歪みはあるものの 視点を限定すれば 一般的 は地理的な特徴ではないと考え除去するという方法を採っ なレンズで撮影した写真と同様の画像を簡単に得るこ ている つまり GPS 座標を手がかりに 必要十分な画像特 とができる 徴を得ることに成功しているのである GoogleMaps の多機能されたデータセットは 様々なア 6 まとめ プリケーションへの拡張を容易にしてくれると予想さ 本稿では Geo タグ情報が画像認識に及ぼした影響と そ れる 例えば Geolocalization によってカメラの地理 れを利用した研究について述べた GPS 座標自体が潜在的 的な位置が分かれば その地点でのストリートビュー に持っている情報や GPS 座標から得られる 2 次的な情報を の視点を動かして得られる画像とクエリ画像の間で 利用する研究や 地理的な区画を利用して効率的にデータ 簡単なマッチングを行えば カメラの東西南北や上下 ベースを構築する研究 そして Geo タグのついていない画 の姿勢までもが分かることになる 今現在のデジタル 像の地理的な位置を推定する Geolocalization に関する研究 カメラではカメラ自身の姿勢を記録することはできな について述べた いが この研究を用いれば 十分可能になると考えら 現在のところ画像における Geo タグは GPS 座標と同義 れる であるが 画像フォーマットのどのように変化するのか 撮 一方でデータセットが巨大で 通行人や車が写っている事 影デバイスにどのようなセンサを搭載されるのか あるい が多いなどといった欠点も抱えている は どのような画像共有サービスが生まれるのか という 筆者らはデータセットとして 200km の道路の 12 メー こといった事情によって 今後 GPS 座標以外の情報も含む トルごと各地点についての前後/側面/天頂という 5 枚の画 ようになるはずである 例えば 近年の標準的な携帯電話 像とその地点の GPS 座標のセットを作成している 図 9 やスマートフォンには電子コンパスが搭載されており カ データベースが巨大になるため 比較に使用する SIFT 特 メラの地理的な向きに関する情報を得ることは現在でも技 徴を減らす必要がある上 Google ストリートビューでは通 術的には問題なく出来ると思われる より豊かな Geo タグ 行人や車なども写っているため それらの特徴で類似度を が利用出来るようになれば より高度な画像認識を行うこ 7

Figure 9 Dataset of Google Street View [1] H. Bay, T. Tuytelaars, and L. Van Gool. Surf: Speeded up robust features. Computer Vision ECCV 2006, pp. 404 417, 2006. [2] M. Cristani, A. Perina, U. Castellani, and V. Murino. Geo-located image analysis using latent representations. In Computer Vision and Pattern Recognition, 2008. CVPR 2008. IEEE Conference on, pp. 1 8. IEEE, 2008. [3] G. Csurka, C. Dance, L. Fan, J. Willamowski, and C. Bray. Visual categorization with bags of keypoints. In Workshop on statistical learning in computer vision, ECCV, Vol. 1, p. 22. Citeseer, 2004. [4] A. Gallagher, D. Joshi, J. Yu, and J. Luo. Geo-location inference from image content and user tags. 2009. [5] S. Gammeter, L. Bossard, T. Quack, and L.V. Gool. I know what you did last summer: object-level autoannotation of holiday snaps. In Computer Vision, 2009 IEEE 12th International Conference on, pp. 614 621. IEEE, 2010. [6] W. Hao and J. Luo. Generalized multiclass adaboost and its applications to multimedia classification. 2006. [7] J. Hays and A.A. Efros. IM2GPS: estimating geographic information from a single image. In Computer Vision and Pattern Recognition, 2008. CVPR 2008. IEEE Conference on, pp. 1 8. IEEE, 2008. [8] D. Joshi and J. Luo. Inferring generic activities and events from image content and bags of geo-tags. In Proceedings of the 2008 international conference on Content-based image and video retrieval, pp. 37 46. ACM, 2008. [9] D.G. Lowe. Distinctive image features from scaleinvariant keypoints. International journal of computer vision, Vol. 60, No. 2, pp. 91 110, 2004. [10] J. Luo, J. Yu, D. Joshi, and W. Hao. Event recognition: viewing the world with a third eye. In Proceeding of the 16th ACM international conference on Multimedia, pp. 1071 1080. ACM, 2008. [11] T. Quack, B. Leibe, and L. Van Gool. World-scale mining of objects and events from community photo collections. In Proceedings of the 2008 international conference on Content-based image and video retrieval, pp. 47 56. ACM, 2008. [12] K. Yaegashi and K. Yanai. Can Geotags Help Image Recognition? Advances in Image and Video Technology, pp. 361 373, 2009. [13] A. Zamir and M. Shah. Accurate Image Localization Based on Google Maps Street View. Computer Vision ECCV 2010, pp. 255 268, 2010. 8

[14] Y.T. Zheng, M. Zhao, Y. Song, H. Adam, U. Buddemeier, A. Bissacco, F. Brucher, T.S. Chua, and H. Neven. Tour the world: building a web-scale landmark recognition engine. In Computer Vision and Pattern Recognition, 2009. CVPR 2009. IEEE Conference on, pp. 1085 1092. IEEE, 2009. 9