2. 30 Visual Words TF-IDF Lowe [4] Scale-Invarient Feature Transform (SIFT) Bay [1] Speeded Up Robust Features (SURF) SIFT 128 SURF 64 Visual Words Ni

Similar documents
SICE東北支部研究集会資料(2013年)

LBP 2 LBP 2. 2 Local Binary Pattern Local Binary pattern(lbp) [6] R

(MIRU2008) HOG Histograms of Oriented Gradients (HOG)

情報処理学会研究報告 IPSJ SIG Technical Report Vol.2013-CVIM-186 No /3/15 EMD 1,a) SIFT. SIFT Bag-of-keypoints. SIFT SIFT.. Earth Mover s Distance

THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS TECHNICAL REPORT OF IEICE. TRECVID2012 Instance Search {sak

(MIRU2010) Geometric Context Randomized Trees Geometric Context Rand

bag-of-words bag-of-keypoints Web bagof-keypoints Nearest Neighbor SVM Nearest Neighbor SIFT Nearest Neighbor bag-of-keypoints Nearest Neighbor SVM 84

(MIRU2009) cuboid cuboid SURF 6 85% Web. Web Abstract Extracting Spatio-te

yoo_graduation_thesis.dvi

Google Goggles [1] Google Goggles Android iphone web Google Goggles Lee [2] Lee iphone () [3] [4] [5] [6] [7] [8] [9] [10] :

情報処理学会研究報告 い認識率を示す事が出来なかったと報告している 視覚特徴量としては SIFT や SURF のような局所的な 領域から特徴量を抽出する方法がある [4] [5] これらの 特徴量とフローベクトルを使いダイナミックなシーンの分 類を行う手法が提案されている しかし これらの画像特

IPSJ SIG Technical Report Vol.2017-CVIM-205 No /1/ Content-based Image Retrieval(CBIR) CBIR RANSAC (Local feature hashing) 1000 A geo

光学

IPSJ SIG Technical Report Vol.2010-CVIM-170 No /1/ Visual Recognition of Wire Harnesses for Automated Wiring Masaki Yoneda, 1 Ta

Duplicate Near Duplicate Intact Partial Copy Original Image Near Partial Copy Near Partial Copy with a background (a) (b) 2 1 [6] SIFT SIFT SIF

28 TCG SURF Card recognition using SURF in TCG play video

28 Horizontal angle correction using straight line detection in an equirectangular image

A Survey on Image Recognition Using Geo-tag Information

DEIM Forum 2019 A7-1 Flexible Distance-based Hashing mori

IPSJ SIG Technical Report Vol.2011-CVIM-177 No /5/ TRECVID2010 SURF Bag-of-Features 1 TRECVID SVM 700% MKL-SVM 883% TRECVID2010 MKL-SVM A

WISS Woodman Labs GoPro 1 [5, 3, 2] Copyright is held by the author(s). 1 GoPro GoPro 2 6 GoPro RICOH THETA 3 Kodak P

FoodLog [3] TADAproject [4] Google Goggles 1 Kumar [5] () Leaf snap Maruyama [6] 3 Lee [7] Yu [8] Gist SVM Active Query Sensing(AQS)

SURF,,., 55%,.,., SURF(Speeded Up Robust Features), 4 (,,, ), SURF.,, 84%, 96%, 28%, 32%.,,,. SURF, i

2.2 6).,.,.,. Yang, 7).,,.,,. 2.3 SIFT SIFT (Scale-Invariant Feature Transform) 8).,. SIFT,,. SIFT, Mean-Shift 9)., SIFT,., SIFT,. 3.,.,,,,,.,,,., 1,

24 Region-Based Image Retrieval using Fuzzy Clustering

27 (2015)

IPSJ SIG Technical Report Vol.2012-CG-149 No.13 Vol.2012-CVIM-184 No /12/4 3 1,a) ( ) DB 3D DB 2D,,,, PnP(Perspective n-point), Ransa

IPSJ SIG Technical Report Vol.2010-MPS-77 No /3/5 VR SIFT Virtual View Generation in Hallway of Cybercity Buildings from Video Sequen

(VKIR) VKIR VKIR DCT (R) (G) (B) Ward DCT i

Convolutional Neural Network A Graduation Thesis of College of Engineering, Chubu University Investigation of feature extraction by Convolution

3 2 2 (1) (2) (3) (4) 4 4 AdaBoost 2. [11] Onishi&Yoda [8] Iwashita&Stoica [5] 4 [3] 3. 3 (1) (2) (3)

DEIM Forum 2014 P Web Web,,, 1. Web Web 1 Web Web Web. 2 3 Web

IPSJ SIG Technical Report GPS LAN GPS LAN GPS LAN Location Identification by sphere image and hybrid sensing Takayuki Katahira, 1 Yoshio Iwai 1

IPSJ SIG Technical Report iphone iphone,,., OpenGl ES 2.0 GLSL(OpenGL Shading Language), iphone GPGPU(General-Purpose Computing on Graphics Proc

2. Apple iphoto 1 Google Picasa 2 Calendar for Everything [1] PLUM [2] LifelogViewer 3 1 Apple iphoto, 2 Goo

IPSJ SIG Technical Report Vol.2014-MBL-70 No.46 Vol.2014-UBI-41 No /3/15 1,a) 1,b) 1,c) 6 Assist of Sharing the Experiences in Library using Mu

,,.,.,,.,.,.,.,,.,..,,,, i


No. 3 Oct The person to the left of the stool carried the traffic-cone towards the trash-can. α α β α α β α α β α Track2 Track3 Track1 Track0 1

IPSJ SIG Technical Report Vol.2013-CVIM-187 No /5/30 1,a) 1,b), 1,,,,,,, (DNN),,,, 2 (CNN),, 1.,,,,,,,,,,,,,,,,,, [1], [6], [7], [12], [13]., [

AHPを用いた大相撲の新しい番付編成

DEIM Forum 2012 E Web Extracting Modification of Objec

(4) ω t(x) = 1 ω min Ω ( (I C (y))) min 0 < ω < C A C = 1 (5) ω (5) t transmission map tmap 1 4(a) t 4(a) t tmap RGB 2 (a) RGB (A), (B), (C)

Microsoft Word - toyoshima-deim2011.doc

[1] SBS [2] SBS Random Forests[3] Random Forests ii

Sobel Canny i

( 1) 3. Hilliges 1 Fig. 1 Overview image of the system 3) PhotoTOC 5) 1993 DigitalDesk 7) DigitalDesk Koike 2) Microsoft J.Kim 4). 2 c 2010

WISS 2018 [2 4] [5,6] Query-by-Dancing Query-by- Dancing Cao [1] OpenPose 2 Ghias [7] Query by humming Chen [8] Query by rhythm Jang [9] Query-by-tapp

IPSJ SIG Technical Report Vol.2014-HCI-158 No /5/22 1,a) 2 2 3,b) Development of visualization technique expressing rainfall changing conditions

DEIM Forum 2019 H Web 1 Tripadvisor

IPSJ SIG Technical Report Vol.2017-MUS-116 No /8/24 MachineDancing: 1,a) 1,b) 3 MachineDancing MachineDancing MachineDancing 1 MachineDan

IS1-09 第 回画像センシングシンポジウム, 横浜,14 年 6 月 2 Hough Forest Hough Forest[6] Random Forest( [5]) Random Forest Hough Forest Hough Forest 2.1 Hough Forest 1 2.2


IPSJ SIG Technical Report 1,a) 1,b) 1,c) 1,d) 2,e) 2,f) 2,g) 1. [1] [2] 2 [3] Osaka Prefecture University 1 1, Gakuencho, Naka, Sakai,

,255 7, ,355 4,452 3,420 3,736 8,206 4, , ,992 6, ,646 4,

DEIM Forum 2013 B6-3 MAP Web MAP Implementation and Ev

IPSJ SIG Technical Report Vol.2010-CVIM-171 No /3/19 1. Web 1 1 Web Web Web Multiple Kernel Learning(MKL) Web ( ) % MKL 68.8% Extractin

DEIM Forum 2017 E Netflix (Video on Demand) IP 4K [1] Video on D

& 3 3 ' ' (., (Pixel), (Light Intensity) (Random Variable). (Joint Probability). V., V = {,,, V }. i x i x = (x, x,, x V ) T. x i i (State Variable),

Microsoft Word - deim論文2.docx

1 (PCA) 3 2 P.Viola 2) Viola AdaBoost 1 Viola OpenCV 3) Web OpenCV T.L.Berg PCA kpca LDA k-means 4) Berg 95% Berg Web k-means k-means

情報処理学会研究報告 プレートマッチングによりリアルタイムに物体検出や追跡 を行うアプリケーションが提案されるなど近年モバイルと 画像認識の研究が盛んに行われている 本研究では視覚的 変化の大きい料理に対してスマートフォンの計算資源のみ を用いてリアルタイムに料理認識を行う ユーザインタラクティブな

RANSAC RANSAC Amerini [8] RANSAC LO-RANSAC(Locally Optimized RANSAC)[9] LO-RANSAC 2.2 SIFT SIFT SIFT 128 SIFT SIFT SIFT SIFT p i p j d ij SIF

paper.dvi

1 Kinect for Windows M = [X Y Z] T M = [X Y Z ] T f (u,v) w 3.2 [11] [7] u = f X +u Z 0 δ u (X,Y,Z ) (5) v = f Y Z +v 0 δ v (X,Y,Z ) (6) w = Z +

4. C i k = 2 k-means C 1 i, C 2 i 5. C i x i p [ f(θ i ; x) = (2π) p 2 Vi 1 2 exp (x µ ] i) t V 1 i (x µ i ) 2 BIC BIC = 2 log L( ˆθ i ; x i C i ) + q

% 2 3 [1] Semantic Texton Forests STFs [1] ( ) STFs STFs ColorSelf-Simlarity CSS [2] ii

図 2: 高周波成分を用いた超解像 解像度度画像とそれらを低解像度化して得られる 低解像度画像との差により低解像度の高周波成分 を得る 高解像度と低解像度の高周波成分から位 置関係を保ったままパッチ領域をそれぞれ切り出 し 高解像度パッチ画像と低解像度パッチ画像の ペアとしてデータベースに登録する

IPSJ SIG Technical Report Vol.2015-CVIM-195 No /1/23 RGB-D RGB 3 1,a) RGB-D RGB-D 3. RGB CG RGB DTAM[1] MonoFusi

す 局所領域 ωk において 線形変換に用いる係数 (ak 画素の係数 (ak bk ) を算出し 入力画像の信号成分を bk ) は次式のコスト関数 E を最小化するように最適化 有さない画素に対して 式 (2) より画素値を算出する される これにより 低解像度な画像から補間によるアップサ E(

2 3, 4, [1] [2] [3]., [4], () [3], [5]. Mel Frequency Cepstral Coefficients (MFCC) [9] Logan [4] MFCC MFCC Flexer [10] Bogdanov2010 [3] [14],,,

Computer Security Symposium October ,a) 1,b) Microsoft Kinect Kinect, Takafumi Mori 1,a) Hiroaki Kikuchi 1,b) [1] 1 Meiji U

Gaze Head Eye (a) deg (b) 45 deg (c) 9 deg 1: - 1(b) - [5], [6] [7] Stahl [8], [9] Fang [1], [11] Itti [12] Itti [13] [7] Fang [1],

JFE.dvi

( 1) [10], [11] [10], [11] 2 N O(2 N ) N 1 2 1!"#$ %&'()$ "*)+),('$ -(./)'$ 01--2*3$&-24(,$ 52*4(.$26.&%&.3$ [6] [5] 2. [10], [11] 2. 1 [12] [15] [14]

DEIM Forum 2014 P3-3 A Foreseeing System of Search Results based on Query Operations on the Graph Interface

Microsoft PowerPoint - pr_12_template-bs.pptx

Silhouette on Image Object Silhouette on Images Object 1 Fig. 1 Visual cone Fig. 2 2 Volume intersection method Fig. 3 3 Background subtraction Fig. 4

BDH Cao BDH BDH Cao Cao Cao BDH ()*$ +,-+.)*$!%&'$!"#$ 2. 1 Weng [4] Metric Learning Weng DB DB Yang [5] John [6] Sparse Coding sparse coding DB [7] K

3 Abstract CAD 3-D ( ) 4 Spin Image Correspondence Grouping 46.1% 17.4% 97.6% ICP [0.6mm/point] 1 CAD [1][2]

IS2-06 第21回画像センシングシンポジウム 横浜 2015年6月 画像をスーパーピクセルに変換する手法として SLIC[5] を用いる Achanta らによって提案された SLIC 2.2 グラフマッチング は K-means をベースにした手法で 単純な K-means に いる SPIN

12_39.dvi


研修コーナー


1(a) (b),(c) - [5], [6] Itti [12] [13] gaze eyeball head 2: [time] [7] Stahl [8], [9] Fang [1], [11] 3 -

IPSJ SIG Technical Report Vol.2015-CVIM-196 No /3/6 1,a) 1,b) 1,c) U,,,, The Camera Position Alignment on a Gimbal Head for Fixed Viewpoint Swi

3.1 Thalmic Lab Myo * Bluetooth PC Myo 8 RMS RMS t RMS(t) i (i = 1, 2,, 8) 8 SVM libsvm *2 ν-svm 1 Myo 2 8 RMS 3.2 Myo (Root

tnbp59-21_Web:P2/ky132379509610002944

,,, Twitter,,, ( ), 2. [1],,, ( ),,.,, Sungho Jeon [2], Twitter 4 URL, SVM,, , , URL F., SVM,, 4 SVM, F,.,,,,, [3], 1 [2] Step Entered

現実認識型情報端末uScopeの提案

Twitter Twitter [5] ANPI NLP 5 [6] Lee [7] Lee [8] Twitter Flickr FreeWiFi FreeWiFi Flickr FreeWiFi 2. 2 Mikolov [9] [10] word2vec word2vec word2vec k

Optical Flow t t + δt 1 Motion Field 3 3 1) 2) 3) Lucas-Kanade 4) 1 t (x, y) I(x, y, t)

TF-IDF TDF-IDF TDF-IDF Extracting Impression of Sightseeing Spots from Blogs for Supporting Selection of Spots to Visit in Travel Sat

VRSJ-SIG-MR_okada_79dce8c8.pdf

パーキンソン病治療ガイドライン2002

(a) (b) 2 2 (Bosch, IR Illuminator 850 nm, UFLED30-8BD) ( 7[m] 6[m]) 3 (PointGrey Research Inc.Grasshopper2 M/C) Hz (a) (b

スライド 1

日本内科学会雑誌第97巻第7号

THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS TECHNICAL REPORT OF IEICE. Wang Jiani {jwang,mnod

Transcription:

DEIM Forum 2012 B5-3 606 8510 E-mail: {zhao,ohshima,tanaka}@dl.kuis.kyoto-u.ac.jp Web, 1. Web Web TinEye 1 Google 1 http://www.tineye.com/ 1 2. 3. 4. 5. 6.

2. 30 Visual Words TF-IDF Lowe [4] Scale-Invarient Feature Transform (SIFT) Bay [1] Speeded Up Robust Features (SURF) SIFT 128 SURF 64 Visual Words Nister [2] SIFT SURF K-means K-means 7 K-means 1,111,111 K-means L1 L2 Visual Words Brown SIFT kd k m m = 6 RANSAC 3. : 1 : 10 (a) (b) (c) ( ) 1 1 2

3. 1 画像の類似性 画像の類似性とは ある画像全体の特徴と 別のある画像 全体の特徴が類似しているということである ある画像集合 In ={img1, img2,..., imgi,..., imgn } があるとする ここで n は画像集合の画像の数である そのうちの 1 つの画像 imgi が入力として与えられたとき 出力として その画像と類似す る他の画像集合が得られるとする この機能は 2 つの画像の (a) Image1 (b) Image2 (c) Image3 (d) Image4 (e) Image5 (f) Image6 類似性を計算する以下のような関数があれば実現される Sim(imgi, imgj ) 1< j =i< = n 1 < =j< = n かつ i = この関数は 実数を返し imgj と imgi の類似性が高いほど 大きな値を返すものとする 3. 2 画像の隣接性 本節では 画像検索における 画像の隣接性について説明 する 例を示しながら説明を行う 図 1 は金閣寺の画像である キー ワードクエリとして 金閣寺 が与えられると 画像検索シス テムからは 図 1 に示したような画像と類似する画像を数多く 検索結果が返される 実際に 金閣寺においてこの写真に写る 湖を周ると 図 1(b) のような光景も見ることができる さら に歩くと 図 1(c) のような光景も目にすることになる 図 1(c) には まだ 少しではあるが 金閣が見えている これは確か に金閣寺の光景であるのだが 人によっては分からないかもし れない さらに 図 1(d) や図 1(e) まで行くと ここがどこか 分かる人はあまりいないと考えられる これらは全て金閣寺に おいて撮影された写真であるのだが これらのどれも 1 枚では 金閣寺の実際の情景や環境を表現できておらず これらを総体 としたときによりよく金閣寺の実情が表現できると考えられる また 昼と夜 季節の変化などによって 情景は変化すること が考えられる 金閣寺の場合 図 1(f) や図 1(g) のような変化 (g) Image7 図 1 (a) 典型的な金閣寺の画像 (b)-(e) あまり典型的ではない金閣 の画像 (f) 秋の紅葉の金閣寺の画像 (g) 冬の雪の金閣寺の画 を見せる これにより 金閣寺の実際の情景といえば 季節や 像 (a) の画像だけ見ても金閣寺の実際の情景が分かるわけでは 時間による変化も含めて考慮する必要があると考えている ない そのため 我々の仮定の基では (b)-(e) の画像も (a) の 画像の隣接性とは ある画像と 別のある画像が部分的に 画像とまとめて扱うべきであるとしている さらに (f) や (g) 一致しており 実世界で隣接することを指す ある画像集合 のように金閣寺が珍しい情景を見せていることもあり これらも In ={img1, img2,..., imgi,..., imgn } があるとする ここで 含めて 金閣寺の実際の情景を表していると考えるべきである n は画像集合の画像の数である そのうちの 1 つの画像 imgi が入力として与えられたとき 出力として その画像と隣接す を用いれば 図中の画像 i1 がクエリとして与えられたときに る他の画像集合が得られるとする この機能は 2 つの画像の それとパノラマ合成可能であるような画像 i2 が存在したとす 隣接性を計算する以下のような関数があれば実現される ると 画像の隣接性を考慮して 画像 i2 を発見することは可能 である さらに 画像 i2 と画像 i3 の隣接性が高いことを考慮 Adj(imgi, imgj ) して 画像 i3 まで発見することも可能である 一方 類似性に 1< j =i< = n 1 < =j< = n かつ i = この関数は 実数を返し imgj と imgi の隣接性が高いほど ついては この場合 残念ながら画像 i1 と類似する画像がな 大きな値を返すものとする 発見することはできない ここまでが 画像の隣接性と類似性 3. 3 画像の類似性と隣接性の同時利用 本節では 画像の類似性と隣接性を同時に利用した場合にど のようなことが可能になるかについて説明する かった つまり クエリが画像 i1 の場合 いかなる類似画像も を別個に利用した場合である 画像の類似性と隣接性を同時に考慮した場合には クエリが 画像 i1 の場合 まず 隣接性を考慮して 画像 i2 が発見され 図 2 は それら 2 つの関係性を考慮することによって どの さらに 画像 i3 も発見することができる ここで 画像 i2 に ようなことが可能になるかを表している 既存の画像検索技術 は類似する画像 j2 と画像 j3 がある 我々の仮定が正しいとす

L1 L2 L1 Nister NisterScore(img i, img j ) = s(q, d) = img i img i img j img j 2 i 1 i 2 i 2 j 2 j 3 i 1 j 2 j 3 i 1 j 2 j 3 4. TextRank TextRank 4. 1 TextRank 4. 1. 1 Nister [2] Nister 1 i w i q i d i q i = n iw i d i = m i w i n i i m i 2 Nister Nister Color Coherence Vectors (CCV) Pass [5] CCV CCV CCV < (α 1, β 1 ),..., (α n, β n ) > CCV α j β j 2 CCV n CCV Score(img i, img j ) = G = (α j α j) + (β j β j) j=1 2 img i img j Sim(img i, img j ) = w 1 NisterScore(img i, img j ) + w 2 CCV Score(img i, img j ) w 1 w 2 w 1 + w 2 = 1 4. 1. 2 [3] 2 2 SURF 2 RANSAC 2 2 img i img j

N cp Adj(img i, img j ) = Min(N imgi, N imgj ) N cp N imgi img i SURF 4. 1. 3 TextRank [6] S(V i ) = (1 d) v i + d V j In(V i ) w ji V k Out(V j ) w S(V j ) jk d 0 1 0.85 In(V i ) V i Out(V j ) V j img i V i v i V i v i = { 1, imgi SI SI 0, img i / SI SI w jk w jk = λ 1 Sim(img j, img k ) + λ 2 Adj(img j, img k ) λ 1 λ 2 λ 1 + λ 2 = 1 4. 2 Web Web Flickr 2 Flickr Flickr TextRank N m m = 10 2 http://www.flickr.com/ 3 N TextRank N img 1 img 3... img n 1 3 k v imgi =(w 1 v 1, w 2 v 2,..., w j v j,..., w m v m ) v imgi img i w j v j m 1 < = i < = m v j = { 1, when it tagged to imgi 0, otherwise v j v seedi co(v j, v seedi ) = Iv j Iv seed i I vj + I vseedi v seedi 1 I vj v j I vseedi v seedi v j w j = N co(v j, v seedi ) i=1 N T Sim(img i, img j ) = v i v j v i v j

T Sim(img i, img j) w ij 4. 1 TextRank N 10 10 5. 232 Flickr 14,366 Mean Average Precision: MAP 0.65 0.41 14 3 10 140 4 3 2 3,,,,,,,,,,,,, 4 3 2 4 2 g b d d e e g e g h 6. 2

TextRank Flickr 7. COE. [1] Herbert Bay, Andreas Ess, Tinne Tuytelaars, Luc Van Gool SURF: Speeded Up Robust Features, Computer Vision and Image Understanding (CVIU), Vol. 110, No. 3, pp. 346 359, 2008 [2] D. Nister and H. Stewenius, Scalable Recognition with a Vocabulary Tree, Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, pp. 2161 2168, 2006 [3] M. Brown and D. G. Lowe, Recognising panoramas, Proceedings of Ninth IEEE International Conference on Computer Vision, Vol. 2, pp. 1218 1225, 2003 [4] David G. Lowe, Distinctive image features from scaleinvariant keypoints, International Journal of Computer Vision, Vol. 60, No. 2, pp. 91 110, 2004 [5] Greg Pass, Ramin Zabih, Justin Miler, Comparing images using color coherence vectors, Proceedings of the Fourth ACM international conference on Multimedia, pp. 65 73, 1996 [6] Rada Mihalcea and Paul Tarau, TextRank: Bringing Order into Texts, Proceedings of EMNLP, pp. 404 411, 2004