Google Goggles [1] Google Goggles Android iphone web Google Goggles Lee [2] Lee iphone () [3] [4] [5] [6] [7] [8] [9] [10] :

Similar documents
LBP 2 LBP 2. 2 Local Binary Pattern Local Binary pattern(lbp) [6] R

(MIRU2010) Geometric Context Randomized Trees Geometric Context Rand

(MIRU2009) cuboid cuboid SURF 6 85% Web. Web Abstract Extracting Spatio-te

IPSJ SIG Technical Report Vol.2010-CVIM-170 No /1/ Visual Recognition of Wire Harnesses for Automated Wiring Masaki Yoneda, 1 Ta

SICE東北支部研究集会資料(2013年)

bag-of-words bag-of-keypoints Web bagof-keypoints Nearest Neighbor SVM Nearest Neighbor SIFT Nearest Neighbor bag-of-keypoints Nearest Neighbor SVM 84

Microsoft PowerPoint - pr_12_template-bs.pptx

[1] SBS [2] SBS Random Forests[3] Random Forests ii

IPSJ SIG Technical Report iphone iphone,,., OpenGl ES 2.0 GLSL(OpenGL Shading Language), iphone GPGPU(General-Purpose Computing on Graphics Proc

THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS TECHNICAL REPORT OF IEICE. TRECVID2012 Instance Search {sak

2. 30 Visual Words TF-IDF Lowe [4] Scale-Invarient Feature Transform (SIFT) Bay [1] Speeded Up Robust Features (SURF) SIFT 128 SURF 64 Visual Words Ni

FoodLog [3] TADAproject [4] Google Goggles 1 Kumar [5] () Leaf snap Maruyama [6] 3 Lee [7] Yu [8] Gist SVM Active Query Sensing(AQS)

IS1-09 第 回画像センシングシンポジウム, 横浜,14 年 6 月 2 Hough Forest Hough Forest[6] Random Forest( [5]) Random Forest Hough Forest Hough Forest 2.1 Hough Forest 1 2.2

本文6(599) (Page 601)

(MIRU2008) HOG Histograms of Oriented Gradients (HOG)

IPSJ SIG Technical Report Vol.2011-CVIM-177 No /5/ TRECVID2010 SURF Bag-of-Features 1 TRECVID SVM 700% MKL-SVM 883% TRECVID2010 MKL-SVM A

1., 1 COOKPAD 2, Web.,,,,,,.,, [1]., 5.,, [2].,,.,.,, 5, [3].,,,.,, [4], 33,.,,.,,.. 2.,, 3.., 4., 5., ,. 1.,,., 2.,. 1,,

3 2 2 (1) (2) (3) (4) 4 4 AdaBoost 2. [11] Onishi&Yoda [8] Iwashita&Stoica [5] 4 [3] 3. 3 (1) (2) (3)

IPSJ SIG Technical Report Vol.2012-CG-149 No.13 Vol.2012-CVIM-184 No /12/4 3 1,a) ( ) DB 3D DB 2D,,,, PnP(Perspective n-point), Ransa

28 TCG SURF Card recognition using SURF in TCG play video

画像認識性能を改善する高精度な特徴量抽出手法の検討 A Study on Feature-Extraction Methods for Improvement of Image-Recognition Performance 井上俊明 Toshiaki Inoue 要旨 各種のカメラ搭載機器の急速な

情報処理学会研究報告 プレートマッチングによりリアルタイムに物体検出や追跡 を行うアプリケーションが提案されるなど近年モバイルと 画像認識の研究が盛んに行われている 本研究では視覚的 変化の大きい料理に対してスマートフォンの計算資源のみ を用いてリアルタイムに料理認識を行う ユーザインタラクティブな

DEIM Forum 2012 E Web Extracting Modification of Objec

一般社団法人電子情報通信学会 THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGIN

(a) (b) 2 2 (Bosch, IR Illuminator 850 nm, UFLED30-8BD) ( 7[m] 6[m]) 3 (PointGrey Research Inc.Grasshopper2 M/C) Hz (a) (b

IPSJ SIG Technical Report Vol.2013-CVIM-187 No /5/30 1,a) 1,b), 1,,,,,,, (DNN),,,, 2 (CNN),, 1.,,,,,,,,,,,,,,,,,, [1], [6], [7], [12], [13]., [

1 (PCA) 3 2 P.Viola 2) Viola AdaBoost 1 Viola OpenCV 3) Web OpenCV T.L.Berg PCA kpca LDA k-means 4) Berg 95% Berg Web k-means k-means


Duplicate Near Duplicate Intact Partial Copy Original Image Near Partial Copy Near Partial Copy with a background (a) (b) 2 1 [6] SIFT SIFT SIF

(fnirs: Functional Near-Infrared Spectroscopy) [3] fnirs (oxyhb) Bulling [4] Kunze [5] [6] 2. 2 [7] [8] fnirs 3. 1 fnirs fnirs fnirs 1

IPSJ SIG Technical Report Vol.2013-CE-122 No.16 Vol.2013-CLE-11 No /12/14 Android 1,a) 1 1 GPS LAN 2 LAN Android,,, Android, HTML5 LAN 1. ICT(I

,,,,,,,,,,,,,,,,,,, 976%, i

BDH Cao BDH BDH Cao Cao Cao BDH ()*$ +,-+.)*$!%&'$!"#$ 2. 1 Weng [4] Metric Learning Weng DB DB Yang [5] John [6] Sparse Coding sparse coding DB [7] K

IPSJ SIG Technical Report Vol.2015-MUS-107 No /5/23 HARK-Binaural Raspberry Pi 2 1,a) ( ) HARK 2 HARK-Binaural A/D Raspberry Pi 2 1.

VRSJ-SIG-MR_okada_79dce8c8.pdf

IPSJ SIG Technical Report Vol.2013-CG-153 No.19 Vol.2013-CVIM-189 No /11/29 1,a) 0 1 SIFT SURF 1. Scale-Invariant Feature Transform (SIFT)[16]

1 Kinect for Windows M = [X Y Z] T M = [X Y Z ] T f (u,v) w 3.2 [11] [7] u = f X +u Z 0 δ u (X,Y,Z ) (5) v = f Y Z +v 0 δ v (X,Y,Z ) (6) w = Z +

色の類似性に基づいた形状特徴量CS-HOGの提案

THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS TECHNICAL REPORT OF IEICE.,,

THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS TECHNICAL REPORT OF IEICE. UWB UWB

THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS TECHNICAL REPORT OF IEICE.

(b) BoF codeword codeword BoF (c) BoF Fergus Weber [11] Weber [12] Weber Fergus BoF (b) Fergus [13] Fergus 2. Fergus 2. 1 Fergus [3]

2 1 Liang [2] Liang Zhai [3] Zhai [4] MPEG 1 [5] [6] Goromi-TV Goromi-TV [1] Kelm [7] Kelm Wikipedia GeoNames Crandall [8] Quack [9] Quack Qua

1 Web DTN DTN 2. 2 DTN DTN Epidemic [5] Spray and Wait [6] DTN Android Twitter [7] 2 2 DTN 10km 50m % %Epidemic 99% 13.4% 10km DTN [8] 2

DEIM Forum 2010 A Web Abstract Classification Method for Revie

( 1) 3. Hilliges 1 Fig. 1 Overview image of the system 3) PhotoTOC 5) 1993 DigitalDesk 7) DigitalDesk Koike 2) Microsoft J.Kim 4). 2 c 2010

A Survey on Image Recognition Using Geo-tag Information



,,, Twitter,,, ( ), 2. [1],,, ( ),,.,, Sungho Jeon [2], Twitter 4 URL, SVM,, , , URL F., SVM,, 4 SVM, F,.,,,,, [3], 1 [2] Step Entered

4. C i k = 2 k-means C 1 i, C 2 i 5. C i x i p [ f(θ i ; x) = (2π) p 2 Vi 1 2 exp (x µ ] i) t V 1 i (x µ i ) 2 BIC BIC = 2 log L( ˆθ i ; x i C i ) + q


3.1 Thalmic Lab Myo * Bluetooth PC Myo 8 RMS RMS t RMS(t) i (i = 1, 2,, 8) 8 SVM libsvm *2 ν-svm 1 Myo 2 8 RMS 3.2 Myo (Root

光学

No. 3 Oct The person to the left of the stool carried the traffic-cone towards the trash-can. α α β α α β α α β α Track2 Track3 Track1 Track0 1

IPSJ SIG Technical Report Vol.2014-CE-126 No /10/11 1,a) Kinect Support System for Romaji Learning through Exercise Abstract: Educatio

(3.6 ) (4.6 ) 2. [3], [6], [12] [7] [2], [5], [11] [14] [9] [8] [10] (1) Voodoo 3 : 3 Voodoo[1] 3 ( 3D ) (2) : Voodoo 3D (3) : 3D (Welc

情報処理学会研究報告 い認識率を示す事が出来なかったと報告している 視覚特徴量としては SIFT や SURF のような局所的な 領域から特徴量を抽出する方法がある [4] [5] これらの 特徴量とフローベクトルを使いダイナミックなシーンの分 類を行う手法が提案されている しかし これらの画像特

2. Apple iphoto 1 Google Picasa 2 Calendar for Everything [1] PLUM [2] LifelogViewer 3 1 Apple iphoto, 2 Goo

3: 2: 2. 2 Semi-supervised learning Semi-supervised learning [5,6] Semi-supervised learning Self-training [13] [14] Self-training Self-training Semi-s

1. HNS [1] HNS HNS HNS [2] HNS [3] [4] [5] HNS 16ch SNR [6] 1 16ch 1 3 SNR [4] [5] 2. 2 HNS API HNS CS27-HNS [1] (SOA) [7] API Web 2

IPSJ SIG Technical Report Vol.2017-MUS-116 No /8/24 MachineDancing: 1,a) 1,b) 3 MachineDancing MachineDancing MachineDancing 1 MachineDan

1 Fig. 1 Extraction of motion,.,,, 4,,, 3., 1, 2. 2.,. CHLAC,. 2.1,. (256 ).,., CHLAC. CHLAC, HLAC. 2.3 (HLAC ) r,.,. HLAC. N. 2 HLAC Fig. 2

Convolutional Neural Network A Graduation Thesis of College of Engineering, Chubu University Investigation of feature extraction by Convolution

BOK body of knowledge, BOK BOK BOK 1 CC2001 computing curricula 2001 [1] BOK IT BOK 2008 ITBOK [2] social infomatics SI BOK BOK BOK WikiBOK BO


The Plasma Boundary of Magnetic Fusion Devices

21 e-learning Development of Real-time Learner Detection System for e-learning

& Vol.5 No (Oct. 2015) TV 1,2,a) , Augmented TV TV AR Augmented Reality 3DCG TV Estimation of TV Screen Position and Ro

2007/8 Vol. J90 D No. 8 Stauffer [7] 2 2 I 1 I 2 2 (I 1(x),I 2(x)) 2 [13] I 2 = CI 1 (C >0) (I 1,I 2) (I 1,I 2) Field Monitoring Server

Microsoft Word - toyoshima-deim2011.doc


HASC2012corpus HASC Challenge 2010,2011 HASC2011corpus( 116, 4898), HASC2012corpus( 136, 7668) HASC2012corpus HASC2012corpus

2. CABAC CABAC CABAC 1 1 CABAC Figure 1 Overview of CABAC 2 DCT 2 0/ /1 CABAC [3] 3. 2 値化部 コンテキスト計算部 2 値算術符号化部 CABAC CABAC

時空間特徴を用いた Web動画からの特定動作対応ショットの 自動抽出

1 1 CodeDrummer CodeMusician CodeDrummer Fig. 1 Overview of proposal system c

THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS TECHNICAL REPORT OF IEICE. Wang Jiani {jwang,mnod

Web [1] [2] [3] [4] [5] SupportVectorMachine SVM [6] [7] Google [11] Web

1 Web [2] Web [3] [4] [5], [6] [7] [8] S.W. [9] 3. MeetingShelf Web MeetingShelf MeetingShelf (1) (2) (3) (4) (5) Web MeetingShelf

IPSJ SIG Technical Report Vol.2014-CE-123 No /2/8 Bebras 1 2,a) 3,b) Bebras Consideration of figures in Bebras Contest MAIKO SHIMABUKU 1 YUKIO I

DEIM Forum 2017 H2-2 Android LAN Android 1 Android LAN

main.dvi

IPSJ SIG Technical Report GPS LAN GPS LAN GPS LAN Location Identification by sphere image and hybrid sensing Takayuki Katahira, 1 Yoshio Iwai 1

Haiku Generation Based on Motif Images Using Deep Learning Koki Yoneda 1 Soichiro Yokoyama 2 Tomohisa Yamashita 2 Hidenori Kawamura Scho

IPSJ SIG Technical Report Vol.2010-CVIM-171 No /3/19 1. Web 1 1 Web Web Web Multiple Kernel Learning(MKL) Web ( ) % MKL 68.8% Extractin

ActionScript Flash Player 8 ActionScript3.0 ActionScript Flash Video ActionScript.swf swf FlashPlayer AVM(Actionscript Virtual Machine) Windows

Table 1 Table 2

% 2 3 [1] Semantic Texton Forests STFs [1] ( ) STFs STFs ColorSelf-Simlarity CSS [2] ii


IPSJ SIG Technical Report Vol.2017-CVIM-205 No /1/ Content-based Image Retrieval(CBIR) CBIR RANSAC (Local feature hashing) 1000 A geo

光学

untitled

yoo_graduation_thesis.dvi

THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS TECHNICAL REPORT OF IEICE {s-kasihr, wakamiya,

5104-toku3.indd

untitled

Computer Security Symposium October 2013 Android OS kub

SURF,,., 55%,.,., SURF(Speeded Up Robust Features), 4 (,,, ), SURF.,, 84%, 96%, 28%, 32%.,,,. SURF, i

untitled

第 1 回バイオメトリクス研究会 ( 早稲田大学 ) THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS Proceedings of Biometrics Workshop,169

Transcription:

THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS TECHNICAL REPORT OF IEICE.,, 182-8585 1-5-1 E-mail: {maruya-t,akiyama-m}@mm.inf.uec.ac.jp, yanai@cs.uec.ac.jp SURF Bag-of-Features 30 44.9% 5 80.9%,,,, Takuma MARUYAMA, Mizuki AKIYAMA, and Keiji YANAI Graduate School of Informatics and Engineering, The University of Electro-Communications 1-5-1 Chofugaoka, Chofu, Tokyo 182-8585 Japan E-mail: {maruya-t,akiyama-m}@mm.inf.uec.ac.jp, yanai@cs.uec.ac.jp Key words mobile, smartphone, object recognition, generic object recognition, recipe 1. 1: Bag-of-Features OpenCV 1 SURF Bag-of-Features SVM 2. 1

Google Goggles [1] Google Goggles Android iphone web Google Goggles Lee [2] Lee iphone () [3] [4] [5] [6] [7] [8] [9] [10] 3. 3. 1 2 4 4 2: 3. 2 3 1 2 6 3 4 2 5 2

研究でも多数言及されているが 本研究ではその部分について の工夫を行っておらず 単品の食材名のみからレシピリストを 取得して表示するにとどまっている 4. 画像認識手法 提案システムでは画像認識を用いて食材を認識しレシピ情報 を取得するが ここでは提案システムに利用した画像認識手法 について説明する 4. 1 画 像 特 徴 モバイル上で画像認識を行う際に精度と速度の点で重要とな るのが画像特徴量である 本研究ではモバイルデバイスでの認 識を実施しているために 特に速度とメモリ使用量が重要と なる 近年は局所特徴量の改良が頻繁に行われ BRIEF [12] ORB [13] を始めとして高速で省メモリなバイナリ特徴が複 数提案されている しかしこれらバイナリ特徴は特定物体の マッチングに用いられる場合が多く 一般物体認識に用いると Bag-of-Features ベクトルを作成する際に特徴量の情報劣化が懸 念されるため本研究ではバイナリ特徴でなく高速な SURF [14] を採用した SURF とは照明変化 スケール変化 回転に対して頑健な局 図 3: システムの流れ 所特徴量である 本研究では 64 次元の SURF を採用した ま た SURF のキーポイントの検出を利用した場合と マルチス 手順 6 選んだレシピに対して 作り方や必要食材などの詳細 ケールのグリッドで検出した場合を利用している ページを表示する この時システムはブラウザモジュールを利 また食材の認識を考える際に色による情報が重要となること 用しており 内容はもとのレシピサイトの内容を表示するもの が考えられるため グリッドで検出したカラーヒストグラムを である 採用する カラーヒストグラムは各式空間の次元を 4 分割した 以上の手順 1 から 6 をもってユーザはシステムを利用する 計 64 次元の特徴量を採用した 図 5 にその様子を示す 本研究 具体的なシステムの画面は図 4 に示す 手順 2 の食材候補リ では画像を 12 12 分割をして 1 枚から 144 個のカラーヒスト ストは認識が行われると逐次更新されレシピリストに反映され グラムを作成して Bag-of-Features ベクトルを作成している る また実験時に手動で選択する場合との比較を行えるように 手動選択が可能になっている 図 5: グリッドでカラーヒストグラムを抽出 4. 2 Bag-of-Features 表現 Bag-of-Features [15] は 統計的言語処理のための手法であ る Bag-of-Words [16] を画像処理に適用したものである Bag- of-features は 幅広いカテゴリの画像を対象とした場合の表 現性の高さから 一般画像認識の分野で頻繁に用いられる 図 4: 画面の様子 本研究では食材をカメラを動かしながら撮影した 1 秒から 6 秒未満の動画を各カテゴリ毎に 10 本づつ用意して それから a ) レシピの取得について ランダムに 1000 枚のフレームを選出してコードブックを作成 レシピ情報は COOKPAD [11] より取得したものを新着順に した コードブックの要素数は 1000 として 画像は 1000 次元 表示する ここでレシピのよりよい提示方法が先に述べた関連 の Bag-of-Features 表現ベクトルとなる 特徴量のベクトルの 3

1-norm 1 BoF BoF 4. 3 SVM SVM SVM 1 K(x, y) = x y (1) (a) (b) (c) (d) (e) (f) 6: 1 3 x y(x) x i w i b y(x) = = w ik(x, x i) + b (2) w ix x i + b = x w ix i + b (3) 1: v = w ix i (4) 5. 5. 1 Android2.2Galaxy S2 30 0.15 5. 2 10 1 30 30 10 10-fold cross validation 1 6 VGA 25fps BoF SURF 12 12, 24 24, 48 48, 96 96pixel 4 12 12 BoF RGB, La*b*, HSV 3 1, 2, 3, 4, 5 5. 2. 1 1 7 30 SURF 26.38% 19.65% RGB 42.53%HSV 34.00%La*b* 30.54% 4

10: 7: (a) (b) (c) (d) 11: (a) (b) (c) (d) 8: k 12: 9 (a) (b) (c) (d) 5. 2. 2 5 3 3 5 9: RGB 3 43.78% SURF 44.92% 6 k 8 RGB SURF 3frame 10 ( 12) 13: 13 5

7.29 8.51 15 4 (a) (b) (c) 14a 14b 14c 6. 30 44.9% 5 80.9% 1 70%5 90% http: //mm.cs.uec.ac.jp/maruyama/recipe/ [1] G. Goggles, Search the real world by taking a picture. http://www.google.com/mobile/goggles/. [2] T. Lee and S. Soatto, Learning and matching multiscale template descriptors for real-time detection, localization and tracking, Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp.1457 1464, 2011. [3] http://www.mm.media.kyoto-u.ac.jp/ research/skitchen.html [4] D-12-73 (d-12., ) vol.2006 no.2p.2052006-03-08 [5] Avol.J94-A no.7pp.509 5182011 [6] MVEvol.107no.454pp.45 502008 [7] 3 (DEIM)2011 [8] 3 (DEIM)2011 [9] 3 (DEIM)2011 [10] 3 (DEIM)2011 [11] no.1 http://cookpad.com/ [12] M. Calonder, V. Lepetit, C. Strecha, and P. Fua, BRIEF: Binary Robust Independent Elementary Features, European Conference on Computer Vision, pp.1 14, 2010. [13] E. Rublee, V. Rabaud, K. Konolige, and G. Bradski, Orb: An efficient alternative to sift or surf, International Conference on Computer Vision, Barcelona, 2011. [14] H. Bay, T. Tuytelaars, and L. Van Gool, SURF: Speeded up robust features, Proc. of European Conference on Computer Vision, pp.404 415, 2006. [15] G. Csurka, C. Bray, C. Dance, and L. Fan, Visual categorization with bags of keypoints, Workshop on Statistical Learning in Computer Vision, ECCV, pp.1 22, 2004. [16] C.D. Manning and H. Schütze, Foundations of Statistical Natural Language Processing, The MIT Press, 1999. 6