要旨題目深層学習による人物検出学籍番号 T 氏名海住嘉希指導教員白井英俊近年深層学習による画像認識が高い精度で成果を挙げていることで注目されている本研究では深層学習によって物体認識を行う三つの手法を用いて実装を行ったそして三つの手法の実装結果から人物検出に焦点をあてこれら

Size: px

Start display at page:

Download "要旨題目深層学習による人物検出学籍番号 T 氏名海住嘉希指導教員白井英俊近年深層学習による画像認識が高い精度で成果を挙げていることで注目されている本研究では深層学習によって物体認識を行う三つの手法を用いて実装を行ったそして三つの手法の実装結果から人物検出に焦点をあてこれら"

たつぞうすずがみね
7 years ago
Views:

1 2016 年度卒業論文深層学習による人物検出指導教員白井英俊教授中京大学工学部電気電子工学科学籍番号 T 氏名海住嘉希 (2017 年 1 月 )

2 要旨題目深層学習による人物検出学籍番号 T 氏名海住嘉希指導教員白井英俊近年深層学習による画像認識が高い精度で成果を挙げていることで注目されている本研究では深層学習によって物体認識を行う三つの手法を用いて実装を行ったそして三つの手法の実装結果から人物検出に焦点をあてこれらの検出精度と実行時間の比較を行ったものである人物検出に焦点をあてた理由は安全面や防犯面でこのような機器が使われ始めており人を検出する技術がますます重要になっているためである本研究では Faster R-CNN (Faster Region-with Convolution Neural Network), YOLO (You Only Look Once), SSD (Single Shot MultiBox Object Detector) という三つの深層学習による物体検出手法 ( いずれも 2016 年 11 月時点で最先端の技術 ) を実装し同じデータに適用してこれらの手法の精度と実行時間を比較したなおこれには人も含めた 20 種類の物体 (PASCAL VOC2007 データ, PASCAL VOC2012 データ ) の検出をするよう学習されたモデルを用いたが対象としたデータは人物だけを検出するものとしたまた人物検出に適し深層学習以前に最先端とされていた HOG 特徴量を比較材料に用いた Faster R-CNN は畳み込み層 (CNN) の上に 2 層の畳み込み層を追加して領域提案ネットワーク (RPN) と呼ばれるネットワークを構築し物体検出を行うシステムである YOLO は物体の領域とその物体の種類の予測を同時に行って物体検出を行うシステムであるまた SSD は YOLO と同様に領域の予測と物体の種類の予測を単一のネットワークで実現するシステムで前処理として CNN を行って得られた特徴地図を利用している HOG 特徴量は画像の局所領域 ( セル ) から輝度の勾配方向と強度という特徴量を得て物体検出を行うシステムである初めにこれら 4 つの手法を同じプラットフォームの上で実装した次に人物画像のデータベース INRIA Person Dataset から 100 枚の画像データをランダムに取得し評価に使用した 4 つの手法それぞれの画像 1 枚あたりの平均実行時間と人物の検出精度 ( 検出した人数の割合 ) とを比較したその結果平均実行時間は HOG 特徴量が 0.21s SSD が 11.19s YOLO が 12.34s Faster R-CNN が 25.28s であった検出精度は YOLO が 92.24% Faster R-CNN が 86.78% SSD が 63.98% HOG 特徴量が 54.33% であった HOG は速いが検出精度が低いことが明らかになった 3 種の深層学習手法では Faster R-CNN は複数のネットワークを使用して物体検出するため単一のネットワークで検出する YOLO と SSD よりかなり遅いという結果が得られたのは妥当であろうまた検出精度が低くなったのは評価データとして多様な人の姿勢や向きのある画像データセット INRIA Person Dataset を使用したためであると考える特に SSD が 3 種の深層学習の中で低いのはそのせいであろう

3 展望として検出物を人物と人物以外の 2 種に限定した学習モデルを作成すれば速度を維持しつつ検出精度を高めることができるのではないだろうか特に YOLO をベースとして GPU を使用すれば実時間で人物検出が加納なシステムが実現できると考える

4 目次第 1 章はじめに第 2 章本研究の構成深層学習について Faster R-CNN (Faster Region-with Convolution Neural Network) YOLO(You Only Look Once) SSD(Single Shot MultiBox Detector) HOG(Histograms of Oriented Gradients) 特徴量... 8 第 3 章研究計画開発環境研究の計画第 4 章 Faster R-CNN, YOLO, SSD, HOG 特徴量システムの実装 Faster R-CNN の実装 YOLO の実装 SSD の実装 HOG 特徴量による人物検出の実装第 5 章検証第 6 章考察とまとめ参考文献謝辞付録. HOG 特徴量のプログラム... 20

5 第 1 章はじめに近年深層学習による画像認識が高い精度で成果を挙げていることで注目されている本研究では深層学習によって物体認識を行う三つの手法を用いて実装を行ったそして三つの手法の実装結果から人物検出に焦点をあてこれらの検出精度と実行時間の比較を行ったものである人物検出に焦点をあてた理由は安全面や防犯面でこのような機器が使われ始めており人を検出する技術がますます重要になっているためである本研究では Faster R-CNN(Faster Region-with Convolution Neural Network), YOLO(You Only Look Once), SSD(Single Shot MultiBox Object Detector) という三つの深層学習による物体検出手法 ( いずれも 2016 年 11 月時点で最先端の技術 ) を実装し同じデータを適用することにより精度と実行時間の比較をしたここでは人も含めた 20 種類の物体 (PASCAL VOC2007 データ, PASCAL VOC2012 データ ) の検出をするよう学習されたモデルを用いたが対象としたデータは人物だけを検出するものとしたまた人物検出に適し深層学習以前に最先端とされていた HOG 特徴量を比較材料に用いた Faster R-CNN は畳み込み層 (CNN) の上に 2 層の畳み込み層を追加して領域提案ネットワーク (RPN) と呼ばれるネットワークを構築し物体検出を行うシステムである YOLO は物体の領域とその物体の種類の予測を同時に行って物体検出を行うシステムであるまた SSD は YOLO と同様に領域の予測と物体の種類の予測を単一のネットワークで実現するシステムで前処理として CNN を行って得られた特徴地図を利用している HOG 特徴量は画像の局所領域 ( セル ) から輝度の勾配方向と強度という特徴量を得て物体検出を行うシステムである初めにこれら 4 つの手法を同じプラットフォームの上で実装した次に人物画像のデータベース INRIA Person Dataset から 100 枚の画像データをランダムに取得し評価に使用した 4 つの手法それぞれの画像 1 枚あたりの平均実行時間と人物の検出精度 ( 検出した人数の割合 ) とを比較したその結果平均実行時間は HOG 特徴量が 0.21s SSD が 11.19s YOLO が 12.34s Faster R-CNN が 25.28s であった検出精度は YOLO が 92.24% Faster R-CNN が 86.78% SSD が 63.98% HOG 特徴量が 54.33% であった HOG 特徴量は速いが検出精度が低いことが明らかになった 3 種の深層学習手法では Faster R-CNN は複数のネットワークを使用して物体検出するため単一のネットワークで検出する YOLO と SSD よりかなり遅いという結果が得られたのは妥当であろうまた検出精度が低くなったのは評価にデータとして多様な人の姿勢や向きのある画像データセット INRIA Person Dataset を使用したためであるとかんがえる特に SSD が 3 種の中で低いのはそのせいではないであろう展望として検出物を人物と人物以外の 2 種に限定した学習モデルを作成すれば速度を維持しつつ検出精度を高めることができるのではないだろうか特に YOLO をベースとして GPU を使用すれば実時間で人物検出が可能なシステムが実現できると考える 1

6 本書の構成は以下の通りである第 2 章では前提知識として本研究に用いた深層学習そしてこれを用いた物体検出手法である Faster R-CNN YOLO SSD の紹介と HOG 特徴量の説明を行う第 3 章では本研究をするための開発環境と研究の計画について述べる第 4 章では第 2 章で紹介した物体検出手法の実装方法について説明する第 5 章ではこの実装を用いて実行時間と検出精度の比較について述べる第 6 章では第 5 章で得られた結果について考察し本論文をまとめる 2

7 第 2 章本研究の構成本研究では深層学習の三つの手法 Faster R-CNN YOLO SSD による物体検出の実装を行い検出精度と実行時間の比較を行ったまた深層学習でない手法で人物検出をすることができる代表的な手法として HOG 特徴量を用いた人物検出とも比較を行った人物に着目した理由としては深層学習手法は安全や防犯対策にも使われ始めている中人を検出する技術が必要とされていることから人物に着目した本章では初めに深層学習とその検出手法を学ぶために深層学習は浅川 (2016) と麻生ほか (2015) Faster R-CNN は Ren et al (2015) と浅川 (2016) YOLO は Redmon, et al (2016) と藤田高原 (2016) SSD は Liu et al. (2015) HOG 特徴量は Dalal & Triggs (2005) と藤吉 (2009) を参考にして説明する 2.1 深層学習について深層学習 (Deep learning) は人間や生物の脳神経系の強力な学習能力を持ったメカニズムをヒントとした機械学習手法のひとつであり高い性能が挙げられていることで注目されている深層学習は入力層複数の中間層出力層からなるニューラルネットワークを用いて行われるニューラルネットワークのそれぞれの層は複数のユニットからなりこのユニットは次の層のユニットと繋がるという構造をしているただしこのニューラルネットワークはただ層の数が多い ( 層が深いという ) だけではなく一つの層のユニット数が多い ( 層の幅も広いという ) ためユニットとユニット間の重みと呼ばれるパラメータ数が多いそれにより多数の特徴量を扱うことができるという特徴を持つ深層学習の学習は一般的に入力からニューラルネットワークによって計算された出力と教師データ ( 正解に相当する ) との差 ( すなわち誤差 ) を用いた重みを更新によって行われる ( 誤差逆伝播法 ) このとき損失関数と呼ばれる関数が使用されこの損失関数の値を小さくするように学習が行われる深層学習は 2010 年代から産業界でも利用され Google や Microsoft, Facebook などの画像認識や音声認識自然言語処理創薬ゲノミクスなど多くの領域で研究開発が進められている画像認識では深層学習のうち畳み込みニューラルネットワーク (Convolutional Neural Network 以後 CNN と呼ぶ ) が多く利用されている CNN の特徴は畳み込み層とプーリング層と呼ばれる特殊な層を交互に積み重ねた構造を持つことである 2.2 Faster R-CNN (Faster Region-with Convolution Neural Network) Ren et al (2015) らによる Faster R-CNN(Faster Region-with Convolution Neural Network) は深層学習を用いた物体検出手法についての一連の研究 R-CNN Fast R-CNN Faster 3

8 R-CNN のうちでもっとも高速で高精度な成果を得ている研究である Faster R-CNN では畳み込み層 (CNN) の上に 2 層の畳み込み層を追加して領域提案ネットワーク ( 以後 RPN と呼ぶ ) と呼ばれるネットワークを構築する RPN は任意の大きさの画像を入力とし物体が存在する候補領域とその領域に物体が存在する可能性を表す数値 ( 物体らしさ ) とを出力するなお候補領域としては物体検出手法としては一般的であるが矩形領域だけを考えている図 2.1 は物体が存在する候補領域を求めるべく CNN の出力である特徴地図において n n の物体検出用のウィンドウ ( 図 2.1 では n=3) による走査 ( スライディングウィンドウと呼ぶ ) を表したものであるこれにより物体の有無をそれぞれの領域ごとに判定し物体があると判定された領域に対して物体認識を行うここで縦横比が一定のウィンドウをずらしているだけではいろいろな形や大きさの領域候補を調べられないそのため RPN ではウィンドウごとにアンカーと呼ばれる大きさや縦横比の異なる複数個の領域を設定しそれぞれの物体らしさを求める図 2.1 に即して言えばウィンドウごとに k 個 (Saito 2016) による実装では k=9) のアンカーを設定しそれぞれについて 256 次元のベクトルに変換した後に物体か背景かを分類する問題 (2k 個のクラス分類 ) とその領域の座標を求める問題 (4k 個の回帰問題 ) とを ( またもや )CNN を用いて解いているのである図 2.1. 畳み込み特徴地図 (Ren 2015) Faster R-CNN の学習は次の 4 段階の手順で学習を行う ( 図 2.2) 1. 事前訓練が済んだ CNN を用いて物体が存在する領域を提案するネットワークである RPN の学習を行う 2. 学習した RPN が出力した候補領域からファインチューニングした CNN を用いて物体認識を学習する (Fast R-CNN 流に ) 3. 上のステップで作成した物体検出ネットワークを用いて物体認識ネットワークと共有する特徴地図を用いて RPN を再学習する 4

9 4. さらに物体認識ネットワークと共有する特徴地図を用いて物体認識レイヤーをファインチューニングする図 2.2.Faster R-CNN の構成 ( 麻生ら 2015) かくして入力データから CNN によって得られる同じ特徴地図を用いて物体領域提案と物体認識とが学習されそれにより物体検出が行われるこの方式は物体領域提案と物体認識とを別々の CNN で行っているため後で紹介する二つの方式と比べ計算コストが高くなっているそれでもこの方式が提案された時点では最速であり PASCAL VOC2007 (Everingham 2007) データに対して 1 秒あたり 5 フレームの処理速度 73.2% map (mean Average Precision) と報告されている 2.3 YOLO(You Only Look Once) Redmon, et al (2016) による YOLO(You Only Look Once) は C 言語で作成されたフレームワークの darknet の機能の一つとして提供されている YOLO は深層学習による物体検出手法であり検出精度が高いまた動画に対してリアルタイムに物体検出を行う機能もあり処理時間が速い手法である物体の領域とその物体の種類の予測を同時に行うという特徴がある図 2.3 に YOLO の学習の概要図を示す初めに CNN ににリサイズされた入力画像を入力し画像全体は S S の固定サイズの領域 ( グリッド ) に分割される本研究は 20 種類の物体が含まれている PASCAL VOC データを学習データとして用いているこの場合は S=7 であり 7 7 のグリッド数に分割される次に図 2.3 の YOLO の学習概要図から以下の項目を行って物体の予測をしている 5

セル内に物体が存在しない場合信頼度は 0 となる物体の信頼度をPr Object と定義すると物体の信頼度は (2.1) 式であり候補領域 b に対してセル g がどれだけ含まれているか割合を評価する Pr Object b g Pr Object 2.1 b g またそれぞれの矩形領域から条件付きクラス確率 C も推測する Pr Class Object 2.

10 各グリッドの物体らしさの矩形とその信頼度を求める各グリッドの信頼度が高い物体の種類を求める図 2.3.YOLO の学習概要図 (Redmon, J. 2016) 各グリッドの物体らしさの矩形とその信頼度を求める CNN に入力し 7 7 グリッドに分割された画像から物体らしさの矩形を求める方法は物体らしい中心がグリッドセルに入ったときその物体を検出して矩形を求めるこのとき物体らしい矩形は個生成されそれぞれの矩形のデータは x 座標 y 座標 w 座標 h 座標と信頼度の計 5 種類を持っているセル内に物体が存在しない場合信頼度は 0 となる物体の信頼度をPr Object と定義すると物体の信頼度は (2.1) 式であり候補領域 b に対してセル g がどれだけ含まれているか割合を評価する Pr Object b g Pr Object 2.1 b g またそれぞれの矩形領域から条件付きクラス確率 C も推測する Pr Class Object 2.2 各グリッドの信頼度が高い物体の種類を求める CNN に入力し 7 7 グリッドに分割された画像から緑の領域は犬ピンクの領域は自転車オレンジの領域は車青の領域は背景というように物体ごとの確率が各グリッドセルに設定される YOLO は 24 層の畳み込み層と 2 層の全結合層からなる 26 層のニューラルネットワークで学習を行うまた Faster R-CNN のように物体領域提案と物体認識とを別々で行うのではなく 1 回の推測から物体の領域予測と物体の種類の予測を同時に得ることができるため高速な処理が可能であるしかし一つのグリッドで検出できる物体が最大 2 つという制約があるためグリッド内に大量の物体が映っている場合に検出が弱い 6

2.4 SSD(Single Shot MultiBox Detector) Liu, et al (2016) による SSD(Single Shot MultiBox Detector) は 2016 年 11 月時点で最新の深層学習による物体検出法であるある程度の検出精度を保ち処理速度が速い領域の予測と物体の種類の予測を単一のネットワークで実現している前処理として CNN

11 2.4 SSD(Single Shot MultiBox Detector) Liu, et al (2016) による SSD(Single Shot MultiBox Detector) は 2016 年 11 月時点で最新の深層学習による物体検出法であるある程度の検出精度を保ち処理速度が速い領域の予測と物体の種類の予測を単一のネットワークで実現している前処理として CNN を行って得られた特徴地図を利用する図 2.4 のように深さの異なる特徴地図を用い浅い層は小さい物体深い層になるに連れ大きい物体の検出を可能としている図 2.4.SSD の構造 (Liu et al. 2016) 領域の予測と物体の種類の予測はそれぞれの特徴地図で行われる図 2.5 にその様子を示す図 2.5. 特徴地図における領域予測と物体予測 (Liu et al. 2016) 図 2.5 は CNN を前処理として得られた特徴地図を 8 8 と 4 4 に分割した二つの領域地図を示しているこのように領域地図をいろいろなサイズに分割することで色々なサイズの物体を検出する ( 例えば図 2.5 の犬は 8 8 ではなく 4 4 の領域で検出される ) それぞれの領域には 3 3 のフィルタをかけ物体の種類の信頼度とその物体の位置の座標 (x,y,w,h) を得る損失関数は物体の位置のずれとなる loc (localization loss) と物体のクラスである conf(confidence loss) を組み合わせたものであるまた特徴地図の各領域では異なるアスペクト比の領域異種を生成しいろいろな形状の物体を検出できる工夫をしているここで m 個の特徴地図を使う場合 k 番目の特徴地図は式 (2.3) のス 7

12 ケールを持つ大きさの物体を検出する役割を持つこととなる = + 1, 1, (2.3) 1 は 0.9 は 0.2 というスケールであるまたアスペクト比は 1,2,3, 1 2, 1 (2.4) 3 として式 (2.5) と式 (2.6) から領域異種のサイズが決まるまたアスペクト比が 1 の場合は式 (2.7) によりやや小さめの領域異種を生成している = (2.5) h = (2.6) = (2.7) この方式は以上に説明した YOLO と同様に物体領域予測とその物体の種類を単一のネットワークで実現しているため Faster R-CNN より速く検出することができる SSD の問題としては大量なバウンディングボックスが生成されることが考えられるため学習時に予測とは正しくないデータ (negative data) が発生するこのために最後の出力は conf(confidence loss) を降順に並べ最も高い信頼度を拾い上げて検出結果としている 2.5 HOG(Histograms of Oriented Gradients) 特徴量 Dalal &Triggs (2005) による HOG(Histograms of Oriented Gradients) 特徴量は画像の局所領域 ( セル ) から輝度の勾配方向と強度により得られる特徴量である一般的には歩行者や物体検出に使用されている以下に方法を示す 1. 画像をブロックに分割をしそのブロック内で複数のセルに分割をする 2. それぞれのブロック内のセルの中における輝度の勾配方向強度から勾配ヒストグラムを計算するヒストグラムの作成は 0 から 180 までを 20 ずつ 9 方向に分割する輝度の勾配方向と強度は以下で求める勾配方向 θ x, y = tan (, ) (2.8) (, ) 勾配強度 m x, y = (, ) + (, ) (2.9), = + 1, ( 1, ) (2.10), =, + 1 (, 1) 3. ブロックごとに正規化してヒストグラムの形状を整える 8

13 正規化は以下で求める = + (2.11) s s はセル = 1 N は勾配方向数である 4. 得られたヒストグラムを連結し特徴量を得る以上より輝度の勾配方向と強度の特徴量を得て検出することができる本章では三つの深層学習手法と HOG 特徴量を説明した第 3 章では上記の手法を実装して比較研究を行うために研究計画について説明する 9

14 第 3 章研究計画深層学習は画像認識の分野において高い性能を上げているまた画像認識は安全や防犯対策にも使われ始めている中人を検出する技術が必要とされていることから人物に着目した以上より実行時間がより高速で検出精度が良い手法が優位であると考えたそして本章では三つの深層学習手法 Faster R-CNN YOLO SSD を実装し実行時間と検出精度を比較する概要について説明する 3.1 開発環境本研究をするために開発環境について説明する使用機器は HP 社 Z640 OS は Linux4.2(Ubuntu15.04) GPU は NVIDIA 社 Quadro M5000 で CUDA7.5 使用言語は python2.7 と python3.4 C 言語を使用した 3.2 研究の計画以下の計画で本研究を行った 1. 三つの深層学習手法について実装を行う 1.1 Faster R-CNN の実装を行う本研究では chainer-faster-rcnn-master(saito 2015) を用いたこれは PASCAL VOC 2007 データで訓練した学習モデルを用いており 20 種類の物体を検出できるものである 1.2 YOLO の実装を行う本研究では darknet (Redmon 2016) で提供されているコードを用いたこれも PASCAL VOC 2007 データで訓練した学習モデルを用いており 20 種類の物体を検出できるものである 1.3 SSD の実装を行う本研究では mxnet-ssd (Zhang 2016) で提供されているコードを用いたこれも PASCAL VOC 2007 データで訓練した学習モデルを用いており 20 種類の物体を検出できるシステムである 2. 以上の三つの深層学習手法と HOG 特徴量に対して人物検出問題のため人を題材とした画像データベースを用いて人物の検出精度と実行時間を求めて比較を行う本章では本研究を行うための開発環境と研究計画の概要について説明した第 4 章では Faster R-CNN, YOLO, SSD, HOG 特徴量による検出システムの実装について説明する 10

15 第 4 章 Faster R-CNN, YOLO, SSD, HOG 特徴量システムシステムの実装本研究では深層学習による物体検出手法と検出精度と HOG 特徴量の実行時間の比較を行うためにシステムを実装する必要がある本章では本研究に使用した深層学習による物体検出手法の Faster R-CNN YOLO SSD の三手法と OpenCV( 桑井博之他. 2014) を用いた HOG 特徴量による検出の実装方法について説明する OpenCV については本章で説明する 4.1 Faster R-CNN の実装本節では Faster R-CNN を実装するための方法を説明する以下の手順で Faster R-CNN の実装を行った 1. Github にある chainer-faster-rcnn (Saito 2016) を ZIP 形式でダウンロードした後に展開する 2. chainer-faster-rcnn の lib のディレクトリに移動をし extension をビルドする以下にコマンドを示す cd chainer-faster-rcnn cd lib python setup.py build_ext i cd.. 3. トレーニング済モデルのダウンロードを行う以下にコマンドを示す wget VGG16_faster_rcnn_final.model cd.. 4. 以上の手順が完了したらプログラムの実行を行う python3 forward.py --img_fn [ 入力画像データ ] --out_fn result.jpg 以上より Faster R-CNN の実装を行うことができるプログラムの実行において --img_fn は入力画像( 物体検出させたい画像 ) の指定 --out_fn は出力画像 ( 物体検出結果 ) の指定であるそれぞれディレクトリを指定することもできるまた --gpu 0 を付け加えることで GPU が使用できる 4.2 YOLO の実装本節では YOLO を実装するための方法を説明する以下の手順で YOLO の実装を行った 1. Github にある darknet (Redmond 2016) を ZIP 形式でダウンロードした後展開して 11

16 make する 2. トレーニング済モデルのダウンロードを行う以下にコマンドを示す wget 3. 以上の手順が完了したらプログラムの実行を行う以下のコマンドによりプログラムの実行を行う./darknet detector test cfg/voc.data cfg/yolo.cfg yolo.weights [ 入力画像データ ] 以上より YOLO の実装を行うことができる 4.3 SSD の実装本節では SSD を実装するためのダウンロードから実装するための方法を説明する以下の手順で SSD の実装を行った 1. Github にある mxnet-ssd (Zhang 2016) を ZIP 形式でダウンロードした後展開する 2. プログラムを実行する以下のコマンドにより実行できる python demo.py --cpu --images [ 入力画像データ ] 4.4 HOG 特徴量によるによる人物人物検出の実装 OpenCV を使用することにより HOG 特徴量を用いた人物検出の実装を行うプログラムは付録 1 に示すここで OpenCV とは画像や動画の処理を容易にすることができる無償のオープンソースである本章では Faster R-CNN, YOLO, SSD, HOG 特徴量による検出システムの実装について説明をした第 5 章では実装し検証を行った 12

17 第 5 章検証本章では 4 章で説明した深層学習手法の 3 つに対して INRIA Person dataset を評価データとすることで実行時間と検出精度の比較を行う INRIA Person dataset とは多様な人の姿勢, 向き, 視点や背景画像が含まれている汎用性の高いデータセットであるこの INRIA Person dataset から 100 枚の画像データをランダムに取得して評価に使用したなお閾値の値は 0.6 とした 0.6 が人物であると判断できる最低限の信頼度と考えた比較方法と結果は以下である実行時間それぞれの検出手法により 100 枚の画像を検出し 1 枚あたりの画像の実行時間 ( 平均実行速度 ) を求めた ( 表 5.1) 検出精度それぞれの検出手法により 100 枚の画像を検出し画像中に現れている人数と検出した人数から精度を算出した ( 表 5.2) 表 5.1. 平均の実行速度 Faster R-CNN YOLO SSD HOG 特徴量平均実行速度 (s) 表 5.2. 検出精度 Faster R-CNN YOLO SSD HOG 特徴量検出精度 (%) 以上の結果より平均実行速度は深層学習手法ではない HOG 特徴量が最も速いことまた深層学習手法の中では SSD が最も速く Faster R-CNN が遅いことがわかったつまり以下の順である HOG 特徴量 > SSD > YOLO > Faster R-CNN 検出精度は深層学習手法ではない HOG 特徴量が最も低いことまた深層学習手法の中では YOLO が最も高く SSD が低いことがわかったつまり以下の順である YOLO > Faster R-CNN > SSD > HOG 特徴量処理前の画像と実装後の画像の例を示すなお図 5.1 の画像には 6 人いると判断した 13

18 図 5.1. 処理前の画像処理後の画像を示すなお検出された人は枠で示されている図 5.2. YOLO 実装画像 14

19 図 5.3. Faster R-CNN 実装画像図 5.4. SSD 実装画像以上の結果より SSD の精度が低いことから閾値の変更を行ってみた 15

20 図 5.5 の画像は閾値が 0.6 としたとき図 5.6 の画像は閾値を 0.1 のときであり低い信頼度でようやく検出され精度は高くないのではないかと考えられた図 5.5. 閾値 0.6 で SSD 実装図 5.6. 閾値 0.1 で SSD 実装 16

21 第 6 章考察とまとめ HOG 特徴量は速いが検出精度が低いことが明らかになった 3 種の深層学習手法では実行速度は SSD が最も速く Faster R-CNN が遅いことがわかった考察としては Faster R-CNN は複数のネットワークを使用して物体検出するため単一のネットワークで検出する YOLO と SSD よりかなり遅いという結果が得られたのは妥当であろうまた検出精度は YOLO が最も高く SSD が低いことがわかった検出精度が低くなった考察は評価にデータとして多様な人の姿勢や向きのある画像データセット INRIA Person Dataset を使用したためであると考える特に SSD が 3 種の中で低いのはそのせいであろう展望として検出物を人物と人物以外の 2 種に限定した学習モデルを作成すれば速度を維持しつつ検出精度を高めることができるのではないだろうかまた本研究は画像に対して人物検出を行ったが最も検出精度が良かった YOLO に対して GPU を使用すれば実時間で人物検出が可能なシステムが実現し安全面や防犯面など生活の場で活躍できるのではないか 17

22 参考文献浅川伸一 (2016). Python で体験する深層学習. コロナ社麻生英樹他 (2015). 深層学習. 近代科学社. 桑井博之他. (2014). 実践 OpenCV 2.4 for Python 映像処理 & 解析. カットシステム藤田一弥高原歩 (2016) 実装ディープラーニング. オーム社藤吉弘亘 (2009). 局所特徴量の関連性に着目した Joint 特徴による物体検出. 情報処理学会研究報告 CVIM 166 Dalal N. (2005). INRIA Person Dataset (2016 年 9 月参照 ) Dalal N. & Triggs, B. (2005).Histograms of Oriented Gradients for Human Detection. In CVPR 05. pp Liu, W., Anguelov, D., Erhan, C. Szegedym, C. & Reed, S. E. (2016). SSD: Single Shot MultiBox Detector. CoRR.abs/ M. Everingham, L. Van Gool, C. K. I. Williams, J. Winn,& A. Zisserman. (2007). The PASCAL Visual Object Classes Challenge (2016 年 10 月参照 ) Redmon, J. (2016). Convolutional Neural Networks (2016 年 11 月参照 ) Redmon, J.(2016). YOLO: Real-Time Object Detection (2016 年 11 月参照 ) Redmon, J. Girshick, R., Divvala, S. & Farhadi, A. (2016). You Only Look Once:Unified, Real-Time Object Detection. In CVPR. Ren, S., He, K., Girshick, R. & Sun, J. (2015).Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks. arxiv: Saito, S. (2016) Object Detection with Faster R-CNN in Chainer (2016 年 9 月参照 ) Zhang, J. Z. (2016). MXNet port of SSD: Single Shot MultiBox Object Detector. Reimplementation of (2016 年 11 月参照 ) 18

23 謝辞本研究においてご指導して頂いた白井英俊教授に心から感謝致しますまた様々な意見を頂いた白井研究室の皆様に感謝致します 19

24 付録 1. [HOG 特徴量のプログラム ] hog.py # Python 2/3 compatibility from future import print_function import numpy as np import cv2 def inside(r, q): rx, ry, rw, rh = r qx, qy, qw, qh = q return rx > qx and ry > qy and rx + rw < qx + qw and ry + rh < qy + qh def draw_detections(img, rects, thickness = 1): for x, y, w, h in rects: # the HOG detector returns slightly larger rectangles than the real objects. # so we slightly shrink the rectangles to get a nicer output. pad_w, pad_h = int(0.15*w), int(0.05*h) cv2.rectangle(img, (x+pad_w, y+pad_h), (x+w-pad_w, y+h-pad_h), (0, 255, 0), thickness) if name == ' main ': import sys from glob import glob import itertools as it print( doc ) hog = cv2.hogdescriptor() hog.setsvmdetector( cv2.hogdescriptor_getdefaultpeopledetector() ) for fn in it.chain(*map(glob, default + sys.argv[1:])): 20

25 print(fn, ' - ',) try: img = cv2.imread(fn) if img is None: print('failed to load image file:', fn) continue except: print('loading error') continue found, w = hog.detectmultiscale(img, winstride=(8,8), padding=(32,32), scale=1.05) found_filtered = [] for ri, r in enumerate(found): for qi, q in enumerate(found): if ri!= qi and inside(r, q): break else: found_filtered.append(r) draw_detections(img, found) draw_detections(img, found_filtered, 3) print('%d (%d) found' % (len(found_filtered), len(found))) cv2.imshow('img', img) ch = 0xFF & cv2.waitkey() if ch == 27: break cv2.destroyallwindows() 21

Slide 1

ハンズオン受講の為の準備講座これから始める人の為のディープラーニング基礎講座村上真奈 NVIDIA CUDA & Deep Learning Solution Architect NVIDIA Corporation 1 機械学習とディープラーニングの関係 AGENDA ディープラーニングとは? ニューラルネットワークの構造ディープラーニングの学習とは畳み込みニューラルネットワーク午後に予定しているハンズオンの為の基礎講座ディープラーニングをこれから始める方を対象に基礎概念や用語の解説を行います