本ラボの目的ディープラーニングのイントロダクションネットワークのトレーニングトレーニングの結果を理解するコンピュータビジョン画像分類に関するハンズオン Caffe と DIGITS を使用する 1/17/ PDF Free Download

DIGITSによるディープラーニング画像分類森野慎也, シニアソリューションアーキテクトディープラーニング部エヌビディアジャパン 217/1/17

本ラボの目的ディープラーニングのイントロダクションネットワークのトレーニングトレーニングの結果を理解するコンピュータビジョン画像分類に関するハンズオン Caffe と DIGITS を使用する 1/17/217 6

本ラボが意図しないこと機械学習に対する基本的なイントロダクションニューラルネットワークに関する正確な定式化 Caffe DIGITS や他のツールに関するすべての機能の紹介最先端のディープラーニング企業になるためのノウハウ 1/17/217 7

前提知識ディープラーニングに関するバックグラウンドは不要ですウエブブラウザを使用 - URLにアクセス - ファイルのダウンロード - ファイルマネージャを用いてのファイルの配置 1/17/217 8

本ラボの受講後にはディープラーニングのワークフローを理解できていますコンボリューショナルニューラルネットワークをセットアップトレーニングすることができます本当のエキスパートになるための最初のステップを実践することができます自分自身のネットワークの設定ができより深く理解するために何をすればよいかがわかります 1/17/217 9

ディープラーニングとは? 1

機械学習ニューラルネットワークディープラーニング 11

ディープラーニングの広い応用インターネット & クラウド薬学 & 生物学メディア & エンターテイメントセキュリティ & 防衛自動走行車画像分類言語認識翻訳言語処理感情分析リコメンデーションガン細胞検出糖尿病のグレード決定創薬動画のキャプション付け動画検索リアルタイム翻訳顔検出ビデオ監視衛星画像歩行者検出レーントラッキング道路標識の認識 12

機械学習におけるビッグバン DNN BIG DATA GPU Google の AI エンジンはコンピュータハードウエアの世界における変化を示している GPU を搭載したマシンに依存しているのだこれまでにより広範なテクノロジが用いられてきたがそれ以上に強く GPU に依存しているのだ 13

人工的なニューロン生物学的ニューロン人工のニューロン y w 1 w 2 w 3 x 1 x 2 x 3 From Stanford cs231n lecture notes y=f(w 1 x 1 +w 2 x 2 +w 3 x 3 ) 14

人工的な神経ネットワークトレーニングできる単純な数学的なユニットの集合は複雑な機能を学ぶことができる隠れ層入力層出力層人口の神経ネットワークは十分なトレーニングデータが与えられれば生の入力データから出力を決定する非常に複雑な関数を近似することができる 15

トレーニング : Dog ディープラーニングのアプローチ誤差 Cat DNN 犬猫アライグマ Honey badger デプロイ : DNN 犬 16

ディープニューラルネットワーク (DNN) 生データ低レベルの特徴中間レベルの特徴高レベルの特徴アプリケーションの構成要素 : 入力結果タスクの目的 objective 例 : 顔の同定トレーニングデータ 1 千万 -1 億のイメージネットワークアーキテクチャ ~1 から - 数百のレイヤー 1 億のパラメータ学習アルゴリズム ~3 Exaflops 1-3 GPU 日 17

ディープラーニングの利点堅牢性一般化事前に特徴量のデザインをする必要がない現在のタスクに最適な特徴量が自動的に学習される元来データに存在する多様性に対しても学習により堅牢となる同じニューラルネットワークによるアプローチは多数の異なるアプリケーションおよびデータタイプに対して適用されるスケーラブルより多くのデータを用いた学習により性能が改善する演算手法は超並列化することができる 18

19 1 1 1 1 2 2 1 1 1 1 2 2 2 1 1 1 2 2 2 1 1 1 1 1 1 1 4-4 1-8 入力ピクセルコンボリューションカーネル出力ピクセルコンボリューションカーネルの係数と入力ピクセルを掛け足し合わせた値を出力とするコンボリューション

CAFFE DIGITS 本日使用するツール 2 1/17/217

CAFFE とは? オープンソースのディープラーニングフレームワーク Berkeley Vision and learning Center (BVLC) において開発多くのコントリビュータにより構成されるオープンソースコミュニティ C++/CUDA による実装高速よく検証されたコードシームレスな GPU によるアクセラレーションコマンドライン Python, MATLAB インターフェース caffe.berkeleyvision.org http://github.com/bvlc/caffe リファレンスモデルやサンプルもある 21

CAFFE の機能データのプリプロセスと管理データフォーマット LevelDB LMDB データベースインメモリ (C++ Python のみ ) HDF5 画像ファイルプリプロセスツール生画像からの LevelDB/LMDB の作成トレーニング用と検証用のデータセット作成 ( シャッフル付き ) 平均イメージの生成データ変換イメージのトリミングリサイズスケーリング位置反転平均値を引く 22

NVIDIA DIGITS インタラクティブなディープラーニングトレーニングのための GPU システムデータの準備 DNNの設定トレーニングの進行モニタ可視化 23

チュートリアル : 手書き文字認識 24 1/17/217

チュートリアルのゴールディープラーニングのワークフローを学ぶ手書き文字認識コンボリューショナルネットワークのトレーニング (Caffe と DIGITS) 複数の異なる手法を試し結果を改善するトレーニングと最適化の繰り返しはディープラーニングにおける本質的な手続き 25

手書き文字認識機械学習における HELLO WORLD? MNIST データセット (Yann LeCun s Web site) http://yann.lecun.com/exdb/mnist/ サイズ : 28x28 グレースケールピクセル値 - 255 トレーニング用データ : 6 万テスト用データ : 1 万入力ベクタサイズ : 784 ( = 28 x 28) 出力は -9 までの整数 26 1/17/217

本日使うディープニューラルネットワーク INPUT 28x28 feature maps 2 @24x24 feature maps feature maps feature maps 5 @8x8 5 @4x4 2 @12x12 5 5 1 1 Convolusions 5x5 Max Pooling 2x2 Convolusions 5x5 Fully connected Max Pooling 2x2 ReLU Softmax Fully connected 1/17/217 27

コンボリューション / サブサンプリング入力層 INPUT 28x28 feature maps 2 @24x24 feature maps 2 @12x12 コンボリューションレイヤー - コンボリューションの算出複数の特徴マップを生成する最大値プーリング Convolusions 5x5 Max Pooling 2x2 - プーリング 2x2 の領域から最大値を取得 - サブサンプリングで大きさを縦横半分に 28

全結合レイヤ活性化関数 feature maps 5 @4x4 5 5 1 1 5 @ 4x4 = 8 ピクセルをベクトルにする Fully connected レイヤ ( 行列 ) ReLU : 活性化関数 Fully connected ReLU Softmax Fully connected Softmax : 活性化関数 max, x exp a i j n exp a j 1/17/217 29

ニューラルネットワークモデルの定義 Deep Learning model definition Protobuf モデルフォーマットネットワークモデルおよびトレーニングパラメータの定義 Caffe コードの自動生成自動形式チェック高い可読性強く型付けされている Google により開発された name: conv1 type: Convolution bottom: data top: conv1 convolution_param { num_output: 2 kernel_size: 5 stride: 1 weight_filler { type: xavier } } 3

CAFFE の機能ニューラルネットワークの定義 Loss 関数 : 分類 Softmax Hinge loss 線形回帰 Euclidean loss 多値分類 Sigmoid cross entropy loss などなど使用可能なレイヤー種別 : Convolution Pooling Normalization 利用可能な関数 : ReLU Sigmoid Tanh などなど 31

ラボのセットアップ 32

ログインからラボの選択まで https://nvlabs.qwiklab.com にアクセスログイン ( もしくは新規ユーザ作成 ) DLI217 Japan を選択 DIGITSによるディープラーニング入門を選択選択ボタンを押すラボを開始ボタンを押すわからないことがあったら会場のアシスタントに聞いてください! 33

ラボ開始ここをクリック 34

Images から Classification を選択 Login 小文字を使ってくださいここを選択 35

データセットの作成その 1 1. Image Type : Grayscale 2. Image Size : 28 x 28 3. Training Images: /home/ubuntu/data/train_small 4. Separate test images folder をチェック 5. Test Images : /home/ubuntu/data/test_small 1. 2. 3. 4. 5. 36 1/17/217

データセットの作成その 2 1. MNIST small を設定 2. Create ボタンを押す 37 1/17/217

モデルの作成その 1 1. クリックしてホーム画面へ 1. 左上の DIGITS をクリックして HOME 画面に戻る 2. New Model Images から 2. ここを選択 Classification を選択 1/17/217 38

モデルの作成その 2 1. MNIST small データセットを選択 2. Training Epochs を 1 にする 1. MNIST small データセットを選択 2. Training epochs を 1 に設定 4 1/17/217

モデルの作成その 2 1. フレームワークは Caffe を選択 1. Caffe を選択 2. LeNet を選択 2. モデルは LeNet を選択 3. モデル名は MNIST small を入力 3. MNIST small を入力 41 1/17/217

Accuracy 検証データセットから求められる Loss 関数 ( 検証用 ) Loss 関数 ( トレーニング ) 42 1/17/217

一つのファイルでテスト 1. Image Path に以下を入力 /home/ubuntu/data/test_small/2/img_4415.png 2. Show visualization and statistics をチェック 3. Classify One ボタンを押す 43

現実世界のイメージを試す 44

イメージリストファイルの取得 jupyterのページに戻る In [3] を実行 (Ctrl + Enter) 出力される an_image.listを右クリックテキストファイルとして保存 45

イメージリストファイルテストデータへのパスの列テキストエディタで開いた時の見え方 /home/ubuntu/notebook/test_images/image-1-1.jpg /home/ubuntu/notebook/test_images/image-2-1.jpg /home/ubuntu/notebook/test_images/image-3-1.jpg /home/ubuntu/notebook/test_images/image-4-1.jpg /home/ubuntu/notebook/test_images/image-7-1.jpg /home/ubuntu/notebook/test_images/image-8-1.jpg /home/ubuntu/notebook/test_images/image-8-2.jpg 46

イメージリストでテストする 1. Upload Image List Browse ボタンを押す an_image.list を選択 1. Browse ボタンをクリック an_image.list を選択 2. Classify Many ボタンを押す 2. Classify Many ボタンを押す 47

最初の結果 Small dataset ( 3 epoch ) - Accuracy : 96 % - トレーニングは 1 分で終わる SMALL DATASET 1 : 99.9 % 2 : 69.3 % 8 : 71.37 % 8 : 85.7 % : 99. % 8 : 99.69 % 1/17/217 8 : 54.75 % 48

FULL DATASET 6 倍大きなデータセットデータセット Training Images : /home/ubuntu/data/train_full Test Image : /home/ubuntu/data/test_full Dataset Name : MNIST full モデル MNIST small をクローン (Cloneボタンを押す). モデル名に MNIST full を設定し Create ボタンを押す. 1/17/217 49

2 つ目の結果 Full dataset ( 3 epoch ) - 99 % of accuracy achieved. SMALL DATASET FULL DATASET - 現実世界の画像の認識には改善なし 1 : 99.9 % : 93.11 % 2 : 69.3 % 2 : 87.23 % 8 : 71.37 % 8 : 71.6 % 8 : 85.7 % 8 : 79.72 % : 99. % : 95.82 % 8 : 99.69 % 8 : 1. % 8 : 54.75 % 2 : 7.57 % 1/17/217 5

DATA AUGMENTATION 反転したイメージの追加 Pixel(Inverted) = 255 Pixel(original) 黒い背景に白い文字白い背景に黒い文字 Training Images : /home/ubuntu/data/train_invert Test Image : /home/ubuntu/data/test_invert Dataset Name : MNIST invert 51

DATA AUGMENTATION 反転したイメージの追加 ( 3 epoch ) SMALL DATASET FULL DATASET +INVERTED 1 : 99.9 % : 93.11 % 1 : 9.84 % 2 : 69.3 % 2 : 87.23 % 2 : 89.44 % 8 : 71.37 % 8 : 71.6 % 3 : 1. % 8 : 85.7 % 8 : 79.72 % 4 : 1. % : 99. % : 95.82 % 7 : 82.84 % 8 : 99.69 % 8 : 1. % 8 : 1. % 8 : 54.75 % 2 : 7.57 % 2 : 96.27 % 1/17/217 52

ネットワークの修正 ReLU レイヤの追加とコンボリューションフィルタの修正 INPUT 28x28 feature maps 2 75 @24x24 feature maps feature maps 2 75 @12x12 75@8x8 feature maps 5 -> 1@4x4 5 5 1 Convolusions 5x5 Max Pooling 2x2 ReLU Convolusions 5x5 Fully connected Max Pooling 2x2 ReLU Fully connec 53

LENET のネットワークをカスタマイズ Customize をクリック 1/17/217 54

ネットワークの可視化 Visualize ボタンをクリック 1/17/217 55

ネットワークの修正 ReLU レイヤの追加とコンボリューションフィルタの修正 layer { name: "pool1 type: "Pooling } /* ReLU レイヤの追加 */ layer { name: "relup1" type: "ReLU" bottom: "pool1" top: "pool1" } /* ここまで */ layer { name: conv2 layer { name: "conv1" type: "Convolution"... convolution_param { num_output: 75 /* feature map 数 */... layer { name: "conv2" type: "Convolution"... convolution_param { num_output: 1 /* feature map 数 */... 56

ネットワークの修正 ReLU レイヤの追加 conv1 2 75 編集後 Visualize ボタンを押してネットワークを確認 relup1 conv2 5 1 57

ネットワークの修正フィルタと ReLU レイヤの追加 ( 3 epoch ) SMALL DATASET FULL DATASET +INVERTED ADDING LAYER 1 : 99.9 % : 93.11 % 1 : 9.84 % 1 : 59.18 % 2 : 69.3 % 2 : 87.23 % 2 : 89.44 % 2 : 93.39 % 8 : 71.37 % 8 : 71.6 % 3 : 1. % 3 : 1. % 8 : 85.7 % 8 : 79.72 % 4 : 1. % 4 : 1. % : 99. % : 95.82 % 7 : 82.84 % 2 : 62.52 % 8 : 99.69 % 8 : 1. % 8 : 1. % 8 : 1. % 8 : 54.75 % 2 : 7.57 % 2 : 96.27 % 8 : 7.83 % 1/17/217 58

本ラボの目的 ディープラーニングのイントロダクション ネットワークのトレーニング トレーニングの結果を理解する コンピュータビジョン 画像分類に関するハンズオン Caffe と DIGITS を使用する 1/17/217 6

本ラボの目的ディープラーニングのイントロダクションネットワークのトレーニングトレーニングの結果を理解するコンピュータビジョン画像分類に関するハンズオン Caffe と DIGITS を使用する 1/17/217 6