ディープラーニングによって加速する AI 競争 100% 90% 80% 従来 CV 手法 IMAGENET 正答率ディープラーニング 70% 60% IBM Watson が自然言語処理のブレークスルーを実現 Facebook が Big Sur を発表 Baidu の Deep Speech

エヌビディアのディープラーニング戦略エヌビディア合同会社プラットフォームビジネス本部部長林憲一

ディープラーニングによって加速する AI 競争 100% 90% 80% 従来 CV 手法 IMAGENET 正答率ディープラーニング 70% 60% IBM Watson が自然言語処理のブレークスルーを実現 Facebook が Big Sur を発表 Baidu の Deep Speech 2 人間を超える 50% 40% 30% 20% 10% 0% 2009 2010 2011 2012 2013 2014 2015 2016 Google が TensorFlow を発表トヨタ自動車が人工知能研究所に 1200 億円投資マイクロソフトと中国の科学技術大学が IQ テストで人間を超える 7

ディープラーニングを加速する 3 要素 DNN ビッグデータ GPU

エクサバイトのコンテンツが毎日生み出されるユーザーの作るコンテンツがウェブサービスのサーバーを圧迫 1000 万ユーザー毎日 40 年分のビデオ配信 170 万のゲーマーが配信毎日 1 時間半視聴毎日 60 億の検索クエリー 10% は音声入力毎日 2 億 7000 万アイテム売買 43% はモバイルデバイス毎日 80 億ビデオビュー半年で 400% 成長毎分 300 時間分のビデオ 50% はモバイルデバイスを使用 9

ハイパースケールデータセンター Tesla プラットフォームトレーニングのためのサーバーデータ量でスケール推論ウェブサービスのためのサーバーユーザー数でスケール毎日エクサバイトのコンテンツ学習済みモデル学習済みのモデルを配置数十億のデバイス 11

8 倍高速 Caffe パフォーマンス TESLA M40 世界最速のディープラーニングアクセラレーター CPU Tesla M40 トレーニングにかかる時間を 8 日から 1 日へ短縮 0 1 2 3 4 5 6 7 8 9 # of Days CUDA コア 3072 理論ピーク性能 7 TFLOPS GDDR5 メモリメモリバンド幅消費電力 12 GB 288 GB/s 250W Caffe Benchmark: AlexNet training throughput based on 20 iterations, CPU: E5-2697v2 @ 2.70GHz. 64GB System Memory, CentOS 6.2 13

ビデオ処理手振れ補正画質向上イメージ処理リサイズフィルター検索自動画質向上 4 倍 5 倍 TESLA M4 ハイパースケールワークロードを加速して最高スループットを実現ビデオトランスコード 2 倍 H.264 & H.265, SD & HD 機械学習推論 2 倍 CUDA コア 1024 理論ピーク性能 2.2 TFLOPS GDDR5 メモリメモリバンド幅フォームファクター消費電力 4 GB 88 GB/s PCIe Low Profile 50 75 W Preliminary specifications. Subject to change. 14

エヌビディア合同会社プラットフォームビジネス本部ディープラーニングソリューションアーキテクト兼 CUDA エンジニア村上真奈 16

ディープラーニング SDK ディープラーニング開発を強力にサポートディープラーニング SDK DIGITS cudnn cusparse cublas NCCL 17

cudnn4 ディープラーニング用ライブラリ最新はバージョン 4 (2015/12~) ディープニューラルネットワークの為の GPU プリミティブ群 Caffe, Torch, Theano, Chainer, TensorFlow 等の主要ディープラーニングフレームワークが採用以下の OS をサポート ( 2016.1.15 現在 ) Windows Linux(x64/ARMv7/ARM64/Power8) Mac OSX Android(ARMv7/ARM64) ディープラーニング SDK 18

学習の高速化 cudnn4 ディープラーニング用ライブラリ学習をより速く推論を高速に畳み込み演算のアルゴリズムに 2D FFT タイリングを追加 Batch Normalization 処理の追加 normalizationfoward 関数 normalizationbackward 関数の追加畳み込み演算の FP16 サポート (Tegra X1 only) cudnnconvolutionforward 関数の FP16 対応推論処理の高速化 convolutionfoward の batchsize=1 の場合の最適化 Small Batch Sizes Up to 2x faster on Alexnet Layers 3.0x 2.0x 1.0x 0.0x Tiled FFT up to 2x faster on VGG Layers 3.0x 2.0x 1.0x 0.0x 20

Performance cudnn4 ディープラーニング用ライブラリ学習をより速く推論を高速に Caffe Performance 6 M40+cuDNN4 5 M40+cuDNN3 4 3 2 1 K40 K40+cuDNN1 0 11/2013 9/2014 7/2015 12/2015 AlexNet training throughput based on 20 iterations, CPU: 1x E5-2680v3 12 Core 2.5GHz. 128GB System Memory, Ubuntu 14.04 21

cublas CUDA7.5: cublas & cusparse ディープラーニング SDK 密行列計算用ライブラリ cusparse 疎行列計算用ライブラリ cusparse 22

cusparse CUDA7.5: cublas & cusparse 密行列疎ベクタールーチン自然言語処理を高速化 Bag of Words(BoW) をより高速に処理 cusparse{s,d,c,z}gemvi() ディープラーニング SDK cublas y = α op(a) x + β y FP16( 半精度浮動小数点 ) ストレージ cublassgemmex() FP16 データ入出力対応の行列積 ( 演算は FP32) 23

NVIDIA Collective Collection Library(NCCL) ディープラーニング SDK マルチ GPU 集合通信ライブラリ https://github.com/nvidia/nccl all-gather, reduce, broadcast など標準的な集合通信の処理をバンド幅が出るように最適化シングルプロセスおよびマルチプロセスで使用する事が可能 24

DIGITS3 ディープラーニング SDK Web ベースのディープラーニング GPU トレーニングシステムユーザーインターフェース学習 Chainer データセットの作成 Theano Torch 学習モデルの作成 NVCaffe 学習過程の可視化レイヤーの可視化 cudnn, cublas CUDA DIGITS(UI/Server) ディープラーニングの学習テストを簡単に行う為の UI 別マシンから DIGITS を操作する為のサーバ機能 NVCaffe BVLC/caffe( 本家 ) からフォーク最新の CUDA ライブラリを使用エヌビディア GPU に最適化 GPU HW GPU マルチ GPU GPU クラスタクラウド 25

DIGITS3 強化されたワークフローで効率よく学習 Torch7 に対応 (Preview) cudnn4 を使った学習 / 推論 HDF5 形式のデータセットのサポート学習データセットのブラウジング機能 LMDB 形式の学習データの中身を確認出来る機能が追加ジョブマネージメント機能の強化現在実行中のジョブ一覧を分かりやすく表示する機能が追加学習結果比較用ブラウザ学習済みモデルを Accuracy や Loss 率など幾つかの項目でソートしたり分析できる画面が追加 27

DIGITS DEMO 28

ディープラーニング SDK ディープラーニング開発を強力にサポートディープラーニング SDK DIGITS cudnn cusparse cublas NCCL 29

Jetson TX1 モジュール型スーパーコンピューター 10W 以下で比類ないパフォーマンスクレジットカードサイズディープラーニングの各種フレームワークに対応 30

包括的な開発者用プラットフォーム Jetson ソフトウェア開発キットライブラリ群開発ツール設計ファイル開発者フォーラム学習チュートリアルエコシステム http://developer.nvidia.com/embedded-computing 32

Jetson Linux SDK グラフィックスディープラーニングとコンピュータビジョン GPU による計算開発ツール NVTX NVIDIA Tools extension Debugger Profiler System Trace 33

cudnn CUDA で加速されたディープラーニング用ライブラリアプリケーション各種フレームワーク各種ニューラルネットワークを使い始めてすぐに高速化標準的なフレームワークに全て対応学習にも推論にも対応 cudnn CUDA 各ハードウェア Jetson TX1 Tesla TITAN X 34

VisionWorks CUDA で加速されたコンピュータービジョン用ツールキット Feature Tracking Structure from Motion アプリケーション Pipelines Object Tracking Dense Optical Flow OpenVX1.1 の完全実装 VisionWorks NVIDIA のカスタム拡張既存の CV パイプラインに容易に統合可能 CUDA Linux Windows 各ハードウェア Jetson TK1 Jetson TX1 Tesla TITAN X 35

JETSON TX1 DEMO 36

あらゆるフレームワークを GPU で最適化大学 BIG SUR TENSORFLOW WATSON CNTK TORCH CAFFE THEANO MATCONVNET MOCHA.JL PURINE スタートアップ CHAINER DL4J KERAS OPENDEEP MINERVA MXNET* SCHULTS LABORATORIES VITRUVIAN NVIDIA GPU プラットフォーム *U. Washington, CMU, Stanford, TuSimple, NYU, Microsoft, U. Alberta, MIT, NYU Shanghai 37

株式会社 Preferred Networks 取締役副社長岡野原大輔様 38

Google s Open Source Machine Learning System: TensorFlow Dr. Mike Schuster, Google 40

docomo Developer support における画像認識 API 提供株式会社 NTT ドコモサービスイノベーション部酒井俊樹様 42

docomo Developer support 17 カテゴリ (25 種類 ) の API 無償 ( 制限の範囲内で ) API カテゴリシナリオ対話発話理解雑談対話知識 Q&A 言語解析音声認識音声合成画像認識 API カテゴリ文字認識トレンド記事抽出動作推定ジオフェンシング地図フォトコレクションドコモ電話帳データ保管 BOX IoT 機器制御 2016 NTT DOCOMO, INC. All Rights Reserved. 2008 NTT DOCOMO, INC. All rights reserved.

2 つの画像認識 API 1. オブジェクト認識商品認識個別具体的な名称で認識局所特徴量ベース商品名 : 画像認識 API 入門著者 : ドコモ太郎発売年 :2014/9/17 自然言語処理入門画像認識エンジン商品名 : 自然言語処理入門著者 : ドコモ花子発売年 :1989/9/01 2016 NTT DOCOMO, INC. All Rights Reserved. 2008 NTT DOCOMO, INC. All rights reserved.

1. オブジェクト認識商品認識の特徴大規模高速 (700 万件 1 秒 ) 遮蔽回転 OK 特徴量比較自然言語処理入門商品名 : 自然言語処理入門著者 : ドコモ花子発売年 :1999/12/21 画像 1 枚からバリエーションのある商品名 : 画像認識 API 入門著者 : ドコモ太郎発売年 :2014/9/17 物体は苦手エンジン画像認識特徴量は手作り 2016 NTT DOCOMO, INC. All Rights Reserved. 2008 NTT DOCOMO, INC. All rights reserved.

Deep Learning の学習時間 ( イメージ ) CPU 約 7 日 (20000iter) GPU 半日弱約 20 倍大規模データの学習では GPU が必須 2016 NTT DOCOMO, INC. All Rights Reserved. あくまでイメージです画像枚数やネットワークによって変わります CPU:Intel Xeon(R) CPU E5-2643 GPU:NVIDIA Tesla K80 2008 NTT DOCOMO, INC. All rights reserved.

Deep Learning の認識時間 ( イメージ ) CPU 数百 ms/ 枚 GPU 2016 NTT DOCOMO, INC. All Rights Reserved. 数十 ms/ 枚約 10 倍 2008 NTT DOCOMO, INC. All rights reserved. 以下に依存して選択使うネットワーク構造求める処理速度あくまでイメージです画像枚数やネットワークによって変わります CPU:Intel Xeon(R) CPU E5-2643 GPU:NVIDIA Tesla K80

Deep Learning を用いた API のシステム構成登録アプリ開発者開発アクセス用キー画像 + モデル名ドコモ側で学習済みの Deep Learning の認識器 ( モデル ) シーン認識料理認識認識結果タグ + スコア返却は 1 秒以内画像認識 API (CPU) 学習用サーバ (GPU) 2016 NTT DOCOMO, INC. All Rights Reserved. 2008 NTT DOCOMO, INC. All rights reserved.

MATLAB による深層学習 Mathworks Japan アプリケーションエンジニアリング部テクニカルコンピューティング太田英司様 72

MATLAB とは? 科学技術計算のための統合開発環境 Figure 優れた開発効率シンプルなプログラムの文法インタープリタによる対話的操作デバッガプロファイラー等の充実現在のフォルダエディター柔軟な拡張性 C/C++, Java, Python 等との連携各種計算ライブラリの取り込みワークスペース MATLAB メモリ領域豊富な拡張ライブラリーアプリ : 画像信号制御金融等入出力 : カメラマイクデータベースコマンドウィンドウコマンド履歴

実行時間 ( 秒 ) GPGPU によるアルゴリズムの高速化波動方程式をスペクトラル法で解いたときの速度の比較 80 70 60 50 40 30 20 10 0 18 x faster 23x faster 0 512 1024 1536 2048 波動方程式のグリッドサイズ 20x faster NVIDIA Tesla K20c GPU 実行が可能な MATLAB 関数群 300 以上の MATLAB 関数 90 in Statistics and Machine Learning Toolbox 48 in Image Processing Toolbox スパース配列の GPU 演算サポート

GPGPU によるアルゴリズムの高速化 Parallel Computing Toolbox gpuarray メインメモリ gather GPGPU >> I = gpuarray(i); GPU のメモリへ転送 >> I = imrotate(i, 75, bicubic ); >> I = gather(i); 画像の回転を GPU 上で実行結果をメインメモリへ転送

MATLAB による深層学習積層自己符号化器 Stacked Autoencoder リカレントニューラルネット Recurrent Neural Network Neural Network Toolbox MATLAB のオプションとして提供インストールしてすぐ使えるサポートも利用可能畳み込みニューラルネット Convolutional Neural Network 画像認識等に優れた性能既存方式を大きく引き離す MatConvNet Oxford の研究者によるライブラリ Caffe に近い実行性能 (cudnn v4) 使い易いインターフェース

Stacked Autoencoder ( 積層自己符号化器 ) Neural Network Toolbox 自己符号化器 (Autoencoder) とは? 2 層のニューラルネットワーク恒等写像となるようなウェイトを学習主に DNN の事前学習に利用自己符号化器 (Autoencoder) コード例自己符号化器の学習 autoenc = trainautoencoder(x, hiddensize,... 'L2WeightRegularization, 0.001,... 'SparsityRegularization', 4,... 'SparsityProportion', 0.05,... 'DecoderTransferFunction', 'purelin 'usegpu', true); GPU による高速化積層自己符号化器 (Stacked Autoencoder)

Convolutional Neural Network ( 畳み込みニューラルネット ) MatConvNet http://www.vlfeat.org/matconvnet/

CNN と転移学習転移学習 : 学習済みのネットワークを他のタスクに転用する手法学習済みの CNN を特徴抽出器として転用分類器の部分をタスクに合せて再学習 http://devblogs.nvidia.com/parallelforall/deep-learning-for-computer-vision-with-matlab-and-cudnn/

Convolutional Neural Network ( 畳み込みニューラルネット ) MatConvNet Demonstration

機械学習並列化高速化 Statistics and Machine Learning Toolbox 機械学習多変量統計確率分布回帰と分散分析実験計画統計的工程管理 Neural Network Toolbox ニューラルネットワークの構築学習データフィッティングクラスタリングパターン認識深層学習 GPU による計算の高速化 Mean Squared Error (mse) Best Validation Performance is 0.01227 at epoch 26 10 0 Train Validation Test Best 10-1 10-2 10-3 0 5 10 15 20 25 30 32 Epochs Parallel Computing Toolbox MATLAB & Simulink と連携した並列処理対話的な並列計算実行 GPGPU による高速演算ジョブおよびタスクの制御コンピュータローカル MATLAB デスクトップ MATLAB Distributed Computing Server クラスタによる計算環境を提供 Parallel Computing Toolbox MATLAB Distributed Computing Server Scheduler

画像処理コンピュータービジョンロボットビジョン Image Processing Toolbox コーナー円検出幾何学的変換各種画像フィルタ処理レジストレーション ( 位置合せ ) セグメンテーション ( 領域分割 ) 画像の領域の定量評価 Computer Vision System Toolbox カメラキャリブレーション特徴点特徴量抽出機械学習による物体認識動画ストリーミング処理トラッキングステレオビジョン 3D 表示 Image Acquisition Toolbox デバイスから画像動画直接取り込みフレームグラバボード DCAM, Camera Link GigE Vision, Web カメラ Microsoft Kinect for Windows Robotics System Toolbox ロボティクスアルゴリズム開発の支援 MATLAB Simulink と ROS 間のインターフェイス ROS ノード生成

信号処理信号解析 Signal Processing Toolbox 信号生成時間領域解析フィルタ設計解析スペクトル解析線形予測 DSP System Toolbox 高度なフィルタ設計スペクトル解析スペアナロジアナ表示行列演算統計処理 Power density (db/rad/sample) 30 20 10 0-10 -20-30 Input signal PSD Equiripple output PSD IFIR output PSD Multirate/multistage output PSD -40-50 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Normalized Frequency (x rad/sample) Wavelet Toolbox 信号画像の解析ノイズ除去圧縮等連続 / 離散ウェーブレットパケット解析 / 主成分分析対話的な GUI による操作

セルフドライビングカー競争の先頭へ 85

セルフドライビングはコンピューターサイエンスの大きな挑戦ソフトウェアスーパーコンピューターディープラーニング 86

エヌビディア合同会社シニアソリューションアーキテクト室河徹 87

自動運転の基本ループ HD マップセンシング制御ローカライズプランニング認識 88

自動運転の困難さ世界は複雑世界は予測不能世界は危険 89

NVIDIA DRIVE PX 2 12 CPU コア Pascal GPU 8 TFLOPS 24 DL TOPS 16nm FF 250W リキッドクーリング方式世界初自動運転向け AI スーパーコンピュータ 91

NVIDIA DRIVE PX 2 TITAN X DRIVE PX 2 Process 28nm 16nm FinFET CPU 12 CPU コア 8x A57 + 4x Denver GPU Maxwell Pascal TFLOPS 7 8 DL TOPS 7 24 AlexNet 450 イメージ / 秒 2,800 イメージ / 秒 92

次世代 TEGRA プロセッサ 2 基 93

次世代 PASCAL GPU 2 基 94

リキッドクーリング方式消費電力 250W 動作温度 80 容量 4200 c m3 95

NVIDIA DRIVE PX 2 96

ぶつからない車の未来へ向けエヌビディアのディープラーニングカーコンピュータが選定されました 97

NVIDIA DRIVENET デモ

KITTI dataset 99

Courtesy of Cityscapes dataset 100 project

Courtesy of Cityscapes dataset 101 project

Courtesy 102 of Audi

自動運転向けディープラーニングプラットフォーム DRIVEWORKS 認識ローカライズプランニング可視化 NVIDIA DIGITS NVIDIA DRIVE PX 2 NVIDIA DRIVENET 103

ONE ARCHITECTURE END-TO-END AI PC GAMING Tesla ( クラウド ) TITAN X (PC) DRIVE PX ( 車載 ) Jetson ( 組み込み ) 104

大学 BIG SUR TENSORFLOW WATSON CNTK TORCH CAFFE THEANO MATCONVNET MOCHA.JL PURINE スタートアップ CHAINER DL4J KERAS OPENDEEP MINERVA MXNET* SCHULTS LABORATORIES VITRUVIAN ディープラーニング SDK Tesla ( クラウド ) TITAN X (PC) DRIVE PX ( 車載 ) Jetson ( 組み込み ) 105

Thank you!

ディープラーニングによって加速する AI 競争 100% 90% 80% 従来 CV 手法 IMAGENET 正答率 ディープラーニング 70% 60% IBM Watson が自然言語処理のブレークスルーを実現 Facebook が Big Sur を発表 Baidu の Deep Speech

ディープラーニングによって加速する AI 競争 100% 90% 80% 従来 CV 手法 IMAGENET 正答率ディープラーニング 70% 60% IBM Watson が自然言語処理のブレークスルーを実現 Facebook が Big Sur を発表 Baidu の Deep Speech