ディープラーニングによって加速する AI 競争 100% 90% 80% 従来 CV 手法 IMAGENET 正答率 ディープラーニング 70% 60% IBM Watson が自然言語処理のブレークスルーを実現 Facebook が Big Sur を発表 Baidu の Deep Speech

Similar documents
Slide 1

ディープラーニングの組み込み機器実装ソリューション ~GPC/CPU編~

MATLAB ではじめる画像処理とロボットビジョン ~ 機械学習による物体認識と SLAM~ MathWorks Japan アプリケーションエンジニアリング部信号処理 通信 木川田亘 2015 The MathWorks, 1Inc.

MATLAB EXPO 2019 Japan プレゼン資料の検討

b4-deeplearning-embedded-c-mw

いまからはじめる組み込みGPU実装

PowerPoint Presentation

製品開発の現場では 各種のセンサーや測定環境を利用したデータ解析が行われ シミュレーションや動作検証等に役立てられています しかし 日々収集されるデータ量は増加し 解析も複雑化しており データ解析の負荷は徐々に重くなっています 例えば自動車の車両計測データを解析する場合 取得したデータをそのまま解析

医用画像を題材とした3次元画像解析とディープラーニング

AGENDA ディープラーニングとは Qwiklab/Jupyter notebook/digits の使い方 DIGITS による物体検出入門ハンズオン

Presentation Title

MATLAB® における並列・分散コンピューティング ~ Parallel Computing Toolbox™ & MATLAB Distributed Computing Server™ ~

ディープラーニングとは AGENDA Qwiklabs/DIGITS の使い方 DIGITS による物体検出入門ハンズオン

Images per Second Images per Second VOLTA: ディープラーニングにおける大きな飛躍 ResNet-50 トレーニング 2.4x faster ResNet-50 推論 TensorRT - 7ms レイテンシ 3.7x faster P100 V100 P10

Slide 1

Managing and Sharing MATLAB Code

VOLTA TENSOR コアで 高速かつ高精度に DL モデルをトレーニングする方法 成瀬彰, シニアデベロッパーテクノロジーエンジニア, 2017/12/12

Presentation Title

Slide 1

PowerPoint Presentation

Presentation Title

マネージド AI サービスと GPU IaaS クラウドで GPU が活きる二つの選択肢 マネージド AI サービス GPU IaaS Amazon AI Google Cloud Vision API 等 IBM Watson Microsoft Cognitive Services Amazon

PHP 開発ツール Zend Studio PHP アフ リケーションサーハ ー Zend Server OSC Tokyo/Spring /02/28 株式会社イグアスソリューション事業部

Presentation Title

MATLAB®製品紹介セミナー

提案書

SUALAB INTRODUCTION SUALAB Solution SUALAB は 人工知能 ( ディープラーニング ) による画像解析技術を通して 迅速 正確 そして使いやすいマシンビジョン用のディープラーニングソフトウェアライブラリーである SuaKIT を提供します これは 従来のマシン

WiFiの現状

AI技術の紹介とセンサーデータ解析への応用

NEC 製PC サーバ『Express5800 R120f-1E』とSanDisk『ioMemory SX /SX 』検証報告書

機械学習 ハンズオン-チュートリアル

Presentation Title

タイトル

ソフト活用事例③自動Rawデータ管理システム

dlshogiアピール文章

ERDAS IMAGINE における処理速度の向上 株式会社ベストシステムズ PASCO CORPORATION 2015

Infor 10 ERP Enterprise Overview

Slides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments

いまからはじめる、MATLABによる 画像処理・コンピュータビジョン

Oracle Un お問合せ : Oracle Data Integrator 11g: データ統合設定と管理 期間 ( 標準日数 ):5 コースの概要 Oracle Data Integratorは すべてのデータ統合要件 ( 大量の高パフォーマンス バッチ ローブンの統合プロセスおよ

EnSightのご紹介

GTC Japan, 2018/09/14 得居誠也, Preferred Networks Chainer における 深層学習の高速化 Optimizing Deep Learning with Chainer

Joint Content Development Proposal Tech Docs and Curriculum

PowerPoint プレゼンテーション

Corp ENT 3C PPT Template Title

第 1 回ディープラーニング分散学習ハッカソン <ChainerMN 紹介 + スパコンでの実 法 > チューター福 圭祐 (PFN) 鈴 脩司 (PFN)

インテル® Parallel Studio XE 2019 Composer Edition for Fortran Windows 日本語版 : インストール・ガイド

tokyo_t3.pdf

Microsoft PowerPoint - 【最終提出版】 MATLAB_EXPO2014講演資料_ルネサス菅原.pptx

PowerPoint プレゼンテーション

Microsoft Word - Dolphin Expressによる10Gbpソケット通信.docx

“nice to meet you”

WHITE PAPER RNN

Apache Arrow 須藤功平株式会社クリアコード RubyData Tokyo Meetup Apache Arrow Powered by Rabbit 2.2.2

Qlik Sense のシステム要件

SimulinkによるReal-Time Test環境の構築

Deep Learning によるビッグデータ解析 ~ 手法や CUDA による高速化 2014 年 9 月 5 日 G-DEP ソリューションパートナー株式会社システム計画研究所奥村義和

de:code 2019 CM04 Azure Kinect DK 徹底解説 ~ 進化したテクノロジーとその実装 ~ 技術統括室 千葉慎二 Ph.D.

Silk Central Connect 15.5 リリースノート

ArcGIS for Server 機能比較表

TVS-871T_P6_ RS_201508_(JPN)_web

自宅でJava言語の開発環境を作る方法

WiFiの現状

Maser - User Operation Manual

Presentation Title

OSSTechプレゼンテーション

PowerPoint Presentation

DocAve Lotus Notes Migrator v5_0 - Product Sheet

使える! IBM Systems Director Navigator for i の新機能

ic3_cf_p1-70_1018.indd

インテル® Parallel Studio XE 2019 Composer Edition for Fortran Windows : インストール・ガイド

アプライドの学校 法人様向け PC IT機器 事務家電情報カタログ 研究室のお役立ち アット ラボ L BO 2019 年 8 月 Vol.1 新 製 品 NEW! 機械学習 深層学習フレームワーク A I 開 発プラットフォーム ReNomプラットフォームは Deep Learningに留まらず

ENI ファーマシー受信プログラム ユーザーズマニュアル Chapter1 受信プログラムのインストール方法 P.1-1 受信プログラムのシステム動作環境 P.1-2 受信プログラムをインストールする P.1-9 受信プログラムを起動してログインする P.1-11 ログインパスワードを変更する

IBM SPSS Statistics - Essentials for Python: のインストール手順 Mac OS

2008 年度下期未踏 IT 人材発掘 育成事業採択案件評価書 1. 担当 PM 田中二郎 PM ( 筑波大学大学院システム情報工学研究科教授 ) 2. 採択者氏名チーフクリエータ : 矢口裕明 ( 東京大学大学院情報理工学系研究科創造情報学専攻博士課程三年次学生 ) コクリエータ : なし 3.

報道関係者各位 プレスリリース 2019 年 01 月 15 日 株式会社ネオジャパン グループウェア desknet's NEO バージョン 5.2 を 1 月 15 日に提供開始 ~ 業務アプリ作成ツール AppSuite との連携を強化 他にも AppSuite 連携 API 公開など多数の機

TopSE並行システム はじめに

「RAD Studio XE5によるマルチ言語/マルチデバイス開発の進め方」

商用監視ソフトウェアユーザの Zabbix 移行へ朗報 Zabbix Event Viewer のご紹介 【本邦初公開】

高性能計算研究室の紹介 High Performance Computing Lab.

Transcription:

エヌビディアのディープラーニング戦略 エヌビディア合同会社プラットフォームビジネス本部部長 林憲一

ディープラーニングによって加速する AI 競争 100% 90% 80% 従来 CV 手法 IMAGENET 正答率 ディープラーニング 70% 60% IBM Watson が自然言語処理のブレークスルーを実現 Facebook が Big Sur を発表 Baidu の Deep Speech 2 人間を超える 50% 40% 30% 20% 10% 0% 2009 2010 2011 2012 2013 2014 2015 2016 Google が TensorFlow を発表 トヨタ自動車が人工知能研究所に 1200 億円投資 マイクロソフトと中国の科学技術大学が IQ テストで人間を超える 7

ディープラーニングを加速する 3 要素 DNN ビッグデータ GPU

エクサバイトのコンテンツが毎日生み出されるユーザーの作るコンテンツがウェブサービスのサーバーを圧迫 1000 万ユーザー毎日 40 年分のビデオ配信 170 万のゲーマーが配信毎日 1 時間半視聴 毎日 60 億の検索クエリー 10% は音声入力 毎日 2 億 7000 万アイテム売買 43% はモバイルデバイス 毎日 80 億ビデオビュー半年で 400% 成長 毎分 300 時間分のビデオ 50% はモバイルデバイスを使用 9

ハイパースケールデータセンター Tesla プラットフォーム トレーニングのためのサーバーデータ量でスケール 推論 ウェブサービスのためのサーバーユーザー数でスケール 毎日エクサバイトのコンテンツ学習済みモデル学習済みのモデルを配置数十億のデバイス 11

8 倍高速 Caffe パフォーマンス TESLA M40 世界最速のディープラーニングアクセラレーター CPU Tesla M40 トレーニングにかかる時間を 8 日から 1 日へ短縮 0 1 2 3 4 5 6 7 8 9 # of Days CUDA コア 3072 理論ピーク性能 7 TFLOPS GDDR5 メモリ メモリバンド幅 消費電力 12 GB 288 GB/s 250W Caffe Benchmark: AlexNet training throughput based on 20 iterations, CPU: E5-2697v2 @ 2.70GHz. 64GB System Memory, CentOS 6.2 13

ビデオ処理 手振れ補正 画質向上 イメージ処理 リサイズ フィルター 検索 自動画質向上 4 倍 5 倍 TESLA M4 ハイパースケールワークロードを加速して最高スループットを実現 ビデオトランスコード 2 倍 H.264 & H.265, SD & HD 機械学習推論 2 倍 CUDA コア 1024 理論ピーク性能 2.2 TFLOPS GDDR5 メモリメモリバンド幅フォームファクター消費電力 4 GB 88 GB/s PCIe Low Profile 50 75 W Preliminary specifications. Subject to change. 14

エヌビディア合同会社プラットフォームビジネス本部ディープラーニングソリューションアーキテクト兼 CUDA エンジニア村上真奈 16

ディープラーニング SDK ディープラーニング開発を強力にサポート ディープラーニング SDK DIGITS cudnn cusparse cublas NCCL 17

cudnn4 ディープラーニング用ライブラリ 最新はバージョン 4 (2015/12~) ディープニューラルネットワークの為の GPU プリミティブ群 Caffe, Torch, Theano, Chainer, TensorFlow 等の主要ディープラーニングフレームワークが採用 以下の OS をサポート ( 2016.1.15 現在 ) Windows Linux(x64/ARMv7/ARM64/Power8) Mac OSX Android(ARMv7/ARM64) ディープラーニング SDK 18

学習の高速化 cudnn4 ディープラーニング用ライブラリ 学習をより速く推論を高速に 畳み込み演算のアルゴリズムに 2D FFT タイリングを追加 Batch Normalization 処理の追加 normalizationfoward 関数 normalizationbackward 関数の追加 畳み込み演算の FP16 サポート (Tegra X1 only) cudnnconvolutionforward 関数の FP16 対応 推論処理の高速化 convolutionfoward の batchsize=1 の場合の最適化 Small Batch Sizes Up to 2x faster on Alexnet Layers 3.0x 2.0x 1.0x 0.0x Tiled FFT up to 2x faster on VGG Layers 3.0x 2.0x 1.0x 0.0x 20

Performance cudnn4 ディープラーニング用ライブラリ学習をより速く推論を高速に Caffe Performance 6 M40+cuDNN4 5 M40+cuDNN3 4 3 2 1 K40 K40+cuDNN1 0 11/2013 9/2014 7/2015 12/2015 AlexNet training throughput based on 20 iterations, CPU: 1x E5-2680v3 12 Core 2.5GHz. 128GB System Memory, Ubuntu 14.04 21

cublas CUDA7.5: cublas & cusparse ディープラーニング SDK 密行列計算用ライブラリ cusparse 疎行列計算用ライブラリ cusparse 22

cusparse CUDA7.5: cublas & cusparse 密行列 疎ベクタールーチン 自然言語処理を高速化 Bag of Words(BoW) をより高速に処理 cusparse{s,d,c,z}gemvi() ディープラーニング SDK cublas y = α op(a) x + β y FP16( 半精度浮動小数点 ) ストレージ cublassgemmex() FP16 データ入出力対応の行列積 ( 演算は FP32) 23

NVIDIA Collective Collection Library(NCCL) ディープラーニング SDK マルチ GPU 集合通信ライブラリ https://github.com/nvidia/nccl all-gather, reduce, broadcast など標準的な集合通信の処理をバンド幅が出るように最適化シングルプロセスおよびマルチプロセスで使用する事が可能 24

DIGITS3 ディープラーニング SDK Web ベースのディープラーニング GPU トレーニングシステム ユーザーインターフェース 学習 Chainer データセットの作成 Theano Torch 学習モデルの作成 NVCaffe 学習過程の可視化 レイヤーの可視化 cudnn, cublas CUDA DIGITS(UI/Server) ディープラーニングの学習 テストを簡単に行う為の UI 別マシンから DIGITS を操作する為のサーバ機能 NVCaffe BVLC/caffe( 本家 ) からフォーク最新の CUDA ライブラリを使用エヌビディア GPU に最適化 GPU HW GPU マルチ GPU GPU クラスタ クラウド 25

DIGITS3 強化されたワークフローで効率よく学習 Torch7 に対応 (Preview) cudnn4 を使った学習 / 推論 HDF5 形式のデータセットのサポート学習データセットのブラウジング機能 LMDB 形式の学習データの中身を確認出来る機能が追加ジョブマネージメント機能の強化 現在実行中のジョブ一覧を分かりやすく表示する機能が追加学習結果比較用ブラウザ 学習済みモデルを Accuracy や Loss 率など幾つかの項目でソートしたり 分析できる画面が追加 27

DIGITS DEMO 28

ディープラーニング SDK ディープラーニング開発を強力にサポート ディープラーニング SDK DIGITS cudnn cusparse cublas NCCL 29

Jetson TX1 モジュール型スーパーコンピューター 10W 以下で比類ないパフォーマンスクレジットカードサイズディープラーニングの各種フレームワークに対応 30

包括的な開発者用プラットフォーム Jetson ソフトウェア開発キットライブラリ群開発ツール設計ファイル開発者フォーラム学習 チュートリアルエコシステム http://developer.nvidia.com/embedded-computing 32

Jetson Linux SDK グラフィックス ディープラーニングとコンピュータビジョン GPU による計算 開発ツール NVTX NVIDIA Tools extension Debugger Profiler System Trace 33

cudnn CUDA で加速されたディープラーニング用ライブラリ アプリケーション 各種フレームワーク 各種ニューラルネットワークを使い始めてすぐに高速化 標準的なフレームワークに全て対応 学習にも推論にも対応 cudnn CUDA 各ハードウェア Jetson TX1 Tesla TITAN X 34

VisionWorks CUDA で加速されたコンピュータービジョン用ツールキット Feature Tracking Structure from Motion アプリケーション Pipelines Object Tracking Dense Optical Flow OpenVX1.1 の完全実装 VisionWorks NVIDIA のカスタム拡張 既存の CV パイプラインに容易に統合可能 CUDA Linux Windows 各ハードウェア Jetson TK1 Jetson TX1 Tesla TITAN X 35

JETSON TX1 DEMO 36

あらゆるフレームワークを GPU で最適化 大学 BIG SUR TENSORFLOW WATSON CNTK TORCH CAFFE THEANO MATCONVNET MOCHA.JL PURINE スタートアップ CHAINER DL4J KERAS OPENDEEP MINERVA MXNET* SCHULTS LABORATORIES VITRUVIAN NVIDIA GPU プラットフォーム *U. Washington, CMU, Stanford, TuSimple, NYU, Microsoft, U. Alberta, MIT, NYU Shanghai 37

株式会社 Preferred Networks 取締役副社長岡野原大輔様 38

Google s Open Source Machine Learning System: TensorFlow Dr. Mike Schuster, Google 40

docomo Developer support における画像認識 API 提供株式会社 NTT ドコモサービスイノベーション部酒井俊樹様 42

docomo Developer support をご存じの方? 2016 NTT DOCOMO, INC. All Rights Reserved. 2008 NTT DOCOMO, INC. All rights reserved.

協創による新規事業創出をめざし API を提供 2016 NTT DOCOMO, INC. All Rights Reserved. 2008 NTT DOCOMO, INC. All rights reserved.

docomo Developer support 17 カテゴリ (25 種類 ) の API 無償 ( 制限の範囲内で ) API カテゴリ シナリオ対話発話理解雑談対話知識 Q&A 言語解析音声認識音声合成画像認識 API カテゴリ 文字認識トレンド記事抽出動作推定ジオフェンシング地図フォトコレクションドコモ電話帳データ保管 BOX IoT 機器制御 2016 NTT DOCOMO, INC. All Rights Reserved. 2008 NTT DOCOMO, INC. All rights reserved.

docomo Developer support シナリオ対話 2016 NTT DOCOMO, INC. All Rights Reserved. 2008 NTT DOCOMO, INC. All rights reserved.

docomo Developer support 雑談対話 2016 NTT DOCOMO, INC. All Rights Reserved. 2008 NTT DOCOMO, INC. All rights reserved.

docomo Developer support 画像認識 2016 NTT DOCOMO, INC. All Rights Reserved. 2008 NTT DOCOMO, INC. All rights reserved.

2 つの画像認識 API 1. オブジェクト認識 商品認識 個別具体的な名称で認識 局所特徴量ベース 2. カテゴリ認識 抽象的なコンセプトを認識 Deep Learning を利用 2016 NTT DOCOMO, INC. All Rights Reserved. 2008 NTT DOCOMO, INC. All rights reserved.

2 つの画像認識 API 1. オブジェクト認識 商品認識 個別具体的な名称で認識 局所特徴量ベース 自然言語処理入門 画像認識エンジン 2016 NTT DOCOMO, INC. All Rights Reserved. 2008 NTT DOCOMO, INC. All rights reserved.

2 つの画像認識 API 1. オブジェクト認識 商品認識 個別具体的な名称で認識 局所特徴量ベース 商品名 : 画像認識 API 入門 著者 : ドコモ太郎 発売年 :2014/9/17 自然言語処理入門 画像認識エンジン 商品名 : 自然言語処理入門 著者 : ドコモ花子 発売年 :1989/9/01 2016 NTT DOCOMO, INC. All Rights Reserved. 2008 NTT DOCOMO, INC. All rights reserved.

2 つの画像認識 API 1. オブジェクト認識 商品認識 個別具体的な名称で認識 局所特徴量ベース 自然言語処理入門 画像認識エンジン 2016 NTT DOCOMO, INC. All Rights Reserved. 2008 NTT DOCOMO, INC. All rights reserved.

2 つの画像認識 API 1. オブジェクト認識 商品認識 個別具体的な名称で認識 局所特徴量ベース 商品名 : 画像認識 API 入門 著者 : ドコモ太郎 発売年 :2014/9/17 自然言語処理入門 画像認識エンジン 商品名 : 自然言語処理入門 著者 : ドコモ花子 発売年 :1989/9/01 2016 NTT DOCOMO, INC. All Rights Reserved. 2008 NTT DOCOMO, INC. All rights reserved.

2 つの画像認識 API 1. オブジェクト認識 商品認識 個別具体的な名称で認識 局所特徴量ベース 商品名 : 画像認識 API 入門 著者 : 酒井俊樹 発売年 :2014/9/17 画像認識エンジン 2016 NTT DOCOMO, INC. All Rights Reserved. 2008 NTT DOCOMO, INC. All rights reserved.

2 つの画像認識 API 1. オブジェクト認識 商品認識 個別具体的な名称で認識 局所特徴量ベース 商品名 : 画像認識 API 入門 著者 : 酒井俊樹 発売年 :2014/9/17 自然言語処理入門 画像認識エンジン 2016 NTT DOCOMO, INC. All Rights Reserved. 2008 NTT DOCOMO, INC. All rights reserved.

1. オブジェクト認識 商品認識の特徴 大規模 高速 (700 万件 1 秒 ) 遮蔽 回転 OK 特徴量比較 自然言語処理入門 商品名 : 自然言語処理入門 著者 : ドコモ花子 発売年 :1999/12/21 画像 1 枚から バリエーションのある 商品名 : 画像認識 API 入門 著者 : ドコモ太郎 発売年 :2014/9/17 物体は苦手 エンジン 画像認識 特徴量は手作り 2016 NTT DOCOMO, INC. All Rights Reserved. 2008 NTT DOCOMO, INC. All rights reserved.

2 つの画像認識 API 1. オブジェクト認識 商品認識 個別具体的な名称で認識 局所特徴量ベース 2. カテゴリ認識 抽象的なコンセプトを認識 Deep Learning を利用 2016 NTT DOCOMO, INC. All Rights Reserved. 2008 NTT DOCOMO, INC. All rights reserved.

2. カテゴリ認識 (Deep Learning) スキー / スノボ 海 シーン認識エンジン 運動会 2016 NTT DOCOMO, INC. All Rights Reserved. 2008 NTT DOCOMO, INC. All rights reserved.

2. カテゴリ認識 (Deep Learning) 豚骨ラーメン 醤油ラーメン 料理認識エンジン 焼きそば 2016 NTT DOCOMO, INC. All Rights Reserved. 2008 NTT DOCOMO, INC. All rights reserved.

2. カテゴリ認識 (Deep Learning) キノコ認識 ドクツルタケ 花認識 チューリップ ファッション認識 カットソーグレー系ボーダー 2016 NTT DOCOMO, INC. All Rights Reserved. 2008 NTT DOCOMO, INC. All rights reserved.

2. カテゴリ認識 (Deep Learning) バリエーション OK とりあえず学習 認識 入力 低次の層で特徴を抽出取り出すべき特徴も学習で決める 出力 大量のデータが必要 並列分散処理 取り出した特徴を元に認識 2016 NTT DOCOMO, INC. All Rights Reserved. 2008 NTT DOCOMO, INC. All rights reserved.

Deep Learning の学習時間 ( イメージ ) CPU 約 7 日 (20000iter) GPU 半日弱 約 20 倍 大規模データの 学習 では GPU が必須 2016 NTT DOCOMO, INC. All Rights Reserved. あくまでイメージです 画像枚数やネットワークによって変わります CPU:Intel Xeon(R) CPU E5-2643 GPU:NVIDIA Tesla K80 2008 NTT DOCOMO, INC. All rights reserved.

Deep Learning の認識時間 ( イメージ ) CPU 数百 ms/ 枚 GPU 2016 NTT DOCOMO, INC. All Rights Reserved. 数十 ms/ 枚 約 10 倍 2008 NTT DOCOMO, INC. All rights reserved. 以下に依存して選択 使うネットワーク構造 求める処理速度 あくまでイメージです 画像枚数やネットワークによって変わります CPU:Intel Xeon(R) CPU E5-2643 GPU:NVIDIA Tesla K80

Deep Learning を用いた API のシステム構成 登録 アプリ開発者 開発 アクセス用キー 画像 + モデル名 ドコモ側で学習済みの Deep Learning の認識器 ( モデル ) シーン認識 料理認識 認識結果タグ + スコア 返却は 1 秒以内 画像認識 API (CPU) 学習用サーバ (GPU) 2016 NTT DOCOMO, INC. All Rights Reserved. 2008 NTT DOCOMO, INC. All rights reserved.

Deep Learning の API のサービス利用 シーン認識 アルバムアプリ運動会 クラウド管理支援 2016 NTT DOCOMO, INC. All Rights Reserved. 2008 NTT DOCOMO, INC. All rights reserved.

Deep Learning の API のサービス利用 料理認識 握りずし ヘルスケアアプリトレンド解析 2016 NTT DOCOMO, INC. All Rights Reserved. 2008 NTT DOCOMO, INC. All rights reserved.

Deep Learning の API のサービス利用 ファッション認識 カットソーグレー系ボーダー EC サイトでの購入支援 2016 NTT DOCOMO, INC. All Rights Reserved. 2008 NTT DOCOMO, INC. All rights reserved.

Deep Learning の API のサービス利用 花認識 / キノコ認識 チューリップ 図鑑アプリ 2016 NTT DOCOMO, INC. All Rights Reserved. 2008 NTT DOCOMO, INC. All rights reserved.

画像認識 API を使ってみるには https://dev.smt.docomo.ne.jp/ 制限緩和 / カスタムモデルのご相談も ご清聴ありがとうございました 2016 NTT DOCOMO, INC. All Rights Reserved. 2008 NTT DOCOMO, INC. All rights reserved.

MATLAB による深層学習 Mathworks Japan アプリケーションエンジニアリング部テクニカルコンピューティング太田英司様 72

MATLAB とは? 科学技術計算のための統合開発環境 Figure 優れた開発効率 シンプルなプログラムの文法 インタープリタによる対話的操作 デバッガ プロファイラー等の充実 現在のフォルダ エディター 柔軟な拡張性 C/C++, Java, Python 等との連携 各種計算ライブラリの取り込み ワークスペース MATLAB メモリ領域 豊富な拡張ライブラリー アプリ : 画像 信号 制御 金融等 入出力 : カメラ マイク データベース コマンドウィンドウ コマンド履歴

実行時間 ( 秒 ) GPGPU によるアルゴリズムの高速化 波動方程式をスペクトラル法で解いたときの速度の比較 80 70 60 50 40 30 20 10 0 18 x faster 23x faster 0 512 1024 1536 2048 波動方程式のグリッドサイズ 20x faster NVIDIA Tesla K20c GPU 実行が可能な MATLAB 関数群 300 以上の MATLAB 関数 90 in Statistics and Machine Learning Toolbox 48 in Image Processing Toolbox スパース配列の GPU 演算サポート

GPGPU によるアルゴリズムの高速化 Parallel Computing Toolbox gpuarray メインメモリ gather GPGPU >> I = gpuarray(i); GPU のメモリへ転送 >> I = imrotate(i, 75, bicubic ); >> I = gather(i); 画像の回転を GPU 上で実行 結果をメインメモリへ転送

MATLAB による深層学習 積層自己符号化器 Stacked Autoencoder リカレントニューラルネット Recurrent Neural Network Neural Network Toolbox MATLAB のオプションとして提供 インストールしてすぐ使える サポートも利用可能 畳み込みニューラルネット Convolutional Neural Network 画像認識等に優れた性能 既存方式を大きく引き離す MatConvNet Oxford の研究者によるライブラリ Caffe に近い実行性能 (cudnn v4) 使い易いインターフェース

Stacked Autoencoder ( 積層自己符号化器 ) Neural Network Toolbox 自己符号化器 (Autoencoder) とは? 2 層のニューラルネットワーク 恒等写像となるようなウェイトを学習 主に DNN の事前学習に利用 自己符号化器 (Autoencoder) コード例 自己符号化器の学習 autoenc = trainautoencoder(x, hiddensize,... 'L2WeightRegularization, 0.001,... 'SparsityRegularization', 4,... 'SparsityProportion', 0.05,... 'DecoderTransferFunction', 'purelin 'usegpu', true); GPU による高速化 積層自己符号化器 (Stacked Autoencoder)

Convolutional Neural Network ( 畳み込みニューラルネット ) MatConvNet http://www.vlfeat.org/matconvnet/

CNN と転移学習 転移学習 : 学習済みのネットワークを他のタスクに転用する手法 学習済みの CNN を特徴抽出器として転用 分類器の部分をタスクに合せて再学習 http://devblogs.nvidia.com/parallelforall/deep-learning-for-computer-vision-with-matlab-and-cudnn/

Convolutional Neural Network ( 畳み込みニューラルネット ) MatConvNet Demonstration

機械学習 並列化 高速化 Statistics and Machine Learning Toolbox 機械学習 多変量統計 確率分布 回帰と分散分析 実験計画 統計的工程管理 Neural Network Toolbox ニューラルネットワークの構築 学習 データフィッティング クラスタリング パターン認識 深層学習 GPU による計算の高速化 Mean Squared Error (mse) Best Validation Performance is 0.01227 at epoch 26 10 0 Train Validation Test Best 10-1 10-2 10-3 0 5 10 15 20 25 30 32 Epochs Parallel Computing Toolbox MATLAB & Simulink と連携した並列処理 対話的な並列計算実行 GPGPU による高速演算 ジョブおよびタスクの制御 コンピュータ ローカル MATLAB デスクトップ MATLAB Distributed Computing Server クラスタによる計算環境を提供 Parallel Computing Toolbox MATLAB Distributed Computing Server Scheduler

画像処理 コンピュータービジョン ロボットビジョン Image Processing Toolbox コーナー 円検出 幾何学的変換 各種画像フィルタ処理 レジストレーション ( 位置合せ ) セグメンテーション ( 領域分割 ) 画像の領域の定量評価 Computer Vision System Toolbox カメラキャリブレーション 特徴点 特徴量抽出 機械学習による物体認識 動画ストリーミング処理 トラッキング ステレオビジョン 3D 表示 Image Acquisition Toolbox デバイスから画像 動画直接取り込み フレームグラバボード DCAM, Camera Link GigE Vision, Web カメラ Microsoft Kinect for Windows Robotics System Toolbox ロボティクスアルゴリズム開発の支援 MATLAB Simulink と ROS 間のインターフェイス ROS ノード生成

信号処理 信号解析 Signal Processing Toolbox 信号生成 時間領域解析 フィルタ設計解析 スペクトル解析 線形予測 DSP System Toolbox 高度なフィルタ設計 スペクトル解析 スペアナ ロジアナ表示 行列演算 統計処理 Power density (db/rad/sample) 30 20 10 0-10 -20-30 Input signal PSD Equiripple output PSD IFIR output PSD Multirate/multistage output PSD -40-50 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Normalized Frequency (x rad/sample) Wavelet Toolbox 信号 画像の解析 ノイズ除去 圧縮等 連続 / 離散ウェーブレット パケット解析 / 主成分分析 対話的な GUI による操作

セルフドライビングカー競争の先頭へ 85

セルフドライビングはコンピューターサイエンスの大きな挑戦 ソフトウェア スーパーコンピューター ディープラーニング 86

エヌビディア合同会社シニアソリューションアーキテクト室河徹 87

自動運転の基本ループ HD マップ センシング 制御 ローカライズ プランニング 認識 88

自動運転の困難さ 世界は複雑世界は予測不能世界は危険 89

NVIDIA DRIVE PX 2 12 CPU コア Pascal GPU 8 TFLOPS 24 DL TOPS 16nm FF 250W リキッドクーリング方式 世界初自動運転向け AI スーパーコンピュータ 91

NVIDIA DRIVE PX 2 TITAN X DRIVE PX 2 Process 28nm 16nm FinFET CPU 12 CPU コア 8x A57 + 4x Denver GPU Maxwell Pascal TFLOPS 7 8 DL TOPS 7 24 AlexNet 450 イメージ / 秒 2,800 イメージ / 秒 92

次世代 TEGRA プロセッサ 2 基 93

次世代 PASCAL GPU 2 基 94

リキッドクーリング方式 消費電力 250W 動作温度 80 容量 4200 c m3 95

NVIDIA DRIVE PX 2 96

ぶつからない車の未来へ向けエヌビディアのディープラーニング カーコンピュータが選定されました 97

NVIDIA DRIVENET デモ

KITTI dataset 99

Courtesy of Cityscapes dataset 100 project

Courtesy of Cityscapes dataset 101 project

Courtesy 102 of Audi

自動運転向けディープラーニングプラットフォーム DRIVEWORKS 認識ローカライズプランニング可視化 NVIDIA DIGITS NVIDIA DRIVE PX 2 NVIDIA DRIVENET 103

ONE ARCHITECTURE END-TO-END AI PC GAMING Tesla ( クラウド ) TITAN X (PC) DRIVE PX ( 車載 ) Jetson ( 組み込み ) 104

大学 BIG SUR TENSORFLOW WATSON CNTK TORCH CAFFE THEANO MATCONVNET MOCHA.JL PURINE スタートアップ CHAINER DL4J KERAS OPENDEEP MINERVA MXNET* SCHULTS LABORATORIES VITRUVIAN ディープラーニング SDK Tesla ( クラウド ) TITAN X (PC) DRIVE PX ( 車載 ) Jetson ( 組み込み ) 105

Thank you!