インテル FPGA の Deep Learning Acceleration Suite とマイクロソフトの Brainwave を HW 視点から比較してみる

Size: px

Start display at page:

Download "インテル FPGA の Deep Learning Acceleration Suite とマイクロソフトの Brainwave を HW 視点から比較してみる"

こうじひきぎ
4 years ago
Views:

1 インテル FPGA の Deep Learning Acceleration Suite とマイクロソフトの Brainwave を HW 視点から比較してみるインテル株式会社プログラマブルソリューションズ事業本部シニアテクノロジースペシャリスト竹村幸尚 DA22

2 FPGA とは

3 汎用アクセラレーターとしての FPGA

4 なぜ FPGA アクセラレーションか FPGA の性能向上

5 CPU 対 FPGA 命令命令命令データ命令データ命令命令 CPU 命令 FPGA FPGA: 空間計算 CPU: 時間的計算

6 FPGA アーキテクチャー : 基本エレメント FPGA の基本エレメント

7 FPGA アーキテクチャー : 基本エレメント基本エレメント 1-bit configurable operation 1-bit register (store result) Configured to perform any 1-bit operation: AND, OR, INV, XOR, etc.

8 FPGA アーキテクチャー : インターコネクト基本エレメントはフレキシブルなインターコネクト ( 配線 ) に囲まれている

9 FPGA アーキテクチャー : インターコネクトカスタム回路は基本エレメントを接続することで実現できる

10 FPGA アーキテクチャー : カスタム回路 16-bit add 32-bit sqrt Your custom 64-bit bit-shuffle and encode

11 FPGA アーキテクチャー : メモリーブロック addr data_in メモリーブロック 20 Kb data_out

12 FPGA アーキテクチャー : メモリーブロック addr data_in メモリーブロック 20 Kb data_out 沢山の小型キャッシュ大型キャッシュ

13 FPGA アーキテクチャー : 浮動小数点演算器 data_in data_out

14 FPGA アーキテクチャー : ルーティング

15 FPGA アーキテクチャー : 再構成可能な I/O

16 Project Brainwave

17 FPGA の取り組み Catapult v1 Ignite Catapult v Catapult v0 スケール v1 本番展開

18 Hardware Microservices on FPGAs [MICRO 16] Routers Hardware acceleration plane Deep neural networks SQL CPU QPI CPU FPGAs Web search ranking SDN offload Web search ranking FPGA CPUs Traditional software (CPU) server plane QSFP 40Gb/s QSFP QSFP 40Gb/s ToR

19 DNN のためのシリコンレベルの選択肢 DNN Processing Units Contr ol Unit (CU) Register s CPUs Arithmet ic Logic Unit (ALU) GPUs Soft DPU (FPGA) Hard DPU ASICs 柔軟性効率性 BrainWave Baidu SDA Deephi Tech ESE Teradeep Etc. Cerebras Google TPU Graphcore Groq Intel Nervana Movidius Wave Computing Etc.

20 Project BrainWave l0 l1 ネットワークスイッチ l0 Instruction Decoder & Ctrl f f f FPGA f f f Neural FU Pretrained DNN モデル CNTK などでスケーラブルな DNN ハードウェアマイクロサービス BrainWave Soft DPU

21 BrainWave Stack Pretrained DNN モデルをソフト DPU にコンパイルするためのフレームワーク中立の連合コンパイラとランタイム狭精度 DNN 推論のための適応型 ISA 変化目まぐるしい AI アルゴリズムをサポートする柔軟性と拡張性 BrainWave Soft DPU マイクロアーキテクチャ高精度低遅延バッチに最適 FPGA 上でモデルパラメータを完全に永続化するオンチップメモリは多数の FPGA にまたがってスケーリングすることにより大規模なモデルをサポート Intel の FPGA をスケールする HW マイクロサービスに展開 [ マイクロ ' 16]

22 500x500 マトリックス MatMul x500 マトリックス Add500 Add dim ベクトル分割 Sigmoid x500 マトリックス MatMul500 MatMul500 MatMul500 Sigmoid concat Add x500 マトリックス分割 Add dim ベクトル Brainwave コンパイラとランタイム Caffe モデル CNTK モデル Tensorflow モデルフロントポータブル IR グラフスプリッタとオプティマイザ FPGA0 FPGA1 トランスフォーム IRs ターゲットコンパイラターゲットコンパイラターゲットコンパイラ CPU-CNTK FPGA CPU- カフェ展開パッケージ FPGA ハードウェアマイクロサービス

23 一般的なシナリオ N ウェイトカーネル出力前のアクティベーション入力アクティベーション = = O(N 3 ) data O(N 4 K 2 ) compute O(N 2 ) data O(N 2 ) compute

24 従来の高速化アプローチ : ローカルのオフロードとストリーミング DRAM で初期化されたモデルパラメータ 2xCPU FPGA

25 従来の高速化アプローチ : ローカルのオフロードとストリーミング DRAM で初期化されたモデルパラメータ 2xCPU FPGA

26 バッチ処理による HW 使用率の向上ハードウェア利用 (%) バッチサイズ FPGA

27 バッチ処理による HW 使用率の向上ハードウェア利用 (%) 99 回目待ち時間最大許可遅延バッチサイズバッチサイズバッチ処理により HW の使用率が向上するが待ち時間は増加

28 バッチ処理による HW 使用率の向上ハードウェア利用 (%) 99 回目の待ち時間最大許可遅延バッチサイズバッチサイズバッチ処理により HW の使用率が向上するが待ち時間が増加

29 代替 : " 永続的な " ニューラルネット 2xCPU FPGA

30 代替 : " 永続的な " ニューラルネット観測 2xCPU

31 代替 : " 永続的な " ニューラルネット 2xCPU

32 代替 : " 永続的な " ニューラルネット 2xCPU

33 解決方法 : データセンター規模での永続化

34 Inter-Layer パイプラインの並列処理 LSTM LSTM LSTM LSTM LSTM LSTM LSTM LSTM 2 CPU 2 CPU 2 CPU 2 CPU 2 CPU 2 CPU 2 CPU 2 CPU

35 NPU

36 Matrix Vector Unit FPGA MVU カーネル

37 インテル OpenVINO ツールキット

38 ディープラーニングトポロジーの推論処理 head 1 インデックスの特徴ベクトルイメージサイズの変更 / クロップイメージニューラルネット本体ほとんどの計算はここで実行される特徴 head 2 タグ物体検出前処理画像認識 : CNN (ResNet) 音声認識言語翻訳 head 10 後処理

39 OpenVINO ツールキット概要 User program Algorithms OpenVINO Toolkit Libraries Inference Engine Pre-trained DL models OpenCV OpenVX Intel OVX Kernel Extensions Tools Model Optimizer ディープラーニングデプロイメントツールキット画像処理画像処理とディープラーニングを使用した画像認識をサポートインテルアーキテクチャに最適化されたヘテロジニアス対応ライブラリ

40 推論エンジン共通 API (C++) ディープラーニングデプロイメントツールキット全インテルアーキテクチャーで訓練済のモデルをデプロイ可能 CPU GPU FPGA など最良の実行となるよう最適化ユーザーによる検証と調整が可能全デバイスで使いやすいランタイム API CPU プラグイン Caffe* TensorFlow* MxNet* モデルオプティマイザー IR.xml.bin ロード推論 GPUプラグイン FPGAプラグイン ONNX* 所定のターゲットを変換最適化 Myriad プラグイン

41 再掲 :Brainwave コンパイラとランタイム Caffe モデル CNTK モデル Tensorflow モデルフロントポータブル IR グラフスプリッタとオプティマイザトランスフォーム IRs ターゲットコンパイラ CPU-CNTK ターゲットコンパイラ FPGA ターゲットコンパイラ CPU- カフェ展開パッケージ FPGA ハードウェアマイクロサービス

42 OpenVINO における FPGA 実装

43 DDR DDR インテル FPGA DLAS の機能一般的なトポロジーに向けた CNN アクセラレーションエンジングラフループアーキテクチャー AlexNet GoogleNet LeNet SqueezeNet VGG16 ResNet Yolo SSD LSTM などソフトウェアデプロイメント FPGA のコンパイルは不要ランタイムでのリコンフィグレーションが可能カスタマイズされたハードウェア開発パラメーターを使用したカスタムアーキテクチャーの作成 OpenCL フローを使用したカスタムプリミティブ特徴マップキャッシュ畳み込み PE アレイクロスバー prim prim prim カスタムメモリー読み取り / 書き込みコンフィグレーションエンジン

44 DLA アーキテクチャー : 高パフォーマンス設計 FPGA 上で最大限の並列化を実現 Filter Parallelism ( プロセッシングエレメント ) Input-Depth Parallelism Winograd Transformation Batching Feature Stream Buffer Filter Cache FPGA ビットストリームを選択 Data Type / Design Exploration Primitive Support Convolution / Fully Connected 特徴マップキャッシュ畳み込み PE アレイ ReLU クロスバー Norm ReLU Max Pool 実行ストリームバッファーメモリー読み取り / 書き込みコンフィグレーションエンジン Norm DDR DDR DDR DDR MaxPool

45 Conv ReLu Norm MaxPool Fully Conn. AlexNet Graph ストリームバッファー Convolution / Fully Connected ReLU Norm MaxPool ブロックはランタイムでリコンフィグレーションおよびバイパスが可能

46 Conv ReLu Norm MaxPool Fully Conn. AlexNet Graph 出力ストリームバッファー入力 Convolution / Fully Connected ReLU Norm MaxPool ブロックはランタイムでリコンフィグレーションおよびバイパスが可能

47 Conv ReLu Norm MaxPool Fully Conn. AlexNet Graph 入力ストリームバッファー出力 Convolution / Fully Connected ReLU Norm MaxPool ブロックはランタイムでリコンフィグレーションおよびバイパスが可能

48 Conv ReLu Norm MaxPool Fully Conn. AlexNet Graph 出力ストリームバッファー入力 Convolution / Fully Connected ReLU ブロックはランタイムでリコンフィグレーションおよびバイパスが可能

49 Conv ReLu Norm MaxPool Fully Conn. AlexNet Graph 入力ストリームバッファー出力 Convolution / Fully Connected ReLU ブロックはランタイムでリコンフィグレーションおよびバイパスが可能

50 Conv ReLu Norm MaxPool Fully Conn. AlexNet Graph 出力ストリームバッファー入力 Convolution / Fully Connected ReLU MaxPool ブロックはランタイムでリコンフィグレーションおよびバイパスが可能

51 Conv ReLu Norm MaxPool Fully Conn. AlexNet Graph 入力ストリームバッファー出力 Convolution / Fully Connected ReLU ブロックはランタイムでリコンフィグレーションおよびバイパスが可能

52 Conv ReLu Norm MaxPool Fully Conn. AlexNet Graph 出力ストリームバッファー入力 Convolution / Fully Connected ReLU ブロックはランタイムでリコンフィグレーションおよびバイパスが可能

53 Conv ReLu Norm MaxPool Fully Conn. AlexNet Graph 入力ストリームバッファー出力 Convolution / Fully Connected ブロックはランタイムでリコンフィグレーションおよびバイパスが可能

54 アーキテクチャー詳細 DDR DDR ring interconnect Input Reader Filter Reader Output Writer 1 Bias Reader Output Writer 2 PE Sequencer Stream Buffer PE Feeder MaxPool Norm ReLU PE 1 PE 2 PE 3 PE 23 Convolution/ 全結合 (1D systolic array of 24 PEs) PE 24

55 余談 :Systolic Array feeder PE PE PE PE feeder PE PE PE PE feeder PE PE PE PE feeder PE PE PE PE Load A Arria PE Load B Drain C feeder feeder feeder feeder drain drain drain drain DDR4

56 フィルター並列処理 ( 出力深度 ) Convolution の効率的な並列処理外部 DDR FPGA ダブルバッファー On-Chip RAM フィルター (on-chip RAM) 並列畳み込み同じ Convolution 層の異なるフィルターが別のプロセッシングエレメント (PE) で並列的に処理されますベクトル演算特徴マップの深度全体 PE アレイジオメトリーは既定のトポロジーのハイパーパラメーターにカスタマイズ可能です 56

57 Winograd 変換より少ない乗算で畳み込みを実行します FPGA 上でより多くの畳み込みを可能にします 6 つの入力特徴エレメントと 3 つのフィルターエレメントを必要とします標準的な畳み込みには 12 回の乗算が必要です変換された畳み込みに必要な乗算は 6 回ですストリームバッファー Winograd 変換 Convolution / Fully Connected ReLU Norm MaxPool Winograd 変換

58 フィーチャキャッシュ特徴データはオンチップにキャッシュ並列処理エレメントのデイジーチェーンにストリームされるダブルバッファー畳み込みとキャッシュの更新が同時進行 1つのサブグラフの出力が他のサブグラフの入力に不必要な外部メモリーへのアクセスを解消ダブルバッファーオンチップ RAM ストリームバッファーサイズ

59 フィルターキャッシュフィルターウェイトは各プロセッシングエレメントにキャッシュプリフェッチをサポートするためにダブルバッファーを使用 1 つのセットが出力特徴マップの計算に使用されている間別のセットがプリフェッチされる DDR Conv DDR Conv

60 DLA アーキテクチャーの選択必要条件を満たす最適な FPGA イメージを選択必要に応じてカスタムの FPGA イメージを作成

61 異なるトポロジーに対するサポート機能とパフォーマンスはトレードオフ特徴マップキャッシュ特徴マップキャッシュ畳み込み PE アレイメモリー読み取り / 書き込み vs 畳み込み PE アレイクロスバーメモリー読み取り / 書き込みクロスバー ReLU Norm MaxPool コンフィグレーションエンジン SoftMax Reshape LRN Concat Flatten ReLU Norm Permute MaxPool コンフィグレーションエンジン

62 サポートされるプリミティブとトポロジープリミティブ batch norm concat flatten max pool relu, leaky relu lrn normalization average pool scale softmax inner product permute prelu reshape detection output conv priorbox fully connected eltwise bias group conv depthwise conv local conv sigmoid elu power crop proporal slice depthwise conv roi pooling dilated conv tanh deconv トポロジー AlexNet GoogleNet v1 SSD ResNet18 SSD ResNet50 ResNet101 SqueezeNet SSD VGG16 Tiny Yolo LeNet サポート有リクエストに応じてサポート有将来的にサポートを予定

63 精度を下げてデザインを検討してみるパフォーマンスと精度はトレードオフ精度を下げることでより多くの処理が並列的に実行可能より小さい浮動小数点形式を使用するためのネットワークの再トレーニングは不要 FP11 は INT8/9 よりもメリットがある再トレーニング不要より良いパフォーマンス精度の損失が少ない FP16 FP11 FP10 FP9 FP8 Sign 指数 5ビット仮数 10ビット Sign 指数 5ビット仮数 5ビット Sign 指数 5ビット仮数 4ビット Sign 指数 5ビット仮数 3ビット Sign 指数 5ビット仮数 2ビット

Math Kernel Library (Intel MKL, MKL-DNN)

64 経験ツール Intel Nervana Cloud and Appliance Intel Nervana Deep Learning Studio OpenVINO Toolkit フレームワーク Mlib BigDL ライブラリ Intel Distribution for Python* Intel Data Analytics Acceleration Library (DAAL) Intel Nervana Graph Intel Math Kernel Library (Intel MKL, MKL-DNN) ハードウエア Compute CPU, igpu, VPU, FPGA, Future *Other names and brands may be claimed as the property of others. Memory and Storage Networking

65 法的注意事項および免責条項本資料に記載されている情報は開発中の製品サービスプロセスに関するものですここに記載されているすべての情報は予告なく変更されることがありますインテルの最新の予測スケジュール仕様およびロードマップをご希望の方はインテルの担当者までお問い合わせくださいインテルテクノロジーの機能と利点はシステム構成によって異なり対応するハードウェアやソフトウェアまたはサービスの有効化が必要となる場合があります詳細については intel.com を参照するか OEM や販売店にお問い合わせください絶対的なセキュリティーを提供できるコンピューターシステムはありませんテストでは特定のシステムでの個々のテストにおけるコンポーネントの性能を文書化していますハードウェアソフトウェアシステム構成などの違いにより実際の性能は掲載された性能テストや評価とは異なる場合があります購入を検討される場合はほかの情報も参考にしてパフォーマンスを総合的に評価することをお勧めします性能やベンチマーク結果についてさらに詳しい情報をお知りになりたい場合は ( 英語 ) を参照してくださいインテルテクノロジーの機能と利点はシステム構成によって異なり対応するハードウェアやソフトウェアまたはサービスの有効化が必要となる場合があります実際の性能はシステム構成によって異なります絶対的なセキュリティーを提供できるコンピューターシステムはありません詳細については各システムメーカーまたは販売店にお問い合わせいただくかを参照してください本資料は ( 明示されているか否かにかかわらずまた禁反言によるとよらずにかかわらず ) いかなる知的財産権のライセンスも許諾するものではありません OpenCL および OpenCL ロゴは Apple Inc. の商標であり Khronos の許可を得て使用しています Intel インテル Intel ロゴ Intel Inside Intel Inside ロゴ Arria Avalon Cyclone Nios Stratix はアメリカ合衆国および / またはその他の国における Intel Corporation またはその子会社の商標です * その他の社名製品名などは一般に各所有者の表示商標または登録商標です 2018 Intel Corporation. 無断での引用転載を禁じます

PPT Template

PPT Template 世界最大のインフラストラクチャー Norway East / West 開設発表 https://azure.microsoft.com/ja-jp/regions/ China North / East 提供開始 018.06 updates West Europe での Availability Zones 提供開始 54 100K+ 130+ 00+ REGIONS WORLDWIDE MILES