PowerPoint Presentation

Size: px

Start display at page:

Download "PowerPoint Presentation"

あかりありの
5 years ago
Views:

1 インテル Xeon Phi プロセッサー ( 開発コード名 : Knights Landing) とインテル Distribution for Python* による高速化エクセルソフト株式会社ソリューション事業部マネージャー黒澤一平

2 言語と環境について対応言語環境プロセスインテルソフトウェア開発製品機能 C C++ Fortran 言語コンパイル / リンクインテル Parallel Studio XE 全エディションに含まれるインテル C++ Fortran コンパイラー最適化性能解析インテル VTune Amplifier XE パフォーマンス問題解析ベクトル化並列化インテル Advisor 高速化アドバイス提供 MPI コンパイル / リンクインテル Parallel Studio XE 全エディションに含まれるインテル C++ Fortran コンパイラー + インテル MPI ライブラリー最適化性能解析インテル Trace Analyzer & Collector MPI パフォーマンス問題解析ベクトル化並列化インテル Advisor 高速化アドバイス提供 Python* 実行環境インテル Distribution for Python* + インテル MKL + インテルコンパイラー (Cython) 最適化された Python* 実行環境性能解析インテル VTune Amplifier XE パフォーマンス問題解析 Java* 性能解析インテル VTune Amplifier XE パフォーマンス問題解析 Hadoop*/Spark* 実行環境インテル DAAL マシン / ディープラーニング用の最適化された関数 Caffe 実行環境インテル MKL 最適化された関数 2

3 考慮するべき並列性ベクトル化コアの命令セットを利用 1 コアごとの性能向上複数のデータ要素を同時に処理 (SIMD) スレッド並列化複数コアを利用 1 プロセッサーの性能向上複数タスクの同時実行 MPI 並列化複数マシンを利用複数のマシンを使用複数プロセスの同時実行 3

1 秒あたりの 2 項オプション SP ( 値が大きいほうが良い ) ベクトル化とマルチスレッド化最適化の効果マルチスレッド化 + ベクトル化はより良い効果が得られるベクトル化とスレッド化 179 倍 2007 インテル Xeon プロセッサー X5472 ( 開発コード名 Harpertown) 2009 インテル Xeon プロセッサー X5570 ( 開発コード名 Nehalem)

4 1 秒あたりの 2 項オプション SP ( 値が大きいほうが良い ) ベクトル化とマルチスレッド化最適化の効果マルチスレッド化 + ベクトル化はより良い効果が得られるベクトル化とスレッド化 179 倍 2007 インテル Xeon プロセッサー X5472 ( 開発コード名 Harpertown) 2009 インテル Xeon プロセッサー X5570 ( 開発コード名 Nehalem) 2010 インテル Xeon プロセッサー X5680 ( 開発コード名 Westmere) 2012 インテル Xeon プロセッサー E 製品ファミリー ( 開発コード名 Sandy Bridge) 2013 インテル Xeon プロセッサー E v2 製品ファミリー ( 開発コード名 Ivy Bridge) 2014 インテル Xeon プロセッサー E v3 製品ファミリー ( 開発コード名 Haswell) スレッド化ベクトル化シリアル性能に関するテストに使用されるソフトウェアとワークロードは性能がインテルマイクロプロセッサー用に最適化されていることがあります SYSmark* や MobileMark* などの性能テストは特定のコンピューターシステムコンポーネントソフトウェア操作機能に基づいて行ったものです結果はこれらの要因によって異なります製品の購入を検討される場合は他の製品と組み合わせた場合の本製品の性能などほかの情報や性能テストも参考にしてパフォーマンスを総合的に評価することをお勧めします詳細については ( 英語 ) を参照してください 4

Common Instruction Set インテル AVX-512 対応コンパイラーオプションインテル Xeon Phi プロセッサー ( 開発コード名 : Knights Landing 以下 KNL ) と将来のインテル Xeon プロセッサーとの違い MPX,SHA, コンパイラーオプションターゲット AVX-512VL -xmic-avx512 KNL のみ AVX-512PR

5 Common Instruction Set インテル AVX-512 対応コンパイラーオプションインテル Xeon Phi プロセッサー ( 開発コード名 : Knights Landing 以下 KNL ) と将来のインテル Xeon プロセッサーとの違い MPX,SHA, コンパイラーオプションターゲット AVX-512VL -xmic-avx512 KNL のみ AVX-512PR AVX- 512BW -xcore-avx512 -xcommon-avx512 将来のインテル Xeon プロセッサーのみ KNL および将来のインテル Xeon プロセッサーのみ AVX2 AVX-512ER AVX- 512CD AVX-512F AVX2* AVX- 512DQ AVX-512CD AVX-512F AVX2 開発コード名 NHM: Nehalem SNB: Sandy Bridge HSW: Haswell KNL: Knights Landing SSE: インテルストリーミング SIMD 拡張 ( インテル SSE) AVX: インテルアドバンストベクトルエクステンション ( インテル AVX) AVX2: インテルアドバンストベクトルエクステンション 2 ( インテル AVX2) AVX-512: インテルアドバンストベクトルエクステンション 512 ( インテル AVX-512) SSE* NHM AVX SSE* SNB AVX SSE* HSW AVX SSE* KNL AVX SSE* Future Intel Xeon Processor 5

0 インテル AVX-512 インテル AVX-512 インテル AVX2 インテル SSE YMM0-15 32 bytes

SSE (1999) 8 x 128bit 16 x 128bit 31 ZMM0-31 64 bytes AVX and AVX-2

6 0 インテル AVX-512 インテル AVX-512 インテル AVX2 インテル SSE YMM bytes XMM bytes Vector Registers IA32 (32bit) Intel64 (64bit) 15 SSE (1999) 8 x 128bit 16 x 128bit 31 ZMM bytes AVX and AVX-2 (2011 / 2013) AVX-512 (2014 KNL) 8 x 256bit 16 x 256bit 8 x 512bit 32 x 512bit 6

7 ベクトル化におけるインテルコンパイラーの役割ベクトル化可能な処理を自動的にベクトル化する新しい SIMD 命令セットへの対応の労力を最小限にする入力 : ソースコード汎用的なプログラミング方法特定のアーキテクチャーへの依存度を小さくするプログラマーの意図を適切に ( かつ容易に ) コンパイラーへ伝えるベクトル化の判断自動的に解釈ベクトル化のヒントを解釈 SIMD 対応関数 SIMD プラグマ / ディレクティブ最適化とコード生成インテル SSE ~ インテル AVX-512 出力 : バイナリー 7

8 インテル Distribution for Python* 8

9 インテルソフトウェア開発製品の Python* 開発環境インテル Distribution for Python* NumPy SciPy などインテル MKL Cython インテルコンパイラー Hadoop* インテル DAAL Spark* 性能解析インテル VTune Amplifier XE 9

10 インテル Distribution for Python* 内のインテル MKL # Python* コード例 C = numpy.dot(a, B) Python* インテル Distribution for Python* Python* 実行時 numpy から呼ばれる ATLAS などの BLAS 関数インテル Distribution for Python* 実行時インテル MKL の BLAS 関数対応関数が使用されるとインテル Distribution for Python* は自動的にインテル MKL を呼び出しますソースコードを変更することなくより高速な演算を行うことができます 10

11 Performance (GFlops) Performance (GFlops) インテル MKL はインテルアーキテクチャーの性能を最大化 200 DGEMM Performance Boost by using Intel MKL vs. ATLAS* Intel Core Processor i7-4770k 1500 Intel Xeon Processor E v Matrix size (M = 10000, N = 6000, K = 64,80,96,, 384) Intel MKL - 1 thread Intel MKL - 2 threads Intel MKL - 4 threads ATLAS - 1 thread ATLAS - 2 threads ATLAS - 4 threads Matrix size (M = N) Intel MKL - 1 thread Intel MKL - 18 threads Intel MKL - 36 threads ATLAS - 1 thread ATLAS - 18 threads ATLAS - 36 threads Configuration Info - Versions: Intel Math Kernel Library (Intel MKL) 11.3, ATLAS* ; Hardware: Intel Xeon Processor E5-2699v3, 2 Eighteen-core CPUs (45MB LLC, 2.3GHz), 64GB of RAM; Intel Core Processor i7-4770k, Quad-core CPU (8MB LLC, 3.5GHz), 8GB of RAM; Operating System: RHEL 6.4 GA x86_64; Software and workloads used in performance tests may have been optimized for performance only on Intel microprocessors. Performance tests, such as SYSmark and MobileMark, are measured using specific computer systems, components, software, operations and functions. Any change to any of those factors may cause the results to vary. You should consult other information and performance tests to assist you in fully evaluating your contemplated purchases, including the performance of that product when combined with other products. * Other brands and names are the property of their respective owners. Benchmark Source: Intel Corporation Optimization Notice: Intel s compilers may or may not optimize to the same degree for non-intel microprocessors for optimizations that are not unique to Intel microprocessors. These optimizations include SSE2, SSE3, and SSSE3 instruction sets and other optimizations. Intel does not guarantee the availability, functionality, or effectiveness of any optimization on microprocessors not manufactured by Intel. Microprocessor-dependent optimizations in this product are intended for use with Intel microprocessors. Certain optimizations not specific to Intel microarchitecture are reserved for Intel microprocessors. Please refer to the applicable product User and Reference Guides for more information regarding the specific instruction sets covered by this notice. Notice revision #

12 インテル Distribution for Python* との比較 DBN-Kyoto ( $ time./run.sh < 略 > 2000x loading data Load Data set: dataset1.pkl Data set permutation Data purge invariance Data scaling Data shape after preprocessing: (248195, 1864)... building the model... getting the pretraining functions... pre-training the model The pretraining code for file DBN_benchmark.py ran for 0.00m... getting the finetuning functions... finetuning the model epoch 1, minibatch 19855/19855, test error % Stat Layers:3 LayerSize:2000 BatchSize:10 PreTrainingLayer:3 Time: epoch 2, minibatch 19855/19855, test error % Stat Layers:3 LayerSize:2000 BatchSize:10 PreTrainingLayer:4 Time: epoch 3, minibatch 19855/19855, test error % Stat Layers:3 LayerSize:2000 BatchSize:10 PreTrainingLayer:5 Time: epoch 4, minibatch 19855/19855, test error % Stat Layers:3 LayerSize:2000 BatchSize:10 PreTrainingLayer:6 Time: epoch 5, minibatch 19855/19855, test error % Stat Layers:3 LayerSize:2000 BatchSize:10 PreTrainingLayer:7 Time: epoch 6, minibatch 19855/19855, test error % Stat Layers:3 LayerSize:2000 BatchSize:10 PreTrainingLayer:8 Time: epoch 7, minibatch 19855/19855, test error % Stat Layers:3 LayerSize:2000 BatchSize:10 PreTrainingLayer:9 Time: epoch 8, minibatch 19855/19855, test error % Stat Layers:3 LayerSize:2000 BatchSize:10 PreTrainingLayer:10 Time: epoch 9, minibatch 19855/19855, test error % Stat Layers:3 LayerSize:2000 BatchSize:10 PreTrainingLayer:11 Time: epoch 10, minibatch 19855/19855, test error % Stat Layers:3 LayerSize:2000 BatchSize:10 PreTrainingLayer:12 Time: Optimization complete with best test performance % obtained at iteration The fine tuning code for file DBN_benchmark.py ran for m 通常の Python* real 712m21.525s user 1230m50.721s sys 178m34.818s 12

13 インテル Distribution for Python* との比較 DBN-Kyoto ( $ time./run.sh 2000x loading data Load Data set: dataset1.pkl Data set permutation Data purge invariance Data scaling Data shape after preprocessing: (248195, 1864)... building the model... getting the pretraining functions... pre-training the model The pretraining code for file DBN_benchmark.py ran for 0.00m... getting the finetuning functions... finetuning the model epoch 1, minibatch 19855/19855, test error % Stat Layers:3 LayerSize:2000 BatchSize:10 PreTrainingLayer:3 Time: epoch 2, minibatch 19855/19855, test error % Stat Layers:3 LayerSize:2000 BatchSize:10 PreTrainingLayer:4 Time: epoch 3, minibatch 19855/19855, test error % Stat Layers:3 LayerSize:2000 BatchSize:10 PreTrainingLayer:5 Time: epoch 4, minibatch 19855/19855, test error % Stat Layers:3 LayerSize:2000 BatchSize:10 PreTrainingLayer:6 Time: epoch 5, minibatch 19855/19855, test error % Stat Layers:3 LayerSize:2000 BatchSize:10 PreTrainingLayer:7 Time: epoch 6, minibatch 19855/19855, test error % Stat Layers:3 LayerSize:2000 BatchSize:10 PreTrainingLayer:8 Time: epoch 7, minibatch 19855/19855, test error % Stat Layers:3 LayerSize:2000 BatchSize:10 PreTrainingLayer:9 Time: epoch 8, minibatch 19855/19855, test error % Stat Layers:3 LayerSize:2000 BatchSize:10 PreTrainingLayer:10 Time: epoch 9, minibatch 19855/19855, test error % Stat Layers:3 LayerSize:2000 BatchSize:10 PreTrainingLayer:11 Time: epoch 10, minibatch 19855/19855, test error % Stat Layers:3 LayerSize:2000 BatchSize:10 PreTrainingLayer:12 Time: Optimization complete with best test performance % obtained at iteration The fine tuning code for file DBN_benchmark.py ran for m real 335m22.928s user 3821m14.855s sys 193m43.648s インテル Distribution for Python* さらに Cython + インテルコンパイラーを使用することでさらなる高速化インテル Xeon プロセッサー E v2 製品ファミリー 2 CPU 32GB メモリー CentOS* 7.2 インテル Distribution for Python* 2017 Beta 13

14 インテル MKL (Math Kernel Library) インテル DAAL (Data Analytics Acceleration Library) 14

15 ディープニューラルネットワーク (DNN) 人間の脳細胞を模倣した学習システム深い階層の処理層において異なる演算を行う従来の方式従来のニューラルネットワークでは判断基準を教える必要がある例 : 猫の画像を認識人間が猫の特徴を教える DNN DNN ではコンピューター自身が判断基準を学習することができる例 : 猫の画像を認識自動的に猫の特徴を学習 15

16 Caffe にインテル MKL の DNN を用いる Caffe: ディープラーニングフレームワーク Caffe のコンフィグファイルでインテル MKL を設定することでインテル MKL の数学関数を利用することができるようになります USE_MKL2017_AS_DEFAULT_ENGINE := 1 出典 : 16

17 インテル MKL の DNN 関数による Caffe の高速化 2 つの処理を高速化ベクトル化と並列化により学習スピードの最適化特徴の分類スピードの最適化インテル AVX2 以上の命令セットを有するプロセッサーをサポート ( 開発コード名 Haswell 以降 ) 17

18 インテル DAAL データ分析で行われるすべてのステージをカバーデータソースビジネス科学工学 Web/SNS すべてのステージに対して最適化されたアルゴリズムを提供 18

19 インテル DAAL の性能さまざまなインテルプロセッサー向けに最適化済み次世代プロセッサーへの移行を簡略化対応プロセッサー - インテル Atom プロセッサー - インテル Core i3/i5/i7 プロセッサーファミリー - インテル Xeon プロセッサー - インテル Xeon Phi プロセッサー ( 開発コード名 : Knights Landing) インテル DAAL の内部実装はインテル IPP とインテル MKL が提供する関数 19

20 インテル DAAL 対応言語と環境 Python* C++ Java* 言語に対応 Python* や Java* などのマネージドコード環境でもネイティブコードの性能が得られます Python* C++ Java* ALGORITHMS ADVANCED DATA MINING MACHINE/DEEP LARNING SUMMARY STATISTICS インテル DAAL Spark Hadoop Cassandra Storm MPI Cluster インテルアーキテクチャーのプロセッサー 20

21 Speedup Computing Correlation Matrix Using Intel DAAL vs. KDB Computing correlation matrices using Intel DAAL with KDB data source X X K x K x 1000 Table size Configuration Info - Versions: Intel Data Analytics Acceleration Library 2017 Beta update 1, KDB+ version 3.3 (Parallel mode); Hardware: Intel Xeon Processor X5650, 2 Six-core CPUs (12MB LLC, 2.67GHz), 72GB of RAM; Operating System: RHEL 7.0 x86_64. Software and workloads used in performance tests may have been optimized for performance only on Intel microprocessors. Performance tests, such as SYSmark and MobileMark, are measured using specific computer systems, components, software, operations and functions. Any change to any of those factors may cause the results to vary. You should consult other information and performance tests to assist you in fully evaluating your contemplated purchases, including the performance of that product when combined with other products. * Other brands and names are the property of their respective owners. Benchmark Source: Intel Corporation Optimization Notice: Intel s compilers may or may not optimize to the same degree for non-intel microprocessors for optimizations that are not unique to Intel microprocessors. These optimizations include SSE2, SSE3, and SSSE3 instruction sets and other optimizations. Intel does not guarantee the availability, functionality, or effectiveness of any optimization on microprocessors not manufactured by Intel. Microprocessor-dependent optimizations in this product are intended for use with Intel microprocessors. Certain optimizations not specific to Intel microarchitecture are reserved for Intel microprocessors. Please refer to the applicable product User and Reference Guides for more information regarding the specific instruction sets covered by this notice. Notice revision #

22 Speedup Computing PCA Using Intel DAAL vs. Spark* MLLib PCA (correlation method) on an 8-node Hadoop* cluster based on Intel Xeon Processors E v X 6X 7X 7X 4X M x 200 1M x 400 1M x 600 1M x 800 1M x 1000 Table size Configuration Info - Versions: Intel Data Analytics Acceleration Library 2016, CDH v5.3.1, Apache Spark* v1.2.0; Hardware: Intel Xeon Processor E v3, 2 Eighteen-core CPUs (45MB LLC, 2.3GHz), 128GB of RAM per node; Operating System: CentOS 6.6 x86_64. Software and workloads used in performance tests may have been optimized for performance only on Intel microprocessors. Performance tests, such as SYSmark and MobileMark, are measured using specific computer systems, components, software, operations and functions. Any change to any of those factors may cause the results to vary. You should consult other information and performance tests to assist you in fully evaluating your contemplated purchases, including the performance of that product when combined with other products. * Other brands and names are the property of their respective owners. Benchmark Source: Intel Corporation Optimization Notice: Intel s compilers may or may not optimize to the same degree for non-intel microprocessors for optimizations that are not unique to Intel microprocessors. These optimizations include SSE2, SSE3, and SSSE3 instruction sets and other optimizations. Intel does not guarantee the availability, functionality, or effectiveness of any optimization on microprocessors not manufactured by Intel. Microprocessor-dependent optimizations in this product are intended for use with Intel microprocessors. Certain optimizations not specific to Intel microarchitecture are reserved for Intel microprocessors. Please refer to the applicable product User and Reference Guides for more information regarding the specific instruction sets covered by this notice. Notice revision #

23 23

24 ソースコードの近代化 24

25 ネイティブコードについて KNL に向けた準備作業対応ツール実施内容コンパイル / リンクインテルコンパイラーインテル Xeon プロセッベクトル化インテルコンパイラーサーの場合と同じようにコンインテル Advisor パイル実装解析することができますマルチスレッド化ベクトル / マルチスレッド性能解析 MPI 性能解析インテルコンパイラーインテル Advisor インテル Advisor インテル VTune Amplifier XE インテル Trace Analyzer & Collector ただし 512 ビットのベクトル化と高並列性を目指す必要がありますインテルソフトウェア開発製品は初心者でも上級者に近い最適化を行えるようなさまざまな補助機能を提供します開発コード名 25

26 ソフトウェア開発者が考慮するべき並列性ベクトル化コアの命令セットを利用 1 コアごとの性能向上複数のデータ要素を同時に処理 (SIMD) スレッド並列化複数コアを利用 1 プロセッサーの性能向上複数タスクの同時実行 MPI 並列化複数マシンを利用複数のマシンを使用複数プロセスの同時実行 26

27 1 秒あたりの 2 項オプション SP ( 値が大きいほうが良い ) ベクトル化とマルチスレッド化最適化の効果マルチスレッド化 + ベクトル化はより良い効果が得られるベクトル化とスレッド化 179 倍 2007 インテル Xeon プロセッサー X5472 ( 開発コード名 Harpertown) 2009 インテル Xeon プロセッサー X5570 ( 開発コード名 Nehalem) 2010 インテル Xeon プロセッサー X5680 ( 開発コード名 Westmere) 2012 インテル Xeon プロセッサー E 製品ファミリー ( 開発コード名 Sandy Bridge) 2013 インテル Xeon プロセッサー E v2 製品ファミリー ( 開発コード名 Ivy Bridge) 2014 インテル Xeon プロセッサー E v3 製品ファミリー ( 開発コード名 Haswell) スレッド化ベクトル化シリアル性能に関するテストに使用されるソフトウェアとワークロードは性能がインテルマイクロプロセッサー用に最適化されていることがあります SYSmark* や MobileMark* などの性能テストは特定のコンピューターシステムコンポーネントソフトウェア操作機能に基づいて行ったものです結果はこれらの要因によって異なります製品の購入を検討される場合は他の製品と組み合わせた場合の本製品の性能などほかの情報や性能テストも参考にしてパフォーマンスを総合的に評価することをお勧めします詳細については ( 英語 ) を参照してください 27

28 メモリー帯域幅による制約演算が並列化されると帯域幅の利用率が高まるコアコアコアコア処理自体の工夫も必要となる処理 A 処理 B 処理 C メモリー上のデータメモリーループ (A, B, C) 例 : 複数処理のループをまとめて処理間で再利用されるデータについてのメモリーアクセス回数を減らす 28

29 最適化例インテルコンパイラーインテル VTune Amplifier XE インテル Advisor を用いて最適化を行います依存関係の削除メモリージャンプの削除ベクトル化マルチスレッド化マイクロアーキテクチャーレベルの最適化インテルソフトウェア開発製品のアドバイス機能や解析結果を用いることで初心者でも上級者のように上級者はより早く最適化を行うことができるようになります 29

30 OpenMP* アドバイス機能インテル VTune Amplifier XE の OpenMP* 解析機能を使用することで OpenMP* を用いたマルチスレッド化のパフォーマンス問題と改善点を確認することができ修正した場合のパフォーマンスの向上度合いが表示されます 30

31 HPC 向けの新しい解析タイプ HPC Performance Characterization Analysis は HPC 分野で有用な情報である GFLOPs や関数 / ループごとの CPU 使用率や CPU 使用効率メモリー / キャッシュに関する情報 1 サイクルあたりの FLOPs ベクトル化状況を確認することができます 31

32 インテル AVX-512 向けの最適化インテル Xeon Phi プロセッサー ( 開発コード名 : Knights Landing) を始めに今後多くのインテル AVX-512 命令セットをサポートするプロセッサーがリリースされていきます今日コードの近代化を行うことでインテル AVX-512 命令セットや多くのコアが搭載されたプロセッサー向けの将来にも有効な最適化を行うことができます必要な作業はベクトル化 + マルチスレッド化 32

33 高速なコードを素早く開発 : インテル Advisor 最新プロセッサーで性能を出すためにはベクトル化とマルチスレッド化が必須ベクトル化でおきる問題 : インテル AVX-512 を使用したのに速くならないそもそもどこをベクトル化すれば良い? 最新プロセッサー用の組込み関数を使用する必要がある? コンパイラーのベクトル化レポートのどこを見れば良い? マルチスレッド化でおきる問題 : マルチスレッド化したけれど速くならないスレッド数を増やしたら性能劣化するマルチスレッド化に時間がかかってしまうこれらの問題疑問をインテル Advisor が解決 33

34 ベクトル化したコードの効率性をインテル Advisor で評価 34

35 インテル Advisor によるアドバイス機能エイリアスによる依存関係の可能性がベクトル化を妨げている場合インテル Advisor は修正案を提供しますここでは #pragma simd や #pragma ivdep の使用を提案されました 35

36 法務上の注意書きと最適化に関する注意事項本資料の情報は現状のまま提供され本資料は明示されているか否かにかかわらずまた禁反言によるとよらずにかかわらずいかなる知的財産権のライセンスも許諾するものではありません製品に付属の売買契約書 Intel's Terms and Conditions of Sale に規定されている場合を除きインテルはいかなる責任を負うものではなくまたインテル製品の販売や使用に関する明示または黙示の保証 ( 特定目的への適合性商品性に関する保証第三者の特許権著作権その他知的財産権の侵害への保証を含む ) をするものではありません性能に関するテストに使用されるソフトウェアとワークロードは性能がインテルマイクロプロセッサー用に最適化されていることがあります SYSmark* や MobileMark* などの性能テストは特定のコンピューターシステムコンポーネントソフトウェア操作機能に基づいて行ったものです結果はこれらの要因によって異なります製品の購入を検討される場合は他の製品と組み合わせた場合の本製品の性能などほかの情報や性能テストも参考にしてパフォーマンスを総合的に評価することをお勧めします 2016 Intel Corporation. 無断での引用転載を禁じます Intel インテル Intel ロゴ Intel Core Intel Atom Xeon Intel Xeon Phi VTune はアメリカ合衆国および / またはその他の国における Intel Corporation の商標です * その他の社名製品名などは一般に各社の商標または登録商標です最適化に関する注意事項インテルコンパイラーではインテルマイクロプロセッサーに限定されない最適化に関して他社製マイクロプロセッサー用に同等の最適化を行えないことがありますこれにはインテルストリーミング SIMD 拡張命令 2 インテルストリーミング SIMD 拡張命令 3 インテルストリーミング SIMD 拡張命令 3 補足命令などの最適化が該当しますインテルは他社製マイクロプロセッサーに関していかなる最適化の利用機能または効果も保証いたしません本製品のマイクロプロセッサー依存の最適化はインテルマイクロプロセッサーでの使用を前提としていますインテルマイクロアーキテクチャーに限定されない最適化のなかにもインテルマイクロプロセッサー用のものがありますこの注意事項で言及した命令セットの詳細については該当する製品のユーザーリファレンスガイドを参照してください注意事項の改訂 #

37 補足資料 : 2 項オプション SP のシステム構成システム構成最適化に関する注意事項インテルコンパイラーではインテルマイクロプロセッサーに限定されない最適化に関して他社製マイクロプロセッサー用に同等の最適化を行えないことがありますこれにはインテルストリーミング SIMD 拡張命令 2 インテルストリーミング SIMD 拡張命令 3 インテルストリーミング SIMD 拡張命令 3 補足命令などの最適化が該当しますインテルは他社製マイクロプロセッサーに関していかなる最適化の利用機能または効果も保証いたしません本製品のマイクロプロセッサー依存の最適化はインテルマイクロプロセッサーでの使用を前提としていますインテルマイクロアーキテクチャーに限定されない最適化のなかにもインテルマイクロプロセッサー用のものがありますこの注意事項で言及した命令セットの詳細については該当する製品のユーザーリファレンスガイドを参照してください注意事項の改訂 # インテル社内での測定値スケーリングされていないコアクロックのコア / ソケット L1 データ L1 命令 L2 L3 H/W メモリーメモリープリフェッチ HT ターボ C コンパイラープラットフォーム周波数ソケット数キャッシュキャッシュキャッシュキャッシュメモリー周波数アクセス有効有効有効ステート OS カーネルバージョンインテル Xeon Fedora* プロセッサー GHz K 32K 12MB なし 32GB 800MHz UMA Y N N 無効 fc20 icc インテル Xeon プロセッサー X GHz K 32K 256K 8MB 48GB 1333MHz NUMA Y Y Y 無効 Fedora* fc20 icc インテル Xeon プロセッサー X GHz K 32K 256K 12MB 48MB 1333MHz NUMA Y Y Y 無効 Fedora* fc20 icc インテル Xeon プロセッサー E 製品ファミリー 2.90GHz K 32K 256K 20MB 64GB 1600MHz NUMA Y Y Y 無効 Fedora* fc20 icc インテル Xeon プロセッサー E v2 製品ファミリー 2.70GHz K 32K 256K 30MB 64GB 1867MHz NUMA Y Y Y 無効 Fedora* fc20 icc 開発コード名 Haswell 2.20GHz K 32K 256K 35MB 64GB 2133MHz NUMA Y Y Y 無効 Fedora* fc20 icc

PowerPoint Presentation

PowerPoint Presentation インテルソフトウェア開発製品によるソースコードの近代化エクセルソフト株式会社黒澤一平ソースコードの近代化インテル Xeon Phi プロセッサーや将来のインテル Xeon プロセッサー上での実行に向けた準備と適用インテルソフトウェア製品名称インテル Composer XE for Fortran and C++ インテル VTune Amplifier XE インテル Advisor