PowerPoint Presentation - PDF 無料ダウンロード

インテル Xeon Phi プロセッサー ( 開発コード名 : Knights Landing) とインテル Distribution for Python* による高速化エクセルソフト株式会社ソリューション事業部マネージャー黒澤一平

言語と環境について対応言語環境プロセスインテルソフトウェア開発製品機能 C C++ Fortran 言語コンパイル / リンクインテル Parallel Studio XE 全エディションに含まれるインテル C++ Fortran コンパイラー最適化性能解析インテル VTune Amplifier XE パフォーマンス問題解析ベクトル化並列化インテル Advisor 高速化アドバイス提供 MPI コンパイル / リンクインテル Parallel Studio XE 全エディションに含まれるインテル C++ Fortran コンパイラー + インテル MPI ライブラリー最適化性能解析インテル Trace Analyzer & Collector MPI パフォーマンス問題解析ベクトル化並列化インテル Advisor 高速化アドバイス提供 Python* 実行環境インテル Distribution for Python* + インテル MKL + インテルコンパイラー (Cython) 最適化された Python* 実行環境性能解析インテル VTune Amplifier XE パフォーマンス問題解析 Java* 性能解析インテル VTune Amplifier XE パフォーマンス問題解析 Hadoop*/Spark* 実行環境インテル DAAL マシン / ディープラーニング用の最適化された関数 Caffe 実行環境インテル MKL 最適化された関数 2

考慮するべき並列性ベクトル化コアの命令セットを利用 1 コアごとの性能向上複数のデータ要素を同時に処理 (SIMD) スレッド並列化複数コアを利用 1 プロセッサーの性能向上複数タスクの同時実行 MPI 並列化複数マシンを利用複数のマシンを使用複数プロセスの同時実行 3

1 秒あたりの 2 項オプション SP ( 値が大きいほうが良い ) ベクトル化とマルチスレッド化最適化の効果マルチスレッド化 + ベクトル化はより良い効果が得られるベクトル化とスレッド化 179 倍 2007 インテル Xeon プロセッサー X5472 ( 開発コード名 Harpertown) 2009 インテル Xeon プロセッサー X5570 ( 開発コード名 Nehalem) 2010 インテル Xeon プロセッサー X5680 ( 開発コード名 Westmere) 2012 インテル Xeon プロセッサー E5-2600 製品ファミリー ( 開発コード名 Sandy Bridge) 2013 インテル Xeon プロセッサー E5-2600 v2 製品ファミリー ( 開発コード名 Ivy Bridge) 2014 インテル Xeon プロセッサー E5-2600 v3 製品ファミリー ( 開発コード名 Haswell) スレッド化ベクトル化シリアル性能に関するテストに使用されるソフトウェアとワークロードは性能がインテルマイクロプロセッサー用に最適化されていることがあります SYSmark* や MobileMark* などの性能テストは特定のコンピューターシステムコンポーネントソフトウェア操作機能に基づいて行ったものです結果はこれらの要因によって異なります製品の購入を検討される場合は他の製品と組み合わせた場合の本製品の性能などほかの情報や性能テストも参考にしてパフォーマンスを総合的に評価することをお勧めします詳細については http://www.intel.com/performance/ ( 英語 ) を参照してください 4

Common Instruction Set インテル AVX-512 対応コンパイラーオプションインテル Xeon Phi プロセッサー ( 開発コード名 : Knights Landing 以下 KNL ) と将来のインテル Xeon プロセッサーとの違い MPX,SHA, コンパイラーオプションターゲット AVX-512VL -xmic-avx512 KNL のみ AVX-512PR AVX- 512BW -xcore-avx512 -xcommon-avx512 将来のインテル Xeon プロセッサーのみ KNL および将来のインテル Xeon プロセッサーのみ AVX2 AVX-512ER AVX- 512CD AVX-512F AVX2* AVX- 512DQ AVX-512CD AVX-512F AVX2 開発コード名 NHM: Nehalem SNB: Sandy Bridge HSW: Haswell KNL: Knights Landing SSE: インテルストリーミング SIMD 拡張 ( インテル SSE) AVX: インテルアドバンストベクトルエクステンション ( インテル AVX) AVX2: インテルアドバンストベクトルエクステンション 2 ( インテル AVX2) AVX-512: インテルアドバンストベクトルエクステンション 512 ( インテル AVX-512) SSE* NHM AVX SSE* SNB AVX SSE* HSW AVX SSE* KNL AVX SSE* Future Intel Xeon Processor 5

0 インテル AVX-512 インテル AVX-512 インテル AVX2 インテル SSE YMM0-15 32 bytes XMM0-15 16- bytes Vector Registers IA32 (32bit) Intel64 (64bit) 15 SSE (1999) 8 x 128bit 16 x 128bit 31 ZMM0-31 64 bytes AVX and AVX-2 (2011 / 2013) AVX-512 (2014 KNL) 8 x 256bit 16 x 256bit 8 x 512bit 32 x 512bit 6

ベクトル化におけるインテルコンパイラーの役割ベクトル化可能な処理を自動的にベクトル化する新しい SIMD 命令セットへの対応の労力を最小限にする入力 : ソースコード汎用的なプログラミング方法特定のアーキテクチャーへの依存度を小さくするプログラマーの意図を適切に ( かつ容易に ) コンパイラーへ伝えるベクトル化の判断自動的に解釈ベクトル化のヒントを解釈 SIMD 対応関数 SIMD プラグマ / ディレクティブ最適化とコード生成インテル SSE ~ インテル AVX-512 出力 : バイナリー 7

インテル Distribution for Python* 8

インテルソフトウェア開発製品の Python* 開発環境インテル Distribution for Python* NumPy SciPy などインテル MKL Cython インテルコンパイラー Hadoop* インテル DAAL Spark* 性能解析インテル VTune Amplifier XE 9

インテル Distribution for Python* 内のインテル MKL # Python* コード例 C = numpy.dot(a, B) Python* インテル Distribution for Python* Python* 実行時 numpy から呼ばれる ATLAS などの BLAS 関数インテル Distribution for Python* 実行時インテル MKL の BLAS 関数対応関数が使用されるとインテル Distribution for Python* は自動的にインテル MKL を呼び出しますソースコードを変更することなくより高速な演算を行うことができます 10

Performance (GFlops) Performance (GFlops) インテル MKL はインテルアーキテクチャーの性能を最大化 200 DGEMM Performance Boost by using Intel MKL vs. ATLAS* Intel Core Processor i7-4770k 1500 Intel Xeon Processor E5-2699 v3 150 1000 100 50 0 64 80 96 104 112 120 128 144 160 176 192 200 208 224 240 256 384 Matrix size (M = 10000, N = 6000, K = 64,80,96,, 384) Intel MKL - 1 thread Intel MKL - 2 threads Intel MKL - 4 threads ATLAS - 1 thread ATLAS - 2 threads ATLAS - 4 threads 500 0 256 300 450 800 1000 1500 2000 3000 4000 5000 6000 7000 8000 Matrix size (M = N) Intel MKL - 1 thread Intel MKL - 18 threads Intel MKL - 36 threads ATLAS - 1 thread ATLAS - 18 threads ATLAS - 36 threads Configuration Info - Versions: Intel Math Kernel Library (Intel MKL) 11.3, ATLAS* 3.10.2; Hardware: Intel Xeon Processor E5-2699v3, 2 Eighteen-core CPUs (45MB LLC, 2.3GHz), 64GB of RAM; Intel Core Processor i7-4770k, Quad-core CPU (8MB LLC, 3.5GHz), 8GB of RAM; Operating System: RHEL 6.4 GA x86_64; Software and workloads used in performance tests may have been optimized for performance only on Intel microprocessors. Performance tests, such as SYSmark and MobileMark, are measured using specific computer systems, components, software, operations and functions. Any change to any of those factors may cause the results to vary. You should consult other information and performance tests to assist you in fully evaluating your contemplated purchases, including the performance of that product when combined with other products. * Other brands and names are the property of their respective owners. Benchmark Source: Intel Corporation Optimization Notice: Intel s compilers may or may not optimize to the same degree for non-intel microprocessors for optimizations that are not unique to Intel microprocessors. These optimizations include SSE2, SSE3, and SSSE3 instruction sets and other optimizations. Intel does not guarantee the availability, functionality, or effectiveness of any optimization on microprocessors not manufactured by Intel. Microprocessor-dependent optimizations in this product are intended for use with Intel microprocessors. Certain optimizations not specific to Intel microarchitecture are reserved for Intel microprocessors. Please refer to the applicable product User and Reference Guides for more information regarding the specific instruction sets covered by this notice. Notice revision #20110804. 11

インテル Distribution for Python* との比較 DBN-Kyoto (https://github.com/pcs-theano/benchmarks) $ time./run.sh < 略 > 2000x3 10... loading data Load Data set: dataset1.pkl Data set permutation Data purge invariance Data scaling Data shape after preprocessing: (248195, 1864)... building the model... getting the pretraining functions... pre-training the model The pretraining code for file DBN_benchmark.py ran for 0.00m... getting the finetuning functions... finetuning the model epoch 1, minibatch 19855/19855, test error 49.455974 % Stat Layers:3 LayerSize:2000 BatchSize:10 PreTrainingLayer:3 Time:4286.32 epoch 2, minibatch 19855/19855, test error 50.544026 % Stat Layers:3 LayerSize:2000 BatchSize:10 PreTrainingLayer:4 Time:4151.65 epoch 3, minibatch 19855/19855, test error 50.544026 % Stat Layers:3 LayerSize:2000 BatchSize:10 PreTrainingLayer:5 Time:4200.77 epoch 4, minibatch 19855/19855, test error 48.531130 % Stat Layers:3 LayerSize:2000 BatchSize:10 PreTrainingLayer:6 Time:4298.54 epoch 5, minibatch 19855/19855, test error 37.082410 % Stat Layers:3 LayerSize:2000 BatchSize:10 PreTrainingLayer:7 Time:4303.88 epoch 6, minibatch 19855/19855, test error 29.748136 % Stat Layers:3 LayerSize:2000 BatchSize:10 PreTrainingLayer:8 Time:4241.45 epoch 7, minibatch 19855/19855, test error 24.045940 % Stat Layers:3 LayerSize:2000 BatchSize:10 PreTrainingLayer:9 Time:4319.48 epoch 8, minibatch 19855/19855, test error 23.032440 % Stat Layers:3 LayerSize:2000 BatchSize:10 PreTrainingLayer:10 Time:4280.90 epoch 9, minibatch 19855/19855, test error 22.593190 % Stat Layers:3 LayerSize:2000 BatchSize:10 PreTrainingLayer:11 Time:4274.51 epoch 10, minibatch 19855/19855, test error 22.143865 % Stat Layers:3 LayerSize:2000 BatchSize:10 PreTrainingLayer:12 Time:4319.48 Optimization complete with best test performance 22.143865 % obtained at iteration 198550 The fine tuning code for file DBN_benchmark.py ran for 1408.30m 通常の Python* real 712m21.525s user 1230m50.721s sys 178m34.818s 12

インテル Distribution for Python* との比較 DBN-Kyoto (https://github.com/pcs-theano/benchmarks) $ time./run.sh 2000x3 10... loading data Load Data set: dataset1.pkl Data set permutation Data purge invariance Data scaling Data shape after preprocessing: (248195, 1864)... building the model... getting the pretraining functions... pre-training the model The pretraining code for file DBN_benchmark.py ran for 0.00m... getting the finetuning functions... finetuning the model epoch 1, minibatch 19855/19855, test error 49.455974 % Stat Layers:3 LayerSize:2000 BatchSize:10 PreTrainingLayer:3 Time:2000.64 epoch 2, minibatch 19855/19855, test error 50.544026 % Stat Layers:3 LayerSize:2000 BatchSize:10 PreTrainingLayer:4 Time:1999.05 epoch 3, minibatch 19855/19855, test error 50.544026 % Stat Layers:3 LayerSize:2000 BatchSize:10 PreTrainingLayer:5 Time:2005.97 epoch 4, minibatch 19855/19855, test error 48.531130 % Stat Layers:3 LayerSize:2000 BatchSize:10 PreTrainingLayer:6 Time:2006.81 epoch 5, minibatch 19855/19855, test error 37.082410 % Stat Layers:3 LayerSize:2000 BatchSize:10 PreTrainingLayer:7 Time:2005.94 epoch 6, minibatch 19855/19855, test error 29.748136 % Stat Layers:3 LayerSize:2000 BatchSize:10 PreTrainingLayer:8 Time:2008.75 epoch 7, minibatch 19855/19855, test error 24.045940 % Stat Layers:3 LayerSize:2000 BatchSize:10 PreTrainingLayer:9 Time:2007.97 epoch 8, minibatch 19855/19855, test error 23.036470 % Stat Layers:3 LayerSize:2000 BatchSize:10 PreTrainingLayer:10 Time:2007.93 epoch 9, minibatch 19855/19855, test error 22.615354 % Stat Layers:3 LayerSize:2000 BatchSize:10 PreTrainingLayer:11 Time:2006.12 epoch 10, minibatch 19855/19855, test error 22.121701 % Stat Layers:3 LayerSize:2000 BatchSize:10 PreTrainingLayer:12 Time:2014.01 Optimization complete with best test performance 22.121701 % obtained at iteration 198550 The fine tuning code for file DBN_benchmark.py ran for 4014.05m real 335m22.928s user 3821m14.855s sys 193m43.648s インテル Distribution for Python* さらに Cython + インテルコンパイラーを使用することでさらなる高速化インテル Xeon プロセッサー E5-2620 v2 製品ファミリー 2 CPU 32GB メモリー CentOS* 7.2 インテル Distribution for Python* 2017 Beta 13

インテル MKL (Math Kernel Library) インテル DAAL (Data Analytics Acceleration Library) 14

ディープニューラルネットワーク (DNN) 人間の脳細胞を模倣した学習システム深い階層の処理層において異なる演算を行う従来の方式従来のニューラルネットワークでは判断基準を教える必要がある例 : 猫の画像を認識人間が猫の特徴を教える DNN DNN ではコンピューター自身が判断基準を学習することができる例 : 猫の画像を認識自動的に猫の特徴を学習 15

Caffe にインテル MKL の DNN を用いる Caffe: ディープラーニングフレームワーク Caffe のコンフィグファイルでインテル MKL を設定することでインテル MKL の数学関数を利用することができるようになります USE_MKL2017_AS_DEFAULT_ENGINE := 1 出典 : http://caffe.berkeleyvision.org/ 16

インテル MKL の DNN 関数による Caffe の高速化 2 つの処理を高速化ベクトル化と並列化により学習スピードの最適化特徴の分類スピードの最適化インテル AVX2 以上の命令セットを有するプロセッサーをサポート ( 開発コード名 Haswell 以降 ) 17

インテル DAAL データ分析で行われるすべてのステージをカバーデータソースビジネス科学工学 Web/SNS すべてのステージに対して最適化されたアルゴリズムを提供 18

インテル DAAL の性能さまざまなインテルプロセッサー向けに最適化済み次世代プロセッサーへの移行を簡略化対応プロセッサー - インテル Atom プロセッサー - インテル Core i3/i5/i7 プロセッサーファミリー - インテル Xeon プロセッサー - インテル Xeon Phi プロセッサー ( 開発コード名 : Knights Landing) インテル DAAL の内部実装はインテル IPP とインテル MKL が提供する関数 19

インテル DAAL 対応言語と環境 Python* C++ Java* 言語に対応 Python* や Java* などのマネージドコード環境でもネイティブコードの性能が得られます Python* C++ Java* ALGORITHMS ADVANCED DATA MINING MACHINE/DEEP LARNING SUMMARY STATISTICS インテル DAAL Spark Hadoop Cassandra Storm MPI Cluster インテルアーキテクチャーのプロセッサー 20

Speedup Computing Correlation Matrix Using Intel DAAL vs. KDB Computing correlation matrices using Intel DAAL with KDB data source 14 12 12X 10 8 6 7X 4 2 0 100K x 100 100K x 1000 Table size Configuration Info - Versions: Intel Data Analytics Acceleration Library 2017 Beta update 1, KDB+ version 3.3 (Parallel mode); Hardware: Intel Xeon Processor X5650, 2 Six-core CPUs (12MB LLC, 2.67GHz), 72GB of RAM; Operating System: RHEL 7.0 x86_64. Software and workloads used in performance tests may have been optimized for performance only on Intel microprocessors. Performance tests, such as SYSmark and MobileMark, are measured using specific computer systems, components, software, operations and functions. Any change to any of those factors may cause the results to vary. You should consult other information and performance tests to assist you in fully evaluating your contemplated purchases, including the performance of that product when combined with other products. * Other brands and names are the property of their respective owners. Benchmark Source: Intel Corporation Optimization Notice: Intel s compilers may or may not optimize to the same degree for non-intel microprocessors for optimizations that are not unique to Intel microprocessors. These optimizations include SSE2, SSE3, and SSSE3 instruction sets and other optimizations. Intel does not guarantee the availability, functionality, or effectiveness of any optimization on microprocessors not manufactured by Intel. Microprocessor-dependent optimizations in this product are intended for use with Intel microprocessors. Certain optimizations not specific to Intel microarchitecture are reserved for Intel microprocessors. Please refer to the applicable product User and Reference Guides for more information regarding the specific instruction sets covered by this notice. Notice revision #20110804. 21

Speedup Computing PCA Using Intel DAAL vs. Spark* MLLib PCA (correlation method) on an 8-node Hadoop* cluster based on Intel Xeon Processors E5-2697 v3 8 6 6X 6X 7X 7X 4X 4 2 0 1M x 200 1M x 400 1M x 600 1M x 800 1M x 1000 Table size Configuration Info - Versions: Intel Data Analytics Acceleration Library 2016, CDH v5.3.1, Apache Spark* v1.2.0; Hardware: Intel Xeon Processor E5-2699 v3, 2 Eighteen-core CPUs (45MB LLC, 2.3GHz), 128GB of RAM per node; Operating System: CentOS 6.6 x86_64. Software and workloads used in performance tests may have been optimized for performance only on Intel microprocessors. Performance tests, such as SYSmark and MobileMark, are measured using specific computer systems, components, software, operations and functions. Any change to any of those factors may cause the results to vary. You should consult other information and performance tests to assist you in fully evaluating your contemplated purchases, including the performance of that product when combined with other products. * Other brands and names are the property of their respective owners. Benchmark Source: Intel Corporation Optimization Notice: Intel s compilers may or may not optimize to the same degree for non-intel microprocessors for optimizations that are not unique to Intel microprocessors. These optimizations include SSE2, SSE3, and SSSE3 instruction sets and other optimizations. Intel does not guarantee the availability, functionality, or effectiveness of any optimization on microprocessors not manufactured by Intel. Microprocessor-dependent optimizations in this product are intended for use with Intel microprocessors. Certain optimizations not specific to Intel microarchitecture are reserved for Intel microprocessors. Please refer to the applicable product User and Reference Guides for more information regarding the specific instruction sets covered by this notice. Notice revision #20110804. 22

ソースコードの近代化 24

ネイティブコードについて KNL に向けた準備作業対応ツール実施内容コンパイル / リンクインテルコンパイラーインテル Xeon プロセッベクトル化インテルコンパイラーサーの場合と同じようにコンインテル Advisor パイル実装解析することができますマルチスレッド化ベクトル / マルチスレッド性能解析 MPI 性能解析インテルコンパイラーインテル Advisor インテル Advisor インテル VTune Amplifier XE インテル Trace Analyzer & Collector ただし 512 ビットのベクトル化と高並列性を目指す必要がありますインテルソフトウェア開発製品は初心者でも上級者に近い最適化を行えるようなさまざまな補助機能を提供します開発コード名 25

ソフトウェア開発者が考慮するべき並列性ベクトル化コアの命令セットを利用 1 コアごとの性能向上複数のデータ要素を同時に処理 (SIMD) スレッド並列化複数コアを利用 1 プロセッサーの性能向上複数タスクの同時実行 MPI 並列化複数マシンを利用複数のマシンを使用複数プロセスの同時実行 26

メモリー帯域幅による制約演算が並列化されると帯域幅の利用率が高まるコアコアコアコア処理自体の工夫も必要となる処理 A 処理 B 処理 C メモリー上のデータメモリーループ (A, B, C) 例 : 複数処理のループをまとめて処理間で再利用されるデータについてのメモリーアクセス回数を減らす 28

最適化例インテルコンパイラーインテル VTune Amplifier XE インテル Advisor を用いて最適化を行います依存関係の削除メモリージャンプの削除ベクトル化マルチスレッド化マイクロアーキテクチャーレベルの最適化インテルソフトウェア開発製品のアドバイス機能や解析結果を用いることで初心者でも上級者のように上級者はより早く最適化を行うことができるようになります 29

OpenMP* アドバイス機能インテル VTune Amplifier XE の OpenMP* 解析機能を使用することで OpenMP* を用いたマルチスレッド化のパフォーマンス問題と改善点を確認することができ修正した場合のパフォーマンスの向上度合いが表示されます 30

HPC 向けの新しい解析タイプ HPC Performance Characterization Analysis は HPC 分野で有用な情報である GFLOPs や関数 / ループごとの CPU 使用率や CPU 使用効率メモリー / キャッシュに関する情報 1 サイクルあたりの FLOPs ベクトル化状況を確認することができます 31

インテル AVX-512 向けの最適化インテル Xeon Phi プロセッサー ( 開発コード名 : Knights Landing) を始めに今後多くのインテル AVX-512 命令セットをサポートするプロセッサーがリリースされていきます今日コードの近代化を行うことでインテル AVX-512 命令セットや多くのコアが搭載されたプロセッサー向けの将来にも有効な最適化を行うことができます必要な作業はベクトル化 + マルチスレッド化 32

高速なコードを素早く開発 : インテル Advisor 最新プロセッサーで性能を出すためにはベクトル化とマルチスレッド化が必須ベクトル化でおきる問題 : インテル AVX-512 を使用したのに速くならないそもそもどこをベクトル化すれば良い? 最新プロセッサー用の組込み関数を使用する必要がある? コンパイラーのベクトル化レポートのどこを見れば良い? マルチスレッド化でおきる問題 : マルチスレッド化したけれど速くならないスレッド数を増やしたら性能劣化するマルチスレッド化に時間がかかってしまうこれらの問題疑問をインテル Advisor が解決 33

ベクトル化したコードの効率性をインテル Advisor で評価 34

インテル Advisor によるアドバイス機能エイリアスによる依存関係の可能性がベクトル化を妨げている場合インテル Advisor は修正案を提供しますここでは #pragma simd や #pragma ivdep の使用を提案されました 35

法務上の注意書きと最適化に関する注意事項本資料の情報は現状のまま提供され本資料は明示されているか否かにかかわらずまた禁反言によるとよらずにかかわらずいかなる知的財産権のライセンスも許諾するものではありません製品に付属の売買契約書 Intel's Terms and Conditions of Sale に規定されている場合を除きインテルはいかなる責任を負うものではなくまたインテル製品の販売や使用に関する明示または黙示の保証 ( 特定目的への適合性商品性に関する保証第三者の特許権著作権その他知的財産権の侵害への保証を含む ) をするものではありません性能に関するテストに使用されるソフトウェアとワークロードは性能がインテルマイクロプロセッサー用に最適化されていることがあります SYSmark* や MobileMark* などの性能テストは特定のコンピューターシステムコンポーネントソフトウェア操作機能に基づいて行ったものです結果はこれらの要因によって異なります製品の購入を検討される場合は他の製品と組み合わせた場合の本製品の性能などほかの情報や性能テストも参考にしてパフォーマンスを総合的に評価することをお勧めします 2016 Intel Corporation. 無断での引用転載を禁じます Intel インテル Intel ロゴ Intel Core Intel Atom Xeon Intel Xeon Phi VTune はアメリカ合衆国および / またはその他の国における Intel Corporation の商標です * その他の社名製品名などは一般に各社の商標または登録商標です最適化に関する注意事項インテルコンパイラーではインテルマイクロプロセッサーに限定されない最適化に関して他社製マイクロプロセッサー用に同等の最適化を行えないことがありますこれにはインテルストリーミング SIMD 拡張命令 2 インテルストリーミング SIMD 拡張命令 3 インテルストリーミング SIMD 拡張命令 3 補足命令などの最適化が該当しますインテルは他社製マイクロプロセッサーに関していかなる最適化の利用機能または効果も保証いたしません本製品のマイクロプロセッサー依存の最適化はインテルマイクロプロセッサーでの使用を前提としていますインテルマイクロアーキテクチャーに限定されない最適化のなかにもインテルマイクロプロセッサー用のものがありますこの注意事項で言及した命令セットの詳細については該当する製品のユーザーリファレンスガイドを参照してください注意事項の改訂 #20110804 36

補足資料 : 2 項オプション SP のシステム構成システム構成最適化に関する注意事項インテルコンパイラーではインテルマイクロプロセッサーに限定されない最適化に関して他社製マイクロプロセッサー用に同等の最適化を行えないことがありますこれにはインテルストリーミング SIMD 拡張命令 2 インテルストリーミング SIMD 拡張命令 3 インテルストリーミング SIMD 拡張命令 3 補足命令などの最適化が該当しますインテルは他社製マイクロプロセッサーに関していかなる最適化の利用機能または効果も保証いたしません本製品のマイクロプロセッサー依存の最適化はインテルマイクロプロセッサーでの使用を前提としていますインテルマイクロアーキテクチャーに限定されない最適化のなかにもインテルマイクロプロセッサー用のものがありますこの注意事項で言及した命令セットの詳細については該当する製品のユーザーリファレンスガイドを参照してください注意事項の改訂 #20110804 インテル社内での測定値スケーリングされていないコアクロックのコア / ソケット L1 データ L1 命令 L2 L3 H/W メモリーメモリープリフェッチ HT ターボ C コンパイラープラットフォーム周波数ソケット数キャッシュキャッシュキャッシュキャッシュメモリー周波数アクセス有効有効有効ステート OS カーネルバージョンインテル Xeon Fedora* 3.11.10- プロセッサー 5472 3GHz 4 2 32K 32K 12MB なし 32GB 800MHz UMA Y N N 無効 20 301.fc20 icc 14.0.1 インテル Xeon プロセッサー X5570 2.90GHz 4 2 32K 32K 256K 8MB 48GB 1333MHz NUMA Y Y Y 無効 Fedora* 20 3.11.10-301.fc20 icc 14.0.1 インテル Xeon プロセッサー X5680 3.33GHz 6 2 32K 32K 256K 12MB 48MB 1333MHz NUMA Y Y Y 無効 Fedora* 20 3.11.10-301.fc20 icc 14.0.1 インテル Xeon プロセッサー E5-2690 製品ファミリー 2.90GHz 8 2 32K 32K 256K 20MB 64GB 1600MHz NUMA Y Y Y 無効 Fedora* 20 3.11.10-301.fc20 icc 14.0.1 インテル Xeon プロセッサー E5-2697 v2 製品ファミリー 2.70GHz 12 2 32K 32K 256K 30MB 64GB 1867MHz NUMA Y Y Y 無効 Fedora* 20 3.11.10-301.fc20 icc 14.0.1 開発コード名 Haswell 2.20GHz 14 2 32K 32K 256K 35MB 64GB 2133MHz NUMA Y Y Y 無効 Fedora* 20 3.13.5-202.fc20 icc 14.0.1 37