インテル Parallel Studio XE 205 の概要 James Reinders インテルコーポレーションのソフトウェア エバンジェリスト兼ディレクター james.r.reinders@intel.com
高速なコードを迅速に開発インテル Parallel Studio XE 205 高速なコード 明示的なベクトル プログラミングでより多くのコードをスピードアップ インテル Xeon Phi コプロセッサー Skylake および Broadwell マイクロアーキテクチャー向けの最適化 最新の MPI-3 標準をサポートするインテル MPI ライブラリー 小さな行列と大きな演算問題を高速処理 迅速な開発 総合的なコンパイラーによる最適化レポート Mac* 上で Windows* または Linux* のプロファイル データを解析 最新の標準規格をサポート C++ および Fortran 2003 ( フルサポート ) MPI-3 OpenMP* 4 スライド 20 スライド 7 スライド 7 スライド 8 開発コード名 2
構成 インテル Parallel Studio XE 205 Composer Edition C++ Fortran TBB IPP MKL Cilk Plus OpenMP* バンドルまたはアドオン : ローグウェーブ IMSL* ライブラリー インテル Parallel Studio XE 205 Professional Edition C++ Fortran TBB IPP MKL Cilk Plus OpenMP* Advisor XE Inspector XE VTune Amplifier XE アドオン : ローグウェーブ IMSL* ライブラリー インテル Parallel Studio XE 205 Cluster Edition C++ Fortran TBB IPP MKL Cilk Plus OpenMP* Advisor XE Inspector XE VTune Amplifier XE MPI Trace Analyzer & Collector アドオン : ローグウェーブ IMSL* ライブラリー フローティング ライセンスおよびアカデミック ライセンスを含むその他の構成については http://intel.ly/perf-tools を参照してください 3
詳細 4
インテル コンパイラーについて 5
インテル C++ / Fortran コンパイラー 5.0 アプリケーション パフォーマンスを向上する効率良い言語レベルの並列モデルを提供する最適化コンパイラー 共通機能 新しい OpenMP* 4.0 のベクトル化により SIMD 命令を利用してインテル Xeon プロセッサーおよびインテル Xeon Phi コプロセッサーで優れたパフォーマンスを実現 強化されたコンパイラーの最適化レポートにより最適化の可能性を素早く特定 Windows* では Visual Studio* 200 202 203 に統合 Linux* OS X* Windows* Android* に対応 開発ニーズに合わせてさまざまな設定が可能 : C++ の詳細 Fortran の詳細 インテル C++ コンパイラー インテル Cilk Plus の並列化キーワードにより タスクとデータ並列処理を簡単に実装 C++ をフルサポート インテル Fortran コンパイラー Fortran 2003 をフルサポート 多くの Fortran 2008 機能をサポート ローグウェーブ IMSL* Fortran 数値ライブラリー : Windows* Fortran* スイート向けのパフォーマンス アドオン 6
Visual C++* 203 インテル C++ 5.0 GCC* 4.9.0 インテル C++ 5.0 Visual C++* 203 インテル C++ 5.0 GCC* 4.9.0 インテル C++ 5.0 インテル Fortran 5.0 Absoft* 4.0.3 PGI Fortran* 4.7 インテル Fortran 5.0 Absoft* 4.0.3 Open64* PGI Fortran 4.7 gfortran* 4.9.0 インテル C++/Fortran コンパイラー Windows* および Linux* でアプリケーション パフォーマンスを向上 インテル C++ コンパイラーによる優れた C++ アプリケーション パフォーマンス - Windows*/Linux* ( 数値が大きいほど高性能 ) 浮動小数点.23.24.46 整数.5 インテル Fortran コンパイラーによる優れた Fortran アプリケーション パフォーマンス - Windows*/Linux* ( 数値が小さいほど高性能 ) 0.54 0.73 0.99 0.64 0.78 0.83 Windows* Linux* Windows* Linux* SPECfp*_base2006 の推定値 SPECint*_base2006 の推定値 相対 ( 相乗平均 ) パフォーマンス SPEC* ベンチマーク ( 数値が大きいほど高性能 ) システム構成 : ハードウェア : HP ProLiant DL360p Gen8 ( インテル Xeon プロセッサー E5-2680 v2 @ 2.80GHz 搭載 ) 256 GB RAM ハイパースレッディング有効; ソフトウェア : インテル C++ コンパイラー 5.0, Microsoft* Visual C++* 203, GCC* 4.9;Linux*: Red Hat* Enterprise Linux* Server release 6.5 (Santiago), カーネル 2.6.32-43.el6.x86_64;Windows*: Windows* 7 Enterprise SP ;SPEC* ベンチマーク (www.spec.org) 性能に関するテストに使用されるソフトウェアとワークロードは 性能がインテル マイクロプロセッサー用に最適化されていることがあります SYSmark* や MobileMark* などの性能テストは 特定のコンピューター システム コンポーネント ソフトウェア 操作 機能に基づいて行ったものです 結果はこれらの要因によって異なります 製品の購入を検討される場合は 他の製品と組み合わせた場合の本製品の性能など ほかの情報や性能テストも参考にして パフォーマンスを総合的に評価することをお勧めします * その他の社名 製品名などは 一般に各社の表示 商標または登録商標です ベンチマークの出典 : インテルコーポレーション 最適化に関する注意事項 : インテル コンパイラーは 互換マイクロプロセッサー向けには インテル製マイクロプロセッサー向けと同等レベルの最適化が行われない可能性があります これには インテル ストリーミング SIMD 拡張命令 2 ( インテル SSE2) インテル ストリーミング SIMD 拡張命令 3 ( インテル SSE3) ストリーミング SIMD 拡張命令 3 補足命令 (SSSE3) 命令セットに関連する最適化およびその他の最適化が含まれます インテルでは インテル製ではないマイクロプロセッサーに対して 最適化の提供 機能 効果を保証していません 本製品のマイクロプロセッサー固有の最適化は インテル製マイクロプロセッサーでの使用を目的としています インテル マイクロアーキテクチャーに非固有の特定の最適化は インテル製マイクロプロセッサー向けに予約されています この注意事項の適用対象である特定の命令セットの詳細は 該当する製品のユーザー リファレンス ガイドを参照してください 改訂 #200804 Windows* Linux* 相対 ( 相乗平均 ) パフォーマンス Polyhedron* ベンチマーク ( 数値が小さいほど高性能 ) システム構成 : ハードウェア : インテル Core i7-4770k プロセッサー @ 3.50GHz 6GB RAM ハイパースレッディング無効 ソフトウェア : インテル Fortran コンパイラー 5.0 Absoft*4.0.3 PGI Fortran* 4.7 Open64* gfortran* 4.9.0 Linux*: Red Hat* Enterprise Linux* Server release 6.4 (Santiago), カーネル 2.6.32-358.el6.x86_64;Windows*: Windows* 7 Enterprise SP ;Polyhedron* Fortran ベンチマーク (www.polyhedron.com) Windows* コンパイラー オプション : Absoft*: -m64 -O5 -speed_math=0 -fast_math -march=core -xinteger -stack:0x80000000 インテル Fortran コンパイラー : /fast /Qparallel /link /stack:64000000 PGI Fortran*: -fastsse - Munroll=n:4 -Mipa=fast,inline -Mconcur=numa Linux* コンパイラー オプション : Absoft*: -m64 -mavx -O5 -speed_math=0 -march=core xinteger gfortran: -Ofast -mfpmath=sse -flto -march=native -funroll-loops -ftree-parallelize-loops=4 インテル Fortran コンパイラー : -fast parallel PGI Fortran*: -fast -Mipa=fast,inline - Msmartalloc -Mfprelaxed -Mstack_arrays -Mconcur=bind Open64*: -march=bdver -mavx -mno-fma4 -Ofast -mso apo 性能に関するテストに使用されるソフトウェアとワークロードは 性能がインテル マイクロプロセッサー用に最適化されていることがあります SYSmark* や MobileMark* などの性能テストは 特定のコンピューター システム コンポーネント ソフトウェア 操作 機能に基づいて行ったものです 結果はこれらの要因によって異なります 製品の購入を検討される場合は 他の製品と組み合わせた場合の本製品の性能など ほかの情報や性能テストも参考にして パフォーマンスを総合的に評価することをお勧めします * その他の社名 製品名などは 一般に各社の表示 商標または登録商標です ベンチマークの出典 : インテルコーポレーション 最適化に関する注意事項 : インテル コンパイラーは 互換マイクロプロセッサー向けには インテル製マイクロプロセッサー向けと同等レベルの最適化が行われない可能性があります これには インテル ストリーミング SIMD 拡張命令 2 ( インテル SSE2) インテル ストリーミング SIMD 拡張命令 3 ( インテル SSE3) ストリーミング SIMD 拡張命令 3 補足命令 (SSSE3) 命令セットに関連する最適化およびその他の最適化が含まれます インテルでは インテル製ではないマイクロプロセッサーに対して 最適化の提供 機能 効果を保証していません 本製品のマイクロプロセッサー固有の最適化は インテル製マイクロプロセッサーでの使用を目的としています インテル マイクロアーキテクチャーに非固有の特定の最適化は インテル製マイクロプロセッサー向けに予約されています この注意事項の適用対象である特定の命令セットの詳細は 該当する製品のユーザー リファレンス ガイドを参照してください 改訂 #200804 7
スピードアップ パフォーマンスを大幅に向上するインテル コンパイラーの OpenMP* 4.0 による明示的なベクトル化 たった 2 行を追加するだけでインテル SSE とインテル AVX を利用可能 プラグマは OpenMP* 4.0 仕様をサポートしないほかのコンパイラーでは無視されるため移植性には影響しない typedef float complex fcomplex; const uint32_t max_iter = 3000; #pragma omp declare simd uniform(max_iter), simdlen(6) uint32_t mandel(fcomplex c, uint32_t max_iter) { uint32_t count = ; fcomplex z = c; while ((cabsf(z) < 2.0f) && (count < max_iter)) { z = z * z + c; count++; } return count; } uint32_t count[imagewidth][imageheight];.. for (int32_t y = 0; y < ImageHeight; ++y) { float c_im = max_imag - y * imag_factor; #pragma omp simd safelen(6) for (int32_t x = 0; x < ImageWidth; ++x) { fcomplex in_vals_tmp = (min_real + x * real_factor) + (c_im *.0iF); count[y][x] = mandel(in_vals_tmp, max_iter); } } 右側は実際にサンプルコードによって測定された結果 6.0 5.0 4.0 3.0 2.0.0 0.0.00 ( 正規化された ) マンデルブロー 2.28 5.29 Serial SSE 4.2 AVX2 システム構成 : インテル Xeon プロセッサー E3-270 v3 @ 3.50 GHz (4 コア ハイパースレッディング有効 ) 32.0GB RAM L キャッシュ 256KB L2 キャッシュ MB L3 キャッシュ 8MB Windows Server* 202 R2 Datacenter (64 ビット版 ) コンパイラー オプション: -O3 Qipo QxSSE4.2 (SSE4.2 の場合 ) または -O3 Qipo QxCORE-AVX2 (AVX2 の場合 ) 性能に関するテストに使用されるソフトウェアとワークロードは 性能がインテル マイクロプロセッサー用に最適化されていることがあります SYSmark* や MobileMark* などの性能テストは 特定のコンピューター システム コンポーネント ソフトウェア 操作 機能に基づいて行ったものです 結果はこれらの要因によって異なります 製品の購入を検討される場合は 他の製品と組み合わせた場合の本製品の性能など ほかの情報や性能テストも参考にして パフォーマンスを総合的に評価することをお勧めします * その他の社名 製品名などは 一般に各社の表示 商標または登録商標です ベンチマークの出典 : インテルコーポレーション 最適化に関する注意事項 : インテル コンパイラーは 互換マイクロプロセッサー向けには インテル製マイクロプロセッサー向けと同等レベルの最適化が行われない可能性があります これには インテル ストリーミング SIMD 拡張命令 2 ( インテル SSE2) インテル ストリーミング SIMD 拡張命令 3 ( インテル SSE3) ストリーミング SIMD 拡張命令 3 補足命令 (SSSE3) 命令セットに関連する最適化およびその他の最適化が含まれます インテルでは インテル製ではないマイクロプロセッサーに対して 最適化の提供 機能 効果を保証していません 本製品のマイクロプロセッサー固有の最適化は インテル製マイクロプロセッサーでの使用を目的としています インテル マイクロアーキテクチャーに非固有の特定の最適化は インテル製マイクロプロセッサー向けに予約されています この注意事項の適用対象である特定の命令セットの詳細は 該当する製品のユーザー リファレンス ガイドを参照してください 改訂 #200804 8
インテル コンパイラー Visual Studio* ([ ツール ] > [ オプション ]) で設定できる再設計された最適化レポート 9
インテル コンパイラー簡単に利用できる最適化レポート 分かりやすいメッセージ 関数名 データ変数 制御構造への参照 問題のコードをピンポイントで特定 次のステップをアドバイス 例 : 動作を変更するためのオプション プラグマ 節など int size(); void foo(double *restrict a, double *b){ int i; for (i=0;i<size();i++){ a[i] += b[i]; } } icpc c -O3 restrict opt-report x.cpp インテル コンパイラー 5.0: LOOP BEGIN at x.cpp(6,5) remark #5523: loop was not vectorized: cannot compute loop iteration count before executing the loop. LOOP END 最適化レポートは デフォルトで.*.optrpt ファイルに生成されるようになりました 0
OpenMP* 4.0 サポート インテル コンパイラー ユーザー定義のリダクションを除くすべての機能をサポート CANCEL 宣言子 : 最内領域の取り消しを要求 CANCELLATION POINT 宣言子 : 取り消し要求があったかどうかを 暗黙的または明示的なタスクがチェックするポイントを定義 TASK 宣言子の DEPEND 節 : タスク領域の兄弟タスクの依存性を定義することでタスクのスケジュールを制御 複合構造 (TEAMS DISTRIBUTE など ) インテル VTune Amplifier XE OpenMP* のスケーラビリティー解析 ( スライド 24) OpenMP* のスケーラビリティー解析
インテル C++ コンパイラー 5.0 C++ 標準言語機能をフルサポート 仮想関数オーバーライド 継承コンストラクター : struct Derived { using Base::Base; } 例外宣言の廃止 ユーザー定義リテラル Thread_local (C++ セマンティクス ) (Linux* のみ ) C++ ライブラリー機能は プラットフォームの標準 C++ ライブラリーでサポートされている場合のみ利用できます Windows*: msvcrt/libcmt Linux*: libstdc++ OS X*: libc++/libstdc++ 2
インテル Fortran コンパイラーの OpenMP* 4.0 サポート WORKSHARE 宣言子は多くのケースで並列処理を可能にする A = B + C のような単純な配列代入は並列化される A = A + B + C のようなオーバーラップを含む単純な配列代入は並列化される A = A + F (B) のようなユーザー定義関数を含む配列代入は並列化される (F は ELEMENTAL でなければならない ) A = A + B(:4) + C(:4) のような代入文の右辺に配列スライスを含む配列代入は並列化される 左辺の下限 配列スライスの下限 または右辺の配列スライスのストライドが でない場合は並列化されない 3
Fortran 2003 のパラメーター化された派生型 KIND および長さ無指定の引数型のテンプレートを作成可能 KIND 型引数はコンパイル時定数 長さ引数は実行時定数例 : TYPE humongous_matrix(k, d) INTEGER, KIND :: k = kind(0.0) INTEGER(selected_int_kind(2)), LEN :: d REAL(k) :: element(d,d) END TYPE TYPE(humongous_matrix(8,0000000)) :: giant 4
Fortran 2008 の BLOCK 構文 実行可能な構文に宣言を含めることができる 構文内で宣言された変数はその範囲のローカル変数となる COMMON EQUIVALENCE NAMELIST IMPLICIT は許可されていない SAVE は構文のローカルで許可されている 範囲外の SAVE は BLOCK に影響しない ラベルと書式はローカルではない スレッドローカルな DO CONCURRENT で便利 5
Fortran の BLOCK 構文例 BLOCK 構文例 IF (swaxpy) THEN BLOCK REAL(KIND(x)) tmp tmp = x x = y y = tmp END BLOCK END IF F08: BLOCK を含む DO CONCURRENT の例 DO CONCURRENT (I = :N) BLOCK REAL T T = A(I) + B(I) C(I) = T + SQRT(T) END BLOCK END DO BLOCK を使用せずに各反復でローカルな (threadprivate) 一時変数を作成することはできない 6
ライブラリー製品について
インテル MKL.2 の新機能 クラスター直接法スパースソルバー : インテル MKL の PARDISO が拡張され クラスター上で大規模なスパース連立方程式の解を算出 小さな行列乗算 : 小さな問題サイズ (20x20 未満 ) において平均.3 倍のパフォーマンス向上を達成 BLAS DFT VML の最適化を含む次世代のインテル アドバンスト ベクトル エクステンション 52 ( インテル AVX-52) 命令セットをサポート インテル MKL クックブック : インテル MKL 関数を用いて一般的な演算問題を解くステップを提供 verbose モード : プログラムでのインテル MKL の動作をユーザーが理解できるように支援 詳細なインテル MKL バージョン情報を提供 呼び出された関数と渡された引数を特定 各関数呼び出しで費やされた時間を提供 8
インテル MPI ライブラリー 5.0 最新の標準をサポート (MPI-3.0) 非ブロッキングな集合操作により通信と計算を完全にオーバーラップ 隣接集合操作による通信ネットワークのサポートを強化 キャッシュ コヒーレントなシステムで効率良く動作するように一方向操作が向上 非常に大きなメッセージ (2GB 超 ) をサポートする新しいデータ型の追加 既存の MPI-2.x およびインテル MPI ライブラリー 4.x アプリケーションとの下位互換性 9
スピードアップ ( 倍 ) 2.2 2.5 3. 2.9 3.4 スピードアップ ( 倍 )..6 2.0.9.8 インテル MPI ライブラリーでレイテンシーを軽減してより高速なパフォーマンスを実現 インテル MPI ライブラリー 5.0 による優れたパフォーマンス 92 プロセス 8 ノード (InfiniBand* + 共有メモリー ) Linux* 64 相対 ( 相乗平均 ) MPI レイテンシー ベンチマーク ( 数値が大きいほど高性能 ) インテル MPI ライブラリー 5.0 による優れたパフォーマンス 64 プロセス 8 ノード (InfiniBand* + 共有メモリー ) Linux* 64 相対 ( 相乗平均 ) MPI レイテンシー ベンチマーク ( 数値が大きいほど高性能 ) 3.0 2 2.0.0.5 0.5 0.0 4 bytes 52 bytes 6 Kbytes 28 Kbytes 4 Mbytes 0 4 bytes 52 bytes 6 Kbytes 28 Kbytes 4 Mbytes Intel MPI 5.0 Platform MPI 9..2 CE MVAPICH2 2.0rc2 OpenMPI.7.3 Intel MPI 5.0 MVAPICH2-2.0 RC2 システム構成 : ハードウェア : CPU: デュアルインテル Xeon プロセッサー E5-2697v2@2.70Ghz 64GB RAM インターコネクト: Mellanox Technologies* MT27500 Family [ConnectX*-3] FDR ソフトウェア: RedHat* RHEL 6.2; OFED 3.5-2; インテル MPI ライブラリー 5.0 インテル MPI ベンチマーク 3.2.4 ( デフォルトのパラメーター ; インテル C++ コンパイラー XE 3.. Linux* 版でビルド ); 性能に関するテストに使用されるソフトウェアとワークロードは 性能がインテル マイクロプロセッサー用に最適化されていることがあります SYSmark* や MobileMark* などの性能テストは 特定のコンピューター システム コンポーネント ソフトウェア 操作 機能に基づいて行ったものです 結果はこれらの要因によって異なります 製品の購入を検討される場合は 他の製品と組み合わせた場合の本製品の性能など ほかの情報や性能テストも参考にして パフォーマンスを総合的に評価することをお勧めします * その他の社名 製品名などは 一般に各社の表示 商標または登録商標です ベンチマークの出典 : インテルコーポレーション 最適化に関する注意事項 : インテル コンパイラーは 互換マイクロプロセッサー向けには インテル製マイクロプロセッサー向けと同等レベルの最適化が行われない可能性があります これには インテル ストリーミング SIMD 拡張命令 2 ( インテル SSE2) インテル ストリーミング SIMD 拡張命令 3 ( インテル SSE3) ストリーミング SIMD 拡張命令 3 補足命令 (SSSE3) 命令セットに関連する最適化およびその他の最適化が含まれます インテルでは インテル製ではないマイクロプロセッサーに対して 最適化の提供 機能 効果を保証していません 本製品のマイクロプロセッサー固有の最適化は インテル製マイクロプロセッサーでの使用を目的としています インテル マイクロアーキテクチャーに非固有の特定の最適化は インテル製マイクロプロセッサー向けに予約されています この注意事項の適用対象である特定の命令セットの詳細は 該当する製品のユーザー リファレンス ガイドを参照してください 改訂 #200804 システム構成 : ハードウェア : インテル Xeon プロセッサー E5-2680 @ 2.70GHz RAM 64GB; インターコネクト : InfiniBand* ConnectX* アダプター ; FDR MIC: C0-KNC 238095 khz; 6 コア RAM: カードごとに 5872MB ソフトウェア: RHEL 6.2 OFED.5.4. インテル MPSS 3.2 インテル C/C++ コンパイラー XE 3.. インテル MPI ベンチマーク 3.2.4 性能に関するテストに使用されるソフトウェアとワークロードは 性能がインテル マイクロプロセッサー用に最適化されていることがあります SYSmark* や MobileMark* などの性能テストは 特定のコンピューター システム コンポーネント ソフトウェア 操作 機能に基づいて行ったものです 結果はこれらの要因によって異なります 製品の購入を検討される場合は 他の製品と組み合わせた場合の本製品の性能など ほかの情報や性能テストも参考にして パフォーマンスを総合的に評価することをお勧めします * その他の社名 製品名などは 一般に各社の表示 商標または登録商標です ベンチマークの出典 : インテルコーポレーション 最適化に関する注意事項 : インテル コンパイラーは 互換マイクロプロセッサー向けには インテル製マイクロプロセッサー向けと同等レベルの最適化が行われない可能性があります これには インテル ストリーミング SIMD 拡張命令 2 ( インテル SSE2) インテル ストリーミング SIMD 拡張命令 3 ( インテル SSE3) ストリーミング SIMD 拡張命令 3 補足命令 (SSSE3) 命令セットに関連する最適化およびその他の最適化が含まれます インテルでは インテル製ではないマイクロプロセッサーに対して 最適化の提供 機能 効果を保証していません 本製品のマイクロプロセッサー固有の最適化は インテル製マイクロプロセッサーでの使用を目的としています インテル マイクロアーキテクチャーに非固有の特定の最適化は インテル製マイクロプロセッサー向けに予約されています この注意事項の適用対象である特定の命令セットの詳細は 該当する製品のユーザー リファレンス ガイドを参照してください 改訂 #200804 20
解析ツールについて
インテル VTune Amplifier XE 205 の新機能 パフォーマンス プロファイラー 優れたデータ解析 OpenMP* スレッドのパフォーマンスをチューニング CSV インポートによりデータを統合 タイムラインのグループ化 任意のプログラム単位で解析 簡単な使用 OS X* - Mac* 上で Windows* または Linux* データを解析 Linux* システムのデータを簡単にリモート収集 Linux* - 自動ドライバーリビルドによる容易な管理 より多くの CPU および GPU プロファイル データ インテル TSX のトランザクション解析 Windows* での GPU オフロードのチューニング Windows* での OpenCL* カーネルのチューニング 最新のプロセッサーおよび OS のサポート OpenMP* のスケーラビリティー解析 OS X* からのリモート解析 GPU オフロードとインテル TSX 同期のチューニング OS X* でデータ収集はできません 22
OS X* ホストのサポートインテル VTune Amplifier XE OS X* でのホストの実行 Linux* からのデータを解析 Windows* からのデータを解析 OS X* でのローカルデータ収集は不可 追加料金なし 別途ダウンロード Windows* 版または Linux* 版のライセンスで利用可能 簡単なリモート収集 Linux* リモートに SSH 接続 23
OpenMP* のスケーラビリティー解析インテル VTune Amplifier XE シリアル時間とロード インバランスを特定 シリアル領域で多くの時間を費やしていないか? 並列領域で一部のスレッドがほかよりも極端に速く完了していないか? 領域で時間がかかっているインスタンスを特定してチューニング インテル Xeon プロセッサーおよびインテル Xeon Phi コプロセッサー ベースのシステム インテルと gcc* のランタイム 優れたチューニング データ 並列領域内と並列領域外で費やされた時間 オーバーヘッド スピン時間 インスタンス数を確認 すべてのインスタンスの平均データでは不十分 時間がかかっているインスタンスを選択し その原因を究明 24
ランタイム オーバーヘッド (log) ランタイム オーバーヘッド (log) Windows* および Linux* 上における高速なスレッドチェックインテル Inspector XE 205 な競合およびデッドロック解析 - Linux* ( 数値が小さいほど高性能 ) 高速な競合およびデッドロック解析 - Windows* ( 数値が小さいほど高性能 ) 000 5-3 + 000.8-6 + 00 5.x 00 0 3x 0.3x 0.8x 6.8x 6.7x Intel Inspector XE 203 update 3 7zip blender firefox RHEL 6u3 (64 ビット ) + オープンソース アプリケーション 7zip Blender* Firefox* で検証 実行時間の向上はアプリケーションにより異なることがあります 7zip blender firefox Intel Inspector XE 203 update 3 Intel Inspector XE 205 Windows* 8 (64 ビット ) 性能に関するテストに使用されるソフトウェアとワークロードは 性能がインテル マイクロプロセッサー用に最適化されていることがあります SYSmark* や MobileMark* などの性能テストは 特定のコンピューター システム コンポーネント ソフトウェア 操作 機能に基づいて行ったものです 結果はこれらの要因によって異なります 製品の購入を検討される場合は 他の製品と組み合わせた場合の本製品の性能など ほかの情報や性能テストも参考にして パフォーマンスを総合的に評価することをお勧めします 設定情報 25
メモリー使用量の増加を段階的に診断インテル Inspector XE 205 New! アプリケーションの実行中に メモリー使用量グラフにメモリー使用量の増加が描画される メモリー使用量の増加の原因を選択 対応するコード領域とコールスタックを表示 26
インテル Advisor XE 205 の新機能スレッド設計 / プロトタイプの作成を支援 New! 新しいターゲット プラットフォーム 次のプラットフォーム ベースのモデリング インテル Xeon プロセッサー インテル Xeon Phi コプロセッサー インテル Xeon Phi コプロセッサーを利用可能な領域 インテル Xeon Phi コプロセッサーを利用できない領域 より確実に効率良い設計判断を下すことができる 27
インテル Advisor XE 205 の新機能スレッド設計 / プロトタイプの作成を支援 New! 反復空間のモデリング スライダーを調整して異なるタスクの数と実行時間を検証 情報ゾーン 並列パフォーマンス ロスに関する高レベルの分析 : ロード インバランス 競合 並列ランタイム オーバーヘッドの影響 迅速なプロトタイプの作成により効率良いソフトウェア設計を支援 28
インテル Inspector XE ベンチマークのシステム構成 7zip ベンチマークのシステム構成 SW バージョン : 7zip 9.22beta (Windows*) 9.20(Linux*); Microsoft* Visual Studio* 0.0 (Windows*) GCC* 4.4.6 (Linux* 64 ビット ) GCC* 4.3.4 (Linux* 32 ビット ); ハードウェア : インテル Core i7-965 プロセッサー @ 3.20GHz 6GB RAM; OS: SUSE Linux Enterprise Server* SP2 x86 kernel 3.0.3-0.27-pae; Red Hat* Enterprise Linux* Server 6.3 x86_64 kernel 2.6.32-279.el6.x86_64; Windows* 7 x86; Windows* 8 x86_64; Blender* ベンチマークのシステム構成 SW バージョン : Blender* 2.69; インテル C++ コンパイラー 4.0.0; ハードウェア : インテル Core i7-965 プロセッサー @ 3.20GHz 6GB RAM; OS: SUSE Linux Enterprise Server* SP2 x86 kernel 3.0.3-0.27-pae; Red Hat* Enterprise Linux* Server 6.3 x86_64 kernel 2.6.32-279.el6.x86_64; Windows* 7 x86; Windows* 8 x86_64; Firefox* ベンチマークのシステム構成 SW バージョン : Firefox* 20.0; Microsoft* Visual Studio*.0 (Windows* 64 ビット ) Microsoft* Visual Studio* 0.0 (Windows* 32 ビット ) GCC* 4.4.6 (Linux*); ハードウェア : インテル Core i7-965 プロセッサー @ 3.20GHz 6GB RAM; OS: SUSE Linux Enterprise Server* SP2 x86 kernel 3.0.3-0.27-pae; Red Hat* Enterprise Linux* Server 6.3 x86_64 kernel 2.6.32-279.el6.x86_64; Windows* 7 x86; Windows* 8 x86_64; 29
著作権と商標について 本資料の情報は 現状のまま提供され 本資料は 明示されているか否かにかかわらず また禁反言によるとよらずにかかわらず いかなる知的財産権のライセンスも許諾するものではありません 製品に付属の売買契約書 Intel's Terms and Conditions of Sale に規定されている場合を除き インテルはいかなる責任を負うものではなく またインテル製品の販売や使用に関する明示または黙示の保証 ( 特定目的への適合性 商品性に関する保証 第三者の特許権 著作権 その他 知的財産権の侵害への保証を含む ) をするものではありません 性能に関するテストに使用されるソフトウェアとワークロードは 性能がインテル マイクロプロセッサー用に最適化されていることがあります SYSmark* や MobileMark* などの性能テストは 特定のコンピューター システム コンポーネント ソフトウェア 操作 機能に基づいて行ったものです 結果はこれらの要因によって異なります 製品の購入を検討される場合は 他の製品と組み合わせた場合の本製品の性能など ほかの情報や性能テストも参考にして パフォーマンスを総合的に評価することをお勧めします 204 Intel Corporation. 無断での引用 転載を禁じます Intel インテル Intel ロゴ Intel Core Xeon Intel Xeon Phi Cilk VTune は アメリカ合衆国および / またはその他の国における Intel Corporation の商標です インテル コンパイラーは 互換マイクロプロセッサー向けには インテル製マイクロプロセッサー向けと同等レベルの最適化が行われない可能性があります これには インテル ストリーミング SIMD 拡張命令 2 ( インテル SSE2) インテル ストリーミング SIMD 拡張命令 3 ( インテル SSE3) ストリーミング SIMD 拡張命令 3 補足命令 (SSSE3) 命令セットに関連する最適化およびその他の最適化が含まれます インテルでは インテル製ではないマイクロプロセッサーに対して 最適化の提供 機能 効果を保証していません 本製品のマイクロプロセッサー固有の最適化は インテル製マイクロプロセッサーでの使用を目的としています インテル マイクロアーキテクチャーに非固有の特定の最適化は インテル製マイクロプロセッサー向けに予約されています この注意事項の適用対象である特定の命令セットの詳細は 該当する製品のユーザー リファレンス ガイドを参照してください 改訂 #200804 30