Introduction to OpenMP* 4.0 for SIMD and Affinity Features with Intel® Xeon® Processors and Intel® Xeon Phi™ Coprocessors

Size: px
Start display at page:

Download "Introduction to OpenMP* 4.0 for SIMD and Affinity Features with Intel® Xeon® Processors and Intel® Xeon Phi™ Coprocessors"

Transcription

1 OpenMP* 4.0 における SIMD およびアフィニティー機能の導入

2 法務上の注意書きと最適化に関する注意事項 本資料に掲載されている情報は インテル製品の概要説明を目的としたものです 本資料は 明示されているか否かにかかわらず また禁反言によるとよらずにかかわらず いかなる知的財産権のライセンスを許諾するものではありません 製品に付属の売買契約書 Intel's Terms and Conditions of Sale に規定されている場合を除き インテルはいかなる責任を負うものではなく またインテル製品の販売や使用に関する明示または黙示の保証 ( 特定目的への適合性 商品適格性 あらゆる特許権 著作権 その他知的財産権の非侵害性への保証を含む ) に関してもいかなる責任も負いません 性能に関するテストに使用されるソフトウェアとワークロードは 性能がインテル マイクロプロセッサー用に最適化されていることがあります SYSmark* や MobileMark* などの性能テストは 特定のコンピューター システム コンポーネント ソフトウェア 操作 機能に基づいて行ったものです 結果はこれらの要因によって異なります 製品の購入を検討される場合は 他の製品と組み合わせた場合の本製品の性能など ほかの情報や性能テストも参考にして パフォーマンスを総合的に評価することをお勧めします 2013 Intel Corporation. 無断での引用 転載を禁じます Intel インテル Intel ロゴ Intel Core Intel Xeon Phi Xeon は アメリカ合衆国および / またはその他の国における Intel Corporation の商標です * その他の社名 製品名などは 一般に各社の表示 商標または登録商標です 最適化に関する注意事項 インテル コンパイラーは 互換マイクロプロセッサー向けには インテル製マイクロプロセッサー向けと同等レベルの最適化が行われない可能性があります これには インテル ストリーミング SIMD 拡張命令 2 ( インテル SSE2) インテル ストリーミング SIMD 拡張命令 3 ( インテル SSE3) ストリーミング SIMD 拡張命令 3 補足命令 (SSSE3) 命令セットに関連する最適化およびその他の最適化が含まれます インテルでは インテル製ではないマイクロプロセッサーに対して 最適化の提供 機能 効果を保証していません 本製品のマイクロプロセッサー固有の最適化は インテル製マイクロプロセッサーでの使用を目的としています インテル マイクロアーキテクチャーに非固有の特定の最適化は インテル製マイクロプロセッサー向けに予約されています この注意事項で対象としている特定の命令セットに関する詳細は 該当製品のユーザーズガイドまたはリファレンス ガイドを参照してください 改訂 #

3 OpenMP* API 業界標準の OpenMP 4.0 共有メモリー型並列プログラミング向けの C/C++ と Fortran 向け API 宣言子 (C/C++ ではプラグマ ) ベース ベンダーやプラットフォームに渡る移植性 様々なタイプの並列性をサポート

4 ハードウェアの進化 ( インテル ) イメージは実際のダイサイズを反映することを意図していません 64 ビットインテル Xeon プロセッサー インテル Xeon プロセッサー 5100 シリーズ インテル Xeon プロセッサー 5500 シリーズ インテル Xeon プロセッサー 5600 シリーズ インテル Xeon プロセッサー E5-200v2 シリーズ インテル Xeon Phi コプロセッサー 7120P 周波数 3.6GHz 3.0GHz 3.2GHz 3.3GHz 2.7GHz 1.238MHz コア スレッド SIMD 幅 128 (2 クロック ) 128 (1 クロック ) 128 (1 クロック ) 128 (1 クロック ) 256 (1 クロック ) 512 (1 クロック )

5 OpenMP 4.0 における並列性レベル クラスター コンピューターのグループ高速相互接続を介して通信 デバイス向けの OpenMP 4.0 コプロセッサー / アクセラレーター ノード ソケット コア ハイパースレッド スーパースカラー 特殊な計算デバイス特別な相互接続を介してローカルノードに接続 OpenMP 4.0 アフィニテプロセッサーのグループ OpenMP 4.0 アフィニティーィー共有メモリーを介して通信 コアのグループ共有キャッシュを介して通信 機能ユニットのグループレジスターを介して通信 機能ユニットを共有するスレッド コンテキストのグループ 機能ユニットを共有する命令グループ パイプライン ベクトル 機能ユニットを共有する命令のシーケンス 複数の機能ユニットを使用する単一命令 OpenMP 4.0 SIMD

6 OpenMP 4.0 SIMD

7 OpenMP 4.0 以前 プログラムは自動ベクトル化に依存 もしくは ベクトル固有拡張を使用 プログラム モデル ( 例えば インテル Cilk Plus) コンパイラー プラグマ ( 例えば #pragma vector) 低レベルの構文 ( 例えば mm_add_pd()) #pragma omp parallel for #pragma vector always #pragma ivdep for (int i = 0; i < N; i++) { a[i] = b[i] +...; } コンパイラーが " 正しい " ことをするのを信頼する必要がある

8 OpenMP* SIMD 構文 ループの入れ子をベクトル化 ループを SIMD ベクトル レジスターに収まるようにチャンクに分割 ループ本体を並列化しない 構文 (C/C++) #pragma omp simd [ 節 [[,] 節 ], ] for ループ 構文 (Fortran)!$omp simd [ 節 [[,] 節 ], ] do ループ

9 例 void sprod(float *a, float *b, int n) { 例 float sum = 0.0f; #pragma omp simd reduction(+:sum) for (int k=0; k<n; k++) sum += a[k] * b[k]; return sum; } ベクトル化

10 データ共有節 private(var-list): var-list で指定された 初期化されないベクトル変数 x: 42???? firstprivate(var-list): var-list で指定された 初期化されたベクトル変数 x: reduction(op:var-list): var-list で指定された変数をプライベートに作成し 構文の最後で op で指定されるリダクション操作を行う x: 42

11 SIMD プラグマ / 宣言子の節 safelen(length) 依存性を損なうことなく同時に実行できる最大反復数 実際には 最大ベクトル長 linear (list[:linear-step]) 変数の値はループ反復数に関連する x i = x orig + i * linear-step aligned (list[:alignment]) list 変数のアライメントを指定する デフォルトのアライメントはアーキテクチャーに依存する collapse (n)

12 SIMD ワークシェア構文 入れ子になったループの並列化とベクトル化を行う スレッドチーム間でループ反復空間を分割する SIMD ベクトル レジスターに収まるようにループチャンクを分割 構文 (C/C++) #pragma omp for simd [ 節 [[,] 節 ], ] for ループ 構文 (Fortran)!$omp do simd [ 節 [[,] 節 ], ] do ループ

13 例 void sprod(float *a, float *b, int n) { 例 float sum = 0.0f; #pragma omp for simd reduction(+:sum) for (int k=0; k<n; k++) sum += a[k] * b[k]; return sum; } 並列化 スレッド 0 スレッド 1 スレッド 2 ベクトル化

14 SIMD 関数のベクトル化 float min(float a, float b) { SIMD return 関数のベクトル化 a < b? a : b; } float distsq(float x, float y) { return (x - y) * (x - y); } void example() { #pragma omp parallel for simd for (i=0; i<n; i++) { d[i] = min(distsq(a[i], b[i]), c[i]); } }

15 SIMD 関数のベクトル化 SIMD 並列ループから呼び出すように 1 つ以上の関数を宣言する 構文 (C/C++): #pragma omp declare simd [ 節 [[,] 節 ], ] [#pragma omp declare simd [ 節 [[,] 節 ], ]] [ ] 関数の定義または宣言 構文 (Fortran):!$omp declare simd (proc-name-list)

16 SIMD 関数のベクトル化 #pragma omp declare simd float min(float a, float b) { return a < b? a : b; } #pragma omp declare simd float distsq(float x, float y) { return (x - y) * (x - y); } vec8 min_v(vec8 a, vec8 b) { return a < b? a : b; } vec8 distsq_v(vec8 x, vec8 y) { return (x - y) * (x - y); } void example() { #pragma omp parallel for simd for (i=0; i<n; i++) { d[i] = min(distsq(a[i], b[i]), c[i]); } } vd = min_v(distsq_v(va, vb, vc))

17 SIMD 関数のベクトル化 simdlen (length) 指定されたベクトル長 (length) をサポートする関数を生成 uniform (argument-list) 引数 (argumrnt-list) は 指定されたループ反復間の定数値 inbranch 関数は常に if 文内部から呼び出される notinbranch 関数は if 文内部から呼び出されない linear (argument-list[:linear-step]) aligned (argument-list[:alignment]) reduction(operator:list) 前と同じ

18 SIMD 構文とパフォーマンス 5.00x 4.50x 4.00x 3.66x 4.34x ICC auto-vec ICC SIMD directive 相対的スピードアップ ( 高値が良い ) 3.50x 3.00x 2.50x 2.00x 1.50x 2.04x 2.13x 1.47x 2.40x 1.00x 0.50x 0.00x Mandelbrot Volume Rendering BlackScholes Fast Walsh Perlin Noise SGpp M. Klemm, A. Duran, X. Tian, H. Saito, D. Caballero, and X. Martorell. 近年のマルチコア SIMD アーキテクチャー向けに OprnMP ベクトル構文を拡張 2012 年 6 月 イタリア ローマで開催されたインテル ワークショップの資料ページ より LNCS 7312

19 デバイス向けの OpenMP 4.0

20 デバイスモデル OpenMP 4.0 によるアクセラレーター / コプロセッサーのサポート デバイスモデル : 1 つのホスト 同種の複数のアクセラレーター / コプロセッサー コプロセッサー ホスト

21 デバイス向けの OpenMP 構文 ホストからデバイスへ制御 [ とデータ ] を転送 構文 (C/C++) #pragma omp target [data] [ 節 [[,] 節 ], ] 構造化ブロック 構文 (Fortran)!$omp target [data] [ 節 [[,] 節 ], ] 構造化ブロック 節 device(scalar-integer-expression) map(alloc to from tofrom:list) if(scalar-expr)

22 実行モデル target 構文は制御フローをターゲットデバイスへ転送 制御の転送はシーケンシャルで同期される 転送節はデータフローの方向を制御 配列表記は 配列の長さを表現するために使用される target data 構文はデバイスのデータ環境にスコープを生成 制御の転送は行われない 転送節はデータフローの方向を制御 デバイスのデータ環境は ターゲットのデータ領域が有効な間適用される target update は ターゲットのデータ領域からデータの転送を要求する際に使用する

23 実行モデル データ環境は字句でスコープされる データ環境は波括弧を閉じた時点で破棄される 割り当てられたバッファー / データは自動的に解放される pa ホスト 2 to( ) デバイス 1 alloc( ) 4 from( ) #pragma omp target map(alloc:...) map(to:...) map(from:...) {...} 3

24 例 #pragma omp target data device(0) map(alloc:tmp[:n]) map(to:input[:n)) map(from:res) { #pragma omp target device(0) #pragma omp parallel for for (i=0; i<n; i++) tmp[i] = some_computation(input[i], i); update_input_array_on_the_host(input); #pragma omp target update device(0) to(input[:n]) #pragma omp target device(0) #pragma omp parallel for reduction(+:res) for (i=0; i<n; i++) res += final_computation(input[i], tmp[i], i) } ホストターゲットホストターゲットホスト

25 teams 構文 複数レベルの並列デバイスをサポート 構文 (C/C++): #pragma omp teams [ 節 [[,] 節 ], ] 構造化ブロック 構文 (Fortran):!$omp teams [ 節 [[,] 節 ], ] 構造化ブロック 節 num_teams(integer-expression) num_threads(integer-expression) default(shared none) private(list), firstprivate(list) shared(list), reduction(operator :list)

26 コプロセッサーへ SAXPY をオフロードする int main(int argc, const char* argv[]) { float *x = (float*) malloc(n * sizeof(float)); SAXPY float *y = (float*) malloc(n * sizeof(float)); // Define scalars n, a, b & initialize x, y #pragma omp target data map(to:x[0:n]) { #pragma omp target map(tofrom:y) #pragma omp 全てが同じことを行う teams num_teams(num_blocks) num_threads(nthreads) for (int i = 0; i < n; i += num_blocks){ for (int j = i; j < i + num_blocks; j++) { y[j] = a*x[j] + y[j]; } } } free(x); free(y); return 0; }

27 コプロセッサーへ SAXPY をオフロードする int main(int argc, const char* argv[]) { float *x = (float*) malloc(n * sizeof(float)); float *y = (float*) malloc(n * sizeof(float)); // Define scalars n, a, b & initialize x, y SAXPY コプロセッサー / アクセラレーター #pragma omp target data map(to:x[0:n]) { #pragma omp target map(tofrom:y) #pragma omp teams num_teams(num_blocks) num_threads(bsize) 全てが同じことを行う #pragma omp distribute for (int i = 0; i < n; i += num_blocks){ ワークシェア (barrier なし ) #pragma omp parallel for for (int j = i; j < i + num_blocks; j++) { y[j] = a*x[j] + y[j]; } } } free(x); free(y); return 0; } ワークシェア (barrier あり )

28 コプロセッサーへ SAXPY をオフロードする int main(int SAXPY 複合構文 argc, const char* argv[]) { float *x = (float*) malloc(n * sizeof(float)); float *y = (float*) malloc(n * sizeof(float)); // Define scalars n, a, b & initialize x, y #pragma omp target map(to:x[0:n]) map(tofrom:y) { #pragma omp teams distribute parallel for num_teams(num_blocks) num_threads(bsize) for (int i = 0; i < n; ++i){ y[i] = a*x[i] + y[i]; } } free(x); free(y); return 0; }

29 OpenMP 4.0 アフィニティー

30 NUMA はここに属する... ( ほとんど ) すべてのマルチソケット計算サーバーは NUMA システムである 異なるメモリー位置へのアクセス レイテンシーは一定ではない 異なるメモリー位置の帯域幅が異なる可能性がある 例 : インテル Xeon E5-2600v2 シリーズ プロセッサー Xeon E5-2600v2 Xeon E5-2600v2

31 スレッド アフィニティー - なぜ重要なのか? GB/ 秒 [ 高値がより良い ] STREAM Triad, インテル Xeon E5-2697v スレッド / コア数 compact, par scatter, par compact, seq scatter, seq

32 スレッド アフィニティー - プロセッサーのバインド バインドの方針は マシンとアプリケーションに依存する スレッドを離して配置 例 異なるパッケージ ( おそらく ) メモリー帯域幅を向上させる ( おそらく ) 統合されたキャッシュサイズを改善 ( おそらく ) 同期構文のパフォーマンスを低下させる スレッドを近づけて配置 例 キャッシュを共有する可能性がある 2 つのコアに隣接 ( おそらく ) 同期構文のパフォーマンスを向上させる ( おそらく ) 利用可能なメモリー帯域幅とキャッシュサイズ ( スレッドごとの ) を低下させる

33 OpenMP* 4.0 におけるスレッド アフィニティー OpenMP 4.0 は 配置のコンセプトを導入... 1 つ以上のプロセッサー上で動作する一連のスレッド ユーザーによって定義される 事前定義された配置 : スレッド コア ソケット ハイパースレッドごとに 1 つの位置物理コアごとに 1 つの位置プロセッサー パッケージごとに 1 つの位置... そしてアフィニティーのポリシーは... spread close master OpenMP スレッドをすべての位置に広く配置 OpenMP スレッドをマスター スレッドの近辺にパック OpenMP スレッドをマスター スレッドを併置... そしてこれらの設定を制御する 環境変数 OMP_PLACES と OMP_PROC_BIND 並列領域向けに proc_bind 節

34 スレッド アフィニティーの例 例 ( インテル Xeon Phi コプロセッサー ): 外部領域を分配し 内部領域を近く保つ OMP_PLACES=cores(8) #pragma omp parallel proc_bind(spread) #pragma omp parallel proc_bind(close) p0 p1 p2 p3 p4 p5 p6 p7 p0 p1 p2 p3 p4 p5 p6 p7 p0 p1 p2 p3 p4 p5 p6 p7

35 まとめ OpenMP 4.0 は OpenMP における大きな飛躍 新しい種類の並列性を導入 コプロセッサー デバイスによる異種システム構成をサポート インテル Composer XE 2013 SP1 におけるサポート SIMD 構文 (combined 構文を除く ) デバイス向けの OpenMP (combined 構文を除く ) OpenMP アフィニティー

36

Microsoft PowerPoint - 02_What is OpenMP 4.0 offload_Jan18

Microsoft PowerPoint - 02_What is OpenMP 4.0 offload_Jan18 OpenMP* 4.x における拡張 オフロード 内容 デバイス ( アクセラレーター ) 拡張 れ の並列化制御 プロセッサーバインドとアフィニティーの制御 2 内容 デバイス ( アクセラレーター ) 拡張 基本 データ移動 永続性 並 ( 同期 ) 実 インテル コンパイラーのオフロード向け 語拡張 (LEO) OpenMP* 3 内容 デバイス ( アクセラレーター ) 拡張 基本 データ移動

More information

Microsoft PowerPoint - 03_What is OpenMP 4.0 other_Jan18

Microsoft PowerPoint - 03_What is OpenMP 4.0 other_Jan18 OpenMP* 4.x における拡張 OpenMP 4.0 と 4.5 の機能拡張 内容 OpenMP* 3.1 から 4.0 への拡張 OpenMP* 4.0 から 4.5 への拡張 2 追加された機能 (3.1 -> 4.0) C/C++ 配列シンタックスの拡張 SIMD と SIMD 対応関数 デバイスオフロード task 構 の依存性 taskgroup 構 cancel 句と cancellation

More information

インテル® Parallel Studio XE 2013 Linux* 版インストール・ガイドおよびリリースノート

インテル® Parallel Studio XE 2013 Linux* 版インストール・ガイドおよびリリースノート インテル Parallel Studio XE 2013 Linux* 版インストール ガイドおよびリリースノート 資料番号 : 323804-003JA 2012 年 7 月 30 日 目次 1 概要... 2 1.1 新機能... 2 1.1.1 インテル Parallel Studio XE 2011 からの変更点... 2 1.2 製品の内容... 2 1.3 動作環境... 2 1.4 ドキュメント...

More information

インテル® Parallel Studio XE 2013 Windows* 版インストール・ガイドおよびリリースノート

インテル® Parallel Studio XE 2013 Windows* 版インストール・ガイドおよびリリースノート インテル Parallel Studio XE 2013 Windows* 版インストール ガイドおよびリリースノート 資料番号 : 323803-003JA 2012 年 8 月 8 日 目次 1 概要... 2 1.1 新機能... 2 1.1.1 インテル Parallel Studio XE 2011 からの変更点... 2 1.2 製品の内容... 2 1.3 動作環境... 2 1.4

More information

インテル® Parallel Studio XE 2015 Composer Edition for Linux* インストール・ガイドおよびリリースノート

インテル® Parallel Studio XE 2015 Composer Edition for Linux* インストール・ガイドおよびリリースノート インテル Parallel Studio XE 2015 Composer Edition for Linux* インストール ガイドおよびリリースノート 2014 年 10 月 14 日 目次 1 概要... 1 1.1 製品の内容... 2 1.2 インテル デバッガー (IDB) を削除... 2 1.3 動作環境... 2 1.3.1 SuSE Enterprise Linux 10* のサポートを終了...

More information

Microsoft PowerPoint - 002_OpenMP 5.0_2018_Part2

Microsoft PowerPoint - 002_OpenMP 5.0_2018_Part2 インテル コンパイラー V19.0 による並列プログラミング : OpenMP* 5.0 プレビュー Part 2 2018 年 10 月 isus 編集部すがわらきよふみ 1 このセッションの目的 明示的な並列プログラミング手法として注目されてきた OpenMP* による並列プログラミングに加え インテル コンパイラーがサポートする OpenMP* 4.0 と 4.5 の機能を使用したベクトル プログラミングとオフロード

More information

Product Brief 高速なコードを素早く開発 インテル Parallel Studio XE 2017 インテル ソフトウェア開発ツール 概要 高速なコード : 現在および次世代のプロセッサーでスケーリングする優れたアプリケーション パフォーマンスを実現します 迅速に開発 : 高速かつ安定し

Product Brief 高速なコードを素早く開発 インテル Parallel Studio XE 2017 インテル ソフトウェア開発ツール 概要 高速なコード : 現在および次世代のプロセッサーでスケーリングする優れたアプリケーション パフォーマンスを実現します 迅速に開発 : 高速かつ安定し Product Brief 高速なコードを素早く開発 インテル Parallel Studio XE 2017 インテル ソフトウェア開発ツール 概要 高速なコード : 現在および次世代のプロセッサーでスケーリングする優れたアプリケーション パフォーマンスを実現します 迅速に開発 : 高速かつ安定した並列コードの作成を簡略化するツールセットです : 最先端のコンパイラー ライブラリー 並列モデル インテル

More information

PowerPoint Presentation

PowerPoint Presentation インテル ソフトウェア開発製品によるソースコードの近代化 エクセルソフト株式会社黒澤一平 ソースコードの近代化 インテル Xeon Phi プロセッサーや 将来のインテル Xeon プロセッサー上での実行に向けた準備と適用 インテル ソフトウェア製品 名称インテル Composer XE for Fortran and C++ インテル VTune Amplifier XE インテル Advisor

More information

Jackson Marusarz 開発製品部門

Jackson Marusarz 開発製品部門 Jackson Marusarz 開発製品部門 内容 インテル TBB の概要 ヘテロジニアスの課題とそれらに対応するための概念 課題に対応するためのインテル TBB の進化 2 インテル TBB threadingbuildingblocks.org 汎用並列アルゴリズム ゼロから始めることなく マルチコアの能力を活かす効率的でスケーラブルな方法を提供 フローグラフ 並列処理を計算の依存性やデータフロー

More information

インテル® Fortran Studio XE 2011 SP1 Windows* 版インストール・ガイドおよびリリースノート

インテル® Fortran Studio XE 2011 SP1 Windows* 版インストール・ガイドおよびリリースノート インテル Fortran Studio XE 2011 SP1 Windows* 版インストール ガイドおよびリリースノート 資料番号 : 325583-001JA 2011 年 8 月 5 日 目次 1 概要... 1 1.1 新機能... 2 1.2 製品の内容... 2 1.3 動作環境... 2 1.3.1 Microsoft* Visual Studio* 2005 のサポート終了予定...

More information

Tutorial-GettingStarted

Tutorial-GettingStarted インテル HTML5 開発環境 チュートリアル インテル XDK 入門ガイド V2.02 : 05.09.2013 著作権と商標について 本資料に掲載されている情報は インテル製品の概要説明を目的としたものです 本資料は 明示されているか否かにかかわらず また禁反言によるとよらずにかかわらず いかなる知的財産権のライセンスを許諾するものではありません 製品に付属の売買契約書 Intel's Terms

More information

インテル® キャッシュ・アクセラレーション・ソフトウェア (インテル® CAS) Linux* 版 v2.8 (GA)

インテル® キャッシュ・アクセラレーション・ソフトウェア (インテル® CAS) Linux* 版 v2.8 (GA) 改訂 001 ドキュメント番号 :328499-001 注 : 本書には開発の設計段階の製品に関する情報が記述されています この情報は予告なく変更されることがあります この情報だけに基づいて設計を最終的なものとしないでください 本資料に掲載されている情報は インテル製品の概要説明を目的としたものです 本資料は 明示されているか否かにかかわらず また禁反言によるとよらずにかかわらず いかなる知的財産権のライセンスも許諾するものではありません

More information

Microsoft PowerPoint Quality-sama_Seminar.pptx

Microsoft PowerPoint Quality-sama_Seminar.pptx インテル vpro テクノロジー ~ 革新と継続的な進化 ~ インテル株式会社マーケティング本部 2010 年 11 月 2010年の新プロセッサー: 更なるパフォーマンスを スマート に実現 ユーザーのワークロードに合わせて プロセッサーの周波数を動的に向上 インテル インテル ターボ ブースト テクノロジー* ターボ ブースト テクノロジー* 暗号化処理を高速化 保護する 新しいプロセッサー命令

More information

バトルカードでゲーマーやエンスージアストへの販売促進

バトルカードでゲーマーやエンスージアストへの販売促進 究極のメガタスク 4K ビデオの編集 3D 効果のレンダリング サウンドトラックの作曲を システム パフォーマンスを低下させずに同時に実行 4K ビデオの編集を 最大 2.4 倍 ビデオのトランスコードを 最大 高速化¹ Adobe* Premiere* Pro CC と インテル Core i7-7700k で比較 2.3 倍 高速化² - Handbrake* を使用し インテル Core i7-7700k

More information

テクノロジーのビッグトレンド 180 nm nm nm nm nm On 2007 Track 32 nm には 150 億台の端末がネットワーク接続 * * "Gantz, John. "The Embedded

テクノロジーのビッグトレンド 180 nm nm nm nm nm On 2007 Track 32 nm には 150 億台の端末がネットワーク接続 * * Gantz, John. The Embedded ホワイトスペースに対するインテルの期待 インテルコーポレーション セールス & マーケティング統括本部副社長 吉田和正 テクノロジーのビッグトレンド 180 nm 1999 130 nm 2001 90 nm 2003 65 nm 2005 45 nm On 2007 Track 32 nm 2009 2015 には 150 億台の端末がネットワーク接続 * * "Gantz, John. "The

More information

OpenMP 3.0 C/C++ 構文の概要

OpenMP 3.0 C/C++ 構文の概要 OpenMP 3.0 C/C++ 構文の概要 OpenMP API 仕様については www.openmp.org でダウンロードしてください OpenMP 実行宣言子は 後続の構造化ブロックや OpenMP 構文に適用されます 構造化ブロック () とは 単文または先頭に入口が 1 つ 末尾に出口が 1 つの複合文です parallel 構文はスレッドのチームを形成し 並列実行を開始します #pragma

More information

01_OpenMP_osx.indd

01_OpenMP_osx.indd OpenMP* / 1 1... 2 2... 3 3... 5 4... 7 5... 9 5.1... 9 5.2 OpenMP* API... 13 6... 17 7... 19 / 4 1 2 C/C++ OpenMP* 3 Fortran OpenMP* 4 PC 1 1 9.0 Linux* Windows* Xeon Itanium OS 1 2 2 WEB OS OS OS 1 OS

More information

Click to edit title

Click to  edit title インテル VTune Amplifier 2018 を 使用した最適化手法 ( 初級編 ) 久保寺 陽子 内容 アプリケーション最適化のプロセス インテル VTune Amplifier の紹介 インテル VTune Amplifier の新機能 インテル VTune Amplifier を用いた最適化例 (1) インテル VTune Amplifier を用いた最適化例 (2) まとめ 2 インテル

More information

(Microsoft PowerPoint \215u\213`4\201i\221\272\210\344\201j.pptx)

(Microsoft PowerPoint \215u\213`4\201i\221\272\210\344\201j.pptx) AICS 村井均 RIKEN AICS HPC Summer School 2012 8/7/2012 1 背景 OpenMP とは OpenMP の基本 OpenMP プログラミングにおける注意点 やや高度な話題 2 共有メモリマルチプロセッサシステムの普及 共有メモリマルチプロセッサシステムのための並列化指示文を共通化する必要性 各社で仕様が異なり 移植性がない そして いまやマルチコア プロセッサが主流となり

More information

PowerPoint Presentation

PowerPoint Presentation OpenMP* 4.5 による新しいレベルの並列プログラミング 2016 年 12 月 このセッションの目的 明示的な並列プログラミング手法として注目されてきた OpenMP* による並列プログラミングに加え インテル コンパイラーがサポートする OpenMP* 4.0 と 4.5 の機能を使用したベクトル プログラミングとオフロード プログラミングを紹介します セッションの対象者 OpenMP*

More information

Presentation title

Presentation title インテル Xeon Phi コプロセッサー搭載システムの紹介およびオフロード プログラミングとネイティブ実行の概要 インテル ソフトウェア開発製品の紹介 インテル ソフトウェア開発製品 Advanced Performance C++ および Fortran コンパイラーインテル MKL/ インテル IPP ライブラリーと解析ツール IA ベース マルチコア ノード上の Windows* および Linux*

More information

Microsoft PowerPoint - OpenMP入門.pptx

Microsoft PowerPoint - OpenMP入門.pptx OpenMP 入門 須田礼仁 2009/10/30 初版 OpenMP 共有メモリ並列処理の標準化 API http://openmp.org/ 最新版は 30 3.0 バージョンによる違いはあまり大きくない サポートしているバージョンはともかく csp で動きます gcc も対応しています やっぱり SPMD Single Program Multiple Data プログラム #pragma omp

More information

並列アプリケーション向けインテル® TBB スケーラブル・メモリー・アロケーターの活用

並列アプリケーション向けインテル® TBB スケーラブル・メモリー・アロケーターの活用 並列アプリケーション向けインテル TBB スケーラブル メモリー アロケーターの活用インテル スレッディング ビルディング ブロック ( インテル TBB) 2019 インテルコーポレーションソフトウェア開発エンジニア Nikita Ponomarev アプリケーションの想定 高速な malloc/free クロススレッドはそこまで速くないかもしれないが忘れないようにする ローカルキャッシュでホットなオブジェクトを取得する

More information

Parallel Studio XE Parallel Studio XE hotspot ( )

Parallel Studio XE Parallel Studio XE hotspot ( ) Parallel Studio XE Parallel Studio XE hotspot ( ) 1 つのファイルを再コンパイルするだけで違いが出るのでしょうか? はい 多くの場合 Parallel Studio XE の最適化コンパイラーを使用して 1 つのファイルを再コンパイルするだけでパフォーマンスが大幅に向上します 必ずしもアプリケーション全体を再コンパイルする必要はありません これは シリアル

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション vsmp Foundation スケーラブル SMP システム スケーラブル SMP システム 製品コンセプト 2U サイズの 8 ソケット SMP サーバ コンパクトな筐体に多くのコアとメモリを実装し SMP システムとして利用可能 スイッチなし構成でのシステム構築によりラックスペースを無駄にしない構成 将来的な拡張性を保証 8 ソケット以上への拡張も可能 2 システム構成例 ベースシステム 2U

More information

N08

N08 CPU のキモチ C.John 自己紹介 英語きらい 絵かけない 人の話を素直に信じない CPUにキモチなんてない お詫び 予告ではCとC# とありましたがやる気と時間の都合上 C++のみを対象とします 今日のネタ元 MSDN マガジン 2010 年 10 月号 http://msdn.microsoft.com/ja-jp/magazine/cc850829.aspx Windows と C++

More information

InfiniDB最小推奨仕様ガイド

InfiniDB最小推奨仕様ガイド 最小推奨仕様ガイド Release 4.0 Document Version 4.0-1 www.calpont.com 1 InfiniDB 最小推奨仕様ガイド 2013 年 10 月 Copyright 本書に記載された InfiniDB Calpont InfiniDB ロゴおよびその他のすべての製品またはサービスの名称またはスローガンは Calpont およびそのサプライヤまたはライセンサの商標であり

More information

チュートリアル: インテル® MPI ライブラリー向け MPI Tuner (Windows*)

チュートリアル: インテル® MPI ライブラリー向け MPI Tuner (Windows*) チュートリアル : インテル MPI ライブラリー向け MPI Tuner バージョン 5.1 Update 3 (Windows*) 著作権と商標について 本資料は 明示されているか否かにかかわらず また禁反言によるとよらずにかかわらず いかなる知的財産権のライセンスも許諾するものではありません インテルは 明示されているか否かにかかわらず いかなる保証もいたしません ここにいう保証には 商品適格性

More information

インテル® VTune™ Amplifier XE を使用したストレージ向けの パフォーマンス最適化

インテル® VTune™ Amplifier XE を使用したストレージ向けの パフォーマンス最適化 インテル VTune Amplifier XE を使用したストレージ向けのパフォーマンス最適化 2016 年 10 月 12 日 Day2 トラック D-2 (14:55 15:40) すがわらきよふみ isus 編集長 本日の内容 インテル VTune Amplifier XE 2017 概要 ストレージ解析向けのインテル VTune Amplifier XE の新機能 メモリー解析向けのインテル

More information

スレッド化されていないアプリケーションでも大幅なパフォーマンス向上を容易に実現

スレッド化されていないアプリケーションでも大幅なパフォーマンス向上を容易に実現 はじめに 本ガイドは インテル Parallel Studio XE を使用してアプリケーション中の hotspot ( 多くの時間を費やしているコード領域 ) を見つけ それらの領域を再コンパイルすることでアプリケーション全体のパフォーマンスを向上する方法について説明します 1 つのファイルを再コンパイルするだけで違いが出るのでしょうか? はい 多くの場合 インテル Parallel Studio

More information

MAGNIA Storage Server Configuration Guide

MAGNIA Storage Server Configuration Guide MAGNIA シリーズ システム構成ガイド Storage Server 概要編 [2012.12] 価格について 本書に記載の価格はすべて税込です 据付調整費 使用済み商品のお引き取り費は含まれておりません もくじ MAGNIA Storage Server 構成ガイド概要編 ページ 概要 2 特長 3 ネットワーク構成例 5 システム構成セレクション 6 1 MAGNIA Storage Server

More information

目次 1 はじめに 製品に含まれるコンポーネント 動作環境... 4 オペレーティング システム... 4 Microsoft Visual Studio* 製品 製品のダウンロード 製品版をインストールする場合 評価版を

目次 1 はじめに 製品に含まれるコンポーネント 動作環境... 4 オペレーティング システム... 4 Microsoft Visual Studio* 製品 製品のダウンロード 製品版をインストールする場合 評価版を インテル Parallel Studio XE 2018 Composer Edition for Fortran Windows* インストール ガイド Rev. 2. 0 (2017/11/22) エクセルソフト株式会社 www.xlsoft.com 目次 1 はじめに... 3 2 製品に含まれるコンポーネント... 3 3 動作環境... 4 オペレーティング システム... 4 Microsoft

More information

型名 RF007 ラジオコミュニケーションテスタ Radio Communication Tester ソフトウェア開発キット マニュアル アールエフネットワーク株式会社 RFnetworks Corporation RF007SDK-M001 RF007SDK-M001 参考資料 1

型名 RF007 ラジオコミュニケーションテスタ Radio Communication Tester ソフトウェア開発キット マニュアル アールエフネットワーク株式会社 RFnetworks Corporation RF007SDK-M001 RF007SDK-M001 参考資料 1 型名 RF007 ラジオコミュニケーションテスタ Radio Communication Tester ソフトウェア開発キット マニュアル アールエフネットワーク株式会社 RFnetworks Corporation RF007SDK-M001 RF007SDK-M001 参考資料 1 第 1 章製品概要本開発キットは RF007 ラジオコミュニケーションテスタ ( 本器 ) を使用したソフトウェアを開発するためのライブラリソフトウェアです

More information

Microsoft PowerPoint - VSUGDAY_2008_Intel_V2.ppt

Microsoft PowerPoint - VSUGDAY_2008_Intel_V2.ppt VSUG DAY 2008 Summer インテル C++ コンパイラーによるマルチコア対応プログラム開発の未来 インテル株式会社ソフトウェア & ソリューションズ統括部ソフトウェア技術部菅原清文 法務情報 本資料に掲載されている情報は インテル製品の概要説明を目的としたものです 本資料は 明示されているか否かにかかわらず また禁反言によるとよらずにかかわらず いかなる知的財産権のライセンスを許諾するためのものではありません

More information

Microsoft Word - openmp-txt.doc

Microsoft Word - openmp-txt.doc ( 付録 A) OpenMP チュートリアル OepnMP は 共有メモリマルチプロセッサ上のマルチスレッドプログラミングのための API です 本稿では OpenMP の簡単な解説とともにプログラム例をつかって説明します 詳しくは OpenMP の規約を決めている OpenMP ARB の http://www.openmp.org/ にある仕様書を参照してください 日本語訳は http://www.hpcc.jp/omni/spec.ja/

More information

1.overview

1.overview 村井均 ( 理研 ) 2 はじめに 規模シミュレーションなどの計算を うためには クラスタのような分散メモリシステムの利 が 般的 並列プログラミングの現状 半は MPI (Message Passing Interface) を利 MPI はプログラミングコストが きい 標 性能と 産性を兼ね備えた並列プログラミング 語の開発 3 並列プログラミング 語 XcalableMP 次世代並列プログラミング

More information

演習1: 演習準備

演習1: 演習準備 演習 1: 演習準備 2013 年 8 月 6 日神戸大学大学院システム情報学研究科森下浩二 1 演習 1 の内容 神戸大 X10(π-omputer) について システム概要 ログイン方法 コンパイルとジョブ実行方法 OpenMP の演習 ( 入門編 ) 1. parallel 構文 実行時ライブラリ関数 2. ループ構文 3. shared 節 private 節 4. reduction 節

More information

インテル C++ および Fortran コンパイラー for Linux*/OS X*/Windows

インテル C++ および Fortran コンパイラー for Linux*/OS X*/Windows および Fortran コンパイラー for Linux*/OS X*/Windows インテル Parallel Studio XE の主要コンポーネント ソフトウェア開発者にとって重要なポイント課題インテル コンパイラーの利点 パフォーマンス高速なアプリケーションを開発する必要がある 最新のハードウェア イノベーションを利用しなければならない 最新の x86 互換プロセッサーと命令セットを最大限に利用できる

More information

インテル® Parallel Studio XE 2019 Composer Edition for Fortran Windows 日本語版 : インストール・ガイド

インテル® Parallel Studio XE 2019 Composer Edition for Fortran Windows 日本語版 : インストール・ガイド インテル Parallel Studio XE 2019 Composer Edition for Fortran Windows 日本語版インストール ガイド エクセルソフト株式会社 Version 2.1.0-20190405 目次 1. はじめに.................................................................................

More information

SMG Field Computex 2011 New Category Update

SMG Field Computex 2011 New Category Update Intel Software Developer Day インテル メディア SDK 概要 2011 年 7 月 15 日インテル株式会社ソフトウェア & サービス統括部アプリケーション エンジニア 竹内康人 1 本日の内容 インテル メディア SDK 構成と疑似コード まとめ 2 インテル メディア SDK - 最適化されたソリューション インテル メディア SDK 共通 API を介して インテル

More information

XcalableMP入門

XcalableMP入門 XcalableMP 1 HPC-Phys@, 2018 8 22 XcalableMP XMP XMP Lattice QCD!2 XMP MPI MPI!3 XMP 1/2 PCXMP MPI Fortran CCoarray C++ MPIMPI XMP OpenMP http://xcalablemp.org!4 XMP 2/2 SPMD (Single Program Multiple Data)

More information

Introducing Intel® Parallel Studio XE 2015

Introducing  Intel® Parallel Studio XE 2015 インテル Parallel Studio XE 205 の概要 James Reinders インテルコーポレーションのソフトウェア エバンジェリスト兼ディレクター james.r.reinders@intel.com 高速なコードを迅速に開発インテル Parallel Studio XE 205 高速なコード 明示的なベクトル プログラミングでより多くのコードをスピードアップ インテル Xeon

More information

XACC講習会

XACC講習会 www.xcalablemp.org 1 4, int array[max]; #pragma xmp nodes p(*) #pragma xmp template t(0:max-1) #pragma xmp distribute t(block) onto p #pragma xmp align array[i] with t(i) int array[max]; main(int argc,

More information

コードのチューニング

コードのチューニング OpenMP による並列化実装 八木学 ( 理化学研究所計算科学研究センター ) KOBE HPC Spring School 2019 2019 年 3 月 14 日 スレッド並列とプロセス並列 スレッド並列 OpenMP 自動並列化 プロセス並列 MPI プロセス プロセス プロセス スレッドスレッドスレッドスレッド メモリ メモリ プロセス間通信 Private Private Private

More information

内容 インテル Advisor ベクトル化アドバイザー入門ガイド Version インテル Advisor の利用 ワークフロー... 3 STEP1. 必要条件の設定... 4 STEP2. インテル Advisor の起動... 5 STEP3. プロジェクトの作成

内容 インテル Advisor ベクトル化アドバイザー入門ガイド Version インテル Advisor の利用 ワークフロー... 3 STEP1. 必要条件の設定... 4 STEP2. インテル Advisor の起動... 5 STEP3. プロジェクトの作成 内容 インテル Advisor ベクトル化アドバイザー入門ガイド Version 1.0 1. インテル Advisor の利用... 2 2. ワークフロー... 3 STEP1. 必要条件の設定... 4 STEP2. インテル Advisor の起動... 5 STEP3. プロジェクトの作成と設定... 7 STEP4. ベクトル化に関する情報を取得する... 9 STEP5. ループ処理の詳細を取得する...

More information

02_C-C++_osx.indd

02_C-C++_osx.indd C/C++ OpenMP* / 2 C/C++ OpenMP* OpenMP* 9.0 1... 2 2... 3 3OpenMP*... 5 3.1... 5 3.2 OpenMP*... 6 3.3 OpenMP*... 8 4OpenMP*... 9 4.1... 9 4.2 OpenMP*... 9 4.3 OpenMP*... 10 4.4... 10 5OpenMP*... 11 5.1

More information

Intel® Compilers Professional Editions

Intel® Compilers Professional Editions 2007 6 10.0 * 10.0 6 5 Software &Solutions group 10.0 (SV) C++ Fortran OpenMP* OpenMP API / : 200 C/C++ Fortran : OpenMP : : : $ cat -n main.cpp 1 #include 2 int foo(const char *); 3 int main()

More information

QNAP vsphere Client 用プラグイン : ユーザーガイド 2012 年 12 月更新 QNAP Systems, Inc. All Rights Reserved. 1

QNAP vsphere Client 用プラグイン : ユーザーガイド 2012 年 12 月更新 QNAP Systems, Inc. All Rights Reserved. 1 QNAP vsphere Client 用プラグイン : ユーザーガイド 2012 年 12 月更新 2012. QNAP Systems, Inc. All Rights Reserved. 1 注意 : 提示する情報は 通知なく変更することがあります 商標 QNAP および QNAP ロゴは QNAP Systems, Inc. の商標です 引用されるすべてのブランド名および製品名は各所有者の商標です

More information

PowerPoint Presentation

PowerPoint Presentation インテル Xeon Phi プロセッサー ( 開発コード名 : Knights Landing) とインテル Distribution for Python* による高速化 エクセルソフト株式会社ソリューション事業部マネージャー黒澤一平 言語と環境について 対応言語 環境プロセスインテル ソフトウェア開発製品機能 C C++ Fortran 言語 コンパイル / リンク インテル Parallel

More information

AICS 村井均 RIKEN AICS HPC Summer School /6/2013 1

AICS 村井均 RIKEN AICS HPC Summer School /6/2013 1 AICS 村井均 RIKEN AICS HPC Summer School 2013 8/6/2013 1 背景 OpenMP とは OpenMP の基本 OpenMP プログラミングにおける注意点 やや高度な話題 2 共有メモリマルチプロセッサシステムの普及 共有メモリマルチプロセッサシステムのための並列化指示文を共通化する必要性 各社で仕様が異なり 移植性がない そして いまやマルチコア プロセッサが主流となり

More information

NUMAの構成

NUMAの構成 共有メモリを使ったデータ交換と同期 慶應義塾大学理工学部 天野英晴 hunga@am.ics.keio.ac.jp 同期の必要性 あるプロセッサが共有メモリに書いても 別のプロセッサにはそのことが分からない 同時に同じ共有変数に書き込みすると 結果がどうなるか分からない そもそも共有メモリって結構危険な代物 多くのプロセッサが並列に動くには何かの制御機構が要る 不可分命令 同期用メモリ バリア同期機構

More information

ストリーミング SIMD 拡張命令2 (SSE2) を使用した SAXPY/DAXPY

ストリーミング SIMD 拡張命令2 (SSE2) を使用した SAXPY/DAXPY SIMD 2(SSE2) SAXPY/DAXPY 2.0 2000 7 : 248600J-001 01/12/06 1 305-8603 115 Fax: 0120-47-8832 * Copyright Intel Corporation 1999, 2000 01/12/06 2 1...5 2 SAXPY DAXPY...5 2.1 SAXPY DAXPY...6 2.1.1 SIMD C++...6

More information

(速報) Xeon E 系モデル 新プロセッサ性能について

(速報) Xeon E 系モデル 新プロセッサ性能について ( 速報 ) Xeon E5-2600 系モデル新プロセッサ性能について 2012 年 3 月 16 日 富士通株式会社 2012 年 3 月 7 日 インテル社より最新 CPU インテル Xeon E5 ファミリー の発表がありました この最新 CPU について PC クラスタシステムの観点から性能検証を行いましたので 概要を速報いたします プロセッサインテル Xeon プロセッサ E5-2690

More information

IntelR Compilers Professional Editions

IntelR Compilers Professional Editions June 2007 インテル コンパイラー プロフェッショナル エディション Phil De La Zerda 公開が禁止された情報が含まれています 本資料に含まれるインテル コンパイラー 10.0 についての情報は 6 月 5 日まで公開が禁止されています グローバル ビジネス デベロップメント ディレクター Intel Corporation マルチコア プロセッサーがもたらす変革 これまでは

More information

hotspot の特定と最適化

hotspot の特定と最適化 1 1? 1 1 2 1. hotspot : hotspot hotspot Parallel Amplifier 1? 2. hotspot : (1 ) Parallel Composer 1 Microsoft* Ticker Tape Smoke 1.0 PiSolver 66 / 64 / 2.76 ** 84 / 27% ** 75 / 17% ** 1.46 89% Microsoft*

More information

Microsoft PowerPoint - 04_new_compiler_report_JA_Sep2015

Microsoft PowerPoint - 04_new_compiler_report_JA_Sep2015 新しい最適化レポートを使 して コンパイラーを最 限に活 する : Kiyo Sugawara September 2015 Rev 2.1 このセッションの 的 インテル Parallel Studio XE 2016 に統合され 強化されたコンパイラーの最適化レポートについて学ぶ : 提供される情報を制御パフォーマンスを向上するため コンパイラーの最適化レポートの情報を理解し チューニングに役

More information

openmp1_Yaguchi_version_170530

openmp1_Yaguchi_version_170530 並列計算とは /OpenMP の初歩 (1) 今 の内容 なぜ並列計算が必要か? スーパーコンピュータの性能動向 1ExaFLOPS 次世代スハ コン 京 1PFLOPS 性能 1TFLOPS 1GFLOPS スカラー機ベクトル機ベクトル並列機並列機 X-MP ncube2 CRAY-1 S-810 SR8000 VPP500 CM-5 ASCI-5 ASCI-4 S3800 T3E-900 SR2201

More information

Oracle Cloud Adapter for Oracle RightNow Cloud Service

Oracle Cloud Adapter for Oracle RightNow Cloud Service Oracle Cloud Adapter for Oracle RightNow Cloud Service Oracle Cloud Adapter for Oracle RightNow Cloud Service を使用すると RightNow Cloud Service をシームレスに接続および統合できるため Service Cloud プラットフォームを拡張して信頼性のある優れたカスタマ

More information

for (int x = 0; x < X_MAX; x++) { /* これらの 3 つの行は外部ループの自己データと * 合計データの両方にカウントされます */ bar[x * 2] = x * ; bar[(x * 2) - 1] = (x - 1.0) *

for (int x = 0; x < X_MAX; x++) { /* これらの 3 つの行は外部ループの自己データと * 合計データの両方にカウントされます */ bar[x * 2] = x * ; bar[(x * 2) - 1] = (x - 1.0) * コールスタックを利用したルーフライン Alexandra S. (Intel) 2017 年 12 月 1 日公開 この記事は 2017 年 12 月 18 日時点の インテル デベロッパー ゾーンに公開されている Roofline with Callstacks の日本語訳です 注 : この記事の一部のスクリーンショットにはオレンジ色の点が表示されています デフォルト設定では これらの点は赤または黄色になります

More information

インテル® Parallel Studio XE 2019 Composer Edition for Fortran Windows : インストール・ガイド

インテル® Parallel Studio XE 2019 Composer Edition for Fortran Windows : インストール・ガイド インテル Parallel Studio XE 2019 Composer Edition for Fortran Windows インストール ガイド エクセルソフト株式会社 Version 1.0.0-20180918 目次 1. はじめに....................................................................................

More information

KSforWindowsServerのご紹介

KSforWindowsServerのご紹介 Kaspersky Security for Windows Server のご紹介 ランサムウェアに対抗する アンチクリプター を搭載 株式会社カスペルスキー 製品本部 目次 1. サーバーセキュリティがなぜ重要か? 2. Kaspesky Security for Windows Server の概要 Kaspersky Security for Windows Server の特長 導入の効果

More information

Click to edit title

Click to  edit title コードの現代化と最適化 ソフトウェアの最適化において注目すべきこと 2019 年 4 月 isus 編集部すがわらきよふみ 目的 ソフトウェア開発時の最適化において注目すべき点を理解します ソフトウェアの要件を理解します ソフトウェアに影響するハードウェアの機能を評価します 2 盲目の男たちと象 ヒィンドスタンに 盲目の 6 人の男たちがいました 学ぼうという気持ちが強く 象を見に出かけました 全員

More information

Intel Software Presentation Template

Intel Software Presentation Template 最新のヘテロジニアス システムにおけるビデオ解析環境 久保寺陽子 Internet of things Internet of things (IOT) は生活へ浸透 接続しているデバイスの数は急増 良く利用されるデバイスセンサーはカメラ データは爆発的に増加しているが 少ししか利用されていない 一般には 従来通りのそれぞれのやり方で使用 人間がすべてを網羅するのは無理 より賢い自動システムを構築する必要がある

More information

Oracle Un お問合せ : Oracle Data Integrator 11g: データ統合設定と管理 期間 ( 標準日数 ):5 コースの概要 Oracle Data Integratorは すべてのデータ統合要件 ( 大量の高パフォーマンス バッチ ローブンの統合プロセスおよ

Oracle Un お問合せ : Oracle Data Integrator 11g: データ統合設定と管理 期間 ( 標準日数 ):5 コースの概要 Oracle Data Integratorは すべてのデータ統合要件 ( 大量の高パフォーマンス バッチ ローブンの統合プロセスおよ Oracle Un お問合せ : 0120- Oracle Data Integrator 11g: データ統合設定と管理 期間 ( 標準日数 ):5 コースの概要 Oracle Data Integratorは すべてのデータ統合要件 ( 大量の高パフォーマンス バッチ ローブンの統合プロセスおよびSOA 対応データ サービスへ ) を網羅する総合的なデータ統合プラットフォームです Oracle

More information

インテル Parallel Studio XE 2017 Composer Edition for Fortran Windows* インストール ガイド Rev (2017/06/08) エクセルソフト株式会社

インテル Parallel Studio XE 2017 Composer Edition for Fortran Windows* インストール ガイド Rev (2017/06/08) エクセルソフト株式会社 インテル Parallel Studio XE 2017 Composer Edition for Fortran Windows* インストール ガイド Rev. 2. 1 (2017/06/08) エクセルソフト株式会社 www.xlsoft.com 目次 1 はじめに... 3 2 製品に含まれるコンポーネント... 3 3 動作環境... 4 オペレーティング システム... 4 Microsoft

More information

2.1 インテル マイクロアーキテクチャー Haswell インテル マイクロアーキテクチャー Haswell は インテル マイクロアーキテクチャー Sandy Bridge とインテル マイクロアーキテクチャー Ivy Bridge の成功を受けて開発された この新しいマイクロアーキテクチャーの

2.1 インテル マイクロアーキテクチャー Haswell インテル マイクロアーキテクチャー Haswell は インテル マイクロアーキテクチャー Sandy Bridge とインテル マイクロアーキテクチャー Ivy Bridge の成功を受けて開発された この新しいマイクロアーキテクチャーの 2 章インテル 64 プロセッサー アーキテクチャーと IA-32 プロセッサー アーキテクチャー 本章では 最新世代のインテル 64 プロセッサーと IA-32 プロセッサー ( インテル マイクロアーキテクチャー Haswell インテル マイクロアーキテクチャー Ivy Bridge インテル マイクロアーキテクチャー Sandy Bridge ベースのプロセッサーと インテル Core マイクロアーキテクチャー

More information

Microsoft PowerPoint - 演習1:並列化と評価.pptx

Microsoft PowerPoint - 演習1:並列化と評価.pptx 講義 2& 演習 1 プログラム並列化と性能評価 神戸大学大学院システム情報学研究科横川三津夫 yokokawa@port.kobe-u.ac.jp 2014/3/5 RIKEN AICS HPC Spring School 2014: プログラム並列化と性能評価 1 2014/3/5 RIKEN AICS HPC Spring School 2014: プログラム並列化と性能評価 2 2 次元温度分布の計算

More information

Slides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments

Slides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments 計算機アーキテクチャ第 11 回 マルチプロセッサ 本資料は授業用です 無断で転載することを禁じます 名古屋大学 大学院情報科学研究科 准教授加藤真平 デスクトップ ジョブレベル並列性 スーパーコンピュータ 並列処理プログラム プログラムの並列化 for (i = 0; i < N; i++) { x[i] = a[i] + b[i]; } プログラムの並列化 x[0] = a[0] + b[0];

More information

Microsoft Word - Circular-Memory-Leak_Mitigation

Microsoft Word - Circular-Memory-Leak_Mitigation 循環メモリリークの緩和 : Windows Internet Explorer 8 Beta 1 for Developers Web 作業の操作性を向上 2008 年 3 月 詳細の問い合わせ先 ( 報道関係者専用 ) : Rapid Response Team Waggener Edstrom Worldwide (503) 443 7070 rrt@waggeneredstrom.com このドキュメントに記載された内容は

More information

Android Layout SDK プログラミング マニュアル

Android Layout SDK プログラミング マニュアル プログラミングマニュアル Version 1.3.0 用 更新履歴 年月日 バージョン 履歴 2014.09.08 1.2.0.0 新規 (Layout Utilities ユーザーズ ガイド ) 2016.08.16 1.3.0.0 モバイル端末用レイアウトで直線部品と矩形部品に対応 モバイル端末用レイアウトファイルを CLFX から XML へ変更 Layout Print Engine から

More information

Veeam_Corporate_Template_16x9

Veeam_Corporate_Template_16x9 Veeam Backup & Replication ライセンスガイド 2017 年 4 月 REV0.1 商品名 商標等の引用に関する表示 2017 Veeam Software. All rights reserved. 本ドキュメント中に記載された会社名 製品名などは 各社の登録商標または商標です 本ドキュメントのいかなる部分も Veeam Software( 以下 Veeam とする ) の書面による許可なしに

More information

program7app.ppt

program7app.ppt プログラム理論と言語第 7 回 ポインタと配列, 高階関数, まとめ 有村博紀 吉岡真治 公開スライド PDF( 情報知識ネットワーク研 HP/ 授業 ) http://www-ikn.ist.hokudai.ac.jp/~arim/pub/proriron/ 本スライドは,2015 北海道大学吉岡真治 プログラム理論と言語, に基づいて, 現著者の承諾のもとに, 改訂者 ( 有村 ) が加筆修正しています.

More information

Microsoft Word - Dolphin Expressによる10Gbpソケット通信.docx

Microsoft Word - Dolphin Expressによる10Gbpソケット通信.docx Dolphin Express による 10Gbps ソケット通信 Dolphin Express は 標準的な低価格のサーバを用いて 強力なクラスタリングシステムが構築できる ハードウェアとソフトウェアによる通信用アーキテクチャです 本資料では Dolphin Express 製品の概要と 実際にどの程度の性能が出るのか市販 PC での実験結果をご紹介します Dolphin Express 製品体系

More information

インテル(R) Visual Fortran コンパイラ 10.0

インテル(R) Visual Fortran コンパイラ 10.0 インテル (R) Visual Fortran コンパイラー 10.0 日本語版スペシャル エディション 入門ガイド 目次 概要インテル (R) Visual Fortran コンパイラーの設定はじめに検証用ソースファイル適切なインストールの確認コンパイラーの起動 ( コマンドライン ) コンパイル ( 最適化オプションなし ) 実行 / プログラムの検証コンパイル ( 最適化オプションあり ) 実行

More information

インテル® C++ コンパイラー 16.0 Update 1 for Windows* リリースノート (インテル® Parallel Studio XE 2016)

インテル® C++ コンパイラー 16.0 Update 1 for Windows* リリースノート (インテル® Parallel Studio XE 2016) インテル C++ コンパイラー 16.0 Update 1 for Windows* リリースノート ( インテル Parallel Studio XE 2016) 2015 年 12 月 7 日時点 このドキュメントは インテル デベロッパー ゾーンに公開されている Intel C++ Compiler 16.0 Update 1 for Windows* Release Notes for Intel

More information

Intel_ParallelStudioXE2013_ClusterStudioXE2013_Introduction.pptx

Intel_ParallelStudioXE2013_ClusterStudioXE2013_Introduction.pptx Parallel Studio XE 2013 Cluster Studio XE 2013 ) ( Intel s Terms and Conditions of Sale Sandy Bridge SYSmark MobileMark http://www.intel.com/performance/ Intel Intel Intel Atom Intel Core Intel Xeon Phi

More information

Code Modernization Online training plan

Code Modernization Online training plan Windows* 環境での MPI プログラムの作成と実行 2016 年 4 月 内容 必要要件と各ツール インストール コンパイルと実行 必要なツールと環境 プロセッサーと Windows* OS コンパイラーとリンカー MPI ライブラリー クラスター診断 / 最適化ツール プロセッサーと Windows* OS インテル 64 アーキテクチャー ベースのシステム 1 コアあたり 1GB のメモリーと

More information

インテル® ソフトウェア・カンファレンス福岡 インテル® コンパイラーを使用する際に直面するよくある問題と課題

インテル® ソフトウェア・カンファレンス福岡  インテル® コンパイラーを使用する際に直面するよくある問題と課題 コードの現代化 ( 最適化 ) 1-2-3 インテル コンパイラーを使用する際に直面するよくある問題と課題 2017 年 7 月 isus 編集長 すがわらきよふみ このセッションの内容 ベクトル化と命令セット ベクトル化を支援するコンパイラーの機能 インテル Advisor を使用した最適化のステップ 複数ソケットシステム (NUMA) 環境での留意点 このセッションで使用する機材 : インテル

More information

Microsoft PowerPoint - kougi7.ppt

Microsoft PowerPoint - kougi7.ppt C プログラミング演習 第 7 回メモリ内でのデータの配置 例題 1. 棒グラフを描く 整数の配列から, その棒グラフを表示する ループの入れ子で, 棒グラフの表示を行う ( 参考 : 第 6 回授業の例題 3) 棒グラフの1 本の棒を画面に表示する機能を持った関数を補助関数として作る #include "stdafx.h" #include void draw_bar( int

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション Dell PowerEdge C6320 スケーラブルサーバアプライアンス 仮想化アプライアンスサーバ 最新のプロセッサを搭載したサーバプラットフォーム vsmp Foundation によるサーバ仮想化と統合化の適用 システムはセットアップを完了した状態でご提供 基本構成ではバックプレーン用のスイッチなどが不要 各ノード間を直接接続 冗長性の高いバックプレーン構成 利用するサーバプラットフォームは

More information

型名 RF014 デジタル ラジオコミュニケーションテスタ Digital Radio Communication Tester ソフトウェア開発キット マニュアル アールエフネットワーク株式会社 RFnetworks Corporation 参考資料 RF014SDK-M001 第 1 章製品概要本開発キットは RF014 デジタルラジオコミュニケーションテスタ ( 本器 ) を使用したソフトウェアを開発するためのライブラリソフトウェアです

More information

VXPRO R1400® ご提案資料

VXPRO R1400® ご提案資料 Intel Core i7 プロセッサ 920 Preliminary Performance Report ノード性能評価 ノード性能の評価 NAS Parallel Benchmark Class B OpenMP 版での性能評価 実行スレッド数を 4 で固定 ( デュアルソケットでは各プロセッサに 2 スレッド ) 全て 2.66GHz のコアとなるため コアあたりのピーク性能は同じ 評価システム

More information

Microsoft* Windows* 10 における新しい命令セットの利用

Microsoft* Windows* 10 における新しい命令セットの利用 Microsoft* Windows* 10 における新しい命令セットの利用 この記事は インテル デベロッパー ゾーンに公開されている Follow-Up: How does Microsoft Windows 10 Use New Instruction Sets? の日本語参考訳です 以前のブログ ソフトウェアは実際に新しい命令セットを使用しているのか? ( 英語 ) では いくつかの異なる

More information

S1C17 Family Application Note S1C17 シリーズ PORT 多重割り込みアプリケーションノート Rev.1.0

S1C17 Family Application Note S1C17 シリーズ PORT 多重割り込みアプリケーションノート Rev.1.0 S1C17 Family Application Note S1C17 シリーズ PORT 多重割り込みアプリケーションノート Rev.1.0 評価ボード キット 開発ツールご使用上の注意事項 1. 本評価ボード キット 開発ツールは お客様での技術的評価 動作の確認および開発のみに用いられることを想定し設計されています それらの技術評価 開発等の目的以外には使用しないで下さい 本品は 完成品に対する設計品質に適合していません

More information

Microsoft Word ●IntelクアッドコアCPUでのベンチマーク_吉岡_ _更新__ doc

Microsoft Word ●IntelクアッドコアCPUでのベンチマーク_吉岡_ _更新__ doc 2.3. アプリ性能 2.3.1. Intel クアッドコア CPU でのベンチマーク 東京海洋大学吉岡諭 1. はじめにこの数年でマルチコア CPU の普及が進んできた x86 系の CPU でも Intel と AD がデュアルコア クアッドコアの CPU を次々と市場に送り出していて それらが PC クラスタの CPU として採用され HPC に活用されている ここでは Intel クアッドコア

More information

2. OpenMP OpenMP OpenMP OpenMP #pragma#pragma omp #pragma omp parallel #pragma omp single #pragma omp master #pragma omp for #pragma omp critica

2. OpenMP OpenMP OpenMP OpenMP #pragma#pragma omp #pragma omp parallel #pragma omp single #pragma omp master #pragma omp for #pragma omp critica C OpenMP 1. OpenMP OpenMP Architecture Review BoardARB OpenMP OpenMP OpenMP OpenMP OpenMP Version 2.0 Version 2.0 OpenMP Fortran C/C++ C C++ 1997 10 OpenMP Fortran API 1.0 1998 10 OpenMP C/C++ API 1.0

More information

NUMAの構成

NUMAの構成 メッセージパッシング プログラミング 天野 共有メモリ対メッセージパッシング 共有メモリモデル 共有変数を用いた単純な記述自動並列化コンパイラ簡単なディレクティブによる並列化 :OpenMP メッセージパッシング 形式検証が可能 ( ブロッキング ) 副作用がない ( 共有変数は副作用そのもの ) コストが小さい メッセージパッシングモデル 共有変数は使わない 共有メモリがないマシンでも実装可能 クラスタ

More information

製品概要新しい X シリーズ ファミリー X シリーズ ファミリーあらゆるエンスージアストが満足するパフォーマンスがここにあります 新しい X シリーズ ファミリーは 4 コアから 18 コアまでのオプションによりお客様のパフォーマンス要求に合わせて究極のパフォーマンスを発揮し 最新テクノロジーの進

製品概要新しい X シリーズ ファミリー X シリーズ ファミリーあらゆるエンスージアストが満足するパフォーマンスがここにあります 新しい X シリーズ ファミリーは 4 コアから 18 コアまでのオプションによりお客様のパフォーマンス要求に合わせて究極のパフォーマンスを発揮し 最新テクノロジーの進 製品概要新しい X シリーズ ファミリー 新しい X シリーズ ファミリーの紹介 類を見ないスケーラビリティーを誇る究極のプラットフォーム i9 エクストリーム エディション パフォーマンスを未体験の領域へと引き上げる 新次元のデスクトップ向け エクストリーム が登場しました この 18 コア / 36 スレッドに よる処理が可能なは 最新版のインテル ターボ ブースト テクノロジー 3.0 を使用して極限レベルのシングル

More information

インテル(R) C++ Composer XE 2011 Windows版 入門ガイド

インテル(R) C++ Composer XE 2011 Windows版 入門ガイド C++ Composer XE 2011 Windows* エクセルソフト株式会社 www.xlsoft.com Rev. 1.2 (2011/05/03) Copyright 1998-2011 XLsoft Corporation. All Rights Reserved. 1 / 70 ... 4... 5... 6... 8 /... 8... 10 /... 11... 11 /... 13

More information

新しい 自律型データ ウェアハウス

新しい 自律型データ ウェアハウス AUTONOMOUSDATA WAREHOUSE CLOUD 新しい自律型データウェアハウス Warehouse Cloudとは製品ツアー使用する理由まとめ始めましょう おもな機能クラウド同じ 接続 Warehouse Cloud は Oracle Database の市場をリードするパフォーマンスを備え データウェアハウスのワークロードに合わせて最適化された 完全に管理されたオラクルのデータベースです

More information

議題 プロセッサーの動向とコード モダナイゼーション インテル アドバンスト ベクトル エクステンション 512 ( インテル AVX-512) 命令と演算性能 ベクトル化を支援するインテル Advisor ループの性能を可視化するルーフライン表示 姫野ベンチマークを用いたインテル Xeon Phi

議題 プロセッサーの動向とコード モダナイゼーション インテル アドバンスト ベクトル エクステンション 512 ( インテル AVX-512) 命令と演算性能 ベクトル化を支援するインテル Advisor ループの性能を可視化するルーフライン表示 姫野ベンチマークを用いたインテル Xeon Phi 最新のインテル Parallel Studio XE を用いた迅速なベクトル化と並列化手法 インテル株式会社 技術本部ソフトウェア技術統括部 シニア スタッフ エンジニア 池井 満 議題 プロセッサーの動向とコード モダナイゼーション インテル アドバンスト ベクトル エクステンション 512 ( インテル AVX-512) 命令と演算性能 ベクトル化を支援するインテル Advisor ループの性能を可視化するルーフライン表示

More information

Insert your Title here

Insert your Title here マルチコア マルチスレッド環境での静的解析ツールの応用 米 GrammaTech 社 CodeSonar によるスレッド間のデータ競合の検出 2013 GrammaTech, Inc. All rights reserved Agenda 並列実行に起因する不具合の摘出 なぜ 並列実行されるプログラミングは難しいのか データの競合 デッドロック どのようにして静的解析ツールで並列実行の問題を見つけるのか?

More information

1 つのツールを実行するだけで違いが出るのでしょうか? はい 多くの場合 複雑なバグを発見して アプリケーションの安定性を向上させることができます このガイドでは インテル Inspector XE 解析ツールを使用して コードの問題を排除する方法を説明します これにより コードの信頼性が向上し 開

1 つのツールを実行するだけで違いが出るのでしょうか? はい 多くの場合 複雑なバグを発見して アプリケーションの安定性を向上させることができます このガイドでは インテル Inspector XE 解析ツールを使用して コードの問題を排除する方法を説明します これにより コードの信頼性が向上し 開 インテル Parallel Studio 評価ガイド メモリーエラーの排除と プログラムの安定性の向上 インテル Parallel Studio XE 1 つのツールを実行するだけで違いが出るのでしょうか? はい 多くの場合 複雑なバグを発見して アプリケーションの安定性を向上させることができます このガイドでは インテル Inspector XE 解析ツールを使用して コードの問題を排除する方法を説明します

More information

CELSIUSカタログ(2012年7月版)

CELSIUSカタログ(2012年7月版) CELSIUS PC "MADE IN JAPAN" 2012.7 W520 ハイエンドの過酷な要求に応えるパワフルなデュアルと高信頼を搭載 RAID構成 選択可能 富士通がお勧めする Windows 7. ミニタワーエントリーモデル より速く より強力に 最新の技術をフル投入 スピードとパワー 安定性を提供 RAID構成 選択可能 Windows 7 Professional 32bit版 正規版

More information

目次 1 はじめに 登録商標 商標 注意事項 免債事項 SR-IOV の機能概要 性能検証事例 測定環境 測定結果 各方式による共有 NIC 性能比較 ( ポートあ

目次 1 はじめに 登録商標 商標 注意事項 免債事項 SR-IOV の機能概要 性能検証事例 測定環境 測定結果 各方式による共有 NIC 性能比較 ( ポートあ ホワイトペーパー BladeSymphony Virtage SR-IOV のご紹介 2014 年 7 月発行 株式会社日立製作所 1 / 8 Copyright 2014 Hitachi, Ltd. All rights reserved 目次 1 はじめに... 3 1.1 登録商標 商標... 3 1.2 注意事項... 3 1.3 免債事項... 3 2 SR-IOV の機能概要... 4

More information

AquesTalk Win Manual

AquesTalk Win Manual AquesTalk Win マニュアル 株式会社アクエスト http://www.a-quest.com/ 1. 概要 本文書は 規則音声合成ライブラリ AquesTalk をアプリケーションに組み込んで使用するためのプログラミングに関して 方法および注意点を示したものです AquesTalk には 2 種類のライブラリがあります 音声データをメモリ上に生成するものと サウンドデバイスに出力する 2

More information

Microsoft Word - Improved_Protected-Mode_API_Support

Microsoft Word - Improved_Protected-Mode_API_Support 改良された保護モード API サポート : Windows Internet Explorer 8 Beta 1 for Developers Web 作業の操作性を向上 2008 年 3 月 詳細の問い合わせ先 ( 報道関係者専用 ): Rapid Response Team Waggener Edstrom Worldwide (503) 443 7070 rrt@waggeneredstrom.com

More information

Pervasive PSQL v11 のベンチマーク パフォーマンスの結果

Pervasive PSQL v11 のベンチマーク パフォーマンスの結果 Pervasive PSQL v11 のベンチマークパフォーマンスの結果 Pervasive PSQL ホワイトペーパー 2010 年 9 月 目次 実施の概要... 3 新しいハードウェアアーキテクチャがアプリケーションに及ぼす影響... 3 Pervasive PSQL v11 の設計... 4 構成... 5 メモリキャッシュ... 6 ベンチマークテスト... 6 アトミックテスト... 7

More information

CUDA 連携とライブラリの活用 2

CUDA 連携とライブラリの活用 2 1 09:30-10:00 受付 10:00-12:00 Reedbush-H ログイン GPU 入門 13:30-15:00 OpenACC 入門 15:15-16:45 OpenACC 最適化入門と演習 17:00-18:00 OpenACC の活用 (CUDA 連携とライブラリの活用 ) CUDA 連携とライブラリの活用 2 3 OpenACC 簡単にGPUプログラムが作成できる それなりの性能が得られる

More information

The Parallel Universe 1 インテル MPI ライブラリーのマルチ EP によりハイブリッド アプリケーションのパフォーマンスを向上 最小限のコード変更でエクサスケール時代に備える Rama Kishan Malladi インテルコーポレーショングラフィックス パフォーマンス モ

The Parallel Universe 1 インテル MPI ライブラリーのマルチ EP によりハイブリッド アプリケーションのパフォーマンスを向上 最小限のコード変更でエクサスケール時代に備える Rama Kishan Malladi インテルコーポレーショングラフィックス パフォーマンス モ 1 インテル MPI ライブラリーのマルチ EP によりハイブリッド アプリケーションのパフォーマンスを向上 最小限のコード変更でエクサスケール時代に備える Rama Kishan Malladi インテルコーポレーショングラフィックス パフォーマンス モデリング エンジニア Dr. Amarpal Singh Kapoor インテルコーポレーションテクニカル コンサルティング エンジニア 1990

More information