0130_FrontISTR研究会_V3
|
|
- としはる たにしき
- 4 years ago
- Views:
Transcription
1 Intel Xeon Phi (Knights Landing) のパフォーマンス評価の 例 東京 学 学院 新領域創成科学研究科 松 和, 森 直樹, 奥 洋司 2017 年 1 30 第 33 回 FrontISTR 研究会 2017/1/30 FrontISTR 研究会 1
2 次 背景と 的 KNLのアーキテクチャ メモリモードとクラスタモード STREAM triadによる性能評価 FrontISTRによる性能評価 まとめ 参考 献 2017/1/30 FrontISTR 研究会 2
3 背景と 的 背景 計算機の単体性能向上において, 動作周波数の向上が限界に達する 消費電 の増, 発熱の限界 2004 年ごろから計算機はマルチコア化, 並列処理の流れ 現在のスパコンも並列処理で性能向上を実現 近年は Multi-Channel DRAM(MCDRAM) のような 速メモリが CPU に搭載される 的 XeonPhi Knights Landing ( 以後 KNL) のアーキテクチャ理解 STREAM ベンチマーク, 並列有限要素法ソルバー FrontISTR を いた性能評価 2017/1/30 FrontISTR 研究会 3
4 KNLのアーキテクチャ KNLにはDDR4と積層メモリ (MCDRAM) が搭載 図1-2 KNLのプリント基板 Tile up to 36 Tiles 72 cores 図1-3 Tileの概観[2] 図1-1 KNL Package [1] VPU(vector processing unit) CHA(Caching/Home Agent) DDR4のメモリサイズ MCDRAMのメモリサイズ 512bit register 機能は後で詳しく紹介 64GB 6channelにより最 384GB まで搭載可 2GB 8個で計16GBが搭載 [1] Avinash Sodani, Intel Xeon Phi Processor Knights Landing Architectural Overview, [2] Avinash Sodani, Knights Landing (KNL):2nd Generation Intel Xeon Phi Processor, /1/30 FrontISTR研究会 4
5 メモリモードとクラスタモード メモリモード, クラスタモードという合計 9 通りの使い がある メモリモード (DDR4,MCDRAM の使い を決める ) クラスタモード ( タイル, メモリ間の通信 法を決める ) Flat Cache Hybrid ( ) All to All ( ) Quadrant/Hemisphere SNC(Sub-NUMA Clustering) ( ) 2 つのモードは BIOS で設定し,reboot することで変更できる ( )Oakforest-PACS では選択不可 2017/1/30 FrontISTR 研究会 5
6 メモリモード メモリ (DDR4,MCDRAM) の使い に 3 つのモードがある Flat Cache Hybrid Flat モード Cache モード Hybrid モード MCDRAM は NUMA ノードとして使われる MCDRAM の使 はユーザーが制御 16GB MCDRAM DDR or Physical Address MCDRAM を Last Level Cache(LLC) として使 ハードウェアが MCDRAM の使い を制御 16GB MCDRAM DDR 4or8GB MCDRAM Flat モードと Cache モードの組み合わせ メモリ 率は設定可能 8 or 12GB MCDRAM DDR or Physical Address 図 2-1 Flat モードの概要図 2-2 Cache モードの概要図 2-3 Hybrid モードの概要 メモリモード変更は BIOS で設定し,reboot することで有効になる 2017/1/30 FrontISTR 研究会 6
7 クラスタモード タイル, メモリ間の通信 法に きく 3 つのモードがある All to All Quadrant/Hemisphere SNC(Sub-NUMA Clustering) 図 1-3 Tile の概観 CPU コアは, 欲しいデータがどこのタイル (L2 キャッシュ ) にあるかを Caching/Home Agent(CHA) に確認 L2 miss した時にクラスタモードの性能差がでる 図 3 L2 miss 時のメモリアクセスの流れ Typical Read L2 miss 1. L2 miss encountered 2. Send request to the distributed directory 3. Miss in the directory. Forward to memory 4. Memory send the data to the requestor 2017/1/30 FrontISTR 研究会 7
8 クラスタモード : All to All NUMA(Non-Uniform Memory Access) Tile のディレクトリとメモリに affinity がない Tile のディレクトリ配置とメモリ通信はハードウェアに 動で任せる DDR4 $numactl --membind=0./a.out MCDRAM $numactl --membind=1./a.out 図 4 All to All の概念 3 つのモードのうち 番メモリパフォーマンスが悪い ( )Oakforest-PACS では選択不可 2017/1/30 FrontISTR 研究会 8
9 クラスタモード : Quadrant/Hemisphere 仮想的に 4 つまたは 2 つの象限に分割 同じ象限に Tile のディレクトリとメモリが配置されるよう, アドレスをハッシュする All to All よりはメモリパフォーマンスが良い 図 5 Quadrant の概念 2017/1/30 FrontISTR 研究会 9
10 クラスタモード : SNC-4/SNC-2 4 つまたは 2 つの NUMA に分割 Intel が公開しているシェルスクリプトなどを利 して, 各 NUMA に所属してるタイルディレクトリとメモリを bind させることが可能 メモリパフォーマンスが最も良い 図 6 SNC-4 の概念 ( )Oakforest-PACS では選択不可 2017/1/30 FrontISTR 研究会 10
11 ソースコード命令による MCDRAM 利 法 Intel の資料 [3] より抜粋 [3] Shuo Li, Karthik Raman, Ruchira Sasanka, Andrey Semin, Enhancing Application Performance using Heterogeneous Memory Architectures on the Many-core Platform, 2016, 2017/1/30 FrontISTR 研究会 11
12 DDR4 と MCDRAM の特徴 WciL: Worst case interrupt Latency 図 7 要求メモリサイズとレイテンシの関係 [3] [3] Shuo Li, Karthik Raman, Ruchira Sasanka, Andrey Semin, Enhancing Application Performance using Heterogeneous Memory Architectures on the Many-core Platform, 2016, 2017/1/30 FrontISTR 研究会 12
13 KNL 搭載機材の性能と FX10, FX100 との 較 搭載 CPU 表 1 KNL 搭載機材及び FX10, FX100 との 較 Oakforest-PACS FX10 FX100 Xeon Phi Processor 7250 SPARC64 IXfx SPARC64 XIfx 理論演算性能 [Gflops] コア数 スレッド数 動作周波数 [GHz] Flops/Clock 32 [4] 8 [5] 16 [6] メモリサイズ [GB] DDR4 MCDRAM 理論メモリ速度 [GB/s] Hardware Byte/Flop 理論演算性能 = コア数 動作周波数 Flops/Clock Hardware Byte/Flop = 理論メモリ速度 / 理論演算性能 [4] David Kanter, Knights Landing Details, [5] 東京 学情報基盤センタースーパーコンピュ ティング部, 第 2 章 FX10 スーパーコンピュータシステムについて. [6] 富 通株式会社次世代テクニカルコンピューティング開発本部, FUJITSU Supercomputer PRIMEHPC FX100 次世代技術への進化, /1/30 FrontISTR 研究会 13
14 STREAM triad による性能評価 2017/1/30 FrontISTR 研究会 14
15 STREAM triad による性能評価の概要 KNL 機材の性能評価をする上で,STREAM triad 測定を実施 さが STREAM_ARRAY_SIZE の double 型 (8[Byte]) 配列 a, b, c と double 型変数 scalar で積和演算を い, メモリスループットを測定するプログラム 表 2 STREAM triad のカーネル部分 #pragma omp parallel for for (j=0; j<stream_array_size; j++) a[j] = b[j]+scalar*c[j]; #endif カーネル部分より STREAM triad の要求 Byte/Flop を求める double 型 scalar はレジスタに乗ることが期待できるので double 型配列 a, b, c と演算 (Flop) が 2 つという事実に注 すれば良い STREAM triad の要求 Byte/Flop =![#$%&] ) * = *, * = /1/30 FrontISTR 研究会 15
16 STREAM triad の対ピーク性能, 演算速度限界値 STREAM triad の要求 Byte/Flop が 12.0 より STREAM triad の対ピーク性能 [%] = Hardware Byte/Flop STREAM triad の要求 Byte/Flop STREAM triad の演算速度限界値 [Gflops] 100 = Hardware Byte/Flop = 理論演算性能 Gflops STREAM triad の対ピーク性能 [%] / 100 表 3 KNL 搭載機材と, FX10, FX100 の 較 (STREAM triad の対ピーク性能, 演算速度限界値 ) Oakforest-PACS DDR4 MCDRAM FX10 FX100 理論演算性能 [Gflops] 理論メモリ速度 [GB/s] Hardware Byte/Flop STREAM triadの対ピーク性能 [%] STREAM triadの演算速度限界値 [Gflops] /1/30 FrontISTR 研究会 16
17 Oakforest-PACS の性能評価条件 使 コンパイラ : Intel C++ compiler Intel から発表されている STREAM 計測最適化条件 [7] を遵守 測定におけるコンパイルオプション -mcmodel medium -shared-intel -O3 -xmic-avx512 -DSTREAM_ARRAY_SIZE= DOFFSET=0 -DNTIMES=10 -qopenmp -qopt-streaming-stores always lmemkind stream.c ソースコード内の malloc 関数を hbw_malloc 関数へ変更 メモリスループット評価に関して, スレッド数と要求メモリサイズを変化させる [7] Karthik Raman, Optimizing Memory Bandwidth in Knights Landing on Stream Triad, /1/30 FrontISTR 研究会 17
18 Oakforest-PACS のメモリスループット評価 1 Best Rate[GB/s] 要求メモリサイズは3[GB] で固定 CACHE-QUADRANT CACHE-SNC FLAT(MCDRAM)-QUADRANT FLAT(MCDRAM)-SNC Number of Threads 図 8 thread 数を変化させたときの STREAM triad 実 結果 FLAT(MCDRAM)-QUADRANT において Intel 側が主張する MCDRAM の実性能値 [7] ( [GB/s]) に近い値が確認できた [7] Karthik Raman, Optimizing Memory Bandwidth in Knights Landing on Stream Triad, /1/30 FrontISTR 研究会 18
19 STREAM triad 実 時の演算速度算出 次に,STREAM triad 実 時の演算速度から評価を う 表 2 STREAM triad のカーネル #pragma omp parallel for for (j=0; j<stream_array_size; j++) a[j] = b[j]+scalar*c[j]; #endif 要求メモリサイズ 3[GB] STREAM_ARRAY_SIZE = 134,217,728 より 総演算数は 2 134,217,728 [Flop] 0.27[Gflop] STREAM triad 実 時の演算速度 [Gflops] 0.27[Gflop] &JKLM&N %OP&[M&Q] 2017/1/30 FrontISTR 研究会 19
20 STREAM triad 実 時の演算速度評価 Performance[Gflops] FLAT (MCDRAM) -QUADRANT Number of Threads 図 9 STREAM triad 実 時の演算速度表 4 OFPの理論演算性能と STREAM triadの対ピーク性能, 演算速度限界値 Oakforest-PACS DDR4 MCDRAM 理論演算性能 [Gflops] STREAM triadの対ピーク性能 [%] STREAM triadの演算速度限界値 [Gflops] 最 で 40.27[Gflops] (64 thread) 演算速度限界値の約 93.7% 2017/1/30 FrontISTR 研究会 20
21 Oakforest-PACS のメモリスループット評価 Thread 数は 68 で固定 Best Rate[GB/s] CACHE-QUADRANT CACHE-SNC4 FLAT(MCDRAM)-QUADRANT FLAT(MCDRAM)-SNC MB 16GB 16GB 3K 30K 300K 3M 30M 300M 3G 30G Demand Memory Size[Byte] 図 10 要求メモリサイズを変化させたときの STREAM Triad 実 結果 要求メモリサイズが 16GB 以下の場合 要求メモリサイズに 例して測定値が上昇 16GBを超えた場合 DDR4が使われるため, 性能が下降 2017/1/30 FrontISTR 研究会 21
22 Oakforest-PACS のメモリスループット評価 3 1, Thread 数は 68 で固定 連続 定ストライド (1) Best Rate[GB/s] 間接 , ,000 24,300, ,000,000 21,870,000,000 Demand Memory Size[Byte] 34MB 16GB 図 11 配列要素へのアクセス 法を変化させたときのメモリ性能 配列要素へのアクセスが連続でない時, メモリ性能値がさがる 2017/1/30 FrontISTR 研究会 22
23 Oakforest-PACS のメモリスループット評価 4 Best Rate[GB/s] Thread 数は 68 で固定要求メモリサイズは 3GB CACHE-QUADRANT CACHE-SNC4 FLAT(MCDRAM)-QUADRANT FLAT(MCDRAM)-SNC ,024 Number of Stride 図 12 ストライド数を変化させたときのメモリ性能 ストライド数を 32 まで増加した時, メモリ性能値は直線的に下がる 2017/1/30 FrontISTR 研究会 23
24 FrontISTR による性能評価 2017/1/30 FrontISTR 研究会 24
25 FrontISTR 実 例 : Solid-100 使 コンパイラ : Intel Fortran compiler コンパイルオプション -O2 qopenmp -xmic-avx512 -lmemkind -mcmodel=medium -shared-intel -qopt-streaming-stores=always 節点数 : 1,000,000 要素数 : 970,299 由度数 : 3,000,000 共役勾配法の前処理 : 対 スケーリング必要メモリサイズ ( 全体 ): 2.15[GB] 必要メモリサイズ ( ベクトル ): 22.9[MB] (MPI 前処理 メッシュファイル分割 ) ファイル 図 13 Solid-100 のメッシュ図 全体剛性 列の作成 クラスタモードは QUADRANT に固定 FrontISTR 実 の流れ solver/precond solver/matvec solver/communication 解が収束するまで反復 解析結果ファイル出 2017/1/30 FrontISTR 研究会 25
26 SpMV の要求 Byte/Flop 表 5 FrontISTR のホットスポット (CSR 形式による SpMV) do blocknum = 0, numofblockperthread - 1 blockindex = blocknum * numofthread + threadnum do i = startpos(blockindex), endpos(blockindex) X1= X(3*i-2) X2= X(3*i-1) X3= X(3*i ) YV1= D(9*i-8)*X1 + D(9*i-7)*X2 + D(9*i-6)*X3 YV2= D(9*i-5)*X1 + D(9*i-4)*X2 + D(9*i-3)*X3 YV3= D(9*i-2)*X1 + D(9*i-1)*X2 + D(9*i )*X3 js= indexl(i-1) + 1 je= indexl(i ) do j= js, je in = iteml(j) X1= X(3*in- 2) カーネル部分 X2= X(3*in- 1) X3= X(3*in ) YV1= YV1 + AL(9*j- 8)*X1 + AL(9* j-7)*x2 + AL( 9*j-6)* X3 YV2= YV2 + AL(9*j- 5)*X1 + AL(9* j-4)*x2 + AL( 9*j-3)* X3 YV3= YV3 + AL(9*j- 2)*X1 + AL(9* j-1)*x2 + AL( 9*j )* X3 enddo js= indexu(i- 1) + 1 je= indexu(i ) do j= js, je in = itemu(j) X1= X(3*in- 2) X2= X(3*in- 1) X3= X(3*in ) YV1= YV1 + AU(9*j- 8)*X1 + AU(9* j-7)*x2 + AU( 9*j-6)* X3 YV2= YV2 + AU(9*j- 5)*X1 + AU(9* j-4)*x2 + AU( 9*j-3)* X3 YV3= YV3 + AU(9*j- 2)*X1 + AU(9* j-1)*x2 + AU( 9*j )* X3 enddo Y(3*i-2)= YV1 Y(3*i-1)= YV2 Y(3*i )= YV3 enddo enddo SpMVの要求 Byte/Flop [8] FrontISTR 研究会, HEC-MW における重要な変数のデータ格納形式, SpMV の要求 Byte/Flop を求める 図 14 係数 列に関する内部表現 [8] X, Y の要素数は 3NP indexl, indexu の要素数は NP キャッシュに乗ることが期待できる 疎 列の ゼロ要素数に合わせて きな配列となる AL, AU, iteml, itemu について考慮 float 型配列 (8byte): Integer 型配列 (4byte): AL, AU iteml, itemu 2017/1/30 FrontISTR 研究会 26 =! #$%& RS, #$%& T * * R * = UV T! 4.22
27 FrontISTR の対ピーク性能, 演算速度限界値 SpMV の要求 Byte/Flop が 4.22 より ForntISTR の対ピーク性能 [%] = Hardware Byte/Flop Hardware Byte/Flop 100 = 100 SpMVの要求 Byte/Flop 4.22 FrontISTR の演算速度限界値 [Gflops] = 理論演算性能 Gflops FrontISTR の対ピーク性能 [%] / 100 表 6 KNL 搭載機材と, FX10, FX100 の 較 (FrontISTR の対ピーク性能, 演算速度限界値 ) Oakforest-PACS DDR4 MCDRAM FX10 FX100 理論演算性能 [Gflops] 理論メモリ速度 [GB/s] Hardware Byte/Flop FrontISTRの対ピーク性能 [%] FrontISTRの演算速度限界値 [Gflops] /1/30 FrontISTR 研究会 27
28 FrontISTR DDR4 と MCDRAM の性能 較 FLAT (MCDRAM) FLAT (DDR4) FLAT (MCDRAM) FLAT (DDR4) Speed up 8 Time[s] 各メモリの逐次計算時間が基準 Number of Process Number of Process 図 15-1 MPI 並列時のスケーリング性能 図 15-2 MPI 並列時の実 時間 DDR4 使 時は,32 並列で性能向上が頭打ち 2017/1/30 FrontISTR 研究会 28
29 FrontISTR メモリモードの性能 較 FLAT (MCDRAM) CACHE FLAT (MCDRAM) CACHE Speed up 8 Time[s] FLAT (MCDRAM) での逐次計算時間が基準 Number of Process Number of Process 図 16-1 MPI 並列時のスケーリング性能 図 16-2 MPI 並列時の実 時間 わずかな差で,FLAT (MCDRAM) のほうが性能が い 2017/1/30 FrontISTR 研究会 29
30 FrontISTR 実 時の演算性能算出 FrontISTR の総演算数は疎 列の ゼロ要素数 (Num of NZ) と CG 法の反復回数 (iteration) で決まる Solid-100 では Num of NZ 256,172,328 iteration 100に固定 ゼロ要素 1 つに 2flop( 積和演算 ) が われるので 総演算数 [flop] = (Num of NZ) 2 iteration よって FrontISTR 実 時の演算性能 [Gflops] = (Num of NZ) 2 iteration MZJ[&\ PK%[&Q %OP&[M&Q] 2017/1/30 FrontISTR 研究会 30
31 FrontISTR 実 時の演算性能 Performance[Gflops] 表 7 OFP の理論演算性能と FrontISTR の対ピーク性能, 演算速度限界値 FLAT (MCDRAM) FLAT (DDR4) CACHE Number of Process Oakforst-PACS 理論演算性能 [Gflops] DDR4 MCDRAM FrontISTRの対ピーク性能 [%] FrontISTRの演算速度限界 [Gflops] 図 17 MPI 並列時の演算性能 FrontISTR の演算速度限界値に対し, 最 で FLAT (DDR4): 約 65.18% FLAT (MCDRAM): 約 40.48% 出ている 2017/1/30 FrontISTR 研究会 31
32 まとめ KNL はハードウェアとして DDR4,MCDRAM を搭載した CPU メモリモード, クラスタモードという合計 9 通りの使い がある メモリモード (DDR4,MCDRAM の使い を決める ) クラスタモード ( タイル, メモリ間の通信 法を決める ) Flat Cache Hybrid ( ) All to All ( ) Quadrant/Hemisphere SNC(Sub-NUMA Clustering) ( ) ( )Oakforest-PACS では選択不可 STREAM による Oakforest-PACS 性能測定 Flat(MCDRAM)-Quadrant という条件下で intel の主張する 475[GB/s] [7] に近い性能を確認した メモリアクセスが間接参照のとき, 連続参照に べ約 10[%] 以下まで性能が下がることを確認した FrontISTR による Oakforest-PACS 性能測定 DDR4 では 32 並列で性能向上が頭打ちなのに対し,MCDRAM は 68 並列まで性能向上できることを確認した MCDRAM 使 時, FrontISTR の演算速度限界値が 116[Gflops] なのに対し, 実性能値として 46.96[Gflops] という結果がでた 割合として約 40.48% の性能値である [7] Karthik Raman, Optimizing Memory Bandwidth in Knights Landing on Stream Triad, /1/30 FrontISTR 研究会 32
33 参考 献 [1] Avinash Sodani, Intel Xeon Phi Processor Knights Landing Architectural Overview, [2] Avinash Sodani, Knights Landing (KNL):2nd Generation Intel Xeon Phi Processor, [3] Shuo Li, Karthik Raman, Ruchira Sasanka, Andrey Semin, Enhancing Application Performance using Heterogeneous Memory Architectures on the Many-core Platform, [4] David Kanter, Knights Landing Details, 2014, ( accessed). [5] 東京 学情報基盤センタースーパーコンピュ ティング部, 第 2 章 FX10 スーパーコンピュータシステムについて, ( accessed). [6] 富 通株式会社次世代テクニカルコンピューティング開発本部, FUJITSU Supercomputer PRIMEHPC FX100 次世代技術への進化, [7] Karthik Raman, Optimizing Memory Bandwidth in Knights Landing on Stream Triad, [8] FrontISTR 研究会, HEC-MW における重要な変数のデータ格納形式, , (accessed ). [9] James Jeffers,James Reinders, Avinash Sodani, Intel Xeon Phi Processor High Performance Programming, Second Edition: Knights Landing Edition,Morgan Kaufmann, /1/30 FrontISTR 研究会 33
Microsoft Word ●IntelクアッドコアCPUでのベンチマーク_吉岡_ _更新__ doc
2.3. アプリ性能 2.3.1. Intel クアッドコア CPU でのベンチマーク 東京海洋大学吉岡諭 1. はじめにこの数年でマルチコア CPU の普及が進んできた x86 系の CPU でも Intel と AD がデュアルコア クアッドコアの CPU を次々と市場に送り出していて それらが PC クラスタの CPU として採用され HPC に活用されている ここでは Intel クアッドコア
More informationMicrosoft Word - HOKUSAI_system_overview_ja.docx
HOKUSAI システムの概要 1.1 システム構成 HOKUSAI システムは 超並列演算システム (GWMPC BWMPC) アプリケーション演算サーバ群 ( 大容量メモリ演算サーバ GPU 演算サーバ ) と システムの利用入口となるフロントエンドサーバ 用途の異なる 2 つのストレージ ( オンライン ストレージ 階層型ストレージ ) から構成されるシステムです 図 0-1 システム構成図
More informationMicrosoft PowerPoint - CCS学際共同boku-08b.ppt
マルチコア / マルチソケットノードに おけるメモリ性能のインパクト 研究代表者朴泰祐筑波大学システム情報工学研究科 taisuke@cs.tsukuba.ac.jp アウトライン 近年の高性能 PC クラスタの傾向と問題 multi-core/multi-socket ノードとメモリ性能 メモリバンド幅に着目した性能測定 multi-link network 性能評価 まとめ 近年の高性能 PC
More information(速報) Xeon E 系モデル 新プロセッサ性能について
( 速報 ) Xeon E5-2600 系モデル新プロセッサ性能について 2012 年 3 月 16 日 富士通株式会社 2012 年 3 月 7 日 インテル社より最新 CPU インテル Xeon E5 ファミリー の発表がありました この最新 CPU について PC クラスタシステムの観点から性能検証を行いましたので 概要を速報いたします プロセッサインテル Xeon プロセッサ E5-2690
More information修士論文
AVX を用いた倍々精度疎行列ベクトル積の高速化 菱沼利彰 1 藤井昭宏 1 田中輝雄 1 長谷川秀彦 2 1 工学院大学 2 筑波大学 1 目次 1. 研究背景 目的 2. 実装, 実験環境 3. 実験 - 倍々精度ベクトル演算 - 4. 実験 - 倍々精度疎行列ベクトル積 - 5. まとめ 多倍長精度計算フォーラム 2 目次 1. 研究背景 目的 2. 実装, 実験環境 3. 実験 - 倍々精度ベクトル演算
More informationMicrosoft PowerPoint - stream.ppt [互換モード]
STREAM 1 Quad Opteron: ccnuma Arch. AMD Quad Opteron 2.3GHz Quad のソケット 4 1 ノード (16コア ) 各ソケットがローカルにメモリを持っている NUMA:Non-Uniform Access ローカルのメモリをアクセスして計算するようなプログラミング, データ配置, 実行時制御 (numactl) が必要 cc: cache-coherent
More informationVXPRO R1400® ご提案資料
Intel Core i7 プロセッサ 920 Preliminary Performance Report ノード性能評価 ノード性能の評価 NAS Parallel Benchmark Class B OpenMP 版での性能評価 実行スレッド数を 4 で固定 ( デュアルソケットでは各プロセッサに 2 スレッド ) 全て 2.66GHz のコアとなるため コアあたりのピーク性能は同じ 評価システム
More information本文ALL.indd
Intel Xeon プロセッサにおける Cache Coherency 時間の性能測定方法河辺峻田口成美古谷英祐 Intel Xeon プロセッサにおける Cache Coherency 時間の性能測定方法 Performance Measurement Method of Cache Coherency Effects on an Intel Xeon Processor System 河辺峻田口成美古谷英祐
More informationPowerPoint プレゼンテーション
各種計算機アプリケーション性能比較 目次. はじめに. 行列積計算.QDR 積計算 4.N 体問題計算 5. 多次元積分計算 5. 次元積分計算 5. 次元積分計算 5. 4 次元積分計算 5.4 5 次元積分計算 5.5 6 次元積分計算 平成 6 年度第 四半期 . はじめに 今までと少し性質の異なるグラフィックボードが使用できる様になったので従来のアプリケーションで性能比較を実施しました 主に使用した計算機は以下のものです
More informationMicrosoft PowerPoint - ★13_日立_清水.ppt
PC クラスタワークショップ in 京都 日立テクニカルコンピューティングクラスタ 2008/7/25 清水正明 日立製作所中央研究所 1 目次 1 2 3 4 日立テクニカルサーバラインナップ SR16000 シリーズ HA8000-tc/RS425 日立自動並列化コンパイラ 2 1 1-1 日立テクニカルサーバの歴史 最大性能 100TF 10TF 30 年間で百万倍以上の向上 (5 年で 10
More informationuntitled
A = QΛQ T A n n Λ Q A = XΛX 1 A n n Λ X GPGPU A 3 T Q T AQ = T (Q: ) T u i = λ i u i T {λ i } {u i } QR MR 3 v i = Q u i A {v i } A n = 9000 Quad Core Xeon 2 LAPACK (4/3) n 3 O(n 2 ) O(n 3 ) A {v i }
More informationPowerPoint Presentation
インテル Xeon Phi プロセッサーの 高帯域幅メモリーを活用するコードの作成 Ruchira Sasanka Karthik Raman 開発ツール Web セミナー 2016 年 10 月 11 日 法務上の注意書き 本資料に掲載されている情報は インテル製品の概要説明を目的としたものです 本資料は 明示されているか否かにかかわらず また禁反言によるとよらずにかかわらず いかなる知的財産権のライセンスも許諾するものではありません
More informationopenmp1_Yaguchi_version_170530
並列計算とは /OpenMP の初歩 (1) 今 の内容 なぜ並列計算が必要か? スーパーコンピュータの性能動向 1ExaFLOPS 次世代スハ コン 京 1PFLOPS 性能 1TFLOPS 1GFLOPS スカラー機ベクトル機ベクトル並列機並列機 X-MP ncube2 CRAY-1 S-810 SR8000 VPP500 CM-5 ASCI-5 ASCI-4 S3800 T3E-900 SR2201
More informationSlides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments
計算機アーキテクチャ第 11 回 マルチプロセッサ 本資料は授業用です 無断で転載することを禁じます 名古屋大学 大学院情報科学研究科 准教授加藤真平 デスクトップ ジョブレベル並列性 スーパーコンピュータ 並列処理プログラム プログラムの並列化 for (i = 0; i < N; i++) { x[i] = a[i] + b[i]; } プログラムの並列化 x[0] = a[0] + b[0];
More information内容に関するご質問は まで お願いします [Oakforest-PACS(OFP) 編 ] 第 85 回お試しアカウント付き並列プログラミング講習会 ライブラリ利用 : 科学技術計算の効率化入門 スパコンへのログイン テストプログラム起動 東京大学情報基盤セ
内容に関するご質問は ida@cc.u-tokyo.ac.jp まで お願いします [Oakforest-PACS(OFP) 編 ] 第 85 回お試しアカウント付き並列プログラミング講習会 ライブラリ利用 : 科学技術計算の効率化入門 スパコンへのログイン テストプログラム起動 東京大学情報基盤センター特任准教授伊田明弘 1 講習会 : ライブラリ利用 [FX10] スパコンへのログイン ファイル転送
More information演習1: 演習準備
演習 1: 演習準備 2013 年 8 月 6 日神戸大学大学院システム情報学研究科森下浩二 1 演習 1 の内容 神戸大 X10(π-omputer) について システム概要 ログイン方法 コンパイルとジョブ実行方法 OpenMP の演習 ( 入門編 ) 1. parallel 構文 実行時ライブラリ関数 2. ループ構文 3. shared 節 private 節 4. reduction 節
More informationN08
CPU のキモチ C.John 自己紹介 英語きらい 絵かけない 人の話を素直に信じない CPUにキモチなんてない お詫び 予告ではCとC# とありましたがやる気と時間の都合上 C++のみを対象とします 今日のネタ元 MSDN マガジン 2010 年 10 月号 http://msdn.microsoft.com/ja-jp/magazine/cc850829.aspx Windows と C++
More informationマルチコアPCクラスタ環境におけるBDD法のハイブリッド並列実装
2010 GPGPU 2010 9 29 MPI/Pthread (DDM) DDM CPU CPU CPU CPU FEM GPU FEM CPU Mult - NUMA Multprocessng Cell GPU Accelerator, GPU CPU Heterogeneous computng L3 cache L3 cache CPU CPU + GPU GPU L3 cache 4
More informationOakforest-PACS 利用の手引き 2 ノートパソコンの設定 : 公開鍵の生成 登録
Oakforest-PACS 利用の手引き 1 お試しアカウント付き 並列プログラミング講習会 Oakforest-PACS 利用の手引き 東京大学情報基盤センター Oakforest-PACS 利用の手引き 2 ノートパソコンの設定 : 公開鍵の生成 登録 Oakforest-PACS 利用の手引き 3 鍵の作成 1. ターミナルを起動する 2. 以下を入力する $ ssh-keygen t rsa
More informationGPU GPU CPU CPU CPU GPU GPU N N CPU ( ) 1 GPU CPU GPU 2D 3D CPU GPU GPU GPGPU GPGPU 2 nvidia GPU CUDA 3 GPU 3.1 GPU Core 1
GPU 4 2010 8 28 1 GPU CPU CPU CPU GPU GPU N N CPU ( ) 1 GPU CPU GPU 2D 3D CPU GPU GPU GPGPU GPGPU 2 nvidia GPU CUDA 3 GPU 3.1 GPU Core 1 Register & Shared Memory ( ) CPU CPU(Intel Core i7 965) GPU(Tesla
More information01_OpenMP_osx.indd
OpenMP* / 1 1... 2 2... 3 3... 5 4... 7 5... 9 5.1... 9 5.2 OpenMP* API... 13 6... 17 7... 19 / 4 1 2 C/C++ OpenMP* 3 Fortran OpenMP* 4 PC 1 1 9.0 Linux* Windows* Xeon Itanium OS 1 2 2 WEB OS OS OS 1 OS
More informationuntitled
A = QΛQ T A n n Λ Q A = XΛX 1 A n n Λ X GPGPU A 3 T Q T AQ = T (Q: ) T u i = λ i u i T {λ i } {u i } QR MR 3 v i = Q u i A {v i } A n = 9000 Quad Core Xeon 2 LAPACK (4/3) n 3 O(n 2 ) O(n 3 ) A {v i }
More informationMicrosoft PowerPoint - CAEworkshop_ _01.ver1.3
GPU メニーコアにおける OpenFOAM の高度化支援紹介 第 1 回 CAE ワークショップ 流体 構造解析アプリケーションを中心に 2017 年 12 月 6 日秋葉原 UDX Gallery NEXT 山岸孝輝井上義昭青柳哲雄浅見曉 ( 高度情報科学技術研究機構 ) ver 1.3 1 outline RISTの高度化支援について GPU メニーコアについて OpenFOAMとGPU GPU
More informationMicrosoft Word ●MPI性能検証_志田_ _更新__ doc
2.2.2. MPI 性能検証 富士通株式会社 志田直之 ここでは,Open MPI および富士通 MPI を用いて,MPI 性能の評価結果について報告する 1. 性能評価のポイント MPI の性能評価は, 大きく 3 つに分けて評価を行った プロセス数増加に向けた検証 ノード内通信とノード間通信の検証 性能検証 - 連続データ転送 - ストライド転送 2. プロセス数増加に向けた検証 評価に用いたシステムを以下に示す
More informationためのオーバーヘッドが課題となりつつある しかしこのオーバーヘッドに関する数値はほとんど公開されていない この論文ではこの cache coherency の時間を Linux カーネルで提供されている atomic_inc 関数を用いて測定する方法を新たに考案し 実測プログラムを作成した 実測はプ
Intel Xeon プロセッサにおける Cache Coherency 時間の測定方法と大規模システムにおける実測結果 Performance Measurement Method of Cache Coherency Effects on a large Intel Xeon Processor System 河辺峻 1 古谷英祐 2 KAWABE Shun, FURUYA Eisuke 要旨現在のプロセッサの構成は,
More informationPowerPoint Presentation
OpenFOAM を用いた 超大規模計算モデル作成とその性能の評価 清水建設株式会社 PHAM VAN PHUC 内山学 京 での OpenFOAM に関する取組み 第 1 回 OpenFOAM ワークショップ (2013) コード移植 10 億格子計算の壁 解決策 ( プリ ポスト ) 第 2 回 OpenFOAM ワークショップ (2014) 1 万並列計算の壁 解決策 (MPI プラットフォーム
More informationPowerPoint Presentation
インテル ソフトウェア開発製品によるソースコードの近代化 エクセルソフト株式会社黒澤一平 ソースコードの近代化 インテル Xeon Phi プロセッサーや 将来のインテル Xeon プロセッサー上での実行に向けた準備と適用 インテル ソフトウェア製品 名称インテル Composer XE for Fortran and C++ インテル VTune Amplifier XE インテル Advisor
More informationMicrosoft PowerPoint - GPUシンポジウム _d公開版.ppt [互換モード]
200/0/9 数値流体解析の並列効率とその GPU による高速化の試み 清水建設 ( 株 ) 技術研究所 PHAM VAN PHUC ( ファムバンフック ) 流体計算時間短縮と GPU の活用の試み 現 CPUとの比較によりGPU 活用の可能性 現 CPU の最大利用 ノード内の最大計算資源の利用 すべてCPUコアの利用 適切なアルゴリズムの利用 CPU コア性能の何倍? GPU の利用の試み
More informationスパコンに通じる並列プログラミングの基礎
2018.06.04 2018.06.04 1 / 62 2018.06.04 2 / 62 Windows, Mac Unix 0444-J 2018.06.04 3 / 62 Part I Unix GUI CUI: Unix, Windows, Mac OS Part II 2018.06.04 4 / 62 0444-J ( : ) 6 4 ( ) 6 5 * 6 19 SX-ACE * 6
More information最新の並列計算事情とCAE
1 大島聡史 ( 東京大学情報基盤センター助教 / 並列計算分科会主査 ) 最新の並列計算事情と CAE アウトライン 最新の並列計算機事情と CAE 世界一の性能を達成した 京 について マルチコア メニーコア GPU クラスタ 最新の並列計算事情と CAE MPI OpenMP CUDA OpenCL etc. 京 については 仕分けやら予算やら計画やらの面で問題視する意見もあるかと思いますが
More informationPowerPoint プレゼンテーション
高性能計算基盤 第 7 回 CA1003: 主記憶共有型システム http://arch.naist.jp/htdocs-arch3/ppt/ca1003/ca1003j.pdf Copyright 2019 奈良先端大中島康彦 1 2 3 4 マルチスレッディングとマルチコア 5 6 7 主記憶空間の数が 複数 か 1 つ か 8 ただしプログラムは容易 9 1 つの主記憶空間を共有する場合 10
More information4 倍精度基本線形代数ルーチン群 QPBLAS の紹介 [index] 1. Introduction 2. Double-double algorithm 3. QPBLAS 4. QPBLAS-GPU 5. Summary 佐々成正 1, 山田進 1, 町田昌彦 1, 今村俊幸 2, 奥田洋司
4 倍精度基本線形代数ルーチン群 QPBLAS の紹介 [index] 1. Introduction 2. Double-double algorithm 3. QPBLAS 4. QPBLAS-GPU 5. Summary 佐々成正 1, 山田進 1, 町田昌彦 1, 今村俊幸 2, 奥田洋司 3 1 1 日本原子力研究開発機構システム計算科学センター 2 理科学研究所計算科学研究機構 3 東京大学新領域創成科学研究科
More informationImages per Second Images per Second VOLTA: ディープラーニングにおける大きな飛躍 ResNet-50 トレーニング 2.4x faster ResNet-50 推論 TensorRT - 7ms レイテンシ 3.7x faster P100 V100 P10
NVIDIA TESLA V100 CUDA 9 のご紹介 森野慎也, シニアソリューションアーキテクト (GPU-Computing) NVIDIA Images per Second Images per Second VOLTA: ディープラーニングにおける大きな飛躍 ResNet-50 トレーニング 2.4x faster ResNet-50 推論 TensorRT - 7ms レイテンシ
More informationMicrosoft PowerPoint - 演習1:並列化と評価.pptx
講義 2& 演習 1 プログラム並列化と性能評価 神戸大学大学院システム情報学研究科横川三津夫 yokokawa@port.kobe-u.ac.jp 2014/3/5 RIKEN AICS HPC Spring School 2014: プログラム並列化と性能評価 1 2014/3/5 RIKEN AICS HPC Spring School 2014: プログラム並列化と性能評価 2 2 次元温度分布の計算
More informationスパコンに通じる並列プログラミングの基礎
2016.06.06 2016.06.06 1 / 60 2016.06.06 2 / 60 Windows, Mac Unix 0444-J 2016.06.06 3 / 60 Part I Unix GUI CUI: Unix, Windows, Mac OS Part II 0444-J 2016.06.06 4 / 60 ( : ) 6 6 ( ) 6 10 6 16 SX-ACE 6 17
More informationシステムソリューションのご紹介
HP 2 C 製品 :VXPRO/VXSMP サーバ 製品アップデート 製品アップデート VXPRO と VXSMP での製品オプションの追加 8 ポート InfiniBand スイッチ Netlist HyperCloud メモリ VXPRO R2284 GPU サーバ 製品アップデート 8 ポート InfiniBand スイッチ IS5022 8 ポート 40G InfiniBand スイッチ
More informationMicrosoft PowerPoint - 阪大CMSI pptx
内容に関する質問は katagiri@cc.nagoya-u.ac.jp まで 第 4 回 Hybrid 並列化技法 (MPIとOpenMPの応用) 名古屋大学情報基盤センター 片桐孝洋 207 年度計算科学技術特論 A 講義日程と内容について 207 年度計算科学技術特論 A( 学期 : 木曜 3 限 ) 第 回 : プログラム高速化の基礎 207 年 4 月 3 日 イントロダクション ループアンローリング
More informationGPGPUクラスタの性能評価
2008 年度理研 HPC シンポジウム第 3 世代 PC クラスタ GPGPU クラスタの性能評価 2009 年 3 月 12 日 富士通研究所成瀬彰 発表の概要 背景 GPGPU による高速化 CUDA の概要 GPU のメモリアクセス特性調査 姫野 BMT の高速化 GPGPU クラスタによる高速化 GPU Host 間のデータ転送 GPU-to-GPU の通信性能 GPGPU クラスタ上での姫野
More information( 4 ) GeoFEM ( 5 ) MDTEST ( 6 ) IOR 2 Oakleaf-FX 3 Oakleaf-FX 4 Oakleaf-FX Oakleaf-FX Oakleaf-FX 1 Oakleaf-FX 1 Oakleaf- FX SR11000/J2 HA8000 T
Oakleaf-FX(Fujitsu PRIMEHPC FX10) 1,a) 1 1 1 1,2 1 2012 4 Oakleaf-FX (Fujitsu PRIMEHPC FX10) Oakleaf-FX SPARC64IXfx FEFS 1.13PFLOPS Performance Evaluation of Oakleaf-FX (Fujitsu PRIMEHPC FX10) Supercomputer
More informationuntitled
c NUMA 1. 18 (Moore s law) 1Hz CPU 2. 1 (Register) (RAM) Level 1 (L1) L2 L3 L4 TLB (translation look-aside buffer) (OS) TLB TLB 3. NUMA NUMA (Non-uniform memory access) 819 0395 744 1 2014 10 Copyright
More informationARTED Xeon Phi Xeon Phi 2. ARTED ARTED (Ab-initio Real-Time Electron Dynamics simulator) RTRS- DFT (Real-Time Real-Space Density Functional Theory, )
Xeon Phi 1,a) 1,3 2 2,3 Intel Xeon Phi PC RTRSDFT ( ) ARTED (Ab-initio Real-Time Electron Dynamics simulator) Xeon Phi OpenMP Intel E5-2670v2 (Ivy-Bridge 10 ) CPU Xeon Phi Symmetric CPU 32 1.68 Symmetric
More informationCPU Levels in the memory hierarchy Level 1 Level 2... Increasing distance from the CPU in access time Level n Size of the memory at each level 1: 2.2
FFT 1 Fourier fast Fourier transform FFT FFT FFT 1 FFT FFT 2 Fourier 2.1 Fourier FFT Fourier discrete Fourier transform DFT DFT n 1 y k = j=0 x j ω jk n, 0 k n 1 (1) x j y k ω n = e 2πi/n i = 1 (1) n DFT
More information2/66
1/66 9 Outline 1. 2. 3. 4. CPU 5. Jun. 13, 2013@A 2/66 3/66 4/66 Network Memory Memory Memory CPU SIMD if Cache CPU Cache CPU Cache CPU 5/66 FPU FPU Floating Processing Unit Register Register Register
More informationMicrosoft PowerPoint - sales2.ppt
最適化とは何? CPU アーキテクチャに沿った形で最適な性能を抽出できるようにする技法 ( 性能向上技法 ) コンパイラによるプログラム最適化 コンパイラメーカの技量 経験量に依存 最適化ツールによるプログラム最適化 KAP (Kuck & Associates, Inc. ) 人によるプログラム最適化 アーキテクチャのボトルネックを知ること 3 使用コンパイラによる性能の違い MFLOPS 90
More information資料2-1 計算科学・データ科学融合へ向けた東大情報基盤センターの取り組み(中村委員 資料)
資料 2-1 計算科学 データ科学融合へ向けた 東大情報基盤センターの取り組み 東京大学情報基盤センター中村宏 東大情報基盤センターのスパコン FY 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 Hitachi SR11K/J2 IBM Power-5+ 18.8TFLOPS, 16.4TB Hitachi HA8000 (T2K) AMD Opteron
More information熊本大学学術リポジトリ Kumamoto University Repositor Title GPGPU による高速演算について Author(s) 榎本, 昌一 Citation Issue date Type URL Presentation
熊本大学学術リポジトリ Kumamoto University Repositor Title GPGPU による高速演算について Author(s) 榎本, 昌一 Citation Issue date 2011-03-17 Type URL Presentation http://hdl.handle.net/2298/23539 Right GPGPU による高速演算について 榎本昌一 東京大学大学院工学系研究科システム創成学専攻
More informationMicrosoft PowerPoint - ARCEMB08HayashiSlides.ppt [互換モード]
演算 / メモリ性能バランスを考慮した CMP 向けオンチップ メモリ貸与法の提案 九州大学 林徹生今里賢一井上弘士村上和彰 1 発表手順 背景 目的 演算 / メモリ性能バランシング 概要 アクセスレイテンシの削減とオーバーヘッド 提案手法の実現方法 着目する命令 (Cell プロセッサへの ) 実装 性能評価 姫野ベンチマーク Susan@MiBench おわりに 2 チップマルチプロセッサ (CMP)
More informationGeoFEM開発の経験から
FrontISTR における並列計算のしくみ < 領域分割に基づく並列 FEM> メッシュ分割 領域分割 領域分割 ( パーティショニングツール ) 全体制御 解析制御 メッシュ hecmw_ctrl.dat 境界条件 材料物性 計算制御パラメータ 可視化パラメータ 領域分割ツール 逐次計算 並列計算 Front ISTR FEM の主な演算 FrontISTR における並列計算のしくみ < 領域分割に基づく並列
More informationスライド 1
計算科学が拓く世界スーパーコンピュータは何故スーパーか 学術情報メディアセンター中島浩 http://www.para.media.kyoto-u.ac.jp/jp/ username=super password=computer 講義の概要 目的 計算科学に不可欠の道具スーパーコンピュータが どういうものか なぜスーパーなのか どう使うとスーパーなのかについて雰囲気をつかむ 内容 スーパーコンピュータの歴史を概観しつつ
More information<4D F736F F F696E74202D2091E63489F15F436F6D C982E682E992B48D8291AC92B489B F090CD2888F38DFC E B8CDD8
Web キャンパス資料 超音波シミュレーションの基礎 ~ 第 4 回 ComWAVEによる超高速超音波解析 ~ 科学システム開発部 Copyright (c)2006 ITOCHU Techno-Solutions Corporation 本日の説明内容 ComWAVEの概要および特徴 GPGPUとは GPGPUによる解析事例 CAE POWER 超音波研究会開催 (10 月 3 日 ) のご紹介
More information― ANSYS Mechanical ―Distributed ANSYS(領域分割法)ベンチマーク測定結果要約
ANSYS Mechanical Distributed ANSYS( 領域分割法 ) 2011 年 1 月 17 日 富士通株式会社 ANSYS Mechanical ベンチマーク測定結果 目次 測定条件 1 標準問題モデル 2 総括 3 ベンチマーク測定について 3 留意事項 9 商標について 9 測定条件 測定に使用した環境は下記のとおりです System PRIMERGY BX922 S2
More informationTSUBAME2.0 における GPU の 活用方法 東京工業大学学術国際情報センター丸山直也第 10 回 GPU コンピューティング講習会 2011 年 9 月 28 日
TSUBAME2.0 における GPU の 活用方法 東京工業大学学術国際情報センター丸山直也第 10 回 GPU コンピューティング講習会 2011 年 9 月 28 日 目次 1. TSUBAMEのGPU 環境 2. プログラム作成 3. プログラム実行 4. 性能解析 デバッグ サンプルコードは /work0/gsic/seminars/gpu- 2011-09- 28 からコピー可能です 1.
More informationItanium2ベンチマーク
HPC CPU mhori@ile.osaka-u.ac.jp Special thanks Timur Esirkepov HPC 2004 2 25 1 1. CPU 2. 3. Itanium 2 HPC 2 1 Itanium2 CPU CPU 3 ( ) Intel Itanium2 NEC SX-6 HP Alpha Server ES40 PRIMEPOWER SR8000 Intel
More informationスパコンに通じる並列プログラミングの基礎
2018.09.10 furihata@cmc.osaka-u.ac.jp ( ) 2018.09.10 1 / 59 furihata@cmc.osaka-u.ac.jp ( ) 2018.09.10 2 / 59 Windows, Mac Unix 0444-J furihata@cmc.osaka-u.ac.jp ( ) 2018.09.10 3 / 59 Part I Unix GUI CUI:
More informationPowerPoint プレゼンテーション
ANSYS Mechanical Release18.1 BMT Results 作成 :2017-06-21 最終編集 :2017-07-03 項 所属 1 ご担当者 1 所属 2 ご担当者 2 ベンチマークテスト実施者 ベンチマークテスト概要 内容 株式会社 本 HP サービスソリューション事業本部技術本部クライアント技術部 清 康輔 株式会社 本 HP ワークステーションビジネス本部 橋秀樹
More informationMicrosoft PowerPoint 知る集い(京都)最終.ppt
次世代スパコンについて知る集い 配布資料 世界最高性能を目指すシステム開発について ー次世代スパコンのシステム構成と施設の概要 - 平成 22 年 1 月 28 日 理化学研究所次世代スーパーコンピュータ開発実施本部横川三津夫 高性能かつ大規模システムの課題と対応 演算性能の向上 CPU のマルチコア化,SIMD( ベクトル化 ) 機構 主記憶へのアクセス頻度の削減 - CPU 性能とメモリアクセス性能のギャップ
More informationPowerPoint Presentation
2015 年 4 月 24 日 ( 金 ) 第 18 回 FrontISTR 研究会 FrontISTR の並列計算の基礎 奥田洋司 okuda@k.u-tokyo.ac.jp 東京大学大学院 新領域創成科学研究科 人間環境学専攻 目次 導入 計算力学とは 連続体の力学 連立 1 次方程式 FEM 構造解析の概要 なぜ並列化か? 並列アーキテクチャ 並列プログラミング FEM 計算におけるノード間並列
More informationtabaicho3mukunoki.pptx
1 2 はじめに n 目的 4倍精度演算より高速な3倍精度演算を実現する l 倍精度では足りないが4倍精度は必要ないケースに欲しい l 4倍精度に比べてデータサイズが小さい Ø 少なくともメモリ律速な計算では4倍精度よりデータ 転送時間を減らすことが可能 Ø PCIeやノード間通信がボトルネックとなりやすい GPUクラスタ環境に有効か n 研究概要 l DD型4倍精度演算 DD演算 に基づく3倍精度演算
More informationuntitled
taisuke@cs.tsukuba.ac.jp http://www.hpcs.is.tsukuba.ac.jp/~taisuke/ CP-PACS HPC PC post CP-PACS CP-PACS II 1990 HPC RWCP, HPC かつての世界最高速計算機も 1996年11月のTOP500 第一位 ピーク性能 614 GFLOPS Linpack性能 368 GFLOPS (地球シミュレータの前
More informationPCC hanawa
メニーコア型大規模スーパー コンピュータシステム Oakforest-PACSの現状と動向 東京大学 情報基盤センター 最先端共同HPC基盤施設 (JCAHPC) 塙 敏博 HPCI: High Performance Computing Infrastructure 日本全体におけるスパコンインフラ 9 大学 ( 北大 東北大 筑波大 東大 東工大 名大 京大 阪大 九大 ) の情報基盤センター
More informationGPGPU
GPGPU 2013 1008 2015 1 23 Abstract In recent years, with the advance of microscope technology, the alive cells have been able to observe. On the other hand, from the standpoint of image processing, the
More informationVol.214-HPC-145 No /7/3 C #pragma acc directive-name [clause [[,] clause] ] new-line structured block Fortran!$acc directive-name [clause [[,] c
Vol.214-HPC-145 No.45 214/7/3 OpenACC 1 3,1,2 1,2 GPU CUDA OpenCL OpenACC OpenACC High-level OpenACC CPU Intex Xeon Phi K2X GPU Intel Xeon Phi 27% K2X GPU 24% 1. TSUBAME2.5 CPU GPU CUDA OpenCL CPU OpenMP
More informationPervasive PSQL v11 のベンチマーク パフォーマンスの結果
Pervasive PSQL v11 のベンチマークパフォーマンスの結果 Pervasive PSQL ホワイトペーパー 2010 年 9 月 目次 実施の概要... 3 新しいハードウェアアーキテクチャがアプリケーションに及ぼす影響... 3 Pervasive PSQL v11 の設計... 4 構成... 5 メモリキャッシュ... 6 ベンチマークテスト... 6 アトミックテスト... 7
More informationhpc141_shirahata.pdf
GPU アクセラレータと不揮発性メモリ を考慮した I/O 性能の予備評価 白幡晃一 1,2 佐藤仁 1,2 松岡聡 1 1: 東京工業大学 2: JST CREST 1 GPU と不揮発性メモリを用いた 大規模データ処理 大規模データ処理 センサーネットワーク 遺伝子情報 SNS など ペタ ヨッタバイト級 高速処理が必要 スーパーコンピュータ上での大規模データ処理 GPU 高性能 高バンド幅 例
More informationスライド 1
Nehalem 新マイクロアーキテクチャ スケーラブルシステムズ株式会社 はじめに 現在も続く x86 マイクロプロセッサマーケットでの競合において Intel と AMD という 2 つの会社は 常に新しい技術 製品を提供し マーケットでのシェアの獲得を目指しています この技術開発と製品開発では この 2 社はある時は 他社に対して優位な技術を開発し 製品面での優位性を示すことに成功してきましたが
More information26
26 FIPP FAPP I/O LAMMPS LJ atomic fluid 32,000 atoms for 100 timesteps FX10 4 16 / (FIPP) FIPP fipp - C - d dir/ - Ihwm,call - i10 mpiexec./a.out GUI, fipppx - A - d dir/ - Ihwm,cpu,balance,call,src
More informationHPC143
研究背景 GPUクラスタ 高性能 高いエネルギー効率 低価格 様々なHPCアプリケーションで用いられている TCA (Tightly Coupled Accelerators) 密結合並列演算加速機構 筑波大学HA-PACSクラスタ アクセラレータ GPU 間の直接通信 低レイテンシ 今後のHPCアプリは強スケーリングも重要 TCAとアクセラレータを搭載したシステムに おけるプログラミングモデル 例
More informationCCS HPCサマーセミナー 並列数値計算アルゴリズム
大規模系での高速フーリエ変換 2 高橋大介 daisuke@cs.tsukuba.ac.jp 筑波大学計算科学研究センター 2016/6/2 計算科学技術特論 B 1 講義内容 並列三次元 FFT における自動チューニング 二次元分割を用いた並列三次元 FFT アルゴリズム GPU クラスタにおける並列三次元 FFT 2016/6/2 計算科学技術特論 B 2 並列三次元 FFT における 自動チューニング
More informationメモリ階層構造を考慮した大規模グラフ処理の高速化
, CREST ERATO 0.. (, CREST) ERATO / 8 Outline NETAL (NETwork Analysis Library) NUMA BFS raph500, reenraph500 Kronecker raph Level Synchronized parallel BFS Hybrid Algorithm for Parallel BFS NUMA Hybrid
More informationmemcached 方式 (No Replication) 認証情報は ログインした tomcat と設定された各 memcached サーバーに認証情報を分割し振り分けて保管する memcached の方系がダウンした場合は ログインしたことのあるサーバーへのアクセスでは tomcat に認証情報
IdPClusteringPerformance Shibboleth-IdP 冗長化パフォーマンス比較試験報告書 2012 年 1 月 17 日国立情報学研究所 Stateless Clustering 方式は SAML2 を想定しているため CryptoTransientID は不使用 使用するとパフォーマンスが悪くなる可能性あり Terracotta による冗長化について EventingMapBasedStorageService
More information[4] ACP (Advanced Communication Primitives) [1] ACP ACP [2] ACP Tofu UDP [3] HPC InfiniBand InfiniBand ACP 2 ACP, 3 InfiniBand ACP 4 5 ACP 2. ACP ACP
InfiniBand ACP 1,5,a) 1,5,b) 2,5 1,5 4,5 3,5 2,5 ACE (Advanced Communication for Exa) ACP (Advanced Communication Primitives) HPC InfiniBand ACP InfiniBand ACP ACP InfiniBand Open MPI 20% InfiniBand Implementation
More information研究背景 大規模な演算を行うためには 分散メモリ型システムの利用が必須 Message Passing Interface MPI 並列プログラムの大半はMPIを利用 様々な実装 OpenMPI, MPICH, MVAPICH, MPI.NET プログラミングコストが高いため 生産性が悪い 新しい並
XcalableMPによる NAS Parallel Benchmarksの実装と評価 中尾 昌広 李 珍泌 朴 泰祐 佐藤 三久 筑波大学 計算科学研究センター 筑波大学大学院 システム情報工学研究科 研究背景 大規模な演算を行うためには 分散メモリ型システムの利用が必須 Message Passing Interface MPI 並列プログラムの大半はMPIを利用 様々な実装 OpenMPI,
More information<4D F736F F F696E74202D A A814590DA904796E291E882C991CE82B782E946726F6E CC95C097F190FC8C60835C838B836F815B82C982C282A282C42E >
東京大学本郷キャンパス 工学部8号館 84講義室 (地下1階) アセンブリ 接触問題に対する FrontISTRの並列線形ソルバー について 2016年11月28日 第32回FrontISTR研究会 FrontISTRによる接触解析における機能拡張と計算事例 本研究開発は, 文部科学省ポスト 京 重点課題 8 近未来型ものづくりを先導する革新的設計 製造プロセスの開発 の一環として実施したものです
More informationコードのチューニング
OpenMP による並列化実装 八木学 ( 理化学研究所計算科学研究センター ) KOBE HPC Spring School 2019 2019 年 3 月 14 日 スレッド並列とプロセス並列 スレッド並列 OpenMP 自動並列化 プロセス並列 MPI プロセス プロセス プロセス スレッドスレッドスレッドスレッド メモリ メモリ プロセス間通信 Private Private Private
More informationMicrosoft PowerPoint - OpenMP入門.pptx
OpenMP 入門 須田礼仁 2009/10/30 初版 OpenMP 共有メモリ並列処理の標準化 API http://openmp.org/ 最新版は 30 3.0 バージョンによる違いはあまり大きくない サポートしているバージョンはともかく csp で動きます gcc も対応しています やっぱり SPMD Single Program Multiple Data プログラム #pragma omp
More informationOpenACCによる並列化
実習 OpenACC による ICCG ソルバーの並列化 1 ログイン Reedbush へのログイン $ ssh reedbush.cc.u-tokyo.ac.jp l txxxxx Module のロード $ module load pgi/17.3 cuda ログインするたびに必要です! ワークディレクトリに移動 $ cdw ターゲットプログラム /srcx OpenACC 用のディレクトリの作成
More informationMicrosoft Word - nvsi_050110jp_netvault_vtl_on_dothill_sannetII.doc
Article ID: NVSI-050110JP Created: 2005/10/19 Revised: - NetVault 仮想テープ ライブラリのパフォーマンス検証 : dothill SANnetⅡSATA 編 1. 検証の目的 ドットヒルシステムズ株式会社の SANnetll SATA は 安価な SATA ドライブを使用した大容量ストレージで ディスクへのバックアップを行う際の対象デバイスとして最適と言えます
More informationPowerPoint Presentation
2016 年 6 月 10 日 ( 金 ) FrontISTR 研究会 FrontISTR の並列計算の基礎 奥田洋司 okuda@k.u-tokyo.ac.jp 東京大学大学院 新領域創成科学研究科 人間環境学専攻 目次 導入 なぜ並列化か? 並列アーキテクチャ 並列プログラミング FrontISTR における並列計算 実効性能について ノード間並列 領域分割と MPI ノード内並列 ( 単体性能
More informationHphi実行環境導入マニュアル_v1.1.1
HΦ の計算環境構築方法マニュアル 2016 年 7 月 25 日 東大物性研ソフトウェア高度化推進チーム 目次 VirtualBox を利用した HΦ の導入... 2 VirtualBox を利用した MateriAppsLive! の導入... 3 MateriAppsLive! への HΦ のインストール... 6 ISSP スパコンシステム B での HΦ の利用方法... 8 各種ファイルの置き場所...
More informationスライド 1
GPU クラスタによる格子 QCD 計算 広大理尾崎裕介 石川健一 1.1 Introduction Graphic Processing Units 1 チップに数百個の演算器 多数の演算器による並列計算 ~TFLOPS ( 単精度 ) CPU 数十 GFLOPS バンド幅 ~100GB/s コストパフォーマンス ~$400 GPU の開発環境 NVIDIA CUDA http://www.nvidia.co.jp/object/cuda_home_new_jp.html
More informationuntitled
Power Wall HPL1 10 B/F EXTREMETECH Supercomputing director bets $2,000 that we won t have exascale computing by 2020 One of the biggest problems standing in our way is power. [] http://www.extremetech.com/computing/155941
More informationMicrosoft PowerPoint - 2_FrontISTRと利用可能なソフトウェア.pptx
東京大学本郷キャンパス 工学部8号館2階222中会議室 13:30-14:00 FrontISTRと利用可能なソフトウェア 2017年4月28日 第35回FrontISTR研究会 FrontISTRの並列計算ハンズオン 精度検証から並列性能評価まで 観測された物理現象 物理モデル ( 支配方程式 ) 連続体の運動を支配する偏微分方程式 離散化手法 ( 有限要素法, 差分法など ) 代数的な数理モデル
More information理研スーパーコンピュータ・システム
線形代数演算ライブラリ BLAS と LAPACK の基礎と実践 2 理化学研究所情報基盤センター 2013/5/30 13:00- 大阪大学基礎工学部 中田真秀 この授業の目的 対象者 - 研究用プログラムを高速化したい人 - LAPACK についてよく知らない人 この講習会の目的 - コンピュータの簡単な仕組みについて - 今後 どうやってプログラムを高速化するか - BLAS, LAPACK
More information<4D F736F F F696E74202D F A282BD94BD959C89F A4C E682528D652E707074>
発表の流れ SSE を用いた反復解法ライブラリ Lis 4 倍精度版の高速化 小武守恒 (JST 東京大学 ) 藤井昭宏 ( 工学院大学 ) 長谷川秀彦 ( 筑波大学 ) 西田晃 ( 中央大学 JST) はじめに 4 倍精度演算について Lisへの実装 SSEによる高速化 性能評価 スピード 収束 まとめ はじめに クリロフ部分空間法たとえば CG 法は, 理論的には高々 n 回 (n は係数行列の次元数
More information<4D6963726F736F667420506F776572506F696E74202D20834B8343835F83938358815C8FEE95F183568358836583808A7793C195CA8D758B608252816932303134944E348C8E3893FA816A202D2048502E70707478>
ガイダンス 東 京 大 学 情 報 基 盤 センター 准 教 授 片 桐 孝 洋 204 年 4 月 8 日 ( 火 )4:40-6:0 ガイダンスの 流 れ. 講 義 の 目 的 2. 講 師 紹 介 3. 講 義 日 程 の 確 認 4. 成 績 の 評 価 方 法 5. イントロダクション(30 分 ) 2 本 講 義 の 目 的 近 年 京 コンピュータに 代 表 される 世 界 トップクラスのスーパーコンピュータが
More information演習準備
演習準備 2014 年 3 月 5 日神戸大学大学院システム情報学研究科森下浩二 1 演習準備の内容 神戸大 FX10(π-Computer) 利用準備 システム概要 ログイン方法 コンパイルとジョブ実行方法 MPI 復習 1. MPIプログラムの基本構成 2. 並列実行 3. 1 対 1 通信 集団通信 4. データ 処理分割 5. 計算時間計測 2 神戸大 FX10(π-Computer) 利用準備
More informationMicrosoft Word ●LMbenchによるメモリレイテンシ測定_石附_ _更新__ doc
2.2.4. LMbench によるメモリレイテンシ測定 富士通株式会社 石附茂 1. 概要 LMbench はマシンの基本性能を測定するツールである 測定項目は以下の 2 項目に大別される 1) バンド幅メモリ, ファイル入出力関連 2) レイテンシキャッシュ, メモリ, コンテキストスイッチ, ファイル操作, プロセス, シグナルなど 2. メモリレイテンシの実測 LMbench を使用し メモリレイテンシを実測した結果を報告する
More information1 GPU GPGPU GPU CPU 2 GPU 2007 NVIDIA GPGPU CUDA[3] GPGPU CUDA GPGPU CUDA GPGPU GPU GPU GPU Graphics Processing Unit LSI LSI CPU ( ) DRAM GPU LSI GPU
GPGPU (I) GPU GPGPU 1 GPU(Graphics Processing Unit) GPU GPGPU(General-Purpose computing on GPUs) GPU GPGPU GPU ( PC ) PC PC GPU PC PC GPU GPU 2008 TSUBAME NVIDIA GPU(Tesla S1070) TOP500 29 [1] 2009 AMD
More information次 CAE を取り巻く環境と展望 企業がシミュレーションに抱える痛み :3 つの例 クラウド CAE サービス Cistr Cistr のシステム概要 最新版 Cistr でできること Cistr を利 してみる 2
クラウド CAE サービス 東京 学 学院新領域創成科学研究科 森 直樹, 井原遊, 野達 1 次 CAE を取り巻く環境と展望 企業がシミュレーションに抱える痛み :3 つの例 クラウド CAE サービス Cistr Cistr のシステム概要 最新版 Cistr でできること Cistr を利 してみる 2 CAE を取り巻く環境と展望 3 国内市場規模は約 3400 億円程度 2015 年度の国内
More informationuntitled
OS 2007/4/27 1 Uni-processor system revisited Memory disk controller frame buffer network interface various devices bus 2 1 Uni-processor system today Intel i850 chipset block diagram Source: intel web
More informationSCIMA アーキテクチャと性能評価 - SCIMA アーキテクチャの概要 - 中村宏東京大学先端科学技術研究センター
SCIMA アーキテクチャと性能評価 - SCIMA アーキテクチャの概要 - 中村宏東京大学先端科学技術研究センター nakamura@hal.rcast.u-tokyo.ac.jp nakamura@acm.org 第一部 :SCIMA アーキテクチャと性能評価 講演の流れ SCIMAアーキテクチャの概要 ( 東大 : 中村宏 ) NASPBを用いたSCIMAの評価 ( 東大 : 岩本貢 M2)
More information議題 プロセッサーの動向とコード モダナイゼーション インテル アドバンスト ベクトル エクステンション 512 ( インテル AVX-512) 命令と演算性能 ベクトル化を支援するインテル Advisor ループの性能を可視化するルーフライン表示 姫野ベンチマークを用いたインテル Xeon Phi
最新のインテル Parallel Studio XE を用いた迅速なベクトル化と並列化手法 インテル株式会社 技術本部ソフトウェア技術統括部 シニア スタッフ エンジニア 池井 満 議題 プロセッサーの動向とコード モダナイゼーション インテル アドバンスト ベクトル エクステンション 512 ( インテル AVX-512) 命令と演算性能 ベクトル化を支援するインテル Advisor ループの性能を可視化するルーフライン表示
More informationFujitsu Standard Tool
低レベル通信ライブラリ ACP の PGAS ランタイム向け機能 2014 年 10 月 24 日富士通株式会社 JST CREST 安島雄一郎 Copyright 2014 FUJITSU LIMITED 本発表の構成 概要 インタフェース チャネル ベクタ リスト メモリアロケータ アドレス変換 グローバルメモリ参照 モジュール構成 メモリ消費量と性能評価 利用例 今後の課題 まとめ 1 Copyright
More informationNUMAの構成
共有メモリを使ったデータ交換と同期 慶應義塾大学理工学部 天野英晴 hunga@am.ics.keio.ac.jp 同期の必要性 あるプロセッサが共有メモリに書いても 別のプロセッサにはそのことが分からない 同時に同じ共有変数に書き込みすると 結果がどうなるか分からない そもそも共有メモリって結構危険な代物 多くのプロセッサが並列に動くには何かの制御機構が要る 不可分命令 同期用メモリ バリア同期機構
More information資料3 今後のHPC技術に関する研究開発の方向性について(日立製作所提供資料)
今後の HPC 技術に関する 研究開発の方向性について 2012 年 5 月 30 日 ( 株 ) 日立製作所情報 通信システム社 IT プラットフォーム事業本部 Hitachi, Hitachi, Ltd. Ltd. Hitachi 2012. 2012. Ltd. 2012. All rights All rights All rights reserved. reserved. reserved.
More informationPowerPoint プレゼンテーション
Oracle GRID Center Flash SSD + 最新ストレージと Oracle Database で実現するデータベース統合の新しい形 2011 年 2 月 23 日日本オラクル Grid Center エンジニア岩本知博 進化し続けるストレージ関連技術 高速ストレージネットワークの多様化 低価格化 10GbE FCoE 8Gb FC ディスクドライブの多様化および大容量 / 低価格化
More informationPowerPoint プレゼンテーション
総務省 ICTスキル総合習得教材 概要版 eラーニング用 [ コース2] データ蓄積 2-5: 多様化が進展するクラウドサービス [ コース1] データ収集 [ コース2] データ蓄積 [ コース3] データ分析 [ コース4] データ利活用 1 2 3 4 5 座学本講座の学習内容 (2-5: 多様化が進展するクラウドサービス ) 講座概要 近年 注目されているクラウドの関連技術を紹介します PCやサーバを構成するパーツを紹介後
More informationインテル® Xeon Phi™ プロセッサー上で MPI for Python* (mpi4py) を使用する
インテル Xeon Phi プロセッサー上で MPI for Python* (mpi4py) を使用する この記事は インテル デベロッパー ゾーンに公開されている Exploring MPI for Python* on Intel Xeon Phi Processor の日本語参考訳です はじめに メッセージ パッシング インターフェイス (MPI) ( 英語 ) は 分散メモリー プログラミング向けに標準化されたメッセージ
More informationGPUコンピューティング講習会パート1
GPU コンピューティング (CUDA) 講習会 GPU と GPU を用いた計算の概要 丸山直也 スケジュール 13:20-13:50 GPU を用いた計算の概要 担当丸山 13:50-14:30 GPU コンピューティングによる HPC アプリケーションの高速化の事例紹介 担当青木 14:30-14:40 休憩 14:40-17:00 CUDA プログラミングの基礎 担当丸山 TSUBAME の
More information23 Fig. 2: hwmodulev2 3. Reconfigurable HPC 3.1 hw/sw hw/sw hw/sw FPGA PC FPGA PC FPGA HPC FPGA FPGA hw/sw hw/sw hw- Module FPGA hwmodule hw/sw FPGA h
23 FPGA CUDA Performance Comparison of FPGA Array with CUDA on Poisson Equation (lijiang@sekine-lab.ei.tuat.ac.jp), (kazuki@sekine-lab.ei.tuat.ac.jp), (takahashi@sekine-lab.ei.tuat.ac.jp), (tamukoh@cc.tuat.ac.jp),
More information