Microsoft PowerPoint - endo-jssst14.pptx

Size: px

Start display at page:

Download "Microsoft PowerPoint - endo-jssst14.pptx"

れれわくや
5 years ago
Views:

1 高性能計算のプログラミングの最前線東京工業大学学術国際情報センター / 数理計算科学専攻遠藤敏夫 1

2 私が使ってきたシステム (1) Sun Enterprise Ultra SPARC x 64CPU Share memory SGI Origin 2000 R10000 x 128CPU Share memory (NUMA) IBM/Appro Blade cluster Xeon x 2CPU x 200node SMP cluster 米澤研においては共有メモリマシンでガーベージコレクションの並列化 (64 プロセッサ 30 倍のスケーラビリティ ) 2

私が使ってきたシステム (2) TSUBAME 1 (NEC/Sun) Opteron x 16 CPU core x 655 node +ClearSpeed x 360 board +Tesla S1070 x680gpu 2006

3 私が使ってきたシステム (2) TSUBAME 1 (NEC/Sun) Opteron x 16 CPU core x 655 node +ClearSpeed x 360 board +Tesla S1070 x680gpu において日本最速 TSUBAME (NEC/HP) Xeon x 12core x 1408 node +Tesla M2050 x4224gpu 2010/11/1 稼働日本初のペタコン京に次ぐ国内二位 3 世界 13 位

4 スーパーコンピューター内部の演算処理速度がその時代の一般的なコンピュータより極めて高速な計算機例 : 京コンピュータ東工大 TSUBAME2 Tianhe 2, 4

5 スパコンは何に使われる? スパコンはあらゆる科学分野の仮想実験場 5

6 なぜスパコン高性能計算を知ると良いか? 現代のコンピュータアーキテクチャの特徴が顕著に表れている今やケータイですら4コアCPU Amazon Google SNSを裏側で支えているのはデータセンター ( 大規模クラスタが置いてある ) 6

7 おことわり : 東工大講義実践的並列コンピューティングの 90 分 14 回分の内容 +α を三時間でやるので色々飛ばします今日の内容はあまり最前線ではないかも主に取り上げるのは古典的な OpenMP, MPI GPU 上の CUDA, OpenACC あたりはちょっと新しい XXX 大学による最新の YYY 言語機能を取り入れた ZZZ 言語のようなものはカバーしていないいいわけたった今京や TSUBAME で走っているプログラムの多くは Fortran+MPI Ruby/Python でデータ解析をやっている人も多くの人は美しい言語より 20 年後まだ生きている道具に乗っかりたいその分 HPC+PRO により新たな研究チャンスも? 7

8 スパコン開発競争の激化世界一スパコンの変遷 Linpack 演算速度 (Gflops) Jun 93 CM 5/ LANL US Nov 93 Numerical Wind Tunnel 124 NAL Japan 60GFlops Jun 94 XP/S SNL US Nov 94 Numerical Wind Tunnel 170 NAL Japan Jun 95 Numerical Wind Tunnel 170 NAL Japan Nov 95 Numerical Wind Tunnel 170 NAL Japan Jun 96 SR2201/ Univ Tokyo Japan Nov 96 CP PACS/ Tsukuba Univ Japan Jun 97 ASCI Red 1068 SNL US Nov 97 ASCI Red 1338 SNL US Jun 98 ASCI Red 1338 SNL US Nov 98 ASCI Red 1338 SNL US Jun 99 ASCI Red 2121 SNL US Nov 99 ASCI Red 2379 SNL US Jun 00 ASCI Red 2379 SNL US Nov 00 ASCI White 4938 LLNL US Jun 01 ASCI White 7226 LLNL US Nov 01 ASCI White 7226 LLNL US Jun 02 Earth Simulator ES Center Japan Nov 02 Earth Simulator ES Center Japan Jun 03 Earth Simulator ES Center Japan Nov 03 Earth Simulator ES Center Japan Jun 04 Earth Simulator ES Center Japan Nov 04 BlueGene/L beta IBM/DOE US Jun 05 BlueGene/L DOE/NNSA/LLNL US Nov 05 BlueGene/L DOE/NNSA/LLNL US Jun 06 BlueGene/L DOE/NNSA/LLNL US Nov 06 BlueGene/L DOE/NNSA/LLNL US Jun 07 BlueGene/L DOE/NNSA/LLNL US Nov 07 BlueGene/L DOE/NNSA/LLNL US Jun 08 RoadRunner DOE/NNSA/LANL US Nov 08 RoadRunner DOE/NNSA/LANL US Jun 09 RoadRunner DOE/NNSA/LANL US Nov 09 Jaguar ORNL US Jun 10 Jaguar ORNL US Nov 10 Tianhe 1A NSC in Tianjin China Jun 11K computer RIKEN AICS Japan Nov 11K computer RIKEN AICS Japan Jun 12 Sequoia 33.9PFlops DOE/NNSA/LLNL US Nov 12 Titan DOE/SC/ORNL US Jun 13 Tianhe NUDT China 参考 : 年間で性能 560,000 倍アメリカと日本の一騎打ち中国の台頭

9 なぜ計算速度が重要? 仮想実験 ( シミュレーション ) のためには, ばく大な量の計算を, タイムリーにこなさなければならないから明日の天気の計算に, 一年かかっては意味がない! コップにクリープを垂らしてかきまぜた時の例空間を, 細かいマス目に分割 1 点ずつ計算が必要ある瞬間の計算が終了したら, 次の瞬間の計算へ因果律 : 過去現在未来もっと未来パラパラ漫画のように計算を続ける 9

10 なぜ計算速度が向上し続ける必要? より厳密なシミュレーションを行うには細かい解像度が必要 Simulated results with 5km mesh using older supercomputers Simulated results with 500m mesh using TSUBAME2.0 より細かい雲の挙動が把握可能に! 10 倍の高解像度のためには X 方向 10 倍 Y 方向 10 倍 Z 方向 10 倍時間方向 10 倍 =10000 倍の計算をこなす必要! 10

11 一般的なスパコンの構造階層構造が鍵システム = 多数の計算ノード + 外部ストレージパーツ間はネットワークで接続計算ノード = 1 以上のプロセッサ + メモリ + ローカルストレージパーツ間は PCI e, QPI などの通信路で接続プロセッサ = 1 以上のコア + L3 キャッシュ + その他コア = 複数の演算器 + レジスタ + L1/L2 キャッシュ + その他 11

12 スパコンの計算性能は何で決まる? 理論ピーク演算性能 : システムが仮に浮動小数演算のみを続けたときのFlops 値実効演算性能とは区別が必要以下の積となる : クロック周波数 (Hz=1/sec) 1~3GHz 程度 2003 ごろより頭打ち 1 クロックあたりの同時計算数 (flop) 倍精度 :TSUBAME2のCPUでは4, Sandy Bridge 世代 (AVX) で8 単精度や整数はその2 倍のことが多いプロセッサあたりのコア数 4~16 程度, これからも伸びる見込み計算ノードあたりのプロセッサ数 1~4 程度計算ノード数 TSUBAME2 では 1400, 京コンピュータでは

13 近年のスパコンの動向 2003 年ごろからクロック周波数の伸びは頭打ちにプロセッサあたりのコア数を増やして性能を稼ぐ方向に年代までの常識 : 5 年待てば私のプログラムは速くなる今の常識 : 並列プログラミング覚えないと! 13

14 並列プログラミングの主な道具アーキテクチャ階層に応じて使い分けるノード間並列 MPI などノード内コア間並列 OpenMP などコア内並列 AVX/SSE など複数の計算機要素をどうやって扱うかメモリ構造の前提などが異なる 14

15 単純化したコンピュータアーキテクチャプロセッサ ( の冷却ファン ) 単純化したアーキテクチャプロセッサメモリバスメモリメモリ 15

16 並列アーキテクチャの分類 SIMD (Single Instruction Multiple Data) プロセッサ ( コア ) メモリ演算器 MIMD (Multiple Instruction Multiple Data) 共有メモリ並列アーキテクチャ分散メモリ並列アーキテクチャプロセッサ ( コア ) ネットワークメモリ 16

17 近年の並列アーキテクチャ近年のスパコンのほとんど全ては SIMD 共有メモリ分散メモリの組み合わせ計算ノード内は共有メモリ, 計算ノード間は分散メモリ計算ノード複数演算器を持つコア TSUBAME2 の計算ノード京の計算ノード 17

18 用語 : ソケットやコアマルチコア時代になり, プロセッサの定義が複雑にプロセッサの機能を持つコア /CPU コアを複数, パッケージに詰め込むようになった HyperThreading によりさらに複雑に.1 コアを 2 つのハードウェアスレッドが共有する.OS からはハードウェアスレッドがプロセッサに見えるソケット ( パッケージ ) 6 コア 2 ハードウェアスレッド (hyper thread) 18

19 京と TSUBAME2 スパコンの理論性能京 TSUBAME2.5 (CPU 部 ) クロック周波数 2.0GHz 2.93GHz コア性能プロセッサ ( ソケット ) 性能ノード性能システム性能 8 演算 = 16GFlops 8コア = 128GFlops 1ソケット = 128GFlops 88000ノード = 11.3PFlops 4 演算 = 11.7GFlops 6 コア = 70.3GFlops 2 ソケット = 140.6GFlops 1408 ノード = 0.2PFlops GPU をあわせると 5.7PFlops 19

20 なぜアーキテクチャはフラットな並列ではなく階層構造? 全て SIMD 並列だったら? 1 つの命令列で全データを扱う分岐がろくに書けず役に立たない全て共有メモリ並列だったら? 全プロセッサがアクセス可能なメモリ構造を作るのが非効率的高価に NUMA(non uniform memory access) でましにはなるがそれでもまだきつい全て分散メモリ並列だったら? 実現可能だがまったく共有メモリが無いとプログラムしづらい傾向 20

21 アクセラレータへの注目プロセッサは一種類でよいのか? 汎用のプロセッサだけでなく並列処理に強い ( が汎用処理に弱め ) なプロセッサも併用するアプローチアクセラレータ代表的アクセラレータ NVIDIA 社製 GPU Intel 社製 Xeon Phi AMD 社製 GPU 21

22 アクセラレータ周波数はあまり高くせず並列度で稼ぐという方針をさらに推し進めたのがアクセラレータ GPU(graphic processing unit) はもともと画像出力用専用プロセッサだが演算へ転用 (GPGPU) Intel Xeon X GHz 4 Flop 6 core = 70.4GFlops NVIDIA Tesla K20X 0.73 GHz 128 Flop 14 SM = 1310GFlops TSUBAME2.5, Titan(2012 No.1), Tianhe-1A(2010 No.1) などが採用 NVIDIA GPU, AMD/ATI GPU, Intel Xeon Phiなど 22

23 例題プログラム 23

24 例題 : 密行列密行列の積 (Matrix multiply, Matmul) (m k) 行列と (k n) 行列の積三重の for ループで記述計算量 :O(mnk) for (j = 0; j < n; j++) { for (l = 0; l < k; l++) { double blj = B[l+j*ldb]; for (i = 0; i< m; i++) { double ail = A[i+l*lda]; C[i+j*ldc] += ail*blj; } } } m A k B C m k n n 24

25 注意 : 行列積を自前でプログラミングする機会はほぼない既存のライブラリである MKL や GotoBLAS を用いたほうがはるかに速い TSUBAME2 CPU 上で様々な行列積実装を実行した結果 12 コア理想的に演算器を使えれば 4 x 2.93GHz x 12 = 140.6GFlops 実装並列化なし SIMD OpenMP SIMD+ OpenMP GotoBLAS Speed (Gflops)

26 例題 : 流体拡散シミュレーション拡散現象 (diffusion) 青木尊之各点のインク濃度は時間がたつと変わっていくその様子を計算機で計算天気予報などにも含まれる計算 26

27 diffusion のデータ構造シミュレーションしたい空間をマス目で区切り配列で表す ( 本プログラムでは二次元配列 ) NX NY 時間を少しずつパラパラ漫画のように進めながら計算する時間ステップ jt=0 jt=1 jt=20 27

28 ダブルバッファリング技術全時間ステップの配列を覚えておくとメモリ容量を食い過ぎる二ステップ分だけ覚えておき二つの配列 ( ダブルバッファ ) を使いまわす偶数ステップ用の配列 jt=0 jt=1 の計算奇数ステップ用の配列 jt=1 jt=2 の計算 jt=2 jt=3 の計算 28

29 diffusion の計算 : ステンシル計算時間 tにおける点 (i,j) を計算するには? 時間 t 1における下記を利用点 (i,j) の値点 (i,j) の近傍の値 ( このサンプルでは上下左右 ) 時間 t-1 時間 t このタイプの演算をステンシル計算と呼ぶ以下が既知とする時間 0 の全点の温度 ( 初期条件 ) 各時間における領域の端の点の温度 ( 境界条件 ) 本来のステンシル 29

30 Diffusion の実装例時間ステップ jt=0 jt=1 jt=20 for (jt = 0; jt < NT; jt++) { // 時間ループ for (jy = 1; jy < NY 1; jy++) { // 空間ループ (y) 境界を除く for (jx = 1; jx < NX 1; jx++) { // 空間ループ (x) 境界を除く FN[jx][jy] = 0.2 * (F[jx][jy] + F[jx 1][jy]+F[jx+1][jy]+F[jx][jy 1]+F[jx][jy+1]; } } swap(&f, &FN); // ダブルバッファを交換 } 30

31 SSE/AVX による SIMD プログラミング 31

32 コア内並列性の利用 : SIMD プログラミング SIMD = Single Instruction Multiple Data Multiple operations can be done simultaneously CPU アーキテクチャに大きく依存 Intel CPU では世代により, MMX SSE AVX TSUBAME2 nodes support SSE 富士通 SPARC プロセッサは違う SIMD 命令体系コンパイラが勝手に利用してくれる場合もあるが限定的基本的にアセンブリか intrinsics で書く gcc and Intel compilers supports special methods called intrinsics _mm_load_pd, _mm_mul_pd, _mm_add_pd 32

33 Basics of SSE With normal operations a = b+c; d = e+f; In SSE, 128 bit (16byte) packed type is used m128d value can contain 2 double values m128 value can contain 4 single values In AVX, 256 bit packed type is used With SSE operations ad = _mm_add_pd(be, cf); m128d type b c e + + = = f a d 33

34 SSE Operations Use gcc or Intel compiler m128d a = _mm_load_pd(p); Makes _m128d value that contains p[0], p[1] Hereafter, a0, a1 mean contents of a pd means packed double m128d c = _mm_add_pd(a, b); c0 = a0+b0; c1 = a1+b1; m128d c = _mm_mul_pd(a, b); c0 = a0*b0; c1 = a1*b1; (not dot product) mm_store_pd(p, a); p[0] = a0; p[1] = a1; Also there are packed single version Such as m128 a = _mm_load_ps(p); 34

35 SSE を使った行列積 With normal operations for (j = 0; j < n; j++) { for (l = 0; l < k; l++) { double blj = B[l+j*ldb]; for (i = 0; i< m; i++) { double ail = A[i+l*lda]; C[i+j*ldc] += ail*blj; } } } With SSE operations #include <emmintrin.h> #include <xmmintrin.h> : for (j = 0; j < n; j++) { for (l = 0; l < k; l++) { m128d bv = _mm_load_pd1(&b[l+j*ldb]); double *ap = &A[l*lda]; double *cp = &C[j*ldc]; for (i = 0; i< m; i+= 2) { m128d av = _mm_load_pd(ap); m128d cv = _mm_load_pd(cp); av = _mm_mul_pd(av, bv); cv = _mm_add_pd(cv, av); _mm_store_pd(cp, cv); ap += 2; cp += 2; } } } 35

36 OpenMP による共有メモリ並列プログラミング 36

37 OpenMP の利用可能な計算資源計算ノード一つのOpenMPプログラムが使えるのは一計算ノード中のCPUコアたち複数計算ノードを ( 一プログラムから ) 用いたい場合は MPIなどが必要ただし MPI より OpenMP のほうがとっつきやすい 37

38 OpenMP とは共有メモリモデルによる並列プログラミングAPI C 言語,C++, Fortranに対応並列化のための指示文や, ライブラリ関数指示文 :#pragma omp ~~ 基本はFork Joinモデル変数は基本的にスレッド間で共有以下を明示的に記述タスク分割スレッド間同期変数の共有プライベートの区別 38

39 OpenMP プログラムのコンパイル OpenMP 対応コンパイラは近年増加 PGIコンパイラ (pgcc) コンパイル時リンク時に mp オプション Intel コンパイラ (icc) コンパイル時リンク時に openmp オプション GCC 4.2 以降コンパイル時リンク時に fopenmp オプション 39

40 OpenMP 並列実行の基本 : 並列 Region #include <omp.h> int main() { A; #pragma omp parallel { B; } C; #pragma omp parallel D; E; } ここから 4threads で並列実行 B D C E A fork join #pragma omp parallelの直後の文ブロックは並列 Regionとなる並列 Regionから呼ばれる関数も並列実行 40

41 スレッド数の設定取得スレッド数の設定実行時に OMP_NUM_THREADS 環境変数に指定しておく全スレッド数の取得 omp_get_num_threads() 関数全体で何人いるか? 自スレッドの番号の取得 omp_get_thread_num() 関数 0 以上全スレッド数未満番号によって違う処理をさせることができる 41

42 OpenMP の指示文以下は並列 region 内で使われる #pragma omp critical 次のブロック文が critical section となる同時に critical section を実行できるのみは 1 スレッドのみとなる #pragma omp barrier スレッド間でバリア同期をとる : 全スレッドの進行がそろうまで待つただし並列 region の終わりでは, 自動的に全スレッドを待つ ( 暗黙の barrier) #pragma omp single 次のブロック文を 1 スレッドのみで実行する #pragma omp for ( 後述 ) 42

43 OpenMP のワークシェアリング構文 : for 単なる omp parallel よりも気軽に並列化の記述可能! { int s = 0; #pragma omp parallel { int i; #pragma omp for for (i = 0; i < 100; i++) { a[i] = b[i]+c[i]; } } } omp for の直後の for 文は, 複数スレッドにより並列実行される左のプログラムがもし 4 スレッドで実行されるならスレッドあたり 25 ずつ仕事ループ回数スレッド数が割り切れなくても ok omp parallel と omp for をまとめて omp parallel for とも書ける残念ながらどんな for でも対応できるわけではない詳細は次回以降 43

44 行列積の OpenMP による並列化三重ループの最外ループを並列化 #pragma omp parallel for nをスレッド間で分割することになる #pragma omp parallel for for (int j = 0; j < n; j++) { for (int l = 0; l < k; l++) { double blj = B[l+j*ldb]; for (int i = 0; i< m; i++) { double ail = A[i+l*lda]; C[i+j*ldc] += ail*blj; } } } A B C 行列 A は全スレッドによってアクセスされる 44

45 OpenMP 版行列積の性能 TSUBAME2 ノード上 (Xeon X GHz 12core) OMP_NUM_THREADS 環境変数によりスレッド数指定 (2mnk/ 経過時間 ) にて Flops 単位の速度を取得 Speed (GFlops) m=n=k=2000 固定スレッド数を変化 mm-omp 伸びがにぶるのは memory affinity の影響か Number of threads Speed (GFlops) スレッド m=n=k を変化 mm-omp m=n=k 性能低下はキャッシュの影響と推測 45 45

46 Diffusion の並列化について時間ステップ jt=0 jt=1 jt=20 これを並列化するには?? 空間ループを omp for で並列化が良い. 結果的に空間を分割して, スレッドたちで分担することになる. 時間ループに omp for をつけてはいけない! なぜか? 46

47 OpenMP 版 Diffusion for (jt = 0; jt < NT; jt++) { // 時間ループ #pragma omp parallel for for (jy = 1; jy < NY 1; jy++) { // 空間ループ (y) 境界を除く for (jx = 1; jx < NX 1; jx++) { // 空間ループ (x) 境界を除く FN[jx][jy] = 0.2 * (F[jx][jy] + F[jx 1][jy]+F[jx+1][jy]+F[jx][jy 1]+F[jx][jy+1]; } } // parallel for の効果はここまで swap(&f, &FN); // ダブルバッファを交換 } 47

48 For 指示文の補足情報 : #pragma omp forが書ける条件直後の for 文が canonical form ( 正準形 ) であること #pragma omp for for (var = lb; var rel-op b; incr-expr) body ここで incr-expr は ++var, --var, var++, var--, var+=c, var-=c など for (i = 0; i < n; i++) For 指示文可能! for (p = head; p!= NULL; p = p->next) For 指示文不可 Canonical form であってもプログラムの挙動の正しさはやはりプログラマの責任 48

49 OpenMP のまとめ逐次プログラムに +α することで複数コアを用いることができる #pragma 部分を読み飛ばせば逐次プログラムに戻る特にparallel forが強力うまくはまれば一行追加で性能が数倍に依存関係を壊さないか Race conditionをおこさないかはユーザの責任 49

50 MPI による分散メモリ並列プログラミング 50

51 スパコンシステムの多数の計算ノードを活用するには? 12core +54GB OpenMP 1408 node OpenMP は 1 ノードの中の CPU コアだけを使う 51

52 多数の計算ノードを活用するには? 1. ( 役割のそれぞれ違う ) 複数ジョブをバッチキューシステムに投入パラメータをそれぞれ変えて投入することをパラメータスイープと呼ぶジョブは独立に動き原則的に協調しない 2. 一つのジョブが複数ノードを使いたい時には分散メモリプログラミングを用いる MPI や Hadoop Hadoop はプロセス間の協調パターンが Map Reduce というパターンに限られる 52

53 MPI(message passing interface) とは分散メモリ並列プログラミングの規格 C, C++, Fortranに対応メッセージパッシングのためのライブラリ SPMDモデル. プロセス間の相互作用はメッセージで MPI 2 規格では, さらに RMA(remote memory access) が追加 53

54 科学技術演算でメジャーな MPI 京スパコン上で稼働中のソフトウェア ( 一部 ) ソフトウェア名説明並列化方法 feram 強誘電体 MD OpenMP STATE 第一原理 MD MPI+OpenMP FFVC 差分非圧縮熱流体 MPI+OpenMP GT5D 5 次元プラズマ乱流 MPI+OpenMP FrontFlow/blue 有限要素法非圧縮熱流体 MPI+ 京並列コンパイラ OpenFMO FMO 第一原理計算 MPI+OpenMP pspatiocyte 細胞内シグナル伝播計算 MPI+OpenMP NEURON_K+ 神経回路シミュレーション MPI+OpenMP SiGN L1 遺伝子ネットワーク推定 MPI+OpenMP NTChem/RI MP2 電子相関計算 MPI+OpenMP+ 並列 BLAS HPL Linpackベンチマーク MPI+ 並列 BLAS 54

55 MPI+OpenMP とは? TSUBAME では 1 ノード 12 コア京では 1 ノード 8 コアあるそれを有効利用するには? 1. MPI のみ使う図では 48 プロセス起動 MPI+OpenMP( ハイブリッド並列 ) 図では 4 プロセス起動しそれぞれが 12 スレッドの OpenMP 並列プロセス 3 スレッドなどもあり 1. より性能高い傾向にあるがプログラミング大変 55

56 OpenMP と MPI OpenMP 共有メモリモデルスレッド間のデータ移動は共有変数で排他制御によりrace conditionを防ぐ利用可能な並列度はノード内 (TSUBAME2では12CPUコア) #pragma を無視すると逐次プログラムとして動作する場合が多い MPI 分散メモリモデルプロセス間のデータ移動はメッセージで Critical sectionの代わりにメッセージで同期利用可能な並列度はノードを超える (TSUBAME2では10000CPUコア以上 ) 逐次プログラムを基にする場合全体の構造への大幅な変更が必要になりがち 56

57 MPI プロセスとメモリ複数のプロセスが同一プログラムを実行 (SPMD モデル ) プロセスごとに別のメモリ空間全ての変数 ( 大域変数局所変数 ) は各プロセスで別々プロセスには,0, 1, 2 という番号 (rank) がつく MPI_Comm_rank(MPI_COMM_WORLD, &rank); ランク取得 MPI_Comm_size(MPI_COMM_WORLD, &size); 全プロセス数取得 0 rank < size MPI_COMM_WORLD は, 全プロセスを含むプロセス集団 (= コミュニケータ ) メッセージの送信先, 受信元として rank を利用 57

58 MPI プログラムの概要 #include <stdio.h> #include <mpi.h> int main(int argc, char *argv[]) { Rank 0 Rank 1 Rank 2 Rank 3 MPI_Init(&argc, &argv); MPI の初期化 ( 計算通信 ) } MPI_Finalize(); MPI の終了 58

59 MPI の基本中の基本 : メッセージの送信受信 rank 0からrank1へ,int a[16] の中身を送りたい場合 rank0 側で MPI_Send(a, 16, MPI_INT, 1, 100, MPI_COMM_WORLD); rank1 側で MPI_Recv(b, 16, MPI_INT, 0, 100, MPI_COMM_WORLD, &stat); rank 0 rank 1 MPI_Send MPI_Recv 59

60 MPI_Send MPI_Send(a, 16, MPI_INT, 1, 100, MPI_COMM_WORLD); a: メッセージとして送りたいメモリ領域の先頭アドレス 16: 送りたいデータ個数 MPI_INT: 送りたいデータ型他には MPI_CHAR, MPI_LONG. MPI_DOUBLE, MPI_BYTE 1: メッセージの宛先プロセスのrank 100: メッセージにつけるタグ ( 整数 ) MPI_COMM_WORLD: コミュニケータ 60

61 MPI_Recv MPI_Status stat; MPI_Recv(b, 16, MPI_INT, 0, 100, MPI_COMM_WORLD, &stat); b: メッセージを受け取るメモリ領域の先頭アドレス十分な領域を確保しておくこと 16: 受け取るデータ個数 MPI_INT: 受け取るデータ型 0: 受け取りたいメッセージの送信元プロセスのrank 100: 受け取りたいメッセージのタグ. ユーザが決める整数 MPI_Send で指定したものと同じなら受け取れる MPI_COMM_WORLD: コミュニケータ &stat: メッセージに関する補足情報が受け取れる MPI_Recvを呼ぶと, メッセージが到着するまで待たされる ( ブロッキング ) 61

62 MPI_Recv のマッチング処理受信側には複数メッセージがやってくるかも受け取りたい条件を指定する受け取りたい送信元を指定するか,MPI_ANY_SOURCE ( 誰からでもよい ) 受け取りたいタグを指定するか,MPI_ANY_TAG( どのタグでもよい ) 0 source:0 tag:100 data source:2 tag:200 data 1 62

63 分散メモリと共有メモリの違い行列積 (C=AxB) の例共有メモリ : 計算をどうスレッドに分割するか分散メモリ : 計算とデータをどうプロセスに分割するか B B 0 B 1 A C A C 0 A C 1 行列 A は全スレッドによってアクセスされる行列 A は全プロセスに置かれる 63

64 分散メモリプログラミングとデータ配置 (mm mpi を題材に ) 配置方法を決める : A B C 行列 B, C は列方向でブロック分割しよう. A は全プロセスに複製を置こう. 実際の配置をプログラミング : B 0 B 1 B 2 B 3 A C 0 A C 1 A C 2 A C 3 64

65 データ分散とプログラミング m n 行列を p プロセスで分割するとはどういうことか? データ並びは column major とするここでは割り切れる場合を仮定各プロセスが持つのは,m (n/p) の部分行列 m*(n/p)*sizeof( データ型 ) のサイズの領域を malloc することに部分行列と全体行列の対応を意識する必要プロセス r の部分行列の (i,j) 要素全体行列の (i, n/p*r + j) 要素に対応全体のイメージ m n プロセスが持つ領域 (0,0) m n/p 65

66 MPI 版行列積 LB LC 配列が B C の部分行列だとする MPI_Init(&argc, &argv); : ln = n/nprocs; for (int j = 0; j < ln; j++) { for (int l = 0; l < k; l++) { double blj = B[l+j*ldb]; for (int i = 0; i< m; i++) { double ail = A[i+l*lda]; C[i+j*ldc] += ail*blj; } } } 66

67 Diffusion の MPI 化に向けて NX NY 時間 t-1 時間 t 隣の点の情報を用いて値更新並列化は基本的に空間分割プロセス間の境界が問題になる 67

68 Diffusion の並列化方針二次元配列をそれぞれ行方向分割 Double buffering 各プロセスが write する領域よりも read する領域が大きいプロセス間に依存関係 68

69 OpenMP ではどうだったかデータ構造は逐次と同じまま,for ループを並列化すればよい隣のスレッドのデータもそのまま読める, がスレッド間で足並みをそろえる必要 parallel regionの終了時に自動でそろえられていた ( バリア同期 ) 69

70 MPI による並列化 (1) 各プロセスは, 自分の担当領域配列を持つ最初と最後のプロセスは, 上下境界部分に注意端数処理隣プロセスのデータを読むためには,send/recv が必要袖領域 ( のりしろ領域 ) つきの配列を持つのがよい袖領域本来の境界 ( 左 ) 本来の境界 ( 右 ) 袖領域 70

71 MPI による並列化 (2) 簡単化のため, 以下ではのりしろ領域一行として説明 for (jt = 0; jt < NT; jt++) { 行 Bを前のプロセスへ送信, Dを次のプロセスへ送信行 Aを前のプロセスから受信,Eを次のプロセスから受信 ( 注 ) B D の全点を計算二つの配列の切り替え } A B C D E ( 注 ) 実はこれはデッドロックするダメなプログラム. デッドロック (deadlock) とは互いに待ちあってプログラムが進まなくなること 71

72 MPI のまとめ分散メモリモデル OpenMPでは処理の並列化のみ考えればよかった (parallel forを使えばそれすら考えていないかも ) MPIではさらにデータの分割を考える必要あり純粋にMPIを使う方法と MPI+OpenMPのハイブリッドにする方法あり 72

73 アクセラレータのプログラミング 73

74 アクセラレータのプログラミング環境乱立状況から最近二年ほどで収束の方向へ NVIDIA GPU Intel Xeon Phi AMD GPU CUDA OpenMP Intel Directive OpenCL OpenACC Open なんとかにより収束の方向へあるが依然専用環境のほうが性能が出やすい傾向に上記はすべてアクセラレータ 1 基向け複数アクセラレータ複数ノードのためには MPI+ なんとかなど 74

75 トップスパコンでのアクセラレータ利用 Intel Xeon Phi NVIDIA GPU /6 ランキング 75

76 CUDA による GPU プログラミング (TSUBAME スパコンの紹介も含む ) 76

77 GPU コンピューティングとはグラフィックプロセッサ (GPU) はグラフィックゲームの画像計算のために進化を続けてきた現在 CPU のコア数は 2~12 個に対し GPU 中には数百コアその GPU を一般アプリケーションの高速化に利用! GPGPU (General Purpose computing on GPU) とも言われる 2000 年代前半から研究としては存在 2007 年に NVIDIA 社の CUDA 言語がリリースされてから大きな注目 77

78 TSUBAME2 スーパーコンピュータ Tokyo Tech Supercomputer and UBiquitously Accessible Mass storage Environment ツバメは東京工業大学のシンボルマークでもある TSUBAME1: 2006 年 ~2010 年に稼働したスパコン TSUBAME2.0: 2010 年に稼働開始したスパコン 2010 年当初には世界 4 位日本 1 位の計算速度性能 TSUBAME2.5: 2013 年に GPU を最新へ入れ替え現在世界 13 位日本 2 位高性能の秘訣が GPU コンピューティング 78

79 TSUBAME2 スパコン GPU は様々な研究分野で利用されている気象シミュレーション動脈血流シミュレーション津波防災シミュレーション金属結晶凝固シミュレーションウィルス分子シミュレーショングラフ構造解析 79

93GHz 6コア x 2CPU=12 コア GPU: NVIDIA Tesla K20X x 3GPU CPU 0.07TFlops x 2 + GPU 1.

80 TSUBAME2.5 の計算ノード TSUBAME2.0は約 1400 台の計算ノード ( コンピュータ ) を持つ各計算ノードは CPUとGPUの両方を持つ CPU: Intel Xeon 2.93GHz 6コア x 2CPU=12 コア GPU: NVIDIA Tesla K20X x 3GPU CPU 0.07TFlops x 2 + GPU 1.31TFlops x 3 = 4.08TFlops 96% の性能が GPU のおかげメインメモリ (CPU 側メモリ ): 54GB SSD: 120GB ネットワーク : QDR InfiniBand x 2 = 80Gbps OS: SUSE Linux 11 (Linuxの一種) 80

81 GPU の特徴 (1) コンピュータにとりつける増設ボード単体では動作できず CPU から指示を出してもらう多数コアを用いて計算多数のコアを活用するために多数のスレッドが協力して計算メモリサイズは 1~12GB CPU 側のメモリと別なのでデータの移動もプログラミングする必要コア数メモリサイズは製品によって違う 81

82 GPU の特徴 (2) K20X GPU 1つあたりの性能計算速度 : 1.31 TFlops ( 倍精度 ) 3.95 TFlops ( 単精度 ) CPU は 20~100GFlops 程度コア数 : 14SMX x 192CUDA コア = 2688CUDA コアメモリ容量 : 6GB 2688 コアが 6GB のメモリを共有しているホストメモリとは別メモリバンド幅 : 約 250 GB/s CPU は 10~50GB/s 程度その他の特徴キャッシュメモリ (L1, L2) ECC CUDA, OpenAcc, OpenCL などでプログラミング以前の GPU にはキャッシュメモリが無かったので高速なプログラム作成がより大変だった 82

83 GPU の性能 NVIDIAの公開資料より CPU 版の同じ計算をするプログラムより数倍高速 CPU 版もすでに並列化されている ( はず ) 宣伝通りにいくかどうかは計算の性質とプログラミングの最適化しだいどうしても GPU に向かない計算はある 83

84 GPU を持つ計算機アーキテクチャ CPU GPU PCIe バス = ホストメモリデバイスメモリホストメモリとデバイスメモリは別の ( 分散 ) メモリ GPU 中の全 SMXはデバイスメモリを共有 SMX 中のCUDA coreはsimd 的に動作 84

85 プログラミング言語 CUDA NVIDIA GPU 向けのプログラミング言語 2007 年 2 月に最初のリリース TSUBAME2 で使えるのは V5.5 基本的に 1GPU 向け多数 GPU は CUDA+MPI などで標準 C 言語サブセット +GPGPU 用拡張機能 C 言語の基本的な知識 ( 特にポインタ ) は必要となります Fortran 版もあり nvcc コマンドを用いてコンパイルソースコードの拡張子は.cu CUDA 関連書籍もあり 85

86 サンプルプログラム : inc_seq.cu int 型配列の全要素を 1 加算 GPU であまり意味がない ( 速くない ) 例ですが #include <stdio.h> #include <stdlib.h> #include <cuda.h> #include <cuda_runtime.h> #define N (32) global void inc(int *array, int len) { int i; for (i = 0; i < len; i++) array[i]++; return; } int main(int argc, char *argv[]) { int i; int arrayh[n]; int *arrayd; size_t array_size; } for (i=0; i<n; i++) arrayh[i] = i; printf( input: ); for (i=0; i<n; i++) printf( %d, arrayh[i]); printf( n ); array_size = sizeof(int) * N; cudamalloc((void **)&arrayd, array_size); cudamemcpy(arrayd, arrayh, array_size, cudamemcpyhosttodevice); inc<<<1, 1>>>(arrayD, N); cudamemcpy(arrayh, arrayd, array_size, cudamemcpydevicetohost); printf( output: ); for (i=0; i<n; i++) printf( %d, arrayh[i]); printf( n ); return 0; 86

87 CUDA プログラム構成ホスト関数 + GPUカーネル関数二種類の関数がcuファイル内に混ざっているホスト関数 CPU 上で実行される関数ほぼ通常のC 言語 main 関数から処理がはじまる GPUに対してデータ転送 GPUカーネル関数呼び出しを実行 GPUカーネル関数 GPU 上で実行される関数 ( サンプルではinc 関数 ) ホストプログラムから呼び出されて実行 ( 単にカーネル関数と呼ぶ場合も ) 87

88 典型的な制御とデータの流れ CPU 上 GPU 上 (1) GPU 側メモリにデータ用領域を確保 (2) 入力データを GPU へ転送 (3) GPU カーネル関数を呼び出し (5) 出力を CPU 側メモリへ転送 global void kernel_func() { } return; (4) カーネル関数を実行入力出力入力出力 CPU 側メモリ ( メインメモリ ) GPU 側メモリ ( デバイスメモリこの2 種類のメモリの区別は常におさえておく 88

89 (1) CPU 上 : GPU 側メモリ領域確保 cudamalloc(void **devpp, size_t count) GPU 側メモリ ( デバイスメモリグローバルメモリと呼ばれる ) に領域を確保 devpp: デバイスメモリアドレスへのポインタ確保したメモリのアドレスが書き込まれる count: 領域のサイズ cudafree(void *devp) 指定領域を開放例 : 長さ 1024 の int の配列を確保 #define N (1024) int *arrayd; cudamalloc((void **)&arrayd, sizeof(int) * N); // arrayd has the address of allocated device memory 89

90 (2) CPU 上 : 入力データ転送 cudamemcpy(void *dst, const void *src, size_t count, enum cudamemcpykind kind) 先に cudamalloc で確保した領域に指定した CPU 側メモリのデータをコピー dst: 転送先デバイスメモリ src: 転送元 CPU メモリ count: 転送サイズ ( バイト単位 ) kind: 転送タイプを指定する定数ここでは cudamemcpyhosttodevice を与える例 : 先に確保した領域へ CPU 上のデータ arrayh を転送 int arrayh[n]; cudamemcpy(arrayd, arrayh, sizeof(int)*n, cudamemcpyhosttodevice); 90

91 (3) CPU 上 : GPU カーネルの呼び出し kernel_func<<<grid_dim, block_dim>>> (kernel_param1, ); kernel_func: カーネル関数名 kernel_param: カーネル関数の引数例 : カーネル関数 inc を呼び出し引数その 2 入力配列の長さ inc<<<1, 1>>>(arrayD, N); CUDA 特有な構文によりスレッド数を記述する詳しくは後で引数その 1 入力配列へのポインタ 91

92 (4) GPU 上 : カーネル関数 GPU 上で実行される関数 global というキーワードをつける注 : global の前後にはアンダーバー 2 つずつ GPU 側メモリのみアクセス可 CPU 側メモリはアクセス不可引数利用可能値の返却は不可 (void のみ ) 例 : int 型配列をインクリメントするカーネル関数 global void inc(int *array, int len) { int i; for (i = 0; i < len; i++) array[i]++; return; } 92

93 (5) CPU 上 : 結果の返却入力転送と同様にcudaMemcpyを用いるただし転送タイプは cudamemcpydevicetohost を指定例 : 結果の配列を CPU 側メモリへ転送 cudamemcpy(arrayh, arrayd, sizeof(int)*n, cudamemcpydevicetohost); 93

94 カーネル関数内でできることできないこと if, for, while などの制御構文は ok GPU 側メモリのアクセスは ok CPU 側メモリのアクセスは不可 inc_seq サンプルで arrayd と間違って arrayh をカーネル関数に渡してしまうとバグ!! ( 何が起こるか分からない ) ファイルアクセスなどは不可 printf は例外的に ok なのでデバグに役立つ関数呼び出しは device つき関数に対してなら ok CPU 上 CPU 側関数 global 関数 GPU 上 device 関数上図の矢印の方向にのみ呼び出しできる GPU 内から CPU 関数は呼べない device つき関数は返り値を返せるので便利 94

95 CUDA における並列化たくさんのスレッドが GPU 上で並列に動作することにより初めて GPU を有効活用できる inc_seq プログラムは 1 スレッドしか使っていないデータ並列性を基にした並列化が一般的例 : 巨大な配列があるとき各スレッドが一部づつを分担して処理高速化が期待できる一人の小人が大きな畑を耕す場合複数の小人が分担して耕すと速く終わる 95

96 CUDA におけるスレッド CUDA でのスレッドは階層構造になっているグリッドは複数のスレッドブロックから成るスレッドブロックは複数のスレッドから成るカーネル関数呼び出し時にスレッド数を二段階で指定 kernel_func<<<100, 30>>>(a, b, c); スレッドブロックの数 ( スレッドブロックあたりの ) スレッドの数この例では 100x30=3000 個のスレッドが kernel_funcを並列に実行する 96

97 サンプルプログラムの改良 inc_par は inc_seq と同じ計算を行うが N 要素の計算のために N スレッドを利用する点が違う #include <stdio.h> #include <stdlib.h> #include <cuda.h> #include <cuda_runtime.h> #define N (32) #define BS (8) global void inc(int *array, int len) { int i = blockidx.x * blockdim.x + threadidx.x; array[i]++; return; } int main(int argc, char *argv[]) { int i; int arrayh[n]; int *arrayd; size_t array_size; } for (i=0; i<n; i++) arrayh[i] = i; printf( input: ); for (i=0; i<n; i++) printf( %d, arrayh[i]); printf( n ); array_size = sizeof(int) * N; cudamalloc((void **)&arrayd, array_size); cudamemcpy(arrayd, arrayh, array_size, cudamemcpyhosttodevice); inc<<<n/bs, BS>>>(arrayD, N); cudamemcpy(arrayh, arrayd, array_size, cudamemcpydevicetohost); printf( output: ); for (i=0; i<n; i++) printf( %d, arrayh[i]); printf( n ); return 0; 97

98 inc_par プログラムのポイント (1) N 要素の計算のためにNスレッドを利用 inc<<<n/bs, BS>>>(...); グリッドサイズスレッドブロックサイズこの例では前もって BS=8 としたちなみに <<<N, 1>>> や <<<1, N>>> でも動くのだが非効率的であるちなみにこのままでは N が BS で割り切れないときに正しく動かないどう改造すればよいか? 98

99 inc_par プログラムのポイント (2) inc_par の並列化の方針 ( 通算で )0 番目のスレッドに array[0] の計算をさせる 1 番目のスレッドに array[1] の計算 : N 1 番目のスレッドに array[n 1] の計算配列 array 各スレッドは自分は通算で何番目のスレッドか? を知るために下記を計算使いまわせる i= blockidx.x * blockdim.x + threadidx.x; 便利な式 1スレッドは array[i] の1 要素だけ計算 forループは無し 99

100 なぜ CUDA ではスレッドが二段階かハードウェアの構造に合わせてあるハードウェア ( 数値は K20X の場合 ): 1 GPU = 14 SM 1 SM = 192 CUDA core CUDA のモデル : 1 Grid = 複数 thread block 1 thread block = 複数 thread GPU の構造 1 スレッドブロックは必ず 1SM 上で動作 ( 複数スレッドブロックが SM を共有するのはあり ) 1 スレッドは必ず 1 CUDA core で動作 ( 複数スレッドが CUDA core を共有するのはあり ) 100

101 スレッド数はどう決めればよい? CPU ではスレッド数 > コア数にしても効率は上がらないかむしろ下がるグリッドサイズが 14 以上かつスレッドブロックサイズが 192 以上の場合に効率的 K20X GPU では GPU 中の SM 数 =14 SM 中の CUDA core 数 =192 なのでぎりぎりよりも数倍以上にしたほうが効率的な場合が多い ( ベストな点はプログラム依存 ) 理由はメモリアクセスのオーバーラップができるからメモリ待ちでプロセッサが待つ代わりに他のスレッド達を実行できる CPU でも hyperthreading で同様の効果あるがせいぜいコアあたり 2 ハードウェアスレッド 101

102 CUDA 版行列積の考え方 ( 例 ) 行列 B CPU 版 : C 全体を計算するためには三重のforループ行列 A 行列 C CUDA 版 : m*n 個のスレッドを立ち上げ各自がCの一点のみを計算すればよいカーネルの中身は一重ループ 102

103 CUDA 版 Diffusion の考え方時間ステップ jt=0 jt=1 jt=20 時間ループは順序そのまま空間ループをスレッドたちで分割 NX*NY 個のスレッドを起動することにすればカーネル内にはループなし! 103

104 CUDA 版 diffusion の流れ CPU 上で配列確保初期条件作成 cudamallocでgpuメモリ上の領域確保 ( 配列二枚分 ) 初期条件の二次元格子データをCPUからGPUへ (cudamemcpy) For (jt = 0; jt < NT; jt++) // 時間ループ全格子点をGPUで計算 // <<< >>> 構文を使う二つのバッファを交換結果の二次元格子データをGPUからCPUへ (cudamemcpy) 時間ループの中に ( 格子全体の )cudamemcpy を置くと非常に遅い 104

105 CUDA ではコア間並列と SIMD 並列は統一的あたかも各スレッドは独立に動いているように見えるスレッドブロック内のブロック達は ( プログラマからは見えないが )32 スレッドごとの塊 (warp) 単位で動作している Warp の中の 32 スレッドは常に足並みをそろえて動いている If 文などの分岐があるとどうなる? Warp 内のスレッド達の意見がそろうかそろわないかで動作が異なる 105

106 GPU 上の if 文の実行のされ方 (a) スレッド達の意見がそろう場合全員 xxx>100 だとする : : if (xxx > 100) { : : : } else { } : : : : : Else 部分は実行せずに飛ばす (b) スレッド達の意見が違う場合あるスレッドでは yyy>100 だが別スレッドは違う場合 : : if (yyy > 100) { : : : } else { : : : } : : 一部スレッドを眠らせて Then も else も両方実行これを divergent 分岐と呼ぶ 106

107 Divergent 分岐はなぜ非効率? CPUの常識では if 文はthen 部分とelse 部分の片方しか実行しないので片方だけの実行時間がかかる Divergent 分岐があると then 部分とelse 部分の両方の時間がかかってしまう 107

108 GPU のメモリは実はもっと複雑スレッドが階層化されているのと同様メモリも階層化されているスレッド固有レジスタ局所変数を格納高速だが容量小ブロック内共有共有メモリ本スライドで登場高速だが容量小 (L1キャッシュ) グリッド内 ( 全スレッド ) 共有グローバルメモリ global 変数や cudamallocで利用容量大きいが低速 (L2キャッシュ) それぞれ速度と容量にトレードオフ有 ( 高速 & 小容量 vs. 低速 & 大容量 ) Host (Device) Grid Block (0, 0) レジスタ Thread (0, 0) 共有メモリレジスタ Thread (1, 0) Block (1, 0) レジスタ Thread (0, 0) 共有メモリレジスタ Thread (1, 0) グローバルメモリ ( 本スライドではデバイスメモリとも呼ぶ ) メモリアクセスの局所性が重要 108 Source: Kirk and Hwu, ECE 498AL, UIUC

109 CUDA のまとめ NVIDIA GPU 用の最も普及したプログラミング環境ホストメモリとデバイスメモリは別の ( 分散 ) メモリ GPU 上の仕事 ( カーネル関数 ) を呼び出すときは <<<, >>> 構文ここがC 言語から逸脱多数 ( 数百万 ) のスレッドを起動可能なため元プログラムのループそのものが消える場合も 109

110 OpenACC によるアクセラレータプログラミング 110

111 OpenACC の特徴 2012 年ごろに発足まだいろいろ流動的アクセラレータの種類を問わずに動作可能ディレクティブ (#pragma acc XXX) によりプログラミング OpenMP 的ディレクティブを読み飛ばせば CPU 用の逐次プログラムとして動く今後要注目!! 111

112 OpenACC 対応コンパイラ PGIコンパイラ 2013 年 PGI 社をNVIDIAが買収 NVIDIAは本気らしい CAPS 社 HMPPコンパイラ Crayコンパイラ上記は残念ながら有料無料 OpenACC コンパイラプロジェクトも動いている 112

113 行列積 OpenMP 版 #pragma omp parallel for for (int j = 0; j < n; j++) { for (int l = 0; l < k; l++) { double blj = B[l+j*ldb]; for (int i = 0; i< m; i++) { double ail = A[i+l*lda]; C[i+j*ldc] += ail*blj; } } } OpenACC 版 #pragma acc data copyin(a[0:m*k], B[0:k*n]) copyout(c[0:m*n]) #pragma acc kernels loop independent for (int j = 0; j < n; j++) { #pragma acc loop independent for (int l = 0; l < k; l++) { double blj = B[l+j*ldb]; for (int i = 0; i< m; i++) { double ail = A[i+l*lda]; C[i+j*ldc] += ail*blj; } } } 113

114 Intel Xeon Phi について少々 114

115 Intel Xeon Phi Intel 社のアクセラレータ Larrabee プロジェクトの後継現状は GPUに似た拡張ボード型ホストメモリとデバイスメモリは別 GPU との大きな違いボード上でLinuxが動いておりボードにログインできる約 60 個のコアを持っており各コアはIntel x86 互換一コアあたり 4 hyper thread で Linux から見ると 240 コア共有メモリマシン! 115

116 Xeon Phi 上の主に 2 種類の Native モードプログラミング手法ボードにログインしてふつうの共有メモリマシンとして利用 OpenMPプログラムが動く Offload モード Intelコンパイラのディレクティブ付プログラムを開発しホスト側から実行ディレクティブで指定された部分がXeon Phi 上で実行される OpenACCとほぼ同じ実行モデル 116

117 ここまでのまとめ様々な並列プログラミング環境を駆け足で解説した OpenMP, MPI, AVX/SSE, CUDA, OpenACC 種類が多いのは現代の計算機アーキテクチャの複雑さ階層性に対応しているアクセラレータのプログラミング環境は乱立収束しつつあるか? 117

118 遠藤らの最近の研究 : ポストペタスケール時代のメモリ階層の深化に対応するソフトウェア技術 JST CREST ポストペタスケール高性能計算に資するシステムソフトウェア技術の創出 ( ) 118

119 広範な応用を持つステンシル計算ステンシル計算 : 連続体シミュレーションを中心とする様々な科学分野計算において重要なカーネル各格子点の更新を行うためには前の時間ステップにおける近傍の値を必要. 気象コード ASUCA Phase Field 計算 (2011 Gordon Bell 賞 ) 都市気流シミュレーション (HPCS 2013 最優秀論文 ) 119

250GB/s 4200 高い演算速度 : 3930GFlops(SP) 4200

120 アクセラレータを持つスパコン東工大 TSUBAME2 スパコン 2 CPU 3GPU 1408 = 世界一の Tianhe 2, 二位 Titan, 筑波 HA PACS Green500 の Top10 全部がアクセラレータ型スパコンステンシル計算に向く理由 GPU アクセラレータの特徴利用高いメモリバンド幅 : 250GB/s 4200 高い演算速度 : 3930GFlops(SP) 4200 マルチ GPU 時でも良好な計算通信比領域分割隣接のみの通信なので通信量のオーダーは一つ低い 120

4PFlop/s(SP) 都市気流シミュレーションステンシル (LBM) 要求 B/F=1.

121 TSUBAME2 上のステンシルアプリケーション例デンドライトシミュレーション 2011Gordon Bell 賞アプリ 4000GPU で 3.4PFlop/s(SP) 都市気流シミュレーションステンシル (LBM) 要求 B/F= PFlops/s 速度性能は ok しかし精細度は 6GB 4000 に縛られる GPU メモリ容量が 10 倍欲しい! 121

122 デバイスメモリ容量による限界格子の細かさは GPU デバイスメモリ容量により限定される TSUBAME2.5: 6GB 4000 = 24TB シミュレーションの精度を上げるためもっと格子を細かくしたい! MPI+CUDA でかかれた典型的ステンシルプログラム実行中の様子計算ノードデバイスメモリデバイスメモリ cudamemcpy MPI 通信 MPIプロセスホストメモリホストメモリホストメモリの容量 (TSUBAME2では計 100TB) を活用できればさらに高精細なシミュレーション可能! 122

123 メモリ階層としてのデバイスメモリとホストメモリ CPUs GPU cores L2$ 1.5MB Dev mem 6GB Host memory 54GB 250GB/s 8GB/s デバイスメモリホストメモリ間でスワップ機能があれば大容量使えそうしかし問題!! [ 機能面 ] 現状 GPU にスワップ機能なし [ 性能面 ] ステンシルで単純にスワップすると性能がひどいことに! 1GPUで3D7 点ステンシルデバイス内手動スワップアウト発生二次記憶 GPU コアから見ると PCIe(8GB/s) の向こうにある大きいメモリデバイスメモリ容量超えたとたんに性能 1/30 123

エクサ時代へ向けたメモリ階層の深化アクセラレータ型スパコンだけの問題ではない Hybrid Memory Cube (HMC)

(NVRAM) DRAMと異なる記憶方式アクセス速度密度 write 耐性まちまち STT MRAM ReRAM 他 PCM,

1 10 100 1000 10000 メモリ容量 (GB) いずれも 2018 年ごろの見積もり高速 Flash メモリ PCI

124 エクサ時代へ向けたメモリ階層の深化アクセラレータ型スパコンだけの問題ではない Hybrid Memory Cube (HMC) DRAM チップの 3D 積層化による高帯域化 DDR より電力あたり容量は不利 Micron/Intel など次世代不揮発メモリ (NVRAM) DRAMと異なる記憶方式アクセス速度密度 write 耐性まちまち STT MRAM ReRAM 他 PCM, FeRAM メモリ帯域 (GB/s) DDR? メモリ容量 (GB) いずれも 2018 年ごろの見積もり高速 Flash メモリ PCI Express 直接接続デバイス並列化により O(GB/s) の帯域 Solid State Accelerator(SSA) とも Fusion io 社 iodrive 124

125 目標 : ステンシル計算において問題大規模性と高性能性を両立するには? 125

126 1GPU 上の単純なステンシル計算と大容量対応典型的な処理の流れホストデバイス時間ループ各点計算境界をMPI 通信ハンドコーディングで大容量対応するには? 各ランクの担当領域をさらに細切れにしちょっとずつGPUへ送って計算時間ループ部分領域ループホストデバイス各点計算デバイスホスト境界を MPI 通信デバイスホスト 126

127 単純なステンシル計算の性能 TSUBAME2.5 上のTesla K20X GPUを1GPU 利用 3D 立方体領域で7 点ステンシルを実行ふつうのステンシル実装はデバイスメモリ容量超えられないデバイスメモリ容量超えられる実装は激しく低性能!! 単純なステンシルの局所性の低さが問題通信削減技術との組み合わせが必要この文脈ではメモリ階層間のデータ移動削減 (not MPI) 127

128 テンポラルブロッキングによる局所性向上データがO(1) 回だけアクセスされてデバイスメモリから追い出されるのが問題通信削減の必要!(Demmelsグループ等) テンポラルブロッキング : 部分領域に対し複数回時間ステップを進めてしまう [Wolf 91] [Wonnacott 00] など以下ブロッキング段数を k とする Step 1 Step 2 Step 3 Step 4 一部だけ k ステップ進めてしまう Simulated time 隣接データに依存している関係で冗長計算が発生注 ) s step Krylov 部分空間法と性質は似ているがこちらは元の方法と完全に同じ結果 128

129 テンポラルブロッキング導入に伴う少容量版ホストデバイス時間ループ各点計算境界を MPI 通信ユーザプログラム変更大容量 ( 遅い ) 版時間ループ部分領域ループホストデバイス各点計算デバイスホスト TB 版時間ループ ( 外 ) Nt/k 回部分領域ループホストデバイス時間ループ ( 内 ) k 回各点計算 ( 冗長計算含む ) デバイスホスト境界を MPI 通信デバイスホスト境界を MPI 通信転送回数を 1/k に 129

130 テンポラルブロッキング導入時の性能 Tesla M2050を1GPU 用い 3D 立方体領域で7 点ステンシルブロッキング段数 kについては各条件のパラメータスイープより決定 Speed (GFlops) Problem Size (GB) デバイスメモリ容量限界 8~10 倍!!! Common Naïve TB テンポラルブロッキングにより大規模時の性能大幅アップ!! 130

131 チューニングすべきパラメータ時間ブロックサイズ k k が小さいと通信量減らせず k が大きいと冗長計算が増えてしまうトレードオフひたすらパラメータスイープ条件によって最適点は異なり k~100 の場合もキャッシュ効率向上をメインにした既存研究では k=2~8 一辺サイズ最適なk 空間ブロックサイズ三次元空間を今回は z 方向のみで分割ブロック体積 2 GPU デバイスメモリ容量 x, y, z 分割するともっとパラメータ膨大 131

132 テンポラルブロッキングの最適化冗長計算の除去 (Wolf ら Demmels ら北大岩下ら ) 前提 : 各ブロックが逐次的に処理されること Step 1 Step 2 Step 3 Step 4 Step 1 Step 2 Step 3 Step 4 Reuses results of previous block ブロック用配列のシフト利用により配列サイズ削減 [Jin,Endo,Matsuoka 13] Buffer size Buffer size GPU カーネル内でレジスタを利用し 2step 分計算つまり二重のテンポラルブロッキング 132

133 最適化 TB 版の性能 3D 7point stencil on a K20X GPU Speed (GFlops) Problem Size (GB) Common Naïve TB TB Opt 最適化 TB 版ではデバイスメモリ容量の 7 倍の問題サイズ ( 体積 ) をたった ~20% のオーバヘッドで計算!! 133

134 マルチ GPU での性能 [Cluster13] GPU 100 個使うときの容量限界は 6GB x 100 = 600GB テンポラルブロッキングを使えばそれを超えられる 20 TSUBAME2.5 上の Weak scalability Small: 3.4GB per GPU Large: 16GB per GPU (>6GB!) ノードあたり 1GPU 利用問題サイズ 3TB で 14TFlops Speed (GFlops) The number of GPUs Small Large 192GPU でも良好なスケーリング!! TSUBAME2 の 4000GPU で実験予定 134

135 メモリウォール問題により高性能と大問題サイズは今後ますますトレードオフにアルゴリズムシステムソフトウェアアーキテクチャにまたがった codesign が必要複雑化するアーキアルゴリズム上の自動チューニングへの期待通信削減アルゴリズムシステムソフト Auto Tuning HMC NVRAM などアーキテクチャ分野への要件のフィードバック局所性向上の自動化パッケージ化によりアプリシミュレーション分野へのフィードバック TSUBAME3.0 などポストペタスパコンのデザインへのフィードバック 135

136 全体の終わりに高性能計算の概観をかけ足でおこなった取り上げられなかった点キャッシュメモリとそれに応じた最適化ビッグデータへの対応並列分散ファイルシステム MapReduce プログラミングモデル PGAS (partitioned global address space) プログラミング言語と高性能計算の分野間で話が通じる一助となれば 136

TSUBAME2.0におけるGPUの活用方法

TSUBAME2.0におけるGPUの活用方法 GPU プログラミング基礎編東京工業大学学術国際情報センター 1. GPU コンピューティングと TSUBAME2.0 スーパーコンピュータ GPU コンピューティングとはグラフィックプロセッサ (GPU) はグラフィックゲームの画像計算のために進化を続けてきた現在 CPU のコア数は 2~12 個に対し GPU 中には数百コアその GPU を一般アプリケーションの高速化に利用! GPGPU