Fundamental MPI 1 概要 MPI とは MPI の基礎 :Hello World 全体データと局所データタ グループ通信 (Collective Communication) 1 対 1 通信 (Point-to-Point Communication)
|
|
|
- しょうぶ あると
- 8 years ago
- Views:
Transcription
1 MPI 超 入門 (C 言語編 ) 東京大学情報基盤センター FOTRAN 編は以下 tokyo pdf
2 Fundamental MPI 1 概要 MPI とは MPI の基礎 :Hello World 全体データと局所データタ グループ通信 (Collective Communication) 1 対 1 通信 (Point-to-Point Communication)
3 Fundamental MPI 2 MPI とは (1/2) Message Passing Interface 分散メモリ間のメッセージ通信 API の 規格 プログラム, ライブラリ, そのものではない h h / h / j/ i j t t l 歴史 1992 MPI フォーラム 1994 MPI-1 規格 1997 MPI-2 規格 ( 拡張版 ), 現在は MPI-3 が検討されている 実装 mpich アルゴンヌ国立研究所 LAM 各ベンダー C/C++,FOTRAN,Java ; Unix,Linux,Windows,Mac OS
4 Fundamental MPI 3 MPI とは (2/2) 現状では,mpich( p フリー ) が広く使用されている 部分的に MPI-2 規格をサポート 2005 年 11 月から MPICH2 に移行 MPI が普及した理由 MPI フォーラムによる規格統一 どんな計算機でも動く FORTRAN,C からサブルーチンとして呼び出すことが可能 mpich の存在 フリー, あらゆるアーキテクチュアをサポート 同様の試みとして PVM(Parallel Virtual Machine) があっ同様試 ( ) あたが, こちらはそれほど広がらず
5 Fundamental MPI 4 参考文献 P.Pacheco MPI 並列プログラミング, 培風館,2001( 原著 1997) W.Gropp 他 Using MPI second edition,mit Press, M.J.Quinn Parallel Programming in C with MPI and OpenMP, McGrawhill, W.Gropp 他 MPI:The Complete Reference Vol.I, II,MIT Press, API(Application ( Interface) ) の説明
6 Fundamental MPI 5 文法 MPI を学ぶにあたって (1/2) MPI-1 の基本的な機能 (10 程度 ) について習熟する MPI-2 では色々と便利な機能があるが あとは自分に必要な機能について調べる, あるいは知っている人, 知っていそうな人に尋ねる 実習の重要性 プログラミング その前にまず実行してみること SPMD/SIMD のオペレーションに慣れること つかむ こと Single Program/Instruction Multiple Data 基本的に各プロセスは 同じことをやる が データが違う 大規模なデータを分割し, 各部分について各プロセス ( プロセッサ ) が計算する 全体データと局所データ, 全体番号と局所番号
7 Fundamental MPI 6 PE: Processing Element プロセッサ, 領域, プロセス SPMD mpirun -np M <Program> この絵が理解できればMPIは 9 割方理解できたことになる コンピュータサイエンスの学科でもこれを上手に教えるのは難しいらしい PE #0 PE #1 PE #2 PE #M-1 Program Program Program Program Data #0 Data #1 Data #2 Data #M-1 各プセスは 同じとをやるが デ各プロセスは 同じことをやる が データが違う 大規模なデータを分割し, 各部分について各プロセス ( プロセッサ ) が計算する通信以外は, 単体 CPU のときと同じ, というのが理想
8 Fundamental MPI 7 用語 プロセッサ, コア ハードウェアとしての各演算装置 シングルコアではプロセッサ=コア プロセス MPI 計算のための実行単位, ハードウェア的な コア とほぼ同義 しかし 1 つの プロセッサ コア で複数の プロセス を起動する場合もある ( 効率的ではないが ) PE(Processing Element) 本来, プロセッサ の意味なのであるが, 本講義では プロセス の意味で使う場合も多い 次項の 領域 とほぼ同義でも使用 マルチコアの場合は : コア =PE という意味で使うことが多い 領域 プロセス とほぼ同じ意味であるが,SPMD の MD のそれぞれ一つ, 各データ の意味合いが強い しばしば PE と同義で使用 MPI のプロセス番号 (PE 番号, 領域番号 ) は 0 から開始 したがって 8 プロセス (PE, 領域 ) ある場合は番号は 0~7
9 Fundamental MPI 8 PE: Processing Element プロセッサ, 領域, プロセス SPMD mpirun -np M <Program> この絵が理解できればMPIは 9 割方理解できたことになる コンピュータサイエンスの学科でもこれを上手に教えるのは難しいらしい PE #0 PE #1 PE #2 PE #M-1 Program Program Program Program Data #0 Data #1 Data #2 Data #M-1 各プセスは 同じとをやるが デ各プロセスは 同じことをやる が データが違う 大規模なデータを分割し, 各部分について各プロセス ( プロセッサ ) が計算する通信以外は, 単体 CPU のときと同じ, というのが理想
10 Fundamental MPI 9 MPI を学ぶにあたって (2/2) 繰り返すが, 決して難しいものではない 以上のようなこともあって, 文法を教える授業は2~3 回程度で充分と考えている ( 今回はもっと短い : 正味 90 分くらいか ) とにかくSPMDの考え方を掴むこと!
11 Fundamental MPI 10 内容 環境管理 グループ通信 Collective Communication 1 対 1 通信 Point-to-Point Communication
12 Fundamental MPI 11 MPI とは MPI の基礎 :Hello World 全体データと局所データタ グループ通信 (Collective Communication) 1 対 1 通信 (Point-to-Point Communication)
13 Fundamental MPI 12 まずはプログラムの例 hello.f implicit REAL*8 (A-H,O-Z) include 'mpif.h integer :: PETOT, my_rank, ierr call MPI_INIT (ierr) call MPI_COMM_SIZE (MPI_COMM_WORLD, PETOT, ierr ) call MPI_ COMM_ RANK (MPI_ COMM_ WORLD, my_ rank, ierr ) write (*,'(a,2i8)') 'Hello World FORTRAN', my_rank, PETOT call MPI_FINALIZE (ierr) stop end hello.c #include "mpi.h" #include <stdio.h> int main(int argc, char **argv) { int n, myid, numprocs, i; } MPI_Init(&argc,&argv); MPI_Comm_size(MPI_COMM_WORLD,&numprocs); MPI_Comm_rank(MPI_COMM_WORLD,&myid); COMM printf ("Hello World %d n", myid); MPI_Finalize();
14 Fundamental MPI hello.f/c をコンパイルしてみよう! >$ cd <$FVM>/S1 >$ mpicc Os -noparallel hello.c >$ mpif90 Oss noparallel hello.f FORTRAN $> mpif90 Oss -noparallel a hello.f mpif90 : FORTRAN90+MPIによってプログラムをコンパイルする際に必要な, コンパイラ, ライブラリ等がバインドされている C 言語 $> mpicc Os -noparallel hello.c mpicc : C+MPI によってプログラムをコンパイルする際に必要な, コンパイラ, ライブラリ等がバインドされている 13
15 Fundamental MPI ジョブ実行 実行方法 基本的にバッチジョブのみ インタラクティヴの実行は 基本的に できません 実行手順 ジョブスクリプトを書きます ジョブを投入します ジョブの状態を確認します 結果を確認します その他 実行時には1ノード (16コア) が占有されます 他のユーザーのジョブに使われることはありませんのジョブに使われることはありません 14
16 Fundamental MPI ジョブスクリプト <$FVM>/S1/hello.sh スケジューラへの指令 + シェルスクリプト #@$-r hello 実行ジョブ名 (qstatで表示) #@$-q lecture 実行キュー名 #@$-N 1 使用ノード数 #@$-J T4 ノードあたり MPI プロセス数 (T1~T16) T16) #@$-e err 標準エラー出力ファイル名 #@$-o hello.lst 標準出力ファイル名 #@$-lm 28GB 1ノードあたりメモリ使用量 ( 固定 ) #@$-lt 00:05:00 実行時間 ( 上限 15 分, この場合は5 分 ) #@$ cd $PBS_O_WORKDIR mpirun numactl --localalloc./a.out 実行ディレクトリ移動 mpirun 15
17 Fundamental MPI ジョブスクリプト ( 詳細 ) #@$-r hello 実行ジョブ名 (qstatで表示) #@$-q lecture 実行キュー名 #@$-N 1 使用ノード数 #@$-J T4 #@$-e err 標準エラー出力ファイル名 #@$-o hello.lst 標準出力ファイル名 #@$-lm 28GB 1ノードあたりメモリ使用量 ( 固定 ) #@$-lt 00:05:00 実行時間 ( 上限 15 分, この場合は5 分 ) #@$ ノードあたり MPI プロセス数 (T1~T16) cd $PBS_ O_ WORKDIR mpirun numactl --localalloc./a.out 実行ディレクトリ移動 mpirun mpirun np XX は不要 :N J がプロセス数 普通は mpirun np 4 a.out のように走らせる 16
18 Fundamental MPI ジョブ投入 >$ cd <$FVM>/S1 >$ qsub hello.sh >$ cat hello.lst l Hello World 0 Hello World 3 Hello World 2 Hello World 1 17
19 Fundamental MPI 利用可能なキュー hello 実行ジョブ名 (qstatで表示) lecture 実行キュー名 1 使用ノード数 T4 ノードあたり MPI プロセス数 (T1~T16) 以下の 2 種類のキューを利用可能 lecture 4 ノード (64 コア ),15 分, アカウント有効期間中利用可能 1 回に 1 ジョブのみ実行可能 ( 全教育ユーザーで共有 ) tutorial 4ノード(64コア),15 分, 講義時間のみ lecture よりは多くのジョブを投入可能 ( 混み具合による ) 18
20 Fundamental MPI ジョブ投入, 確認等 ジョブの投入 qsub スクリプト名 ジョブの確認 qstat キューの状態の確認 qstat b ジョブの取り消し 強制終了 qdel ジョブID [t15026@ha S1]$ qstat -b 2008/08/24 (Sun) 12:59:33: BATCH QUEUES on HA8000 cluster NQS schedule stop time : 2008/08/29 (Fri) 9:00:00 (Remain: 116h 0m 27s) QUEUE NAME STATUS TOTAL RUNNING RUNLIMIT QUEUED HELD IN-TRANSIT lecture AVAILBL lecture5 STOPPED [t15026@ha S1]$ qsub go.sh Request batch1 submitted to queue: lecture. [t15026@ha S1]$ qstat 2008/08/24 (Sun) 12:59:43: REQUESTS on HA8000 cluster NQS schedule stop time : 2008/08/29 (Fri) 9:00:00 (Remain: 116h 0m 17s) REQUEST NAME OWNER QUEUE PRI NICE CPU MEM STATE batch1 S1-3 t15026 lecture 0 0 unlimit it 28GB QUEUED [t15026@ha S1]$ qdel deleting request batch1. [t15026@ha S1]$ qstat 2008/08/24 (Sun) 12:59:51: REQUESTS on HA8000 cluster NQS schedule stop time : 2008/08/29 (Fri) 9:00:00 (Remain: 116h 0m 9s) REQUEST NAME OWNER QUEUE PRI NICE CPU MEM STATE No requests. 19
21 Fundamental MPI 結果確認 ジョブが終了するとメールがきます ジョブスクリプトに mu オプションを書けば任意のメールアドレスに送信できます ~/.forward を設定しておけばオプションを書かなくても自分のメールアドレスに送信できます 結果の確認 標準出力 : 標準エラー出力 20
22 Fundamental MPI 21 環境管理ルーチン + 必須項目 implicit REAL*8 (A-H,O-Z) include 'mpif.h integer :: PETOT, my_rank, ierr call MPI_INIT (ierr) call MPI_COMM_SIZE (MPI_COMM_WORLD, PETOT, ierr ) call MPI_COMM_RANK (MPI_COMM_WORLD, my_rank, ierr ) write (*,'(a,2i8)') 'Hello World FORTRAN', my_rank, PETOT call MPI_FINALIZE (ierr) stop end #include "mpi.h" #include <stdio.h> int main(int argc, char **argv) { int n, myid, numprocs, i; MPI_Init(&argc,&argv); MPI_Comm_size(MPI_COMM_WORLD,&numprocs); MPI_Comm_rank(MPI_COMM_WORLD,&myid); mpif.h, mpi.h 環境変数デフォルト値 FORTRAN90ではuse mpi 可 MPI_InitInit 初期化 MPI_Comm_size _ プロセス数取得 mpirun -np XX <prog> MPI_Comm_rank プロセス ID 取得自分のプロセス番号 (0 から開始 ) MPI_Finalize MPI プロセス終了 } printf ("Hello World %d n", myid); MPI_Finalize();
23 Fundamental MPI 22 FORTRAN/C の違い 基本的にインタフェースはほとんど同じ Cの場合, MPI_Comm_size のように MPI は大文字, MPI_ のあとの最初の文字は大文字, 以下小文字 FORTRANはエラーコード (ierr) の戻り値を引数の最後に指定する必要がある 最初に呼ぶ MPI_INIT だけは違う call MPI_INIT (ierr) MPI_Init (int *argc, char ***argv)
24 Fundamental MPI 23 #include "mpi.h" #include <stdio.h> int main(int argc, char **argv) { int n, myid, numprocs, i; 何をやっているのか? MPI_Init(&argc,&argv); MPI_Comm_size(MPI_COMM_WORLD, COMM &numprocs); MPI_Comm_rank(MPI_COMM_WORLD, &myid); } printf ("Hello World %d n", myid); MPI_Finalize(); #@$-r hello 実行ジョブ名 (qstatで表示) mpirun -np 4 <prog> により4つのプロセ #@$-q lecture 実行キュー名 #@$-N 1 使用ノード数スが立ち上がる ( 今の場合は T4) #@$-J T4 #@$-e err 標準エラー出力ファイル名 #@$-o hello.lst 標準出力ファイル名 #@$-lm 28GB 1ノードあたりメモリ使用量 ( 固定 ) #@$-lt 00:05:00 実行時間 ( 上限 15 分, この場合は 5 分 ) #@$ ノードあたり MPI プロセス数 (T1~T16) cd $PBS_O_WORKDIR mpirun numactl --localalloc./a.out 実行ディレクトリ移動 mpirun 同じプログラムが4つ流れる データの値 (my_rank) を書き出す 4つのプロセスは同じことをやっているが, データとして取得したプロセスID(my_rank) は異なる 結果として各プロセスは異なった出力をやっていることになる まさにSPMD
25 Fundamental MPI 24 mpi.h,mpif.hmpif.h implicit REAL*8 (A-H,O-Z) include 'mpif.h integer :: PETOT, my_rank, ierr call MPI_INIT (ierr) call MPI_COMM_SIZE (MPI_COMM_WORLD, PETOT, ierr ) call MPI_COMM_RANK (MPI_COMM_WORLD, my_rank, ierr ) write (*,'(a,2i8)') 'Hello World FORTRAN', my_rank, PETOT call MPI_FINALIZE (ierr) stop end #include "mpi.h" #include <stdio.h> int main(int argc, char **argv) { int n, myid, numprocs, i; } MPI_Init(&argc,&argv); MPI_Comm_size(MPI_COMM_WORLD,&numprocs); MPI_Comm_rank(MPI_COMM_WORLD,&myid); printf ("Hello World %d n", myid); MPI_Finalize(); MPIに関連した様々なパラメータおよび初期値を記述 変数名は MPI_ で始まっている ここで定められている変数は,MPI サブルーチンの引数として使用する以外は陽に値を変更してはいけない ユーザーは MPI_ で始まる変数を独自に設定しないのが無難
26 Fundamental MPI 25 MPI_InitInit MPI を起動する 他の MPI 関数より前にコールする必要がある ( 必須 ) MPI_Init (argc, argv) #include "mpi.h" #include <stdio.h> int main(int argc, char **argv) { int n, myid, numprocs, i; MPI_Init(&argc,&argv); Init(&argc &argv); MPI_Comm_size(MPI_COMM_WORLD,&numprocs); MPI_Comm_rank(MPI_COMM_WORLD,&myid); } printf ("Hello World %d n", myid); MPI_Finalize();
27 Fundamental MPI 26 MPI_Finalize MPI を終了する 他の全ての MPI 関数より後にコールする必要がある ( 必須 ) これを忘れると大変なことになる 終わったはずなのに終わっていない MPI_Finalize () #include "mpi.h" #include <stdio.h> int main(int argc, char **argv) { int n, myid, numprocs, i; MPI_Init(&argc,&argv); Init(&argc &argv); MPI_Comm_size(MPI_COMM_WORLD,&numprocs); MPI_Comm_rank(MPI_COMM_WORLD,&myid); } printf ("Hello World %d n", myid); MPI_Finalize();
28 Fundamental MPI 27 MPI_Comm_size コミュニケーター comm で指定されたグループに含まれるプロセス数の合計が size にもどる 必須では無いが, 利用することが多い MPI_Comm_size (comm, size) comm 整数 I コミュニケータを指定する size 整数 O comm. で指定されたグループ内に含まれるプロセス数の合計 #include "mpi.h" #include <stdio.h> int main(int argc, char **argv) { int n, myid, numprocs, i; MPI_Init(&argc,&argv); Init(&argc &argv); MPI_Comm_size(MPI_COMM_WORLD,&numprocs); MPI_Comm_rank(MPI_COMM_WORLD,&myid); } printf ("Hello World %d n", myid); MPI_Finalize();
29 Fundamental MPI 28 コミュニケータとは? MPI_Comm_Size (MPI_COMM_WORLD, PETOT) 通信を実施するためのプロセスのグループを示す MPI において, 通信を実施する単位として必ず指定する必要がある mpirun で起動した全プロセスは, デフォルトで MPI_COMM_WORLD というコミュニケータで表されるグループに属するプに属する 複数のコミュニケータを使用し, 異なったプロセス数を割り当てることによってて, 複雑な処理を実施することも可能 例えば計算用グループ, 可視化用グループ この授業では MPI_COMM_WORLD のみでOK
30 Fundamental MPI 29 コミュニケータの概念あるプロセスが複数のコミュニケータグループに属しても良い MPI_COMM_WORLD COMM_MANTLE COMM_ CRUST COMM_VIS
31 Fundamental MPI 30 地盤 石油タンク連成シミュレーションション 動画
32 Fundamental MPI 31 対象とするアプリケーション 地盤 石油タンク振動 地盤 タンクへの 一方向 連成 地盤表層の変位 タンク底面の強制変位として与える このアプリケーションに対して, 連成シミュレーションのためのフレームワークを開発, 実装 1タンク=1PE: シリアル計算 Deformation of surface will be given as boundary conditions at bottom of tanks.
33 Fundamental MPI 32 地盤モデル :FORTRAN 並列 FEM, 三次元弾性動解析 前進オイラー陽解法,EBE 各要素は一辺 2m の立方体 240m 240m 100m タンクモデル :C 地盤, タンクモデル シリアル FEM(EP), 三次元弾性動解析 後退オイラー陰解法, スカイライン法 シェル要素 +ポテンシャル流 ( 非粘性 ) 直径 :42.7m, 高さ :24.9m, 厚さ :20mm, 液面 :12.45m, スロッシング周期 :7.6sec. 周方向 80 分割, 高さ方向 :0.6m 幅 60 間隔で 4 4 に配置 60m 間隔で 4 4 に配置 合計自由度数 :2,918,169
34 Fundamental MPI 33 3 種類のコミュニケータの生成 meshglobal%mpi _ COMM basement #2 basement #3 tank tank tank #6 #7 #8 tank tank tank #3 #4 #5 basememt basement #0 #1 tank tank tank #0 #1 #2 meshbase%mpi_comm meshtank%mpi_comm meshglobal%my_rank= 0~3 meshbase%my_rank = 0~3 meshglobal%my_rank= 4~12 meshtank%my_rank = 0~ 8 meshtank%my_rank = -1 meshbase%my_rank = -1 33
35 Fundamental MPI 34 MPI_Comm_rank コミュニケーター comm で指定されたグループ内におけるプロセスIDが rank にもどる 必須では無いが, 利用することが多い プロセスIDのことを rank( ランク ) と呼ぶことも多い MPI_Comm_rank (comm, rank) comm 整数 I コミュニケータを指定する rank 整数 O comm. で指定されたグループにおけるプロセスID 0から始まる ( 最大はPETOT-1) #include "mpi.h" #include <stdio.h> int main(int argc, char **argv) { int n, myid, numprocs, i; MPI_Init(&argc,&argv); Init(&argc &argv); MPI_Comm_size(MPI_COMM_WORLD,&numprocs); MPI_Comm_rank(MPI_COMM_WORLD,&myid); } printf ("Hello World %d n", myid); MPI_Finalize();
36 Fundamental MPI 35 MPI_Abort MPI プロセスを異常終了する MPI_Abort (comm, errcode) comm 整数 I コミュニケータを指定する errcode 整数 O エラーコード
37 Fundamental MPI 36 MPI_Wtime 時間計測用の関数 : 精度はいまいち良くない ( 短い時間の場合 ) time= MPI_Wtime () time R8 O 過去のある時間からの経過時間 ( 秒数 ) double Stime, Etime; Stime= MPI_Wtime (); ( ) Etime= MPI_Wtime ();
38 Fundamental MPI 37 MPI_Wtime の例 $> cd <$FVM>/S1 $> mpicc -O3 time.c $> mpif90 -O3 time.f $> 実行 (4 プロセス ) go4.sh E E E E E+00 プロセス計算時間番号
39 Fundamental MPI 38 MPI_Wtick MPI_Wtime での時間計測精度 ハードウェア, コンパイラによって異なる time= MPI_Wtick () time R8 O 時間計測精度 ( 単位 : 秒 ) implicit REAL*8 (A-H,O-Z) include 'mpif.h' TM= MPI_WTICK () write (*,*) TM double Time; Time = MPI_Wtick(); printf("%5d%16 %5d%16.6E n 6E n", MyRank, Time);
40 Fundamental MPI 39 MPI_Wtick の例 $> cd <$FVM>/S1 $> mpicc -O3 wtick.c $> mpif90 -O3 wtick.f $> ( 実行 :1 プロセス ) go4.sh
41 Fundamental MPI 40 MPI_Barrier コミュニケーター comm で指定されたグループに含まれるプロセスの同期をとる コミュニケータ comm 内の全てのプロセスがこのサブルーチンを通らない限り, 次のステップには進まない 主としてデバッグ用に使う オーバーヘッドが大きいのでバ, 実用計算には使わない方が無難 MPI_Barrier (comm) comm 整数 I コミュニケータを指定する
42 Fundamental MPI 41 MPI とは MPI の基礎 :Hello World 全体データと局所データタ グループ通信 (Collective Communication) 1 対 1 通信 (Point-to-Point Communication)
43 Fundamental MPI データ構造とアルゴリズム コンピュータ上で計算を行うプログラムはデータ構造とアルタ構造とゴリズムから構成される 両者は非常に密接な関係にあり, あるアルゴリズムを実現するためには, それに適したデータ構造が必要である 極論を言えば データ構造 = アルゴリズム と言っても良い もちろん そうではない と主張する人もいるが, 科学技術計算に関する限り, 中島の経験では データ構造 = アルゴリズム と言える 並列計算を始めるにあたって, 基本的なアルゴリズムに適したデータ構造を定める必要がある 42
44 Fundamental MPI 43 SPMD:Single Program Multiple Data 一言で 並列計算 と言っても色々なものがあり, 基本的なアルゴリズムも様々 共通して言えることは,SPMD(Single Program Multiple Data) なるべく単体 CPU のときと同じようにできることが理想 通信が必要な部分とそうでない部分を明確にする必要があり 部分を明確にする必要があり
45 Fundamental MPI 44 SPMD に適したデータ構造とは? PE #0 PE #1 PE #2 PE #3 Program Program Program Program Data #0 Data #1 Data #2 Data #3
46 Fundamental MPI 45 SPMDに適したデータ構造 (1/2) 大規模なデータ領域を分割して, 各プロセッサ, プロセスで計算するのがSPMDの基本的な考え方 例えば長さNg(=20) のベクトル Vg に対して以下のような計算を考えてみよう : int main(){ int i,ng; double Vg[20]; Ng=20; for(i=0;i<ng;i++){ Vg[i] = 2.0*Vg[i];} return 0;} これを 4 つのプロセッサで分担して計算するとすれば, れをッサ分担計算するすれ, 20/4=5 ずつ記憶し, 処理すればよい
47 Fundamental MPI 46 SPMDに適したデータ構造 (2/2) すなわち, こんな感じ : int main(){ int i,nl; double Vl[5]; Nl=5; for(i=0;i<nl;i++){ Vl[i] = 2.0*Vl[i];} return 0;} このようにすれば 一種類の プログラム (Single Program) で並列計算を実施できる 各プロセスにおいて, Vl の中身が違う:Multiple Data 可能な限り計算を Vl のみで実施することが, 並列性能の高い計算へつながる 単体 CPUの場合ともほとんど変わらない
48 Fundamental MPI 47 Vg Vl 領域全体 全体データと局所データタ 1 番から 20 番までの 全体番号 を持つ 全体データ (Global Data) 各プロセス (PE, プロセッサ, 領域 ) 1 番から 5 番までの 局所番号 を持つ 局所データ (Local Data) できるだけ局所データを有効に利用することで, 高い並列性能が得られる
49 Fundamental MPI 局所データの考え方 全体データ Vg の : 0~4 番成分が 0 番 PE 5~9 番成分が1 番 PE 10~14 番が 2 番 PE 15~19 番が3 番 PE のそれぞれ, 局所データ Vlの0 番 ~4 番成分となる ( 局所番号が 0 番 ~4 番となる ) Vg[ 0] Vg[ 1] Vg[ 2] Vg[ 3] Vg[ 4] Vg[ 5] Vg[ 6] Vg[ 7] Vg[ 8] Vg[ 9] Vg[10] Vg[11] Vg[12] Vg[13] Vg[14] Vg[15] Vg[16] Vg[17] Vg[18] Vg[19] PE#0 PE#1 PE#2 PE#3 Vl[0] Vl[1] Vl[2] Vl[3] Vl[4] Vl[0] Vl[1] Vl[2] Vl[3] Vl[4] Vl[0] Vl[1] Vl[2] Vl[3] Vl[4] Vl[0] Vl[1] Vl[2] Vl[3] Vl[4] 48
50 Fundamental MPI Vg Vl 全体データと局所データタ 領域全体 1 番から20 番までの 全体番号 を持つ 全体データ (Global Data) 各プロセッサ 1 番から 5 番までの 局所番号 を持つ 局所データ (Local Data) この講義で常に注意してほしいこと Vg( 全体データ ) から Vl( 局所データ ) をどのように生成するか Vg から Vl,Vl から Vgへデータの中身をどのようにマッピングするか Vl がプロセスごとに独立して計算できない場合はどうするか できる限り 局所性 を高めた処理を実施する 高い並列性能 そのための データ構造, アルゴリズム 49
51 Fundamental MPI 50 MPI とは MPI の基礎 :Hello World 全体データと局所データタ グループ通信 (Collective Communication) 1 対 1 通信 (Point-to-Point Communication)
52 Fundamental MPI 51 グループ通信とは コミュニケータで指定されるグループ全体に関わる通信 例 制御データの送信 最大値, 最小値の判定 総和の計算 ベクトルの内積の計算 密行列の転置
53 Fundamental MPI 52 グループ通信の例 (1/4) P#0 A0 B0 C0 D0 P#0 A0 B0 C0 D0 Broadcast P#1 P#1 A0 B0 C0 D0 P#2 P#3 P#2 A0 B0 C0 D0 P#3 A0 B0 C0 D0 P#0 A0 B0 C0 D0 P#1 Scatter P#0 P#1 A0 B0 P#2 P#2 C0 Gather P#3 P#3 D0
54 Fundamental MPI 53 グループ通信の例 (2/4) P#0 P#1 A0 B0 All gather P#0 A0 B0 C0 D0 P#1 A0 B0 C0 D0 P#2 C0 P#2 A0 B0 C0 D0 P#3 D0 P#3 A0 B0 C0 D0 P#0 A0 A1 A2 A3 P#1 B0 B1 B2 B3 P#2 C0 C1 C2 C3 All-to-All P#0 A0 B0 C0 D0 P#1 A1 B1 C1 D1 P#2 A2 B2 C2 D2 P#3 D0 D1 D2 D3 P#3 A3 B3 C3 D3
55 Fundamental MPI 54 グループ通信の例 (3/4) P#0 A0 B0 C0 D0 P#0 op.a0-a3 A3 op.b0-b3 B3 op.c0-c3 C3 op.d0-d3 D3 Reduce P#1 A1 B1 C1 D1 P#1 P#2 A2 B2 C2 D2 P#3 A3 B3 C3 D3 P#2 P#3 P#0 A0 B0 C0 D0 P#1 A1 B1 C1 D1 P#2 A2 B2 C2 D2 All reduce P#0 P#1 P#2 op.a0-a3 op.b0-b3 op.c0-c3 op.d0-d3 op.a0-a3 op.b0-b3 op.c0-c3 op.d0-d3 op.a0-a3 op.b0-b3 op.c0-c3 op.d0-d3 P#3 A3 B3 C3 D3 P#3 op.a0-a3 op.b0-b3 op.c0-c3 op.d0-d3
56 Fundamental MPI 55 グループ通信の例 (4/4) P#0 A0 B0 C0 D0 P#0 op.a0-a3 A3 P#1 A1 B1 C1 D1 Reduce scatter P#1 op.b0-b3 P#2 A2 B2 C2 D2 P#3 A3 B3 C3 D3 P#2 P#3 op.c0-c3 op.d0-d3
57 Fundamental MPI 56 グループ通信による計算例 ベクトルの内積 Scatter/Gather 分散ファイルの読み込み
58 Fundamental MPI 57 全体データと局所データタ 大規模な全体データ (global data) を局所データ (local data) に分割して,SPMDによる並列計算を実施する場合のデータ構造について考える
59 58 領域分割 1GB 程度の PC 10 6 メッシュが限界 :FEM 1000km 1000km 1000kmの領域 ( 西南日本 ) を1kmメッシュで切ると 10 9 メッシュになる 大規模データ 領域分割, 局所データ並列処理 全体系計算 領域間の通信が必要 大規模データ 領域分割 局所データ 局所データ 局所データ 局所データ 局所局所データデータ局所局所データデータ 通信 Fundamental MPI
60 59 局所データ構造 対象とする計算 ( のアルゴリズム ) に適した局所データ構造を定めることが重要 アルゴリズム = データ構造 この講義の主たる目的の一つと言ってよい Fundamental MPI
61 Fundamental MPI 60 全体データと局所データタ 大規模な全体データ (global data) を局所データ (local data) に分割して,SPMDによる並列計算を実施する場合のデータ構造について考える 下記のような長さ 20 のベクトル,VECp と VECs の内積計算を4つのプロセッサ, プロセスで並列に実施することを考える VECp[ 0]= 2 VECs[ 0]= 3 [ 1]= 2 [ 1]= 3 [ 2]= 2 [ 2]= 3 [17]= 2 [17]= 3 [18]= 2 [18]= 3 [19]= 2 [19]= 3
62 Fundamental MPI 61 <$FVM>/S1/dot.f, dot.c implicit REAL*8 (A-H,O-Z) real(kind=8),dimension(20):: di i (20) & VECp, VECs do i= 1, 20 VECp(i)= 2.0d0 0 VECs(i)= 3.0d0 enddo sum= 0.d0 do ii= 1, 20 sum= sum + VECp(ii)*VECs(ii) enddo stop end #include <stdio.h> int main(){ int i; double VECp[20], VECs[20] double sum; } for(i=0;i<20;i++){ VECp[i]= 2.0; VECs[i]= 3.0; } sum = 0.0; for(i=0;i<20;i++){ sum += VECp[i] * VECs[i]; } return 0;
63 Fundamental MPI 62 <$FVM>/S1/dot.f, dot.c の実行 >$ cd <$FVM>/S1 >$ cc -O3 dot.c >$ f90 O3 dot.f >$./a.out dot product 120.
64 Fundamental MPI 63 MPI_Reduce P#0 A0 B0 C0 D0 P#1 A1 B1 C1 D1 P#2 A2 B2 C2 D2 P#3 A3 B3 C3 D3 Reduce P#0 P#1 op.a0-a3 op.b0-b3 op.c0-c3 op.d0-d3 コミュニケーター comm 内の, 各プロセスの送信バッファ sendbuf について, 演算 op を実施し, その結果を 1つの受信プロセス root の受信バッファ recbuf に格納する 総和, 積, 最大, 最小他 MPI_Reduce (sendbuf,recvbuf,count,datatype,op,root,comm) sendbuf 任意 I 送信バッファの先頭アドレス, recvbuf 任意 O 受信バッファの先頭アドレス, タイプは datatype により決定 count 整数 I メッセージのサイズ datatype 整数 I メッセージのデータタイプ FORTRAN MPI_INTEGER, MPI_REAL, MPI_DOUBLE_PRECISION, MPI_CHARACTER etc. C MPI_INT, MPI_FLOAT, MPI_DOUBLE, MPI_CHAR etc op 整数 I 計算の種類 MPI_MAX, MPI_MIN, MPI_SUM, MPI_PROD, MPI_LAND, MPI_BAND etc ユーザーによる定義も可能 : MPI_OP_CREATE root 整数 I 受信元プロセスのID( ランク ) comm 整数 I コミュニケータを指定する P#2 P#3
65 Fundamental MPI 64 送信バッファと受信バッファ MPIでは 送信バッファ, 受信バッファ という変数がしばしば登場する 送信バッファと受信バッファは必ずしも異なった名称の配列である必要はないが, 必ずアドレスが異なっていなければならない
66 Fundamental MPI 65 MPI_Reduce の例 (1/2) MPI_Reduce (sendbuf,recvbuf,count,datatype,op,root,comm) b f d double X0, X1; MPI_Reduce (&X0, &X1, 1, MPI_DOUBLE, MPI_MAX, 0, <comm>); double X0[4], XMAX[4]; MPI_Reduce (&X0, &XMAX, 4, MPI_DOUBLE, MPI_MAX, 0, <comm>); 各プロセスにおける,X0[i] の最大値が 0 番プロセスの XMAX[i] に入る (i=0~3)
67 Fundamental MPI 66 MPI_Reduce の例 (2/2) MPI_Reduce (sendbuf,recvbuf,count,datatype,op,root,comm) b f d double X0, XSUM; MPI_Reduce (&X0, &XSUM, 1, MPI_DOUBLE, MPI_SUM, 0, <comm>) 各プロセスにおける,X0 の総和が 0 番 PE の XSUM に入る double X0[4]; MPI_Reduce (&X0[0], &X0[2], 2, MPI_DOUBLE_PRECISION, MPI_SUM, 0, <comm>) 各プロセスにおける, X0[0] の総和が0 番プロセスのX0[2] に入る X0[1] の総和が0 番プロセスのX0[3] に入る
68 Fundamental MPI 67 MPI_Bcast P#2 P#0 A0 B0 C0 D0 P#1 P#2 P#3 Broadcast P#0 A0 B0 C0 D0 P#1 A0 B0 C0 D0 P#2 A0 B0 C0 D0 P#3 A0 B0 C0 D0 コミュニケーター comm 内の一つの送信元プロセス root のバッファ buffer から, その他全てのプロセスのバッファ buffer にメッセージを送信 MPI_Bcast (buffer,count,datatype,root,comm) buffer 任意 I/O バッファの先頭アドレス, タイプは datatype により決定 count 整数 I メッセージのサイズ datatype 整数 I メッセージのデータタイプ FORTRAN MPI_INTEGER, MPI_REAL, MPI_DOUBLE_PRECISION, MPI_CHARACTER etc. C MPI_INT, MPI_FLOAT, MPI_DOUBLE, MPI_CHAR etc. root 整数 I 送信元プロセスのID( ランク ) comm 整数 I コミュニケータを指定する
69 Fundamental MPI 68 MPI_Allreduce P#0 A0 B0 C0 D0 P#1 A1 B1 C1 D1 P#2 A2 B2 C2 D2 All reduce P#0 P#1 P#2 op.a0-a3 op.b0-b3 op.c0-c3 op.d0-d3 op.a0-a3 op.b0-b3 op.c0-c3 op.d0-d3 op.a0-a3 op.b0-b3 op.c0-c3 op.d0-d3 P#3 A3 B3 C3 D3 P#3 op.a0-a3 op.b0-b3 op.c0-c3 op.d0-d3 MPI_Reduce + MPI_Bcast 総和, 最大値を計算したら, 各プロセスで利用したい場合が多い call MPI_Allreduce (sendbuf,recvbuf,count,datatype,op, comm) sendbuf 任意 I 送信バッファの先頭アドレス, recvbuf 任意 O 受信バッファの先頭アドレス, タイプは datatype により決定 count 整数 I メッセージのサイズ datatype 整数 I メッセージのデータタイプ op 整数 I 計算の種類 comm 整数 I コミュニケータを指定する
70 69 MPI_Reduce/Allreduce の op MPI_Reduce (sendbuf,recvbuf,count,datatype,op,root,comm) MPI_MAX,MPI_MIN MAX MIN 最大値, 最小値 MPI_SUM,MPI_PROD 総和, 積 MPI_LAND 論理 AND Fundamental MPI
71 Fundamental MPI 70 局所データの考え方 (1/2) 長さ 20 のベクトルを,4 つに分割する 各プロセスで長さ 5 のベクトル (1~5) VECp[ 0]= 2 [ 1]= 2 [ 2]= 2 [17]= 2 [18]= 2 [19]= 2 VECs[ 0]= 3 [ 1]= 3 [ 2]= 3 [17]= 3 [18]= 3 [19]= 3
72 Fundamental MPI 71 局所データの考え方 (2/2) もとのベクトルの1~5 番成分が0 番 PE,6~10 番成分が1 番 PE,11~15 番が 2 番 PE,16~20, 番が 3 番 PEのそれぞれ 1 番 ~5 番成分となる ( 局所番号が1 番 ~5 番となる ) VECp[0]= 2 [1]= 2 VECp[ 0]~VECp[ 4] PE#0 [2]= VECs[ 0]~VECs[ 4] [3]= 2 2 [4]= 2 VECs[0]= 3 [1]= 3 [2]= 3 [3]= 3 [4]= 3 VECp[ 5]~VECp[ 9] VECs[ 5]~VECs[ 9] PE#1 VECp[0]= 2 VECs[0]= 3 [1]= 2 [1]= 3 [2]= 2 [2]= 3 [3]= 2 [3]= 3 [4]= 2 [4]= 3 VECp[10]~VECp[14] VECs[10]~VECs[14] PE#2 VECp[0]= 2 [1]= 2 [2]= 2 [3]= 2 [4]= 2 VECs[0]= 3 [1]= 3 [2]= 3 [3]= 3 [4]= 3 VECp[15]~VECp[19] VECp[0]= 2 VECs[15]~VECs[19] [19] [1]= 2 PE#3 [2]= 2 [3]= 2 [4]= 2 VECs[0]= 3 [1]= 3 [2]= 3 [3]= 3 [4]= 3
73 72 とは言え 全体を分割して,11 から番号をふり直すだけ というのはいかにも簡単である もちろんこれだけでは済まない 済まない例については後で紹介する Vg[ 0] Vg[ 1] Vg[ 2] Vg[ 3] Vg[ 4] Vg[ 5] Vg[ 6] Vg[ 7] Vg[ 8] Vg[ 9] Vg[10] Vg[11] Vg[12] Vg[13] Vg[14] Vg[15] Vg[16] Vg[17] Vg[18] Vg[19] PE#0 PE#1 PE#2 PE#3 Vl[0] Vl[1] Vl[2] Vl[3] Vl[4] Vl[0] Vl[1] Vl[2] Vl[3] Vl[4] Vl[0] Vl[1] Vl[2] Vl[3] Vl[4] Vl[0] Vl[1] Vl[2] Vl[3] Vl[4] Fundamental MPI
74 Fundamental MPI 73 内積の並列計算例 (1/2) <$FVM>/S1/allreduce.c #include <stdio.h> #include <stdlib.h> #include "mpi.h" int main(int argc, char **argv){ int i,n; int PeTot, MyRank; double VECp[5], VECs[5]; double suma, sumr, sum0; MPI_Init(&argc, &argv); MPI_Comm_size(MPI_COMM_WORLD, &PeTot); MPI_Comm_rank(MPI_COMM_WORLD, &MyRank); suma= 0.0; 0; sumr= 0.0; N=5; for(i=0;i<n;i++){ VECp[i] = 2.0; VECs[i] = 3.0; } 各ベクトルを各プロセスで独立に生成する sum0 = 0.0; for(i=0;i<n;i++){ sum0 += VECp[i] * VECs[i]; }
75 Fundamental MPI 74 内積の並列計算例 (2/2) <$FVM>/S1/allreduce.c MPI_Reduce(&sum0, &sumr, 1, MPI_DOUBLE, MPI_SUM, 0, MPI_COMM_WORLD); MPI_Allreduce(&sum0, &suma, 1, MPI_DOUBLE, MPI_SUM, MPI_COMM_WORLD); 内積の計算各プロセスで計算した結果 sum0 の総和をとる sumr には,PE#0 の場合にのみ計算結果が入る suma には,MPI_Allreduce によって全プロセスに計算結果が入る MPI_Bcast(&sumR, 1, MPI_DOUBLE, 0, MPI_COMM_WORLD); MPI_BCASTによって,PE#0 以外の場合にも sumr に計算結果が入る
76 Fundamental MPI 75 <$FVM>/S1/allreduce.c の実行例 $> mpicc Os -noparallel allreduce.c $> mpif90 Oss -noparallel allreduce.f $> ( 実行 :4プロセス) go4.sh (my_rank, sumallreduce,sumreduce) before BCAST E E+02 after BCAST E E+02 before BCAST E E+00 after BCAST E E before BCAST E E+00 after BCAST E E+02 before BCAST E E+00 before BCAST E E+00 after BCAST E E+02
77 Fundamental MPI 76 グループ通信による計算例 ベクトルの内積 Scatter/Gather 分散ファイルの読み込み
78 Fundamental MPI 77 全体データと局所データタ (1/3) ある実数ベクトル VECg の各成分に実数 α を加えるという, 以下のような簡単な計算を, 並列化 することを考えてみよう: do i= 1, 1 NG for (i=0; i<ng; i++{ VECg(i)= VECg(i) + ALPHA VECg[i]= VECg[i] + ALPHA enddo }
79 Fundamental MPI 78 簡単のために, 全体データと局所データタ (2/3) NG=32 ALPHA=1000. MPI プロセス数 =4 ベクトル VECg として以下のような 32 個の成分を持つベクトルを仮定する (<$FVM>/mpi/a1x.all): (101.0, 103.0, 105.0, 106.0, 109.0, 111.0, 121.0, 151.0, 201.0, , , , , , 221.0, 251.0, 301.0, 303.0, 305.0, 306.0, 309.0, 311.0, 321.0, 351.0, 401.0, 403.0, 405.0, 406.0, 409.0, 411.0, 421.0, 451.0)
80 Fundamental MPI 79 全体データと局所データタ (3/3) 計算手順 1 長さ32のベクトルVECgをあるプロセス ( 例えば0 番 ) で読み込む 全体データ 2 4 つのプロセスへ均等に ( 長さ 8 ずつ ) 割り振る 局所データ, 局所番号 3 各プロセスでベクトル ( 長さ8) の各成分にALPHAを加える 4 各プロセスの結果を再び長さ32のベクトルにまとめる ばプ もちろんこの程度の規模であれば 1 プロセッサで計算できるのであるが
81 Fundamental MPI 80 Scatter/Gather の計算 (1/8) 長さ32のベクトルVECgをあるプロセス ( 例えば0 番 ) で読み込む プロセス 0 番から 全体データ を読み込む include 'mpif.h' #include <mpi.h> integer, parameter :: NG= 32 #include <stdio.h> real(kind=8), dimension(ng):: i VECg #include <math.h> #include <assert.h> call MPI_INIT (ierr) call MPI_COMM_SIZE (<comm>, PETOT, ierr) int main(int argc, char **argv){ call MPI_COMM_RANK (<comm>, my_rank, ierr) int i, NG=32; int PeTot, MyRank, MPI_Comm; if (my_rank.eq.0) then double VECg[32]; open (21, file= 'a1x.all', status= 'unknown') char filename[80]; do i= 1, NG FILE *fp; read (21,*) VECg(i) enddo MPI_Init(&argc, &argv); close (21) MPI_Comm_size(<comm>, &PeTot); endif MPI_Comm_rank(<comm>, &MyRank); fp = fopen("a1x.all", "r"); if(!myrank) for(i=0;i<ng;i++){ fscanf(fp, "%lf", &VECg[i]); }
82 Fundamental MPI 81 Scatter/Gather の計算 (2/8) 4つのプロセスへ均等に ( 長さ8ずつ ) 割り振る MPI_Scatter の利用
83 Fundamental MPI 82 MPI_Scatter P#0 A0 B0 C0 D0 P#1 P#2 P#3 Scatter Gather P#0 P#1 P#2 P#3 A0 B0 C0 D0 コミュニケーター comm 内の一つの送信元プロセス root の送信バッファ sendbuf から各プロセスに先頭から scount ずつのサイズのメッセージを送信し, その他全てのプロセスの受信バッファ recvbuf に, サイズ rcount のメッセージを格納 MPI_Scatter (sendbuf, scount, sendtype, recvbuf, rcount, recvtype, root, comm) sendbuf 任意 I 送信バッファの先頭アドレス, scount 整数 I 送信メッセージのサイズ sendtype 整数 I 送信メッセージのデータタイプ recvbuf 任意 O 受信バッファの先頭アドレス, rcount 整数 I 受信メッセージのサイズ recvtype 整数 I 受信メッセージのデータタイプ root 整数 I 送信プロセスのID( ランク ) comm 整数 I コミュニケータを指定する
84 Fundamental MPI 83 MPI_Scatter ( 続き ) P#0 A0 B0 C0 D0 P#1 P#2 P#3 Scatter Gather P#0 P#1 P#2 P#3 A0 B0 C0 D0 MPI_Scatter (sendbuf, scount, sendtype, recvbuf, rcount, recvtype, root, comm) sendbuf 任意 I 送信バッファの先頭アドレス, scount 整数 I 送信メッセージのサイズ sendtype 整数 I 送信メッセージのデータタイプ recvbuf 任意 O 受信バッファの先頭アドレス, rcount 整数 I 受信メッセージのサイズ recvtype 整数 I 受信メッセージのデータタイプ root 整数 I 送信プロセスのID( ランク ) comm 整数 I コミュニケータを指定する 通常は scount = rcount sendtype= recvtype この関数によって, プロセスroot 番の sendbuf( ( 送信バッファ ) の先頭アドレスから scount 個ずつの成分が,commで表されるコミュニケータを持つ各プロセスに送信され,recvbuf( 受信バッファ ) のrcount 個の成分として受信される
85 Fundamental MPI 84 Scatter/Gather の計算 (3/8) 4 つのプロセスへ均等に ( 長さ 8 ずつ ) 割り振る 各プロセスにおいて長さ 8の受信バッファ VEC (= 局所データ ) を定義しておく プロセス0 番から送信される送信バッファ VECg の8 個ずつの成分が, 4つの各プロセスにおいて受信バッファ VEC の1 番目から8 番目の成分として受信される N=8 として引数は下記のようになる : integer, parameter :: N = 8 real(kind=8), dimension(n ) :: VEC... call MPI_Scatter & (VECg, N, MPI_DOUBLE_PRECISION, & VEC, N, MPI_DOUBLE_PRECISION, & 0, <comm>, ierr) int N=8; double VEC [8];... MPI_Scatter (&VECg, N, MPI_DOUBLE, &VEC, N, MPI_DOUBLE, 0, <comm>); MPI_Scatter (sendbuf, scount, sendtype, recvbuf, rcount, recvtype, root, comm)
86 Fundamental MPI 85 Scatter/Gather の計算 (4/8) 4つのプロセスへ均等に ( 長さ8ずつ ) 割り振る rootプロセス (0 番 ) から各プロセスへ8 個ずつの成分がscatterされる VECgの1 番目から8 番目の成分が0 番プロセスにおけるVECの1 番目から 8 番目,99 番目から 16 番目の成分が 1 番プロセスにおける VEC の 1 番目から8 番目という具合に格納される VECg: 全体データ,VEC: 局所データ VEC recvbuf PE#0 PE#1 PE#2 PE#3 局所データ local data VECg sendbuf root 全体データ global data
87 Fundamental MPI 86 Scatter/Gather の計算 (5/8) 4つのプロセスへ均等に ( 長さ8ずつ ) 割り振る 全体データ (global data) ) としては VECgの1 番から32 番までの要素番号を持っていた各成分が, それぞれのプロセスにおける局所データ (local data) としては,VEC の 1 番から 8 番までの局所番号を持った成分として格納される VECの成分を各プロセスごとに書き出してみると : do i= 1, N write (*,'(a, 2i8,f10.0)') 'before', my_rank, i, VEC(i) enddo for(i=0;i<n;i++){ ( ){ printf("before %5d %5d %10.0F\n", MyRank, i+1, VEC[i]);}
88 Fundamental MPI 87 Scatter/Gather の計算 (5/8) 4つのプロセスへ均等に ( 長さ8ずつ ) 割り振る 全体データ (global data) ) としては VECgの1 番から32 番までの要素番号を持っていた各成分が, それぞれのプロセスにおける局所データ (local data) としては,VEC の 1 番から 8 番までの局所番号を持った成分として格納される VECの成分を各プロセスごとに書き出してみると : PE#0 before before before before before before before before PE#1 before before before before before before before before PE#2 before before before before before before before before PE#3 before before before before before before before before
89 Fundamental MPI 88 Scatter/Gather の計算 (6/8) 各プロセスでベクトル ( 長さ8) の各成分にALPHAを加える 各プロセスでの計算は, 以下のようになる : real(kind=8), parameter :: ALPHA= do i= 1, N VEC(i)= VEC(i) + ALPHA enddo double ALPHA=1000.;... for(i=0;i<n;i++){ VEC[i]= VEC[i] + ALPHA;} 計算結果は以下のようになる : PE#0 after after after after after after after after PE#1 after after after after after after after after PE#2 after after after after after after after after PE#3 after after after after after after after after
90 Fundamental MPI 89 Scatter/Gather の計算 (7/8) 各プロセスの結果を再び長さ32のベクトルにまとめる これには,MPI_Scatter と丁度逆の MPI_Gather という関数が用意されている
91 Fundamental MPI 90 MPI_Gather P#1 P#2 P#0 A0 B0 C0 D0 P#3 Scatter Gather P#0 P#1 P#2 P#3 A0 B0 C0 D0 MPI_Scatter の逆 MPI_Gather (sendbuf, scount, sendtype, recvbuf, rcount, recvtype, root, comm) sendbuf 任意 I 送信バッファの先頭アドレス, scount 整数 I 送信メッセージのサイズ sendtype 整数 I 送信メッセージのデータタイプ recvbuf 任意 O 受信バッファの先頭アドレス, rcount 整数 I 受信メッセージのサイズ recvtype 整数 I 受信メッセージのデータタイプ root 整数 I 受信プロセスのID( ランク ) comm 整数 I コミュニケータを指定する ここで, 受信バッファ recvbuf の値は root 番のプロセスに集められる
92 Fundamental MPI 91 Scatter/Gather の計算 (8/8) 各プロセスの結果を再び長さ32のベクトルにまとめる 本例題の場合,root=0 として, 各プロセスから送信される VEC の成分を 0 番プロセスにおいてVECgとして受信するものとすると以下のようになる : call MPI_Gather & MPI_Gather (&VEC, N, MPI_DOUBLE, &VECg, N, (VEC, N, MPI_DOUBLE_PRECISION, & MPI_DOUBLE, 0, <comm>); VECg, N, MPI_DOUBLE_PRECISION, & 0, <comm>, ierr) 各プロセスから 8 個ずつの成分が root プロセスへ gather される VEC sendbuf PE#0 PE#1 PE#2 PE#3 局所データ local data VECg recvbuf 全体データ global data root
93 Fundamental MPI 92 <$FVM>/S1/scatter-gather.c 実行例 $> mpicc Os -noparallel l scatter-gather.c th $> mpif90 Oss -noparallel scatter-gather.f $> 実行 (4プロセス) go4.sh PE#0 before before before before before before before before PE#1 before before before before before before before before PE#2 before before before before before before before before PE#3 before before before before before before before before PE#0 after after after after after after after after PE#1 after after after after after after after after PE#2 after after after after after after after after PE#3 after after after after after after after after
94 Fundamental MPI 93 MPI_Reduce_scatter P#0 A0 B0 C0 D0 P#1 A1 B1 C1 D1 Reduce scatter P#0 P#1 op.a0-a3 op.b0-b3 P#2 A2 B2 C2 D2 P#2 op.c0-c3 P#3 A3 B3 C3 D3 P#3 op.d0-d3 MPI_Reduce + MPI_Scatter MPI_Reduce_Scatter (sendbuf, recvbuf, rcount, datatype, op, comm) sendbuf 任意 I 送信バッファの先頭アドレス, recvbuf 任意 O 受信バッファの先頭アドレス, rcount 整数 I 受信メッセージのサイズ ( 配列 : サイズ=プロセス数 ) datatype 整数 I メッセージのデータタイプ op 整数 I 計算の種類 comm 整数 I コミュニケータを指定する
95 Fundamental MPI 94 MPI_Allgather P#0 P#1 P#2 A0 B0 C0 All gather P#0 A0 B0 C0 D0 P#1 A0 B0 C0 D0 P#2 A0 B0 C0 D0 P#3 D0 P#3 A0 B0 C0 D0 MPI_Gather+MPI_Bcast Gather したものを, 全ての PE に Bcast する ( 各プロセスで同じデータを持つ ) MPI_Allgather (sendbuf, scount, sendtype, recvbuf, rcount, recvtype, comm) sendbuf 任意 I 送信バッファの先頭アドレス, scount 整数 I 送信メッセージのサイズ sendtype 整数 I 送信メッセージのデータタイプ recvbuf 任意 O 受信バッファの先頭アドレス, rcount 整数 I 受信メッセージのサイズ recvtype 整数 I 受信メッセージのデータタイプ comm 整数 I コミュニケータを指定する
96 Fundamental MPI 95 MPI_Alltoall P#0 A0 A1 A2 A3 P#1 B0 B1 B2 B3 All-to-All P#0 A0 B0 C0 D0 P#1 A1 B1 C1 D1 P#2 C0 C1 C2 C3 P#2 A2 B2 C2 D2 P#3 D0 D1 D2 D3 P#3 A3 B3 C3 D3 MPI_Allgather の更なる拡張 : 転置 MPI_Alltoall (sendbuf, scount, sendtype, recvbuf, rcount, recvrype, comm) sendbuf 任意 I 送信バッファの先頭アドレス, scount 整数 I 送信メッセージのサイズ sendtype 整数 I 送信メッセージのデータタイプ recvbuf 任意 O 受信バッファの先頭アドレス, rcount 整数 I 受信メッセージのサイズ recvtype 整数 I 受信メッセージのデータタイプ comm 整数 I コミュニケータを指定する
97 Fundamental MPI 96 グループ通信による計算例 ベクトルの内積 Scatter/Gather 分散ファイルの読み込み
98 Fundamental MPI 97 分散ファイルを使用したオペレーション Scatter/Gather の例では,PE#0 から全体データを読み込み, それを全体にScatterして並列計算を実施した 問題規模が非常に大きい場合,1 つのプロセッサで全てのデータを読み込むことは不可能な場合がある 最初から分割しておいて, 局所データ を各プロセッサで独立に読み込む あるベクトルに対して, 全体操作が必要になった場合は, 状況に応じてMPI_Gather などを使用する
99 Fundamental MPI 98 分散ファイル読み込み : 等データ長 (1/2) >$ cd <$FVM>/S1 >$ ls a1.* a1.0 a1.1 a1.2 a1.3 a1x.all を4つに分割したもの >$ mpicc Os -noparallel file.c >$ mpif90 Oss -noparallel file.f f >$ 実行 :4 プロセス go4.sh
100 Fundamental MPI 99 分散ファイルの操作 a1.0~a1.3 は全体ベクトル a1x.all all を領域に分割したもの, と考えることができる a1x.all a1.0 a1.11 a1.2 a1.3
101 Fundamental MPI 100 分散ファイル読み込み : 等データ長 (2/2) <$FVM>/S1/file.c int main(int argc, char **argv){ int i; int PeTot, MyRank; MPI_Comm SolverComm; double vec[8]; char FileName[80]; FILE *fp; Hello とそんなに変わらない MPI_Init(&argc, &argv); MPI_Comm_size(MPI_COMM_WORLD, COMM &PeTot); MPI_Comm_rank(MPI_COMM_WORLD, &MyRank); sprintf(filename, "a1.%d", MyRank); fp = fopen(filename, "r"); if(fp == NULL) MPI_Abort(MPI_COMM_WORLD, -1); 局所番号(0~7) で for(i=0;i<8;i++){ 読み込む fscanf(fp, "%lf", &vec[i]); } } for(i=0;i<8;i++){ printf("%5d%5d%10.0f n", MyRank, i+1, vec[i]); } MPI_Finalize(); return 0;
102 Fundamental MPI 101 SPMD の典型例 PE #0 PE #1 PE #2 PE #3 a.out a.out a.out a.out a1.0 a1.1 a1.2 a1.3 mpirun -np 4 a.out
103 Fundamental MPI 102 分散ファイル読み込み : 可変長 (1/2) >$ cd <$FVM>/S1 >$ ls a2.* a2.0 a2.1 a2.2 a2.3 >$ cat a2.0 5 各 PEにおける成分数 成分の並び >$ mpicc Os -noparallel l file2.c >$ mpif90 Oss -noparallel file2.f >$ 実行 :4 プロセス go4.sh
104 Fundamental MPI 103 分散ファイルの読み込み : 可変長 (2/2) <$FVM>/S1/file2.c int main(int argc, char **argv){ int i, int PeTot, MyRank; MPI_Comm SolverComm; double *vec, *vec2, *vecg; int num; double sum0, sum; char filename[80]; FILE *fp; MPI_Init(&argc, Init(&argc, &argv); MPI_Comm_size(MPI_COMM_WORLD, &PeTot); MPI_Comm_rank(MPI_COMM_WORLD, &MyRank); sprintf(filename, "a2.%d", MyRank); fp = fopen(filename, "r"); assert(fp!= NULL); fscanf(fp, "%d", &num); vec = malloc(num * sizeof(double)); for(i=0;i<num;i++){fscanf(fp, "%lf", &vec[i]);} for(i=0;i<num;i++){ printf(" %5d%5d%5d%10.0f n", MyRank, i+1, num, vec[i]);} } MPI_Finalize();
105 Fundamental MPI 局所データの作成法 全体データ (N=NG) を入力 Scatter して各プロセスに分割 各プロセスで演算 必要に応じて局所データを Gather( または Allgather) して全体データを生成 局所データ (N=NL) を生成, あるいは ( あらかじめ分割生成して ) 入力 各プロセスで局所データを生成, あるいは入力 各プロセスで演算 必要に応じて局所データを Gather( または Allgather) して全体データを生成 将来的には後者が中心となるが, 全体的なデータの動きを理解するために, しばらくは前者についても併用 104
106 Fundamental MPI 105 MPI とは MPI の基礎 :Hello World 全体データと局所データタ グループ通信 (Collective Communication) 1 対 1 通信 (Point-to-Point Communication)
107 Fundamental MPI 106 有限体積法 : 全体マトリクスの生成要素 i に関する釣り合い S ik S ie S ik + T = i Tk Sidq& id + ViQ& i + d ik dki d ie d ik d k e k ki + d λi λk λi λi λk + e D( 対角成分 ) AMAT( 非対角成分 ) BFORCE( 右辺 ) Sie die λ i T ibe 隣接要素の情報必要自分自身 ( 要素 i) の情報のみ必要 a d ai b S ib d bi S ia d ia d ib T ibe S ie d ie S id i d ic S ic qid d ci c CS10
108 Fundamental MPI 107 前処理付き共役勾配法 Preconditioned Conjugate Gradient Method (CG) Compute r (0) = b-[a]x (0) for i= 1, 2, solve [M]z (i-1) = r (i-1) ρ i-1 = r (i-1) z (i-1) if i=1 p (1) = z (0) else β i-1 = ρ i-1 /ρ i-2 p (i) = z (i-1) + β i-1 p (i) endif q (i) = [A]p (i) α i = ρ i-1 /p (i) q (i) x (i) = x (i-1) + α (i) i p r (i) = r (i-1) - α i q (i) check convergence r end 前処理 : 対角スケーリング行列ベクトル積 : 領域外の値が必要
109 Fundamental MPI 1 対 1 通信とは? グループ通信 :Collective Communication MPI_Reduce, MPI_Scatter/Gather th など 同じコミュニケータ内の全プロセスと通信する 適用分野 境界要素法, スペクトル法, 分子動力学等グローバルな相互作用のある手法 内積, 最大値などのオペレーション 対 1 通信 :Point-to-Point MPI_Send, MPI_Receive 特定のプロセスとのみ通信がある 隣接領域 適用分野 #PE #PE 差分法, 有限要素法などローカルな情 報を使う手法 #PE1 108
110 Fundamental MPI 1 対 1 通信の方法 MPI_Send, MPI_Recv というサブルーチンがある しかし, これらは ブロッキング (blocking) 通信サブルーチンで, デッドロック (dead d lock) を起こしやすい 受信 (Recv) の完了が確認されないと, 送信 (Send) が終了しない もともと非常に secure な 通信を保障するために,MPI 仕様の中に入れられたものであるが, 実用上は不便この上ない したがって実際にアプリケーションレベルで使用されることはほとんど無い ( と思う ) 将来にわたってこの部分が改正される予定はないらしい そういう機能がある ということを心の片隅においておいてください 109
111 Fundamental MPI MPI_Send/MPI_Recv PE#0 if (my_rank.eq.0) NEIB_ID=1ID if (my_rank.eq.1) NEIB_ID= PE#1 call MPI_Send (NEIB_ID, arg s) call MPI_Recv (NEIB_ID, arg s) 例えば先ほどの例で言えば, このようにしたいところであるが, このようなプログラムを作ると MPI_Send/MPI_Recv のところで止まってしまう 動く場合もある 110
112 Fundamental MPI MPI_Send/MPI_Recv ( 続き ) PE# if (my y_ rank.eq.0) NEIB_ ID=1 if (my_rank.eq.1) NEIB_ID=0 if (my_rank.eq.0) then 5 call MPI_Send (NEIB_ID, ID arg s) call MPI_Recv (NEIB_ID, arg s) endif PE# if (my_rank.eq.1) then call MPI_Recv (NEIB_ID, ID arg s) call MPI_Send (NEIB_ID, arg s) endif このようにすれば, 動く 111
113 Fundamental MPI 1 対 1 通信の方法 ( 実際どうするか ) MPI_Isend, Isend MPI_Irecv, Irecv という ブロッキングしない (non-blocking) サブルーチンがある これと, 同期のための MPI_Waitall を組み合わせる MPI_Sendrecv というサブルーチンもある ( 後述 ) PE# PE#1 if (my_rank.eq.0) NEIB_ID=1 if (my_rank.eq.1) NEIB_ID=0 call MPI_Isend (NEIB_ID, arg s) call MPI_Irecv (NEIB_ID, arg s) call MPI_Waitall (for IRECV) call MPI_Waitall (for ISEND) IsendとIrecvで同じ通信識別子を使って, 更に整合性が取れるのであれば Waitall は一箇所でもOKです ( 後述 ) 112
114 Fundamental MPI MPI_IsendIsend 送信バッファ sendbuf 内の, 連続した count 個の送信メッセージを, タグ tag を付けて, コミュニケータ内の, dest に送信する MPI_Waitall を呼ぶまで, 送信バッファの内容を更新してはならない MPI_Isend (sendbuf,count,datatype,dest,tag,comm,request) sendbuf 任意 I 送信バッファの先頭アドレス, count 整数 I メッセージのサイズ datatype 整数 I メッセージのデータタイプ dest 整数 I 宛先プロセスのアドレス ( ランク ) tag 整数 I メッセージタグ, 送信メッセージの種類を区別するときに使用 通常は 0 でよい 同じメッセージタグ番号同士で通信 comm 整数 I コミュニケータを指定する request 整数 O 通信識別子 MPI_Waitallで使用 ( 配列 : サイズは同期する必要のある MPI_Isend 呼び出し数 ( 通常は隣接プロセス数など )) 113
115 Fundamental MPI 通信識別子 (request handle): request MPI_Isend (sendbuf,count,datatype,dest,tag,comm,request) datatype dest tag comm sendbuf 任意 I 送信バッファの先頭アドレス, count 整数 I メッセージのサイズ datatype 整数 I メッセージのデータタイプ dest 整数 I 宛先プロセスのアドレス ( ランク ) tag 整数 I メッセージタグ, 送信メッセージの種類を区別するときに使用 通常は 0 でよい 同じメッセージタグ番号同士で通信 comm 整数 I コミュニケータを指定する request 整数 O 通信識別子 MPI_Waitallで使用 ( 配列 : サイズは同期する必要のある MPI_ Isend 呼び出し数 ( 通常は隣接プロセス数など )) 記憶領域を確保するだけで良い 114
116 Fundamental MPI MPI_IrecvIrecv 受信バッファ recvbuf 内の, 連続した count 個の送信メッセージを, タグ tag を付けて, コミュニケータ内の, dest から受信する MPI_Waitall を呼ぶまで, 受信バッファの内容を利用した処理を実施してはならない MPI_Irecv (recvbuf,count,datatype,dest,tag,comm,request) recvbuf 任意 I 受信バッファの先頭アドレス, count 整数 I メッセージのサイズ datatype 整数 I メッセージのデータタイプ dest 整数 I 宛先プロセスのアドレス ( ランク ) tag 整数 I メッセージタグ, 受信メッセージの種類を区別するときに使用 通常は 0 でよい 同じメッセージタグ番号同士で通信 comm 整数 I コミュニケータを指定する request 整数 O 通信識別子 MPI_Waitallで使用 ( 配列 : サイズは同期する必要のある MPI_Irecv 呼び出し数 ( 通常は隣接プロセス数など )) 115
117 Fundamental MPI MPI_Waitall 1 対 1 非ブロッキング通信関数である MPI_Isend と MPI_Irecv を使用した場合, プロセスの同期を取るのに使用する 送信時はこの MPI_Waitall を呼ぶ前に送信バッファの内容を変更してはならない 受信時は MPI_Waitall を呼ぶ前に受信バッファの内容を利用してはならない 整合性が取れていれば, MPI_Isend と MPI_Irecv を同時に同期してもよい MPI_Isend/Irecv で同じ通信識別子を使用すること MPI_Barrier と同じような機能であるが, 代用はできない 実装にもよるが, request, status の内容が正しく更新されず, 何度も MPI_Isend/Irecv を呼び出すと処理が遅くなる, というような経験もある MPI_Waitall (count,request,status) count 整数 I 同期する必要のある MPI_ISEND, MPI_RECV 呼び出し数 request 整数 I/O 通信識別子 MPI_ISEND ISEND, MPI_IRECV IRECV で利用した識別 子名に対応 ( 配列サイズ :(count)) status 整数 O 状況オブジェクト配列 ( 配列サイズ :(MPI_STATUS_SIZE,count)) MPI_STATUS_SIZE: SIZE: mpif.h h, mpi.h で定められる パラメータ 116
118 Fundamental MPI 状況オブジェクト配列 (status object): status MPI_ Waitall (count,request,status), count 整数 I 同期する必要のある MPI_Isend, MPI_Irecv 呼び出し数 request 整数 I/O 通信識別子 MPI_Isend, MPI_Irecv で利用した識別子名に対応 ( 配列サイズ :(count)) status 整数 O 状況オブジェクト配列 ( 配列サイズ :(MPI_STATUS_SIZE,count)) MPI_STATUS_SIZE: mpif.h, mpi.h で定められる パラメータ ierr 整数 O 完了コード 予め記憶領域を確保しておくだけでよい 117
119 Fundamental MPI MPI_Sendrecv MPI_Send+MPI_Recv MPI_Sendrecv (sendbuf,sendcount,sendtype,dest,sendtag,recvbuf, recvcount,recvtype,source,recvtag,comm,status) recvtype recvtag comm status) sendbuf 任意 I 送信バッファの先頭アドレス, sendcount 整数 I 送信メッセージのサイズ sendtype 整数 I 送信メッセージのデータタイプ dest 整数 I 宛先プロセスのアドレス ( ランク ) sendtag 整数 I 送信用メッセージタグ, 送信メッセージの種類を区別するときに使用 通常は 0 でよい recvbuf 任意 I 受信バッファの先頭アドレス, recvcount 整数 I 受信メッセージのサイズ recvtype 整数 I 受信メッセージのデータタイプ source 整数 I 送信元プロセスのアドレス ( ランク ) sendtag 整数 I 受信用メッセージタグ, 送信メッセージの種類を区別するときに使用 通常は 0 でよい 同じメッセージタグ番号同士で通信 comm 整数 I コミュニケータを指定する status 整数 O 状況オブジェクト配列 ( 配列サイズ :(MPI_STATUS_SIZE)) MPI_STATUS_SIZE: mpif.h で定められるパラメータ 118
120 Fundamental MPI RECV( 受信 ): 外点への受信受信バッファに隣接プロセスから連続したデータを受け取る MPI_Irecv (recvbuf,count,datatype,dest,tag,comm,request) recvbuf 任意 I 受信バッファの先頭アドレス, count 整数 I メッセージのサイズ datatype 整数 I メッセージのデータタイプ dest 整数 I 宛先プロセスのアドレス ( ランク ) #PE #PE #PE
121 MPI_Isend SEND( 送信 ): 境界点の送信 送信バッファの連続したデータを隣接プロセスに送る (sendbuf,count,datatype,dest,tag,comm,request) sendbuf 任意 I 送信バッファの先頭アドレス, count 整数 I メッセージのサイズ datatype 整数 I メッセージのデータタイプ dest 整数 I 宛先プロセスのアドレス ( ランク ) Fundamental MPI #PE #PE #PE
122 Fundamental MPI 通信識別子, 状況オブジェクト配列の定義の 仕方 (FORTRAN) MPI_Isend: Isend: request MPI_Irecv: request MPI_Waitall: request, status integer request(neibpetot) integer status (MPI_STAUTS_SIZE,NEIBPETOT) MPI_Sendrecv: status integer status (MPI_STATUS_SIZE) 121
123 Fundamental MPI 通信識別子, 状況オブジェクト配列の定義の 仕方 (C): 特殊な変数の型がある MPI_Isend: Isend: request MPI_Irecv: request MPI_Waitall: request, status MPI_Status *StatSend, *StatRecv; MPI_Request *RequestSend, *RequestRecv; StatSend = malloc(sizeof(mpi_status) * NEIBpetot); StatRecv = malloc(sizeof(mpi_status) * NEIBpetot); RequestSend = malloc(sizeof(mpi_request) * NEIBpetot); RequestRecv = malloc(sizeof(mpi_request) * NEIBpetot); MPI_Sendrecv: status MPI_Status *Status; Status = malloc(sizeof(mpi_status)); 122
124 Fundamental MPI 利用例 (1): スカラー送受信 PE#0,PE#1 間で 8 バイト実数 VAL の値を交換する if (my_rank.eq.0) NEIB= 1 if (my_rank.eq.1) NEIB= 0 call MPI_Isend (VAL,1,MPI_DOUBLE_PRECISION,NEIB,,req_send, ) call MPI_Irecv I (VALtemp,1,MPI_DOUBLE_PRECISION,NEIB,,req_recv, ) PRECISION NEIB call MPI_Waitall (,req_recv,stat_recv, ): 受信バッファ VALtemp を利用可能 call MPI_Waitall (,req_send,stat_send, ): 送信バッファ VAL を変更可能 VAL= VALtemp if (my_rank.eq.0) NEIB= 1 if (my_rank.eq.1) NEIB= 0 call MPI_Sendrecv (VAL,1,MPI_DOUBLE_PRECISION,NEIB, PRECISION NEIB & VALtemp,1,MPI_DOUBLE_PRECISION,NEIB,, status, ) VAL= VALtemp 受信バッファ名を VAL にしても動く場合はあるが, お勧めはしない 123
125 利用例 (1): スカラー送受信 C Isend/Irecv/Waitall $> cd <$FVM>/S2 $> mpicc Os -noparallel ex1-1.c $> mpif90 Oss -noparallel ex1-1.f $> 実行 (2プロセス) go2.sh #include <stdio.h> #include <stdlib.h> #include "mpi.h" int main(int argc, char **argv){ int neib, MyRank, PeTot; double VAL, VALx; MPI_Status *StatSend, *StatRecv; MPI_Request *RequestSend, *RequestRecv; MPI_Init(&argc, &argv); MPI_Comm_size(MPI_COMM_WORLD, &PeTot); MPI_Comm_rank(MPI_COMM_WORLD, &MyRank); StatSend = malloc(sizeof(mpi_status) * 1); StatRecv = malloc(sizeof(mpi_status) * 1); RequestSend = malloc(sizeof(mpi_request) * 1); RequestRecv = malloc(sizeof(mpi_request) * 1); Fundamental MPI if(myrank == 0) {neib= 1; VAL= 10.0;} if(myrank == 1) {neib= 0; VAL= 11.0;} MPI_Isend(&VAL, 1, MPI_DOUBLE, neib, 0, MPI_COMM_WORLD, &RequestSend[0]); MPI_Irecv(&VALx, 1, MPI_DOUBLE, neib, 0, MPI_COMM_WORLD, &RequestRecv[0]); MPI_Waitall(1, RequestRecv, StatRecv); MPI_Waitall(1, RequestSend, StatSend); VAL=VALx; MPI_Finalize(); return 0; } 124
126 Fundamental MPI 利用例 (1): スカラー送受信 C SendRecv $> cd <$FVM>/S2 $> mpicc Os -noparallel ex1-2.c $> mpif90 Oss -noparallel ex1-2.f $> 実行 (2プロセス) go2.sh #include <stdio.h> #include <stdlib.h> #include "mpi.h" int main(int argc, char **argv){ int neib; int MyRank, PeTot; double VAL, VALtemp; MPI_Status *StatSR; MPI_Init(&argc, &argv); MPI_Comm_size(MPI_COMM_WORLD, &PeTot); MPI_Comm_rank(MPI_COMM_WORLD, COMM &MyRank); if(myrank == 0) {neib= 1; VAL= 10.0;} if(myrank == 1) {neib= 0; VAL= 11.0;} StatSR tsr = malloc(sizeof(mpi_status)); t MPI_Sendrecv(&VAL, 1, MPI_DOUBLE, neib, 0, &VALtemp, 1, MPI_DOUBLE, neib, 0, MPI_COMM_WORLD, StatSR); VAL=VALtemp; } MPI_Finalize(); return 0; 125
127 Fundamental MPI 利用例 (2): 配列の送受信 (1/4) PE#0,PE#1 PE#1 間で 8 バイト実数配列 VEC の値を交換する PE#0 PE#1 PE#0:VEC(1)~VEC(11) の値を送る ( 長さ :11) PE#1:VEV(26)~VEC(36) の値として受け取る PE#1 PE#0 PE#1:VEC(1)~VEC(25) の値を送る ( 長さ :25) PE#0:VEV(12)~VEC(36) VEC(36) の値として受け取る 演習 : プログラムを作成して見よう! PE# PE#
128 Fundamental MPI 演習 VEC(:) の初期状態を以下のようにする : PE#0 VEC(1-36)= 101,102,103,~,135,136 PE#1 VEC(1-36)= 201,202,203,~,235, 次ページのような結果になることを確認せよ 以下のそれぞれを使用したプログラムを作成せよ MPI_Isend/Irecv/Waitall MPI_Sendrecv 127
129 予測される結果 Fundamental
130 Fundamental MPI 利用例 (2): 配列の送受信 (2/4) if (my_rank.eq.0) then call MPI_Isend Isend (VEC( 1),11,MPI_DOUBLE_PRECISION,1,,req_send, ) PRECISION,1,,req call MPI_Irecv (VEC(12),25,MPI_DOUBLE_PRECISION,1,,req_recv, ) endif if (my y_ rank.eq.1) then call MPI_Isend (VEC( 1),25,MPI_DOUBLE_PRECISION,0,,req_send, ) call MPI_Irecv (VEC(26),11,MPI_DOUBLE_PRECISION,0,,req_recv, ) endif call MPI_Waitall (,req_recv,stat_recv, ) call MPI_Waitall (,req_send,stat_send, ) これでも良いが, 操作が煩雑 SPMDらしくない汎用性が無い 129
131 Fundamental MPI 利用例 (2): 配列の送受信 (3/4) if (my_rank.eq.0) then NEIB= 1 start_send= send= 1 length_send= 11 start_recv= length_send + 1 length_recv= 25 endif if (my_rank.eq.1) then NEIB= 0 start_send send= 1 length_send= 25 start_recv= length_send + 1 length_recv= 11 endif call MPI_Isend & (VEC(start_send),length_send,MPI_DOUBLE_PRECISION,NEIB,,req_send, ) call MPI_Irecv & (VEC(start_recv),length_recv,MPI_DOUBLE_PRECISION,NEIB,,req_recv, ) call MPI_Waitall (,req_recv,stat_recv, ) call MPI_Waitall (,req_send,stat_send, ) 一気に SPMD らしくなる 130
132 Fundamental MPI 利用例 (2): 配列の送受信 (4/4) if (my_rank.eq.0) then NEIB= 1 start_send= send= 1 length_send= 11 start_recv= length_send + 1 length_recv= 25 endif if (my_rank.eq.1) then NEIB= 0 start_send send= 1 length_send= 25 start_recv= length_send + 1 length_recv= 11 endif call MPI_Sendrecv & (VEC(start_send),length_send,MPI_DOUBLE_PRECISION,NEIB, & VEC(start_recv),length_recv,MPI_DOUBLE_PRECISION,NEIB,, recv) recv PRECISION NEIB status, ) 131
133 Fundamental MPI 配列の送受信 : 注意 #PE0 send: VEC(start_send)~ VEC(start_send+length_send-1) #PE1 send: VEC(start_send)~ VEC(start_send+length_send-1) #PE0 recv: VEC(start_recv)~ VEC(start_recv+length_recv-1) #PE1 recv: VEC(start_recv)~ VEC(start_recv+length_recv-1) 送信側の length_send と受信側の length_recv は一致している必要がある PE#0 PE#1,PE#1 PE#0PE#1 PE#0 送信バッファ と 受信バッファ は別のアドレス 132
134 Fundamental MPI 解答例 (1/3) Isend/Irecv/Waitall /W $> cd <$FVM>/S2 $> mpicc Os -noparallel ex2a.c $> mpif90 Oss -noparallel ex2a.f $> 実行 (2 プロセス ) go2.sh #include <stdio.h> #include <stdlib.h> #include mpi.h p int main(int argc, char **argv){ int i, neib; int MyRank, PeTot; double VEC[36]; int Start_Send, Length_Send; int Start_Recv, Length_Recv; MPI_Status *StatSend, *StatRecv; MPI_Request *RequestSend, *RequestRecv; MPI_Init(&argc, &argv); MPI_Comm_size(MPI_COMM_WORLD, &PeTot); MPI_Comm_rank(MPI_COMM_WORLD, &MyRank); 133
135 Fundamental MPI 解答例 (2/3) Isend/Irecv/Waitall /W Start_Send= t S 1; if(myrank == 0) { neib= 1; Length_Send= 11; Length_Recv= 25; for (i=0;i<36;i++){vec[i]=100+i+1;}} if(myrank == 1) { neib= 0; Length_Send= 25; Length_Recv= 11; for (i=0;i<36;i++){vec[i]=200+i+1;}} Start_Recv= 1 + Length_Send; StatSend = malloc(sizeof(mpi_status) * 1); StatRecv = malloc(sizeof(mpi_status) * 1); RequestSend = malloc(sizeof(mpi_request) * 1); RequestRecv = malloc(sizeof(mpi_request) * 1); for (i=0;i<36;i++) { printf("%s%2d%5d%8.0f n", "### before", MyRank, i, VEC[i]);} 134
136 Fundamental MPI 解答例 (3/3) Isend/Irecv/Waitall /W MPI_Isend(&VEC[Start_Send-1], Length_Send, MPI_DOUBLE, neib, 0, MPI_ COMM_ WORLD, &RequestSend[0]); MPI_Irecv(&VEC[Start_Recv-1], Length_Recv, MPI_DOUBLE, neib, 0, MPI_COMM_WORLD, &RequestRecv[0]); MPI_Waitall(1, RequestRecv, StatRecv); MPI_Waitall(1, RequestSend, StatSend); for (i=0;i<36;i++) { printf("%s%2d%5d%8.0f n", %2d%5d%8 " "### after ", MyRank, i, VEC[i]);} } MPI_Finalize(); return 0; 汎用性がある データが全て という気がして来ないだろうか? 135
Fundamental MPI 1 概要 MPI とは MPI の基礎 :Hello World 全体データと局所データタ グループ通信 (Collective Communication) 1 対 1 通信 (Point-to-Point Communication)
MPI 超 入門 (FORTRAN 編 ) 東京大学情報基盤センター Fundamental MPI 1 概要 MPI とは MPI の基礎 :Hello World 全体データと局所データタ グループ通信 (Collective Communication) 1 対 1 通信 (Point-to-Point Communication) Fundamental MPI 2 MPI とは (1/2)
MPI によるプログラミング概要 C 言語編 中島研吾 東京大学情報基盤センター
MPI によるプログラミング概要 C 言語編 中島研吾 東京大学情報基盤センター 1 並列計算の意義 目的 並列計算機の使用によって, より大規模で詳細なシミュレーションを高速に実施することが可能になり, 新しい科学の開拓が期待される 並列計算の目的 高速 大規模 大規模 の方が 新しい科学 という観点からのウェイトとしては高い しかし, 高速 ももちろん重要である + 複雑 理想 :Scalable
Microsoft PowerPoint - MPIprog-F1.ppt [互換モード]
MPI によるプログラミング概要 ( その 1) Fortran 言語編 RIKEN AICS HPC Summer School 2015 中島研吾 ( 東大 情報基盤センター ) 横川三津夫 ( 神戸大 計算科学教育センター ) 1 本 school の目的 並列計算機の使用によって, より大規模で詳細なシミュレーションを高速に実施することが可能になり, 新しい科学の開拓が期待される 並列計算の目的
Microsoft PowerPoint - S1-ref-F.ppt [互換モード]
課題 S1 解説 Fortran 言語編 RIKEN AICS HPC Summer School 2014 中島研吾 ( 東大 情報基盤センター ) 横川三津夫 ( 神戸大 計算科学教育センター ) MPI Programming 課題 S1 (1/2) /a1.0~a1.3, /a2.0~a2.3 から局所ベクトル情報を読み込み, 全体ベクトルのノルム ( x ) を求めるプログラムを作成する
MPI によるプログラミング概要 Fortran 編 中島研吾 東京大学情報基盤センター
MPI によるプログラミング概要 Fortran 編 中島研吾 東京大学情報基盤センター 1 並列計算の意義 目的 並列計算機の使用によって, より大規模で詳細なシミュレーションを高速に実施することが可能になり, 新しい科学の開拓が期待される 並列計算の目的 高速 大規模 大規模 の方が 新しい科学 という観点からのウェイトとしては高い しかし, 高速 ももちろん重要である + 複雑 理想 :Scalable
Microsoft PowerPoint - MPIprog-C2.ppt [互換モード]
MPI によるプログラミング概要 ( その ) C 言語編 RIKEN AICS HPC Summer School 01 中島研吾 ( 東大 情報基盤センター ) 横川三津夫 ( 神戸大学 計算科学教育センター ) 1 概要 MPI とは MPI の基礎 :Hello World 全体データと局所データ グループ通信 (Collective Communication) 1 対 1 通信 (Peer-to-Peer
Microsoft PowerPoint - MPIprog-F2.ppt [互換モード]
MPI によるプログラミング概要 ( その ) Fortran 言語編 RIKEN AICS HPC Summer School 01 中島研吾 ( 東大 情報基盤センター ) 横川三津夫 ( 神戸大学 計算科学教育センター ) 1 概要 MPI とは MPI の基礎 :Hello World 全体データと局所データ グループ通信 (Collective Communication) 1 対 1 通信
Microsoft PowerPoint - 演習2:MPI初歩.pptx
演習 2:MPI 初歩 - 並列に計算する - 2013 年 8 月 6 日 神戸大学大学院システム情報学研究科計算科学専攻横川三津夫 MPI( メッセージ パッシング インターフェース ) を使おう! [ 演習 2 の内容 ] はじめの一歩課題 1: Hello, world を並列に出力する. 課題 2: プロセス 0 からのメッセージを受け取る (1 対 1 通信 ). 部分に分けて計算しよう課題
コードのチューニング
MPI による並列化実装 ~ ハイブリッド並列 ~ 八木学 ( 理化学研究所計算科学研究センター ) KOBE HPC Spring School 2019 2019 年 3 月 14 日 MPI とは Message Passing Interface 分散メモリのプロセス間の通信規格(API) SPMD(Single Program Multi Data) が基本 - 各プロセスが 同じことをやる
2 T 1 N n T n α = T 1 nt n (1) α = 1 100% OpenMP MPI OpenMP OpenMP MPI (Message Passing Interface) MPI MPICH OpenMPI 1 OpenMP MPI MPI (trivial p
22 6 22 MPI MPI 1 1 2 2 3 MPI 3 4 7 4.1.................................. 7 4.2 ( )................................ 10 4.3 (Allreduce )................................. 12 5 14 5.1........................................
演習準備
演習準備 2014 年 3 月 5 日神戸大学大学院システム情報学研究科森下浩二 1 演習準備の内容 神戸大 FX10(π-Computer) 利用準備 システム概要 ログイン方法 コンパイルとジョブ実行方法 MPI 復習 1. MPIプログラムの基本構成 2. 並列実行 3. 1 対 1 通信 集団通信 4. データ 処理分割 5. 計算時間計測 2 神戸大 FX10(π-Computer) 利用準備
C/C++ FORTRAN FORTRAN MPI MPI MPI UNIX Windows (SIMD Single Instruction Multipule Data) SMP(Symmetric Multi Processor) MPI (thread) OpenMP[5]
MPI ( ) [email protected] 1 ( ) MPI MPI Message Passing Interface[2] MPI MPICH[3],LAM/MPI[4] (MIMDMultiple Instruction Multipule Data) Message Passing ( ) (MPI (rank) PE(Processing Element)
演習 II 2 つの講義の演習 奇数回 : 連続系アルゴリズム 部分 偶数回 : 計算量理論 部分 連続系アルゴリズム部分は全 8 回を予定 前半 2 回 高性能計算 後半 6 回 数値計算 4 回以上の課題提出 ( プログラム + 考察レポート ) で単位
演習 II ( 連続系アルゴリズム ) 第 1 回 : MPI 須田研究室 M2 本谷徹 [email protected] 2012/10/05 2012/10/18 補足 訂正 演習 II 2 つの講義の演習 奇数回 : 連続系アルゴリズム 部分 偶数回 : 計算量理論 部分 連続系アルゴリズム部分は全 8 回を予定 前半 2 回 高性能計算 後半 6 回 数値計算 4 回以上の課題提出
Microsoft PowerPoint _MPI-03.pptx
計算科学演習 Ⅰ ( 第 11 回 ) MPI を いた並列計算 (III) 神戸大学大学院システム情報学研究科横川三津夫 [email protected] 2014/07/03 計算科学演習 Ⅰ:MPI を用いた並列計算 (III) 1 2014/07/03 計算科学演習 Ⅰ:MPI を用いた並列計算 (III) 2 今週の講義の概要 1. 前回課題の解説 2. 部分配列とローカルインデックス
Microsoft PowerPoint - 演習1:並列化と評価.pptx
講義 2& 演習 1 プログラム並列化と性能評価 神戸大学大学院システム情報学研究科横川三津夫 [email protected] 2014/3/5 RIKEN AICS HPC Spring School 2014: プログラム並列化と性能評価 1 2014/3/5 RIKEN AICS HPC Spring School 2014: プログラム並列化と性能評価 2 2 次元温度分布の計算
Microsoft PowerPoint - 講義:片方向通信.pptx
MPI( 片方向通信 ) 09 年 3 月 5 日 神戸大学大学院システム情報学研究科計算科学専攻横川三津夫 09/3/5 KOBE HPC Spring School 09 分散メモリ型並列計算機 複数のプロセッサがネットワークで接続されており, れぞれのプロセッサ (PE) が, メモリを持っている. 各 PE が自分のメモリ領域のみアクセス可能 特徴数千から数万 PE 規模の並列システムが可能
Microsoft PowerPoint - MPIprog-F1.ppt [互換モード]
MPIによるプログラミング 概 要 (その1) Fortran 言 語 編 RIKEN AICS HPC Summer School 2014 中 島 研 吾 ( 東 大 情 報 基 盤 センター) 横 川 三 津 夫 ( 神 戸 大 計 算 科 学 教 育 センター) 1 本 schoolの 目 的 並 列 計 算 機 の 使 用 によって,より 大 規 模 で 詳 細 なシミュレー ションを 高
MPI usage
MPI (Version 0.99 2006 11 8 ) 1 1 MPI ( Message Passing Interface ) 1 1.1 MPI................................. 1 1.2............................... 2 1.2.1 MPI GATHER.......................... 2 1.2.2
並列計算導入.pptx
並列計算の基礎 MPI を用いた並列計算 並列計算の環境 並列計算 複数の計算ユニット(PU, ore, Pなど を使用して 一つの問題 計算 を行わせる 近年 並列計算を手軽に使用できる環境が急速に整いつつある >通常のP PU(entral Processing Unit)上に計算装置であるoreが 複数含まれている Intel ore i7 シリーズ: 4つの計算装置(ore) 通常のプログラム
<4D F736F F F696E74202D D F95C097F D834F E F93FC96E5284D F96E291E85F8DE391E52E >
SX-ACE 並列プログラミング入門 (MPI) ( 演習補足資料 ) 大阪大学サイバーメディアセンター日本電気株式会社 演習問題の構成 ディレクトリ構成 MPI/ -- practice_1 演習問題 1 -- practice_2 演習問題 2 -- practice_3 演習問題 3 -- practice_4 演習問題 4 -- practice_5 演習問題 5 -- practice_6
±é½¬£²¡§£Í£Ð£É½éÊâ
2012 8 7 1 / 52 MPI Hello World I ( ) Hello World II ( ) I ( ) II ( ) ( sendrecv) π ( ) MPI fortran C wget http://www.na.scitec.kobe-u.ac.jp/ yaguchi/riken2012/enshu2.zip unzip enshu2.zip 2 / 52 FORTRAN
<4D F736F F F696E74202D C097F B A E B93C782DD8EE682E890EA97705D>
並列アルゴリズム 2005 年後期火曜 2 限青柳睦 [email protected] http//server-500.cc.kyushu-u.ac.jp/ 11 月 29( 火 ) 7. 集団通信 (Collective Communication) 8. 領域分割 (Domain Decomposition) 1 もくじ 1. 序並列計算機の現状 2. 計算方式およびアーキテクチュアの分類
目 目 用方 用 用 方
大 生 大 工 目 目 用方 用 用 方 用 方 MS-MPI MPI.NET MPICH MPICH2 LAM/MPI Ver. 2 2 1 2 1 C C++ Fortan.NET C# C C++ Fortan 用 行 用 用 用 行 用 言 言 言 行 生 方 方 一 行 高 行 行 文 用 行 If ( rank == 0 ) { // 0 } else if (rank == 1) {
untitled
RIKEN AICS Summer School 3 4 MPI 2012 8 8 1 6 MPI MPI 2 allocatable 2 Fox mpi_sendrecv 3 3 FFT mpi_alltoall MPI_PROC_NULL 4 FX10 /home/guest/guest07/school/ 5 1 A (i, j) i+j x i i y = Ax A x y y 1 y i
WinHPC ppt
MPI.NET C# 2 2009 1 20 MPI.NET MPI.NET C# MPI.NET C# MPI MPI.NET 1 1 MPI.NET C# Hello World MPI.NET.NET Framework.NET C# API C# Microsoft.NET java.net (Visual Basic.NET Visual C++) C# class Helloworld
GeoFEM開発の経験から
FrontISTR における並列計算のしくみ < 領域分割に基づく並列 FEM> メッシュ分割 領域分割 領域分割 ( パーティショニングツール ) 全体制御 解析制御 メッシュ hecmw_ctrl.dat 境界条件 材料物性 計算制御パラメータ 可視化パラメータ 領域分割ツール 逐次計算 並列計算 Front ISTR FEM の主な演算 FrontISTR における並列計算のしくみ < 領域分割に基づく並列
44 6 MPI 4 : #LIB=-lmpich -lm 5 : LIB=-lmpi -lm 7 : mpi1: mpi1.c 8 : $(CC) -o mpi1 mpi1.c $(LIB) 9 : 10 : clean: 11 : -$(DEL) mpi1 make mpi1 1 % mpiru
43 6 MPI MPI(Message Passing Interface) MPI 1CPU/1 PC Cluster MPICH[5] 6.1 MPI MPI MPI 1 : #include 2 : #include 3 : #include 4 : 5 : #include "mpi.h" 7 : int main(int argc,
120802_MPI.ppt
CPU CPU CPU CPU CPU SMP Symmetric MultiProcessing CPU CPU CPU CPU CPU CPU CPU CPU CPU CPU CPU CPU CP OpenMP MPI MPI CPU CPU CPU CPU CPU CPU CPU CPU CPU CPU MPI MPI+OpenMP CPU CPU CPU CPU CPU CPU CPU CP
Microsoft PowerPoint - 06-S2-ref-C.ppt [互換モード]
並列有限要素法による 一次元定常熱伝導解析プログラム C 言語編 中島研吾東京大学情報基盤センター S2-ref 2 問題の概要, 実行方法 局所分散データの考え方 プログラムの説明 計算例 FEM1D 3 対象とする問題 : 一次元熱伝導問題 体積当たり一様発熱 Q x T x Q 0 x=0 (x min ) x= x max 一様な : 断面積 A, 熱伝導率 体積当たり一様発熱 ( 時間当たり
main() {... } main() { main() { main() {......... } } } main() { main() { main() {......... } } } main() { if(rank==)... } main() { if(rank==)... } main() { if(rank==x)... } P(N) P(N) / P(M) * ( M / N
86
86 86 86 main() {... } main() { main() { main() {......... } } } 86 main() { main() { main() {......... } } } main() { if(rank==)... } main() { if(rank==)... } main() { if(rank==x)... } 86 P(N) P(N) /
Microsoft PowerPoint 並列アルゴリズム04.ppt
並列アルゴリズム 2005 年後期火曜 2 限 青柳睦 [email protected] http://server-500.cc.kyushu-u.ac.jp/ 11 月 8 日 ( 火 ) 5. MPI の基礎 6. 並列処理の性能評価 1 もくじ 1. 序並列計算機の現状 2. 計算方式およびアーキテクチュアの分類 3. 並列計算の目的と課題 4. 数値計算における各種の並列化
情報処理概論(第二日目)
1 並列プログラミング超入門講習会 九州大学情報基盤研究開発センター MPI コース 2 並列計算機の構成 計算ノード ネットワーク CPU コア メモリ アクセラレータ (GPU 等 ) 例 : スーパーコンピュータシステム ITO サブシステム B ノード数 CPU 数 / ノードコア数 / CPU GPU 数 / ノード 128 2 18 4 MPI (Message Passing Interface)
並列有限要素法による 一次元定常熱伝導解析プログラム C 言語編 中島研吾 東京大学情報基盤センター
並列有限要素法による 一次元定常熱伝導解析プログラム C 言語編 中島研吾 東京大学情報基盤センター S2-ref 2 問題の概要, 実行方法 プログラムの説明 計算例 FEM1D 3 対象とする問題 : 一次元熱伝導問題 体積当たり一様発熱 Q ɺ x T λ x + Qɺ = 0 x=0 (x min ) x= x max 一様な : 断面積 A, 熱伝導率 λ 体積当たり一様発熱 ( 時間当たり
(Microsoft PowerPoint \211\211\217K3_4\201i\216R\226{_\211\272\215\342\201j.ppt [\214\335\212\267\203\202\201[\203h])
RIKEN AICS Summer School 演習 3 4 MPI による並列計算 2012 年 8 月 8 日 神戸大学大学院システム情報学研究科山本有作理化学研究所計算科学研究機構下坂健則 1 演習の目標 講義 6 並列アルゴリズム基礎 で学んだアルゴリズムのいくつかを,MPI を用いて並列化してみる これを通じて, 基本的な並列化手法と,MPI 通信関数の使い方を身に付ける 2 取り上げる例題と学習項目
Microsoft Word - 計算科学演習第1回3.doc
スーパーコンピュータの基本的操作方法 2009 年 9 月 10 日高橋康人 1. スーパーコンピュータへのログイン方法 本演習では,X 端末ソフト Exceed on Demand を使用するが, 必要に応じて SSH クライアント putty,ftp クライアント WinSCP や FileZilla を使用して構わない Exceed on Demand を起動し, 以下のとおり設定 ( 各自のユーザ
¥Ñ¥Ã¥±¡¼¥¸ Rhpc ¤Î¾õ¶·
Rhpc COM-ONE 2015 R 27 12 5 1 / 29 1 2 Rhpc 3 forign MPI 4 Windows 5 2 / 29 1 2 Rhpc 3 forign MPI 4 Windows 5 3 / 29 Rhpc, R HPC Rhpc, ( ), snow..., Rhpc worker call Rhpc lapply 4 / 29 1 2 Rhpc 3 forign
untitled
I 9 MPI (II) 2012 6 14 .. MPI. 1-3 sum100.f90 4 istart=myrank*25+1 iend=(myrank+1)*25 0 1 2 3 mpi_recv 3 isum1 1 isum /tmp/120614/sum100_4.f90 program sum100_4 use mpi implicit none integer :: i,istart,iend,isum,isum1,ip
Microsoft PowerPoint - 06-S2-ref-F.pptx
並列有限要素法による 一次元定常熱伝導解析プログラム Fortran 編 中島研吾東京大学情報基盤センター お試しアカウント付き講習会 MPI 応用編 : 並列有限要素法 S2-ref 2 問題の概要, 実行方法 プログラムの説明 計算例 FEM1D 3 対象とする問題 : 一次元熱伝導問題 体積当たり一様発熱 Q x T x Q 0 x=0 (x min ) x= x max 一様な : 断面積
2012 6 1 MPI 1995 8 2002 2003 ( 2) MPI http://accc.riken.jp/hpc/training.html iii 1 1 1-1.......................................... 2 1-2........................................... 4 2 9 2-1...............................................
Microsoft PowerPoint - 阪大CMSI pptx
内容に関する質問は [email protected] まで 第 2 回 MPI の基礎 名古屋大学情報基盤センター 片桐孝洋 1 講義日程と内容について (1 学期 : 木曜 3 限 ) 第 1 回 : プログラム高速化の基礎 2017 年 4 月 13 日 イントロダクション ループアンローリング キャッシュブロック化 数値計算ライブラリの利用 その他第 2 回 :MPIの基礎
C プログラミング演習 1( 再 ) 2 講義では C プログラミングの基本を学び 演習では やや実践的なプログラミングを通して学ぶ
C プログラミング演習 1( 再 ) 2 講義では C プログラミングの基本を学び 演習では やや実践的なプログラミングを通して学ぶ 今回のプログラミングの課題 次のステップによって 徐々に難易度の高いプログラムを作成する ( 参照用の番号は よくわかる C 言語 のページ番号 ) 1. キーボード入力された整数 10 個の中から最大のものを答える 2. 整数を要素とする配列 (p.57-59) に初期値を与えておき
nakao
Fortran+Python 4 Fortran, 2018 12 12 !2 Python!3 Python 2018 IEEE spectrum https://spectrum.ieee.org/static/interactive-the-top-programming-languages-2018!4 Python print("hello World!") if x == 10: print
FORTRAN( と C) によるプログラミング 5 ファイル入出力 ここではファイルからデータを読みこんだり ファイルにデータを書き出したりするプログラムを作成してみます はじめに テキスト形式で書かれたデータファイルに書かれているデータを読みこんで配列に代入し 標準出力に書き出すプログラムを作り
FORTRAN( と C) によるプログラミング 5 ファイル入出力 ここではファイルからデータを読みこんだり ファイルにデータを書き出したりするプログラムを作成してみます はじめに テキスト形式で書かれたデータファイルに書かれているデータを読みこんで配列に代入し 標準出力に書き出すプログラムを作ります FORTRAN の場合 OPEN 文でファイルを開いた後 標準入力の場合と同様に READ 文でデータを読みこみます
2007年度 計算機システム演習 第3回
2014 年度 実践的並列コンピューティング 第 10 回 MPI による分散メモリ並列プログラミング (3) 遠藤敏夫 [email protected] 1 MPI プログラムの性能を考える 前回までは MPI プログラムの挙動の正しさを議論 今回は速度性能に注目 MPIプログラムの実行時間 = プロセス内計算時間 + プロセス間通信時間 計算量 ( プロセス内 ) ボトルネック有無メモリアクセス量
MPI MPI MPI.NET C# MPI Version2
MPI.NET C# 2 2009 2 27 MPI MPI MPI.NET C# MPI Version2 MPI (Message Passing Interface) MPI MPI Version 1 1994 1 1 1 1 ID MPI MPI_Send MPI_Recv if(rank == 0){ // 0 MPI_Send(); } else if(rank == 1){ // 1
115 9 MPIBNCpack 9.1 BNCpack 1CPU X = , B =
115 9 MPIBNCpack 9.1 BNCpack 1CPU 1 2 3 4 5 25 24 23 22 21 6 7 8 9 10 20 19 18 17 16 X = 11 12 13 14 15, B = 15 14 13 12 11 16 17 18 19 20 10 9 8 7 6 21 22 23 24 25 5 4 3 2 1 C = XB X dmat1 B dmat2 C dmat
PowerPoint プレゼンテーション
AICS 公開ソフトウェア講習会 15 回 表題通信ライブラリと I/O ライブラリ 場所 AICS R104-2 時間 2016/03/23 ( 水 ) 13:30-17:00 13:30-13:40 全体説明 13:40-14:10 PRDMA 14:10-14:40 MPICH 14:40-15:10 PVAS 15:10-15:30 休憩 15:30-16:00 Carp 16:00-16:30
PowerPoint Presentation
工学部 6 7 8 9 10 組 ( 奇数学籍番号 ) 担当 : 長谷川英之 情報処理演習 第 7 回 2010 年 11 月 18 日 1 今回のテーマ 1: ポインタ 変数に値を代入 = 記憶プログラムの記憶領域として使用されるものがメモリ ( パソコンの仕様書における 512 MB RAM などの記述はこのメモリの量 ) RAM は多数のコンデンサの集合体 : 電荷がたまっている (1)/ いない
演習1: 演習準備
演習 1: 演習準備 2013 年 8 月 6 日神戸大学大学院システム情報学研究科森下浩二 1 演習 1 の内容 神戸大 X10(π-omputer) について システム概要 ログイン方法 コンパイルとジョブ実行方法 OpenMP の演習 ( 入門編 ) 1. parallel 構文 実行時ライブラリ関数 2. ループ構文 3. shared 節 private 節 4. reduction 節
memo
数理情報工学演習第一 C プログラミング演習 ( 第 5 回 ) 2015/05/11 DEPARTMENT OF MATHEMATICAL INFORMATICS 1 今日の内容 : プロトタイプ宣言 ヘッダーファイル, プログラムの分割 課題 : 疎行列 2 プロトタイプ宣言 3 C 言語では, 関数や変数は使用する前 ( ソースの上のほう ) に定義されている必要がある. double sub(int
2012年度HPCサマーセミナー_多田野.pptx
! CCS HPC! I " [email protected]" " 1 " " " " " " " 2 3 " " Ax = b" " " 4 Ax = b" A = a 11 a 12... a 1n a 21 a 22... a 2n...... a n1 a n2... a nn, x = x 1 x 2. x n, b = b 1 b 2. b n " " 5 Gauss LU
DKA ( 1) 1 n i=1 α i c n 1 = 0 ( 1) 2 n i 1 <i 2 α i1 α i2 c n 2 = 0 ( 1) 3 n i 1 <i 2 <i 3 α i1 α i2 α i3 c n 3 = 0. ( 1) n 1 n i 1 <i 2 < <i
149 11 DKA IEEE754 11.1 DKA n p(x) = a n x n + a n 1 x n 1 + + a 0 (11.1) p(x) = 0 (11.2) p n (x) q n (x) = x n + c n 1 x n 1 + + c 1 x + c 0 q n (x) = 0 (11.3) c i = a i a n (i = 0, 1,..., n 1) (11.3)
PowerPoint プレゼンテーション
計算機実習 Ⅰ FORTRAN 担当 2018.05.29 本日の課題 プログラムの基本ルールを理解し 以下が含まれるプログラムを作成する (1) 文法の基礎 ( フローチャートなど ) (2) 変数宣言 (3) 入出力 (4) 四則演算 (5) 組込関数 (6) 判定文 (7) リダイレクション PROGRAM MAIN INTEGER I, J, K REAL A, B, C CHARACTER
58 7 MPI 7 : main(int argc, char *argv[]) 8 : { 9 : int num_procs, myrank; 10 : double a, b; 11 : int tag = 0; 12 : MPI_Status status; 13 : 1 MPI_Init
57 7 MPI MPI 1 1 7.1 Bcast( ) allocate Bcast a=1 PE0 a=1 PE1 a=1 PE2 a=1 PE3 7.1: Bcast 58 7 MPI 7 : main(int argc, char *argv[]) 8 : { 9 : int num_procs, myrank; 10 : double a, b; 11 : int tag = 0; 12
Page 2 本資料は, 東北大学サイバーサイエンスセンターと NEC の共同により作成され, 大阪大学サイバーメディアセンターの環境で実行確認を行い, 修正を加えたものです. 無断転載等は, ご遠慮下さい.
H26 年度 MPI プログラミング入門 2015 年 1 月 27 日 大坂大学サイバーメディアセンター 日本電気株式会社 Page 2 本資料は, 東北大学サイバーサイエンスセンターと NEC の共同により作成され, 大阪大学サイバーメディアセンターの環境で実行確認を行い, 修正を加えたものです. 無断転載等は, ご遠慮下さい. 目次 1. 並列化概要 2. MPI 概要 3. 演習問題 1 4.
内容に関するご質問は まで お願いします [Oakforest-PACS(OFP) 編 ] 第 85 回お試しアカウント付き並列プログラミング講習会 ライブラリ利用 : 科学技術計算の効率化入門 スパコンへのログイン テストプログラム起動 東京大学情報基盤セ
内容に関するご質問は [email protected] まで お願いします [Oakforest-PACS(OFP) 編 ] 第 85 回お試しアカウント付き並列プログラミング講習会 ライブラリ利用 : 科学技術計算の効率化入門 スパコンへのログイン テストプログラム起動 東京大学情報基盤センター特任准教授伊田明弘 1 講習会 : ライブラリ利用 [FX10] スパコンへのログイン ファイル転送
第1回 プログラミング演習3 センサーアプリケーション
C プログラミング - ポインタなんて恐くない! - 藤田悟 [email protected] 目標 C 言語プログラムとメモリ ポインタの関係を深く理解する C 言語プログラムは メモリを素のまま利用できます これが原因のエラーが多く発生します メモリマップをよく頭にいれて ポインタの動きを理解できれば C 言語もこわくありません 1. ポインタ入門編 ディレクトリの作成と移動 mkdir
