NUMAの構成 - PDF 無料ダウンロード

共有メモリを使ったデータ交換と同期慶應義塾大学理工学部天野英晴 hunga@am.ics.keio.ac.jp

同期の必要性あるプロセッサが共有メモリに書いても別のプロセッサにはそのことが分からない同時に同じ共有変数に書き込みすると結果がどうなるか分からないそもそも共有メモリって結構危険な代物多くのプロセッサが並列に動くには何かの制御機構が要る不可分命令同期用メモリバリア同期機構

Fork-join: 並列プロセスの開始と終了 fork fork で生まれたプロセス ( スレッド ) 間はメモリを共有 fork join で全プロセスの待ち合わせをする同期を取っている簡単な並列プログラムは fork/join のみで制御できる OpenMP join join

排他制御プリンタがあり一度に一つのプロセッサしか使えない同時に要求があった場合に一人を選びたいアイディア : 変数 x を 0 に初期化しておく x を読んだプロセッサは 0 ならば素早く 1 を書き込みプリンタを利用終わったら 0 を書き込む 1 を読み込んだプロセッサは 0 を読み込めるまで繰り返し読み続ける (Busy Waiting) しかしこれはうまく行かないなぜか?

P1 と P2 が同時に変数を読んだら? 3.1 を書きこむ 0 1.x を読み出す P2 1.xを読み出す 3.1を書きこむ 2.0かどうかをチェック P1 2.0 かどうかをチェック P1 が x を読んで 0 かどうかをチェックしている間に P2 が x を読み出すかもしれない P1,P2 共に 0 を取ることができる読む操作と書く操作を不可分 (Atomic/Indivisible) に行う命令が必要不可分命令

Test & Set (x) Test&Set(x) 0 Test&Set(x) x を読み出す 1 を書きこむ 2 つの操作を不可分に行うこの間共有メモリを占有 P2 P1 同時に命令が実行されても必ず一つだけ 0 を読み他は 1 にするハードウェアの支援が必要他にも Swap, Compare&Swap, Fetch&Dec, Fetch&Add など色々あるが原理は同じ

Critical Section の実行 Test&Set(x) =0? No. Yes. Critical Section この例ではプリンタを使う一つだけが実行できる領域 x = 0 忘れずに x=0 にしておく. 不可分命令があれば Critical Section が作れるなんでもできる! でもちょっと使いにくい

バリア同期バリア成立を待つ P1 P2 P3 Barrier; Barrier;. Barrier; バリア成立バリア同期は不可分命令があれば作れるが専用のハードウェアを使う場合もある

まとめスマフォノート PC の全てサーバースーパーコンピュータの多くが共有メモリ型計算機ポイント高速化のためには並列化が必要プログラマによる並列化来週 OpenMP の演習を行うコンパイラによる自動並列化共有メモリを使ったデータ交換には同期が必要不可分命令バリア同期分散したキャッシュの一貫性制御スヌープキャッシュディレクトリキャッシュ

OpenMP を使ってみる天野

OpenMP プログラムを並列化するためのプラグマ ( プログラムに対する指示文 :directive) ライブラリ環境変数からできている並列プログラム環境 #pragma を directive と呼びこの中で用いる特殊な構文を sub-directive と呼ぶ共有メモリを使うためデータを分散しなくて良い MPI 比較的小規模のマルチコアシステム向き大規模なシステムでは高度の最適化が必要

OpenMP の実行モデル Block A #pragma omp parallel { { Block C Block B Master Thread Block A Block B Block B Block B Block C Thread fork Parallel Region Thread join 環境変数 : OMP_NUM_THREADS で実行スレッド数を設定

並列化の単位となる構文 #pragma omp parallel 内で並列処理を記述 for (do) sections single (master) 一文で実行と制御を兼ねる parallel for parallel section

for 文反復は各スレッドに等分に割り当てられる # pragma omp parallel { #pragma omp for for(i=0; i<1000; i++) { } c[i]=a[i]+b[i]; } # pragma omp parallel for for(i=0; i<1000; i++) { } c[i]=a[i]+b[i];

sections 文 #pragma omp parallel sections { #pragma omp section sub1(); #pragma omp section sub2(); #pragma omp section } sub3(); sub1 sub2 sub3 Thread join 三つの違った処理が並列に実行され終了時に同期される

private sub-directive # pragma omp parallel for private(c) for(i=0; i<1000; i++) { d[i]=a[i]+c*b[i]; } c は各スレッドにコピーされる高速実行が可能

private sub-directive の利用 # pragma omp parallel for private(j) for(i=0; i<100; i++) { for(j=0; j<100; j++) a[i]=a[i]+amat[i][j]*b[j]; } この文を private(j) なしに実行したらどうなるだろう? 全てのスレッドで j が更新されるエラー!

reduction sub-directive # pragma omp parallel for reduction(+:ddot) for(i=0; i<100; i++) { ddot+= a[i]*b[i]; } リダクション演算はデータを足し込んでいく演算良く用いられるが並列実行はこの sub-directive を使わないと難しい

組み込み関数 omp_get_num_threads(); 並列実行されるスレッド数を返す omp_get_thread_num(); 自分のスレッド番号を返す omp_get_max_threads(); 並列実行可能な最大スレッド数を返す使い方 #include <omp.h> int nth, myid; nth = omp_get_num_threads(); myid = omp_get_thread_num();

時間を計る : omp_get_wtime(); #include <omp.h> double ts, te; ts = omp_get_wtime(); 実行 te = omp_get_wtime(); printf( time[sec]:%lf n,te-ts);

他の pragma single: #pragma omp single { blocks.. } 指定されたブロック内の文を単一スレッドに割り当てる master: #pragma omp master { blocks... } 指定されたブロック内の文をマスタースレッドに割り当てる

テスト環境 http://www.am.ics.keio.ac.jp/arc から OpenMP の演習資料 openmp19.tar をダウンロード tar xvf openmp19.tar で解凍

コンパイルと実行 gcc fopenmp hello.c o hello./hello Hello OpenMP world from 2 of 8. ここではスレッド数は 8 に設定されているこれは環境変数 OMP_NUM_THREADS をコマンドラインで設定することで変更できる例 export OMP_NUM_THREADS=6./reduct じっさいのコア数を超える設定も可能だが速くならない

例題プログラム reduct4k.c 乱数で作った配列 a と b の積を計算して c に入れるこの c の要素の全てを足して sum に入れる ( リダクション演算 ) extport OMP_NUM_THREADS=x によりスレッド数を 1,2,3,4,6,8 に設定して実行し実行時間を計測してみよ

演習 cg.c 共役勾配法は大規模な連立一次方程式の反復解法行列は正定値対称でないと解けないが一定回数で収束するという特徴がある cg.c に pragma を挿入しスレッド数を 1,2,4 に変化させて時間を計測せよ提出物は pragma を挿入したプログラムと実行時間