Microsoft PowerPoint - scls_biogrid_lecture_v2.pptx

Size: px

Start display at page:

Download "Microsoft PowerPoint - scls_biogrid_lecture_v2.pptx"

いつやみやのじょう
6 years ago
Views:

スパコンコース並列プログラミング編善之 E-mail:yoshiyuki.kido@riken.

Message Passing Interface (MPI) 2. Open MP 3. ハイブリッド並列 4.

計算機計算にいる機械 ( デジタル辞泉 ) 計算のための機械器具のことコンピュータや電卓を指すことが多い

パーソナルコンピュータ主に個で使するために作られたコンピューターパソコン PC 汎機 ( メインフレーム )

計算機は気安く触れられるものではなかった世界初の計算機 Atanasoff-Berry Computer

Zuse Z3, 1941 年, Germany 世界初の汎用機 UNIVAC I, 1950 年, USA 1939

アポロ 11 号着陸, 1969 年の誕, 1975 年 Grid Computing, 2003 年, I.

1990 WWW/HTTP, 1990 年, CERN, EU 2000 Webサービス, 2000 年, W3C

1 スパコンコース並列プログラミング編善之理化学研究所 HPCI 計算命科学推進プログラム企画調整グループ企画調整チームチーム員次 1. Message Passing Interface (MPI) 2. Open MP 3. ハイブリッド並列 4. 列計算の並列化計算機ってなんだ? 計算機計算にいる機械 ( デジタル辞泉 ) 計算のための機械器具のことコンピュータや電卓を指すことが多い (Wikipedia) が不得意な正確な演算やルーチンワークを肩代わりするための道具コンピュータってなんだ? パーソナルコンピュータ主に個で使するために作られたコンピューターパソコン PC 汎機 ( メインフレーム ) 企業の基幹業務に利される規模なコンピュータスーパーコンピュータ度な数値計算 ( 量物理ケモバイオインフォマティクス天地学...etc) のためのコンピュータ数値だけでなく画像書など様々なに対し処理をい出する装置計算機は気安く触れられるものではなかった世界初の計算機 Atanasoff-Berry Computer (ABC), 1937 年, Iowa, USA ENIAC, 1946 年, Pennsylvania, USA Zuse Z3, 1941 年, Germany 世界初の汎用機 UNIVAC I, 1950 年, USA 1939 年 1945 年第次世界戦! アポロ 11 号着陸, 1969 年の誕, 1975 年 Grid Computing, 2003 年, I. Foster TCP/IP 採, 1983 年, USA WWW/HTTP, 1990 年, CERN, EU 2000 Webサービス, 2000 年, W3C 2010 APRNET, 1969 年, UCLA-SRI, USA 弾道計算のシミュレーション真空中の放物運動ただの放物運動 t 秒後の速度 t 秒後の座標初期度 :θ 0 初期速度 :v 0 重加速度 :g 時間 :t v x v 0 cos 0 v y v 0 sin 0 gt x v 0 cos 0 t y v 0 sin 0 t 1 2 gt

弾道計算のシミュレーション空気抵抗をれてみよう速度に例する空気抵抗を持つ放物運動 t 秒後の速度 t 秒後の座標初期度 :θ 0 初期速度

k g)e k m t m k g x mv 0 k cos m 0 (1 t e ) y m k (v 0 sin 0 m k k g)(1 e m

発射された物体を正確に標的に当てるため最初は軍事的ゴルフ野球などスポーツ科学衛星スペースシャトルの打ち上げフライトシミュレータ

気圧により密度が変わり空気抵抗が変化 ) 弾丸の前投影積表の摩擦係数質量向きコリオリの重加速度物体の転 ( スピン ) による揚

Atanasoff-Berry Computer (ABC), 1937 年, Iowa, USA ENIAC, 1946 年,

世界初の電卓 Anita Mark8, 1963 年, UK CS-10A, 1964 年, Japan 世界初のパソコン Altair 8800,

のスーパーコンピュータ CDC 6600, 1964 年, Lawrence Livermore National Lab., USA.

Linpack と FLOPS Linpack 浮動数点の n x n 列の線形程式系 Ax = b を解く速度を計測出 R max :

(FLOPS) FLOPS Floating-point Operations Per Second 秒間に浮動数点演算を何回できるか?

Nov, 1996 Jun, 1997 Nov, 1997 Jun, 1998 Nov, 1998 Jun, 1999 Nov, 1999 Jun,

Jun, 2004 Nov, 2004 Jun, 2005 Nov, 2005 Jun, 2006 Nov, 2006 Jun, 2007 Nov,

Nov, 2011 Jun, 2012 地球シミュレータ, JAMSTEC/NEC CP-PACS, 筑波 / 天河号 A, 中国京, 理化学研究所

計算ラック計算ラック 8 ディスクラック 2 システムボード 24 IOシステムボード 6 98.

2 弾道計算のシミュレーション空気抵抗をれてみよう速度に例する空気抵抗を持つ放物運動 t 秒後の速度 t 秒後の座標初期度 :θ 0 初期速度 :v 0 重加速度 :g 時間 :t 空気抵抗 :k 物体の質量 :m v x v 0 e k m t cos 0 v y (v 0 sin 0 m k g)e k m t m k g x mv 0 k cos m 0 (1 t e ) y m k (v 0 sin 0 m k k g)(1 e m t ) gt k 弾道計算シミュレーション様々な要因と応発射された物体を正確に標的に当てるため最初は軍事的ゴルフ野球などスポーツ科学衛星スペースシャトルの打ち上げフライトシミュレータ 3Dゲームなどのレンダリング物理演算分動学によるポリマー合成ドラッグデザイン天気予報要素初速仰空気抵抗 ( 湿度気温気圧により密度が変わり空気抵抗が変化 ) 弾丸の前投影積表の摩擦係数質量向きコリオリの重加速度物体の転 ( スピン ) による揚シミュレーション現実世界での現象を単純化簡略化した数理モデル ( は模型 ) をいて検証をう模擬実験世界初の計算機世界初の計算機 Atanasoff-Berry Computer (ABC), 1937 年, Iowa, USA ENIAC, 1946 年, Pennsylvania, USA Zuse Z3, 1941 年, Germany 世界初の汎機 UNIVAC I, 1950 年, USA 世界初の電卓 Anita Mark8, 1963 年, UK CS-10A, 1964 年, Japan 世界初のパソコン Altair 8800, 1975 年, USA Apple 1, 1976 年, USA 商業業務利に特化可性を追求科学技術計算に特化計算性能を追求世界初? のスーパーコンピュータ CDC 6600, 1964 年, Lawrence Livermore National Lab., USA. 3 MFLOPS FLOP = Floating point number Operations Per Second 性能評価のベンチマーク Linpack と FLOPS Linpack 浮動数点の n x n 列の線形程式系 Ax = b を解く速度を計測出 R max : 実効性能値 (FLOPS) N max : 最問題サイズ N 1/2 : 実効性能値の半分の性能になる時の問題サイズ R peak : 理論性能値 (FLOPS) FLOPS Floating-point Operations Per Second 秒間に浮動数点演算を何回できるか? 京 : 約 10Peta FLOPS(10 16 回 ) 10PFlop/s 1PFlop/s 100TFlop/s 10TFlop/s 1TFlop/s Top500 Jun Jun, 1993 Nov, 1993 Jun, 1994 Nov, 1994 Jun, 1995 Dec, 1995 Jun, 1996 Nov, 1996 Jun, 1997 Nov, 1997 Jun, 1998 Nov, 1998 Jun, 1999 Nov, 1999 Jun, 2000 Nov, 2000 Jun, 2001 Nov, 2001 Jun, 2002 Nov, 2002 Jun, 2003 Nov, 2003 Jun, 2004 Nov, 2004 Jun, 2005 Nov, 2005 Jun, 2006 Nov, 2006 Jun, 2007 Nov, 2007 Jun, 2008 Nov, 2008 Jun, 2009 Nov, 2009 Jun, 2010 Nov, 2010 Jun, 2011 Nov, 2011 Jun, 2012 地球シミュレータ, JAMSTEC/NEC CP-PACS, 筑波 / 天河号 A, 中国京, 理化学研究所 / 富通 #1 #500 ノード CPU 1 ICC 1 メモリ 8 京のハードウェア構成システムボードノード 4 計算ラック群計算ラック計算ラック 8 ディスクラック 2 システムボード 24 IOシステムボード兆回 / 秒 12TB システム全体計算ラック 800 以上 1 京回 / 秒 =10ペタフロップス 1PB 以上 100GFlop/s 10GFlop/s 1GFlop/s 数値洞, NAL( 現 JAXA)/ 富通 * Core2Quad, 51.2GFLOPS ( 理論性能値 ) 5120 億回 / 秒演算性能 :1280 億回 / 秒メモリ容量 :16GB 64GB 12.3 兆回 / 秒 1.5TB 80,000 個以上の CPU 間を相互に接続するインターコネクト 100MFlop/s 2

CPU (Central Processing Unit) とメモリキャッシュ CISC(Complex Instruction Set Computer) 命令語 (word) が可変単

Wordが固定アーキテクチャを単純にして性能向上コスト削減を指した ( 過去形 ) メインメモリ SPARC 系,PowerPC 系データ命令プログラムカウンタ命令レジスタ

性能化と省電化を両冷式を採.CPU 温度を下げ, リーク電流を削減マルチコアを1つのCPUとして扱うVISIMPACTを装備アプリケーション性能の更なる速化.

L1キャッシュ 32KB(D), 32KB(I), 2way L2キャッシュ 6MB, 12way 浮動数点演算器機構 FMA x 4 (2 SIMD) 浮動数点演算同時実数 8

マルチコアを 1 つの仮想 CPU として扱うコア間でのスレッド並列処理を効率的に実効率なハイブリッド並列 ( 動並列 +MPI) を実現 Tofu (Torus Fusion)

次元トーラストポロジで接続バンド幅 :5GB/s 1Tofu 3 次元メッシュトポロジ 1 ノード CPU コア間でのハードウェアバリア機能容量共有 L2 キャッシュコンパイラ

次元トーラストポロジを構成故障ノードを回避してトーラストポロジを構成 3 次元トーラストポロジユーザからた京京の論理構成ユーザクライアント学術情報ネットワーク SINET SSH

ジョブ操作をうデータステージングにてプログラムファイルデータファイルを計算ノードに転送出ファイルもデータステージングにて取得データステージングも含めジョブスクリプトに記述ログインノード

3 CPU (Central Processing Unit) とメモリキャッシュ CISC(Complex Instruction Set Computer) 命令語 (word) が可変単の命令で複数の処理 Intel x86 系,680x0 系 CPU アキュムレータ ( レジスタ ) 演算回路 RISC(Reduced Instruction Set Computer) Wordが固定アーキテクチャを単純にして性能向上コスト削減を指した ( 過去形 ) メインメモリ SPARC 系,PowerPC 系データ命令プログラムカウンタ命令レジスタ SPARC64 VIIIfx( 京 ) 性能省電マルチコアCPU 消費電性能ピーク性能 :128 GFLOPS(16 GFLOPS 8コア ) 消費電 :58W マルチコア化による性能化と省電化を両冷式を採.CPU 温度を下げ, リーク電流を削減マルチコアを1つのCPUとして扱うVISIMPACTを装備アプリケーション性能の更なる速化.HPC 向けに強化 HPC 向け拡張機構を装備メモリバンド幅 :65 GB/s 信頼性広範囲なエラー検出修復機能, 命令リトライ機能仕様アーキテクチャ SPARC64 tm VIIIfx L1キャッシュ 32KB(D), 32KB(I), 2way L2キャッシュ 6MB, 12way 浮動数点演算器機構 FMA x 4 (2 SIMD) 浮動数点演算同時実数 8 メモリバンド幅 64 GB/s VISIMPACT Virtual Single Processor by Integrated Multi- Parallel Architecture マルチコアを 1 つの仮想 CPU として扱うコア間でのスレッド並列処理を効率的に実効率なハイブリッド並列 ( 動並列 +MPI) を実現 Tofu (Torus Fusion) インターコネクトノード間 (CPU 間 ) の通信技術アーキテクチャ 6 次元メッシュ / トーラストポロジ 3 次元メッシュの 12 ノードを 1Tofu Tofu 単位を 3 次元トーラストポロジで接続バンド幅 :5GB/s 1Tofu 3 次元メッシュトポロジ 1 ノード CPU コア間でのハードウェアバリア機能容量共有 L2 キャッシュコンパイラ動ベクトル化による動並列特徴並列を実現するスケーラビリティ最約 10 万ノード規模 (98,304=32x32x8x2x3x2) い可性任意にメッシュ分割しても常に 3 次元トーラストポロジを構成故障ノードを回避してトーラストポロジを構成 3 次元トーラストポロジユーザからた京京の論理構成ユーザクライアント学術情報ネットワーク SINET SSH でリモートログイン京ログインノード SINET につながったサイト ( 学研究所 ) からアクセスログインノードから計算ノードへジョブ投京計算ノードユーザはログインノードにてプログラム開発ジョブ操作をうデータステージングにてプログラムファイルデータファイルを計算ノードに転送出ファイルもデータステージングにて取得データステージングも含めジョブスクリプトに記述ログインノードホーム /home/group/user ステージインデータ /data/group ステージアウトワーク領域ワーク領域ワーク領域ワーク領域 ( 計算ノードローカル ) ( 計算ノードローカル ) /work ( 計算ノードローカル ( 計算ノードローカル ) /work) /work /work 計算ノード計算ノード計算ノード計算ノード 3

サンプルジョブスクリプト #!/bin/bash # #PJM --rsc-list "node=1000" #PJM --rsc-list "elapse=01:00:00" #PJM --rsc-list "node-mem=10gi" #PJM --stg-transfiles all #PJM --stgin "./program.out./a.out" #PJM --stgin ".

/work/system/env_base スレッド並列数 ( ノード内のコア数 ) 確保するノード数確保する実時間 1 ノード当たりのメモリステージインするファイルステージアウトするファイルプログラムのパラメータ export PARALLEL=8 export OMP_NUM_THREADS=$PARALLEL mpiexec -n 1000./a.

並列数 klogin1$ pjstat ( 確保したノード数と同数 ) ACCEPT QUEUED STGIN READY RUNING RUNOUT STGOUT HOLD ERROR TOTAL 0 1 0 0 0 0 0 0 0 1 s 0 1 0 0 0 0 0 0 0 1 次 1. Message Passing Interface (MPI) 2. Open MP 3.

4 サンプルジョブスクリプト #!/bin/bash # #PJM --rsc-list "node=1000" #PJM --rsc-list "elapse=01:00:00" #PJM --rsc-list "node-mem=10gi" #PJM --stg-transfiles all #PJM --stgin "./program.out./a.out" #PJM --stgin "./input.edf./" #PJM --stgout "./output*./result/ stgout=all" #PJM -s #. /work/system/env_base スレッド並列数 ( ノード内のコア数 ) 確保するノード数確保する実時間 1 ノード当たりのメモリステージインするファイルステージアウトするファイルプログラムのパラメータ export PARALLEL=8 export OMP_NUM_THREADS=$PARALLEL mpiexec -n 1000./a.out -y o output -T L 1 -S linear i input.edf klogin1$ pjsub sample.sh [INFO] PJM 0000 pjsub Job submitted. 並列数 klogin1$ pjstat ( 確保したノード数と同数 ) ACCEPT QUEUED STGIN READY RUNING RUNOUT STGOUT HOLD ERROR TOTAL s 次 1. Message Passing Interface (MPI) 2. Open MP 3. ハイブリッド並列 4. 列計算の並列化 JOB_ID JOB_NAME MD ST USER START_DATE ELAPSE_LIM NODE_REQUIRE sample NM QUE user00xx :00: klogin1$ 並列プログラミングとは逐次処理の問題, プログラム ( 実時間 :T) をnに分割し n 台のプロセッサ (or 計算機 ) でT/n 時間にするプロセッサに割り当てられるタスクは独並列化できる問題はデータに依存性のない問題のみに時間 :T 限られる問題並列化通信によるオーバヘッド T/n ち上がり時間分割数 :n データ転送時間オーバヘッドち上がり時間データ転送時間並列とスレッド並列並列メモリ空間は独並列タスク間でのデータ通信は必要に応じて例 :Message Passing Interface (MPI) スレッド並列メモリ空間を共有データ通信の必要性なし例 :OpenMP 並列1 2 メモリメモリ空間空間ローカローカル変数ル変数インターコネクト 3 メモリ空間ローカル変数スレッド並列メモリ空間スレッド1 スレッド2 スレッド3 ローカル変数ローカル変数ローカル変数グローバル変数領域 Message Passing Interface (MPI) MPI 関数メッセージパッシング / 間通信の規格分散メモリ型並列計算機での並列実に向く規模計算が可能にスケーラビリティ性能は主要な実装例 MPICH LAM OpenMPI(C 語,C++,Fortran) 略語 Processor Element: の単位.MPI を指す. Rank:PE の識別番号のこと.MPI_Comm_rank 関数で設定されるランク ID システム関数 MPI_Init, MPI_Comm_rank, MPI_Comm_size, MPI_Finalize 1 対 1 通信ブロッキング :MPI_Send, MPI_Recv ノンブロッキング :MPI_Isend, MPI_Irecv 1 対全通信 MPI_Bcast 数段通信 MPI_Reduce, MPI_Allreduce, MPI_Barrier 4

基本的な MPI 関数 MPI_Recv 基本的な MPI 関数 MPI_Send int MPI_Recv(void *buf, int count, MPI_Datatype datatype, int source, int tag, MPI_Comm comm, MPI_Status *status) int MPI_Send(void *buf, int count,

5 基本的な MPI 関数 MPI_Recv 基本的な MPI 関数 MPI_Send int MPI_Recv(void *buf, int count, MPI_Datatype datatype, int source, int tag, MPI_Comm comm, MPI_Status *status) int MPI_Send(void *buf, int count, MPI_Datatype datatype, int dest, int tag, MPI_Comm comm) ブロッキングして相からの通信を待ち受けるReciver 関数相がMPI_sendで送信するまで待ち受ける buf : 受け取るバッファのアドレス (Output) count : 受け取るレシーブの最数 (Input) datatype : レシーブのデータタイプ (Input) source : ソースのランクID(Input) tag : メッセージタグ (Input) comm : コミュニケータ (input) status : ステータスオブジェクト (Output) 相への通信をう Send 関数相が MPI_recv で受信するまで待ち受ける buf : 送信バッファのアドレス (Input) count : 送信する最数 (Input) datatype : 送信データのデータタイプ (Input) source : 宛先のランク ID(Input) tag : メッセージタグ (Input) comm : コミュニケータ (input) 基本的な MPI 関数 MPI_Bcast 基本的な MPI 関数 MPI_Reduce int MPI_Bcast(void *buf, int count, MPI_Datatype datatype, int root, MPI_Comm comm) root のランク ID 以下のに対しブロードキャスト ( 全送信 ) する関数 buf : 送信バッファのアドレス (Input) count : 送信する最数 (Input) datatype : 送信データのデータタイプ (Input) root : root のランク ID(Input) comm : コミュニケータ (input) int MPI_Reduce(void *sendbuf, void *recvbuf, int count, MPI_Datatype datatype, MPI_Op op, int root, MPI_Comm comm) Reducerがsendするbuffer(sendbuf) に対し, 指定の演算 (op) をい,rootに結果を送信するこの演算に加わる全て (rootも) がMPI_reduceを呼び出す必要がある sendbuf : 送信バッファのアドレス (Input) recvbuf : 演算結果を受信するバッファアドレス (Output) count : 送信する最数 (Input) datatype : 送信データのデータタイプ (Input) op : 演算 (Input) root : rootのランクid(input) comm : コミュニケータ (input) 基本的な MPI 関数 MPI_Gather 基本的な MPI 関数 MPI_Scatter int MPI_Gather(void *sendbuf, int sendcount, MPI_Datatype sendtype, void *recvbuf, int recvcount, MPI_Datatype recvtype, int root, MPI_Comm comm) のrank idの0から順番にsendbufをrecvbufに配列として送信する受け取るのはroot int MPI_Scatter(void *sendbuf, int sendcount, MPI_Datatype sendtype, void *recvbuf, int recvcount, MPI_Datatype recvtype, int root, MPI_Comm comm) rootのsendbufからsendcount 個ずつ前のrecvbufに送信する sendbufには配列,recvbufにはその要素がる sendbuf : 送信バッファのアドレス (Input) sendcount : 送信する最数 (Input) sendtype : 送信バッファのデータタイプ (Input) recvbuf : 受信するバッファアドレス (Output) recvcount : 受信する最数, 配列の数 (Input) recvtype : 受信バッファのデータタイプ (Input) root : root( 受信先 ) のランクID(Input) comm : コミュニケータ (input) sendbuf : 送信バッファのアドレス (Input) sendcount : 送信する最数 (Input) sendtype : 送信バッファのデータタイプ (Input) recvbuf : 受信するバッファアドレス (Output) recvcount : 受信する最数, 配列の数 (Input) recvtype : 受信バッファのデータタイプ (Input) root : root( 送信元 ) のランクID(Input) comm : コミュニケータ (input) 5

MPI データタイプ MPI で Hello, World. MPI_Datatype MPI_CHAR C 語での型 char #include <stdio.h> #include <string.

MPI_PACKED short int long unsigned char unsigned short unsigned int unsigned long float double long double N/A : バイト型 N/A : 他のライブラリにおけるパック /

MPI_Comm_rank( MPI_COMM_WORLD, &myrank); MPI_Comm_size( MPI_COMM_WORLD, &num); Rank 0は送信側 if ( myrank == 0 ) strcpy(msg, "Hello, World.

MPI_Recv(msg, 20, MPI_CHAR, 0, 99, MPI_COMM_WORLD, &status); printf("rank %d receive: %s n", myrank, msg); MPI_Barrier(MPI_COMM_WORLD); $ mpicc

rank 2 receive: Hello, World. rank 3 receive: Hello, World.

OpenMP ディレクティブを挿し OpenMP 環境下では有効になり, それ以外では無効になる並列化と並列では同じソースコードとなる Parallel Regions ( 並列実構 ) Work Sharing ( ワークシェアリング ) Data Environment (

#endif for for (i = 0; i < 1000; i++ ) // 並列処理させたいコード #pragma というディレクティブで指定する Parallel Regions Work Sharing (for ) num_threads(n)

6 MPI データタイプ MPI で Hello, World. MPI_Datatype MPI_CHAR C 語での型 char #include <stdio.h> #include <string.h> MPI_SHORT MPI_INT MPI_LONG MPI_UNSIGNED_CHAR MPI_UNSIGNED_SHORT MPI_UNSIGNED MPI_UNSIGNED_LONG MPI_FLOAT MPI_DOUBLE MPI_LONG_DOUBLE MPI_BYTE MPI_PACKED short int long unsigned char unsigned short unsigned int unsigned long float double long double N/A : バイト型 N/A : 他のライブラリにおけるパック / アンパック処理の互換性を持たせるための型 int main(int argc, char **argv) char msg[20]; int myrank, num, i; MPI_Status status; MPI_Init(&argc, &argv); MPI_Comm_rank( MPI_COMM_WORLD, &myrank); MPI_Comm_size( MPI_COMM_WORLD, &num); Rank 0は送信側 if ( myrank == 0 ) strcpy(msg, "Hello, World."); for (i = 1; i < num; i++) MPI_Send(msg, strlen(msg) + 1, MPI_CHAR, i, 99, MPI_COMM_WORLD); printf("rank %d send: %s n", myrank, msg); else MPI_Recv(msg, 20, MPI_CHAR, 0, 99, MPI_COMM_WORLD, &status); printf("rank %d receive: %s n", myrank, msg); MPI_Barrier(MPI_COMM_WORLD); $ mpicc hello_mpi.c o m.out MPI_Finalize(); $ mpirun n 4./m.out return 0; rank 0 send: Hello, World. rank 1 receive: Hello, World. rank 2 receive: Hello, World. rank 3 receive: Hello, World. $ その他の Rank は受信側 OpenMP によるスレッド並列 OpenMP の構 MPI プログラマが並列化を意識してコードを書く必要がある OpenMP 1 ノードの中で閉じた並列処理コンパイラが動的に並列化 ( 並列化効率はコンパイラに依存 ) ソースコード中に OpenMP ディレクティブを挿し OpenMP 環境下では有効になり, それ以外では無効になる並列化と並列では同じソースコードとなる Parallel Regions ( 並列実構 ) Work Sharing ( ワークシェアリング ) Data Environment ( データ環境 ) Synchronization ( 同期機構 ) Runtime functions, environment variables ( 実関数, 環境変数 ) #ifdef _OPENMP //OpenMP を使う #else //OpenMP を使わない #endif for for (i = 0; i < 1000; i++ ) // 並列処理させたいコード #pragma というディレクティブで指定する Parallel Regions Work Sharing (for ) num_threads(n) 複数のスレッドによって並列処理する並列領域を定義するセクション内を n スレッド並列で処理 num_threads() を省略するとコア数分だけ並列化 #pragma omp for for (i = 0; i < 100; i++) #pragma omp for の後は必ず for 4 スレッドで for を実するとスレッド 0: for (i = 0; i < 25; i++)... スレッド 1: for (i = 25; i < 50; i++)... スレッド 2: for (i = 50; i < 75; i++)... スレッド 3: for (i = 75; i < 100; i++)... が実される for としても OK 6

シングルと似たような処理だが,master スレッド (thread 0) に限定して処理をさせたい場合, master で指 master より single のが効率が良い for private(x) for (y = 0; y < 100; y++) for (x = 0; x < 100; x++) private で指定した変数は, 各スレッドの private 変数となり,

7 Work Sharing (sections ) #pragma omp sections parallel #pragma omp section printf (...); #pragma omp section printf (...); 各スレッドで別々の処理をう場合,sections で指 Work Sharing (single ) #pragma omp single 並列処理の領域内でシングルスレッドでいたい処理は single で指 Work Sharing (master ) Data Environment (private) #pragma omp master シングルと似たような処理だが,master スレッド (thread 0) に限定して処理をさせたい場合, master で指 master より single のが効率が良い for private(x) for (y = 0; y < 100; y++) for (x = 0; x < 100; x++) private で指定した変数は, 各スレッドの private 変数となり, スレッド間で共有されない shared で明的に共有変数として指も可能だが, デフォルトで共有変数なので shared を使うことはない Data Environment (reduction) Synchronization (atomic ) for reduction(+:s) for (x = 0; x < 100; x++) s++; reduction で指定した変数は, 各スレッドの private 変数となり, 並列領域の処理が終了した時点で指定した演算によって演算される上記の例だと各スレッドの s の合計演算は +, *, -, &, ^,, &&, #pragma omp atomic data += 1; 読み込み書き込みがでわれるデータの同期に利による複数の, セクションに対して atomic を適することはできない 7

Synchronization (barrier ) その他の制御 (if ) x = func(); #pragma omp barrier #pragma omp for for (i = 0; i < x; i++).

for if (n > 1000) for (i = 0; i < n; i++).

.. 暗黙の同期をせずに, 各スレッドが処理を続したい場合,nowait を利する暗黙の同期をう for, sections, single につける事ができる Runtime function, environment variables void omp_set_num_threads(int num)

偽なら 0. OpenMP で Hello, World. ハイブリッド並列 #include <omp.h> #include <stdio.

8 Synchronization (barrier ) その他の制御 (if ) x = func(); #pragma omp barrier #pragma omp for for (i = 0; i < x; i++)... 各スレッドは barrier の箇所にて, 待機し barrier 同期 ( ソフトウェア ) の制御をう全てのスレッドが barrier まで到達すると各スレッドは処理を再開するまた single, master, section, for, parallel では処理の最後で暗黙の同期をなっている for if (n > 1000) for (i = 0; i < n; i++)... 変数 n を条件に並列化したい場合,if を利するこの場合,n が 1000 以上の場合, 並列化をう sections につける場合も OK その他の制御 (nowait ) #pragma omp for nowait for (i = 0; i < n; i++)... 暗黙の同期をせずに, 各スレッドが処理を続したい場合,nowait を利する暗黙の同期をう for, sections, single につける事ができる Runtime function, environment variables void omp_set_num_threads(int num) 並列領域で使出来るスレッド数を設定 OMP_NUM_THREADS を上書きする int omp_get_num_threads() 現在のスレッド数を返す int omp_get_thread_num() スレッド番号を返す int omp_in_parallel(() 並列領域内であるかを返す. 真なら 1. 偽なら 0. OpenMP で Hello, World. ハイブリッド並列 #include <omp.h> #include <stdio.h> 4 つのスレッド並列 int main(int argc, char **argv) num_threads(4) printf("thread %d, Hello, world n", omp_get_thread_num()); return 0; $ gcc fopenmp hello_omp.c -o o.out $./o.out Thread 3, Hello, world Thread 0, Hello, world Thread 1, Hello, world Thread 2, Hello, world $ フラット並列モデル並列のみコアごとに通信が間ごとに発ハイブリッド並列モデル並列 ( ノード間 ) + スレッド並列 ( ノード内 ) コア数が増えても数は増加せず通信が混雑しないフラット並列ノード 1 スレッドスレッドハイブリッド並列スレッドスレッドノード 1 プロセスプロセスノード2 スレスレッドッドスレスレッドッドノード2 8

次列積の計算 1. Message Passing Interface (MPI) 2. Open MP 3. ハイブリッド並列 4.

規模データに対する演算が可能 ( 列の拡 ) バンド幅が必要なメモリインテンシブな演算列積 c ij n k1 a ij b ij 課題 1: 列積のコードを書くシングルでう列積 (32

k j 考え i C = i a x k b for (i = 0; i < n; i++) for (j = 0; j < n; j++) for (k = 0; k < n; k++)

列積を演算するループのあとで,C をマージする i C = i a x k b 課題 2 の考え Rank 0 a.out メモリ :a の領域 Rank 1 a.

9 次列積の計算 1. Message Passing Interface (MPI) 2. Open MP 3. ハイブリッド並列 4. 列計算の並列化並列化を体感するには良い課題コンパイラや計算機性能のベンチマークにも利実装式で性能にきな違いがでる科学技術計算の特徴が顕著メモリの連続アクセスキャッシュに乗らない規模データに対する演算が可能 ( 列の拡 ) バンド幅が必要なメモリインテンシブな演算列積 c ij n k1 a ij b ij 課題 1: 列積のコードを書くシングルでう列積 (32 32) のプログラムを書いてみよう n 列積 c ij k1 int i, j, k, n; n = 32; a ij b ij 課題 2: 列積の並列化列積のプログラムを並列化してみよう j k j 考え i C = i a x k b for (i = 0; i < n; i++) for (j = 0; j < n; j++) for (k = 0; k < n; k++) c[i][j] = c[i][j] + a[i][k] * b[k][j]; j k j MPI で並列化 c と a を n 列に分割する b はそのまま共有する列積を演算するループのあとで,C をマージする i C = i a x k b 課題 2 の考え Rank 0 a.out メモリ :a の領域 Rank 1 a.out メモリ :a の領域 Rank 2 a.out メモリ :a の領域... すべての Rank( プロセッサ ) で同じが動作する変数 a は全てで同じ列を共有して演算に利するところだけを変化させる演算が終わったあと rank0 の変数 c にマージ MPI で並列化できたら,OpenMP で動並列してみよう 9

NUMAの構成

NUMAの構成メッセージパッシングプログラミング天野共有メモリ対メッセージパッシング共有メモリモデル共有変数を用いた単純な記述自動並列化コンパイラ簡単なディレクティブによる並列化 :OpenMP メッセージパッシング形式検証が可能 ( ブロッキング ) 副作用がない ( 共有変数は副作用そのもの ) コストが小さいメッセージパッシングモデル共有変数は使わない共有メモリがないマシンでも実装可能クラスタ