Microsoft PowerPoint - scls_biogrid_lecture_v2.pptx

Size: px
Start display at page:

Download "Microsoft PowerPoint - scls_biogrid_lecture_v2.pptx"

Transcription

1 スパコン コース並列プログラミング編 善之 理化学研究所 HPCI 計算 命科学推進プログラム企画調整グループ企画調整チームチーム員 次 1. Message Passing Interface (MPI) 2. Open MP 3. ハイブリッド並列 4. 列計算の並列化 計算機ってなんだ? 計算機 計算に いる機械 ( デジタル 辞泉 ) 計算のための機械 器具のこと コンピュータや電卓を指すことが多い (Wikipedia) が不得意な 正確な演算やルーチンワークを肩代わりするための道具 コンピュータってなんだ? パーソナルコンピュータ 主に個 で使 するために作られたコンピューター パソコン PC 汎 機 ( メインフレーム ) 企業の基幹業務に利 される 規模なコンピュータ スーパーコンピュータ 度な数値計算 ( 量 物理 ケモ バイオインフォマティクス 天 地学...etc) のためのコンピュータ 数値だけでなく画像 書など様々な に対し処理を い出 する装置 計算機は気安く触れられるものではなかった 世界初の計算機 Atanasoff-Berry Computer (ABC), 1937 年, Iowa, USA ENIAC, 1946 年, Pennsylvania, USA Zuse Z3, 1941 年, Germany 世界初の汎用機 UNIVAC I, 1950 年, USA 1939 年 1945 年第 次世界 戦! アポロ 11 号 着陸, 1969 年 の誕, 1975 年 Grid Computing, 2003 年, I. Foster TCP/IP 採, 1983 年, USA WWW/HTTP, 1990 年, CERN, EU 2000 Webサービス, 2000 年, W3C 2010 APRNET, 1969 年, UCLA-SRI, USA 弾道計算のシミュレーション真空中の放物運動 ただの放物運動 t 秒後の速度 t 秒後の座標 初期 度 :θ 0 初期速度 :v 0 重 加速度 :g 時間 :t v x v 0 cos 0 v y v 0 sin 0 gt x v 0 cos 0 t y v 0 sin 0 t 1 2 gt

2 弾道計算のシミュレーション空気抵抗を れてみよう 速度に 例する空気抵抗を持つ放物運動 t 秒後の速度 t 秒後の座標 初期 度 :θ 0 初期速度 :v 0 重 加速度 :g 時間 :t 空気抵抗 :k 物体の質量 :m v x v 0 e k m t cos 0 v y (v 0 sin 0 m k g)e k m t m k g x mv 0 k cos m 0 (1 t e ) y m k (v 0 sin 0 m k k g)(1 e m t ) gt k 弾道計算シミュレーション様々な要因と応 発射された物体を正確に標的に当てるため 最初は軍事 的 ゴルフ 野球などスポーツ科学 衛星 スペースシャトルの打ち上げ フライトシミュレータ 3Dゲームなどのレンダリング物理演算 分 動 学によるポリマー合成 ドラッグデザイン 天気予報 要素 初速 仰 空気抵抗 ( 湿度 気温 気圧により密度が変わり空気抵抗が変化 ) 弾丸の前 投影 積 表 の摩擦係数 質量 向き コリオリの 重 加速度 物体の 転 ( スピン ) による揚 シミュレーション現実世界での現象を単純化 簡略化した数理モデル ( は模型 ) を いて検証を う模擬実験 世界初の 計算機 世界初の計算機 Atanasoff-Berry Computer (ABC), 1937 年, Iowa, USA ENIAC, 1946 年, Pennsylvania, USA Zuse Z3, 1941 年, Germany 世界初の汎 機 UNIVAC I, 1950 年, USA 世界初の電卓 Anita Mark8, 1963 年, UK CS-10A, 1964 年, Japan 世界初のパソコン Altair 8800, 1975 年, USA Apple 1, 1976 年, USA 商業 業務利 に特化可 性を追求 科学技術計算に特化計算性能を追求 世界初? のスーパーコンピュータ CDC 6600, 1964 年, Lawrence Livermore National Lab., USA. 3 MFLOPS FLOP = Floating point number Operations Per Second 性能評価のベンチマーク Linpack と FLOPS Linpack 浮動 数点の n x n 列の線形 程式系 Ax = b を解く速度を計測 出 R max : 実効性能値 (FLOPS) N max : 最 問題サイズ N 1/2 : 実効性能値の半分の性能になる時の問題サイズ R peak : 理論性能値 (FLOPS) FLOPS Floating-point Operations Per Second 秒間に浮動 数点演算を何回できるか? 京 : 約 10Peta FLOPS(10 16 回 ) 10PFlop/s 1PFlop/s 100TFlop/s 10TFlop/s 1TFlop/s Top500 Jun Jun, 1993 Nov, 1993 Jun, 1994 Nov, 1994 Jun, 1995 Dec, 1995 Jun, 1996 Nov, 1996 Jun, 1997 Nov, 1997 Jun, 1998 Nov, 1998 Jun, 1999 Nov, 1999 Jun, 2000 Nov, 2000 Jun, 2001 Nov, 2001 Jun, 2002 Nov, 2002 Jun, 2003 Nov, 2003 Jun, 2004 Nov, 2004 Jun, 2005 Nov, 2005 Jun, 2006 Nov, 2006 Jun, 2007 Nov, 2007 Jun, 2008 Nov, 2008 Jun, 2009 Nov, 2009 Jun, 2010 Nov, 2010 Jun, 2011 Nov, 2011 Jun, 2012 地球シミュレータ, JAMSTEC/NEC CP-PACS, 筑波 / 天河 号 A, 中国 京, 理化学研究所 / 富 通 #1 #500 ノード CPU 1 ICC 1 メモリ 8 京のハードウェア構成 システムボード ノード 4 計算ラック群 計算ラック計算ラック 8 ディスクラック 2 システムボード 24 IOシステムボード 兆回 / 秒 12TB システム全体計算ラック 800 以上 1 京回 / 秒 =10ペタフロップス 1PB 以上 100GFlop/s 10GFlop/s 1GFlop/s 数値 洞, NAL( 現 JAXA)/ 富 通 * Core2Quad, 51.2GFLOPS ( 理論性能値 ) 5120 億回 / 秒演算性能 :1280 億回 / 秒メモリ容量 :16GB 64GB 12.3 兆回 / 秒 1.5TB 80,000 個以上の CPU 間を相互に接続するインターコネクト 100MFlop/s 2

3 CPU (Central Processing Unit) とメモリ キャッシュ CISC(Complex Instruction Set Computer) 命令語 (word) が可変 単 の命令で複数の処理 Intel x86 系,680x0 系 CPU アキュムレータ ( レジスタ ) 演算回路 RISC(Reduced Instruction Set Computer) Wordが固定 アーキテクチャを単純にして性能向上 コスト削減を 指した ( 過去形 ) メインメモリ SPARC 系,PowerPC 系データ 命令 プログラムカウンタ 命令レジスタ SPARC64 VIIIfx( 京 ) 性能 省電 マルチコアCPU 消費電 性能 ピーク性能 :128 GFLOPS(16 GFLOPS 8コア ) 消費電 :58W マルチコア化による 性能化と省電 化を両 冷 式を採.CPU 温度を下げ, リーク電流を削減 マルチコアを1つのCPUとして扱うVISIMPACTを装備 アプリケーション性能の更なる 速化.HPC 向けに強化 HPC 向け拡張機構を装備 メモリバンド幅 :65 GB/s 信頼性 広範囲なエラー検出 修復機能, 命令リトライ機能 仕様アーキテクチャ SPARC64 tm VIIIfx L1キャッシュ 32KB(D), 32KB(I), 2way L2キャッシュ 6MB, 12way 浮動 数点演算器機構 FMA x 4 (2 SIMD) 浮動 数点演算同時実 数 8 メモリバンド幅 64 GB/s VISIMPACT Virtual Single Processor by Integrated Multi- Parallel Architecture マルチコアを 1 つの仮想 CPU として扱う コア間でのスレッド並列処理を効率的に実 効率なハイブリッド並列 ( 動並列 +MPI) を実現 Tofu (Torus Fusion) インターコネクト ノード間 (CPU 間 ) の通信技術 アーキテクチャ 6 次元メッシュ / トーラストポロジ 3 次元メッシュの 12 ノードを 1Tofu Tofu 単位を 3 次元トーラストポロジで接続 バンド幅 :5GB/s 1Tofu 3 次元メッシュトポロジ 1 ノード CPU コア間でのハードウェアバリア機能 容量共有 L2 キャッシュ コンパイラ 動ベクトル化による 動並列 特徴 並列を実現するスケーラビリティ 最 約 10 万ノード規模 (98,304=32x32x8x2x3x2) い可 性 任意にメッシュ分割しても常に 3 次元トーラストポロジを構成 故障ノードを回避してトーラストポロジを構成 3 次元トーラストポロジ ユーザから た京 京の論理構成 ユーザクライアント 学術情報ネットワーク SINET SSH でリモートログイン 京ログインノード SINET につながったサイト ( 学 研究所 ) からアクセス ログインノードから計算ノードへジョブ投 京計算ノード ユーザはログインノードにてプログラム開発 ジョブ操作を う データステージングにてプログラムファイル データファイルを計算ノードに転送 出 ファイルもデータステージングにて取得 データステージングも含めジョブスクリプトに記述 ログインノード ホーム /home/group/user ステージイン データ /data/group ステージアウト ワーク領域ワーク領域ワーク領域ワーク領域 ( 計算ノードローカル ) ( 計算ノードローカル ) /work ( 計算ノードローカル ( 計算ノードローカル ) /work) /work /work 計算ノード計算ノード計算ノード計算ノード 3

4 サンプルジョブスクリプト #!/bin/bash # #PJM --rsc-list "node=1000" #PJM --rsc-list "elapse=01:00:00" #PJM --rsc-list "node-mem=10gi" #PJM --stg-transfiles all #PJM --stgin "./program.out./a.out" #PJM --stgin "./input.edf./" #PJM --stgout "./output*./result/ stgout=all" #PJM -s #. /work/system/env_base スレッド並列数 ( ノード内のコア数 ) 確保するノード数 確保する実 時間 1 ノード当たりのメモリ ステージインするファイル ステージアウトするファイル プログラムのパラメータ export PARALLEL=8 export OMP_NUM_THREADS=$PARALLEL mpiexec -n 1000./a.out -y o output -T L 1 -S linear i input.edf klogin1$ pjsub sample.sh [INFO] PJM 0000 pjsub Job submitted. 並列数 klogin1$ pjstat ( 確保したノード数と同数 ) ACCEPT QUEUED STGIN READY RUNING RUNOUT STGOUT HOLD ERROR TOTAL s 次 1. Message Passing Interface (MPI) 2. Open MP 3. ハイブリッド並列 4. 列計算の並列化 JOB_ID JOB_NAME MD ST USER START_DATE ELAPSE_LIM NODE_REQUIRE sample NM QUE user00xx :00: klogin1$ 並列プログラミングとは 逐次処理の問題, プログラム ( 実 時間 :T) をnに分割し n 台のプロセッサ (or 計算機 ) でT/n 時間にする プロセッサに割り当てられるタスクは独 並列化できる問題はデータに依存性のない問題のみに時間 :T 限られる問題並列化 通信によるオーバヘッド T/n ち上がり時間分割数 :n データ転送時間オーバヘッド ち上がり時間 データ転送時間 並列とスレッド並列 並列 メモリ空間は独 並列タスク間でのデータ通信は必要に応じて 例 :Message Passing Interface (MPI) スレッド並列 メモリ空間を共有 データ通信の必要性なし 例 :OpenMP 並列1 2 メモリメモリ空間空間ローカローカル変数ル変数 インターコネクト 3 メモリ空間ローカル変数 スレッド並列 メモリ空間 スレッド1 スレッド2 スレッド3 ローカル変数 ローカル変数 ローカル変数 グローバル変数領域 Message Passing Interface (MPI) MPI 関数 メッセージパッシング / 間通信の規格 分散メモリ型並列計算機での並列実 に向く 規模計算が可能に スケーラビリティ 性能は 主要な実装例 MPICH LAM OpenMPI(C 語,C++,Fortran) 略語 Processor Element: の単位.MPI を指す. Rank:PE の識別番号のこと.MPI_Comm_rank 関数で設定されるランク ID システム関数 MPI_Init, MPI_Comm_rank, MPI_Comm_size, MPI_Finalize 1 対 1 通信 ブロッキング :MPI_Send, MPI_Recv ノンブロッキング :MPI_Isend, MPI_Irecv 1 対全通信 MPI_Bcast 数段通信 MPI_Reduce, MPI_Allreduce, MPI_Barrier 4

5 基本的な MPI 関数 MPI_Recv 基本的な MPI 関数 MPI_Send int MPI_Recv(void *buf, int count, MPI_Datatype datatype, int source, int tag, MPI_Comm comm, MPI_Status *status) int MPI_Send(void *buf, int count, MPI_Datatype datatype, int dest, int tag, MPI_Comm comm) ブロッキングして相 からの通信を待ち受けるReciver 関数相 がMPI_sendで送信するまで待ち受ける buf : 受け取るバッファのアドレス (Output) count : 受け取るレシーブの最 数 (Input) datatype : レシーブのデータタイプ (Input) source : ソースのランクID(Input) tag : メッセージタグ (Input) comm : コミュニケータ (input) status : ステータスオブジェクト (Output) 相 への通信を う Send 関数 相 が MPI_recv で受信するまで待ち受ける buf : 送信バッファのアドレス (Input) count : 送信する最 数 (Input) datatype : 送信データのデータタイプ (Input) source : 宛先のランク ID(Input) tag : メッセージタグ (Input) comm : コミュニケータ (input) 基本的な MPI 関数 MPI_Bcast 基本的な MPI 関数 MPI_Reduce int MPI_Bcast(void *buf, int count, MPI_Datatype datatype, int root, MPI_Comm comm) root のランク ID 以下のに対しブロードキャスト ( 全送信 ) する関数 buf : 送信バッファのアドレス (Input) count : 送信する最 数 (Input) datatype : 送信データのデータタイプ (Input) root : root のランク ID(Input) comm : コミュニケータ (input) int MPI_Reduce(void *sendbuf, void *recvbuf, int count, MPI_Datatype datatype, MPI_Op op, int root, MPI_Comm comm) Reducerがsendするbuffer(sendbuf) に対し, 指定の演算 (op) を い,rootに結果を送信する この演算に加わる全て (rootも) がMPI_reduceを呼び出す必要がある sendbuf : 送信バッファのアドレス (Input) recvbuf : 演算結果を受信するバッファアドレス (Output) count : 送信する最 数 (Input) datatype : 送信データのデータタイプ (Input) op : 演算 (Input) root : rootのランクid(input) comm : コミュニケータ (input) 基本的な MPI 関数 MPI_Gather 基本的な MPI 関数 MPI_Scatter int MPI_Gather(void *sendbuf, int sendcount, MPI_Datatype sendtype, void *recvbuf, int recvcount, MPI_Datatype recvtype, int root, MPI_Comm comm) のrank idの0から順番にsendbufをrecvbufに配列として送信する 受け取るのはroot int MPI_Scatter(void *sendbuf, int sendcount, MPI_Datatype sendtype, void *recvbuf, int recvcount, MPI_Datatype recvtype, int root, MPI_Comm comm) rootのsendbufからsendcount 個ずつ前のrecvbufに送信する sendbufには配列,recvbufにはその要素が る sendbuf : 送信バッファのアドレス (Input) sendcount : 送信する最 数 (Input) sendtype : 送信バッファのデータタイプ (Input) recvbuf : 受信するバッファアドレス (Output) recvcount : 受信する最 数, 配列の数 (Input) recvtype : 受信バッファのデータタイプ (Input) root : root( 受信先 ) のランクID(Input) comm : コミュニケータ (input) sendbuf : 送信バッファのアドレス (Input) sendcount : 送信する最 数 (Input) sendtype : 送信バッファのデータタイプ (Input) recvbuf : 受信するバッファアドレス (Output) recvcount : 受信する最 数, 配列の数 (Input) recvtype : 受信バッファのデータタイプ (Input) root : root( 送信元 ) のランクID(Input) comm : コミュニケータ (input) 5

6 MPI データタイプ MPI で Hello, World. MPI_Datatype MPI_CHAR C 語での型 char #include <stdio.h> #include <string.h> MPI_SHORT MPI_INT MPI_LONG MPI_UNSIGNED_CHAR MPI_UNSIGNED_SHORT MPI_UNSIGNED MPI_UNSIGNED_LONG MPI_FLOAT MPI_DOUBLE MPI_LONG_DOUBLE MPI_BYTE MPI_PACKED short int long unsigned char unsigned short unsigned int unsigned long float double long double N/A : バイト型 N/A : 他のライブラリにおけるパック / アンパック処理の互換性を持たせるための型 int main(int argc, char **argv) char msg[20]; int myrank, num, i; MPI_Status status; MPI_Init(&argc, &argv); MPI_Comm_rank( MPI_COMM_WORLD, &myrank); MPI_Comm_size( MPI_COMM_WORLD, &num); Rank 0は送信側 if ( myrank == 0 ) strcpy(msg, "Hello, World."); for (i = 1; i < num; i++) MPI_Send(msg, strlen(msg) + 1, MPI_CHAR, i, 99, MPI_COMM_WORLD); printf("rank %d send: %s n", myrank, msg); else MPI_Recv(msg, 20, MPI_CHAR, 0, 99, MPI_COMM_WORLD, &status); printf("rank %d receive: %s n", myrank, msg); MPI_Barrier(MPI_COMM_WORLD); $ mpicc hello_mpi.c o m.out MPI_Finalize(); $ mpirun n 4./m.out return 0; rank 0 send: Hello, World. rank 1 receive: Hello, World. rank 2 receive: Hello, World. rank 3 receive: Hello, World. $ その他の Rank は受信側 OpenMP によるスレッド並列 OpenMP の構 MPI プログラマが並列化を意識してコードを書く必要がある OpenMP 1 ノードの中で閉じた並列処理 コンパイラが 動的に並列化 ( 並列化効率はコンパイラに依存 ) ソースコード中に OpenMP ディレクティブを挿 し OpenMP 環境下では有効になり, それ以外では無効になる 並列化と 並列では同じソースコードとなる Parallel Regions ( 並列実 構 ) Work Sharing ( ワークシェアリング ) Data Environment ( データ環境 ) Synchronization ( 同期機構 ) Runtime functions, environment variables ( 実 関数, 環境変数 ) #ifdef _OPENMP //OpenMP を使う #else //OpenMP を使わない #endif for for (i = 0; i < 1000; i++ ) // 並列処理させたいコード #pragma というディレクティブで指定する Parallel Regions Work Sharing (for ) num_threads(n) 複数のスレッドによって並列処理する並列領域を定義する セクション内を n スレッド並列で処理 num_threads() を省略するとコア数分だけ並列化 #pragma omp for for (i = 0; i < 100; i++) #pragma omp for の後は必ず for 4 スレッドで for を実 すると スレッド 0: for (i = 0; i < 25; i++)... スレッド 1: for (i = 25; i < 50; i++)... スレッド 2: for (i = 50; i < 75; i++)... スレッド 3: for (i = 75; i < 100; i++)... が実 される for としても OK 6

7 Work Sharing (sections ) #pragma omp sections parallel #pragma omp section printf (...); #pragma omp section printf (...); 各スレッドで別々の処理を う場合,sections で指 Work Sharing (single ) #pragma omp single 並列処理の領域内でシングルスレッドで いたい処理は single で指 Work Sharing (master ) Data Environment (private) #pragma omp master シングルと似たような処理だが,master スレッド (thread 0) に限定して処理をさせたい場合, master で指 master より single の が効率が良い for private(x) for (y = 0; y < 100; y++) for (x = 0; x < 100; x++) private で指定した変数は, 各スレッドの private 変数となり, スレッド間で共有されない shared で明 的に共有変数として指 も可能だが, デフォルトで共有変数なので shared を使うことはない Data Environment (reduction) Synchronization (atomic ) for reduction(+:s) for (x = 0; x < 100; x++) s++; reduction で指定した変数は, 各スレッドの private 変数となり, 並列領域の処理が終了した時点で指定した演算 によって演算される 上記の例だと各スレッドの s の合計 演算 は +, *, -, &, ^,, &&, #pragma omp atomic data += 1; 読み込み 書き込みが で われるデータの同期に利 による複数の, セクションに対して atomic を適 することはできない 7

8 Synchronization (barrier ) その他の制御 (if ) x = func(); #pragma omp barrier #pragma omp for for (i = 0; i < x; i++)... 各スレッドは barrier の箇所にて, 待機し barrier 同期 ( ソフトウェア ) の制御を う 全てのスレッドが barrier まで到達すると各スレッドは処理を再開する また single, master, section, for, parallel では処理の最後で暗黙の同期を なっている for if (n > 1000) for (i = 0; i < n; i++)... 変数 n を条件に並列化したい場合,if を利 する この場合,n が 1000 以上の場合, 並列化を う sections につける場合も OK その他の制御 (nowait ) #pragma omp for nowait for (i = 0; i < n; i++)... 暗黙の同期をせずに, 各スレッドが処理を続 したい場合,nowait を利 する 暗黙の同期を う for, sections, single につける事ができる Runtime function, environment variables void omp_set_num_threads(int num) 並列領域で使 出来るスレッド数を設定 OMP_NUM_THREADS を上書きする int omp_get_num_threads() 現在のスレッド数を返す int omp_get_thread_num() スレッド番号を返す int omp_in_parallel(() 並列領域内であるかを返す. 真なら 1. 偽なら 0. OpenMP で Hello, World. ハイブリッド並列 #include <omp.h> #include <stdio.h> 4 つのスレッド並列 int main(int argc, char **argv) num_threads(4) printf("thread %d, Hello, world n", omp_get_thread_num()); return 0; $ gcc fopenmp hello_omp.c -o o.out $./o.out Thread 3, Hello, world Thread 0, Hello, world Thread 1, Hello, world Thread 2, Hello, world $ フラット並列モデル 並列のみ コアごとに 通信が間ごとに発 ハイブリッド並列モデル 並列 ( ノード間 ) + スレッド並列 ( ノード内 ) コア数が増えても数は増加せず 通信が混雑しない フラット並列 ノード 1 スレッド スレッド ハイブリッド並列 スレッド スレッド ノード 1 プロセス プロセス ノード2 スレスレッドッド スレスレッドッド ノード2 8

9 次 列積の計算 1. Message Passing Interface (MPI) 2. Open MP 3. ハイブリッド並列 4. 列計算の並列化 並列化を体感するには良い課題 コンパイラや計算機性能のベンチマークにも利 実装 式で性能に きな違いがでる 科学技術計算の特徴が顕著 メモリの連続アクセス キャッシュに乗らない 規模データに対する演算が可能 ( 列の拡 ) バンド幅が必要なメモリ インテンシブな演算 列積 c ij n k1 a ij b ij 課題 1: 列積のコードを書く シングルで う 列積 (32 32) のプログラムを書いてみよう n 列積 c ij k1 int i, j, k, n; n = 32; a ij b ij 課題 2: 列積の並列化 列積のプログラムを並列化してみよう j k j 考え i C = i a x k b for (i = 0; i < n; i++) for (j = 0; j < n; j++) for (k = 0; k < n; k++) c[i][j] = c[i][j] + a[i][k] * b[k][j]; j k j MPI で並列化 c と a を n 列に分割する b はそのまま共有する 列積を演算するループのあとで,C をマージする i C = i a x k b 課題 2 の考え Rank 0 a.out メモリ :a の領域 Rank 1 a.out メモリ :a の領域 Rank 2 a.out メモリ :a の領域... すべての Rank( プロセッサ ) で同じが動作する 変数 a は全てで同じ 列を共有して 演算に利 するところだけを変化させる 演算が終わったあと rank0 の変数 c にマージ MPI で並列化できたら,OpenMP で 動並列してみよう 9

NUMAの構成

NUMAの構成 メッセージパッシング プログラミング 天野 共有メモリ対メッセージパッシング 共有メモリモデル 共有変数を用いた単純な記述自動並列化コンパイラ簡単なディレクティブによる並列化 :OpenMP メッセージパッシング 形式検証が可能 ( ブロッキング ) 副作用がない ( 共有変数は副作用そのもの ) コストが小さい メッセージパッシングモデル 共有変数は使わない 共有メモリがないマシンでも実装可能 クラスタ

More information

Microsoft PowerPoint - 講習 _kido.pptx[読み取り専用]

Microsoft PowerPoint - 講習 _kido.pptx[読み取り専用] スパコンの概要と CMC のスパコンの紹介 大阪大学サイバーメディアセンター講師木戸善之 2015/1/15 目次 1. スパコンの略歴 2. 計算機の概要 3. 並列計算 4. CMCのスパコン 1 1. スパコンの略歴 計算機ってなんだ? 計算機 計算に用いる機械 ( デジタル大辞泉 ) 計算のための機械 器具のこと コンピュータや電卓を指すことが多い (Wikipedia) 人が不得意な 正確な演算やルーチンワークを肩代わりするための道具

More information

スライド 1

スライド 1 目次 2.MPI プログラミング入門 この資料は, スーパーコン 10 で使用したものである. ごく基本的な内容なので, 現在でも十分利用できると思われるものなので, ここに紹介させて頂く. ただし, 古い情報も含まれているので注意が必要である. 今年度版の解説は, 本選の初日に配布する予定である. 1/20 2.MPI プログラミング入門 (1) 基本 説明 MPI (message passing

More information

演習準備 2014 年 3 月 5 日神戸大学大学院システム情報学研究科森下浩二 1 RIKEN AICS HPC Spring School /3/5

演習準備 2014 年 3 月 5 日神戸大学大学院システム情報学研究科森下浩二 1 RIKEN AICS HPC Spring School /3/5 演習準備 2014 年 3 月 5 日神戸大学大学院システム情報学研究科森下浩二 1 演習準備の内容 神戸大 FX10(π-Computer) 利用準備 システム概要 ログイン方法 コンパイルとジョブ実行方法 MPI 復習 1. MPIプログラムの基本構成 2. 並列実行 3. 1 対 1 通信 集団通信 4. データ 処理分割 5. 計算時間計測 2 神戸大 FX10(π-Computer) 利用準備

More information

Microsoft PowerPoint - KHPCSS pptx

Microsoft PowerPoint - KHPCSS pptx KOBE HPC サマースクール 2018( 初級 ) 9. 1 対 1 通信関数, 集団通信関数 2018/8/8 KOBE HPC サマースクール 2018 1 2018/8/8 KOBE HPC サマースクール 2018 2 MPI プログラム (M-2):1 対 1 通信関数 問題 1 から 100 までの整数の和を 2 並列で求めなさい. プログラムの方針 プロセス0: 1から50までの和を求める.

More information

Microsoft PowerPoint - 演習2:MPI初歩.pptx

Microsoft PowerPoint - 演習2:MPI初歩.pptx 演習 2:MPI 初歩 - 並列に計算する - 2013 年 8 月 6 日 神戸大学大学院システム情報学研究科計算科学専攻横川三津夫 MPI( メッセージ パッシング インターフェース ) を使おう! [ 演習 2 の内容 ] はじめの一歩課題 1: Hello, world を並列に出力する. 課題 2: プロセス 0 からのメッセージを受け取る (1 対 1 通信 ). 部分に分けて計算しよう課題

More information

演習準備

演習準備 演習準備 2014 年 3 月 5 日神戸大学大学院システム情報学研究科森下浩二 1 演習準備の内容 神戸大 FX10(π-Computer) 利用準備 システム概要 ログイン方法 コンパイルとジョブ実行方法 MPI 復習 1. MPIプログラムの基本構成 2. 並列実行 3. 1 対 1 通信 集団通信 4. データ 処理分割 5. 計算時間計測 2 神戸大 FX10(π-Computer) 利用準備

More information

2 T 1 N n T n α = T 1 nt n (1) α = 1 100% OpenMP MPI OpenMP OpenMP MPI (Message Passing Interface) MPI MPICH OpenMPI 1 OpenMP MPI MPI (trivial p

2 T 1 N n T n α = T 1 nt n (1) α = 1 100% OpenMP MPI OpenMP OpenMP MPI (Message Passing Interface) MPI MPICH OpenMPI 1 OpenMP MPI MPI (trivial p 22 6 22 MPI MPI 1 1 2 2 3 MPI 3 4 7 4.1.................................. 7 4.2 ( )................................ 10 4.3 (Allreduce )................................. 12 5 14 5.1........................................

More information

openmp1_Yaguchi_version_170530

openmp1_Yaguchi_version_170530 並列計算とは /OpenMP の初歩 (1) 今 の内容 なぜ並列計算が必要か? スーパーコンピュータの性能動向 1ExaFLOPS 次世代スハ コン 京 1PFLOPS 性能 1TFLOPS 1GFLOPS スカラー機ベクトル機ベクトル並列機並列機 X-MP ncube2 CRAY-1 S-810 SR8000 VPP500 CM-5 ASCI-5 ASCI-4 S3800 T3E-900 SR2201

More information

Microsoft PowerPoint - 演習1:並列化と評価.pptx

Microsoft PowerPoint - 演習1:並列化と評価.pptx 講義 2& 演習 1 プログラム並列化と性能評価 神戸大学大学院システム情報学研究科横川三津夫 yokokawa@port.kobe-u.ac.jp 2014/3/5 RIKEN AICS HPC Spring School 2014: プログラム並列化と性能評価 1 2014/3/5 RIKEN AICS HPC Spring School 2014: プログラム並列化と性能評価 2 2 次元温度分布の計算

More information

コードのチューニング

コードのチューニング ハイブリッド並列 八木学 ( 理化学研究所計算科学研究機構 ) 謝辞 松本洋介氏 ( 千葉大学 ) KOBE HPC Spring School 2017 2017 年 3 月 14 日神戸大学計算科学教育センター MPI とは Message Passing Interface 分散メモリのプロセス間の通信規格(API) SPMD(Single Program Multi Data) が基本 -

More information

演習 II 2 つの講義の演習 奇数回 : 連続系アルゴリズム 部分 偶数回 : 計算量理論 部分 連続系アルゴリズム部分は全 8 回を予定 前半 2 回 高性能計算 後半 6 回 数値計算 4 回以上の課題提出 ( プログラム + 考察レポート ) で単位

演習 II 2 つの講義の演習 奇数回 : 連続系アルゴリズム 部分 偶数回 : 計算量理論 部分 連続系アルゴリズム部分は全 8 回を予定 前半 2 回 高性能計算 後半 6 回 数値計算 4 回以上の課題提出 ( プログラム + 考察レポート ) で単位 演習 II ( 連続系アルゴリズム ) 第 1 回 : MPI 須田研究室 M2 本谷徹 motoya@is.s.u-tokyo.ac.jp 2012/10/05 2012/10/18 補足 訂正 演習 II 2 つの講義の演習 奇数回 : 連続系アルゴリズム 部分 偶数回 : 計算量理論 部分 連続系アルゴリズム部分は全 8 回を予定 前半 2 回 高性能計算 後半 6 回 数値計算 4 回以上の課題提出

More information

WinHPC ppt

WinHPC ppt MPI.NET C# 2 2009 1 20 MPI.NET MPI.NET C# MPI.NET C# MPI MPI.NET 1 1 MPI.NET C# Hello World MPI.NET.NET Framework.NET C# API C# Microsoft.NET java.net (Visual Basic.NET Visual C++) C# class Helloworld

More information

Microsoft PowerPoint MPI.v...O...~...O.e.L.X.g(...Q..)

Microsoft PowerPoint MPI.v...O...~...O.e.L.X.g(...Q..) MPI プログラミング Information Initiative Center, Hokkaido Univ. MPI ライブラリを利用した分散メモリ型並列プログラミング 分散メモリ型並列処理 : 基礎 分散メモリマルチコンピュータの構成 プロセッサエレメントが専用のメモリ ( ローカルメモリ ) を搭載 スケーラビリティが高い 例 :HITACHI SR8000 Interconnection

More information

Microsoft PowerPoint 並列アルゴリズム04.ppt

Microsoft PowerPoint 並列アルゴリズム04.ppt 並列アルゴリズム 2005 年後期火曜 2 限 青柳睦 Aoyagi@cc.kyushu-u.ac.jp http://server-500.cc.kyushu-u.ac.jp/ 11 月 8 日 ( 火 ) 5. MPI の基礎 6. 並列処理の性能評価 1 もくじ 1. 序並列計算機の現状 2. 計算方式およびアーキテクチュアの分類 3. 並列計算の目的と課題 4. 数値計算における各種の並列化

More information

目 目 用方 用 用 方

目 目 用方 用 用 方 大 生 大 工 目 目 用方 用 用 方 用 方 MS-MPI MPI.NET MPICH MPICH2 LAM/MPI Ver. 2 2 1 2 1 C C++ Fortan.NET C# C C++ Fortan 用 行 用 用 用 行 用 言 言 言 行 生 方 方 一 行 高 行 行 文 用 行 If ( rank == 0 ) { // 0 } else if (rank == 1) {

More information

Microsoft PowerPoint - 講義:片方向通信.pptx

Microsoft PowerPoint - 講義:片方向通信.pptx MPI( 片方向通信 ) 09 年 3 月 5 日 神戸大学大学院システム情報学研究科計算科学専攻横川三津夫 09/3/5 KOBE HPC Spring School 09 分散メモリ型並列計算機 複数のプロセッサがネットワークで接続されており, れぞれのプロセッサ (PE) が, メモリを持っている. 各 PE が自分のメモリ領域のみアクセス可能 特徴数千から数万 PE 規模の並列システムが可能

More information

Microsoft PowerPoint _MPI-01.pptx

Microsoft PowerPoint _MPI-01.pptx 計算科学演習 Ⅰ MPI を いた並列計算 (I) 神戸大学大学院システム情報学研究科谷口隆晴 yaguchi@pearl.kobe-u.ac.jp この資料は昨年度担当の横川先生の資料を参考にさせて頂いています. 2016/06/23 MPI を用いた並列計算 (I) 1 講義概要 分散メモリ型計算機上のプログラミング メッセージ パシング インターフェイス (Message Passing Interface,MPI)

More information

para02-2.dvi

para02-2.dvi 2002 2 2002 4 23 : MPI MPI 1 MPI MPI(Message Passing Interface) MPI UNIX Windows Machintosh OS, MPI 2 1 1 2 2.1 1 1 1 1 1 1 Fig. 1 A B C F Fig. 2 A B F Fig. 1 1 1 Fig. 2 2.2 Fig. 3 1 . Fig. 4 Fig. 3 Fig.

More information

演習1: 演習準備

演習1: 演習準備 演習 1: 演習準備 2013 年 8 月 6 日神戸大学大学院システム情報学研究科森下浩二 1 演習 1 の内容 神戸大 X10(π-omputer) について システム概要 ログイン方法 コンパイルとジョブ実行方法 OpenMP の演習 ( 入門編 ) 1. parallel 構文 実行時ライブラリ関数 2. ループ構文 3. shared 節 private 節 4. reduction 節

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション 計算科学演習 I 第 8 回講義 MPI を用いた並列計算 (I) 2013 年 6 月 6 日 システム情報学研究科計算科学専攻 山本有作 今回の講義の概要 1. MPI とは 2. 簡単な MPI プログラムの例 (1) 3. 簡単な MPI プログラムの例 (2):1 対 1 通信 4. 簡単な MPI プログラムの例 (3): 集団通信 共有メモリ型並列計算機 ( 復習 ) 共有メモリ型並列計算機

More information

スライド 1

スライド 1 本日 (4/25) の内容 1 並列計算の概要 並列化計算の目的 並列コンピュータ環境 並列プログラミングの方法 MPI を用いた並列プログラミング 並列化効率 2 並列計算の実行方法 Hello world モンテカルロ法による円周率計算 並列計算のはじまり 並列計算の最初の構想を イギリスの科学者リチャードソンが 1922 年に発表 < リチャードソンの夢 > 64000 人を円形の劇場に集めて

More information

Microsoft PowerPoint - OpenMP入門.pptx

Microsoft PowerPoint - OpenMP入門.pptx OpenMP 入門 須田礼仁 2009/10/30 初版 OpenMP 共有メモリ並列処理の標準化 API http://openmp.org/ 最新版は 30 3.0 バージョンによる違いはあまり大きくない サポートしているバージョンはともかく csp で動きます gcc も対応しています やっぱり SPMD Single Program Multiple Data プログラム #pragma omp

More information

main() {... } main() { main() { main() {......... } } } main() { main() { main() {......... } } } main() { if(rank==)... } main() { if(rank==)... } main() { if(rank==x)... } P(N) P(N) / P(M) * ( M / N

More information

Microsoft PowerPoint - 講義:コミュニケータ.pptx

Microsoft PowerPoint - 講義:コミュニケータ.pptx コミュニケータとデータタイプ (Communicator and Datatype) 2019 年 3 月 15 日 神戸大学大学院システム情報学研究科横川三津夫 2019/3/15 Kobe HPC Spring School 2019 1 講義の内容 コミュニケータ (Communicator) データタイプ (Datatype) 演習問題 2019/3/15 Kobe HPC Spring School

More information

86

86 86 86 86 main() {... } main() { main() { main() {......... } } } 86 main() { main() { main() {......... } } } main() { if(rank==)... } main() { if(rank==)... } main() { if(rank==x)... } 86 P(N) P(N) /

More information

コードのチューニング

コードのチューニング MPI による並列化実装 ~ ハイブリッド並列 ~ 八木学 ( 理化学研究所計算科学研究センター ) KOBE HPC Spring School 2019 2019 年 3 月 14 日 MPI とは Message Passing Interface 分散メモリのプロセス間の通信規格(API) SPMD(Single Program Multi Data) が基本 - 各プロセスが 同じことをやる

More information

<4D F736F F F696E74202D C097F B A E B93C782DD8EE682E890EA97705D>

<4D F736F F F696E74202D C097F B A E B93C782DD8EE682E890EA97705D> 並列アルゴリズム 2005 年後期火曜 2 限 青柳睦 Aoyagi@cc.kyushu-u.ac.jp http://server-500.cc.kyushu-u.ac.jp/ 10 月 18( 火 ) 4. 数値計算における各種の並列化 5. MPI の基礎 1 講義の概要 並列計算機や計算機クラスターなどの分散環境における並列処理の概論 MPI および OpenMP による並列計算 理工学分野の並列計算アルゴリズム

More information

about MPI

about MPI 本日 (4/16) の内容 1 並列計算の概要 並列化計算の目的 並列コンピュータ環境 並列プログラミングの方法 MPI を用いた並列プログラミング 並列化効率 2 並列計算の実行方法 Hello world モンテカルロ法による円周率計算 並列計算のはじまり 並列計算の最初の構想を イギリスの科学者リチャードソンが 1922 年に発表 < リチャードソンの夢 > 64000 人を円形の劇場に集めて

More information

MPI コミュニケータ操作

MPI コミュニケータ操作 コミュニケータとデータタイプ 辻田祐一 (RIKEN AICS) 講義 演習内容 MPI における重要な概念 コミュニケータ データタイプ MPI-IO 集団型 I/O MPI-IO の演習 2 コミュニケータ MPI におけるプロセスの 集団 集団的な操作などにおける操作対象となる MPI における集団的な操作とは? 集団型通信 (Collective Communication) 集団型 I/O(Collective

More information

Microsoft PowerPoint _MPI-03.pptx

Microsoft PowerPoint _MPI-03.pptx 計算科学演習 Ⅰ ( 第 11 回 ) MPI を いた並列計算 (III) 神戸大学大学院システム情報学研究科横川三津夫 yokokawa@port.kobe-u.ac.jp 2014/07/03 計算科学演習 Ⅰ:MPI を用いた並列計算 (III) 1 2014/07/03 計算科学演習 Ⅰ:MPI を用いた並列計算 (III) 2 今週の講義の概要 1. 前回課題の解説 2. 部分配列とローカルインデックス

More information

MPI usage

MPI usage MPI (Version 0.99 2006 11 8 ) 1 1 MPI ( Message Passing Interface ) 1 1.1 MPI................................. 1 1.2............................... 2 1.2.1 MPI GATHER.......................... 2 1.2.2

More information

<4D F736F F F696E74202D C097F B A E B93C782DD8EE682E890EA97705D>

<4D F736F F F696E74202D C097F B A E B93C782DD8EE682E890EA97705D> 並列アルゴリズム 2005 年後期火曜 2 限青柳睦 Aoyagi@cc.kyushu-u.ac.jp http//server-500.cc.kyushu-u.ac.jp/ 11 月 29( 火 ) 7. 集団通信 (Collective Communication) 8. 領域分割 (Domain Decomposition) 1 もくじ 1. 序並列計算機の現状 2. 計算方式およびアーキテクチュアの分類

More information

C/C++ FORTRAN FORTRAN MPI MPI MPI UNIX Windows (SIMD Single Instruction Multipule Data) SMP(Symmetric Multi Processor) MPI (thread) OpenMP[5]

C/C++ FORTRAN FORTRAN MPI MPI MPI UNIX Windows (SIMD Single Instruction Multipule Data) SMP(Symmetric Multi Processor) MPI (thread) OpenMP[5] MPI ( ) snozawa@env.sci.ibaraki.ac.jp 1 ( ) MPI MPI Message Passing Interface[2] MPI MPICH[3],LAM/MPI[4] (MIMDMultiple Instruction Multipule Data) Message Passing ( ) (MPI (rank) PE(Processing Element)

More information

NUMAの構成

NUMAの構成 共有メモリを使ったデータ交換と同期 慶應義塾大学理工学部 天野英晴 hunga@am.ics.keio.ac.jp 同期の必要性 あるプロセッサが共有メモリに書いても 別のプロセッサにはそのことが分からない 同時に同じ共有変数に書き込みすると 結果がどうなるか分からない そもそも共有メモリって結構危険な代物 多くのプロセッサが並列に動くには何かの制御機構が要る 不可分命令 同期用メモリ バリア同期機構

More information

並列計算導入.pptx

並列計算導入.pptx 並列計算の基礎 MPI を用いた並列計算 並列計算の環境 並列計算 複数の計算ユニット(PU, ore, Pなど を使用して 一つの問題 計算 を行わせる 近年 並列計算を手軽に使用できる環境が急速に整いつつある >通常のP PU(entral Processing Unit)上に計算装置であるoreが 複数含まれている Intel ore i7 シリーズ: 4つの計算装置(ore) 通常のプログラム

More information

±é½¬£²¡§£Í£Ð£É½éÊâ

±é½¬£²¡§£Í£Ð£É½éÊâ 2012 8 7 1 / 52 MPI Hello World I ( ) Hello World II ( ) I ( ) II ( ) ( sendrecv) π ( ) MPI fortran C wget http://www.na.scitec.kobe-u.ac.jp/ yaguchi/riken2012/enshu2.zip unzip enshu2.zip 2 / 52 FORTRAN

More information

untitled

untitled RIKEN AICS Summer School 3 4 MPI 2012 8 8 1 6 MPI MPI 2 allocatable 2 Fox mpi_sendrecv 3 3 FFT mpi_alltoall MPI_PROC_NULL 4 FX10 /home/guest/guest07/school/ 5 1 A (i, j) i+j x i i y = Ax A x y y 1 y i

More information

コードのチューニング

コードのチューニング OpenMP による並列化実装 八木学 ( 理化学研究所計算科学研究センター ) KOBE HPC Spring School 2019 2019 年 3 月 14 日 スレッド並列とプロセス並列 スレッド並列 OpenMP 自動並列化 プロセス並列 MPI プロセス プロセス プロセス スレッドスレッドスレッドスレッド メモリ メモリ プロセス間通信 Private Private Private

More information

Microsoft PowerPoint ppt

Microsoft PowerPoint ppt 並列アルゴリズム 2005 年後期火曜 2 限 高見利也 ( 青柳睦 ) Aoyagi@cc.kyushu-u.ac.jp http://server-500.cc.kyushu-u.ac.jp/ 12 月 20 日 ( 火 ) 9. PC クラスタによる並列プログラミング ( 演習 ) つづき 1 もくじ 1. 序並列計算機の現状 2. 計算方式およびアーキテクチュアの分類 3. 並列計算の目的と課題

More information

Microsoft PowerPoint - GPGPU実践基礎工学(web).pptx

Microsoft PowerPoint - GPGPU実践基礎工学(web).pptx 並列計算の概念 ( プロセスとスレッド ) 長岡技術科学大学電気電子情報工学専攻出川智啓 今回の内容 並列計算の分類 並列アーキテクチャ 並列計算機システム 並列処理 プロセスとスレッド スレッド並列化 OpenMP プロセス並列化 MPI 249 CPU の性能の変化 動作クロックを向上させることで性能を向上 http://pc.watch.impress.co.jp/docs/2003/0227/kaigai01.htm

More information

講義の流れ 並列プログラムの概要 通常のプログラムと並列プログラムの違い 並列プログラム作成手段と並列計算機の構造 OpenMP による並列プログラム作成 処理を複数コアに分割して並列実行する方法 MPI による並列プログラム作成 ( 午後 ) プロセス間通信による並列処理 処理の分割 + データの

講義の流れ 並列プログラムの概要 通常のプログラムと並列プログラムの違い 並列プログラム作成手段と並列計算機の構造 OpenMP による並列プログラム作成 処理を複数コアに分割して並列実行する方法 MPI による並列プログラム作成 ( 午後 ) プロセス間通信による並列処理 処理の分割 + データの ( 財 ) 計算科学振興財団 大学院 GP 大学連合による計算科学の最先端人材育成 第 1 回社会人向けスパコン実践セミナー資料 29 年 2 月 17 日 13:15~14:45 九州大学情報基盤研究開発センター 南里豪志 1 講義の流れ 並列プログラムの概要 通常のプログラムと並列プログラムの違い 並列プログラム作成手段と並列計算機の構造 OpenMP による並列プログラム作成 処理を複数コアに分割して並列実行する方法

More information

情報処理演習 II

情報処理演習 II 2004 年 6 月 15 日 長谷川秀彦 情報処理演習 II Parallel Computing on Distributed Memory Machine 1. 分散メモリ方式並列計算の基礎 複数の CPU がそれぞれのメモリを持ち 独立に動作するコンピュータを分散メモリ方式並列コンピュータ 正確には Distributed Memory Parallel Computer という これには複数の

More information

Microsoft Word - HOKUSAI_system_overview_ja.docx

Microsoft Word - HOKUSAI_system_overview_ja.docx HOKUSAI システムの概要 1.1 システム構成 HOKUSAI システムは 超並列演算システム (GWMPC BWMPC) アプリケーション演算サーバ群 ( 大容量メモリ演算サーバ GPU 演算サーバ ) と システムの利用入口となるフロントエンドサーバ 用途の異なる 2 つのストレージ ( オンライン ストレージ 階層型ストレージ ) から構成されるシステムです 図 0-1 システム構成図

More information

44 6 MPI 4 : #LIB=-lmpich -lm 5 : LIB=-lmpi -lm 7 : mpi1: mpi1.c 8 : $(CC) -o mpi1 mpi1.c $(LIB) 9 : 10 : clean: 11 : -$(DEL) mpi1 make mpi1 1 % mpiru

44 6 MPI 4 : #LIB=-lmpich -lm 5 : LIB=-lmpi -lm 7 : mpi1: mpi1.c 8 : $(CC) -o mpi1 mpi1.c $(LIB) 9 : 10 : clean: 11 : -$(DEL) mpi1 make mpi1 1 % mpiru 43 6 MPI MPI(Message Passing Interface) MPI 1CPU/1 PC Cluster MPICH[5] 6.1 MPI MPI MPI 1 : #include 2 : #include 3 : #include 4 : 5 : #include "mpi.h" 7 : int main(int argc,

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション AICS 公開ソフトウェア講習会 15 回 表題通信ライブラリと I/O ライブラリ 場所 AICS R104-2 時間 2016/03/23 ( 水 ) 13:30-17:00 13:30-13:40 全体説明 13:40-14:10 PRDMA 14:10-14:40 MPICH 14:40-15:10 PVAS 15:10-15:30 休憩 15:30-16:00 Carp 16:00-16:30

More information

chap2.ppt

chap2.ppt 2. メッセージ通信計算 2.1 メッセージ通信プログラミングの基本 プログラミングの選択肢 特別な並列プログラミング言語を設計する occam (Inmos, 1984, 1986) 既存の逐次言語の文法 / 予約語をメッセージ通信を処理できるように拡張する 既存の逐次言語を用い メッセージ通信のための拡張手続のライブラリを用意する どのプロセスを実行するのか メッセージ通信のタイミング 中身を明示的に指定する必要がある

More information

untitled

untitled OpenMP MPI OpenMPI 1 2 http://www.es.jamstec.go.jp/ 3 4 http://www.top500.org/ CPU 3GHz, 10GHz 90nm 65nm, 45nm VLIW L3 Intel Hyperthreading CPU Pentium 5 6 7 8 Cell 23400 90nm 221mm2 SPU 1.52Moore s Law

More information

2. OpenMP OpenMP OpenMP OpenMP #pragma#pragma omp #pragma omp parallel #pragma omp single #pragma omp master #pragma omp for #pragma omp critica

2. OpenMP OpenMP OpenMP OpenMP #pragma#pragma omp #pragma omp parallel #pragma omp single #pragma omp master #pragma omp for #pragma omp critica C OpenMP 1. OpenMP OpenMP Architecture Review BoardARB OpenMP OpenMP OpenMP OpenMP OpenMP Version 2.0 Version 2.0 OpenMP Fortran C/C++ C C++ 1997 10 OpenMP Fortran API 1.0 1998 10 OpenMP C/C++ API 1.0

More information

Microsoft Word - openmp-txt.doc

Microsoft Word - openmp-txt.doc ( 付録 A) OpenMP チュートリアル OepnMP は 共有メモリマルチプロセッサ上のマルチスレッドプログラミングのための API です 本稿では OpenMP の簡単な解説とともにプログラム例をつかって説明します 詳しくは OpenMP の規約を決めている OpenMP ARB の http://www.openmp.org/ にある仕様書を参照してください 日本語訳は http://www.hpcc.jp/omni/spec.ja/

More information

スライド 1

スライド 1 計算科学が拓く世界スーパーコンピュータは何故スーパーか 学術情報メディアセンター中島浩 http://www.para.media.kyoto-u.ac.jp/jp/ username=super password=computer 講義の概要 目的 計算科学に不可欠の道具スーパーコンピュータが どういうものか なぜスーパーなのか どう使うとスーパーなのかについて雰囲気をつかむ 内容 スーパーコンピュータの歴史を概観しつつ

More information

Microsoft PowerPoint - 高速化WS富山.pptx

Microsoft PowerPoint - 高速化WS富山.pptx 京 における 高速化ワークショップ 性能分析 チューニングの手順について 登録施設利用促進機関 一般財団法人高度情報科学技術研究機構富山栄治 一般財団法人高度情報科学技術研究機構 2 性能分析 チューニング手順 どの程度の並列数が実現可能か把握する インバランスの懸念があるか把握する タイムステップループ I/O 処理など注目すべき箇所を把握する 並列数 並列化率などの目標を設定し チューニング時の指針とする

More information

情報処理概論(第二日目)

情報処理概論(第二日目) 1 並列プログラミング超入門講習会 九州大学情報基盤研究開発センター MPI コース 2 並列計算機の構成 計算ノード ネットワーク CPU コア メモリ アクセラレータ (GPU 等 ) 例 : スーパーコンピュータシステム ITO サブシステム B ノード数 CPU 数 / ノードコア数 / CPU GPU 数 / ノード 128 2 18 4 MPI (Message Passing Interface)

More information

02_C-C++_osx.indd

02_C-C++_osx.indd C/C++ OpenMP* / 2 C/C++ OpenMP* OpenMP* 9.0 1... 2 2... 3 3OpenMP*... 5 3.1... 5 3.2 OpenMP*... 6 3.3 OpenMP*... 8 4OpenMP*... 9 4.1... 9 4.2 OpenMP*... 9 4.3 OpenMP*... 10 4.4... 10 5OpenMP*... 11 5.1

More information

MPI () MPIMessage Passing Interface MPI MPI OpenMP 7 ( ) 1

MPI () MPIMessage Passing Interface MPI MPI OpenMP 7 ( ) 1 7 MPI / 7 (2014 05 21 ) MPI () MPIMessage Passing Interface MPI MPI OpenMP 7 (2014 05 21 ) 1 (MPI) 7 (2014 05 21 ) 2 (OpenMP) 7 (2014 05 21 ) 3 (MPI + OpenMP) 7 (2014 05 21 ) 4 MPI (1) MPI1 OpenMP 1 pragma

More information

内容に関するご質問は まで お願いします [Oakforest-PACS(OFP) 編 ] 第 85 回お試しアカウント付き並列プログラミング講習会 ライブラリ利用 : 科学技術計算の効率化入門 スパコンへのログイン テストプログラム起動 東京大学情報基盤セ

内容に関するご質問は まで お願いします [Oakforest-PACS(OFP) 編 ] 第 85 回お試しアカウント付き並列プログラミング講習会 ライブラリ利用 : 科学技術計算の効率化入門 スパコンへのログイン テストプログラム起動 東京大学情報基盤セ 内容に関するご質問は ida@cc.u-tokyo.ac.jp まで お願いします [Oakforest-PACS(OFP) 編 ] 第 85 回お試しアカウント付き並列プログラミング講習会 ライブラリ利用 : 科学技術計算の効率化入門 スパコンへのログイン テストプログラム起動 東京大学情報基盤センター特任准教授伊田明弘 1 講習会 : ライブラリ利用 [FX10] スパコンへのログイン ファイル転送

More information

<4D F736F F F696E74202D C097F B A E B93C782DD8EE682E890EA97705D>

<4D F736F F F696E74202D C097F B A E B93C782DD8EE682E890EA97705D> 並列アルゴリズム 2005 年後期火曜 2 限 青柳睦 Aoyagi@cc.kyushu-u.ac.jp http://server-500.cc.kyushu-u.ac.jp/ 10 月 11 日 ( 火 ) 1. 序並列計算機の現状 2. 計算方式およびアーキテクチュアの分類 ( 途中から ) 3. 並列計算の目的と課題 4. 数値計算における各種の並列化 1 講義の概要 並列計算機や計算機クラスターなどの分散環境における並列処理の概論

More information

CS

CS 性能並列計算法特論 第 10 回 情報基盤研究開発センター 野謙 2017 年 7 11 ( ) 成績評価 その他の連絡事項 出席点 5 割 + 期末試験 ( レポート作成 )5 割 講義資料は毎回配布予定です 席した場合, 各 でダウンロードしてください http://mercury.cc.kyushu-u.ac.jp/lecture_2017/ PDF 版をその週の 曜の朝までには公開予定 講義開始後約

More information

enshu5_4.key

enshu5_4.key http://www.mmsonline.com/articles/parallel-processing-speeds-toolpath-calculations TA : 菅 新 菅沼智史 水曜 新行紗弓 馬淵隼 木曜 情報知能工学演習V (前半第4週) 政田洋平 システム情報学研究科計算科学専攻 演習 V( 前半 ) の内容 第 1 週 : 高性能計算 (High Performance Computing

More information

1.overview

1.overview 村井均 ( 理研 ) 2 はじめに 規模シミュレーションなどの計算を うためには クラスタのような分散メモリシステムの利 が 般的 並列プログラミングの現状 半は MPI (Message Passing Interface) を利 MPI はプログラミングコストが きい 標 性能と 産性を兼ね備えた並列プログラミング 語の開発 3 並列プログラミング 語 XcalableMP 次世代並列プログラミング

More information

スライド 1

スライド 1 Parallel Programming in MPI part 2 1 1 Today's Topic ノンブロッキング通信 Non-Blocking Communication 通信の完了を待つ間に他の処理を行う Execute other instructions while waiting for the completion of a communication. 集団通信関数の実装 Implementation

More information

スライド 1

スライド 1 計算科学演習 MPI 基礎 学術情報メディアセンター情報学研究科 システム科学専攻中島浩 目次 プログラミングモデル SPMD 同期通信 / 非同期通信 MPI 概論 プログラム構造 Communicator & rank データ型 タグ 一対一通信関数 1 次元分割並列化 : 基本 基本的考え方 配列宣言 割付 部分領域交換 結果出力 1 次元分割並列化 : 高速化 通信 計算のオーバーラップ 通信回数削減

More information

スライド 1

スライド 1 計算科学演習 MPI 基礎 学術情報メディアセンター 情報学研究科 システム科学専攻 中島浩 目次 プログラミングモデル SPMD 同期通信 / 非同期通信 MPI 概論 プログラム構造 Communicator & rank データ型 タグ 一対一通信関数 1 次元分割並列化 : 基本 基本的考え方 配列宣言 割付 部分領域交換 結果出力 1 次元分割並列化 : 高速化 通信 計算のオーバーラップ

More information

第8回講義(2016年12月6日)

第8回講義(2016年12月6日) 2016/12/6 スパコンプログラミング (1) (Ⅰ) 1 行列 - 行列積 (2) 東京大学情報基盤センター准教授塙敏博 2016 年 12 月 6 日 ( 火 ) 10:25-12:10 2016/11/29 講義日程 ( 工学部共通科目 ) 1. 9 月 27 日 ( 今日 ): ガイダンス 2. 10 月 4 日 l 並列数値処理の基本演算 ( 座学 ) 3. 10 月 11 日 : スパコン利用開始

More information

MPI MPI MPI.NET C# MPI Version2

MPI MPI MPI.NET C# MPI Version2 MPI.NET C# 2 2009 2 27 MPI MPI MPI.NET C# MPI Version2 MPI (Message Passing Interface) MPI MPI Version 1 1994 1 1 1 1 ID MPI MPI_Send MPI_Recv if(rank == 0){ // 0 MPI_Send(); } else if(rank == 1){ // 1

More information

(Microsoft PowerPoint \215u\213`4\201i\221\272\210\344\201j.pptx)

(Microsoft PowerPoint \215u\213`4\201i\221\272\210\344\201j.pptx) AICS 村井均 RIKEN AICS HPC Summer School 2012 8/7/2012 1 背景 OpenMP とは OpenMP の基本 OpenMP プログラミングにおける注意点 やや高度な話題 2 共有メモリマルチプロセッサシステムの普及 共有メモリマルチプロセッサシステムのための並列化指示文を共通化する必要性 各社で仕様が異なり 移植性がない そして いまやマルチコア プロセッサが主流となり

More information

課題 S1 解説 C 言語編 中島研吾 東京大学情報基盤センター

課題 S1 解説 C 言語編 中島研吾 東京大学情報基盤センター 課題 S1 解説 C 言語編 中島研吾 東京大学情報基盤センター 内容 課題 S1 /a1.0~a1.3, /a2.0~a2.3 から局所ベクトル情報を読み込み, 全体ベクトルのノルム ( x ) を求めるプログラムを作成する (S1-1) file.f,file2.f をそれぞれ参考にする 下記の数値積分の結果を台形公式によって求めるプログラムを作成する

More information

Microsoft PowerPoint - S1-ref-F.ppt [互換モード]

Microsoft PowerPoint - S1-ref-F.ppt [互換モード] 課題 S1 解説 Fortran 言語編 RIKEN AICS HPC Summer School 2014 中島研吾 ( 東大 情報基盤センター ) 横川三津夫 ( 神戸大 計算科学教育センター ) MPI Programming 課題 S1 (1/2) /a1.0~a1.3, /a2.0~a2.3 から局所ベクトル情報を読み込み, 全体ベクトルのノルム ( x ) を求めるプログラムを作成する

More information

memo

memo 数理情報工学演習第一 C プログラミング演習 ( 第 5 回 ) 2015/05/11 DEPARTMENT OF MATHEMATICAL INFORMATICS 1 今日の内容 : プロトタイプ宣言 ヘッダーファイル, プログラムの分割 課題 : 疎行列 2 プロトタイプ宣言 3 C 言語では, 関数や変数は使用する前 ( ソースの上のほう ) に定義されている必要がある. double sub(int

More information

OpenMPプログラミング

OpenMPプログラミング OpenMP 基礎 岩下武史 ( 学術情報メディアセンター ) 1 2013/9/13 並列処理とは 逐次処理 CPU1 並列処理 CPU1 CPU2 CPU3 CPU4 処理 1 処理 1 処理 2 処理 3 処理 4 処理 2 処理 3 処理 4 時間 2 2 種類の並列処理方法 プロセス並列 スレッド並列 並列プログラム 並列プログラム プロセス プロセス 0 プロセス 1 プロセス間通信 スレッド

More information

<4D F736F F F696E74202D D F95C097F D834F E F93FC96E5284D F96E291E85F8DE391E52E >

<4D F736F F F696E74202D D F95C097F D834F E F93FC96E5284D F96E291E85F8DE391E52E > SX-ACE 並列プログラミング入門 (MPI) ( 演習補足資料 ) 大阪大学サイバーメディアセンター日本電気株式会社 演習問題の構成 ディレクトリ構成 MPI/ -- practice_1 演習問題 1 -- practice_2 演習問題 2 -- practice_3 演習問題 3 -- practice_4 演習問題 4 -- practice_5 演習問題 5 -- practice_6

More information

Microsoft PowerPoint - 03_What is OpenMP 4.0 other_Jan18

Microsoft PowerPoint - 03_What is OpenMP 4.0 other_Jan18 OpenMP* 4.x における拡張 OpenMP 4.0 と 4.5 の機能拡張 内容 OpenMP* 3.1 から 4.0 への拡張 OpenMP* 4.0 から 4.5 への拡張 2 追加された機能 (3.1 -> 4.0) C/C++ 配列シンタックスの拡張 SIMD と SIMD 対応関数 デバイスオフロード task 構 の依存性 taskgroup 構 cancel 句と cancellation

More information

120802_MPI.ppt

120802_MPI.ppt CPU CPU CPU CPU CPU SMP Symmetric MultiProcessing CPU CPU CPU CPU CPU CPU CPU CPU CPU CPU CPU CPU CP OpenMP MPI MPI CPU CPU CPU CPU CPU CPU CPU CPU CPU CPU MPI MPI+OpenMP CPU CPU CPU CPU CPU CPU CPU CP

More information

Microsoft PowerPoint - compsys2-06.ppt

Microsoft PowerPoint - compsys2-06.ppt 情報基盤センター天野浩文 前回のおさらい (1) 並列処理のやり方 何と何を並列に行うのか コントロール並列プログラミング 同時に実行できる多数の処理を, 多数のノードに分配して同時に処理させる しかし, 同時に実行できる多数の処理 を見つけるのは難しい データ並列プログラミング 大量のデータを多数の演算ノードに分配して, それらに同じ演算を同時に適用する コントロール並列よりも, 多数の演算ノードを利用しやすい

More information

Microsoft PowerPoint - MPIprog-C1.ppt [互換モード]

Microsoft PowerPoint - MPIprog-C1.ppt [互換モード] MPI によるプログラミング概要 ( その 1) C 言語編 RIKEN AICS HPC Summer School 2015 中島研吾 ( 東大 情報基盤センター ) 横川三津夫 ( 神戸大 計算科学教育センター ) 1 本 school の目的 並列計算機の使用によって, より大規模で詳細なシミュレーションを高速に実施することが可能になり, 新しい科学の開拓が期待される 並列計算の目的 高速

More information

2007年度 計算機システム演習 第3回

2007年度 計算機システム演習 第3回 2014 年度 実践的並列コンピューティング 第 10 回 MPI による分散メモリ並列プログラミング (3) 遠藤敏夫 endo@is.titech.ac.jp 1 MPI プログラムの性能を考える 前回までは MPI プログラムの挙動の正しさを議論 今回は速度性能に注目 MPIプログラムの実行時間 = プロセス内計算時間 + プロセス間通信時間 計算量 ( プロセス内 ) ボトルネック有無メモリアクセス量

More information

スパコンに通じる並列プログラミングの基礎

スパコンに通じる並列プログラミングの基礎 2016.06.06 2016.06.06 1 / 60 2016.06.06 2 / 60 Windows, Mac Unix 0444-J 2016.06.06 3 / 60 Part I Unix GUI CUI: Unix, Windows, Mac OS Part II 0444-J 2016.06.06 4 / 60 ( : ) 6 6 ( ) 6 10 6 16 SX-ACE 6 17

More information

Microsoft PowerPoint - sales2.ppt

Microsoft PowerPoint - sales2.ppt 並列化の基礎 ( 言葉の意味 ) 並列実行には 複数のタスク実行主体が必要 共有メモリ型システム (SMP) での並列 プロセスを使用した並列化 スレッドとは? スレッドを使用した並列化 分散メモリ型システムでの並列 メッセージパッシングによる並列化 並列アーキテクチャ関連の言葉を押さえよう 21 プロセスを使用した並列処理 並列処理を行うためには複数のプロセスの生成必要プロセスとは プログラム実行のための能動実態メモリ空間親プロセス子プロセス

More information

スパコンに通じる並列プログラミングの基礎

スパコンに通じる並列プログラミングの基礎 2018.06.04 2018.06.04 1 / 62 2018.06.04 2 / 62 Windows, Mac Unix 0444-J 2018.06.04 3 / 62 Part I Unix GUI CUI: Unix, Windows, Mac OS Part II 2018.06.04 4 / 62 0444-J ( : ) 6 4 ( ) 6 5 * 6 19 SX-ACE * 6

More information

RX ファミリ用 C/C++ コンパイラ V.1.00 Release 02 ご使用上のお願い RX ファミリ用 C/C++ コンパイラの使用上の注意事項 4 件を連絡します #pragma option 使用時の 1 または 2 バイトの整数型の関数戻り値に関する注意事項 (RXC#012) 共用

RX ファミリ用 C/C++ コンパイラ V.1.00 Release 02 ご使用上のお願い RX ファミリ用 C/C++ コンパイラの使用上の注意事項 4 件を連絡します #pragma option 使用時の 1 または 2 バイトの整数型の関数戻り値に関する注意事項 (RXC#012) 共用 RX ファミリ用 C/C++ コンパイラ V.1.00 Release 02 ご使用上のお願い RX ファミリ用 C/C++ コンパイラの使用上の注意事項 4 件を連絡します #pragma option 使用時の 1 または 2 バイトの整数型の関数戻り値に関する注意事項 (RXC#012) 共用体型のローカル変数を文字列操作関数で操作する場合の注意事項 (RXC#013) 配列型構造体または共用体の配列型メンバから読み出した値を動的初期化に用いる場合の注意事項

More information

スパコンに通じる並列プログラミングの基礎

スパコンに通じる並列プログラミングの基礎 2018.09.10 furihata@cmc.osaka-u.ac.jp ( ) 2018.09.10 1 / 59 furihata@cmc.osaka-u.ac.jp ( ) 2018.09.10 2 / 59 Windows, Mac Unix 0444-J furihata@cmc.osaka-u.ac.jp ( ) 2018.09.10 3 / 59 Part I Unix GUI CUI:

More information

GROMACS実習

GROMACS実習 SCLS 計算機システム講習会 GHOST-MP 実習 独立行政法人理化学研究所 HPCI 計算生命科学推進プログラム SCLS 計算機システムの GHOST-MP GHOST-MP BLAST のように遠縁のホモログを検出可能なホモロジー検索ツールである GHOSTX を 京 で高速化したもの GHOST-MP ver.201311 OpenMP node 内のスレッド並列 MPI master

More information

Slides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments

Slides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments 計算機アーキテクチャ第 11 回 マルチプロセッサ 本資料は授業用です 無断で転載することを禁じます 名古屋大学 大学院情報科学研究科 准教授加藤真平 デスクトップ ジョブレベル並列性 スーパーコンピュータ 並列処理プログラム プログラムの並列化 for (i = 0; i < N; i++) { x[i] = a[i] + b[i]; } プログラムの並列化 x[0] = a[0] + b[0];

More information

Microsoft PowerPoint 知る集い(京都)最終.ppt

Microsoft PowerPoint 知る集い(京都)最終.ppt 次世代スパコンについて知る集い 配布資料 世界最高性能を目指すシステム開発について ー次世代スパコンのシステム構成と施設の概要 - 平成 22 年 1 月 28 日 理化学研究所次世代スーパーコンピュータ開発実施本部横川三津夫 高性能かつ大規模システムの課題と対応 演算性能の向上 CPU のマルチコア化,SIMD( ベクトル化 ) 機構 主記憶へのアクセス頻度の削減 - CPU 性能とメモリアクセス性能のギャップ

More information

untitled

untitled OS 2007/4/27 1 Uni-processor system revisited Memory disk controller frame buffer network interface various devices bus 2 1 Uni-processor system today Intel i850 chipset block diagram Source: intel web

More information

スライド 1

スライド 1 FMO 創薬コンソーシアム FMODD 京での FMO 計算練習会 2015 年 5 月 22 日 理化学研究所 本講習会の内容 1. 京の構成とABINIT-MPの概要 2. 京にログイン 計算環境の準備 3. ジョブの投入練習 1(TrpCageの例題を用いた基本ジョブ実行練習 ) 4. ジョブの投入練習 2(ERαの例題を用いた実践的なジョブ実行練習 ) 5. 新規作成構造のジョブの投入に関する注意点

More information

Microsoft PowerPoint - MPIprog-C1.ppt [互換モード]

Microsoft PowerPoint - MPIprog-C1.ppt [互換モード] MPI によるプログラミング概要 ( その 1) C 言語編 RIKEN AICS HPC Summer School 2014 中島研吾 ( 東大 情報基盤センター ) 横川三津夫 ( 神戸大 計算科学教育センター ) 1 本 school の目的 並列計算機の使用によって, より大規模で詳細なシミュレーションを高速に実施することが可能になり, 新しい科学の開拓が期待される 並列計算の目的 高速

More information

01_OpenMP_osx.indd

01_OpenMP_osx.indd OpenMP* / 1 1... 2 2... 3 3... 5 4... 7 5... 9 5.1... 9 5.2 OpenMP* API... 13 6... 17 7... 19 / 4 1 2 C/C++ OpenMP* 3 Fortran OpenMP* 4 PC 1 1 9.0 Linux* Windows* Xeon Itanium OS 1 2 2 WEB OS OS OS 1 OS

More information

かし, 異なったプロセス間でデータを共有するためには, プロセス間通信や特殊な共有メモリ領域を 利用する必要がある. このためマルチプロセッサマシンの利点を最大に引き出すことができない. こ の問題はマルチスレッドを用いることで解決できる. マルチスレッドとは,1 つのプロセスの中に複 数のスレッド

かし, 異なったプロセス間でデータを共有するためには, プロセス間通信や特殊な共有メモリ領域を 利用する必要がある. このためマルチプロセッサマシンの利点を最大に引き出すことができない. こ の問題はマルチスレッドを用いることで解決できる. マルチスレッドとは,1 つのプロセスの中に複 数のスレッド 0 並列計算について 0.1 並列プログラミングライブラリのメッセージパッシングモデル並列プログラムにはメモリモデルで分類すると, 共有メモリモデルと分散メモリモデルの 2 つに分けられる. それぞれ次のような特徴がある. 共有メモリモデル複数のプロセスやスレッドが事項する主体となり, 互いに通信や同期を取りながら計算が継続される. スレッド間の実行順序をプログラマが保証してやらないと, 思った結果が得られない.

More information

九州大学がスーパーコンピュータ「高性能アプリケーションサーバシステム」の本格稼働を開始

九州大学がスーパーコンピュータ「高性能アプリケーションサーバシステム」の本格稼働を開始 2014 年 1 月 31 日 国立大学法人九州大学 株式会社日立製作所 九州大学がスーパーコンピュータ 高性能アプリケーションサーバシステム の本格稼働を開始 日立のテクニカルサーバ HA8000-tc/HT210 などを採用 従来システム比で 約 28 倍の性能を実現し 1TFLOPS あたりの消費電力は約 17 分の 1 に低減 九州大学情報基盤研究開発センター ( センター長 : 青柳睦 /

More information

MPI

MPI 筑波大学計算科学研究センター CCS HPC サマーセミナー MPI 建部修見 tatebe@cs.tsukuba.ac.jp 筑波大学大学院システム情報工学研究科計算科学研究センター 分散メモリ型並列計算機 (PC クラスタ ) 計算ノードはプロセッサとメモリで構成され, 相互結合網で接続 ノード内のメモリは直接アクセス 他ノードとはネットワーク通信により情報交換 いわゆるPCクラスタ 相互結合網

More information

最新の並列計算事情とCAE

最新の並列計算事情とCAE 1 大島聡史 ( 東京大学情報基盤センター助教 / 並列計算分科会主査 ) 最新の並列計算事情と CAE アウトライン 最新の並列計算機事情と CAE 世界一の性能を達成した 京 について マルチコア メニーコア GPU クラスタ 最新の並列計算事情と CAE MPI OpenMP CUDA OpenCL etc. 京 については 仕分けやら予算やら計画やらの面で問題視する意見もあるかと思いますが

More information

研究背景 大規模な演算を行うためには 分散メモリ型システムの利用が必須 Message Passing Interface MPI 並列プログラムの大半はMPIを利用 様々な実装 OpenMPI, MPICH, MVAPICH, MPI.NET プログラミングコストが高いため 生産性が悪い 新しい並

研究背景 大規模な演算を行うためには 分散メモリ型システムの利用が必須 Message Passing Interface MPI 並列プログラムの大半はMPIを利用 様々な実装 OpenMPI, MPICH, MVAPICH, MPI.NET プログラミングコストが高いため 生産性が悪い 新しい並 XcalableMPによる NAS Parallel Benchmarksの実装と評価 中尾 昌広 李 珍泌 朴 泰祐 佐藤 三久 筑波大学 計算科学研究センター 筑波大学大学院 システム情報工学研究科 研究背景 大規模な演算を行うためには 分散メモリ型システムの利用が必須 Message Passing Interface MPI 並列プログラムの大半はMPIを利用 様々な実装 OpenMPI,

More information

VXPRO R1400® ご提案資料

VXPRO R1400® ご提案資料 Intel Core i7 プロセッサ 920 Preliminary Performance Report ノード性能評価 ノード性能の評価 NAS Parallel Benchmark Class B OpenMP 版での性能評価 実行スレッド数を 4 で固定 ( デュアルソケットでは各プロセッサに 2 スレッド ) 全て 2.66GHz のコアとなるため コアあたりのピーク性能は同じ 評価システム

More information

I I / 47

I I / 47 1 2013.07.18 1 I 2013 3 I 2013.07.18 1 / 47 A Flat MPI B 1 2 C: 2 I 2013.07.18 2 / 47 I 2013.07.18 3 / 47 #PJM -L "rscgrp=small" π-computer small: 12 large: 84 school: 24 84 16 = 1344 small school small

More information

MPI 超 入門 (FORTRAN 編 ) 東京大学情報基盤センター C 言語編は以下 /ohshima/seminars/t2k201111/ (MPI による並列アプリケーション開発入門 2)

MPI 超 入門 (FORTRAN 編 ) 東京大学情報基盤センター C 言語編は以下   /ohshima/seminars/t2k201111/ (MPI による並列アプリケーション開発入門 2) MPI 超 入門 (FORTRAN 編 ) 東京大学情報基盤センター C 言語編は以下 http://www.cspp.cc.u-tokyo.ac.jp /ohshima/seminars/t2k201111/ (MPI による並列アプリケーション開発入門 2) Fundamental MPI 1 概要 MPI とは MPI の基礎 :Hello World 全体データと局所データ グループ通信 (Collective

More information

Gfarm/MPI-IOの 概要と使い方

Gfarm/MPI-IOの 概要と使い方 MPI-IO/Gfarm のご紹介と現在の開発状況 鷹津冬将 2018/3/2 Gfarm ワークショップ 2018 1 目次 MPI-IO/Gfarm 概要 MPI-IO/Gfarm の開発状況 MVAPICH2 向け MPI-IO/Gfarm MPI-IO/Gfarm の使い方 かんたんなサンプルプログラムと動作確認の方法 既知の不具合 まとめと今後の展望 2018/3/2 Gfarm ワークショップ

More information

Fundamental MPI 1 概要 MPI とは MPI の基礎 :Hello World 全体データと局所データタ グループ通信 (Collective Communication) 1 対 1 通信 (Point-to-Point Communication)

Fundamental MPI 1 概要 MPI とは MPI の基礎 :Hello World 全体データと局所データタ グループ通信 (Collective Communication) 1 対 1 通信 (Point-to-Point Communication) MPI 超 入門 (FORTRAN 編 ) 東京大学情報基盤センター Fundamental MPI 1 概要 MPI とは MPI の基礎 :Hello World 全体データと局所データタ グループ通信 (Collective Communication) 1 対 1 通信 (Point-to-Point Communication) Fundamental MPI 2 MPI とは (1/2)

More information

Microsoft Word ●IntelクアッドコアCPUでのベンチマーク_吉岡_ _更新__ doc

Microsoft Word ●IntelクアッドコアCPUでのベンチマーク_吉岡_ _更新__ doc 2.3. アプリ性能 2.3.1. Intel クアッドコア CPU でのベンチマーク 東京海洋大学吉岡諭 1. はじめにこの数年でマルチコア CPU の普及が進んできた x86 系の CPU でも Intel と AD がデュアルコア クアッドコアの CPU を次々と市場に送り出していて それらが PC クラスタの CPU として採用され HPC に活用されている ここでは Intel クアッドコア

More information

課題 S1 解説 Fortran 編 中島研吾 東京大学情報基盤センター

課題 S1 解説 Fortran 編 中島研吾 東京大学情報基盤センター 課題 S1 解説 Fortran 編 中島研吾 東京大学情報基盤センター 内容 課題 S1 /a1.0~a1.3, /a2.0~a2.3 から局所ベクトル情報を読み込み, 全体ベクトルのノルム ( x ) を求めるプログラムを作成する (S1-1) file.f,file2.f をそれぞれ参考にする 下記の数値積分の結果を台形公式によって求めるプログラムを作成する

More information