理化学研究所計算科学研究機構研究部門量子系分子科学研究チーム殿 hp170163: 有機半導体 有機分子発光材料の全自動探索シミュレーションシステムの開発 高度化支援作業 2017 年 9 6 ( R405 般財団法 度情報科学技術研究機構利 援部 1

Size: px
Start display at page:

Download "理化学研究所計算科学研究機構研究部門量子系分子科学研究チーム殿 hp170163: 有機半導体 有機分子発光材料の全自動探索シミュレーションシステムの開発 高度化支援作業 2017 年 9 6 ( R405 般財団法 度情報科学技術研究機構利 援部 1"

Transcription

1 理化学研究所計算科学研究機構研究部門量子系分子科学研究チーム殿 hp170163: 有機半導体 有機分子発光材料の全自動探索シミュレーションシステムの開発 高度化支援作業 2017 年 9 6 ( )@AICS R405 般財団法 度情報科学技術研究機構利 援部 1

2 Outline 高度化支援の依頼内容 実行環境と計算条件 PWscf フロー図 各ライブラリを使用した場合のプログラム全体の実行時間の比較 Scalapack と ELPA の全実行時間の比較 electrons ルーチンの構造と実行時間の比較 (Scalapack と ELPA) 固有値ライブラリ (zhegv) 部分の FAPP 性能分析 固有値ライブラリ (zhegv) 部分における MPI 通信の経過時間 固有値ライブラリ (zhegv) における MPI プロセスの中の計算の時間 固有値ライブラリ (zhegv) 部分の全演算数 固有値ライブラリ (zhegv) 部分の各 rank ごとの演算数 実行時オプションの指定 ( nd 169) まとめ 2

3 高度化支援のターゲットアプリ アプリ名 : Quantum ESPRESSO バージョン : 6.1 対象モジュール : PWscf(pw.x) 高度化支援の依頼内容 依頼内容 オープンソースの第一原理電子状態計算プログラム Quantum ESPRESSO の最新版 v6.1 の PWscf モジュール (pw.x) について 実行性能の阻害要因のひとつとなっている対角化計算に対して EPLA ライブラリ導入による高速化を行い ライブラリ導入前の (ScaLAPACK を使用した ) コードと ELPA ライブラリ導入後のコードに対して並列実行時の並列効率 実行効率の測定を行い 性能特性の検証をしていただきたい また それぞれのコードについて性能阻害要因の特定を実施していただきたい 3

4 実行環境と計算条件 表 : 実行環境 コード名 Quantum ESPRESSO v 6.1 モジュール ハードウェア PWscf K computer 言語環境 K (Released : 2017/4/8) 数値演算ライブラリ Scalapack version ( 富士通汎用数値計算ライブラリ SSLII) ELPA release ( 最新版 release ) コンパイルオプション Scalapack: FDFLAGS = -D FFTW -D MPI -D PARA -D SCALAPACK -D OPENMP ELPA: FFLAGS = -O3 -Nsetvalue -Kopenmp Kparallel,optmsg=2 -Nlst=t LDFLAGS = -Kfast -Kparallel,openmp ELPA_LIBS_SWITCH = disabled SCALAPACK_LIBS = -SSL2BLAMP -SCALAPACK -Kopenmp,parallel FDFLAGS = -D FFTW -D MPI -D PARA -D SCALAPACK -D OPENMP -D ELPA_2016 FFLAGS = -O3 -Nsetvalue -Kopenmp Kparallel,optmsg=2 -Nlst=t LDFLAGS = -Kfast -Kparallel,openmp SCALAPACK_LIBS = /home/rist/r00065/lib/lib/libelpa_openmp.a -SSL2BLAMP -SCALAPACK -Kopenmp,parallel 表 : 計算条件 PWscf を用いた構造最適化計算 計算対象物質 有機発光分子材料集合体 計算規模 単位セル当たり336 原子 交換相関汎関数 rev-vdw-df2 平面波カットオフエネルギー 64Ry k 点 3x3x3 (irreducible k 点 :14 点 ) step 数 1 回 scf 数 5 回 4

5 PWscf フロー図 (v6.1) Start plugin_arguments_bcast mp_global iosys setup environment init_run 計算のセットアップを行う read_input check_stop run_pwscf electrons 電子状態を self-consistent に計算する stop_run forces 原子に対する力を計算する Stop stress punch 系の応力を計算する 5

6 各ライブラリを使用した場合のプログラム全体の実行時間の比較 nodes (= MPI processes) : 192 [TOFU: 4x4x12] theareds : 8 バンド数 :1976 ( 注 ) Lapack のコンパイルオプション DFLAGS = -D FFTW -D MPI -D PARA -D OPENMP FFLAGS = -O3 -Nsetvalue -Kopenmp -Kparallel,optmsg=2 -Nlst=t 経過時間 [sec] init_run electrons forces stress other 全実行時間 2, , 倍高速 1, lapack scalapack ELPA ライブラリ 最短 各ライブラリ (Scalapack, ELPA, Lapack) の中で ELPA が 全実行時間が 一番短いことがわかった à init_run と electrons の経過時間が主に短縮 6

7 nodes (= MPI processes) : 192 [TOFU: 4x4x12] theareds : 8 Scalapack と ELPA の全実行時間の比較 経過時間 [ sec ] 1,400 1,200 1, scalapack elpa 1,371 1, 全実行時間 init_run electrons init_run と electrons では 全実行時間に対して electrons 部分の割合が大きく Scalapack と ELPA の実行時間の差も electrons の方が大きい à 今後 electrons の部分に注目 7

8 electrons ルーチンの構造と実行時間の比較 (Scalapack と ELPA) nodes (= MPI processes) : 192 [TOFU: 4x4x12] theareds : 8 electrons c-bands cegterg Scalapack と ELPA の共通部分のルーチン cdiaghg zhpev_modu le.pzheevd_ drv elpa1_comput e.tridiag_com plex_double electrons c-bands cegterg cdiaghg elpa 334 scalapack 一番下の階層時間の差が大きい 経過時間 [ sec ] ELPA だけのルーチン electrons ルーチンの中で Scalapack と ELPA の経過時間に差がある部分をグラフにした à プログラム構造において 一番深い階層の cdiaghg ルーチン ( 固有値ライブラリ zhpev を呼ぶ部分 ) が原因で他の部分にも差が出ていることがわかった à cdiaghg ルーチンの中の固有値ライブラリ zhpev 部分を詳しく調べる 8

9 1 コール当たりの時間 [s] 固有値ライブラリ (zhegv) 部分の FAPP 性能分析 (1) electrons で呼ばれている固有値ライブラリ (zhegv) 部分だけの経過時間を測定 全実行時間から electrons で呼ばれている固有値ライブラリだけの経過時間を分離した à 今後は この部分の経過時間だけを調べる electrons で呼ばれている固有値ライブラリ (zhegv) 部分の経過時間 ( 全 rank の中の最大値 ) 倍高速 scalapack (zhpev) ライブラリ バンド数 :1976 zhpev のコール回数 :347 回 (scalapack も ELPA も同じ ) ELPA (zhpev) 9

10 固有値ライブラリ (zhegv) 部分の FAPP 性能分析 (2) Scalapack と ELPA における 固有値ライブラリ (zhegv) の経過時間の測定で 全 rank(mpi プロセス ) の中で 計算 MPI 待ち MPI 通信の最大値 (MAX) と最小値 (MIN) をプロット Scalapack ELPA MAX MIN MAX MIN MPI 待ち MPI 通信 MPI 待ち MPI 通信 全 rank(mpi プロセス ) 中の最大値 (MAX) と最小値 (MIN) の経過時間を調べると Scalapack と ELPA ともに インバランンスがあることがわかった Scalapack と ELPA を比較すると ELPA の方が MPI 待ちと MPI 通信の時間が 大きく減少して インバランスも緩和されていることがわかった 10

11 MPI Profile scalapack 固有値ライブラリ (zhegv) 部分における MPI 通信の経過時間 ( 全 rank の合計の値 ) ELPA Elapsed(s) Wait(s) Byte Call 20, ,859, ,588,288 zhpev ,909 48,459 MPI_Allreduce , ,840 MPI_Bcast ,970 2,238,168 MPI_Recv , ,592 MPI_Send Elapsed(s) Wait(s) Byte Call 10, ,760, ,255,968 zhpev , ,912 mpi_allreduce_ ,329 1,180,186 mpi_bcast_ ,776 mpi_recv_ ,562 4,511 mpi_send_ ,601 MPI_Irecv , ,833 MPI_Isend ,929 MPI_Op_create ,929 MPI_Op_free ,833 MPI_Pack ,833 MPI_Pack_size ,898 3,470 MPI_Reduce ,404 MPI_Rsend ,169,050 MPI_Testall ,489,658 MPI_Type_commit ,489,658 MPI_Type_free MPI_Type_indexed ,489,311 MPI_Type_vector ,938 MPI_Waitall 0 0 2, mpi_sendrecv_ ,077 19,085 mpi_sendrecv_replace_ ,575,380 mpi_comm_rank_ ,575,380 mpi_comm_size_ mpi_comm_split_ mpi_comm_free_ scalapack: 主に MPI_Recv と MPI_Bcast に時間がかかっている ELPA: 主に mpi_allreduce と mpi_bcast に時間がかかっている à 通信方法が違っている 通信サイズ (scalapack:563,859,520 バイト ELPA: 378,760,928 バイト ) も コール回数 (scalapack: 556,588,288 回 ELPA:361,255,968 回 ) も ELPA の方が小さくなっている 通信方法の改善 à インバランスが改善 à MPI 待ち 通信の時間の短縮 11

12 固有値ライブラリ (zhegv) における MPI プロセスの中の計算の時間 通信は ELPA の方が速くなっていることがわかった 次に 計算にかかるコストについて調べてみる Scalapack と ELPA における 固有値ライブラリ (zhegv) の経過時間の測定で 全 rank(mpi プロセス ) の中で 計算時間の最大値 (MAX) と最小値 (MIN) をプロット 計算 MAX MIN 時間 [s] scalapack ELPAの方が 計算には時間がかかている ELPA

13 計算は ELPA の方が時間がかかっている à 演算数も確認 固有値ライブラリ (zhegv) 部分の全演算数 Scalapack と ELPA における 全 rank(mpi プロセス ) の固有値ライブラリ (zhegv) の演算数の総和 2,000, 倍 1,500,000 全演算数 1,000,000 2,021, ,000 1,370,213 0 scalapack ELPA Scalapack より ELPA の方が 計算に対するコストがかかっていることがわかる 13

14 固有値ライブラリ (zhegv) 部分の各 rank ごとの演算数 Scalapack と ELPA における 各 rank(mpi プロセス ) の固有値ライブラリ (zhegv) の演算数 演算数 [Elapsed(s)*MFLOPS] 演算数 [Elapsed(s)*MFLOPS] Scalapack ELPA rank 各 rank ごとにインバランス ( 演算を行っている rank と行ってない rank がある ) à 192 プロセスの実行で 実行時オプション ( nd) を指定しないと 9 x 9 = 81 プロセスしか使用しないプログラム構造になっている rank 14

15 無指定 9 x 9 = 81 プロセスで実行 実行時オプションの指定 ( nd 169) nd 169 を指定 13 x 13 = 169 プロセスで実行 経過時間 [ sec ] 1,500 1, scalapack 1,371 1,252 全実行時間 elpa 1.05 倍高速 1.2 倍高速 1.4 倍 cdiaghg 経過時間 [ sec ] scalapack (-nd 169) elpa (-nd 169) 1,500 1, 倍 1,000 1, 倍 全実行時間 cdiaghg Scalapack も ELPA も実行時オプションの指定 ( nd 169) の指定で同様に全実行時間が 1.05 倍の高速化 à ELPA も Scalapack と同様の指定で高速化が可能である 15

16 まとめ Quantum ESPRESSO (PWscf) v 6.1 における使用ライブラリを変えての 実行時間の比較 (Scalapack, ELPA, lapack の比較 ) ノード数 192 (3 次元形状指定 [4 x 4 x 12]) ハイブリッド並列 (OMP_NUM_THREADS=8) ELPA が最短 à Scalpack より 1.1 倍高速 cdiaghg ルーチンにおける 固有値ライブラリ (zhegv) 部分の違いが大きく寄与していることがわかった zhegv 部分の MPI 待ちと MPI 通信の経過時間が大きく減少している à ELPA は Scalpack よりも通信方法が大きく改善されていることがわかった Scalapack より ELPA の方が計算はコストがかかっている à ELPA は 計算にコストをかけて 通信で得するようになっている Scalapack も ELPA も実行時オプションの指定 ( nd 169) の指定で 同様に全実行時間が 1.05 倍の高速化 à ELPA も Scalapack と同様の指定で高速化が可能である 16

17 付録 17

18 コスト分布調査 :fipp 測定結果 (Scalapack と ELPA の比較 ) 表 : 基本プロファイラによるアプリケーションの手続きコスト分布 (MPIプロセス数 192[TOFU: 4x4x12] の場合 ) Scalapack No. Cost コールグラフ調査による ( 手続きコスト ) 処理フローにおける該当の Barrier MPI 手続き名有 ( )/ 無 ( ー ) ( スレッド同期 (MPIライブラリ init_run electrons forces stress (%) 待ちのコスト ) (%) のコスト ) (%) 77,849, , ,117, Application 1 15,600, , ,699, scatter_mod.fft_scatter_ 2 12,260, , fft_scalar_fftw.cft_2xy._omp_3_ ーー 3 10,790, , fft_scalar_fftw.cft_2xy._omp_4_ ー 4 6,844, ,844, mp_synchronize_ 5 4,029, , stres_us.stres_us_k_ ーーー 6 3,779, , ,388, zhpev_module.pzheevd_drv_ ーー 7 3,172, vloc_psi_k._omp_3_ ーー ELPA No. Cost ELPA では MPI のコストが大幅に減少 コールグラフ調査による ( 手続きコスト ) 処理フローにおける該当の Barrier MPI 手続き名有 ( )/ 無 ( ー ) ( スレッド同期 (MPIライブラリ init_run electrons forces stress (%) 待ちのコスト ) (%) のコスト ) (%) 81,034, , ,681, Application 1 15,674, , ,794, scatter_mod.fft_scatter_ 2 12,283, , fft_scalar_fftw.cft_2xy._omp_3_ ーー 3 10,767, , fft_scalar_fftw.cft_2xy._omp_4_ ー 4 6,164, ,164, mp_synchronize_ 5 4,831, , , elpa1_compute.elpa_transpose_v ーー ectors_complex_double._omp_3_ 6 4,001, , stres_us.stres_us_k_ ーーー 7 3,205, vloc_psi_k._omp_3_ ーー 18

19 旧バージョン 5.4.0(scalapack) との全実行時間の比較 nodes (= MPI processes) : 192 [TOFU: 4x4x12] theareds : 8 コンパイルオプション DFLAGS = -D FFTW -D MPI -D PARA -D SCALAPACK -D OPENMP $(MANUAL_DFLAGS) FFLAGS = -O3 -Nsetvalue -Kopenmp -Kparallel,optmsg=2 -Nlst=t は 同じ 経過時間 [sec] init_run electrons forces stress other 全実行時間 1,371 1, v6.1(scalapack) v5.4.0(scalapack) バージョンが変わっても実行時間は同じ 19

20 PWscf フロー図 ( 旧バージョン v5.4.0) Start iosys mp_global setup read_input init_run 計算のセットアップを行う qmmm check_stop run_pwscf electrons 電子状態を self-consistent に計算する stop_run forces 原子に対する力を計算する Stop stress 系の応力を計算する punch 20

Microsoft PowerPoint - 高速化WS富山.pptx

Microsoft PowerPoint - 高速化WS富山.pptx 京 における 高速化ワークショップ 性能分析 チューニングの手順について 登録施設利用促進機関 一般財団法人高度情報科学技術研究機構富山栄治 一般財団法人高度情報科学技術研究機構 2 性能分析 チューニング手順 どの程度の並列数が実現可能か把握する インバランスの懸念があるか把握する タイムステップループ I/O 処理など注目すべき箇所を把握する 並列数 並列化率などの目標を設定し チューニング時の指針とする

More information

コードのチューニング

コードのチューニング ハイブリッド並列 八木学 ( 理化学研究所計算科学研究機構 ) 謝辞 松本洋介氏 ( 千葉大学 ) KOBE HPC Spring School 2017 2017 年 3 月 14 日神戸大学計算科学教育センター MPI とは Message Passing Interface 分散メモリのプロセス間の通信規格(API) SPMD(Single Program Multi Data) が基本 -

More information

演習準備

演習準備 演習準備 2014 年 3 月 5 日神戸大学大学院システム情報学研究科森下浩二 1 演習準備の内容 神戸大 FX10(π-Computer) 利用準備 システム概要 ログイン方法 コンパイルとジョブ実行方法 MPI 復習 1. MPIプログラムの基本構成 2. 並列実行 3. 1 対 1 通信 集団通信 4. データ 処理分割 5. 計算時間計測 2 神戸大 FX10(π-Computer) 利用準備

More information

Microsoft PowerPoint - 講義:コミュニケータ.pptx

Microsoft PowerPoint - 講義:コミュニケータ.pptx コミュニケータとデータタイプ (Communicator and Datatype) 2019 年 3 月 15 日 神戸大学大学院システム情報学研究科横川三津夫 2019/3/15 Kobe HPC Spring School 2019 1 講義の内容 コミュニケータ (Communicator) データタイプ (Datatype) 演習問題 2019/3/15 Kobe HPC Spring School

More information

Microsoft PowerPoint - KHPCSS pptx

Microsoft PowerPoint - KHPCSS pptx KOBE HPC サマースクール 2018( 初級 ) 9. 1 対 1 通信関数, 集団通信関数 2018/8/8 KOBE HPC サマースクール 2018 1 2018/8/8 KOBE HPC サマースクール 2018 2 MPI プログラム (M-2):1 対 1 通信関数 問題 1 から 100 までの整数の和を 2 並列で求めなさい. プログラムの方針 プロセス0: 1から50までの和を求める.

More information

26

26 26 FIPP FAPP I/O LAMMPS LJ atomic fluid 32,000 atoms for 100 timesteps FX10 4 16 / (FIPP) FIPP fipp - C - d dir/ - Ihwm,call - i10 mpiexec./a.out GUI, fipppx - A - d dir/ - Ihwm,cpu,balance,call,src

More information

MPI コミュニケータ操作

MPI コミュニケータ操作 コミュニケータとデータタイプ 辻田祐一 (RIKEN AICS) 講義 演習内容 MPI における重要な概念 コミュニケータ データタイプ MPI-IO 集団型 I/O MPI-IO の演習 2 コミュニケータ MPI におけるプロセスの 集団 集団的な操作などにおける操作対象となる MPI における集団的な操作とは? 集団型通信 (Collective Communication) 集団型 I/O(Collective

More information

Microsoft Word ●IntelクアッドコアCPUでのベンチマーク_吉岡_ _更新__ doc

Microsoft Word ●IntelクアッドコアCPUでのベンチマーク_吉岡_ _更新__ doc 2.3. アプリ性能 2.3.1. Intel クアッドコア CPU でのベンチマーク 東京海洋大学吉岡諭 1. はじめにこの数年でマルチコア CPU の普及が進んできた x86 系の CPU でも Intel と AD がデュアルコア クアッドコアの CPU を次々と市場に送り出していて それらが PC クラスタの CPU として採用され HPC に活用されている ここでは Intel クアッドコア

More information

C/C++ FORTRAN FORTRAN MPI MPI MPI UNIX Windows (SIMD Single Instruction Multipule Data) SMP(Symmetric Multi Processor) MPI (thread) OpenMP[5]

C/C++ FORTRAN FORTRAN MPI MPI MPI UNIX Windows (SIMD Single Instruction Multipule Data) SMP(Symmetric Multi Processor) MPI (thread) OpenMP[5] MPI ( ) snozawa@env.sci.ibaraki.ac.jp 1 ( ) MPI MPI Message Passing Interface[2] MPI MPICH[3],LAM/MPI[4] (MIMDMultiple Instruction Multipule Data) Message Passing ( ) (MPI (rank) PE(Processing Element)

More information

演習準備 2014 年 3 月 5 日神戸大学大学院システム情報学研究科森下浩二 1 RIKEN AICS HPC Spring School /3/5

演習準備 2014 年 3 月 5 日神戸大学大学院システム情報学研究科森下浩二 1 RIKEN AICS HPC Spring School /3/5 演習準備 2014 年 3 月 5 日神戸大学大学院システム情報学研究科森下浩二 1 演習準備の内容 神戸大 FX10(π-Computer) 利用準備 システム概要 ログイン方法 コンパイルとジョブ実行方法 MPI 復習 1. MPIプログラムの基本構成 2. 並列実行 3. 1 対 1 通信 集団通信 4. データ 処理分割 5. 計算時間計測 2 神戸大 FX10(π-Computer) 利用準備

More information

Microsoft PowerPoint - 演習1:並列化と評価.pptx

Microsoft PowerPoint - 演習1:並列化と評価.pptx 講義 2& 演習 1 プログラム並列化と性能評価 神戸大学大学院システム情報学研究科横川三津夫 yokokawa@port.kobe-u.ac.jp 2014/3/5 RIKEN AICS HPC Spring School 2014: プログラム並列化と性能評価 1 2014/3/5 RIKEN AICS HPC Spring School 2014: プログラム並列化と性能評価 2 2 次元温度分布の計算

More information

2007年度 計算機システム演習 第3回

2007年度 計算機システム演習 第3回 2014 年度 実践的並列コンピューティング 第 10 回 MPI による分散メモリ並列プログラミング (3) 遠藤敏夫 endo@is.titech.ac.jp 1 MPI プログラムの性能を考える 前回までは MPI プログラムの挙動の正しさを議論 今回は速度性能に注目 MPIプログラムの実行時間 = プロセス内計算時間 + プロセス間通信時間 計算量 ( プロセス内 ) ボトルネック有無メモリアクセス量

More information

2012 6 1 MPI 1995 8 2002 2003 ( 2) MPI http://accc.riken.jp/hpc/training.html iii 1 1 1-1.......................................... 2 1-2........................................... 4 2 9 2-1...............................................

More information

05-opt-system.ppt

05-opt-system.ppt 筑波大学計算科学研究センター HPC サマーセミナー 最適化 II ( 通信最適化 ) 建部修見 tatebe@cs.tsukuba.ac.jp 筑波大学大学院システム情報系計算科学研究センター 講義内容 基本通信性能 1 対 1 通信 集団通信 プロファイラ 通信最適化 通信の削減 通信遅延隠蔽 通信ブロック 負荷分散 基本通信性能 通信最適化のためには基本通信性能を押さえておくことが重要! 各種通信パターンにおける通信性能の把握

More information

Microsoft PowerPoint MPI.v...O...~...O.e.L.X.g(...Q..)

Microsoft PowerPoint MPI.v...O...~...O.e.L.X.g(...Q..) MPI プログラミング Information Initiative Center, Hokkaido Univ. MPI ライブラリを利用した分散メモリ型並列プログラミング 分散メモリ型並列処理 : 基礎 分散メモリマルチコンピュータの構成 プロセッサエレメントが専用のメモリ ( ローカルメモリ ) を搭載 スケーラビリティが高い 例 :HITACHI SR8000 Interconnection

More information

NUMAの構成

NUMAの構成 メッセージパッシング プログラミング 天野 共有メモリ対メッセージパッシング 共有メモリモデル 共有変数を用いた単純な記述自動並列化コンパイラ簡単なディレクティブによる並列化 :OpenMP メッセージパッシング 形式検証が可能 ( ブロッキング ) 副作用がない ( 共有変数は副作用そのもの ) コストが小さい メッセージパッシングモデル 共有変数は使わない 共有メモリがないマシンでも実装可能 クラスタ

More information

Microsoft PowerPoint _MPI-03.pptx

Microsoft PowerPoint _MPI-03.pptx 計算科学演習 Ⅰ ( 第 11 回 ) MPI を いた並列計算 (III) 神戸大学大学院システム情報学研究科横川三津夫 yokokawa@port.kobe-u.ac.jp 2014/07/03 計算科学演習 Ⅰ:MPI を用いた並列計算 (III) 1 2014/07/03 計算科学演習 Ⅰ:MPI を用いた並列計算 (III) 2 今週の講義の概要 1. 前回課題の解説 2. 部分配列とローカルインデックス

More information

Microsoft Word - HOKUSAI_system_overview_ja.docx

Microsoft Word - HOKUSAI_system_overview_ja.docx HOKUSAI システムの概要 1.1 システム構成 HOKUSAI システムは 超並列演算システム (GWMPC BWMPC) アプリケーション演算サーバ群 ( 大容量メモリ演算サーバ GPU 演算サーバ ) と システムの利用入口となるフロントエンドサーバ 用途の異なる 2 つのストレージ ( オンライン ストレージ 階層型ストレージ ) から構成されるシステムです 図 0-1 システム構成図

More information

1. TSUBAME2.0 通常実行まで 1.1. 環境設定 (MPI ライブラリ & コンパイラ ) 最新の Open MPI と Intel コンパイラを使用するため,${HOME}/.bashrc 等で環境変数 ( パス等 ) を設定します. ~ 設定例 ~ export SELECT_MPI

1. TSUBAME2.0 通常実行まで 1.1. 環境設定 (MPI ライブラリ & コンパイラ ) 最新の Open MPI と Intel コンパイラを使用するため,${HOME}/.bashrc 等で環境変数 ( パス等 ) を設定します. ~ 設定例 ~ export SELECT_MPI プロファイルツール実行例アプリ ntchem-rimp2 2013 年 9 月 3 日日本電気株式会社 0. はじめに 本ドキュメントでは, アプリ ntchem-rimp2 におけるプロファイルツール連携の作業履歴を記 載します. 目次 1. TSUBAME2.0 通常実行まで... 2 1.1. 環境設定 (MPI ライブラリ & コンパイラ )... 2 1.2. コンパイルとソース修正...

More information

2 T 1 N n T n α = T 1 nt n (1) α = 1 100% OpenMP MPI OpenMP OpenMP MPI (Message Passing Interface) MPI MPICH OpenMPI 1 OpenMP MPI MPI (trivial p

2 T 1 N n T n α = T 1 nt n (1) α = 1 100% OpenMP MPI OpenMP OpenMP MPI (Message Passing Interface) MPI MPICH OpenMPI 1 OpenMP MPI MPI (trivial p 22 6 22 MPI MPI 1 1 2 2 3 MPI 3 4 7 4.1.................................. 7 4.2 ( )................................ 10 4.3 (Allreduce )................................. 12 5 14 5.1........................................

More information

スライド 1

スライド 1 目次 2.MPI プログラミング入門 この資料は, スーパーコン 10 で使用したものである. ごく基本的な内容なので, 現在でも十分利用できると思われるものなので, ここに紹介させて頂く. ただし, 古い情報も含まれているので注意が必要である. 今年度版の解説は, 本選の初日に配布する予定である. 1/20 2.MPI プログラミング入門 (1) 基本 説明 MPI (message passing

More information

演習1: 演習準備

演習1: 演習準備 演習 1: 演習準備 2013 年 8 月 6 日神戸大学大学院システム情報学研究科森下浩二 1 演習 1 の内容 神戸大 X10(π-omputer) について システム概要 ログイン方法 コンパイルとジョブ実行方法 OpenMP の演習 ( 入門編 ) 1. parallel 構文 実行時ライブラリ関数 2. ループ構文 3. shared 節 private 節 4. reduction 節

More information

コードのチューニング

コードのチューニング MPI による並列化実装 ~ ハイブリッド並列 ~ 八木学 ( 理化学研究所計算科学研究センター ) KOBE HPC Spring School 2019 2019 年 3 月 14 日 MPI とは Message Passing Interface 分散メモリのプロセス間の通信規格(API) SPMD(Single Program Multi Data) が基本 - 各プロセスが 同じことをやる

More information

名称 : 日本 GPU コンピューティングパートナーシップ (G-DEP) 所在 : 東京都文京区本郷 7 丁目 3 番 1 号東京大学アントレプレナープラザ, 他工場 URL アライアンスパートナー コアテクノロジーパートナー NVIDIA JAPAN ソリュ

名称 : 日本 GPU コンピューティングパートナーシップ (G-DEP) 所在 : 東京都文京区本郷 7 丁目 3 番 1 号東京大学アントレプレナープラザ, 他工場 URL   アライアンスパートナー コアテクノロジーパートナー NVIDIA JAPAN ソリュ GPUDirect の現状整理 multi-gpu に取組むために G-DEP チーフエンジニア河井博紀 (kawai@gdep.jp) 名称 : 日本 GPU コンピューティングパートナーシップ (G-DEP) 所在 : 東京都文京区本郷 7 丁目 3 番 1 号東京大学アントレプレナープラザ, 他工場 URL http://www.gdep.jp アライアンスパートナー コアテクノロジーパートナー

More information

I I / 47

I I / 47 1 2013.07.18 1 I 2013 3 I 2013.07.18 1 / 47 A Flat MPI B 1 2 C: 2 I 2013.07.18 2 / 47 I 2013.07.18 3 / 47 #PJM -L "rscgrp=small" π-computer small: 12 large: 84 school: 24 84 16 = 1344 small school small

More information

並列・高速化を実現するための 高速化サービスの概要と事例紹介

並列・高速化を実現するための 高速化サービスの概要と事例紹介 第 4 回 AVS 可視化フォーラム 2019 並列 高速化を実現するための 高速化サービスの概要と事例紹介 株式会社アーク情報システム営業部仮野亮ソリューション技術部佐々木竜一 2019.08.30 はじめに アーク情報システムの紹介 高速化サービスとは? 事例紹介 コンサルティングサービスについて アーク情報システムの紹介 設立 資本金 :1987 年 10 月 :3 億 600 万円 従業員数

More information

main() {... } main() { main() { main() {......... } } } main() { main() { main() {......... } } } main() { if(rank==)... } main() { if(rank==)... } main() { if(rank==x)... } P(N) P(N) / P(M) * ( M / N

More information

86

86 86 86 86 main() {... } main() { main() { main() {......... } } } 86 main() { main() { main() {......... } } } main() { if(rank==)... } main() { if(rank==)... } main() { if(rank==x)... } 86 P(N) P(N) /

More information

MPI () MPIMessage Passing Interface MPI MPI OpenMP 7 ( ) 1

MPI () MPIMessage Passing Interface MPI MPI OpenMP 7 ( ) 1 7 MPI / 7 (2014 05 21 ) MPI () MPIMessage Passing Interface MPI MPI OpenMP 7 (2014 05 21 ) 1 (MPI) 7 (2014 05 21 ) 2 (OpenMP) 7 (2014 05 21 ) 3 (MPI + OpenMP) 7 (2014 05 21 ) 4 MPI (1) MPI1 OpenMP 1 pragma

More information

Microsoft PowerPoint - 演習2:MPI初歩.pptx

Microsoft PowerPoint - 演習2:MPI初歩.pptx 演習 2:MPI 初歩 - 並列に計算する - 2013 年 8 月 6 日 神戸大学大学院システム情報学研究科計算科学専攻横川三津夫 MPI( メッセージ パッシング インターフェース ) を使おう! [ 演習 2 の内容 ] はじめの一歩課題 1: Hello, world を並列に出力する. 課題 2: プロセス 0 からのメッセージを受け取る (1 対 1 通信 ). 部分に分けて計算しよう課題

More information

PowerPoint Presentation

PowerPoint Presentation 2015 年 4 月 24 日 ( 金 ) 第 18 回 FrontISTR 研究会 FrontISTR の並列計算の基礎 奥田洋司 okuda@k.u-tokyo.ac.jp 東京大学大学院 新領域創成科学研究科 人間環境学専攻 目次 導入 計算力学とは 連続体の力学 連立 1 次方程式 FEM 構造解析の概要 なぜ並列化か? 並列アーキテクチャ 並列プログラミング FEM 計算におけるノード間並列

More information

HPC143

HPC143 研究背景 GPUクラスタ 高性能 高いエネルギー効率 低価格 様々なHPCアプリケーションで用いられている TCA (Tightly Coupled Accelerators) 密結合並列演算加速機構 筑波大学HA-PACSクラスタ アクセラレータ GPU 間の直接通信 低レイテンシ 今後のHPCアプリは強スケーリングも重要 TCAとアクセラレータを搭載したシステムに おけるプログラミングモデル 例

More information

120802_MPI.ppt

120802_MPI.ppt CPU CPU CPU CPU CPU SMP Symmetric MultiProcessing CPU CPU CPU CPU CPU CPU CPU CPU CPU CPU CPU CPU CP OpenMP MPI MPI CPU CPU CPU CPU CPU CPU CPU CPU CPU CPU MPI MPI+OpenMP CPU CPU CPU CPU CPU CPU CPU CP

More information

3次多項式パラメタ推定計算の CUDAを用いた実装 (CUDAプログラミングの練習として) Implementation of the Estimation of the parameters of 3rd-order-Polynomial with CUDA

3次多項式パラメタ推定計算の CUDAを用いた実装 (CUDAプログラミングの練習として)  Implementation of the Estimation of the parameters of 3rd-order-Polynomial with CUDA 3 次多項式パラメタ推定計算の CUDA を用いた実装 (CUDA プログラミングの練習として ) Estimating the Parameters of 3rd-order-Polynomial with CUDA ISS 09/11/12 問題の選択 目的 CUDA プログラミングを経験 ( 試行錯誤と習得 ) 実際に CPU のみの場合と比べて高速化されることを体験 問題 ( インプリメントする内容

More information

<4D F736F F D20332E322E332E819C97AC91CC89F090CD82A982E78CA982E9466F E393082CC8D5C91A291CC90AB945C955D89BF5F8D8296D85F F8D F5F E646F63>

<4D F736F F D20332E322E332E819C97AC91CC89F090CD82A982E78CA982E9466F E393082CC8D5C91A291CC90AB945C955D89BF5F8D8296D85F F8D F5F E646F63> 3.2.3. 流体解析から見る Fortran90 の構造体性能評価 宇宙航空研究開発機構 高木亮治 1. はじめに Fortran90 では 構造体 動的配列 ポインターなど様々な便利な機能が追加され ユーザーがプログラムを作成する際に選択の幅が広がりより便利になった 一方で 実際のアプリケーションプログラムを開発する際には 解析対象となる物理現象を記述する数学モデルやそれらを解析するための計算手法が内包する階層構造を反映したプログラムを作成できるかどうかは一つの重要な観点であると考えられる

More information

Microsoft PowerPoint - OpenMP入門.pptx

Microsoft PowerPoint - OpenMP入門.pptx OpenMP 入門 須田礼仁 2009/10/30 初版 OpenMP 共有メモリ並列処理の標準化 API http://openmp.org/ 最新版は 30 3.0 バージョンによる違いはあまり大きくない サポートしているバージョンはともかく csp で動きます gcc も対応しています やっぱり SPMD Single Program Multiple Data プログラム #pragma omp

More information

(速報) Xeon E 系モデル 新プロセッサ性能について

(速報) Xeon E 系モデル 新プロセッサ性能について ( 速報 ) Xeon E5-2600 系モデル新プロセッサ性能について 2012 年 3 月 16 日 富士通株式会社 2012 年 3 月 7 日 インテル社より最新 CPU インテル Xeon E5 ファミリー の発表がありました この最新 CPU について PC クラスタシステムの観点から性能検証を行いましたので 概要を速報いたします プロセッサインテル Xeon プロセッサ E5-2690

More information

組込み Linux の起動高速化 株式会社富士通コンピュータテクノロジーズ 亀山英司 1218ka01 Copyright 2013 FUJITSU COMPUTER TECHNOLOGIES LIMITED

組込み Linux の起動高速化 株式会社富士通コンピュータテクノロジーズ 亀山英司 1218ka01 Copyright 2013 FUJITSU COMPUTER TECHNOLOGIES LIMITED 組込み Linux の起動高速化 株式会社富士通コンピュータテクノロジーズ 亀山英司 1218ka01 組込み Linux における起動高速化 組込み Linux の起動時間短縮について依頼あり スペック CPU : Cortex-A9 ( 800MB - single) RAM: 500MB 程度 要件 起動時間 画出し 5 秒 音出し 3 秒 終了時間 数 ms で電源断 1 課題と対策 問題点

More information

講義の流れ 並列プログラムの概要 通常のプログラムと並列プログラムの違い 並列プログラム作成手段と並列計算機の構造 OpenMP による並列プログラム作成 処理を複数コアに分割して並列実行する方法 MPI による並列プログラム作成 ( 午後 ) プロセス間通信による並列処理 処理の分割 + データの

講義の流れ 並列プログラムの概要 通常のプログラムと並列プログラムの違い 並列プログラム作成手段と並列計算機の構造 OpenMP による並列プログラム作成 処理を複数コアに分割して並列実行する方法 MPI による並列プログラム作成 ( 午後 ) プロセス間通信による並列処理 処理の分割 + データの ( 財 ) 計算科学振興財団 大学院 GP 大学連合による計算科学の最先端人材育成 第 1 回社会人向けスパコン実践セミナー資料 29 年 2 月 17 日 13:15~14:45 九州大学情報基盤研究開発センター 南里豪志 1 講義の流れ 並列プログラムの概要 通常のプログラムと並列プログラムの違い 並列プログラム作成手段と並列計算機の構造 OpenMP による並列プログラム作成 処理を複数コアに分割して並列実行する方法

More information

Microsoft PowerPoint _MPI-01.pptx

Microsoft PowerPoint _MPI-01.pptx 計算科学演習 Ⅰ MPI を いた並列計算 (I) 神戸大学大学院システム情報学研究科谷口隆晴 yaguchi@pearl.kobe-u.ac.jp この資料は昨年度担当の横川先生の資料を参考にさせて頂いています. 2016/06/23 MPI を用いた並列計算 (I) 1 講義概要 分散メモリ型計算機上のプログラミング メッセージ パシング インターフェイス (Message Passing Interface,MPI)

More information

Microsoft PowerPoint - 第10回講義(2015年12月22日)-1 .pptx

Microsoft PowerPoint - 第10回講義(2015年12月22日)-1 .pptx 非同期通信 東京大学情報基盤センター准教授片桐孝洋 1 2015 年 12 月 22 日 ( 火 )10:25-12:10 講義日程 ( 工学部共通科目 ) 10 月 6 日 : ガイダンス 1. 10 月 13 日 並列数値処理の基本演算 ( 座学 ) 2. 10 月 20 日 : スパコン利用開始 ログイン作業 テストプログラム実行 3. 10 月 27 日 高性能演算技法 1 ( ループアンローリング

More information

GeoFEM開発の経験から

GeoFEM開発の経験から FrontISTR における並列計算のしくみ < 領域分割に基づく並列 FEM> メッシュ分割 領域分割 領域分割 ( パーティショニングツール ) 全体制御 解析制御 メッシュ hecmw_ctrl.dat 境界条件 材料物性 計算制御パラメータ 可視化パラメータ 領域分割ツール 逐次計算 並列計算 Front ISTR FEM の主な演算 FrontISTR における並列計算のしくみ < 領域分割に基づく並列

More information

Microsoft Word - appli_SMASH_tutorial_2.docx

Microsoft Word - appli_SMASH_tutorial_2.docx チュートリアル SMASH version 2.2.0 (Linux 64 ビット版 ) 本チュートリアルでは 量子化学計算ソフトウェア SMASH バージョン 2.2.0 について ソフトウェアの入手 / 実行モジュール作成 / 計算実行 / 可視化処理までを例示します 1. ソフトウェアの入手以下の URL よりダウンロードします https://sourceforge.net/projects/smash-qc/files/smash-2.2.0.tgz/download

More information

情報処理概論(第二日目)

情報処理概論(第二日目) 1 並列プログラミング超入門講習会 九州大学情報基盤研究開発センター MPI コース 2 並列計算機の構成 計算ノード ネットワーク CPU コア メモリ アクセラレータ (GPU 等 ) 例 : スーパーコンピュータシステム ITO サブシステム B ノード数 CPU 数 / ノードコア数 / CPU GPU 数 / ノード 128 2 18 4 MPI (Message Passing Interface)

More information

Microsoft PowerPoint - sales2.ppt

Microsoft PowerPoint - sales2.ppt 並列化の基礎 ( 言葉の意味 ) 並列実行には 複数のタスク実行主体が必要 共有メモリ型システム (SMP) での並列 プロセスを使用した並列化 スレッドとは? スレッドを使用した並列化 分散メモリ型システムでの並列 メッセージパッシングによる並列化 並列アーキテクチャ関連の言葉を押さえよう 21 プロセスを使用した並列処理 並列処理を行うためには複数のプロセスの生成必要プロセスとは プログラム実行のための能動実態メモリ空間親プロセス子プロセス

More information

301-A2.pdf

301-A2.pdf 301 21 1 (1),, (3), (4) 2 (1),, (3), (4), (5), (6), 3,?,?,??,?? 4 (1)!?, , 6 5 2 5 6 1205 22 1 (1) 60 (3) (4) (5) 2 (1) (3) (4) 3 (1) (3) (4) (5) (6) 4 (1) 5 (1) 6 331 331 7 A B A B A B A 23 1 2 (1) (3)

More information

r

r 73 29 2008 200 4 416 2008 20 042 0932 10 1977 200 1 2 3 4 5 7 8 9 11 12 14 15 16 17 18 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 200r 11 1 1 1 1 700200 200

More information

No. 1261 2003. 4. 9 14 14 14 14 15 30 21 19 150 35 464 37 38 40 20 970 90 80 90 181130 a 151731 48 11 151731 42 44 47 63 12 a 151731 47 10 11 16 2001 11000 11 2002 10 151731 46 5810 2795195261998 151731

More information

JAMSTECR, October MPI Message Passing Interface JAMSTEC NEC SX- IBM RS /SP PC MPI MPI_SENDRECV SX- SP PCC MPI MPI, Performance of MPI on parallel comp

JAMSTECR, October MPI Message Passing Interface JAMSTEC NEC SX- IBM RS /SP PC MPI MPI_SENDRECV SX- SP PCC MPI MPI, Performance of MPI on parallel comp JAMSTECR, October MPI Message Passing Interface JAMSTECNEC SX- IBM RS/SPPC MPI MPI_SENDRECVSX- SP PCC MPI MPI, Performance of MPI on parallel computers in JAMSTEC Hideaki SAITO Kazushi FURUTA Jun NAOI

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション AICS 公開ソフトウェア講習会 15 回 表題通信ライブラリと I/O ライブラリ 場所 AICS R104-2 時間 2016/03/23 ( 水 ) 13:30-17:00 13:30-13:40 全体説明 13:40-14:10 PRDMA 14:10-14:40 MPICH 14:40-15:10 PVAS 15:10-15:30 休憩 15:30-16:00 Carp 16:00-16:30

More information

NUMAの構成

NUMAの構成 共有メモリを使ったデータ交換と同期 慶應義塾大学理工学部 天野英晴 hunga@am.ics.keio.ac.jp 同期の必要性 あるプロセッサが共有メモリに書いても 別のプロセッサにはそのことが分からない 同時に同じ共有変数に書き込みすると 結果がどうなるか分からない そもそも共有メモリって結構危険な代物 多くのプロセッサが並列に動くには何かの制御機構が要る 不可分命令 同期用メモリ バリア同期機構

More information

コードのチューニング

コードのチューニング OpenMP による並列化実装 八木学 ( 理化学研究所計算科学研究センター ) KOBE HPC Spring School 2019 2019 年 3 月 14 日 スレッド並列とプロセス並列 スレッド並列 OpenMP 自動並列化 プロセス並列 MPI プロセス プロセス プロセス スレッドスレッドスレッドスレッド メモリ メモリ プロセス間通信 Private Private Private

More information

untitled

untitled RIKEN AICS Summer School 3 4 MPI 2012 8 8 1 6 MPI MPI 2 allocatable 2 Fox mpi_sendrecv 3 3 FFT mpi_alltoall MPI_PROC_NULL 4 FX10 /home/guest/guest07/school/ 5 1 A (i, j) i+j x i i y = Ax A x y y 1 y i

More information

CCS HPCサマーセミナー 並列数値計算アルゴリズム

CCS HPCサマーセミナー 並列数値計算アルゴリズム 大規模系での高速フーリエ変換 2 高橋大介 daisuke@cs.tsukuba.ac.jp 筑波大学計算科学研究センター 2016/6/2 計算科学技術特論 B 1 講義内容 並列三次元 FFT における自動チューニング 二次元分割を用いた並列三次元 FFT アルゴリズム GPU クラスタにおける並列三次元 FFT 2016/6/2 計算科学技術特論 B 2 並列三次元 FFT における 自動チューニング

More information

appli_HPhi_install

appli_HPhi_install 2018/3/7 HΦ version 3.0.0 インストール手順書 (Linux 64 ビット版 ) 目次 1. アプリケーション概要...- 1-2. システム環境...- 1-3. 必要なツール ライブラリのインストール...- 1-1 cmake...- 2-2 numpy...- 3-4. アプリケーションのインストール...- 4-5. 動作確認の実施...- 5 - 本手順書は HΦ

More information

情報処理概論(第二日目)

情報処理概論(第二日目) センター入門講習会 ~ 高性能演算サーバ PRIMERGY CX400(tatara)~ 2016 年 6 月 6 日 この資料は以下の Web ページからダウンロードできます. https://www.cc.kyushu-u.ac.jp/scp/users/lecture/ 1 並列プログラミング入門講習会のご案内 スーパーコンピュータの性能を引き出すには 並列化が不可欠! 並列プログラミング入門講習会を

More information

Total View Debugger 利用の手引 東京工業大学学術国際情報センター version 1.0

Total View Debugger 利用の手引 東京工業大学学術国際情報センター version 1.0 Total View Debugger 利用の手引 東京工業大学学術国際情報センター 2015.04 version 1.0 目次 Total View Debugger 利用の手引き 1 1. はじめに 1 1.1 利用できるバージョン 1 1.2 概要 1 1.3 マニュアル 1 2. TSUBAME での利用方法 2 2.1 Total View Debugger の起動 2 (1) TSUBAMEにログイン

More information

VXPRO R1400® ご提案資料

VXPRO R1400® ご提案資料 Intel Core i7 プロセッサ 920 Preliminary Performance Report ノード性能評価 ノード性能の評価 NAS Parallel Benchmark Class B OpenMP 版での性能評価 実行スレッド数を 4 で固定 ( デュアルソケットでは各プロセッサに 2 スレッド ) 全て 2.66GHz のコアとなるため コアあたりのピーク性能は同じ 評価システム

More information

Microsoft PowerPoint - S1-ref-F.ppt [互換モード]

Microsoft PowerPoint - S1-ref-F.ppt [互換モード] 課題 S1 解説 Fortran 言語編 RIKEN AICS HPC Summer School 2014 中島研吾 ( 東大 情報基盤センター ) 横川三津夫 ( 神戸大 計算科学教育センター ) MPI Programming 課題 S1 (1/2) /a1.0~a1.3, /a2.0~a2.3 から局所ベクトル情報を読み込み, 全体ベクトルのノルム ( x ) を求めるプログラムを作成する

More information

ポスト「京」でのコデザイン 活動報告

ポスト「京」でのコデザイン 活動報告 重点課題 9 でのポスト 京 に対す るコデザイン活動報告 広島大学理学研究科 石川健一 1 目次 1. コデザイン活動 2. ポスト京関連公開情報 3. 重点課題 9 に関するコデザイン活動 2 1. コデザイン活動 RIKEN,R-CCS と FUJITSU によるポスト京計算機開発 コデザイン活動 重点課題からのターゲットアプリケーションの開発とシステムやソフトウェア開発を連携して開発 9 個のターゲットアプリケーション

More information

PowerPoint Presentation

PowerPoint Presentation FrontISTR の並列計算の基礎 奥田洋司 okuda@k.u-tokyo.ac.jp 東京大学大学院 新領域創成科学研究科 人間環境学専攻 並列有限要素法プログラム FrontISTR ( フロントアイスター ) 並列計算では, メッシュ領域分割によって分散メモリ環境に対応し, 通信ライブラリには MPI を使用 (MPI 並列 ) さらに,CPU 内は OpenMP 並列 ( スレッド並列

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション 計算科学演習 I 第 8 回講義 MPI を用いた並列計算 (I) 2013 年 6 月 6 日 システム情報学研究科計算科学専攻 山本有作 今回の講義の概要 1. MPI とは 2. 簡単な MPI プログラムの例 (1) 3. 簡単な MPI プログラムの例 (2):1 対 1 通信 4. 簡単な MPI プログラムの例 (3): 集団通信 共有メモリ型並列計算機 ( 復習 ) 共有メモリ型並列計算機

More information

並列計算導入.pptx

並列計算導入.pptx 並列計算の基礎 MPI を用いた並列計算 並列計算の環境 並列計算 複数の計算ユニット(PU, ore, Pなど を使用して 一つの問題 計算 を行わせる 近年 並列計算を手軽に使用できる環境が急速に整いつつある >通常のP PU(entral Processing Unit)上に計算装置であるoreが 複数含まれている Intel ore i7 シリーズ: 4つの計算装置(ore) 通常のプログラム

More information

スライド 1

スライド 1 劣化診断技術 ビスキャスの開発した水トリー劣化診断技術について紹介します 劣化診断技術の必要性 電力ケーブルは 電力輸送という社会インフラの一端を担っており 絶縁破壊事故による電力輸送の停止は大きな影響を及ぼします 電力ケーブルが使用される環境は様々ですが 長期間 使用環境下において性能を満足する必要があります 電力ケーブルに用いられる絶縁体 (XLPE) は 使用環境にも異なりますが 経年により劣化し

More information

<4D F736F F F696E74202D A957A A8EC0895E8D7182C982A882AF82E EF89FC915082CC82BD82DF82CC A83808DC5934B89BB A2E >

<4D F736F F F696E74202D A957A A8EC0895E8D7182C982A882AF82E EF89FC915082CC82BD82DF82CC A83808DC5934B89BB A2E > Techno Forum 2012 実運航における燃費改善のためのトリム最適化 株式会社 MTI 技術戦略グループ上級研究員堀正寿 1 目次 1. はじめに 2. 最適トリムの評価手法 2-1. オペレーションプロファイル調査 2-2. 水槽試験とトリム影響解析 2-3. 実船検証 3. トリムチャートと運用 4. まとめ 2 1-1 トリムの定義 1. はじめに 船尾喫水 (da) と船首喫水 (df)

More information

Microsoft Word - qpeigen_manual_jp-1.0.doc

Microsoft Word - qpeigen_manual_jp-1.0.doc 4 倍精度固有値計算ライブラリ QPEigen Ver.1.0 ユーザーズマニュアル 2015 年 2 月独立行政法人日本原子力研究開発機構 目次 1 概説... 3 2 行列対角化について... 2 3 4 倍精度化アルゴリズムについて... 2 4 参考文献... 3 5 ディレクトリ構成... 3 6 必要なソフトウェア... 3 7 インストール方法... 4 8 検証用 性能評価用プログラム...

More information

Microsoft PowerPoint - scls_biogrid_lecture_v2.pptx

Microsoft PowerPoint - scls_biogrid_lecture_v2.pptx スパコン コース並列プログラミング編 善之 E-mail:yoshiyuki.kido@riken.jp 理化学研究所 HPCI 計算 命科学推進プログラム企画調整グループ企画調整チームチーム員 次 1. Message Passing Interface (MPI) 2. Open MP 3. ハイブリッド並列 4. 列計算の並列化 計算機ってなんだ? 計算機 計算に いる機械 ( デジタル 辞泉

More information

memcached 方式 (No Replication) 認証情報は ログインした tomcat と設定された各 memcached サーバーに認証情報を分割し振り分けて保管する memcached の方系がダウンした場合は ログインしたことのあるサーバーへのアクセスでは tomcat に認証情報

memcached 方式 (No Replication) 認証情報は ログインした tomcat と設定された各 memcached サーバーに認証情報を分割し振り分けて保管する memcached の方系がダウンした場合は ログインしたことのあるサーバーへのアクセスでは tomcat に認証情報 IdPClusteringPerformance Shibboleth-IdP 冗長化パフォーマンス比較試験報告書 2012 年 1 月 17 日国立情報学研究所 Stateless Clustering 方式は SAML2 を想定しているため CryptoTransientID は不使用 使用するとパフォーマンスが悪くなる可能性あり Terracotta による冗長化について EventingMapBasedStorageService

More information

Microsoft Word ●MPI性能検証_志田_ _更新__ doc

Microsoft Word ●MPI性能検証_志田_ _更新__ doc 2.2.2. MPI 性能検証 富士通株式会社 志田直之 ここでは,Open MPI および富士通 MPI を用いて,MPI 性能の評価結果について報告する 1. 性能評価のポイント MPI の性能評価は, 大きく 3 つに分けて評価を行った プロセス数増加に向けた検証 ノード内通信とノード間通信の検証 性能検証 - 連続データ転送 - ストライド転送 2. プロセス数増加に向けた検証 評価に用いたシステムを以下に示す

More information

ビッグデータ分析を高速化する 分散処理技術を開発 日本電気株式会社

ビッグデータ分析を高速化する 分散処理技術を開発 日本電気株式会社 ビッグデータ分析を高速化する 分散処理技術を開発 日本電気株式会社 概要 NEC は ビッグデータの分析を高速化する分散処理技術を開発しました 本技術により レコメンド 価格予測 需要予測などに必要な機械学習処理を従来の 10 倍以上高速に行い 分析結果の迅速な活用に貢献します ビッグデータの分散処理で一般的なオープンソース Hadoop を利用 これにより レコメンド 価格予測 需要予測などの分析において

More information

1.overview

1.overview 村井均 ( 理研 ) 2 はじめに 規模シミュレーションなどの計算を うためには クラスタのような分散メモリシステムの利 が 般的 並列プログラミングの現状 半は MPI (Message Passing Interface) を利 MPI はプログラミングコストが きい 標 性能と 産性を兼ね備えた並列プログラミング 語の開発 3 並列プログラミング 語 XcalableMP 次世代並列プログラミング

More information

untitled

untitled OS 2007/4/27 1 Uni-processor system revisited Memory disk controller frame buffer network interface various devices bus 2 1 Uni-processor system today Intel i850 chipset block diagram Source: intel web

More information

RX501NC_LTE Mobile Router取説.indb

RX501NC_LTE Mobile Router取説.indb 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 1 2 3 4 5 6 7 8 19 20 21 22 1 1 23 1 24 25 1 1 26 A 1 B C 27 D 1 E F 28 1 29 1 A A 30 31 2 A B C D E F 32 G 2 H A B C D 33 E 2 F 34 A B C D 2 E 35 2 A B C D 36

More information

CLEFIA_ISEC発表

CLEFIA_ISEC発表 128 ビットブロック暗号 CLEFIA 白井太三 渋谷香士 秋下徹 盛合志帆 岩田哲 ソニー株式会社 名古屋大学 目次 背景 アルゴリズム仕様 設計方針 安全性評価 実装性能評価 まとめ 2 背景 AES プロジェクト開始 (1997~) から 10 年 AES プロジェクト 攻撃法の進化 代数攻撃 関連鍵攻撃 新しい攻撃法への対策 暗号設計法の進化 IC カード, RFID などのアプリケーション拡大

More information

040312研究会HPC2500.ppt

040312研究会HPC2500.ppt 2004312 e-mail : m-aoki@jp.fujitsu.com 1 2 PRIMEPOWER VX/VPP300 VPP700 GP7000 AP3000 VPP5000 PRIMEPOWER 2000 PRIMEPOWER HPC2500 1998 1999 2000 2001 2002 2003 3 VPP5000 PRIMEPOWER ( 1 VU 9.6 GF 16GB 1 VU

More information

研究背景 大規模な演算を行うためには 分散メモリ型システムの利用が必須 Message Passing Interface MPI 並列プログラムの大半はMPIを利用 様々な実装 OpenMPI, MPICH, MVAPICH, MPI.NET プログラミングコストが高いため 生産性が悪い 新しい並

研究背景 大規模な演算を行うためには 分散メモリ型システムの利用が必須 Message Passing Interface MPI 並列プログラムの大半はMPIを利用 様々な実装 OpenMPI, MPICH, MVAPICH, MPI.NET プログラミングコストが高いため 生産性が悪い 新しい並 XcalableMPによる NAS Parallel Benchmarksの実装と評価 中尾 昌広 李 珍泌 朴 泰祐 佐藤 三久 筑波大学 計算科学研究センター 筑波大学大学院 システム情報工学研究科 研究背景 大規模な演算を行うためには 分散メモリ型システムの利用が必須 Message Passing Interface MPI 並列プログラムの大半はMPIを利用 様々な実装 OpenMPI,

More information

スライド 1

スライド 1 Zabbix で PostgreSQL の監視を行おう ~pg_monz のご紹介 ~ SRA OSS,Inc. 日本支社盛宣陽 Copyright 2014 SRA OSS,Inc.Japan All rights reserved. 1 PostgreSQL の課題 DB としての基本機能 性能は商用 DB と比べても引けをとらない 運用面には課題あり どのようにして運用するのか? 効果的な監視方法は?

More information

The Parallel Universe 1 インテル MPI ライブラリーのマルチ EP によりハイブリッド アプリケーションのパフォーマンスを向上 最小限のコード変更でエクサスケール時代に備える Rama Kishan Malladi インテルコーポレーショングラフィックス パフォーマンス モ

The Parallel Universe 1 インテル MPI ライブラリーのマルチ EP によりハイブリッド アプリケーションのパフォーマンスを向上 最小限のコード変更でエクサスケール時代に備える Rama Kishan Malladi インテルコーポレーショングラフィックス パフォーマンス モ 1 インテル MPI ライブラリーのマルチ EP によりハイブリッド アプリケーションのパフォーマンスを向上 最小限のコード変更でエクサスケール時代に備える Rama Kishan Malladi インテルコーポレーショングラフィックス パフォーマンス モデリング エンジニア Dr. Amarpal Singh Kapoor インテルコーポレーションテクニカル コンサルティング エンジニア 1990

More information

CS

CS 性能並列計算法特論 第 10 回 情報基盤研究開発センター 野謙 2017 年 7 11 ( ) 成績評価 その他の連絡事項 出席点 5 割 + 期末試験 ( レポート作成 )5 割 講義資料は毎回配布予定です 席した場合, 各 でダウンロードしてください http://mercury.cc.kyushu-u.ac.jp/lecture_2017/ PDF 版をその週の 曜の朝までには公開予定 講義開始後約

More information

課題 S1 解説 Fortran 編 中島研吾 東京大学情報基盤センター

課題 S1 解説 Fortran 編 中島研吾 東京大学情報基盤センター 課題 S1 解説 Fortran 編 中島研吾 東京大学情報基盤センター 内容 課題 S1 /a1.0~a1.3, /a2.0~a2.3 から局所ベクトル情報を読み込み, 全体ベクトルのノルム ( x ) を求めるプログラムを作成する (S1-1) file.f,file2.f をそれぞれ参考にする 下記の数値積分の結果を台形公式によって求めるプログラムを作成する

More information

about MPI

about MPI 本日 (4/16) の内容 1 並列計算の概要 並列化計算の目的 並列コンピュータ環境 並列プログラミングの方法 MPI を用いた並列プログラミング 並列化効率 2 並列計算の実行方法 Hello world モンテカルロ法による円周率計算 並列計算のはじまり 並列計算の最初の構想を イギリスの科学者リチャードソンが 1922 年に発表 < リチャードソンの夢 > 64000 人を円形の劇場に集めて

More information

<4D F736F F F696E74202D C097F B A E B93C782DD8EE682E890EA97705D>

<4D F736F F F696E74202D C097F B A E B93C782DD8EE682E890EA97705D> 並列アルゴリズム 2005 年後期火曜 2 限青柳睦 Aoyagi@cc.kyushu-u.ac.jp http//server-500.cc.kyushu-u.ac.jp/ 11 月 29( 火 ) 7. 集団通信 (Collective Communication) 8. 領域分割 (Domain Decomposition) 1 もくじ 1. 序並列計算機の現状 2. 計算方式およびアーキテクチュアの分類

More information