カーネルベンチマークコード 開発の目的 エクサスケール規模のシミュレーションの核となる数値計算アルゴリズムの中で 特に重要なものについて 数値計算ライブラリ等を用いてそのコストを推定するためにカーネルベンチマークを作成し 評価に使用する 対象計算アルゴリズム 固有値計算 ( 実数密行列 標準固有値計

Size: px
Start display at page:

Download "カーネルベンチマークコード 開発の目的 エクサスケール規模のシミュレーションの核となる数値計算アルゴリズムの中で 特に重要なものについて 数値計算ライブラリ等を用いてそのコストを推定するためにカーネルベンチマークを作成し 評価に使用する 対象計算アルゴリズム 固有値計算 ( 実数密行列 標準固有値計"

Transcription

1 カーネルベンチマークコードの開発について EigenExa について EigenExa ベンチマークコードについてベンチマーク結果に基づく性能推定について 2/24/2014 理化学研究所三上和徳 1

2 カーネルベンチマークコード 開発の目的 エクサスケール規模のシミュレーションの核となる数値計算アルゴリズムの中で 特に重要なものについて 数値計算ライブラリ等を用いてそのコストを推定するためにカーネルベンチマークを作成し 評価に使用する 対象計算アルゴリズム 固有値計算 ( 実数密行列 標準固有値計算 ) 3 次元 FFT 乱数生成器 公開計画 表 カーネル ベンチマークコード 固有値計算 ( 実対称密 標準 ) 公開中 3 次元 FFT 4 月公開見込み 乱数生成 3 月公開見込み 2

3 固有値計算 実数対称密行列の標準固有値計算 AICS で開発中の EigenExa をもとにベンチマークコードを作成 ( 公開版 version 2.1a) h;p:// 10 種類のテスト行列 (+ 利用者指定固有値 ) プロセスグループ形状の指定 固有値のみ 固有値 + 固有ベクトル など ( ただし全モード計算 ) 3

4 3D-FFT FFTW 向けに紹介されている代表的な 3DFFT の測定コードをもとに 各種 FFT 実装や分割方法による性能を推定する AICS で開発中の KMATH_FFT からベンチマークを作成中 (3 月末完成 ) 3D- FFT の主要なライブラリ FFTE, FFTW をカーネルとして開発中 3 次元空間の 1 軸 2 軸 3 軸分割の選択 4

5 乱数生成器 メルセンヌツイスター乱数生成器を利用した乱数生成部分の性能評価ベンチマークコード MPI のグループでできるだけ重複のない乱数列を管理し 内部状態管理の I/O 処理も含む AICS で開発中の KMATH_RANDOM のベンチマークコードを現在改良し カーネルベンチ提供用に調整中 5

6 EigenExa について 理化学研究所ホームページ 2013 年 12 月 5 日 60 秒でわかるプレスリリース より 京 を使い世界最高速の固有値計算に成功 行列の固有値計算では行列を簡単な形式 ( 形状 ) に変換し それを中間形式として取り扱います 理研の研究チームは 帯行列 ( ゼロでない要素が対角線上に帯状に分布する行列 ) を中間形式に採用することによって 前処理の時間の削減を図った新しい計算アルゴリズムを考案し それを基にした数学ソフト EigenExa( アイゲンエクサ ) を開発しました 京 の全プロセッサを用いて計算した結果 世界最大規模の 100 万 100 万の行列の固有値計算が 1 時間以内で可能なこと確認しました これまでの地球シミュレーターの記録 (40 万 40 万の行列で 3 時間半 ) を大幅に上回りました 京 の高い計算能力と EigenExa の利用により 数十万から 100 万程度の固有値を求める問題は 1 時間以内にできることが立証されました 今後 シミュレーションの規模を大幅に拡大することが可能になります なお EigenExa はオープンソフトウエアとして公開され 理研計算科学研究機構研究部門のホームページからダウンロードできます 6

7 固有値計算 - 密行列解法の位置づけ ゼロ要素を落とし, 大規模問題での使用メモリ量 演算量を削減 反復法が基本 疎行列ベクトル積 (spmv) が性能を左右 固有値計算 密行列解法 全固有値 全固有対 全体の数分の 1 のモード 行列の全要素 (NxN) をゼロと考えずに扱う 直接的解法 メモリ使用量 O(N^2), 演算量 O(N^3) 疎行列解法 超大規模問題 少数固有モード 特定区間モード 最小 最大モード 疎行列解法の内部解法に密行列解法を使用 高性能 高品質な密行列向けソルバの必要性 7

8 EigenExa - 世界の競争相手 ELPA 1step vs 2step の議論 :1step が高速の場合が多い 三重対角 帯の変換部分は未だよい実装できず 実装レベルでは困難か? B/Q でアセンブラチューニングの方向 &GPU 化へ DPLASMA PLASMA, MAGMA での 2step スキーム 1node はスケーラブルに動作 DAG タスクスケジューリング Eigen- Exa 新 1step スキーム採用 京において 2^16 コアまでの動作確認 通信コストの認識 動作 & 通信モデル構築 階層化アルゴリズム 自動チューニングの取り込み GPU 版も準備へ ScaLAPACK ver 枠組みに大きな変化なし MPI が BLACS の標準に ルーチンの強化 : ü 非対称行列ソルバー (PDHSEQR) ü 新ルーチン MRRR(PDSYEVR) 8

9 ScaLAPACK/DPLASMA テネシー大学 ICL h;p://icl.cs.utk.edu/dplasma/index.html ScaLAPACK : Scalable Linear Algebra PACKage a library of high- performance linear algebra rou^nes for parallel distributed memory machines. ScaLAPACK solves dense and banded linear systems, least squares, eigenvalue, and singular value problems. The key ideas includes a block cyclic data distribu^on for dense matrices and a block data distribu^on for banded matrices block- par^^oned algorithms to ensure high levels of data reuse well- designed low- level modular components DPLASMA : Distributed Parallel Linear Algebra So`ware for Mul^core Arch. DPLASMA is the leading implementa^on of a dense linear algebra package for distributed heterogeneous systems. It is designed to deliver sustained performance for distributed systems where each node featuring mul^ple sockets of mul^core processors, and if available, accelerators like GPUs or Intel Xeon Phi. DPLASMA achieves this objec^ve through the state of the art PaRSEC run^me, por^ng the Parallel Linear Algebra So`ware for Mul^core Architectures (PLASMA) algorithms to the distributed memory realm. 9

10 ELPA マックス プランク研究所 h;p://elpa- lib.di- berlin.mpg.de/wiki ELPA : Eigenvalue solvers for Petaflop Applica^ons Library ELPA is a Fortran- based high- performance computa^onal library for the (massively) parallel solu^on of symmetric or Hermi^an, standard or generalized eigenvalue problems. Once compiled, ELPA library rou^nes can be linked to from C, C++, Fortran etc. code alike. ELPA works as a "drop- in enhancement" for Scalapack- based infrastructures (arguably the de facto standard for high- performance parallel linear algebra). Thus, ELPA is not independent of this infrastructure, but rather builds on it. Necessary prerequisite libraries for ELPA (o`en already provided by HPC vendors) include: Basic linear algebra subrou^nes (BLAS) Lapack Basic linear algebra communica^on subrou^nes (BLACS) Scalapack 10

11 EigenExa - 国際競争力のある新規計算スキームの採用 tridiagonal eigenpairs ScaLAPACK DPLASMA 1step Scheme dense ELPA 2step Scheme (Byte/Flop が低い ) eigenpairs band 新 1step Scheme eigenpairs 高性能実装が困難全固有ベクトルを求める場合は 1step と大差ないという報告多数 Eigen- Exa 状況によっては逆変換 ( 三重対角 帯 ) の高性能実装も視野にいれつつ, 良好なものを選択 11

12 固有値の計算パターン Ax = λx 行列のサイズが大きい場合 方針 :A の固有値は相似変換 A - > P - 1 AP をしても不変 簡単な P( 回転行列など ) で変換を多数回行い対角行列に収束させる より簡単な行列形式に中継的に変換して計算時間の短縮をはかる (1) 係数行列をより帯域の狭い中間行列に変換して (2) 中間行列の固有値を求め (3) 本来の係数行列の固有ベクトルを求め直す (1) の中間行列のパターン毎に手法がある EigenExa の標準版 ScaLAPACK : 三重対角行列 :Householder( 鏡像 ) EigenExa の高速版 : 帯行列 (narrow- band 法 ) Development of a High- Performance Eigensolver on a Peta- Scale Next- Genera^on Supercomputer System, Imamura etal, Progress in NUCLEAR SCIENCE and TECHNOLOGY, Vol. 2, pp (2011) 商用ソフトウエアでは Lanczos 法 : 三重対角がよく利用される 行列のサイズが小さい場合 : Jacobi 法やベキ乗法などの簡便な方法で直接求めても可 12

13 EigenExa - Parallel performance: strong scalability [sec] 2000 N=50K 200 N=20K N=130K K computer@riken AICS OpenMP+MPI hybrid 8thread/1proc/1node N=10K 20 Eigen- K(N=10K) ELPA2- development ELPA2- dev(n=10k) ScaLAPACK(N=10K) Faster K 2K 4K 8K 16K 32K 64K Part of the results is obtained by using the K computer at the RIKEN Advanced Ins^tute for Computa^onal Science (Proposal number hp12017). 2013/11/20 13 [cores] 13

14 EigenExa ベンチマークコードについて Fortran で書かれた主プログラム 実行プログラム名 eigenexa_benchmark 京 (FX10) X86 Intel X86 GNU BlueGeneQ 用の Makefile 有り make # libeigenexa.aのみ生成される make eigenexa_benchmark # ベンチマークコードを生成 mpirun コマンドなどで起動 実行オプションをコマンドライン引数と入力ファイルで指定 テスト用の係数行列を自動生成 複数の行列 ( タイプ サイズ ) を連続実行可能 EigenExa の求解ルーチン eigen_sx() 又は eigen_s () を呼び出して実行 固有値計算に必要な計算資源を出力表示 ( テキスト ) 14

15 EigenExa ベンチマークコードについて 実行プログラム名 eigenexa_benchmark 実行時のオプション (X86 Linux Intel 環境での例 ) $./eigenexa_benchmark -help eigenexa_benchmark [options] options: -h displays this help and exit -f input_file uses input_file default is./in -g mode sets the process grid as follows R, r MPI_COMM_WORLD row-major mode C, c MPI_COMM_WORLD column-major mode A, a MPI_COMM_SELF (embarrasingly parallel) 1, 2,... 9 splitted MPI_COMM_WORLD with the color=mod(rank,{number}) -x dimx dimy sets the cartecian shape (dimx, dimy) dimx <= dimy must be hold. 15

16 EigenExa ベンチマークコードについて 行列や求解モードは input_file で指定する input_file のレコードフォーマットは以下!! Input file format!! N bx by mode matrix solver!! N : matrix dimension! bx : block width for the forward transformation! by : block width for the backward transformation! mode : solver mode { 0 : only eigenvalues }! { 1 : eigenvalues and corresponding eigenvectors}! { 2 : mode 1 + accuracy improvement for eigenvalues}! matrix : test matrix { 11 types, }! solver : { 0 : eigen_sx, new algorithm, faster on the K }! { 1 : eigen_s, conventional algorithm }!! if a line starts from '!', the line is treated as a comment!

17 EigenExa ベンチマークコードについて テスト用の係数行列 matrix パラメタ (0-9): 行列要素を自動生成 以下の 10 種類の行列タイプから選択 matrix パラメタ (10): 行列要素をユーザが指定 外部ファイル W.dat から読み込む ベンチマークは input_file で複数の行列 ( タイプ サイズ ) を指定して連続実行可能 Matrix type = 0 (Frank matrix) Matrix type = 1 (Toeplitz matrix) Matrix type = 2 (Random matrix) Matrix type = 3 (Frank matrix 2) Matrix type = 4 (W: 0, 1,..., n-1) Matrix type = 5 (W: sin(pai*5*i/(n-1)+eps^1/4)^3) Matrix type = 6 (W: MOD(i,5)+MOD(i,2)) Matrix type = 7 (W: same as Frank matrix) Matrix type = 8 (W: Uniform Distribution, [0,1)) Matrix type = 9 (W: Gauss Distribution, m=0,s=1) Matrix type = 10 (W: Read from the data file 'W.dat') 17

18 EigenExa ベンチマークコードについて テスト結果出力例 (X86 Linux Intel 環境での例 ) $ export OMP_NUM_THREADS=8 $ export I_MPI_FABRICS=shm:ofa $ mpirun -np 16 ${bin_path}/eigenexa-2.1/eigenexa_benchmark -x 4 4 INPUT FILE=IN ====================================================== Solver = eigen_sx / via penta-diagonal format Block width = 48 / 128 NUM.OF.PROCESS= 16 ( 4 4 ) NUM.OF.THREADS= 8 Matrix dimension = Matrix type = 0 (Frank matrix) Internally required memory = [Byte] mode 'X' :: mode 'A' + accuracy improvement Elapsed time = [sec] FLOP = Performance = [GFLOPS] 続く 18

19 EigenExa ベンチマークコードについて テスト結果出力例 (X86 Linux Intel 環境での例続き ) max w(i)-w(i).true / w.true = E *** Eigenvalue Relative Error *** : PASSED max w(i)-w(i).true = *** Eigenvalue Absolute Error *** : FAILED Do not mind it. Relative error is small enough A _{1}= epsilon= E-016 max Ax-wx _{1}/Ne A _{1}= E *** Residual Error Test *** : PASSED ZZ-I _{F}= E-012 *** Orthogonality Test *** : PASSED 19

20 EigenExa ベンチマークコードについて テスト結果出力例 (X86 Linux Intel 環境プロセス pin ステートも表示 ) $ export I_MPI_DEBUG=5 $ export I_MPI_FABRICS=shm:ofa $ mpirun -np 16 ${bin_path}/eigenexa-2.1/eigenexa_benchmark -x 4 4 [0] MPI startup(): Rank Pid Node name Pin cpu [0] MPI startup(): vsp25 {0,1,2,3,4,5,6,7} [0] MPI startup(): vsp25 {8,9,10,11,12,13,14,15} [0] MPI startup(): vsp27 {0,1,2,3,4,5,6,7} [0] MPI startup(): vsp27 {8,9,10,11,12,13,14,15} [0] MPI startup(): vsp29 {0,1,2,3,4,5,6,7} [0] MPI startup(): vsp29 {8,9,10,11,12,13,14,15} [0] MPI startup(): vsp10 {0,1,2,3,4,5,6,7} [0] MPI startup(): vsp10 {8,9,10,11,12,13,14,15} [0] MPI startup(): vsp11 {0,1,2,3,4,5,6,7} [0] MPI startup(): vsp11 {8,9,10,11,12,13,14,15} [0] MPI startup(): vsp12 {0,1,2,3,4,5,6,7} [0] MPI startup(): vsp12 {8,9,10,11,12,13,14,15} [0] MPI startup(): vsp16 {0,1,2,3,4,5,6,7} [0] MPI startup(): vsp16 {8,9,10,11,12,13,14,15} [0] MPI startup(): vsp17 {0,1,2,3,4,5,6,7} [0] MPI startup(): vsp17 {8,9,10,11,12,13,14,15}... OS( ジョブスケジューラ ) が捕捉したメモリ量 : Max Memory : 936 MB 20

21 EigenExa ベンチマークコードについて 計算各フェイズでの通信待ち等さらに細かな情報を得たい場合は Makefile 中で以下のマクロを 1 に設定して make するとよい DEBUGFLAG = $(MACRO_D_PREFIX)TIMER_PRINT=0 実行時 stdout の例 calc (u,beta) mat-vec (Au) update (A-uv-vu) calc v E+000 v=v-(uv+vu)u UV post reduction E-002 COMM_STAT BCAST :: REDUCE :: REDIST :: E+000 GATHER :: E-002 TRD-BLK GFLOPS TRD-BLK-INFO

22 EigenExa ベンチマークコードについて テスト結果出力例 ( 京コンピュータでの例 ) $ export OMP_NUM_THREADS=8 $ mpiexec -n 16./eigenexa_benchmark -x 4 4 INPUT FILE=IN ====================================================== Solver = eigen_sx / via penta-diagonal format Block width = 48 / 128 NUM.OF.PROCESS= 16 ( 4 4 ) NUM.OF.THREADS= 8 Matrix dimension = Matrix type = 0 (Frank matrix) Internally required memory = [Byte] mode 'X' :: mode 'A' + accuracy improvement Elapsed time = [sec] FLOP = Performance = [GFLOPS] max w(i)-w(i).true / w.true = E *** Eigenvalue Relative Error *** : PASSED max w(i)-w(i).true = *** Eigenvalue Absolute Error *** : FAILED Do not mind it. Relative error is small enough. 以下カット 22

23 EigenExa ベンチマークコードについて ベンダー統計ツールとの数値比較 京コンピュータの場合 (fipp) 行列要素生成処理も含んだ表示 Elapsed(s) MFLOPS MFLOPS/PEAK(%) MIPS MIPS/PEAK(%) Application Process Process Process Process Process 5... similar 16 procs Mem throughput Mem throughput Elapsed(s) _chip(gb/s) /PEAK(%) SIMD(%) Application Process Process Process Process Process 5... similar 16 procs 23

24 ベンチマーク結果表示値に基づく性能推定について 演算量 FLOP : EngenExa eigen_sx() の浮動小数点演算量 ~= C f x N 3 Matrix dimension = N メモリ量 Internally required memory :MPI プロセスあたりの合計配列サイズ ~= C m x N 2 ( 次ページ注参照 ) 計算時間 Elapsed ^me : 演算 通信等の合計経過時間 実効ピーク性能比 Performance [GFLOPS]: 固有値計算の性能 ( 全プロセス合計値 ) プロセス当たりの性能はデータレイアウト プロセスマッピングでほぼ決まる テスト結果を用いて推定 ( 同じプラットフォームで外挿 ) できること より大規模な行列を計算する場合の浮動小数点演算量 メモリ量 演算時間 より多数のノード数を利用する場合の演算時間 通信の待ち時間は実行条件への依存が大きく 推定方法は一様ではない 24

25 利用上の留意点 必要メモリ量の表示 ベンチマークコードによるメモリ量の算出 (Internally required memory ) MPI プロセスあたりの最大メモリ量 ( ソースプログラムで静的に読める値 ) ジョブが実際に必要とするメモリ量はより多い テキスト ライブラリ MPI バッファなどのセグメントは入っていない OpenMP スレッド並列の場合はスレッド private な変数領域が相当量必要 ベンチマークコードによるメモリ量の表示 Internally required memory = [Byte] OSによる統計出力メモリ量 ( 京コンピュータfipp 表示の例 ) スレッド数 MAX MEMORY SIZE (USE) MiB (1.4GB) MiB (2.1GB) 計算結果 計算の結果 a(n,n) は対角化されるが a(1,1) 成分は FLOP 値 ( 浮動小数点演算回数 ) a(2,1) 成分は経過時間の値で各々上書きされて返ってくるので注意 25

26 ダウンロードページ h;p:// 26

CPU Levels in the memory hierarchy Level 1 Level 2... Increasing distance from the CPU in access time Level n Size of the memory at each level 1: 2.2

CPU Levels in the memory hierarchy Level 1 Level 2... Increasing distance from the CPU in access time Level n Size of the memory at each level 1: 2.2 FFT 1 Fourier fast Fourier transform FFT FFT FFT 1 FFT FFT 2 Fourier 2.1 Fourier FFT Fourier discrete Fourier transform DFT DFT n 1 y k = j=0 x j ω jk n, 0 k n 1 (1) x j y k ω n = e 2πi/n i = 1 (1) n DFT

More information

untitled

untitled A = QΛQ T A n n Λ Q A = XΛX 1 A n n Λ X GPGPU A 3 T Q T AQ = T (Q: ) T u i = λ i u i T {λ i } {u i } QR MR 3 v i = Q u i A {v i } A n = 9000 Quad Core Xeon 2 LAPACK (4/3) n 3 O(n 2 ) O(n 3 ) A {v i }

More information

Microsoft PowerPoint - sps14_enshu2-2.pptx

Microsoft PowerPoint - sps14_enshu2-2.pptx Computer simulations create the future 固有値計算法 RIKEN AICS HPC Spring School 今村俊幸理化学研究所 AICS 2014/3/6 9:00~12:00 本日の講義内容 固有値 ( 線形代数 ) と応用問題 振動問題 ネットワーク定常問題 固有値計算アルゴリズム 密行列 べき乗法 ヤコビ法 ハウスホルダー三重対角 + 分割統治法 +

More information

untitled

untitled A = QΛQ T A n n Λ Q A = XΛX 1 A n n Λ X GPGPU A 3 T Q T AQ = T (Q: ) T u i = λ i u i T {λ i } {u i } QR MR 3 v i = Q u i A {v i } A n = 9000 Quad Core Xeon 2 LAPACK (4/3) n 3 O(n 2 ) O(n 3 ) A {v i }

More information

EigenExa Version 2.3c EigenExa

EigenExa Version 2.3c EigenExa EigenExa Version 2.3c EigenExa 2015 6 24 3 1 5 1.1 EigenExa............................... 5 1.2 /Copyright.................................. 6 2 7 2.1 EigenExa............... 7 2.2 EigenExa..................................

More information

[4] ACP (Advanced Communication Primitives) [1] ACP ACP [2] ACP Tofu UDP [3] HPC InfiniBand InfiniBand ACP 2 ACP, 3 InfiniBand ACP 4 5 ACP 2. ACP ACP

[4] ACP (Advanced Communication Primitives) [1] ACP ACP [2] ACP Tofu UDP [3] HPC InfiniBand InfiniBand ACP 2 ACP, 3 InfiniBand ACP 4 5 ACP 2. ACP ACP InfiniBand ACP 1,5,a) 1,5,b) 2,5 1,5 4,5 3,5 2,5 ACE (Advanced Communication for Exa) ACP (Advanced Communication Primitives) HPC InfiniBand ACP InfiniBand ACP ACP InfiniBand Open MPI 20% InfiniBand Implementation

More information

VXPRO R1400® ご提案資料

VXPRO R1400® ご提案資料 Intel Core i7 プロセッサ 920 Preliminary Performance Report ノード性能評価 ノード性能の評価 NAS Parallel Benchmark Class B OpenMP 版での性能評価 実行スレッド数を 4 で固定 ( デュアルソケットでは各プロセッサに 2 スレッド ) 全て 2.66GHz のコアとなるため コアあたりのピーク性能は同じ 評価システム

More information

Microsoft Word ●IntelクアッドコアCPUでのベンチマーク_吉岡_ _更新__ doc

Microsoft Word ●IntelクアッドコアCPUでのベンチマーク_吉岡_ _更新__ doc 2.3. アプリ性能 2.3.1. Intel クアッドコア CPU でのベンチマーク 東京海洋大学吉岡諭 1. はじめにこの数年でマルチコア CPU の普及が進んできた x86 系の CPU でも Intel と AD がデュアルコア クアッドコアの CPU を次々と市場に送り出していて それらが PC クラスタの CPU として採用され HPC に活用されている ここでは Intel クアッドコア

More information

4 倍精度基本線形代数ルーチン群 QPBLAS の紹介 [index] 1. Introduction 2. Double-double algorithm 3. QPBLAS 4. QPBLAS-GPU 5. Summary 佐々成正 1, 山田進 1, 町田昌彦 1, 今村俊幸 2, 奥田洋司

4 倍精度基本線形代数ルーチン群 QPBLAS の紹介 [index] 1. Introduction 2. Double-double algorithm 3. QPBLAS 4. QPBLAS-GPU 5. Summary 佐々成正 1, 山田進 1, 町田昌彦 1, 今村俊幸 2, 奥田洋司 4 倍精度基本線形代数ルーチン群 QPBLAS の紹介 [index] 1. Introduction 2. Double-double algorithm 3. QPBLAS 4. QPBLAS-GPU 5. Summary 佐々成正 1, 山田進 1, 町田昌彦 1, 今村俊幸 2, 奥田洋司 3 1 1 日本原子力研究開発機構システム計算科学センター 2 理科学研究所計算科学研究機構 3 東京大学新領域創成科学研究科

More information

I I / 47

I I / 47 1 2013.07.18 1 I 2013 3 I 2013.07.18 1 / 47 A Flat MPI B 1 2 C: 2 I 2013.07.18 2 / 47 I 2013.07.18 3 / 47 #PJM -L "rscgrp=small" π-computer small: 12 large: 84 school: 24 84 16 = 1344 small school small

More information

appli_HPhi_install

appli_HPhi_install 2018/3/7 HΦ version 3.0.0 インストール手順書 (Linux 64 ビット版 ) 目次 1. アプリケーション概要...- 1-2. システム環境...- 1-3. 必要なツール ライブラリのインストール...- 1-1 cmake...- 2-2 numpy...- 3-4. アプリケーションのインストール...- 4-5. 動作確認の実施...- 5 - 本手順書は HΦ

More information

A Feasibility Study of Direct-Mapping-Type Parallel Processing Method to Solve Linear Equations in Load Flow Calculations Hiroaki Inayoshi, Non-member

A Feasibility Study of Direct-Mapping-Type Parallel Processing Method to Solve Linear Equations in Load Flow Calculations Hiroaki Inayoshi, Non-member A Feasibility Study of Direct-Mapping-Type Parallel Processing Method to Solve Linear Equations in Load Flow Calculations Hiroaki Inayoshi, Non-member (University of Tsukuba), Yasuharu Ohsawa, Member (Kobe

More information

Microsoft PowerPoint - sales2.ppt

Microsoft PowerPoint - sales2.ppt 最適化とは何? CPU アーキテクチャに沿った形で最適な性能を抽出できるようにする技法 ( 性能向上技法 ) コンパイラによるプログラム最適化 コンパイラメーカの技量 経験量に依存 最適化ツールによるプログラム最適化 KAP (Kuck & Associates, Inc. ) 人によるプログラム最適化 アーキテクチャのボトルネックを知ること 3 使用コンパイラによる性能の違い MFLOPS 90

More information

Second-semi.PDF

Second-semi.PDF PC 2000 2 18 2 HPC Agenda PC Linux OS UNIX OS Linux Linux OS HPC 1 1CPU CPU Beowulf PC (PC) PC CPU(Pentium ) Beowulf: NASA Tomas Sterling Donald Becker 2 (PC ) Beowulf PC!! Linux Cluster (1) Level 1:

More information

理化学研究所計算科学研究機構研究部門量子系分子科学研究チーム殿 hp170163: 有機半導体 有機分子発光材料の全自動探索シミュレーションシステムの開発 高度化支援作業 2017 年 9 6 ( R405 般財団法 度情報科学技術研究機構利 援部 1

理化学研究所計算科学研究機構研究部門量子系分子科学研究チーム殿 hp170163: 有機半導体 有機分子発光材料の全自動探索シミュレーションシステムの開発 高度化支援作業 2017 年 9 6 ( R405 般財団法 度情報科学技術研究機構利 援部 1 理化学研究所計算科学研究機構研究部門量子系分子科学研究チーム殿 hp170163: 有機半導体 有機分子発光材料の全自動探索シミュレーションシステムの開発 高度化支援作業 2017 年 9 6 ( )@AICS R405 般財団法 度情報科学技術研究機構利 援部 1 Outline 高度化支援の依頼内容 実行環境と計算条件 PWscf フロー図 各ライブラリを使用した場合のプログラム全体の実行時間の比較

More information

( ) 5 Reduction ( ) A M n (C) Av = λv (v 0) (11.1) λ C A (eigenvalue) v C n A λ (eigenvector) M n (R) A λ(a) A M n (R) n A λ

( ) 5 Reduction ( ) A M n (C) Av = λv (v 0) (11.1) λ C A (eigenvalue) v C n A λ (eigenvector) M n (R) A λ(a) A M n (R) n A λ 125 11 ( ) 5 Reduction 11.1 11.1.1 ( ) A M n (C) Av = λv (v 0) (11.1) λ C A (eigenvalue) v C n A λ (eigenvector) M n (R) A λ(a) 11.1.2 A M n (R) n A λi = 0 A C n 5 126 11 A n λ 1 (A) λ 2 (A) λ n (A) A

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション Computer simulations create the future 2015 年度第 1 回 AICS 公開ソフト講習会 K MapReduce ハンズオン 滝澤真一朗松田元彦丸山直也 理化学研究所計算科学研究機構プログラム構成モデル研究チーム 1 RIKEN ADVANCED INSTITUTE FOR COMPUTATIONAL SCIENCE KMR の導入方法を学ぶ 目的 KMRRUN

More information

Microsoft Word - appli_SMASH_tutorial_2.docx

Microsoft Word - appli_SMASH_tutorial_2.docx チュートリアル SMASH version 2.2.0 (Linux 64 ビット版 ) 本チュートリアルでは 量子化学計算ソフトウェア SMASH バージョン 2.2.0 について ソフトウェアの入手 / 実行モジュール作成 / 計算実行 / 可視化処理までを例示します 1. ソフトウェアの入手以下の URL よりダウンロードします https://sourceforge.net/projects/smash-qc/files/smash-2.2.0.tgz/download

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション vsmp Foundation スケーラブル SMP システム スケーラブル SMP システム 製品コンセプト 2U サイズの 8 ソケット SMP サーバ コンパクトな筐体に多くのコアとメモリを実装し SMP システムとして利用可能 スイッチなし構成でのシステム構築によりラックスペースを無駄にしない構成 将来的な拡張性を保証 8 ソケット以上への拡張も可能 2 システム構成例 ベースシステム 2U

More information

Microsoft PowerPoint - stream.ppt [互換モード]

Microsoft PowerPoint - stream.ppt [互換モード] STREAM 1 Quad Opteron: ccnuma Arch. AMD Quad Opteron 2.3GHz Quad のソケット 4 1 ノード (16コア ) 各ソケットがローカルにメモリを持っている NUMA:Non-Uniform Access ローカルのメモリをアクセスして計算するようなプログラミング, データ配置, 実行時制御 (numactl) が必要 cc: cache-coherent

More information

Microsoft Word - HOKUSAI_system_overview_ja.docx

Microsoft Word - HOKUSAI_system_overview_ja.docx HOKUSAI システムの概要 1.1 システム構成 HOKUSAI システムは 超並列演算システム (GWMPC BWMPC) アプリケーション演算サーバ群 ( 大容量メモリ演算サーバ GPU 演算サーバ ) と システムの利用入口となるフロントエンドサーバ 用途の異なる 2 つのストレージ ( オンライン ストレージ 階層型ストレージ ) から構成されるシステムです 図 0-1 システム構成図

More information

EigenExaユーザーズ・マニュアル

EigenExaユーザーズ・マニュアル ユーザズ マニュアル EigenExa version 1.0 2013 年 8 月 8 日改訂 2013 年 8 月 1 日初版 EigenExa チーム 1. はじめに EigenExa は高性能固有値ソルバである.EigenExa は EigenK ライブラリ [1] の後継として 開発され, ペタスケールコンピュータシステム同様に, 将来登場するであろうポストペタス ケール計算機システム (

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション 応用数理概論 準備 端末上で cd ~/ mkdir cppwork cd cppwork wget http://271.jp/gairon/main.cpp wget http://271.jp/gairon/matrix.hpp とコマンドを記入. ls とコマンドをうち,main.cppとmatrix.hppがダウンロードされていることを確認. 1 準備 コンパイル c++ -I. -std=c++0x

More information

4K UHD XJive Player SplitEncoder 操作説明書 ターボシステムズ株式会社

4K UHD XJive Player SplitEncoder 操作説明書 ターボシステムズ株式会社 SplitEncoder 操作説明書 ターボシステムズ株式会社 本ガイドは XJive Player のコンテンツ分割ツール SplitEncoder の使用方法について解説しています SplitEncoder 推奨環境 SplitEncoder は以下の環境で動作を確認しています 推奨環境 OS Windows 7 64bit Windows 8.1 64bit Linux 64bit(Fedora

More information

Introduction Purpose This training course demonstrates the use of the High-performance Embedded Workshop (HEW), a key tool for developing software for

Introduction Purpose This training course demonstrates the use of the High-performance Embedded Workshop (HEW), a key tool for developing software for Introduction Purpose This training course demonstrates the use of the High-performance Embedded Workshop (HEW), a key tool for developing software for embedded systems that use microcontrollers (MCUs)

More information

3. ( 1 ) Linear Congruential Generator:LCG 6) (Mersenne Twister:MT ), L 1 ( 2 ) 4 4 G (i,j) < G > < G 2 > < G > 2 g (ij) i= L j= N

3. ( 1 ) Linear Congruential Generator:LCG 6) (Mersenne Twister:MT ), L 1 ( 2 ) 4 4 G (i,j) < G > < G 2 > < G > 2 g (ij) i= L j= N RMT 1 1 1 N L Q=L/N (RMT), RMT,,,., Box-Muller, 3.,. Testing Randomness by Means of RMT Formula Xin Yang, 1 Ryota Itoi 1 and Mieko Tanaka-Yamawaki 1 Random matrix theory derives, at the limit of both dimension

More information

スライド 1

スライド 1 GPU クラスタによる格子 QCD 計算 広大理尾崎裕介 石川健一 1.1 Introduction Graphic Processing Units 1 チップに数百個の演算器 多数の演算器による並列計算 ~TFLOPS ( 単精度 ) CPU 数十 GFLOPS バンド幅 ~100GB/s コストパフォーマンス ~$400 GPU の開発環境 NVIDIA CUDA http://www.nvidia.co.jp/object/cuda_home_new_jp.html

More information

Microsoft Word - appli_OpenMX_install.docx

Microsoft Word - appli_OpenMX_install.docx OpenMX version 3.8.3 インストール手順書 (Linux 64 ビット版 ) 目次 1. アプリケーション概要... 1 2. システム環境... 1 3. アプリケーションのインストール... 1 4. 動作確認の実施... 4 本手順書は OpenMX の入手からインストールまでを説明した資料です 2018/3/7 1. アプリケーション概要 本手順書が対象としているアプリケーションは以下の通りです

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション Foundation アプライアンス スケーラブルシステムズ株式会社 サーバ クラスタの課題 複数のシステムを一つの だけで容易に管理することは出来ないだろうか? アプリケーションがより多くのメモリを必要とするのだけど ハードウエアの増設なしで対応出来ないだろうか? 現在の利用環境のまま 利用できるコア数やメモリサイズの増強を図ることは出来ないだろうか? 短時間で導入可能で また 必要に応じて 柔軟にシステム構成の変更が可能なソリューションは無いだろうか?...

More information

HPC (pay-as-you-go) HPC Web 2

HPC (pay-as-you-go) HPC Web 2 ,, 1 HPC (pay-as-you-go) HPC Web 2 HPC Amazon EC2 OpenFOAM GPU EC2 3 HPC MPI MPI Courant 1 GPGPU MPI 4 AMAZON EC2 GPU CLUSTER COMPUTE INSTANCE EC2 GPU (cg1.4xlarge) ( N. Virgina ) Quadcore Intel Xeon 5570

More information

情報処理学会研究報告 IPSJ SIG Technical Report Vol.2013-HPC-139 No /5/29 Gfarm/Pwrake NICT NICT 10TB 100TB CPU I/O HPC I/O NICT Gf

情報処理学会研究報告 IPSJ SIG Technical Report Vol.2013-HPC-139 No /5/29 Gfarm/Pwrake NICT NICT 10TB 100TB CPU I/O HPC I/O NICT Gf Gfarm/Pwrake NICT 1 1 1 1 2 2 3 4 5 5 5 6 NICT 10TB 100TB CPU I/O HPC I/O NICT Gfarm Gfarm Pwrake A Parallel Processing Technique on the NICT Science Cloud via Gfarm/Pwrake KEN T. MURATA 1 HIDENOBU WATANABE

More information

システムソリューションのご紹介

システムソリューションのご紹介 HP 2 C 製品 :VXPRO/VXSMP サーバ 製品アップデート 製品アップデート VXPRO と VXSMP での製品オプションの追加 8 ポート InfiniBand スイッチ Netlist HyperCloud メモリ VXPRO R2284 GPU サーバ 製品アップデート 8 ポート InfiniBand スイッチ IS5022 8 ポート 40G InfiniBand スイッチ

More information

本日の講義内容 固有値 ( 線形代数 ) と応用問題 振動問題 ネットワーク定常問題 固有値計算アルゴリズム 密行列 べき乗法 ヤコビ法 ハウスホルダー三重対角 + 分割統治法 + 逆変換 疎行列 ランチョス法 ヤコビ デビッドソン法 その他 固有値計算ソフトウェア ScaLAPACK EigenE

本日の講義内容 固有値 ( 線形代数 ) と応用問題 振動問題 ネットワーク定常問題 固有値計算アルゴリズム 密行列 べき乗法 ヤコビ法 ハウスホルダー三重対角 + 分割統治法 + 逆変換 疎行列 ランチョス法 ヤコビ デビッドソン法 その他 固有値計算ソフトウェア ScaLAPACK EigenE Computer simulations create the future 固有値計算法 RIKEN AICS HPC Spring School 今村俊幸理化学研究所 AICS 2014/3/6 9:00~12:00 本日の講義内容 固有値 ( 線形代数 ) と応用問題 振動問題 ネットワーク定常問題 固有値計算アルゴリズム 密行列 べき乗法 ヤコビ法 ハウスホルダー三重対角 + 分割統治法 +

More information

tabaicho3mukunoki.pptx

tabaicho3mukunoki.pptx 1 2 はじめに n 目的 4倍精度演算より高速な3倍精度演算を実現する l 倍精度では足りないが4倍精度は必要ないケースに欲しい l 4倍精度に比べてデータサイズが小さい Ø 少なくともメモリ律速な計算では4倍精度よりデータ 転送時間を減らすことが可能 Ø PCIeやノード間通信がボトルネックとなりやすい GPUクラスタ環境に有効か n 研究概要 l DD型4倍精度演算 DD演算 に基づく3倍精度演算

More information

Microsoft PowerPoint - 演習1:並列化と評価.pptx

Microsoft PowerPoint - 演習1:並列化と評価.pptx 講義 2& 演習 1 プログラム並列化と性能評価 神戸大学大学院システム情報学研究科横川三津夫 yokokawa@port.kobe-u.ac.jp 2014/3/5 RIKEN AICS HPC Spring School 2014: プログラム並列化と性能評価 1 2014/3/5 RIKEN AICS HPC Spring School 2014: プログラム並列化と性能評価 2 2 次元温度分布の計算

More information

Slides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments

Slides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments 計算機アーキテクチャ第 11 回 マルチプロセッサ 本資料は授業用です 無断で転載することを禁じます 名古屋大学 大学院情報科学研究科 准教授加藤真平 デスクトップ ジョブレベル並列性 スーパーコンピュータ 並列処理プログラム プログラムの並列化 for (i = 0; i < N; i++) { x[i] = a[i] + b[i]; } プログラムの並列化 x[0] = a[0] + b[0];

More information

MATLAB® における並列・分散コンピューティング ~ Parallel Computing Toolbox™ & MATLAB Distributed Computing Server™ ~

MATLAB® における並列・分散コンピューティング ~ Parallel Computing Toolbox™ & MATLAB Distributed Computing Server™ ~ MATLAB における並列 分散コンピューティング ~ Parallel Computing Toolbox & MATLAB Distributed Computing Server ~ MathWorks Japan Application Engineering Group Takashi Yoshida 2016 The MathWorks, Inc. 1 System Configuration

More information

untitled

untitled taisuke@cs.tsukuba.ac.jp http://www.hpcs.is.tsukuba.ac.jp/~taisuke/ CP-PACS HPC PC post CP-PACS CP-PACS II 1990 HPC RWCP, HPC かつての世界最高速計算機も 1996年11月のTOP500 第一位 ピーク性能 614 GFLOPS Linpack性能 368 GFLOPS (地球シミュレータの前

More information

Microsoft Word - qpeigen_manual_jp-1.0.doc

Microsoft Word - qpeigen_manual_jp-1.0.doc 4 倍精度固有値計算ライブラリ QPEigen Ver.1.0 ユーザーズマニュアル 2015 年 2 月独立行政法人日本原子力研究開発機構 目次 1 概説... 3 2 行列対角化について... 2 3 4 倍精度化アルゴリズムについて... 2 4 参考文献... 3 5 ディレクトリ構成... 3 6 必要なソフトウェア... 3 7 インストール方法... 4 8 検証用 性能評価用プログラム...

More information

研究背景 大規模な演算を行うためには 分散メモリ型システムの利用が必須 Message Passing Interface MPI 並列プログラムの大半はMPIを利用 様々な実装 OpenMPI, MPICH, MVAPICH, MPI.NET プログラミングコストが高いため 生産性が悪い 新しい並

研究背景 大規模な演算を行うためには 分散メモリ型システムの利用が必須 Message Passing Interface MPI 並列プログラムの大半はMPIを利用 様々な実装 OpenMPI, MPICH, MVAPICH, MPI.NET プログラミングコストが高いため 生産性が悪い 新しい並 XcalableMPによる NAS Parallel Benchmarksの実装と評価 中尾 昌広 李 珍泌 朴 泰祐 佐藤 三久 筑波大学 計算科学研究センター 筑波大学大学院 システム情報工学研究科 研究背景 大規模な演算を行うためには 分散メモリ型システムの利用が必須 Message Passing Interface MPI 並列プログラムの大半はMPIを利用 様々な実装 OpenMPI,

More information

― ANSYS Mechanical ―Distributed ANSYS(領域分割法)ベンチマーク測定結果要約

― ANSYS Mechanical ―Distributed ANSYS(領域分割法)ベンチマーク測定結果要約 ANSYS Mechanical Distributed ANSYS( 領域分割法 ) 2011 年 1 月 17 日 富士通株式会社 ANSYS Mechanical ベンチマーク測定結果 目次 測定条件 1 標準問題モデル 2 総括 3 ベンチマーク測定について 3 留意事項 9 商標について 9 測定条件 測定に使用した環境は下記のとおりです System PRIMERGY BX922 S2

More information

Microsoft PowerPoint - CCS学際共同boku-08b.ppt

Microsoft PowerPoint - CCS学際共同boku-08b.ppt マルチコア / マルチソケットノードに おけるメモリ性能のインパクト 研究代表者朴泰祐筑波大学システム情報工学研究科 taisuke@cs.tsukuba.ac.jp アウトライン 近年の高性能 PC クラスタの傾向と問題 multi-core/multi-socket ノードとメモリ性能 メモリバンド幅に着目した性能測定 multi-link network 性能評価 まとめ 近年の高性能 PC

More information

MBLAS¤ÈMLAPACK; ¿ÇÜĹÀºÅÙÈǤÎBLAS/LAPACK¤ÎºîÀ®

MBLAS¤ÈMLAPACK; ¿ÇÜĹÀºÅÙÈǤÎBLAS/LAPACK¤ÎºîÀ® MBLAS MLAPACK; BLAS/LAPACK maho@riken.jp February 23, 2009 MPACK(MBLAS/MLAPACK) ( ) (2007 ) ( ) http://accc.riken.jp/maho/ BLAS/LAPACK http://mplapack.sourceforge.net/ BLAS (Basic Linear Algebra Subprograms)

More information

Microsoft PowerPoint - 高速化WS富山.pptx

Microsoft PowerPoint - 高速化WS富山.pptx 京 における 高速化ワークショップ 性能分析 チューニングの手順について 登録施設利用促進機関 一般財団法人高度情報科学技術研究機構富山栄治 一般財団法人高度情報科学技術研究機構 2 性能分析 チューニング手順 どの程度の並列数が実現可能か把握する インバランスの懸念があるか把握する タイムステップループ I/O 処理など注目すべき箇所を把握する 並列数 並列化率などの目標を設定し チューニング時の指針とする

More information

GPGPU

GPGPU GPGPU 2013 1008 2015 1 23 Abstract In recent years, with the advance of microscope technology, the alive cells have been able to observe. On the other hand, from the standpoint of image processing, the

More information

Microsoft PowerPoint - GPUシンポジウム _d公開版.ppt [互換モード]

Microsoft PowerPoint - GPUシンポジウム _d公開版.ppt [互換モード] 200/0/9 数値流体解析の並列効率とその GPU による高速化の試み 清水建設 ( 株 ) 技術研究所 PHAM VAN PHUC ( ファムバンフック ) 流体計算時間短縮と GPU の活用の試み 現 CPUとの比較によりGPU 活用の可能性 現 CPU の最大利用 ノード内の最大計算資源の利用 すべてCPUコアの利用 適切なアルゴリズムの利用 CPU コア性能の何倍? GPU の利用の試み

More information

ペタスケール計算環境に向けたFFTライブラリ

ペタスケール計算環境に向けたFFTライブラリ A01 高橋班 大規模並列環境における 数値計算アルゴリズム 研究代表者 : 高橋大介 筑波大学大学院システム情報工学研究科 研究組織 研究代表者 高橋大介 ( 筑波大学 ): 研究統括および高速アルゴリズム 研究分担者 今村俊幸 ( 電気通信大学 ): 性能チューニング 多田野寛人 ( 筑波大学 ): 大規模線形計算 連携研究者 佐藤三久 ( 筑波大学 ): 並列システムの性能評価 朴泰祐 ( 筑波大学

More information

1 OpenCL OpenCL 1 OpenCL GPU ( ) 1 OpenCL Compute Units Elements OpenCL OpenCL SPMD (Single-Program, Multiple-Data) SPMD OpenCL work-item work-group N

1 OpenCL OpenCL 1 OpenCL GPU ( ) 1 OpenCL Compute Units Elements OpenCL OpenCL SPMD (Single-Program, Multiple-Data) SPMD OpenCL work-item work-group N GPU 1 1 2 1, 3 2, 3 (Graphics Unit: GPU) GPU GPU GPU Evaluation of GPU Computing Based on An Automatic Program Generation Technology Makoto Sugawara, 1 Katsuto Sato, 1 Kazuhiko Komatsu, 2 Hiroyuki Takizawa

More information

最新の並列計算事情とCAE

最新の並列計算事情とCAE 1 大島聡史 ( 東京大学情報基盤センター助教 / 並列計算分科会主査 ) 最新の並列計算事情と CAE アウトライン 最新の並列計算機事情と CAE 世界一の性能を達成した 京 について マルチコア メニーコア GPU クラスタ 最新の並列計算事情と CAE MPI OpenMP CUDA OpenCL etc. 京 については 仕分けやら予算やら計画やらの面で問題視する意見もあるかと思いますが

More information

修士論文

修士論文 AVX を用いた倍々精度疎行列ベクトル積の高速化 菱沼利彰 1 藤井昭宏 1 田中輝雄 1 長谷川秀彦 2 1 工学院大学 2 筑波大学 1 目次 1. 研究背景 目的 2. 実装, 実験環境 3. 実験 - 倍々精度ベクトル演算 - 4. 実験 - 倍々精度疎行列ベクトル積 - 5. まとめ 多倍長精度計算フォーラム 2 目次 1. 研究背景 目的 2. 実装, 実験環境 3. 実験 - 倍々精度ベクトル演算

More information

Microsoft Word - JP FEA Post Text Neutral File Format.doc

Microsoft Word - JP FEA Post Text Neutral File Format.doc FEA Post Text File Format 1. 共通事項 (1) ファイル拡張子 *.fpt (FEA Post Text File Format) () 脚注 脚注記号 : セミコロン (;) 脚注記号の後に来るテキストは変換されない (3) データ区分 データ区分記号 :, (4) コマンド表示 コマンドの前は * 記号を付けてデータと区分する Example. 単位のコマンド *UNIT

More information

Microsoft Word - nvsi_050110jp_netvault_vtl_on_dothill_sannetII.doc

Microsoft Word - nvsi_050110jp_netvault_vtl_on_dothill_sannetII.doc Article ID: NVSI-050110JP Created: 2005/10/19 Revised: - NetVault 仮想テープ ライブラリのパフォーマンス検証 : dothill SANnetⅡSATA 編 1. 検証の目的 ドットヒルシステムズ株式会社の SANnetll SATA は 安価な SATA ドライブを使用した大容量ストレージで ディスクへのバックアップを行う際の対象デバイスとして最適と言えます

More information

Microsoft PowerPoint - SWoPP2010_Shirahata

Microsoft PowerPoint - SWoPP2010_Shirahata GPU を考慮した MapReduce の タスクスケジューリング 白幡晃一 1 佐藤仁 1 松岡聡 1 2 3 1 東京工業大学 2 科学技術振興機構 3 国立情報学研究所 大規模データ処理 情報爆発時代における 大規模データ処理 気象 生物学 天文学 物理学など様々な科学技術計算での利用 MapReduce 大規模データ処理のためのプログラミングモデルデ スケーラブルな並列データ処理 GPGPU

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション Dell PowerEdge C6320 スケーラブルサーバアプライアンス 仮想化アプライアンスサーバ 最新のプロセッサを搭載したサーバプラットフォーム vsmp Foundation によるサーバ仮想化と統合化の適用 システムはセットアップを完了した状態でご提供 基本構成ではバックプレーン用のスイッチなどが不要 各ノード間を直接接続 冗長性の高いバックプレーン構成 利用するサーバプラットフォームは

More information

第 1 回ディープラーニング分散学習ハッカソン <ChainerMN 紹介 + スパコンでの実 法 > チューター福 圭祐 (PFN) 鈴 脩司 (PFN)

第 1 回ディープラーニング分散学習ハッカソン <ChainerMN 紹介 + スパコンでの実 法 > チューター福 圭祐 (PFN) 鈴 脩司 (PFN) 第 1 回ディープラーニング分散学習ハッカソン チューター福 圭祐 (PFN) 鈴 脩司 (PFN) https://chainer.org/ 2 Chainer: A Flexible Deep Learning Framework Define-and-Run Define-by-Run Define Define by Run Model

More information

インテル(R) Visual Fortran Composer XE

インテル(R) Visual Fortran Composer XE Visual Fortran Composer XE 1. 2. 3. 4. 5. Visual Studio 6. Visual Studio 7. 8. Compaq Visual Fortran 9. Visual Studio 10. 2 https://registrationcenter.intel.com/regcenter/ w_fcompxe_all_jp_2013_sp1.1.139.exe

More information

Microsoft PowerPoint ppt

Microsoft PowerPoint ppt 並列アルゴリズム 2005 年後期火曜 2 限 高見利也 ( 青柳睦 ) Aoyagi@cc.kyushu-u.ac.jp http://server-500.cc.kyushu-u.ac.jp/ 12 月 20 日 ( 火 ) 9. PC クラスタによる並列プログラミング ( 演習 ) つづき 1 もくじ 1. 序並列計算機の現状 2. 計算方式およびアーキテクチュアの分類 3. 並列計算の目的と課題

More information

hpc141_shirahata.pdf

hpc141_shirahata.pdf GPU アクセラレータと不揮発性メモリ を考慮した I/O 性能の予備評価 白幡晃一 1,2 佐藤仁 1,2 松岡聡 1 1: 東京工業大学 2: JST CREST 1 GPU と不揮発性メモリを用いた 大規模データ処理 大規模データ処理 センサーネットワーク 遺伝子情報 SNS など ペタ ヨッタバイト級 高速処理が必要 スーパーコンピュータ上での大規模データ処理 GPU 高性能 高バンド幅 例

More information

about MPI

about MPI 本日 (4/16) の内容 1 並列計算の概要 並列化計算の目的 並列コンピュータ環境 並列プログラミングの方法 MPI を用いた並列プログラミング 並列化効率 2 並列計算の実行方法 Hello world モンテカルロ法による円周率計算 並列計算のはじまり 並列計算の最初の構想を イギリスの科学者リチャードソンが 1922 年に発表 < リチャードソンの夢 > 64000 人を円形の劇場に集めて

More information

GeoFEM開発の経験から

GeoFEM開発の経験から FrontISTR における並列計算のしくみ < 領域分割に基づく並列 FEM> メッシュ分割 領域分割 領域分割 ( パーティショニングツール ) 全体制御 解析制御 メッシュ hecmw_ctrl.dat 境界条件 材料物性 計算制御パラメータ 可視化パラメータ 領域分割ツール 逐次計算 並列計算 Front ISTR FEM の主な演算 FrontISTR における並列計算のしくみ < 領域分割に基づく並列

More information

Fujitsu Standard Tool

Fujitsu Standard Tool 低レベル通信ライブラリ ACP の PGAS ランタイム向け機能 2014 年 10 月 24 日富士通株式会社 JST CREST 安島雄一郎 Copyright 2014 FUJITSU LIMITED 本発表の構成 概要 インタフェース チャネル ベクタ リスト メモリアロケータ アドレス変換 グローバルメモリ参照 モジュール構成 メモリ消費量と性能評価 利用例 今後の課題 まとめ 1 Copyright

More information

Microsoft Word - DF-Salford解説09.doc

Microsoft Word - DF-Salford解説09.doc Digital Fortran 解説 2009/April 1. プログラム形態とデ - タ構成 最小自乗法プログラム (testlsm.for) m 組の実験データ (x i,y i ) に最も近似する直線式 (y=ax+b) を最小自乗法で決定する 入力データは組数 mと m 組の (x i,y i ) 値 出力データは直線式の係数 a,bとなる 入力データ m=4 (x i,y i ) X=1.50

More information

スライド 1

スライド 1 大規模連立一次方程式に対する 高並列前処理技術について 今倉暁筑波大学計算科学研究センター 共同研究者櫻井鉄也 ( 筑波大学 ), 住吉光介 ( 沼津高専 ), 松古栄夫 (KEK) 1 /49 本日のトピック 大規模連立一次方程式 のための ( 前処理付き )Krylov 部分空間法の概略について紹介する. 高並列性を考慮した前処理として, 反復法を用いた重み付き定常反復型前処理を導入し, そのパラメータを最適化手法を提案

More information

スライド 1

スライド 1 本日 (4/25) の内容 1 並列計算の概要 並列化計算の目的 並列コンピュータ環境 並列プログラミングの方法 MPI を用いた並列プログラミング 並列化効率 2 並列計算の実行方法 Hello world モンテカルロ法による円周率計算 並列計算のはじまり 並列計算の最初の構想を イギリスの科学者リチャードソンが 1922 年に発表 < リチャードソンの夢 > 64000 人を円形の劇場に集めて

More information

120802_MPI.ppt

120802_MPI.ppt CPU CPU CPU CPU CPU SMP Symmetric MultiProcessing CPU CPU CPU CPU CPU CPU CPU CPU CPU CPU CPU CPU CP OpenMP MPI MPI CPU CPU CPU CPU CPU CPU CPU CPU CPU CPU MPI MPI+OpenMP CPU CPU CPU CPU CPU CPU CPU CP

More information

2012年度HPCサマーセミナー_多田野.pptx

2012年度HPCサマーセミナー_多田野.pptx ! CCS HPC! I " tadano@cs.tsukuba.ac.jp" " 1 " " " " " " " 2 3 " " Ax = b" " " 4 Ax = b" A = a 11 a 12... a 1n a 21 a 22... a 2n...... a n1 a n2... a nn, x = x 1 x 2. x n, b = b 1 b 2. b n " " 5 Gauss LU

More information

211 年ハイパフォーマンスコンピューティングと計算科学シンポジウム Computing Symposium 211 HPCS /1/18 a a 1 a 2 a 3 a a GPU Graphics Processing Unit GPU CPU GPU GPGPU G

211 年ハイパフォーマンスコンピューティングと計算科学シンポジウム Computing Symposium 211 HPCS /1/18 a a 1 a 2 a 3 a a GPU Graphics Processing Unit GPU CPU GPU GPGPU G 211 年ハイパフォーマンスコンピューティングと計算科学シンポジウム Computing Symposium 211 HPCS211 211/1/18 GPU 4 8 BLAS 4 8 BLAS Basic Linear Algebra Subprograms GPU Graphics Processing Unit 4 8 double 2 4 double-double DD 4 4 8 quad-double

More information

テストコスト抑制のための技術課題-DFTとATEの観点から

テストコスト抑制のための技術課題-DFTとATEの観点から 2 -at -talk -talk -drop 3 4 5 6 7 Year of Production 2003 2004 2005 2006 2007 2008 Embedded Cores Standardization of core Standard format Standard format Standard format Extension to Extension to test

More information

基盤研究(B) 「マルチコア複合環境を指向した適応型自動チューニング技術」

基盤研究(B) 「マルチコア複合環境を指向した適応型自動チューニング技術」 複合マルチコア環境のため の自動チューニング技術 第 2 回自動チューニング技術の現状と応用に関するシンポジウム Second symposium on Automatic Tuning Technology and its Application 基盤研究 (B) 21300013 マルチコア複合環境を指向した適応型自動チューニング技術 今村俊幸 電気通信大学情報理工学研究科 2010/11/04

More information

1重谷.PDF

1重谷.PDF RSCC RSCC RSCC BMT 1 6 3 3000 3000 200310 1994 19942 VPP500/32PE 19992 VPP700E/128PE 160PE 20043 2 2 PC Linux 2048 CPU Intel Xeon 3.06GHzDual) 12.5 TFLOPS SX-7 32CPU/256GB 282.5 GFLOPS Linux 3 PC 1999

More information

N Express5800/R320a-E4 N Express5800/R320a-M4 ユーザーズガイド

N Express5800/R320a-E4  N Express5800/R320a-M4  ユーザーズガイド 7 7 Phoenix BIOS 4.0 Release 6.0.XXXX : CPU=Pentium III Processor XXX MHz 0640K System RAM Passed 0127M Extended RAM Passed WARNING 0212: Keybord Controller Failed. : Press to resume, to setup

More information

Express5800/R320a-E4, Express5800/R320b-M4ユーザーズガイド

Express5800/R320a-E4, Express5800/R320b-M4ユーザーズガイド 7 7 Phoenix BIOS 4.0 Release 6.0.XXXX : CPU=Pentium III Processor XXX MHz 0640K System RAM Passed 0127M Extended RAM Passed WARNING 0212: Keybord Controller Failed. : Press to resume, to setup

More information

Introduction Purpose This training course describes the configuration and session features of the High-performance Embedded Workshop (HEW), a key tool

Introduction Purpose This training course describes the configuration and session features of the High-performance Embedded Workshop (HEW), a key tool Introduction Purpose This training course describes the configuration and session features of the High-performance Embedded Workshop (HEW), a key tool for developing software for embedded systems that

More information

IPSJ SIG Technical Report Vol.2014-IOT-27 No.14 Vol.2014-SPT-11 No /10/10 1,a) 2 zabbix Consideration of a system to support understanding of f

IPSJ SIG Technical Report Vol.2014-IOT-27 No.14 Vol.2014-SPT-11 No /10/10 1,a) 2 zabbix Consideration of a system to support understanding of f 1,a) 2 zabbix Consideration of a system to support understanding of fault occurrences based on the similarity of the time series Miyaza Nao 1,a) Masuda Hideo 2 Abstract: With the development of network

More information

23 Fig. 2: hwmodulev2 3. Reconfigurable HPC 3.1 hw/sw hw/sw hw/sw FPGA PC FPGA PC FPGA HPC FPGA FPGA hw/sw hw/sw hw- Module FPGA hwmodule hw/sw FPGA h

23 Fig. 2: hwmodulev2 3. Reconfigurable HPC 3.1 hw/sw hw/sw hw/sw FPGA PC FPGA PC FPGA HPC FPGA FPGA hw/sw hw/sw hw- Module FPGA hwmodule hw/sw FPGA h 23 FPGA CUDA Performance Comparison of FPGA Array with CUDA on Poisson Equation (lijiang@sekine-lab.ei.tuat.ac.jp), (kazuki@sekine-lab.ei.tuat.ac.jp), (takahashi@sekine-lab.ei.tuat.ac.jp), (tamukoh@cc.tuat.ac.jp),

More information

処理効率

処理効率 処理効率 処理効率の改善 : 基本関数複数メモリ領域線形代数の並列処理並列ガベージコレクタ多項式演算疎な行列とベクトル Maplesoft は 新しいリリースのたびに数学計算の効率と速度の改善を追求してきました これには 頻繁にコールされるルーチンやアルゴリズムの改善だけでなく ローレベルの基礎構造の改善も含まれます Maple では 複素数を含む数値計算を高速化する新しいアル 17 ゴリズムおよび疎な行列とベクトルをより実用的に結合するためのローレベルルーチンが導入されました

More information

workshop Eclipse TAU AICS.key

workshop Eclipse TAU AICS.key 11 AICS 2016/02/10 1 Bryzgalov Peter @ HPC Usability Research Team RIKEN AICS Copyright 2016 RIKEN AICS 2 3 OS X, Linux www.eclipse.org/downloads/packages/eclipse-parallel-application-developers/lunasr2

More information

MPI コミュニケータ操作

MPI コミュニケータ操作 コミュニケータとデータタイプ 辻田祐一 (RIKEN AICS) 講義 演習内容 MPI における重要な概念 コミュニケータ データタイプ MPI-IO 集団型 I/O MPI-IO の演習 2 コミュニケータ MPI におけるプロセスの 集団 集団的な操作などにおける操作対象となる MPI における集団的な操作とは? 集団型通信 (Collective Communication) 集団型 I/O(Collective

More information

memo

memo 数理情報工学演習第一 C プログラミング演習 ( 第 5 回 ) 2015/05/11 DEPARTMENT OF MATHEMATICAL INFORMATICS 1 今日の内容 : プロトタイプ宣言 ヘッダーファイル, プログラムの分割 課題 : 疎行列 2 プロトタイプ宣言 3 C 言語では, 関数や変数は使用する前 ( ソースの上のほう ) に定義されている必要がある. double sub(int

More information

Express5800/320Fc-MR

Express5800/320Fc-MR 7 7 Phoenix BIOS 4.0 Release 6.0.XXXX : CPU=Pentium III Processor XXX MHz 0640K System RAM Passed 0127M Extended RAM Passed WARNING 0212: Keybord Controller Failed. : Press to resume, to setup

More information

数値計算ライブラリの使用方法 「実習編」

数値計算ライブラリの使用方法  「実習編」 数値計算ライブラリの使用方法 実習編 Kobe HPC Spring School 2019 今村俊幸理化学研究所計算科学研究センター Toshiyuki Imamura, RIKEN Center for Computational Science 2019/3/13~ 15 本日の講義 (2) 代表的な3ソフトウェアを使った演習 ScaLAPACK EigenExa PETSc ScaLAPACK

More information

PassMark PerformanceTest ™

PassMark PerformanceTest ™ KRONOS S ライン 性能ベンチマーク オーバークロックモニター OCCT OverClock Checking Tool i7z (A better i7 (and now i3, i5) reporting tool for Linux) KRONOS S800 CATIA Benchmark Aerospace - 8/17 passengers Jet - Mid Fuse DELL Precision

More information

EnSightのご紹介

EnSightのご紹介 オープン CAE シンポジウム 2014 汎用ポストプロセッサー EnSight の大規模データ対応 CEI ソフトウェア株式会社代表取締役吉川慈人 http://www.ceisoftware.co.jp/ 内容 大規模データで時間のかかる処理 クライアント サーバー機能 マルチスレッドによる並列処理 サーバーの分散処理 クライアントの分散処理 ( 分散レンダリング ) EnSightのOpenFOAMインターフェース

More information

2. CABAC CABAC CABAC 1 1 CABAC Figure 1 Overview of CABAC 2 DCT 2 0/ /1 CABAC [3] 3. 2 値化部 コンテキスト計算部 2 値算術符号化部 CABAC CABAC

2. CABAC CABAC CABAC 1 1 CABAC Figure 1 Overview of CABAC 2 DCT 2 0/ /1 CABAC [3] 3. 2 値化部 コンテキスト計算部 2 値算術符号化部 CABAC CABAC H.264 CABAC 1 1 1 1 1 2, CABAC(Context-based Adaptive Binary Arithmetic Coding) H.264, CABAC, A Parallelization Technology of H.264 CABAC For Real Time Encoder of Moving Picture YUSUKE YATABE 1 HIRONORI

More information

並列・高速化を実現するための 高速化サービスの概要と事例紹介

並列・高速化を実現するための 高速化サービスの概要と事例紹介 第 4 回 AVS 可視化フォーラム 2019 並列 高速化を実現するための 高速化サービスの概要と事例紹介 株式会社アーク情報システム営業部仮野亮ソリューション技術部佐々木竜一 2019.08.30 はじめに アーク情報システムの紹介 高速化サービスとは? 事例紹介 コンサルティングサービスについて アーク情報システムの紹介 設立 資本金 :1987 年 10 月 :3 億 600 万円 従業員数

More information

演習1: 演習準備

演習1: 演習準備 演習 1: 演習準備 2013 年 8 月 6 日神戸大学大学院システム情報学研究科森下浩二 1 演習 1 の内容 神戸大 X10(π-omputer) について システム概要 ログイン方法 コンパイルとジョブ実行方法 OpenMP の演習 ( 入門編 ) 1. parallel 構文 実行時ライブラリ関数 2. ループ構文 3. shared 節 private 節 4. reduction 節

More information

Express5800/R320a-E4/Express5800/R320b-M4ユーザーズガイド

Express5800/R320a-E4/Express5800/R320b-M4ユーザーズガイド 7 7 障害箇所の切り分け 万一 障害が発生した場合は ESMPRO/ServerManagerを使って障害の発生箇所を確認し 障害がハー ドウェアによるものかソフトウェアによるものかを判断します 障害発生個所や内容の確認ができたら 故障した部品の交換やシステム復旧などの処置を行います 障害がハードウェア要因によるものかソフトウェア要因によるものかを判断するには E S M P R O / ServerManagerが便利です

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション ANSYS Mechanical Release18.1 BMT Results 作成 :2017-06-21 最終編集 :2017-07-03 項 所属 1 ご担当者 1 所属 2 ご担当者 2 ベンチマークテスト実施者 ベンチマークテスト概要 内容 株式会社 本 HP サービスソリューション事業本部技術本部クライアント技術部 清 康輔 株式会社 本 HP ワークステーションビジネス本部 橋秀樹

More information

CCS HPCサマーセミナー 並列数値計算アルゴリズム

CCS HPCサマーセミナー 並列数値計算アルゴリズム 大規模系での高速フーリエ変換 2 高橋大介 daisuke@cs.tsukuba.ac.jp 筑波大学計算科学研究センター 2016/6/2 計算科学技術特論 B 1 講義内容 並列三次元 FFT における自動チューニング 二次元分割を用いた並列三次元 FFT アルゴリズム GPU クラスタにおける並列三次元 FFT 2016/6/2 計算科学技術特論 B 2 並列三次元 FFT における 自動チューニング

More information

040312研究会HPC2500.ppt

040312研究会HPC2500.ppt 2004312 e-mail : m-aoki@jp.fujitsu.com 1 2 PRIMEPOWER VX/VPP300 VPP700 GP7000 AP3000 VPP5000 PRIMEPOWER 2000 PRIMEPOWER HPC2500 1998 1999 2000 2001 2002 2003 3 VPP5000 PRIMEPOWER ( 1 VU 9.6 GF 16GB 1 VU

More information

(check matrices and minimum distances) H : a check matrix of C the minimum distance d = (the minimum # of column vectors of H which are linearly depen

(check matrices and minimum distances) H : a check matrix of C the minimum distance d = (the minimum # of column vectors of H which are linearly depen Hamming (Hamming codes) c 1 # of the lines in F q c through the origin n = qc 1 q 1 Choose a direction vector h i for each line. No two vectors are colinear. A linearly dependent system of h i s consists

More information

4.1 % 7.5 %

4.1 % 7.5 % 2018 (412837) 4.1 % 7.5 % Abstract Recently, various methods for improving computial performance have been proposed. One of these various methods is Multi-core. Multi-core can execute processes in parallel

More information

Z8 G4 WorkstationでのANSYS19.1 Mechanical ベンチマーク結果紹介資料(フル版)

Z8 G4 WorkstationでのANSYS19.1 Mechanical ベンチマーク結果紹介資料(フル版) Z8 G4 Workstation での ANSYS19.1 Mechanical ベンチマーク結果紹介資料 ( フル版 ) 株式会社日本 HP サービス ソリューション事業本部技術本部クライアント技術部清水康輔 (Workstation Technical Specialist) Sep 2018 システム構成 Workstation : Z8 G4 Workstation CPU : Xeon

More information

soturon.dvi

soturon.dvi 12 Exploration Method of Various Routes with Genetic Algorithm 1010369 2001 2 5 ( Genetic Algorithm: GA ) GA 2 3 Dijkstra Dijkstra i Abstract Exploration Method of Various Routes with Genetic Algorithm

More information

Microsoft PowerPoint - Eigen.pptx

Microsoft PowerPoint - Eigen.pptx 固有値解析 中島研吾 東京大学情報基盤センター同大学院情報理工学系研究科数理情報学専攻数値解析 ( 科目番号 -58) 行列の固有値問題 べき乗法 対称行列の固有値計算法 : ヤコビ法 A 行列の固有値問題 標準固有値問題 (Stndrd vlue Prolem を満足する と を求める : 固有値 (eigenvlue) : 固有ベクトル (eigenvector) 一般固有値問題 (Generl

More information

Platypus-QM β ( )

Platypus-QM β ( ) Platypus-QM β (2012.11.12) 1 1 1.1...................................... 1 1.1.1...................................... 1 1.1.2................................... 1 1.1.3..........................................

More information

2... Numerical Recipes [1] Matrix Computation [2].,.. 2.1, ( ) A. A,.,.. A [ ] [ ] a x T 0 A =, P = I β [0 u T ], P = I βuu T, β = 2/ u 2 x B u P ( ),

2... Numerical Recipes [1] Matrix Computation [2].,.. 2.1, ( ) A. A,.,.. A [ ] [ ] a x T 0 A =, P = I β [0 u T ], P = I βuu T, β = 2/ u 2 x B u P ( ), T2K JST/CREST 1,.,, AX = XΛ AX = BXΛ. A, B (B ), Λ, X.,,., 1,.,.,,.., T2K.,, 1. T2K (HA8000),. eingen_s,, 64 (1024 ). T2K TIPS, T2K.. 1 2... Numerical Recipes [1] Matrix Computation [2].,.. 2.1, ( ) A.

More information

~~~~~~~~~~~~~~~~~~ wait Call CPU time 1, latch: library cache 7, latch: library cache lock 4, job scheduler co

~~~~~~~~~~~~~~~~~~ wait Call CPU time 1, latch: library cache 7, latch: library cache lock 4, job scheduler co 072 DB Magazine 2007 September ~~~~~~~~~~~~~~~~~~ wait Call CPU time 1,055 34.7 latch: library cache 7,278 750 103 24.7 latch: library cache lock 4,194 465 111 15.3 job scheduler coordinator slave wait

More information

メモリ階層構造を考慮した大規模グラフ処理の高速化

メモリ階層構造を考慮した大規模グラフ処理の高速化 , CREST ERATO 0.. (, CREST) ERATO / 8 Outline NETAL (NETwork Analysis Library) NUMA BFS raph500, reenraph500 Kronecker raph Level Synchronized parallel BFS Hybrid Algorithm for Parallel BFS NUMA Hybrid

More information

Studies of Foot Form for Footwear Design (Part 9) : Characteristics of the Foot Form of Young and Elder Women Based on their Sizes of Ball Joint Girth

Studies of Foot Form for Footwear Design (Part 9) : Characteristics of the Foot Form of Young and Elder Women Based on their Sizes of Ball Joint Girth Studies of Foot Form for Footwear Design (Part 9) : Characteristics of the Foot Form of Young and Elder Women Based on their Sizes of Ball Joint Girth and Foot Breadth Akiko Yamamoto Fukuoka Women's University,

More information