PowerPoint プレゼンテーション

Size: px
Start display at page:

Download "PowerPoint プレゼンテーション"

Transcription

1 S6 モデル M XM 目次. 行列積計算. SMP 同期のオーバーヘッド時間 3. MPI 同期のオーバーヘッド時間 4. 性能モニターのサブルーチンコールのオーバーヘッド時間 5. メモリアクセス性能 6. パターンマッチングの利用 7. ストラッセンの行列積 8. 基本演算性能データ 9. 連立一次方程式. 反復法. SIMD(Single Instruction Multiple Data). 性能 log から OpenMP 指示行の作成 3. その他

2 S6 モデル M S6/M システムの ノードでの実行に関しての記述です 構成の概略は以下の様になっています プロセッサ power7 周波数 3.83GHz CPU コア数 3( 物理的 ),64( 論理的 ) 理論最大性能 GFLOPs メモリ容量 56GB メモリアーキテクチャー NUMA,(6 論理コア単位で flat) SIMD(Single Instruction Multiple Data) をサポートする VSX 機構付き L3 キャッシュ On-Chip 3MB/8 コア演算器 / 物理コア乗加算器 4 つ また, メモリアクセス性能をみるのに S6/XM と比較しています S6/xm は周波数が 3.3GHz で他は S6/M と同じです 演算性能だけみれば,S6/M ノードは S6/xm の 6% 性能向上版ともいえます

3 . 行列積計算 C=AB の計算のプログラムには, 外積型, 内積型があります 外積型 内積型 DO 3 K=,NN DO 3 J=,NN DO J=,NN DO I=,NN DO I=,NN S=.D C(I,J)=C(I,J)+A(I,K)*B(K,J) DO K=,NN S=S+A(I,K)*B(K,J) CONTINUE 3 CONTINUE C(I,J)=S CONTINUE 3 CONTINUE 行列積計算で用いられる用語に M 段 N 列というのがあります これは, 上の例では DO 3 K=,NN,NDO 3 J=,NN,N のアンローリング数を N 列 DO J=,NN,MDO I=,NN,M のアンローリング数を M 段 の事を言います 講習会では, キャツシュチューニングを意識した 4 段 6 列内積型のプログラムが示されました

4 iu=6 iu=4 ib= ib= ib3=96 *poption indep(c) <= ここに注目してください do kk=,nn,ib do jj=,nn,ib do ii=,nn,ib3 do k=kk,min(kk+ib-,nn),iu do j=jj,min(jj+ib-,nn),iu t=c(j,k) t64=c(j+3,k+5) do i=ii,min(ii+ib3-,nn) t=t+a(i,j)*b(i,k) t64=t64+a(i,j+3)*b(i,k+5) end do c(j,k)=t c(j+3,k+5)=t64 end do end do end do end do end do

5 ノード 8 スレッド /8core; コンパイルオプション Os parallel NN=88 の場合の実行結果は以下の様になりました *poption indep(c) 行のあるなし ( 指定あり, 指定なし ) の実行結果に大きな差がでました 実行時間 ( 秒 ) 性能 (GFLOPs) 指定あり 指定なし コンパイルリストでは *poption indep(c) の指定あり, なしともに並列化はされています 指定あり *end of compilation MAIN *end of compilation _parallel_func MAIN *end of compilation _parallel_func MAIN *end of compilation _parallel_func_3_main 例示された箇所が DO kk=,nn,ib で並列化されました

6 指定なし *program name = MAIN *end of compilation MAIN *end of compilation _parallel_func MAIN *end of compilation _parallel_func MAIN *end of compilation _parallel_func_3_main *end of compilation _parallel_func_4_main *end of compilation _parallel_func_5_main *end of compilation _parallel_func_6_main () () (3) (4) 例示された箇所が () do kk=,nn,ib で並列化されました () do jj=,nn,ib で並列化されました (3) do ii=,nn,ib3 で並列化されました (4) do k=kk,min(kk+ib-,nn),iu で並列化されました すなわち,*poption indep(c) の指定あり, なしでは一般に言われる並列化率は同じです このため, 実行時間の大きな差は, 並列化回数の差によるものと考えられます 並列化回数の差は, 回 となっています

7 . SMP 同期のオーバーヘッド時間 回あたりの並列化オーバーヘッドを以下のプログラムで測定しました テストプログラム *poption noparallel *soption unroll() do j=,loop *soption nosimd *poption parallel do i=,n c(i)=a(i)+b(i) continue continue Element parallelizing rate (TOTAL)/(Max * TDs) CPU time 98.6[%] = 6.453/(.8984*8) Flop 99.7[%] = 46534/(3596*8) 6.453*(-.986)=.sec,, 回並列化ですので, 回あたりのオーバーヘッドは nsec と推定されます 行列積計算のプログラムでは, ( ) sec/99538=98nsec です 目安として,smp 同期時間のオーバーヘッドは約 nsec ということになります この段階では, 原因究明, 対策が優先で,,98nsec の差にこだわる必要はありません

8 3. MPI 同期のオーバーヘッド時間以下の つのプログラムの差分で測定しています case sec = mpi_wtime() call mpi_barrier(mpi_comm_world,ierr) do i=, call mpi_barrier(mpi_comm_world,ierr) do i=,n/npe xx=x3(i+n*id/npe) end do call mpi_barrier(mpi_comm_world,ierr) end do call mpi_barrier(mpi_comm_world,ierr) sec = mpi_wtime() - sec case sec = mpi_wtime() call mpi_barrier(mpi_comm_world,ierr) *soption unroll() <= アンローリングの最適化を抑止 do i=, do i=,n/npe xx=x3(i+n*id/npe) end do end do call mpi_barrier(mpi_comm_world,ierr) sec = mpi_wtime() - sec

9 測定結果 MPI 数 case case 同期時間 ( 秒 ) ( 秒 ) nsec/ 回 同期のオーバーヘッド時間は, 最大 5 マイクロ秒ですので,smp オーバーヘッドの数十倍となります 以上から ノードで実行する場合は,SMP 並列で実行するのが良い事がわかります

10 4. 性能モニターのサブルーチンコールのオーバーヘッド時間 C 以下のプログラムで測定しています s=.d a=.d b=.d do i=, call sub(s,a,b) end do write(6,*) 's=',s subroutine sub(s,a,b) implicit real*8 (a-h,o-z) s=s+a+b return end 性能モニター使用オプション指定の場合の結果 s= 3. elapse= sec 性能モニター使用オプション指定なしの場合の結果 s= 3. elapse= e- sec

11 実行時間に明らかに大きな差がでています この結果からサブルーチンコール 回あたりの性能モニターのオーバーヘッド時間は, ( ) sec/,,= micro sec より 約 4micro sec となります 例えば, あるサブルーチンの演算量が FLOP, 呼ばれる回数が 億回とします するとこのサブルーチンの総演算量は GFLOP となり, ノードで実行すれば, 数十秒 ( 分以内 ) で終了するでしょう ところが, 性能モニターを使用すると, 4, 秒 時間強 ( 約半日 ) かかる事になります このため, モニターリングのオーバーヘッド時間を測定するか, 運営サイトに質問するのが良いでしょう もし, サブルーチンのインライン化をして実行してくださいという回答が来れば, マニュアル等で調べる手間を省かない様にするのが良いでしょう

12 5. メモリアクセス性能以下の簡単な 5 つのプログラムで測定しています (MMAX=893) D Copy D Scale D Add do j =,MMAX do j =,MMAX do j =,MMAX do i =,MMAX do i =,MMAX do i =,MMAX r(i,j)=p(i,j) p(i,j)=scalar*q(i,j) q(i,j)=p(i,j)+r(i,j) enddo enddo enddo enddo enddo enddo D Triad do j=,mmax do i=,mmax r(i,j) = p(i,j) + scalar*q(i,j) enddo enddo Transpose do j=,mmax do i=,mmax r(i,j)=p(j,i) enddo enddo S6/XM と S6/M の 機種で測定していますが, 約 3 倍の差があり, 演算性能の差 6% とは大きな差があります 特に,Transpose 64 スレッドでの差が顕著です

13 メモリバンド幅性能測定結果 (MB/sec) S6/XM MB/sec function スレッド スレッド 4スレッド 8スレッド 6スレッド 3スレッド 64スレッド D Copy D Scale D ADD D Triad Transpose S6/M MB/sec function スレッド スレッド 4スレッド 8スレッド 6スレッド 3スレッド 64スレッド D Copy D Scale D ADD D Triad Transpose

14 QCD( 量子色力学 ) 計算の主要な処理に, 計算機から見た場合アドレス非連続な複素数変数の行列積計算があります この処理を性能テスト用に切り出したプログラムを S6/M,S6/XM で実行した結果は以下の様になりました サイズ条件 NX=6,NY=6,NZ=64,NT=6 コンパイルオプション -Oss 実行環境 64SMP/3COE チューニングの内容は以下の つです () 複素変数を実数変数化し, コンパイラ最適化と VSX(SIMD 命令の適用 ) 機能の適用を容易にしました ()mod 関数を IAND 関数に置き換え整数演算の高速化と使用する整数用レジスタの数を削減しました 実行結果 GFLOPs 一覧表 オリジナルソース チューニングソース S6/M Xm メモリアクセス性能測定結果とよく対応しており, チューニング効果は,S6/XM に比べて S6/M が小さくなっています この事から, ()QCD というプログラムは演算性能よりもメモリアクセス性能に大きく依存する ()S6/M でのチューニングは更なる検討が今後の課題となる ( 今後適時記述予定 ) という事がわかります

15 6. パターンマッチングの利用行列積計算の様にアンローリングの効果の大きいものがあります ただ, プログラムのメンテナンスや, コーデイングの手間を考えた場合, 基本通りにコーデイングしたものが高い性能を出してくれるコンパイラが望ましいものです 例えば, サイズ N=377 の行列積計算をコーデイングする場合, アンローリングによるコーデイング数の増加に加え, 端数部分の処理も追加しなければなりません また計算機機種によりアンローリング数の最適値が変わる事があり, その都度プログラム修正の手間がかかります アンローリングもしない基本どうりのコーデイングで高い性能が得られればその手間も省けますので, 運営サイトに問合わせるのも良いでしょう S6/M の場合の例を以下に示します

16 行列積計算 ( アンローリングとの比較 ) 外積型 DO K=,NN DO J=,NN DO I=,NN A(I,J)=A(I,J)+B(I,K)*C(K,J) 内積型 DO J=,NN DO I=,NN S=.D DO 3 K=,NN S=S+B(I,K)*C(K,J) 3 CONTINUE A(I,J)=S CONTINUE N=37 Oss でコンパイル 外積型 内積型 アンローリングなし smt on 64smp/3core 334.6Gflops 4.7Gflops smt off 3smp/3core 8.8Gflops.9Gflops アンローリングあり smt on 64smp/3core 53.7Gflops 65.8Gflops ( 四段四列 ) smt off 3smp/3core 6.5Gflops 7.6Gflops 尚, この例は, 実数型倍精度変数ですが, 複素数型倍精度変数でも, パターンマッチングが適用されています

17 7. ストラッセンの行列積演算量の削減を考えたアルゴリズムとして, ストラッセンの行列積,FFT などがあります これらの演算の特徴として, 元の演算 ( 行列積計算, フーリエ変換計算 ) は乗算と加算が同数とバランスが良く実行性能効率は高く, アルゴリズム変更後は, 演算量は削減されますが, 乗算と加算の演算比率のバランスが悪くなり, また中間結果の格納のためメモリアクセス負荷が高まるため, 実行時間は短縮されますが, 実行性能効率は低くなる事が挙げられます 実行性能効率より, 実行時間短縮を優先させるのが良いでしょう 以下例として FFT, ストラッセンの行列積の演算量を示しました 一次元 FFT 乗算 nlog 加減算 nlog N k n n n ストラッセンの行列積 A(k) 加減算回数 M(k) 乗算回数 k N k 段数 ( k ) M () N 3, A() N 3 J,,..., k M ( J ) A( J ) 7 M ( J 7 A( J ) ) 5 ( J N )

18 N 行列積の演算量 3 をストラッセンの行列積の実行時間 で割った見かけの性能が理論最大性能を上回るサイズ, 段数により, その計算機のメモリアクセス性能を判断する事が出来ます サイズが小さく, 段数が少なくて済むものほどメモリアクセス性能が高いと言えます S6/M での実測は以下の様になっています N=644, 段数 4 段, コンパイルオプションは -Oss 使用コア数実測結果 理論最大性能 (GFLOPs) (GFLOPs)

19 8. 基本演算性能データアルゴリズムによっては, 乗算と加減算のバランスが悪かったり, 除算が多いものなどがあります 一般にアナウンスされる計算機の性能は, 同時に動作する浮動小数点演算器 ( 加算器と乗算器のみ ) の数をもとに算出されています このため, 除算やべき乗計算, 数学関数などの性能を測定するか, 運営サイトに問合わせて確認する必要があります S6/M では 性能モニターで測定した演算数は以下の様になっています 関数 *8 *6 C*6 C*3 演算数 演算数 演算数 演算数 SQT EXP LOG SIN COS TAN ーーーーーーーーー べき乗 絶対値 ーーーーーーーーーー 6 6 ここで 倍精度実数 SQTの演算数は4なので 倍精度複素数 z a b* iでは絶対値計算 は演算数 7で済むのではと考えられますが, 値は 6になっています これは 提供されている複素数 絶対値計算は精度を考慮し, a, bの値により場合わけ を行う事によります もしそのような心配がない 場合は 6 / 7 倍以上の性能向上が出来る事になります a b

20 また,a,b,c を倍精度実数配列,IN 整数配列とした場合以下のような事がありますので注意してください Case DO I=,N C(i)=a(i)**b(i) End do Case DO i=,n C(i)=a(i)**IN(i) End do B(i) にはすべて 5.d,IN(i) にはすべて 5 が入っていいる場合の 要素あたりの浮動小数点演算数は case 98 case 4 となります

21 選択した 6 個の基本演算 DO ループ TEST C で始まる変数は複素数変数 TEST DO I=,N V(I)=V(I)+V3(I) DO I=,N V(I)=V(I)*V3(I) TEST3 DO I=,N V(I)=V(I)/V3(I) TEST5 DO I=,N CV(I)=CV(I)*CV3(I) TEST7 T=.D DO I=,N T=T+V(I) TEST4 DO I=,N CV(I)=CV(I)+CV3(I) TEST6 DO I=,N CV(I)=CV(I)/CV3(I) test8 T=.D DO I=,N T=T+V(I)*V3(I)

22 test9 DO I=,N V(I)=SQT(V(I)) test DO I=,N V(I)=COS(V(I)) test DO I=,N V(I)=SIN(V(I)) test DO I=,N V(I)=TAN(V(I)) test3 DO I=,N V(I)=EXP(V(I)) test4 DO I=,N V(I)=LOG(V(I)) test5 DO I=,N V(I)=ABS(CV(I)) test6 S=.D S=.D DO I=,N S=S+(V(I)-V3(I))** S=S+(V(I)+V3(I))**

23 9. 連立一次方程式直接法では TOP5 で性能評価される事で有名ですが, 3 次元問題などになると, メモリ容量, 演算量が非常に大きくなり, 実用上使用される事がなく, 反復法が良く使用されています ただここ 年来, 精度上の問題で一部の次元の小さい方程式を直接法で解く事も行われる様になってきています ( 構造計算など ) また, 連立一次方程式の直接法は 年前にはドンガラレポートとして実用ベースの次元数, の各種計算機の性能比較が行われていました 元ソース修正不可 ハードウエア及びコンパイラの最適化能力こみの評価 元ソース修正可 上記に加えチューニング能力も含めた評価 元オーダーあたりが実用的に使用されるサイズで, この部分を含んだ箇所を並列化するということが多いため,S6/M では 元, コア実行での性能を評価しています コンパイルオプション -Oss noparallel

24 S6/M コア ( 論理最大性能 3.64GFLOPs) 実行結果 次元数 N= アンローリング 段数 列数 性能 (GFLOPs) 実行結果からも推測されるとは思いますが,S6/M 以外の多くの計算機でも段数, 列数 4~8 あたりが最適となっています

25 . 反復法固有値計算など多岐に亘って反復法が使用されています テストとしては対称行列には CG 法,PCG 法, 非対称行列には CGS 法,BCG 法で最適化の影響などをチェックしています Ax=b A 行列,x,b はベクトル A を定め, 解がすべて となる様に b を設定しています 反復の初期値は x(i)=.d (i=,,.,n) としています また,S6/M で実行したときの収束状況を一覧にして次ページに記載しています A= A= 対称非対称

26 回収束せず回収束せず回収束せず精度最大誤差反復回数精度最大誤差反復回数反復回数と精度非対称行列回収束せず精度最大誤差反復回数精度最大誤差反復回数反復回数と精度対称行列収束判定値 ) (5 ) (5 ) (5 ) ( ) ( () ) (5 ) ( ) ( (),, BCG BCG CGS CGS PCG PCG CG CG n 収束状況一覧表

27 . SIMD(Single Instruction Multiple Data) 高速化手法として 以前から SIMD という事が言われていましたが 最近とみに使われる様になりました SIMD の効果を考える場合 つぎの つのケースがあります 演算 GPU S6/M SMP SIMD SMP SIMD 倍精度実数乗算 OK OK OK OK 倍精度複素数乗算 OK OK OK NG 4 倍精度実数加算 OK OK OK NG 4 倍精度実数乗算 OK OK OK NG OK 適用可 NG 適用不可 S6/M では, キャッシュ LD 3KB/ コア,L 56KB/ コア L3 3MB/8 コアを考慮して 実数型倍精度変数ワークエリアを使用して 複素数型倍精度変数の乗算 実数型 4 倍精度変数の加減算 乗算における SIMD 効果のテストを行いました () ワークエリアと取り方と最適なサイズの調査 () 並列実行時も含めた効果の調査の順で実施したテスト結果は以下の様になりました

28 ワークエリアと取り方と最適なサイズ調査 N=6384 の複素数乗加算演算時間 実行時間 ( 秒 ) real complex simd ワークエリアサイズ

29 並列化も含めた効果の調査 実行時間 ( 秒 ) 3 N=65536 の演算時間 - Simd 用ワークエリア nn= 複素数乗算 SIMD 4 倍精度加算 SIMD 4 倍精度乗算 SIMD3 5 4 コア数

30 N=65536 の演算時間 - Simd 用ワークエリア nn=56 実行時間 ( 秒 ) 複素数乗算 SIMD 4 倍精度加算 SIMD 4 倍精度乗算 SIMD コア数

31 . 性能 log から OpenMP 指示行の作成 S6/M システムでは, チューニングのために コンパイル時に性能関連情報が取得できます これを OpenMP の指示行作成に利用できます その一例をしめします sum=.q ** ** Parallel processing starting at loop entry ** Parallel function _parallel_func MAIN ** Parallel loop ** D TLOCAL variable ** ZZ TLOCAL variable ** SUM3 TLOCAL variable ** CNT4 TLOCAL variable ** YY TLOCAL variable ** SUM TLOCAL variable ** CNT TLOCAL variable ** XX TLOCAL variable ** SUM reduction variable (SUM) ** I3 TLOCAL variable ** I TLOCAL variable TLOCAL 変数は private に置き換えます

32 do i=,n xx=x3(i)*cnt by=.q-xx cnt=by-ay sum=.q ** do i=,n yy=x3(i)*cnt bz=.q-xx-yy cnt4=bz-az sum3=.q ** ** Continued parallel processing ** Parallel processing finishing at loop exit n the loop. ** do i3=,n zz=x3(i3)*cnt4 d = -xx*yy*s-tt*zz*(.q-xx-yy-zz)+(xx+yy)*ramda**+ (.q-xx-yy-zz)*(.q-xx-yy)*fme**+zz*(.q-xx-yy)*fmf** sum3=sum3+cnt*cnt*cnt4*(gw3(i)/d)*(gw3(i)/d)*gw3(i3) end do sum=sum+sum3*h end do sum=sum+sum*h end do!$omp parallel do を最外側 DO i=,n の前に挿入すれば良い事を表しています

33 指示行挿入後のソース!$OMP parallel do!$omp& reduction(+sum)!$omp& private(xx,yy,cnt,cnt4,i,i3,sum,sum3,d,by,bz) do i=,n xx=x3(i)*cnt by=.q-xx cnt=by-ay sum=.q do i=,n yy=x3(i)*cnt bz=.q-xx-yy cnt4=bz-az sum3=.q do i3=,n zz=x3(i3)*cnt4 d = -xx*yy*s-tt*zz*(.q-xx-yy-zz)+(xx+yy)*ramda**+ (.q-xx-yy-zz)*(.q-xx-yy)*fme**+zz*(.q-xx-yy)*fmf** sum3=sum3+cnt*cnt*cnt4*(gw3(i)/d)*(gw3(i)/d)*gw3(i3) end do sum=sum+sum3*h end do sum=sum+sum*h end do!$omp end parallel do

34 3. その他計算機の性能では整数演算, 論理演算, マスク演算, リスト演算は見逃がされている事が多く, 整数演算による性能低下や, 並列化効果の低下をもたらす事もありますので つのお勧めの例を示しました ( ア )mod 関数は iand 関数に変更 mod(i,) => iand(i,) mod(i,4)=> iand(i,3) ( イ )if 文の削除 ( 並列化実行時の演算量の均等化 ) do it=,nt do iz=,nz do iy=,ny do ix=,nx if(mod(ix+iy+iz+it,).eq.ieo) then は以下の様に修正するのが良いでしょう do it=,nt do iz=,nz do iy=,ny ip=iand(ix+iy+iz+it+ieo+,) do ix=+ip,nx,

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション 各種計算機アプリケーション性能比較 目次. はじめに. 行列積計算.QDR 積計算 4.N 体問題計算 5. 多次元積分計算 5. 次元積分計算 5. 次元積分計算 5. 4 次元積分計算 5.4 5 次元積分計算 5.5 6 次元積分計算 平成 6 年度第 四半期 . はじめに 今までと少し性質の異なるグラフィックボードが使用できる様になったので従来のアプリケーションで性能比較を実施しました 主に使用した計算機は以下のものです

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション 多倍長精度演算の性能評価 日時 年 月 日 :3-: 場所工学院大学新宿校舎 8 階第 4 会議室 高エネルギー加速器研究機構 濱口信行 hgu@post.kek.jp // 第 回多倍長精度計算フォーラム . はじめに 計算センター => ユーザプログラムの実行効率は何 % です よく出ています or 改善してください 実行性能 = 演算量 / 実行時間実行効率 = 実行性能 / 理論性能 ユーザ実行時間

More information

演習1

演習1 神戸市立工業高等専門学校電気工学科 / 電子工学科専門科目 数値解析 2019.5.10 演習 1 山浦剛 (tyamaura@riken.jp) 講義資料ページ http://r-ccs-climate.riken.jp/members/yamaura/numerical_analysis.html Fortran とは? Fortran(= FORmula TRANslation ) は 1950

More information

Microsoft Word ●IntelクアッドコアCPUでのベンチマーク_吉岡_ _更新__ doc

Microsoft Word ●IntelクアッドコアCPUでのベンチマーク_吉岡_ _更新__ doc 2.3. アプリ性能 2.3.1. Intel クアッドコア CPU でのベンチマーク 東京海洋大学吉岡諭 1. はじめにこの数年でマルチコア CPU の普及が進んできた x86 系の CPU でも Intel と AD がデュアルコア クアッドコアの CPU を次々と市場に送り出していて それらが PC クラスタの CPU として採用され HPC に活用されている ここでは Intel クアッドコア

More information

<4D F736F F F696E74202D F A282BD94BD959C89F A4C E682528D652E707074>

<4D F736F F F696E74202D F A282BD94BD959C89F A4C E682528D652E707074> 発表の流れ SSE を用いた反復解法ライブラリ Lis 4 倍精度版の高速化 小武守恒 (JST 東京大学 ) 藤井昭宏 ( 工学院大学 ) 長谷川秀彦 ( 筑波大学 ) 西田晃 ( 中央大学 JST) はじめに 4 倍精度演算について Lisへの実装 SSEによる高速化 性能評価 スピード 収束 まとめ はじめに クリロフ部分空間法たとえば CG 法は, 理論的には高々 n 回 (n は係数行列の次元数

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション 多倍長計算手法 平成 年度第 四半期 今回はパラメータ の設定と精度に関してまとめて記述しました ループ積分と呼ばれる数値積分計算では 質量 の光子や質量が非常に小さい事はわかっているが その値は不明なニュートリノに対して赤外発散を防ぐため微小量を与えて計算しています この設定する微少量の値により 結果の精度及び反復に要する時間が大きく作用したり 誤った値を得る事があります ここでは典型的な つのケースで説明します

More information

演習1: 演習準備

演習1: 演習準備 演習 1: 演習準備 2013 年 8 月 6 日神戸大学大学院システム情報学研究科森下浩二 1 演習 1 の内容 神戸大 X10(π-omputer) について システム概要 ログイン方法 コンパイルとジョブ実行方法 OpenMP の演習 ( 入門編 ) 1. parallel 構文 実行時ライブラリ関数 2. ループ構文 3. shared 節 private 節 4. reduction 節

More information

修士論文

修士論文 AVX を用いた倍々精度疎行列ベクトル積の高速化 菱沼利彰 1 藤井昭宏 1 田中輝雄 1 長谷川秀彦 2 1 工学院大学 2 筑波大学 1 目次 1. 研究背景 目的 2. 実装, 実験環境 3. 実験 - 倍々精度ベクトル演算 - 4. 実験 - 倍々精度疎行列ベクトル積 - 5. まとめ 多倍長精度計算フォーラム 2 目次 1. 研究背景 目的 2. 実装, 実験環境 3. 実験 - 倍々精度ベクトル演算

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション スーパーコンピュータ有効活用の手引き ( 平成 年度 - 平成 7 年度 平成 年度から高性能計算の扉に記載しました各種計算機基本性能調査 各種計算機アプリケーション性能比較 多倍長計算手法のまとめとして性能関連事項を各種計算機性能調査まとめと 精度関連事項を多倍長計算手法まとめの 冊にしました 性能関連事項と精度関連事項は異なる視点からの検討が必要な部分が多くあるため この 冊を列挙する体裁を取っています

More information

openmp1_Yaguchi_version_170530

openmp1_Yaguchi_version_170530 並列計算とは /OpenMP の初歩 (1) 今 の内容 なぜ並列計算が必要か? スーパーコンピュータの性能動向 1ExaFLOPS 次世代スハ コン 京 1PFLOPS 性能 1TFLOPS 1GFLOPS スカラー機ベクトル機ベクトル並列機並列機 X-MP ncube2 CRAY-1 S-810 SR8000 VPP500 CM-5 ASCI-5 ASCI-4 S3800 T3E-900 SR2201

More information

<4D F736F F F696E74202D D F95C097F D834F E F93FC96E5284D F96E291E85F8DE391E52E >

<4D F736F F F696E74202D D F95C097F D834F E F93FC96E5284D F96E291E85F8DE391E52E > SX-ACE 並列プログラミング入門 (MPI) ( 演習補足資料 ) 大阪大学サイバーメディアセンター日本電気株式会社 演習問題の構成 ディレクトリ構成 MPI/ -- practice_1 演習問題 1 -- practice_2 演習問題 2 -- practice_3 演習問題 3 -- practice_4 演習問題 4 -- practice_5 演習問題 5 -- practice_6

More information

Microsoft PowerPoint - sales2.ppt

Microsoft PowerPoint - sales2.ppt 最適化とは何? CPU アーキテクチャに沿った形で最適な性能を抽出できるようにする技法 ( 性能向上技法 ) コンパイラによるプログラム最適化 コンパイラメーカの技量 経験量に依存 最適化ツールによるプログラム最適化 KAP (Kuck & Associates, Inc. ) 人によるプログラム最適化 アーキテクチャのボトルネックを知ること 3 使用コンパイラによる性能の違い MFLOPS 90

More information

4 倍精度基本線形代数ルーチン群 QPBLAS の紹介 [index] 1. Introduction 2. Double-double algorithm 3. QPBLAS 4. QPBLAS-GPU 5. Summary 佐々成正 1, 山田進 1, 町田昌彦 1, 今村俊幸 2, 奥田洋司

4 倍精度基本線形代数ルーチン群 QPBLAS の紹介 [index] 1. Introduction 2. Double-double algorithm 3. QPBLAS 4. QPBLAS-GPU 5. Summary 佐々成正 1, 山田進 1, 町田昌彦 1, 今村俊幸 2, 奥田洋司 4 倍精度基本線形代数ルーチン群 QPBLAS の紹介 [index] 1. Introduction 2. Double-double algorithm 3. QPBLAS 4. QPBLAS-GPU 5. Summary 佐々成正 1, 山田進 1, 町田昌彦 1, 今村俊幸 2, 奥田洋司 3 1 1 日本原子力研究開発機構システム計算科学センター 2 理科学研究所計算科学研究機構 3 東京大学新領域創成科学研究科

More information

演習準備

演習準備 演習準備 2014 年 3 月 5 日神戸大学大学院システム情報学研究科森下浩二 1 演習準備の内容 神戸大 FX10(π-Computer) 利用準備 システム概要 ログイン方法 コンパイルとジョブ実行方法 MPI 復習 1. MPIプログラムの基本構成 2. 並列実行 3. 1 対 1 通信 集団通信 4. データ 処理分割 5. 計算時間計測 2 神戸大 FX10(π-Computer) 利用準備

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション 数 値 計 算 と 性 能, 精 度 に 関 するまとめ.はじめに 数 値 計 算 の 性 能, 精 度 に 関 して 以 下 の 事 を まとめました ()SRのsmpとmpiの 効 果 を 対 称 行 列 の ノンゼロ 要 素 のみを 使 用 するCG 法 でその 性 能 を 検 証 しました ()ループ 積 分 を 用 いて,アクセラレータ 及 び サーバーの 性 能 を 比 較 しました ()サーバーにおいてRump

More information

スライド 1

スライド 1 知能制御システム学 画像処理の高速化 OpenCV による基礎的な例 東北大学大学院情報科学研究科鏡慎吾 swk(at)ic.is.tohoku.ac.jp 2007.07.03 リアルタイム処理と高速化 リアルタイム = 高速 ではない 目標となる時間制約が定められているのがリアルタイム処理である.34 ms かかった処理が 33 ms に縮んだだけでも, それによって与えられた時間制約が満たされるのであれば,

More information

スライド 1

スライド 1 ATI Stream SDK による 天文 物理計算の高速化 会津大学中里直人 計算事例 : 重力 N 体計算 No.2 プログラム :N 体の重力計算 (1) No.3 既存のアルゴリズムやアプリケーションを CAL で実装するには 前提として 並列計算可能な問題でなくては 利用する意味がない GPU のアーキテクチャにあわせて アルゴリズムを変更する必要あり GPU のメモリに合わせた 効率のよいデータ構造を考える必要あり

More information

Microsoft PowerPoint - OpenMP入門.pptx

Microsoft PowerPoint - OpenMP入門.pptx OpenMP 入門 須田礼仁 2009/10/30 初版 OpenMP 共有メモリ並列処理の標準化 API http://openmp.org/ 最新版は 30 3.0 バージョンによる違いはあまり大きくない サポートしているバージョンはともかく csp で動きます gcc も対応しています やっぱり SPMD Single Program Multiple Data プログラム #pragma omp

More information

Microsoft Word ●書式付IO性能_杉崎_ _更新__ doc

Microsoft Word ●書式付IO性能_杉崎_ _更新__ doc 2.2.3. 書式付 I/O 性能 上智大学南部伸孝富士通株式会社内藤俊也 杉崎由典 1. はじめに I/O 処理に要する時間の内訳は システムの実 I/O 時間 + ランタイムの書式処理時間となっている プログラムを用いた書式付 I/O 時間を富士通コンパイラで評価した所 システム時間が約 12% であり ランタイム時間が約 88% ということが確認された 即ち 書式付 I/O 性能は ランタイムの性能に大きく影響される

More information

Microsoft PowerPoint - 報告会_羽角.ppt [互換モード]

Microsoft PowerPoint - 報告会_羽角.ppt [互換モード] 2010.05.21 東京大学情報基盤センター平成 21 年度公募型プロジェクト報告会 ペタ/ エクサスケールコンピューティングへの道 2010 海洋大循環のマルチスケール連結階層モデリング 羽角博康東京大学大気海洋研究所 ( 旧気候システム研究センター ) 海洋大循環 ( とくに全球規模熱塩循環 ): 一周 100,000000 km 以上の空間スケール 全球規模熱塩循環の pathway の実態

More information

hirayama

hirayama 128 ビット 4 倍精度と 160 ビット拡張 4 倍精度演算プログラムの作成 平山弘神奈川工科大学自動車システム開発工学科 hirayama@sd.kanagawa-it.ac.jp 工学院大学新宿校舎 28 階第 4 会議室 2013 年 3 月 8 日 ( 金 ) なぜ 4 倍精度か 4 倍精度程度の精度では 多倍長計算はあまり速くない 精度の小さい計算の方が計算精度が大きい計算より需要は多い

More information

Microsoft PowerPoint - qcomp.ppt [互換モード]

Microsoft PowerPoint - qcomp.ppt [互換モード] 量子計算基礎 東京工業大学 河内亮周 概要 計算って何? 数理科学的に 計算 を扱うには 量子力学を計算に使おう! 量子情報とは? 量子情報に対する演算 = 量子計算 一般的な量子回路の構成方法 計算って何? 計算とは? 計算 = 入力情報から出力情報への変換 入力 計算機構 ( デジタルコンピュータ,etc ) 出力 計算とは? 計算 = 入力情報から出力情報への変換 この関数はどれくらい計算が大変か??

More information

Microsoft PowerPoint - 演習1:並列化と評価.pptx

Microsoft PowerPoint - 演習1:並列化と評価.pptx 講義 2& 演習 1 プログラム並列化と性能評価 神戸大学大学院システム情報学研究科横川三津夫 yokokawa@port.kobe-u.ac.jp 2014/3/5 RIKEN AICS HPC Spring School 2014: プログラム並列化と性能評価 1 2014/3/5 RIKEN AICS HPC Spring School 2014: プログラム並列化と性能評価 2 2 次元温度分布の計算

More information

VXPRO R1400® ご提案資料

VXPRO R1400® ご提案資料 Intel Core i7 プロセッサ 920 Preliminary Performance Report ノード性能評価 ノード性能の評価 NAS Parallel Benchmark Class B OpenMP 版での性能評価 実行スレッド数を 4 で固定 ( デュアルソケットでは各プロセッサに 2 スレッド ) 全て 2.66GHz のコアとなるため コアあたりのピーク性能は同じ 評価システム

More information

CPU Levels in the memory hierarchy Level 1 Level 2... Increasing distance from the CPU in access time Level n Size of the memory at each level 1: 2.2

CPU Levels in the memory hierarchy Level 1 Level 2... Increasing distance from the CPU in access time Level n Size of the memory at each level 1: 2.2 FFT 1 Fourier fast Fourier transform FFT FFT FFT 1 FFT FFT 2 Fourier 2.1 Fourier FFT Fourier discrete Fourier transform DFT DFT n 1 y k = j=0 x j ω jk n, 0 k n 1 (1) x j y k ω n = e 2πi/n i = 1 (1) n DFT

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション 応用数理概論 準備 端末上で cd ~/ mkdir cppwork cd cppwork wget http://271.jp/gairon/main.cpp wget http://271.jp/gairon/matrix.hpp とコマンドを記入. ls とコマンドをうち,main.cppとmatrix.hppがダウンロードされていることを確認. 1 準備 コンパイル c++ -I. -std=c++0x

More information

CCS HPCサマーセミナー 並列数値計算アルゴリズム

CCS HPCサマーセミナー 並列数値計算アルゴリズム 大規模系での高速フーリエ変換 2 高橋大介 daisuke@cs.tsukuba.ac.jp 筑波大学計算科学研究センター 2016/6/2 計算科学技術特論 B 1 講義内容 並列三次元 FFT における自動チューニング 二次元分割を用いた並列三次元 FFT アルゴリズム GPU クラスタにおける並列三次元 FFT 2016/6/2 計算科学技術特論 B 2 並列三次元 FFT における 自動チューニング

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション OpenMP 並列解説 1 人が共同作業を行うわけ 田植えの例 重いものを持ち上げる 田おこし 代かき 苗の準備 植付 共同作業する理由 1. 短時間で作業を行うため 2. 一人ではできない作業を行うため 3. 得意分野が異なる人が協力し合うため ポイント 1. 全員が最大限働く 2. タイミングよく 3. 作業順序に注意 4. オーバーヘッドをなくす 2 倍率 効率 並列化率と並列加速率 並列化効率の関係

More information

Microsoft PowerPoint - KHPCSS pptx

Microsoft PowerPoint - KHPCSS pptx KOBE HPC サマースクール 2018( 初級 ) 9. 1 対 1 通信関数, 集団通信関数 2018/8/8 KOBE HPC サマースクール 2018 1 2018/8/8 KOBE HPC サマースクール 2018 2 MPI プログラム (M-2):1 対 1 通信関数 問題 1 から 100 までの整数の和を 2 並列で求めなさい. プログラムの方針 プロセス0: 1から50までの和を求める.

More information

スライド 1

スライド 1 本日 (4/25) の内容 1 並列計算の概要 並列化計算の目的 並列コンピュータ環境 並列プログラミングの方法 MPI を用いた並列プログラミング 並列化効率 2 並列計算の実行方法 Hello world モンテカルロ法による円周率計算 並列計算のはじまり 並列計算の最初の構想を イギリスの科学者リチャードソンが 1922 年に発表 < リチャードソンの夢 > 64000 人を円形の劇場に集めて

More information

NUMAの構成

NUMAの構成 共有メモリを使ったデータ交換と同期 慶應義塾大学理工学部 天野英晴 hunga@am.ics.keio.ac.jp 同期の必要性 あるプロセッサが共有メモリに書いても 別のプロセッサにはそのことが分からない 同時に同じ共有変数に書き込みすると 結果がどうなるか分からない そもそも共有メモリって結構危険な代物 多くのプロセッサが並列に動くには何かの制御機構が要る 不可分命令 同期用メモリ バリア同期機構

More information

Microsoft PowerPoint - GPUシンポジウム _d公開版.ppt [互換モード]

Microsoft PowerPoint - GPUシンポジウム _d公開版.ppt [互換モード] 200/0/9 数値流体解析の並列効率とその GPU による高速化の試み 清水建設 ( 株 ) 技術研究所 PHAM VAN PHUC ( ファムバンフック ) 流体計算時間短縮と GPU の活用の試み 現 CPUとの比較によりGPU 活用の可能性 現 CPU の最大利用 ノード内の最大計算資源の利用 すべてCPUコアの利用 適切なアルゴリズムの利用 CPU コア性能の何倍? GPU の利用の試み

More information

コードのチューニング

コードのチューニング OpenMP による並列化実装 八木学 ( 理化学研究所計算科学研究センター ) KOBE HPC Spring School 2019 2019 年 3 月 14 日 スレッド並列とプロセス並列 スレッド並列 OpenMP 自動並列化 プロセス並列 MPI プロセス プロセス プロセス スレッドスレッドスレッドスレッド メモリ メモリ プロセス間通信 Private Private Private

More information

Microsoft PowerPoint ppt

Microsoft PowerPoint ppt 並列アルゴリズム 2005 年後期火曜 2 限 高見利也 ( 青柳睦 ) Aoyagi@cc.kyushu-u.ac.jp http://server-500.cc.kyushu-u.ac.jp/ 12 月 20 日 ( 火 ) 9. PC クラスタによる並列プログラミング ( 演習 ) つづき 1 もくじ 1. 序並列計算機の現状 2. 計算方式およびアーキテクチュアの分類 3. 並列計算の目的と課題

More information

01_OpenMP_osx.indd

01_OpenMP_osx.indd OpenMP* / 1 1... 2 2... 3 3... 5 4... 7 5... 9 5.1... 9 5.2 OpenMP* API... 13 6... 17 7... 19 / 4 1 2 C/C++ OpenMP* 3 Fortran OpenMP* 4 PC 1 1 9.0 Linux* Windows* Xeon Itanium OS 1 2 2 WEB OS OS OS 1 OS

More information

(速報) Xeon E 系モデル 新プロセッサ性能について

(速報) Xeon E 系モデル 新プロセッサ性能について ( 速報 ) Xeon E5-2600 系モデル新プロセッサ性能について 2012 年 3 月 16 日 富士通株式会社 2012 年 3 月 7 日 インテル社より最新 CPU インテル Xeon E5 ファミリー の発表がありました この最新 CPU について PC クラスタシステムの観点から性能検証を行いましたので 概要を速報いたします プロセッサインテル Xeon プロセッサ E5-2690

More information

Microsoft Word - no02.doc

Microsoft Word - no02.doc 使い方 1ソースプログラムの入力今回の講義では C++ 言語用の統合環境ソフトといわれるプログラムを利用します デスクトップにある CPad for C++ のアイコン ( 右参照 ) をダブルクリ ックしましょう ( 同じアイコンで Java_pad とかい エディタ部 てあるものもありますので気をつけてください ) これで 起 動します 統合環境を立ち上げると エディタ部とメッセージ部をもった画面が出てきます

More information

about MPI

about MPI 本日 (4/16) の内容 1 並列計算の概要 並列化計算の目的 並列コンピュータ環境 並列プログラミングの方法 MPI を用いた並列プログラミング 並列化効率 2 並列計算の実行方法 Hello world モンテカルロ法による円周率計算 並列計算のはじまり 並列計算の最初の構想を イギリスの科学者リチャードソンが 1922 年に発表 < リチャードソンの夢 > 64000 人を円形の劇場に集めて

More information

<4D F736F F D20332E322E332E819C97AC91CC89F090CD82A982E78CA982E9466F E393082CC8D5C91A291CC90AB945C955D89BF5F8D8296D85F F8D F5F E646F63>

<4D F736F F D20332E322E332E819C97AC91CC89F090CD82A982E78CA982E9466F E393082CC8D5C91A291CC90AB945C955D89BF5F8D8296D85F F8D F5F E646F63> 3.2.3. 流体解析から見る Fortran90 の構造体性能評価 宇宙航空研究開発機構 高木亮治 1. はじめに Fortran90 では 構造体 動的配列 ポインターなど様々な便利な機能が追加され ユーザーがプログラムを作成する際に選択の幅が広がりより便利になった 一方で 実際のアプリケーションプログラムを開発する際には 解析対象となる物理現象を記述する数学モデルやそれらを解析するための計算手法が内包する階層構造を反映したプログラムを作成できるかどうかは一つの重要な観点であると考えられる

More information

スライド 1

スライド 1 計算科学が拓く世界スーパーコンピュータは何故スーパーか 学術情報メディアセンター中島浩 http://www.para.media.kyoto-u.ac.jp/jp/ username=super password=computer 講義の概要 目的 計算科学に不可欠の道具スーパーコンピュータが どういうものか なぜスーパーなのか どう使うとスーパーなのかについて雰囲気をつかむ 内容 スーパーコンピュータの歴史を概観しつつ

More information

演習2

演習2 神戸市立工業高等専門学校電気工学科 / 電子工学科専門科目 数値解析 2017.6.2 演習 2 山浦剛 (tyamaura@riken.jp) 講義資料ページ h t t p://clim ate.aic s. riken. jp/m embers/yamaura/num erical_analysis. html 曲線の推定 N 次多項式ラグランジュ補間 y = p N x = σ N x x

More information

行列、ベクトル

行列、ベクトル 行列 (Mtri) と行列式 (Determinnt). 行列 (Mtri) の演算. 和 差 積.. 行列とは.. 行列の和差 ( 加減算 ).. 行列の積 ( 乗算 ). 転置行列 対称行列 正方行列. 単位行列. 行列式 (Determinnt) と逆行列. 行列式. 逆行列. 多元一次連立方程式のコンピュータによる解法. コンピュータによる逆行列の計算.. 定数項の異なる複数の方程式.. 逆行列の計算

More information

スライド 0

スライド 0 2012/7/11 OpeMP を用いた Fortra コードの並列化基礎セミナー 株式会社計算力学研究センター 技術 1 部三又秀行 mimata@rccm.co.jp 目次 高速化 並列化事例 PARDISO について (XLsoft 黒澤様 ) 並列化 並列化について 並列化作業の流れ 並列化の手段 OpeMP デモ OpeMP で並列計算する 円周率 p の計算 (private reductio)

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション 2018/10/05 竹島研究室創成課題 第 2 回 C 言語演習 変数と演算 東京工科大学 加納徹 前回の復習 Hello, world! と表示するプログラム 1 #include 2 3 int main(void) { 4 printf("hello, world! n"); 5 return 0; 6 } 2 プログラム実行の流れ 1. 作業ディレクトリへの移動 $ cd

More information

この方法では, 複数のアドレスが同じインデックスに対応づけられる可能性があるため, キャッシュラインのコピーと書き戻しが交互に起きる性のミスが発生する可能性がある. これを回避するために考案されたのが, 連想メモリアクセスができる形キャッシュである. この方式は, キャッシュに余裕がある限り主記憶の

この方法では, 複数のアドレスが同じインデックスに対応づけられる可能性があるため, キャッシュラインのコピーと書き戻しが交互に起きる性のミスが発生する可能性がある. これを回避するために考案されたのが, 連想メモリアクセスができる形キャッシュである. この方式は, キャッシュに余裕がある限り主記憶の 計算機システム Ⅱ 演習問題学科学籍番号氏名 1. 以下の分の空白を埋めなさい. CPUは, 命令フェッチ (F), 命令デコード (D), 実行 (E), 計算結果の書き戻し (W), の異なるステージの処理を反復実行するが, ある命令の計算結果の書き戻しをするまで, 次の命令のフェッチをしない場合, ( 単位時間当たりに実行できる命令数 ) が低くなる. これを解決するために考案されたのがパイプライン処理である.

More information

演習準備 2014 年 3 月 5 日神戸大学大学院システム情報学研究科森下浩二 1 RIKEN AICS HPC Spring School /3/5

演習準備 2014 年 3 月 5 日神戸大学大学院システム情報学研究科森下浩二 1 RIKEN AICS HPC Spring School /3/5 演習準備 2014 年 3 月 5 日神戸大学大学院システム情報学研究科森下浩二 1 演習準備の内容 神戸大 FX10(π-Computer) 利用準備 システム概要 ログイン方法 コンパイルとジョブ実行方法 MPI 復習 1. MPIプログラムの基本構成 2. 並列実行 3. 1 対 1 通信 集団通信 4. データ 処理分割 5. 計算時間計測 2 神戸大 FX10(π-Computer) 利用準備

More information

H28 年度 SX-ACE 高速化技法の基礎 ( 演習用資料 ) 2016 年 6 月 16 日大阪大学サイバーメディアセンター日本電気株式会社

H28 年度 SX-ACE 高速化技法の基礎 ( 演習用資料 ) 2016 年 6 月 16 日大阪大学サイバーメディアセンター日本電気株式会社 H28 年度 SX-ACE 高速化技法の基礎 ( 演習用資料 ) 2016 年 6 月 16 日大阪大学サイバーメディアセンター日本電気株式会社 Page 2 本資料は, 東北大学サイバーサイエンスセンターと NEC の共同により作成され, 大阪大学サイバーメディアセンターの環境で実行確認を行い, 修正を加えたものです. 無断転載等は, ご遠慮下さい. SX-ACE の計算ノード構成 全 1536

More information

第8回講義(2016年12月6日)

第8回講義(2016年12月6日) 2016/12/6 スパコンプログラミング (1) (Ⅰ) 1 行列 - 行列積 (2) 東京大学情報基盤センター准教授塙敏博 2016 年 12 月 6 日 ( 火 ) 10:25-12:10 2016/11/29 講義日程 ( 工学部共通科目 ) 1. 9 月 27 日 ( 今日 ): ガイダンス 2. 10 月 4 日 l 並列数値処理の基本演算 ( 座学 ) 3. 10 月 11 日 : スパコン利用開始

More information

PowerPoint Presentation

PowerPoint Presentation 付録 2 2 次元アフィン変換 直交変換 たたみ込み 1.2 次元のアフィン変換 座標 (x,y ) を (x,y) に移すことを 2 次元での変換. 特に, 変換が と書けるとき, アフィン変換, アフィン変換は, その 1 次の項による変換 と 0 次の項による変換 アフィン変換 0 次の項は平行移動 1 次の項は座標 (x, y ) をベクトルと考えて とすれば このようなもの 2 次元ベクトルの線形写像

More information

I I / 47

I I / 47 1 2013.07.18 1 I 2013 3 I 2013.07.18 1 / 47 A Flat MPI B 1 2 C: 2 I 2013.07.18 2 / 47 I 2013.07.18 3 / 47 #PJM -L "rscgrp=small" π-computer small: 12 large: 84 school: 24 84 16 = 1344 small school small

More information

Microsoft Word - scilab_intro.doc

Microsoft Word - scilab_intro.doc Scilab の使い方 (1/14) Scilab は "SCIence LABoratory" の略 フランスの国立研究機関 INRIA (Institut National de Recherche en Informatique et Automatique) が作成 配布しているフリーのシミュレーション ソフト Scilab のホームページは http://www-rocq.inria.fr/scilab/

More information

数値計算

数値計算 プログラム作成から実行まで 数値計算 垣谷公徳 17 号館 3 階電子メール : kimi@ee.ous.ac.jp Source program hello.c printf("hello\n"); コンパイラ Library libc.a 0011_printf000101001 1101_getc00011100011 1011_scanf1110010100 コンパイル Object module

More information

<4D F736F F D20438CBE8CEA8D758DC F0939A82C282AB2E646F63>

<4D F736F F D20438CBE8CEA8D758DC F0939A82C282AB2E646F63> C 言語講座第 2 回 作成 : ハルト 前回の復習基本的に main () の中カッコの中にプログラムを書く また 変数 ( int, float ) はC 言語では main() の中カッコの先頭で宣言する 1 画面へ出力 printf() 2 キーボードから入力 scanf() printf / scanf で整数を表示 / 入力 %d 小数を表示 / 入力 %f 3 整数を扱う int 型を使う

More information

Microsoft PowerPoint - while.ppt

Microsoft PowerPoint - while.ppt 本日の内容 繰り返し計算 while 文, for 文 例題 1. 自然数の和例題 2. 最大公約数の計算例題 3. ベクトルの長さ while 文例題 4. 九九の表 for 文と繰り返しの入れ子例題 5. ド モアブルの公式計算誤差の累積 今日の到達目標 繰り返し (while 文, for 文 ) を使って, 繰り返し計算を行えるようになること ループカウンタとして, 整数の変数を使うこと 今回も,

More information

Microsoft Word - openmp-txt.doc

Microsoft Word - openmp-txt.doc ( 付録 A) OpenMP チュートリアル OepnMP は 共有メモリマルチプロセッサ上のマルチスレッドプログラミングのための API です 本稿では OpenMP の簡単な解説とともにプログラム例をつかって説明します 詳しくは OpenMP の規約を決めている OpenMP ARB の http://www.openmp.org/ にある仕様書を参照してください 日本語訳は http://www.hpcc.jp/omni/spec.ja/

More information

<4D F736F F F696E74202D2091E63489F15F436F6D C982E682E992B48D8291AC92B489B F090CD2888F38DFC E B8CDD8

<4D F736F F F696E74202D2091E63489F15F436F6D C982E682E992B48D8291AC92B489B F090CD2888F38DFC E B8CDD8 Web キャンパス資料 超音波シミュレーションの基礎 ~ 第 4 回 ComWAVEによる超高速超音波解析 ~ 科学システム開発部 Copyright (c)2006 ITOCHU Techno-Solutions Corporation 本日の説明内容 ComWAVEの概要および特徴 GPGPUとは GPGPUによる解析事例 CAE POWER 超音波研究会開催 (10 月 3 日 ) のご紹介

More information

Microsoft PowerPoint - 高速化WS富山.pptx

Microsoft PowerPoint - 高速化WS富山.pptx 京 における 高速化ワークショップ 性能分析 チューニングの手順について 登録施設利用促進機関 一般財団法人高度情報科学技術研究機構富山栄治 一般財団法人高度情報科学技術研究機構 2 性能分析 チューニング手順 どの程度の並列数が実現可能か把握する インバランスの懸念があるか把握する タイムステップループ I/O 処理など注目すべき箇所を把握する 並列数 並列化率などの目標を設定し チューニング時の指針とする

More information

OpenMPプログラミング

OpenMPプログラミング OpenMP 基礎 岩下武史 ( 学術情報メディアセンター ) 1 2013/9/13 並列処理とは 逐次処理 CPU1 並列処理 CPU1 CPU2 CPU3 CPU4 処理 1 処理 1 処理 2 処理 3 処理 4 処理 2 処理 3 処理 4 時間 2 2 種類の並列処理方法 プロセス並列 スレッド並列 並列プログラム 並列プログラム プロセス プロセス 0 プロセス 1 プロセス間通信 スレッド

More information

cp-7. 配列

cp-7. 配列 cp-7. 配列 (C プログラムの書き方を, パソコン演習で学ぶシリーズ ) https://www.kkaneko.jp/cc/adp/index.html 金子邦彦 1 本日の内容 例題 1. 月の日数配列とは. 配列の宣言. 配列の添え字. 例題 2. ベクトルの内積例題 3. 合計点と平均点例題 4. 棒グラフを描く配列と繰り返し計算の関係例題 5. 行列の和 2 次元配列 2 今日の到達目標

More information

memo

memo 計数工学プログラミング演習 ( 第 3 回 ) 2016/04/26 DEPARTMENT OF MATHEMATICAL INFORMATICS 1 内容 ポインタ malloc 構造体 2 ポインタ あるメモリ領域 ( アドレス ) を代入できる変数 型は一致している必要がある 定義時には値は不定 ( 何も指していない ) 実際にはどこかのメモリを指しているので, #include

More information

Microsoft PowerPoint - 11Web.pptx

Microsoft PowerPoint - 11Web.pptx 計算機システムの基礎 ( 第 10 回配布 ) 第 7 章 2 節コンピュータの性能の推移 (1) コンピュータの歴史 (2) コンピュータの性能 (3) 集積回路の進歩 (4) アーキテクチャ 第 4 章プロセッサ (1) プロセッサの基本機能 (2) プロセッサの構成回路 (3) コンピュータアーキテクチャ 第 5 章メモリアーキテクチャ 1. コンピュータの世代 計算する機械 解析機関 by

More information

Microsoft Word - 2.2_takaki.doc

Microsoft Word - 2.2_takaki.doc 2.2 三次元圧縮性流体解析プログラム UPACS の性能評価 宇宙航空研究開発機構高木亮治 1. はじめに 宇宙航空研究開発機構 (JAXA) で開発された CFD プログラム UPACS について 富士通 PRIMEPOWER HPC2500 上で性能評価を行ったのでその結果を報告する 2. プログラム概要 UPACS は中核となる解析ソルバである UPACS ソルバと 解析の前後処理を行う各種ツール

More information

GPGPUクラスタの性能評価

GPGPUクラスタの性能評価 2008 年度理研 HPC シンポジウム第 3 世代 PC クラスタ GPGPU クラスタの性能評価 2009 年 3 月 12 日 富士通研究所成瀬彰 発表の概要 背景 GPGPU による高速化 CUDA の概要 GPU のメモリアクセス特性調査 姫野 BMT の高速化 GPGPU クラスタによる高速化 GPU Host 間のデータ転送 GPU-to-GPU の通信性能 GPGPU クラスタ上での姫野

More information

Microsoft PowerPoint - ARCEMB08HayashiSlides.ppt [互換モード]

Microsoft PowerPoint - ARCEMB08HayashiSlides.ppt [互換モード] 演算 / メモリ性能バランスを考慮した CMP 向けオンチップ メモリ貸与法の提案 九州大学 林徹生今里賢一井上弘士村上和彰 1 発表手順 背景 目的 演算 / メモリ性能バランシング 概要 アクセスレイテンシの削減とオーバーヘッド 提案手法の実現方法 着目する命令 (Cell プロセッサへの ) 実装 性能評価 姫野ベンチマーク Susan@MiBench おわりに 2 チップマルチプロセッサ (CMP)

More information

tabaicho3mukunoki.pptx

tabaicho3mukunoki.pptx 1 2 はじめに n 目的 4倍精度演算より高速な3倍精度演算を実現する l 倍精度では足りないが4倍精度は必要ないケースに欲しい l 4倍精度に比べてデータサイズが小さい Ø 少なくともメモリ律速な計算では4倍精度よりデータ 転送時間を減らすことが可能 Ø PCIeやノード間通信がボトルネックとなりやすい GPUクラスタ環境に有効か n 研究概要 l DD型4倍精度演算 DD演算 に基づく3倍精度演算

More information

Microsoft PowerPoint - stream.ppt [互換モード]

Microsoft PowerPoint - stream.ppt [互換モード] STREAM 1 Quad Opteron: ccnuma Arch. AMD Quad Opteron 2.3GHz Quad のソケット 4 1 ノード (16コア ) 各ソケットがローカルにメモリを持っている NUMA:Non-Uniform Access ローカルのメモリをアクセスして計算するようなプログラミング, データ配置, 実行時制御 (numactl) が必要 cc: cache-coherent

More information

インテル(R) Visual Fortran Composer XE 2013 Windows版 入門ガイド

インテル(R) Visual Fortran Composer XE 2013 Windows版 入門ガイド Visual Fortran Composer XE 2013 Windows* エクセルソフト株式会社 www.xlsoft.com Rev. 1.1 (2012/12/10) Copyright 1998-2013 XLsoft Corporation. All Rights Reserved. 1 / 53 ... 3... 4... 4... 5 Visual Studio... 9...

More information

FORTRAN文法の基礎

FORTRAN文法の基礎 FORTRAN 文法の基礎 ( 初級編 ) 2009-04-16 泉聡志 1 はじめに FORTRAN は数あるプログラム言語の中で最も数値計算に適した言語であり かつ最もかんたんである 加えて FORTRAN を使って数値計算プログラムを作成する工学者は 最小限のことを知っていれば良く 高度な知識は要求されない また 多くのプログラミングは scratch から作らず ベースとなるものを真似て改造して使う場合が多い

More information

スライド 1

スライド 1 計算科学が拓く世界 スーパーコンピュータは 何故スーパーか 学術情報メディアセンター 中島浩 http://www.pr.medi.kyoto-u.c.jp/jp/ usermesuper psswordcomputer 講義の概要 目的 計算科学に不可欠の道具スーパーコンピュータが どうスーパーなのか どういうものか なぜスーパーなのか どう使うとスーパーなのかについて雰囲気をつかむ 内容 スーパーコンピュータの歴史を概観しつつ

More information

プログラミング実習I

プログラミング実習I プログラミング実習 I 03 変数と式 人間システム工学科井村誠孝 m.imura@kwansei.ac.jp 3.1 変数と型 変数とは p.60 C 言語のプログラム中で, 入力あるいは計算された数や文字を保持するには, 変数を使用する. 名前がついていて値を入れられる箱, というイメージ. 変数定義 : 変数は変数定義 ( 宣言 ) してからでないと使うことはできない. 代入 : 変数には値を代入できる.

More information

4 月 東京都立蔵前工業高等学校平成 30 年度教科 ( 工業 ) 科目 ( プログラミング技術 ) 年間授業計画 教科 :( 工業 ) 科目 :( プログラミング技術 ) 単位数 : 2 単位 対象学年組 :( 第 3 学年電気科 ) 教科担当者 :( 高橋寛 三枝明夫 ) 使用教科書 :( プロ

4 月 東京都立蔵前工業高等学校平成 30 年度教科 ( 工業 ) 科目 ( プログラミング技術 ) 年間授業計画 教科 :( 工業 ) 科目 :( プログラミング技術 ) 単位数 : 2 単位 対象学年組 :( 第 3 学年電気科 ) 教科担当者 :( 高橋寛 三枝明夫 ) 使用教科書 :( プロ 4 東京都立蔵前工業高等学校平成 30 年度教科 ( 工業 ) 科目 ( プログラミング技術 ) 年間授業計画 教科 :( 工業 ) 科目 :( プログラミング技術 ) 単位数 : 2 単位 対象学年組 :( 第 3 学年電気科 ) 教科担当者 :( 高橋寛 三枝明夫 ) 使用教科書 :( プログラミング技術 工業 333 実教出版 ) 共通 : 科目 プログラミング技術 のオリエンテーション プログラミング技術は

More information

Taro-数値計算の誤差(公開版)

Taro-数値計算の誤差(公開版) 0. 目次 1. 情報落ち 計算のルールを 10 進 4 桁 切り捨て と仮定する 2 つの数の加算では まず小数点が合わされ 大きい数が優先される したがって 12.34 + 0.005678 は 12.34 と計算される このように 絶対値の小さい数を絶対値の大きい数に加えてもほとんど影響を与えない現象を情報落ちという 2. オーバーフロー アンダーフロー 計算結果の絶対値がコンピュータの処理できる最大の数を越えてしまう現象をオーバーフローという

More information

Microsoft Word - HOKUSAI_system_overview_ja.docx

Microsoft Word - HOKUSAI_system_overview_ja.docx HOKUSAI システムの概要 1.1 システム構成 HOKUSAI システムは 超並列演算システム (GWMPC BWMPC) アプリケーション演算サーバ群 ( 大容量メモリ演算サーバ GPU 演算サーバ ) と システムの利用入口となるフロントエンドサーバ 用途の異なる 2 つのストレージ ( オンライン ストレージ 階層型ストレージ ) から構成されるシステムです 図 0-1 システム構成図

More information

ex04_2012.ppt

ex04_2012.ppt 2012 年度計算機システム演習第 4 回 2012.05.07 第 2 回課題の補足 } TSUBAMEへのログイン } TSUBAMEは学内からのログインはパスワードで可能 } } } } しかし 演習室ではパスワードでログインできない設定 } 公開鍵認証でログイン 公開鍵, 秘密鍵の生成 } ターミナルを開く } $ ssh-keygen } Enter file in which to save

More information

Microsoft PowerPoint - 演習2:MPI初歩.pptx

Microsoft PowerPoint - 演習2:MPI初歩.pptx 演習 2:MPI 初歩 - 並列に計算する - 2013 年 8 月 6 日 神戸大学大学院システム情報学研究科計算科学専攻横川三津夫 MPI( メッセージ パッシング インターフェース ) を使おう! [ 演習 2 の内容 ] はじめの一歩課題 1: Hello, world を並列に出力する. 課題 2: プロセス 0 からのメッセージを受け取る (1 対 1 通信 ). 部分に分けて計算しよう課題

More information

Microsoft PowerPoint - 10.pptx

Microsoft PowerPoint - 10.pptx m u. 固有値とその応用 8/7/( 水 ). 固有値とその応用 固有値と固有ベクトル 行列による写像から固有ベクトルへ m m 行列 によって線形写像 f : R R が表せることを見てきた ここでは 次元平面の行列による写像を調べる とし 写像 f : を考える R R まず 単位ベクトルの像 u y y f : R R u u, u この事から 線形写像の性質を用いると 次の格子上の点全ての写像先が求まる

More information

熊本大学学術リポジトリ Kumamoto University Repositor Title GPGPU による高速演算について Author(s) 榎本, 昌一 Citation Issue date Type URL Presentation

熊本大学学術リポジトリ Kumamoto University Repositor Title GPGPU による高速演算について Author(s) 榎本, 昌一 Citation Issue date Type URL Presentation 熊本大学学術リポジトリ Kumamoto University Repositor Title GPGPU による高速演算について Author(s) 榎本, 昌一 Citation Issue date 2011-03-17 Type URL Presentation http://hdl.handle.net/2298/23539 Right GPGPU による高速演算について 榎本昌一 東京大学大学院工学系研究科システム創成学専攻

More information

計算機アーキテクチャ

計算機アーキテクチャ 計算機アーキテクチャ 第 11 回命令実行の流れ 2014 年 6 月 20 日 電気情報工学科 田島孝治 1 授業スケジュール ( 前期 ) 2 回日付タイトル 1 4/7 コンピュータ技術の歴史と コンピュータアーキテクチャ 2 4/14 ノイマン型コンピュータ 3 4/21 コンピュータのハードウェア 4 4/28 数と文字の表現 5 5/12 固定小数点数と浮動小数点表現 6 5/19 計算アーキテクチャ

More information

Fortran 勉強会 第 5 回 辻野智紀

Fortran 勉強会 第 5 回 辻野智紀 Fortran 勉強会 第 5 回 辻野智紀 今回のお品書き サブルーチンの分割コンパイル ライブラリ 静的ライブラリ 動的ライブラリ モジュール その前に 以下の URL から STPK ライブラリをインストールしておいて下さい. http://www.gfd-dennou.org/library/davis/stpk 前回参加された方はインストール済みのはず. サブルーチンの分割コンパイル サブルーチンの独立化

More information

< 中略 > 24 0 NNE 次に 指定した日時の時間降水量と気温を 観測地点の一覧表に載っているすべての地点について出力するプログラムを作成してみます 観測地点の一覧表は index.txt というファイルで与えられています このファイルを読みこむためのサブルーチンが AMD

< 中略 > 24 0 NNE 次に 指定した日時の時間降水量と気温を 観測地点の一覧表に載っているすべての地点について出力するプログラムを作成してみます 観測地点の一覧表は index.txt というファイルで与えられています このファイルを読みこむためのサブルーチンが AMD 地上気象観測データの解析 1 AMeDAS データの解析 研究を進めるにあたって データ解析用のプログラムを自分で作成する必要が生じることがあります ここでは 自分で FORTRAN または C でプログラムを作成し CD-ROM に入った気象観測データ ( 気象庁による AMeDAS の観測データ ) を読みこんで解析します データを読みこむためのサブルーチンや関数はあらかじめ作成してあります それらのサブルーチンや関数を使って自分でプログラムを書いてデータを解析していきます

More information

Microsoft PowerPoint - sales2.ppt

Microsoft PowerPoint - sales2.ppt 並列化の基礎 ( 言葉の意味 ) 並列実行には 複数のタスク実行主体が必要 共有メモリ型システム (SMP) での並列 プロセスを使用した並列化 スレッドとは? スレッドを使用した並列化 分散メモリ型システムでの並列 メッセージパッシングによる並列化 並列アーキテクチャ関連の言葉を押さえよう 21 プロセスを使用した並列処理 並列処理を行うためには複数のプロセスの生成必要プロセスとは プログラム実行のための能動実態メモリ空間親プロセス子プロセス

More information

Slides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments

Slides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments 計算機アーキテクチャ第 11 回 マルチプロセッサ 本資料は授業用です 無断で転載することを禁じます 名古屋大学 大学院情報科学研究科 准教授加藤真平 デスクトップ ジョブレベル並列性 スーパーコンピュータ 並列処理プログラム プログラムの並列化 for (i = 0; i < N; i++) { x[i] = a[i] + b[i]; } プログラムの並列化 x[0] = a[0] + b[0];

More information

Microsoft PowerPoint ppt

Microsoft PowerPoint ppt 仮想マシン () 仮想マシン 復習 仮想マシンの概要 hsm 仮想マシン プログラム言語の処理系 ( コンパイラ ) 原始プログラム (Source program) コンパイラ (Compiler) 目的プログラム (Object code) 原始言語 (Source language) 解析 合成 目的言語 (Object Language) コンパイルする / 翻訳する (to compile

More information

Microsoft Word - nvsi_050110jp_netvault_vtl_on_dothill_sannetII.doc

Microsoft Word - nvsi_050110jp_netvault_vtl_on_dothill_sannetII.doc Article ID: NVSI-050110JP Created: 2005/10/19 Revised: - NetVault 仮想テープ ライブラリのパフォーマンス検証 : dothill SANnetⅡSATA 編 1. 検証の目的 ドットヒルシステムズ株式会社の SANnetll SATA は 安価な SATA ドライブを使用した大容量ストレージで ディスクへのバックアップを行う際の対象デバイスとして最適と言えます

More information

スライド 1

スライド 1 GPU クラスタによる格子 QCD 計算 広大理尾崎裕介 石川健一 1.1 Introduction Graphic Processing Units 1 チップに数百個の演算器 多数の演算器による並列計算 ~TFLOPS ( 単精度 ) CPU 数十 GFLOPS バンド幅 ~100GB/s コストパフォーマンス ~$400 GPU の開発環境 NVIDIA CUDA http://www.nvidia.co.jp/object/cuda_home_new_jp.html

More information

< 中略 > 24 0 NNE 次に 指定した日時の時間降水量と気温を 観測地点の一覧表に載っているすべての地点について出力するプログラムを作成してみます 観測地点の一覧表は index.txt というファイルで与えられています このファイルを読みこむためのサブルーチンが AMD

< 中略 > 24 0 NNE 次に 指定した日時の時間降水量と気温を 観測地点の一覧表に載っているすべての地点について出力するプログラムを作成してみます 観測地点の一覧表は index.txt というファイルで与えられています このファイルを読みこむためのサブルーチンが AMD 気象観測データの解析 1 AMeDAS データの解析 研究を進めるにあたって データ解析用のプログラムを自分で作成する必要が生じることがあります ここでは 自分で FORTRAN または C でプログラムを作成し CD-ROM に入った気象観測データ ( 気象庁による AMeDAS の観測データ ) を読みこんで解析します データを読みこむためのサブルーチンや関数はあらかじめ作成してあります それらのサブルーチンや関数を使って自分でプログラムを書いてデータを解析していきます

More information

Microsoft PowerPoint - 7.Arithmetic.ppt

Microsoft PowerPoint - 7.Arithmetic.ppt 第 7 章デジタル演算回路 1 デジタル信号処理音声, 音楽, 通信信号 信号 = 符号付き 2 進データ 負の数値の表現方法 2 2 進数 n ビット n-1 =Σb i 2 i 0 2 の補数 +=2 n n-1 n-1 2 n =1+Σb i 2 i +Σb i 2 i 0 0 n-1 =2 n ー =1+Σb i 2 i 0 3 2 進数の補数 2 の補数 各桁のビットを反転した後で最下位に

More information

memo

memo 計数工学プログラミング演習 ( 第 3 回 ) 2017/04/25 DEPARTMENT OF MATHEMATICAL INFORMATICS 1 内容 ポインタの続き 引数の値渡しと参照渡し 構造体 2 ポインタで指されるメモリへのアクセス double **R; 型 R[i] と *(R+i) は同じ意味 意味 R double ** ポインタの配列 ( の先頭 ) へのポインタ R[i]

More information

enshu5_4.key

enshu5_4.key http://www.mmsonline.com/articles/parallel-processing-speeds-toolpath-calculations TA : 菅 新 菅沼智史 水曜 新行紗弓 馬淵隼 木曜 情報知能工学演習V (前半第4週) 政田洋平 システム情報学研究科計算科学専攻 演習 V( 前半 ) の内容 第 1 週 : 高性能計算 (High Performance Computing

More information

.NETプログラマー早期育成ドリル ~VB編 付録 文法早見表~

.NETプログラマー早期育成ドリル ~VB編 付録 文法早見表~ .NET プログラマー早期育成ドリル VB 編 付録文法早見表 本資料は UUM01W:.NET プログラマー早期育成ドリル VB 編コードリーディング もしくは UUM02W:.NET プログラマー早期育成ドリル VB 編コードライティング を ご購入頂いた方にのみ提供される資料です 資料内容の転載はご遠慮下さい VB プログラミング文法早見表 < 基本文法 > 名前空間の定義 Namespace

More information

Microsoft PowerPoint - CCS学際共同boku-08b.ppt

Microsoft PowerPoint - CCS学際共同boku-08b.ppt マルチコア / マルチソケットノードに おけるメモリ性能のインパクト 研究代表者朴泰祐筑波大学システム情報工学研究科 taisuke@cs.tsukuba.ac.jp アウトライン 近年の高性能 PC クラスタの傾向と問題 multi-core/multi-socket ノードとメモリ性能 メモリバンド幅に着目した性能測定 multi-link network 性能評価 まとめ 近年の高性能 PC

More information

2012年度HPCサマーセミナー_多田野.pptx

2012年度HPCサマーセミナー_多田野.pptx ! CCS HPC! I " tadano@cs.tsukuba.ac.jp" " 1 " " " " " " " 2 3 " " Ax = b" " " 4 Ax = b" A = a 11 a 12... a 1n a 21 a 22... a 2n...... a n1 a n2... a nn, x = x 1 x 2. x n, b = b 1 b 2. b n " " 5 Gauss LU

More information

NVIDIA Tesla K20/K20X GPU アクセラレータ アプリケーション パフォーマンス テクニカル ブリーフ

NVIDIA Tesla K20/K20X GPU アクセラレータ アプリケーション パフォーマンス テクニカル ブリーフ NVIDIA Tesla K20/K20X GPU アクセラレータ アプリケーション パフォーマンス テクニカル ブリーフ K20 GPU2 個に対するスピードアップ NVIDIA は Fermi アーキテクチャ GPU の発表により パフォーマンス エネルギー効率の両面で飛躍的な性能向上を実現し ハイパフォーマンスコンピューティング (HPC) の世界に変革をもたらしました また 実際に GPU

More information

Pervasive PSQL v11 のベンチマーク パフォーマンスの結果

Pervasive PSQL v11 のベンチマーク パフォーマンスの結果 Pervasive PSQL v11 のベンチマークパフォーマンスの結果 Pervasive PSQL ホワイトペーパー 2010 年 9 月 目次 実施の概要... 3 新しいハードウェアアーキテクチャがアプリケーションに及ぼす影響... 3 Pervasive PSQL v11 の設計... 4 構成... 5 メモリキャッシュ... 6 ベンチマークテスト... 6 アトミックテスト... 7

More information

FIT2018( 第 17 回情報科学技術フォーラム ) CB-005 並列処理を用いた対話的多倍長演算環境 MuPAT の高速化 Acceleration of interactive multi-precision arithmetic toolbox MuPAT using parallel

FIT2018( 第 17 回情報科学技術フォーラム ) CB-005 並列処理を用いた対話的多倍長演算環境 MuPAT の高速化 Acceleration of interactive multi-precision arithmetic toolbox MuPAT using parallel CB-005 並列処理を用いた対話的多倍長演算環境 MuPAT の高速化 Acceleration of interactive multi-precision arithmetic toolbox MuPAT using parallel processing 八木武尊 長谷川秀彦 石渡恵美子 Hotaka Yagi Hidehiko Hasegawa Emiko Ishiwata 1. はじめに

More information

次世代スーパーコンピュータのシステム構成案について

次世代スーパーコンピュータのシステム構成案について 6 19 4 27 1. 2. 3. 3.1 3.2 A 3.3 B 4. 5. 2007/4/27 4 1 1. 2007/4/27 4 2 NEC NHF2 18 9 19 19 2 28 10PFLOPS2.5PB 30MW 3,200 18 12 12 SimFold, GAMESS, Modylas, RSDFT, NICAM, LatticeQCD, LANS HPL, NPB-FT 19

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション 計算科学演習 I 第 8 回講義 MPI を用いた並列計算 (I) 2013 年 6 月 6 日 システム情報学研究科計算科学専攻 山本有作 今回の講義の概要 1. MPI とは 2. 簡単な MPI プログラムの例 (1) 3. 簡単な MPI プログラムの例 (2):1 対 1 通信 4. 簡単な MPI プログラムの例 (3): 集団通信 共有メモリ型並列計算機 ( 復習 ) 共有メモリ型並列計算機

More information

main.dvi

main.dvi PC 1 1 [1][2] [3][4] ( ) GPU(Graphics Processing Unit) GPU PC GPU PC ( 2 GPU ) GPU Harris Corner Detector[5] CPU ( ) ( ) CPU GPU 2 3 GPU 4 5 6 7 1 toyohiro@isc.kyutech.ac.jp 45 2 ( ) CPU ( ) ( ) () 2.1

More information