2.2 3 COSMOS CAE (Computer-Aided Engineering) COSMOS Reynolds [1] Large Eddy Simulation (LES) Grid-scale (GS) [2] Subgrid-scale (S

Size: px
Start display at page:

Download "2.2 3 COSMOS CAE (Computer-Aided Engineering) COSMOS Reynolds [1] Large Eddy Simulation (LES) Grid-scale (GS) [2] Subgrid-scale (S"

Transcription

1 2.2 3 COSMOS CAE (Compute-Aided Engineeing) COSMOS Reynolds [1] Lage Eddy Simulation (LES) Gid-scale (GS) [2] Subgid-scale (SGS) SGS [3] 2 3 1

2 Navie-Stokes SMAC Poisson Cank-Nicolson Poisson Schwaz Schwaz (Multiplicative Schwaz algoithm) p1 SOR (Successive Ove Relaxation) A x b Ax = b k x (k) SOR Gauss-Seidel A A = L + D + U (L: A D: A U: A ) (L + D + U)x = b (L + D) x = Ux + b (1) (L + D) x (k+1) = Ux (k) + b (2) x (k+1) = (L + D) 1 Ux (k) + (L + D) 1 b (3) (2) L

3 (3) x (k+1) (k) b Lx (k+1) (D + U) x (k) (k) x (k+1) = x (k) + D 1 (k) (4) (4) x (k) 2 ω x (k+1) = x (k) + ωd 1 (k) (5) SOR ω 0 < ω < 2 ω = 1 Gauss-Seidel Navie-Stokes Poisson 2 1 i, j, k Navie-Stokes 3 QUICK i, j, k 5 27 Poisson Poisson p p3

4 1 CPU CPU / / CPU RX Intel Xeon X (PRIMERGY RX600S5) (Nehalem-EX), 2.26GHz FX1 SPARC64 VII, 2.5GHz 1 4 SPARC64 VIII, 2.0GHz 1 8 FX10 SPARC64 IX, 1.848GHz RX: -Am -Kfast,paallel,ocl,vppocl,tl tt,pefetch -X9 -w -KXEON55 -Qt -Ectfiu -xdi=inline di -Kaay subscipt,aay subscipt ank=2,aay subscipt elementlast=25 -Kpefetch iteation=15,peex FX1: -Am -Kimpact,ocl,vppocl,tl tt -X9 -w -Qt -Ectfiu -xdi=$(mkdir)/inline di -Kpefetch model=fx1 -Kaay subscipt,aay subscipt ank=2,aay subscipt elementlast=25 -Kpefetch iteation=15,peex,fx10: -Kfast,paallel,ocl,vppocl -Ntl tt -Nt tune -X9 -Qt -xdi=inline di -W0,-zmpb=Swpl:message=detail -Kaay subscipt,aay subscipt ank=2,aay subscipt elementlast=25 -Kpefetch iteation=15,peex FX10 ( ) (-Kpefetch stide,pefetch sequential=soft) (i, j, k) 2 8 Poisson p4 FX1 1 4Coe PA p5,p6 7 8% 4% p7 k p8 p9 FX1 FX10 p10

5 p11 1. Poisson so8p b h p12 p13 2. Navie-Stokes so7v b clp p16 p17 p14 p15, p18 SOR SOR 19 Byte/Flops [1],,,,, 15 (2005), [2],, LES,, B, 64, 623 (1998), [3],,, LES SGS,, B, 68, 673 (2002),

6 3 次元非圧縮性熱流体計算プログラム COSMOS の測定評価 ( 補足資料 ) 株式会社豊田中央研究所堀之内成明 連立一次方程式の求解について 1 計算時間の大半 (6 割 ~8 割 ) は連立一次方程式を解くことに費やされる. 次元数 (= 格子点数 ): 数 10 万 ~ 数 100 万 規則非対称帯行列 各行の非零要素数 : ~ 25 解法 : 定常反復法 (SOR, Gauss-Seidel), クリロフ部分空間法 (Bi-CGSTAB,...) 重合格子の場合は, このような行列を格子ブロックごとに解くが, 反復の途中で境界領域の格子点に対する補間を行う. (1),(2) の変化量が小さくなるまで繰り返し Gauss-Seidel like 格子 m=1 (1) 格子補間点をディリクレ境界とし m=2, (1) 格子補間点をディリクレ境界とし m=... を解く, を解く (2) 他の格子の最新の値から補間 (1) 補間点をディリクレ境界とし, を解く (2) 他の格子の最新の値から補間 (1) 補間点をディリクレ境界とし, を解く (2) 他の格子の最新の値から補間常に最新の値 (2) 他の格子の内部の値から補間 A x m = b m m 格子 A m=nvol x m = b m m A x m = b x Γ m m m Ι [ x ] A x m = b m m x Γ m Ι [ x ] x Γ m Ι x x x m [ ] [ ] Γ Ι 他の格子の内部領域 Multiplicative( 乗法的 ) Schwaz Method

7 7 色オーダリングによるノード内並列化 ( オリジナル版 ) 2 SOR 法を採用 ( 実際には緩和係数を 1 としているので,Gauss-Seidel 法 ) 各格子ブロックごとにマルチカラーオーダリングによる自動並列化で対応 ベクトル機でのオーダリングをそのまま流用 7 色飛び (1 次元的 ) 配列のとり方も, それに合せて 1 次元並びになっている. eal*8 :: p0(n1max), bp(n1max) eal*8 :: clp(n1max,19) do m=1,nvol do ic=0,6 do n1=n1min(m)+ic,n1max(m),7 es=p0(n1 -iip1-1)*clp(n1,1) $ +p0(n1-ijp1-1)*clp(n1,2) $ +p0(n1-1) *clp(n1,3) $ +... $ +p0(n1-ijp1) *clp(n1,9) $ +p0(n1) $ +p0(n1+ijp1) *clp(n1,11) $ +... $ +p0(n1 +iip1+1)*clp(n1,19) & -bp(n1) p0(n1)=p0(n1)-es*omegap オリジナルのベクトル機用コード eal*8 :: p0(n1max), bp(n1max) eal*8 :: fj_clp(19, n1max/7+1, 0:6) do m=1,nvol do ic=0,6 i=1 do n1=n1s(m)+ic,n1e(m),7 es=p0(n1 -iip1-1)*fj_clp(1,i,ic) $ +p0(n1-ijp1-1)*fj_clp(2,i,ic) $ +p0(n1-1) *fj_clp(3,i,ic) $ +... $ +p0(n1-ijp1) *fj_clp(9,i,ic) $ +p0(n1) $ +p0(n1+ijp1) *fj_clp(11,i,ic) $ +... $ +p0(n1 +iip1+1)*fj_clp(19,i,ic) & clp のみ色ごとに連続アクセスとした -bp(n1) i=i+1 p0(n1)=p0(n1)-es*omegap 少し修正したコード ( これで計測 ) 性能評価計算の概要 3 LES を用いた円柱まわりの非定常流れ場の計算 ( 実用計算を踏まえ ) 重合格子を使用 円柱まわり : 161x56x81=757,188 点 背景 : 121x61x81=620,248 点

8 8 色オーダリング ( 改良版 1) の概要 4 I,j,k 各方向に 2 色, 計 8 色のオーダリングに変更. 但し, 配列の構造 ( 宣言 ) は基本的に変えていない. eal*8 :: p0(n1max), bp(n1max) eal*8 :: fj_clp0(19, m2max/7+1, nvol), & fj_clp1(19, m2max/7+1, nvol), &... & fj_clp7(19, m2max/7+1, nvol) do m=1,nvol do i=1,ico0max(m) kk=(i-1)/ijp8aa ij=-kk*ijp8aa+(i-1) jj=ij/iip8a ii=-jj*iip8a+ij n1=(kk*2)*ijp1+(jj*2)*iip1+(ii*2)+n1st 色ごとのループ es=p0(n1 -iip1-1)*fj_clp0(1,i,m) $ +p0(n1-ijp1-1)*fj_clp0(2,i,m) $ +p0(n1-1) *fj_clp0(3,i,m) $ +... $ +p0(n1-ijp1) *fj_clp0(9,i,m) $ +p0(n1) $ +p0(n1+ijp1) *fj_clp0(11,i,m) $ +... $ +p0(n1 +iip1+1)*fj_clp0(19,i,m) & -bp(n1) p0(n1)=p0(n1)-es*omegap do i=1,ico1max(m)... ( 圧力 Poisson のみに適用 )... 評価結果の概要 JAXA 殿 FX1(1 ノード 4Coe) での計測結果 スレッド並列 : 自動並列 (VISIMPACT) コンハ イルオフ ション : -Am -Kimpact,ocl,vppocl,tl_tt -X9 -w -Qt -Ectfiu -xdi=inline_di 7 色オーダリング 8 色オーダリング ルーチン名 プロファイラ CPU 時間 (count 数 ) [sec] [%] so7p_b_ 31, % so7v_b_ 10, % sgs_ 7, % covcn_ 4, % so7p_ 2, % 全体 64, % Mips Mflops ルーチン名 プロファイラ CPU 時間 (count 数 ) [sec] [%] so8p_b_ 28, % so7v_b_ 10, % sgs_ 7, % covcn_ 4, % sgsbnd_ 1, % 全体 59, % Mips Mflops 5 csms_so7( 全体 ) - 時間 (sec) 整数ロードメモリアクセス待ち 浮動小数点ロードメモリアクセス待ち ストア待ち I/Oアクセス待ち 整数ロードキャッシュアクセス待ち 浮動小数点ロードキャッシュアクセス待ち 整数演算待ち 浮動小数点演算待ち 分岐命令待ち 命令フェッチ待ち uopコミット その他の待ち 1 命令コミット 整数レジスタ書き込み制約 浮動小数点レジスタ書き込み制約 2/3 命令コミット ( その他 ) 4 命令コミット 時間 (sec) FP 演算待ち : 10% 7.0E E+02 時間 (sec) 7.0E E+02 csms_so8( 全体 ) - 時間 (sec) 整数ロードメモリアクセス待ち 浮動小数点ロードメモリアクセス待ち ストア待ち I/Oアクセス待ち 整数ロードキャッシュアクセス待ち 浮動小数点ロードキャッシュアクセス待ち 整数演算待ち 浮動小数点演算待ち 分岐命令待ち 命令フェッチ待ち uopコミット その他の待ち 1 命令コミット 整数レジスタ書き込み制約 浮動小数点レジスタ書き込み制約 2/3 命令コミット ( その他 ) 4 命令コミット FP 演算待ち : 12% (+9sec) 5.0E E E E+02 FP ロート キャッシュアクセス待ち : 23% 4.0E E+02 FP ロート キャッシュアクセス待ち : 13% (-74sec) 2.0E E E+02 FP ロート メモリアクセス待ち : 41% 1.0E+02 FP ロート メモリアクセス待ち : 38% (-40sec) 0.0E+00 Pocess 0 Thead 0 Pocess 0 Thead 1 Pocess 0 Thead 2 Pocess 0 Thead 3 0.0E+00 Pocess 0 Thead 0 Pocess 0 Thead 1 Pocess 0 Thead 2 Pocess 0 Thead 3

9 コスト上位ルーチン別の PA 情報 圧力 Poisson 方程式の SOR 計算 時間 (sec) 3.5E+02 7 色オーダリング 8 色オーダリング 3.0E E E E E E+02 FP ロート キャッシュアクセス待ち : 34% 2.0E E E E+01 FP ロート メモリアクセス待ち : 46% FP ロート メモリアクセス待ち : 43% 1.0E E E+00 Pocess 0 Thead 0 Pocess 0 Thead 1 Pocess 0 Thead 2 Pocess 0 Thead 3 運動方程式のSOR 計算 1.2E E+00 Pocess 0 Thead 0 Pocess 0 Thead 1 Pocess 0 Thead 2 Pocess 0 Thead 3 SGS 項算出 9.0E E E E E E E E E+01 FP ロート メモリアクセス待ち : 70% 4.0E E+01 FP 演算待ち : 33% 2.0E E E E+00 Pocess 0 Thead 0 Pocess 0 Thead 1 Pocess 0 Thead 2 Pocess 0 Thead 3 0.0E+00 Pocess 0 Thead 0 Pocess 0 Thead 1 Pocess 0 Thead 2 Pocess 0 Thead 3 更なる性能向上に向けた試み ( 改良版 2) 7 前回 全てを一つの配列 p0 に持つ p1 p2 今回 k 方向を交互に二つの配列 p1, p2 に持つ はを計算するときに参照される数字は色分けの番号 を計算するときは同じ配列をみるキャッシュに乗りやすい近くの点は別の配列をみるキャッシュに乗りにくい遠くの点

10 ソースのイメージ 8 eal*8 :: p1(m2max,0:1,nvol) eal*8 :: p0(n1max), bp(n1max) eal*8 :: fj_clp0(19, m2max/7+1, nvol), & fj_clp1(19, m2max/7+1, nvol), &... & fj_clp7(19, m2max/7+1, nvol) ここでは p1,p2 を p1(:,0:1,:) として一つの配列にしてある do m=1,nvol do i=1,ico0max(m) kk=(i-1)/ijp8aa ij=-kk*ijp8aa+(i-1) jj=ij/iip8a ii=-jj*iip8a+ij nn1=kk*ijp1+(jj*2)*iip1+(ii*2)+nn1st n1 =nn1+kk*ijp1+n1sg nn2=nn1-ijp1 es=p1(nn1-iip1-1,0,m)*fj_clp0(1,i,m) $ +p1(nn2-1,1,m)*fj_clp0(2,i,m) $ +p1(nn1-1,0,m)*fj_clp0(3,i,m) $ + $ +p1(nn1-iip1,1,m)*fj_clp0(8,i,m) $ +p1(nn2,1,m)*fj_clp0(9,i,m) $ +p1(nn1,0,m) $ +p1(nn1,1,m)*fj_clp0(11,i,m) $ + $ +p1(nn1+ 1,0,m)*fj_clp0(17,i,m) $ +p1(nn1 +1,1,m)*fj_clp0(18,i,m) $ +p1(nn1+iip1+1,0,m)*fj_clp0(19,i,m) & -bp(n1) p1(nn1,0,m)=p1(nn1,0,m)-es*omegap do i=1,ico1max(m) 結果 結果的にはあまり速度向上はしなかった. 9 圧力 Poisson 部のみの計算時間 [ 秒 ] coe 4coe 8coe 32coe 前回 今回 但し, 以下の社内計算機で評価 PRIMERGY RX600S5 x 11node Intel Xeon X7560 (Nehalem-EX) 8coe/chip, 4chip/node 2.26GHz, 24MB Chache

11 測定結果 CSMS_SOR8 最新版 ( 改良版 2) の FX1 京 FX10 での測定結果 イタレーションは step=50 で測定 FX1 京 FX10 実行時間比較 (timeコマンドのeal) FX1 京 FX10 Thead 実行時間実行時間実行時間スケール Thead スケール Thead ( 秒 ) ( 秒 ) ( 秒 ) スケール csms_ 1th th th so8 4th th th FX1 比 csms_ so8 Thead FX1 Thead 京 Thead FX10 1th th th th th th 4.48 ( 目安 :FX1とのF 演算ピーク性能比 ) Thead FX1 Thead 京 Thead FX10 コア 1th th th 1.47 ノード 4th th th Copyight 2013 FUJITSU LIMITED 高コストの PA 情報 (FX10) PA 情報スレッド 0 step=50 FX10 (16 スレッド ) メモリスループットは少し余裕がある L2 ミス (dm) 率が高い メモリスループットは少し余裕がある L2 ミス (dm) 率が高い 演算待ちが多い 浮動小数点待ちが多く命令スケジューリングの余地があるか? Pefomance 実行時間 (sec) 浮動小数点演算ピーク比 MFLOPS MIPS 浮動小数点演算数 11 SIMD SIMD 命令率 (/ 有効総命令数 ) SIMD 命令率 (/SIMD 対象命令数 ) SIMD 演算命令率 (/SIMD 対象演算命令数 ) SIMDロード命令率 (/SIMD 対象ロード命令数 ) SIMD ストア命令率 (/SIMD 対象ストア命令数 ) so7v_b T % E % 31.41% 99.99% 0.00% 0.00% sgs T % E % 0.00% 0.00% 0.00% 0.00% so8p_b_h T % E % 21.57% 99.98% 0.00% 0.00% Cache L1I ミス率 (/ 有効総命令数 ) L1D ミス率 ロード ストア数 L1D ミス数 L1D ミス dm 率 L1D ミス hwpf 率 L1D ミス swpf 率 so7v_b T0 0.05% 25.99% 2.81E E % 26.33% 21.62% sgs T0 0.00% 4.12% 6.45E E % 3.43% 25.67% so8p_b_h T0 0.02% 6.24% 1.89E E % 58.93% 0.00% L2 ミス率 L2 ミス数 L2 ミス dm 率 (/L2 ミス数 ) L2 ミス pf 率 (/L2 ミス数 ) メモリスループット (GB/sec) L2 スループット (GB/sec) µdtlb ミス率 mdtlb ミス率 so7v_b T0 9.62% 2.71E % 76.83% % % sgs T0 0.34% 2.20E % 72.74% % % so8p_b_h T0 5.46% 1.03E % 92.53% % %

12 高コスト 3so8p_b_h チューニングについて Loop1チューニング 浮動小数点演算待ち と 整数演算待ち が多い ソフトウェアパイプライン (SWP) による命令スケジューリングがされてない -KSWP オプションは有効であったが コンパイラが SWP しても効果が無いと判断して SWP していなかった そのため 最適化制御行 (OCL) で強制的に SWP したところ 効果が見られた 12 チューニングソース チューニング後のソース DO ループの前の 66 行目に!ocl swp を追加 62 *vocl loop,novec(p1,div) 63 *voption indep(p1,div) 64!cdi nodep(p1),nosync 65!cdi on_adb(p1) 66!ocl swp <<< Loop-infomation Stat >>> <<< [PARALLELIZATION] <<< Standad iteation count: 69 <<< [OPTIMIZATION] <<< SIMD <<< SOFTWARE PIPELINING <<< Loop-infomation End >>> 67 1 pp v do i=1,ico0max(m) 68 1 p v kk=(i-1)/ijp8aa 69 1 p v ij=-kk*ijp8aa+(i-1) 70 1 p v jj=ij/iip8a 71 1 p v ii=-jj*iip8a+ij 72 1 p v k1 =kk*ijp p v nn1=k1+(jj*2)*iip1+(ii*2)+nn1st 74 1 p v n1 =k1+nn1+n1sg 75 1 p v nn2=nn1-ijp1 追加 76 1 p v es=p1(nn1-iip1-1,0,m)*fj_clp0(1,i,m) 77 1 $ +p1(nn2-1,1,m)*fj_clp0(2,i,m) 78 1 $ +p1(nn1-1,0,m)*fj_clp0(3,i,m) 79 1 $ +p1(nn1-1,1,m)*fj_clp0(4,i,m) 80 1 $ +p1(nn1+iip1-1,0,m)*fj_clp0(5,i,m) 81 1 $ +p1(nn2-iip1,1,m)*fj_clp0(6,i,m) 82 1 $ +p1(nn1-iip1,0,m)*fj_clp0(7,i,m) 83 1 $ +p1(nn1-iip1,1,m)*fj_clp0(8,i,m) 84 1 $ +p1(nn2,1,m)*fj_clp0(9,i,m) 85 1 $ +p1(nn1,0,m) 86 1 $ +p1(nn1,1,m)*fj_clp0(11,i,m) 87 1 $ +p1(nn2+iip1,1,m)*fj_clp0(12,i,m) 88 1 $ +p1(nn1+iip1,0,m)*fj_clp0(13,i,m) 89 1 $ +p1(nn1+iip1,1,m)*fj_clp0(14,i,m) 90 1 $ +p1(nn1-iip1+1,0,m)*fj_clp0(15,i,m) 91 1 $ +p1(nn2 +1,1,m)*fj_clp0(16,i,m) 92 1 $ +p1(nn1+ 1,0,m)*fj_clp0(17,i,m) 93 1 $ +p1(nn1 +1,1,m)*fj_clp0(18,i,m) 94 1 $ +p1(nn1+iip1+1,0,m)*fj_clp0(19,i,m) 95 1 & -bp(n1) 96 1 p v p1(nn1,0,m)=p1(nn1,0,m)-es*omegap 97 1 p v div(n1)=abs(es) 98 1 p v 13

13 高コスト 3so8p_b_h チューニング結果 (Loop1) Loop1 チューニングチューニングの結果 浮動小数点演算待ち と 整数演算待ち のコストが減った その結果として メモリスループットが約 68GB/sec になった 約 11% 性能向上 性能は約 11% 向上した Pefomance Cache 実行時間 (sec) L1I ミス率 (/ 有効総命令数 ) L1D ミス率 浮動小数点演算ピーク比 ロード ストア数 L1D ミス数 MFLOPS L1D ミス dm 率 MIPS L1D ミス hwpf 率 浮動小数点演算数 オリジナル % E+08 SWPL % E+08 L1D ミス swpf 率 14 メモリスループットが GB/sec に改善 16 スレッドで 約 68GB/s となっており メモリスループットネックとなっている L2 ミス率 L2 ミス数 L2 ミス dm 率 (/L2 ミス数 ) L2 ミス pf 率 (/L2 ミス数 ) メモリスループット (GB/sec) L2 スループット (GB/sec) オリジナル 0.06% 6.18% 2.39E E % 57.75% 0.03% 5.42% 1.30E % 91.95% SWPL 0.06% 5.09% 2.94E E % 61.73% 0.03% 4.38% 1.29E % 90.77% 高コスト 3so8p_b_h チューニング結果 (Loop1-8) Loop1-8 チューニング結果 (16 スレッド並列のスレッド 0) Loop1-8 は ほぼ同じ処理のループです Loop1-8 の合計でも Loop1 と同様に 約 11% の性能改善とメモリースループットネックになっています 15 Loop1 Loop2 Loop3 Loop4 Loop5 Loop6 Loop7 Loop8 実行時間 (sec) メモリスループット (GB/sec) オリジナル SWPL オリジナル SWPL オリジナル SWPL オリジナル SWPL オリジナル SWPL オリジナル SWPL オリジナル SWPL オリジナル SWPL

14 高コスト 1 のチューニングについて 高コスト 1 の so7v_b -Kaay_subscipt, aay_subscipt_ank=2, aay_subscipt_elementlast=25 が既に指定されていて 配列 clp は次元移動により連続アクセス化がされていました L2 ミス (dm) 率が高いため 配列 clp のプリフェッチ (HWPF) が効果的でないのではないか? と言う観点で HWPF を止めて SWP で検証しました また コンパイラからは配列 clp はストライドアクセスに見えるため ストライドアクセスオプションも指定しました オプションは以下です -Kpefetch_stide -Kpefetch_sequential=soft -Kpefetch_stide ( 使用手引書より抜粋 ) ループ内で使用されるキャッシュのラインサイズよりも大きなストライドでアクセスされる配列データに対して pefetch 命令を使用したオブジェクトを生成します プリフェッチするアドレスが翻訳時に確定しないループを含みます 38 2 pp v do 100 n1=n1s(m)+ic,n1e(m), p coef=omegav/clp(n1,10) 42 2 p v esu=u(n1 -iip1-1)*clp(n1,1) +u(n1-ijp1-1)*clp(n1,2) 43 2 $ +u(n1-1) *clp(n1,3) +u(n1+ijp1-1)*clp(n1,4) 44 2 $ +u(n1 +iip1-1)*clp(n1,5) +u(n1-ijp1-iip1 )*clp(n1,6) 45 2 $ +u(n1-iip1) *clp(n1,7) +u(n1+ijp1-iip1 )*clp(n1,8) 46 2 $ +u(n1-ijp1) *clp(n1,9) +u(n1 ) *clp(n1,10) 47 2 $ +u(n1+ijp1) *clp(n1,11)+u(n1-ijp1+iip1 )*clp(n1,12) 48 2 $ +u(n1+iip1) *clp(n1,13)+u(n1+ijp1+iip1 )*clp(n1,14) 49 2 $ +u(n1 -iip1+1)*clp(n1,15)+u(n1-ijp1 +1)*clp(n1,16) 50 2 $ +u(n1+ 1) *clp(n1,17)+u(n1+ijp1 +1)*clp(n1,18) 51 2 $ +u(n1 +iip1+1)*clp(n1,19) 56 2 $ -bu(n1) 58 2 p v esv=v(n1 -iip1-1)*clp(n1,1) +v(n1-ijp1-1)*clp(n1,2) 59 2 $ +v(n1-1) *clp(n1,3) +v(n1+ijp1-1)*clp(n1,4) 60 2 $ +v(n1 +iip1-1)*clp(n1,5) +v(n1-ijp1-iip1 )*clp(n1,6) 61 2 $ +v(n1-iip1) *clp(n1,7) +v(n1+ijp1-iip1 )*clp(n1,8) 62 2 $ +v(n1-ijp1) *clp(n1,9) +v(n1 ) *clp(n1,10) 63 2 $ +v(n1+ijp1) *clp(n1,11)+v(n1-ijp1+iip1 )*clp(n1,12) 64 2 $ +v(n1+iip1) *clp(n1,13)+v(n1+ijp1+iip1 )*clp(n1,14) 65 2 $ +v(n1 -iip1+1)*clp(n1,15)+v(n1-ijp1 +1)*clp(n1,16) 66 2 $ +v(n1+ 1) *clp(n1,17)+v(n1+ijp1 +1)*clp(n1,18) 67 2 $ +v(n1 +iip1+1)*clp(n1,19) 72 2 $ -bv(n1) : : p 100 continue continue so7v_b do 110 ic=0,6 <<< Loop-infomation Stat >>> <<< [PARALLELIZATION] <<< Standad iteation count: 37 <<< [OPTIMIZATION] <<< SIMD <<< SOFTWARE PIPELINING <<< PREFETCH : 90 <<< v: 54, bw2: 6, bw: 6, w: 18, bv: 6 <<< Loop-infomation End >>> 38 2 pp v do 100 n1=n1s(m)+ic,n1e(m), p coef=omegav/clp(n1,10) 42 2 p v esu=u(n1 -iip1-1)*clp(n1,1) +u(n1-ijp1-1)*clp(n1,2) 43 2 $ +u(n1-1) *clp(n1,3) +u(n1+ijp1-1)*clp(n1,4) 44 2 $ +u(n1 +iip1-1)*clp(n1,5) +u(n1-ijp1-iip1 )*clp(n1,6) 45 2 $ +u(n1-iip1) *clp(n1,7) +u(n1+ijp1-iip1 )*clp(n1,8) 46 2 $ +u(n1-ijp1) *clp(n1,9) +u(n1 ) *clp(n1,10) 47 2 $ +u(n1+ijp1) *clp(n1,11)+u(n1-ijp1+iip1 )*clp(n1,12) 48 2 $ +u(n1+iip1) *clp(n1,13)+u(n1+ijp1+iip1 )*clp(n1,14) 49 2 $ +u(n1 -iip1+1)*clp(n1,15)+u(n1-ijp1 +1)*clp(n1,16) 50 2 $ +u(n1+ 1) *clp(n1,17)+u(n1+ijp1 +1)*clp(n1,18) 51 2 $ +u(n1 +iip1+1)*clp(n1,19) 56 2 $ -bu(n1) : p 100 continue continue -Kpefetch_stide -Kpefetch_sequential=soft 指定 16 プリフェッチオプションはデフォルト -Kpefetch_stide, -Kpefetch_sequential=soft により 配列 clp に対して pefetch 命令が生成されている 26 1 do 110 ic=0,6 <<< Loop-infomation Stat >>> <<< [PARALLELIZATION] <<< Standad iteation count: 37 <<< [OPTIMIZATION] <<< SIMD <<< SOFTWARE PIPELINING <<< PREFETCH : 222 <<< u: 54, v: 54, bu: 6, w: 54, bw2: 6 <<< bw: 6, clp: 36, bv: 6 <<< Loop-infomation End >>> 39 2 pp v do 100 n1=n1s(m)+ic,n1e(m), p coef=omegav/clp(n1,10) 43 2 p v esu=u(n1 -iip1-1)*clp(n1,1) +u(n1-ijp1-1)*clp(n1,2) 44 2 $ +u(n1-1) *clp(n1,3) +u(n1+ijp1-1)*clp(n1,4) 45 2 $ +u(n1 +iip1-1)*clp(n1,5) +u(n1-ijp1-iip1 )*clp(n1,6) 46 2 $ +u(n1-iip1) *clp(n1,7) +u(n1+ijp1-iip1 )*clp(n1,8) 47 2 $ +u(n1-ijp1) *clp(n1,9) +u(n1 ) *clp(n1,10) 48 2 $ +u(n1+ijp1) *clp(n1,11)+u(n1-ijp1+iip1 )*clp(n1,12) 49 2 $ +u(n1+iip1) *clp(n1,13)+u(n1+ijp1+iip1 )*clp(n1,14) 50 2 $ +u(n1 -iip1+1)*clp(n1,15)+u(n1-ijp1 +1)*clp(n1,16) 51 2 $ +u(n1+ 1) *clp(n1,17)+u(n1+ijp1 +1)*clp(n1,18) 52 2 $ +u(n1 +iip1+1)*clp(n1,19) 57 2 $ -bu(n1) : p 100 continue continue 17

15 PA 情報 [ so7v_b ] so7v_b 1 (PA 情報は step=5) [ 秒 ] 1.2E E E-01 プリフェッチオプションデフォルト -Kpefetch_stide -Kpefetch_sequential=soft 約 10% の性能向上 L2ミスdm 率が高く 浮動小数点ロードメモリアクセス待ち が発生 プリフェッチ生成により約 10% の性能向上 6.0E E E-01 浮動小数点ロードメモリアクセス待ち 浮動小数点ロードキャッシュアクセス待ち オプションによるプリフェッチの生成をした L2のdmミス削減 0.0E+00 Pefomance Cache Befoe T0 実行時間 (sec) L1I ミス率 (/ 有効総命令数 ) L1D ミス率 浮動小数点演算ピーク比 ロード ストア数 OPT Tune T0 MFLOPS L1D ミス数 MIPS L1D ミス dm 率 浮動小数点演算数 Befoe T % E+08 OPT Tune T % E+08 L1D ミス hwpf 率 L1D ミス swpf 率 L2 ミス率 L2 ミス数 L2 ミス dm 率 (/L2 ミス数 ) L2 ミス pf 率 (/L2 ミス数 ) メモリスループット (GB/sec) L2 スループット (GB/sec) Befoe T0 0.05% 25.99% 2.82E E % 26.33% 21.62% 9.62% 2.71E % 76.85% OPT Tune T0 0.05% 26.91% 3.02E E % 0.01% 45.11% 9.97% 3.02E % 96.62% SIMD SIMD 命令率 (/ 有効総命令数 ) SIMD 命令率 (/SIMD 対象命令数 ) SIMD 演算命令率 (/SIMD 対象演算命令数 ) SIMDロード命令率 (/SIMD 対象ロード命令数 ) SIMD ストア命令率 (/SIMD 対象ストア命令数 ) Befoe T % 31.41% 99.99% 0.00% 0.00% OPT Tune T % 31.41% 99.99% 0.00% 0.00% 16 スレッドで 約 70.4GB/s となっており メモリスループットネックとなっている 18

Microsoft Word ●IntelクアッドコアCPUでのベンチマーク_吉岡_ _更新__ doc

Microsoft Word ●IntelクアッドコアCPUでのベンチマーク_吉岡_ _更新__ doc 2.3. アプリ性能 2.3.1. Intel クアッドコア CPU でのベンチマーク 東京海洋大学吉岡諭 1. はじめにこの数年でマルチコア CPU の普及が進んできた x86 系の CPU でも Intel と AD がデュアルコア クアッドコアの CPU を次々と市場に送り出していて それらが PC クラスタの CPU として採用され HPC に活用されている ここでは Intel クアッドコア

More information

Microsoft PowerPoint _SS研_林_公開.ppt [互換モード]

Microsoft PowerPoint _SS研_林_公開.ppt [互換モード] 次世代スパコン 京 ( けい ) (*) の 言語処理系と性能評価 2010 年 10 月 20 日富士通株式会社次世代テクニカルコンピューティング開発本部ソフトウェア開発統括部 林正和 * 理化学研究所様が 2010 年 7 月に決定 発表した 次世代スーパーコンピュータ の愛称 アジェンダ 次世代スーパーコンピュータ 京 の現状 プログラミングモデルと富士通のHPC 向けアーキテクチャ 次世代スーパーコンピュータ

More information

Microsoft Word - 2.2_takaki.doc

Microsoft Word - 2.2_takaki.doc 2.2 三次元圧縮性流体解析プログラム UPACS の性能評価 宇宙航空研究開発機構高木亮治 1. はじめに 宇宙航空研究開発機構 (JAXA) で開発された CFD プログラム UPACS について 富士通 PRIMEPOWER HPC2500 上で性能評価を行ったのでその結果を報告する 2. プログラム概要 UPACS は中核となる解析ソルバである UPACS ソルバと 解析の前後処理を行う各種ツール

More information

内容 WGの概要 アプリケーションチューニングの実践例 会員のいくつかの例より 活動の総括 かなり個人的 まとめ 2

内容 WGの概要 アプリケーションチューニングの実践例 会員のいくつかの例より 活動の総括 かなり個人的 まとめ 2 これで我々のアプリケーションプログラム は速くなるか? マルチコアクラスタ性能 WG 成果報告 マルチコアクラスタ性能 WG まとめ役高木亮治宇宙航空研究開発機構 内容 WGの概要 アプリケーションチューニングの実践例 会員のいくつかの例より 活動の総括 かなり個人的 まとめ 2 WG 概要 3 WG 設置の背景 WG 立ち上げ :2010 年 FX1 から次世代スーパーコンピュータ 京 ( FX10)

More information

修士論文

修士論文 AVX を用いた倍々精度疎行列ベクトル積の高速化 菱沼利彰 1 藤井昭宏 1 田中輝雄 1 長谷川秀彦 2 1 工学院大学 2 筑波大学 1 目次 1. 研究背景 目的 2. 実装, 実験環境 3. 実験 - 倍々精度ベクトル演算 - 4. 実験 - 倍々精度疎行列ベクトル積 - 5. まとめ 多倍長精度計算フォーラム 2 目次 1. 研究背景 目的 2. 実装, 実験環境 3. 実験 - 倍々精度ベクトル演算

More information

Microsoft PowerPoint - sales2.ppt

Microsoft PowerPoint - sales2.ppt 最適化とは何? CPU アーキテクチャに沿った形で最適な性能を抽出できるようにする技法 ( 性能向上技法 ) コンパイラによるプログラム最適化 コンパイラメーカの技量 経験量に依存 最適化ツールによるプログラム最適化 KAP (Kuck & Associates, Inc. ) 人によるプログラム最適化 アーキテクチャのボトルネックを知ること 3 使用コンパイラによる性能の違い MFLOPS 90

More information

(速報) Xeon E 系モデル 新プロセッサ性能について

(速報) Xeon E 系モデル 新プロセッサ性能について ( 速報 ) Xeon E5-2600 系モデル新プロセッサ性能について 2012 年 3 月 16 日 富士通株式会社 2012 年 3 月 7 日 インテル社より最新 CPU インテル Xeon E5 ファミリー の発表がありました この最新 CPU について PC クラスタシステムの観点から性能検証を行いましたので 概要を速報いたします プロセッサインテル Xeon プロセッサ E5-2690

More information

(Jacobi Gauss-Seidel SOR ) 1. (Theory of Iteration Method) Jacobi Gauss-Seidel SOR 2. Jacobi (Jacobi s Iteration Method) Jacobi 3. Gauss-Seide

(Jacobi Gauss-Seidel SOR ) 1. (Theory of Iteration Method) Jacobi Gauss-Seidel SOR 2. Jacobi (Jacobi s Iteration Method) Jacobi 3. Gauss-Seide 03 9 (Jacobi Gauss-Seidel SOR (Theory of Iteration Method Jacobi Gauss-Seidel SOR Jacobi (Jacobi s Iteration Method Jacobi 3 Gauss-Seidel (Gauss-Seidel Method Gauss-Seidel 4 SOR (SOR Method SOR 9 Ax =

More information

Microsoft PowerPoint - GPUシンポジウム _d公開版.ppt [互換モード]

Microsoft PowerPoint - GPUシンポジウム _d公開版.ppt [互換モード] 200/0/9 数値流体解析の並列効率とその GPU による高速化の試み 清水建設 ( 株 ) 技術研究所 PHAM VAN PHUC ( ファムバンフック ) 流体計算時間短縮と GPU の活用の試み 現 CPUとの比較によりGPU 活用の可能性 現 CPU の最大利用 ノード内の最大計算資源の利用 すべてCPUコアの利用 適切なアルゴリズムの利用 CPU コア性能の何倍? GPU の利用の試み

More information

Microsoft Word ●書式付IO性能_杉崎_ _更新__ doc

Microsoft Word ●書式付IO性能_杉崎_ _更新__ doc 2.2.3. 書式付 I/O 性能 上智大学南部伸孝富士通株式会社内藤俊也 杉崎由典 1. はじめに I/O 処理に要する時間の内訳は システムの実 I/O 時間 + ランタイムの書式処理時間となっている プログラムを用いた書式付 I/O 時間を富士通コンパイラで評価した所 システム時間が約 12% であり ランタイム時間が約 88% ということが確認された 即ち 書式付 I/O 性能は ランタイムの性能に大きく影響される

More information

スライド 1

スライド 1 計算科学が拓く世界スーパーコンピュータは何故スーパーか 学術情報メディアセンター中島浩 http://www.para.media.kyoto-u.ac.jp/jp/ username=super password=computer 講義の概要 目的 計算科学に不可欠の道具スーパーコンピュータが どういうものか なぜスーパーなのか どう使うとスーパーなのかについて雰囲気をつかむ 内容 スーパーコンピュータの歴史を概観しつつ

More information

スライド 1

スライド 1 知能制御システム学 画像処理の高速化 OpenCV による基礎的な例 東北大学大学院情報科学研究科鏡慎吾 swk(at)ic.is.tohoku.ac.jp 2007.07.03 リアルタイム処理と高速化 リアルタイム = 高速 ではない 目標となる時間制約が定められているのがリアルタイム処理である.34 ms かかった処理が 33 ms に縮んだだけでも, それによって与えられた時間制約が満たされるのであれば,

More information

<4D F736F F D20332E322E332E819C97AC91CC89F090CD82A982E78CA982E9466F E393082CC8D5C91A291CC90AB945C955D89BF5F8D8296D85F F8D F5F E646F63>

<4D F736F F D20332E322E332E819C97AC91CC89F090CD82A982E78CA982E9466F E393082CC8D5C91A291CC90AB945C955D89BF5F8D8296D85F F8D F5F E646F63> 3.2.3. 流体解析から見る Fortran90 の構造体性能評価 宇宙航空研究開発機構 高木亮治 1. はじめに Fortran90 では 構造体 動的配列 ポインターなど様々な便利な機能が追加され ユーザーがプログラムを作成する際に選択の幅が広がりより便利になった 一方で 実際のアプリケーションプログラムを開発する際には 解析対象となる物理現象を記述する数学モデルやそれらを解析するための計算手法が内包する階層構造を反映したプログラムを作成できるかどうかは一つの重要な観点であると考えられる

More information

スライド 1

スライド 1 大規模連立一次方程式に対する 高並列前処理技術について 今倉暁筑波大学計算科学研究センター 共同研究者櫻井鉄也 ( 筑波大学 ), 住吉光介 ( 沼津高専 ), 松古栄夫 (KEK) 1 /49 本日のトピック 大規模連立一次方程式 のための ( 前処理付き )Krylov 部分空間法の概略について紹介する. 高並列性を考慮した前処理として, 反復法を用いた重み付き定常反復型前処理を導入し, そのパラメータを最適化手法を提案

More information

<4D F736F F F696E74202D F A282BD94BD959C89F A4C E682528D652E707074>

<4D F736F F F696E74202D F A282BD94BD959C89F A4C E682528D652E707074> 発表の流れ SSE を用いた反復解法ライブラリ Lis 4 倍精度版の高速化 小武守恒 (JST 東京大学 ) 藤井昭宏 ( 工学院大学 ) 長谷川秀彦 ( 筑波大学 ) 西田晃 ( 中央大学 JST) はじめに 4 倍精度演算について Lisへの実装 SSEによる高速化 性能評価 スピード 収束 まとめ はじめに クリロフ部分空間法たとえば CG 法は, 理論的には高々 n 回 (n は係数行列の次元数

More information

この方法では, 複数のアドレスが同じインデックスに対応づけられる可能性があるため, キャッシュラインのコピーと書き戻しが交互に起きる性のミスが発生する可能性がある. これを回避するために考案されたのが, 連想メモリアクセスができる形キャッシュである. この方式は, キャッシュに余裕がある限り主記憶の

この方法では, 複数のアドレスが同じインデックスに対応づけられる可能性があるため, キャッシュラインのコピーと書き戻しが交互に起きる性のミスが発生する可能性がある. これを回避するために考案されたのが, 連想メモリアクセスができる形キャッシュである. この方式は, キャッシュに余裕がある限り主記憶の 計算機システム Ⅱ 演習問題学科学籍番号氏名 1. 以下の分の空白を埋めなさい. CPUは, 命令フェッチ (F), 命令デコード (D), 実行 (E), 計算結果の書き戻し (W), の異なるステージの処理を反復実行するが, ある命令の計算結果の書き戻しをするまで, 次の命令のフェッチをしない場合, ( 単位時間当たりに実行できる命令数 ) が低くなる. これを解決するために考案されたのがパイプライン処理である.

More information

スライド 1

スライド 1 ATI Stream SDK による 天文 物理計算の高速化 会津大学中里直人 計算事例 : 重力 N 体計算 No.2 プログラム :N 体の重力計算 (1) No.3 既存のアルゴリズムやアプリケーションを CAL で実装するには 前提として 並列計算可能な問題でなくては 利用する意味がない GPU のアーキテクチャにあわせて アルゴリズムを変更する必要あり GPU のメモリに合わせた 効率のよいデータ構造を考える必要あり

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション 応用数理概論 準備 端末上で cd ~/ mkdir cppwork cd cppwork wget http://271.jp/gairon/main.cpp wget http://271.jp/gairon/matrix.hpp とコマンドを記入. ls とコマンドをうち,main.cppとmatrix.hppがダウンロードされていることを確認. 1 準備 コンパイル c++ -I. -std=c++0x

More information

Microsoft PowerPoint - 報告会_羽角.ppt [互換モード]

Microsoft PowerPoint - 報告会_羽角.ppt [互換モード] 2010.05.21 東京大学情報基盤センター平成 21 年度公募型プロジェクト報告会 ペタ/ エクサスケールコンピューティングへの道 2010 海洋大循環のマルチスケール連結階層モデリング 羽角博康東京大学大気海洋研究所 ( 旧気候システム研究センター ) 海洋大循環 ( とくに全球規模熱塩循環 ): 一周 100,000000 km 以上の空間スケール 全球規模熱塩循環の pathway の実態

More information

スライド 1

スライド 1 計算科学が拓く世界 スーパーコンピュータは 何故スーパーか 学術情報メディアセンター 中島浩 http://www.pr.medi.kyoto-u.c.jp/jp/ usermesuper psswordcomputer 講義の概要 目的 計算科学に不可欠の道具スーパーコンピュータが どうスーパーなのか どういうものか なぜスーパーなのか どう使うとスーパーなのかについて雰囲気をつかむ 内容 スーパーコンピュータの歴史を概観しつつ

More information

差分スキーム 物理 化学 生物現象には微分方程式でモデル化される例が多い モデルを使って現実の現象をコンピュータ上で再現することをシミュレーション ( 数値シミュレーション コンピュータシミュレーション ) と呼ぶ そのためには 微分方程式をコンピュータ上で計算できる数値スキームで近似することが必要

差分スキーム 物理 化学 生物現象には微分方程式でモデル化される例が多い モデルを使って現実の現象をコンピュータ上で再現することをシミュレーション ( 数値シミュレーション コンピュータシミュレーション ) と呼ぶ そのためには 微分方程式をコンピュータ上で計算できる数値スキームで近似することが必要 差分スキーム 物理 化学 生物現象には微分方程式でモデル化される例が多い モデルを使って現実の現象をコンピュータ上で再現することをシミュレーション ( 数値シミュレーション コンピュータシミュレーション ) と呼ぶ そのためには 微分方程式をコンピュータ上で計算できる数値スキームで近似することが必要になる その一つの方法が微分方程式を差分方程式におき直すことである 微分方程式の差分化 次の 1 次元境界値問題を考える

More information

Microsoft PowerPoint - 高速化WS富山.pptx

Microsoft PowerPoint - 高速化WS富山.pptx 京 における 高速化ワークショップ 性能分析 チューニングの手順について 登録施設利用促進機関 一般財団法人高度情報科学技術研究機構富山栄治 一般財団法人高度情報科学技術研究機構 2 性能分析 チューニング手順 どの程度の並列数が実現可能か把握する インバランスの懸念があるか把握する タイムステップループ I/O 処理など注目すべき箇所を把握する 並列数 並列化率などの目標を設定し チューニング時の指針とする

More information

Microsoft PowerPoint - 高速化WS_ver1.1.1

Microsoft PowerPoint - 高速化WS_ver1.1.1 非静力学海洋モデル kinaco の GPU による高速化 平成 28 年度高速化ワークショップ ~ 京 を中核とするHPCI メニーコアを見据えて~ 平成 29 年 3 月 24 日秋葉原 UDXカンファレンス 山岸孝輝 1, 松村義正 2 1 高度情報科学技術研究機構 2 東京大学大気海洋研究所 Ver. 1.1 発表の概要 GPU の基本 ハードの特徴実行モデル プログラミングモデル性能を引き出すための基本

More information

Microsoft PowerPoint - 2_FrontISTRと利用可能なソフトウェア.pptx

Microsoft PowerPoint - 2_FrontISTRと利用可能なソフトウェア.pptx 東京大学本郷キャンパス 工学部8号館2階222中会議室 13:30-14:00 FrontISTRと利用可能なソフトウェア 2017年4月28日 第35回FrontISTR研究会 FrontISTRの並列計算ハンズオン 精度検証から並列性能評価まで 観測された物理現象 物理モデル ( 支配方程式 ) 連続体の運動を支配する偏微分方程式 離散化手法 ( 有限要素法, 差分法など ) 代数的な数理モデル

More information

Microsoft PowerPoint 知る集い(京都)最終.ppt

Microsoft PowerPoint 知る集い(京都)最終.ppt 次世代スパコンについて知る集い 配布資料 世界最高性能を目指すシステム開発について ー次世代スパコンのシステム構成と施設の概要 - 平成 22 年 1 月 28 日 理化学研究所次世代スーパーコンピュータ開発実施本部横川三津夫 高性能かつ大規模システムの課題と対応 演算性能の向上 CPU のマルチコア化,SIMD( ベクトル化 ) 機構 主記憶へのアクセス頻度の削減 - CPU 性能とメモリアクセス性能のギャップ

More information

openmp1_Yaguchi_version_170530

openmp1_Yaguchi_version_170530 並列計算とは /OpenMP の初歩 (1) 今 の内容 なぜ並列計算が必要か? スーパーコンピュータの性能動向 1ExaFLOPS 次世代スハ コン 京 1PFLOPS 性能 1TFLOPS 1GFLOPS スカラー機ベクトル機ベクトル並列機並列機 X-MP ncube2 CRAY-1 S-810 SR8000 VPP500 CM-5 ASCI-5 ASCI-4 S3800 T3E-900 SR2201

More information

PowerPoint Presentation

PowerPoint Presentation OpenFOAM を用いた 超大規模計算モデル作成とその性能の評価 清水建設株式会社 PHAM VAN PHUC 内山学 京 での OpenFOAM に関する取組み 第 1 回 OpenFOAM ワークショップ (2013) コード移植 10 億格子計算の壁 解決策 ( プリ ポスト ) 第 2 回 OpenFOAM ワークショップ (2014) 1 万並列計算の壁 解決策 (MPI プラットフォーム

More information

ex04_2012.ppt

ex04_2012.ppt 2012 年度計算機システム演習第 4 回 2012.05.07 第 2 回課題の補足 } TSUBAMEへのログイン } TSUBAMEは学内からのログインはパスワードで可能 } } } } しかし 演習室ではパスワードでログインできない設定 } 公開鍵認証でログイン 公開鍵, 秘密鍵の生成 } ターミナルを開く } $ ssh-keygen } Enter file in which to save

More information

Microsoft PowerPoint - 演習1:並列化と評価.pptx

Microsoft PowerPoint - 演習1:並列化と評価.pptx 講義 2& 演習 1 プログラム並列化と性能評価 神戸大学大学院システム情報学研究科横川三津夫 yokokawa@port.kobe-u.ac.jp 2014/3/5 RIKEN AICS HPC Spring School 2014: プログラム並列化と性能評価 1 2014/3/5 RIKEN AICS HPC Spring School 2014: プログラム並列化と性能評価 2 2 次元温度分布の計算

More information

Diapositiva 1

Diapositiva 1 マルチコアからメニーコアへ 我々は使いこなせているか? - ポストペタアプリ性能 WG 報告 - 高木亮治ポストペタアプリ性能 WG まとめ役宇宙航空研究開発機構 内容 WGの概要 アプリケーション事例集 まとめ 2 WG の目的 京 FX10 から FX100 への流れ ノード内マルチコアの大規模クラスタ マルチコア メニーコア - 京 :8 コア FX10:16 コア FX100:32 コア FX10

More information

2.1 インテル マイクロアーキテクチャー Haswell インテル マイクロアーキテクチャー Haswell は インテル マイクロアーキテクチャー Sandy Bridge とインテル マイクロアーキテクチャー Ivy Bridge の成功を受けて開発された この新しいマイクロアーキテクチャーの

2.1 インテル マイクロアーキテクチャー Haswell インテル マイクロアーキテクチャー Haswell は インテル マイクロアーキテクチャー Sandy Bridge とインテル マイクロアーキテクチャー Ivy Bridge の成功を受けて開発された この新しいマイクロアーキテクチャーの 2 章インテル 64 プロセッサー アーキテクチャーと IA-32 プロセッサー アーキテクチャー 本章では 最新世代のインテル 64 プロセッサーと IA-32 プロセッサー ( インテル マイクロアーキテクチャー Haswell インテル マイクロアーキテクチャー Ivy Bridge インテル マイクロアーキテクチャー Sandy Bridge ベースのプロセッサーと インテル Core マイクロアーキテクチャー

More information

VXPRO R1400® ご提案資料

VXPRO R1400® ご提案資料 Intel Core i7 プロセッサ 920 Preliminary Performance Report ノード性能評価 ノード性能の評価 NAS Parallel Benchmark Class B OpenMP 版での性能評価 実行スレッド数を 4 で固定 ( デュアルソケットでは各プロセッサに 2 スレッド ) 全て 2.66GHz のコアとなるため コアあたりのピーク性能は同じ 評価システム

More information

NS NS Scalar turbulence 5 6 FEM NS Mesh (A )

NS NS Scalar turbulence 5 6 FEM NS Mesh (A ) 22 3 2 1 2 2 2 3 3 4 NS 4 4.1 NS............ 5 5 Scalar turbulence 5 6 FEM 5 6.1 NS.................................... 6 6.2 Mes A )................................... 6 6.3.....................................

More information

26

26 26 FIPP FAPP I/O LAMMPS LJ atomic fluid 32,000 atoms for 100 timesteps FX10 4 16 / (FIPP) FIPP fipp - C - d dir/ - Ihwm,call - i10 mpiexec./a.out GUI, fipppx - A - d dir/ - Ihwm,cpu,balance,call,src

More information

FIT2016( 第 15 回情報科学技術フォーラム ) RC-010 スーパーコンピュータ 京 における C++ アプリケーションの評価 Evaluation of Compiler Optimization of C++ application on the K computer 千葉修一 1

FIT2016( 第 15 回情報科学技術フォーラム ) RC-010 スーパーコンピュータ 京 における C++ アプリケーションの評価 Evaluation of Compiler Optimization of C++ application on the K computer 千葉修一 1 RC-010 スーパーコンピュータ 京 における C++ アプリケーションの評価 Evaluation of Compiler Optimization of C++ application on the K computer 千葉修一 1 ファムバンフック 2 南一生 3 青木正樹 1 Shuichi Chiba Pham Van Phuc Kazuo Minami Masaki Aoki 1.

More information

GPGPUクラスタの性能評価

GPGPUクラスタの性能評価 2008 年度理研 HPC シンポジウム第 3 世代 PC クラスタ GPGPU クラスタの性能評価 2009 年 3 月 12 日 富士通研究所成瀬彰 発表の概要 背景 GPGPU による高速化 CUDA の概要 GPU のメモリアクセス特性調査 姫野 BMT の高速化 GPGPU クラスタによる高速化 GPU Host 間のデータ転送 GPU-to-GPU の通信性能 GPGPU クラスタ上での姫野

More information

活用ガイド (ソフトウェア編)

活用ガイド (ソフトウェア編) ii iii iv NEC Corporation 1998 v vi PA RT 1 vii PA RT 2 viii PA RT 3 PA RT 4 ix P A R T 1 2 3 1 4 5 1 1 2 1 2 3 4 6 1 2 3 4 5 7 1 6 7 8 1 9 1 10 1 2 3 4 5 6 7 8 9 10 11 11 1 12 12 1 13 1 1 14 2 3 4 5 1

More information

DO 時間積分 START 反変速度の計算 contravariant_velocity 移流項の計算 advection_adams_bashforth_2nd DO implicit loop( 陰解法 ) 速度勾配, 温度勾配の計算 gradient_cell_center_surface 速

DO 時間積分 START 反変速度の計算 contravariant_velocity 移流項の計算 advection_adams_bashforth_2nd DO implicit loop( 陰解法 ) 速度勾配, 温度勾配の計算 gradient_cell_center_surface 速 1 1, 2 1, 2 3 2, 3 4 GP LES ASUCA LES NVIDIA CUDA LES 1. Graphics Processing Unit GP General-Purpose SIMT Single Instruction Multiple Threads 1 2 3 4 1),2) LES Large Eddy Simulation 3) ASUCA 4) LES LES

More information

SC-85X2取説

SC-85X2取説 I II III IV V VI .................. VII VIII IX X 1-1 1-2 1-3 1-4 ( ) 1-5 1-6 2-1 2-2 3-1 3-2 3-3 8 3-4 3-5 3-6 3-7 ) ) - - 3-8 3-9 4-1 4-2 4-3 4-4 4-5 4-6 5-1 5-2 5-3 5-4 5-5 5-6 5-7 5-8 5-9 5-10 5-11

More information

<4D6963726F736F667420506F776572506F696E74202D208376838C835B83938365815B835683878393312E707074205B8CDD8AB78382815B83685D>

<4D6963726F736F667420506F776572506F696E74202D208376838C835B83938365815B835683878393312E707074205B8CDD8AB78382815B83685D> i i vi ii iii iv v vi vii viii ix 2 3 4 5 6 7 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60

More information

『戦時経済体制の構想と展開』

『戦時経済体制の構想と展開』 1 15 15 17 29 36 45 47 48 53 53 54 58 60 70 88 95 95 98 102 107 116 v 121 121 123 124 129 132 142 160 163 163 168 174 183 193 198 205 205 208 212 218 232 237 237 240 247 251 vi 256 268 273 289 293 311

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション 多倍長精度演算の性能評価 日時 年 月 日 :3-: 場所工学院大学新宿校舎 8 階第 4 会議室 高エネルギー加速器研究機構 濱口信行 hgu@post.kek.jp // 第 回多倍長精度計算フォーラム . はじめに 計算センター => ユーザプログラムの実行効率は何 % です よく出ています or 改善してください 実行性能 = 演算量 / 実行時間実行効率 = 実行性能 / 理論性能 ユーザ実行時間

More information

Microsoft Word ●MPI性能検証_志田_ _更新__ doc

Microsoft Word ●MPI性能検証_志田_ _更新__ doc 2.2.2. MPI 性能検証 富士通株式会社 志田直之 ここでは,Open MPI および富士通 MPI を用いて,MPI 性能の評価結果について報告する 1. 性能評価のポイント MPI の性能評価は, 大きく 3 つに分けて評価を行った プロセス数増加に向けた検証 ノード内通信とノード間通信の検証 性能検証 - 連続データ転送 - ストライド転送 2. プロセス数増加に向けた検証 評価に用いたシステムを以下に示す

More information

ParallelCalculationSeminar_imano.key

ParallelCalculationSeminar_imano.key 1 OPENFOAM(R) is a registered trade mark of OpenCFD Limited, the producer of the OpenFOAM software and owner of the OPENFOAM(R) and OpenCFD(R) trade marks. 2 3 Open FOAM の歴史 1989年ー2000年 研究室のハウスコード 開発元

More information

スライド 1

スライド 1 Dispatch 0 年後学期 計算機アーキテクチャ第二 (O) アウトオブオーダ実行プロセッサとバックエンド フロントエンド 命令ウィンドウ : 命令を格納するバッファ ALU Dispatch 命令フェッチ, デコード, リネーミング バックエンド ディスパッチ (dispatch) : 命令ウィンドウに命令を格納する動作 発行 (issue, fire) : 命令ウィンドウから, データ依存が解消された命令を機能ユニットに送り出す動作

More information

, = = 7 6 = 42, =

, = = 7 6 = 42, = http://www.ss.u-tokai.ac.jp/~mahoro/2016autumn/alg_intro/ 1 1 2016.9.26, http://www.ss.u-tokai.ac.jp/~mahoro/2016autumn/alg_intro/ 1.1 1 214 132 = 28258 2 + 1 + 4 1 + 3 + 2 = 7 6 = 42, 4 + 2 = 6 2 + 8

More information

本文ALL.indd

本文ALL.indd Intel Xeon プロセッサにおける Cache Coherency 時間の性能測定方法河辺峻田口成美古谷英祐 Intel Xeon プロセッサにおける Cache Coherency 時間の性能測定方法 Performance Measurement Method of Cache Coherency Effects on an Intel Xeon Processor System 河辺峻田口成美古谷英祐

More information

特許侵害訴訟における無効の主張を認めた判決─半導体装置事件−

特許侵害訴訟における無効の主張を認めた判決─半導体装置事件− [*1847] 12 4 11 10 364 54 4 1368 1710 68 1032 120 X Y 6.8.31 29 3 875 X Y 9.9.10 29 3 819 Y 320275 391468 46 12 21 35 2 6 3513745 39 1 30 320249 1) 1 39 1 [*1848] 2) 3) Y 10 51 2 4 39 5 39 1 3 139 7 2

More information

OpenFOAM(R) ソースコード入門 pt1 熱伝導方程式の解法から有限体積法の実装について考える 前編 : 有限体積法の基礎確認 2013/11/17 オープンCAE 富山富山県立大学中川慎二

OpenFOAM(R) ソースコード入門 pt1 熱伝導方程式の解法から有限体積法の実装について考える 前編 : 有限体積法の基礎確認 2013/11/17 オープンCAE 富山富山県立大学中川慎二 OpenFOAM(R) ソースコード入門 pt1 熱伝導方程式の解法から有限体積法の実装について考える 前編 : 有限体積法の基礎確認 2013/11/17 オープンCAE 勉強会 @ 富山富山県立大学中川慎二 * OpenFOAM のソースコードでは, 基礎式を偏微分方程式の形で記述する.OpenFOAM 内部では, 有限体積法を使ってこの微分方程式を解いている. どのようにして, 有限体積法に基づく離散化が実現されているのか,

More information

Microsoft Word - HOKUSAI_system_overview_ja.docx

Microsoft Word - HOKUSAI_system_overview_ja.docx HOKUSAI システムの概要 1.1 システム構成 HOKUSAI システムは 超並列演算システム (GWMPC BWMPC) アプリケーション演算サーバ群 ( 大容量メモリ演算サーバ GPU 演算サーバ ) と システムの利用入口となるフロントエンドサーバ 用途の異なる 2 つのストレージ ( オンライン ストレージ 階層型ストレージ ) から構成されるシステムです 図 0-1 システム構成図

More information

スライド 1

スライド 1 東北大学工学部機械知能 航空工学科 2019 年度クラス C D 情報科学基礎 I 14. さらに勉強するために 大学院情報科学研究科 鏡慎吾 http://www.ic.is.tohoku.ac.jp/~swk/lecture/ 0 と 1 の世界 これまで何を学んだか 2 進数, 算術演算, 論理演算 計算機はどのように動くのか プロセッサとメモリ 演算命令, ロード ストア命令, 分岐命令 計算機はどのように構成されているのか

More information

Microsoft PowerPoint - SWoPP06HayashiSlides.ppt

Microsoft PowerPoint - SWoPP06HayashiSlides.ppt Cell プロセッサへの分子軌道法 プログラムの実装と評価 林徹生 九州大学大学院システム情報科学府九州大学情報基盤センター 本田宏明稲富雄一井上弘士村上和彰九州大学大学院システム情報科学研究院 背景と目的 Cell アーキテクチャ 構成と特徴 分子軌道法プログラム アルゴリズムと特徴 タスク分配法 ( 実装方法 ) 粒度と割り当て 同期方法 評価 評価対象モデル 評価結果 おわりに 発表手順 背景と目的

More information

FUJITSU Supercomputer PRIMEHPC FX100 次世代技術への進化

FUJITSU Supercomputer PRIMEHPC FX100 次世代技術への進化 White paper FUJITSU Supercomputer PRIMEHPC FX100 次世代技術への進化 富士通株式会社次世代テクニカルコンピューティング開発本部 目次 FUJITSU Supercomputer PRIMEHPC FX100 の概要 2 メニーコアプロセッサ SPARC64 XIfx 3 HPC 向け命令セット拡張 HPC-ACE2 4 3 次元積層メモリ Hybrid

More information

FEM原理講座 (サンプルテキスト)

FEM原理講座 (サンプルテキスト) サンプルテキスト FEM 原理講座 サイバネットシステム株式会社 8 年 月 9 日作成 サンプルテキストについて 各講師が 講義の内容が伝わりやすいページ を選びました テキストのページは必ずしも連続していません 一部を抜粋しています 幾何光学講座については 実物のテキストではなくガイダンスを掲載いたします 対象とする構造系 物理モデル 連続体 固体 弾性体 / 弾塑性体 / 粘弾性体 / 固体

More information

並列・高速化を実現するための 高速化サービスの概要と事例紹介

並列・高速化を実現するための 高速化サービスの概要と事例紹介 第 4 回 AVS 可視化フォーラム 2019 並列 高速化を実現するための 高速化サービスの概要と事例紹介 株式会社アーク情報システム営業部仮野亮ソリューション技術部佐々木竜一 2019.08.30 はじめに アーク情報システムの紹介 高速化サービスとは? 事例紹介 コンサルティングサービスについて アーク情報システムの紹介 設立 資本金 :1987 年 10 月 :3 億 600 万円 従業員数

More information

FORTRAN( と C) によるプログラミング 5 ファイル入出力 ここではファイルからデータを読みこんだり ファイルにデータを書き出したりするプログラムを作成してみます はじめに テキスト形式で書かれたデータファイルに書かれているデータを読みこんで配列に代入し 標準出力に書き出すプログラムを作り

FORTRAN( と C) によるプログラミング 5 ファイル入出力 ここではファイルからデータを読みこんだり ファイルにデータを書き出したりするプログラムを作成してみます はじめに テキスト形式で書かれたデータファイルに書かれているデータを読みこんで配列に代入し 標準出力に書き出すプログラムを作り FORTRAN( と C) によるプログラミング 5 ファイル入出力 ここではファイルからデータを読みこんだり ファイルにデータを書き出したりするプログラムを作成してみます はじめに テキスト形式で書かれたデータファイルに書かれているデータを読みこんで配列に代入し 標準出力に書き出すプログラムを作ります FORTRAN の場合 OPEN 文でファイルを開いた後 標準入力の場合と同様に READ 文でデータを読みこみます

More information

ax 2 + bx + c = n 8 (n ) a n x n + a n 1 x n a 1 x + a 0 = 0 ( a n, a n 1,, a 1, a 0 a n 0) n n ( ) ( ) ax 3 + bx 2 + cx + d = 0 4

ax 2 + bx + c = n 8 (n ) a n x n + a n 1 x n a 1 x + a 0 = 0 ( a n, a n 1,, a 1, a 0 a n 0) n n ( ) ( ) ax 3 + bx 2 + cx + d = 0 4 20 20.0 ( ) 8 y = ax 2 + bx + c 443 ax 2 + bx + c = 0 20.1 20.1.1 n 8 (n ) a n x n + a n 1 x n 1 + + a 1 x + a 0 = 0 ( a n, a n 1,, a 1, a 0 a n 0) n n ( ) ( ) ax 3 + bx 2 + cx + d = 0 444 ( a, b, c, d

More information

Microsoft PowerPoint - Lec ppt [互換モード]

Microsoft PowerPoint - Lec ppt [互換モード] 0 年後学期 アウトオブオーダ実行プロセッサの構成 計算機アーキテクチャ第二 (O) アウトオブオーダ実行プロセッサとバックエンド フロントエンド 命令ウィンドウ : 命令を格納するバッファ 命令ウィンドウ ALU レジスタファイル ALU スケジューラ等 Register Dispatch 命令フェッチ, デコード, リネーミング バックエンド アウトオブオーダ実行プロセッサの構成 ディスパッチ

More information

Fujitsu Standard Tool

Fujitsu Standard Tool 低レベル通信ライブラリ ACP の PGAS ランタイム向け機能 2014 年 10 月 24 日富士通株式会社 JST CREST 安島雄一郎 Copyright 2014 FUJITSU LIMITED 本発表の構成 概要 インタフェース チャネル ベクタ リスト メモリアロケータ アドレス変換 グローバルメモリ参照 モジュール構成 メモリ消費量と性能評価 利用例 今後の課題 まとめ 1 Copyright

More information

行列の反復解法 1. 点 Jacobi 法 数値解法の重要な概念の一つである反復法を取り上げ 連立一次方程式 Au=b の反復解法を調べる 行列のスペクトル半径と収束行列の定義を与える 行列のスペクトル半径行列 Aの固有値の絶対値の最大値でもって 行列 Aのスペクトル半径 r(a) を与える 収束行

行列の反復解法 1. 点 Jacobi 法 数値解法の重要な概念の一つである反復法を取り上げ 連立一次方程式 Au=b の反復解法を調べる 行列のスペクトル半径と収束行列の定義を与える 行列のスペクトル半径行列 Aの固有値の絶対値の最大値でもって 行列 Aのスペクトル半径 r(a) を与える 収束行 行列の反復解法 1. 点 Jacobi 法 数値解法の重要な概念の一つである反復法を取り上げ 連立一次方程式 Au=b の反復解法を調べる 行列のスペクトル半径と収束行列の定義を与える 行列のスペクトル半径行列 Aの固有値の絶対値の最大値でもって 行列 Aのスペクトル半径 r(a) を与える 収束行列 B が正方行列で のとき B を収束行列と呼ぶ 定理収束行列のスペクトル半径は である 簡単な証明もし

More information

処理効率

処理効率 処理効率 処理効率の改善 : 基本関数複数メモリ領域線形代数の並列処理並列ガベージコレクタ多項式演算疎な行列とベクトル Maplesoft は 新しいリリースのたびに数学計算の効率と速度の改善を追求してきました これには 頻繁にコールされるルーチンやアルゴリズムの改善だけでなく ローレベルの基礎構造の改善も含まれます Maple では 複素数を含む数値計算を高速化する新しいアル 17 ゴリズムおよび疎な行列とベクトルをより実用的に結合するためのローレベルルーチンが導入されました

More information

cp-7. 配列

cp-7. 配列 cp-7. 配列 (C プログラムの書き方を, パソコン演習で学ぶシリーズ ) https://www.kkaneko.jp/cc/adp/index.html 金子邦彦 1 本日の内容 例題 1. 月の日数配列とは. 配列の宣言. 配列の添え字. 例題 2. ベクトルの内積例題 3. 合計点と平均点例題 4. 棒グラフを描く配列と繰り返し計算の関係例題 5. 行列の和 2 次元配列 2 今日の到達目標

More information

A

A A 2563 15 4 21 1 3 1.1................................................ 3 1.2............................................. 3 2 3 2.1......................................... 3 2.2............................................

More information

HPCマシンの変遷と 今後の情報基盤センターの役割

HPCマシンの変遷と 今後の情報基盤センターの役割 筑波大学計算科学センターシンポジウム 計算機アーキテクトが考える 次世代スパコン 2006 年 4 月 5 日 村上和彰 九州大学 murakami@cc.kyushu-u.ac.jp 次世代スパコン ~ 達成目標と制約条件の整理 ~ 達成目標 性能目標 (2011 年 ) LINPACK (HPL):10PFlop/s 実アプリケーション :1PFlop/s 成果目標 ( 私見 ) 科学技術計算能力の国際競争力の向上ならびに維持による我が国の科学技術力

More information

数値計算:有限要素法

数値計算:有限要素法 ( ) 1 / 61 1 2 3 4 ( ) 2 / 61 ( ) 3 / 61 P(0) P(x) u(x) P(L) f P(0) P(x) P(L) ( ) 4 / 61 L P(x) E(x) A(x) x P(x) P(x) u(x) P(x) u(x) (0 x L) ( ) 5 / 61 u(x) 0 L x ( ) 6 / 61 P(0) P(L) f d dx ( EA du dx

More information

スライド 1

スライド 1 計算科学が拓く世界 スーパーコンピュータは何故スーパーか 学術情報メディアセンター中島浩 http://www.cs.kyoto-u.c.jp/ 提供科目 > 計算科学が拓く世界 > 後期 #- 科目の概要 (/) 計算科学 : 理論 & 実験科学に続く第 の科学 実施困難 不可能な実験を ( スーパー ) コンピュータの中で仮想的に実施 ( シミュレーション ) 観測困難 不可能な空間 ( 星の内部,

More information

これわかWord2010_第1部_100710.indd

これわかWord2010_第1部_100710.indd i 1 1 2 3 6 6 7 8 10 10 11 12 12 12 13 2 15 15 16 17 17 18 19 20 20 21 ii CONTENTS 25 26 26 28 28 29 30 30 31 32 35 35 35 36 37 40 42 44 44 45 46 49 50 50 51 iii 52 52 52 53 55 56 56 57 58 58 60 60 iv

More information

パワポカバー入稿用.indd

パワポカバー入稿用.indd i 1 1 2 2 3 3 4 4 4 5 7 8 8 9 9 10 11 13 14 15 16 17 19 ii CONTENTS 2 21 21 22 25 26 32 37 38 39 39 41 41 43 43 43 44 45 46 47 47 49 52 54 56 56 iii 57 59 62 64 64 66 67 68 71 72 72 73 74 74 77 79 81 84

More information

これでわかるAccess2010

これでわかるAccess2010 i 1 1 1 2 2 2 3 4 4 5 6 7 7 9 10 11 12 13 14 15 17 ii CONTENTS 2 19 19 20 23 24 25 25 26 29 29 31 31 33 35 36 36 39 39 41 44 45 46 48 iii 50 50 52 54 55 57 57 59 61 63 64 66 66 67 70 70 73 74 74 77 77

More information

インテル(R) Visual Fortran コンパイラ 10.0

インテル(R) Visual Fortran コンパイラ 10.0 インテル (R) Visual Fortran コンパイラー 10.0 日本語版スペシャル エディション 入門ガイド 目次 概要インテル (R) Visual Fortran コンパイラーの設定はじめに検証用ソースファイル適切なインストールの確認コンパイラーの起動 ( コマンドライン ) コンパイル ( 最適化オプションなし ) 実行 / プログラムの検証コンパイル ( 最適化オプションあり ) 実行

More information

三者ミーティング

三者ミーティング Corral Puzzle の 整数計画法による解法と評価 第 11 回組合せゲーム パズル研究集会 2016 年 月 7 日 ( 月 ) 大阪電気通信大学 弘中健太鈴木裕章上嶋章宏 2016//7 第 11 回組合せゲーム パズル研究集会 2 発表の流れ 研究の背景 整数計画法と先行研究 2 Corral Puzzle ルールと定義 定式化 2 種類の閉路性の定式化 7 1 6 評価 計測結果と考察

More information

Microsoft PowerPoint - CCS学際共同boku-08b.ppt

Microsoft PowerPoint - CCS学際共同boku-08b.ppt マルチコア / マルチソケットノードに おけるメモリ性能のインパクト 研究代表者朴泰祐筑波大学システム情報工学研究科 taisuke@cs.tsukuba.ac.jp アウトライン 近年の高性能 PC クラスタの傾向と問題 multi-core/multi-socket ノードとメモリ性能 メモリバンド幅に着目した性能測定 multi-link network 性能評価 まとめ 近年の高性能 PC

More information

最新の並列計算事情とCAE

最新の並列計算事情とCAE 1 大島聡史 ( 東京大学情報基盤センター助教 / 並列計算分科会主査 ) 最新の並列計算事情と CAE アウトライン 最新の並列計算機事情と CAE 世界一の性能を達成した 京 について マルチコア メニーコア GPU クラスタ 最新の並列計算事情と CAE MPI OpenMP CUDA OpenCL etc. 京 については 仕分けやら予算やら計画やらの面で問題視する意見もあるかと思いますが

More information

Microsoft PowerPoint PCクラスタワークショップin京都.ppt

Microsoft PowerPoint PCクラスタワークショップin京都.ppt PC クラスタシステムへの富士通の取り組み 富士通株式会社株式会社富士通研究所久門耕一 29 年度に富士通が提供する ( した ) 大規模クラスタ 今年度はCPUとしてメモリバンド幅がNehalem, QDR- IB( 片方向 4GB/s) などPCクラスタにとって期待できる多くのコモディティコンポーネントが出現 これら魅力ある素材を使ったシステムとして 2つのシステムをご紹介 理化学研究所様 RICC(Riken

More information

2012 年ハイパフォーマンスコンピューティングと計算科学シンポジウム High Performance Computing Symposium 2012 HPCS /1/24 京 コンピュータにおける疎行列とベクトル積の 性能チューニングと性能評価 南一生 井上俊介 堤重信 前田拓

2012 年ハイパフォーマンスコンピューティングと計算科学シンポジウム High Performance Computing Symposium 2012 HPCS /1/24 京 コンピュータにおける疎行列とベクトル積の 性能チューニングと性能評価 南一生 井上俊介 堤重信 前田拓 京 コンピュータにおける疎行列とベクトル積の 性能チューニングと性能評価 南一生 井上俊介 堤重信 前田拓人 長谷川幸弘 黒田明義 寺井優晃 横川三津夫 疎行列とベクトルの積は, 流体や構造計算等の工学や地球科学の分野で多く使用されている計算カーネルであり, プログラムの要求する B/F 値が高く, スカラマシンでは高い CPU 単体性能を得る事が難しい. 本稿では, 京速コンピュータ 京 の汎用マシンとしての性能を実証するために準備しているアプリケーションである

More information

Windows Server 2016 Hyper-V ストレージQoS機能の強化

Windows Server 2016 Hyper-V ストレージQoS機能の強化 Windows Server 2016 Hyper-V ストレージ QoS 機能の強化 1. はじめに Windows Server 2012 R2 の Hyper-V ストレージ QoS(Quality of Service) 機能は 仮想ディスクに対する I/O 帯域制御において Hyper-V ホスト上の仮想マシン ( 以下 VM と略 ) に対してのみ管理が可能でした このため Hyper-V

More information

平成18年版 男女共同参画白書

平成18年版 男女共同参画白書 i ii iii iv v vi vii viii ix 3 4 5 6 7 8 9 Column 10 11 12 13 14 15 Column 16 17 18 19 20 21 22 23 24 25 26 Column 27 28 29 30 Column 31 32 33 34 35 36 Column 37 Column 38 39 40 Column 41 42 43 44 45

More information

パフォーマンスレポート PRIMERGY TX100 S3

パフォーマンスレポート PRIMERGY TX100 S3 ホワイトペーパー パフォーマンスレポート ホワイトペーパー FUJITSU PRIMERGY サーバパフォーマンスレポート 本書では で実行したベンチマークの概要について説明します のパフォーマンスデータを 他の PRIMERGY モデルと比較して説明しています ベンチマーク結果に加え ベンチマークごとの説明およびベンチマーク環境の説明も掲載しています バージョン 1.1 2011-09-30 目次

More information

09.pptx

09.pptx 講義内容 数値解析 第 9 回 5 年 6 月 7 日 水 理学部物理学科情報理学コース. 非線形方程式の数値解法. はじめに. 分法. 補間法.4 ニュートン法.4. 多変数問題への応用.4. ニュートン法の収束性. 連立 次方程式の解法. 序論と行列計算の基礎. ガウスの消去法. 重対角行列の場合の解法項目を変更しました.4 LU 分解法.5 特異値分解法.6 共役勾配法.7 反復法.7. ヤコビ法.7.

More information

図 2 AVX の SIMD レジスタの構造 Figure 2 Architecture of AVX SIMD register 図 1 倍々精度のビット数 Figure 1 Bit pattern of Double-Double precision number る Double-Double

図 2 AVX の SIMD レジスタの構造 Figure 2 Architecture of AVX SIMD register 図 1 倍々精度のビット数 Figure 1 Bit pattern of Double-Double precision number る Double-Double AVX を用いた倍々精度疎行列ベクトル積の高速化 1 菱沼利彰 1 藤井昭宏 1 田中輝雄 2 長谷川秀彦 計算性能の向上に伴い, 高精度による計算が多くの場面で可能となっている.4 倍精度を効率良く実現する手法として,2 つの倍精度変数で 1 つの 4 倍精度変数を表現する倍々精度演算がある. 本研究では, 疎行列とベクトルの演算に使われる基本演算を AVX 命令を用いて高速化し, 性能を決定するパラメタについて分析を行うことにより,

More information

コンピュータの仕組み(1)ハードウェア

コンピュータの仕組み(1)ハードウェア Copyright 守屋悦朗 2005 コンピュータの仕組み (1) ハードウェア 2.1 CPU の基本原理 2 つの整数の和を出力するプログラムを考えよう main() { int a, b, c; /* 変数 a,b が整数値をとる変数であることを宣言する */ a = 1; /* a に 1 を代入する */ b = 2; /* b に 2 を代入する */ c = a+b; /* a と

More information

CCS HPCサマーセミナー 並列数値計算アルゴリズム

CCS HPCサマーセミナー 並列数値計算アルゴリズム 大規模系での高速フーリエ変換 2 高橋大介 daisuke@cs.tsukuba.ac.jp 筑波大学計算科学研究センター 2016/6/2 計算科学技術特論 B 1 講義内容 並列三次元 FFT における自動チューニング 二次元分割を用いた並列三次元 FFT アルゴリズム GPU クラスタにおける並列三次元 FFT 2016/6/2 計算科学技術特論 B 2 並列三次元 FFT における 自動チューニング

More information

NEE 研究会第 18 回講演討論会 OpenFOAM への計算機能追加連続的データ同化法 (VCA 法 ) の実装 大阪大学大学院工学研究科博士後期課程松尾智仁 内容 1.OpenFOAM を使う理由 1.1 OpenFOAMの特徴 1.2 OpenFOAMを使うにあたって 2.OpenFOAM

NEE 研究会第 18 回講演討論会 OpenFOAM への計算機能追加連続的データ同化法 (VCA 法 ) の実装 大阪大学大学院工学研究科博士後期課程松尾智仁 内容 1.OpenFOAM を使う理由 1.1 OpenFOAMの特徴 1.2 OpenFOAMを使うにあたって 2.OpenFOAM NEE 研究会第 18 回講演討論会 OpenFOAM への計算機能追加連続的データ同化法 (VCA 法 ) の実装 大阪大学大学院工学研究科博士後期課程松尾智仁 内容 1.1 OpenFOAMの特徴 1.2 OpenFOAMを使うにあたって 2.OpenFOAM への計算機能追加 2.1 計算機能の追加の方法 VCA 法とは 計算例 2015.01.27 於大阪大学中之島センター 2 1.1 OpenFOAM

More information

スライド 1

スライド 1 東北大学工学部機械知能 航空工学科 2015 年度 5 セメスター クラス D 計算機工学 6. MIPS の命令と動作 演算 ロード ストア ( 教科書 6.3 節,6.4 節 ) 大学院情報科学研究科鏡慎吾 http://www.ic.is.tohoku.ac.jp/~swk/lecture/ レジスタ間の演算命令 (C 言語 ) c = a + b; ( 疑似的な MIPS アセンブリ言語 )

More information

tabaicho3mukunoki.pptx

tabaicho3mukunoki.pptx 1 2 はじめに n 目的 4倍精度演算より高速な3倍精度演算を実現する l 倍精度では足りないが4倍精度は必要ないケースに欲しい l 4倍精度に比べてデータサイズが小さい Ø 少なくともメモリ律速な計算では4倍精度よりデータ 転送時間を減らすことが可能 Ø PCIeやノード間通信がボトルネックとなりやすい GPUクラスタ環境に有効か n 研究概要 l DD型4倍精度演算 DD演算 に基づく3倍精度演算

More information

COMET II のプログラミング ここでは機械語レベルプログラミングを学びます 1

COMET II のプログラミング ここでは機械語レベルプログラミングを学びます 1 COMET II のプログラミング ここでは機械語レベルプログラミングを学びます 1 ここでは機械命令レベルプログラミングを学びます 機械命令の形式は学びましたね機械命令を並べたプログラムを作ります 2 その前に プログラミング言語について 4 プログラミング言語について 高級言語 (Java とか C とか ) と機械命令レベルの言語 ( アセンブリ言語 ) があります 5 プログラミング言語について

More information

本日の範囲 ファイルとその中身 コンピュータにおける情報の表現 ファイルとフォルダ コンピュータの仕組み 通信 ネットワーク, インターネット 情報の符号化, その限界 コマンドライン プログラムの仕組み 通信の符号化, その限界 暗号 簡単なプログラムの作成 実行 Excel で計算 データの可視

本日の範囲 ファイルとその中身 コンピュータにおける情報の表現 ファイルとフォルダ コンピュータの仕組み 通信 ネットワーク, インターネット 情報の符号化, その限界 コマンドライン プログラムの仕組み 通信の符号化, その限界 暗号 簡単なプログラムの作成 実行 Excel で計算 データの可視 コンピュータが 計算 をする仕組み 田浦健次朗 本日の範囲 ファイルとその中身 コンピュータにおける情報の表現 ファイルとフォルダ コンピュータの仕組み 通信 ネットワーク, インターネット 情報の符号化, その限界 コマンドライン プログラムの仕組み 通信の符号化, その限界 暗号 簡単なプログラムの作成 実行 Excel で計算 データの可視化 基礎的概念 ( 本講義中では ) やや高度な概念

More information

行列、ベクトル

行列、ベクトル 行列 (Mtri) と行列式 (Determinnt). 行列 (Mtri) の演算. 和 差 積.. 行列とは.. 行列の和差 ( 加減算 ).. 行列の積 ( 乗算 ). 転置行列 対称行列 正方行列. 単位行列. 行列式 (Determinnt) と逆行列. 行列式. 逆行列. 多元一次連立方程式のコンピュータによる解法. コンピュータによる逆行列の計算.. 定数項の異なる複数の方程式.. 逆行列の計算

More information

研究報告用MS-Wordテンプレートファイル

研究報告用MS-Wordテンプレートファイル マルチコアおよび GPGPU 環境における画像処理最適化 矢野勝久 高山征大 境隆二出宮健彦 スケーラを題材として, マルチコアおよび GPGPU 各々の HW 特性に適した画像処理の最適化を図る. マルチコア環境では, 数値演算処理の削減,SIMD 化など直列性能の最適化を行った後,OpenMP を利用して並列化を図る.GPGPU(CUDA) では, スレッド並列を優先して並列処理の設計を行いブロックサイズを決める.

More information

Microsoft PowerPoint ppt

Microsoft PowerPoint ppt 仮想マシン (2), コード生成 http://cis.k.hosei.ac.jp/~asasaki /lect/compiler/2007-1204.pdf ( 訂正版 ) 1 概要 仮想マシン 概要 ( 復習 ) 制御命令 出力命令 コード生成 式のコード生成 文 文の列のコード生成 記号表 2 演習で作るコンパイラの例 test.hcc Int main() { int i j; i = 3;

More information

リソース制約下における組込みソフトウェアの性能検証および最適化方法

リソース制約下における組込みソフトウェアの性能検証および最適化方法 リソース制約下における組込みソフト ウェアの性能検証および最適化方法 広島市立大学 大学院情報科学研究科システム工学専攻 中田明夫倉田和哉百々太市 1 提案技術の概要 組込みシステムの開発 厳しいリソース制約 (CPU, ネットワークなど ) 非機能要求 ( リアルタイム性など ) の達成 開発プロセスにおける設計段階 性能問題を発見することが困難 実装段階で性能問題が発覚 設計の手戻りが発生 設計段階での性能検証手法

More information

スライド 1

スライド 1 GPU クラスタによる格子 QCD 計算 広大理尾崎裕介 石川健一 1.1 Introduction Graphic Processing Units 1 チップに数百個の演算器 多数の演算器による並列計算 ~TFLOPS ( 単精度 ) CPU 数十 GFLOPS バンド幅 ~100GB/s コストパフォーマンス ~$400 GPU の開発環境 NVIDIA CUDA http://www.nvidia.co.jp/object/cuda_home_new_jp.html

More information

Slides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments

Slides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments 計算機アーキテクチャ第 11 回 マルチプロセッサ 本資料は授業用です 無断で転載することを禁じます 名古屋大学 大学院情報科学研究科 准教授加藤真平 デスクトップ ジョブレベル並列性 スーパーコンピュータ 並列処理プログラム プログラムの並列化 for (i = 0; i < N; i++) { x[i] = a[i] + b[i]; } プログラムの並列化 x[0] = a[0] + b[0];

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション みんなの ベクトル計算 たけおか @takeoka PC クラスタ コンソーシアム理事でもある 2011/FEB/20 ベクトル計算が新しい と 2008 年末に言いました Intelに入ってる! (2008 年から見た 近未来? ) GPU 計算が新しい (2008 年当時 ) Intel AVX (Advanced Vector Extension) SIMD 命令を進めて ベクトル機構をつける

More information