2.2 3 COSMOS CAE (Computer-Aided Engineering) COSMOS Reynolds [1] Large Eddy Simulation (LES) Grid-scale (GS) [2] Subgrid-scale (S

Size: px

Start display at page:

Download "2.2 3 COSMOS CAE (Computer-Aided Engineering) COSMOS Reynolds [1] Large Eddy Simulation (LES) Grid-scale (GS) [2] Subgrid-scale (S"

ようたきちや
4 years ago
Views:

1 2.2 3 COSMOS CAE (Compute-Aided Engineeing) COSMOS Reynolds [1] Lage Eddy Simulation (LES) Gid-scale (GS) [2] Subgid-scale (SGS) SGS [3] 2 3 1

Navie-Stokes SMAC Poisson Cank-Nicolson Poisson 8 1 2.

2 Navie-Stokes SMAC Poisson Cank-Nicolson Poisson Schwaz Schwaz (Multiplicative Schwaz algoithm) p1 SOR (Successive Ove Relaxation) A x b Ax = b k x (k) SOR Gauss-Seidel A A = L + D + U (L: A D: A U: A ) (L + D + U)x = b (L + D) x = Ux + b (1) (L + D) x (k+1) = Ux (k) + b (2) x (k+1) = (L + D) 1 Ux (k) + (L + D) 1 b (3) (2) L

3 (3) x (k+1) (k) b Lx (k+1) (D + U) x (k) (k) x (k+1) = x (k) + D 1 (k) (4) (4) x (k) 2 ω x (k+1) = x (k) + ωd 1 (k) (5) SOR ω 0 < ω < 2 ω = 1 Gauss-Seidel Navie-Stokes Poisson 2 1 i, j, k Navie-Stokes 3 QUICK i, j, k 5 27 Poisson Poisson p p3

4 1 CPU CPU / / CPU RX Intel Xeon X (PRIMERGY RX600S5) (Nehalem-EX), 2.26GHz FX1 SPARC64 VII, 2.5GHz 1 4 SPARC64 VIII, 2.0GHz 1 8 FX10 SPARC64 IX, 1.848GHz RX: -Am -Kfast,paallel,ocl,vppocl,tl tt,pefetch -X9 -w -KXEON55 -Qt -Ectfiu -xdi=inline di -Kaay subscipt,aay subscipt ank=2,aay subscipt elementlast=25 -Kpefetch iteation=15,peex FX1: -Am -Kimpact,ocl,vppocl,tl tt -X9 -w -Qt -Ectfiu -xdi=$(mkdir)/inline di -Kpefetch model=fx1 -Kaay subscipt,aay subscipt ank=2,aay subscipt elementlast=25 -Kpefetch iteation=15,peex,fx10: -Kfast,paallel,ocl,vppocl -Ntl tt -Nt tune -X9 -Qt -xdi=inline di -W0,-zmpb=Swpl:message=detail -Kaay subscipt,aay subscipt ank=2,aay subscipt elementlast=25 -Kpefetch iteation=15,peex FX10 ( ) (-Kpefetch stide,pefetch sequential=soft) (i, j, k) 2 8 Poisson p4 FX1 1 4Coe PA p5,p6 7 8% 4% p7 k p8 p9 FX1 FX10 p10

5 p11 1. Poisson so8p b h p12 p13 2. Navie-Stokes so7v b clp p16 p17 p14 p15, p18 SOR SOR 19 Byte/Flops [1],,,,, 15 (2005), [2],, LES,, B, 64, 623 (1998), [3],,, LES SGS,, B, 68, 673 (2002),

6 3 次元非圧縮性熱流体計算プログラム COSMOS の測定評価 ( 補足資料 ) 株式会社豊田中央研究所堀之内成明連立一次方程式の求解について 1 計算時間の大半 (6 割 ~8 割 ) は連立一次方程式を解くことに費やされる. 次元数 (= 格子点数 ): 数 10 万 ~ 数 100 万規則非対称帯行列各行の非零要素数 : ~ 25 解法 : 定常反復法 (SOR, Gauss-Seidel), クリロフ部分空間法 (Bi-CGSTAB,...) 重合格子の場合は, このような行列を格子ブロックごとに解くが, 反復の途中で境界領域の格子点に対する補間を行う. (1),(2) の変化量が小さくなるまで繰り返し Gauss-Seidel like 格子 m=1 (1) 格子補間点をディリクレ境界とし m=2, (1) 格子補間点をディリクレ境界とし m=... を解く, を解く (2) 他の格子の最新の値から補間 (1) 補間点をディリクレ境界とし, を解く (2) 他の格子の最新の値から補間 (1) 補間点をディリクレ境界とし, を解く (2) 他の格子の最新の値から補間常に最新の値 (2) 他の格子の内部の値から補間 A x m = b m m 格子 A m=nvol x m = b m m A x m = b x Γ m m m Ι [ x ] A x m = b m m x Γ m Ι [ x ] x Γ m Ι x x x m [ ] [ ] Γ Ι 他の格子の内部領域 Multiplicative( 乗法的 ) Schwaz Method

7 7 色オーダリングによるノード内並列化 ( オリジナル版 ) 2 SOR 法を採用 ( 実際には緩和係数を 1 としているので,Gauss-Seidel 法 ) 各格子ブロックごとにマルチカラーオーダリングによる自動並列化で対応ベクトル機でのオーダリングをそのまま流用 7 色飛び (1 次元的 ) 配列のとり方も, それに合せて 1 次元並びになっている. eal*8 :: p0(n1max), bp(n1max) eal*8 :: clp(n1max,19) do m=1,nvol do ic=0,6 do n1=n1min(m)+ic,n1max(m),7 es=p0(n1 -iip1-1)*clp(n1,1) $ +p0(n1-ijp1-1)*clp(n1,2) $ +p0(n1-1) *clp(n1,3) $ +... $ +p0(n1-ijp1) *clp(n1,9) $ +p0(n1) $ +p0(n1+ijp1) *clp(n1,11) $ +... $ +p0(n1 +iip1+1)*clp(n1,19) & -bp(n1) p0(n1)=p0(n1)-es*omegap オリジナルのベクトル機用コード eal*8 :: p0(n1max), bp(n1max) eal*8 :: fj_clp(19, n1max/7+1, 0:6) do m=1,nvol do ic=0,6 i=1 do n1=n1s(m)+ic,n1e(m),7 es=p0(n1 -iip1-1)*fj_clp(1,i,ic) $ +p0(n1-ijp1-1)*fj_clp(2,i,ic) $ +p0(n1-1) *fj_clp(3,i,ic) $ +... $ +p0(n1-ijp1) *fj_clp(9,i,ic) $ +p0(n1) $ +p0(n1+ijp1) *fj_clp(11,i,ic) $ +... $ +p0(n1 +iip1+1)*fj_clp(19,i,ic) & clp のみ色ごとに連続アクセスとした -bp(n1) i=i+1 p0(n1)=p0(n1)-es*omegap 少し修正したコード ( これで計測 ) 性能評価計算の概要 3 LES を用いた円柱まわりの非定常流れ場の計算 ( 実用計算を踏まえ ) 重合格子を使用円柱まわり : 161x56x81=757,188 点背景 : 121x61x81=620,248 点

8 8 色オーダリング ( 改良版 1) の概要 4 I,j,k 各方向に 2 色, 計 8 色のオーダリングに変更. 但し, 配列の構造 ( 宣言 ) は基本的に変えていない. eal*8 :: p0(n1max), bp(n1max) eal*8 :: fj_clp0(19, m2max/7+1, nvol), & fj_clp1(19, m2max/7+1, nvol), &... & fj_clp7(19, m2max/7+1, nvol) do m=1,nvol do i=1,ico0max(m) kk=(i-1)/ijp8aa ij=-kk*ijp8aa+(i-1) jj=ij/iip8a ii=-jj*iip8a+ij n1=(kk*2)*ijp1+(jj*2)*iip1+(ii*2)+n1st 色ごとのループ es=p0(n1 -iip1-1)*fj_clp0(1,i,m) $ +p0(n1-ijp1-1)*fj_clp0(2,i,m) $ +p0(n1-1) *fj_clp0(3,i,m) $ +... $ +p0(n1-ijp1) *fj_clp0(9,i,m) $ +p0(n1) $ +p0(n1+ijp1) *fj_clp0(11,i,m) $ +... $ +p0(n1 +iip1+1)*fj_clp0(19,i,m) & -bp(n1) p0(n1)=p0(n1)-es*omegap do i=1,ico1max(m)... ( 圧力 Poisson のみに適用 )... 評価結果の概要 JAXA 殿 FX1(1 ノード 4Coe) での計測結果スレッド並列 : 自動並列 (VISIMPACT) コンハイルオフション : -Am -Kimpact,ocl,vppocl,tl_tt -X9 -w -Qt -Ectfiu -xdi=inline_di 7 色オーダリング 8 色オーダリングルーチン名プロファイラ CPU 時間 (count 数 ) [sec] [%] so7p_b_ 31, % so7v_b_ 10, % sgs_ 7, % covcn_ 4, % so7p_ 2, % 全体 64, % Mips Mflops ルーチン名プロファイラ CPU 時間 (count 数 ) [sec] [%] so8p_b_ 28, % so7v_b_ 10, % sgs_ 7, % covcn_ 4, % sgsbnd_ 1, % 全体 59, % Mips Mflops 5 csms_so7( 全体 ) - 時間 (sec) 整数ロードメモリアクセス待ち浮動小数点ロードメモリアクセス待ちストア待ち I/Oアクセス待ち整数ロードキャッシュアクセス待ち浮動小数点ロードキャッシュアクセス待ち整数演算待ち浮動小数点演算待ち分岐命令待ち命令フェッチ待ち uopコミットその他の待ち 1 命令コミット整数レジスタ書き込み制約浮動小数点レジスタ書き込み制約 2/3 命令コミット ( その他 ) 4 命令コミット時間 (sec) FP 演算待ち : 10% 7.0E E+02 時間 (sec) 7.0E E+02 csms_so8( 全体 ) - 時間 (sec) 整数ロードメモリアクセス待ち浮動小数点ロードメモリアクセス待ちストア待ち I/Oアクセス待ち整数ロードキャッシュアクセス待ち浮動小数点ロードキャッシュアクセス待ち整数演算待ち浮動小数点演算待ち分岐命令待ち命令フェッチ待ち uopコミットその他の待ち 1 命令コミット整数レジスタ書き込み制約浮動小数点レジスタ書き込み制約 2/3 命令コミット ( その他 ) 4 命令コミット FP 演算待ち : 12% (+9sec) 5.0E E E E+02 FP ロートキャッシュアクセス待ち : 23% 4.0E E+02 FP ロートキャッシュアクセス待ち : 13% (-74sec) 2.0E E E+02 FP ロートメモリアクセス待ち : 41% 1.0E+02 FP ロートメモリアクセス待ち : 38% (-40sec) 0.0E+00 Pocess 0 Thead 0 Pocess 0 Thead 1 Pocess 0 Thead 2 Pocess 0 Thead 3 0.0E+00 Pocess 0 Thead 0 Pocess 0 Thead 1 Pocess 0 Thead 2 Pocess 0 Thead 3

9 コスト上位ルーチン別の PA 情報圧力 Poisson 方程式の SOR 計算時間 (sec) 3.5E+02 7 色オーダリング 8 色オーダリング 3.0E E E E E E+02 FP ロートキャッシュアクセス待ち : 34% 2.0E E E E+01 FP ロートメモリアクセス待ち : 46% FP ロートメモリアクセス待ち : 43% 1.0E E E+00 Pocess 0 Thead 0 Pocess 0 Thead 1 Pocess 0 Thead 2 Pocess 0 Thead 3 運動方程式のSOR 計算 1.2E E+00 Pocess 0 Thead 0 Pocess 0 Thead 1 Pocess 0 Thead 2 Pocess 0 Thead 3 SGS 項算出 9.0E E E E E E E E E+01 FP ロートメモリアクセス待ち : 70% 4.0E E+01 FP 演算待ち : 33% 2.0E E E E+00 Pocess 0 Thead 0 Pocess 0 Thead 1 Pocess 0 Thead 2 Pocess 0 Thead 3 0.0E+00 Pocess 0 Thead 0 Pocess 0 Thead 1 Pocess 0 Thead 2 Pocess 0 Thead 3 更なる性能向上に向けた試み ( 改良版 2) 7 前回全てを一つの配列 p0 に持つ p1 p2 今回 k 方向を交互に二つの配列 p1, p2 に持つはを計算するときに参照される数字は色分けの番号を計算するときは同じ配列をみるキャッシュに乗りやすい近くの点は別の配列をみるキャッシュに乗りにくい遠くの点

10 ソースのイメージ 8 eal*8 :: p1(m2max,0:1,nvol) eal*8 :: p0(n1max), bp(n1max) eal*8 :: fj_clp0(19, m2max/7+1, nvol), & fj_clp1(19, m2max/7+1, nvol), &... & fj_clp7(19, m2max/7+1, nvol) ここでは p1,p2 を p1(:,0:1,:) として一つの配列にしてある do m=1,nvol do i=1,ico0max(m) kk=(i-1)/ijp8aa ij=-kk*ijp8aa+(i-1) jj=ij/iip8a ii=-jj*iip8a+ij nn1=kk*ijp1+(jj*2)*iip1+(ii*2)+nn1st n1 =nn1+kk*ijp1+n1sg nn2=nn1-ijp1 es=p1(nn1-iip1-1,0,m)*fj_clp0(1,i,m) $ +p1(nn2-1,1,m)*fj_clp0(2,i,m) $ +p1(nn1-1,0,m)*fj_clp0(3,i,m) $ + $ +p1(nn1-iip1,1,m)*fj_clp0(8,i,m) $ +p1(nn2,1,m)*fj_clp0(9,i,m) $ +p1(nn1,0,m) $ +p1(nn1,1,m)*fj_clp0(11,i,m) $ + $ +p1(nn1+ 1,0,m)*fj_clp0(17,i,m) $ +p1(nn1 +1,1,m)*fj_clp0(18,i,m) $ +p1(nn1+iip1+1,0,m)*fj_clp0(19,i,m) & -bp(n1) p1(nn1,0,m)=p1(nn1,0,m)-es*omegap do i=1,ico1max(m) 結果結果的にはあまり速度向上はしなかった. 9 圧力 Poisson 部のみの計算時間 [ 秒 ] coe 4coe 8coe 32coe 前回今回但し, 以下の社内計算機で評価 PRIMERGY RX600S5 x 11node Intel Xeon X7560 (Nehalem-EX) 8coe/chip, 4chip/node 2.26GHz, 24MB Chache

測定結果 CSMS_SOR8 最新版 ( 改良版 2) の FX1 京 FX10 での測定結果イタレーションは step=50 で測定 FX1 京 FX10 実行時間比較 (timeコマンドのeal) FX1 京 FX10 Thead 実行時間実行時間実行時間スケール Thead スケール Thead ( 秒 ) ( 秒 ) ( 秒 ) スケール csms_ 1th 931.36 1.

11 測定結果 CSMS_SOR8 最新版 ( 改良版 2) の FX1 京 FX10 での測定結果イタレーションは step=50 で測定 FX1 京 FX10 実行時間比較 (timeコマンドのeal) FX1 京 FX10 Thead 実行時間実行時間実行時間スケール Thead スケール Thead ( 秒 ) ( 秒 ) ( 秒 ) スケール csms_ 1th th th so8 4th th th FX1 比 csms_ so8 Thead FX1 Thead 京 Thead FX10 1th th th th th th 4.48 ( 目安 :FX1とのF 演算ピーク性能比 ) Thead FX1 Thead 京 Thead FX10 コア 1th th th 1.47 ノード 4th th th Copyight 2013 FUJITSU LIMITED 高コストの PA 情報 (FX10) PA 情報スレッド 0 step=50 FX10 (16 スレッド ) メモリスループットは少し余裕がある L2 ミス (dm) 率が高いメモリスループットは少し余裕がある L2 ミス (dm) 率が高い演算待ちが多い浮動小数点待ちが多く命令スケジューリングの余地があるか? Pefomance 実行時間 (sec) 浮動小数点演算ピーク比 MFLOPS MIPS 浮動小数点演算数 11 SIMD SIMD 命令率 (/ 有効総命令数 ) SIMD 命令率 (/SIMD 対象命令数 ) SIMD 演算命令率 (/SIMD 対象演算命令数 ) SIMDロード命令率 (/SIMD 対象ロード命令数 ) SIMD ストア命令率 (/SIMD 対象ストア命令数 ) so7v_b T % E % 31.41% 99.99% 0.00% 0.00% sgs T % E % 0.00% 0.00% 0.00% 0.00% so8p_b_h T % E % 21.57% 99.98% 0.00% 0.00% Cache L1I ミス率 (/ 有効総命令数 ) L1D ミス率ロードストア数 L1D ミス数 L1D ミス dm 率 L1D ミス hwpf 率 L1D ミス swpf 率 so7v_b T0 0.05% 25.99% 2.81E E % 26.33% 21.62% sgs T0 0.00% 4.12% 6.45E E % 3.43% 25.67% so8p_b_h T0 0.02% 6.24% 1.89E E % 58.93% 0.00% L2 ミス率 L2 ミス数 L2 ミス dm 率 (/L2 ミス数 ) L2 ミス pf 率 (/L2 ミス数 ) メモリスループット (GB/sec) L2 スループット (GB/sec) µdtlb ミス率 mdtlb ミス率 so7v_b T0 9.62% 2.71E % 76.83% % % sgs T0 0.34% 2.20E % 72.74% % % so8p_b_h T0 5.46% 1.03E % 92.53% % %

高コスト 3so8p_b_h チューニングについて Loop1チューニング浮動小数点演算待ちと整数演算待ちが多いソフトウェアパイプライン (SWP) による命令スケジューリングがされてない -KSWP オプションは有効であったがコンパイラが SWP しても効果が無いと判断して SWP していなかったそのため最適化制御行 (OCL) で強制的に SWP したところ効果が見られた

12 高コスト 3so8p_b_h チューニングについて Loop1チューニング浮動小数点演算待ちと整数演算待ちが多いソフトウェアパイプライン (SWP) による命令スケジューリングがされてない -KSWP オプションは有効であったがコンパイラが SWP しても効果が無いと判断して SWP していなかったそのため最適化制御行 (OCL) で強制的に SWP したところ効果が見られた 12 チューニングソースチューニング後のソース DO ループの前の 66 行目に!ocl swp を追加 62 *vocl loop,novec(p1,div) 63 *voption indep(p1,div) 64!cdi nodep(p1),nosync 65!cdi on_adb(p1) 66!ocl swp <<< Loop-infomation Stat >>> <<< [PARALLELIZATION] <<< Standad iteation count: 69 <<< [OPTIMIZATION] <<< SIMD <<< SOFTWARE PIPELINING <<< Loop-infomation End >>> 67 1 pp v do i=1,ico0max(m) 68 1 p v kk=(i-1)/ijp8aa 69 1 p v ij=-kk*ijp8aa+(i-1) 70 1 p v jj=ij/iip8a 71 1 p v ii=-jj*iip8a+ij 72 1 p v k1 =kk*ijp p v nn1=k1+(jj*2)*iip1+(ii*2)+nn1st 74 1 p v n1 =k1+nn1+n1sg 75 1 p v nn2=nn1-ijp1 追加 76 1 p v es=p1(nn1-iip1-1,0,m)*fj_clp0(1,i,m) 77 1 $ +p1(nn2-1,1,m)*fj_clp0(2,i,m) 78 1 $ +p1(nn1-1,0,m)*fj_clp0(3,i,m) 79 1 $ +p1(nn1-1,1,m)*fj_clp0(4,i,m) 80 1 $ +p1(nn1+iip1-1,0,m)*fj_clp0(5,i,m) 81 1 $ +p1(nn2-iip1,1,m)*fj_clp0(6,i,m) 82 1 $ +p1(nn1-iip1,0,m)*fj_clp0(7,i,m) 83 1 $ +p1(nn1-iip1,1,m)*fj_clp0(8,i,m) 84 1 $ +p1(nn2,1,m)*fj_clp0(9,i,m) 85 1 $ +p1(nn1,0,m) 86 1 $ +p1(nn1,1,m)*fj_clp0(11,i,m) 87 1 $ +p1(nn2+iip1,1,m)*fj_clp0(12,i,m) 88 1 $ +p1(nn1+iip1,0,m)*fj_clp0(13,i,m) 89 1 $ +p1(nn1+iip1,1,m)*fj_clp0(14,i,m) 90 1 $ +p1(nn1-iip1+1,0,m)*fj_clp0(15,i,m) 91 1 $ +p1(nn2 +1,1,m)*fj_clp0(16,i,m) 92 1 $ +p1(nn1+ 1,0,m)*fj_clp0(17,i,m) 93 1 $ +p1(nn1 +1,1,m)*fj_clp0(18,i,m) 94 1 $ +p1(nn1+iip1+1,0,m)*fj_clp0(19,i,m) 95 1 & -bp(n1) 96 1 p v p1(nn1,0,m)=p1(nn1,0,m)-es*omegap 97 1 p v div(n1)=abs(es) 98 1 p v 13

高コスト 3so8p_b_h チューニング結果 (Loop1) Loop1 チューニングチューニングの結果浮動小数点演算待ちと整数演算待ちのコストが減ったその結果としてメモリスループットが約 68GB/sec になった約 11% 性能向上性能は約 11% 向上した Pefomance Cache 実行時間 (sec) L1I ミス率 (/ 有効総命令数 ) L1D ミス率

24 GB/sec に改善 16 スレッドで約 68GB/s となっておりメモリスループットネックとなっている L2 ミス率 L2 ミス数 L2 ミス dm 率 (/L2 ミス数 ) L2 ミス pf 率 (/L2 ミス数 ) メモリスループット (GB/sec) L2 スループット (GB/sec) オリジナル 0.06% 6.18% 2.39E+08 1.48E+07 42.23% 57.

41 高コスト 3so8p_b_h チューニング結果 (Loop1-8) Loop1-8 チューニング結果 (16 スレッド並列のスレッド 0) Loop1-8 はほぼ同じ処理のループです Loop1-8 の合計でも Loop1 と同様に約 11% の性能改善とメモリースループットネックになっています 15 Loop1 Loop2 Loop3 Loop4 Loop5 Loop6 Loop7

13 高コスト 3so8p_b_h チューニング結果 (Loop1) Loop1 チューニングチューニングの結果浮動小数点演算待ちと整数演算待ちのコストが減ったその結果としてメモリスループットが約 68GB/sec になった約 11% 性能向上性能は約 11% 向上した Pefomance Cache 実行時間 (sec) L1I ミス率 (/ 有効総命令数 ) L1D ミス率浮動小数点演算ピーク比ロードストア数 L1D ミス数 MFLOPS L1D ミス dm 率 MIPS L1D ミス hwpf 率浮動小数点演算数オリジナル % E+08 SWPL % E+08 L1D ミス swpf 率 14 メモリスループットが GB/sec に改善 16 スレッドで約 68GB/s となっておりメモリスループットネックとなっている L2 ミス率 L2 ミス数 L2 ミス dm 率 (/L2 ミス数 ) L2 ミス pf 率 (/L2 ミス数 ) メモリスループット (GB/sec) L2 スループット (GB/sec) オリジナル 0.06% 6.18% 2.39E E % 57.75% 0.03% 5.42% 1.30E % 91.95% SWPL 0.06% 5.09% 2.94E E % 61.73% 0.03% 4.38% 1.29E % 90.77% 高コスト 3so8p_b_h チューニング結果 (Loop1-8) Loop1-8 チューニング結果 (16 スレッド並列のスレッド 0) Loop1-8 はほぼ同じ処理のループです Loop1-8 の合計でも Loop1 と同様に約 11% の性能改善とメモリースループットネックになっています 15 Loop1 Loop2 Loop3 Loop4 Loop5 Loop6 Loop7 Loop8 実行時間 (sec) メモリスループット (GB/sec) オリジナル SWPL オリジナル SWPL オリジナル SWPL オリジナル SWPL オリジナル SWPL オリジナル SWPL オリジナル SWPL オリジナル SWPL

14 高コスト 1 のチューニングについて高コスト 1 の so7v_b -Kaay_subscipt, aay_subscipt_ank=2, aay_subscipt_elementlast=25 が既に指定されていて配列 clp は次元移動により連続アクセス化がされていました L2 ミス (dm) 率が高いため配列 clp のプリフェッチ (HWPF) が効果的でないのではないか? と言う観点で HWPF を止めて SWP で検証しましたまたコンパイラからは配列 clp はストライドアクセスに見えるためストライドアクセスオプションも指定しましたオプションは以下です -Kpefetch_stide -Kpefetch_sequential=soft -Kpefetch_stide ( 使用手引書より抜粋 ) ループ内で使用されるキャッシュのラインサイズよりも大きなストライドでアクセスされる配列データに対して pefetch 命令を使用したオブジェクトを生成しますプリフェッチするアドレスが翻訳時に確定しないループを含みます 38 2 pp v do 100 n1=n1s(m)+ic,n1e(m), p coef=omegav/clp(n1,10) 42 2 p v esu=u(n1 -iip1-1)*clp(n1,1) +u(n1-ijp1-1)*clp(n1,2) 43 2 $ +u(n1-1) *clp(n1,3) +u(n1+ijp1-1)*clp(n1,4) 44 2 $ +u(n1 +iip1-1)*clp(n1,5) +u(n1-ijp1-iip1 )*clp(n1,6) 45 2 $ +u(n1-iip1) *clp(n1,7) +u(n1+ijp1-iip1 )*clp(n1,8) 46 2 $ +u(n1-ijp1) *clp(n1,9) +u(n1 ) *clp(n1,10) 47 2 $ +u(n1+ijp1) *clp(n1,11)+u(n1-ijp1+iip1 )*clp(n1,12) 48 2 $ +u(n1+iip1) *clp(n1,13)+u(n1+ijp1+iip1 )*clp(n1,14) 49 2 $ +u(n1 -iip1+1)*clp(n1,15)+u(n1-ijp1 +1)*clp(n1,16) 50 2 $ +u(n1+ 1) *clp(n1,17)+u(n1+ijp1 +1)*clp(n1,18) 51 2 $ +u(n1 +iip1+1)*clp(n1,19) 56 2 $ -bu(n1) 58 2 p v esv=v(n1 -iip1-1)*clp(n1,1) +v(n1-ijp1-1)*clp(n1,2) 59 2 $ +v(n1-1) *clp(n1,3) +v(n1+ijp1-1)*clp(n1,4) 60 2 $ +v(n1 +iip1-1)*clp(n1,5) +v(n1-ijp1-iip1 )*clp(n1,6) 61 2 $ +v(n1-iip1) *clp(n1,7) +v(n1+ijp1-iip1 )*clp(n1,8) 62 2 $ +v(n1-ijp1) *clp(n1,9) +v(n1 ) *clp(n1,10) 63 2 $ +v(n1+ijp1) *clp(n1,11)+v(n1-ijp1+iip1 )*clp(n1,12) 64 2 $ +v(n1+iip1) *clp(n1,13)+v(n1+ijp1+iip1 )*clp(n1,14) 65 2 $ +v(n1 -iip1+1)*clp(n1,15)+v(n1-ijp1 +1)*clp(n1,16) 66 2 $ +v(n1+ 1) *clp(n1,17)+v(n1+ijp1 +1)*clp(n1,18) 67 2 $ +v(n1 +iip1+1)*clp(n1,19) 72 2 $ -bv(n1) : : p 100 continue continue so7v_b do 110 ic=0,6 <<< Loop-infomation Stat >>> <<< [PARALLELIZATION] <<< Standad iteation count: 37 <<< [OPTIMIZATION] <<< SIMD <<< SOFTWARE PIPELINING <<< PREFETCH : 90 <<< v: 54, bw2: 6, bw: 6, w: 18, bv: 6 <<< Loop-infomation End >>> 38 2 pp v do 100 n1=n1s(m)+ic,n1e(m), p coef=omegav/clp(n1,10) 42 2 p v esu=u(n1 -iip1-1)*clp(n1,1) +u(n1-ijp1-1)*clp(n1,2) 43 2 $ +u(n1-1) *clp(n1,3) +u(n1+ijp1-1)*clp(n1,4) 44 2 $ +u(n1 +iip1-1)*clp(n1,5) +u(n1-ijp1-iip1 )*clp(n1,6) 45 2 $ +u(n1-iip1) *clp(n1,7) +u(n1+ijp1-iip1 )*clp(n1,8) 46 2 $ +u(n1-ijp1) *clp(n1,9) +u(n1 ) *clp(n1,10) 47 2 $ +u(n1+ijp1) *clp(n1,11)+u(n1-ijp1+iip1 )*clp(n1,12) 48 2 $ +u(n1+iip1) *clp(n1,13)+u(n1+ijp1+iip1 )*clp(n1,14) 49 2 $ +u(n1 -iip1+1)*clp(n1,15)+u(n1-ijp1 +1)*clp(n1,16) 50 2 $ +u(n1+ 1) *clp(n1,17)+u(n1+ijp1 +1)*clp(n1,18) 51 2 $ +u(n1 +iip1+1)*clp(n1,19) 56 2 $ -bu(n1) : p 100 continue continue -Kpefetch_stide -Kpefetch_sequential=soft 指定 16 プリフェッチオプションはデフォルト -Kpefetch_stide, -Kpefetch_sequential=soft により配列 clp に対して pefetch 命令が生成されている 26 1 do 110 ic=0,6 <<< Loop-infomation Stat >>> <<< [PARALLELIZATION] <<< Standad iteation count: 37 <<< [OPTIMIZATION] <<< SIMD <<< SOFTWARE PIPELINING <<< PREFETCH : 222 <<< u: 54, v: 54, bu: 6, w: 54, bw2: 6 <<< bw: 6, clp: 36, bv: 6 <<< Loop-infomation End >>> 39 2 pp v do 100 n1=n1s(m)+ic,n1e(m), p coef=omegav/clp(n1,10) 43 2 p v esu=u(n1 -iip1-1)*clp(n1,1) +u(n1-ijp1-1)*clp(n1,2) 44 2 $ +u(n1-1) *clp(n1,3) +u(n1+ijp1-1)*clp(n1,4) 45 2 $ +u(n1 +iip1-1)*clp(n1,5) +u(n1-ijp1-iip1 )*clp(n1,6) 46 2 $ +u(n1-iip1) *clp(n1,7) +u(n1+ijp1-iip1 )*clp(n1,8) 47 2 $ +u(n1-ijp1) *clp(n1,9) +u(n1 ) *clp(n1,10) 48 2 $ +u(n1+ijp1) *clp(n1,11)+u(n1-ijp1+iip1 )*clp(n1,12) 49 2 $ +u(n1+iip1) *clp(n1,13)+u(n1+ijp1+iip1 )*clp(n1,14) 50 2 $ +u(n1 -iip1+1)*clp(n1,15)+u(n1-ijp1 +1)*clp(n1,16) 51 2 $ +u(n1+ 1) *clp(n1,17)+u(n1+ijp1 +1)*clp(n1,18) 52 2 $ +u(n1 +iip1+1)*clp(n1,19) 57 2 $ -bu(n1) : p 100 continue continue 17

PA 情報 [ so7v_b ] so7v_b 1 (PA 情報は step=5) [ 秒 ] 1.2E+00 1.0E+00 8.

0E-01 浮動小数点ロードメモリアクセス待ち浮動小数点ロードキャッシュアクセス待ちオプションによるプリフェッチの生成をした L2のdmミス削減 0.

15 PA 情報 [ so7v_b ] so7v_b 1 (PA 情報は step=5) [ 秒 ] 1.2E E E-01 プリフェッチオプションデフォルト -Kpefetch_stide -Kpefetch_sequential=soft 約 10% の性能向上 L2ミスdm 率が高く浮動小数点ロードメモリアクセス待ちが発生プリフェッチ生成により約 10% の性能向上 6.0E E E-01 浮動小数点ロードメモリアクセス待ち浮動小数点ロードキャッシュアクセス待ちオプションによるプリフェッチの生成をした L2のdmミス削減 0.0E+00 Pefomance Cache Befoe T0 実行時間 (sec) L1I ミス率 (/ 有効総命令数 ) L1D ミス率浮動小数点演算ピーク比ロードストア数 OPT Tune T0 MFLOPS L1D ミス数 MIPS L1D ミス dm 率浮動小数点演算数 Befoe T % E+08 OPT Tune T % E+08 L1D ミス hwpf 率 L1D ミス swpf 率 L2 ミス率 L2 ミス数 L2 ミス dm 率 (/L2 ミス数 ) L2 ミス pf 率 (/L2 ミス数 ) メモリスループット (GB/sec) L2 スループット (GB/sec) Befoe T0 0.05% 25.99% 2.82E E % 26.33% 21.62% 9.62% 2.71E % 76.85% OPT Tune T0 0.05% 26.91% 3.02E E % 0.01% 45.11% 9.97% 3.02E % 96.62% SIMD SIMD 命令率 (/ 有効総命令数 ) SIMD 命令率 (/SIMD 対象命令数 ) SIMD 演算命令率 (/SIMD 対象演算命令数 ) SIMDロード命令率 (/SIMD 対象ロード命令数 ) SIMD ストア命令率 (/SIMD 対象ストア命令数 ) Befoe T % 31.41% 99.99% 0.00% 0.00% OPT Tune T % 31.41% 99.99% 0.00% 0.00% 16 スレッドで約 70.4GB/s となっておりメモリスループットネックとなっている 18

Microsoft Word ●IntelクアッドコアCPUでのベンチマーク_吉岡_ _更新__ doc

Microsoft Word ●IntelクアッドコアCPUでのベンチマーク_吉岡_ _更新__ doc 2.3. アプリ性能 2.3.1. Intel クアッドコア CPU でのベンチマーク東京海洋大学吉岡諭 1. はじめにこの数年でマルチコア CPU の普及が進んできた x86 系の CPU でも Intel と AD がデュアルコアクアッドコアの CPU を次々と市場に送り出していてそれらが PC クラスタの CPU として採用され HPC に活用されているここでは Intel クアッドコア