内容 WGの概要アプリケーションチューニングの実践例会員のいくつかの例より活動の総括かなり個人的まとめ 2

Size: px

Start display at page:

Download "内容 WGの概要アプリケーションチューニングの実践例会員のいくつかの例より活動の総括かなり個人的まとめ 2"

えみすずがみね
5 years ago
Views:

1 これで我々のアプリケーションプログラムは速くなるか? マルチコアクラスタ性能 WG 成果報告マルチコアクラスタ性能 WG まとめ役高木亮治宇宙航空研究開発機構

2 内容 WGの概要アプリケーションチューニングの実践例会員のいくつかの例より活動の総括かなり個人的まとめ 2

3 WG 概要 3

4 WG 設置の背景 WG 立ち上げ :2010 年 FX1 から次世代スーパーコンピュータ京 ( FX10) への流れノード内マルチコアの大規模クラスタ FX1:4 コア京 :8 コア FX10:16 コア京の本格稼働 :2012 年京の利用促進に向けたプログラムの性能評価と高速化手法の検討京を始めとしたマルチコアクラスタマシンに向けた並列プログラミングモデル性能評価ツールの利用法分析手法高速化チューニングに関するノウハウの共有を目指した 4

5 活動期間とメンバー活動期間 :2010 年 12 月 ~2013 年 5 月 (2.5 年 ) メンバー : 氏名所属氏名所属担当幹事石井克哉名古屋大学推進委員福島正雄富士通 ( 株 ) 推進委員高木亮治宇宙航空研究開発機構青木正樹富士通 ( 株 ) 井戸村泰宏日本原子力研究開発機構山中栄次富士通 ( 株 ) 梅田隆行名古屋大学三吉郁夫富士通 ( 株 ) 荻野正雄名古屋大学三輪英樹富士通 ( 株 ) 坂下雅秀宇宙航空研究開発機構内藤俊也富士通 ( 株 ) 佐藤幸紀北陸先端科学技術大学院大学錦龍生富士通 ( 株 ) 柴村英智九州先端科学技術研究所瀧康太郎富士通 ( 株 ) 野田茂穂理化学研究所千葉修一富士通 ( 株 ) 姫野龍太郎理化学研究所オブザーバー森重博司富士通 ( 株 ) 堀之内成明 ( 株 ) 豊田中央研究所オブザーバー市川真一富士通 ( 株 ) 南一生理化学研究所 5

6 活動内容の概略全 10 回の会合 (2.5 年間 ) 活動内容情報提供次世代スーパーコンピュータ京性能解析ツール :PA ツール会員ツール各種チュートリアル会員アプリの測定報告性能測定チューニング成果成果報告書 ( 約 180 ページ ) PRIMEHPC FX10 チューニングチュートリアル ( 約 300 ページ ) 6

7 成果報告書 (1/2) アプリケーションの測定評価 ( 会員から ) 3 次元 FEM 構造解析コード :ADVENTURE 3 次元非圧縮性流体計算プログラム :COSMOS 3 次元電磁界コード :FDTD3 核融合プラズマ 5 次元格子コード :GT5D 圧縮性流体解析プログラム :UPACS 宇宙プラズマ 5 次元ブラソフコード :Vlasov5 流体構造連成解析アプリ :ZZ-EFSI 超音波集束シミュレータ :ZZ-HIFU 非構造格子 CFD ソルバ :JTAS 7

8 成果報告書 (2/2) 性能評価ツール ( 会員から ) インターコネクトシミュレータ :NSIM 実行駆動型アプリ解析ツール :Exana 共通事項 ( 富士通から ) H/WとS/W プリフェッチの仕様キャッシュミス数 / ミス率 FMA 命令化 8

9 別冊 PRIMEHPC FX10 チューニングチュートリアル第 1 章プログラミング言語処理系概略第 2 章 PAイベント偏第 3 章 Fortran 偏第 4 章 C/C++ 偏第 5 章チューニングツール偏第 6 章ノード内チューニング偏第 7 章 MPIおよびノード間チューニング偏 9

10 会員のいくつかの例よりアプリケーションチューニングの実践例 10

11 ADVENTURE( 荻野名大 ) FEM による弾塑性解析非構造格子疎行列の反転 FX1, FX10, CX400, 京で評価メモリバンド幅ネック直接法反復法でメモリバンド幅ネックを緩和現時点では直接法が速いがコア数が増えコア当たりのメモリバンド幅が低下した場合は反復法が有利 11

12 3 次元 FEM 構造解析コード ADVENTURE 領域分割領域方向ループ領域 FEM 同一コア数における性能比較領域分割法における高コスト部分要求メモリサイズ小領域分割法は, 粗粒度の並列性を持つ一方, 各スレッドが高い B/F を要求する同一コア数で比較するとシステムの B/F 値に従った性能差が見られた領域 FEM の要求メモリサイズが小さくなる実装を行い, CPU 内並列効率の改善が得られた並列効率改善要求メモリサイズ大マルチコア CPU 内の並列効率 12

13 COSMOS( 堀之内豊田中研 ) 非定常非圧縮性乱流計算プログラム LES, 構造格子 ( 物体適合重合 ), 陰解法 ( 行列反転, SOR) RX600, FX1, FX10, 京で評価マルチカラー化 (8 色 ) コンパイラオプション反復解法レベルでのアルゴリズムの見直しマルチコアに特化した配列構造の利用? 13

14 チューニング対象とした計算の概要 14 円柱まわり : 161x56x81=757,188 点背景 : 121x61x81 =620,248 点図 1 評価例題 ( 円柱周りの流れ ) 用重合格子 (*) Large Eddy Simulation (**) Successive Over-Relaxation 図 2 格子点の参照関係図 3 係数行列のイメージ

15 チューニング結果のまとめ 15 オーダリングの修正による高速化 (on FX1 4core) オリジナル :3 次元の格子点を 1 次元化した配列に入れて, 最小の色数となる 7 色でオーダリング 1 次元ループのストライドアクセス改良版 : 3 次元 (i,j,k) 各方向ごとに 2 色化した 8 色でオーダリングし, かつ, 各色ごとのループに分ける.( 配列のとり方は変えていない ) プログラム全体で 8% の実効速度向上 ( キャッシュアクセス待ち削減 ) コンパイルオプションによるチューニング ( 上記改良版に対して,on FX10 16core) 圧力 Poisson 方程式から得られる連立一次方程式の計算 : ソフトウェアパイプラインによる命令スケジューリング該当ルーチンで 11% の実効速度向上 ( 浮動小数点演算待ち, 整数演算待ち削減メモリスルーフット改善 ) 運動方程式から得られる連立一次方程式の計算 : ソフトウェアプリフェッチと, ストライドアクセスオプション指定該当ルーチンで 11% の実効速度向上 ( 浮動小数点ロートメモリアクセス待ち,L2 ミステマンド率削減メモリスルーフット改善 )

16 FDTD3( 梅田名大 ) 3 次元の電磁場解析構造格子 FX1, FX10, 京でノード性能の評価メモリバンド幅ネック配列インデックスの違い ( ベクトル型スカラー型 ) キャッシュの再利用具合はアルゴリズムに依存ループ分割か融合か? 配列の融合の是非? A(i,j,k,n) or A(n,i,j,k) or A1(i,j,k), A2(i,j,k),, An(i,j,k) やっぱり試行錯誤 16

17 GT5D( 井戸村 JAEA) 第一原理プラズマ乱流コード 5 次元位相空間 (3 次元空間 2 次元速度空間 ) 3 次元流体に比べて倍自由度が大 BX900, Helios, 京, FX1, FX10 で評価バンド幅ネックルーフラインモデルによる性能予測と実測の比較通信マスク手法の適用袖通信 :15% 削減 ( 京 ) 41% 削減 (Helios) 60 万コアまで % の並列化効率を達成 (24,576 コアから 589,824 コアまでのストロングスケーリングでの評価 ) 課題 : 大規模並列 I/O 可視化 17

18 核融合プラズマ 5 次元格子コード GT5D の測定評価概要核融合プラズマ 5 次元格子コード GT5D の並列化率向上を目的として演算と通信を同時処理する通信マスク手法を開発し 10 万コア以上のストロングスケーリングを実現通信マスク手法 1MPI ライブラリ ( 富士通インテル ) における RendezVouz プロトコルの問題により演算中に非同期通信が機能しない原因を解明 2 この問題を回避する 2 つの手法を開発 B.MPI_Test による RendezVouz プロトコル促進 C.OpenMP による通信スレッドの実装 3 手法 B C を GT5D における差分演算の袖領域通信さらに手法 C をデータ転置の集団通信に適用し有効性を確認並列化率 % を達成し京 60 万コアを用いてBX900 の約 35 倍の高速計算を実現 [Idomura et al., Int. J. HPC Appl. 2013] 通信と演算の同時処理によるオーバーヘッド削減 B.MPI_Test および C. 通信スレッドを用いる通信マスク手法 A.Blockingcomm. B.OverlapwithTestal C.OverlapwithOpenMP calc. copy sendrecv Isend/Irecv testal waital 京および Helios における GT5D のストロングスケーリング Sustained Performance (TFlops) 1, K(ITER) Helios(ITER) BX900(JT60) 16,384cores BX900 (2011) 65,536cores Helios (2012) Peak Performance (TFlops) 589,824cores K (2013) 18

19 UPACS( 高木 JAXA) 3 次元圧縮性流体解析プログラム構造格子 ( マルチブロック, 重合 ) FX1, 京で評価スレッド並列の促進キャッシュチューニング SIMD 化 Allocate/deallocate: アリーナ開放の抑止 SIMD 化を促進してもメモリバンド幅ネックの場合は速度向上なしチューニングの指針として何を見るべきか? 19

20 SEC:UPACS-turbo 次世代スパコン京 (Case01-muscl2ndOrder) SIMD 化率と FLOPS の関係 SIMD 化を促進しても性能が向上せず整数ロードメモリアクセス待ち浮動小数点ロードメモリアクセス待ちストア待ち I/O アクセス待ち整数ロードキャッシュアクセス待ち浮動小数点ロードキャッシュアクセス待ち整数演算待ち浮動小数点演算待ち分岐命令待ち命令フェッチ待ちバリア同期待ち uop コミットその他の待ち 1 命令コミット整数レジスタ書き込み制約浮動小数点レジスタ書き込み制約 2/3 命令コミット 4 命令コミット [ 秒 ] 6.0E+00 4 命令コミット 5.0E+00 2/3 命令コミット 4.0E+00 1 命令コミット 3.0E+00 [ 秒 ] 1.2E E+00 SEC:UPACS-turbo 次世代スパコン京 (Case01-ce ll facevariables_wc) 1.0E+00 整数ロードメモリアクセス待ち浮動小数点ロードメモリアクセス待ちストア待ち I/O アクセス待ち整数ロードキャッシュアクセス待ち浮動小数点ロードキャッシュアクセス待ち整数演算待ち浮動小数点演算待ち分岐命令待ち命令フェッチ待ちバリア同期待ち uop コミットその他の待ち 0.0E+00 1 命令コミット整数レジスタ書き込み制約浮動小数点レジスタ書き込み制約 2/3 命令コミット 4 命令コミット #0 適用前 #1 適用前 #2 適用前 #7 適用後 #0 適用後 #1 適用後 #2 適用後適用前適用前 #3 適用前 #4 適用前 #5 適用前 #6 #3 適用後 #4 適用後 #5 適用後 #6 適用後 #7 浮動小数点演算待ち 1.0E+01 4 命令コミット 2/3 命令コミット 8.0E+0 1 命令コミット 6.0E+0 浮動小数点演算待ち 4.0E+0 2.0E+0 0.0E+0 適用前 #0 適用前 #1 適用前 #2 適用前 #3 適用前 #4 適用前 #5 適用前 #6 適用前 #7 適用後 #0 適用後 #1 適用後 #2 適用後 #3 適用後 #4 適用後 #5 適用後 #6 適用後 #7 SIMD 化促進前 SIMD 化促進後 PAデータ実行時間浮動小数点測定区間 (sec) MFLOPS MIPS 浮動小数点 SIMD 演算命令率演算ピーク比演算数 (/ 対象演算命令数 ) 適用前 # % E % 適用後 # % E % 20

21 UPACS カーネル ( 高木 JAXA) UPACS のカーネル部分 ( 対流項時間積分 : 陽解法 ) 従来のベクトル型ループ空間スイープが多い局所性を意識したループ JSS, Intel CPU で評価キャッシュミス率の低減低 B/F での性能向上が期待 21

22 ループ A: do dir=1,3 データ & ループ構造データ :Q(i,j,k,n), I,j,k: 空間 n: 物理量空間ループ do k=1,kmax, do j=1,jmax, do i=1,imax MUSCL の計算 enddo, enddo, enddo do k=1,kmax, do j=1,jmax, do i=1,imax FLUX の計算 enddo, enddo, enddo do k=1,kmax, do j=1,jmax, do i=1,imax RHS(ΔQ) の計算 enddo, enddo, enddo ループ B: do k=1,kmax, do j=1,jmax, i=1,imax do ndir=1,3 MUSCL の計算 FLUX の計算 RHS(ΔQ) の計算境界での処理 (MUSCL, FLUX, ΔQ) enddo enddo, enddo, enddo enddo do k=1,kmax, do j=1,jmax, do i=1,imax 時間積分 enddo, enddo, enddo do k=1,kmax, do j=1,jmax, i=1,imax 時間積分 enddo, enddo, enddo 22

23 ループ A と B の比較 (1 スレッド ) 仮想的にメモリバンド幅を変化させたスレッド数は 1 で固定ブロックサイズは 80 縦軸は理論ピーク性能あたりの性能 ( 経過時間の逆数 ) Byte/FLOP は理論性能 B/F が悪化するとループ A は急激に性能が悪化する 23

24 ZZ-EFSI( 野田理研 ) 流体構造連成解析ボクセル格子, WENO 既存のチューニングではなく新たに設計 ( 京の性能を出す ) 計算アルゴリズムの選択 RICC@ 理研, 京で評価高い実行性能ノード :46.4% 12,288 ノード :43.2% 優秀なスタッフの理詰めでも最後は試行錯誤 24

25 性能評価ツール NSIM( 柴村九州先端 ) インターコネクトシミュレータ残念ながらユーザーの利用はなかった Exana( 佐藤北陸先端 ) プロファイラーホットスポットループ階層構造とそれらの間の並列性の検出残念ながらユーザーの利用はなかったチューニングのノウハウや事例に基づき機能要件を検討した並列性はループだけでないキャッシュの挙動の考慮デバッガとの連携部分解析オーバーヘッド 25

実行駆動型アプリケーション解析ツール Exana 本ツールは動的バイナリ変換によりコード実行時にループおよびデータフロー情報を抽出 (** 現状は x86 版のみ ) 本 WG での議論による知見流体と構造の連成解析のようなマルチフィジクスでは並列性はループだけとは限らないため本手法により関数とループのコンテクストによりコードを俯瞰することは有益チューニングへの応用のためには

26 実行駆動型アプリケーション解析ツール Exana 本ツールは動的バイナリ変換によりコード実行時にループおよびデータフロー情報を抽出 (** 現状は x86 版のみ ) 本 WG での議論による知見流体と構造の連成解析のようなマルチフィジクスでは並列性はループだけとは限らないため本手法により関数とループのコンテクストによりコードを俯瞰することは有益チューニングへの応用のためにはループ階層構造をキャッシュの挙動を如何に結びつけるかが鍵出力した姫野ベンチマークのループ階層構造とデータ依存出力した OpenMX のループ階層構造丸いノードがループ四角のノードは関数実線はコントロールフロー親子関係はネストで子ノードは内部ループ点線はデータ依存データ依存プロファイルをなしとすると解析オーバーヘッドは大幅に小データ依存解析ありで 50 倍なしで 3 倍程度のオーバーヘッドデータ依存なしでもプログラムのコードを俯瞰する手段としては OK ループ階層構造をキャッシュの挙動と結び付ける解析が望まれる本ツールでキャッシュ性能を推測できるかということは検討が必要 Japan Advanced Institute of Science and Technology 26

27 かなり個人的活動の総括 27

28 議論を通じて得られた知見メモリバンド幅ネックのアプリケーションが多くそこのチューニングが主メモリのスループットを上げるために今回はプリフェッチ (PF) に注目通常は HWPF を使うが場合によっては SWPF を使った方が良い場合がある何時 SWPF を使うか? 今でしょ!! という簡単明瞭な基準がなくてケースバイケース ( 個人的には悪夢の言葉!!) 28

29 議論を通じて得られた知見 HWPFとSWPF の仕組みどういう場合はどちらを使うか? ケースバイケースだがいくつかの事例はまとめた SWPFを使うとき : 連続アクセスだが途中でアクセスが飛ぶ無駄なアクセスをしない翻訳時オプションと最適化指示子の利用法最適化指示子が確実ベンダーはコンパイラにお任せあれと言うが 29

30 議論を通じて得られた成果チューニング支援機能としてコンパイラへの改善要求 FMA 命令化のメッセージ等を出力する現状の問題点 FMA 命令化はコーディングスタイルに依存しないユーザーは操作できない FMA 命令化したかどうかはアセンブラを見るしかない 30

31 チューニングの現状 ( かなり個人的 ) やっていること : ある程度見通しをつけたらまずは試してみる! どんどん試すひたすら試す!!! 試行錯誤の世界微かにある理詰めも最後はケースバイケースで粉砕されるやっぱり一般ユーザーの手に負えないレベル! 専門家にまかせるしかない? 専門家でも試行錯誤!! WG でも何故何故攻撃の繰り返し 31

32 チューニングの現状 ( かなり個人的 ) アーキテクチャが複雑化してチューニングが大変ベクトル型 CPU は単純で使いやすかった何が問題か? B/F を要求するアプリケーションに対して計算機の B/F が低下アプリケーション側で工夫が必要性能評価データの分析も困難チューニングも含めてプログラムをどう書けば良いかわからない私だけかもしれないがどうもそうでもない何故そうなったか? アーキテクチャ (H/W, コンパイラ ) と実際の動きを正確に理解できていない 32

33 チューニングの現状 ( かなり個人的 ) ユーザーは H/W コンパイラについてどんだけ勉強すれば良いのでしょうか? 試行錯誤ケースバイケースでは先に進めない!! そもそもこんなスーパーな人はいない? ユーザーの何故何故攻撃に答えられる理詰めで分析チューニングができるケースバイケースの判断基準が明確試行錯誤しなくてもどっちが良いか判断できる 33

34 WG の限界個別アプリケーションのチューニングに終始試行錯誤とケースバイケースメタな情報としては汎用化共有化できるが具体化したとたんに個別ケースになりがちもっとメタと個別をつなぐ部分が必要ある意味 Co-Design だと思うがどう実現すれば良いか? 34

35 Co-Design(ex. 流体解析 ) A スキーム実装陰解法 B スキーム実装構造格子 Euler 法格子系陽解法物理現象 Lagrange 粒子系非構造格子現状のチューニング Co-Design ではどこまで上流に行けるか? 上流に行けば行くほど共有化汎用化が可能では? 35

36 まとめマルチコアクラスタ性能 WG では FX1, 京, FX10 などのマルチコアクラスタを対象としたアプリケーションプログラムの性能評価および高速化チューニングを実施した報告書 FX10 向けチューニングチュートリアル今後のエクサスケール計算機開発に向けて H/W およびシステム開発者コンパイラ開発者の支援の下ユーザーが主体的に性能評価高速化チューニングを実施する本 WG 的活動が継続されることを期待する 36

37 まとめこれで我々のアプリケーションプログラムは速くなる ( なった ) か? 回答 :( 少なくとも WG に参加すれば ) 速くなった WG では専門家 (H/W コンパイラ ) に分析をしてもらえる進むべき道も教えてもらえる? 先達ユーザーからも教えてもらえる継続することが必要皆さん WG に参加しましょう!! 37

38 今後チューニングも必要だが Co-Design を目指した活動が必要!! WG でやれるか?(SS 研でできるか?) もう少し柔軟な活動形態が適切かも SS 研ならではの WG 活動が求められている HPCI, HPCI コンソーシアム京 AICS 38

39 謝辞 2.5 年間の WG 活動に参加していただいた会員の皆様富士通担当者様 SS 研事務局の皆様に感謝の意を表します WG では以下の環境を利用させていただきました改めてここに感謝の意を表しますスーパーコンピュータ京試験利用枠一般公募枠宇宙航空研究開発機構 JSS 日本原子力研究開発機構 BX900, FX1 国際核融合エネルギー研究センター Helios 名古屋大学 FX1 東京大学 FX10 九州大学 CX400, FX10 理化学研究所 RICC 富士通社内機 39

Microsoft Word ●IntelクアッドコアCPUでのベンチマーク_吉岡_ _更新__ doc

Microsoft Word ●IntelクアッドコアCPUでのベンチマーク_吉岡_ _更新__ doc 2.3. アプリ性能 2.3.1. Intel クアッドコア CPU でのベンチマーク東京海洋大学吉岡諭 1. はじめにこの数年でマルチコア CPU の普及が進んできた x86 系の CPU でも Intel と AD がデュアルコアクアッドコアの CPU を次々と市場に送り出していてそれらが PC クラスタの CPU として採用され HPC に活用されているここでは Intel クアッドコア

内容 WGの概要 アプリケーションチューニングの実践例 会員のいくつかの例より 活動の総括 かなり個人的 まとめ 2

内容 WGの概要アプリケーションチューニングの実践例会員のいくつかの例より活動の総括かなり個人的まとめ 2