08 年月一般財団法人高度情報科学技術研究機構本資料を教育目的等で利用いただいて構いません利用に際しては以下の点に留意いただくとともに下記のヘルプデスクにお問い合わせ下さい本資料は構成文章画像などの全てにおいて著作権法上の保護を受けています本資料の一部あるいは全部についていかなる

Size: px

Start display at page:

Download "08 年月一般財団法人高度情報科学技術研究機構本資料を教育目的等で利用いただいて構いません利用に際しては以下の点に留意いただくとともに下記のヘルプデスクにお問い合わせ下さい本資料は構成文章画像などの全てにおいて著作権法上の保護を受けています本資料の一部あるいは全部についていかなる"

ふじよしなかきむら
5 years ago
Views:

1 チューニング技法入門 : キャッシュチューニング太田幸宏 ( 高度情報科学技術研究機構 ) yota@rist.or.jp 教科書青山幸也チューニング技法虎の巻 ( 平成 8 年 8 月日版 ) 質問について ( 主に ) 休憩時間に受け付けますもご利用ください ( 後日, 回答します ) HPC プログラミングセミナーチューニング技法入門 : キャッシュチューニング

2 08 年月一般財団法人高度情報科学技術研究機構本資料を教育目的等で利用いただいて構いません利用に際しては以下の点に留意いただくとともに下記のヘルプデスクにお問い合わせ下さい本資料は構成文章画像などの全てにおいて著作権法上の保護を受けています本資料の一部あるいは全部についていかなる方法においても無断での転載複製を禁じます本資料に記載された内容などは予告なく変更される場合があります本資料に起因して使用者に直接または間接的損害が生じても著作者はいかなる責任も負わないものとします問い合わせ先 : ヘルプデスク helpdesk[-at-]hpci-office.jp([-at-] にしてください ) HPC プログラミングセミナーチューニング技法入門 : キャッシュチューニング

3 アウトライン第章チューニングの基礎経過時間, CPU 時間, ホットスポット第章コンパイルオプションコンパイラ ( 最適化 ) を上手に使う第章パフォーマンス測定方法時間計測の方法, ホットスポットの特定第 4 章キャッシュチューニングメモリ階層 ( キャッシュの役割 ), キャッシュ ( 手早く取れるデータ ) の活用第 5 章その他のチューニング高価な作業無駄な計算の削減, 条件分岐 (if 文 ), ループアンローリング第 7 章数値計算ライブラリーよく調整されたコード利用 (BLAS, LAPACK, FFTW) HPC プログラミングセミナーチューニング技法入門 : キャッシュチューニング

4 4- キャッシュとは記憶装置の階層構造 (Memory hierarchy) (4-) 記憶装置 ( メモリ, キャッシュ, レジスター ) の物理的特徴 *) 高速 or 大容量高価低速 or 小容量低価速度容量コスト ( 値段 ) のバランスメモリの階層構造 ( 階層構造において ) キャッシュの役割 ( データの動き ) を理解キャッシュの効率よい利用パフォーマンスの向上 *) 内田啓一郎, 小柳滋コンピュータアーキテクチャ ( オーム社 ) 章渡辺宙志高速化チューニングとその関連技術 (CMSI 計算科学技術特論 A 第 9 回 ); P. van der Lindern エキスパート C プログラミング知られざる C の深層 ( 梅原系訳 ) ( アスキー,996) chapter 7 HPC プログラミングセミナーチューニング技法入門 : キャッシュチューニング 4

5 4- キャッシュとは Case study: バランスのとれたアーキテクチャー ( 図 4--) プログラム ( 実行可能モジュール ) a.out の処理の流れ機械語命令とデータから構成各々専用の場所に転送解読 or 演算 Question: 処理の流れをどのように計算機中で実現するか? メモリ ( 低速大容量 ) とレジスタ ( 高速小容量 ) の段構成 [ 図 4--()] 性能と価格のバランスデータ : メモリ上に一度格納処理にとって重要な部分 : レジスタへ転送解読演算メモリ ( 低速 / 安価 / 大容量 ) 命令レジスタ ( 高速 / 高価 / 小容量 ) 機械語命令命令データデータレジスタ ( 高速 / 高価 / 小容量 ) データ a.out: ロード ( 実行 ) モジュール HPC プログラミングセミナーチューニング技法入門 : キャッシュチューニング 5

6 4- キャッシュとは Case study: バランスのとれたアーキテクチャー ( 図 4--) プログラム ( 実行可能モジュール ) a.out の処理の流れ機械語命令とデータから構成各々専用の場所に転送解読 or 演算 Question: 処理の流れをどのように計算機中で実現するか? 高速大容量メモリのみ [ 図 4--()] 高コスト解読演算メモリ ( 低速 / 安価 / 大容量 ) 機械語命令データ a.out: ロード ( 実行 ) モジュール HPC プログラミングセミナーチューニング技法入門 : キャッシュチューニング 6

7 4- キャッシュとは Case study: バランスのとれたアーキテクチャー ( 図 4--) プログラム ( 実行可能モジュール ) a.out の処理の流れ機械語命令とデータから構成各々専用の場所に転送解読 or 演算 Question: 処理の流れをどのように計算機中で実現するか? キャッシュの挿入 [ 図 4--()] メモリ ( 低速大容量 ) とレジスタ ( 高速小容量 ) の中間的な存在必要性に応じた階層的なデータ格納ここのデータの動きを追う高速 / 高価 / 小容量 / 必要性高い命令レジスタ命令データデータレジスタ命令キャッシュ命令データデータキャッシュメモリ機械語命令データメモリ低速 / 安価 / 大容量 / 必要性低い HDD/SSD 機械語命令データ HPC プログラミングセミナーチューニング技法入門 : キャッシュチューニング 7

8 4- キャッシュとは Memo 典型的なデバイスのデータ転送特性 *) バンド幅 (bandwidth): 単位時間あたりのデータ転送量 (throughput) レイテンシ (latency): データ転送の立ち上げに必ずかかる時間 L キャッシュ L/L キャッシュメインメモリ HDD 0 8 レイテンシ (sec) 0 7 バンド幅 (bytes/sec) *) Hager and Wellein, Introduction to High Performance Computing for Scientists and Engineers (CRC) p.64 Parallel I/O in Practice; HPC プログラミングセミナーチューニング技法入門 : キャッシュチューニング 8

9 4- キャッシュとはレジスターキャッシュメモリ間のデータ転送 (4-) 簡易モデルの設定 ( 図 4--) ( 実際の例 4- 節 ) データレジスタ : 個 ; データキャッシュ : 段 (-way); メモリデータレジスタ ( 高速 ) データキャッシュメモリ ( 低速 ) 段目段目メモリ内もキャッシュラインに対応するよう小区画に分かれている各段は小区画 ( キャッシュライン ) に分かれている HPC プログラミングセミナーチューニング技法入門 : キャッシュチューニング 9

10 4- キャッシュとはレジスターキャッシュメモリ間のデータ転送 (4-) 簡易モデルの設定 ( 図 4--) ( 実際の例 4- 節 ) データレジスタ : 個 ; データキャッシュ : 段 (-way); メモリ Memo 京 (SPARC64 TM VIIIfx) の場合 ( 倍精度浮動小数点レジスタ : 56 個 ( コア当り ) 次命令キャッシュ : KiByte ( 段, 段当りキャッシュラインは 8 個 ) 次データキャッシュ : KiByte ( 段, 段当りキャッシュラインは 8 個 ) 画を描いてみるとよい KiB, 段 ==> 6 (=/) KiB per 段 6 KiB ==> 6/(8 bytes) = 048 要素 ( 倍精度浮動小数点 ) 8 ラインの幅 = L (bytes) 6 04 bytes = 8 L ==> L = 8 bytes ==> 8/(8 bytes) = 6 要素 ( 倍精度浮動小数点 ) HPC プログラミングセミナーチューニング技法入門 : キャッシュチューニング 0

11 4- キャッシュとはレジスターキャッシュメモリ間のデータ転送 (4-) 簡易モデルの設定 ( 図 4--) ( 実際の例 4- 節 ) 動作に関する約束メモリ - キャッシュ間でデータはキャッシュライン単位で移動 ( コピー ) データレジスタ ( 高速 ) データキャッシュメモリ ( 低速 ) 段目段目 A() A() A() A() A() A() A(4) A(5) A(6) A(7) A(8) A(9) A(0) A() A() A() A(4) A(5) A(6) A(7) A(8) A(9) A(0) A() A() A() A(4) A(5) A(6) A(7) A(8) A(9) A(0) A() A() A() A(4) A(5) A(6) HPC プログラミングセミナーチューニング技法入門 : キャッシュチューニング

12 4- キャッシュとはレジスターキャッシュメモリ間のデータ転送 (4-) 簡易モデルの設定 ( 図 4--) ( 実際の例 4- 節 ) 動作に関する約束メモリ - キャッシュ間は, 同じ数字のラベル同士で移動 ( コピー ) (,, ) データレジスタ ( 高速 ) データキャッシュメモリ ( 低速 ) 段目段目 A() A() A() A() A() A() A(4) A(5) A(6) A(7) A(8) A(9) A(0) A() A() A() A(4) A(5) A(6) A(7) A(8) A(9) A(0) A() A() A() A(4) A(5) A(6) A(7) A(8) A(9) A(0) A() A() A() A(4) A(5) A(6) HPC プログラミングセミナーチューニング技法入門 : キャッシュチューニング

13 4- キャッシュとはレジスターキャッシュメモリ間のデータ転送 (4-) 簡易モデルの設定 ( 図 4--) ( 実際の例 4- 節 ) 動作に関する約束データはキャッシュ上の空いている段に移動 ( コピー ) データレジスタ ( 高速 ) データキャッシュメモリ ( 低速 ) 段目段目 A(6) A(7) A(8) A(4) A(5) A(6) A() A() A() A(4) A(5) A(6) A(7) A(8) A(9) A(0) A() A() A() A(4) A(5) A(6) A(7) A(8) A(9) A(0) A() A() A() A(4) A(5) A(6) A(7) A(8) A(9) A(0) A() A() A() A(4) A(5) A(6) HPC プログラミングセミナーチューニング技法入門 : キャッシュチューニング

14 4- キャッシュとはレジスターキャッシュメモリ間のデータ転送 (4-) 簡易モデルによるデータ転送の説明 ( 図 4--) Step 0 配列データはメモリ上に ( キャッシュの構造から見て ) 連続的に配置 [ 図 4--()] メモリ上の配置開始位置は状況依存 ( 図では左上からと仮定 ) データレジスタ ( 高速 ) データキャッシュメモリ ( 低速 ) 段目段目 A() A() A() A(4) A(5) A(6) A(7) A(8) A(9) A(0) A() A() A() A(4) A(5) A(6) A(7) A(8) A(9) A(0) A() A() A() A(4) A(5) A(6) A(7) A(8) A(9) A(0) A() A() A() A(4) A(5) A(6) HPC プログラミングセミナーチューニング技法入門 : キャッシュチューニング 4

15 4- キャッシュとはレジスターキャッシュメモリ間のデータ転送 (4-) 簡易モデルによるデータ転送の説明 ( 図 4--) Step ループで I=[ 図 4--()] A() が必要データレジスタ ( 高速 ) データキャッシュメモリ ( 低速 ) 段目段目 I= A() A() A() A(4) A(5) A(6) A(7) A(8) A(9) A(0) A() A() A() A(4) A(5) A(6) A(7) A(8) A(9) A(0) A() A() A() A(4) A(5) A(6) A(7) A(8) A(9) A(0) A() A() A() A(4) A(5) A(6) HPC プログラミングセミナーチューニング技法入門 : キャッシュチューニング 5

16 4- キャッシュとはレジスターキャッシュメモリ間のデータ転送 (4-) 簡易モデルによるデータ転送の説明 ( 図 4--) Step ループで I=[ 図 4--()] A() が必要メモリからキャッシュに転送データレジスタ ( 高速 ) データキャッシュメモリ ( 低速 ) 段目段目 I= A() A() A() ( 低速 ) A() A() A() A(4) A(5) A(6) A(7) A(8) A(9) A(0) A() A() A() A(4) A(5) A(6) A(7) A(8) A(9) A(0) A() A() A() A(4) A(5) A(6) A(7) A(8) A(9) A(0) A() A() A() A(4) A(5) A(6) HPC プログラミングセミナーチューニング技法入門 : キャッシュチューニング 6

17 4- キャッシュとはレジスターキャッシュメモリ間のデータ転送 (4-) 簡易モデルによるデータ転送の説明 ( 図 4--) Step ループで I=[ 図 4--()] A() が必要メモリからキャッシュに転送キャッシュからレジスタへ A() が転送演算 I= データレジスタ ( 高速 ) データキャッシュメモリ ( 低速 ) 段目段目 ( 高速 ) A() A() A() A() A() A() A() A(4) A(5) A(6) A(7) A(8) A(9) A(0) A() A() A() A(4) A(5) A(6) A(7) A(8) A(9) A(0) A() A() A() A(4) A(5) A(6) A(7) A(8) A(9) A(0) A() A() A() A(4) A(5) A(6) HPC プログラミングセミナーチューニング技法入門 : キャッシュチューニング 7

18 4- キャッシュとはレジスターキャッシュメモリ間のデータ転送 (4-) 簡易モデルによるデータ転送の説明 ( 図 4--) Step ループで I=[ 図 4--()] A() が必要メモリからキャッシュに転送キャッシュからレジスタへ A() が転送演算演算後, レジスタからキャッシュへ A() が転送 I= データレジスタ ( 高速 ) データキャッシュメモリ ( 低速 ) 段目段目 ( 高速 ) A() A() A() A() A() A() A() A(4) A(5) A(6) A(7) A(8) A(9) A(0) A() A() A() A(4) A(5) A(6) A(7) A(8) A(9) A(0) A() A() A() A(4) A(5) A(6) A(7) A(8) A(9) A(0) A() A() A() A(4) A(5) A(6) HPC プログラミングセミナーチューニング技法入門 : キャッシュチューニング 8

19 4- キャッシュとはレジスターキャッシュメモリ間のデータ転送 (4-) 簡易モデルによるデータ転送の説明 ( 図 4--) Step ループで I=[ 図 4--()] A() が必要データレジスタ ( 高速 ) データキャッシュメモリ ( 低速 ) 段目段目 I= A() A() A() A() A() A() A(4) A(5) A(6) A(7) A(8) A(9) A(0) A() A() A() A(4) A(5) A(6) A(7) A(8) A(9) A(0) A() A() A() A(4) A(5) A(6) A(7) A(8) A(9) A(0) A() A() A() A(4) A(5) A(6) HPC プログラミングセミナーチューニング技法入門 : キャッシュチューニング 9

20 4- キャッシュとはレジスターキャッシュメモリ間のデータ転送 (4-) 簡易モデルによるデータ転送の説明 ( 図 4--) Step ループで I=[ 図 4--()] A() が必要既にあるキャッシュ上のデータをレジスターへ転送演算 I= データレジスタ ( 高速 ) データキャッシュメモリ ( 低速 ) 段目段目 A() ( 高速 ) A() A() A() A() A() A() A(4) A(5) A(6) A(7) A(8) A(9) A(0) A() A() A() A(4) A(5) A(6) A(7) A(8) A(9) A(0) A() A() A() A(4) A(5) A(6) A(7) A(8) A(9) A(0) A() A() A() A(4) A(5) A(6) HPC プログラミングセミナーチューニング技法入門 : キャッシュチューニング 0

21 4- キャッシュとはレジスターキャッシュメモリ間のデータ転送 (4-) 簡易モデルによるデータ転送の説明 ( 図 4--) Step ループで I=[ 図 4--()] A() が必要既にあるキャッシュ上のデータをレジスターへ転送演算演算後, レジスターからキャッシュへ A() が転送 I= データレジスタ ( 高速 ) データキャッシュメモリ ( 低速 ) 段目段目 A() ( 高速 ) A() A() A() A() A() A() A(4) A(5) A(6) A(7) A(8) A(9) A(0) A() A() A() A(4) A(5) A(6) A(7) A(8) A(9) A(0) A() A() A() A(4) A(5) A(6) A(7) A(8) A(9) A(0) A() A() A() A(4) A(5) A(6) HPC プログラミングセミナーチューニング技法入門 : キャッシュチューニング

22 4- キャッシュとはレジスターキャッシュメモリ間のデータ転送 (4-) 簡易モデルによるデータ転送の説明 ( 図 4--) Step ループで I=4[ 図 4--()] A(4) が必要メモリからキャッシュへ転送データレジスタ ( 高速 ) データキャッシュメモリ ( 低速 ) 段目段目 I=4 A() A() A() A(4) A(5) A(6) ( 低速 ) A() A() A() A(4) A(5) A(6) A(7) A(8) A(9) A(0) A() A() A() A(4) A(5) A(6) A(7) A(8) A(9) A(0) A() A() A() A(4) A(5) A(6) A(7) A(8) A(9) A(0) A() A() A() A(4) A(5) A(6) HPC プログラミングセミナーチューニング技法入門 : キャッシュチューニング

23 4- キャッシュとはレジスターキャッシュメモリ間のデータ転送 (4-) 簡易モデルによるデータ転送の説明 ( 図 4--) Step ループで I=4[ 図 4--()] A(4) が必要メモリからキャッシュへ転送キャッシュからレジスタへ A(4) が転送演算データレジスタ ( 高速 ) データキャッシュメモリ ( 低速 ) 段目段目 I=4 A(4) ( 高速 ) A() A() A() A() A() A() A(4) A(4) A(5) A(5) A(6) A(6) A(7) A(8) A(9) A(0) A() A() A() A(4) A(5) A(6) A(7) A(8) A(9) A(0) A() A() A() A(4) A(5) A(6) A(7) A(8) A(9) A(0) A() A() A() A(4) A(5) A(6) HPC プログラミングセミナーチューニング技法入門 : キャッシュチューニング

24 4- キャッシュとはレジスターキャッシュメモリ間のデータ転送 (4-) 簡易モデルによるデータ転送の説明 ( 図 4--) Step ループで I=4[ 図 4--()] A(4) が必要メモリからキャッシュへ転送キャッシュからレジスタへ A(4) が転送演算演算後, レジスターからキャッシュへ A(4) が転送データレジスタ ( 高速 ) データキャッシュメモリ ( 低速 ) 段目段目 I=4 A(4) ( 高速 ) A() A() A() A() A() A() A(4) A(4) A(5) A(5) A(6) A(6) A(7) A(8) A(9) A(0) A() A() A() A(4) A(5) A(6) A(7) A(8) A(9) A(0) A() A() A() A(4) A(5) A(6) A(7) A(8) A(9) A(0) A() A() A() A(4) A(5) A(6) HPC プログラミングセミナーチューニング技法入門 : キャッシュチューニング 4

25 4- キャッシュとはレジスターキャッシュメモリ間のデータ転送 (4-) 簡易モデルによるデータ転送の説明 ( 図 4--) Step 4 ループで I=8 の処理が終わった時点の状態 [ 図 4--()] キャッシュは段目, 段目どちらも満杯データレジスタ ( 高速 ) データキャッシュメモリ ( 低速 ) 段目段目 I=8 A() A() A() A(4) A(5) A(6) A(7) A(8) A(9) A(0) A() A() A() A(4) A(5) A(6) A(7) A(8) A() A() A() A(4) A(5) A(6) A(7) A(8) A(9) A(0) A() A() A() A(4) A(5) A(6) A(7) A(8) A(9) A(0) A() A() A() A(4) A(5) A(6) A(7) A(8) A(9) A(0) A() A() A() A(4) A(5) A(6) HPC プログラミングセミナーチューニング技法入門 : キャッシュチューニング 5

26 4- キャッシュとはレジスターキャッシュメモリ間のデータ転送 (4-) 簡易モデルによるデータ転送の説明 ( 図 4--) Step 5 ループで I=9 図 4--()] A(9) が必要データレジスタ ( 高速 ) データキャッシュメモリ ( 低速 ) 段目段目 I=9 A() A() A() A(4) A(5) A(6) A(7) A(8) A(9) A(0) A() A() A() A(4) A(5) A(6) A(7) A(8) A() A() A() A(4) A(5) A(6) A(7) A(8) A(9) A(0) A() A() A() A(4) A(5) A(6) A(7) A(8) A(9) A(0) A() A() A() A(4) A(5) A(6) A(7) A(8) A(9) A(0) A() A() A() A(4) A(5) A(6) HPC プログラミングセミナーチューニング技法入門 : キャッシュチューニング 6

27 4- キャッシュとはレジスターキャッシュメモリ間のデータ転送 (4-) 簡易モデルによるデータ転送の説明 ( 図 4--) Step 5 ループで I=9 図 4--()] A(9) が必要古いデータがキャッシュより追い出しメモリ内データと異なればメモリ内データを変更データレジスタ ( 高速 ) データキャッシュメモリ ( 低速 ) 段目段目 I=9 A() A() A() A(4) A(5) A(6) A(7) A(8) A(9) A(0) A() A() A() A(4) A(5) A(6) A(7) A(8) ( 低速 ) A() A() A() A(4) A(5) A(6) A(7) A(8) A(9) A(0) A() A() A() A(4) A(5) A(6) A(7) A(8) A(9) A(0) A() A() A() A(4) A(5) A(6) A(7) A(8) A(9) A(0) A() A() A() A(4) A(5) A(6) HPC プログラミングセミナーチューニング技法入門 : キャッシュチューニング 7

28 4- キャッシュとはレジスターキャッシュメモリ間のデータ転送 (4-) 簡易モデルによるデータ転送の説明 ( 図 4--) Step 5 ループで I=9 図 4--()] A(9) が必要古いデータがキャッシュより追い出しメモリ内データと異なればメモリ内データを変更空いたキャッシュラインにメモリから転送以後, I=6 まで同様の処理データレジスタ ( 高速 ) データキャッシュメモリ ( 低速 ) 段目段目 I=9 A(9) A(0) A() A(4) A(5) A(6) A(7) A(8) A(9) A(0) A() A() A() A(4) A(5) A(6) A(7) A(8) ( 低速 ) A() A() A() A(4) A(5) A(6) A(7) A(8) A(9) A(0) A() A() A() A(4) A(5) A(6) A(7) A(8) A(9) A(0) A() A() A() A(4) A(5) A(6) A(7) A(8) A(9) A(0) A() A() A() A(4) A(5) A(6) HPC プログラミングセミナーチューニング技法入門 : キャッシュチューニング 8

29 4- キャッシュとは Memo キャッシュ上データとメモリ上のデータの同期 ( 一貫性 ) *) 今回の方式 : ライトバックキャッシュ上からデータの追い出しメモリ上のデータ更新 *) 内田啓一郎, 小柳滋コンピュータアーキテクチャ ( オーム社 ) 章データレジスタ ( 高速 ) データキャッシュメモリ ( 低速 ) 段目段目 I=9 A() A() A() A(4) A(5) A(6) A(7) A(8) A(9) A(0) A() A() A() A(4) A(5) A(6) A(7) A(8) ( 低速 ) A() A() A() A(4) A(5) A(6) A(7) A(8) A(9) A(0) A() A() A() A(4) A(5) A(6) A(7) A(8) A(9) A(0) A() A() A() A(4) A(5) A(6) A(7) A(8) A(9) A(0) A() A() A() A(4) A(5) A(6) HPC プログラミングセミナーチューニング技法入門 : キャッシュチューニング 9

30 4- キャッシュミスを少なくするための考慮点キャッシュミスとは (4-) 計算に必要なデータがキャッシュにない状態キャッシュミス : メモリからのデータ転送が要求パフォーマンス低下データ転送速度 : ( レジスタキャッシュ ) > ( キャッシュメモリ ) キャッシュミスを抑える [] ゼロは難しい ( 例 : 初期段階ではメモリから転送する必要あり ) 一度キャッシュに入ったデータの有効利用大事 HPC プログラミングセミナーチューニング技法入門 : キャッシュチューニング 0

31 ここまでのまとめ第 4 章キャッシュチューニングキャッシュの役割 ( メモリ階層 ) レジスタ ( 演算器に最も近いデータ格納領域 ) とメモリの中間必要性が高いデータを格納し, 高速にレジスタへ転送キャッシュミスキャッシュ上のデータが有効利用されないことミスの原因を理解 : ( ある程度は ) ハードウェアの知識が必要着眼点 : レジスタ - キャッシュ - メモリ間のデータ転送の動きを理解 HPC プログラミングセミナーチューニング技法入門 : キャッシュチューニング

32 アウトライン第章チューニングの基礎経過時間, CPU 時間, ホットスポット第章コンパイルオプションコンパイラ ( 最適化 ) を上手に使う第章パフォーマンス測定方法時間計測の方法, ホットスポットの特定第 4 章キャッシュチューニングメモリ階層 ( キャッシュの役割 ), キャッシュ ( 手早く取れるデータ ) の活用第 5 章その他のチューニング高価な作業無駄な計算の削減, 条件分岐 (if 文 ), ループアンローリング第 7 章数値計算ライブラリーよく調整されたコード利用 (BLAS, LAPACK, FFTW) HPC プログラミングセミナーチューニング技法入門 : キャッシュチューニング

33 4- キャッシュミスを少なくするための考慮点次元配列 ( 重ループ ) とキャッシュミス (4-) ストライド : メモリ上での処理される配列要素間の距離 ( 図 4--, 図 4--) 次元配列の考慮点キャッシュミスを少なくするためには, ストライドを短くすること Case study: 次元配列のアクセスパターン ( 図 4--, 図 4--) どちらがキャッシュが有効利用されているか? ( 簡易モデルで考える ) キャッシュ : 段, キャッシュライン : 個, ラインあたりに要素入力可能ストライドストライド 4 ストライド A[] A[] A[] A[4] A[5] A[6] A[7] A[8] A[9] A[0] A[] A[] A[] A[4] A[5] A[6] A[7] A[8] A[9] A[0] A[] A[] A[] A[4] A[5] A[6] A[7] A[8] A[9] A[0] A[] A[] A[] A[4] A[5] A[6] でキャッシュミス発生 ; ストライド 4 A[] A[] A[] A[4] A[5] A[6] A[7] A[8] A[9] のデータはキャッシュ上 A[0] A[] A[] A[] A[4] A[5] A[6] A[7] A[8] A[9] A[0] A[] A[] A[] A[4] A[5] A[6] A[7] A[8] A[9] A[0] A[] A[] A[] A[4] A[5] A[6] HPC プログラミングセミナーチューニング技法入門 : キャッシュチューニング

34 4- キャッシュミスを少なくするための考慮点 Case study: 次元配列のアクセスパターン ( 図 4--, 図 4--) ストライド 4 の何が問題か? ( 簡易モデルで考える ) データキャッシュ段目段目メモリ I= I=5 ストライド4 I= I=7 A() A() A() A(4) A(5) A(6) A(7) A(8) A(9) A(9) A(0) A() A() A(4) A(5) A(6) A(7) A(8) I= の時点 ( キャッシュは満杯 ) 利用されたデータ : 赤字のみ A() A() A() A(4) A(5) A(6) A(7) A(8) A(9) A(0) A() A() A() A(4) A(5) A(6) A(7) A(8) A(9) A(0) A() A() A() A(4) A(5) A(6) A(7) A(8) A(9) A(0) A() A() A() A(4) A(5) A(6) I=9 I= HPC プログラミングセミナーチューニング技法入門 : キャッシュチューニング 4

35 4- キャッシュミスを少なくするための考慮点 Case study: 次元配列のアクセスパターン ( 図 4--, 図 4--) ストライド 4 の何が問題か? ( 簡易モデルで考える ) データキャッシュ段目段目メモリ I= I=5 I=9 ストライド4 I= I=7 I= A() A() A() A(4) A(5) A(6) A(7) A(8) A(9) A(9) A(0) A() A() A(4) A(5) A(6) A(7) A(8) A() A() A() A(4) A(5) A(6) A(7) A(8) A(9) I= の時点 ( キャッシュは満杯 ) 利用されたデータ : 赤字のみ次 (I=5) のデータはキャッシュ上にないメモリから転送 + キャッシュから ( 未使用の ) 古いデータの追い出し A(0) A() A() A() A(4) A(5) A(6) A(7) A(8) A(9) A(0) A() A() A() A(4) A(5) A(6) A(7) A(8) A(9) A(0) A() A() A() A(4) A(5) A(6) I=5 HPC プログラミングセミナーチューニング技法入門 : キャッシュチューニング 5

36 4- キャッシュミスを少なくするための考慮点次元配列 ( 重ループ ) とキャッシュミス (4-) ストライド : メモリ上での処理される配列要素間の距離 ( 図 4--, 図 4--) 次元配列の考慮点キャッシュミスを少なくするためには, ストライドを短くすること Memo ストライドアクセスなら問題ないか? キャッシュミスに関する留意点あり : 4-4 節, 4-5 節 ( スラッシング, Thrashing) *) サンプルコード : thrashing *) 今村俊幸キャッシュ性能安定性についてスーパーコンピューティングニュース Vol.9 特集号 (008) pp.-; HPC プログラミングセミナーチューニング技法入門 : キャッシュチューニング 6

37 4- キャッシュミスを少なくするための考慮点サンプルコード : allocd [Fortran の場合 ] 多次元配列 ( 多重ループ ) とキャッシュミス (4-4) メモリー上の配列の配置 [ 図 4--(), 図 4--4()] 左側の添字が先に動くキャッシュミスを抑制 : ストライドのアクセスパターンが好ましい内側のループを配列の左側の添字で反復させること Memo コンパイラによる自動ループ入れ替え (4- 節 ) 例 : 簡易モデルにおける次元配列 A(4,9) のメモリ上の配置 A(,) A(,) A(,) A(4,) A(,) A(,) A(,) A(4,) A(,) A(,) A(,) A(4,) A(,4) A(,4) A(,4) A(4,4) A(,5) A(,5) A(,5) A(4,5) A(,6) A(,6) A(,6) A(4,6) A(,7) A(,7) A(,7) A(4,7) A(,8) A(,8) A(,8) A(4,8) A(,9) A(,9) A(,9) A(4,9) HPC プログラミングセミナーチューニング技法入門 : キャッシュチューニング 7

38 4- キャッシュミスを少なくするための考慮点 Case study: 配列の図とメモリ上の配置の比較配列 A(I,J) の図 ( 行列とみなす場合 ) ( 図 4--5) J I A(,) A(,) A(,) A(4,) A(,) A(,) A(,) A(4,) A(,) A(,) A(,) A(4,) A(,4) A(,4) A(,4) A(4,4) A(,5) A(,5) A(,5) A(4,5) A(,6) A(,6) A(,6) A(4,6) A(,7) A(,7) A(,7) A(4,7) A(,8) A(,8) A(,8) A(4,8) A(,9) A(,9) A(,9) A(4,9) メモリ上の配置 ( 簡易モデル ) A(,) A(,) A(,) A(4,) A(,) A(,) A(,) A(4,) A(,) A(,) A(,) A(4,) A(,4) A(,4) A(,4) A(4,4) A(,5) A(,5) A(,5) A(4,5) A(,6) A(,6) A(,6) A(4,6) A(,7) A(,7) A(,7) A(4,7) A(,8) A(,8) A(,8) A(4,8) A(,9) A(,9) A(,9) A(4,9) 左側の添字が先に動く (column major order) HPC プログラミングセミナーチューニング技法入門 : キャッシュチューニング 8

39 4- キャッシュミスを少なくするための考慮点 Case study: 次元配列 A(4,9) に対する重ループ計算 ( 簡易モデル ) 多重ループでは ( より ) 内側の添字が ( より ) 先に動く右側の添字左側の添字左側の添字右側の添字ストライドストライド 4 内側のループを配列の左側の添字で反復させること A(,) A(,) A(,) A(4,) A(,) A(,) A(,) A(4,) A(,) A(,) A(,) A(4,) A(,4) A(,4) A(,4) A(4,4) A(,5) A(,5) A(,5) A(4,5) A(,6) A(,6) A(,6) A(4,6) A(,7) A(,7) A(,7) A(4,7) A(,8) A(,8) A(,8) A(4,8) A(,9) A(,9) A(,9) A(4,9) A(,) A(,) A(,) A(4,) A(,) A(,) A(,) A(4,) A(,) A(,) A(,) A(4,) A(,4) A(,4) A(,4) A(4,4) A(,5) A(,5) A(,5) A(4,5) A(,6) A(,6) A(,6) A(4,6) A(,7) A(,7) A(,7) A(4,7) A(,8) A(,8) A(,8) A(4,8) A(,9) A(,9) A(,9) A(4,9) HPC プログラミングセミナーチューニング技法入門 : キャッシュチューニング 9

40 4- キャッシュミスを少なくするための考慮点サンプルコード : allocd [C の場合 ] 多次元配列 ( 多重ループ ) とキャッシュミス (4-5) メモリー上の配列の配置 [ 図 4--6(), 図 4--7()] 右側の添字が先に動くキャッシュミスを抑制 : ストライドのアクセスパターンが好ましい内側のループを配列の右側の添字で反復させること Memo コンパイラによる自動ループ入れ替え (4- 節 ) 例 : 簡易モデルにおける次元配列 a[9][4] のメモリ上の配置 a[0][0] a[0][] a[0][] a[0][] a[][0] a[][] a[][] a[][] a[][0] a[][] a[][] a[][] a[][0] a[][] a[][] a[][] a[4][0] a[4][] a[4][] a[4][] a[5][0] a[5][] a[5][] a[5][] a[6][0] a[6][] a[6][] a[6][] a[7][0] a[7][] a[7][] a[7][] a[8][0] a[8][] a[8][] a[8][] HPC プログラミングセミナーチューニング技法入門 : キャッシュチューニング 40

41 4-6 キャッシュチューニング行と列の入れ替え (Interchange) (4-6) 重ループの最内ループ [ 図 4-6-()]: 配列 B(J, I) でキャッシュミス多発 Fortran における左側の添字から動かす原則に従っていない対策 : 一時配列の利用による行と列の入れ替え [ 図 4-6-()] 入れ替えでキャッシュミス発生 0000 回実行されるループ中ではキャッシュミス軽減性能向上が期待 HPC プログラミングセミナーチューニング技法入門 : キャッシュチューニング 4

42 4-6 キャッシュチューニングブロック化 (Loop blocking) (4-9, 4-0; 4-8 も参照 ) [7] サンプルコード : mattp 重ループの最内ループ [ 図 4-6-8()]: 配列 B(J, I) でキャッシュミス多発 Fortran における左側の添字から動かす原則に従っていない対策 : 行と列の入れ替えをせず, キャッシュミスを軽減ブロック化 [ 図 4-6-9()] Memo プログラムの演算順序を変更する対策利用前提 : 順序変更によるロジック変更が発生しないこと HPC プログラミングセミナーチューニング技法入門 : キャッシュチューニング 4

43 4-6 キャッシュチューニングブロック化 (Loop blocking) (4-9, 4-0; 4-8 も参照 ) [7] サンプルコード : mattp プログラムの書き換え方 ( ループ変換 ) ループを ( ループ長がより短い ) 入れ子ループ (nested loop) に変換ブロック化, ストリップマイニング (4-0) において基本となる変換変換後 : コードの可読性は低下効果がある部分のみに適用すべき HPC プログラミングセミナーチューニング技法入門 : キャッシュチューニング 4

44 4-6 キャッシュチューニングブロック化 (Loop blocking) (4-9, 4-0; 4-8 も参照 ) [7] サンプルコード : mattp プログラムの書き換え方 ( ループ変換 ) ループを ( ループ長がより短い ) 入れ子ループ (nested loop) に変換ブロック化, ストリップマイニング (4-0) において基本となる変換変換後 : コードの可読性は低下効果がある部分のみに適用すべきブロック化 = 重 ( 多重 ) ループの各ループに対し分割 & 入れ子化期待 : ループ長を短くするキャッシュ内データの再利用を促進 HPC プログラミングセミナーチューニング技法入門 : キャッシュチューニング 44

45 4-6 キャッシュチューニング Case study: ブロック化によるキャッシュミス軽減 ( 簡易モデル ) ブロック化前 J I 配列の図 ( メモリ上の配置ではない ) J I メモリ上の配置配列 A: ストライドアクセス配列 B: ストライド 6 アクセスキャッシュミス多発の温床 A(,) A(,) A(,) A(4,) A(5,) A(6,) A(,) A(,) A(,) A(4,) A(5,) A(6,) A(,) A(,) A(,) A(4,) A(5,) A(6,) A(,4) A(,4) A(,4) A(4,4) A(5,4) A(6,4) A(,5) A(,5) A(,5) A(4,5) A(5,5) A(6,5) A(,6) A(,6) A(,6) A(4,6) A(5,6) A(6,6) B(,) B(,) B(,) B(4,) B(5,) B(6,) B(,) B(,) B(,) B(4,) B(5,) B(6,) B(,) B(,) B(,) B(4,) B(5,) B(6,) B(,4) B(,4) B(,4) B(4,4) B(5,4) B(6,4) B(,5) B(,5) B(,5) B(4,5) B(5,5) B(6,5) B(,6) B(,6) B(,6) B(4,6) B(5,6) B(6,6) HPC プログラミングセミナーチューニング技法入門 : キャッシュチューニング 45

46 4-6 キャッシュチューニング Case study: ブロック化によるキャッシュミス軽減 ( 簡易モデル ) A(,) A(,) A(,) B(,) B(,) B(,) B(,) B(,) B(,) B(,) B(,) B(,) A(,) A(,) A(,) A(4,) A(5,) A(6,) A(,) A(,) A(,) A(4,) A(5,) A(6,) A(,) A(,) A(,) A(4,) A(5,) A(6,) A(,4) A(,4) A(,4) A(4,4) A(5,4) A(6,4) A(,5) A(,5) A(,5) A(4,5) A(5,5) A(6,5) A(,6) A(,6) A(,6) A(4,6) A(5,6) A(6,6) B(,) B(,) B(,) B(4,) B(5,) B(6,) B(,) B(,) B(,) B(4,) B(5,) B(6,) B(,) B(,) B(,) B(4,) B(5,) B(6,) B(,4) B(,4) B(,4) B(4,4) B(5,4) B(6,4) B(,5) B(,5) B(,5) B(4,5) B(5,5) B(6,5) B(,6) B(,6) B(,6) B(4,6) B(5,6) B(6,6) データキャッシュ I=, J= の時点利用されたキャッシュ上データ : 赤字のみ配列 B(J,I) を転送するため, キャッシュミス多発メモリブロック化前 HPC プログラミングセミナーチューニング技法入門 : キャッシュチューニング 46

47 4-6 キャッシュチューニング Case study: ブロック化によるキャッシュミス軽減 ( 簡易モデル ) A(,) A(,) A(,) B(,) B(,) B(,) B(,) B(,) B(,) B(,) B(,) B(,) A(,) A(,) A(,) A(4,) A(5,) A(6,) A(,) A(,) A(,) A(4,) A(5,) A(6,) A(,) A(,) A(,) A(4,) A(5,) A(6,) A(,4) A(,4) A(,4) A(4,4) A(5,4) A(6,4) A(,5) A(,5) A(,5) A(4,5) A(5,5) A(6,5) A(,6) A(,6) A(,6) A(4,6) A(5,6) A(6,6) B(,) B(,) B(,) B(4,) B(5,) B(6,) B(,) B(,) B(,) B(4,) B(5,) B(6,) B(,) B(,) B(,) B(4,) B(5,) B(6,) B(,4) B(,4) B(,4) B(4,4) B(5,4) B(6,4) B(,5) B(,5) B(,5) B(4,5) B(5,5) B(6,5) B(,6) B(,6) B(,6) B(4,6) B(5,6) B(6,6) データキャッシュ I=, J= の時点利用されたキャッシュ上データ : 赤字のみ配列 B(J,I) を転送するため, キャッシュミス多発次のデータ (I=4, J=) キャッシュ上にないメモリから転送古いキャッシュ上の ( 未使用 ) データをメモリに追い出す可能性メモリブロック化前 HPC プログラミングセミナーチューニング技法入門 : キャッシュチューニング 47

48 4-6 キャッシュチューニング Case study: ブロック化によるキャッシュミス軽減 ( 簡易モデル ) A(,) A(,) A(,) B(,) B(,) B(,) B(,) B(,) B(,) B(,) B(,) B(,) A(,) A(,) A(,) A(4,) A(5,) A(6,) A(,) A(,) A(,) A(4,) A(5,) A(6,) A(,) A(,) A(,) A(4,) A(5,) A(6,) A(,4) A(,4) A(,4) A(4,4) A(5,4) A(6,4) A(,5) A(,5) A(,5) A(4,5) A(5,5) A(6,5) A(,6) A(,6) A(,6) A(4,6) A(5,6) A(6,6) B(,) B(,) B(,) B(4,) B(5,) B(6,) B(,) B(,) B(,) B(4,) B(5,) B(6,) B(,) B(,) B(,) B(4,) B(5,) B(6,) B(,4) B(,4) B(,4) B(4,4) B(5,4) B(6,4) B(,5) B(,5) B(,5) B(4,5) B(5,5) B(6,5) B(,6) B(,6) B(,6) B(4,6) B(5,6) B(6,6) データキャッシュ I=, J= の時点利用されたキャッシュ上データ : 赤字のみ配列 B(J,I) を転送するため, キャッシュミス多発もし, 次のデータを (I=, J=) から取るとする : メモリから転送キャッシュ上のデータが利用される可能性多重ループの内側を短くすると, キャッシュミスが軽減される可能性 (4- 節 ) ブロック化メモリ I J 4 6 I J 4 6 飛ばす ( 後回し ) HPC プログラミングセミナーチューニング技法入門 : キャッシュチューニング 48

49 4-6 キャッシュチューニング Case study: ブロック化によるキャッシュミス軽減 ( 簡易モデル ) ブロック化後 J I I J ブロック化後の配列の図 ( メモリ上の配置ではない ) 内側のループの反復数を小さくする反復数は配列 A: ブロック内でストライドが変わる例 : A, A, A ストライド ; A,A ストライド 4 オリジナル版よりキャッシュミスは若干増える可能性配列 B: 内側ループの反復数が小さいキャッシュミスは軽減される可能性種の効果のバランスで, 性能向上が期待 HPC プログラミングセミナーチューニング技法入門 : キャッシュチューニング 49

50 4-6 キャッシュチューニング Case study: ブロック化によるキャッシュミス軽減 ( 簡易モデル ) ブロック化後 J I I J ブロック化後の配列の図 ( メモリ上の配置ではない ) 内側のループの反復数を小さくする反復数は配列 A: ブロック内でストライドが変わる例 : A, A, A ストライド ; A,A ストライド 4 オリジナル版よりキャッシュミスは若干増える可能性配列 B: 内側ループの反復数が小さいキャッシュミスは軽減される可能性種の効果のバランスで, 性能向上が期待 HPC プログラミングセミナーチューニング技法入門 : キャッシュチューニング 50

51 4-6 キャッシュチューニング Case study: ブロック化によるキャッシュミス軽減 ( 簡易モデル ) ブロック化後 J I I J ブロック化後の配列の図 ( メモリ上の配置ではない ) 内側のループの反復数を小さくする反復数は配列 A: ブロック内でストライドが変わる例 : A, A, A ストライド ; A,A ストライド 4 オリジナル版よりキャッシュミスは若干増える可能性配列 B: 内側ループの反復数が小さいキャッシュミスは軽減される可能性種の効果のバランスで, 性能向上が期待 HPC プログラミングセミナーチューニング技法入門 : キャッシュチューニング 5

52 4-6 キャッシュチューニングブロック化 (Loop blocking) (4-9, 4-0; 4-8 も参照 ) 重ループの最内ループ [ 図 4-6-8()]: 配列 B(J, I) でキャッシュミス多発 Fortran における左側の添字から動かす原則に従っていない対策 : 行と列の入れ替えをせず, キャッシュミスを軽減ブロック化 [ 図 4-6-9()] Memo ブロック化は行列演算で有効ブロック数 ( 最内ループ反復数 ) はマシン環境および課題依存最適値の決定には try&error が必要 [7] の第章メモリ階層の視点からブロック化を統一的に理解 HPC プログラミングセミナーチューニング技法入門 : キャッシュチューニング 5

53 まとめ第 4 章キャッシュチューニング高速で転送されるキャッシュ上データを効率よく利用すること重ループ : ストライドを短く多重ループ [Fortran]: 内側のループを配列の左側の添字で反復多重ループ [C]: 内側のループを配列の右側の添字で反復キャッシュチューニングキャッシュミスの軽減策ブロック化 HPC プログラミングセミナーチューニング技法入門 : キャッシュチューニング 5

54 Appendix HPC プログラミングセミナーチューニング技法入門 : キャッシュチューニング 54

55 4-5ストライドがでキャッシュミスが発生する例 ( キャッシュスラッシング ) キャッシュスラッシングとは (Thrashing) (4-0) メモリ上データ要求の度に, キャッシュ上データ追い出し (eviction) キャッシュの構造と関連キャッシュライン数, 段当たりの要素数 : のベキ乗 ( が典型 ) サンプルコード : thrashing Case study: より現実的な簡易モデル ( 図 4-5-) 段数 : 段 (-way), キャッシュライン数 :, 段当たりの要素数 : 8 データキャッシュ段目段目メモリライン Recall: データの移動はキャッシュライン単位 Recall: キャッシュ - メモリ間のマッピング, ライン HPC プログラミングセミナーチューニング技法入門 : キャッシュチューニング 55

56 4-5ストライドがでキャッシュミスが発生する例 ( キャッシュスラッシング ) キャッシュスラッシングとは (Thrashing) (4-0) メモリ上データ要求の度に, キャッシュ上データ追い出し (eviction) キャッシュの構造と関連キャッシュライン数, 段当たりの要素数 : のベキ乗 ( が典型 ) サンプルコード : thrashing Case study: より現実的な簡易モデル ( 図 4-5-) 段数 : 段 (-way), キャッシュライン数 :, 段当たりの要素数 : 8 HPC プログラミングセミナーチューニング技法入門 : キャッシュチューニング 56

57 4-5ストライドがでキャッシュミスが発生する例 ( キャッシュスラッシング ) キャッシュスラッシングとは (Thrashing) (4-0) メモリ上データ要求の度に, キャッシュ上データ追い出し (eviction) キャッシュの構造と関連キャッシュライン数, 段当たりの要素数 : のベキ乗 ( が典型 ) サンプルコード : thrashing Case study: より現実的な簡易モデル ( 図 4-5-) 段数 : 段 (-way), キャッシュライン数 :, 段当たりの要素数 : 8 HPC プログラミングセミナーチューニング技法入門 : キャッシュチューニング 57

58 4-5ストライドがでキャッシュミスが発生する例 ( キャッシュスラッシング ) キャッシュスラッシングとは (Thrashing) (4-0) メモリ上データ要求の度に, キャッシュ上データ追い出し (eviction) キャッシュの構造と関連キャッシュライン数, 段当たりの要素数 : のベキ乗 ( が典型 ) サンプルコード : thrashing Case study: より現実的な簡易モデル ( 図 4-5-) 段数 : 段 (-way), キャッシュライン数 :, 段当たりの要素数 : 8 HPC プログラミングセミナーチューニング技法入門 : キャッシュチューニング 58

59 4-5ストライドがでキャッシュミスが発生する例 ( キャッシュスラッシング ) キャッシュスラッシングとは (Thrashing) (4-0) メモリ上データ要求の度に, キャッシュ上データ追い出し (eviction) キャッシュの構造と関連キャッシュライン数, 段当たりの要素数 : のベキ乗 ( が典型 ) サンプルコード : thrashing Case study: より現実的な簡易モデル ( 図 4-5-) 段数 : 段 (-way), キャッシュライン数 :, 段当たりの要素数 : 8 HPC プログラミングセミナーチューニング技法入門 : キャッシュチューニング 59

60 4-5ストライドがでキャッシュミスが発生する例 ( キャッシュスラッシング ) キャッシュスラッシングとは (Thrashing) (4-0) メモリ上データ要求の度に, キャッシュ上データ追い出し (eviction) キャッシュの構造と関連キャッシュライン数, 段当たりの要素数 : のベキ乗 ( が典型 ) サンプルコード : thrashing Case study: より現実的な簡易モデル ( 図 4-5-) 段数 : 段 (-way), キャッシュライン数 :, 段当たりの要素数 : 8 HPC プログラミングセミナーチューニング技法入門 : キャッシュチューニング 60

61 4-5ストライドがでキャッシュミスが発生する例 ( キャッシュスラッシング ) キャッシュスラッシングとは (Thrashing) (4-0) メモリ上データ要求の度に, キャッシュ上データ追い出し (eviction) キャッシュの構造と関連キャッシュライン数, 段当たりの要素数 : のベキ乗 ( が典型 ) サンプルコード : thrashing Case study: より現実的な簡易モデル ( 図 4-5-) 段数 : 段 (-way), キャッシュライン数 :, 段当たりの要素数 : 8 HPC プログラミングセミナーチューニング技法入門 : キャッシュチューニング 6

62 4-5ストライドがでキャッシュミスが発生する例 ( キャッシュスラッシング ) キャッシュスラッシングとは (Thrashing) (4-0) メモリ上データ要求の度に, キャッシュ上データ追い出し (eviction) キャッシュの構造と関連キャッシュライン数, 段当たりの要素数 : のベキ乗 ( が典型 ) サンプルコード : thrashing Case study: より現実的な簡易モデル ( 図 4-5-) 段数 : 段 (-way), キャッシュライン数 :, 段当たりの要素数 : 8 HPC プログラミングセミナーチューニング技法入門 : キャッシュチューニング 6

63 4-5ストライドがでキャッシュミスが発生する例 ( キャッシュスラッシング ) キャッシュスラッシングとは (Thrashing) (4-0) メモリ上データ要求の度に, キャッシュ上データ追い出し (eviction) キャッシュの構造と関連キャッシュライン数, 段当たりの要素数 : のベキ乗 ( が典型 ) サンプルコード : thrashing Case study: より現実的な簡易モデル ( 図 4-5-) 段数 : 段 (-way), キャッシュライン数 :, 段当たりの要素数 : 8 何故発生したか? 配列の要素数 (8) = 段当たりの要素数 A(i), B(i), C(i): 同一キャッシュライン上で, 同一位置への配置を要求段数はのため, この要求は実現不可能 HPC プログラミングセミナーチューニング技法入門 : キャッシュチューニング 6

64 4-5ストライドがでキャッシュミスが発生する例 ( キャッシュスラッシング ) キャッシュスラッシングとは (Thrashing) (4-0) スラッシングが発生し得る状況 : ( 典型的には ) 配列の要素数 = n [ 配列の要素数 ]=[ キャッシュ段当たりの要素数の整数倍 ] 特定のキャッシュライン上のデータ配置が常に要求キャッシュの連想度 (associativity, 段数に対応 ) が小さい場合特に配慮が必要 ( 著しい性能劣化の可能性 ) スラッシングの検出 *) キャッシュミス率を取得可能なプロファイラが必要スラッシングの回避 **) パディング (padding) (4-), 配列マージなど (4-) サンプルコード : thrashing *) 今村俊幸キャッシュ性能安定性についてスーパーコンピューティングニュース Vol.9 特集号 (008) pp.-; **) サイエンティフィックシステム研究会ポストペタアプリ性能 WG 成果報告書 ( 別冊 ) ( 会員登録が必要 ); HPC プログラミングセミナーチューニング技法入門 : キャッシュチューニング 64

08 年月一般財団法人高度情報科学技術研究機構本資料を教育目的等で利用いただいて構いません利用に際しては以下の点に留意いただくとともに下記のヘルプデスクにお問い合わせ下さい本資料は構成文章画像などの全てにおいて著作権法上の保護を受けています本資料の一部あるいは全部についていかなる

08 年月一般財団法人高度情報科学技術研究機構本資料を教育目的等で利用いただいて構いません利用に際しては以下の点に留意いただくとともに下記のヘルプデスクにお問い合わせ下さい本資料は構成文章画像などの全てにおいて著作権法上の保護を受けています本資料の一部あるいは全部についていかなるチューニング技法入門 : キャッシュチューニング (C 版 ) 太田幸宏 ( 高度情報科学技術研究機構 ) E-mail: yota@rist.or.jp 教科書青山幸也チューニング技法虎の巻 ( 平成 8 年 8 月日版 ) 質問について ( 主に ) 休憩時間に受け付けます E-mail もご利用ください ( 後日, 回答します ) HPC プログラミングセミナーチューニング技法入門 :