The 3 key challenges in programming for MC

Similar documents

は固定流動及び繰延に区分することとし減価償却を行うべき固定の取得又は改良に充てるための補助金等の交付を受けた場合においてはその交付を受けた金額に相当する額を長期前受金とし

KINGSOFT Office 2016 動作環境対応日本語版版共通利用上記動作以上以上空容量以上他接続環境推奨必要 2

<4D F736F F D E598BC68A8897CD82CC8DC490B68B7982D18E598BC68A8893AE82CC8A C98AD682B782E993C195CA915B C98AEE82C382AD936F985E96C68B9690C582CC93C197E1915B927582CC898492B75F8E96914F955D89BF8F915F2E646F6

私立大学等研究設備整備費等補助金（私立大学等

別紙第号高知県立学校授業料等徴収条例の一部を改正する条例議案高知県立学校授業料等徴収条例の一部を改正する条例を次のように定める平成 26 年 2 月日提出高知県知事尾

積載せずかつ燃料冷却水及び潤滑油の全量を搭載し自動車製作者が定める工具及び付属品 (スペアタイヤを含む )を全て装備した状態をいうこの場合において燃料の全量を搭載するとは燃料

第２回　制度設計専門会合事務局提出資料

03_主要処理画面.xlsx

ていることからそれに先行する形で下請業者についても対策を講じることとしました本県としましてはそれまでの間に未加入の建設業者に加入していただきますよう 28 年 4 月から実施することとしました問 6 公共工事の

4 参加資格要件本提案への参加予定者は以下の条件を全て満たすこと 1 地方自治法施行令 ( 昭和 22 年政令第 16 号 ) 第 167 条の4 第 1 項各号の規定に該当しない者であること 2 会社

SBIAQ確認検査業務手数料規定

< 現在の我が国 D&O 保険の基本的な設計 (イメージ)> < 一般的な補償の範囲の概要 > 請求の形態会社の役員会社による請求に対する損免責事由の場合に害賠償請求は補償されず(

事前チェック提出用現況報告書作成ツール入力マニュアル(法人用)

一般競争入札について

R4財務対応障害一覧

<4D F736F F D F93878CA797708F4390B3816A819A95CA8B4C976C8EAE91E682538B4C8DDA97E12E646F6378>

(Microsoft Word - \212\356\226{\225\373\220j _\217C\220\263\201j.doc)

新生産管理システムご提案書２００２年１０月１５日ムラテック情報システム株式会社

<4D F736F F D B67E05682E682E C8E313193FA834B F EF8ED FC90B382CC A548163>

<4D F736F F D20819C486F70658F6F93588ED297708AC7979D89E696CA837D836A B E A2E646F63>

2. どの様な経緯で発覚したのかまた遡ったのを昨年 4 月までとしたのは何故か明らかにすること回答 3 月 17 日に実施したダイヤ改正で静岡車両区の構内運転が静岡運

為が行われるおそれがある場合に都道府県公安委員会がその指定暴力団等を特定抗争指定暴力団等として指定しその所属する指定暴力団員が警戒区域内において暴力団の事務所を新たに設

文化政策情報システムの運用等

平成１５・１６年度の建設工事入札参加資格の認定について

続に基づく一般競争 ( 指名競争 ) 参加資格の再認定を受けていること ) c) 会社更生法に基づき更生手続開始の申立てがなされている者又は民事再生法に基づき再生手続開始の申立てがなさ

Transcription:

プロセッサーキャッシュ最適化技法インテル株式会社ソフトウェア&ソリューションズ統括部ソフトウェア製品部

はじめに L1キャッシュでのアクセスミスは数十クロックのペナルティーが生じる L2キャッシュでのアクセスミスは数十バスクロックのペナルティーが生じるキャッシュを有効利用するにはデータやコードの位置関係が重要となるしかしそれは... 他の最適化技術に影響を及ぼす場合がある 2

キャッシュに読み込まれるタイミング 1. アプリケーションが参照したメモリーの内容がキャッシュにない場合 2. アプリケーションがメモリーに書き込みを行った内容がキャッシュにない場合 3. アプリケーションがプリフェッチ命令を実行した場合 4. ハードウェアプリフェッチャーが動作した場合読み込み書き出しの最小単位はキャッシュライン(64バイト) 3

ハードウェアプリフェッチャーハードウェアは 2 つの方法でデータを取り込むストライドプリフェッチデータアクセスパターンを基にキャッシュラインのプリフェッチを開始するいくつかのキャッシュラインを取得する通常のデータアクセスパターンのときによいパフォーマンスが得られるようにするキャッシュライン参照の読み込みミスがトリガーになるしきい値内での 2 回のキャッシュミスがトリガーになる 90 ナノメートルテクノロジーのインテル Pentium 4 プロセッサーでは 512 バイトそれ以前のインテル Pentium 4 プロセッサーでは 256 バイト次のノードへの距離をトリガーとなる距離の 1/2 以上に保つ隣接ラインプリフェッチ 128 バイトのフェッチで L2(L3)ミスを考慮するキャッシュミスが下位 64 バイトで起こったなら隣接する上位 64 バイトを取り込むキャッシュミスが上位 64 バイトで起こったなら隣接する下位 64 バイトを取り込むキャッシュライン参照の読み込みミスがトリガーになる 4

Intel NetBurst マイクロアーキテクチャーシステムバス頻繁に使用されるパスそれほど頻繁に使用されないパスクワッドパンプ 100MHz/333MHz 400MT/ 秒 = 3.2 GB/ 秒最大 1066MT/ 秒 = 8.5 GB/ 秒バスインターフェイスユニット L2 キャッシュ (1/2MB 8 ウエイ 128 バイトキャッシュライン) 108G バイト/ 秒フェッチ/ デコード 64 ビット幅フロントエンド BTB 分岐予測 L1 データキャッシュ (16KB 8 ウエイ 64 バイトキャッシュライン) 実行ユニット 256 ビット幅リタイアメント 5 トレースキャッシュ TC μコードrom BTB 命令プール (ROB)

インテルモバイルマイクロアーキテクチャーシステムバス頻繁に使用されるパスそれほど頻繁に使用されないパスクワッドパンプ 100MHz 400MT/ 秒 = 3.2 GB/ 秒 ( 最大 533MT/ 秒 = 4.2 GB/ 秒 ) バスインターフェイスユニット L2 キャッシュ (1MB 8ウエイ 128バイトキャッシュライン) L1 命令キャッシュ (32KB 8ウエイ ) フェッチ/ デコード 64ビット幅フロントエンド BTB 分岐予測実行ユニット L1 データキャッシュ (32KB 8ウエイ ) 256ビット幅リタイアメント μopのフュージョン 6 命令プール (ROB)

第 1 世代のデュアルコアプロセッサー Pentium D Pentium Extreme Edition システムバスバスインターフェイスユニット L2 キャッシュ (1/2MB 8 ウエイ 128 バイトキャッシュライン) 108G バイト/ 秒 L2 キャッシュ (1/2MB 8 ウエイ 128 バイトキャッシュライン) 108G バイト/ 秒 L1 データキャッシュ (16KB 8 ウエイ 64 バイトキャッシュライン) L1 データキャッシュ (16KB 8 ウエイ 64 バイトキャッシュライン) 64 ビット幅 256 ビット幅 64 ビット幅 256 ビット幅フェッチ/ デコードフロントエンド BTB 分岐予測実行ユニットリタイアメントフェッチ/ デコードフロントエンド BTB 分岐予測実行ユニットリタイアメントトレースキャッシュ TC μコードrom BTB トレースキャッシュ TC μコードrom BTB 命令プール (ROB) 命令プール (ROB) 7

インテル Core マイクロアーキテクチャーシステムバスクワッドパンプ 166MHz/266MHz/333MHz 頻繁に使用されるパスそれほど頻繁に使用されないパス 667MT/ 秒 = 5.3 GB/ 秒 1066MT/ 秒 = 8.5GB/ 秒 1333MT/ 秒 = 10.6GB/ 秒バスインターフェイスユニットアドバンスドスマートL2 キャッシュ (2MB/4MB 8ウエイ 128バイトキャッシュライン) 256ビット幅 256ビット幅 L1 命令キャッシュ (32KB 8ウエイ ) L1 データキャッシュ (32KB 8ウエイ ) L1 命令キャッシュ (32KB 8ウエイ ) L1 データキャッシュ (32KB 8ウエイ ) 64ビット幅 64ビット幅 5 フロントエンドフェッチ/ BTB デコード分岐予測実行ユニット(5つ) リタイアメント 5 フロントエンドフェッチ/ BTB デコード分岐予測実行ユニット(5つ) リタイアメントマクロオペレーションのフュージョン 4 マイクロオペレーション(μOP)のフュージョン 4 マクロオペレーションのフュージョン 4 マイクロオペレーション(μOP)のフュージョン 4 命令プール (ROB) 命令プール (ROB) 8

インテル Core マイクロアーキテクチャークアッドコアプロセッサーシステムバスバスインターフェイスユニットアドバンスドスマートL2 キャッシュ (2MB/4MB 8ウエイ 128バイトキャッシュライン) アドバンスドスマートL2 キャッシュ (2MB/4MB 8ウエイ 128バイトキャッシュライン) 256ビット幅 256ビット幅 256ビット幅 256ビット幅 L1 命令キャッシュ (32KB 8ウエイ ) L1 データキャッシュ (32KB 8ウエイ ) L1 命令キャッシュ (32KB 8ウエイ ) L1 データキャッシュ (32KB 8ウエイ ) L1 命令キャッシュ (32KB 8ウエイ ) L1 データキャッシュ (32KB 8ウエイ ) L1 命令キャッシュ (32KB 8ウエイ ) L1 データキャッシュ (32KB 8ウエイ ) 64ビット幅 64ビット幅 64ビット幅 64ビット幅 5 フロントエンドフェッチ/ BTB デコード分岐予測実行ユニット(5つ) リタイアメント 5 フロントエンドフェッチ/ BTB デコード分岐予測実行ユニット(5つ) リタイアメント 5 フロントエンドフェッチ/ BTB デコード分岐予測実行ユニット(5つ) リタイアメント 5 フロントエンドフェッチ/ BTB デコード分岐予測実行ユニット(5つ) リタイアメントマクロオペレーションのフュージョン 4 マイクロオペレーション(μOP)のフュージョン 4 マクロオペレーションのフュージョン 4 マイクロオペレーション(μOP)のフュージョン 4 マクロオペレーションのフュージョン 4 マイクロオペレーション(μOP)のフュージョン 4 マクロオペレーションのフュージョン 4 マイクロオペレーション(μOP)のフュージョン 4 命令プール (ROB) 命令プール (ROB) 命令プール (ROB) 命令プール (ROB) 9

スマートメモリーアクセスシステムバス L1 データキャッシュコア1 スマート共有 L2 キャッシュ L1 データキャッシュコア2 時間の局所性空間の局所性データを可能な限り早く利用できるようにするデータが可能な限り近くにあるようにするメモリーサブシステムのレイテンシーをを隠蔽 10

プリフェッチャーとマルチコアマイクロコード ROM 命令フェッチおよびプリデコード命令キューデコードリネーム/ 割り当てリタイアメントユニット (リオーダーバッファーリオーダーバッファー) 5 4 スケジューラー 4 2M/4M 共有 L2 キャッシュ最大 10.6GB/ 秒のFSB 命令フェッチおよびプリデコード命令キューデコードリネーム/ 割り当て 4 5 4 スケジューラーマイクロコード ROM リタイアメントユニット (リオーダーバッファーリオーダーバッファー) ALU 分岐 MMX/SSE FPmove ALU FAdd MMX/SSE FPmove ALU FMul MMX/SSE FPmove ロードストアストアロード ALU FMul MMX/SSE FPmove ALU FAdd MMX/SSE FPmove ALU 分岐 MMX/SSE FPmove L1 データキャッシュと D-TLB L1 データキャッシュと D-TLB 11 動的に共有される 2 つの L2 プリフェッチャー

アドバンストスマートキャッシュマルチコアに最適化コア1 コア2 L2 キャッシュスマートキャッシュの利点 L2 が各コアの負荷に適応できる高速データ共有複製データがない追加の利点 L1 キャッシュに対する 2 倍の帯域幅マルチコアに最適化された共有キャッシュ2 倍の帯域幅 12

アドバンストスマートキャッシュダイナミックキャッシュアロケーションアドバンストスマートキャッシュ独立キャッシュコア1 コア2 コア1 コア2 L2 キャッシュ L2 L2 キャッシュキャッシュ共有キャッシュは2つのコアからの不均衡な負荷に適応しかし独立キャッシュは一方のキャッシュの使用率が低くキャッシュが空いていてももう一方の高負荷のアプリケーションはその空きキャッシュを利用できずパフォーマンス向上が見込めない 13

アドバンストスマートキャッシュ効率的なデータ共有アドバンストスマートキャッシュ独立キャッシュコア1 コア2 コア1 コア2 L2 キャッシュ FSB チップセット MCH L2 キャッシュ L2 キャッシュ FSB チップセット MCH 14 L2 から L1 への 2 倍の帯域幅

空間の局所性と時間の局所性アクセスされたデータに隣接するデータは近い将来参照される可能性が高いアクセスされたデータは近い将来再びアクセスされる可能性が高い 15

キャッシュの構成容量 ( C ) ラインサイズ ( B ) アソシアティビティ ( A ) いくつかの不特定なメモリーの内容がキャッシュの特定のブロックに割り当てられる A = 1 A = C / B 1< A < (C / B) ダイレクトマッピングフルアソシアティビティーセットアソシアティビティー 16

メモリー中のスキップを避けるメモリースキップするアクセスはパフォーマンスを低下させる IA-32 / インテル 64 プロセッサーのハードウェアプリフェッチャーはメモリー中のスキップを認識しない TLB のエントリーには限りがある各アクセスにつき 1 つのキャッシュラインが入出力されるキャッシュに未使用データが含まれる未使用データのためにより多くの帯域が必要ユニットストライドされないアクセスのため効率的にベクトル化されない 17

スキップの例特定のスキップ for (i = 0; i < MAX; i += 10) A[i]; 外部次元中のループ for (i = 0; i < MAX; i++) A[i][1]; ループ構造の 1 つの要素のみにアクセス Struct Person[100] { int ID; char[50] Name; char[100] address; } for (i = 0; i < 100; i++) if (Person[i].ID=match) matchid = i; 18

2 n の法則さまざまなアーキテクチャーの特性は 2 n 離れたアドレスで明示される大きな幅の 2 n (キャッシュラインよりも大きい場合 )はキャッシュアクセスを招くセットアソシアティブ( 連想方式 ) キャッシュキャッシュ管理大きな幅の 2 n のスキップは大きなパフォーマンス低下につながる! 2 n の境界 (2K 4K 16K...256K)でメモリースキップを行うとキャッシュ入れ替えの原因となる正確なサイズはプロセッサーとキャッシュ構成によって異なる 19

8ウェイセットアソシアティブの場合 31 11 10 6 5 00000.00000 0 0 0 1 1 0 0.0 0 0 1 0 0 64バイト 8ウェイ set0 set1 set2 set3 set4 set5 set6 0000-0000 2KB set30 set31 20 タグブロック 64バイトデータブロック

キャッシュアクセスミスとは初期参照ミス容量ミス競合ミスキャッシュ競合なし競合 A B A B メモリーメモリー 21

キャッシュアクセスミスを減らす最適化技術配列のマージパディングとアライメントパッキング書き込み前の読み込みループインターチェンジループフュージョンブロッキングコードサイズの削除 struct { int A[ ]; int B[ ]; } for(){ } 22

ローカリティーを増やすコードとデータサイズを減らす 23

SoA( 配列構造体 )とAoS( 構造体配列 ) Loop Loop s.a[i] s.b[i] Loop s[i].a s[i].b struct { int a[size]; int b[size]; } s; struct { int a; int b; } s[size] 24

SoA( 配列構造体 )とAoS( 構造体配列 ) struct { int a[size]; int b[size]; } s; a a a a a a a a b b b b b b b b Loop s[i].a s[i].b Loop struct { int a; int b; } s[size] a a b b a a b b a a b b a a b b s.a[i] Loop s.b[i] 25

パディング struct { int val[15]; } struct { int val[15]; int pad; } コンパイラーによって自動的にアライメントされないデータ構造を考える 26

64 バイト (1キャッシュライン) struct { int val[15]; } s [SIZE] 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 0 1 2 3 struct { int val[15]; int Pad; } s [SIZE] 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 pad 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 pad 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 pad 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 pad もしくは _declspec (align (16)) struct { int val[15]; } s [SIZE] 27

自然なアライメントと SIMD アライメント C 言語の仕様では構造体と配列内のデータは宣言したデータ要素が自然なサイズになるようにアライメントされる他の方法 (パッキング)を指定した場合を除く標準コードのメモリーアクセスをスピードアップ C 言語では SSE のパフォーマンスを上げる SIMD アライメント (16 バイト)は強要しない例 : float A[100] 16 バイトアドレスでアライメントする必要はない高速な SIMD movapd 命令は使用できないインテルコンパイラーは 16/32 バイト境界でアライメントしようとする 28

コンパイラーの支援 : データのアライメント(1) declspec(align(16)) float B[MAX]; void funca(float * B) { assume_aligned(b,16); A=_mm_malloc(sizeof(float) * MAX,16); for (i = 0; i < MAX; i++) A[i] += B[i]; _mm_free(a); } 29

コンパイラーの支援 : データのアライメント(2) _declspec(align(16)) float B[MAX]; void funca(float * B[]) { A=_mm_malloc(sizeof(float)*MAX,16); #pragma vector aligned for ( i = 0 ; i < MAX; i++) A[i] += B[i]; _mm_free(a); } 30

アライメント用のコンパイラー組み込み関数 declspec(align(base, [offset])) 境界からのオフセット offset (バイト単位デフォルトは 0)で base バイト境界でアライメントされる変数を作成する void* _mm_malloc (int size, int n) n バイト境界でアライメントされるメモリーへのポインターを作成する #pragma vector aligned unaligned ベクトルアクセスにアライメントされているまたはアライメントされていないロードおよびストアーを使用する assume_aligned(a,n) 配列 "a" が "n" バイト境界でアライメントされると仮定する 31

構造体メンバーの再配置 struct unix_proc { struct proc *next; struct proc *back;... int pid;... int prio; int nice;... char uid; } struct unix_proc { struct proc *next; int pid; int prio; struct proc *back;...... int nice;... char uid; } 32

キャッシュラインの分割定義 : データ要素がキャッシュ境界をまたぐこと影響 : そのデータ要素にアクセスするには 1 回ではなく 2 回のメモリーアクセスが必要になるためパフォーマンスが低下するインテル Pentium 4 プロセッサーのキャッシュラインは 64 バイト SSE3 ではキャッシュラインの分割問題を解消するために新しい lddqu 命令を追加アドレス 029e70c1h アドレス 029e70feh キャッシュライン 029e70c0h キャッシュライン 029e7100h Index 0 Index 0( 続き) Index 1 Index 15 Index 16 33

ソフトウェアプリフェッチーの追加メカニズム void _mm_prefetch(char const*a, int sel) (PREFETCH を使用 ) 指定されたアドレスからプロセッサーに近いキャッシュ階層にデータのキャッシュラインをロードする値のセットはプリフェッチ命令のタイプを指定するプリフェッチ命令のタイプに合わせて次の定数を選択する: _MM_HINT_T0 _MM_HINT_T1 _MM_HINT_T2 _MM_HINT_NTA 使用方法インテル Pentium 4 プロセッサーのアーキテクチャーでは CPU コアのリソースを要求しないでハードウェアプリフェッチを行うことができるためソフトウェアプリフェッチは通常意味がない細心の注意を払って試すメモリーをランダムにアクセスするコードには有効 34

ストリーミングストアー #pragma vector nontemporal for (i = 0; i < N; i++) a[i] = 1; 定義 : キャッシュ中にデータを置かないストアーのことループ回数が大きなループのパフォーマンスを著しく向上注 : a[i] は終了時にキャッシュ中に存在しないため通常は a[i] に格納されたデータをすぐに使用しない 35

データアクセスパターンの理想しきい値距離内のデータをアクセスすることでハードウェアストライドプリフェッチャーは連続してアクセスできる L2(L3)のヒットレートを向上させる 128 バイト以内に分散したデータを利用することで隣接ラインプリフェッチャーの恩恵を受けられる 4K 以内にデータアクセスを集中することで過剰なページングを防止する 36

実行コードによるキャッシュアクセス最適化 37

ループインターチェンジ for ( j = 0; j < 100; j++ ) for ( i = 0; i < 100; i++ ) a[i][j] = 2 * a[i][j]; for ( i = 0; i < 100; i++ ) for ( j = 0; j < 100; j++ ) a[i][j] = 2 * a[i][j]; 38 3,1 2,1 1,1 1,2 1,3... 1,100 3,1 2,1 1,1 1,2 1,3... 1,100 100,1 100,1

ループフュージョンループフュージョン実行前 ; for ( i = 0; i < N; i++ ) for ( j = 0; j < N; j++ ) a[i][j] = b[i][j] * c[i][j]; for ( i = 0; i < N; i++ ) for ( j = 0; j < N; j++ ) d[i][j] = a[i][j] + c[i][j]; ループフュージョン実行後 ; for ( i = 0; i < N; i++ ) for ( j = 0; j < N; j++ ) { a[i][j] = b[i][j] * c[i][j]; d[i][j] = a[i][j] + c[i][j]; } 39

ループアンロール for ( j = 0; j < M; j++) for ( k = 0; k < N; k++ ) for ( i = 0; i < L; i++ ) C[k][i]+=A[k][j] * B[j][i]; for ( j = 0; j < M; j += 4 ) for ( k = 0; k < N; k++ ) for ( i = 0; i < L; i++ ) C[k][i]+=A[k][j] * B[j][i] + A[k][j+1] * B[j+1][i] + A[k][j+2] * B[j+2][i] + A[k][j+3] * B[j+3][i]; 40

ストリップマイニングストリップマイニング(ループセクション)はキャッシュを効率良く使用するためのループ変換手法であり大きなループを小さなループに分割することでデータキャッシュの時間および空間の局所性を高める strip_mine(){ struct _vertex{ float x, y, z, nx, ny, nz, u, v; } v[num]; } for(i=0; i<num; i++){ transform(&v[i]); Lighting(&v[i]); } for(i=0; i<num; i+=sm){ for(j=i; j < min(num, i*sm); j++){ transform(&v[j]); Lighting(&v[j]); } } 41

ブロッキング float A[MAX, MAX], B[MAX, MAX]; for(i=0, i<max, i++){ for(j=0, j<max, j++){ A[ i ][ j ] = A[ i ][ j ] + B[ j ][ i ]; } } 配列 AとBはシーケンシャルにアクセスされるが配列 Bはアクセスするたびにキャッシュミスが発生しキャッシュの再利用がまったく考慮されていない float A[MAX, MAX], B[MAX, MAX]; for(i=0, i<max, i+=blocksize){ for(j=0; j<n; j+= blocksize){ for(ii=i; ii<i+blocksize; ii++){ for(jj=j; j<j+blocksize; jj++){ A[ii][jj] = A[ii][jj] + B[jj][ii]; 42 配列 AとBをキャッシュサイズに収まるように断片的にアクセスすることにより配列 Bのキャッシュミスを減らす Blocksizeを8にすると各配列がブロッキングされる断片は8キャッシュラインとなる

A(i,j)のアクセスパターン j キャッシュサイズより小さい i B(i,j)のアクセスパターン + 43

オルタ-ネイトル-プ void matrix(n){ double a[100][100],b[100][100],c[100][100]; int i,j,k; } for(i=0; i < n; j++){ for(j=0; j < n; j++){ for(k=0; k < n; k++) a[i][j] = a[i][j] + b[i][k] * c[k][j]; } } if(n > itval){ ル-プの回数が不定であるため,ブロッキング等ができないブロッキング化したコ-ドル-プのコピ-を作り,ル-プの回数がトランスフォ-メ-ションを行なうのに十分な大きさがあれば, 最適化したコ-ドを実行する 44 } else { for(i=0; i < n; j++){ for(j=0; j < n; j++){ for(k=0; k < n; k++) a[i][j] = a[i][j] + b[i][k] * c[k][j]; } } }

コードサイズを減らす(アセンブリー) 複数サイクル命令を使用するアドレス生成時にインデックスオフセットそしてスケールを使用する短いオペコードを使用する +/-128 以下の即値 mov eax, 0 の変わりに xor eax, eax を使用レジスターはなるべく eax を使用 45

まとめコード/データアクセスのローカリティー向上コード/データサイズを減らすキャッシュの性能を監視する: キャッシュの使用率のプロファイルホットスポットの検索アクセスミスのタイプ割り出し適切な方法で最適化 46

参考資料 47

プリフェッチ命令プリフェッチ命令はデータの参照に先行してデータをフェッチすることによりアプリケーションコードのパフォーマンスクリティカルな部分でのメモリーアクセス遅延を隠すことができる非一時命令 prefetchnta 一時命令 prefetcht0 prefetcht1 prefetcht2 L0へ読み込み(L1) すべてのレベルのキャッシュへ読み込み L0を除くキャッシュへ読み込み(L2) L0,L1を除くキャッシュ(L2)へ読み込み 48

メモリーアクセスによる遅延とプリフェッチ時間実行パイプラインフロントサイドバス実行ユニットのアイドル時間ロード命令メモリーの遅延実行ユニットのアイドル時間ロード命令メモリーの遅延 FSBのアイドル時間実行パイプライン時間フロントサイドバス 49

プリフェッチ命令によるメモリーアクセスの最適化プリフェッチを実行する間隔プリフェッチの連結プリフェッチの最小化プリフェッチの分散キャッシュのブロッキングメモリーバンクのアクセス競合キャッシュ管理 50

プリフェッチを実行する間隔プリフェッチ命令を有効に使用するには適切な実行間隔が設定されなければいけない間隔が狭すぎるとプリフェッチの時間を他の演算実行サイクルで隠すことができず間隔が広すぎるとプリフェッチしたデータがキャッシュに無い可能性がある i i+1 i+2 i+3 小さくてタイトなループはプリフェッチの恩恵を受けそうに見えるが実際にはそうではない 51

プリフェッチ間隔 (PSD) Psd = Nlookup + Nxfer (N pref +N st ) CPI N inst Psd Nlookup Nxfer NprefとNst Ninst プリフェッチのスケジュール間隔ルックアップレイテンシークロックメモリーやチップセットに依存キャッシュラインの転送に要するクロックプリフェッチとストアーされるキャッシュライン数 1 回のループの命令数 Psd = 60 + 25 (N pref +N st ) 1.5 N inst 52

プリフェッチの連結ネストしたループでは内側のループが終了し外側のループ処理が始まるまでにパイプラインが途切れる可能性がある for (ii=0; ii=100; ii++){ for(jj=0; jj<32; jj+=8){ prefetch a[ii][jj+8]; computation a[ii][jj]; } } この例では a[ii][0]を含むキャッシュラインがプリフェッチされておらず内側のループの最後で不要なプリフェッチが行われる 53

プリフェッチの連結 (2) プリフェッチの連結は内側と外側の実行パイプラインを繋ぐブリッジの役目をはたす内側のループの繰り返しをループ外で次のループで使用するデータのプリフェッチと共に行うことでメモリーパイプラインの途切れによる性能低下を回避する for (ii=0; ii=100; ii++){ for(jj=0; jj<24; jj+=8){ prefetch a[ii][jj+8]; computation a[ii][jj]; } prefetch a[ii+1][0]; computation a[ii][jj]; } 54

プリフェッチの最小化過度なプリフェッチは次のような問題を招くフィルバッファーに空きが無い場合フィルバッファーエントリーの割り当て待ちでプリフェッチがロードバッファー内に蓄積するロードバッファーに空きが無いと命令の割り当てがストールする対象ループが小さな場合プリフェッチによってオーバーヘッドが増大する 55 Loop: prefetchnta [edx+esi+32] prefetchnta [edx*4+esi+32] movaps xmm1,[edx+esi] movaps xmm2,[edx*4+esi] add esi,16 cmp esi,ecx jl Loop Loop: prefetchnta [edx+esi+32] prefetchnta [edx*4+esi+32] movaps xmm1,[edx+esi] movaps xmm2,[edx*4+esi] movaps xmm1,[edx+esi+16] movaps xmm2,[edx*4+esi+16] add esi,32 cmp esi,ecx jl Loop

プリフェッチの分散すべてのプリフェッチをループのはじめに実行すると大幅な性能低下につながる可能性があるプリフェッチは他の演算と交互に配置する PentiumIIIプロセッサー(500MHz)では 20-25サイクル毎にプリフェッチ命令を挿入する Loop: prefetchnta [ebx+128] prefetchnta [ebx+1128] prefetchnta [ebx+2128] prefetchnta [ebx+3128] prefetchnta [ebx+17128] prefetchnta [ebx+18128] prefetchnta [ebx+19128] prefetchnta [ebx+20128] mulps xmm3,[ebx+4000] addps xmm1,[ebx+1000] addps xmm2,[ebx+3016] mulps xmm3,[ebx+2000] mulps xmm1,xmm2 add ebx,32 cmp ebx,ecx jl Loop 56

ビデオデコーダにおけるキャッシュ管理ここでのビデオデコーダでは処理済のフレームデータをビデオメモリーへ書き込みその後データのコピーがプロセッサーによってライトバックメモリーに格納され以降のデータ生成に利用されることを前提とするデータはストリーミングストアー命令でビデオメモリーへ直接書き込むことによりプロセッサーキャッシュの汚染を防止するその後プロセッサーは prefetchnta 再読み込みされるため使用可能なバンド幅は最大となる NTA( 非一時 ) 読み込みを行うことでキャッシュ内の他のデータへの影響を最小限に押さえる MOVNTQ m64, mm MOVNTPS m128, xmm Pentium 4 L1 regs bsb L2 fsb グラフィックコントローラー AGP チップセットシステムメモリー 57

本資料に掲載されている情報はインテル製品の概要説明を目的としたものです製品に付属の売買契約書 Intel s Terms and conditions of Sales に規定されている場合を除きインテルはいかなる責を負うものではなくまたインテル製品の販売や使用に関する明示または黙示の保証 ( 特定目的への適合性商品性に関する保証第三者の特許権著作権その他知的所有権を侵害していないことへの保証を含む) に関しても一切責任を負わないものとしますインテル製品は予告なく仕様が変更されることがあります * その他の社名製品名などは一般に各社の商標または登録商標です 2007, Intel Corporation. 58