SMG Field Computex 2011 New Category Update

Size: px

Start display at page:

Download "SMG Field Computex 2011 New Category Update"

ようたおおばま
5 years ago
Views:

1 Intel Software Developer Day インテルマイクロアーキテクチャー SandyBridge* 向けワークロードの最適化 2011 年 7 月 15 日インテル株式会社ソフトウェア & サービス統括部シニアアプリケーションエンジニア菅原清文 Sandy Bridge 開発コード名 1

2 内容 Sandy Bridge* ワークロード最適化マイクロアーキテクチャー概要既存のコードにおけるパフォーマンスガイドラインメモリーアクセス実行フロントエンド Sandy Bridge 開発コード名 2

3 グラフィックスユニットマイクロアーキテクチャー概要 C0 (HT0,1) Cn (HT0,1) L1I L1D L2 C LLC0 リング L1I L1D L2 C LLCn システムエージェントメモリー 3

4 メインプラットフォームの派生モバイルとデスクトップ 1 ソケットプロセッサーチップセット ( 開発コード名 Cougar Point ) 2 メモリーチャンネルコア数 LLC (MB) グラフィックスプラットフォーム QC-MB 4 8 GT2 Huron River DC-MB 2 4 GT2 Huron River QC-DT 4 6 GT1 Sugar Bay DC-DT 2 3 GT1 Sugar Bay : 開発コード名 4

5 メインプラットフォームの派生サーバーとワークステーション EX/EP/EN ではソケット数, チャンネル数, DIMM の数, PCIe レーン数, QPI リンク数が異なる EP と EN: 2/1 QPI チャンネル, 768/384GB メモリーグラフィックスなし名称最大ソケット数コア / ソケット LLC SNB EX 4 8, 6 20, 16, 15, 12 SNB EP 2 8, 6, 4 20, 15, 10 SNB EN 2 8, 6, 4 20, 15, 10 SNB EN 1S SNB WS 1S 1 6, 4 15, 10 : Sandy Bridge ( 開発コード名 ) 5

6 インテルアドバンストベクトルエクステンション ( インテル AVX) 32 バイト浮動小数点ベクトル拡張 8 個の 4 バイト ( 単精度 ) 浮動小数点要素を操作 4 個の 8 バイト ( 倍精度 ) 浮動小数点要素を操作新しい 16 個の 32 バイト YMM レジスター (XMM レジスターの拡張 ) 16 バイトの浮動小数点および整数ベクトル拡張非破壊ソース NDS SRC2 と DEST は異なるロード + op はアライメントされていないアドレスをアクセスできるコードサイズを縮小少ない μops ( マイクロオペレーション ) インテル AVX におけるバイトの移行はコストなし 32 バイトのインテル AVX インテルストリーミング SIMD 拡張命令 ( インテル SSE) 間の移行は高価 6

7 システムエージェントアービター = リングを経由して I/O (PCIe と DMI) とメモリーをアクセスするメモリーグラフィックスそして I/O インターフェイスをチップに統合 : メモリーコントローラー 2 チャンネルでそれぞれ 2 つの DIMM を搭載可能データレート : サイクルごとに 8 バイト 1066MHz 1333MHz および 1600MHz 最大 32 GB の容量 PCIe コントローラー DMI コントローラー GFX ディスプレイインターフェイス PCIe I/O DMI FDI ディスプレイアービターメモリーコントローラー DDR3 リング 7

8 リングとラストレベルキャッシュ (LLC) コア GT キャッシュブロックそしてシステムエージェントはリングに接続される各コアとキャッシュブロックのリングインターフェイスは 32 バイト / サイクルの転送能力を持つリングとキャッシュブロックはコアと同じ周波数で動作するキャッシュブロック : 論理回路と LLC データ配列アドレス空間はキャッシュブロックに一様に分配される LLC は高レベルのキャッシュでインクルーシブどのコアが各キャッシュラインを保持しているか記録 PCIe I/O ディスプレイコアコアコアコア DMI アービター C C C C C 大きな GT FDI LLC LLC LLC LLC メモリーコントローラー DDR3 8

9 アンコア 32K 命令キャッシュ BPU レガシーデコードパイプライン MSROM デコード済命令キャッシュ 256K L2 キャッシュ μop キューリネーム / リタイアコアパイプライン 32K データキャッシュロードストア ( アドレス ) 2 3 ストアデータフロントエンド整数 OOO* MMX/SSE AVX 下位スケジューラー INT / SSE / X87 レジスタースタック実行 X87 AVX 上位キャッシュ OOO = out of order 9

10 フロントエンドレガシーパイプライン : 命令フェッチと μops へのデコードデコード済命令キャッシュに格納デコード済命令キャッシュ : 利用頻度の高い μops のキャッシュ MSROM 4 μops より長い命令を格納 μops はデコード済命令キャッシュもしくはデコーダーからフェッチされ μop キューへ格納される LSD: 小さな μops のループはキューから取り込む μops がデコード済み命令キャッシュから提供された場合のみマイクロフュージョンロード / ストア + op を 1 の μop に融合マクロフュージョン 2 の連続した命令 1 μop CMP/TEST/ADD/SUB/INC/DEC + JCC 32K 命令キャッシュレガシーデコードパイプライン MSROM μop キュー BPU デコード済命令キャッシュ 10

11 デコード済み命令キャッシュの内容セット : セットは 8-way 1 つの way: 1 つの way は次の内容を保持できる : 6 μops 完全な命令 2 の分岐 1 非条件分岐 1 MSROM は 1 way を消費長い即値を伴う μops は 2-way 消費 11

12 デコード済み命令キャッシュ 32 セット 8-way 1-way は 6 のエントリーすべての命令は 32 バイト境界に配置されたチャンク最大 3 の way を消費 32 バイトに配置されたチャンクは最大 18 の μops を保持複数の μops で構成される命令は way にまたがって格納できない way 中に 2 の分岐を格納可能非条件分岐は way の最後の μop 長い命令 (MSROM) は way 全体を消費マイクロフュージョンされた μops ( ロード / ストア +op) は 1 に扱うマクロフュージョンされた対の命令は 1 の μop として扱う 64 バイト即値を伴う μops は即値を保持するため 2 のスロットを利用 SMT の場合 : 各スレッドは半分のセットを利用 12

13 OOO リネーム μops はバックエンドでインオーダーにリソースを割り当てられる ROB RS ロードバッファーストアバッファー各サイクルで最大 4 μops を割り当て集成されていない μops (base + index を伴うストア / ロード +op) は 2 の割り当て / リタイアスロットを利用マイクロフュージョンされた μop は 1 の割り当て / リタイアスロットを利用するが 2 の RS および ROB エントリーを利用 LSD ループのサイクル割り当てを終わらせて分岐割り当て時の実行 : ゼロイディオム NOP VZEROUPPER FXCHG リネーム / リタイアスケジューラー INT / SSE / X87 レジスタースタック 13

14 OOO と実行 μops は RS から OOO 実行のためディスパッチされるサイクルごとに各ポートで 1 μop ポート演算ポート 2 3 ロードとストアアドレスポート 4 ストアデータレジスターは 3 スタックを保持整数 SSE/SIMD (INT + FP) x87 インテル AVX 下位と SSE インテル AVX 上位と x87 実行が完了するとデータはスタックへ書き戻されるポートごとに 1 の μop がライトバックできるロードストア ( アドレス ) 整数 MMX/SSE AVX 下位 X87 AVX 上位 2 3 ストアデータリネーム / リタイアスケジューラー INT / SSE / X87 レジスタースタック異なるレイテンシーの μops は同じスタック上のライトバックポートを共有できない異なるスタックであれば μops は衝突しない 14

15 メモリーコントローラーアービター 32K L1D 32K L1I 32K L1D 32K L1I 256K L2 256K L2 キャッシュ構造ラストレベルキャッシュデータ位置最適なレイテンシー ( サイクル ) 最適なバンド幅 ( コアごとのサイクル ) L1 データキャッシュ 4 * 2 x 16 バイト L2 キャッシュ 12 1 x 32 バイト LLC x 32 バイト利用可能な他のコアの L2 と L1 データキャッシュ 43 クリーンヒット 60 ダーティーヒット 15

16 L1 データキャッシュ倍のロードバンド幅 : 各サイクルで 2 ロードと 1 ストアをサービス可能アドレス変換 : サイクルごとに 2 ロードと 1 ストアサイクルの最適なロードレイテンシー書き込みレジスターの型とアドレッシングモードに依存アドレッシングモード base+index[+offset] データ型 Base+offset>=2048 Base+offset<2048 整数 5 4 MMX SSE 128 ビット AVX 6 5 X ビット AVX

17 ロード遅延キャッシュミスキャッシュライン分割アドレス衝突 : ストアアドレスもしくはデータが丌明 4K エリアスロードバンク衝突書き込み後の読み込み (RAW) 衝突 : ストアもしくは置き換え操作 17

18 ハードウェアプリフェッチ L1D プリフェッチャー DCU ストリームプリフェッチャー : 最も最近読み込まれた前方アクセスによってトリガーされる次のキャッシュラインを読み込み IP プリフェッチャー IP ごとのストライドバイトのロードを検出前方もしくは後方 2K バイトまでのストライド次の推測されたアドレスをプリフェッチプリフェッチミスは要求されたミスよりも優先順位が低いロードされたデータを処理すると有効なプリフェッチが可能になる L1D プリフェッチャーは L2 プリフェッチャーを早期に起動する 18

19 L2 プリフェッチャー特殊なプリフェッチャーフェッチされたキャッシュラインはすべてペアとなるキャッシュラインもプリフェッチする (128 バイト境界 ) ストリーマー : より積極的 L1D のロードとストアをモニターしそしてハードウェアプリフェッチ要求と L1I へコードフェッチ要求を行う同一の 4K バイトページ内でのみプリフェッチ可能 L2 参照ごとに 2 のプリフェッチ要求を引き起こす前方の 20 キャッシュラインをプリフェッチ可能 1 コアあたりの目立った要求数を動的に調整要求が多ければあまり遠くないデータを LLC のみへプリフェッチするキャッシュラインが遠くにあれば LLC のみへプリフェッチする 4K ページあたり 1 前方 1 後方の 32 ストリームまでを維持する 19

20 SMT ITLB 4K ページ ITLB 大きなページデコード済命令キャッシュ μop キュー ROB ロードおよびストアバッファー分割複製分割複製分割分割その他の主要なプロセッサーリソースは共有されるいくつかの共有リソースはスレッドごとに最小に保たれるさらに多くの内部リソースが分割もしくは複製されるリソースは分割されスレッドの C ステートが変化したときに再結合されるデコード割り当てリタイアの各ステージではスレッドに仕事があるなら各サイクルごとにスイッチする 20

21 GT グラフィックプロセシングユニット最新のマイクロアーキテクチャーと製造技術の利点をグラフィックスに生かす高い動作周波数優れた集積密度低消費電力メモリーアクセスの高いバンド幅と低い遅延を実現 GT1/2: 6/12 EU > 1.5x の性能ビデオ H/W アクセラレーターを含むこれまでグラフィックスのワークロードは CPU 性能を超えるワークロードにより要求されたが大きな可能性を残している Sandy Bridge シングルコアの周波数は多くのグラフィックスワークロードの要求を満たす電力と周波数の別々のプレーン 21

22 電力 Intel SpeedStep テクノロジーの拡張 P ステートコアがアクティブな状態 P0 最大のターボ周波数 P1 プロセッサーによって保証された周波数 ( 定格 ) Pn 最小の周波数最大の電力保存インテルターボブーストテクノロジーのワークロード OS が P0 を選択するとプロセッサーは性能を最大化するため P1 と P0 間の変遷を制御するプロセッサー利用率が低い場合 OS が P1 から Pn 周波数に制御する C ステートアイドル状態 C0 コアはアクティブ C1 コアはアイドル C3 Deeper スリープ C6/C7 AC/DC における Deep スリープ Deeper C ステートでは C0 復帰への長い遅延を要する電力ステートは連続した実行の間に変化を引き起こす場合がある 22

23 Sandy Bridge* マイクロアーキテクチャーにおける電力 P ステートアクティブ状態インテルターボブーストテクノロジー P1 と P0 間の大きなスパン各アクティブなコアへより高い周波数をブースト熱容量の余地を利用しプロセッサーが冷えているかアイドルである場合プロセッサーの TDP ( システムの TDP 内で ) 内で僅かの間 ( 数秒 ) ブースト高い電力ワークロードの保護 1 周波数ユニットの減少単独のインテル AVX 命令の利用を避けるインテル AVX コードブロックを利用 C ステートアイドル状態 C7 ステートの間 LLC はフラッシュされる Sandy Bridge マイクロアーキテクチャーで実装自動格さげ : 履歴が Deeper C ステートがより低エネルギーであることを示す場合コア C6/C7 を C3 へ格下げするアルゴリズムを改善格下げなし : 自動格下による長期の状態の後もとの Deeper C ステートへ戻る Sandy Bridge 開発コード名 23

24 内容 Sandy Bridge* ワークロード最適化マイクロアーキテクチャー概要既存のコードにおけるパフォーマンスガイドラインメモリーアクセス実行フロントエンド Sandy Bridge 開発コード名 24

25 一般的な指標目的 : 1 つのスレッドで CPU 性能を 100% 引き出すイベントにより大部分の問題を検知できる問題の影響を求める通常 CPU_CLK_UNHALTED.THREAD のイベント数で割る個別に指定できなければ問題の中には IACA もしくはコードの調査でのみ判別できるものがあるコード変換の中には Sandy Bridge* マイクロアーキテクチャーでは性能が向上するが Nehalem*/Westmere* もしくはインテル Atom マイクロアーキテクチャーではペナルティーが生ずるものがある 1 つのバイナリーを双方で実行する場合異なるコードパスを利用 IACA : Sandy Bridge, Nehalem, Westmere 開発コード名 25

26 パフォーマンスモニターイベントには 3 のカテゴリーがある固定イベント : clockticks 命令リタイア参照 clockticks プログラム可能イベント多くのイベント : 同時に 4/8 個をカウント可能 (HT on/off) ペナルティーやリタイアの距離によってスキッドする ( 滑る ) プリサイスイベントツールプログラム可能イベントのサブグループイベントを引き起こした命令の後に実行された命令を正確にポイント同時に 4 のイベントをカウント可能インテル VTune Amplifier update 2 以降 (Windows Linux) PTU b472 パッチ (Windows Linux) 26

27 ボトルネックの領域 μops は発行されたか? No 割り当てストール? Yes μop はリタイアしたか? No Yes No Yes FE 依存 BE 依存誤った投機リタイアバックエンドはストールしていないフロントエンドがサイクルあたり 4 以下の μops を供給メモリーアクセス実行ディスパッチそして割り当てがボトルネック命令の投機実行を復帰する必要があるリタイアの成功経路の長さがサイクルを消費 27

28 ボトルネックの領域どの領域がサイクルを消費しているか次のレシオで判断 BE 依存 =1 - (FE 依存 + リタイア + 丌正な投機 ) メモリーの問題実行の問題丌正な投機 =(UOPS_ISSUED.ANY-UOPS_RETIRED.RETIRE_SLOTS) / N FE 依存 =IDQ_UOPS_NOT_DELIVERED.CORE / N リタイア = UOPS_RETIRED.RETIRE_SLOTS / N 主要なパイプラインの幅が 4 スロットあるため : N = 4 * CPU_CLK_UNHALTED.THREAD 28

29 Sandy Bridge* マイクロアーキテクチャー固有のボトルネックメモリー実行丌正な投機フロントエンド Sandy Bridge 開発コード名 29

30 バックエンド遅延の原因 BE 依存 =1 - (FE 依存 + リタイア + 丌正な投機 ) ロード遅延 RESOURCE_STALLS.LB / CPU_CLK_UNHALTED.THREAD ストア遅延 RESOURCE_STALLS.SB / CPU_CLK_UNHALTED.THREAD それ以外メモリーサブシステムもしくは実行の問題を調査 30

31 データ局所性の問題一般的な原因全体のデータセットが巨大データ構造が希薄データ構造の一部を読み込み多次元配列の読み込み非ストライドアクセスなどデータのランダムアクセスランダムに配置されたデータベースストアミス多次元配列への書き込み出力バッファーの利用どのように見つけるか? データの局所性がパフォーマンス上の問題か評価するデータをキャッシュもしくはメモリーから読み込むコードの位置を特定する 31

32 ロード遅延原因の特定 MEM_LOAD_UOPS_RETIRED.L1_HIT_PS MEM_LOAD_UOPS_RETIRED.L2_HIT_PS MEM_LOAD_UOPS_RETIRED.L3_HIT_PS MEM_LOAD_UOPS_LLC_HIT_RETIRED.XSNP_HIT_PS MEM_LOAD_UOPS_LLC_HIT_RETIRED.XSNP_HITM_PS MEM_LOAD_UOPS_MISC_RETIRED.LLC_MISS_PS MEM_LOAD_UOPS_RETIRED.HIT_LFB_PS ロード遅延の見積もり最適なロード遅延による各ソースからの複数のロードデータロードの原因総サイクルから比率 (%) を求める正確さに务る : ロードは同時に行われる L1D からのロードを除外する見積もりは正確ではない LLC のミスペナルティーは 200 を想定次のケースでは原因を特定するためロード遅延イベントを利用する : インテル AVX の 256 ビットロードは単に L1D ヒットもしくは LFB ヒットとして見える LFB ヒット直前のロードや H/W プリフェッチに起因するロード. 未知のペナルティー 32

33 キャッシュライン置き換えを解析時にキャッシュラインの置き換え (eviction) は HW プリフェッチャーやストアに起因するロード要求によるものではないこともある置き換えの主要な原因となるコード領域を特定する必要がある長い遅延をもたらすロード以下のレベルの置き換えを探す例 : 遅延が L2 にヒットするロードが原因である場合ソース中の L1 データキャッシュの置き換えを調査する最も L1D 置き換えを行うブロックや関数ロードミスとストアミスの検知に有効プロセス全体における L1D の置き換え 33

34 キャッシュライン置き換えを解析 L2 ヒット : L1D の置き換えが発生する場所を特定 LLC ヒット : L2 の置き換えが発生する場所を特定 LLC ミス : LLC の置き換えが発生する場所を特定 34

35 他のメモリー階層に関する遅延ロードがストアと衝突アライメントされていないデータ大きなデータの疎らなアクセスもしくはランダムアクセス近すぎるソフトウェアプリフェッチ LD_BLOCKS.STORE_FORWARD * 13 LD_BLOCKS.DATA_UNKNOWN LD_BLOCKS_PARTIAL.ADDRESS_ALIAS * 5 MEM_UOPS_RETIRED.SPLIT_LOADS_PS * 5 MEM_UOPS_RETIRED.SPLIT_STORES_PS /cycles>0.01 OTHER_ASSISTS.AVX_STORE_PS * 150 DTLB_LOAD_MISSES.STLB_HIT * 7 DTLB_LOAD_MISSES.WALK_DURATION DTLB_LOAD_MISSES.WALK_COMPLETED DTLB_STORE_MISSES.WALK_DURATION LOAD_HIT_PRE.SW_PREFETCH 35

36 L1 データキャッシュのスループット可能性 : サイクルごとに L1 データキャッシュから 2 の要素を読み込む int buff[buff_size]; int sum = 0; for (i=0; i<buff_size; i++){ sum += buff[i]; } 36

37 L1 データキャッシュのスループット xor eax, eax pxor xmm0, xmm0 lea rsi, buff loop_start: paddd xmm0, [rsi] paddd xmm0, [rsi+16] paddd xmm0, [rsi+32] paddd xmm0, [rsi+48] paddd xmm0, [rsi+64] paddd xmm0, [rsi+80] paddd xmm0, [rsi+96] paddd xmm0, [rsi+112] add eax, 32 cmp eax, BUFF_SIZE jl loop_start xor eax, eax pxor xmm0, xmm0 pxor xmm1, xmm1 lea rsi, buff loop_start: paddd xmm0, [rsi] paddd xmm1, [rsi+16] paddd xmm0, [rsi+32] paddd xmm1, [rsi+48] paddd xmm0, [rsi+64] paddd xmm1, [rsi+80] paddd xmm0, [rsi+96] paddd xmm1, [rsi+112] add eax, 32 cmp eax, 3200 jl loop start sum_partials: // sum the 4 elements of xmm0 // 7 instructions sum_partials: // sum the 4 elements of xmm0/1 // 8 instructions 37

38 L1 データキャッシュのスループットコードのスピードアップコード 1: コードはサイクルあたり 1 ロードに制限コード 2: コードはサイクルあたり 2 ロードを許可 Nehalem* 要素ごとのサイクル Sandy Bridge* 要素ごとのサイクル Sandy Bridge* スピードアップ x x コード 2 のスピードアップ x なぜ 2 倍のスピードアップを達成できない? Port 5 を圧迫 : 各反復は 4 の加算を port 5 で実行し port 1 で jcc を実行スピードアップの制限 : 8 / 4.5 = 1.75 L1D キャッシュからサイクルごとに 2 の要素をロード Sandy Bridge, Nehalem 開発コード名 38

39 ロード遅延リンクリストインデックスを利用 id = Node[id].next_id; loop: shl rbx, 6 mov rbx, [rcx+rbx+0x20] dec rax cmp rax, -1 jne loop ポインターを利用 Node = Node->pNext; loop: mov rdx, [rdx] dec rax cmp rax, -1 jne loop インデックスを利用した要素あたりのサイクル数ポインターを利用した要素あたりのサイクル数 Nehalem* Sandy Bridge* スピードアップ 1.21x 1.44x ポインターはインデックスより遅延が短いポインターはより多くの空間を必要とするかもしれない Sandy Bridge, Nehalem 開発コード名 39

40 ロード遅延メモリーへのレジスター退避を避ける loop: IACA_START mov rdx, [rsp+0x18] movdqa xmm0, [rdx] movdqa xmm1, [rsp+0x20] pcmpeqd xmm1, xmm0 pmovmskb eax, xmm1 test eax, eax jne end_loop movzx rcx, [rbx+0x60] add [rsp+0x18], 0x10 add rdi, 0x4 movzx rdx, di sub rcx, 0x4 add rsi, 0x1d0 cmp rdx, rcx jle loop IACA_END IACA( インテルアーキテクチャーコードアナライザー ) スタティックコード解析 : - コードを実行しない実データは必要ない - すべての条件分岐はフォールスルー - 考察 - データの依存性と実行遅延 - 割り当てのスループット - 実行のスループットモデル : - スループット : ループ間 - 遅延 : 1 回の反復 iaca.exe -arch SNB -analysis THROUGHPUT -graph g.dot regspill.exe 40

41 レジスターの退避オフセットの更新はループ反復間の依存性を引き起こす rdx には 2 つの役割があるためレジスターはメモリーへ退避される赤クリティカルパス上の命令 : サイクルの削減はパスの遅延減少に貢献 41

42 ロード遅延メモリーへのレジスター退避を避ける問題 : 汎用レジスターの数が十分ではない解決策 : レジスターを退避し再利用する一般的 : メモリーへ退避 loop: (1) mov rdx, [rsp+0x18] movdqa xmm0, [rdx] movdqa xmm1, [rsp+0x20] pcmpeqd xmm1, xmm0 pmovmskb eax, xmm1 test eax, eax jne end_loop movzx rcx, [rbx+0x60] (2) add [rsp+0x18], 0x10 add rdi, 0x4 movzx rdx, di sub rcx, 0x4 add rsi, 0x1d0 cmp rdx, rcx jle loop 最良 :XMM レジスターへ退避 movq xmm4, [rsp+0x18] mov xmm5, 0x10 loop: (1) movq rdx, xmm4 movdqa xmm0, [rdx] movdqa xmm1, [rsp+0x20] pcmpeqd xmm1, xmm0 pmovmskb eax, xmm1 test eax, eax jne end_loop movzx rcx, [rbx+0x60] (2) paddq xmm4, xmm5 add rdi, 0x4 movzx rdx, di sub rcx, 0x4 add rsi, 0x1d0 cmp rdx, rcx jle loop 42

43 ロード遅延メモリーへ退避しない Sandy Bridge* Nehalem* コード 1: メモリーへ退避する場合の反復ごとのサイクル数コード 2: XMM レジスターへ退避する場合の反復ごとのサイクル数スピードアップ 1.95x 1.46x XMM へのレジスター退避はメモリーへの退避より高速 Sandy Bridge, Nehalem 開発コード名 43

44 実行ストール PARTIAL_RAT_STALLS.ANY_CYCLES OTHER_ASSISTS.AVX_TO_SSE_PS * 70 OTHER_ASSISTS.SSE_TO_AVX_PS * 70 ARITH.FPU_DIV_ACTIVE FP_ASSIST.ANY_PS UOPS_DISPATCHED_PORT.PORT_[0-5] FP_ASSIST.SIMD_*_PS * 130 FP_ASSIST.X87_*_PS * 130 PARTIAL_RAT_STALLS.SLOW_LEA_WINDOW PARTIAL_RAT_STALLS.REG_MERGE_UOP PARTIAL_RAT_STALLS.FLAGS_MERGE_UOP PARTIAL_RAT_STALLS.MUL_SINGLE_UOP 44

45 LEA Load Effective Address 2 のレジスターと即値を加算しソースを変更しない使い方 : 非破壊 add 操作 3 の要素を 1 命令で加算少ない数の乗数例 : eax*5 == lea ebx, [eax+eax*4] 問題 : 低速な LEA 3 サイクル 3 の完全なソースオペランドを持つ場合 : base index offset Base と index レジスターを使用し Base が EBP RBP もしくは R13 である場合 RIP 相対アドレスモードを利用する場合 16 ビットアドレスモードを利用する場合検出 PARTIAL_RAT_STALLS.SLOW_LEA_WINDOW 拡張 : 他の LEA は 1/0.5 サイクルの遅延 / スループット 45

46 LEA コード例 An = (An-1 + An-2 + K) mod MOD loop1: mov edi, esi lea esi, [esi+edx+k] and esi, 0xFF mov edx, edi dec ecx jnz loop1 loop1: mov edi, esi; lea edx, [edx+k] lea esi, [esi+edx] and esi, 0xFF; mov edx, edi; dec ecx; jnz loop1; Sandy Bridge Nehalem 低速 LEA を利用した反復あたりのサイクル数高速 LEA を利用した反復あたりのサイクル数スピードアップ低速な LEA を利用せず高速な LEA を利用 Sandy Bridge インテルマイクロアーキテクチャー Sandy Bridge Nehalem インテルマイクロアーキテクチャー Nehalem Nehalem マイクロアーキテクチャーにおいて低速な LEA を避けるためコードを変更するとより悪いパフォーマンスになることがある 46

47 SSE2 浮動小数点の精度とパフォーマンスの拡張 1/2 背景 : 最初に例外について事前操作 : NaN ゼロ除算デノーマル操作事後操作 : 丌正確な結果オーバーフローとアンダーフロー 2 番目に MXCSR のマスク例外がマスクされているとユーザー例外ハンドラーは呼び出されないデノーマルやアンダーフローが発生するとマイクロコードのアシストが必要となる (16 バイトベクトルごとに ~ サイクル ) 3 番目に MXCSR の DAZ と FTZ ビット精度の低下 : デノーマルはゼロアンダーフローはゼロにフラッシュされる入力値がデノーマルであれば例外ビットは報告されない ( アンダーフロー例外フラグは設定される ) パフォーマンスの拡張 : アシストコードは実行されない 47

48 SSE2 浮動小数点の精度とパフォーマンスの拡張 2/2 Sandy Bridge* マイクロアーキテクチャーは大部分のデノーマル入力とアンダーフロー出力を透過に扱う ADD MUL DIV D2S で有効 DAZ や FTZ なしで計算を正確にほとんどの場合アシストコードなしで通常の計算速度 S2D と FSQRT では変化なし ADD MUL SP MUL DP DIV SP DIV DP D2S アシストの減少 95% 55% 89% 45% 71% 94% アシストのペナルティーを軽減 : 16 もしくは 32 バイトベクトルごとにサイクル DAZ と FTZ なしに SSE2 浮動小数点演算を行うことを考える Sandy Bridge 開発コード名 48

49 マクロフュージョンの拡張 2 の命令を 1 の μop に統合最初のソース / デスティネーションオペランドがレジスター 2 番目のソースオペランド ( 必要なら ) が次の何れ : 即値レジスターもしくは非 RIP 相対メモリー実行にバウンドするコードで μops とサイクルを節約リスク : Port 5 への高い依存性 (IACA で識別 ) 命令 TEST AND CMP ADD SUB INC DEC JO/JNO Y Y N N N N N JC/JB/JAE/JNB Y Y Y Y Y N N JE/JZ/JNE/JNZ Y Y Y Y Y Y Y JNA/JBE/JA/JNBE Y Y Y Y Y N N JS/JNS/JP/JPE/JNP/JPO Y Y N N N N N JL/JNGE/JGE/JNL/JLE/JNG/JG/JNLE Y Y Y Y Y Y Y 49

50 高速ローテーション ROL Reg1, imm8 は次と等価 SHLD Reg1, Reg1, imm8 50

51 高速ローテーション ROL imm SNB* NHM* μops 数 2 1 port 0,5;0,5 0,5 遅延 2 1 スループット SHLD imm SNB NHM μops 数 1 2 port 0,5 0,1,5;1 遅延 1 4 スループット Sandy Bridge, Nehalem 開発コード名 51

52 ローテーションの利用例コード例 for i from 16 to 79 do s0 := (w[i-15] right-rotate 7) xor (w[i-15] right-rotate 18) xor (w[i-15] right-shift 3) s1 := (w[i-2] right-rotate 17) xor (w[i-2] right-rotate 19) xor (w[i-2] right-shift 10) w[i] := w[i-16] + s0 + w[i-7] + s1 end 検出 : サイクルカウントが増加する場所を調査コード 1: ROL を利用したループ反復のサイクル数コード 2: SHLD を利用したループ反復のサイクル数 Sandy Bridge* Nehalem* スピードアップ 1.21x 0.7 Sandy Bridge では SHLD を利用する Nehalem では ROL を利用する Nehalem では SHLD は ROL より遅い Sandy Bridge, Nehalem 開発コード名 52

53 パーシャルフラグストールを最小限にする 2 の 1024 ビット数値の総和 (128 バイト ) carry = 0; for (i=0; i < 16; i++) C[i] = SUM(A[i], B[i], &carry) キャリーを AL に保持 lea rsi, [A] lea rdi, [B] xor rax, rax mov rcx, 16 loop: add rax, [rsi] adc rax, [rdi] mov [rdi], rax setc al movzx rax, al add rsi, 8 add rdi, 8 dec rcx jnz loop キャリーを EFLAG に保持 lea rsi, [A] lea rdi, [B] xor rax, rax mov rcx, 16 loop: mov rax, [rsi] adc rax, [rdi] mov [rdi], rax lea rsi, [rsi+8] lea rdi, [rdi+8] dec rcx jnz loop 53

パーシャルフラグストールを最小限にするコード 1: キャリーを AL に保持した反復あたりのサイクル数コード 2: キャリーを EFLAG に保持した反復あたりのサイクル数 Sandy Bridge* スピードアップ 1.6x 0.43 Nehalem* Nehalem* のコード 1 をベースにしたスピードアップ 4.3 5.

54 パーシャルフラグストールを最小限にするコード 1: キャリーを AL に保持した反復あたりのサイクル数コード 2: キャリーを EFLAG に保持した反復あたりのサイクル数 Sandy Bridge* スピードアップ 1.6x 0.43 Nehalem* Nehalem* のコード 1 をベースにしたスピードアップ x x 条件的にフラグを更新する命令 (CL のシフトなど ) の前にフラグへの書き込みのみを行う命令 (INC DEC SET CL など ) を利用してはならないパーシャルフラグストールのペナルティーは少ない注意してコードを変更する Sandy Bridge, Nehalem 開発コード名 54

55 投機によるストールの影響投機の悪影響 (Bad_Speculation) ペナルティーの見積もり Bad_Speculation =(UOPS_ISSUED.ANY - UOPS_RETIRED.RETIRE_SLOTS) / N BR_MISP_RETIRED.ALL_BRANCHES 予測ミスした分岐を検出予測ミスした分岐を特定する必要がある MACHINE_CLEARS.MEMORY_ORDERING * 50 LD_BLOCKS_PARTIAL.ADDRESS_ALIAS MACHINE_CLEARS.SMC * 50 55

56 マシンクリアマシンクリア : パイプラインのフラッシュ + ストアバッファー排出メモリーの一義化の失敗進行中のロードの無効化をスヌープ自己修正コード (SMC) メモリーの一義化の失敗先行するストアとロードの衝突部分的 ( パーシャル ) なアドレスのエリアス (4K エリアス ) による偽り 4K エリアスによるマシンクリア LD_BLOCKS_PARTIAL.ADDRESS_ALIAS > MACHINE_CLEARS.MEMORY_ORDERING 56

57 メモリーの一義化の失敗によるマシンクリアパーシャルアドレスエリアス (4K エリアス ) によるメモリー順序付けのためのマシンクリアはマシンクリアの元になるメモリー一義化の失敗のヒントとなるマシンクリアが頻繁に発生するアプリケーションの例 57

58 フロントエンドのストール : デコード済命令キャッシュの問題最後に解析 : 多くのフロントエンドストールはメモリーと実行ストールに隠れている FE_Bound =IDQ_UOPS_NOT_DELIVERED.CORE / N コードがデコード済み命令キャッシュに入りきらない IDQ.DSB_UOPS/(IDQ.DSB_UOPS+IDQ.MITE_UOPS + IDQ.MS_UOPS) < 0.7 多くの μops がレガシーデコードパイプラインからやってくるならなぜデコード済み命令キャッシュに入りきらないか調べるためスタティック解析を行うデコード済み命令キャッシュとレガシーデコードパイプラインの切り替え DSB2MITE_SWITCHES.PENALTY_CYCLES 他の低速な uop の排出分岐する命令のシーケンスなど IDQ_UOPS_NOT_DELIVERED.CYCLES_LE_3_UOP_DELIV.CORE 58

59 フロントエンドのストール : レガシーパイプラインの問題 FE_Bound =IDQ_UOPS_NOT_DELIVERED.CORE / N 16 ビット命令を利用している ILD_STALL.LCP 2 4 μops で構成される命令 ILD_STALL.IQ_FULL / IDQ.MITE_UOPS 他の低速な uop の排出 SSE 命令など IDQ_UOPS_NOT_DELIVERED.CYCLES_LE_3_UOP_DELIV.CORE コードが命令キャッシュと ITLB に入りきらない ICACHE.MISSES / INST_RETIRED.ANY > 0.01 OTHER_ASSISTS.ITLB_MISS_RETIRED_NP / INST_RETIRED.ANY >

60 デコード済み命令キャッシュからレガシーデコードパイプラインへの切り替え問題 : ホットなコードの一部はデコード済み命令キャッシュにあり一部はレガシーパイプラインから供給される 2 のパイプの切り替えには遅延が生じる検出 : DSB2MITE_SWITCHES.PENALTY_CYCLES 問題の解決 : RMW 命令を同じ機能を持つ 2 か 3 の命令に置き換える密なコード領域を 2 の 32 バイトチャンクに収まるように割り当てる複数の NOP 命令を挿入してコードを広げるこの方法は割り当てと実行のため μops を追加するかもしれないことに注意する 60

61 密な RMW 命令はデコード済み命令キャッシュに入らない可能性がある 2 の 1024 ビット値の総和 (128 バイト ) lp: // 最後の反復からのキャリーを加算 add eax, [rsi] adc [rdi], eax // RMW mov eax, [rsi+4] adc [rdi+4], eax // same with offset + 8 // same with offset + 12 // 次の反復のキャリーを保持 setc al movzx eax, al add rsi, 16 add rdi, 16 dec ecx jnz lp lp: // 最後の反復からのキャリーを加算 add eax, [rsi] adc eax, [rdi] // RM mov [rdi],eax // W mov eax, [rsi+4] adc eax, [rdi+4] mov [rdi+4],eax // same with offset + 8 // same with offset + 12 // 次の反復のキャリーを保持 setc al movzx eax, al add rsi, 16 add rdi, 16 dec ecx jnz lp 61

62 密な RMW 命令はデコード済み命令キャッシュに入らない可能性がある Sandy Bridge* 反復ごとのサイクル数スピードアップコード 1: μops をアライメントすることで一部はレガシーデコードパイプラインから来るコード 1: すべての μops をアライメントすることでデコード済み命令キャッシュとループストリームディテクター (LSD) に収まるコード 2: すべての μops はデコード済み命令キャッシュに収まるコードがフロントエンドに依存するならそれらがデコード済み命令キャッシュに収まることを確実にする Sandy Bridge 開発コード名 62

63 まとめ Sandy Bridge* ワークロード最適化マイクロアーキテクチャー概要既存のコードにおけるパフォーマンスガイドラインメモリーアクセス実行フロントエンド Sandy Bridge 開発コード名 63

64 64 バックアップ

65 L1 データキャッシュのバンク衝突 L1D キャッシュの構造 32K バイト 4 way セットアソシアティブキャッシュライン : 16 バンクの 64 バイト定義異なるセットの同じバンクへの 2 の同時ロード間キャッシュに収まっているデータのロードとストア間ロードとキャッシュライン間の置き換え検出ロード帯域に依存するコードでものみ価値がある問題解決ロード操作の再配置バッファーの移動 65

66 ロードのバンク衝突 xor rcx, rcx lea r11, A lea r12, B lea r13, C 異なるセットの同じバンクからのロード xor rcx, rcx lea r11, A lea r12, B lea r13, C 異なるバンク loop: lea esi, [rcx*4] movsxd rsi, esi mov edi, [r11+rsi*4] add edi, [r12+rsi*4] mov r8d, [r11+rsi*4+4] add r8d, [r12+rsi*4+4] int A[128]; int B[128]; int C[128]; mov r9d, [r11+rsi*4+8] add r9d, [r12+rsi*4+8] mov r10d, [r11+rsi*4+12] add r10d, [r12+rsi*4+12] loop: lea esi, [rcx*4] movsxd rsi, esi for (i=0;i<128;i+=4){ C[i]=A[i]+B[i]; C[i+1]=A[i+1]+B[i+1]; C[i+2]=A[i+2]+B[i+2]; C[i+3]=A[i+3]+B[i+3]; } mov edi, [r11+rsi*4] mov r8d, [r11+rsi*4+4] add edi, [r12+rsi*4] add r8d, [r12+rsi*4+4] mov r9d, [r11+rsi*4+8] mov r10d, [r11+rsi*4+12] add r9d, [r12+rsi*4+8] add r10d, [r12+rsi*4+12] mov [r13+rsi*4], edi inc ecx mov [r13+rsi*4+4], r8d mov [r13+rsi*4+8], r9d mov [r13+rsi*4+12], r10d cmp ecx, LEN jb loop inc ecx mov [r13+rsi*4], edi mov [r13+rsi*4+4], r8d mov [r13+rsi*4+8], r9d mov [r13+rsi*4+12], r10d cmp ecx, LEN jb loop 66

67 バンク衝突 Sandy Bridge* コード 1: バンク衝突が起こる反復のサイクル数 8 コード 2: バンク衝突が起こらない反復のサイクル数 7 スピードアップ 1.14 コードがロードのバンド幅に依存する場合のみバンク衝突を解決する Sandy Bridge 開発コード名 67

68 Shift-CL SHL reg, CL は 3 の μops (0,5;0,5;0,5) を持つ遅延の増加少なくても 2 サイクル Port 0 と 5 を圧迫 PSLL 命令で置き換えられることもある 2 μops ports 1,5;0 検出 : サイクルカウント数が増加するコードを調査 68

69 Shift-CL loop_1: mov eax, [rsi+4*rdx] mov ecx, [rdi+4*rdx] shl eax, cl add ebx, eax dec rdx jnz loop_1 loop_1: movd xmm0, [rsi+4*rdx] movd xmm1, [rdi+4*rdx] pslld xmm0, xmm1 movd eax, xmm0 add ebx, eax dec rdx jnz loop_1 DEC + JNZ の結合は DEC を port 5 で実行されるオリジナル : port 5 の圧迫により依存するロードは遅延するコード 1: Shift CL を利用した反復のサイクル数コード 2: PSLL を利用した反復のサイクル数 Sandy Bridge* スピードアップ 1.15 Shift CL の実行が遅ければ PSLL で置き換える Sandy Bridge 開発コード名 69

70 スピードアップとゲイン実行時間 ( シリアル ) 実行時間 (N スレッド ) シリアル T1 T2 T3 T4 ゲイン実行時間 ( シリアル / N) 4T 最適潜在的ゲインスピードアップ = 実行時間 ( シリアル ) / 実行時間 (N スレッド ) ゲイン % = 1 実行時間 (N スレッド ) / 実行時間 ( シリアル ) 70 さらなる潜在的ゲイン = (N スピードアップ ) / N 70

71 ステップ 2: N スレッドの実行に影響するコンポーネントを特定 N* 実行サイクル = 演算サイクル + 同期サイクル + Σ( アイドル時間 ) 注目するモジュール計算モジュールのサイクルを集積同期の基盤モジュール解析ツールで同期基盤モジュールを選択しそのサイクル数を集積演算モジュール同期関数のサイクル数を加算ロック時間を計算さらに : スピニングロック API 呼び出し 71 注目する必要のないプロセス総実行時間 * N 解析されたプロセスのサイクル数 71

73 最適化に関する注意事項インテルコンパイラー関連ライブラリーおよび関連開発ツールにはインテル製マイクロプロセッサーおよび互換マイクロプロセッサーで利用可能な命令セット ( SIMD 命令セットなど ) 向けの最適化オプションが含まれているかあるいはオプションを利用している可能性がありますが両者では結果が異なりますまたインテルコンパイラー用の特定のコンパイラーオプション ( インテルマイクロアーキテクチャーに非固有のオプションを含む ) はインテル製マイクロプロセッサー向けに予約されていますこれらのコンパイラーオプションと関連する命令セットおよび特定のマイクロプロセッサーの詳細はインテルコンパイラーユーザーリファレンスガイドのコンパイラーオプションを参照してくださいインテルコンパイラー製品のライブラリールーチンの多くは互換マイクロプロセッサーよりもインテル製マイクロプロセッサーでより高度に最適化されますインテルコンパイラー製品のライブラリールーチンの多くは互換マイクロプロセッサーよりもインテル製マイクロプロセッサーでより高度に最適化されますインテルコンパイラー製品のコンパイラーとライブラリーは選択されたオプションコードおよびその他の要因に基づいてインテル製マイクロプロセッサーおよび互換マイクロプロセッサー向けに最適化されますがインテル製マイクロプロセッサーにおいてより優れたパフォーマンスが得られる傾向にありますインテルコンパイラー関連ライブラリーおよび関連開発ツールは互換マイクロプロセッサー向けにはインテル製マイクロプロセッサー向けと同等レベルの最適化が行われない可能性がありますこれにはインテルストリーミング SIMD 拡張命令 2( インテル SSE2) インテルストリーミング SIMD 拡張命令 3( インテル SSE3) ストリーミング SIMD 拡張命令 3 補足命令 (SSSE3) 命令セットに関連する最適化およびその他の最適化が含まれますインテルではインテル製ではないマイクロプロセッサーに対して最適化の提供機能効果を保証していません本製品のマイクロプロセッサー固有の最適化はインテル製マイクロプロセッサーでの使用を目的としていますインテルではインテルコンパイラーおよびライブラリーがインテル製マイクロプロセッサーおよび互換マイクロプロセッサーにおいて優れたパフォーマンスを引き出すのに役立つ選択肢であると信じておりますがお客様の要件に最適なコンパイラーを選択いただくよう他のコンパイラーの評価を行うことを推奨していますインテルではあらゆるコンパイラーやライブラリーで優れたパフォーマンスが引き出されお客様のビジネスの成功のお役に立ちたいと願っておりますお気づきの点がございましたらお知らせください改訂 #

2.1 インテルマイクロアーキテクチャー Haswell インテルマイクロアーキテクチャー Haswell はインテルマイクロアーキテクチャー Sandy Bridge とインテルマイクロアーキテクチャー Ivy Bridge の成功を受けて開発されたこの新しいマイクロアーキテクチャーの

2.1 インテルマイクロアーキテクチャー Haswell インテルマイクロアーキテクチャー Haswell はインテルマイクロアーキテクチャー Sandy Bridge とインテルマイクロアーキテクチャー Ivy Bridge の成功を受けて開発されたこの新しいマイクロアーキテクチャーの 2 章インテル 64 プロセッサーアーキテクチャーと IA-32 プロセッサーアーキテクチャー本章では最新世代のインテル 64 プロセッサーと IA-32 プロセッサー ( インテルマイクロアーキテクチャー Haswell インテルマイクロアーキテクチャー Ivy Bridge インテルマイクロアーキテクチャー Sandy Bridge ベースのプロセッサーとインテル Core マイクロアーキテクチャー