SMG Field Computex 2011 New Category Update

Size: px
Start display at page:

Download "SMG Field Computex 2011 New Category Update"

Transcription

1 Intel Software Developer Day インテル マイクロアーキテクチャー SandyBridge* 向けワークロードの最適化 2011 年 7 月 15 日インテル株式会社ソフトウェア & サービス統括部シニア アプリケーション エンジニア菅原清文 Sandy Bridge 開発コード名 1

2 内容 Sandy Bridge* ワークロード最適化 マイクロアーキテクチャー概要 既存のコードにおけるパフォーマンス ガイドライン メモリーアクセス 実行 フロントエンド Sandy Bridge 開発コード名 2

3 グラフィックス ユニット マイクロアーキテクチャー概要 C0 (HT0,1) Cn (HT0,1) L1I L1D L2 C LLC0 リング L1I L1D L2 C LLCn システム エージェント メモリー 3

4 メイン プラットフォームの派生 モバイルとデスクトップ 1 ソケット プロセッサー チップセット ( 開発コード名 Cougar Point ) 2 メモリーチャンネル コア数 LLC (MB) グラフィックスプラットフォーム QC-MB 4 8 GT2 Huron River DC-MB 2 4 GT2 Huron River QC-DT 4 6 GT1 Sugar Bay DC-DT 2 3 GT1 Sugar Bay : 開発コード名 4

5 メイン プラットフォームの派生 サーバーとワークステーション EX/EP/EN ではソケット数, チャンネル数, DIMM の数, PCIe レーン数, QPI リンク数が異なる EP と EN: 2/1 QPI チャンネル, 768/384GB メモリー グラフィックスなし 名称最大ソケット数コア / ソケット LLC SNB EX 4 8, 6 20, 16, 15, 12 SNB EP 2 8, 6, 4 20, 15, 10 SNB EN 2 8, 6, 4 20, 15, 10 SNB EN 1S SNB WS 1S 1 6, 4 15, 10 : Sandy Bridge ( 開発コード名 ) 5

6 インテル アドバンスト ベクトル エクステンション ( インテル AVX) 32 バイト浮動小数点ベクトル拡張 8 個の 4 バイト ( 単精度 ) 浮動小数点要素を操作 4 個の 8 バイト ( 倍精度 ) 浮動小数点要素を操作 新しい 16 個の 32 バイト YMM レジスター (XMM レジスターの拡張 ) 16 バイトの浮動小数点および整数ベクトル拡張 非破壊ソース NDS SRC2 と DEST は異なる ロード + op はアライメントされていないアドレスをアクセスできる コードサイズを縮小 少ない μops ( マイクロオペレーション ) インテル AVX における バイトの移行はコストなし 32 バイトのインテル AVX インテル ストリーミング SIMD 拡張命令 ( インテル SSE) 間の移行は高価 6

7 システム エージェント アービター = リングを経由して I/O (PCIe と DMI) とメモリーをアクセスする メモリー グラフィックスそして I/O インターフェイスをチップに統合 : メモリー コントローラー 2 チャンネルでそれぞれ 2 つの DIMM を搭載可能 データレート : サイクルごとに 8 バイト 1066MHz 1333MHz および 1600MHz 最大 32 GB の容量 PCIe コントローラー DMI コントローラー GFX ディスプレイ インターフェイス PCIe I/O DMI FDI ディスプレイ アービター メモリーコントローラー DDR3 リング 7

8 リングとラストレベル キャッシュ (LLC) コア GT キャッシュブロック そしてシステム エージェントはリングに接続される 各コアとキャッシュブロックのリング インターフェイスは 32 バイト / サイクルの転送能力を持つ リングとキャッシュブロックはコアと同じ周波数で動作する キャッシュブロック : 論理回路と LLC データ配列 アドレス空間はキャッシュブロックに一様に分配される LLC は高レベルのキャッシュでインクルーシブ どのコアが各キャッシュラインを保持しているか記録 PCIe I/O ディスプレイ コアコアコアコア DMI アービター C C C C C 大きな GT FDI LLC LLC LLC LLC メモリーコントローラー DDR3 8

9 アンコア 32K 命令キャッシュ BPU レガシーデコードパイプライン MSROM デコード済命令キャッシュ 256K L2 キャッシュ μop キュー リネーム / リタイア コア パイプライン 32K データキャッシュ ロードストア ( アドレス ) 2 3 ストアデータ フロントエンド 整数 OOO* MMX/SSE AVX 下位 スケジューラー INT / SSE / X87 レジスタースタック 実行 X87 AVX 上位 キャッシュ OOO = out of order 9

10 フロントエンド レガシー パイプライン : 命令フェッチと μops へのデコード デコード済命令キャッシュに格納 デコード済命令キャッシュ : 利用頻度の高い μops のキャッシュ MSROM 4 μops より長い命令を格納 μops はデコード済命令キャッシュもしくはデコーダーからフェッチされ μop キューへ格納される LSD: 小さな μops のループはキューから取り込む μops がデコード済み命令キャッシュから提供された場合のみ マイクロフュージョン ロード / ストア + op を 1 の μop に融合 マクロフュージョン 2 の連続した命令 1 μop CMP/TEST/ADD/SUB/INC/DEC + JCC 32K 命令キャッシュ レガシーデコードパイプライン MSROM μop キュー BPU デコード済命令キャッシュ 10

11 デコード済み命令キャッシュの内容 セット : セットは 8-way 1 つの way: 1 つの way は次の内容を保持できる : 6 μops 完全な命令 2 の分岐 1 非条件分岐 1 MSROM は 1 way を消費 長い即値を伴う μops は 2-way 消費 11

12 デコード済み命令キャッシュ 32 セット 8-way 1-way は 6 のエントリー すべての命令は 32 バイト境界に配置されたチャンク 最大 3 の way を消費 32 バイトに配置されたチャンクは最大 18 の μops を保持 複数の μops で構成される命令は way にまたがって格納できない way 中に 2 の分岐を格納可能 非条件分岐は way の最後の μop 長い命令 (MSROM) は way 全体を消費 マイクロフュージョンされた μops ( ロード / ストア +op) は 1 に扱う マクロフュージョンされた対の命令は 1 の μop として扱う 64 バイト即値を伴う μops は 即値を保持するため 2 のスロットを利用 SMT の場合 : 各スレッドは半分のセットを利用 12

13 OOO リネーム μops はバックエンドでインオーダーにリソースを割り当てられる ROB RS ロードバッファー ストアバッファー 各サイクルで最大 4 μops を割り当て 集成されていない μops (base + index を伴うストア / ロード +op) は 2 の割り当て / リタイアスロットを利用 マイクロフュージョンされた μop は 1 の割り当て / リタイアスロットを利用するが 2 の RS および ROB エントリーを利用 LSD ループのサイクル割り当てを終わらせて分岐 割り当て時の実行 : ゼロ イディオム NOP VZEROUPPER FXCHG リネーム / リタイア スケジューラー INT / SSE / X87 レジスタースタック 13

14 OOO と実行 μops は RS から OOO 実行のためディスパッチされる サイクルごとに各ポートで 1 μop ポート 演算 ポート 2 3 ロードとストアアドレス ポート 4 ストアデータ レジスターは 3 スタックを保持 整数 SSE/SIMD (INT + FP) x87 インテル AVX 下位と SSE インテル AVX 上位と x87 実行が完了するとデータはスタックへ書き戻される ポートごとに 1 の μop がライトバックできる ロードストア ( アドレス ) 整数 MMX/SSE AVX 下位 X87 AVX 上位 2 3 ストアデータ リネーム / リタイア スケジューラー INT / SSE / X87 レジスタースタック 異なるレイテンシーの μops は 同じスタック上のライトバック ポートを共有できない 異なるスタックであれば μops は衝突しない 14

15 メモリーコントローラー アービター 32K L1D 32K L1I 32K L1D 32K L1I 256K L2 256K L2 キャッシュ構造 ラストレベル キャッシュ データ位置最適なレイテンシー ( サイクル ) 最適なバンド幅 ( コアごとのサイクル ) L1 データキャッシュ 4 * 2 x 16 バイト L2 キャッシュ 12 1 x 32 バイト LLC x 32 バイト 利用可能な他のコアの L2 と L1 データキャッシュ 43 クリーンヒット 60 ダーティーヒット 15

16 L1 データキャッシュ 倍のロードバンド幅 : 各サイクルで 2 ロードと 1 ストアをサービス可能 アドレス変換 : サイクルごとに 2 ロードと 1 ストア サイクルの最適なロード レイテンシー 書き込みレジスターの型とアドレッシング モードに依存 アドレッシング モード base+index[+offset] データ型 Base+offset>=2048 Base+offset<2048 整数 5 4 MMX SSE 128 ビット AVX 6 5 X ビット AVX

17 ロード遅延 キャッシュミス キャッシュライン分割 アドレス衝突 : ストアアドレスもしくはデータが丌明 4K エリアス ロードバンク衝突 書き込み後の読み込み (RAW) 衝突 : ストアもしくは置き換え操作 17

18 ハードウェア プリフェッチ L1D プリフェッチャー DCU ストリーム プリフェッチャー : 最も最近読み込まれた前方アクセスによってトリガーされる 次のキャッシュラインを読み込み IP プリフェッチャー IP ごとのストライドバイトのロードを検出 前方もしくは後方 2K バイトまでのストライド 次の推測されたアドレスをプリフェッチ プリフェッチ ミスは要求されたミスよりも優先順位が低い ロードされたデータを処理すると 有効なプリフェッチが可能になる L1D プリフェッチャーは L2 プリフェッチャーを早期に起動する 18

19 L2 プリフェッチャー 特殊なプリフェッチャー フェッチされたキャッシュラインは すべてペアとなるキャッシュラインもプリフェッチする (128 バイト境界 ) ストリーマー : より積極的 L1D のロードとストアをモニターし そしてハードウェア プリフェッチ要求と L1I へコードフェッチ要求を行う 同一の 4K バイトページ内でのみプリフェッチ可能 L2 参照ごとに 2 のプリフェッチ要求を引き起こす 前方の 20 キャッシュラインをプリフェッチ可能 1 コアあたりの目立った要求数を動的に調整 要求が多ければ あまり遠くないデータを LLC のみへプリフェッチする キャッシュラインが遠くにあれば LLC のみへプリフェッチする 4K ページあたり 1 前方 1 後方の 32 ストリームまでを維持する 19

20 SMT ITLB 4K ページ ITLB 大きなページデコード済命令キャッシュ μop キュー ROB ロードおよびストアバッファー 分割複製分割複製分割分割 その他の主要なプロセッサー リソースは共有される いくつかの共有リソースは スレッドごとに最小に保たれる さらに多くの内部リソースが分割もしくは複製される リソースは分割され スレッドの C ステートが変化したときに再結合される デコード 割り当て リタイアの各ステージでは スレッドに仕事があるなら各サイクルごとにスイッチする 20

21 GT グラフィック プロセシング ユニット 最新のマイクロアーキテクチャーと製造技術の利点をグラフィックスに生かす 高い動作周波数 優れた集積密度 低消費電力 メモリーアクセスの高いバンド幅と低い遅延を実現 GT1/2: 6/12 EU > 1.5x の性能 ビデオ H/W アクセラレーターを含む これまでグラフィックスのワークロードは CPU 性能を超えるワークロードにより要求されたが 大きな可能性を残している Sandy Bridge シングルコアの周波数は 多くのグラフィックス ワークロードの要求を満たす 電力と周波数の別々のプレーン 21

22 電力 Intel SpeedStep テクノロジーの拡張 P ステート コアがアクティブな状態 P0 最大のターボ周波数 P1 プロセッサーによって保証された周波数 ( 定格 ) Pn 最小の周波数 最大の電力保存 インテル ターボ ブースト テクノロジーのワークロード OS が P0 を選択すると プロセッサーは性能を最大化するため P1 と P0 間の変遷を制御する プロセッサー利用率が低い場合 OS が P1 から Pn 周波数に制御する C ステート アイドル状態 C0 コアはアクティブ C1 コアはアイドル C3 Deeper スリープ C6/C7 AC/DC における Deep スリープ Deeper C ステートでは C0 復帰への長い遅延を要する 電力ステートは 連続した実行の間に変化を引き起こす場合がある 22

23 Sandy Bridge* マイクロアーキテクチャーにおける電力 P ステート アクティブ状態 インテル ターボ ブースト テクノロジー P1 と P0 間の大きなスパン 各アクティブなコアへより高い周波数をブースト 熱容量の余地を利用し プロセッサーが冷えているかアイドルである場合 プロセッサーの TDP ( システムの TDP 内で ) 内で 僅かの間 ( 数秒 ) ブースト 高い電力ワークロードの保護 1 周波数ユニットの減少 単独のインテル AVX 命令の利用を避ける インテル AVX コードブロックを利用 C ステート アイドル状態 C7 ステートの間 LLC はフラッシュされる Sandy Bridge マイクロアーキテクチャーで実装 自動格さげ : 履歴が Deeper C ステートがより低エネルギーであることを示す場合 コア C6/C7 を C3 へ格下げする アルゴリズムを改善 格下げなし : 自動格下による長期の状態の後 もとの Deeper C ステートへ戻る Sandy Bridge 開発コード名 23

24 内容 Sandy Bridge* ワークロード最適化 マイクロアーキテクチャー概要 既存のコードにおけるパフォーマンス ガイドライン メモリーアクセス 実行 フロントエンド Sandy Bridge 開発コード名 24

25 一般的な指標 目的 : 1 つのスレッドで CPU 性能を 100% 引き出す イベントにより大部分の問題を検知できる 問題の影響を求める 通常 CPU_CLK_UNHALTED.THREAD のイベント数で割る 個別に指定できなければ 問題の中には IACA もしくはコードの調査でのみ判別できるものがある コード変換の中には Sandy Bridge* マイクロアーキテクチャーでは性能が向上するが Nehalem*/Westmere* もしくはインテル Atom マイクロアーキテクチャーではペナルティーが生ずるものがある 1 つのバイナリーを双方で実行する場合 異なるコードパスを利用 IACA : Sandy Bridge, Nehalem, Westmere 開発コード名 25

26 パフォーマンス モニター イベントには 3 のカテゴリーがある 固定イベント : clockticks 命令リタイア 参照 clockticks プログラム可能イベント 多くのイベント : 同時に 4/8 個をカウント可能 (HT on/off) ペナルティーやリタイアの距離によってスキッドする ( 滑る ) プリサイスイベント ツール プログラム可能イベントのサブグループ イベントを引き起こした命令の後に実行された命令を正確にポイント 同時に 4 のイベントをカウント可能 インテル VTune Amplifier update 2 以降 (Windows Linux) PTU b472 パッチ (Windows Linux) 26

27 ボトルネックの領域 μops は発行されたか? No 割り当てストール? Yes μop はリタイアしたか? No Yes No Yes FE 依存 BE 依存 誤った投機 リタイア バックエンドはストールしていない フロントエンドがサイクルあたり 4 以下の μops を供給 メモリーアクセス 実行 ディスパッチそして割り当てがボトルネック 命令の投機実行を復帰する必要がある リタイアの成功 経路の長さがサイクルを消費 27

28 ボトルネックの領域 どの領域がサイクルを消費しているか 次のレシオで判断 BE 依存 =1 - (FE 依存 + リタイア + 丌正な投機 ) メモリーの問題 実行の問題 丌正な投機 =(UOPS_ISSUED.ANY-UOPS_RETIRED.RETIRE_SLOTS) / N FE 依存 =IDQ_UOPS_NOT_DELIVERED.CORE / N リタイア = UOPS_RETIRED.RETIRE_SLOTS / N 主要なパイプラインの幅が 4 スロットあるため : N = 4 * CPU_CLK_UNHALTED.THREAD 28

29 Sandy Bridge* マイクロアーキテクチャー固有のボトルネック メモリー 実行 丌正な投機 フロントエンド Sandy Bridge 開発コード名 29

30 バックエンド遅延の原因 BE 依存 =1 - (FE 依存 + リタイア + 丌正な投機 ) ロード遅延 RESOURCE_STALLS.LB / CPU_CLK_UNHALTED.THREAD ストア遅延 RESOURCE_STALLS.SB / CPU_CLK_UNHALTED.THREAD それ以外 メモリー サブシステムもしくは実行の問題を調査 30

31 データ局所性の問題 一般的な原因 全体のデータセットが巨大 データ構造が希薄 データ構造の一部を読み込み 多次元配列の読み込み 非ストライドアクセスなど データのランダムアクセス ランダムに配置されたデータベース ストアミス 多次元配列への書き込み 出力バッファーの利用 どのように見つけるか? データの局所性がパフォーマンス上の問題か評価する データをキャッシュもしくはメモリーから読み込むコードの位置を特定する 31

32 ロード遅延 原因の特定 MEM_LOAD_UOPS_RETIRED.L1_HIT_PS MEM_LOAD_UOPS_RETIRED.L2_HIT_PS MEM_LOAD_UOPS_RETIRED.L3_HIT_PS MEM_LOAD_UOPS_LLC_HIT_RETIRED.XSNP_HIT_PS MEM_LOAD_UOPS_LLC_HIT_RETIRED.XSNP_HITM_PS MEM_LOAD_UOPS_MISC_RETIRED.LLC_MISS_PS MEM_LOAD_UOPS_RETIRED.HIT_LFB_PS ロード遅延の見積もり 最適なロード遅延による各ソースからの複数のロード データロードの原因 総サイクルから比率 (%) を求める 正確さに务る : ロードは同時に行われる L1D からのロードを除外する 見積もりは正確ではない LLC のミス ペナルティーは 200 を想定 次のケースでは 原因を特定するためロード遅延イベントを利用する : インテル AVX の 256 ビット ロードは 単に L1D ヒットもしくは LFB ヒットとして見える LFB ヒット 直前のロードや H/W プリフェッチに起因するロード. 未知のペナルティー 32

33 キャッシュライン置き換えを解析 時にキャッシュラインの置き換え (eviction) は HW プリフェッチャーやストアに起因する ロード要求によるものではないこともある 置き換えの主要な原因となるコード領域を特定する必要がある 長い遅延をもたらすロード以下のレベルの置き換えを探す 例 : 遅延が L2 にヒットするロードが原因である場合 ソース中の L1 データキャッシュの置き換えを調査する 最も L1D 置き換えを行うブロックや関数 ロードミスとストアミスの検知に有効 プロセス全体における L1D の置き換え 33

34 キャッシュライン置き換えを解析 L2 ヒット : L1D の置き換えが発生する場所を特定 LLC ヒット : L2 の置き換えが発生する場所を特定 LLC ミス : LLC の置き換えが発生する場所を特定 34

35 他のメモリー階層に関する遅延 ロードがストアと衝突 アライメントされていないデータ 大きなデータの疎らなアクセスもしくはランダムアクセス 近すぎるソフトウェア プリフェッチ LD_BLOCKS.STORE_FORWARD * 13 LD_BLOCKS.DATA_UNKNOWN LD_BLOCKS_PARTIAL.ADDRESS_ALIAS * 5 MEM_UOPS_RETIRED.SPLIT_LOADS_PS * 5 MEM_UOPS_RETIRED.SPLIT_STORES_PS /cycles>0.01 OTHER_ASSISTS.AVX_STORE_PS * 150 DTLB_LOAD_MISSES.STLB_HIT * 7 DTLB_LOAD_MISSES.WALK_DURATION DTLB_LOAD_MISSES.WALK_COMPLETED DTLB_STORE_MISSES.WALK_DURATION LOAD_HIT_PRE.SW_PREFETCH 35

36 L1 データキャッシュのスループット 可能性 : サイクルごとに L1 データキャッシュから 2 の要素を読み込む int buff[buff_size]; int sum = 0; for (i=0; i<buff_size; i++){ sum += buff[i]; } 36

37 L1 データキャッシュのスループット xor eax, eax pxor xmm0, xmm0 lea rsi, buff loop_start: paddd xmm0, [rsi] paddd xmm0, [rsi+16] paddd xmm0, [rsi+32] paddd xmm0, [rsi+48] paddd xmm0, [rsi+64] paddd xmm0, [rsi+80] paddd xmm0, [rsi+96] paddd xmm0, [rsi+112] add eax, 32 cmp eax, BUFF_SIZE jl loop_start xor eax, eax pxor xmm0, xmm0 pxor xmm1, xmm1 lea rsi, buff loop_start: paddd xmm0, [rsi] paddd xmm1, [rsi+16] paddd xmm0, [rsi+32] paddd xmm1, [rsi+48] paddd xmm0, [rsi+64] paddd xmm1, [rsi+80] paddd xmm0, [rsi+96] paddd xmm1, [rsi+112] add eax, 32 cmp eax, 3200 jl loop start sum_partials: // sum the 4 elements of xmm0 // 7 instructions sum_partials: // sum the 4 elements of xmm0/1 // 8 instructions 37

38 L1 データキャッシュのスループット コードのスピードアップ コード 1: コードはサイクルあたり 1 ロードに制限コード 2: コードはサイクルあたり 2 ロードを許可 Nehalem* 要素ごとのサイクル Sandy Bridge* 要素ごとのサイクル Sandy Bridge* スピードアップ x x コード 2 のスピードアップ x なぜ 2 倍のスピードアップを達成できない? Port 5 を圧迫 : 各反復は 4 の加算を port 5 で実行し port 1 で jcc を実行スピードアップの制限 : 8 / 4.5 = 1.75 L1D キャッシュからサイクルごとに 2 の要素をロード Sandy Bridge, Nehalem 開発コード名 38

39 ロード遅延 リンクリスト インデックスを利用 id = Node[id].next_id; loop: shl rbx, 6 mov rbx, [rcx+rbx+0x20] dec rax cmp rax, -1 jne loop ポインターを利用 Node = Node->pNext; loop: mov rdx, [rdx] dec rax cmp rax, -1 jne loop インデックスを利用した要素あたりのサイクル数ポインターを利用した要素あたりのサイクル数 Nehalem* Sandy Bridge* スピードアップ 1.21x 1.44x ポインターはインデックスより遅延が短いポインターはより多くの空間を必要とするかもしれない Sandy Bridge, Nehalem 開発コード名 39

40 ロード遅延 メモリーへのレジスター退避を避ける loop: IACA_START mov rdx, [rsp+0x18] movdqa xmm0, [rdx] movdqa xmm1, [rsp+0x20] pcmpeqd xmm1, xmm0 pmovmskb eax, xmm1 test eax, eax jne end_loop movzx rcx, [rbx+0x60] add [rsp+0x18], 0x10 add rdi, 0x4 movzx rdx, di sub rcx, 0x4 add rsi, 0x1d0 cmp rdx, rcx jle loop IACA_END IACA( インテル アーキテクチャー コード アナライザー ) スタティック コード解析 : - コードを実行しない 実データは必要ない - すべての条件分岐はフォールスルー - 考察 - データの依存性と実行遅延 - 割り当てのスループット - 実行のスループット モデル : - スループット : ループ間 - 遅延 : 1 回の反復 iaca.exe -arch SNB -analysis THROUGHPUT -graph g.dot regspill.exe 40

41 レジスターの退避 オフセットの更新はループ反復間の依存性を引き起こす rdx には 2 つの役割があるため レジスターはメモリーへ退避される 赤 クリティカル パス上の命令 : サイクルの削減はパスの遅延減少に貢献 41

42 ロード遅延 メモリーへのレジスター退避を避ける 問題 : 汎用レジスターの数が十分ではない 解決策 : レジスターを退避し再利用する 一般的 : メモリーへ退避 loop: (1) mov rdx, [rsp+0x18] movdqa xmm0, [rdx] movdqa xmm1, [rsp+0x20] pcmpeqd xmm1, xmm0 pmovmskb eax, xmm1 test eax, eax jne end_loop movzx rcx, [rbx+0x60] (2) add [rsp+0x18], 0x10 add rdi, 0x4 movzx rdx, di sub rcx, 0x4 add rsi, 0x1d0 cmp rdx, rcx jle loop 最良 :XMM レジスターへ退避 movq xmm4, [rsp+0x18] mov xmm5, 0x10 loop: (1) movq rdx, xmm4 movdqa xmm0, [rdx] movdqa xmm1, [rsp+0x20] pcmpeqd xmm1, xmm0 pmovmskb eax, xmm1 test eax, eax jne end_loop movzx rcx, [rbx+0x60] (2) paddq xmm4, xmm5 add rdi, 0x4 movzx rdx, di sub rcx, 0x4 add rsi, 0x1d0 cmp rdx, rcx jle loop 42

43 ロード遅延 メモリーへ退避しない Sandy Bridge* Nehalem* コード 1: メモリーへ退避する場合の反復ごとのサイクル数コード 2: XMM レジスターへ退避する場合の反復ごとのサイクル数 スピードアップ 1.95x 1.46x XMM へのレジスター退避は メモリーへの退避より高速 Sandy Bridge, Nehalem 開発コード名 43

44 実行ストール PARTIAL_RAT_STALLS.ANY_CYCLES OTHER_ASSISTS.AVX_TO_SSE_PS * 70 OTHER_ASSISTS.SSE_TO_AVX_PS * 70 ARITH.FPU_DIV_ACTIVE FP_ASSIST.ANY_PS UOPS_DISPATCHED_PORT.PORT_[0-5] FP_ASSIST.SIMD_*_PS * 130 FP_ASSIST.X87_*_PS * 130 PARTIAL_RAT_STALLS.SLOW_LEA_WINDOW PARTIAL_RAT_STALLS.REG_MERGE_UOP PARTIAL_RAT_STALLS.FLAGS_MERGE_UOP PARTIAL_RAT_STALLS.MUL_SINGLE_UOP 44

45 LEA Load Effective Address 2 のレジスターと即値を加算し ソースを変更しない使い方 : 非破壊 add 操作 3 の要素を 1 命令で加算 少ない数の乗数 例 : eax*5 == lea ebx, [eax+eax*4] 問題 : 低速な LEA 3 サイクル 3 の完全なソースオペランドを持つ場合 : base index offset Base と index レジスターを使用し Base が EBP RBP もしくは R13 である場合 RIP 相対アドレスモードを利用する場合 16 ビット アドレスモードを利用する場合 検出 PARTIAL_RAT_STALLS.SLOW_LEA_WINDOW 拡張 : 他の LEA は 1/0.5 サイクルの遅延 / スループット 45

46 LEA コード例 An = (An-1 + An-2 + K) mod MOD loop1: mov edi, esi lea esi, [esi+edx+k] and esi, 0xFF mov edx, edi dec ecx jnz loop1 loop1: mov edi, esi; lea edx, [edx+k] lea esi, [esi+edx] and esi, 0xFF; mov edx, edi; dec ecx; jnz loop1; Sandy Bridge Nehalem 低速 LEA を利用した反復あたりのサイクル数 高速 LEA を利用した反復あたりのサイクル数 スピードアップ 低速な LEA を利用せず高速な LEA を利用 Sandy Bridge インテル マイクロアーキテクチャー Sandy Bridge Nehalem インテル マイクロアーキテクチャー Nehalem Nehalem マイクロアーキテクチャーにおいて 低速な LEA を避けるためコードを変更すると より悪いパフォーマンスになることがある 46

47 SSE2 浮動小数点の精度とパフォーマンスの拡張 1/2 背景 : 最初に例外について 事前操作 : NaN ゼロ除算 デノーマル操作 事後操作 : 丌正確な結果 オーバーフローとアンダーフロー 2 番目に MXCSR のマスク 例外がマスクされているとユーザー例外ハンドラーは呼び出されない デノーマルやアンダーフローが発生するとマイクロコードのアシストが必要となる (16 バイトベクトルごとに ~ サイクル ) 3 番目に MXCSR の DAZ と FTZ ビット 精度の低下 : デノーマルはゼロ アンダーフローはゼロにフラッシュされる 入力値がデノーマルであれば例外ビットは報告されない ( アンダーフロー例外フラグは設定される ) パフォーマンスの拡張 : アシストコードは実行されない 47

48 SSE2 浮動小数点の精度とパフォーマンスの拡張 2/2 Sandy Bridge* マイクロアーキテクチャーは 大部分のデノーマル入力とアンダーフロー出力を透過に扱う ADD MUL DIV D2S で有効 DAZ や FTZ なしで計算を正確に ほとんどの場合 アシストコードなしで通常の計算速度 S2D と FSQRT では変化なし ADD MUL SP MUL DP DIV SP DIV DP D2S アシストの減少 95% 55% 89% 45% 71% 94% アシストのペナルティーを軽減 : 16 もしくは 32 バイトベクトルごとに サイクル DAZ と FTZ なしに SSE2 浮動小数点演算を行うことを考える Sandy Bridge 開発コード名 48

49 マクロフュージョンの拡張 2 の命令を 1 の μop に統合 最初のソース / デスティネーション オペランドがレジスター 2 番目のソースオペランド ( 必要なら ) が次の何れ : 即値 レジスターもしくは非 RIP 相対メモリー 実行にバウンドするコードで μops とサイクルを節約 リスク : Port 5 への高い依存性 (IACA で識別 ) 命令 TEST AND CMP ADD SUB INC DEC JO/JNO Y Y N N N N N JC/JB/JAE/JNB Y Y Y Y Y N N JE/JZ/JNE/JNZ Y Y Y Y Y Y Y JNA/JBE/JA/JNBE Y Y Y Y Y N N JS/JNS/JP/JPE/JNP/JPO Y Y N N N N N JL/JNGE/JGE/JNL/JLE/JNG/JG/JNLE Y Y Y Y Y Y Y 49

50 高速ローテーション ROL Reg1, imm8 は 次と等価 SHLD Reg1, Reg1, imm8 50

51 高速ローテーション ROL imm SNB* NHM* μops 数 2 1 port 0,5;0,5 0,5 遅延 2 1 スループット SHLD imm SNB NHM μops 数 1 2 port 0,5 0,1,5;1 遅延 1 4 スループット Sandy Bridge, Nehalem 開発コード名 51

52 ローテーションの利用例 コード例 for i from 16 to 79 do s0 := (w[i-15] right-rotate 7) xor (w[i-15] right-rotate 18) xor (w[i-15] right-shift 3) s1 := (w[i-2] right-rotate 17) xor (w[i-2] right-rotate 19) xor (w[i-2] right-shift 10) w[i] := w[i-16] + s0 + w[i-7] + s1 end 検出 : サイクルカウントが増加する場所を調査 コード 1: ROL を利用したループ反復のサイクル数コード 2: SHLD を利用したループ反復のサイクル数 Sandy Bridge* Nehalem* スピードアップ 1.21x 0.7 Sandy Bridge では SHLD を利用する Nehalem では ROL を利用する Nehalem では SHLD は ROL より遅い Sandy Bridge, Nehalem 開発コード名 52

53 パーシャル フラグ ストールを最小限にする 2 の 1024 ビット数値の総和 (128 バイト ) carry = 0; for (i=0; i < 16; i++) C[i] = SUM(A[i], B[i], &carry) キャリーを AL に保持 lea rsi, [A] lea rdi, [B] xor rax, rax mov rcx, 16 loop: add rax, [rsi] adc rax, [rdi] mov [rdi], rax setc al movzx rax, al add rsi, 8 add rdi, 8 dec rcx jnz loop キャリーを EFLAG に保持 lea rsi, [A] lea rdi, [B] xor rax, rax mov rcx, 16 loop: mov rax, [rsi] adc rax, [rdi] mov [rdi], rax lea rsi, [rsi+8] lea rdi, [rdi+8] dec rcx jnz loop 53

54 パーシャル フラグ ストールを最小限にする コード 1: キャリーを AL に保持した反復あたりのサイクル数コード 2: キャリーを EFLAG に保持した反復あたりのサイクル数 Sandy Bridge* スピードアップ 1.6x 0.43 Nehalem* Nehalem* のコード 1 をベースにしたスピードアップ x x 条件的にフラグを更新する命令 (CL のシフトなど ) の前に フラグへの書き込みのみを行う命令 (INC DEC SET CL など ) を利用してはならない パーシャル フラグ ストールのペナルティーは少ない注意してコードを変更する Sandy Bridge, Nehalem 開発コード名 54

55 投機によるストールの影響 投機の悪影響 (Bad_Speculation) ペナルティーの見積もり Bad_Speculation =(UOPS_ISSUED.ANY - UOPS_RETIRED.RETIRE_SLOTS) / N BR_MISP_RETIRED.ALL_BRANCHES 予測ミスした分岐を検出予測ミスした分岐を特定する必要がある MACHINE_CLEARS.MEMORY_ORDERING * 50 LD_BLOCKS_PARTIAL.ADDRESS_ALIAS MACHINE_CLEARS.SMC * 50 55

56 マシンクリア マシンクリア : パイプラインのフラッシュ + ストアバッファー排出 メモリーの一義化の失敗 進行中のロードの無効化をスヌープ 自己修正コード (SMC) メモリーの一義化の失敗 先行するストアとロードの衝突 部分的 ( パーシャル ) なアドレスのエリアス (4K エリアス ) による偽り 4K エリアスによるマシンクリア LD_BLOCKS_PARTIAL.ADDRESS_ALIAS > MACHINE_CLEARS.MEMORY_ORDERING 56

57 メモリーの一義化の失敗によるマシンクリア パーシャル アドレス エリアス (4K エリアス ) によるメモリー順序付けのためのマシンクリアは マシンクリアの元になるメモリー一義化の失敗のヒントとなる マシンクリアが頻繁に発生するアプリケーションの例 57

58 フロントエンドのストール : デコード済命令キャッシュの問題 最後に解析 : 多くのフロントエンド ストールは メモリーと実行ストールに隠れている FE_Bound =IDQ_UOPS_NOT_DELIVERED.CORE / N コードがデコード済み命令キャッシュに入りきらない IDQ.DSB_UOPS/(IDQ.DSB_UOPS+IDQ.MITE_UOPS + IDQ.MS_UOPS) < 0.7 多くの μops がレガシー デコード パイプラインからやってくるなら なぜデコード済み命令キャッシュに入りきらないか調べるため スタティック解析を行う デコード済み命令キャッシュとレガシー デコード パイプラインの切り替え DSB2MITE_SWITCHES.PENALTY_CYCLES 他の低速な uop の排出 分岐する命令のシーケンスなど IDQ_UOPS_NOT_DELIVERED.CYCLES_LE_3_UOP_DELIV.CORE 58

59 フロントエンドのストール : レガシー パイプラインの問題 FE_Bound =IDQ_UOPS_NOT_DELIVERED.CORE / N 16 ビット命令を利用している ILD_STALL.LCP 2 4 μops で構成される命令 ILD_STALL.IQ_FULL / IDQ.MITE_UOPS 他の低速な uop の排出 SSE 命令など IDQ_UOPS_NOT_DELIVERED.CYCLES_LE_3_UOP_DELIV.CORE コードが命令キャッシュと ITLB に入りきらない ICACHE.MISSES / INST_RETIRED.ANY > 0.01 OTHER_ASSISTS.ITLB_MISS_RETIRED_NP / INST_RETIRED.ANY >

60 デコード済み命令キャッシュからレガシー デコード パイプラインへの切り替え 問題 : ホットなコードの一部はデコード済み命令キャッシュにあり 一部はレガシー パイプラインから供給される 2 のパイプの切り替えには遅延が生じる 検出 : DSB2MITE_SWITCHES.PENALTY_CYCLES 問題の解決 : RMW 命令を同じ機能を持つ 2 か 3 の命令に置き換える 密なコード領域を 2 の 32 バイトチャンクに収まるように割り当てる 複数の NOP 命令を挿入してコードを広げる この方法は割り当てと実行のため μops を追加するかもしれないことに注意する 60

61 密な RMW 命令はデコード済み命令キャッシュに入らない可能性がある 2 の 1024 ビット値の総和 (128 バイト ) lp: // 最後の反復からのキャリーを加算 add eax, [rsi] adc [rdi], eax // RMW mov eax, [rsi+4] adc [rdi+4], eax // same with offset + 8 // same with offset + 12 // 次の反復のキャリーを保持 setc al movzx eax, al add rsi, 16 add rdi, 16 dec ecx jnz lp lp: // 最後の反復からのキャリーを加算 add eax, [rsi] adc eax, [rdi] // RM mov [rdi],eax // W mov eax, [rsi+4] adc eax, [rdi+4] mov [rdi+4],eax // same with offset + 8 // same with offset + 12 // 次の反復のキャリーを保持 setc al movzx eax, al add rsi, 16 add rdi, 16 dec ecx jnz lp 61

62 密な RMW 命令はデコード済み命令キャッシュに入らない可能性がある Sandy Bridge* 反復ごとのサイクル数 スピードアップ コード 1: μops をアライメントすることで 一部はレガシー デコード パイプラインから来る コード 1: すべての μops をアライメントすることで デコード済み命令キャッシュとループ ストリーム ディテクター (LSD) に収まる コード 2: すべての μops はデコード済み命令キャッシュに収まる コードがフロントエンドに依存するなら それらがデコード済み命令キャッシュに収まることを確実にする Sandy Bridge 開発コード名 62

63 まとめ Sandy Bridge* ワークロード最適化 マイクロアーキテクチャー概要 既存のコードにおけるパフォーマンス ガイドライン メモリーアクセス 実行 フロントエンド Sandy Bridge 開発コード名 63

64 64 バックアップ

65 L1 データキャッシュのバンク衝突 L1D キャッシュの構造 32K バイト 4 way セット アソシアティブ キャッシュライン : 16 バンクの 64 バイト 定義 異なるセットの同じバンクへの 2 の同時ロード間 キャッシュに収まっているデータのロードとストア間 ロードとキャッシュライン間の置き換え 検出 ロード帯域に依存するコードでものみ価値がある 問題解決 ロード操作の再配置 バッファーの移動 65

66 ロードのバンク衝突 xor rcx, rcx lea r11, A lea r12, B lea r13, C 異なるセットの同じバンクからのロード xor rcx, rcx lea r11, A lea r12, B lea r13, C 異なるバンク loop: lea esi, [rcx*4] movsxd rsi, esi mov edi, [r11+rsi*4] add edi, [r12+rsi*4] mov r8d, [r11+rsi*4+4] add r8d, [r12+rsi*4+4] int A[128]; int B[128]; int C[128]; mov r9d, [r11+rsi*4+8] add r9d, [r12+rsi*4+8] mov r10d, [r11+rsi*4+12] add r10d, [r12+rsi*4+12] loop: lea esi, [rcx*4] movsxd rsi, esi for (i=0;i<128;i+=4){ C[i]=A[i]+B[i]; C[i+1]=A[i+1]+B[i+1]; C[i+2]=A[i+2]+B[i+2]; C[i+3]=A[i+3]+B[i+3]; } mov edi, [r11+rsi*4] mov r8d, [r11+rsi*4+4] add edi, [r12+rsi*4] add r8d, [r12+rsi*4+4] mov r9d, [r11+rsi*4+8] mov r10d, [r11+rsi*4+12] add r9d, [r12+rsi*4+8] add r10d, [r12+rsi*4+12] mov [r13+rsi*4], edi inc ecx mov [r13+rsi*4+4], r8d mov [r13+rsi*4+8], r9d mov [r13+rsi*4+12], r10d cmp ecx, LEN jb loop inc ecx mov [r13+rsi*4], edi mov [r13+rsi*4+4], r8d mov [r13+rsi*4+8], r9d mov [r13+rsi*4+12], r10d cmp ecx, LEN jb loop 66

67 バンク衝突 Sandy Bridge* コード 1: バンク衝突が起こる反復のサイクル数 8 コード 2: バンク衝突が起こらない反復のサイクル数 7 スピードアップ 1.14 コードがロードのバンド幅に依存する場合のみ バンク衝突を解決する Sandy Bridge 開発コード名 67

68 Shift-CL SHL reg, CL は 3 の μops (0,5;0,5;0,5) を持つ 遅延の増加 少なくても 2 サイクル Port 0 と 5 を圧迫 PSLL 命令で置き換えられることもある 2 μops ports 1,5;0 検出 : サイクルカウント数が増加するコードを調査 68

69 Shift-CL loop_1: mov eax, [rsi+4*rdx] mov ecx, [rdi+4*rdx] shl eax, cl add ebx, eax dec rdx jnz loop_1 loop_1: movd xmm0, [rsi+4*rdx] movd xmm1, [rdi+4*rdx] pslld xmm0, xmm1 movd eax, xmm0 add ebx, eax dec rdx jnz loop_1 DEC + JNZ の結合は DEC を port 5 で実行される オリジナル : port 5 の圧迫により依存するロードは遅延する コード 1: Shift CL を利用した反復のサイクル数 コード 2: PSLL を利用した反復のサイクル数 Sandy Bridge* スピードアップ 1.15 Shift CL の実行が遅ければ PSLL で置き換える Sandy Bridge 開発コード名 69

70 スピードアップとゲイン 実行時間 ( シリアル ) 実行時間 (N スレッド ) シリアル T1 T2 T3 T4 ゲイン 実行時間 ( シリアル / N) 4T 最適 潜在的ゲイン スピードアップ = 実行時間 ( シリアル ) / 実行時間 (N スレッド ) ゲイン % = 1 実行時間 (N スレッド ) / 実行時間 ( シリアル ) 70 さらなる潜在的ゲイン = (N スピードアップ ) / N 70

71 ステップ 2: N スレッドの実行に影響するコンポーネントを特定 N* 実行サイクル = 演算サイクル + 同期サイクル + Σ( アイドル時間 ) 注目するモジュール計算モジュールのサイクルを集積 同期の基盤モジュール 解析ツールで同期基盤モジュールを選択し そのサイクル数を集積 演算モジュール 同期関数のサイクル数を加算 ロック時間を計算 さらに : スピニング ロック API 呼び出し 71 注目する必要のないプロセス 総実行時間 * N 解析されたプロセスのサイクル数 71

72

73 最適化に関する注意事項 インテル コンパイラー 関連ライブラリーおよび関連開発ツールには インテル製マイクロプロセッサーおよび互換マイクロプロセッサーで利用可能な命令セット ( SIMD 命令セットなど ) 向けの最適化オプションが含まれているか あるいはオプションを利用している可能性がありますが 両者では結果が異なります また インテル コンパイラー用の特定のコンパイラー オプション ( インテル マイクロアーキテクチャーに非固有のオプションを含む ) は インテル製マイクロプロセッサー向けに予約されています これらのコンパイラー オプションと関連する命令セットおよび特定のマイクロプロセッサーの詳細は インテル コンパイラー ユーザー リファレンス ガイド の コンパイラー オプション を参照してください インテル コンパイラー製品のライブラリー ルーチンの多くは 互換マイクロプロセッサーよりもインテル製マイクロプロセッサーでより高度に最適化されます インテル コンパイラー製品のライブラリー ルーチンの多くは 互換マイクロプロセッサーよりもインテル製マイクロプロセッサーでより高度に最適化されます インテル コンパイラー製品のコンパイラーとライブラリーは 選択されたオプション コード およびその他の要因に基づいてインテル製マイクロプロセッサーおよび互換マイクロプロセッサー向けに最適化されますが インテル製マイクロプロセッサーにおいてより優れたパフォーマンスが得られる傾向にあります インテル コンパイラー 関連ライブラリーおよび関連開発ツールは 互換マイクロプロセッサー向けには インテル製マイクロプロセッサー向けと同等レベルの最適化が行われない可能性があります これには インテル ストリーミング SIMD 拡張命令 2( インテル SSE2) インテル ストリーミング SIMD 拡張命令 3( インテル SSE3) ストリーミング SIMD 拡張命令 3 補足命令 (SSSE3) 命令セットに関連する最適化およびその他の最適化が含まれます インテルでは インテル製ではないマイクロプロセッサーに対して 最適化の提供 機能 効果を保証していません 本製品のマイクロプロセッサー固有の最適化は インテル製マイクロプロセッサーでの使用を目的としています インテルでは インテル コンパイラーおよびライブラリーがインテル製マイクロプロセッサーおよび互換マイクロプロセッサーにおいて 優れたパフォーマンスを引き出すのに役立つ選択肢であると信じておりますが お客様の要件に最適なコンパイラーを選択いただくよう 他のコンパイラーの評価を行うことを推奨しています インテルでは あらゆるコンパイラーやライブラリーで優れたパフォーマンスが引き出され お客様のビジネスの成功のお役に立ちたいと願っております お気づきの点がございましたら お知らせください 改訂 #

2.1 インテル マイクロアーキテクチャー Haswell インテル マイクロアーキテクチャー Haswell は インテル マイクロアーキテクチャー Sandy Bridge とインテル マイクロアーキテクチャー Ivy Bridge の成功を受けて開発された この新しいマイクロアーキテクチャーの

2.1 インテル マイクロアーキテクチャー Haswell インテル マイクロアーキテクチャー Haswell は インテル マイクロアーキテクチャー Sandy Bridge とインテル マイクロアーキテクチャー Ivy Bridge の成功を受けて開発された この新しいマイクロアーキテクチャーの 2 章インテル 64 プロセッサー アーキテクチャーと IA-32 プロセッサー アーキテクチャー 本章では 最新世代のインテル 64 プロセッサーと IA-32 プロセッサー ( インテル マイクロアーキテクチャー Haswell インテル マイクロアーキテクチャー Ivy Bridge インテル マイクロアーキテクチャー Sandy Bridge ベースのプロセッサーと インテル Core マイクロアーキテクチャー

More information

Microsoft PowerPoint - iaca.ppt

Microsoft PowerPoint - iaca.ppt Intel Architecture Code Analyzer について x86/x64 最適化勉強会 #2 (2011/10/1) Shiraishi Masao 自己紹介 白石匡央 (msiro) ブログ :Coding Memorandum http://msirocoder.blog35.fc2.com/ 仕事 : 映像 Codec, トランスコーダの開発 趣味 : 競技プログラミング 変遷

More information

The 3 key challenges in programming for MC

The 3 key challenges in programming for MC Aug 3 06 Software &Solutions group Intel Intel Centrino Intel NetBurst Intel XScale Itanium Pentium Xeon Intel Core VTune Intel Corporation Intel NetBurst Pentium Xeon Pentium M Core 64 2 Intel Software

More information

第 2 世代インテル® Xeon® スケーラブル・プロセッサー向けインテル® VTune™ Amplifier チューニング・ガイド

第 2 世代インテル® Xeon® スケーラブル・プロセッサー向けインテル® VTune™ Amplifier チューニング・ガイド メモリー制御 このガイドの使い方 このガイドは ソフトウェア開発者がインテル VTune Amplifier パフォーマンス プロファイラーを使用して 第 2 世代インテル Xeon スケーラブル プロセッサー向けにアプリケーション パフォーマンスを最適化することに注目します インテル VTune Amplifier への精通およびパフォーマンス最適化の経験や専門知識は必要ありませんが 最適化対象のアプリケーションを理解している必要があります

More information

Microsoft* Windows* 10 における新しい命令セットの利用

Microsoft* Windows* 10 における新しい命令セットの利用 Microsoft* Windows* 10 における新しい命令セットの利用 この記事は インテル デベロッパー ゾーンに公開されている Follow-Up: How does Microsoft Windows 10 Use New Instruction Sets? の日本語参考訳です 以前のブログ ソフトウェアは実際に新しい命令セットを使用しているのか? ( 英語 ) では いくつかの異なる

More information

スライド 1

スライド 1 東北大学工学部機械知能 航空工学科 2015 年度 5 セメスター クラス D 計算機工学 6. MIPS の命令と動作 演算 ロード ストア ( 教科書 6.3 節,6.4 節 ) 大学院情報科学研究科鏡慎吾 http://www.ic.is.tohoku.ac.jp/~swk/lecture/ レジスタ間の演算命令 (C 言語 ) c = a + b; ( 疑似的な MIPS アセンブリ言語 )

More information

Click to edit title

Click to  edit title コードの現代化と最適化 ソフトウェアの最適化において注目すべきこと 2019 年 4 月 isus 編集部すがわらきよふみ 目的 ソフトウェア開発時の最適化において注目すべき点を理解します ソフトウェアの要件を理解します ソフトウェアに影響するハードウェアの機能を評価します 2 盲目の男たちと象 ヒィンドスタンに 盲目の 6 人の男たちがいました 学ぼうという気持ちが強く 象を見に出かけました 全員

More information

スライド 1

スライド 1 Dispatch 0 年後学期 計算機アーキテクチャ第二 (O) アウトオブオーダ実行プロセッサとバックエンド フロントエンド 命令ウィンドウ : 命令を格納するバッファ ALU Dispatch 命令フェッチ, デコード, リネーミング バックエンド ディスパッチ (dispatch) : 命令ウィンドウに命令を格納する動作 発行 (issue, fire) : 命令ウィンドウから, データ依存が解消された命令を機能ユニットに送り出す動作

More information

スライド 1

スライド 1 知能制御システム学 画像処理の高速化 OpenCV による基礎的な例 東北大学大学院情報科学研究科鏡慎吾 swk(at)ic.is.tohoku.ac.jp 2007.07.03 リアルタイム処理と高速化 リアルタイム = 高速 ではない 目標となる時間制約が定められているのがリアルタイム処理である.34 ms かかった処理が 33 ms に縮んだだけでも, それによって与えられた時間制約が満たされるのであれば,

More information

この方法では, 複数のアドレスが同じインデックスに対応づけられる可能性があるため, キャッシュラインのコピーと書き戻しが交互に起きる性のミスが発生する可能性がある. これを回避するために考案されたのが, 連想メモリアクセスができる形キャッシュである. この方式は, キャッシュに余裕がある限り主記憶の

この方法では, 複数のアドレスが同じインデックスに対応づけられる可能性があるため, キャッシュラインのコピーと書き戻しが交互に起きる性のミスが発生する可能性がある. これを回避するために考案されたのが, 連想メモリアクセスができる形キャッシュである. この方式は, キャッシュに余裕がある限り主記憶の 計算機システム Ⅱ 演習問題学科学籍番号氏名 1. 以下の分の空白を埋めなさい. CPUは, 命令フェッチ (F), 命令デコード (D), 実行 (E), 計算結果の書き戻し (W), の異なるステージの処理を反復実行するが, ある命令の計算結果の書き戻しをするまで, 次の命令のフェッチをしない場合, ( 単位時間当たりに実行できる命令数 ) が低くなる. これを解決するために考案されたのがパイプライン処理である.

More information

使用する前に

使用する前に この章では Cisco Secure ACS リリース 5.5 以降から Cisco ISE リリース 2.4 システムへのデー タ移行に使用される Cisco Secure ACS to Cisco ISE Migration Tool について説明します 移行の概要 1 ページ Cisco Secure ACS から データ移行 1 ページ Cisco Secure ACS to Cisco ISE

More information

スライド 1

スライド 1 RL78/G13 周辺機能紹介安全機能 ルネサスエレクトロニクス株式会社 ルネサス半導体トレーニングセンター 2013/08/02 Rev. 0.00 00000-A コンテンツ 安全機能の概要 フラッシュ メモリ CRC 演算機能 RAM パリティ エラー検出機能 データの保護機能 RAM ガード機能 SFR ガード機能 不正メモリ アクセス機能 周辺機能を使用した安全機能 周波数検出機能 A/D

More information

インテル(R) Visual Fortran コンパイラ 10.0

インテル(R) Visual Fortran コンパイラ 10.0 インテル (R) Visual Fortran コンパイラー 10.0 日本語版スペシャル エディション 入門ガイド 目次 概要インテル (R) Visual Fortran コンパイラーの設定はじめに検証用ソースファイル適切なインストールの確認コンパイラーの起動 ( コマンドライン ) コンパイル ( 最適化オプションなし ) 実行 / プログラムの検証コンパイル ( 最適化オプションあり ) 実行

More information

Microsoft PowerPoint - 11Web.pptx

Microsoft PowerPoint - 11Web.pptx 計算機システムの基礎 ( 第 10 回配布 ) 第 7 章 2 節コンピュータの性能の推移 (1) コンピュータの歴史 (2) コンピュータの性能 (3) 集積回路の進歩 (4) アーキテクチャ 第 4 章プロセッサ (1) プロセッサの基本機能 (2) プロセッサの構成回路 (3) コンピュータアーキテクチャ 第 5 章メモリアーキテクチャ 1. コンピュータの世代 計算する機械 解析機関 by

More information

Microsoft PowerPoint - Lec ppt [互換モード]

Microsoft PowerPoint - Lec ppt [互換モード] 0 年後学期 アウトオブオーダ実行プロセッサの構成 計算機アーキテクチャ第二 (O) アウトオブオーダ実行プロセッサとバックエンド フロントエンド 命令ウィンドウ : 命令を格納するバッファ 命令ウィンドウ ALU レジスタファイル ALU スケジューラ等 Register Dispatch 命令フェッチ, デコード, リネーミング バックエンド アウトオブオーダ実行プロセッサの構成 ディスパッチ

More information

6. パイプライン制御

6. パイプライン制御 6. パイプライン制御 パイプライン (Pipelining) 命令のスループットをあげて性能を向上する Program eection order Time (in instrctions) lw $, ($) fetch 2 4 6 8 2 4 6 8 Data access lw $2, 2($) 8 ns fetch Data access lw $3, 3($) Program eection

More information

Operating System 仮想記憶

Operating System 仮想記憶 Operating System 仮想記憶 2018-12 記憶階層 高速 & 小容量 ( 高価 ) レジスタ アクセスタイム 数ナノ秒 容量 ~1KB CPU 内キャッシュ (SRAM) 数ナノ秒 1MB 程度 ランダムアクセス 主記憶 (DRAM) 数十ナノ秒 数 GB 程度 ランダムアクセス フラッシュメモリ (SSD) 約 100 万倍 シーケンシャルアクセス 磁気ディスク (HDD) 数十ミリ秒

More information

< B8CDD8AB B83685D>

< B8CDD8AB B83685D> () 坂井 修一 東京大学大学院情報理工学系研究科電子情報学専攻東京大学工学部電子情報工学科 / 電気電子工学科 はじめに アウトオブオーダ処理 工学部講義 はじめに 本講義の目的 の基本を学ぶ 場所 火曜日 8:40-0:0 工学部 号館 4 ホームページ ( ダウンロード可能 ) url: http://www.mtl.t.u-tokyo.ac.jp/~sakai/hard/ 教科書 坂井修一

More information

命令セットの構成例 a) 算術 演算命令 例 )ADD dest, source : dest dest + source SUB dest, source : dest dest - source AND dest, source : dest dest AND source SHR reg, c

命令セットの構成例 a) 算術 演算命令 例 )ADD dest, source : dest dest + source SUB dest, source : dest dest - source AND dest, source : dest dest AND source SHR reg, c 第 11 回機械語とアーキテクチャ コンピュータは, 記号で組み立てられ, 記号で動く機械 : ソフトウェアソフトウェア としても理解されなければならない ソフトウェアの最も下位レベルのしくみが ( 命令セット ) アーキテクチャ である 講義では命令符号 ( 機械語 ) の構成と種類についてまとめる また, 機械語を効率良く実行するために採用されている技術について紹介する 機械語とアセンブリ言語

More information

スライド 1

スライド 1 東北大学工学部機械知能 航空工学科 2018 年度クラス C3 D1 D2 D3 情報科学基礎 I 10. 組合せ回路 ( 教科書 3.4~3.5 節 ) 大学院情報科学研究科 鏡慎吾 http://www.ic.is.tohoku.ac.jp/~swk/lecture/ 組合せ論理回路 x1 x2 xn 組合せ論理回路 y1 y2 ym y i = f i (x 1, x 2,, x n ), i

More information

Microsoft PowerPoint Quality-sama_Seminar.pptx

Microsoft PowerPoint Quality-sama_Seminar.pptx インテル vpro テクノロジー ~ 革新と継続的な進化 ~ インテル株式会社マーケティング本部 2010 年 11 月 2010年の新プロセッサー: 更なるパフォーマンスを スマート に実現 ユーザーのワークロードに合わせて プロセッサーの周波数を動的に向上 インテル インテル ターボ ブースト テクノロジー* ターボ ブースト テクノロジー* 暗号化処理を高速化 保護する 新しいプロセッサー命令

More information

スライド 1

スライド 1 東北大学工学部機械知能 航空工学科 2016 年度 5 セメスター クラス C3 D1 D2 D3 計算機工学 10. 組合せ回路 ( 教科書 3.4~3.5 節 ) 大学院情報科学研究科 鏡慎吾 http://www.ic.is.tohoku.ac.jp/~swk/lecture/ 組合せ論理回路 x1 x2 xn 組合せ論理回路 y1 y2 ym y i = f i (x 1, x 2,, x

More information

SMG Field Computex 2011 New Category Update

SMG Field Computex 2011 New Category Update Intel Software Developer Day インテル メディア SDK 概要 2011 年 7 月 15 日インテル株式会社ソフトウェア & サービス統括部アプリケーション エンジニア 竹内康人 1 本日の内容 インテル メディア SDK 構成と疑似コード まとめ 2 インテル メディア SDK - 最適化されたソリューション インテル メディア SDK 共通 API を介して インテル

More information

インテル エクステンデッド メモリ 64 テクノロジ ソフトウェア デベロッパーズ ガイド 第 2 巻 ( 全 2 巻 ) リビジョン 1.1 注記 : 本書は 第 1 巻と第 2 巻で構成されています ソフトウェアを設計する際は 第 1 巻と第 2 巻の両方を参照してください

インテル エクステンデッド メモリ 64 テクノロジ ソフトウェア デベロッパーズ ガイド 第 2 巻 ( 全 2 巻 ) リビジョン 1.1 注記 : 本書は 第 1 巻と第 2 巻で構成されています ソフトウェアを設計する際は 第 1 巻と第 2 巻の両方を参照してください インテル エクステンデッド メモリ 64 テクノロジ ソフトウェア デベロッパーズ ガイド 第 2 巻 ( 全 2 巻 ) リビジョン 1.1 注記 : 本書は 第 1 巻と第 2 巻で構成されています ソフトウェアを設計する際は 第 1 巻と第 2 巻の両方を参照してください 300835-002JA 本資料に掲載されている情報は インテル製品の概要を目的としたものです 本資料は 明示されているか否かにかかわらず

More information

スライド 1

スライド 1 東北大学工学部機械知能 航空工学科 2019 年度クラス C D 情報科学基礎 I 6. MIPS の命令と動作 演算 ロード ストア ( 教科書 6.3 節,6.4 節命令一覧は p.113) 大学院情報科学研究科 鏡慎吾 http://www.ic.is.tohoku.ac.jp/~swk/lecture/ レジスタ間の演算命令 (C 言語 ) c = a + b; ( 疑似的な MIPS アセンブリ言語

More information

Oracle Un お問合せ : Oracle Data Integrator 11g: データ統合設定と管理 期間 ( 標準日数 ):5 コースの概要 Oracle Data Integratorは すべてのデータ統合要件 ( 大量の高パフォーマンス バッチ ローブンの統合プロセスおよ

Oracle Un お問合せ : Oracle Data Integrator 11g: データ統合設定と管理 期間 ( 標準日数 ):5 コースの概要 Oracle Data Integratorは すべてのデータ統合要件 ( 大量の高パフォーマンス バッチ ローブンの統合プロセスおよ Oracle Un お問合せ : 0120- Oracle Data Integrator 11g: データ統合設定と管理 期間 ( 標準日数 ):5 コースの概要 Oracle Data Integratorは すべてのデータ統合要件 ( 大量の高パフォーマンス バッチ ローブンの統合プロセスおよびSOA 対応データ サービスへ ) を網羅する総合的なデータ統合プラットフォームです Oracle

More information

Product Brief 高速なコードを素早く開発 インテル Parallel Studio XE 2017 インテル ソフトウェア開発ツール 概要 高速なコード : 現在および次世代のプロセッサーでスケーリングする優れたアプリケーション パフォーマンスを実現します 迅速に開発 : 高速かつ安定し

Product Brief 高速なコードを素早く開発 インテル Parallel Studio XE 2017 インテル ソフトウェア開発ツール 概要 高速なコード : 現在および次世代のプロセッサーでスケーリングする優れたアプリケーション パフォーマンスを実現します 迅速に開発 : 高速かつ安定し Product Brief 高速なコードを素早く開発 インテル Parallel Studio XE 2017 インテル ソフトウェア開発ツール 概要 高速なコード : 現在および次世代のプロセッサーでスケーリングする優れたアプリケーション パフォーマンスを実現します 迅速に開発 : 高速かつ安定した並列コードの作成を簡略化するツールセットです : 最先端のコンパイラー ライブラリー 並列モデル インテル

More information

for (int x = 0; x < X_MAX; x++) { /* これらの 3 つの行は外部ループの自己データと * 合計データの両方にカウントされます */ bar[x * 2] = x * ; bar[(x * 2) - 1] = (x - 1.0) *

for (int x = 0; x < X_MAX; x++) { /* これらの 3 つの行は外部ループの自己データと * 合計データの両方にカウントされます */ bar[x * 2] = x * ; bar[(x * 2) - 1] = (x - 1.0) * コールスタックを利用したルーフライン Alexandra S. (Intel) 2017 年 12 月 1 日公開 この記事は 2017 年 12 月 18 日時点の インテル デベロッパー ゾーンに公開されている Roofline with Callstacks の日本語訳です 注 : この記事の一部のスクリーンショットにはオレンジ色の点が表示されています デフォルト設定では これらの点は赤または黄色になります

More information

ソフトウェア基礎技術研修

ソフトウェア基礎技術研修 算術論理演算ユニットの設計 ( 教科書 4.5 節 ) yi = fi (x, x2, x3,..., xm) (for i n) 基本的な組合せ論理回路 : インバータ,AND ゲート,OR ゲート, y n 組合せ論理回路 ( 復習 ) 組合せ論理回路 : 出力値が入力値のみの関数となっている論理回路. 論理関数 f: {, } m {, } n を実現.( フィードバック ループや記憶回路を含まない

More information

Microsoft PowerPoint - ARC2009HashiguchiSlides.pptx

Microsoft PowerPoint - ARC2009HashiguchiSlides.pptx 3 次元 DRAM プロセッサ積層実装を 対象としたオンチップ メモリ アーキテクチャの提案と評価 橋口慎哉 小野貴継 ( 現 ) 井上弘士 村上和彰 九州大学大学院システム情報科学府 九州大学大学院システム情報科学研究院 発表手順 研究背景 研究目的 ハイブリッド キャッシュ アーキテクチャ 評価実験 まとめと今後の課題 2 3 次元実装技術 研究背景 グローバル配線長の削減 チップ面積縮小 異なるプロセスを経て製造されたダイ同士の積層

More information

インテル アーキテクチャプラットフォーム リーダーシップ 2000 年 12 月 21 日 第 14 回数値流体力学シンポジウム インテル株式会社 ia 技術本部本部長坂野勝美

インテル アーキテクチャプラットフォーム リーダーシップ 2000 年 12 月 21 日 第 14 回数値流体力学シンポジウム インテル株式会社 ia 技術本部本部長坂野勝美 インテル アーキテクチャプラットフォーム リーダーシップ 2000 年 12 月 21 日 第 14 回数値流体力学シンポジウム インテル株式会社 ia 技術本部本部長坂野勝美 インテル アーキテクチャ プロセッサロードマップ 2000 年第 4 四半期 2001 年上半期 サーバ / インテル Pentium III インテル Itanium ワークステーション Xeon プロセッサプロセッサ パフォーマンスインテル

More information

Oracle Real Application Clusters 10g: 第4世代

Oracle Real Application Clusters 10g: 第4世代 Oracle Real Application Clusters 10g: Angelo Pruscino, Oracle Gordon Smith, Oracle Oracle Real Application Clusters RAC 10g Oracle RAC 10g Oracle Database 10g Oracle RAC 10g 4 Oracle Database 10g Oracle

More information

OS

OS Operatig System 仮想記憶 2017-12 記憶階層 高速 & 小容量 ( 高価 ) レジスタ アクセスタイム 数ナノ秒 容量 ~1KB ランダムアクセス ランダムアクセス CPU 内キャッシュ (SRAM) 主記憶 (DRAM) フラッシュメモリ 数ナノ秒 数十ナノ秒 1MB 程度 数 GB 程度 シーケンシャルアクセス 磁気ディスク (HDD) 光磁気ディスク (CD-R DVD-RW

More information

コンピュータ工学Ⅰ

コンピュータ工学Ⅰ コンピュータ工学 Ⅰ Rev. 2018.01.20 コンピュータの基本構成と CPU 内容 ➊ CPUの構成要素 ➋ 命令サイクル ➌ アセンブリ言語 ➍ アドレッシング方式 ➎ CPUの高速化 ➏ CPUの性能評価 コンピュータの構成装置 中央処理装置 (CPU) 主記憶装置から命令を読み込み 実行を行う 主記憶装置 CPU で実行するプログラム ( 命令の集合 ) やデータを記憶する 補助記憶装置

More information

KSforWindowsServerのご紹介

KSforWindowsServerのご紹介 Kaspersky Security for Windows Server のご紹介 ランサムウェアに対抗する アンチクリプター を搭載 株式会社カスペルスキー 製品本部 目次 1. サーバーセキュリティがなぜ重要か? 2. Kaspesky Security for Windows Server の概要 Kaspersky Security for Windows Server の特長 導入の効果

More information

ビッグデータやクラウドのシステム基盤向けに処理性能を強化した「BladeSymphony」および「HA8000シリーズ」の新製品を販売開始

ビッグデータやクラウドのシステム基盤向けに処理性能を強化した「BladeSymphony」および「HA8000シリーズ」の新製品を販売開始 2013 年 9 月 19 日 株式会社日立製作所 ビッグデータやクラウドのシステム基盤向けに処理性能を強化した BladeSymphony および HA8000 シリーズ の新製品を販売開始 運用管理工数の削減を実現するサーバ管理ソフトウェア Hitachi Compute Systems Manager を標準添付 BS520H サーバブレード / PCI 拡張ブレード HA8000/RS220-h

More information

インテル Advisor Python* API を使用したパ フォーマンス向上の考察 この記事は Tech.Decoded に公開されている Gaining Performance Insights Using the Intel Advisor Python* API の日本語参考訳です コード

インテル Advisor Python* API を使用したパ フォーマンス向上の考察 この記事は Tech.Decoded に公開されている Gaining Performance Insights Using the Intel Advisor Python* API の日本語参考訳です コード インテル Advisor Python* API を使用したパ フォーマンス向上の考察 この記事は Tech.Decoded に公開されている Gaining Performance Insights Using the Intel Advisor Python* API の日本語参考訳です コードのチューニング方法を決定する適切なデータの取得 インテルコーポレーション テクニカル コンサルティング

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション コンピュータアーキテクチャ 第 13 週 割込みアーキテクチャ 2013 年 12 月 18 日 金岡晃 授業計画 第 1 週 (9/25) 第 2 週 (10/2) 第 3 週 (10/9) 第 4 週 (10/16) 第 5 週 (10/23) 第 6 週 (10/30) 第 7 週 (11/6) 授業概要 2 進数表現 論理回路の復習 2 進演算 ( 数の表現 ) 演算アーキテクチャ ( 演算アルゴリズムと回路

More information

計算機アーキテクチャ

計算機アーキテクチャ 計算機アーキテクチャ 第 11 回命令実行の流れ 2014 年 6 月 20 日 電気情報工学科 田島孝治 1 授業スケジュール ( 前期 ) 2 回日付タイトル 1 4/7 コンピュータ技術の歴史と コンピュータアーキテクチャ 2 4/14 ノイマン型コンピュータ 3 4/21 コンピュータのハードウェア 4 4/28 数と文字の表現 5 5/12 固定小数点数と浮動小数点表現 6 5/19 計算アーキテクチャ

More information

コンピュータ工学Ⅰ

コンピュータ工学Ⅰ コンピュータ工学 Ⅰ 中央処理装置 Rev. 2019.01.16 コンピュータの基本構成と CPU 内容 ➊ CPUの構成要素 ➋ 命令サイクル ➌ アセンブリ言語 ➍ アドレッシング方式 ➎ CPUの高速化 ➏ CPUの性能評価 コンピュータの構成装置 中央処理装置 (CPU) 主記憶装置から命令を読み込み 実行を行う 主記憶装置 CPU で実行するプログラム ( 命令の集合 ) やデータを記憶する

More information

Oracle Data Pumpのパラレル機能

Oracle Data Pumpのパラレル機能 Oracle Data Pump のパラレル機能 Carol Palmer オラクル社 Principal Product Manager はじめに Oracle Database 10g 上の Oracle Data Pump により 異なるデータベース間のデータとメタデータを高速で移動できます Data Pump の最も便利な機能の 1 つは エクスポート ジョブとインポート ジョブをパラレルに実行しパフォーマンスを高める機能です

More information

PowerPoint Presentation

PowerPoint Presentation インテル ソフトウェア開発製品によるソースコードの近代化 エクセルソフト株式会社黒澤一平 ソースコードの近代化 インテル Xeon Phi プロセッサーや 将来のインテル Xeon プロセッサー上での実行に向けた準備と適用 インテル ソフトウェア製品 名称インテル Composer XE for Fortran and C++ インテル VTune Amplifier XE インテル Advisor

More information

ホワイト ペーパー EMC VFCache により Microsoft SQL Server を高速化 EMC VFCache EMC VNX Microsoft SQL Server 2008 VFCache による SQL Server のパフォーマンスの大幅な向上 VNX によるデータ保護 E

ホワイト ペーパー EMC VFCache により Microsoft SQL Server を高速化 EMC VFCache EMC VNX Microsoft SQL Server 2008 VFCache による SQL Server のパフォーマンスの大幅な向上 VNX によるデータ保護 E ホワイト ペーパー VFCache による SQL Server のパフォーマンスの大幅な向上 VNX によるデータ保護 EMC ソリューション グループ 要約 このホワイト ペーパーでは EMC VFCache と EMC VNX を組み合わせて Microsoft SQL Server 2008 環境での OLTP( オンライン トランザクション処理 ) のパフォーマンスを改善する方法について説明します

More information

Silk Central Connect 15.5 リリースノート

Silk Central Connect 15.5 リリースノート Silk Central Connect 15.5 リリースノート Micro Focus 575 Anton Blvd., Suite 510 Costa Mesa, CA 92626 Copyright Micro Focus 2014. All rights reserved. Silk Central Connect は Borland Software Corporation に由来する成果物を含んでいます,

More information

Using VectorCAST/C++ with Test Driven Development

Using VectorCAST/C++ with Test Driven Development ホワイトペーパー V2.0 2018-01 目次 1 はじめに...3 2 従来型のソフトウェア開発...3 3 テスト主導型開発...4 4...5 5 TDD を可能にするテストオートメーションツールの主要機能...5 5.1 テストケースとソースコード間のトレーサビリティー...5 5.2 テストケースと要件間のトレーサビリティー...6 6 テスト主導型開発の例...7 2 1 はじめに 本書では

More information

TFTP serverの実装

TFTP serverの実装 TFTP サーバーの実装 デジタルビジョンソリューション 佐藤史明 1 1 プレゼンのテーマ組み込みソフトのファイル転送を容易に 2 3 4 5 基礎知識 TFTP とは 実践 1 実際に作ってみよう 実践 2 組み込みソフトでの実装案 最後におさらい 2 プレゼンのテーマ 組み込みソフトのファイル転送を容易に テーマ選択の理由 現在従事しているプロジェクトで お客様からファームウェアなどのファイル転送を独自方式からTFTPに変更したいと要望があった

More information

製品概要新しい X シリーズ ファミリー X シリーズ ファミリーあらゆるエンスージアストが満足するパフォーマンスがここにあります 新しい X シリーズ ファミリーは 4 コアから 18 コアまでのオプションによりお客様のパフォーマンス要求に合わせて究極のパフォーマンスを発揮し 最新テクノロジーの進

製品概要新しい X シリーズ ファミリー X シリーズ ファミリーあらゆるエンスージアストが満足するパフォーマンスがここにあります 新しい X シリーズ ファミリーは 4 コアから 18 コアまでのオプションによりお客様のパフォーマンス要求に合わせて究極のパフォーマンスを発揮し 最新テクノロジーの進 製品概要新しい X シリーズ ファミリー 新しい X シリーズ ファミリーの紹介 類を見ないスケーラビリティーを誇る究極のプラットフォーム i9 エクストリーム エディション パフォーマンスを未体験の領域へと引き上げる 新次元のデスクトップ向け エクストリーム が登場しました この 18 コア / 36 スレッドに よる処理が可能なは 最新版のインテル ターボ ブースト テクノロジー 3.0 を使用して極限レベルのシングル

More information

Microsoft PowerPoint - OS12.pptx

Microsoft PowerPoint - OS12.pptx 主記憶と 次記憶 オペレーティングシステム 第 回仮想記憶管理 () htt://www.info.kindai.ac.j/os 8 号館 階 N- 内線 559 takasi-i@info.kindai.ac.j プロセッサ 主記憶 プログラム データ 次記憶 プログラム データ -7 秒 倍 - 秒 プロセッサは 次記憶を直接読むことはできない 使用するプログラム, データは主記憶上にコピー メモリ管理技法

More information

VXPRO R1400® ご提案資料

VXPRO R1400® ご提案資料 Intel Core i7 プロセッサ 920 Preliminary Performance Report ノード性能評価 ノード性能の評価 NAS Parallel Benchmark Class B OpenMP 版での性能評価 実行スレッド数を 4 で固定 ( デュアルソケットでは各プロセッサに 2 スレッド ) 全て 2.66GHz のコアとなるため コアあたりのピーク性能は同じ 評価システム

More information

適応フィルタのSIMD最適化

適応フィルタのSIMD最適化 茂木和洋 @ まるも製作所 今回は省略 初めての方は #1 の資料を参照 適応フィルタとは 適応フィルタの問題点 ( 速度面で ) SIMD 比較命令でマスク処理 ベンチマーク 固定のフィルタではなく 入力値によって処理を変更し 最適な結果を求める 例 基準値との差異を閾値と比較して 参照画素として使うか使わないかを切り替える 最小自乗法でフィッティングしてフィルタ係数自体を動的に作成する 他いろいろ

More information

ピクセル同期を利用した順不同半透明描画 (更新)

ピクセル同期を利用した順不同半透明描画 (更新) ピクセル同期を利用した順不同半透明描画 ( 更新 ) この記事は インテル デベロッパー ゾーンに公開されている Order-Independent Transparency Approximation with Pixel Synchronization (Update 2014) の日本語参考訳です サンプルコードのダウンロード DirectX* SDK (June 2010) への依存性を排除し

More information

情報解禁 時 :10 月 19 ( )22:00 以降 株式会社マウスコンピューター News Release 8 コア /16 スレッド駆動のインテル第 9 世代 CPU とハイエンドグラフィックス搭載パソコンをゲーミングパソコンブランド G-Tune から販売 10 月 22 日 ( 月 )10

情報解禁 時 :10 月 19 ( )22:00 以降 株式会社マウスコンピューター News Release 8 コア /16 スレッド駆動のインテル第 9 世代 CPU とハイエンドグラフィックス搭載パソコンをゲーミングパソコンブランド G-Tune から販売 10 月 22 日 ( 月 )10 情報解禁 時 :10 月 19 ( )22:00 以降 株式会社マウスコンピューター News Release 8 コア /16 スレッド駆動のインテル第 9 世代 CPU とハイエンドグラフィックス搭載パソコンをゲーミングパソコンブランド G-Tune から販売 10 月 22 日 ( 月 )10:00 より WEB で販売開始 MASTERPIECE i1640pa2-sp2 画像はイメージです

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション コンピュータアーキテクチャ 第 7 週命令セットアーキテクチャ ( 命令の表現 命令の実行の仕組 ) 2013 年 11 月 6 日 金岡晃 授業計画 第 1 週 (9/25) 第 2 週 (10/2) 第 3 週 (10/9) 第 4 週 (10/16) 第 5 週 (10/23) 第 6 週 (10/30) 第 7 週 (11/6) 授業概要 2 進数表現 論理回路の復習 2 進演算 ( 数の表現

More information

Microsoft PowerPoint - Sol7 [Compatibility Mode]

Microsoft PowerPoint - Sol7 [Compatibility Mode] ミニクイズ 4 E ハザード ( つ前の命令の結果を必要とする状況 ) が発生する条件を つ挙げよ. また それぞれの時に 制御線 ForwardA, ForwardB はどのように設定すれば良いか? ( 回答 ) E/.RegWrite= かつ E/.RegisterRd = ID/.RegisterRs この時,ForwardA = と制御すれば良い. E/.RegWrite= かつ E/.RegisterRd

More information

arduino プログラミング課題集 ( Ver /06/01 ) arduino と各種ボードを組み合わせ 制御するためのプログラミングを学 ぼう! 1 入出力ポートの設定と利用方法 (1) 制御( コントロール ) する とは 外部装置( ペリフェラル ) が必要とする信号をマイ

arduino プログラミング課題集 ( Ver /06/01 ) arduino と各種ボードを組み合わせ 制御するためのプログラミングを学 ぼう! 1 入出力ポートの設定と利用方法 (1) 制御( コントロール ) する とは 外部装置( ペリフェラル ) が必要とする信号をマイ arduino プログラミング課題集 ( Ver.5.0 2017/06/01 ) arduino と各種ボードを組み合わせ 制御するためのプログラミングを学 ぼう! 1 入出力ポートの設定と利用方法 (1) 制御( コントロール ) する とは 外部装置( ペリフェラル ) が必要とする信号をマイコンから伝える 外部装置の状態をマイコンで確認する 信号の授受は 入出力ポート 経由で行う (2) 入出力ポートとは?

More information

( 作成方法 ) 1 メーカーの取扱説明書に記載されている 2 PC 購入店で作成してもらう (PC デポで6000 円 ) 3 リカバリー作成ソフトがインストールされている ⑵ PC 丸ごと ( システムイメージ ) のバックアップ バックアップ方法 注 4 USB 接続の外付け HDD を使用

( 作成方法 ) 1 メーカーの取扱説明書に記載されている 2 PC 購入店で作成してもらう (PC デポで6000 円 ) 3 リカバリー作成ソフトがインストールされている ⑵ PC 丸ごと ( システムイメージ ) のバックアップ バックアップ方法 注 4 USB 接続の外付け HDD を使用 デュアルブートについて 2017 年 4 月 16 日 高田宗臣 1. デュアルブートの意味 1 台の PC で 2 つの OS を選択的に使用できる 複数の OS を組み込んでいれば マルチブート 2. デュアルブート (Windows7と10) の目的 ⑴ Windows7でテレビを見たいが 10も手に入れたい Windows10にしてしまうと テレビを見ることのできる WindowsMediaCenter

More information

12 PowerEdge PowerEdge Xeon E PowerEdge 11 PowerEdge DIMM Xeon E PowerEdge DIMM DIMM 756GB 12 PowerEdge Xeon E5-

12 PowerEdge PowerEdge Xeon E PowerEdge 11 PowerEdge DIMM Xeon E PowerEdge DIMM DIMM 756GB 12 PowerEdge Xeon E5- 12ways-12th Generation PowerEdge Servers improve your IT experience 12 PowerEdge 12 1 6 2 GPU 8 4 PERC RAID I/O Cachecade I/O 5 Dell Express Flash PCIe SSD 6 7 OS 8 85.5% 9 Dell OpenManage PowerCenter

More information

スイッチ ファブリック

スイッチ ファブリック CHAPTER 4 この章では Cisco CRS-1 キャリアルーティングシステムのについて説明します この章の内容は 次のとおりです の概要 の動作 HS123 カード 4-1 の概要 の概要 は Cisco CRS-1 の中核部分です はルーティングシステム内の MSC( および関連する PLIM) と他の MSC( および関連する PLIM) を相互接続し MSC 間の通信を可能にします は

More information

スライド 1

スライド 1 RL78/G13 周辺機能紹介 ADC A/D コンバータ ルネサスエレクトロニクス株式会社 ルネサス半導体トレーニングセンター 2013/08/02 Rev. 0.00 00000-A コンテンツ ADC の概要 ソフトウエア トリガ セレクト モード 連続変換モードのプログラム サンプル紹介 2 ADC の概要 3 ADC のブロック図 パワー オフが可能 入力 選択 記憶 比較 基準電圧 変換結果

More information

Microsoft PowerPoint - 7.Arithmetic.ppt

Microsoft PowerPoint - 7.Arithmetic.ppt 第 7 章デジタル演算回路 1 デジタル信号処理音声, 音楽, 通信信号 信号 = 符号付き 2 進データ 負の数値の表現方法 2 2 進数 n ビット n-1 =Σb i 2 i 0 2 の補数 +=2 n n-1 n-1 2 n =1+Σb i 2 i +Σb i 2 i 0 0 n-1 =2 n ー =1+Σb i 2 i 0 3 2 進数の補数 2 の補数 各桁のビットを反転した後で最下位に

More information

インテル® Parallel Studio XE 2013 Windows* 版インストール・ガイドおよびリリースノート

インテル® Parallel Studio XE 2013 Windows* 版インストール・ガイドおよびリリースノート インテル Parallel Studio XE 2013 Windows* 版インストール ガイドおよびリリースノート 資料番号 : 323803-003JA 2012 年 8 月 8 日 目次 1 概要... 2 1.1 新機能... 2 1.1.1 インテル Parallel Studio XE 2011 からの変更点... 2 1.2 製品の内容... 2 1.3 動作環境... 2 1.4

More information

Microsoft PowerPoint - os ppt [互換モード]

Microsoft PowerPoint - os ppt [互換モード] 5. メモリ管理 (2) 概要ページ管理 式ページ置換アルゴリズム 28/5/23 メモリ管理 (2) 1 ページング ( 復習 ) 仮想アドレス空間, 主記憶 ( 実アドレス空間 ) を固定サイズのページに分割 仮想アドレス空間のページを主記憶 ( メモリ ) のページに対応させる ページテーブル ( 変換表 ) を実メモリ上に保持 ページを単位としたアドレス変換 ( 仮想ページ番号, オフセット

More information

インテル® Parallel Studio XE 2013 Linux* 版インストール・ガイドおよびリリースノート

インテル® Parallel Studio XE 2013 Linux* 版インストール・ガイドおよびリリースノート インテル Parallel Studio XE 2013 Linux* 版インストール ガイドおよびリリースノート 資料番号 : 323804-003JA 2012 年 7 月 30 日 目次 1 概要... 2 1.1 新機能... 2 1.1.1 インテル Parallel Studio XE 2011 からの変更点... 2 1.2 製品の内容... 2 1.3 動作環境... 2 1.4 ドキュメント...

More information

バトルカードでゲーマーやエンスージアストへの販売促進

バトルカードでゲーマーやエンスージアストへの販売促進 究極のメガタスク 4K ビデオの編集 3D 効果のレンダリング サウンドトラックの作曲を システム パフォーマンスを低下させずに同時に実行 4K ビデオの編集を 最大 2.4 倍 ビデオのトランスコードを 最大 高速化¹ Adobe* Premiere* Pro CC と インテル Core i7-7700k で比較 2.3 倍 高速化² - Handbrake* を使用し インテル Core i7-7700k

More information

RH850の割り込み/例外実現方法 CC-RHアプリケーションガイド

RH850の割り込み/例外実現方法 CC-RHアプリケーションガイド RH850の割り込み / 例外実現方法 CC-RH アプリケーションガイド R20UT3546JJ0101 2018.10.12 ソフトウェア開発統括部 ソフトウェア技術部ルネサスエレクトロニクス株式会社 アジェンダ 概要ページ 03 割り込み / 例外発生時に実行する関数の定義ページ 10 直接ベクタ方式のベクタの定義ページ 17 テーブル参照方式のベクタの定義ページ 25 その他 割り込み制御ページ

More information

Jackson Marusarz 開発製品部門

Jackson Marusarz 開発製品部門 Jackson Marusarz 開発製品部門 内容 インテル TBB の概要 ヘテロジニアスの課題とそれらに対応するための概念 課題に対応するためのインテル TBB の進化 2 インテル TBB threadingbuildingblocks.org 汎用並列アルゴリズム ゼロから始めることなく マルチコアの能力を活かす効率的でスケーラブルな方法を提供 フローグラフ 並列処理を計算の依存性やデータフロー

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション 高性能計算基盤 第 7 回 CA1003: 主記憶共有型システム http://arch.naist.jp/htdocs-arch3/ppt/ca1003/ca1003j.pdf Copyright 2019 奈良先端大中島康彦 1 2 3 4 マルチスレッディングとマルチコア 5 6 7 主記憶空間の数が 複数 か 1 つ か 8 ただしプログラムは容易 9 1 つの主記憶空間を共有する場合 10

More information

Microsoft PowerPoint - ICD2011TakadaSlides.pptx

Microsoft PowerPoint - ICD2011TakadaSlides.pptx キャッシュウェイ割り当てと コード配置の同時最適化による メモリアクセスエネルギーの削減 九州大学 高田純司井上弘士京都大学石原亨 2012/8/9 1 目次 研究背景 組込みプロセッサにおけるエネルギー削減の必要性 キャッシュウェイ割り当て 提案手法 キャッシュウェイ割り当てとコード配置の組み合わせ 同時最適化 評価実験 まとめ 2012/8/9 2 組込みプロセッサの課題 研究背景 低消費エネルギー化,

More information

Microsoft PowerPoint - OS11.pptx

Microsoft PowerPoint - OS11.pptx この資料は 情報工学レクチャーシリーズ松尾啓志著 ( 森北出版株式会社 ) を用いて授業を行うために 名古屋工業大学松尾啓志 津邑公暁が作成しました パワーポイント 27 で最終版として保存しているため 変更はできませんが 授業でお使いなる場合は松尾 (matsuo@nitech.ac.jp) まで連絡いただければ 編集可能なバージョンをお渡しする事も可能です 主記憶管理 : 仮想記憶 復習 : 主記憶管理

More information

スライド 1

スライド 1 NetApp 2009 年 9 月 新製品情報 スライド内で 予定 となっている情報は未確定情報のため 参考としてください 2009/09/15 マーケティング 1 部 SBG NetApp 担当 目次 1. FAS2040 ~NEW ストレージ筐体 ~ 2. DS4243 ~NEW ディスクシェルフ ~ 3. PAMⅡ ~NEW パフォーマンス UP 用モジュール ~ 2 1. FAS2040 2009

More information

1 つのツールを実行するだけで違いが出るのでしょうか? はい 多くの場合 複雑なバグを発見して アプリケーションの安定性を向上させることができます このガイドでは インテル Inspector XE 解析ツールを使用して コードの問題を排除する方法を説明します これにより コードの信頼性が向上し 開

1 つのツールを実行するだけで違いが出るのでしょうか? はい 多くの場合 複雑なバグを発見して アプリケーションの安定性を向上させることができます このガイドでは インテル Inspector XE 解析ツールを使用して コードの問題を排除する方法を説明します これにより コードの信頼性が向上し 開 インテル Parallel Studio 評価ガイド メモリーエラーの排除と プログラムの安定性の向上 インテル Parallel Studio XE 1 つのツールを実行するだけで違いが出るのでしょうか? はい 多くの場合 複雑なバグを発見して アプリケーションの安定性を向上させることができます このガイドでは インテル Inspector XE 解析ツールを使用して コードの問題を排除する方法を説明します

More information

Microsoft Word - Dolphin Expressによる10Gbpソケット通信.docx

Microsoft Word - Dolphin Expressによる10Gbpソケット通信.docx Dolphin Express による 10Gbps ソケット通信 Dolphin Express は 標準的な低価格のサーバを用いて 強力なクラスタリングシステムが構築できる ハードウェアとソフトウェアによる通信用アーキテクチャです 本資料では Dolphin Express 製品の概要と 実際にどの程度の性能が出るのか市販 PC での実験結果をご紹介します Dolphin Express 製品体系

More information

インテル® Fortran Studio XE 2011 SP1 Windows* 版インストール・ガイドおよびリリースノート

インテル® Fortran Studio XE 2011 SP1 Windows* 版インストール・ガイドおよびリリースノート インテル Fortran Studio XE 2011 SP1 Windows* 版インストール ガイドおよびリリースノート 資料番号 : 325583-001JA 2011 年 8 月 5 日 目次 1 概要... 1 1.1 新機能... 2 1.2 製品の内容... 2 1.3 動作環境... 2 1.3.1 Microsoft* Visual Studio* 2005 のサポート終了予定...

More information

Microsoft Word - DS50-N A.doc

Microsoft Word - DS50-N A.doc BIOS マニュアル BIOS セットアップユーティリティとは BIOS セットアップユーティリティとは BIOS の設定を確認 変更するためのツールです セットアップユーティリティは 本体に内蔵されているマザーボード上のフラッシュメモリーに格納されています このユーティリティで定義される設定情報は CMOS RAM と呼ばれる特殊な領域に格納されます この設定情報は マザーボードに搭載されているバックアップ電池により保存され

More information

Microsoft Word - J_01_02.doc

Microsoft Word - J_01_02.doc 4. 使用機器 / 設定上のテクニック DVTS を使用して遠隔会議を行う方法について説明します (1) 基本システム構成 DVTSでの遠隔会議は 表 4-1に示すように たいへん単純な機器構成で行うことができます 表 4-1 基本構成における必要機器機器名称外観特徴 要件 デジタルビデオカメラ - IEEE1394 インターフェース (FireWire, i.linkという名称の端子でも可能 )

More information

共通マイクロアーキテクチャ 富士通はプロセッサー設計に共通マイクロアーキテクチャを導入し メインフレーム UNIX サーバーおよびスーパーコンピューターそれぞれの要件を満たすプロセッサーの継続的かつ効率的な開発を容易にしている また この取り組みにより それぞれの固有要件を共通機能として取り込むこと

共通マイクロアーキテクチャ 富士通はプロセッサー設計に共通マイクロアーキテクチャを導入し メインフレーム UNIX サーバーおよびスーパーコンピューターそれぞれの要件を満たすプロセッサーの継続的かつ効率的な開発を容易にしている また この取り組みにより それぞれの固有要件を共通機能として取り込むこと IDC ホワイトペーパー : メインフレーム UNIX サーバー スーパーコンピューターを統合開発 : 共通マイクロプロセッサーアーキテクチャ 共通マイクロアーキテクチャ 富士通はプロセッサー設計に共通マイクロアーキテクチャを導入し メインフレーム UNIX サーバーおよびスーパーコンピューターそれぞれの要件を満たすプロセッサーの継続的かつ効率的な開発を容易にしている また この取り組みにより それぞれの固有要件を共通機能として取り込むことを可能としている

More information

Microsoft PowerPoint - NxLecture ppt [互換モード]

Microsoft PowerPoint - NxLecture ppt [互換モード] 011-05-19 011 年前学期 TOKYO TECH 命令処理のための基本的な 5 つのステップ 計算機アーキテクチャ第一 (E) 5. プロセッサの動作原理と議論 吉瀬謙二計算工学専攻 kise_at_cs.titech.ac.jp W61 講義室木曜日 13:0-1:50 IF(Instruction Fetch) メモリから命令をフェッチする. ID(Instruction Decode)

More information

ex04_2012.ppt

ex04_2012.ppt 2012 年度計算機システム演習第 4 回 2012.05.07 第 2 回課題の補足 } TSUBAMEへのログイン } TSUBAMEは学内からのログインはパスワードで可能 } } } } しかし 演習室ではパスワードでログインできない設定 } 公開鍵認証でログイン 公開鍵, 秘密鍵の生成 } ターミナルを開く } $ ssh-keygen } Enter file in which to save

More information

Exam : 日本語版 Title : Enterprise Storage Sales V3 Vendor : IBM Version : DEMO 1 / 5 Get Latest & Valid J Exam's Question and Answers from

Exam : 日本語版 Title : Enterprise Storage Sales V3 Vendor : IBM Version : DEMO 1 / 5 Get Latest & Valid J Exam's Question and Answers from Topexam 一番権威的な IT 認定試験ウェブサイト http://www.topexam.jp 最も新たな国際 IT 認定試験問題集 Exam : 000-959 日本語版 Title : Enterprise Storage Sales V3 Vendor : IBM Version : DEMO 1 / 5 Get Latest & Valid 000-959J Exam's Question

More information

Microsoft PowerPoint - t-kubo07PN-LAMBDA-slide.ppt

Microsoft PowerPoint - t-kubo07PN-LAMBDA-slide.ppt リングネットワークにおける λコンピューティング環境に適した共有メモリアーキテクチャの設計と設計と評価 大阪大学大学院情報科学研究科大学院情報科学研究科村田研究室久保貴司 発表内容 研究の背景と目的 λコンピューティング環境 共有メモリアーキテクチャの設計と評価 設計 トポロジ メモリアクセスモデル キャッシュとメモリの一貫性制御 モデル化と解析 評価 まとめ 2007/6/14 PN 研究会 1

More information

インテル® Parallel Studio XE 2015 Composer Edition for Linux* インストール・ガイドおよびリリースノート

インテル® Parallel Studio XE 2015 Composer Edition for Linux* インストール・ガイドおよびリリースノート インテル Parallel Studio XE 2015 Composer Edition for Linux* インストール ガイドおよびリリースノート 2014 年 10 月 14 日 目次 1 概要... 1 1.1 製品の内容... 2 1.2 インテル デバッガー (IDB) を削除... 2 1.3 動作環境... 2 1.3.1 SuSE Enterprise Linux 10* のサポートを終了...

More information

BIOSセットアップメニュー 一覧

BIOSセットアップメニュー 一覧 B6FH-A613-01 Z0-00 STYLISTIC Q572/G BIOS セットアップメニュー一覧 その他の各製品名は 各社の商標 または登録商標です その他の各製品は 各社の著作物です その他のすべての商標は それぞれの所有者に帰属します Copyright FUJITSU LIMITED 2013 BIOS セットアップメニュー詳細 BIOS セットアップのメニューについて説明しています

More information

ヤマハDante機器と他社AES67機器の接続ガイド

ヤマハDante機器と他社AES67機器の接続ガイド はじめに AES67 は 高性能なデジタル IP ネットワークの相互接続を実現するための標準規格です AES67 は や Ravenna Q-LAN Livewire WheatNet などの異なるネットワーク規格で構築されたシステム間で オーディオ信号を送受信する手段を提供します ヤマハも 機器のアップデートにより順次 AES67 への対応を開始し 第一弾としてデジタルミキシングコンソール CL/QL

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション vsmp Foundation スケーラブル SMP システム スケーラブル SMP システム 製品コンセプト 2U サイズの 8 ソケット SMP サーバ コンパクトな筐体に多くのコアとメモリを実装し SMP システムとして利用可能 スイッチなし構成でのシステム構築によりラックスペースを無駄にしない構成 将来的な拡張性を保証 8 ソケット以上への拡張も可能 2 システム構成例 ベースシステム 2U

More information

24th Embarcadero Developer Camp

24th Embarcadero Developer Camp 17 Th Developer Camp B4 Delphi/C++Builder テクニカルワークショップ Delphi / C++Builder 旧バージョンアプリケーションの移行 エンバカデロ テクノロジーズサポートチーム with 高橋智宏 1 17 Th Developer Camp Delphi Q1 2 midas.dll Q. 別々のバージョンで作成したデータベースアプリケーションがあります

More information

(速報) Xeon E 系モデル 新プロセッサ性能について

(速報) Xeon E 系モデル 新プロセッサ性能について ( 速報 ) Xeon E5-2600 系モデル新プロセッサ性能について 2012 年 3 月 16 日 富士通株式会社 2012 年 3 月 7 日 インテル社より最新 CPU インテル Xeon E5 ファミリー の発表がありました この最新 CPU について PC クラスタシステムの観点から性能検証を行いましたので 概要を速報いたします プロセッサインテル Xeon プロセッサ E5-2690

More information

Transitioning from Microsoft® Exchange Server 2003 to Exchange Server 2007 while using HP StorageWorks All-in-One Storage System for storage

Transitioning from Microsoft® Exchange Server 2003 to Exchange Server 2007 while using HP StorageWorks  All-in-One Storage System for storage ストレージに HP Storage Works All-in-One Storage System を使用しながらの Microsoft Exchange Server 2003 から Exchange Server 2007 への移行 はじめに... 2 対象読者... 2 概要... 3 移行オプション... 3 パブリック フォルダとExchange Server 2007... 4 移行プロセス...

More information

BIOSセットアップメニュー 一覧

BIOSセットアップメニュー 一覧 B6FH-A615-01 Z0-00 LIFEBOOK A573/G LIFEBOOK A573/GW BIOS セットアップメニュー一覧 インテル Intel および Intel SpeedStep は アメリカ合衆国およびその他の国における Intel Corporation またはその子会社の商標または登録商標です その他の各製品名は 各社の商標 または登録商標です その他の各製品は 各社の著作物です

More information

-2 外からみたプロセッサ GND VCC CLK A0 A1 A2 A3 A4 A A6 A7 A8 A9 A10 A11 A12 A13 A14 A1 A16 A17 A18 A19 D0 D1 D2 D3 D4 D D6 D7 D8 D9 D10 D11 D12 D13 D14 D1 MEMR

-2 外からみたプロセッサ GND VCC CLK A0 A1 A2 A3 A4 A A6 A7 A8 A9 A10 A11 A12 A13 A14 A1 A16 A17 A18 A19 D0 D1 D2 D3 D4 D D6 D7 D8 D9 D10 D11 D12 D13 D14 D1 MEMR 第 回マイクロプロセッサのしくみ マイクロプロセッサの基本的なしくみについて解説する. -1 マイクロプロセッサと周辺回路の接続 制御バス プロセッサ データ バス アドレス バス メモリ 周辺インタフェース バスの基本構成 Fig.-1 バスによる相互接続は, 現在のコンピュータシステムのハードウェアを特徴づけている. バス (Bus): 複数のユニットで共有される信号線システム内の データの通り道

More information

スライド 1

スライド 1 RL78/G13 周辺機能紹介 SAU シリアル アレイ ユニット ルネサスエレクトロニクス株式会社 ルネサス半導体トレーニングセンター 2013/08/02 Rev. 0.00 00000-A コンテンツ SAU の概要 UART 通信機能のプログラム サンプル紹介 2 SAU の概要 3 SAU の機能 クロック同期式調歩同期式マスタ動作のみ チャネル 0: 送信チャネル 1: 受信 4 UART

More information

データ移行ツール ユーザーガイド Data Migration Tool User Guide SK kynix Inc Rev 1.01

データ移行ツール ユーザーガイド Data Migration Tool User Guide SK kynix Inc Rev 1.01 データ移行ツール ユーザーガイド Data Migration Tool User Guide SK kynix Inc. 2014 Rev 1.01 1 免責事項 SK hynix INC は 同社の製品 情報および仕様を予告なしに変更できる権利を有しています 本資料で提示する製品および仕様は参考情報として提供しています 本資料の情報は 現状のまま 提供されるものであり 如何なる保証も行いません

More information

Microsoft PowerPoint - Chap5 [Compatibility Mode]

Microsoft PowerPoint - Chap5 [Compatibility Mode] 計算機構成論 (Chap. 5) @C306 http://www.ngc.is.ritsumei.ac.jp/~ger/lectures/comparch2012/index.html (user=ganbare, passwd = 初回の講義で言いました ) 講義に出るなら 分からないなら質問しよう 単位を取りたいなら 章末問題は自分で全部といておこう ( レポートと考えればいいんです!) ご意見

More information

今週の進捗

今週の進捗 Virtualize APIC access による APIC フック手法 立命館大学富田崇詠, 明田修平, 瀧本栄二, 毛利公一 2016/11/30 1 はじめに (1/2) マルウェアの脅威が問題となっている 2015年に4 億 3000 万以上の検体が新たに発見されている マルウェア対策にはマルウェアが持つ機能 挙動の正確な解析が重要 マルウェア動的解析システム : Alkanet 仮想計算機モニタのBitVisorの拡張機能として動作

More information

Microsoft PowerPoint - 3.3タイミング制御.pptx

Microsoft PowerPoint - 3.3タイミング制御.pptx 3.3 タイミング制御 ハザードの回避 同期式回路と非同期式回路 1. 同期式回路 : 回路全体で共通なクロックに合わせてデータの受け渡しをする 通信における例 :I 2 C(1 対 N 通信 ) 2. 非同期式回路 : 同一のクロックを使用せず データを受け渡す回路間の制御信号を用いてデータの受け渡しをす 通信における例 :UART(1 対 1 通信 ) 2 3.3.1 ハザード 3 1 出力回路のハザード

More information

目次 : 目次 : 検証の目的 検証 検証及び結果 基本動作確認 性能評価 検証まとめ 検証結果早見表 お問い合わせ先

目次 : 目次 : 検証の目的 検証 検証及び結果 基本動作確認 性能評価 検証まとめ 検証結果早見表 お問い合わせ先 NEC 製 PC サーバ Express5800 R120f-1M と SanDisk iomemory SX300-1300/3200 検証報告書 Windows Server 2012 R2 Standard 2015/03/16 文書名称 NEC 製 PC サーバ Express5800 R120 f-1m と SanDis k iomem ory-sx30-1300/320 0 文書番号 CC-7160-15001-01

More information

本文ALL.indd

本文ALL.indd Intel Xeon プロセッサにおける Cache Coherency 時間の性能測定方法河辺峻田口成美古谷英祐 Intel Xeon プロセッサにおける Cache Coherency 時間の性能測定方法 Performance Measurement Method of Cache Coherency Effects on an Intel Xeon Processor System 河辺峻田口成美古谷英祐

More information

はじめに Dell PowerVault DL2000 Powered by Symantec Backup Exec は シンプルで管理しやすいデータ保護機能を提供する 柔軟かつ経済的なバックアップソリューションです 本ホワイトペーパーでは PowerVault DL2000 の バリューシリーズ

はじめに Dell PowerVault DL2000 Powered by Symantec Backup Exec は シンプルで管理しやすいデータ保護機能を提供する 柔軟かつ経済的なバックアップソリューションです 本ホワイトペーパーでは PowerVault DL2000 の バリューシリーズ Dell PowerVault DL2000 のバックアップ性能 デルテクニカルホワイトペーパー Dell PowerVault DL2000 Powered By Symantec 作成 : Muffadal Quettawala Scott Reichmanis はじめに Dell PowerVault DL2000 Powered by Symantec Backup Exec は シンプルで管理しやすいデータ保護機能を提供する

More information

Microsoft PowerPoint - sales2.ppt

Microsoft PowerPoint - sales2.ppt 最適化とは何? CPU アーキテクチャに沿った形で最適な性能を抽出できるようにする技法 ( 性能向上技法 ) コンパイラによるプログラム最適化 コンパイラメーカの技量 経験量に依存 最適化ツールによるプログラム最適化 KAP (Kuck & Associates, Inc. ) 人によるプログラム最適化 アーキテクチャのボトルネックを知ること 3 使用コンパイラによる性能の違い MFLOPS 90

More information

提案書

提案書 アクセスログ解析ソフト Angelfish インストールについて Windows 版 2018 年 05 月 07 日 ( 月 ) 有限会社インターログ TEL: 042-354-9620 / FAX: 042-354-9621 URL: http://www.interlog.co.jp/ はじめに Angelfish のインストールに手順について説明致します 詳細は US のヘルプサイトを参照してください

More information

スライド 1

スライド 1 東北大学工学部機械知能 航空工学科 2019 年度クラス C D 情報科学基礎 I 14. さらに勉強するために 大学院情報科学研究科 鏡慎吾 http://www.ic.is.tohoku.ac.jp/~swk/lecture/ 0 と 1 の世界 これまで何を学んだか 2 進数, 算術演算, 論理演算 計算機はどのように動くのか プロセッサとメモリ 演算命令, ロード ストア命令, 分岐命令 計算機はどのように構成されているのか

More information