2.1 インテル マイクロアーキテクチャー Haswell インテル マイクロアーキテクチャー Haswell は インテル マイクロアーキテクチャー Sandy Bridge とインテル マイクロアーキテクチャー Ivy Bridge の成功を受けて開発された この新しいマイクロアーキテクチャーの

Similar documents
Click to edit title

Microsoft* Windows* 10 における新しい命令セットの利用

Microsoft PowerPoint Quality-sama_Seminar.pptx

第 2 世代インテル® Xeon® スケーラブル・プロセッサー向けインテル® VTune™ Amplifier チューニング・ガイド

SMG Field Computex 2011 New Category Update

インテル アーキテクチャプラットフォーム リーダーシップ 2000 年 12 月 21 日 第 14 回数値流体力学シンポジウム インテル株式会社 ia 技術本部本部長坂野勝美

Microsoft Word - SSTC_Intel_Core.doc

インテル® Parallel Studio XE 2015 Composer Edition for Linux* インストール・ガイドおよびリリースノート

PowerPoint プレゼンテーション

ビッグデータやクラウドのシステム基盤向けに処理性能を強化した「BladeSymphony」および「HA8000シリーズ」の新製品を販売開始

サーバプラットフォーム「BladeSymphony」、「HA8000シリーズ」の新モデルを販売開始

インテルの現行ラインナップは と Refresh アーキテクチャはそのままラインナップ強化 第 2 世代 Sandy Bridge 第 3 世代 Ivy Bridge 第 4 世代 Refresh アーキテクチャ刷新 AVX 対応 32nm プロセスルール 性能 電力とも大幅進化 22nm プロセス

この方法では, 複数のアドレスが同じインデックスに対応づけられる可能性があるため, キャッシュラインのコピーと書き戻しが交互に起きる性のミスが発生する可能性がある. これを回避するために考案されたのが, 連想メモリアクセスができる形キャッシュである. この方式は, キャッシュに余裕がある限り主記憶の

< B8CDD8AB B83685D>

KSforWindowsServerのご紹介

スライド 1

スライド 1

VXPRO R1400® ご提案資料

スライド 1

共通マイクロアーキテクチャ 富士通はプロセッサー設計に共通マイクロアーキテクチャを導入し メインフレーム UNIX サーバーおよびスーパーコンピューターそれぞれの要件を満たすプロセッサーの継続的かつ効率的な開発を容易にしている また この取り組みにより それぞれの固有要件を共通機能として取り込むこと

CELSIUSカタログ(2012年7月版)

スライド 1

情報解禁 時 :10 月 19 ( )22:00 以降 株式会社マウスコンピューター News Release 8 コア /16 スレッド駆動のインテル第 9 世代 CPU とハイエンドグラフィックス搭載パソコンをゲーミングパソコンブランド G-Tune から販売 10 月 22 日 ( 月 )10

Product Brief 高速なコードを素早く開発 インテル Parallel Studio XE 2017 インテル ソフトウェア開発ツール 概要 高速なコード : 現在および次世代のプロセッサーでスケーリングする優れたアプリケーション パフォーマンスを実現します 迅速に開発 : 高速かつ安定し

表 1. OpenSSL* スピードテストのハードウェアおよびソフトウェア構成 この OpenSSL* 本来の性能が SSL Web サーバーのスループットにどのように影響するか評価するため このケーススタディーでは これらの 2 つの暗号を使用したときに Nginx* Web サーバーで達成可能な

IA-32 インテル® アーキテクチャ・ソフトウェア・デベロッパーズ・マニュアル

修士論文

PowerPoint プレゼンテーション

はじめに Web アプリケーションの発展と普及の勢いは弱まる兆しがありません 弱まるどころか 加速し続けています これは これまでの ERP CRM Web 2.0 などの Web ベースアプリケーションが提供してきたメリットを考えると 不思議なことではありません Web アプリケーションの爆発的拡

SMG Field Computex 2011 New Category Update

アドバンストサーバ「HA8000シリーズ」において最新テクノロジーを採用しシステム性能を強化

バトルカードでゲーマーやエンスージアストへの販売促進

Microsoft Word ●IntelクアッドコアCPUでのベンチマーク_吉岡_ _更新__ doc

12 PowerEdge PowerEdge Xeon E PowerEdge 11 PowerEdge DIMM Xeon E PowerEdge DIMM DIMM 756GB 12 PowerEdge Xeon E5-

ワークステーション推奨スペック Avid Avid Nitris Mojo SDI Fibre 及び Adrenaline MC ソフトウェア 3.5 以降のバージョンが必要です Dual 2.26 GHz Quad Core Intel 構成のに関しては Configuration Guideli

Microsoft PowerPoint - Lec ppt [互換モード]

インテル® Parallel Studio XE 2013 Linux* 版インストール・ガイドおよびリリースノート

情報解禁日時 :12 月 20 日 ( 木 )11:00 以降 株式会社マウスコンピューター News Release MousePro 第 9 世代インテル CPU 搭載ビジネス向けデスクトップパソコンを 12 月 20 日 ( 木 ) 販売開始! ビジネス向けデスクトップパソコン MousePr

Microsoft PowerPoint - GPGPU実践基礎工学(web).pptx

本文ALL.indd

ビデオコントローラ NVIDIA GeForce GTX 960 ビデオカードメモリ 2.00 GB バージョン , ディスプレイ BenQ BL2400 (Generic PnP Monitor) モード 1920 x 1080 (32 ビット ) (6

PowerPoint Presentation

MAGNIA Storage Server Configuration Guide

システムソリューションのご紹介

製品概要新しい X シリーズ ファミリー X シリーズ ファミリーあらゆるエンスージアストが満足するパフォーマンスがここにあります 新しい X シリーズ ファミリーは 4 コアから 18 コアまでのオプションによりお客様のパフォーマンス要求に合わせて究極のパフォーマンスを発揮し 最新テクノロジーの進

ホワイトペーパー

スライド 1

Pervasive PSQL v11 のベンチマーク パフォーマンスの結果

HP_PPT_Standard_16x9_JP

計算機アーキテクチャ

<4D F736F F F696E74202D F A282BD94BD959C89F A4C E682528D652E707074>

HPE Integrity NonStop NS2300 サーバー

使用する前に

クラウド基盤向けに処理性能や拡張性を強化した「HA8000シリーズ」の2プロセッサーサーバを販売開始

HP Workstation 総合カタログ

TVS-871T_P6_ RS_201508_(JPN)_web

CELSIUSカタログ(2012年5月版)

コンピュータ工学Ⅰ

<4D F736F F F696E74202D204E505F8E9F90A291E E815B CFC82AF B838B B838B C5E B8D5C91A E E4E41532E7

コンピュータ工学Ⅰ

(速報) Xeon E 系モデル 新プロセッサ性能について

2014年春 Power Systems テクニカル・セミナー POWER8超解説

システム imac 21.5 インチディスプレイ 3.6GHz i5 Dual core / HT 2.8GHz i7 Quad core / HT ATI Radeon 4850 ATI Radeon HD はいいいえいいえはいいいえ ATI はいいいえ

世界の技術を日本の品質で すべてはお客様の ベストパートナーであるために 1 2 納入分野 斬 新な 企画 展開力 高 品質 ダックスが持つ つの特長 3 交通機器 金融機器 医療機器 製造機器 工作機器 あらゆる分野へ 高信頼性 3 最 新 最適な 技術と開発 主な開発 生産製品 ダックスは産業用

N08

PowerPoint プレゼンテーション

sinfI2005_VBA.doc

スライド 1

Microsoft PowerPoint - os ppt [互換モード]

ムーアの法則 : インテルでは順調に存続中 65nm 2005 製造中 45nm nm nm 2011 * 開発中 15nm 2013 * リサーチ 11nm 2015 * 8nm 2017 * インテルの革新的技術を順次適用予定 2 インテル製品は 予告なく

適応フィルタのSIMD最適化

HPCマシンの変遷と 今後の情報基盤センターの役割

FUJITSU Integrated System 新着 情報 PRIMEFLEX for VMware vsanエンハンス ハイパーコンバージドインフラストラクチャー(HCI)は Software Defined Storage(SDS)技術によりサーバ のローカルディスクを共有ストレージとして使

はじめに Dell PowerVault DL2000 Powered by Symantec Backup Exec は シンプルで管理しやすいデータ保護機能を提供する 柔軟かつ経済的なバックアップソリューションです 本ホワイトペーパーでは PowerVault DL2000 の バリューシリーズ

PowerPoint プレゼンテーション

Microsoft PowerPoint - sp ppt [互換モード]

ビジネスPC(09.1 Q改訂#1EF7.ai

パソコン工房、インテル® Core™ X搭載ハイエンドパソコンをiiyama 4つの∞シリーズにて発売開始

Japanese.p65

ビジネスパーソナルコンピュータ(CA-714R)

Oracle Data Pumpのパラレル機能

本カタログの見方とお問合せ方法について : 本カタログでは 多種類のシャーシタイプでの BTO 基本構成をラインナップしております ご希望の製品が見つかりましたら システム製品名にチェックを入れ 希 望構成をご選択のうえメールまたは FAX にてお問合せ下さい 詳細な構成 仕様のご希望をお持ちの再は

White Paper 高速部分画像検索キット(FPGA アクセラレーション)

PowerPoint Presentation

038_h01.pdf

Windows Server 2008 R2とPRIMERGYによる消費電力削減効果

G-Tune MASTERPIECE i1630pa3-sp 製品特 リアルタイムレイトレーシング性能が大きく向上した最新グラフィックスカード最新の高性能グラフィックスカード GeForce RTX 2080 は NVIDIA Turing アーキテクチャとグラフィックスプラットフォームを採用してお

Dell Latitude Rugged PC 過酷な環境にも耐えるよう設計された 世界最高レベルの安全性と 管理性を誇るノートパソコンとタブレットです 堅牢かつ高性能 Dell Latitude Ruggedファミリーは 過酷な状況でもクラス最高水準の信頼性と生産性を提供します 安全性と管理性に優

Microsoft Word - レポート回答集.docx

インテル® Parallel Studio XE 2013 Windows* 版インストール・ガイドおよびリリースノート

スライド 1

日立アドバンストサーバ「HA8000シリーズ」の2プロセッサーモデル3機種を強化

Jackson Marusarz 開発製品部門

九州大学がスーパーコンピュータ「高性能アプリケーションサーバシステム」の本格稼働を開始

スライド 1

PowerPoint Presentation

PowerPoint プレゼンテーション

講義計画 1. コンピュータの歴史 1 2. コンピュータの歴史 2 3. コンピュータの歴史 3 4. 論理回路と記憶, 計算 : レジスタとALU 5. 主記憶装置とALU, レジスタの制御 6. 命令セットアーキテクチャ 7. 演習問題 8. パイプライン処理 9. メモリ階層 : キャッシュ

15群(○○○)-8編

Microsoft PowerPoint - Sol7 [Compatibility Mode]

Transcription:

2 章インテル 64 プロセッサー アーキテクチャーと IA-32 プロセッサー アーキテクチャー 本章では 最新世代のインテル 64 プロセッサーと IA-32 プロセッサー ( インテル マイクロアーキテクチャー Haswell インテル マイクロアーキテクチャー Ivy Bridge インテル マイクロアーキテクチャー Sandy Bridge ベースのプロセッサーと インテル Core マイクロアーキテクチャー ベースのプロセッサー 拡張版インテル Core マイクロアーキテクチャー インテル マイクロアーキテクチャー Nehalem ) におけるソフトウェア最適化に関連するプロセッサーの機能について概説する これらの機能には 以下のものが含まれる 高クロックレートかつ高スループットでの命令実行が可能なマイクロアーキテクャー 高速なキャッシュ階層 高速システムバス インテル Core プロセッサーとインテル Xeon プロセッサー ファミリーで利用可能なマルチコア アーキテクチャー ハイパースレッディング テクノロジー 1(HT テクノロジー ) のサポート インテル 64 プロセッサーのインテル 64 アーキテクチャー SIMD 拡張命令 : インテル MMX テクノロジー ストリーミング SIMD 拡張命令 (SSE) ストリーミング SIMD 拡張命令 2 (SSE2) ストリーミング SIMD 拡張命令 3(SSE3) ストリーミング SIMD 拡張命令 3 補足命令 (SSSE3) ストリーミング SIMD 拡張命令 4.1(SSE4.1) ストリーミング SIMD 拡張命令 4.2(SSE4.2) インテル アドバンスト ベクトル エクステンション ( インテル AVX) 半精度浮動小数点変換と RDRAND 命令 乗算加算融合 (FMA) 拡張 インテル AVX2 インテル Core 2 プロセッサー ファミリー インテル Core 2 Extreme プロセッサー ファミリー インテル Core 2 Quad プロセッサー ファミリー インテル Xeon プロセッサー 3000/3200/5100/5300/7300 番台は 電力効率に優れた高性能のインテル Core マイクロアーキテクチャーをベースにしている インテル Xeon プロセッサー 3100/3300/ 5200/5400/7400 番台 インテル Core 2 Extreme プロセッサー QX9600/Q9700 番台 インテル Core 2 Quad プロセッサー Q9000/Q8000 番台は拡張版インテル Core マイクロアーキテクチャーをベースにしている インテル Core i7 プロセッサーは インテル マイクロアーキテクチャー Nehalem をベースにしている インテル Xeon プロセッサー 5600 番台 インテル Xeon E7 とインテル Core i7 i5 i3 プロセッサーは インテル マイクロアーキテクチャー Westmere をベースにしている インテル Xeon プロセッサー E5 ファミリー インテル Xeon プロセッサー E3-1200 ファミリー インテル Xeon プロセッサー E7-8800/4800/2800 製品ファミリー インテル Core i7-3930k プロセッサー および第 2 世代インテル Core i7-2xxx インテル Core i5-2xxx インテル Core i3-2xxx プロセッサー シリーズは インテル マイクロアーキテクチャー Sandy Bridge をベースにしている インテル Xeon プロセッサー E3-1200 v2 製品ファミリーと第 3 世代インテル Core プロセッサーは インテル 64 アーキテクチャーをサポートするインテル マイクロアーキテクチャー Ivy Bridge をベースにしている インテル Xeon プロセッサー E3-1200 v3 製品ファミリーと第 4 世代インテル Core プロセッサーは インテル 64 アーキテクチャーをサポートするインテル マイクロアーキテクチャー Haswell をベースにしている 1 ハイパースレッディング テクノロジーを利用するには ハイパースレッディング テクノロジーに対応したインテル プロセッサーを搭載したコンピューター システム および同技術に対応したチップセットと BIOS OS が必要である 性能は使用するハードウェアやソフトウェアによって異なる

2.1 インテル マイクロアーキテクチャー Haswell インテル マイクロアーキテクチャー Haswell は インテル マイクロアーキテクチャー Sandy Bridge とインテル マイクロアーキテクチャー Ivy Bridge の成功を受けて開発された この新しいマイクロアーキテクチャーの基本パイプライン ( 図 2-1 を参照 ) は 以下の革新的な機能を提供している 図 2-1 インテル マイクロアーキテクチャー Haswell の CPU コア パイプライン インテル アドバンスト ベクトル エクステンション 2 ( インテル AVX2) FMA のサポート 整数値演算と暗号化を高速化する新しい汎用命令 インテル トランザクショナル シンクロナイゼーション エクステンション ( インテル TSX) のサポート 各コアでサイクルごとに最大 8 マイクロオペレーション (uop) をディスパッチ可能 メモリー操作 FMA インテル AVX 浮動小数点実行ユニット インテル タ パス AVX2 整数実行ユニット用の 256 ビット デー L1 データキャッシュと L2 キャッシュの帯域幅が増加 2 つの FMA 実行パイプライン 4 つの数値演算ユニット (ALU) 3 つのストア アドレス ポート 2 つの分岐実行ユニット IA プロセッサー コアおよびアンコア サブシステム向けの高度な電力管理機能 オプションの L4 キャッシュをサポート インテル マイクロアーキテクチャー Haswell は L3 ( オプションでオフダイの L4 も ) の複数のスライスへのリング インターコネクト プロセッサー グラフィックス 統合型メモリー コントローラー インターコネクト ファブリックなどを含むいくつかの要素で構 2

成される共有アンコア サブシステムと 複数のプロセッサー コアとの柔軟な統合をサポートしている 図 2-2 に 4 CPU コアとアンコア要素で構成されるシステム統合の例を示す 図 2-2 インテル マイクロアーキテクチャー Haswell の 4 コアのシステム統合 2.1.1 フロントエンド インテル マイクロアーキテクチャー Haswell のフロントエンドは インテル マイクロアーキテクチャー Sandy Bridge (2.2.2 節 ) とインテル マイクロアーキテクチャー Ivy Bridge (2.2.7 節 ) をベースに開発され 次の点が拡張されている マイクロオペレーション (uop) キャッシュ ( またはデコード済み命令キャッシュ ) は 2 つの論理プロセッサー間で均等に分割される 命令デコーダーは アクティブな論理プロセッサー間で交互に使用される 1 つの論理プロセッサーがアイドル状態の場合は もう一方のアクティブな論理プロセッサーがデコーダーを続けて使用する ループストリーム検出器 (LSD)/ マイクロオペレーション (uop) は 56 マイクロオペレーション (uop) までの小さなループを検出できる 56 エントリーのマイクロオペレーション (uop) キューは ハイパースレッディング テクノロジーが有効な場合 2 つの論理プロセッサーによって共有される ( インテル マイクロアーキテクチャー Sandy Bridge では 各コアに 28 エントリーのマイクロオペレーション (uop) キューの複製が提供される ) 2.1.2 アウトオブオーダー エンジン 以下に アウトオブオーダー エンジンの主要構成要素と主な改善点を示す リネーマー : リネーマーは マイクロオペレーション (uop) キューからスケジューラーのディスパッチ ポートへマイクロオペレーション (uop) を移動し 実行リソースにバインドする ゼロイディオム 1 イディオム ゼロレイテンシーのレジスター移動命令はリネーマーによって実行され スケジューラーと実行コアを解放することでパフォーマンスを向上できる スケジューラー : スケジューラーは ディスパッチ ポートへのマイクロオペレーション (uop) のディスパッチを制御する アウトオブオーダー実行コアをサポートするため 8 つのディスパッチ ポートがあり そのうち 4 つは計算処理用の実行リソースを提供し 残り 4 つは 1 サイクルで最大 2 つの 256 ビット ロード操作と 1 つの 256 ビット ストア操作をサポートする 3

実行コア : スケジューラーは 各ポートで 1 つずつ サイクルごとに最大 8 つのマイクロオペレーション (uop) をディスパッチできる 計算リソースを提供する 4 つのポートには ALU が 1 つずつあり 実行パイプのうち 2 つは FMA ユニット専用である 除算 / 平方根を除き STTNI (String and Text New Instructions) /AESNI (Advanced Encryption Standard New Instructions) ユニット ほとんどの浮動小数点および整数 SIMD 実行ユニットは 256 ビット幅である メモリー操作用の 4 つのディスパッチ ポートは 2 つのロード / ストアアドレス操作用のデュアルユース ポート ストアアドレス専用のポート 1 つのストアデータ専用ポートで構成されており すべてのポートで 256 ビットのメモリー マイクロオペレーション (uop) を処理できる 浮動小数点のピーク スループットは FMA を使用した場合 単精度では 1 サイクルあたり 32 マイクロオペレーション (uop) 倍精度では 16 マイクロオペレーション (uop) であり インテル マイクロアーキテクチャー Sandy Bridge の 2 倍である アウトオブオーダー エンジンは 同時に 192 マイクロオペレーション (uop) を処理できる ( インテル マイクロアーキテクチャー Sandy Bridge では 168 マイクロオペレーション (uop) である ) 2.1.3 実行エンジン 次の表に 各ポートでディスパッチ可能なマイクロオペレーション (uop) を示す 表 2-1 ディスパッチ ポートと実行スタック ポート 0 ポート 1 ポート 2 3 ポート 4 ポート 5 ポート 6 ポート 7 ALU Shift ALU Fast LEA Load_Addr Store_addr Store_data ALU Fast LEA ALU Shift Store_addr Simple_AGU JEU SIMD_Log STTNI SIMD_Shifts SIMD_ALU SIMD_Log SIMD_ALU SIMD_Log FMA/FP_mul Div FMA/FP_mul FP_add FP/Int Shuffle 2nd_Jeu slow_int リザベーション ステーション (RS) が 60 エントリーに拡大され ( インテル マイクロアーキテクチャー Sandy Bridge では 54 エントリー ) マイクロオペレーション (uop) の実行準備ができている場合 サイクルごとに最大 8 つのマイクロオペレーション (uop) をディスパッチできる RS でマイクロオペレーション (uop) は特定のデータ型やデータの粒度を処理するスタックに分けられ 発行ポートから特定の実行クラスターにディスパッチされる あるスタックで実行されるマイクロオペレーション (uop) のソースが 別のスタックで実行されるマイクロオペレーション (uop) から取得される場合 遅延が生じる可能性がある インテル SSE 整数操作とインテル SSE 浮動小数点操作の間の遷移でも遅延が発生する これは 命令フローに追加されるマイクロオペレーション (uop) によって データ遷移が行われるためである 実行後にライトバックされるデータを 後続のマイクロオペレーション (uop) 実行にバイパスする方法とその遅延サイクル数を表 2-2 に示す 4

表 2-2 マイクロオペレーション (uop) 間のバイパスによる遅延 ( サイクル数 ) 遷移元 / 遷移先 整数 SSE-INT/ AVX-INT SSE-FP/ AVX-FP_LOW X87/ AVX-FP_High 整数 uop ( ポート 5) uop ( ポート 6) + 1 uop ( ポート 5) uop ( ポート 6) + 1 uop ( ポート 5) + 3 SSE-INT/ AVX-INT uop ( ポート 1) 1 SSE-FP/ AVX-FP_LOW uop ( ポート 1) 1 uop ( ポート 5) + 1 X87/ AVX-FP_High uop ( ポート 1) + 3 uop ( ポート 5) + 1 ロード 1 1 2 2.1.4 キャッシュとメモリーサブシステム キャッシュ階層は前世代と類似しており 各コアに L1 命令キャッシュ L1 データキャッシュ L2 ユニファイド キャッシュがある さらに L3 ユニファイド キャッシュもあり そのサイズは製品構成に依存する L3 キャッシュは複数のキャッシュスライスで構成されており 各スライスのサイズはリング インターコネクトで接続される製品構成に依存する キャッシュトポロジーの詳細は CPUID leaf 4 で確認できる L3 キャッシュは すべてのプロセッサー コアで共有される アンコア サブシステムにある 一部の製品構成では L4 キャッシュもサポートされている 表 2-20 にキャッシュ階層の詳細を示す 表 2-3 インテル マイクロアーキテクチャー Haswell のキャッシュ パラメーター レベル 容量 / アソシアティブ ( ウェイ ) ラインサイズ ( バイト ) 最小レイテンシー 1 スループット ( クロック数 ) ピーク帯域幅 ( バイト / サイクル数 ) アップデート方式 L1 データ 32KB/8 64 4 サイクル 0.5 2 64 ( ロード ) + 32 ( ストア ) ライトバック 命令 32KB/8 64 なしなしなしなし L2 256KB/8 64 11 サイクルそれぞれ異なる 64 ライトバック L3 ( 共有 ) それぞれ異なる 64 それぞれ異なるライトバック 1 ソフトウェアから検知できるレイテンシーは アクセスパターンやその他の要因により異なる 2 L1 データキャッシュは 最大 32 バイトのデータをフェッチ可能なロード操作を各サイクルで 2 つ処理できる 5

TLB (Translation Lookaside Buffer) 階層は L1 命令キャッシュ用の TLB L1 データキャッシュ用の TLB L2 ユニファイド キャッシュ用の TLB で構成される 表 2-4 インテル マイクロアーキテクチャー Haswell の TLB パラメーター レベルページサイズエントリー アソシアティブ ( ウェイ ) パーティション 命令 4KB 128 4 ウェイ 動的 命令 2MB/4MB スレッドあたり 8 固定 L1 データ 4KB 64 4 固定 L1 データ 2MB/4MB 32 4 固定 L1 データ 1GB 4 4 固定 L2 4KB 2MB/4MB ページで共有 1024 8 固定 2.1.4.1 ロード操作とストア操作の拡張 L1 データキャッシュは各サイクルで 2 つの 256 ビット ロード操作と 1 つの 256 ビット ストア操作を処理でき L2 ユニファイド キャッシュは各サイクルで 1 つのキャッシュライン (64 バイト ) を処理できる さらに マイクロオペレーション (uop) の同時実行をサポートするため 72 のロードバッファーと 42 のストアバッファーが装備されている 6