Intel Core i7 プロセッサ 920 Preliminary Performance Report
ノード性能評価 ノード性能の評価 NAS Parallel Benchmark Class B OpenMP 版での性能評価 実行スレッド数を 4 で固定 ( デュアルソケットでは各プロセッサに 2 スレッド ) 全て 2.66GHz のコアとなるため コアあたりのピーク性能は同じ 評価システム Intel Core 2 Extreme QX6700 ( シングルソケット ) 2.66GHz 1066MHz FSB 2x4MB L2 キャッシュ Intel Xeon 5150( デュアルソケット構成 ) 2.66GHz 1333MHz FSB 4MB L2 キャッシュ Intel Xeon 5430( デュアルソケット構成 ) 2.66GHz 1333MHz FSB 2x6MB L2 キャッシュ Intel Core i7 920 ( シングルソケット ) 2.66GHz 8MB L3 キャッシュ 3 チャネル DDR3 1066 MHz
評価システム構成 Core 0 Core 2 Core 0 Core 2 Core 0 Core 2 Core 0 Core 2 6MB shared L2 Cache Bus I/F 6MB shared L2 Cache Bus I/F 6MB shared L2 Cache Bus I/F 6MB shared L2 Cache Bus I/F MCH FSB MCH FSB Xeon 5430( デュアルソケット ) Core 0 Core 2 Core 0 Core 2 Core 0 Core 2 Core 0 Core 2 Core 0 Core 2 4MB shared L2 Cache Bus I/F 4MB shared L2 Cache Bus I/F 4MB shared L2 Cache Bus I/F 4MB shared L2 Cache Bus I/F 4MB shared L2 Cache Bus I/F MCH FSB MCH FSB MCH FSB MCH FSB Core 2 Extreme QX6700 Core 2 Duo Xeon 5150( デュアルソケット ) ( シングルソケット )
Intel Core i7 プロセッサ 920 (Nehalem プロセッサ ) Memory Controler MISC IO QPI 0 Core Core Core Core Queue L3 Cache MISC IO QPI 1
マルチスレッド向けシステム強化 完全にモジュール化されたシステム設計 マイクロアーキテクチャ拡張 マルチスレッドアプリケーションで重要となる同期プリミティブの高速化 キャッシュ階層 L1 L2 L3 の 3 階層のキャッシュ構成 256KB の専用 L2 キャッシュ CPU 中の全ての CPU コアで共有する大容量の L3 キャッシュ プロセッサ上のメモリコントローラ
性能評価について このレポートでの性能評価は 以前に弊社で実行したベンチマークの結果と Core i7 搭載システムの性能を比較したものです コンパイラは そのテストを実施した時点での最新版を利用しているため 各システムの性能評価毎に違ったバージョンでの性能評価となっています 利用しているコンパイラオプションは -O3 openmp だけを指定しています また このベンチマークレポートは マイクロプロセッサとチップセットの世代毎の違いの概要を評価するためだけに行っています
相対性能 (Core 2 Duo の性能 =1) 性能評価結果 ( 相対性能 ) 2008.03 実施 7 65nm プロセッサ 45nm プロセッサ Core2Duo/2 Core2Quad/4 Xeon5150/4 Xeon5430/4 Xeon5430/8 6 5 4 3 2 1 0 BT CG EP FT IS LU MG SP
性能評価結果 ( 相対性能 ) Core 2 Duo などの 65nm プロセッサと比較しても 同一クロックでも性能向上が 45nm プロセッサは示している LU ベンチマーク :2x6MB キャッシュでの性能向上 EP ベンチマーク : マイクロアーキテクチャ + コンパイラによる性能向上 全般的に 同一の FSB 速度にも関わらず 高い性能向上を示している Intel Xeon 5400 番台プロセッサの高い潜在能力を示す
相対性能 (Core 2 Extreme QX6700 =1) 性能評価結果 ( 相対性能 ) 2008.12 実施 NPB OpenMP 4 スレッドベンチマーク性能比較 Core 2 Extreme QX6700 Xeon 5150 DP Xeon 5430 DP Core i7 7.0 6.0 5.0 4.0 同じクァッドコアプロセッサに対して 同一クロックで 2-3 倍の性能 3.0 2.0 1.0 0.0 BT CG EP FT IS LU MG SP
相対性能 (Core 2 Extreme QX6700 =1) 性能評価結果 ( 相対性能 ) 2008.12 実施 NPB OpenMP 2 スレッドベンチマーク性能比較 Core 2 Extreme QX6700 Xeon 5150 DP Xeon 5430 Core i7 4 3.5 3 2.5 2 1.5 1 0.5 0 BT CG EP FT IS LU MG SP
スケーラビリティ ( シングルスレッドに対する性能比 ) Intel Core i7 プロセッサ 920 OpenMP スケーラビリティ 4.0 3.5 3.0 NPB OpenMP スケーラビリティ評価 1 2 4 従来のプロセッサを大きく上回るマルチスレッドでのスケーラビリティ 2.5 2.0 1.5 1.0 0.5 0.0 BT CG EP FT IS LU MG SP
スケーラビリティ (Core 2 Extreme QX6700 =1) Intel Core i7 プロセッサ 920 OpenMP スケーラビリティ NPB OpenMP スケーラビリティ評価 8.0 7.0 6.0 QX6700/1 QX6700/2 QX6700/4 Core i7/1 Core i7/2 Core i7/4 シングルコアでの性能差 << マルチスレッドでの性能差 5.0 4.0 3.0 2.0 1.0 0.0 BT CG EP FT IS LU MG SP
性能評価結果 ( 相対性能 ) Core i7-920 の圧倒的な性能 従来の Core2 プロセッサや Xeon プロセッサと比較して その高いメモリバンド幅による並列処理での高いスケーラビリティ シングルプロセッサ内の複数コアでのスレッド処理での高いスケーラビリティ 高いメモリバンド幅 新しいマイクロアーキテクチャの拡張 キャッシュシステム
Efficiency (% to Peak) SMP LINPACK ベンチマーク 100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% SMP LINPACK Efficiency 1 スレッド 4 スレッド 1000 2000 5000 10000 15000 18000 Matrix Size 高いメモリバンド幅と低いメモリレイテンシ
メモリ階層ベンチマーク メモリ階層の簡単なベンチマークツール Cachebench http://icl.cs.utk.edu/projects/llcbench/cachebench.h tml Cachebench は 現在は LLCbench として公開されている LLCbench - Low Level Architectural Characterization Benchmark Suite http://icl.cs.utk.edu/projects/llcbench/index.html Xeon 5160/Core2Quad/Opteron などと比較
MB/sec メモリ階層ベンチマーク 40000 35000 30000 double Read Cache Test Opteron 2.8GHz Xeon 5160 3.0GHz Core2Quad 2.6GHz Core i7 2.6GHz 25000 20000 15000 10000 5000 0 100 400 1600 6400 25600 102400 409600 1638400 6553600 26214400 C Size (bytes)
MB/sec メモリ階層ベンチマーク 50000 45000 40000 double write Cache Test Opteron 2.8GHz Xeon 5160 3.0GHz Core2Quad 2.6GHz Core i7 2.6GHz 35000 30000 25000 20000 15000 10000 5000 0 100 400 1600 6400 25600 102400 409600 1638400 6553600 26214400 C Size (bytes)
MB/sec メモリ階層ベンチマーク 70000 60000 50000 Double read/modify/write Cache Test Opteron 2.8GHz Xeon 5160 3.0GHz Core2Quad 2.6GHz Core i7 2.6GHz 40000 30000 20000 10000 0 100 400 1600 6400 25600 102400 409600 1638400 6553600 26214400 C Size (bytes)
Core i7 プロセッサ メモリ階層のベンチマーク結果は Core i7 プロセッサの高い性能を裏付ける結果となっています 非常に優れたキャッシュ性能と従来製品を大きく上回るメモリ性能は HPC 分野のアプリケーション性能を大きく向上させることが可能となります 注 ) このベンチマーク結果は 弊社が独自に行ったベンチマーク結果であり その妥当性についての責任は弊社にあります また この結果は特定の製品の性能を保証するものではありません
MFLOPS 値 Himeno Benchmark ***) 7000 6000 5000 4000 3000 2000 1000 メモリコントローラ内蔵では先行した AMD 社のプロセッサと比較しても Core i7 プロセッサは マイクロアーキテクチャの優位性と今回のメモリバンド幅の大幅な向上によって 非常に大きな性能面での優位性を示すことになる 最新の Opteron プロセッサ 2 台よりもシングルプロセッサで高い性能を示す (Opteron の 4 スレッドは 2 ソケットを利用した結果 ) 0 1 4 スレッド数 8 AMD Opteron プロセッサ 2384(Shanghai, 2.7GHz)x 2P AMD Opteron プロセッサ 2380(Shanghai, 2.5GHz)x 2P Intel Core i7 プロセッサ 920(Nehalem, 2.66GHz)x 1P Opteron のデータは これらのシステムを所有する販売会社が実施し ホームページに公開されているデータを参照しました ***) Himeno Benchmark (http://w3cic.riken.go.jp/hpc/himenobmt/index.html)
経過時間 マルチスレッドアプリケーション VOXELCON/Voxel Analysis Solver** 1:04:48 0:57:36 0:50:24 0:43:12 0:36:00 0:28:48 0:21:36 0:14:24 Core2 Quad Q6700 Core i7 Intel Core i7 920 ( シングルソケット ) 2.66GHz 8MB L3 キャッシュ 3 チャネル DDR3 1066 MHz 12GB メモリ構成 Red Hat Enterprise Linux 4.7(for x64) Intel Core2 Quad Q6700 2.66GHz 2.66GHz 2x4MB L3 キャッシュ 1066 MHz FSB 8GB メモリ構成 Red Hat Enterprise Linux 5(for x64) 0:07:12 0:00:00 1 2 スレッド数 4 ** 株式会社くいんと http://www.quint.co.jp
Technology Partners for HPC 高い性能 (High Performance ) スケーラブルなアプリケーション性能プロセッサの性能を最大限に引き出すことが可能高い IO とネットワーク性能 使い易さ 充実した運用管理機能開発環境豊富なアプリケーションオープンなシステム環境高い生産性 (High Productivity)