Xeon E5-2600/4600 搭載システムのメモリパフォーマンス

Similar documents
Xeon E v2(Ivy Bridge-EP)搭載システムのメモリパフォーマンス

Xeon 5600(Westmere-EP)搭載システムのメモリパフォーマンス

Xeon 5500(Nehalem EP)搭載 PRIMERGY サーバのメモリパフォーマンス

Xeon E7-8800/4800 v2(Ivy Bridge-EX)搭載システムのメモリパフォーマンス

増設メモリ 1. 機能仕様 型番製品名備考 N GB 増設メモリボード (2x 4 GB/U) DDR3L-1333(PC3L-10600) SDRAM ECC 付 Registered, 2GBx2 枚の N GB 増設メモリボード DDR3L-1600(PC3

増設メモリ 1. 機能仕様 型番 製品名 備考 N GB 増設メモリボード DDR3-1333(PC ) SDRAM, Unbuffered N GB 増設メモリボード DDR3-1333(PC ) SDRAM, Unbuffered N8

テクニカルガイド 増設メモリ

テクニカルガイド 増設メモリ

(速報) Xeon E 系モデル 新プロセッサ性能について

増設メモリ 1. 機能 型名 N8102-G342 N8102-G343 N8102-G344 1GB (1GBx1 枚 ) (x1 枚 ) (x1 枚 ) SDRAM-DIMM, Unbuffered,ECC 1.5V 型名 N N N (1GBx1

増設メモリ (2010/06/17)

増設メモリ 1. 機能 型名 N N N N GB (x1 枚 ) (x1 枚 ) (x1 枚 ) (8GBx1 枚 ) DDR3-1333(PC ) 動作クロック 667MHz( 差動 ) 1.5V 型名 N8102-3

増設メモリ 1. 機能 型名 N N N N N GB 16GB 3 (x2 枚 ) (x2 枚 ) (x2 枚 ) (8GBx2 枚 ) (16GBx2 枚 ) DDR3-1066(PC3-8500) 動作クロック

増設メモリ 1. 機能 型名 N N N (x1 枚 ) (x1 枚 ) (x1 枚 ) DDR3-1333(PC ) SDRAM-DIMM, Unbuffered,ECC 動作クロック 667MHz( 差動 ) 1.5V 型名 N8102

システムソリューションのご紹介

White Paper 高速部分画像検索キット(FPGA アクセラレーション)

VXPRO R1400® ご提案資料

パフォーマンスレポート PRIMERGY TX100 S2

スライド 1

Silk Central Connect 15.5 リリースノート

増設メモリ (2006/11/20)

アドバンスト・フォーマットディスクのパフォーマンス

Windows Server 2008 R2とPRIMERGYによる消費電力削減効果

はじめに Dell PowerVault DL2000 Powered by Symantec Backup Exec は シンプルで管理しやすいデータ保護機能を提供する 柔軟かつ経済的なバックアップソリューションです 本ホワイトペーパーでは PowerVault DL2000 の バリューシリーズ

パフォーマンスレポート PRIMERGY TX100 S3

Windows Server 2016 Hyper-V ストレージQoS機能の強化

HP ProLiant Gen8サーバーでのDDR3メモリの構成と使用

PowerPoint プレゼンテーション

目次 1 はじめに 登録商標 商標 注意事項 免債事項 SR-IOV の機能概要 性能検証事例 測定環境 測定結果 各方式による共有 NIC 性能比較 ( ポートあ

増設メモリ 1. 機能 型名 N N N N GB (x1 枚 ) (x1 枚 ) (x1 枚 ) (8GBx1 枚 ) DDR3-1066(PC3-8500) SDRAM-DIMM, Registered,ECC 動作クロック 53

PowerPoint プレゼンテーション

目次 1. はじめに 用語説明 対象アダプタ P HBA/2P HBAで異なる性能 付録 ( 性能測定環境 ) P HBAでの性能測定環境 P HBAでの性能測定環境 本書の

Pervasive PSQL v11 のベンチマーク パフォーマンスの結果

テクニカルガイド「増設メモリ」(2006/09/15)

Microsoft Word ●IntelクアッドコアCPUでのベンチマーク_吉岡_ _更新__ doc

増設メモリ 1. 機能 型名 N N N (x1 枚 ) (x1 枚 ) (x1 枚 ) DDR2-800(PC2-6400) 動作クロック 400MHz( 差動 ) 110Ge, 110Ge-S 型名 N N N810

省電力構成のための System x / BladeCenter 設定ガイ ド ヒント集 System x/bladecenter 製品は システムの設定を行うことにより 節電を行うことができます 以下のガイドをご参照いただき System x/bladecenter が消費する電力を削減することに

パフォーマンスレポート PCIe-SSDs

Cisco UCS サーバでの訂正可能なメモリ エラーの 管理

本書は 一般社団法人情報通信技術委員会が著作権を保有しています 内容の一部又は全部を一般社団法人情報通信技術委員会の許諾を得ることなく複製 転載 改変 転用及びネットワーク上での送信 配布を行うことを禁止します - 2 -

インテル(R) Visual Fortran コンパイラ 10.0

使用する前に

パフォーマンスレポート PRIMERGY BX924 S2

目次 1. はじめに 用語説明 対象アダプタ P HBA/2P HBA/4P HBA で異なる性能 付録 P HBA での性能測定環境 P HBA での性能測定環境 P

Microsoft Word - c J1.doc

変更履歴 項番版数内容更新日 版新規作成 2013 年 11 月 18 日 1

038_h01.pdf

目次 1. はじめに SSL 通信を使用する上での課題 SSL アクセラレーターによる解決 SSL アクセラレーターの導入例 SSL アクセラレーターの効果... 6 富士通の SSL アクセラレーター装置のラインナップ... 8

富士通セミコンダクタープレスリリース 2009/05/19

Using VectorCAST/C++ with Test Driven Development

Veritas System Recovery 16 Management Solution Readme

PowerPoint プレゼンテーション

12 PowerEdge PowerEdge Xeon E PowerEdge 11 PowerEdge DIMM Xeon E PowerEdge DIMM DIMM 756GB 12 PowerEdge Xeon E5-

ホワイト ペーパー EMC VFCache により Microsoft SQL Server を高速化 EMC VFCache EMC VNX Microsoft SQL Server 2008 VFCache による SQL Server のパフォーマンスの大幅な向上 VNX によるデータ保護 E

Microsoft Word - JP-AppLabs-MySQL_Update.doc

IBM Cloud Social Visual Guidelines

富士通PRIMERGYサーバ/ETERNUSストレージとXsigo VP560/VP780の接続検証

InfiniDB最小推奨仕様ガイド

Windows VDA の権利を取得する方法 Windows VDA の権利は 3 つのライセンス形態を通じて取得できます これらの使用権により ライセンスを取得したデバイスは 使用するライセンス形態に応じてリモートまたはローカルで仮想 Windows デスクトップにアクセスすることができます Wi

性能を強化した 第 12 世代 Dell PowerEdge サーバの RAID コントローラ Dell PERC H800 と PERC H810 の OLTP ワークロード性能比較 ソリューション性能分析グループ Luis Acosta アドバンストストレージエンジニアリング Joe Noyol

パフォーマンスレポート PRIMERGY TX120 S3

RMS(Root Mean Square value 実効値 ) 実効値は AC の電圧と電流両方の値を規定する 最も一般的で便利な値です AC 波形の実効値はその波形から得られる パワーのレベルを示すものであり AC 信号の最も重要な属性となります 実効値の計算は AC の電流波形と それによって

Microsoft PowerPoint Quality-sama_Seminar.pptx

CLUSTERPRO MC ProcessSaver 2.3 for Windows 導入ガイド 第 5 版 2018 年 6 月 日本電気株式会社

― ANSYS Mechanical ―Distributed ANSYS(領域分割法)ベンチマーク測定結果要約

Control Manager 6.0 Service Pack 3 System Requirements

Windows GPO のスクリプトと Cisco NAC 相互運用性

Client Management Solutions および Mobile Printing Solutions ユーザガイド

CLUSTERPRO MC ProcessSaver 1.2 for Windows 導入ガイド 第 4 版 2014 年 3 月 日本電気株式会社

コースの目標 このコースを修了すると 下記のことができるようになります : 1. RAID とそのさまざまな構成の基本的理解を深める 2. RAID で新しいストレージボリュームをセットアップする 前提条件 受講前提条件 : なし 次の項目についての知識を持つ受講生を対象としています : 該当なし

パフォーマンスレポート PRIMERGY TX140 S1

Microsoft Word - nvsi_050110jp_netvault_vtl_on_dothill_sannetII.doc

HP Z200 Intel i5 CPU 3.33GHz Low Profile 仕様 380 LP Assist 2.2 Instinct v3.0 以降 いいえいいえはいいいえ 4GB および 8GB DDR ECC (2 枚構成の DIMM) ISIS へ接続するにはオンボードの

9 WEB監視

proventia_site_protector_sp8_sysreq

パフォーマンスレポート PCIe-SSDs ioDrive®2

ライセンスの注意事項 サーババンドル版のライセンスについてサーババンドル版では 通常のサーバライセンスおよび 4 コアライセンスを ベースライセンス 追加サーバライセンスおよび追加 2 コアライセンスを 追加ライセンス と呼びます 1 台の物理サーバに対してベースライセンスは 1 つしか購入すること

ビッグデータやクラウドのシステム基盤向けに処理性能を強化した「BladeSymphony」および「HA8000シリーズ」の新製品を販売開始

サーバプラットフォーム「BladeSymphony」、「HA8000シリーズ」の新モデルを販売開始

パフォーマンスレポート PRIMERGY RX100 S7

HP製コンピューターでのWindows® 7 XPモードの使用

PowerPoint プレゼンテーション

パフォーマンスレポート PRIMERGY RX200 S6

MAGNIA Storage Server Configuration Guide

UCS ミニの概要

LANカード(PG-2871) 取扱説明書

Microsoft PowerPoint - OS07.pptx

Microsoft Word - Dolphin Expressによる10Gbpソケット通信.docx

Microsoft Word - 編集用_Ensemble2010.2HL7MessagingThroughput.docx

ヤマハDante機器と他社AES67機器の接続ガイド

スライド 1

Oracle Cloud Adapter for Oracle RightNow Cloud Service

PRIMERGY RX4770 M4 ご使用上の留意・注意事項

White Paper EMC DATA DOMAIN BOOST と SYMANTEC NETBACKUP の分散重複除外機能によるバックアップ処理の高速化 実機による検証結果の報告 要約 EMC Data Domain Boost for Symantec OpenStorage( 以下 DD

この方法では, 複数のアドレスが同じインデックスに対応づけられる可能性があるため, キャッシュラインのコピーと書き戻しが交互に起きる性のミスが発生する可能性がある. これを回避するために考案されたのが, 連想メモリアクセスができる形キャッシュである. この方式は, キャッシュに余裕がある限り主記憶の

McAfee SaaS Protection 統合ガイド Microsoft Office 365 と Exchange Online の保護

Oracle Un お問合せ : Oracle Data Integrator 11g: データ統合設定と管理 期間 ( 標準日数 ):5 コースの概要 Oracle Data Integratorは すべてのデータ統合要件 ( 大量の高パフォーマンス バッチ ローブンの統合プロセスおよ

SDRAM および DRAM の メモリ システムの概要

FUJITSU Storage ETERNUS DX 構築ガイド(サーバ接続編) SAS/ ETERNUS DX60 S4/DX100 S4/DX200 S4, ETERNUS DX60 S3/DX100 S3/DX200 S3 ハイブリッドストレージシステム 設定用

ソフト活用事例③自動Rawデータ管理システム

Transcription:

ホワイトペーパー XEON E5-2600/4600 搭載システムのメモリパフォーマンス ホワイトペーパー FUJITSU PRIMERGY サーバ XEON E5-2600/4600(SANDY BRIDGE-EP) 搭載システムのメモリパフォーマンス Xeon E5-2600/4600(Sandy Bridge-EP) 搭載 PRIMERGY モデルは QuickPath インターコネクト (QPI) のメモリアーキテクチャーの拡張で パフォーマンスが目覚しく向上します これは 2 世代のシステムで証明されています このホワイトペーパーでは 変更されたアーキテクチャーのパラメーターについて説明し それが商用アプリケーションのパフォーマンスに与える影響を数量化します バージョン 1.2 2012-12-07 Fujitsu Technology Solutions 2012 1/19 ページ

目次 ドキュメントの履歴... 2 はじめに... 3 メモリアーキテクチャー... 4 DIMM スロット... 4 DIMM タイプ... 5 メモリ周波数の定義... 7 BIOS パラメーター... 9 パフォーマンスを考慮したメモリ構成... 10 パフォーマンスモード構成... 10 独立モード構成... 13 対称型メモリ構成... 13 メモリパフォーマンスに対する定量的影響... 14 測定ツール... 14 メモリチャネルへのインターリーブ... 15 メモリ周波数... 16 メモリランクへのインターリーブ... 16 リモートメモリへのアクセス... 17 冗長性を考慮した際のメモリパフォーマンス... 18 関連資料... 19 お問い合わせ先... 19 ドキュメントの履歴 バージョン 1.0(2012 年 3 月 23 日 ) 初版バージョン 1.1(2012 年 9 月 7 日 ) Xeon E5-4600 搭載 PRIMERGY RX500 S7 の考慮事項バージョン 1.2(2012 年 12 月 7 日 ) メモリ周波数の定義の章での説明追加 2/19 ページ Fujitsu Technology Solutions 2012

はじめに デュアルソケット PRIMERGY サーバの現行世代には Intel Xeon E5-2600(Sandy Bridge-EP) プロセッサが搭載され 技術および科学アプリケーションで パフォーマンスに最大 70 % と 120 % の向上があります こうしたパフォーマンスの向上は プロセッサあたり最大 8 つのコアを搭載した新しいマイクロアーキテクチャー メモリシステムの向上 オンチップ PCIe を介した新しい I/O 接続によるものです Xeon 5600(Westmere-EP) を搭載した先行世代の 32nm( ナノメートル ) 製造プロセスが採用されています さらに 近い関係にある Intel Xeon E5-4600(Sandy Bridge-EP) プロセッサシリーズは 同じ世代の 4 台のプロセッサへの拡張が可能です それに基づく新しい PRIMERGY RX500 S7 は Xeon E7-4800 (Westmere-EX) 搭載の 4 ソケットサーバ PRIMERGY RX600 S6 [ 関連資料 6] を補完するものです 先行世代の Nehalem-EP と Westmere-EP のメモリアーキテクチャーで実証済みの主要機能が維持されています プロセッサには オンチップメモリコントローラが搭載されており 各プロセッサはそれぞれに割り当てられているメモリモジュールのグループを制御します このローカルメモリアクセスのパフォーマンスは 非常に優れています このプロセッサは 片方向シリアル QPI(QuickPath インターコネクト ) リンク経由でメモリの内容を隣接プロセッサに提供し 同時に隣接プロセッサにメモリの内容を要求します リモートアクセスのパフォーマンスは さほど高くありません ローカルメモリとリモートメモリのアクセスを区別するこのアーキテクチャーは NUMA(Non-Uniform Memory Access: 非均等型メモリアクセス ) タイプのアーキテクチャーです プロセッサの演算処理パフォーマンスの向上に対応するために メモリアーキテクチャーのパラメーターが調整されています プロセッサあたりのメモリチャネルは 4 つあります ( 前世代では 3 つ ) 最大メモリ周波数は 1333 MHz から 1600 MHz に増えています デュアルソケット PRIMERGY モデルの場合は プロセッサは 1 つではなく 2 つの QPI リンクペアに接続されます 最大 QPI 周波数は 6.4 GT/s( ギガトランスファー / 秒 ) ではなく 8.0 GT/s になります 2009 年 3 月に Xeon 5500(Nehalem-EP) 搭載システムに QPI アーキテクチャーを導入して以来 このパラメータが調整されたのははじめてです その結果 最も基本的なメモリパフォーマンスの指標であるメモリ帯域幅が デュアルソケットサーバで 40 GB/s から 80 GB/s と 2 倍になりました 可能な限り強力なシステムを構成するためには メモリアーキテクチャーに関する基本的な知識が必要です このホワイトペーパーでは この基本情報を提供します ここでは 次の点を取り上げます NUMA アーキテクチャーであるため すべてのプロセッサのメモリを可能な限り同等の構成にする必要があります これは 各プロセッサが原則としてそのローカルメモリ上で動作するためです メモリアクセスを並列化し さらに高速化するために 物理アドレス空間の隣接する領域をメモリシステムの複数のコンポーネントに分散させます これは技術用語でインターリーブと呼ばれます インターリーブは 2 つの次元で行われます まず プロセッサあたり 4 つのメモリチャネルが横方向に存在します 各プロセッサ上の PRIMERGY コンフィギュレータを同じタイプの 4 枚 1 組の DIMM(Dual Inline Memory Module: デュアルインラインメモリモジュール ) による パフォーマンスモード 構成にすることで この方向への最適なインターリーブを実現しています また 個々のメモリチャネルの中でもインターリーブを実現しています このための決定的なメモリリソースが いわゆるランク数です ランク数は DIMM の下位構造で ここに DRAM(Dynamic Random Access Memory: ダイナミックランダムアクセスメモリ ) チップのグループが統合されています 個々のメモリアクセスでは 常にこのようなグループを参照します パフォーマンスに影響を与えるメモリ周波数は プロセッサのタイプ DIMM のタイプと数によって 1600 MHz 1333 MHz 1066 MHz があります また 消費電力を削減するために BIOS 設定によって周波数を 800 MHz に下げることもできます メモリ容量が非常に大きい場合 メモリモジュールを低電圧 低消費電力モードに設定すると メモリ周波数が制限されます そのため パフォーマンス 容量 消費電力の 3 点を相互に調整する必要があります このホワイトペーパーでは 影響を与える要因を取り上げ 数量化しています 数量化には STREAM と SPECint_rate_base2006 のベンチマークを使用します STREAM でメモリ帯域幅を測定します SPECint_rate_base2006 は 商用アプリケーションのパフォーマンスのモデルとして使用されます 測定結果では プロセッサのパフォーマンスごとの影響をパーセンテージで示します 構成プロセッサモデルが強力であるほど 本書で取り上げているメモリ構成の問題について十分に考慮する必要があります Fujitsu Technology Solutions 2012 3/19 ページ

ミラーリングやランクスペアリングなど 冗長性を考慮する場合のメモリパフォーマンスについては 本書の最後にまとめています メモリアーキテクチャー ここでは 4 部構成でメモリシステムの概要を説明します まずブロック図で 利用可能な DIMM スロットの配置を説明します 2 つ目のセクションでは 使用可能な DIMM タイプを示します 続く 3 つ目のセクションでは 有効なメモリ周波数への影響について説明します 最後のセクションでは メモリシステムに影響を与える BIOS パラメーターについて説明します DIMM スロット 次の図は メモリシステムの構造を示します 1 つ目の図は デュアルソケット PRIMERGY モデルに関するもので 個々のメモリリソースの説明と帯域幅の詳細を示しています 2 つ目の図は PRIMERGY RX500 S7 に関するものです 分かりやすくするために詳細は省かれていますが デュアルソケットモデルの場合と同様です すべての Xeon E5-2600/4600 搭載の PRIMERGY サーバには プロセッサあたり 12 本の DIMM スロットがあります 1 つのプロセッサには 常に 4 つのメモリチャネルが存在します チャネルあたりの DIMM 数が変わると メモリ周波数に変化が生じ さらにはメモリパフォーマンスに影響を与えます この値は DPC( チャネルあたりの DIMM 数 ) と呼ばれます 以降 この用語を使用します チャネルの構成が異なる場合 発生する最大 DPC 値は メモリ構成が周波数に与える影響の決定的な要因になります DIMM slot designation of Xeon E5-2600 based 2-way PRIMERGY models DMI2 connectivity to Intel C600 series chipset PCIe GEN3 connectivity up to 40 lanes per CPU allocation depending on server model PCIe GEN3 connectivity up to 40 lanes per CPU allocation depending on server model GT/s = Gigatransfers per second GB/s = Gigabytes per second CPU 1 Two bidirectional QPI links, each: 8.0 or 7.2 or 6.4 GT/s 16.0 or 14.4 or 12.8 GB/s (full duplex) depending on CPU model CPU 2 DDR3 memory channel with up to 3DPC 1600 or 1333 or 1066 or 800 MHz 12.8 or 10.6 or 8.5 or 6.4 GB/s (half duplex) depending on CPU and DIMM type, DPC value and BIOS setting Memory Controller Memory Controller Bank 3 if used, max frequency is 1066 MHz DIMM 3A DIMM 3B DIMM 3C DIMM 3D DIMM 3E DIMM 3F DIMM 3G DIMM 3H Bank 2 max frequency 1600 MHz DIMM 2A DIMM 2B DIMM 2C DIMM 2D DIMM 2E DIMM 2F DIMM 2G DIMM 2H Bank 1 max frequency 1600 MHz DIMM 1A DIMM 1B DIMM 1C DIMM 1D DIMM 1E DIMM 1F DIMM 1G DIMM 1H Channel A Channel B Channel C Channel D Channel E Channel F Channel G Channel H 4/19 ページ Fujitsu Technology Solutions 2012

DIMM slot designation of Xeon E5-4600 based PRIMERGY RX500 S7 optional CPU 4 CPU 3 Memory Controller Memory Controller DIMM 3N DIMM 3P DIMM 3Q DIMM 3R DIMM 3J DIMM 3K DIMM 3L DIMM 3M DIMM 2N DIMM 2P DIMM 2Q DIMM 2R DIMM 2J DIMM 2K DIMM 2L DIMM 2M DIMM 1N DIMM 1P DIMM 1Q DIMM 1R DIMM 1J DIMM 1K DIMM 1L DIMM 1M CPU 1 CPU 2 Memory Controller Memory Controller DIMM 3A DIMM 3B DIMM 3C DIMM 3D DIMM 3E DIMM 3F DIMM 3G DIMM 3H DIMM 2A DIMM 2B DIMM 2C DIMM 2D DIMM 2E DIMM 2F DIMM 2G DIMM 2H DIMM 1A DIMM 1B DIMM 1C DIMM 1D DIMM 1E DIMM 1F DIMM 1G DIMM 1H 以降では メモリバンク という用語も使用します 図では 複数のチャネルに分配されている 4 つの DIMM のグループが 1 つのバンクを形成しています 図中の色 ( 黒 青 緑 ) は サーバのメインボード上で 構成エラーを防ぐためにバンクに付けられたカラーマークに対応します プロセッサあたりの利用可能なスロット経由で DIMM を分配する場合 バンク 1 から順に割り当てることにより チャネル全体で最適なインターリーブが得られます インターリーブは メモリパフォーマンスに影響を与える主要な要因です DIMM スロットを使用するためには 対応するプロセッサを搭載する必要があります 最大構成がない場合 空のプロセッサソケットに割り当てられたスロットは使用できません DIMM タイプ メモリ構成にあたっては 次の表に示す DIMM 数が考慮されます DIMM には unbuffered(udimm) Registered(RDIMM) load reduced(lrdimm) があります この 3 つの DIMM タイプを組み合わせた構成はできません 表の最後の列は DIMM が PRIMERGY RX500 S7 でも使用できるかどうかを示します UDIMM は構造がシンプルなため 最大容量は RDIMM より小さいです よりシンプルなデザインによって アクセス遅延とエネルギー消費量が小さくなるというメリットがありますが 3DPC 構成ができないという制限もあります RDIMM では メモリコントローラーの制御コマンドが DIMM 上の独自のコンポーネントにあるレジスター内でバッファーされます ( これが名前の由来です ) これにより メモリチャネルの制限が解放され UDIMM では不可能な 3DPC が可能になります どの DIMM タイプでも データは 64 ビット単位で転送されます これが DDR3-SDRAM メモリテクノロジーの特徴です 64 ビットの帯域幅のメモリ領域は DRAM チップのグループから DIMM 上に設定されます この個々のチップが 4 ビットまたは 8 ビットを受け持ちます ( タイプ名のコード x4 または x8 を参照 Fujitsu Technology Solutions 2012 5/19 ページ

RX500 S7 ホワイトペーパー XEON E5-2600/4600 搭載システムのメモリパフォーマンスバージョン :1.2 2012-12-07 してください ) このようなチップグループをランクと呼びます 表に示すように 1 ランク 2 ランク または 4 ランクの DIMM タイプがあります メモリチャネルあたりの利用可能なランク数は パフォーマンスに一定の影響を及ぼします これについては後述します DIMM の x4 または x8 構造は エラー ( 修正できるものと修正できないものを含めて ) の検出度に影響します このため 表内の 4GB 2Rx8 PC3L-12800R RDIMM は他の使用可能な RDIMM( すべて x4) と一緒にはできません DIMM タイプ (JEDEC/SystemArchitect) 制御 最大周波数 (MHz) 電圧 ランク数 容量 GB あたりの相対価格 2GB 1Rx8 PC3L-12800E 2GB (1x2GB) 1Rx8 L DDR3-1600 U ECC Unbuffered 1600 1 2 GB 1.5 4GB 2Rx8 PC3L-12800E 4GB (1x4GB) 2Rx8 L DDR3-1600 U ECC Unbuffered 1600 2 4 GB 1.1 4GB 1Rx4 PC3L-10600R 4GB (1x4GB) 1Rx4 L DDR3-1333 R ECC Registered 1333 1 4 GB 1.3 4GB 1Rx4 PC3L-12800R 4GB (1x4GB) 1Rx4 L DDR3-1600 R ECC Registered 1600 1 4 GB 1.4 x 4GB 2Rx8 PC3L-12800R 4GB (1x4GB) 2Rx8 L DDR3-1600 R ECC Registered 1600 2 4 GB 1.4 x 8GB 2Rx4 PC3L-10600R 8GB (1x8GB) 2Rx4 L DDR3-1333 R ECC Registered 1333 2 8 GB 1.0 8GB 2Rx4 PC3L-12800R 8GB (1x8GB) 2Rx4 L DDR3-1600 R ECC Registered 1600 2 8 GB 1.2 x 16GB 2Rx4 PC3L-12800R 16GB (1x16GB) 2Rx4 L DDR3-1600 R ECC Registered 1600 2 16 GB 1.3 x 16GB 4Rx4 PC3L-10600L 16GB (1x16GB) 4Rx4 L DDR3-1333 LR ECC load reduced 1333 4 16 GB 1.5 x 32GB 4Rx4 PC3L-10600L 32GB (1x32GB) 4Rx4 L DDR3-1333 LR ECC load reduced 1333 4 32 GB 3.5 x 大型メモリ容量は 4 ランク DIMM のメリットです LRDIMM が従来の 4 ランク RDIMM に代わってはじめて導入されました これまでは メモリチャネルごとのサポートが最大 8 ランクであるために 2DPC に制限されていました LRDIMMS では 制御コマンドとは別に データ自体も DIMM 上のコンポーネントにバッファーされます さらに この DIMM タイプの ランク乗算 機能により いくつかの物理ランクを仮想ランクにマップできます したがって メモリコントローラーは仮想ランクを監視するだけです この機能は LRDIMM での 3DPC 構成の場合に使用されます 4 ランクモジュールの 3DPC 構成は 最大メモリ容量がかなり増えて Xeon E5-2600/4600 搭載の革新的なサーバ世代です UDIMM RDIMM または LRDIMM のうち どのタイプグループが望ましいかは 通常 必要なメモリ容量によって決まります 周波数とランク数のパフォーマンスへの影響は 3 タイプどれも同じです こうした影響は タイプとは関係がありません タイプごとにパフォーマンスに影響が出ることもありますが 非常に小さいため たいていの場合は無視できます タイプごとの影響として ここで例を 3 つ挙げておきます ただし 大きな影響ではないため システムによる定量的評価には表れません DIMM にコンポーネントを追加したために DIMM タイプ UDIMM RDIMM および LRDIMM の複雑さが増し アクセス遅延がわずか数ナノ秒ほど長くなります UDIMM の場合 メモリチャネルの負荷が高くなるにつれ いわゆる 2N 周波数での 2DPC 構成が必要になります DIMM に対するアドレスコマンドは メモリチャネルのすべての 2 次クロックでのみ可能であるためです これにより 最大メモリ帯域幅が数パーセント減少します しかし アプリケーションのパフォーマンスに対する効果は望めません 6/19 ページ Fujitsu Technology Solutions 2012

ランク乗算は LRDIMM での 3DPC 構成の場合 DIMM での 3DPC 構成と比べて 5 % 以下の最大メモリ帯域幅の減少とアプリケーションパフォーマンスの低下があります 現行のすべての DIMM タイプは 1.5 V または低消費電力の V で動作します ただし V での動作は 3DPC 構成ではできず メモリ周波数 さらにはメモリパフォーマンスの低下につながる可能性があります 次のセクションでは メモリ周波数について取り上げ こうした相互関係にスポットを当てます 特定の構成の有効な周波数は 一連の影響に左右されます DIMM タイプの表内の最大周波数は こうした有効な周波数の上限を表しているにすぎません 表の最後から 2 番目の列には 相対的な価格差を示します それぞれの価格は 2012 年 9 月現在の PRIMERGY RX300 S7 の料金表を使用しています ここでは 8 GB の Registered PC3L-10600R DIMM を基準とし (1 として強調表示 ) GB あたりの価格比を示します DDR3-SDRAM メモリモジュールの導入以降 相対価格の状況は絶えず変化しています 現時点で 1333 MHz RDIMMS のコストはやや低下しています 新しい LRDIMM は高価です PRIMERGY モデルによっては 一部の DIMM タイプを利用できない場合があります 常に最新のシステム構成図を参照してください また 販売地域によっても 利用できない DIMM タイプがあります メモリ周波数の定義 メモリの周波数には 1600 1333 1066 または 800 MHz の 4 種類があります システムに電源が入ると 周波数が BIOS によって定義され プロセッサごとではなくシステムごとに適用されます まず 定義上 構成プロセッサモデルが非常に重要になります Xeon E5-2600/4600 モデルは 3 つのクラスに分かれ メモリ周波数の上限は次の表のようになります CPU タイプ 最大メモリ周波数 [MHz] QPI (GT/s) Xeon E5-2600 モデル Xeon E5-4600 モデル Advanced 1600 8.0 Standard 1333 7.2 E5-2690, E5-2680, E5-2670, E5-2665, E5-2660, E5-2650, E5-2650L, E5-2667, E5-2643, E5-2637 E5-2640, E5-2630, E5-2620, E5-2630L E5-4650, E5-4640, E5-4650L E5-4620, E5-4610, E5-4617 Basic 1066 6.4 E5-2609, E5-2603 E5-4607, E5-4603 Fujitsu Technology Solutions 2012 7/19 ページ

DIMM タイプおよびメモリ構成の DPC 値によっても 周波数が制限されます プロセッサタイプ DIMM タイプ および DPC 値はメモリ周波数に大きな影響を及ぼします これを BIOS で無効にすることはできません ただし BIOS パラメーター DDR Performance により パフォーマンスと消費電力を調整することはできます パフォーマンスを選択した場合 有効なメモリ周波数は次の表のようになります PRIMERGY RX500 S7 の UDIMM と 1333 MHz RDIMM の列は ここでは関係ありません CPU タイプ DDR Performance = Performance optimized( デフォルト設定 ) 灰色セル :1.5V 無色セル :V UDIMM 1600 MHz RDIMM 1600 MHz RDIMM 1333 MHz LRDIMM 1333 MHz 1DPC 2DPC 3DPC 1DPC 2DPC 3DPC 1DPC 2DPC 3DPC 1DPC 2DPC 3DPC Advanced 1333 1 1333 Standard 1333 1333 Basic 1066 1066 該当せず該当せず該当せず 1 1600 MHz( 特別リリースの場合 ) 1600 1600 1066 1333 1333 1066 1333 1333 1066 1333 1333 1066 1333 1333 1066 1333 1333 1066 1066 1066 1066 1066 1066 1066 1066 1066 1066 次の表は 低消費電力 V の 低電圧 での動作を優先する場合に有効です ただし V での動作は 1DPC および 2DPC の構成のみで可能なことを忘れないでください. CPU タイプ DDR Performance = Low-voltage optimized 灰色セル :1.5V 無色セル :V UDIMM 1600 MHz RDIMM 1600 MHz RDIMM 1333 MHz LRDIMM 1333 MHz 1DPC 2DPC 3DPC 1DPC 2DPC 3DPC 1DPC 2DPC 3DPC 1DPC 2DPC 3DPC Advanced 1066 1 1066 Standard 1066 1066 Basic 1066 1066 該当せず該当せず該当せず 1 1333 MHz( 特別リリースの場合 ) 1333 1333 1066 1333 1333 1066 1066 1066 1066 1333 1333 1066 1333 1333 1066 1066 1066 1066 1066 1066 1066 1066 1066 1066 1066 1066 1066 メモリパフォーマンスは 次の 3 つ目の構成で最も低くなります CPU タイプ DDR Performance = Energy optimized 灰色セル :1.5V 無色セル :V UDIMM 1600 MHz RDIMM 1600 MHz RDIMM 1333 MHz LRDIMM 1333 MHz 1DPC 2DPC 3DPC 1DPC 2DPC 3DPC 1DPC 2DPC 3DPC 1DPC 2DPC 3DPC Advanced 800 800 Standard 800 800 Basic 800 800 該当せず該当せず該当せず 800 800 800 800 800 800 800 800 800 800 800 800 800 800 800 800 800 800 800 800 800 800 800 800 800 800 800 機能の説明は その多くがメモリ周波数に関連しています アプリケーションパフォーマンスに対するメモリ速度の影響に関する数値を後で示します その後に この結果について説明します 低電圧に最適化する設定が 多くの実稼働アプリケーションにおいて最も効率的である必要があります パフォーマンスに最適化する設定では 実現可能なパフォーマンスの向上が 1~2 % と 慎重に測定しないと検証できないほどわずかであるためです 低電圧での動作は 低消費電力という点では大きな決定的要因ですが メモリ周波数 8/19 ページ Fujitsu Technology Solutions 2012

はそれほど低下しません そのため 電力に最適化する設定はそれほど魅力的ではありません メモリパフォーマンスが確実に低下する一方で V での動作による消費電力の削減に加えてさらに消費電力を削減できるかどうかが確実ではないからです BIOS パラメーター BIOS の [Advanced / Memory] に 次の 4 つのパラメーターを使用したメモリ構成に関するサブメニューがあります Memory Mode:Independent / Mirroring / Sparing NUMA:enabled / disabled DDR Performance:Low-voltage optimized / Energy optimized / Performance optimized Patrol Scrub:enabled / disabled 4 つ目のパラメーターは RAS(Reliability, Availability and Serviceability: 信頼性 可用性およびサービス可能性 ) 機能の重要な一部であり 修正可能なメモリエラーの修復に継続して使用されています デフォルト設定は [enabled] です 3 つ目のパラメーター DDR Performance については すでに前のセクションで詳しく説明しました 物理アドレス空間をローカルメモリのセグメントから構築するか またオペレーティングシステムに構造を通知するかを NUMA パラメーターで定義します デフォルト設定は [enabled] で 明確な理由がない限り変更しないでください PRIMERGY RX500 S7 の NUMA を無効にするデメリットは デュアルソケットサーバの場合よりも重大です そのため このシステムにはこのパラメーターがありません 1 つ目のパラメーターは 冗長性機能に関連しています 該当機能をオプションとして購入され これらの機能が要求された場合 工場で適切なデフォルト設定が行われます それ以外の場合 パラメーターは [independent]( 冗長性なし ) に設定されます これらの機能がシステムパフォーマンスに与える影響に関する数値を後で示します 冗長性を考慮する場合のパフォーマンスと 最大限の実質メモリ容量に対する冗長性の効果は Xeon 5600 搭載の旧システムと比較して大幅に向上しました Fujitsu Technology Solutions 2012 9/19 ページ

パフォーマンスを考慮したメモリ構成 ここで説明する 3 つのメモリ構成は PRIMERGY コンフィギュレータの用語に基づいています 1 つ目の構成は 理想的な方法でメモリシステムのトポロジーを利用し 最高のメモリパフォーマンスを提供する場合に適用します コンフィギュレータは これをパフォーマンスモード構成として参照します パフォーマンスモード構成 このモードでの構成は 同タイプの 4 枚 1 組の DIMM によるバンク単位で構成されており プロセッサの 4 つのメモリチャネルがすべて同等に扱われます メモリアクセスは メモリシステムのこれらのリソースに均等に分散されます 技術的に言えば メモリチャネル経由で最適な 4-WAY インターリーブが実現します さらにすべてのプロセッサが理想的に構成されているということを前提とすると 2-WAY PRIMERGY サーバのパフォーマンスモードには異なるメモリ容量が 16 PRIMERGY RX500 S7 には 14 あることになります この違いは PRIMERGY RX500 S7 は UDIMM をサポートしていないので 2 GB サイズの DIMM タイプがないために生じます 2-WAY サーバでは この容量は 16 ~ 768 GB の範囲で該当します PRIMERGY RX500 S7 では 64 ~ 1536 GB の範囲です この範囲の上限は 最大構成でもあります 以下の 2 つの表に これらのメモリ構成をリストします この表は容量に関してはすべて網羅していますが 適合する DIMM タイプをすべて記載しているわけではありません 例えば コスト面で不利なオプションは省略しています 1 CPU システム 2 CPU システム DIMM タイプ Xeon E5-2600 搭載サーバのパフォーマンスモード構成 DIMM 容量 GB バンク 1 DIMM 容量 GB バンク 2 DIMM 容量 GB バンク 3 DPC 値 最大 MHz Performance optimized 最大 MHz Low-voltage optimized 8 GB 16 GB UDIMM 2 1 1600 1333 16 GB 32 GB UDIMM 4 1 1600 1333 RDIMM 4 1 1600 1333 24 GB 48 GB UDIMM 4 2 2 1333 1066 32 GB 64 GB UDIMM 4 4 2 1333 1066 RDIMM 8 1 1600 1333 48 GB 96 GB RDIMM 8 4 2 1600 1333 64 GB 128 GB 80 GB 160 GB 96 GB 192 GB RDIMM 8 8 2 1600 1333 RDIMM 16 1 1600 1333 RDIMM 8 8 4 3 1066 1066 RDIMM 16 4 2 1600 1333 RDIMM 8 8 8 3 1066 1066 RDIMM 16 8 2 1600 1333 112 GB 224 GB RDIMM 16 8 4 3 1066 1066 128 GB 256 GB RDIMM 16 16 2 1600 1333 LRDIMM 16 16 2 1333 1066 144 GB 288 GB RDIMM 16 16 4 3 1066 1066 160 GB 320 GB RDIMM 16 16 8 3 1066 1066 192 GB 384 GB RDIMM 16 16 16 3 1066 1066 LRDIMM 32 16 2 1333 1066 256 GB 512 GB LRDIMM 32 32 2 1333 1066 320 GB 640 GB LRDIMM 32 32 16 3 1066 1066 384 GB 768 GB LRDIMM 32 32 32 3 1066 1066 10/19 ページ Fujitsu Technology Solutions 2012

2 CPU システム 4 CPU システム DIMM タイプ PRIMERGY RX500 S7 のパフォーマンスモード構成 DIMM 容量 GB バンク 1 DIMM 容量 GB バンク 2 DIMM 容量 GB バンク 3 DPC 値 最大 MHz Performance optimized 最大 MHz Low-voltage optimized 32 GB 64 GB RDIMM 4 1 1600 1333 64 GB 128 GB RDIMM 8 1 1600 1333 96 GB 192 GB RDIMM 8 4 2 1600 1333 128 GB 256 GB 160 GB 320 GB 192 GB 384 GB RDIMM 8 8 2 1600 1333 RDIMM 16 1 1600 1333 RDIMM 8 8 4 3 1066 1066 RDIMM 16 4 2 1600 1333 RDIMM 8 8 8 3 1066 1066 RDIMM 16 8 2 1600 1333 224 GB 448 GB RDIMM 16 8 4 3 1066 1066 256 GB 512 GB RDIMM 16 16 2 1600 1333 LRDIMM 16 16 2 1333 1066 288 GB 576 GB RDIMM 16 16 4 3 1066 1066 320 GB 640 GB RDIMM 16 16 8 3 1066 1066 384 GB 768 GB 512 GB 640 GB 768 GB 1024 GB 1280 GB 1536 GB RDIMM 16 16 16 3 1066 1066 LRDIMM 32 16 2 1333 1066 LRDIMM 32 32 2 1333 1066 LRDIMM 32 32 16 3 1066 1066 LRDIMM 32 32 32 3 1066 1066 表には 主に従来からの 2 のべき乗 (8 16 32 64 128 GB など ) のメモリサイズが含まれています 新しいシステム世代のプロセッサあたりのメモリチャネルが 3 つから 4 つに増えた結果 これらのメモリサイズにはパフォーマンスで小さなデメリットがあるという先行世代の特徴は またしても打ち消されました このデメリットは これらのメモリサイズでは 3 つのメモリチャネル全体で最適なインターリーブを得ることはできないという事実に起因していました 次の図は メモリ容量 低消費電力 最大限のメモリパフォーマンスのメリットとデメリットをメモリ周波数ごとにまとめたものです この図から 容量と低消費電力のために メモリパフォーマンスがある程度犠牲になることがわかります ただし メモリ周波数のアクセシビリティは 構成するプロセッサのタイプによって左右されることも忘れないでください Fujitsu Technology Solutions 2012 11/19 ページ

Maximum Memory Speed (MHz) Maximum Memory Speed (MHz) ホワイトペーパー XEON E5-2600/4600 搭載システムのメモリパフォーマンスバージョン :1.2 2012-12-07 Memory performance / capacity / energy tradeoff Xeon E5-2600 based PRIMERGY servers DDR Performance: Performance optimized DDR Performance: Low-voltage optimized 1,600 1,333 1,066 800 16 32 48 64 96 128 160 192 224 256 288 320 384 512 640 768 Memory Capacities (GB) Memory performance / capacity / energy tradeoff PRIMERGY RX500 S7 DDR Performance: Performance optimized DDR Performance: low-voltage optimized 1,600 1,333 1,066 800 64 128 192 256 320 384 448 512 576 640 768 1024 1280 1536 Memory Capacities (GB) 12/19 ページ Fujitsu Technology Solutions 2012

独立モード構成 これには パフォーマンスモードや冗長モードには含まれない構成がすべて含まれます UDIMM RDIMM と LRDIMM タイプ x4 と x8 の RDIMM を混在させることはできないというルールを除けば 特に制限はありません プロセッサあたりの DIMM が 4 つ未満の構成 つまりパフォーマンスモード構成に必要な最小数未満の構成にも特に注意する必要があります メモリ容量が非常に小さいというだけでなく さらなる電力の削減を考慮して このように構成される場合があります 低消費電力は 単に V での動作や特定のメモリ構成の周波数の低減だけでなく DIMM 数を最小限に抑えることでも実現します 以下に示すのは 4 つ未満のメモリチャネルの構成がシステムパフォーマンスに与える影響についての定量評価です これにより 1-WAY インターリーブは推奨できません プロセッサあたりの DIMM がわずか 1 つの構成に相当します 一方 2-WAY と 3-WAY の場合 これはプロセッサあたりの DIMM がそれぞれ 2 つと 3 つに相当しますが パフォーマンスと消費電力に関して バランスの取れた結果が得られる可能性があります 対称型メモリ構成 最後のこのセクションでは すべてのプロセッサのメモリを可能な限り同等に構成し BIOS の NUMA = enabled のデフォルト設定を確たる理由なく変更するべきではないということに再度焦点を当てます このように考慮されるのは システムの QPI を実装したマイクロアーキテクチャーのみです 工場でのプレインストールでは このような状況が当然考慮されています 要求されたメモリモジュールは プロセッサ全体に可能な限り均等に分散されます こうした手法と 関連するオペレーティングシステムによって ローカルのハイパフォーマンスメモリで可能な限りアプリケーションを実行する前提条件が整備されます プロセッサコアのメモリアクセスは 通常 各プロセッサに直接割り当てられた DIMM モジュールに対して行われます これにどのようなパフォーマンス上のメリットがあるのかを見積もるため 2-WAY サーバのメモリが対称型に構成されているものの BIOS オプションが NUMA = disabled に設定されている場合の測定結果を以下のリストに示します 統計上 各 2 次メモリアクセスは リモートメモリに対して行われます アプリケーションが 100 % リモートメモリによって実行される非対称型メモリ構成 または片側メモリ構成では 50 %/50 % の場合の 2 倍パフォーマンスが低下するものとして見積もる必要があります Fujitsu Technology Solutions 2012 13/19 ページ

メモリパフォーマンスに対する定量的影響 メモリシステムの機能とその定性的情報を説明した後は メモリ構成に関係するパフォーマンスの向上と低下について説明します その準備として 最初のセクションでは メモリパフォーマンスの特徴を表すための使用する 2 つのベンチマークについて説明します その後 すでに説明した特徴であるメモリチャネルのインターリーブ メモリ周波数 およびランクのインターリーブについて その影響の大きさの順に説明します 最後に NUMA = disabled で 冗長性を考慮する場合のメモリパフォーマンスについて測定します 定量的テストは プロセッサクラスの Advanced( アドバンスド ) Standard( スタンダード ) Basic ( ベーシック ) のそれぞれに対して個別に実施しました 測定は Linux オペレーティングシステムの 2 つのプロセッサを搭載した PRIMERGY RX200 S7 で行われました プロセッサクラス Advanced( アドバンスド ) には Xeon E5-2670 プロセッサを Standard( スタンダード ) には Xeon E5-2630 を Basic( ベーシック ) には Xeon E5-2603 を それぞれ使用しました PRIMERGY RX500 S7 についての同様の一連の測定では 定量的な関係はデュアルソケットサーバに等しく 変動は 3 % でした このため 以下の表には PRIMERGY RX200 S7 の結果だけを示しています この表は 相対的なパフォーマンスを示しています 理想的なメモリ条件下での STREAM および SPECint_rate_base2006 のベンチマークの絶対測定値は通常 以下の表で 1.0 の値に相当しますが Xeon E5-2600/4600 搭載 PRIMERGY サーバの個別のパフォーマンスレポートに記載されています このテストから得られた 1 つの重要な結果を 最初に明らかにしておきましょう 使用するプロセッサモデルが強力であるほど パフォーマンスへの影響が顕著になり 構成の詳細をより慎重に検討する必要があります Advanced( アドバンスド ) クラスの最も強力で高価なプロセッサについて不可欠な考慮事項も Basic( ベーシック ) クラスについては 多くの場合無視できます 測定ツール 測定は STREAM および SPECint_rate_base2006 ベンチマークを使用して行いました STREAM ベンチマーク STREAM ベンチマーク ( 開発者 :John McCalpin 氏 )[ 関連資料 3] は メモリのスループットを測定するツールです このベンチマークは double 型データの大規模な配列でコピーおよび算術演算を実行して Copy Scale Add Triad の 4 種類のアクセスの結果を提供します Copy 以外のアクセスタイプには 算術演算が含まれています 結果は 常に GB/s 単位のスループットで示されます 一般に Triad の値が最もよく引用されます 以降 STREAM のベンチマークの測定値は Triad アクセスでの値であり 単位は GB/s です STREAM は サーバのメモリ帯域幅を測定するための業界標準で シンプルな方法を使用してメモリシステムに大規模な負荷を与えることができます 特にこのベンチマークは 複雑な構成でのメモリパフォーマンスに対する影響を調査する場合に適しています STREAM は 構成によるメモリへの影響とそれによって生じるパフォーマンスへの影響 ( 低下または向上 ) を示します 後述する STREAM ベンチマークに関する値は パフォーマンスへの影響度を示しています アプリケーションのパフォーマンスに対するメモリの影響は 各アクセスの遅延時間とアプリケーションが必要とする帯域幅に区別されます メモリ帯域幅が増加すると遅延時間は増加するため 両者は関連しています 並列メモリアクセスによって遅延時間が相殺される度合いは アプリケーションや コンパイラーによって作成されたマシンコードの質にも依存します このため すべてのアプリケーションシナリオでの全般的な予測を立てることは非常に困難です SPECint_rate_base2006 SPECint_rate_base2006 ベンチマークは 商用アプリケーションパフォーマンスのモデルとして追加されました これは Standard Performance Evaluation Corporation(SPEC) の SPECcpu2006 [ 関連資料 4] の一部です SPECcpu2006 は システムのプロセッサ メモリおよびコンパイラーを評価するための業界標準です 大量の測定結果が公開され 販売プロジェクトおよび技術調査に使用されているため サーバ分野で最も重要なベンチマークとなっています 14/19 ページ Fujitsu Technology Solutions 2012

SPECcpu2006 は 大量の整数演算および浮動小数点演算を使用する独立した 2 つのテストセットで構成されています 整数演算部分は商用アプリケーションに相当し 12 種類のベンチマークから構成されます 浮動小数点演算部分は科学アプリケーションに相当し 17 種類のベンチマークで構成されます いずれの場合も ベンチマークの実行結果は 個々の結果の幾何平均です さらに それぞれのテストセットには 単体実行時の処理性能を評価する速度測定と 並行処理の性能を評価するスループット測定があります 多数のプロセッサコアとハードウェアスレッドを持つサーバにとっては 後者が重要です また 測定の種類により コンパイラーに許可される最適化が異なります ピーク値の測定では 各ベンチマークを個別に最適化できますが ベース値の測定では コンパイラーフラグがすべてのベンチマークで同一である必要があり 特定の最適化は許可されません 以上が SPECint_rate_base2006 の概要です PRIMERGY サーバでは商用アプリケーションの使用が主流であるため 整数演算を使用するテストセットである SPECint_rate_base2006 でスループットを測定しました 本来のルールに準拠した測定では 3 回の実行が必要であり 各ベンチマークに対して平均の結果が評価されます しかし ここで説明している技術調査では このルールに準拠していません 効率化のために 測定は 1 回にしています メモリチャネルへのインターリーブ メモリチャネルへのインターリーブとは 最初の 64 バイト ( キャッシュラインサイズ と呼ばれるプロセッサの観点でのメモリアクセスの単位 ) は最初のチャネルに 2 番目の 64 バイトは 2 番目のチャネルにというように プロセッサ単位で 4 つのチャネルを交互に利用するように物理アドレス領域を設定する方法です メモリアクセスは 局所性原理により主に隣接するメモリ領域に行われ 結果としてすべてのチャネルに分散されます このようなパフォーマンスの向上は 並列化によるものです 次の表は パフォーマンスモードでのメモリ構成によって実現される理想的な 4-WAY インターリーブを行わない場合のパフォーマンスの低下を示しています この表では すでに取り上げた プロセッサが強力になるほどパフォーマンスへの影響が顕著になるという事実が明確に示されています 2-WAY および 3-WAY インターリーブのパフォーマンスの低下が穏やかなのは それなりの理由があります 必要となるメモリ容量が少ないか または低消費電力のために DIMM 数が最小限に抑えられるためです 1-WAY インターリーブは推奨できません これは厳密に言うとインターリーブではなく 分類上そのようにと呼ばれているだけです この場合 プロセッサとメモリシステムの潜在的なパフォーマンスのバランスが取れていません SPECint_rate_base2006 に関する評価は 商用アプリケーションのパフォーマンスに関するものです STREAM で示されているように メモリ帯域幅の関係は 特に HPC(High-Performance Computing: 高性能コンピューティング ) 環境では 特定のアプリケーション領域において除外できない極端なケースとして理解する必要があります また SPECint_rate_base2006 の 12 の個別ベンチマークの中の 1 つ (libquantum) に STREAM とほぼ同様の動作があります ただしこうした動作は ほとんどの商用のワークロードでは見られません STREAM および SPECint_rate_base2006 に関する解釈の質は このセクションで取り上げているパフォーマンス面だけでなく 以降のすべてのセクションにも当てはまります STREAM ベンチマークプロセッサタイプ 4-way 3-way 2-way 1-way SPECint_rate_base2006 Advanced 1.00 0.81 0.57 0.29 Standard 1.00 0.80 0.55 0.28 Basic 1.00 0.87 0.64 0.33 Advanced 1.00 0.97 0.91 0.74 Standard 1.00 0.98 0.93 0.79 Basic 1.00 0.99 0.98 0.89 独立モードのメモリ構成の場合 各メモリチャネルで部分的に利用可能な容量 ( チャネルあたりの GB) を区別することができます ここに挙げている例は 異なるサイズの DIMM による構成または同サイズの 5 つ以上の DIMM による構成です さらに メモリチャネルの切り替えによって 単一プロセッサのローカ Fujitsu Technology Solutions 2012 15/19 ページ

ルアドレス空間セグメントを設定することはできません 切り替えは常に 均等に 行われます この問題は 物理アドレス空間を異なるインターリーブのいくつかのセグメントに分割することで解決されます 既存の DIMM をグループ化することにより 可能なかぎり高いインターリーブでセグメントが生成されます プロセッサあたりの構成が以下の場合 2 1 1 1 最初のメモリチャンネルに 2 つの DIMM があり 他の 3 つのそれぞれに 1 つです これをたとえば以下のように分割します 1 1 1 1 ( グループ 1 4-WAY インターリーブ メモリの 80 % パフォーマンスが良い ) 1 ( グループ 2 1-WAY インターリーブ メモリの 20 % パフォーマンスが悪い ) アプリケーションのメモリパフォーマンスは アプリケーションにメモリが提供されるセグメントによって異なる可能性があります 性能を重視するアプリケーションの場合 この現象は メモリチャネルあたりの異なる部分容量を回避する理由になり得ます メモリ周波数 有効なメモリ周波数への影響は これまでのセクションで詳しく説明しています 省電力 (BIOS パラメータ DDR Performance によって制御 ) と大型メモリ (3DPC 構成 最大 1333 MHz の LRDIMMS を使用 ) が原因で 有効な周波数がプロセッサタイプによってサポートできるレベルより低くなる場合があります 次の表は 相互の影響を調整する際に役立ちます この数値は 一連のすべての測定に共通の最小メモリ周波数 (800 MHz) を参照しています これには 理想的な場合の数値を参照するという通常のルールが当てはまりません BIOS の設定が DDR Performance = Energy optimized に変更された場合のみ 800 MHz の周波数になります ただし DDR Performance = Low-voltage optimized よりもさらに消費電力を削減できる可能性は非常に低くなっています そのため 800 MHz のメモリ周波数はお勧めできません [Low-voltage optimized] に設定すると メモリ周波数が 1333 または 1066 MHz になります メモリ周波数の低下がメモリ容量に関係している場合 万全を期すために 1 つの問題について説明する必要があります 例えば I/O 速度など メモリ容量はアプリケーションのパフォーマンスに対して暗黙の影響を及ぼします こういった影響は 当然ながらこのセクションで基にしているテストでは考慮していません 表で比較すると メモリ周波数の違いだけがパフォーマンスに影響を及ぼしています ベンチマーク プロセッサタイプ 1600 MHz 1333 MHz 1066 MHz 800 MHz Advanced 1.82 1.59 1.31 1.00 STREAM Standard 1.57 1.30 1.00 Basic 1.18 1.00 Advanced 1.15 1.13 1.07 1.00 SPECint_rate_base2006 Standard 1.09 1.05 1.00 Basic 1.02 1.00 メモリランクへのインターリーブ 物理アドレス空間のセットアップ時にメモリリソースを切り替える方法は メモリチャネルでのインターリーブからチャネルのランクでのインターリーブまで継続できます ランクインターリーブは アドレスビットを経由して直接制御されます 3-WAY ケースの確立のためにチャネルインターリーブで実行されるビット演算は行われません この理由から 2 のべき乗でのインターリーブのみが問題となります つまり 2-WAY 4-WAY または 8-WAY のランクインターリーブのみが存在します メモリチャネルでの奇数のランク数は 常に 1-WAY インターリーブとなりますが これは分類上 16/19 ページ Fujitsu Technology Solutions 2012

そのように呼ばれているだけです 1-WAY の場合 ランクは次のランクに変更される前にすべて利用されます ランクインターリーブの粒度は チャネルでのインターリーブより大きくなります チャネルでのインターリーブは 64 バイトキャッシュラインサイズに使用されています ランクインターリーブは オペレーティングシステムの 4 KB ページサイズに向かい DRAM メモリの物理特性に関係します メモリセルは 大まかに言って 2 つの次元で行われます 行 ( ページとも呼ばれる ) が開かれ 列項目が読み取られます ページが開いている間 より大幅に低いレイテンシで他の列の値を読み取ることもできます さらに大まかなランクインターリーブは この機能に最適化されます メモリチャネルあたりのランク数は 構成の DIMM タイプおよび DPC 値に従います この表は 4-WAY インターリーブに関するものです このケースは PRIMERGY サーバの最も標準的なベンチマークによるものです 大型 RDIMM の 2DPC 構成は 通常 メモリ容量とパフォーマンスが最適なバランスになります 8-WAY インターリーブは LRDIMM での 2DPC 構成でのみ可能ですが 4-WAY インターリーブと比較しても測定可能な向上が見られないため 省略しています 2-WAY および 4-WAY ランクインターリーブは 非常に優れたメモリパフォーマンスを実現します 最終的なパフォーマンスを考えた場合 4-WAY インターリーブにのみわずかなメリットがありますが 通常は無視できる程度です ただし 1-WAY のケースは 単一ランク 2 GB UDIMM または 4 GB RDIMM の 1DPC 構成時に発生します この場合のパフォーマンスの低下については十分考慮してください パフォーマンスを重視するアプリケーションの場合 こうしたケースは避ける必要があります Xeon E5-2600/4600 プロセッサのメモリコントローラーは メモリチャネルあたり最大で 8 つのランクをサポートします LRDIMM での 3DPC 構成の場合 この DIMM タイプの ランク乗算 機能により 12 の物理ランクを減らして 6 つの仮想ランクにできます メモリコントローラがその仮想ランクを制御して ランクインターリーブが行われます ベンチマーク プロセッサタイプ 4-way 2-way 1-way Advanced 1.00 0.98 0.89 STREAM Standard 1.00 0.99 0.91 Basic 1.00 0.99 0.92 Advanced 1.00 0.99 0.96 SPECint_rate_base2006 Standard 1.00 0.99 0.97 Basic 1.00 1.00 0.99 リモートメモリへのアクセス 前述の STREAM および SPECint_rate_base2006 ベンチマークを使ったテストでは ローカルメモリのみが対象になっていました ( プロセッサが自身のメモリチャネルの DIMM モジュールにアクセスする ) 隣接するプロセッサのモジュールはまったくアクセスされないか まれに QPI リンクを経由してアクセスされるのみです 実際のアプリケーションにおいて オペレーティングシステムやシステムソフトウェアの NUMA サポートよってアクセスできるメモリの大半がローカルメモリである限り この状況は代表的なものであると言えます 次の表は プロセッサあたりの最大メモリ周波数を下回る RDIMM での 4-WAY ランクインターリーブパフォーマンスモードという理想的なメモリ構成でありながら BIOS 設定が NUMA = disabled に設定されている場合の影響を示しています 各 2 次メモリアクセスがリモート DIMM つまり隣接プロセッサに割り当てられた DIMM に対して行われ データが QPI リンク経由で迂回する必要があるために パフォーマンスの低下が発生します この表はデュアルソケットの PRIMERGY サーバのみに適用されます PRIMERGY RX500 S7 では NUMA サポートを無効にできません NUMA が無効なための損失は デュアルソケットサーバの場合より大きくなります それは リモートメモリへの統計的なアクセス比率が 75 % と 50 % に比較して大きいためです また 3 番目のプロセッサがリモートアクセスのブローカーの役割をするような状況になる可能性があるためです PRIMERGY RX500 S7 では 各プロセッサが直接つながっているのは 隣接する 3 つのプロセッサのうち 2 つだけです Fujitsu Technology Solutions 2012 17/19 ページ

STREAM ベンチマークプロセッサタイプ NUMA = enabled NUMA = disabled SPECint_rate_base2006 Advanced 1.00 0.68 Standard 1.00 0.74 Basic 1.00 0.81 Advanced 1.00 0.91 Standard 1.00 0.93 Basic 1.00 0.95 NUMA = disabled では プロセッサの詳細メッシュ切り替えによって物理アドレス空間を設定しています この切り替えは 両プロセッサが同一のメモリ容量であることを前提にしています こうした一般的な状態が存在しない場合 アドレス空間はソケット間インターリーブが許可される主要部分と プロセッサ - ローカルの残りの部分に分割されます システムソフトウェアまたはシステム関連ソフトウェアで NUMA がサポートされていないか または十分でないため NUMA = disabled に関する測定は 設定が推奨される例外的なケースとして 狭い範囲で実施しました 上記の測定はすべて 大部分あるいはすべてのアクセスがリモートメモリに対して行われる場合の影響を見積もる場合に役立ちます プロセッサがメモリなしで構成されている場合 またはプロセッサあたりに構成されたメモリ容量が大幅に異なる場合に こうしたケースが発生する可能性があります ローカルアクセスと比較したパフォーマンスの低下は 表に示した低下分の最大 2 倍になることがあります 冗長性を考慮した際のメモリパフォーマンス Xeon E5-2600/4600 搭載 PRIMERGY サーバには 冗長オプションが 2 つあります ミラーリングの場合 プロセッサの 4 つのすべてのメモリチャネルが構成されますが 2 つのチャネルが他の 2 つのチャネルをミラーリングします オペレーティングシステムは 実際に構成されているメモリの 50 % を利用できます スペアリング 厳密に言うとランクスペアリングの場合 メモリチャネルあたり 1 つのランクは未使用で DRAM チップの障害によってアクティブランクが失敗するケースに備えて予約されています オペレーティングシステムが利用できる実質メモリ容量は この場合 DIMM タイプおよび DPC 値によって異なります 次の表では それぞれのケースで最大メモリ周波数を下回る RDIMM での 4-WAY ランクインターリーブパフォーマンスモードという理想的なメモリ構成でありながら 冗長オプションが有効化されている場合の影響を示しています ベンチマーク プロセッサタイプ 冗長性なし ランクスペアリング ミラーリング Advanced 1.00 0.89 0.77 STREAM Standard 1.00 0.91 0.77 Basic 1.00 0.92 0.84 Advanced 1.00 0.96 0.96 SPECint_rate_base2006 Standard 1.00 0.97 0.97 Basic 1.00 0.99 0.99 前述の メモリランクへのインターリーブ で示したとおり スペアリングの列は 1-WAY ランクインターリーブと同じです これは 予約ランクは常に奇数のアクティブランク数になるためです 一方 上の メモリチャネルへのインターリーブ のセクションで示したように ミラーリング列は 2-WAY インターリーブと同じではありません これは ミラーの半分が両方とも読み取りアクセスに利用されるためです Xeon 5600 搭載の先行世代 [ 関連資料 5] の該当テスト結果との比較では 冗長性機能の効率が明らかに向上したことを示しています 18/19 ページ Fujitsu Technology Solutions 2012

関連資料 [L1] PRIMERGY システム http://primergy.com/ [L2] PRIMERGY のパフォーマンス http://www.fujitsu.com/fts/products/computing/servers/primergy/benchmarks/ [L3] STREAM ベンチマーク http://www.cs.virginia.edu/stream/ [L4] ベンチマークの概要 SPECcpu2006 http://docs.ts.fujitsu.com/dl.aspx?id=00b0bf10-8f75-435f-bb9b-3eceb5ce0157 [L5] Xeon 5600(Westmere-EP) 搭載システムのメモリパフォーマンス http://docs.ts.fujitsu.com/dl.aspx?id=e88beb76-a61b-4fad-8081-9f941d12476b [L6] Xeon E7-8800/4800/2800(WESTMERE-EX) 搭載システムのメモリパフォーマンス http://docs.ts.fujitsu.com/dl.aspx?id=e943109a-eeba-42b3-82a1-927b01ae319a [L7] PC サーバ PRIMERGY( プライマジー ) http://jp.fujitsu.com/platform/server/primergy/ お問い合わせ先 富士通 Web サイト :http://jp.fujitsu.com/ PRIMERGY のパフォーマンスとベンチマーク mailto:primergy.benchmark@ts.fujitsu.com 知的所有権を含むすべての権利は弊社に帰属します 製品データは変更される場合があります 納品までの時間は在庫状況によって異なります データおよび図の完全性 事実性 または正確性について 弊社は一切の責任を負いません 本書に記載されているハードウェアおよびソフトウェアの名称は それぞれのメーカーの商標等である場合があります 第三者が各自の目的でこれらを使用した場合 当該所有者の権利を侵害することがあります 詳細については http://www.fujitsu.com/fts/resources/navigation/terms-of-use.html を参照してください 2012-12-07 WW JA Copyright Fujitsu Technology Solutions 2012 Fujitsu Technology Solutions 2012 19/19 ページ