Microsoft PowerPoint - CCS学際共同boku-08b.ppt

Similar documents
Microsoft Word ●MPI性能検証_志田_ _更新__ doc

VXPRO R1400® ご提案資料

Microsoft PowerPoint - stream.ppt [互換モード]

Microsoft Word - Dolphin Expressによる10Gbpソケット通信.docx

Microsoft PowerPoint - ★13_日立_清水.ppt

untitled

PowerPoint Presentation

PowerPoint プレゼンテーション

Microsoft Word ●IntelクアッドコアCPUでのベンチマーク_吉岡_ _更新__ doc

GPGPUクラスタの性能評価

システムソリューションのご紹介

スライド 1

PowerPoint プレゼンテーション

Microsoft PowerPoint _AMD.ppt

名称 : 日本 GPU コンピューティングパートナーシップ (G-DEP) 所在 : 東京都文京区本郷 7 丁目 3 番 1 号東京大学アントレプレナープラザ, 他工場 URL アライアンスパートナー コアテクノロジーパートナー NVIDIA JAPAN ソリュ

スライド 1

(速報) Xeon E 系モデル 新プロセッサ性能について

PowerPoint Presentation

HP ProLiant 500シリーズ

CCS HPCサマーセミナー 並列数値計算アルゴリズム

HPC (pay-as-you-go) HPC Web 2

hpc141_shirahata.pdf

untitled

1重谷.PDF

[4] ACP (Advanced Communication Primitives) [1] ACP ACP [2] ACP Tofu UDP [3] HPC InfiniBand InfiniBand ACP 2 ACP, 3 InfiniBand ACP 4 5 ACP 2. ACP ACP

マルチコアPCクラスタ環境におけるBDD法のハイブリッド並列実装

橡3_2石川.PDF

05-opt-system.ppt

― ANSYS Mechanical ―Distributed ANSYS(領域分割法)ベンチマーク測定結果要約

Microsoft Word - HOKUSAI_system_overview_ja.docx

資料3 今後のHPC技術に関する研究開発の方向性について(日立製作所提供資料)


ProLiant BL460c システム構成図

本文ALL.indd

PCI PCI 5V/32bit 3.3V/32bit 5V/64bit 3.3V/64bit PCI I/O HBA 3.3V 5V I/O 3 3V 5V PCI v2 1 5V 3.3V PCI v V 5V PCI v v 5V

HP xw9400 Workstation

HP Z200 Intel i5 CPU 3.33GHz Low Profile 仕様 380 LP Assist 2.2 Instinct v3.0 以降 いいえいいえはいいいえ 4GB および 8GB DDR ECC (2 枚構成の DIMM) ISIS へ接続するにはオンボードの

CTA 82: CTA A A B B A B A, C A A A D A B Max-Planck-Inst. fuer Phys. C D

PassMark PerformanceTest ™

GPUを用いたN体計算

TSUBAME2.0 における GPU の 活用方法 東京工業大学学術国際情報センター丸山直也第 10 回 GPU コンピューティング講習会 2011 年 9 月 28 日

Myrinet2000 ご紹介

Microsoft PowerPoint - GPUシンポジウム _d公開版.ppt [互換モード]

Microsoft PowerPoint PCクラスタワークショップin京都.ppt

ProLiant ML115 Generation 1 システム構成図

CS

第3回戦略シンポジウム緑川公開用

02_Matrox Frame Grabbers_1612

PowerPoint プレゼンテーション

HP High Performance Computing(HPC)

RICCについて

ProLiant BL25p Generation 2システム構成図

IPSJ SIG Technical Report Vol.2012-ARC-202 No.13 Vol.2012-HPC-137 No /12/13 Tightly Coupled Accelerators 1,a) 1,b) 1,c) 1,d) GPU HA-PACS

12 PowerEdge PowerEdge Xeon E PowerEdge 11 PowerEdge DIMM Xeon E PowerEdge DIMM DIMM 756GB 12 PowerEdge Xeon E5-

XACCの概要

研究背景 大規模な演算を行うためには 分散メモリ型システムの利用が必須 Message Passing Interface MPI 並列プログラムの大半はMPIを利用 様々な実装 OpenMPI, MPICH, MVAPICH, MPI.NET プログラミングコストが高いため 生産性が悪い 新しい並

PowerPoint プレゼンテーション


RDMAプロトコル: ネットワークパフォーマンスの向上

ProLiant BL20p Generation 4 システム構成図

ERDAS IMAGINE における処理速度の向上 株式会社ベストシステムズ PASCO CORPORATION 2015

Dell OptiPlex PC OptiPlex CPU OptiPlex 4 vpro TCO Dell KACE vpro OS Energy Smart Energy Smart Energy STAR 5.2 2

スライド 1

untitled

HP Workstation 総合カタログ

Fujitsu Standard Tool

チューニング講習会 初級編

Microsoft PowerPoint - 02AMD.ppt

次世代スーパーコンピュータのシステム構成案について

Second-semi.PDF

CPU Levels in the memory hierarchy Level 1 Level 2... Increasing distance from the CPU in access time Level n Size of the memory at each level 1: 2.2

23 Fig. 2: hwmodulev2 3. Reconfigurable HPC 3.1 hw/sw hw/sw hw/sw FPGA PC FPGA PC FPGA HPC FPGA FPGA hw/sw hw/sw hw- Module FPGA hwmodule hw/sw FPGA h

A Responsive Processor for Parallel/Distributed Real-time Processing

PDF.PDF

スライド 1

Microsoft PowerPoint - ARCICD07FukumotoSlides.pptx

lll

<4D F736F F D B B B835E895E97708A4A8E6E82C A98418C6782CC8E6E93AE2E646F63>

HP Workstation 総合カタログ

ワークステーション推奨スペック Avid Avid Nitris Mojo SDI Fibre 及び Adrenaline MC ソフトウェア 3.5 以降のバージョンが必要です Dual 2.26 GHz Quad Core Intel 構成のに関しては Configuration Guideli

GPU GPU CPU CPU CPU GPU GPU N N CPU ( ) 1 GPU CPU GPU 2D 3D CPU GPU GPU GPGPU GPGPU 2 nvidia GPU CUDA 3 GPU 3.1 GPU Core 1

OVERVIEW ProLiant ML110 G2 Storage Server ProLiant ML110 G2 Storage Server A C D SATA NH 320GB 01 (1TB) (1TB) Ultra320 SCSI 6 SATA RAID Serial

(Microsoft PowerPoint - Mirapoint\220\273\225i\221\316\224\344\225\\\(5\203V\203\212\201[\203Y_7\203V\203\212\201[\203Y\201j.ppt)

Slides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments


富士通PRIMERGYサーバ/ETERNUSストレージとXsigo VP560/VP780の接続検証

untitled

09中西

ProLiant BL35p システム構成図

AD-PROCYON システムが提供する機能とは? Next Generation Real-time Simulator/System Controller Platform 現行のシステムの問題点 プロセッサーの演算能力の制限 I/O インターフェースのレイテンシー AD-PROCYON システ

Rev.6.0 Autodesk Certified Workstations HP Z840 HP Z8 G4 Dell T7920 と TITAN 240 G3 TITAN 240 G4 システム構成比較

Microsoft Windows Corp. Pentium,Xeon,Celeron Intel Corporation. ( ) ( 2 )

Microsoft Word - nvsi_050110jp_netvault_vtl_on_dothill_sannetII.doc

HPEハイパフォーマンスコンピューティング ソリューション

ProLiant ML150 Generation 3 システム構成図

Express5800/120Ra-1

最新の並列計算事情とCAE

main.dvi

システム imac 21.5 インチディスプレイ 3.6GHz i5 Dual core / HT 2.8GHz i7 Quad core / HT ATI Radeon 4850 ATI Radeon HD はいいいえいいえはいいいえ ATI はいいいえ

160311_icm2015-muramatsu-v2.pptx

Transcription:

マルチコア / マルチソケットノードに おけるメモリ性能のインパクト 研究代表者朴泰祐筑波大学システム情報工学研究科 taisuke@cs.tsukuba.ac.jp

アウトライン 近年の高性能 PC クラスタの傾向と問題 multi-core/multi-socket ノードとメモリ性能 メモリバンド幅に着目した性能測定 multi-link network 性能評価 まとめ

近年の高性能 PC クラスタの傾向と問題点 ノード構成の傾向 CPU が 4~6 core 程度の multi-core 構成 ( 以下 MC 構成 ) となっている ノード当たり複数ソケット (multi-socket: 以下 MS 構成 ) となっている ネットワーク構成の傾向 Infiniband のような高性能ネットワークを大規模 多段 Fat-Tree で構成 複数リンクの平行結線によりネットワークバンド幅を増強 (multi-rail 以下 MR 構成 ) ノード及びネットワーク性能の増強 :MC-MS-MR 構成 実際の sustained performance を向上させるには様々な工夫が必要

T2K-Tsukuba 計算ノードのブロックダイアグラム 2GB 667MHz DDR2 DIMM x4 Dual Channel Reg DDR2 2GB 667MHz DDR2 DIMM x4 Hyper Transport 8GB/s (Fullduplex) 2GB 667MHz DDR2 DIMM x4 2GB 667MHz DDR2 DIMM x4 4GB/s (Full-duplex) (A)1 (B)1 4GB/s (Full-duplex) PCI-Express X16 PCI-Express X8 PCI-X PCI-X Bridge Bridge 8GB/s X16 X8 X4 Bridge Bridge NVIDIA NVIDIA nforce nforce 36 36 8GB/s Bridge Bridge NVIDIA NVIDIA nforce nforce 35 35 X16 X8 X4 SAS SAS PCI-Express X16 PCI-Express X8 4GB/s (Full-duplex) (A)2 (B)2 4GB/s (Full-duplex) Mellanox MHGH28-XTC ConnectX HCA x2 (1.2µs MPI Latency, 4X DDR 2Gb/s) I/O Hub USB PCI-X Mellanox MHGH28-XTC ConnectX HCA x2 (1.2µs MPI Latency, 4X DDR 2Gb/s)

メモリマップとプロセスマップ プロセス ( コア ) と参照データを近接メモリにマッピング可能 (numactl 機能 ) 2GB 667MHz DDR2 DIMM x4 N Dual Channel Reg DDR2 2GB 667MHz DDR2 DIMM x4 Hyper Transport 8GB/s (Fullduplex) 2GB 667MHz DDR2 DIMM x4 N 2GB 667MHz DDR2 DIMM x4 4GB/s (Full-duplex) (A)1 (B)1 4GB/s (Full-duplex) PCI-Express X16 PCI-Express X8 PCI-X PCI-X Bridge Bridge 8GB/s X16 X8 X4 Bridge Bridge NVIDIA NVIDIA nforce nforce 36 36 8GB/s Bridge Bridge NVIDIA NVIDIA nforce nforce 35 35 X16 X8 X4 SAS SAS PCI-Express X16 PCI-Express X8 4GB/s (Full-duplex) (A)2 (B)2 4GB/s (Full-duplex) Mellanox MHGH28-XTC ConnectX HCA x2 (1.2µs MPI Latency, 4X DDR 2Gb/s) I/O Hub USB PCI-X Mellanox MHGH28-XTC ConnectX HCA x2 (1.2µs MPI Latency, 4X DDR 2Gb/s)

T2K-Tsukuba のノード間ネットワーク構成 Full bi-sectional FAT-tree L3 SWs Network n n : #Node with 4 Links : #24ports IB Switch L2 SWs L1 SWs Nodes Detail View for one network unit 1 2 3 4 5 6 7 8 9 1 11 12 1 2 3 4 5 6 7 8 9 1 11 12 スイッチ数 616 台 ( 全て 24port) IB cable 8554 本 1 2 3 4 5 6 7 8 9 1 11 12 13 14 15 16 17 18 19 2 21 22 23 24 25 26 27 28 29 3 31 32 33 34 35 36 x 2 network units

T2K-Tsukuba の計算ノード性能の問題点 メモリバンド幅の不足 PACS-CS: 5.6GFLOPS, 6.4GB/s 1.14 Byte/FLOP T2K-Tsukuba: 147.2GFLOPS, 42.7GB/s.29Byte/FLOP PACS-CS に比べ約 1/4 の Byte/FLOP 性能しかない MC/MS 構成により メモリ階層が非常に複雑 B8 シリーズ AMD quad-core Opteron (Barcelona) 4 つの core が各 512KB の private L2 cache を持ち さらに 2MB の shared L3 cache を持つ 4 つの CPU socket は共有メモリ結合だが構成は NUMA (Non-Uniform Memory Architecture) MC 化はさらに進むが メモリ性能が追いつかない! DDR2->DDR3, FSB のさらなる向上でメモリも良くなっているが core 数はそれを上回る勢いで増える HPC 的にどうか? 以上の背景の下 MC/MS 構成ノードにおける演算性能とメモリ性能の特性を調べ MC/MS 環境の core の有効利用方法を探る

マルチソケット環境における並列化 NUMA(Non-Uniform Memory Access) アーキテクチャ 高いメモリアクセス性能 NUMA アーキテクチャに合わせたチューニングが必要 NUMAコントロール (numactl) 並列化による性能向上 メモリバインド プロセスのマッピング 8 衝突が発生! レイテンシ大 ソケット ソケット 1 memory memory 2 core core 1 core core 2 3 core core core core 8 2 9 12 13 3 core 1 core 11 core 4 core 6 core 14 core 5 1 core 7 core 15 memory 1 ソケット 2 ソケット 3 memory 3

T2K-Tsukuba における MC/MS ノード性能 Byte/FLOP という尺度に着目し synthetic benchmark により MC/MS におけるプロセスマッピングとメモリ性能の関係を詳細評価 double a[n/p], b[n/p], x1, x2, y; /* N is large enough */ for(i=; i<n/p; i++){ x1 = _mm_load_pd(&a[i]); x2 = _mm_load_pd(&b[i]); y1 = x1; y2 = x2; y1 = _mm_mul_pd(y1,y2); y1 = _mm_mul_pd(y1,y2); _mm_store_pd(&c[i], y1); } メモリアクセス 1 浮動小数点演算回数を調節 (1, 2, 4, 8, 12, 16, 24 回 )

プロセスのマッピング : Linux numactl numactl physcpubind (core mapping: blocked) MPIプロセス 2 MPIプロセス 4 MPIプロセス 8 MPIプロセス 16 socket socket 1 socket socket 1 socket socket 1 socket socket 1 1 1 1 4 5 1 4 5 2 3 2 3 6 7 2 3 6 7 socket 2 socket 3 socket 2 socket 3 socket 2 socket 3 socket 2 8 9 1 11 numactl cpunodebind (socket mapping: interleaved) socket socket 2 socket 3 1 socket 2 2 socket 3 3 socket 3 12 13 14 15 MPIプロセス 2 MPIプロセス 4 MPIプロセス 8 MPIプロセス 16 socket 1 socket socket 1 socket socket 1 1 1 4 1 5 socket 2 2 6 socket 3 3 7 socket 4 8 12 socket 2 2 6 1 14 socket 1 1 5 9 13 socket 3 3 7 11 15

プロセスとソケットのマッピングとメモリ性能 14 B/F 要求が低ければ問題なし 性能 [MFlops] 12 1 8 6 socket (interleaved) mapping core (blocked) mapping 1.5 Byte/flop 3 Byte/flop 6 Byte/flop 12 Byte/flop 24 Byte/flop 1.5 Byte/flop 3 Byte/flop 6 Byte/flop 12 Byte/flop 24 Byte/flop B/F 要求が高いと core/socket が多いと性能低下大 4 2 2 4 proc. 増強が性能に結びついていない 2 4 8 16 1 11 並列度 [ MPI プロセス数 ]

考察と今後の進展 numactlによるプロセスマッピングの重要性 socket mapping か core mapping かを慎重に検討する必要あり メモリバンド幅要求による影響が強い メモリ性能限界 Byte/FLOPに基づく性能予測は重要 プロセス数の増加が必ずしも性能に結びつかない場合がある プロセス数またはスレッド数の制御 アプリケーションのメモリバンド幅要求に応じ 性能向上に結びつく利用コア数限界を求める 余剰コア が発生した場合 これを有効利用する ( 例 : 通信スレッドへの割り当てによる全体性能の向上 )

MR 特性の予備評価 T2K-Tsukuba におけるノード間通信の MR の数 ( 何本の Infiniband を通信に用いるか ) T2K-Tsukuba における Fat-Tree ネットワークの評価 Intel MPI benchmark による性能評価 使用ノード数 :2~128 nodes

pingpong, pingping 性能 [ バンド幅 ] PingPong Mbytes/sec 45 4 35 3 25 2 15 1 5 1 1 1 1 1 1 1 1 35 3 Data size [byte] PingPing MR=2 MR=4 の効果は小さい ( データサイズがかなり大きくないと効果がない ) pingpong と pingping の性能は近い PCI-Express に十分なバンド幅があり 双方向通信でも高速 ( どちらかというと )multi-rail は複数の通信ストリームに分散させて使った方がよいのではないか? 25 Mbytes/sec 2 15 1 5 1 1 1 1 1 1 1 1 Data size [bytes]

Exchange( 隣接転送 ) 性能 [ 時間 ] Exchange(Data size : 1MB) Exchange(Data size : 4MB) 35 7 3 6 時間 (usec) 25 2 15 1 5 2 4 8 16 32 64 128 時間 (usec) 5 4 3 2 1 2 4 8 16 32 64 128 ノード数 ノード数 Exchange(Data size : 2MB) 時間 (usec) 35 3 25 2 15 1 5 1MB の時のデータがおかしい? データサイズが大きいと MR=4 の効果が高く出る Fat-tree であることで ノード数が増加しても通信性能に影響しない 2 4 8 16 32 64 128 ノード数

Allreduce 性能 [ 時間 ] Allreduce (Data size : 1MB) Allreduce (Max Data size : 4MB) 5 35 45 4 3 時間 (usec) 35 3 25 2 15 時間 [usec] 25 2 15 1 1 5 5 21 42 38 16 4 532 64 6 128 7 ノード数 2 4 8 16 32 64 128 2 4 8 16 32 64 128 ノード数 時間 usec) 12 1 8 6 4 2 Allreduce (Data size : 2MB) 2 2 4 8 16 16 32 32 64 64 128 128 データサイズが小さい場合は MR 数増加で通信性能改善 4MB 時に MR=4 で性能劣化 通信バッファ不足? ノード数増加に対し log オーダー程度の通信時間 Fat-Tree が有効に働いている ノード数

Alltoall 性能 [ 時間 ] Alltoall(Data size : 1MB) Alltoall(Data size : 4MB) 35 14 3 12 時間 (usec) 25 2 15 1 時間 (usec) 1 8 6 4 5 2 1 2 3 4 5 6 7 2 4 8 16 32 64 128 ノード数 2 4 8 16 32 64 128 ノード数 時間 (usec) 7 6 5 4 3 2 1 Alltoall(Data size : 2MB) どの場合でも MR 数増加が性能改善に貢献 最も多数のメッセージ通信が行われるが他の collective 通信より性能が安定している Fat-Tree が有効に働いている 1 2 3 4 5 6 7 2 4 8 16 32 64 128 ノード数

ノードを跨ぐ多数通信ペアの性能 [ バンド幅 ] 64KB (USE_FIRST) 4MB (USE_FIRST) (RR) (USE_FIRST) (RR) (USE_FIRST) 35 3 25 (RR) 5 45 4 35 (RR) MB/s 2 15 MB/s 3 25 2 1 5 5 1 15 2 通信ペア数 15 1 5 5 1 15 2 通信ペア数 2 ノード間の通信ペア数を変化させた sendrecv 通信 ( 双方向同時 ) 通信ペア数が増えれば MR 数を増やすよりも MR=1 で複数通信ストリームを同時並行実行した方が効率が良いはず MR=4 が常に良い T2K-Tsukuba で用いている MVAPICH2 の設定 パラメータ選択に問題があるのでは?

まとめ 現状の T2K-Tsukuba において point-to-point, collective のどちらの通信でも Infiniband の MR (binding) は概ね効果がある 一部の負性特性領域 ケースがあるが MR=2 or MR=4 としておいた方が全体の通信性能が向上する point-to-point と collective では MR の効き方に違いがあるため アプリケーションで重要な通信の種類とデータサイズに応じ 最適な MR 数を見つける必要があるのでは? 現状の問題点と今後の課題 ノード上に複数 MPI プロセスがあり 同時に多数の通信を行う場合 MR=1 で複数ストリームを同時に処理できていない? いつでも MR=2 or MR=4 とした方が とりあえず 性能が高い 今後 MVAPICH2 の実装とパラメータ設定を詳細に調査 MC/MS/MR という複雑な構造における性能最適化のため core と rail の使い方 パラメータ設定を ( 半 ) 自動化するようなシステムを作りたい