Microsoft Word ●IntelクアッドコアCPUでのベンチマーク_吉岡_ _更新__ doc

Similar documents
VXPRO R1400® ご提案資料

<4D F736F F D20332E322E332E819C97AC91CC89F090CD82A982E78CA982E9466F E393082CC8D5C91A291CC90AB945C955D89BF5F8D8296D85F F8D F5F E646F63>

修士論文

本文ALL.indd

Itanium2ベンチマーク

(速報) Xeon E 系モデル 新プロセッサ性能について

最新の並列計算事情とCAE

GPGPUクラスタの性能評価

Microsoft PowerPoint - GPUシンポジウム _d公開版.ppt [互換モード]

Microsoft Word - HOKUSAI_system_overview_ja.docx

システムソリューションのご紹介

Microsoft PowerPoint - ARCEMB08HayashiSlides.ppt [互換モード]

Microsoft PowerPoint - CCS学際共同boku-08b.ppt

スライド 1

Microsoft PowerPoint - 演習1:並列化と評価.pptx

Microsoft Word ●MPI性能検証_志田_ _更新__ doc

Pervasive PSQL v11 のベンチマーク パフォーマンスの結果

Microsoft PowerPoint 知る集い(京都)最終.ppt

Microsoft PowerPoint PCクラスタワークショップin京都.ppt

PowerPoint プレゼンテーション

Microsoft PowerPoint - ★13_日立_清水.ppt

スライド 1

HPC143

openmp1_Yaguchi_version_170530

Microsoft PowerPoint - sales2.ppt

Microsoft PowerPoint - GDEP-GPG_softek_May24-1.pptx

ためのオーバーヘッドが課題となりつつある しかしこのオーバーヘッドに関する数値はほとんど公開されていない この論文ではこの cache coherency の時間を Linux カーネルで提供されている atomic_inc 関数を用いて測定する方法を新たに考案し 実測プログラムを作成した 実測はプ

チューニング講習会 初級編

並列・高速化を実現するための 高速化サービスの概要と事例紹介

Microsoft Word ●書式付IO性能_杉崎_ _更新__ doc

NVIDIA Tesla K20/K20X GPU アクセラレータ アプリケーション パフォーマンス テクニカル ブリーフ

hpc141_shirahata.pdf

<4D F736F F F696E74202D F A282BD94BD959C89F A4C E682528D652E707074>

コードのチューニング

九州大学がスーパーコンピュータ「高性能アプリケーションサーバシステム」の本格稼働を開始

TSUBAME2.0 における GPU の 活用方法 東京工業大学学術国際情報センター丸山直也第 10 回 GPU コンピューティング講習会 2011 年 9 月 28 日

Microsoft PowerPoint - DNS_BoF_SCS_ pptx

パフォーマンスレポート PRIMERGY TX100 S3

EnSightのご紹介

CCS HPCサマーセミナー 並列数値計算アルゴリズム

パフォーマンスレポート PRIMERGY TX100 S2

N08

富士通PCサーバ「PRIMERGY RX2530 M4」における「TeraStation TS5010 / TS3010」シリーズ動作検証報告

Microsoft PowerPoint - GPGPU実践基礎工学(web).pptx

(Microsoft PowerPoint \215u\213`4\201i\221\272\210\344\201j.pptx)

Microsoft PowerPoint ppt

システム imac 21.5 インチディスプレイ 3.6GHz i5 Dual core / HT 2.8GHz i7 Quad core / HT ATI Radeon 4850 ATI Radeon HD はいいいえいいえはいいいえ ATI はいいいえ

GPU チュートリアル :OpenACC 篇 Himeno benchmark を例題として 高エネルギー加速器研究機構 (KEK) 松古栄夫 (Hideo Matsufuru) 1 December 2018 HPC-Phys 理化学研究所 共通コードプロジェクト

スライド 1

ワークステーション推奨スペック Avid Avid Nitris Mojo SDI Fibre 及び Adrenaline MC ソフトウェア 3.5 以降のバージョンが必要です Dual 2.26 GHz Quad Core Intel 構成のに関しては Configuration Guideli

[4] ACP (Advanced Communication Primitives) [1] ACP ACP [2] ACP Tofu UDP [3] HPC InfiniBand InfiniBand ACP 2 ACP, 3 InfiniBand ACP 4 5 ACP 2. ACP ACP

PowerPoint プレゼンテーション

PassMark PerformanceTest ™

スライド 1

PowerPoint プレゼンテーション

HP ProLiant サーバおよびオプション製品の価格改定

Microsoft Word - nvsi_050110jp_netvault_vtl_on_dothill_sannetII.doc

Microsoft PowerPoint - stream.ppt [互換モード]

PowerPoint プレゼンテーション

インテルの現行ラインナップは と Refresh アーキテクチャはそのままラインナップ強化 第 2 世代 Sandy Bridge 第 3 世代 Ivy Bridge 第 4 世代 Refresh アーキテクチャ刷新 AVX 対応 32nm プロセスルール 性能 電力とも大幅進化 22nm プロセス

<4D F736F F F696E74202D2091E63489F15F436F6D C982E682E992B48D8291AC92B489B F090CD2888F38DFC E B8CDD8

Microsoft PowerPoint _SS研_林_公開.ppt [互換モード]

理研スーパーコンピュータ・システム

<4D F736F F D A838B83678DC095578C6E82CC D815B834E2E646F63>

高性能計算研究室の紹介 High Performance Computing Lab.

GPGPU によるアクセラレーション環境について

PowerPoint プレゼンテーション

Microsoft PowerPoint - ARC2009HashiguchiSlides.pptx

PowerPoint プレゼンテーション

Slides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments

スライド 1

研究背景 大規模な演算を行うためには 分散メモリ型システムの利用が必須 Message Passing Interface MPI 並列プログラムの大半はMPIを利用 様々な実装 OpenMPI, MPICH, MVAPICH, MPI.NET プログラミングコストが高いため 生産性が悪い 新しい並

ERDAS IMAGINE における処理速度の向上 株式会社ベストシステムズ PASCO CORPORATION 2015

CPU Levels in the memory hierarchy Level 1 Level 2... Increasing distance from the CPU in access time Level n Size of the memory at each level 1: 2.2

HPC可視化_小野2.pptx

技術が生み出す魔法!最新ハードウェアとチューニングで激速データベース

NUMAの構成

PowerPoint Presentation

Microsoft PowerPoint - ARCICD07FukumotoSlides.pptx

電気通信大学 I 類 情報系 情報 ネットワーク工学専攻 CED 2018 システム利用ガイド ver1.2 CED 管理者 学術技師 島崎俊介 教育研究技師部 実験実習支援センター 2018 年 3 月 29 日 1 ログイン ログアウト手順について 1.1 ログイン手順 CentOS 1. モニ

― ANSYS Mechanical ―Distributed ANSYS(領域分割法)ベンチマーク測定結果要約

研究報告用MS-Wordテンプレートファイル

CELSIUSカタログ(2012年7月版)

<4D F736F F D20322E332E322E819C94BC8CC AA8E7193AE97CD8A778C768E5A82F A282BD B835E90AB945C82CC91AA92E85F93EC95945F F8D F5F E646F6378>

1重谷.PDF

CELSIUSカタログ(2012年5月版)

4 倍精度基本線形代数ルーチン群 QPBLAS の紹介 [index] 1. Introduction 2. Double-double algorithm 3. QPBLAS 4. QPBLAS-GPU 5. Summary 佐々成正 1, 山田進 1, 町田昌彦 1, 今村俊幸 2, 奥田洋司

Microsoft Word - 2.2_takaki.doc

PowerPoint プレゼンテーション

内容 WGの概要 アプリケーションチューニングの実践例 会員のいくつかの例より 活動の総括 かなり個人的 まとめ 2

26 宇宙航空研究開発機構特別資料 JAXA-SP 表 1: LES 解析に必要な計算規模の予測 スケール Re 数 格子点数 時間刻み幅計算時間計算能力 [µ 秒 ] ステップ数 [ 時間 ] [FLOPS] 研究 万点 2 20 万 5 8 Tera 風試 10

HPCマシンの変遷と 今後の情報基盤センターの役割

ポスト「京」でのコデザイン 活動報告

Microsoft Word ●FortranとC言語C++の速度比較_平野_ _更新__ doc

統計数理研究所とスーパーコンピュータ

マルチコアPCクラスタ環境におけるBDD法のハイブリッド並列実装

untitled


untitled

Microsoft Word - JP-AppLabs-MySQL_Update.doc

Transcription:

2.3. アプリ性能 2.3.1. Intel クアッドコア CPU でのベンチマーク 東京海洋大学吉岡諭 1. はじめにこの数年でマルチコア CPU の普及が進んできた x86 系の CPU でも Intel と AD がデュアルコア クアッドコアの CPU を次々と市場に送り出していて それらが PC クラスタの CPU として採用され HPC に活用されている ここでは Intel クアッドコア CPU を搭載した PC 単体で浮動小数点を中心としたベンチマークプログラムを実行し CPU 及びコンパイラの並列性能を調べた結果を報告する 並列化には コンパイラの自動並列化機能を用いた 2. ベンチマーク 今回ベンチマークプログラムとしては姫野ベンチマークを採用した 姫野ベンチマークがマルチコア CPU の性能を測定する最良のベンチマークということでは必ずしもないが これまで日本で浮動小数点演算の実効性能を測定するベンチマークとして広く利用されてきたことを考慮し採用した 姫野ベンチマークは 3 次元格子でポアッソン方程式をヤコビの反復法で解く場合に主要となるループの処理速度を計るものである その主要ループは以下の通りである gosa=. do k=2,kmax-1 do j=2,jmax-1 do i=2,imax-1 s=a(i,j,k,1)*p(i+1,j,k) & +a(i,j,k,2)*p(i,j+1,k) & +a(i,j,k,3)*p(i,j,k+1) & +b(i,j,k,1)*(p(i+1,j+1,k)-p(i+1,j-1,k) & -p(i-1,j+1,k)+p(i-1,j-1,k)) & +b(i,j,k,2)*(p(i,j+1,k+1)-p(i,j-1,k+1) & -p(i,j+1,k-1)+p(i,j-1,k-1)) & +b(i,j,k,3)*(p(i+1,j,k+1)-p(i-1,j,k+1) & -p(i+1,j,k-1)+p(i-1,j,k-1)) & +c(i,j,k,1)*p(i-1,j,k) & +c(i,j,k,2)*p(i,j-1,k) & +c(i,j,k,3)*p(i,j,k-1)+wrk1(i,j,k) ss=(s*a(i,j,k,4)-p(i,j,k))*bnd(i,j,k) gosa=gosa+ss*ss wrk2(i,j,k)=p(i,j,k)+omega *ss enddo enddo 測定に用いたプラットホームは以下のものである (1) Intel Core 2 Extreme QX67 (4 コア ) model name : Intel(R) Core2 Quad CPU (Kentsfield) 2.66GHz 2 cache size : 496 KB 2 FB : 166Hz O : CentO 5. for Intel64 (2) Intel Xeon E5462 2CPU (4x2 コア ) model name : Intel(R) Xeon E5462 Quad CPU (Harpertown) 2.8GHz 2 cache size : 6B 2/cpu FB : 16Hz O : Fedora 8 for Intel64

(3) Intel Core i7 94 (4コア) model name : Intel(R) Core i7 Quad CPU (Nehalem ) 2.93GHz 2 cache size : 256kB/core 3 cache size : 8B ( 共有 ) QPI : 4.8GHz O : Cent O 5.2 for Intel64 なお TREA ベンチマークを用いて測定した両システムのメモリバンド幅は以下の通りである (1) QX67 :1 コアでは 4.6GB/s 4.7GB/s 4 コア (openmp) でも 4.6GB/s 4.7GB/s (2) E5462 :1 コアでは 4.7GB/s 5.5GB/s 8 コア (openmp) では 8.1GB/s 8.8GB/s (3) Core i7 94:1 コアでは 5.7GB/s 1GB/s 4 コア (openmp) では 11GB/s 16GB/s 測定に用いたコンパイラは以下のものである A) Fujitsu Fortran Version 3. B) Intel Fortran Compliler 1..26 (Core i7 94 だけ 11.1.56) C) GNU 4.1.2 3. 測定結果ベンチマークの測定は 4 つの格子で行った X (64x32x32) (128x64x64) (256x128x128) (512x256x256) 利用する配列の総バイト数は X では 3.6B では 29B では 235B では 1.9GB になる 測定結果を以下に示す 3.1 スカラー性能コンパイラオプションは以下の通りである -O3 (GNU) -O3 (Intel) -Kfast (Fujitsu) 測定結果を図 1 に示す どのシステムとも格子が大きくなるに従って 性能が落ちている 特に X と の間で性能差が大きい X では全配列が 2 キャッシュにおさまるのに対して 以上の格子では配列が 2 キャッシュから溢れていることが原因と考えられる また Core i7 94 (Nehalem) のスカラー性能が高いことが目立つ QX67 i7 94 25 2 15 1 5 25 2 15 1 5 5 45 4 35 3 25 2 15 1 5 図 1. スカラー性能

3.2 自動並列化 GNU は自動並列化機能を持っていない スカラー版のベンチマークコードはそのままでは Intel コンパイラ ver1. 及び ver11.1 では自動並列化されなかった そのため わずかなコードの変更とコンパイルオプションの追加を行うことによって 自動並列化を行った コンパイラオプションは以下の通りである -O3 -parallel -par-threshold99 (Intel) -Kfast,parallel (Fujitsu) QX67 i7 94 8 16 16 7 14 14 6 12 12 5 4 3 1 8 6 1 8 6 2 4 4 1 2 2 図 2. 自動並列化性能 測定結果を図 2 に示す ここでも各システムとも格子が大きくなるに従って 性能が落ちている スカラー計算に対する性能向上率は富士通コンパイラでは QX67 で 1.35 倍 ( ) から 3.78 倍 (X ) E5462 で 2.52 倍 ( ) から 6.85 倍 (X ) i7 94 で 2.7 倍 ( ) から 3.51 倍 (X ) となっている 格子 X では性能向上率がかなり高く 2 キャッシュにデータがおさまっている場合には マルチコアの威力が発揮できているようである Core i7 94 はが 4 つであるのに その倍のの E5462x2 と同等以上の性能を示している 3.3 コンパイラオプションは以下の通りである -O3 -fopenmp (GNU) -O3 -openmp (Intel) -Kfast,OP (Fujitsu) 測定結果を図 3 に示す ここでも各システムとも格子が大きくなるに従って 性能が落ちている GNU コンパイラの 性能はかなり低いこともわかる スカラー計算に対する性能向上率は富士通コンパイラでは QX67 で 1.36 倍 ( ) から 3.85 倍 (X ) E5462 で 2.4 倍 ( ) から 6.66 倍 (X ) i7 94 で 2.6 倍 ( ) から 3.5 倍 (X ) となっている 自動並列化と同様に 格子 X では性能向上率がかなり高い 自動並列の場合と同様に Core i7 94 は E5462x2 と同等以上の性能を示している

QX67 i7 94 9 8 7 6 5 4 3 2 1 18 16 14 12 1 8 6 4 2 2 18 16 14 12 1 8 6 4 2 図 3. 性能 3.4 ライブラリは Open 1.2.4 を用いた 1 次元方向の領域分割を用いて並列化をしている コンパイラオプションは以下の通りである -O3 (GNU) -O3 (Intel) -Kfast (Fujitsu) 測定結果を図 4 に示す 各システムとも格子が大ききなるに従って 性能が落ちている スカラー計算に対する性能向上率は富士通コンパイラでは QX67 で 1.33 倍 ( ) から 2.79 倍 (X ) E5462 で 2. 倍 ( ) から 6.42 倍 (X ) i7 94 で 2.23 倍 ( ) から 3.51 倍 (X ) となっている 性能向上率は他の並列計算に比べてわずかに小さい QX67 i7 94 6 14 14 5 12 12 4 3 2 1 8 6 4 1 8 6 4 1 2 2 図 4. 性能 なお すべての並列計算で QX67 では ~ で同等の結果なのに対して E5462 では の性能が の性能を大きく上回っている その理由として 利用できる 2 キャッシュの総量が QX67 では 8B なのに対して E5462 では 24B あり これは の計算が必要とするメモリ量にほぼ匹敵し ある程度 2 キャッシュを利用した計算ができているためと考えられる Core i7 94 は の計算で E5462x2 の倍の性能を示している 3.5 と並列性能 E5462 で富士通コンパイラを用いて 利用する ( スレッド数 ) に対する性能測定を自動並列

それぞれに対して測定した結果を図 5 に示す 基本的には利用するが増すにつれて性能は上がっているが では 8 コアの性能が 4 コアの性能を下回る場合がある 4. 考察 4.1 コンパイラスカラ性能は富士通コンパイラとインテルコンパイラ ver1.&ver11.1 が高い 並列計算した場合ではコンパイラによる性能差はあまりない マルチコアで計算したからといって分計算が速くなる訳ではない ベンチマークのが大きい場合には コンパイラの自動並列化機能 いずれの並列化を適用した場合にも性能はあまり変わらない そういう意味ではコンパイラの自動並列化機能は健闘していると言える 4.2 メモリバンド幅とキャッシュシングルコアの CPU では キャッシュを活用した計算が出来るかどうかが性能を左右していた その状況はマルチコア CPU でも変わらない マルチコア化によって CPU 全体としての演算性能が上がったため メモリバンド幅に対する要求が大きくなっていて 結果としてキャッシュを活用できるかどうかが性能に大きく影響を与えている 特にここで測定した姫野ベンチマークのように 浮動小数点演算数に対する メモリへのアクセス数の比率が高い場合には その影響が大きい ただし マルチコア化によって 結果的に1CPU あたりで利用できるキャッシュの量が増えたため シングルコアではキャッシュに載らなかった計算がマルチコアではキャッシュにおさまるようになり 性能が上がるということもある と自動並列性能 と 性能 16 14 14 12 12 1 8 6 4 X 1 8 6 4 X 2 2 と 性能 ( 分割 : 最外側ループ ) と 性能 ( 分割 : 最内側ループ ) 14 14 12 12 1 8 6 4 X 1 8 6 4 X 2 2 図 5. と並列性能 以上

補足資料 QX67 のベンチマーク結果 : と 値 ( スカラー以外は 4 コア ) スカラー自動並列 X 1825.4 276.6 914.64 158.27 1536.2 859.49 144.79 159.78 787.1 1369.46 1429.59 71.71 X 6916.59 593.31 2127.82 1914.47 1919.27 1819.46 186.56 1837.81 X 721.3 8213.53 385.21 2141.4 25.36 1975.97 1914.78 1874.47 1834.3 1859.85 1831.23 179.23 X 583.88 5332.59 4612.3 183.73 1799.86 1792.8 1826.73 1827.2 1848.51 1825.7 1835.12 1854.96 でのベンチマーク結果 : と 値 ( スカラー以外は 8 コア ) スカラー自動並列 X 1993.35 235.17 985.71 1512.17 15.79 899.22 1415.78 1442.64 787.19 1247.71 1333.44 694.25 X 13653.96 14231.42 657.77 5289.95 355.24 3182.46 314.34 2698.68 X 13285.28 15269.24 5462.88 5889.66 5795.5 479.59 3159.33 3325.99 32.31 2999.57 368.13 2752.87 X 11897.21 11735.14 11393.37 3538.89 3568.11 361.4 2826.37 2855.61 2851.65 2588.95 2625.89 2738.42

Core i7 の 94 ベンチマーク結果 : と 値 ( スカラー以外は 4 コア ) スカラー自動並列 X 3784.19 4564.7 1295.31 3393.25 3982.34 1277.67 322.94 3859.39 1181.88 2779.55 3431.87 118.58 X 13279.37 13936.9 6295.6 563.32 5968.83 5254.35 5745.72 5354.6 X 13571.87 17146.44 4535.93 6313.61 613.17 4177.21 5935.83 5465.88 3849.17 5738.53 5498.23 348.91 X 13252.81 11939.4 8861.22 585.4 581.21 5811.25 6126.84 6131.4 6158.61 6196.14 6193.41 622.98 E5462 x 2 でのベンチマーク結果 : と 値 自動並列 ( 分割は最外側ループ ) ( 分割は最内側ループ ) parallel (X) parallel () parallel () parallel () 1 21.83 1513.36 1414 1217.98 2 3954.33 1617.49 1611.3 1488.37 4 7363 2112.21 1934.28 1769.42 8 13837.51 636.84 3121.32 2758.49 (X) () () () 1 273.9 151.62 1414.12 1252.38 2 489.2 275.88 2517.85 1721.9 4 7376.55 564.5 3159.14 2837.45 8 13285.28 5889.66 3159.33 2999.57 (X) () () () 1 2662.82 1542.29 1512.72 1358.4 2 496.28 2843.86 2627.57 227.25 4 822.93 5394.65 2964.1 2497.33 8 12798.31 5134.3 2993.13 2491.56 (X) () () () 1 2661.75 1518.47 1514.34 1389.72 2 4861.83 2792.92 2584.6 2169.11 4 7934.51 4212.4 295.75 2622.96 8 11895.4 3538.89 2817.83 2588.95