Microsoft Word ●IntelクアッドコアCPUでのベンチマーク_吉岡_ _更新__ doc

Size: px

Start display at page:

Download "Microsoft Word ●IntelクアッドコアCPUでのベンチマーク_吉岡_ _更新__ doc"

えりかいのら
9 years ago
Views:

1 2.3. アプリ性能 Intel クアッドコア CPU でのベンチマーク東京海洋大学吉岡諭 1. はじめにこの数年でマルチコア CPU の普及が進んできた x86 系の CPU でも Intel と AD がデュアルコアクアッドコアの CPU を次々と市場に送り出していてそれらが PC クラスタの CPU として採用され HPC に活用されているここでは Intel クアッドコア CPU を搭載した PC 単体で浮動小数点を中心としたベンチマークプログラムを実行し CPU 及びコンパイラの並列性能を調べた結果を報告する並列化にはコンパイラの自動並列化機能を用いた 2. ベンチマーク今回ベンチマークプログラムとしては姫野ベンチマークを採用した姫野ベンチマークがマルチコア CPU の性能を測定する最良のベンチマークということでは必ずしもないがこれまで日本で浮動小数点演算の実効性能を測定するベンチマークとして広く利用されてきたことを考慮し採用した姫野ベンチマークは 3 次元格子でポアッソン方程式をヤコビの反復法で解く場合に主要となるループの処理速度を計るものであるその主要ループは以下の通りである gosa=. do k=2,kmax-1 do j=2,jmax-1 do i=2,imax-1 s=a(i,j,k,1)*p(i+1,j,k) & +a(i,j,k,2)*p(i,j+1,k) & +a(i,j,k,3)*p(i,j,k+1) & +b(i,j,k,1)*(p(i+1,j+1,k)-p(i+1,j-1,k) & -p(i-1,j+1,k)+p(i-1,j-1,k)) & +b(i,j,k,2)*(p(i,j+1,k+1)-p(i,j-1,k+1) & -p(i,j+1,k-1)+p(i,j-1,k-1)) & +b(i,j,k,3)*(p(i+1,j,k+1)-p(i-1,j,k+1) & -p(i+1,j,k-1)+p(i-1,j,k-1)) & +c(i,j,k,1)*p(i-1,j,k) & +c(i,j,k,2)*p(i,j-1,k) & +c(i,j,k,3)*p(i,j,k-1)+wrk1(i,j,k) ss=(s*a(i,j,k,4)-p(i,j,k))*bnd(i,j,k) gosa=gosa+ss*ss wrk2(i,j,k)=p(i,j,k)+omega *ss enddo enddo 測定に用いたプラットホームは以下のものである (1) Intel Core 2 Extreme QX67 (4 コア ) model name : Intel(R) Core2 Quad CPU (Kentsfield) 2.66GHz 2 cache size : 496 KB 2 FB : 166Hz O : CentO 5. for Intel64 (2) Intel Xeon E5462 2CPU (4x2 コア ) model name : Intel(R) Xeon E5462 Quad CPU (Harpertown) 2.8GHz 2 cache size : 6B 2/cpu FB : 16Hz O : Fedora 8 for Intel64

2 (3) Intel Core i7 94 (4コア) model name : Intel(R) Core i7 Quad CPU (Nehalem ) 2.93GHz 2 cache size : 256kB/core 3 cache size : 8B ( 共有 ) QPI : 4.8GHz O : Cent O 5.2 for Intel64 なお TREA ベンチマークを用いて測定した両システムのメモリバンド幅は以下の通りである (1) QX67 :1 コアでは 4.6GB/s 4.7GB/s 4 コア (openmp) でも 4.6GB/s 4.7GB/s (2) E5462 :1 コアでは 4.7GB/s 5.5GB/s 8 コア (openmp) では 8.1GB/s 8.8GB/s (3) Core i7 94:1 コアでは 5.7GB/s 1GB/s 4 コア (openmp) では 11GB/s 16GB/s 測定に用いたコンパイラは以下のものである A) Fujitsu Fortran Version 3. B) Intel Fortran Compliler (Core i7 94 だけ ) C) GNU 測定結果ベンチマークの測定は 4 つの格子で行った X (64x32x32) (128x64x64) (256x128x128) (512x256x256) 利用する配列の総バイト数は X では 3.6B では 29B では 235B では 1.9GB になる測定結果を以下に示す 3.1 スカラー性能コンパイラオプションは以下の通りである -O3 (GNU) -O3 (Intel) -Kfast (Fujitsu) 測定結果を図 1 に示すどのシステムとも格子が大きくなるに従って性能が落ちている特に X との間で性能差が大きい X では全配列が 2 キャッシュにおさまるのに対して以上の格子では配列が 2 キャッシュから溢れていることが原因と考えられるまた Core i7 94 (Nehalem) のスカラー性能が高いことが目立つ QX67 i 図 1. スカラー性能

3 3.2 自動並列化 GNU は自動並列化機能を持っていないスカラー版のベンチマークコードはそのままでは Intel コンパイラ ver1. 及び ver11.1 では自動並列化されなかったそのためわずかなコードの変更とコンパイルオプションの追加を行うことによって自動並列化を行ったコンパイラオプションは以下の通りである -O3 -parallel -par-threshold99 (Intel) -Kfast,parallel (Fujitsu) QX67 i 図 2. 自動並列化性能測定結果を図 2 に示すここでも各システムとも格子が大きくなるに従って性能が落ちているスカラー計算に対する性能向上率は富士通コンパイラでは QX67 で 1.35 倍 ( ) から 3.78 倍 (X ) E5462 で 2.52 倍 ( ) から 6.85 倍 (X ) i7 94 で 2.7 倍 ( ) から 3.51 倍 (X ) となっている格子 X では性能向上率がかなり高く 2 キャッシュにデータがおさまっている場合にはマルチコアの威力が発揮できているようである Core i7 94 はが 4 つであるのにその倍のの E5462x2 と同等以上の性能を示している 3.3 コンパイラオプションは以下の通りである -O3 -fopenmp (GNU) -O3 -openmp (Intel) -Kfast,OP (Fujitsu) 測定結果を図 3 に示すここでも各システムとも格子が大きくなるに従って性能が落ちている GNU コンパイラの性能はかなり低いこともわかるスカラー計算に対する性能向上率は富士通コンパイラでは QX67 で 1.36 倍 ( ) から 3.85 倍 (X ) E5462 で 2.4 倍 ( ) から 6.66 倍 (X ) i7 94 で 2.6 倍 ( ) から 3.5 倍 (X ) となっている自動並列化と同様に格子 X では性能向上率がかなり高い自動並列の場合と同様に Core i7 94 は E5462x2 と同等以上の性能を示している

4 QX67 i 図 3. 性能 3.4 ライブラリは Open を用いた 1 次元方向の領域分割を用いて並列化をしているコンパイラオプションは以下の通りである -O3 (GNU) -O3 (Intel) -Kfast (Fujitsu) 測定結果を図 4 に示す各システムとも格子が大ききなるに従って性能が落ちているスカラー計算に対する性能向上率は富士通コンパイラでは QX67 で 1.33 倍 ( ) から 2.79 倍 (X ) E5462 で 2. 倍 ( ) から 6.42 倍 (X ) i7 94 で 2.23 倍 ( ) から 3.51 倍 (X ) となっている性能向上率は他の並列計算に比べてわずかに小さい QX67 i 図 4. 性能なおすべての並列計算で QX67 では ~ で同等の結果なのに対して E5462 ではの性能がの性能を大きく上回っているその理由として利用できる 2 キャッシュの総量が QX67 では 8B なのに対して E5462 では 24B ありこれはの計算が必要とするメモリ量にほぼ匹敵しある程度 2 キャッシュを利用した計算ができているためと考えられる Core i7 94 はの計算で E5462x2 の倍の性能を示している 3.5 と並列性能 E5462 で富士通コンパイラを用いて利用する ( スレッド数 ) に対する性能測定を自動並列

5 それぞれに対して測定した結果を図 5 に示す基本的には利用するが増すにつれて性能は上がっているがでは 8 コアの性能が 4 コアの性能を下回る場合がある 4. 考察 4.1 コンパイラスカラ性能は富士通コンパイラとインテルコンパイラ ver1.&ver11.1 が高い並列計算した場合ではコンパイラによる性能差はあまりないマルチコアで計算したからといって分計算が速くなる訳ではないベンチマークのが大きい場合にはコンパイラの自動並列化機能いずれの並列化を適用した場合にも性能はあまり変わらないそういう意味ではコンパイラの自動並列化機能は健闘していると言える 4.2 メモリバンド幅とキャッシュシングルコアの CPU ではキャッシュを活用した計算が出来るかどうかが性能を左右していたその状況はマルチコア CPU でも変わらないマルチコア化によって CPU 全体としての演算性能が上がったためメモリバンド幅に対する要求が大きくなっていて結果としてキャッシュを活用できるかどうかが性能に大きく影響を与えている特にここで測定した姫野ベンチマークのように浮動小数点演算数に対するメモリへのアクセス数の比率が高い場合にはその影響が大きいただしマルチコア化によって結果的に1CPU あたりで利用できるキャッシュの量が増えたためシングルコアではキャッシュに載らなかった計算がマルチコアではキャッシュにおさまるようになり性能が上がるということもあると自動並列性能と性能 X X 2 2 と性能 ( 分割 : 最外側ループ ) と性能 ( 分割 : 最内側ループ ) X X 2 2 図 5. と並列性能以上

6 補足資料 QX67 のベンチマーク結果 : と値 ( スカラー以外は 4 コア ) スカラー自動並列 X X X X でのベンチマーク結果 : と値 ( スカラー以外は 8 コア ) スカラー自動並列 X X X X

7 Core i7 の 94 ベンチマーク結果 : と値 ( スカラー以外は 4 コア ) スカラー自動並列 X X X X E5462 x 2 でのベンチマーク結果 : と値自動並列 ( 分割は最外側ループ ) ( 分割は最内側ループ ) parallel (X) parallel () parallel () parallel () (X) () () () (X) () () () (X) () () ()

修士論文

修士論文 AVX を用いた倍々精度疎行列ベクトル積の高速化菱沼利彰 1 藤井昭宏 1 田中輝雄 1 長谷川秀彦 2 1 工学院大学 2 筑波大学 1 目次 1. 研究背景目的 2. 実装, 実験環境 3. 実験 - 倍々精度ベクトル演算 - 4. 実験 - 倍々精度疎行列ベクトル積 - 5. まとめ多倍長精度計算フォーラム 2 目次 1. 研究背景目的 2. 実装, 実験環境 3. 実験 - 倍々精度ベクトル演算