チューニング講習会初級編

GPU のしくみ RICC での使い方およびベンチマーク理化学研究所情報基盤センター 2013/6/27 17:00 17:30 中田真秀

RICC の GPU が高速に! ( 旧 C1060 比約 6.6 倍高速 ) RICCのGPUがC2075になりました! C1060 比 6.6 倍高速倍精度 515GFlops UPCに100 枚導入 : 合計 51.5TFlops うまく行くと5 倍程度高速化 RICC ユーザーは今お使いいただけます

NVIDIA C2075 仕様 NVIDIA C2075 搭載 GPU 1 1 CUDA コア数 448 基 240 基 NVIDA C1060 プロセッサ周波数 1.15GHz 1.296GHz 単精度演算性能 1.03TFlops 993GFlops 倍精度演算性能 515GFlops 78GFlops 搭載メモリ容量 6GB 4GB メモリインターフェース GDDR5 SDRAM 384bit 512bit GDDR3 メモリクロック 1.5GHz 800MHz メモリ転送帯域 144GB/s 102GB/s

この講演の対象者と目的対象者 GPU GPGPU CUDAに興味はあるがよくは知らない人 RICCでGPU 対応アプリケーションを使いたい人話題特にAMBER 分子動力学 (Molecular Dynamics; MD) 系数倍程度高速になることもありますコンピュータの簡単な仕組みと NVIDIA C2075 GPU について GPU はなぜ速いのか? ベンチマーク行列行列積姫野ベンチ高速フーリエ変換分子動力学 RICC でのジョブの流し方

コンピュータの簡単な仕組みについて

ボトルネックとは

コンピュータの簡単な仕組みコンピュータを一番簡単に入出力はハードディスクやネットワークなどバス =CPU, メモリ, 入出力とデータをやり取りする道のようなものコンピュータが高速とは? CPUが高速メモリが高速入出力が高速だけではダメでバスのスピードも高速じゃないとダメフォンノイマンボトルネックという CPU メモリ入出力 Control bus Address bus Data bus System bus フォンノイマン型コンピュータ

CPU, メモリについて

CPU のスピードについてコンピュータは年々高速になってきているただコア一個単位処力は落ちてきている様々な物理的な限界マルチコア化いくつもコアを用意し処理能力をあげる CPUはマルチコア NVIDIA, AMDのGPU IntelのXeon Phi マルチコア化

CPU の理論演算処理性能値 CPU のスピードのよくある定義 CPUに入っている演算器が全て動いたとき一秒間に何回浮動小数点演算ができるか :FLOPs (Floting point operation per second) 必ずしも役に立つ計算ではない理論演算処理性能値ピーク性能値カタログ性能値などということもあるクロック周波数コア数 SIMD ( 一つの命令で複数の計算実行 ) などで決まる Intel Core i7 920 での理論性能値の計算方法 ( 推定 TurboBoost off) 2.66 (GHz) x 4 ( コア ) x 4 ( 演算器 / コア ) = 42.56 Gflops Turbo Boostが入るとよくわからなくなる京コンピュータの理論演算処理性能値 2 (GHz) x 8 ( コア )x 8 ( 演算器 / コア ) = 128GFlops (1CPUあたり) 128GFlops x 864 ラック x 102 ノード = 11,280,384GFlops = 11.3PFlops C2075の理論演算処理性能値 ( 推定 ) 448(CUDAコア )/ 2 (per clock) x 2 (FMA) x 1.15GHz = 515.20GFlops

メモリ ( 記憶装置 ) のスピードについてメモリの種類があるアクセススピードが速い = コスト高容量小アクセススピードが遅い = コスト安容量大一桁容量が大きくなると一桁遅くなる一桁容量が小さくなると一桁速くなるメモリと CPU 間のデータ通信のスピードメモリバンド幅が大きい : 速いメモリバンド幅が小さい : 遅いレイテンシデータを一個取ってくるまでにかかる時間短い方がいい高速化するにはアクセススピードを意識しようデータの移動を少なくしよう一度にデータを転送し転送している間に計算をしよう (= レイテンシを隠す )

メモリ ( 記憶装置 ) のスピードの理論性能値メモリのスピードというと若干定義しづらいメモリだけのスピードではなくメモリ <-> CPU のバスのバンド幅 ( 太さ ) にもよるレジスタ L1, L2, L3 キャッシュなどのスピードは考えてない DDR3-1066 は 8.5GB/sec 133MHz x 4 ( 外部クロック ) x 8 (I/O バッファ ) x 2 (8bit per 0.5 clock) / 8 (1byte=8) x 8 (interface データ幅 ) = 8.53GB/sec チップ規格名 PC3-8500: モジュール規格名 Intel Core i7 だとトリプルチャネル (3 つの DDR3 メモリを同時に扱える ) 8.53GB/sec x 3 = 25.6GB/sec 京コンピュータの場合 64GB/sec (SPARC64 VIIIfx 諸元による ) DDR3 の 4 チャネル NVIDIA GPU Tesla K20X : 250GB/sec (GDDR5), Tesla C2075 150GB/sec (GDDR5, on RICC)

CPU とメモリのスピード比の変化 CPU とメモリのパフォーマンス (= スピード ) を年によってプロットしてみる 1990 年まで : メモリ >CPU メモリのほうがCPUより高速 CPUになるべく計算させないほう高速 1990 年以降 : メモリ <CPU メモリに保存するより無駄でも毎回計算させた方が高速このトレンドは変わらないといわれているデバイスの物理的制限革命的技術を待つ状況

CPU とメモリのスピード比の変化 CPU は遊んでいることが多い (?) Intel Core i7 920+PC3-8500 CPU : 42.56 Gflops DDR3 : 25.6GB/s 一演算あたり一回メモリアクセスが有るアプリは 25.6GB / 8 = 3.19GFlopsしかでない CPUは7.5% しか使ってないメモリに保存するより無駄でも毎回計算させた方が高速

GPU についての紹介

GPU とは?GPGPU とは? GPU とは? Graphics Processing Unit ( グラフィックス処理器 ) のこと本来画像処理を担当する主要な部品例 :3D ゲームムービー GUI などの処理を高速に行える 2006 年からは科学計算にも使われるようになってきた GPGPU とは? General Purpose computing on Graphics Processing Units GPU による汎用目的計算画像処理でなくて科学技術計算することは GPGPU といえる現在は PCI express につなげる形で存在バスがボトルネック将来は CPU/GPU が統合されるはず

GPU の使い方 CPU からデータを送り GPU で計算させて計算結果を回収メモリは共有されない 1. データを送る 3. 計算結果を返す 2. 計算をする ( ゲームの場合は 3D 画像処理など )

CPU と GPU の関係 : フォンノイマン図的に PCI express バス

GPU はどうして高速か? Part I CPU と比べると 1 コ 1 コの処理能力は低いがものすごい数のコアがあって似たような処理を同時に沢山行えるので高速 CPU GPU 画像処理だと沢山独立した点に対して似たような処理をする CPUみたいには複雑な処理はできないが工夫次第で色々可能

GPU はどうして高速か? Part II メモリバンド幅が GPU のほうが大きい 32GB/s 144GB/s

ベンチマーク & ジョブサブミット編

RICC にインストールされている GPU 対応アプリについて RICC にはすでにいくつかの GPU に対応したアプリケーションやライブラリが用意されている AMBER11 AMBER12 GROMACS 4.5.3, 4.5.5 NAMD ( 近日中利用可能 ) GAMESS ( テスト中 ; 利用は可能 ) Qchem ( 近日予定 ) cufft cublas etc...

GPU 対応 AMBER11(12) の走らせ方 AMBER ってなに? 分子動力学のプログラムパッケージ力場を用いて分子の動きをシミュレーションする

GPU 対応 AMBER11(12) の走らせ方 qsub スクリプト例

GPU 対応 NAMD NAMD とは? 分子動力学計算プログラム AMBER とシェアを競っている RICC 導入予定

GROMACS とは? 分子動力学計算プログラムこれもよく使われているフリーソフトウェア (GPL) GPU 対応 GROMACS

GPU 対応 NAMD ベンチマーク Satellite Tobacco Mosaic Virus 100 万原子 4cpu w. GPU : 0.575935 s/step K computer 80 core (10 node) :0.454294 s/step ただしKでのNAMDの最適化はあまりやってない感覚的には K computer 8node = 4CPU+C2075 程度

GPU 対応 NAMD ベンチマーク apolipoprotein A I (10 万原子 ) 4 cpu w/o GPU 4cpu w. 1GPU 0.340919 s/step 0.0615918 s /step GPU 版は CPU 版と比較して 5.5 倍高速

GPU 対応 GAMESS の走らせ方 GAMESS とは? 第一原理からの量子化学パッケージ Gaussian についで広く使われている RICC でももちろん利用可能

GROMACS とは? 分子動力学計算プログラムこれもよく使われているフリーソフトウェア (GPL) GPU 対応 GROMACS

GPU 対応 GROMACS #!/bin/sh #MJS: accel #MJS: time 10:00 #MJS: proc 1 #MJS: eo #MJS: cwd source /usr/local/gromacs 4.5.5/bin/GMXRC_gpu.bash srun mdrun gpu maxh 0.1

GPU 対応 GAMESS: ベンチマークベンチマーク例 : タキソール分子 113 原子 452 電子 1032 基底 SCF 計算 RICC で計算 wgpu 43 時間 13 分 w/ogpu 46 時間 31 分クロスアビリティ社のモジュールでより高速になるか?

qsub スクリプト例 GPU 対応 GAMESS の走らせ方 #!/bin/sh #MJS: upc #MJS: proc 8 #MJS: time 72:00:00 #MJS: eo #MJS: cwd rm rf ~/scr mkdir ~/scr export LD_LIBRARY_PATH=/usr/local/cuda 4.2/lib64:$LD_LIBRARY_PATH VERNO=gpu_mpi /usr/local/gamess_2012r1/rungms_gpu_mpi taxol.inp $VERNO

DGEMM 行列 - 行列積マシンのパワーをみるには DGEMM ( 行列行列積 ) と DGEMV ( 行列ベクトル積 ) をみればよい DGEMM ( 行列行列積 ) CPU/GPU のパワーがどの程度あるかの良い目安 C αab+βc = + * GPU, CPU でベンチマーク GPU は C2050 (C2075 とほぼ同じ ) CPU は Xeon 5680 x 2 (RICC よりよい )

行列 - 行列積のベンチマーク GPU は高速 (PCIe 転送含まない ) GPU: 理論演算処理比 60% 程度 ( ちょっと悪め ) CPU,GPU が逆転 (PCIe 転送含 ) CPU: 理論演算処理比 90% 程度 ( かなりよい )

行列 - 行列積のベンチマークからわかること GPU は CPU とくらべて高速ただし GPU CPU のデータ転送を伴うと遅くなるうまく使うとパフォーマンスの大幅向上期待 GPU, CPU の演算性能を計るベンチ

姫野ベンチマーク姫野ベンチマークとは?? 情報基盤センターセンター長の姫野龍太郎氏が非圧縮流体解析コードの性能評価のために考えたものでポアッソン方程式解法をヤコビの反復法で解く場合に主要なループの処理速度を計るものですベンチマークテストは主に計算機のメモリバンド幅の性能を計るもの GPU, CPU, Intel Xeon Phi( エンジニアサンプル ) で測定行ったチューニング CPUはそのまま GPUはhttp://blogs.yahoo.co.jp/natto_heaven/MYBLOG/yblog.html Intel Xeon Phiはそのまま and/or 富士通最適化

姫野ベンチマーク 60000 Fortran90, OMP, L 50000 40000 30000 20000 10000 Fortran90, OMP, L 0

姫野ベンチマーク姫野ベンチだと C2050 は最新の Intel Xeon Phi+ 富士通最適化より 10% 程度遅い程度 Intel Xeon Phi はメモリバンド幅が大きいのにそんなに変わらなかった? GPU のメモリバンド幅の大きいので高速!

さらに K20 32 枚導入! ( 近日公開予定 )

NVIDIA から : さらに 32 枚は K20 を導入近日予定乞うご期待 NVIDIA C2075 NVIDIA K20 CUDAコア数 448 基 2496 基プロセッサ周波数 1.15GHz 1.296GHz 単精度演算性能 1.03TFlops 3.52GFlops 倍精度演算性能 515GFlops 1.17TFlops 搭載メモリ容量 6GB 5GB メモリ転送帯域 144GB/s 208GB/s RICC 搭載 100 枚 32 枚対応予定アプリ AMBER, NAMD, GAMESS

ご希望ご相談はお気軽に hpc@riken.jp まで情報基盤センターは理研の研究者の研究をサポートします

チューニング講習会 初級編