チューニング講習会 初級編

Similar documents
理研スーパーコンピュータ・システム

Microsoft Word - HOKUSAI_system_overview_ja.docx

PowerPoint プレゼンテーション

Microsoft Word ●IntelクアッドコアCPUでのベンチマーク_吉岡_ _更新__ doc

RICCについて

untitled

NVIDIA Tesla K20/K20X GPU アクセラレータ アプリケーション パフォーマンス テクニカル ブリーフ

GPU n Graphics Processing Unit CG CAD

Microsoft PowerPoint - GPGPU実践基礎工学(web).pptx

(速報) Xeon E 系モデル 新プロセッサ性能について

untitled

1 GPU GPGPU GPU CPU 2 GPU 2007 NVIDIA GPGPU CUDA[3] GPGPU CUDA GPGPU CUDA GPGPU GPU GPU GPU Graphics Processing Unit LSI LSI CPU ( ) DRAM GPU LSI GPU

スライド 1

supercomputer2010.ppt

Microsoft PowerPoint - GPUシンポジウム _d公開版.ppt [互換モード]

システムソリューションのご紹介

資料3 今後のHPC技術に関する研究開発の方向性について(日立製作所提供資料)

GPGPU によるアクセラレーション環境について

4 倍精度基本線形代数ルーチン群 QPBLAS の紹介 [index] 1. Introduction 2. Double-double algorithm 3. QPBLAS 4. QPBLAS-GPU 5. Summary 佐々成正 1, 山田進 1, 町田昌彦 1, 今村俊幸 2, 奥田洋司

<4D F736F F F696E74202D2091E63489F15F436F6D C982E682E992B48D8291AC92B489B F090CD2888F38DFC E B8CDD8

PowerPoint プレゼンテーション

Slides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments

スライド 1

Microsoft PowerPoint PCクラスタワークショップin京都.ppt

ワークステーション推奨スペック Avid Avid Nitris Mojo SDI Fibre 及び Adrenaline MC ソフトウェア 3.5 以降のバージョンが必要です Dual 2.26 GHz Quad Core Intel 構成のに関しては Configuration Guideli

hpc141_shirahata.pdf

九州大学がスーパーコンピュータ「高性能アプリケーションサーバシステム」の本格稼働を開始

FX10利用準備

高性能計算研究室の紹介 High Performance Computing Lab.

最新の並列計算事情とCAE

Microsoft Word - Quadro Mシリーズ_テクニカルガイド_R1-2.doc

VXPRO R1400® ご提案資料

Microsoft PowerPoint - CCS学際共同boku-08b.ppt

CCS HPCサマーセミナー 並列数値計算アルゴリズム

main.dvi

tabaicho3mukunoki.pptx

211 年ハイパフォーマンスコンピューティングと計算科学シンポジウム Computing Symposium 211 HPCS /1/18 a a 1 a 2 a 3 a a GPU Graphics Processing Unit GPU CPU GPU GPGPU G

修士論文

CELSIUSカタログ(2012年7月版)

スライド 1

11 月発表の Green500 最新結果の顛末 本来は Green500 で 1-4 位独占を実現する目論見であった 7 月の ISC で 計測ルールが v2.0 になることが予告された ( 現行の v1.2 ルールでの計測値改善には注力せず v2.0 対応作業のみ進めていた ) 最後まで v1.

Microsoft PowerPoint - GPU_computing_2013_01.pptx

高性能計算研究室の紹介 High Performance Computing Lab.

GPGPUクラスタの性能評価

HPCマシンの変遷と 今後の情報基盤センターの役割

ComputerArchitecture.ppt

GPUコンピューティング講習会パート1

HP_PPT_Standard_16x9_JP

ERDAS IMAGINE における処理速度の向上 株式会社ベストシステムズ PASCO CORPORATION 2015

並列・高速化を実現するための 高速化サービスの概要と事例紹介

0530cmsi教育計算科学技術特論a_中田真秀 (nakata maho's conflicted copy) (6)

GPU GPU CPU CPU CPU GPU GPU N N CPU ( ) 1 GPU CPU GPU 2D 3D CPU GPU GPU GPGPU GPGPU 2 nvidia GPU CUDA 3 GPU 3.1 GPU Core 1

システム imac 21.5 インチディスプレイ 3.6GHz i5 Dual core / HT 2.8GHz i7 Quad core / HT ATI Radeon 4850 ATI Radeon HD はいいいえいいえはいいいえ ATI はいいいえ

HP Workstation 総合カタログ

N08

CELSIUSカタログ(2012年5月版)

HPEハイパフォーマンスコンピューティング ソリューション

PowerPoint プレゼンテーション

増設メモリ (2006/11/20)

27_02.indd

Gromacsユーザーマニュアル

Catalog_Quadro_Series_ のコピー2

テクニカルガイド「増設メモリ」(2006/09/15)

Microsoft PowerPoint - ★13_日立_清水.ppt

07-二村幸孝・出口大輔.indd

PowerPoint プレゼンテーション

スライド 1

HP Z200 Intel i5 CPU 3.33GHz Low Profile 仕様 380 LP Assist 2.2 Instinct v3.0 以降 いいえいいえはいいいえ 4GB および 8GB DDR ECC (2 枚構成の DIMM) ISIS へ接続するにはオンボードの

情報解禁日時 :12 月 20 日 ( 木 )11:00 以降 株式会社マウスコンピューター News Release MousePro 第 9 世代インテル CPU 搭載ビジネス向けデスクトップパソコンを 12 月 20 日 ( 木 ) 販売開始! ビジネス向けデスクトップパソコン MousePr

演習1: 演習準備

12 PowerEdge PowerEdge Xeon E PowerEdge 11 PowerEdge DIMM Xeon E PowerEdge DIMM DIMM 756GB 12 PowerEdge Xeon E5-

Pervasive PSQL v11 のベンチマーク パフォーマンスの結果

Microsoft Word - nvsi_050110jp_netvault_vtl_on_dothill_sannetII.doc

Microsoft PowerPoint 知る集い(京都)最終.ppt

熊本大学学術リポジトリ Kumamoto University Repositor Title GPGPU による高速演算について Author(s) 榎本, 昌一 Citation Issue date Type URL Presentation

Microsoft PowerPoint - GPGPU実践基礎工学(web).pptx

スライド 1

23 Fig. 2: hwmodulev2 3. Reconfigurable HPC 3.1 hw/sw hw/sw hw/sw FPGA PC FPGA PC FPGA HPC FPGA FPGA hw/sw hw/sw hw- Module FPGA hwmodule hw/sw FPGA h

研究報告用MS-Wordテンプレートファイル

TSUBAME2.0 における GPU の 活用方法 東京工業大学学術国際情報センター丸山直也第 10 回 GPU コンピューティング講習会 2011 年 9 月 28 日

Agenda GRAPE-MPの紹介と性能評価 GRAPE-MPの概要 OpenCLによる四倍精度演算 (preliminary) 4倍精度演算用SIM 加速ボード 6 processor elem with 128 bit logic Peak: 1.2Gflops

インテルの現行ラインナップは と Refresh アーキテクチャはそのままラインナップ強化 第 2 世代 Sandy Bridge 第 3 世代 Ivy Bridge 第 4 世代 Refresh アーキテクチャ刷新 AVX 対応 32nm プロセスルール 性能 電力とも大幅進化 22nm プロセス

<57696E F92B28DB85F974490E F E786C73>

基盤研究(B) 「マルチコア複合環境を指向した適応型自動チューニング技術」

スパコンに通じる並列プログラミングの基礎

EnSightのご紹介

(Microsoft PowerPoint - E6x5C SDXC Demo Seminar [\214\335\212\267\203\202\201[\203h])

Microsoft Word LenovoSystemx.docx

GPUを用いたN体計算

Microsoft Word - koubo-H26.doc

lll

openmp1_Yaguchi_version_170530

4.7講義.key

インテル アーキテクチャプラットフォーム リーダーシップ 2000 年 12 月 21 日 第 14 回数値流体力学シンポジウム インテル株式会社 ia 技術本部本部長坂野勝美

NEC 製PC サーバ『Express5800 R120f-1E』とSanDisk『ioMemory SX /SX 』検証報告書

HP WORKSTATIONS グラフィックスカード

スライド 1

<4D F736F F F696E74202D F A282BD94BD959C89F A4C E682528D652E707074>

Transcription:

GPU のしくみ RICC での使い方 およびベンチマーク 理化学研究所情報基盤センター 2013/6/27 17:00 17:30 中田真秀

RICC の GPU が高速に! ( 旧 C1060 比約 6.6 倍高速 ) RICCのGPUがC2075になりました! C1060 比 6.6 倍高速 倍精度 515GFlops UPCに100 枚導入 : 合計 51.5TFlops うまく行くと5 倍程度高速化 RICC ユーザーは今お使いいただけます

NVIDIA C2075 仕様 NVIDIA C2075 搭載 GPU 1 1 CUDA コア数 448 基 240 基 NVIDA C1060 プロセッサ周波数 1.15GHz 1.296GHz 単精度演算性能 1.03TFlops 993GFlops 倍精度演算性能 515GFlops 78GFlops 搭載メモリ容量 6GB 4GB メモリインターフェース GDDR5 SDRAM 384bit 512bit GDDR3 メモリクロック 1.5GHz 800MHz メモリ転送帯域 144GB/s 102GB/s

この講演の対象者と目的 対象者 GPU GPGPU CUDAに興味はあるが よくは知らない人 RICCでGPU 対応アプリケーションを使いたい人 話題 特にAMBER 分子動力学 (Molecular Dynamics; MD) 系 数倍程度高速になることもあります コンピュータの簡単な仕組みと NVIDIA C2075 GPU について GPU はなぜ速いのか? ベンチマーク 行列 行列積 姫野ベンチ 高速フーリエ変換 分子動力学 RICC でのジョブの流し方

コンピュータの簡単な仕組みについて

ボトルネックとは

コンピュータの簡単な仕組み コンピュータを一番簡単に 入出力はハードディスクやネットワークなど バス =CPU, メモリ, 入出力とデータをやり取りする道のようなもの コンピュータが高速とは? CPUが高速 メモリが高速 入出力が高速 だけではダメで バスのスピードも高速じゃないとダメ フォン ノイマンボトルネックという CPU メモリ入出力 Control bus Address bus Data bus System bus フォン ノイマン型コンピュータ

CPU, メモリについて

CPU のスピードについて コンピュータは年々高速になってきている ただ コア一個単位処力は落ちてきている 様々な物理的な限界 マルチコア化 いくつもコアを用意し 処理能力をあげる CPUはマルチコア NVIDIA, AMDのGPU IntelのXeon Phi マルチコア化

CPU の理論演算処理性能値 CPU のスピードのよくある定義 CPUに入っている演算器が全て動いたとき 一秒間に何回浮動小数点演算ができるか :FLOPs (Floting point operation per second) 必ずしも 役に立つ 計算ではない 理論演算処理性能値 ピーク性能値 カタログ性能値などということもある クロック周波数 コア数 SIMD ( 一つの命令で複数の計算実行 ) などで決まる Intel Core i7 920 での理論性能値の計算方法 ( 推定 TurboBoost off) 2.66 (GHz) x 4 ( コア ) x 4 ( 演算器 / コア ) = 42.56 Gflops Turbo Boostが入るとよくわからなくなる 京コンピュータの理論演算処理性能値 2 (GHz) x 8 ( コア )x 8 ( 演算器 / コア ) = 128GFlops (1CPUあたり) 128GFlops x 864 ラック x 102 ノード = 11,280,384GFlops = 11.3PFlops C2075の理論演算処理性能値 ( 推定 ) 448(CUDAコア )/ 2 (per clock) x 2 (FMA) x 1.15GHz = 515.20GFlops

メモリ ( 記憶装置 ) のスピードについて メモリの種類がある アクセススピードが速い = コスト高 容量小アクセススピードが遅い = コスト安 容量大一桁容量が大きくなると 一桁遅くなる一桁容量が小さくなると 一桁速くなる メモリと CPU 間のデータ通信のスピード メモリバンド幅が大きい : 速い メモリバンド幅が小さい : 遅い レイテンシ データを一個取ってくるまでにかかる時間 短い方がいい 高速化するには アクセススピードを意識しよう データの移動を少なくしよう 一度にデータを転送し 転送している間に計算をしよう (= レイテンシを隠す )

メモリ ( 記憶装置 ) のスピードの理論性能値 メモリのスピードというと若干定義しづらい メモリだけのスピードではなく メモリ <-> CPU のバスのバンド幅 ( 太さ ) にもよる レジスタ L1, L2, L3 キャッシュなどのスピードは考えてない DDR3-1066 は 8.5GB/sec 133MHz x 4 ( 外部クロック ) x 8 (I/O バッファ ) x 2 (8bit per 0.5 clock) / 8 (1byte=8) x 8 (interface データ幅 ) = 8.53GB/sec チップ規格名 PC3-8500: モジュール規格名 Intel Core i7 だとトリプルチャネル (3 つの DDR3 メモリを同時に扱える ) 8.53GB/sec x 3 = 25.6GB/sec 京コンピュータの場合 64GB/sec (SPARC64 VIIIfx 諸元による ) DDR3 の 4 チャネル NVIDIA GPU Tesla K20X : 250GB/sec (GDDR5), Tesla C2075 150GB/sec (GDDR5, on RICC)

CPU とメモリのスピード比の変化 CPU とメモリのパフォーマンス (= スピード ) を年によってプロットしてみる 1990 年まで : メモリ >CPU メモリのほうがCPUより高速 CPUになるべく計算させないほう高速 1990 年以降 : メモリ <CPU メモリに保存するより 無駄でも毎回計算させた方が高速 このトレンドは変わらないといわれている デバイスの物理的制限 革命的技術を待つ状況

CPU とメモリのスピード比の変化 CPU は遊んでいることが多い (?) Intel Core i7 920+PC3-8500 CPU : 42.56 Gflops DDR3 : 25.6GB/s 一演算あたり一回メモリアクセスが有るアプリは 25.6GB / 8 = 3.19GFlopsしかでない CPUは7.5% しか使ってない メモリに保存するより 無駄でも毎回計算させた方が高速

GPU についての紹介

GPU とは?GPGPU とは? GPU とは? Graphics Processing Unit ( グラフィックス処理器 ) のこと 本来 画像処理を担当する主要な部品 例 :3D ゲーム ムービー GUI などの処理を高速に行える 2006 年からは科学計算にも使われるようになってきた GPGPU とは? General Purpose computing on Graphics Processing Units GPU による 汎用目的計算 画像処理でなくて科学技術計算することは GPGPU といえる 現在は PCI express につなげる形で存在 バスがボトルネック 将来は CPU/GPU が統合されるはず

GPU の使い方 CPU からデータを送り GPU で計算させて 計算結果を回収 メモリは共有されない 1. データを送る 3. 計算結果を返す 2. 計算をする ( ゲームの場合は 3D 画像処理など )

CPU と GPU の関係 : フォン ノイマン図的に PCI express バス

GPU はどうして高速か? Part I CPU と比べると 1 コ 1 コの処理能力は低いが ものすごい数のコアがあって 似たような処理を同時に沢山行えるので高速 CPU GPU 画像処理だと沢山独立した点に対して似たような処理をする CPUみたいには複雑な処理はできないが 工夫次第で色々可能

GPU はどうして高速か? Part II メモリバンド幅が GPU のほうが大きい 32GB/s 144GB/s

ベンチマーク & ジョブサブミット編

RICC にインストールされている GPU 対応アプリについて RICC にはすでにいくつかの GPU に対応したアプリケーションやライブラリが用意されている AMBER11 AMBER12 GROMACS 4.5.3, 4.5.5 NAMD ( 近日中利用可能 ) GAMESS ( テスト中 ; 利用は可能 ) Qchem ( 近日予定 ) cufft cublas etc...

GPU 対応 AMBER11(12) の走らせ方 AMBER ってなに? 分子動力学のプログラムパッケージ 力場を用いて分子の動きをシミュレーションする

GPU 対応 AMBER11(12) の走らせ方 qsub スクリプト例

GPU 対応 NAMD NAMD とは? 分子動力学計算プログラム AMBER とシェアを競っている RICC 導入予定

GROMACS とは? 分子動力学計算プログラム これもよく使われている フリーソフトウェア (GPL) GPU 対応 GROMACS

GPU 対応 NAMD ベンチマーク Satellite Tobacco Mosaic Virus 100 万原子 4cpu w. GPU : 0.575935 s/step K computer 80 core (10 node) :0.454294 s/step ただしKでのNAMDの最適化はあまりやってない 感覚的には K computer 8node = 4CPU+C2075 程度

GPU 対応 NAMD ベンチマーク apolipoprotein A I (10 万原子 ) 4 cpu w/o GPU 4cpu w. 1GPU 0.340919 s/step 0.0615918 s /step GPU 版は CPU 版と比較して 5.5 倍高速

GPU 対応 GAMESS の走らせ方 GAMESS とは? 第一原理からの 量子化学パッケージ Gaussian についで広く使われている RICC でももちろん利用可能

GROMACS とは? 分子動力学計算プログラム これもよく使われている フリーソフトウェア (GPL) GPU 対応 GROMACS

GPU 対応 GROMACS #!/bin/sh #MJS: accel #MJS: time 10:00 #MJS: proc 1 #MJS: eo #MJS: cwd source /usr/local/gromacs 4.5.5/bin/GMXRC_gpu.bash srun mdrun gpu maxh 0.1

GPU 対応 GAMESS: ベンチマーク ベンチマーク例 : タキソール分子 113 原子 452 電子 1032 基底 SCF 計算 RICC で計算 wgpu 43 時間 13 分 w/ogpu 46 時間 31 分 クロスアビリティ社のモジュールでより高速になるか?

qsub スクリプト例 GPU 対応 GAMESS の走らせ方 #!/bin/sh #MJS: upc #MJS: proc 8 #MJS: time 72:00:00 #MJS: eo #MJS: cwd rm rf ~/scr mkdir ~/scr export LD_LIBRARY_PATH=/usr/local/cuda 4.2/lib64:$LD_LIBRARY_PATH VERNO=gpu_mpi /usr/local/gamess_2012r1/rungms_gpu_mpi taxol.inp $VERNO

DGEMM 行列 - 行列積 マシンのパワーをみるには DGEMM ( 行列 行列積 ) と DGEMV ( 行列ベクトル積 ) をみればよい DGEMM ( 行列 行列積 ) CPU/GPU のパワーがどの程度あるかの良い目安 C αab+βc = + * GPU, CPU でベンチマーク GPU は C2050 (C2075 とほぼ同じ ) CPU は Xeon 5680 x 2 (RICC よりよい )

行列 - 行列積のベンチマーク GPU は高速 (PCIe 転送含まない ) GPU: 理論演算処理比 60% 程度 ( ちょっと悪め ) CPU,GPU が逆転 (PCIe 転送含 ) CPU: 理論演算処理比 90% 程度 ( かなりよい )

行列 - 行列積のベンチマークからわかること GPU は CPU とくらべて高速 ただし GPU CPU のデータ転送を伴うと遅くなる うまく使うとパフォーマンスの大幅向上期待 GPU, CPU の演算性能を計るベンチ

姫野ベンチマーク 姫野ベンチマークとは?? 情報基盤センター センター長の姫野龍太郎氏が非圧縮流体解析コードの性能評価のために考えたものでポアッソン方程式解法をヤコビの反復法で解く場合に主要なループの処理速度を計るものです ベンチマークテストは主に計算機のメモリバンド幅の性能を計るもの GPU, CPU, Intel Xeon Phi( エンジニアサンプル ) で測定 行ったチューニング CPUはそのまま GPUはhttp://blogs.yahoo.co.jp/natto_heaven/MYBLOG/yblog.html Intel Xeon Phiはそのまま and/or 富士通最適化

姫野ベンチマーク 60000 Fortran90, OMP, L 50000 40000 30000 20000 10000 Fortran90, OMP, L 0

姫野ベンチマーク 姫野ベンチだと C2050 は最新の Intel Xeon Phi+ 富士通最適化より 10% 程度遅い程度 Intel Xeon Phi はメモリバンド幅が大きいのにそんなに変わらなかった? GPU のメモリバンド幅の大きいので高速!

さらに K20 32 枚導入! ( 近日公開予定 )

NVIDIA から : さらに 32 枚は K20 を導入 近日予定 乞うご期待 NVIDIA C2075 NVIDIA K20 CUDAコア数 448 基 2496 基 プロセッサ周波数 1.15GHz 1.296GHz 単精度演算性能 1.03TFlops 3.52GFlops 倍精度演算性能 515GFlops 1.17TFlops 搭載メモリ容量 6GB 5GB メモリ転送帯域 144GB/s 208GB/s RICC 搭載 100 枚 32 枚 対応予定アプリ AMBER, NAMD, GAMESS

ご希望 ご相談はお気軽に hpc@riken.jp まで 情報基盤センターは理研の研究者の研究をサポートします