GPUを用いたN体計算

Similar documents
Slides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments

07-二村幸孝・出口大輔.indd

1 GPU GPGPU GPU CPU 2 GPU 2007 NVIDIA GPGPU CUDA[3] GPGPU CUDA GPGPU CUDA GPGPU GPU GPU GPU Graphics Processing Unit LSI LSI CPU ( ) DRAM GPU LSI GPU

Microsoft PowerPoint - GPU_computing_2013_01.pptx

スライド 1

GPGPU

熊本大学学術リポジトリ Kumamoto University Repositor Title GPGPU による高速演算について Author(s) 榎本, 昌一 Citation Issue date Type URL Presentation

main.dvi

23 Fig. 2: hwmodulev2 3. Reconfigurable HPC 3.1 hw/sw hw/sw hw/sw FPGA PC FPGA PC FPGA HPC FPGA FPGA hw/sw hw/sw hw- Module FPGA hwmodule hw/sw FPGA h

GPUコンピューティング講習会パート1

Microsoft PowerPoint - GPUシンポジウム _d公開版.ppt [互換モード]

EGunGPU

Microsoft Word - HOKUSAI_system_overview_ja.docx

GPGPUクラスタの性能評価

Microsoft Word - 0_0_表紙.doc

GPU チュートリアル :OpenACC 篇 Himeno benchmark を例題として 高エネルギー加速器研究機構 (KEK) 松古栄夫 (Hideo Matsufuru) 1 December 2018 HPC-Phys 理化学研究所 共通コードプロジェクト

44 4 I (1) ( ) (10 15 ) ( 17 ) ( 3 1 ) (2)

生活設計レジメ


I II III 28 29

ペタスケール計算環境に向けたFFTライブラリ

GPU n Graphics Processing Unit CG CAD

RICCについて

27_02.indd

高性能計算研究室の紹介 High Performance Computing Lab.

高性能計算研究室の紹介 High Performance Computing Lab.

untitled

VXPRO R1400® ご提案資料

GPUコンピューティング講習会パート1

1 OpenCL OpenCL 1 OpenCL GPU ( ) 1 OpenCL Compute Units Elements OpenCL OpenCL SPMD (Single-Program, Multiple-Data) SPMD OpenCL work-item work-group N

マルチコアPCクラスタ環境におけるBDD法のハイブリッド並列実装

10D16.dvi

untitled

システムソリューションのご紹介

最新の並列計算事情とCAE

並列・高速化を実現するための 高速化サービスの概要と事例紹介

Microsoft PowerPoint - GPGPU実践基礎工学(web).pptx

スパコンに通じる並列プログラミングの基礎

IPSJ SIG Technical Report Vol.2013-ARC-203 No /2/1 SMYLE OpenCL (NEDO) IT FPGA SMYLEref SMYLE OpenCL SMYLE OpenCL FPGA 1

スライド 1

<4D F736F F F696E74202D2091E63489F15F436F6D C982E682E992B48D8291AC92B489B F090CD2888F38DFC E B8CDD8

hpc141_shirahata.pdf

スライド 1

HPC pdf

Microsoft PowerPoint - CCS学際共同boku-08b.ppt

211 年ハイパフォーマンスコンピューティングと計算科学シンポジウム Computing Symposium 211 HPCS /1/18 a a 1 a 2 a 3 a a GPU Graphics Processing Unit GPU CPU GPU GPGPU G

NUMAの構成


TSUBAME2.0 における GPU の 活用方法 東京工業大学学術国際情報センター丸山直也第 10 回 GPU コンピューティング講習会 2011 年 9 月 28 日

i


Wide Scanner TWAIN Source ユーザーズガイド

Images per Second Images per Second VOLTA: ディープラーニングにおける大きな飛躍 ResNet-50 トレーニング 2.4x faster ResNet-50 推論 TensorRT - 7ms レイテンシ 3.7x faster P100 V100 P10

平成 22 年度 革新的な三次元映像技術による超臨場感コミュニケーション技術研究開発 の開発成果について 1. 施策の目標 人体を収容できる大きさの 3 次元音響空間についてリアルタイムに音響レンダリングできるシステム ( シリコンコンサートホール ) を 2013 年までに開発する 具体的には,

GPU GPU CPU CPU CPU GPU GPU N N CPU ( ) 1 GPU CPU GPU 2D 3D CPU GPU GPU GPGPU GPGPU 2 nvidia GPU CUDA 3 GPU 3.1 GPU Core 1

九州大学がスーパーコンピュータ「高性能アプリケーションサーバシステム」の本格稼働を開始

第1部 一般的コメント

supercomputer2010.ppt

Slide 1

HPC (pay-as-you-go) HPC Web 2

untitled

表1票4.qx4

福祉行財政と福祉計画[第3版]

CCS HPCサマーセミナー 並列数値計算アルゴリズム

第1章 国民年金における無年金

HPC143

1. GPU コンピューティング GPU コンピューティング GPUによる 汎用コンピューティング GPU = Graphics Processing Unit CUDA Compute Unified Device Architecture NVIDIA の GPU コンピューティング環境 Lin

研究報告用MS-Wordテンプレートファイル

橡ミュラー列伝Ⅰ.PDF

工学院大学建築系学科近藤研究室2000年度卒業論文梗概

資料3 今後のHPC技術に関する研究開発の方向性について(日立製作所提供資料)

スパコンに通じる並列プログラミングの基礎

HPEハイパフォーマンスコンピューティング ソリューション

Microsoft PowerPoint - pr_12_template-bs.pptx

スパコンに通じる並列プログラミングの基礎


1 (1) (2)

- 2 -


PR映画-1

II III I ~ 2 ~

中堅中小企業向け秘密保持マニュアル



GPGPU によるアクセラレーション環境について

iiyama PC、「LEVEL∞(レベル インフィニティ)」よりBroadwell-E Core™ i7とGeForce® GTX 10シリーズを搭載したフルタワーゲームパソコンをセール価格で販売中

AMD/ATI Radeon HD 5870 GPU DEGIMA LINPACK HD 5870 GPU DEGIMA LINPACK GFlops/Watt GFlops/Watt Abstract GPU Computing has lately attracted

PowerPoint プレゼンテーション

! 行行 CPUDSP PPESPECell/B.E. CPUGPU 行行 SIMD [SSE, AltiVec] 用 HPC CPUDSP PPESPE (Cell/B.E.) SPE CPUGPU GPU CPU DSP DSP PPE SPE SPE CPU DSP SPE 2

Microsoft Word ●IntelクアッドコアCPUでのベンチマーク_吉岡_ _更新__ doc

4 倍精度基本線形代数ルーチン群 QPBLAS の紹介 [index] 1. Introduction 2. Double-double algorithm 3. QPBLAS 4. QPBLAS-GPU 5. Summary 佐々成正 1, 山田進 1, 町田昌彦 1, 今村俊幸 2, 奥田洋司


tabaicho3mukunoki.pptx

OpenGL GLSL References Kageyama (Kobe Univ.) Visualization / 58

PowerPoint プレゼンテーション

provider_020524_2.PDF

( CUDA CUDA CUDA CUDA ( NVIDIA CUDA I

WebGL OpenGL GLSL Kageyama (Kobe Univ.) Visualization / 57

「産業上利用することができる発明」の審査の運用指針(案)

NVIDIA Tesla K20/K20X GPU アクセラレータ アプリケーション パフォーマンス テクニカル ブリーフ

Transcription:

単精度 190Tflops GPU クラスタ ( 長崎大 ) の紹介 長崎大学工学部超高速メニーコアコンピューティングセンターテニュアトラック助教濱田剛 1

概要 GPU (Graphics Processing Unit) について簡単に説明します. GPU クラスタが得意とする応用問題を議論し 長崎大学での GPU クラスタによる 取組方針 N 体計算の高速化に関する研究内容 を紹介します. まとめ 2

GPU (Graphics Processing Unit) パソコンの 3D 描画アクセラレータ 演算性能が急速に向上 ~ 1 T flops/board オンボードメモリバンド幅 ~ 160 GB/s 低価格 400 Gflops 程度のボードが 2 万円弱 3

GPGPU General-Purpose computation on GPUs GPU をN 体計算や流体計算などに応用する試み 応用方法はメーカごとに若干異なる. 互換性もなし CUDA (Nvidia) CAL(AMD) Ct (Intel) OpenCL(AMD AMDはやる気満々.Intel/Nvidia. は ) 4

CUDA (Compute Unified Device Architecture) NVIDIA GPU 用プログラミング環境 言語, ライブラリ, コンパイラ 他と比べ GPGPU ユーザーが多い 早期に (2006 年 11 月 ) 公開, 無料 超並列プログラミングが基本 ボードあたり 5 千 ~1 ~ 万スレッド程度の並列性が必要で性能を出すのが大変 GeForce 8800 以降に対応 5

PC クラスタと比べた GPU クラスタ PC クラスタにもいろいろあるが, 大きな違いは 1 つ ノード当たりの演算性能が高い 見方を変えると ネットワーク性能が相対的に低い 1ソケット 100 万円とかの PC クラスタと比べると 同程度の演算性能を 1/10 のコストで手入可能 似ているようで使い方は結構違う 6

超高速メニーコアコンピューティングセンター (Nagasaki Advanced Computing Center: NACC) 平成 21 年度から運営開始 センター長 : 小栗清 短期的な目標 GPU クラスタの応用方法に関する研究 地方大学でも導入可能な低コスト スーパーコンピュータの実現 中 長期的な目標 学内における並列計算機応用研究の促進 次世代 LSI アーキテクチャ コンパイラ技術の開発 7

経緯 平成 19 年度文部科学省科学技術振興調整費 ( 若手研究者の 自立的研究環境整備促進 ) 採択課題 地方総合大学における若手人材育成戦略 と して開始 128 台の GPU クラスタを構築 (2008/3) 平成 21 年度政府補正予算 - 長崎大学概算要求 新世代 GPU 型スーパーコンピューティング環境の実現 でサポート GPU の台数を 256 台に増強 (2008/11) 超高速メニーコアコンピューティングセンター を工学部内に設置 8

応用分野の分類 computation neck Ⅱ Ⅰ embarrassingly parallel non embarrassingly parallel Ⅲ 危険領域 memory band neck Ⅳ NACC では領域 I, II, Ⅳ をターゲット 2009/3/12 理研シンポジウム - 第 3 世代 PC クラスタ 9

NACC GPU クラスタの対象領域 領域 I, II, IV のみをターゲット N 体計算 ( 領域 I, II, IV) 電磁波 流体計算 ( 領域 IV) 画像処理 統計処理 ( 領域 I, IV) 領域 III に分類される応用 ( 並列 FFT, 並列 CFD など ) は視野に入れない ネットワークがボトルネック 高価な高速 低レイテンシネットワークが必要 長崎大では I, II, IV の領域を開拓することを優先 2009/3/12 理研シンポジウム - 第 3 世代 PC クラスタ 10

長崎大学 GPU クラスタ仕様 (2008/11) Core2Quad Q6600 が128 ノード 各ノードに Nvidia GeForce GPU を 8800GTS-OC x 128 ボード 9800GTX+ x 128 ボード 単精度 190 Tflops 1 GbE 48 ポートスイッチ (NetGear) x 4 台をスタック接続 開発コスト : 2 千万円程度 11

NGC190T (NACC GPU Cluster) 部屋面積 24 m 2 部屋給電能力 640 A 1 人で 1 週間もあれば組立可能 2009/3/12 理研シンポジウム - 第 3 世代 PC クラスタ 12

GPU による N 体計算 長崎大学での GPU 研究発展の原点 GPU による N 体計算を深く理解することが他の応用分野に展開する際に重要 以後少々詳しく説明します. 2009/3/12 理研シンポジウム - 第 3 世代 PC クラスタ 13

粒子 N 体計算 基礎方程式 ( 重力 N 体 ) 相互作用 逐次処理部分 ( 積分計算など ) を担当 並列処理部分 ( 相互作用の計算 ) を担当

N 体計算のアルゴリズム Direct Summation Algorithm Tree code O(N 2 ): Small 領域 I に近い問題 O(N logn): Large 領域 II の問題

Modified Tree code original Modified n g =4 n g 個の粒子が相互作用リストを共有 Original Modified List creation cost on the host N N / ng Interaction list length shorter longer

GPU での N 体計算 (Direct Sum.) Gflop/s Hamada 2008 Hamada 2007 R. Belleman 2007 L. Nyland 2007 L.Nyland 2004 M. Harris 2005 M. Harris 2005 S. Portegies Zwart 2007 G70 Cg G70 Cg G80 Cg G80 CUDA G80 CUDA G80 CUDA G80 CUDA 単体 GPU の N-body の性能推移 ( 直接和, 1 相互作用 38 演算換算 ) 17

最適化 Shared Shared Memory の利用 ループアンロール メモリアクセスの最適化 詳細は情報処理学会会誌 情報処理 2009 年 2 月号参照 ( 成見, 濱田, 小西, 情報処理学会会誌 情報処理 2009 年 2 月号, IPSJ-MGN500207) 18

Tree code ではもうひと工夫が必要 Tree code Direct Sum. N= 4 M plummer N=64 K 2009/3/12 理研シンポジウム - 第 3 世代 PC クラスタ 19

性能の出し方 (Direct Sum. の場合 ) 全てのスレッドが別々の i 粒子への力を計算 (i 並列 ) 2009/3/12 i 粒子が数千 ~1 万程度の場合に効率が高い 理研シンポジウム - 第 3 世代 PC クラスタ 20

性能の出し方 (Tree code の場合 ) Multiple Multiple Walks ( Hamada et al 2008 ) 複数の i 粒子のグループ (walk) を一度に計算 21

Multiple Walks による効果 Tree code N= 4 M, plummer, Ncrit = 2000 (Hamada et al. SC08) 22

128GPU での tree code 演算性能 (Hamada et al. SC08) 23

コスト性能 Performance (Tflops) Makino et al. Price/Performance ($/Mflops) 30 Makino et al. 0.01 3 0.3 Makino et al. Kawai et al. Fukushige Kawai et al. et al. Warren et al. Warren et al. Warren et al. Makino et al. NACC (NGC97T) 0.1 1 10 100 1997 2000 2003 2006 2009 歴代 Gordon Bell 賞 ( ピーク性能部門 ) 歴代 Gordon Bell 賞 ( コスト性能部門 )

電力性能 #Direct Sum. (Hamada et. al. submitted to FCCM 09) GPU はCPU よりも良いが FPGA には及ばない 今後は電力性能も優れたアーキテクチャの開発の余地 NACC 長期目標 25

NACC でのその他の応用 電磁場解析 ( 領域 I, IV) GPSGPS 用アンテナの設計 画像レジストレーション ( 領域 IV) 災害時映像を用いた PIV 解析 流体解析 ( 領域 IV) 東シナ海藻類の生理生態学的課程と流体環境の相互作用のモデル構築等々 26

まとめ GPU クラスタが得意とする領域 I, II, IV computation non embar. Ⅱ Ⅲ Ⅰ Ⅳ memory band embar. 領域 III で無理に頑張らないのが長崎大の特徴応用問題がどの領域に属するのかを理解するセンスが GPU クラスタでは特に重要 N 体計算における経験はそれらを理解する上でとても有用 27