ビジュアルコンピューティングテクノロジの世界的リーダー本社所在地創業年創業者販売商品社員数売上高カリフォルニア州サンタクララ 1993 年 Jen-Hsun Huang グラフィックスソリューション約 5,700 人 40 億ドル

Size: px

Start display at page:

Download "ビジュアルコンピューティングテクノロジの世界的リーダー本社所在地創業年創業者販売商品社員数売上高カリフォルニア州サンタクララ 1993 年 Jen-Hsun Huang グラフィックスソリューション約 5,700 人 40 億ドル"

まななみこし
5 years ago
Views:

1 2010 年度理研シンポジウム NVIDIA GPU コンピューティングエヌビディアジャパン Tesla Quadro 事業部マーケティングマネージャー林憲一

2 ビジュアルコンピューティングテクノロジの世界的リーダー本社所在地創業年創業者販売商品社員数売上高カリフォルニア州サンタクララ 1993 年 Jen-Hsun Huang グラフィックスソリューション約 5,700 人 40 億ドル

3 GeForce Quadro Tegra Tesla

5 中国国防科学技術大学 (NUDT) 7,168 個の NVIDIA Tesla M ,336 個の Intel CPU Tianhe-1A GPU 78% Linpack ペタフロップス消費電力 4.04 メガワットもし同じ性能を CPU だけで実現しようとすると 12 メガワット必要

6 Linpack 1.27 ペタフロップス 4,640 個の NVIDIA Tesla C2050 を使用 Nebulae GPU 80% CPU ベースの Jaguar に比べて消費電力当り 2 倍の性能を実現

TSUBAME 2.0 1,408 ノード 4,224 GPU = 2,175 TFlops 2,816 CPU = 216 TFlops メモリ = 80.55 TB SSD = 173.88 TB TSUBAME 2.0 GPU 91% 0 0.

7 TSUBAME 2.0 1,408 ノード 4,224 GPU = 2,175 TFlops 2,816 CPU = 216 TFlops メモリ = TB SSD = TB TSUBAME 2.0 GPU 91% HP SL390 サーバー 3x NVIDIA Tesla M2050 GPU 2x Intel Westmere-EP CPU 52 GB DDR3 メモリ 2x 60 GB SSD 2x QDR InfiniBand

8 CPU I/O HUB Tesla C2050 国立環境研究所生物環境調節実験施設 NIES CGER 計算ノード : SGI Asterism ID318 x 160 ノード NIES CGER CPU Intel Xeon E GHz x 2 GPU NVIDIA Tesla C2050 x 2 SSD 80GB MLC ディスク :DDN 9000SA, 100 TB ファイルシステム=Lustre( 一部 NFS) 倍精度浮動小数点演算性能 177 TFLOPS 消費電力 < 170 KVA

9 2010 Fermi 3 Billion Transistors GPU 統合シェーダ + CUDA

10 DRAM I/F Giga Thread HOST I/F DRAM I/F Instruction Cache Scheduler Scheduler Dispatch Dispatch Register File ストリーミングマルチプロセッサ DRAM I/F CUDA DRAM I/F Dispatch Port Operand Collector L2 DRAM I/F FP Unit INT Unit Load/Store Units x 16 Special Func Units x 4 Result Queue DRAM I/F Interconnect Network 64K Configurable Cache/Shared Mem Uniform Cache

11 CPU 低遅延逐次処理 CUDA GPU 高スループット並列処理

12 Tesla M シリーズ M2070 M2050 M1060 Tesla S シリーズ S2050 S1070 Tesla C シリーズ C2070 C2050 C1060 OEM CPU-GPU 統合サーバー及びブレード OEM CPU サーバー + Tesla S シリーズ 1U ラックワークステーション 2 ~ 4 Tesla 搭載パーソナルスーパーコンピュータ

1200.00 1000.00 MFlops / Watt 800.00 600.

14 MFlops / Watt TSUBAME 2.0 #4 Top500 Tianhe-1A #1 Top500 Jaguar #2 Top500 NASA Pleiades #11 Top500 GPU コンピューティング CPU

2007 2008 2009 2010 CUDA Toolkit 1.x CUDA Toolkit 2.x CUDA Toolkit 3.

2 C Extensions cuda-gdb Parallel Nsight (beta) C++ Class Templates New cusparse Library Single Precision BLAS FFT SDK

Textures HW Interpolation 16-32 Conversion intrinsics Performance enhancements C++ Class Inheritance Tools updates

15 CUDA Toolkit 1.x CUDA Toolkit 2.x CUDA Toolkit 3.x C Compiler Double Precision DP FFT Fermi arch support New in 3.2 C Extensions cuda-gdb Parallel Nsight (beta) C++ Class Templates New cusparse Library Single Precision BLAS FFT SDK w/ 40 samples Win XP 64 Atomics support Multi-GPU support Visual Profiler Compiler Optimizations Vista 32/64 Mac OSX 3D Textures HW Interpolation Conversion intrinsics Performance enhancements C++ Class Inheritance Tools updates cuda-memcheck GPUDirect 16-way concurrency Function pointers & recursion New curand Library (Sobol) Support for 6GB Tesla & Quadro Multi-GPU Debugging Math Library Perf Improvements Cluster Management Features Integrated TCC Mode

17 146X 36X 18X 50X 100X 医療画像ユタ大学分子動力学イリノイ大学ビデオトランスコード Elemental Tech MATLAB 演算 AccelerEyes 宇宙物理学理研 149X 47X 20X 130X 30X 金融シミュレーションオックスフォード線形計画法 Universidad Jaime 3D 超音波解析 Techniscan 量子化学イリノイ大学遺伝子配列解析メリーランド大学

18 分子力学と量子化学 ACE MD AMBER BigDFT (ABINIT) GROMACS HOOMD LAMMPS NAMD TeraChem VMD バイオインフォマティクス CUDA-BLASTP CUDA-EC CUDA-MEME CUDASW++ DNADist GPU Blast GPU-HMMER HEX Protein Docking Jacket (MATLAB Plugin) MUMmerGPU MUMmerGPU++

19 AMBER 11 #1 Numerical Computation #1 Molecular Dynamics 3ds Max #1 Engineering Simulation #1 3D DCC

21 製品品質の向上シミュレーション回数の増加による品質向上より速い市場投入高速なシミュレーションによるデザインサイクルの短縮不可能を可能に CPU だけではシミュレーションが不可能であった課題が解決可能に

22 GPU 対応状況構造解析流体解析電磁場解析利用可能 2011 年中にリリース予定製品化評価中研究評価中 ANSYS Mechanical AFEA LS-DYNA implicit Marc Abaqus/Standard RADIOSS PAM-CRASH implicit MD Nastran NX Nastran LS-DYNA Abaqus/Explicit AcuSolve Moldflow Culises (OpenFOAM) Particleworks CFD++ CFD-ACE+ FloEFD Abaqus/CFD FLUENT/CFX (ANSYS CFD) STAR-CCM+ Nexxim EMPro CST MS XFdtd SEMCAD X HFSS Xpatch

Abaqus/Standard での解析時間 ( 秒 ) 6000 5825 858 Non-Solver

23 Abaqus/Standard での解析時間 ( 秒 ) Non-Solver Times Solver CPU + GPU Solver CPU x Total x in Solver Lower is better エンジンモデル CPU Profile: 85% Solver 4 s 4 s + Tesla C2050 Z800 2 x Xeon X GHz 48 GB Memory MKL Tesla C2050 CUDA 万自由度 - 2 回反復 - 反復当り 5.8e12 Ops

5x 1 コア 2 コア 4 コア 6 コア単一の HP-SL390 サーバーノード, 2 x Xeon X5650 2.

24 ANSYS Mechanical での解析時間 ( 秒 ) ANSYS Mechanical R13 スパース直接ソルバー 4.4x Lower is better V12sp-5 ベンチマーク 3.3x 2.4x 1.5x 1 コア 2 コア 4 コア 6 コア単一の HP-SL390 サーバーノード, 2 x Xeon X GHz CPUs, 48GB メモリ, MKL 10.25, Tesla M2050, CUDA タービン形状万自由度 - SOLID187 - 静解析非線形 - 1 荷重ステップ - スパース直説法

25 LS-DYNA 時間の合計 ( 秒 ) 30 万自由度の Implicit モデルに対する LS-DYNA の合計実行時間の比較 4.8 倍 Lower is better OUTER3 モデル 3.3 倍 1 コア + GPU 2 コア + GPU 2.4 倍 4 コア + GPU 8 コア + GPU 1.6 倍 30 万自由度 1 RHS

27 5120pixel 3840 pixel 画像 A HALCON GPU ベイヤー変換 GPU により縮小画像の作成巨大画像のカラー欠陥検出回転角度算出縮小画像 A 23 倍高速化画像の回転 CPU のみ :862.9msec GPU 活用時 :37.4msec HSV カラー変換 CPU:Xeon W GHz (12core 中 2core 使用 ) 欠陥検出 GPU:Tesla C2050

28 CT 2 や次元スキャンデータから MRI から画像を受信して 3 次元 4 次元イメー三次元画像の構築をするシステムジの高速生成 CUDA 化により画像処理速度を約 20 倍に高速化

29 Amazon Web Services で Tesla M2050 を提供数分のセットアップで GPU 利用可能

30 DP GFLOPS per Watt

31 NVIDIA における超スケールコンピューティング DARPA プロジェクト Fermi の 100 倍の性能目標

32 GPU Computing に対応したハードウェアアプリケーションソリューションを簡単に検索できるポータルサイト 2011 年 2 月提供開始予定

33 @NVIDIAJapan

34 Thank you

Slide 1

CAE 分野での GPU 活用のご紹介エヌビディアジャパンマーケティング本部部長林憲一 NVIDIAについて 1993年に設立設立以来半導体企業の中で最速で 10億ドルの収益を達成創業者 Jen-Hsun Huang 従業員 20ヵ国に約8,500人本社カリフォルニア州サンタクララ CPU GPU + = スピードアップコンパニオンプロセッサ GPU を CPU に追加することでアプリケーションが高速化

ビジュアルコンピューティングテクノロジの世界的リーダー 本社所在地 創業年 創業者 販売商品 社員数 売上高 カリフォルニア州サンタクララ 1993 年 Jen-Hsun Huang グラフィックスソリューション約 5,700 人 40 億ドル

ビジュアルコンピューティングテクノロジの世界的リーダー本社所在地創業年創業者販売商品社員数売上高カリフォルニア州サンタクララ 1993 年 Jen-Hsun Huang グラフィックスソリューション約 5,700 人 40 億ドル