プログラムがうまく動かない！　―CUDA のバグの見つけ方―

Size: px

Start display at page:

Download "プログラムがうまく動かない！　―CUDA のバグの見つけ方―"

かおりみやまる
5 years ago
Views:

1 プログラムがうまく動かない! CUDA のバグの見つけ方北岡伸也 GTC Japan Tokyo Midtown Hall & Conference 1

2 Agenda - 1 of 3 デバッグのノウハウを紹介します商用ソフトウェア開発での実例をとりあげます Particleworks の K20 対応 ( 注 ) 今回は触れません NVIDIA Parallel Nsight CUDA-GDB CUDA-MEMCHECK Etc GTC Japan Tokyo Midtown Hall & Conference 2

3 Agenda - 2 of 3 Particleworks - 商用流体解析ソフトウェアプロメテックソフトウェア株式会社で開発している製品 v4.5 から CUDA 5.0 & Tesla K20 に対応 Fundamental Algorithms MPS method - Moving Particle Simulation (Semi-implicit) DEM - Distinct Element Method Solver on GPUs コード行数 : ~150,000 カーネル数 : < GTC Japan Tokyo Midtown Hall & Conference 3

4 Agenda - 3 of 3 デバッグに役立ったこと 1. 詳細な実行ログを出力できるようにしておこう意外と役立つ 2. CUDA カーネルに対応した HOST コードを用意しよう単体テストができるように 3. HOST コードに置き換えて実行できるようにしておこう結合テストができるように 4. HOST と DEVICE の計算結果を比較できるようにしておこう単体テストと結合テストの両方で 5. CUDA のしくみに詳しくなろう GTC Japan Tokyo Midtown Hall & Conference 4

5 Particleworks GTC Japan Tokyo Midtown Hall & Conference 5

6 Company Information 会社名設立年月日資本金役員主要株主プロメテックソフトウェア株式会社 2004 年 10 月 29 日 201,610 千円岡本伸一藤澤智光越塚誠一角家強志島田憲成花田孔明株式会社構造計画研究所三菱 UFJ キャピタル株式会社大和企業投資株式会社 SMBC ベンチャーキャピタル株式会社安田企業投資株式会社りそなキャピタル株式会社プロメテックソフトウェア協力研究者持株会プロメテックソフトウェア従業員持株会 GTC Japan Tokyo Midtown Hall & Conference 6

7 Access 所在地東京都文京区本郷東京大学アントレプレナープラザ 3 階 URL GTC Japan Tokyo Midtown Hall & Conference 7

8 Timeline CUDA Toolkit v5.0 Tesla K20 Early Access Program Tesla K20 K20c 作業期間 ( 約 2 ヶ月 ) NVIDIA Manufacturing Day Particleworks v GTC Japan Tokyo Midtown Hall & Conference 8

いくつかの顧客事例 dam-break Performance Tunings (Software

9 Tasks Software Testing gearbox すべての例題 (Particleworks に付録 ) いくつかの顧客事例 Performance Measurements いくつかの例題いくつかの顧客事例 dam-break Performance Tunings (Software Debugs) GTC Japan Tokyo Midtown Hall & Conference 9

10 Development Environment (Windows) Redmine Project Management Subversion (+ Git) Version Control System Microsoft Visual Studio 2010 (+ CUDA 5.0) IDE; Integrated Development Environment Google Test Testing Framework Jenkins CI; Continuous Integration GTC Japan Tokyo Midtown Hall & Conference 10

11 Performance Turnings for Kepler Read Only Cache Memory Warp Shuffle Operations Grid and Block size Optimization 1.47x (C2075 / K20c) Case 1 Case 2 Case 3 Case 4 Case 5 # of Particles 807, , , , ,042 Pressure (Implicit) x x x x x Viscosity (Implicit) x x Surface Tension x x Turbulence x DEM x Performance Gain cf. NVIDIA Manufacturing Day 2013, Particleworks GTC Japan Tokyo Midtown Hall & Conference 11

12 Status 動作確認済み GeForce GTX 640 (K10) Early Access Program (K20) すぐにテストをパスできるだろう GTC Japan Tokyo Midtown Hall & Conference 12

13 あれっ? GTC Japan Tokyo Midtown Hall & Conference 13

14 Logs 1. 詳細な実行ログを出力できるようにしておこう実行ログをチェックどういう状況で停止しているか確認できる printf debug Logger 出力の詳細度を変更できるようにしておく変数のウォッチコールツリー GTC Japan Tokyo Midtown Hall & Conference 14

15 Bugs 特定のテストケースで解析が発散するしかも Tesla K20c で実行したときだけクーラン条件を満たせなくなり解析が停止する安定した解析のための条件粒子の速度が大きくなりすぎることどこかのカーネルの計算がおかしい止まるときと止まらないときがある粒子数が多い解析 (20 万以上 ) で止まりやすい並列計算に関するバグ? GTC Japan Tokyo Midtown Hall & Conference 15

16 CFL condition Courant-Friedrichs-Lewy 条件を満たしている条件を満たしていない Time Step: t Time Step: t+1 衝突すり抜ける GTC Japan Tokyo Midtown Hall & Conference 16

17 Unit Testing (Tesla K20) 2. CUDA カーネルに対応した HOST コードを用意しよう [spmv.h] void hst_spmv( ); void dev_spmv( ); [spmv.cpp] void hst_spmv( ) { } [spmv.cu] global void spmv_kernel( ) { } void dev_spmv( ) { spmv_kernel<<< >>>( ); } GTC Japan Tokyo Midtown Hall & Conference 17

18 Integration Testing (Tesla K20) - 1 of 2 3. HOST コードに置き換えて実行できるようにしておこう hst_spmv( y.get(hst_mode, write_mode), row_ptr.get(hst_mode), col_ind.get(hst_mode), a.get(hst_mode), x.get(hst_mode), n); dev_spmv( y.get(dev_mode, write_mode), row_ptr.get(dev_mode), col_ind.get(dev_mode), a.get(dev_mode), x.get(dev_mode), n); メモリバッファを抽象化しておく HOST と DEVICE を対応付けて管理する変更を相互に反映させる取得時に変更されていたらコピーする動作変数はすべて抽象化したバッファ取得モードで返す生ポインタのアドレスを変更読み込みモードで取得されたあと異なる取得モードでとりだされたら cudamemcpy する GTC Japan Tokyo Midtown Hall & Conference 18

19 Integration Testing (Tesla K20) - 2 of 2 4. HOST と DEVICE の計算結果を比較できるようにしておこう Logger の出力結果 : Prometech::NeighborSearchGPU::Calculate { Prometech::NeighborSearchGPU::calculate_distribution { pw::arraymanagermethod::exchange_distributed_buffer_all { } debug: exchange_distributed_buffer_all : pw::arraymanager::exec(2497) } Prometech::NeighborSearchGPU::calculate_particle { pw::arraymanagermethod::construct_neighbor_table_large { debug: buffer = particle.collide_hash.int2.1.2, size = pw::arraymanagermethod::set_array(526) debug: buffer = particle.collide_mibb_buf.double3.1.1, size = pw::arraymanagermethod::set_array(526) debug: buffer = particle.collide_mabb_buf.double3.1.1, size = pw::arraymanagermethod::set_array(526) debug: bbmin = pw::arraymanagermethod::set_collision_slice(304) debug: bbmax = pw::arraymanagermethod::set_collision_slice(305) debug: ngrid = pw::arraymanagermethod::set_collision_slice_array(313) debug: buffer = particle.collide_slice_sum.int.1.1, size = pw::arraymanagermethod::set_array(526) debug: buffer = particle.collide_slice.int4.1.1, size = pw::arraymanagermethod::set_array(526) debug: buffer = particle.collide_slice_offset.int4.1.1, size = pw::arraymanagermethod::set_array(526) GTC Japan Tokyo Midtown Hall & Conference 19

20 3 Bugs 1. Prefix Sum (scan) 2. Sort Thrust に置き換え 3. 粉体計算部 : 接触判定 + 摩擦力計算原因不明単体テストはパスする HOST も DEVICE も似ている同じようなコード計算結果が化けているようにみえるレジスタの値が変 GTC Japan Tokyo Midtown Hall & Conference 20

21 ところで GTC Japan Tokyo Midtown Hall & Conference 21

22 NVCC - NVIDIA CUDA Compiler たまにコンパイラが落ちる複雑なヘッダファイルを読ましていると字句解析でアサーションがでる GTC Japan Tokyo Midtown Hall & Conference 22

23 ん? GTC Japan Tokyo Midtown Hall & Conference 23

24 NVCC has bugs? これまで計算に問題はなかった Tesla K20 特有の問題? Tesla K20 で変わったこと : Compute Capability が 3.5 になった利用できるレジスタ数が増えたバグがあるとしたらここ? ためしに launch_bounds (T, B) を調整してみる T: ブロックあたりの最大スレッド数 B: マルチプロセッサあたりの最小ブロック数 GTC Japan Tokyo Midtown Hall & Conference 24

25 動いた! GTC Japan Tokyo Midtown Hall & Conference 25

26 PTX - Parallel Thread execution 変更前 : launch_bounds (384, 1).visible.entry _Z28dem_collision_pp_calc_... ).maxntid 384, 1, 1.minnctapersm 1 {.reg.pred %p<11>;.reg.s32 %r<59>;.reg.s64 %rd<59>;.reg.f64 %fd<222>; 変更後 : launch_bounds (1024, 1).visible.entry _Z28dem_collision_pp_calc_... ).maxntid 1024, 1, 1.minnctapersm 1 {.reg.pred %p<11>;.reg.s32 %r<59>;.reg.s64 %rd<59>;.reg.f64 %fd<222>; maxntid 以外はすべて同じ GTC Japan Tokyo Midtown Hall & Conference 26

27 LLVM - Low Level Virtual Machine 5. CUDA のしくみに詳しくなろう LLVM を基礎としている CUDA C/C++ (*.cu) CUDA C/C++ front-end NVVM IR (LLVM IR 互換 ) 独自拡張もできる CUDA Compiler SDK NVVM IR (libnvvm) LLVM optimizer PTX back-end PTX (*.ptx) CUDA driver があやしい CUDA driver (JIT compiler) CUDA binary GTC Japan Tokyo Midtown Hall & Conference 27

28 Bug Report 動作確認ができたのでソフトウェアは Fix (1 月末 ) CUDA Registered Developer Program CUDA/GPU Bug Reporting Submissions NVIDIA 側でも不具合の再現 (2 月末 ) CUDA 5.5 RC の driver で修正 (5 月初 ) GTC Japan Tokyo Midtown Hall & Conference 28

29 プログラムがうまく動かない! CUDA のバグの見つけ方北岡伸也 GTC Japan Tokyo Midtown Hall & Conference 29

30 CUDA driver のバグを見つけました GTC Japan Tokyo Midtown Hall & Conference 30

31 Summary デバッグに役立ったこと 1. 詳細な実行ログを出力できるようにしておこう意外と役立つ 2. CUDA カーネルに対応した HOST コードを用意しよう単体テストができるように 3. HOST コードに置き換えて実行できるようにしておこう結合テストができるように 4. HOST と DEVICE の計算結果を比較できるようにしておこう単体テストと結合テストの両方で 5. CUDA のしくみに詳しくなろう GTC Japan Tokyo Midtown Hall & Conference 31

32 Event - Simulation Conference ( 木 ) 東京コンファレンスセンター品川参加費 : 無料 ( 要事前登録 ) 主催プロメテックソフトウェア株式会社日本 GPU コンピューティング有限責任事業組合基調講演青木素直 ( 株式会社三菱総合研究所副理事長 ) 姫野龍太郎 ( 独立法人理化学研究所情報基盤センター長 ) 越塚誠一 ( 東京大学大学院工学系研究科教授 ) パネルディスカッションメニコア新時代! ソフトウェア開発の現場から見えてきた課題と期待協賛 NVIDIA Japan 株式会社構造計画研究所株式会社エルザジャパンサイバネットシステム株式会社株式会社日立製作所株式会社資生堂積水エンジニアリング株式会社株式会社キタック株式会社トプコン住友重機械工業株式会社大日本スクリーン製造株式会社 GTC Japan Tokyo Midtown Hall & Conference 32 ほか特別講演 / 事例講演

33 Job Offer Product Development Dept. Researches Mathematics Linear Algebra Mathematical Analysis Differential equations (Function Approximation) Physics Incompressible Fluid (Non-Newtonian Fluid) (Turbulence) (Surface tension) (Heat conduction/transfer) Powder / Rigid Body Numeric analysis MPS / SPH / DEM (LBM / FDM / FEM / BEM) Software Developments OSs Windows Linux / (Mac) Languages C++ (STL, Boost, 11/14) CUDA Java (Python) Techniques Algorithms & Data Structures OOP / (TMP) / Design Patterns SIMD (SPMD) / OpenMP / MPI (Concurrency Programming) HCI (UI / UX) GTC Japan Tokyo Midtown Hall & Conference 33

IPSJ SIG Technical Report Vol.2014-ARC-213 No.24 Vol.2014-HPC-147 No /12/10 GPU 1,a) 1,b) 1,c) 1,d) GPU GPU Structure Of Array Array Of

IPSJ SIG Technical Report Vol.2014-ARC-213 No.24 Vol.2014-HPC-147 No /12/10 GPU 1,a) 1,b) 1,c) 1,d) GPU GPU Structure Of Array Array Of GPU 1,a) 1,b) 1,c) 1,d) GPU 1 GPU Structure Of Array Array Of Structure 1. MPS(Moving Particle Semi-Implicit) [1] SPH(Smoothed Particle Hydrodynamics) [] DEM(Distinct Element Method)[] [] 1 Tokyo Institute

プログラムがうまく動かない！ ―CUDA のバグの見つけ方―

プログラムがうまく動かない！　―CUDA のバグの見つけ方―