プログラムがうまく動かない! ―CUDA のバグの見つけ方―

Size: px
Start display at page:

Download "プログラムがうまく動かない! ―CUDA のバグの見つけ方―"

Transcription

1 プログラムがうまく動かない! CUDA のバグの見つけ方 北岡伸也 GTC Japan Tokyo Midtown Hall & Conference 1

2 Agenda - 1 of 3 デバッグのノウハウを紹介します 商用ソフトウェア開発での実例をとりあげます Particleworks の K20 対応 ( 注 ) 今回は触れません NVIDIA Parallel Nsight CUDA-GDB CUDA-MEMCHECK Etc GTC Japan Tokyo Midtown Hall & Conference 2

3 Agenda - 2 of 3 Particleworks - 商用流体解析ソフトウェア プロメテックソフトウェア株式会社で開発している製品 v4.5 から CUDA 5.0 & Tesla K20 に対応 Fundamental Algorithms MPS method - Moving Particle Simulation (Semi-implicit) DEM - Distinct Element Method Solver on GPUs コード行数 : ~150,000 カーネル数 : < GTC Japan Tokyo Midtown Hall & Conference 3

4 Agenda - 3 of 3 デバッグに役立ったこと 1. 詳細な実行ログを出力できるようにしておこう 意外と役立つ 2. CUDA カーネルに対応した HOST コードを用意しよう 単体テストができるように 3. HOST コードに置き換えて実行できるようにしておこう 結合テストができるように 4. HOST と DEVICE の計算結果を比較できるようにしておこう 単体テストと結合テストの両方で 5. CUDA のしくみに詳しくなろう GTC Japan Tokyo Midtown Hall & Conference 4

5 Particleworks GTC Japan Tokyo Midtown Hall & Conference 5

6 Company Information 会社名 設立年月日 資本金 役員 主要株主 プロメテック ソフトウェア株式会社 2004 年 10 月 29 日 201,610 千円 岡本伸一藤澤智光越塚誠一角家強志島田憲成花田孔明 株式会社構造計画研究所三菱 UFJ キャピタル株式会社大和企業投資株式会社 SMBC ベンチャーキャピタル株式会社安田企業投資株式会社りそなキャピタル株式会社プロメテック ソフトウェア協力研究者持株会プロメテック ソフトウェア従業員持株会 GTC Japan Tokyo Midtown Hall & Conference 6

7 Access 所在地 東京都文京区本郷 東京大学アントレプレナープラザ 3 階 URL GTC Japan Tokyo Midtown Hall & Conference 7

8 Timeline CUDA Toolkit v5.0 Tesla K20 Early Access Program Tesla K20 K20c 作業期間 ( 約 2 ヶ月 ) NVIDIA Manufacturing Day Particleworks v GTC Japan Tokyo Midtown Hall & Conference 8

9 Tasks Software Testing gearbox すべての例題 (Particleworks に付録 ) いくつかの顧客事例 Performance Measurements いくつかの例題 いくつかの顧客事例 dam-break Performance Tunings (Software Debugs) GTC Japan Tokyo Midtown Hall & Conference 9

10 Development Environment (Windows) Redmine Project Management Subversion (+ Git) Version Control System Microsoft Visual Studio 2010 (+ CUDA 5.0) IDE; Integrated Development Environment Google Test Testing Framework Jenkins CI; Continuous Integration GTC Japan Tokyo Midtown Hall & Conference 10

11 Performance Turnings for Kepler Read Only Cache Memory Warp Shuffle Operations Grid and Block size Optimization 1.47x (C2075 / K20c) Case 1 Case 2 Case 3 Case 4 Case 5 # of Particles 807, , , , ,042 Pressure (Implicit) x x x x x Viscosity (Implicit) x x Surface Tension x x Turbulence x DEM x Performance Gain cf. NVIDIA Manufacturing Day 2013, Particleworks GTC Japan Tokyo Midtown Hall & Conference 11

12 Status 動作確認済み GeForce GTX 640 (K10) Early Access Program (K20) すぐにテストをパスできるだろう GTC Japan Tokyo Midtown Hall & Conference 12

13 あれっ? GTC Japan Tokyo Midtown Hall & Conference 13

14 Logs 1. 詳細な実行ログを出力できるようにしておこう 実行ログをチェック どういう状況で停止しているか確認できる printf debug Logger 出力の詳細度を変更できるようにしておく 変数のウォッチ コールツリー GTC Japan Tokyo Midtown Hall & Conference 14

15 Bugs 特定のテストケースで解析が発散する しかも Tesla K20c で実行したときだけ クーラン条件を満たせなくなり解析が停止する 安定した解析のための条件 粒子の速度が大きくなりすぎること どこかのカーネルの計算がおかしい 止まるときと止まらないときがある 粒子数が多い解析 (20 万以上 ) で止まりやすい 並列計算に関するバグ? GTC Japan Tokyo Midtown Hall & Conference 15

16 CFL condition Courant-Friedrichs-Lewy 条件を満たしている 条件を満たしていない Time Step: t Time Step: t+1 衝突 すり抜ける GTC Japan Tokyo Midtown Hall & Conference 16

17 Unit Testing (Tesla K20) 2. CUDA カーネルに対応した HOST コードを用意しよう [spmv.h] void hst_spmv( ); void dev_spmv( ); [spmv.cpp] void hst_spmv( ) { } [spmv.cu] global void spmv_kernel( ) { } void dev_spmv( ) { spmv_kernel<<< >>>( ); } GTC Japan Tokyo Midtown Hall & Conference 17

18 Integration Testing (Tesla K20) - 1 of 2 3. HOST コードに置き換えて実行できるようにしておこう hst_spmv( y.get(hst_mode, write_mode), row_ptr.get(hst_mode), col_ind.get(hst_mode), a.get(hst_mode), x.get(hst_mode), n); dev_spmv( y.get(dev_mode, write_mode), row_ptr.get(dev_mode), col_ind.get(dev_mode), a.get(dev_mode), x.get(dev_mode), n); メモリバッファを抽象化しておく HOST と DEVICE を対応付けて管理する 変更を相互に反映させる 取得時に変更されていたらコピーする 動作 変数はすべて抽象化したバッファ 取得モードで返す生ポインタのアドレスを変更 読み込みモードで取得されたあと異なる取得モードでとりだされたら cudamemcpy する GTC Japan Tokyo Midtown Hall & Conference 18

19 Integration Testing (Tesla K20) - 2 of 2 4. HOST と DEVICE の計算結果を比較できるようにしておこう Logger の出力結果 : Prometech::NeighborSearchGPU::Calculate { Prometech::NeighborSearchGPU::calculate_distribution { pw::arraymanagermethod::exchange_distributed_buffer_all { } debug: exchange_distributed_buffer_all : pw::arraymanager::exec(2497) } Prometech::NeighborSearchGPU::calculate_particle { pw::arraymanagermethod::construct_neighbor_table_large { debug: buffer = particle.collide_hash.int2.1.2, size = pw::arraymanagermethod::set_array(526) debug: buffer = particle.collide_mibb_buf.double3.1.1, size = pw::arraymanagermethod::set_array(526) debug: buffer = particle.collide_mabb_buf.double3.1.1, size = pw::arraymanagermethod::set_array(526) debug: bbmin = pw::arraymanagermethod::set_collision_slice(304) debug: bbmax = pw::arraymanagermethod::set_collision_slice(305) debug: ngrid = pw::arraymanagermethod::set_collision_slice_array(313) debug: buffer = particle.collide_slice_sum.int.1.1, size = pw::arraymanagermethod::set_array(526) debug: buffer = particle.collide_slice.int4.1.1, size = pw::arraymanagermethod::set_array(526) debug: buffer = particle.collide_slice_offset.int4.1.1, size = pw::arraymanagermethod::set_array(526) GTC Japan Tokyo Midtown Hall & Conference 19

20 3 Bugs 1. Prefix Sum (scan) 2. Sort Thrust に置き換え 3. 粉体計算部 : 接触判定 + 摩擦力計算 原因不明 単体テストはパスする HOST も DEVICE も似ている 同じようなコード 計算結果が化けているようにみえる レジスタの値が変 GTC Japan Tokyo Midtown Hall & Conference 20

21 ところで GTC Japan Tokyo Midtown Hall & Conference 21

22 NVCC - NVIDIA CUDA Compiler たまにコンパイラが落ちる 複雑なヘッダファイルを読ましていると字句解析でアサーションがでる GTC Japan Tokyo Midtown Hall & Conference 22

23 ん? GTC Japan Tokyo Midtown Hall & Conference 23

24 NVCC has bugs? これまで計算に問題はなかった Tesla K20 特有の問題? Tesla K20 で変わったこと : Compute Capability が 3.5 になった 利用できるレジスタ数が増えた バグがあるとしたらここ? ためしに launch_bounds (T, B) を調整してみる T: ブロックあたりの最大スレッド数 B: マルチプロセッサあたりの最小ブロック数 GTC Japan Tokyo Midtown Hall & Conference 24

25 動いた! GTC Japan Tokyo Midtown Hall & Conference 25

26 PTX - Parallel Thread execution 変更前 : launch_bounds (384, 1).visible.entry _Z28dem_collision_pp_calc_... ).maxntid 384, 1, 1.minnctapersm 1 {.reg.pred %p<11>;.reg.s32 %r<59>;.reg.s64 %rd<59>;.reg.f64 %fd<222>; 変更後 : launch_bounds (1024, 1).visible.entry _Z28dem_collision_pp_calc_... ).maxntid 1024, 1, 1.minnctapersm 1 {.reg.pred %p<11>;.reg.s32 %r<59>;.reg.s64 %rd<59>;.reg.f64 %fd<222>; maxntid 以外はすべて同じ GTC Japan Tokyo Midtown Hall & Conference 26

27 LLVM - Low Level Virtual Machine 5. CUDA のしくみに詳しくなろう LLVM を基礎としている CUDA C/C++ (*.cu) CUDA C/C++ front-end NVVM IR (LLVM IR 互換 ) 独自拡張もできる CUDA Compiler SDK NVVM IR (libnvvm) LLVM optimizer PTX back-end PTX (*.ptx) CUDA driver があやしい CUDA driver (JIT compiler) CUDA binary GTC Japan Tokyo Midtown Hall & Conference 27

28 Bug Report 動作確認ができたのでソフトウェアは Fix (1 月末 ) CUDA Registered Developer Program CUDA/GPU Bug Reporting Submissions NVIDIA 側でも不具合の再現 (2 月末 ) CUDA 5.5 RC の driver で修正 (5 月初 ) GTC Japan Tokyo Midtown Hall & Conference 28

29 プログラムがうまく動かない! CUDA のバグの見つけ方 北岡伸也 GTC Japan Tokyo Midtown Hall & Conference 29

30 CUDA driver の バグを見つけました GTC Japan Tokyo Midtown Hall & Conference 30

31 Summary デバッグに役立ったこと 1. 詳細な実行ログを出力できるようにしておこう 意外と役立つ 2. CUDA カーネルに対応した HOST コードを用意しよう 単体テストができるように 3. HOST コードに置き換えて実行できるようにしておこう 結合テストができるように 4. HOST と DEVICE の計算結果を比較できるようにしておこう 単体テストと結合テストの両方で 5. CUDA のしくみに詳しくなろう GTC Japan Tokyo Midtown Hall & Conference 31

32 Event - Simulation Conference ( 木 ) 東京コンファレンスセンター 品川 参加費 : 無料 ( 要事前登録 ) 主催 プロメテック ソフトウェア株式会社日本 GPU コンピューティング有限責任事業組合 基調講演 青木素直 ( 株式会社三菱総合研究所副理事長 ) 姫野龍太郎 ( 独立法人理化学研究所情報基盤センター長 ) 越塚誠一 ( 東京大学大学院工学系研究科教授 ) パネルディスカッション メニ コア新時代! ソフトウェア開発の現場から見えてきた課題と期待 協賛 NVIDIA Japan 株式会社構造計画研究所株式会社エルザジャパンサイバネットシステム株式会社 株式会社日立製作所 株式会社資生堂 積水エンジニアリング株式会社 株式会社キタック 株式会社トプコン 住友重機械工業株式会社大日本スクリーン製造株式会社 GTC Japan Tokyo Midtown Hall & Conference 32 ほか 特別講演 / 事例講演

33 Job Offer Product Development Dept. Researches Mathematics Linear Algebra Mathematical Analysis Differential equations (Function Approximation) Physics Incompressible Fluid (Non-Newtonian Fluid) (Turbulence) (Surface tension) (Heat conduction/transfer) Powder / Rigid Body Numeric analysis MPS / SPH / DEM (LBM / FDM / FEM / BEM) Software Developments OSs Windows Linux / (Mac) Languages C++ (STL, Boost, 11/14) CUDA Java (Python) Techniques Algorithms & Data Structures OOP / (TMP) / Design Patterns SIMD (SPMD) / OpenMP / MPI (Concurrency Programming) HCI (UI / UX) GTC Japan Tokyo Midtown Hall & Conference 33

IPSJ SIG Technical Report Vol.2014-ARC-213 No.24 Vol.2014-HPC-147 No /12/10 GPU 1,a) 1,b) 1,c) 1,d) GPU GPU Structure Of Array Array Of

IPSJ SIG Technical Report Vol.2014-ARC-213 No.24 Vol.2014-HPC-147 No /12/10 GPU 1,a) 1,b) 1,c) 1,d) GPU GPU Structure Of Array Array Of GPU 1,a) 1,b) 1,c) 1,d) GPU 1 GPU Structure Of Array Array Of Structure 1. MPS(Moving Particle Semi-Implicit) [1] SPH(Smoothed Particle Hydrodynamics) [] DEM(Distinct Element Method)[] [] 1 Tokyo Institute

More information

Slides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments

Slides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments 計算機アーキテクチャ第 11 回 マルチプロセッサ 本資料は授業用です 無断で転載することを禁じます 名古屋大学 大学院情報科学研究科 准教授加藤真平 デスクトップ ジョブレベル並列性 スーパーコンピュータ 並列処理プログラム プログラムの並列化 for (i = 0; i < N; i++) { x[i] = a[i] + b[i]; } プログラムの並列化 x[0] = a[0] + b[0];

More information

07-二村幸孝・出口大輔.indd

07-二村幸孝・出口大輔.indd GPU Graphics Processing Units HPC High Performance Computing GPU GPGPU General-Purpose computation on GPU CPU GPU GPU *1 Intel Quad-Core Xeon E5472 3.0 GHz 2 6 MB L2 cache 1600 MHz FSB 80 GFlops 1 nvidia

More information

( CUDA CUDA CUDA CUDA ( NVIDIA CUDA I

(    CUDA CUDA CUDA CUDA (  NVIDIA CUDA I GPGPU (II) GPGPU CUDA 1 GPGPU CUDA(CUDA Unified Device Architecture) CUDA NVIDIA GPU *1 C/C++ (nvcc) CUDA NVIDIA GPU GPU CUDA CUDA 1 CUDA CUDA 2 CUDA NVIDIA GPU PC Windows Linux MaxOSX CUDA GPU CUDA NVIDIA

More information

1. GPU コンピューティング GPU コンピューティング GPUによる 汎用コンピューティング GPU = Graphics Processing Unit CUDA Compute Unified Device Architecture NVIDIA の GPU コンピューティング環境 Lin

1. GPU コンピューティング GPU コンピューティング GPUによる 汎用コンピューティング GPU = Graphics Processing Unit CUDA Compute Unified Device Architecture NVIDIA の GPU コンピューティング環境 Lin Windows で始める CUDA 入門 GTC 2013 チュートリアル エヌビディアジャパン CUDA エンジニア森野慎也 1. GPU コンピューティング GPU コンピューティング GPUによる 汎用コンピューティング GPU = Graphics Processing Unit CUDA Compute Unified Device Architecture NVIDIA の GPU コンピューティング環境

More information

TSUBAME2.0 における GPU の 活用方法 東京工業大学学術国際情報センター丸山直也第 10 回 GPU コンピューティング講習会 2011 年 9 月 28 日

TSUBAME2.0 における GPU の 活用方法 東京工業大学学術国際情報センター丸山直也第 10 回 GPU コンピューティング講習会 2011 年 9 月 28 日 TSUBAME2.0 における GPU の 活用方法 東京工業大学学術国際情報センター丸山直也第 10 回 GPU コンピューティング講習会 2011 年 9 月 28 日 目次 1. TSUBAMEのGPU 環境 2. プログラム作成 3. プログラム実行 4. 性能解析 デバッグ サンプルコードは /work0/gsic/seminars/gpu- 2011-09- 28 からコピー可能です 1.

More information

ストリームを用いたコンカレントカーネルプログラミングと最適化 エヌビディアジャパン CUDAエンジニア森野慎也 GTC Japan 2014

ストリームを用いたコンカレントカーネルプログラミングと最適化 エヌビディアジャパン CUDAエンジニア森野慎也 GTC Japan 2014 ストリームを用いたコンカレントカーネルプログラミングと最適化 エヌビディアジャパン CUDAエンジニア森野慎也 GTC Japan 2014 コンカレントな処理の実行 システム内部の複数の処理を 平行に実行する CPU GPU メモリ転送 カーネル実行 複数のカーネル間 ストリーム GPU 上の処理キュー カーネル実行 メモリ転送の並列性 実行順序 DEFAULT STREAM Stream : GPU

More information

GPU GPU CPU CPU CPU GPU GPU N N CPU ( ) 1 GPU CPU GPU 2D 3D CPU GPU GPU GPGPU GPGPU 2 nvidia GPU CUDA 3 GPU 3.1 GPU Core 1

GPU GPU CPU CPU CPU GPU GPU N N CPU ( ) 1 GPU CPU GPU 2D 3D CPU GPU GPU GPGPU GPGPU 2 nvidia GPU CUDA 3 GPU 3.1 GPU Core 1 GPU 4 2010 8 28 1 GPU CPU CPU CPU GPU GPU N N CPU ( ) 1 GPU CPU GPU 2D 3D CPU GPU GPU GPGPU GPGPU 2 nvidia GPU CUDA 3 GPU 3.1 GPU Core 1 Register & Shared Memory ( ) CPU CPU(Intel Core i7 965) GPU(Tesla

More information

MATLAB® における並列・分散コンピューティング ~ Parallel Computing Toolbox™ & MATLAB Distributed Computing Server™ ~

MATLAB® における並列・分散コンピューティング ~ Parallel Computing Toolbox™ & MATLAB Distributed Computing Server™ ~ MATLAB における並列 分散コンピューティング ~ Parallel Computing Toolbox & MATLAB Distributed Computing Server ~ MathWorks Japan Application Engineering Group Takashi Yoshida 2016 The MathWorks, Inc. 1 System Configuration

More information

GPGPU

GPGPU GPGPU 2013 1008 2015 1 23 Abstract In recent years, with the advance of microscope technology, the alive cells have been able to observe. On the other hand, from the standpoint of image processing, the

More information

GPU チュートリアル :OpenACC 篇 Himeno benchmark を例題として 高エネルギー加速器研究機構 (KEK) 松古栄夫 (Hideo Matsufuru) 1 December 2018 HPC-Phys 理化学研究所 共通コードプロジェクト

GPU チュートリアル :OpenACC 篇 Himeno benchmark を例題として 高エネルギー加速器研究機構 (KEK) 松古栄夫 (Hideo Matsufuru) 1 December 2018 HPC-Phys 理化学研究所 共通コードプロジェクト GPU チュートリアル :OpenACC 篇 Himeno benchmark を例題として 高エネルギー加速器研究機構 (KEK) 松古栄夫 (Hideo Matsufuru) 1 December 2018 HPC-Phys 勉強会 @ 理化学研究所 共通コードプロジェクト Contents Hands On 環境について Introduction to GPU computing Introduction

More information

Slide 1

Slide 1 CUDA プログラミングの基本 パート I - ソフトウェアスタックとメモリ管理 CUDA の基本の概要 パート I CUDAのソフトウェアスタックとコンパイル GPUのメモリ管理 パートII カーネルの起動 GPUコードの具体項目 注 : 取り上げているのは基本事項のみです そのほか多数の API 関数についてはプログラミングガイドを ご覧ください CUDA インストレーション CUDA インストレーションの構成

More information

Microsoft PowerPoint - GPU_computing_2013_01.pptx

Microsoft PowerPoint - GPU_computing_2013_01.pptx GPU コンピューティン No.1 導入 東京工業大学 学術国際情報センター 青木尊之 1 GPU とは 2 GPGPU (General-purpose computing on graphics processing units) GPU を画像処理以外の一般的計算に使う GPU の魅力 高性能 : ハイエンド GPU はピーク 4 TFLOPS 超 手軽さ : 普通の PC にも装着できる 低価格

More information

NUMAの構成

NUMAの構成 GPU のプログラム 天野 アクセラレータとは? 特定の性質のプログラムを高速化するプロセッサ 典型的なアクセラレータ GPU(Graphic Processing Unit) Xeon Phi FPGA(Field Programmable Gate Array) 最近出て来た Deep Learning 用ニューロチップなど Domain Specific Architecture 1GPGPU:General

More information

1 OpenCL OpenCL 1 OpenCL GPU ( ) 1 OpenCL Compute Units Elements OpenCL OpenCL SPMD (Single-Program, Multiple-Data) SPMD OpenCL work-item work-group N

1 OpenCL OpenCL 1 OpenCL GPU ( ) 1 OpenCL Compute Units Elements OpenCL OpenCL SPMD (Single-Program, Multiple-Data) SPMD OpenCL work-item work-group N GPU 1 1 2 1, 3 2, 3 (Graphics Unit: GPU) GPU GPU GPU Evaluation of GPU Computing Based on An Automatic Program Generation Technology Makoto Sugawara, 1 Katsuto Sato, 1 Kazuhiko Komatsu, 2 Hiroyuki Takizawa

More information

名称 : 日本 GPU コンピューティングパートナーシップ (G-DEP) 所在 : 東京都文京区本郷 7 丁目 3 番 1 号東京大学アントレプレナープラザ, 他工場 URL アライアンスパートナー コアテクノロジーパートナー NVIDIA JAPAN ソリュ

名称 : 日本 GPU コンピューティングパートナーシップ (G-DEP) 所在 : 東京都文京区本郷 7 丁目 3 番 1 号東京大学アントレプレナープラザ, 他工場 URL   アライアンスパートナー コアテクノロジーパートナー NVIDIA JAPAN ソリュ GPUDirect の現状整理 multi-gpu に取組むために G-DEP チーフエンジニア河井博紀 (kawai@gdep.jp) 名称 : 日本 GPU コンピューティングパートナーシップ (G-DEP) 所在 : 東京都文京区本郷 7 丁目 3 番 1 号東京大学アントレプレナープラザ, 他工場 URL http://www.gdep.jp アライアンスパートナー コアテクノロジーパートナー

More information

<4D F736F F F696E74202D2090E096BE8E9197BF816991E EF A835B815B A2E >

<4D F736F F F696E74202D2090E096BE8E9197BF816991E EF A835B815B A2E > 第 16 回ビジュアリゼーションカンファレンス 粒子法と GPU で CAE 新時代を切り開く! 粒子法ソフトウェア Particleworks が目指す先 Seminar Material 2010 年 11 月 5 日 プロメテック ソフトウェア株式会社 執行役員川上浩 0 目次 会社案内 事業紹介 粒子法 (MPS 法 ) とは 粒子法の得意分野 Particleworksの並列計算手法 SMP/MPP

More information

! 行行 CPUDSP PPESPECell/B.E. CPUGPU 行行 SIMD [SSE, AltiVec] 用 HPC CPUDSP PPESPE (Cell/B.E.) SPE CPUGPU GPU CPU DSP DSP PPE SPE SPE CPU DSP SPE 2

! 行行 CPUDSP PPESPECell/B.E. CPUGPU 行行 SIMD [SSE, AltiVec] 用 HPC CPUDSP PPESPE (Cell/B.E.) SPE CPUGPU GPU CPU DSP DSP PPE SPE SPE CPU DSP SPE 2 ! OpenCL [Open Computing Language] 言 [OpenCL C 言 ] CPU, GPU, Cell/B.E.,DSP 言 行行 [OpenCL Runtime] OpenCL C 言 API Khronos OpenCL Working Group AMD Broadcom Blizzard Apple ARM Codeplay Electronic Arts Freescale

More information

CPU Levels in the memory hierarchy Level 1 Level 2... Increasing distance from the CPU in access time Level n Size of the memory at each level 1: 2.2

CPU Levels in the memory hierarchy Level 1 Level 2... Increasing distance from the CPU in access time Level n Size of the memory at each level 1: 2.2 FFT 1 Fourier fast Fourier transform FFT FFT FFT 1 FFT FFT 2 Fourier 2.1 Fourier FFT Fourier discrete Fourier transform DFT DFT n 1 y k = j=0 x j ω jk n, 0 k n 1 (1) x j y k ω n = e 2πi/n i = 1 (1) n DFT

More information

A Precise Calculation Method of the Gradient Operator in Numerical Computation with the MPS Tsunakiyo IRIBE and Eizo NAKAZA A highly precise numerical

A Precise Calculation Method of the Gradient Operator in Numerical Computation with the MPS Tsunakiyo IRIBE and Eizo NAKAZA A highly precise numerical A Precise Calculation Method of the Gradient Operator in Numerical Computation with the MPS Tsunakiyo IRIBE and Eizo NAKAZA A highly precise numerical calculation method of the gradient as a differential

More information

Microsoft PowerPoint - GPGPU実践基礎工学(web).pptx

Microsoft PowerPoint - GPGPU実践基礎工学(web).pptx GPU のプログラム構造 長岡技術科学大学電気電子情報工学専攻出川智啓 今回の内容 GPU プログラミング環境 (CUDA) GPU プログラムの実行の流れ CUDA によるプログラムの記述 カーネル (GPU で処理する関数 ) の構造 記述方法とその理由 GPU 固有のパラメータの確認 405 GPU(Graphics Processing Unit) とは 画像処理専用のハードウェア 具体的には画像処理用のチップ

More information

スライド 1

スライド 1 GPU クラスタによる格子 QCD 計算 広大理尾崎裕介 石川健一 1.1 Introduction Graphic Processing Units 1 チップに数百個の演算器 多数の演算器による並列計算 ~TFLOPS ( 単精度 ) CPU 数十 GFLOPS バンド幅 ~100GB/s コストパフォーマンス ~$400 GPU の開発環境 NVIDIA CUDA http://www.nvidia.co.jp/object/cuda_home_new_jp.html

More information

GPGPUクラスタの性能評価

GPGPUクラスタの性能評価 2008 年度理研 HPC シンポジウム第 3 世代 PC クラスタ GPGPU クラスタの性能評価 2009 年 3 月 12 日 富士通研究所成瀬彰 発表の概要 背景 GPGPU による高速化 CUDA の概要 GPU のメモリアクセス特性調査 姫野 BMT の高速化 GPGPU クラスタによる高速化 GPU Host 間のデータ転送 GPU-to-GPU の通信性能 GPGPU クラスタ上での姫野

More information

OpenGL GLSL References Kageyama (Kobe Univ.) Visualization / 58

OpenGL GLSL References Kageyama (Kobe Univ.) Visualization / 58 WebGL *1 2013.04.23 *1 X021 2013 LR301 Kageyama (Kobe Univ.) Visualization 2013.04.23 1 / 58 OpenGL GLSL References Kageyama (Kobe Univ.) Visualization 2013.04.23 2 / 58 Kageyama (Kobe Univ.) Visualization

More information

PGRelief C/C++ 強化ポイント説明書

PGRelief C/C++ 強化ポイント説明書 PGRelief C/C++ 強化ポイント説明書 1. 最新バージョンの強化ポイント (2017autumn 2018) 1) CERT Cコーディングスタンダードの適合性チェックを追加 CERTオプションの購入が必要 2) 指摘メッセージを16 個追加 ( うち15 個はCERTオプション用 ) 3) Visual C++ 2015 の資産に対応 2. 過去バージョンの強化ポイント 2.1. 強化ポイント

More information

EGunGPU

EGunGPU Super Computing in Accelerator simulations - Electron Gun simulation using GPGPU - K. Ohmi, KEK-Accel Accelerator Physics seminar 2009.11.19 Super computers in KEK HITACHI SR11000 POWER5 16 24GB 16 134GFlops,

More information

GPU Computing on Business

GPU Computing on Business GPU Computing on Business 2010 Numerical Technologies Incorporated http://www.numtech.com/ 1 2 3 4 5 6 7 8 9 GPU Computing $$$ Revenue Total Cost low BEP Quantity 10 11 12 13 14 15 GPU Computing $$$ Revenue

More information

GPUを用いたN体計算

GPUを用いたN体計算 単精度 190Tflops GPU クラスタ ( 長崎大 ) の紹介 長崎大学工学部超高速メニーコアコンピューティングセンターテニュアトラック助教濱田剛 1 概要 GPU (Graphics Processing Unit) について簡単に説明します. GPU クラスタが得意とする応用問題を議論し 長崎大学での GPU クラスタによる 取組方針 N 体計算の高速化に関する研究内容 を紹介します. まとめ

More information

23 Fig. 2: hwmodulev2 3. Reconfigurable HPC 3.1 hw/sw hw/sw hw/sw FPGA PC FPGA PC FPGA HPC FPGA FPGA hw/sw hw/sw hw- Module FPGA hwmodule hw/sw FPGA h

23 Fig. 2: hwmodulev2 3. Reconfigurable HPC 3.1 hw/sw hw/sw hw/sw FPGA PC FPGA PC FPGA HPC FPGA FPGA hw/sw hw/sw hw- Module FPGA hwmodule hw/sw FPGA h 23 FPGA CUDA Performance Comparison of FPGA Array with CUDA on Poisson Equation (lijiang@sekine-lab.ei.tuat.ac.jp), (kazuki@sekine-lab.ei.tuat.ac.jp), (takahashi@sekine-lab.ei.tuat.ac.jp), (tamukoh@cc.tuat.ac.jp),

More information

1 GPU GPGPU GPU CPU 2 GPU 2007 NVIDIA GPGPU CUDA[3] GPGPU CUDA GPGPU CUDA GPGPU GPU GPU GPU Graphics Processing Unit LSI LSI CPU ( ) DRAM GPU LSI GPU

1 GPU GPGPU GPU CPU 2 GPU 2007 NVIDIA GPGPU CUDA[3] GPGPU CUDA GPGPU CUDA GPGPU GPU GPU GPU Graphics Processing Unit LSI LSI CPU ( ) DRAM GPU LSI GPU GPGPU (I) GPU GPGPU 1 GPU(Graphics Processing Unit) GPU GPGPU(General-Purpose computing on GPUs) GPU GPGPU GPU ( PC ) PC PC GPU PC PC GPU GPU 2008 TSUBAME NVIDIA GPU(Tesla S1070) TOP500 29 [1] 2009 AMD

More information

untitled

untitled A = QΛQ T A n n Λ Q A = XΛX 1 A n n Λ X GPGPU A 3 T Q T AQ = T (Q: ) T u i = λ i u i T {λ i } {u i } QR MR 3 v i = Q u i A {v i } A n = 9000 Quad Core Xeon 2 LAPACK (4/3) n 3 O(n 2 ) O(n 3 ) A {v i }

More information

5-3- 基統合開発環境に関する知識 1 独立行政法人情報処理推進機構

5-3- 基統合開発環境に関する知識 1 独立行政法人情報処理推進機構 5-3- 基統合開発環境に関する知識 1 5-3- 基統合開発環境に関する知識 OSS の開発で用いられている統合開発環境について その種類や特徴 使い方 活用方法等を理解することを通じて OSS をソースコード Ⅰ. 概要レベルで活用したり 開発プロジェクトに参加したりするための基礎知識やノウハウを学ぶ Ⅱ. 対象専門分野職種共通 Ⅲ. 受講対象者 本カリキュラムの 5-2- 基開発ツールに関する知識

More information

Microsoft PowerPoint - suda.pptx

Microsoft PowerPoint - suda.pptx GPU の HWアーキテクチャと高性能化手法 須田礼仁 ( 東京大学 ) 2011/03/22 GPU 高性能プログラミング GPU のハードウェアを理解する CUDA のソフトウェアを理解する CUDA でプログラムを書くのは難しくないが, CUDA で高速なプログラムを書くのは難しい どうすれば遅くなるかを理解する! 効果が大きいものから順に説明します 1 高性能プログラミングの手順 1. 現在のコードの,

More information

IPSJ SIG Technical Report Vol.2013-HPC-138 No /2/21 GPU CRS 1,a) 2,b) SpMV GPU CRS SpMV GPU NVIDIA Kepler CUDA5.0 Fermi GPU Kepler Kepler Tesla

IPSJ SIG Technical Report Vol.2013-HPC-138 No /2/21 GPU CRS 1,a) 2,b) SpMV GPU CRS SpMV GPU NVIDIA Kepler CUDA5.0 Fermi GPU Kepler Kepler Tesla GPU CRS 1,a),b) SpMV GPU CRS SpMV GPU NVIDIA Kepler CUDA5.0 Fermi GPU Kepler Kepler Tesla K0 CUDA5.0 cusparse CRS SpMV 00 1.86 177 1. SpMV SpMV CRS Compressed Row Storage *1 SpMV GPU GPU NVIDIA Kepler

More information

楽しい開発.pptx

楽しい開発.pptx Redmine, Trac 1 / 2 3 Excel etc Excel etc etc etc PJ etc 4 Excel (Mantis) Excel (MS Project) (Subversion) (InetWeb ) (Wiki) ML (ADE) 5 ARK Developer s Environment ADE ADE ADE Eclipse Ant Maven JMeter Subversion

More information

(1/2) 2/45 HPC top runner application programmer PC-9801F N88-BASIC Quick BASIC + DOS ( ) BCB Windows Percolation, Event-driven MD ActionScript Flash

(1/2) 2/45 HPC top runner application programmer PC-9801F N88-BASIC Quick BASIC + DOS ( ) BCB Windows Percolation, Event-driven MD ActionScript Flash 1/45 8 Outline 1. 2. 3. 4. Jun. 6, 2013@ A (1/2) 2/45 HPC top runner application programmer PC-9801F N88-BASIC Quick BASIC + DOS ( ) BCB Windows Percolation, Event-driven MD ActionScript Flash MPI MD (2/2)

More information

IPSJ SIG Technical Report Vol.2013-ARC-203 No /2/1 SMYLE OpenCL (NEDO) IT FPGA SMYLEref SMYLE OpenCL SMYLE OpenCL FPGA 1

IPSJ SIG Technical Report Vol.2013-ARC-203 No /2/1 SMYLE OpenCL (NEDO) IT FPGA SMYLEref SMYLE OpenCL SMYLE OpenCL FPGA 1 SMYLE OpenCL 128 1 1 1 1 1 2 2 3 3 3 (NEDO) IT FPGA SMYLEref SMYLE OpenCL SMYLE OpenCL FPGA 128 SMYLEref SMYLE OpenCL SMYLE OpenCL Implementation and Evaluations on 128 Cores Takuji Hieda 1 Noriko Etani

More information

I117 II I117 PROGRAMMING PRACTICE II SOFTWARE DEVELOPMENT ENV. 1 Research Center for Advanced Computing Infrastructure (RCACI) / Yasuhiro Ohara

I117 II I117 PROGRAMMING PRACTICE II SOFTWARE DEVELOPMENT ENV. 1 Research Center for Advanced Computing Infrastructure (RCACI) / Yasuhiro Ohara I117 II I117 PROGRAMMING PRACTICE II SOFTWARE DEVELOPMENT ENV. 1 Research Center for Advanced Computing Infrastructure (RCACI) / Yasuhiro Ohara yasu@jaist.ac.jp / SCHEDULE 1. 2011/06/07(Tue) / Basic of

More information

内容 インテル Advisor ベクトル化アドバイザー入門ガイド Version インテル Advisor の利用 ワークフロー... 3 STEP1. 必要条件の設定... 4 STEP2. インテル Advisor の起動... 5 STEP3. プロジェクトの作成

内容 インテル Advisor ベクトル化アドバイザー入門ガイド Version インテル Advisor の利用 ワークフロー... 3 STEP1. 必要条件の設定... 4 STEP2. インテル Advisor の起動... 5 STEP3. プロジェクトの作成 内容 インテル Advisor ベクトル化アドバイザー入門ガイド Version 1.0 1. インテル Advisor の利用... 2 2. ワークフロー... 3 STEP1. 必要条件の設定... 4 STEP2. インテル Advisor の起動... 5 STEP3. プロジェクトの作成と設定... 7 STEP4. ベクトル化に関する情報を取得する... 9 STEP5. ループ処理の詳細を取得する...

More information

28th Embarcadero Developer Camp

28th Embarcadero Developer Camp RAD Studio で実践する 継続的インテグレーション アプリとデベロッパーの価値 を拡張するエッセンス 長沢 智治 テクニカル エバンジェリスト アトラシアン株式会社 re-workstyle.com @tomohn ビジネスとアプリケーションの進化 90s 00s Business 10s Business Business Apps Apps Apps C/S コード品質 開発者中心 分業

More information

Insert your Title here

Insert your Title here マルチコア マルチスレッド環境での静的解析ツールの応用 米 GrammaTech 社 CodeSonar によるスレッド間のデータ競合の検出 2013 GrammaTech, Inc. All rights reserved Agenda 並列実行に起因する不具合の摘出 なぜ 並列実行されるプログラミングは難しいのか データの競合 デッドロック どのようにして静的解析ツールで並列実行の問題を見つけるのか?

More information

workshop Eclipse TAU AICS.key

workshop Eclipse TAU AICS.key 11 AICS 2016/02/10 1 Bryzgalov Peter @ HPC Usability Research Team RIKEN AICS Copyright 2016 RIKEN AICS 2 3 OS X, Linux www.eclipse.org/downloads/packages/eclipse-parallel-application-developers/lunasr2

More information

hotspot の特定と最適化

hotspot の特定と最適化 1 1? 1 1 2 1. hotspot : hotspot hotspot Parallel Amplifier 1? 2. hotspot : (1 ) Parallel Composer 1 Microsoft* Ticker Tape Smoke 1.0 PiSolver 66 / 64 / 2.76 ** 84 / 27% ** 75 / 17% ** 1.46 89% Microsoft*

More information

01_OpenMP_osx.indd

01_OpenMP_osx.indd OpenMP* / 1 1... 2 2... 3 3... 5 4... 7 5... 9 5.1... 9 5.2 OpenMP* API... 13 6... 17 7... 19 / 4 1 2 C/C++ OpenMP* 3 Fortran OpenMP* 4 PC 1 1 9.0 Linux* Windows* Xeon Itanium OS 1 2 2 WEB OS OS OS 1 OS

More information

WebGL OpenGL GLSL Kageyama (Kobe Univ.) Visualization / 57

WebGL OpenGL GLSL Kageyama (Kobe Univ.) Visualization / 57 WebGL 2014.04.15 X021 2014 3 1F Kageyama (Kobe Univ.) Visualization 2014.04.15 1 / 57 WebGL OpenGL GLSL Kageyama (Kobe Univ.) Visualization 2014.04.15 2 / 57 WebGL Kageyama (Kobe Univ.) Visualization 2014.04.15

More information

VXPRO R1400® ご提案資料

VXPRO R1400® ご提案資料 Intel Core i7 プロセッサ 920 Preliminary Performance Report ノード性能評価 ノード性能の評価 NAS Parallel Benchmark Class B OpenMP 版での性能評価 実行スレッド数を 4 で固定 ( デュアルソケットでは各プロセッサに 2 スレッド ) 全て 2.66GHz のコアとなるため コアあたりのピーク性能は同じ 評価システム

More information

今週の進捗

今週の進捗 Virtualize APIC access による APIC フック手法 立命館大学富田崇詠, 明田修平, 瀧本栄二, 毛利公一 2016/11/30 1 はじめに (1/2) マルウェアの脅威が問題となっている 2015年に4 億 3000 万以上の検体が新たに発見されている マルウェア対策にはマルウェアが持つ機能 挙動の正確な解析が重要 マルウェア動的解析システム : Alkanet 仮想計算機モニタのBitVisorの拡張機能として動作

More information

第 1 回ディープラーニング分散学習ハッカソン <ChainerMN 紹介 + スパコンでの実 法 > チューター福 圭祐 (PFN) 鈴 脩司 (PFN)

第 1 回ディープラーニング分散学習ハッカソン <ChainerMN 紹介 + スパコンでの実 法 > チューター福 圭祐 (PFN) 鈴 脩司 (PFN) 第 1 回ディープラーニング分散学習ハッカソン チューター福 圭祐 (PFN) 鈴 脩司 (PFN) https://chainer.org/ 2 Chainer: A Flexible Deep Learning Framework Define-and-Run Define-by-Run Define Define by Run Model

More information

PGIコンパイラ導入手順

PGIコンパイラ導入手順 1 注意この資料は PGI compiler 18.10 が最新であるときに作成した資料を元にしています PGI compiler 19.4 がリリースされましたが インストール手順や利用手順は 18.10 と変わりません 資料中の 1810 を 194 に 18.10 を 19.4 に読み替えてください 2019 年 6 月版 2 大きく分けて以下の 3 つの方法が利用可能 1. 手元のウェブブラウザでダウンロードして

More information

GPU n Graphics Processing Unit CG CAD

GPU n Graphics Processing Unit CG CAD GPU 2016/06/27 第 20 回 GPU コンピューティング講習会 ( 東京工業大学 ) 1 GPU n Graphics Processing Unit CG CAD www.nvidia.co.jp www.autodesk.co.jp www.pixar.com GPU n GPU ü n NVIDIA CUDA ü NVIDIA GPU ü OS Linux, Windows, Mac

More information

1. 開発ツールの概要 1.1 OSS の開発ツール本書では OSS( オープンソースソフトウェア ) の開発ツールを使用します 一般に OSS は営利企業ではない特定のグループが開発するソフトウェアで ソースコードが公開されており無償で使用できます OSS は誰でも開発に参加できますが 大規模な

1. 開発ツールの概要 1.1 OSS の開発ツール本書では OSS( オープンソースソフトウェア ) の開発ツールを使用します 一般に OSS は営利企業ではない特定のグループが開発するソフトウェアで ソースコードが公開されており無償で使用できます OSS は誰でも開発に参加できますが 大規模な 1. 開発ツールの概要 1.1 OSS の開発ツール本書では OSS( オープンソースソフトウェア ) の開発ツールを使用します 一般に OSS は営利企業ではない特定のグループが開発するソフトウェアで ソースコードが公開されており無償で使用できます OSS は誰でも開発に参加できますが 大規模な OSS の場合 企業などから支援を受けて安定した財政基盤の下で先端的なソフトウェアを開発しています 企業にとっても

More information

main.dvi

main.dvi PC 1 1 [1][2] [3][4] ( ) GPU(Graphics Processing Unit) GPU PC GPU PC ( 2 GPU ) GPU Harris Corner Detector[5] CPU ( ) ( ) CPU GPU 2 3 GPU 4 5 6 7 1 toyohiro@isc.kyutech.ac.jp 45 2 ( ) CPU ( ) ( ) () 2.1

More information

スピーカースライド作成前の確認シート例

スピーカースライド作成前の確認シート例 Azure DevOps Projects にも役立つ! Visual Studio Team Services (VSTS) / Team Foundation Server (TFS) ビルド & リリース機能の仕組みを解説 AD27 セッション概要 VSTS / TFS 上での CI / CD パイプライン構築に役立つノウハウや考え方をご紹介します Build 2018 でアナウンスされたアップデートも紹介

More information

Microsoft PowerPoint - Session4古賀様.ppt

Microsoft PowerPoint - Session4古賀様.ppt Windows Embedded CE の テスト環境と活用 マイクロソフト Windows Embedded Partner ( 株 ) サムシングプレシャス代表取締役社長古賀信哉 普段の開発の立ち位置 はじめに ミドルウェア層の開発が主 (DLNA 関連など ) 必要に応じてデバイスドライバ ( カーネルモジュール ) 概要 特定ターゲット向けの BSP も 開発環境及び開発環境を用いた動作確認

More information

CUDA を用いた画像処理 画像処理を CUDA で並列化 基本的な並列化の考え方 目標 : 妥当な Naïve コードが書ける 最適化の初歩がわかる ブロックサイズ メモリアクセスパターン

CUDA を用いた画像処理 画像処理を CUDA で並列化 基本的な並列化の考え方 目標 : 妥当な Naïve コードが書ける 最適化の初歩がわかる ブロックサイズ メモリアクセスパターン CUDA 画像処理入門 エヌビディアジャパン CUDA エンジニア森野慎也 GTC Japan 2014 CUDA を用いた画像処理 画像処理を CUDA で並列化 基本的な並列化の考え方 目標 : 妥当な Naïve コードが書ける 最適化の初歩がわかる ブロックサイズ メモリアクセスパターン RGB Y( 輝度 ) 変換 カラー画像から グレイスケールへの変換 Y = 0.299 R + 0.587

More information

インテル(R) Visual Fortran コンパイラ 10.0

インテル(R) Visual Fortran コンパイラ 10.0 インテル (R) Visual Fortran コンパイラー 10.0 日本語版スペシャル エディション 入門ガイド 目次 概要インテル (R) Visual Fortran コンパイラーの設定はじめに検証用ソースファイル適切なインストールの確認コンパイラーの起動 ( コマンドライン ) コンパイル ( 最適化オプションなし ) 実行 / プログラムの検証コンパイル ( 最適化オプションあり ) 実行

More information

非線形長波モデルと流体粒子法による津波シミュレータの開発 I_ m ρ v p h g a b a 2h b r ab a b Fang W r ab h 5 Wendland 1995 q= r ab /h a d W r ab h

非線形長波モデルと流体粒子法による津波シミュレータの開発 I_ m ρ v p h g a b a 2h b r ab a b Fang W r ab h 5 Wendland 1995 q= r ab /h a d W r ab h 土木学会論文集 B2( 海岸工学 ) Vol. 70, No. 2, 2014, I_016-I_020 非線形長波モデルと流体粒子法による津波シミュレータの開発 Development of a Tsunami Simulator Integrating the Smoothed-Particle Hydrodynamics Method and the Nonlinear Shallow Water

More information

Oracle Policy Automation 10.0システム要件

Oracle Policy Automation 10.0システム要件 Oracle Policy Automation 10.0 システム要件 2009 年 12 月 - バージョン 1.01 Oracle Policy Automation 製品 バージョン 10.00 の概要 製品 プラットフォーム Oracle Policy Modeling Microsoft Windows( デスクトップ ) Oracle Policy Automation( ランタイム

More information

kiso2-03.key

kiso2-03.key 座席指定はありません Linux を起動して下さい 第3回 計算機基礎実習II 2018 のウェブページか ら 以下の課題に自力で取り組んで下さい 計算機基礎実習II 第2回の復習課題(rev02) 第3回の基本課題(base03) 第2回課題の回答例 ex02-2.c include int main { int l int v, s; /* 一辺の長さ */ /* 体積 v

More information

NetworkVantage 9

NetworkVantage 9 DevPartner エラー検出 はじめてのエラー検出 (Unmanaged VC++ 版 ) 本書は はじめてエラー検出を使用する際に参考していただくドキュメントです 詳細な情報につきましては 製品に付属しているオンラインドキュメントならびにオンラインヘルプをご参照ください なお 本書は Visual Studio 2010 をベースとして説明しております Visual Studio 6.0 の場合は

More information

新しい価値創出に貢献する大規模CAEシミュレーション

新しい価値創出に貢献する大規模CAEシミュレーション CAE Large-scale CAE Simulation Supporting New Value-creation あらまし CAE Computer Aided Engineering LS-DYNA CAE CAE afjrls-dyna CAE Abstract In the manufacturing industry, numerical simulation assisted by

More information

5-3- 応統合開発環境に関する知識 1 独立行政法人情報処理推進機構

5-3- 応統合開発環境に関する知識 1 独立行政法人情報処理推進機構 5-3- 応統合開発環境に関する知識 1 5-3- 応統合開発環境に関する知識 統合開発環境と バグ管理ツール ビルドツールなど様々な開発ツールとの連携や MVCフレームワークなどの Javaフレームワークとの連 Ⅰ. 概要携 C 言語やスクリプト言語など Java 以外の言語での利用方法について学ぶ Ⅱ. 対象専門分野職種共通 Ⅲ. 受講対象者 本カリキュラムの 5-3- 基統合開発環境に関する知識

More information

表紙1

表紙1 Graduate School of Engineering Nagasaki Institute of Applied Science Graduate School of Engineering Nagasaki Institute of Applied Science Institute for Innovative Science and Technology Doctoral Program

More information

XACCの概要

XACCの概要 2 global void kernel(int a[max], int llimit, int ulimit) {... } : int main(int argc, char *argv[]){ MPI_Int(&argc, &argc); MPI_Comm_rank(MPI_COMM_WORLD, &rank); MPI_Comm_size(MPI_COMM_WORLD, &size); dx

More information

Visual Studio と.NET Framework 概要 Runtime Libraries Languag es Tool.NET Visual Studio 概要 http://download.microsoft.com/download/c/7/1/c710b336-1979-4522-921b-590edf63426b/vs2010_guidebook_pdf.zip 1.

More information

GPU CUDA CUDA 2010/06/28 1

GPU CUDA CUDA 2010/06/28 1 GPU CUDA CUDA 2010/06/28 1 GPU NVIDIA Mark Harris, Optimizing Parallel Reduction in CUDA http://developer.download.nvidia.com/ compute/cuda/1_1/website/data- Parallel_Algorithms.html#reduction CUDA SDK

More information

26102 (1/2) LSISoC: (1) (*) (*) GPU SIMD MIMD FPGA DES, AES (2/2) (2) FPGA(8bit) (ISS: Instruction Set Simulator) (3) (4) LSI ECU110100ECU1 ECU ECU ECU ECU FPGA ECU main() { int i, j, k for { } 1 GP-GPU

More information

Visual Studio ( )

Visual Studio ( ) 2013 2 (2014 9 ) IT IT 1 IT & UI UI + IT Application Insights Team Foundation Server + Web 2 Windows Web C#Visual Basic 4 6 Team Foundation Server 1 8 10 3 Windows Windows Windows C#Visual BasicVisual

More information

熊本大学学術リポジトリ Kumamoto University Repositor Title GPGPU による高速演算について Author(s) 榎本, 昌一 Citation Issue date Type URL Presentation

熊本大学学術リポジトリ Kumamoto University Repositor Title GPGPU による高速演算について Author(s) 榎本, 昌一 Citation Issue date Type URL Presentation 熊本大学学術リポジトリ Kumamoto University Repositor Title GPGPU による高速演算について Author(s) 榎本, 昌一 Citation Issue date 2011-03-17 Type URL Presentation http://hdl.handle.net/2298/23539 Right GPGPU による高速演算について 榎本昌一 東京大学大学院工学系研究科システム創成学専攻

More information

DO 時間積分 START 反変速度の計算 contravariant_velocity 移流項の計算 advection_adams_bashforth_2nd DO implicit loop( 陰解法 ) 速度勾配, 温度勾配の計算 gradient_cell_center_surface 速

DO 時間積分 START 反変速度の計算 contravariant_velocity 移流項の計算 advection_adams_bashforth_2nd DO implicit loop( 陰解法 ) 速度勾配, 温度勾配の計算 gradient_cell_center_surface 速 1 1, 2 1, 2 3 2, 3 4 GP LES ASUCA LES NVIDIA CUDA LES 1. Graphics Processing Unit GP General-Purpose SIMT Single Instruction Multiple Threads 1 2 3 4 1),2) LES Large Eddy Simulation 3) ASUCA 4) LES LES

More information

スライド 1

スライド 1 Integration between GitLab and Fuego Tomohito Esaki 江崎朋人 IGEL Co., Ltd. 自己紹介 主に組込向けのソフトウェア開発 Android の Camera HAL, Camera driver Android, Tizen IVI のポーティング wayland/weston の導入 Android, Tizen, wayland application

More information

スライド 1

スライド 1 東北大学工学部機械知能 航空工学科 2019 年度クラス C D 情報科学基礎 I 14. さらに勉強するために 大学院情報科学研究科 鏡慎吾 http://www.ic.is.tohoku.ac.jp/~swk/lecture/ 0 と 1 の世界 これまで何を学んだか 2 進数, 算術演算, 論理演算 計算機はどのように動くのか プロセッサとメモリ 演算命令, ロード ストア命令, 分岐命令 計算機はどのように構成されているのか

More information

CuPy とは何か?

CuPy とは何か? GTC Japan 2018 CuPy NumPy 互換 GPU ライブラリによる Python での高速計算 Preferred Networks 取締役最高技術責任者奥田遼介 okuta@preferred.jp CuPy とは何か? CuPy とは GPU を使って NumPy 互換の機能を提供するライブラリ import numpy as np X_cpu = np.zeros((10,))

More information

マルチコアPCクラスタ環境におけるBDD法のハイブリッド並列実装

マルチコアPCクラスタ環境におけるBDD法のハイブリッド並列実装 2010 GPGPU 2010 9 29 MPI/Pthread (DDM) DDM CPU CPU CPU CPU FEM GPU FEM CPU Mult - NUMA Multprocessng Cell GPU Accelerator, GPU CPU Heterogeneous computng L3 cache L3 cache CPU CPU + GPU GPU L3 cache 4

More information

rank ”«‘‚“™z‡Ì GPU ‡É‡æ‡éŁÀŠñ›»

rank ”«‘‚“™z‡Ì GPU ‡É‡æ‡éŁÀŠñ›» rank GPU ERATO 2011 11 1 1 / 26 GPU rank/select wavelet tree balanced parenthesis GPU rank 2 / 26 GPU rank/select wavelet tree balanced parenthesis GPU rank 2 / 26 GPU rank/select wavelet tree balanced

More information

Microsoft Visual Studio 2010 Professional Data Sheet

Microsoft Visual Studio 2010 Professional Data Sheet Microsoft Visual Studio 2010 Professional はビジネスの要件やユーザ ーのニーズに最適なアプリケーションを選択し それを構築するために必須の機能を提供します RIA ベースのリッチな Web アプリケーション SharePoint ベースの高度な Web ポータル Windows Azure ベースのクラウドアプリケーションなど 最新テクノロジに対応したアプリケーションを既存の知識や経験を活かして開発することができます

More information

IBM Rational Software Delivery Platform v7.0 What's

IBM Rational Software Delivery Platform v7.0 What's IBM Rational Software Delivery Platform V7.0 デスクトップ製品 V7.0 リリースの全体像および製品共通の新機能 2006 年 12 月 15 日 当資料は 2006/12/15 時点の情報に基づいて作成されていますが 事前の予告なく変更される場合があります IBM Tivoli WebSphere ClearCase ClearQuest Rational

More information

スライド 1

スライド 1 SoC -SWG ATE -SWG 2004 2005 1 SEAJ 2 VLSI 3 How can we improve manageability of the divergence between validation and manufacturing equipment? What is the cost and capability optimal SOC test approach?

More information

CodeRecorderでカバレッジ

CodeRecorderでカバレッジ 株式会社コンピューテックス Copyright 2016 Computex Co.,Ltd. 2017.11 カバレッジ と 単体テスト カバレッジとは プログラムがどれだけ実行されているかを示す指標です プログラム全体に対して実行された比率をカバレッジ率で表します カバレッジの基準として 一般的にC0 C1が使われております C0カバレッジは 全体のうち何 % が実行されたかで求めます C1カバレッジは

More information

~~~~~~~~~~~~~~~~~~ wait Call CPU time 1, latch: library cache 7, latch: library cache lock 4, job scheduler co

~~~~~~~~~~~~~~~~~~ wait Call CPU time 1, latch: library cache 7, latch: library cache lock 4, job scheduler co 072 DB Magazine 2007 September ~~~~~~~~~~~~~~~~~~ wait Call CPU time 1,055 34.7 latch: library cache 7,278 750 103 24.7 latch: library cache lock 4,194 465 111 15.3 job scheduler coordinator slave wait

More information

研究報告用MS-Wordテンプレートファイル

研究報告用MS-Wordテンプレートファイル マルチコアおよび GPGPU 環境における画像処理最適化 矢野勝久 高山征大 境隆二出宮健彦 スケーラを題材として, マルチコアおよび GPGPU 各々の HW 特性に適した画像処理の最適化を図る. マルチコア環境では, 数値演算処理の削減,SIMD 化など直列性能の最適化を行った後,OpenMP を利用して並列化を図る.GPGPU(CUDA) では, スレッド並列を優先して並列処理の設計を行いブロックサイズを決める.

More information

Microsoft Word - 3 生産(仕切り).doc

Microsoft Word - 3 生産(仕切り).doc 生産システム工学コース 生産システム工学コース教員一覧 職名氏名主な担当科目備考 教授 上島光浩 熱力学 教授 富永一利 生産システム工学実験実習 教務主事 教授 廣井徹麿 材料力学 教授 深津拡也 電気工学 コース長 准教授 伊藤聡史 計測システム工学 准教授 坂本 誠 材料工学 准教授 平野利幸 流体力学 准教授 松本正樹 管理システム工学 Ⅰ 5200 担任 准教授 三浦慎一郎 プログラミング

More information

/ , ,908 4,196 2, ,842 38, / / 2 33 /

/ , ,908 4,196 2, ,842 38, / / 2 33 / MathWorks Automotive Conference 2014 ( ) ECU 0.1. 1 /30 1949 12 16 1,874 4 959 2 4,908 4,196 2,993 139,842 38,581 62 26 35 56 / 6 185 13 4 3 11 / 2 33 / 2014 3 31 0.1. 2 /30 ETC 0.2. 3 /30 1. 1. 2. 2.

More information

Windows Embedded Community Day 第 5 回 - IoT がもたらす新しい社会と変化 - ドライバ開発から Azure 接続まで - Windows Embedded Community Day 株式会社デバイスドライバーズ日高亜友

Windows Embedded Community Day 第 5 回 - IoT がもたらす新しい社会と変化 - ドライバ開発から Azure 接続まで - Windows Embedded Community Day 株式会社デバイスドライバーズ日高亜友 Windows Embedded Community Day 第 5 回 - IoT がもたらす新しい社会と変化 - ドライバ開発から Azure 接続まで - Windows Embedded Community Day 株式会社デバイスドライバーズ日高亜友 https://dev.windows.com/en-us/featured/raspberrypi2support www.windowsondevices.com

More information

Second-semi.PDF

Second-semi.PDF PC 2000 2 18 2 HPC Agenda PC Linux OS UNIX OS Linux Linux OS HPC 1 1CPU CPU Beowulf PC (PC) PC CPU(Pentium ) Beowulf: NASA Tomas Sterling Donald Becker 2 (PC ) Beowulf PC!! Linux Cluster (1) Level 1:

More information

並列・高速化を実現するための 高速化サービスの概要と事例紹介

並列・高速化を実現するための 高速化サービスの概要と事例紹介 第 4 回 AVS 可視化フォーラム 2019 並列 高速化を実現するための 高速化サービスの概要と事例紹介 株式会社アーク情報システム営業部仮野亮ソリューション技術部佐々木竜一 2019.08.30 はじめに アーク情報システムの紹介 高速化サービスとは? 事例紹介 コンサルティングサービスについて アーク情報システムの紹介 設立 資本金 :1987 年 10 月 :3 億 600 万円 従業員数

More information

目次 はじめに 4 概要 4 背景 4 対象 5 スケジュール 5 目標点 6 使用機材 6 第 1 章 C# 言語 7 C# 言語の歴史 7 基本構文 8 C 言語との違い 9 Java 言語との違い 10.Netフレームワーク 10 開発資料 10 第 2 章 Mono 11 Monoの歴史 1

目次 はじめに 4 概要 4 背景 4 対象 5 スケジュール 5 目標点 6 使用機材 6 第 1 章 C# 言語 7 C# 言語の歴史 7 基本構文 8 C 言語との違い 9 Java 言語との違い 10.Netフレームワーク 10 開発資料 10 第 2 章 Mono 11 Monoの歴史 1 ポリテクセンター埼玉セミナー資料 組込み技術者のための C# Monoを用いたマルチプラットフォームアプリケーション開発技術 第 1.2 版 2018 年 8 月 Microbrains Inc. 渋谷 目次 はじめに 4 概要 4 背景 4 対象 5 スケジュール 5 目標点 6 使用機材 6 第 1 章 C# 言語 7 C# 言語の歴史 7 基本構文 8 C 言語との違い 9 Java 言語との違い

More information

FFTSS Library Version 3.0 User's Guide

FFTSS Library Version 3.0 User's Guide : 19 10 31 FFTSS 3.0 Copyright (C) 2002-2007 The Scalable Software Infrastructure Project, (CREST),,. http://www.ssisc.org/ Contents 1 4 2 (DFT) 4 3 4 3.1 UNIX............................................

More information

untitled

untitled A = QΛQ T A n n Λ Q A = XΛX 1 A n n Λ X GPGPU A 3 T Q T AQ = T (Q: ) T u i = λ i u i T {λ i } {u i } QR MR 3 v i = Q u i A {v i } A n = 9000 Quad Core Xeon 2 LAPACK (4/3) n 3 O(n 2 ) O(n 3 ) A {v i }

More information

Maple 12 Windows版シングルユーザ/ネットワークライセンス

Maple 12 Windows版シングルユーザ/ネットワークライセンス Maple インストール アンインストール手順書スタンドアロン版 更新日 2017/09/27 はじめに この手順書は Windows 32bit Windows 64bit Mac OS Linux に対応しております 詳しい動作環境については こちらをご参照ください http://www.cybernet.co.jp/maple/product/system/maple.html この手順書の説明画面は

More information

NUMAの構成

NUMAの構成 メッセージパッシング プログラミング 天野 共有メモリ対メッセージパッシング 共有メモリモデル 共有変数を用いた単純な記述自動並列化コンパイラ簡単なディレクティブによる並列化 :OpenMP メッセージパッシング 形式検証が可能 ( ブロッキング ) 副作用がない ( 共有変数は副作用そのもの ) コストが小さい メッセージパッシングモデル 共有変数は使わない 共有メモリがないマシンでも実装可能 クラスタ

More information

PowerPoint Presentation

PowerPoint Presentation ヘテロジニアスな環境におけるソフトウェア開発 Agenda 今日の概要 ヘテロジニアスな環境の登場 ホモジニアスからヘテロジニアスへ ヘテロジニアスなアーキテクチャ GPU CUDA OpenACC, XeonPhi 自分のプログラムを理解するために デバッガ 共通の操作体験 TotalView 続きはブースで より速く ホモジーニアスな並列 HPC 銀河生成 金融のリスク計算 車の衝突解析 製薬

More information

GPUコンピューティング講習会パート1

GPUコンピューティング講習会パート1 GPU コンピューティング (CUDA) 講習会 GPU と GPU を用いた計算の概要 丸山直也 スケジュール 13:20-13:50 GPU を用いた計算の概要 担当丸山 13:50-14:30 GPU コンピューティングによる HPC アプリケーションの高速化の事例紹介 担当青木 14:30-14:40 休憩 14:40-17:00 CUDA プログラミングの基礎 担当丸山 TSUBAME の

More information

Managing and Sharing MATLAB Code

Managing and Sharing MATLAB Code MATLAB 入門 ~ 開発向けプログラミング編 ~ MathWorks Japan アプリケーションエンジニアリング部テクニカルコンピューティング 大開孝文 2015 The MathWorks, Inc. 1 プログラミング言語としての MATLAB 2014 年 7 月 IEEE Spectrum による プログラミング言語の人気調査 (12 種類の項目での結果 ) 結果 : MATLAB が

More information

2012 M

2012 M 2012 M0109218 2012 : M0109218 36 1 1 1.1............................. 1 1.2................................. 5 2 6 2.1................... 6 2.2................ 8 2.3............ 12 3 15 3.1...................

More information

並列計算導入.pptx

並列計算導入.pptx 並列計算の基礎 MPI を用いた並列計算 並列計算の環境 並列計算 複数の計算ユニット(PU, ore, Pなど を使用して 一つの問題 計算 を行わせる 近年 並列計算を手軽に使用できる環境が急速に整いつつある >通常のP PU(entral Processing Unit)上に計算装置であるoreが 複数含まれている Intel ore i7 シリーズ: 4つの計算装置(ore) 通常のプログラム

More information

Web Microsoft 2008 R2 Database Database!! Database 04 08

Web   Microsoft 2008 R2 Database Database!! Database 04 08 Database Database Web http://www.microsoft.com/japan/sqlserver/2008/r2/solution/comparison/default.mspx Microsoft 2008 R2 Database Database!! 03 2009 6 1 Database 04 08 vs. Database 12 2008 R2 5 14! 5!

More information