名称 : 日本 GPU コンピューティングパートナーシップ (G-DEP) 所在 : 東京都文京区本郷 7 丁目 3 番 1 号東京大学アントレプレナープラザ, 他工場 URL アライアンスパートナー コアテクノロジーパートナー NVIDIA JAPAN ソリュ

Size: px
Start display at page:

Download "名称 : 日本 GPU コンピューティングパートナーシップ (G-DEP) 所在 : 東京都文京区本郷 7 丁目 3 番 1 号東京大学アントレプレナープラザ, 他工場 URL アライアンスパートナー コアテクノロジーパートナー NVIDIA JAPAN ソリュ"

Transcription

1 GPUDirect の現状整理 multi-gpu に取組むために G-DEP チーフエンジニア河井博紀

2 名称 : 日本 GPU コンピューティングパートナーシップ (G-DEP) 所在 : 東京都文京区本郷 7 丁目 3 番 1 号東京大学アントレプレナープラザ, 他工場 URL アライアンスパートナー コアテクノロジーパートナー NVIDIA JAPAN ソリューションパートナー株式会社エルザジャパン みずほ情報総研株式会社 株式会社アーク情報システム 日本ネスト株式会社株式会社システム計画研究所 有限会社イワタシステムサポート サーヴァンツインターナショナル株式会社 株式会社ソフテック 株式会社サイコム プロメテック ソフトウェア株式会社 トーワ電機株式会社

3

4 小型 PC から ノード内 multi-gpu 高性能ワークステーション 複数ノード multi-gpu InfiniBand GPU クラスタまで

5 Outline mult i-gpu プログラミング概論 GPUDirect とは? GPUDirect の現状整理

6 We assume CUDA 4.0 or later Fermi or later Tesla 64-bit Linux / 64-bit Windows with TCC driver

7 Why multi-gpu? 性能を Scaling-up させるため メモリを増やして 大きな問題に取組むため

8 ノード内 Tesla K20 2 枚で Game of Life 各セルは alive( =1) or dead( =0) 誕生 Rules 過疎死 Grid Size:N N 境界条件 :periodic b.c. 過密死

9 ノード内 Tesla K20 2 枚で Game of Life Tesla 0 Grid Size:N N 境界条件 :periodic b.c. Tesla 1

10 ノード内 Tesla K20 2 枚で Game of Life // Tesla 0 を操作 cudasetdevice( 0 ); kernel<<< >>>( ); Tesla 0 // Tesla 1 を操作 cudasetdevice( 1 ); kernel<<< >>>( ); Tesla 1

11 ノード内 Tesla K20 2 枚で Game of Life 境界 Tesla 0 Tesla 0 の境界の更新には Tesla 1 の境界が必要 Tesla 1

12 ノード内 Tesla K20 2 枚で Game of Life 境界 Tesla 0 ghost 領域 隣の境界を copy Tesla 1

13 ノード内 Tesla K20 2 枚で Game of Life 境界 ghost を参照する事で境界も update できる ghost 領域 隣の境界を copy Tesla 0 Tesla 1

14 ノード内 Tesla K20 2 枚で Game of Life 境界 ghost を参照する事で境界も update できる Tesla 0 ghost 領域 Tesla 1

15 ノード内 Tesla K20 2 枚で Game of Life 境界 ghost を参照する事で境界も update できる Tesla 0 ghost 領域 Tesla 1

16 ノード内 Tesla K20 2 枚で Game of Life 境界 ghost を参照する事で境界も update できる Tesla 0 ghost 領域 Tesla 1

17 ノード内 Tesla K20 2 枚で Game of Life 1 update Tesla 0 2 copy して ghost を更新 1 update Tesla 1

18 もう少し工夫できます

19 ノード内 Tesla K20 2 枚で Game of Life copy 時間の 隠蔽 が重要に Kernel 処理 と データ送受信 は同時に行える naive update copy update copy 隠蔽 境界 update copy 内部 update 境界 update copy 内部 update 短縮!

20 ノード内 Tesla K20 2 枚で Game of Life 1 境界 update 2 内部 update 1 境界 update 1 境界 update 2 内部 update 2 同時に copy して ghost 更新 Tesla 0 1 境界 update Tesla 1

21 ノード内 Tesla K20 2 枚で Game of Life K20 1 K20 2 (naive) Grid Size: 更新回数 :10 万回境界条件 :periodic b.c. K20 2 ( 隠蔽 ) Processing Time [sec]

22 ノード内 Tesla K20 2 枚で Game of Life for ( n=0; n<num_steps; n++) { for ( i=0; i<2; i++) { cudasetdevice( i ); update_bnd<<<, stream_up[i]>>>( ); cudaeventrecord( event[i], stream_up[i] ); update_inner<<<, stream_up[i]>>>( ); } 境界 update kernel 内部 update kernel } for ( i=0; i<2; i++) { cudastreamwaitevent( stream_cpy[i], event[i] ); cudamemcpyasync(, stream_cpy[i] ); } for ( i=0; i<2; i++) cudamemcpyasync(, stream_cpy[i] ); for ( i=0; i<2; i++) { cudasetdevice( i ); cudadevicesynchronize(); } 境界の update 完了まで cudamemcpyasync を停止 双方向 cudamemcpyasync 2 セット ここで同期

23 Outline GPUDirect とは? GPUDirect の現状整理

24 GPUDirect とは 異なる Tesla 間のデータ転送 を高速に行う機能の事です

25 隠蔽できるのに 恩恵はあるのか?

26 Tesla の枚数 境界 内部 境界 内部 copy copy 境界 内部 境界 内部 copy copy 境界 内部 copy 境界内部 copy 隠蔽できなくなった

27 GPUDirect の恩恵はあるのか? Teslaの枚数を増やす可能性を考慮して使っておくべき 原理的に隠蔽出来ない時は ある 隠蔽してる暇がない時も ある

28 Outline GPUDirect の現状整理

29 GPUDirect には現在 version 1 と version 2 があります

30 GPUDirect ver.1 InfiniBand クラスタ専用 = ノードをまたぐ高速転送 GPUDirect ver.2 = ノード内の高速転送

31 Summary GPUDirect 用途ダイレクト転送? CUDA 使用方法正式リリース ver.1 IB クラスタノード間 済 ver.2 ノード内済 転送を隠蔽できない / してない時に GPUDirect は有用

32 GPUDirect ver.2 はノード内のダイレクト転送です

33 No GPUDirect ver.2 With GPUDirect ver.2 CPU メインメモリ CPU メインメモリ Tesla 0 遠回り Direct! Tesla 1 Tesla 0 Tesla 1 M/B M/B

34 GPUDirect ver.2 を使用するには cudadeviceenablepeeraccess() を宣言するだけ

35 GPUDirect ver.2 の実装 with GPUDirect ver.2 cudasetdevice(0); cudadeviceenablepeeraccess(1, 0); cudamalloc(&p0, size); cudasetdevice(1); Tesla 1 への GPUDv2を有効化 CPU cudamalloc(&p1, size); Direct! メインメモリ *p0 Tesla 0 cudamemcpy(p1, p0, size, cudamemcpydefault); // UVA (CUDA 4.0) により異なる GPU 間の転送が可能 M/B *p1 Tesla 1

36 GPUDirect ver.2 の実装 cudasetdevice(0); // cudadeviceenablepeeraccess(1, 0); cudamalloc(&p0, size); cudasetdevice(1); cudamalloc(&p1, size); no GPUDirect ver.2 CPU Fallback メインメモリ *p0 Tesla 0 cudamemcpy(p1, p0, size, cudamemcpydefault); // UVA (CUDA 4.0) により異なる GPU 間の転送が可能 // 但し Nsight のタイムラインによるとパイプライン処理されており cudamemcpy 2 回よりは高速 M/B *p1 Tesla 1

37 Bandwidth [GB/s] cudamemcpy with GPUDv2 no GPUDv2 (fallback) Fallback wins latency with GPUDv2: 11μs no GPUDv2: 20μs int: 200 万個 8MB single: 200 万個 double: 100 万個 0 4B 16B 64B 256B 1KB 4KB 16KB 64KB 256KB 1MB 4MB 16MB 64MB 256MB 転送データサイズ CentOS 6.2, NV Driver , CUDA5, K20c, X79Chipset Performance may vary based on system HDW and config.

38 Bandwidth [GB/s] latency 双方向 cudamemcpyasync with GPUDv2 no GPUDv2 with GPUDv2: 14μs no GPUDv2: 31μs (fallback) Fallback wins 8B 32B 128B 512B 2KB 8KB 32KB 128KB 512KB 2MB 8MB 32MB 128MB 512MB 転送データサイズ int: 800 万個 32MB single: 800 万個 double: 400 万個 CentOS 6.2, NV Driver , CUDA5, K20c, X79Chipset Performance may vary based on system HDW and config.

39 再度 Tesla K20 2 枚で Game of Life K20 1 K20 2 (naive) no GPUDv2 with GPUDv2 11% 高速化 Grid Size: 更新回数 :10 万回境界条件 :periodic b.c. K20 2 ( 隠蔽 ) no GPUDv2 with GPUDv2 隠蔽できているので変わらず Processing Time [sec]

40 Summary GPUDirect 用途ダイレクト転送? CUDA 使用方法正式リリース ver.1 IB クラスタノード間 済 ver.2 ノード内 Yes 4.0 cudadeviceenablepeeraccess() 同じIOHの必要あり 済 転送を隠蔽できない / してない時に GPUDirect は有用

41 GPUDirect ver.1 はマーケティング ネームです

42 GPUDirect ver.1 ダイレクト転送ではありません メインメモリをしっかり通ります

43 InfiniBand InfiniBand 用 buffer CPU メインメモリ rank0 の M/B *Ad Tesla 1 Tesla 用 buffer InfiniBand クラスタの 1 ノード

44 MPI_Send naive なコード CPU rank0 の M/B メインメモリ *A *A *Ad Tesla 1 InfiniBand クラスタの 1 ノード // 後述の CUDA-Aware MPI を除いて // MPI 関数にデバイスポインタは渡せない if ( myrank == 0 ) { cudamemcpy( A, Ad, ); MPI_Send( A, ); } else if ( myrank == 1 ) { } MPI_Recv( B, ); cudamemcpy( Bd, B, );

45 MPI_Send CPU rank0 の M/B メインメモリ *A *Ad Tesla 1 InfiniBand クラスタの 1 ノード GPUDirect ver.1 を使用 cudamallochost( &A, size ); cudamallochost( &B, size ); if ( myrank == 0 ) { cudamemcpy( A, Ad, ); MPI_Send( A, ); } else if ( myrank == 1 ) { } MPI_Recv( B, ); cudamemcpy( Bd, B, );

46 MPI_Send CPU rank0 の M/B メインメモリ パイプライン処理 *Ad Tesla 1 InfiniBand クラスタの 1 ノード CUDA-Aware MPI を使用 MVAPICH2 ver. 1.8 以上 OpenMPI ver. 1.7 以上 Cray, IBM if ( myrank == 0 ) { MPI_Send( Ad, ); } else if ( myrank == 1 ) { } MPI_Recv( Bd, ); でのみ可能 デバイスポインタを渡せる

47 MPI_Isend CPU rank0 の M/B メインメモリ パイプライン処理 *Ad Tesla 1 InfiniBand クラスタの 1 ノード CUDA-Aware MPI を使用 MVAPICH2 ver. 1.8 以上 OpenMPI ver. 1.7 以上 Cray, IBM if ( myrank == 0 ) { MPI_Isend( Ad, ); } else if ( myrank == 1 ) { } MPI_Irecv( Bd, ); でのみ可能 デバイスポインタを渡せる

48 Bandwidth [GB/s] CUDA-Aware MPI with GPUDv1 no GPUDv1 MPI_Send/Recv latency CUDA-Aware : 16μs with GPUDv1: 22μs no GPUDv1: 16μs 0 4B 16B 64B 256B 1KB 4KB 16KB 64KB 256KB 1MB 4MB 16MB 64MB 256MB 転送データサイズ CentOS 6.2, NV Driver , CUDA5, QDR, K20c, X79Chipset Performance may vary based on system HDW and config.

49 Bandwidth [GB/s] CUDA-Aware MPI with GPUDv1 no GPUDv1 双方向 MPI_Isend/Irecv latency CUDA-Aware : 16μs with GPUDv1: 22μs no GPUDv1: 17μs 0 8B 32B 128B 512B 2KB 8KB 32KB 128KB 512KB 2MB 8MB 32MB 128MB 512MB 転送データサイズ CentOS 6.2, NV Driver , CUDA5, QDR, K20c, X79Chipset Performance may vary based on system HDW and config.

50 G-DEP は CUDA-Aware MPI をインストールした GPU クラスタの販売を開始しております Drawer InfiniBand Switch 計算ノード 計算ノード 計算ノード さらに大規模なクラスタも販売しております 是非お気軽に までお問い合わせ下さい 計算ノード Gigabit Switch

51 Summary GPUDirect 用途ダイレクト転送? CUDA 使用方法正式リリース ver.1 IB クラスタノード間 No 3.1 中継メモリを pinned に CUDA-Aware MPI が最速 済 ver.2 ノード内 Yes 4.0 cudadeviceenablepeeraccess() 同じ IOH の必要あり 済 転送を隠蔽できない / してない時に GPUDirect は有用

52 GPUDirect ver.3 はまだ正式リリースされてません

53 ノードをまたぐダイレクト転送

54 Summary GPUDirect 用途ダイレクト転送? CUDA 使用方法正式リリース ver.1 IB クラスタノード間 No 3.1 中継メモリを pinned に CUDA-Aware MPI が最速 済 ver.2 ノード内 Yes 4.0 cudadeviceenablepeeraccess() 同じ IOH の必要あり 済 ver.3 IB クラスタノード間 Yes 5.0? 2013 Q4 転送を隠蔽できない / してない時に GPUDirect は有用

ストリームを用いたコンカレントカーネルプログラミングと最適化 エヌビディアジャパン CUDAエンジニア森野慎也 GTC Japan 2014

ストリームを用いたコンカレントカーネルプログラミングと最適化 エヌビディアジャパン CUDAエンジニア森野慎也 GTC Japan 2014 ストリームを用いたコンカレントカーネルプログラミングと最適化 エヌビディアジャパン CUDAエンジニア森野慎也 GTC Japan 2014 コンカレントな処理の実行 システム内部の複数の処理を 平行に実行する CPU GPU メモリ転送 カーネル実行 複数のカーネル間 ストリーム GPU 上の処理キュー カーネル実行 メモリ転送の並列性 実行順序 DEFAULT STREAM Stream : GPU

More information

スライド 1

スライド 1 GPU クラスタによる格子 QCD 計算 広大理尾崎裕介 石川健一 1.1 Introduction Graphic Processing Units 1 チップに数百個の演算器 多数の演算器による並列計算 ~TFLOPS ( 単精度 ) CPU 数十 GFLOPS バンド幅 ~100GB/s コストパフォーマンス ~$400 GPU の開発環境 NVIDIA CUDA http://www.nvidia.co.jp/object/cuda_home_new_jp.html

More information

GPGPUクラスタの性能評価

GPGPUクラスタの性能評価 2008 年度理研 HPC シンポジウム第 3 世代 PC クラスタ GPGPU クラスタの性能評価 2009 年 3 月 12 日 富士通研究所成瀬彰 発表の概要 背景 GPGPU による高速化 CUDA の概要 GPU のメモリアクセス特性調査 姫野 BMT の高速化 GPGPU クラスタによる高速化 GPU Host 間のデータ転送 GPU-to-GPU の通信性能 GPGPU クラスタ上での姫野

More information

hpc141_shirahata.pdf

hpc141_shirahata.pdf GPU アクセラレータと不揮発性メモリ を考慮した I/O 性能の予備評価 白幡晃一 1,2 佐藤仁 1,2 松岡聡 1 1: 東京工業大学 2: JST CREST 1 GPU と不揮発性メモリを用いた 大規模データ処理 大規模データ処理 センサーネットワーク 遺伝子情報 SNS など ペタ ヨッタバイト級 高速処理が必要 スーパーコンピュータ上での大規模データ処理 GPU 高性能 高バンド幅 例

More information

GPU n Graphics Processing Unit CG CAD

GPU n Graphics Processing Unit CG CAD GPU 2016/06/27 第 20 回 GPU コンピューティング講習会 ( 東京工業大学 ) 1 GPU n Graphics Processing Unit CG CAD www.nvidia.co.jp www.autodesk.co.jp www.pixar.com GPU n GPU ü n NVIDIA CUDA ü NVIDIA GPU ü OS Linux, Windows, Mac

More information

CCS HPCサマーセミナー 並列数値計算アルゴリズム

CCS HPCサマーセミナー 並列数値計算アルゴリズム 大規模系での高速フーリエ変換 2 高橋大介 daisuke@cs.tsukuba.ac.jp 筑波大学計算科学研究センター 2016/6/2 計算科学技術特論 B 1 講義内容 並列三次元 FFT における自動チューニング 二次元分割を用いた並列三次元 FFT アルゴリズム GPU クラスタにおける並列三次元 FFT 2016/6/2 計算科学技術特論 B 2 並列三次元 FFT における 自動チューニング

More information

GPU GPU CPU CPU CPU GPU GPU N N CPU ( ) 1 GPU CPU GPU 2D 3D CPU GPU GPU GPGPU GPGPU 2 nvidia GPU CUDA 3 GPU 3.1 GPU Core 1

GPU GPU CPU CPU CPU GPU GPU N N CPU ( ) 1 GPU CPU GPU 2D 3D CPU GPU GPU GPGPU GPGPU 2 nvidia GPU CUDA 3 GPU 3.1 GPU Core 1 GPU 4 2010 8 28 1 GPU CPU CPU CPU GPU GPU N N CPU ( ) 1 GPU CPU GPU 2D 3D CPU GPU GPU GPGPU GPGPU 2 nvidia GPU CUDA 3 GPU 3.1 GPU Core 1 Register & Shared Memory ( ) CPU CPU(Intel Core i7 965) GPU(Tesla

More information

システムソリューションのご紹介

システムソリューションのご紹介 HP 2 C 製品 :VXPRO/VXSMP サーバ 製品アップデート 製品アップデート VXPRO と VXSMP での製品オプションの追加 8 ポート InfiniBand スイッチ Netlist HyperCloud メモリ VXPRO R2284 GPU サーバ 製品アップデート 8 ポート InfiniBand スイッチ IS5022 8 ポート 40G InfiniBand スイッチ

More information

Microsoft PowerPoint - CCS学際共同boku-08b.ppt

Microsoft PowerPoint - CCS学際共同boku-08b.ppt マルチコア / マルチソケットノードに おけるメモリ性能のインパクト 研究代表者朴泰祐筑波大学システム情報工学研究科 taisuke@cs.tsukuba.ac.jp アウトライン 近年の高性能 PC クラスタの傾向と問題 multi-core/multi-socket ノードとメモリ性能 メモリバンド幅に着目した性能測定 multi-link network 性能評価 まとめ 近年の高性能 PC

More information

Microsoft PowerPoint - 演習1:並列化と評価.pptx

Microsoft PowerPoint - 演習1:並列化と評価.pptx 講義 2& 演習 1 プログラム並列化と性能評価 神戸大学大学院システム情報学研究科横川三津夫 yokokawa@port.kobe-u.ac.jp 2014/3/5 RIKEN AICS HPC Spring School 2014: プログラム並列化と性能評価 1 2014/3/5 RIKEN AICS HPC Spring School 2014: プログラム並列化と性能評価 2 2 次元温度分布の計算

More information

( CUDA CUDA CUDA CUDA ( NVIDIA CUDA I

(    CUDA CUDA CUDA CUDA (  NVIDIA CUDA I GPGPU (II) GPGPU CUDA 1 GPGPU CUDA(CUDA Unified Device Architecture) CUDA NVIDIA GPU *1 C/C++ (nvcc) CUDA NVIDIA GPU GPU CUDA CUDA 1 CUDA CUDA 2 CUDA NVIDIA GPU PC Windows Linux MaxOSX CUDA GPU CUDA NVIDIA

More information

NUMAの構成

NUMAの構成 メッセージパッシング プログラミング 天野 共有メモリ対メッセージパッシング 共有メモリモデル 共有変数を用いた単純な記述自動並列化コンパイラ簡単なディレクティブによる並列化 :OpenMP メッセージパッシング 形式検証が可能 ( ブロッキング ) 副作用がない ( 共有変数は副作用そのもの ) コストが小さい メッセージパッシングモデル 共有変数は使わない 共有メモリがないマシンでも実装可能 クラスタ

More information

Slides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments

Slides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments 計算機アーキテクチャ第 11 回 マルチプロセッサ 本資料は授業用です 無断で転載することを禁じます 名古屋大学 大学院情報科学研究科 准教授加藤真平 デスクトップ ジョブレベル並列性 スーパーコンピュータ 並列処理プログラム プログラムの並列化 for (i = 0; i < N; i++) { x[i] = a[i] + b[i]; } プログラムの並列化 x[0] = a[0] + b[0];

More information

Microsoft Word - HOKUSAI_system_overview_ja.docx

Microsoft Word - HOKUSAI_system_overview_ja.docx HOKUSAI システムの概要 1.1 システム構成 HOKUSAI システムは 超並列演算システム (GWMPC BWMPC) アプリケーション演算サーバ群 ( 大容量メモリ演算サーバ GPU 演算サーバ ) と システムの利用入口となるフロントエンドサーバ 用途の異なる 2 つのストレージ ( オンライン ストレージ 階層型ストレージ ) から構成されるシステムです 図 0-1 システム構成図

More information

[4] ACP (Advanced Communication Primitives) [1] ACP ACP [2] ACP Tofu UDP [3] HPC InfiniBand InfiniBand ACP 2 ACP, 3 InfiniBand ACP 4 5 ACP 2. ACP ACP

[4] ACP (Advanced Communication Primitives) [1] ACP ACP [2] ACP Tofu UDP [3] HPC InfiniBand InfiniBand ACP 2 ACP, 3 InfiniBand ACP 4 5 ACP 2. ACP ACP InfiniBand ACP 1,5,a) 1,5,b) 2,5 1,5 4,5 3,5 2,5 ACE (Advanced Communication for Exa) ACP (Advanced Communication Primitives) HPC InfiniBand ACP InfiniBand ACP ACP InfiniBand Open MPI 20% InfiniBand Implementation

More information

07-二村幸孝・出口大輔.indd

07-二村幸孝・出口大輔.indd GPU Graphics Processing Units HPC High Performance Computing GPU GPGPU General-Purpose computation on GPU CPU GPU GPU *1 Intel Quad-Core Xeon E5472 3.0 GHz 2 6 MB L2 cache 1600 MHz FSB 80 GFlops 1 nvidia

More information

TSUBAME2.0 における GPU の 活用方法 東京工業大学学術国際情報センター丸山直也第 10 回 GPU コンピューティング講習会 2011 年 9 月 28 日

TSUBAME2.0 における GPU の 活用方法 東京工業大学学術国際情報センター丸山直也第 10 回 GPU コンピューティング講習会 2011 年 9 月 28 日 TSUBAME2.0 における GPU の 活用方法 東京工業大学学術国際情報センター丸山直也第 10 回 GPU コンピューティング講習会 2011 年 9 月 28 日 目次 1. TSUBAMEのGPU 環境 2. プログラム作成 3. プログラム実行 4. 性能解析 デバッグ サンプルコードは /work0/gsic/seminars/gpu- 2011-09- 28 からコピー可能です 1.

More information

05-opt-system.ppt

05-opt-system.ppt 筑波大学計算科学研究センター HPC サマーセミナー 最適化 II ( 通信最適化 ) 建部修見 tatebe@cs.tsukuba.ac.jp 筑波大学大学院システム情報系計算科学研究センター 講義内容 基本通信性能 1 対 1 通信 集団通信 プロファイラ 通信最適化 通信の削減 通信遅延隠蔽 通信ブロック 負荷分散 基本通信性能 通信最適化のためには基本通信性能を押さえておくことが重要! 各種通信パターンにおける通信性能の把握

More information

1. GPU コンピューティング GPU コンピューティング GPUによる 汎用コンピューティング GPU = Graphics Processing Unit CUDA Compute Unified Device Architecture NVIDIA の GPU コンピューティング環境 Lin

1. GPU コンピューティング GPU コンピューティング GPUによる 汎用コンピューティング GPU = Graphics Processing Unit CUDA Compute Unified Device Architecture NVIDIA の GPU コンピューティング環境 Lin Windows で始める CUDA 入門 GTC 2013 チュートリアル エヌビディアジャパン CUDA エンジニア森野慎也 1. GPU コンピューティング GPU コンピューティング GPUによる 汎用コンピューティング GPU = Graphics Processing Unit CUDA Compute Unified Device Architecture NVIDIA の GPU コンピューティング環境

More information

XACCの概要

XACCの概要 2 global void kernel(int a[max], int llimit, int ulimit) {... } : int main(int argc, char *argv[]){ MPI_Int(&argc, &argc); MPI_Comm_rank(MPI_COMM_WORLD, &rank); MPI_Comm_size(MPI_COMM_WORLD, &size); dx

More information

<4D F736F F F696E74202D2091E63489F15F436F6D C982E682E992B48D8291AC92B489B F090CD2888F38DFC E B8CDD8

<4D F736F F F696E74202D2091E63489F15F436F6D C982E682E992B48D8291AC92B489B F090CD2888F38DFC E B8CDD8 Web キャンパス資料 超音波シミュレーションの基礎 ~ 第 4 回 ComWAVEによる超高速超音波解析 ~ 科学システム開発部 Copyright (c)2006 ITOCHU Techno-Solutions Corporation 本日の説明内容 ComWAVEの概要および特徴 GPGPUとは GPGPUによる解析事例 CAE POWER 超音波研究会開催 (10 月 3 日 ) のご紹介

More information

rank ”«‘‚“™z‡Ì GPU ‡É‡æ‡éŁÀŠñ›»

rank ”«‘‚“™z‡Ì GPU ‡É‡æ‡éŁÀŠñ›» rank GPU ERATO 2011 11 1 1 / 26 GPU rank/select wavelet tree balanced parenthesis GPU rank 2 / 26 GPU rank/select wavelet tree balanced parenthesis GPU rank 2 / 26 GPU rank/select wavelet tree balanced

More information

JAMSTECR, October MPI Message Passing Interface JAMSTEC NEC SX- IBM RS /SP PC MPI MPI_SENDRECV SX- SP PCC MPI MPI, Performance of MPI on parallel comp

JAMSTECR, October MPI Message Passing Interface JAMSTEC NEC SX- IBM RS /SP PC MPI MPI_SENDRECV SX- SP PCC MPI MPI, Performance of MPI on parallel comp JAMSTECR, October MPI Message Passing Interface JAMSTECNEC SX- IBM RS/SPPC MPI MPI_SENDRECVSX- SP PCC MPI MPI, Performance of MPI on parallel computers in JAMSTEC Hideaki SAITO Kazushi FURUTA Jun NAOI

More information

HPC143

HPC143 研究背景 GPUクラスタ 高性能 高いエネルギー効率 低価格 様々なHPCアプリケーションで用いられている TCA (Tightly Coupled Accelerators) 密結合並列演算加速機構 筑波大学HA-PACSクラスタ アクセラレータ GPU 間の直接通信 低レイテンシ 今後のHPCアプリは強スケーリングも重要 TCAとアクセラレータを搭載したシステムに おけるプログラミングモデル 例

More information

C/C++ FORTRAN FORTRAN MPI MPI MPI UNIX Windows (SIMD Single Instruction Multipule Data) SMP(Symmetric Multi Processor) MPI (thread) OpenMP[5]

C/C++ FORTRAN FORTRAN MPI MPI MPI UNIX Windows (SIMD Single Instruction Multipule Data) SMP(Symmetric Multi Processor) MPI (thread) OpenMP[5] MPI ( ) snozawa@env.sci.ibaraki.ac.jp 1 ( ) MPI MPI Message Passing Interface[2] MPI MPICH[3],LAM/MPI[4] (MIMDMultiple Instruction Multipule Data) Message Passing ( ) (MPI (rank) PE(Processing Element)

More information

-1-1 1 1 1 1 12 31 2 2 3 4

-1-1 1 1 1 1 12 31 2 2 3 4 2007 -1-1 1 1 1 1 12 31 2 2 3 4 -2-5 6 CPU 3 Windows98 1 -3-2. 3. -4-4 2 5 1 1 1 -5- 50000 50000 50000 50000 50000 50000 50000 50000 50000 50000-6- -7-1 Windows 2 -8-1 2 3 4 - - 100,000 200,000 500,000

More information

Microsoft PowerPoint - GPUシンポジウム _d公開版.ppt [互換モード]

Microsoft PowerPoint - GPUシンポジウム _d公開版.ppt [互換モード] 200/0/9 数値流体解析の並列効率とその GPU による高速化の試み 清水建設 ( 株 ) 技術研究所 PHAM VAN PHUC ( ファムバンフック ) 流体計算時間短縮と GPU の活用の試み 現 CPUとの比較によりGPU 活用の可能性 現 CPU の最大利用 ノード内の最大計算資源の利用 すべてCPUコアの利用 適切なアルゴリズムの利用 CPU コア性能の何倍? GPU の利用の試み

More information

HP High Performance Computing(HPC)

HP High Performance Computing(HPC) ACCELERATE HP High Performance Computing HPC HPC HPC HPC HPC 1000 HPHPC HPC HP HPC HPC HPC HP HPCHP HP HPC 1 HPC HP 2 HPC HPC HP ITIDC HP HPC 1HPC HPC No.1 HPC TOP500 2010 11 HP 159 32% HP HPCHP 2010 Q1-Q4

More information

2004年度版「労働組合の会計税務に係る実務マニュアル」の販売について

2004年度版「労働組合の会計税務に係る実務マニュアル」の販売について URL http://www.rofuku.net 7/17/14 7/127/28 7/268/11 8/12 ( ) FAX ( ) ( ) ( ) @ ( ) ( ) @ ( ) ( ) @ ( ) ( ) @ ( ) ( ) @ (1) YES NO NO YES 1,000 NO YES NO YES YES NO 1,000 YES 5,000 NO NO YES NO YES

More information

HPC (pay-as-you-go) HPC Web 2

HPC (pay-as-you-go) HPC Web 2 ,, 1 HPC (pay-as-you-go) HPC Web 2 HPC Amazon EC2 OpenFOAM GPU EC2 3 HPC MPI MPI Courant 1 GPGPU MPI 4 AMAZON EC2 GPU CLUSTER COMPUTE INSTANCE EC2 GPU (cg1.4xlarge) ( N. Virgina ) Quadcore Intel Xeon 5570

More information

untitled

untitled A = QΛQ T A n n Λ Q A = XΛX 1 A n n Λ X GPGPU A 3 T Q T AQ = T (Q: ) T u i = λ i u i T {λ i } {u i } QR MR 3 v i = Q u i A {v i } A n = 9000 Quad Core Xeon 2 LAPACK (4/3) n 3 O(n 2 ) O(n 3 ) A {v i }

More information

IPSJ SIG Technical Report Vol.2012-ARC-202 No.13 Vol.2012-HPC-137 No /12/13 Tightly Coupled Accelerators 1,a) 1,b) 1,c) 1,d) GPU HA-PACS

IPSJ SIG Technical Report Vol.2012-ARC-202 No.13 Vol.2012-HPC-137 No /12/13 Tightly Coupled Accelerators 1,a) 1,b) 1,c) 1,d) GPU HA-PACS Tightly Coupled Accelerators 1,a) 1,b) 1,c) 1,d) HA-PACS 2012 2 HA-PACS TCA (Tightly Coupled Accelerators) TCA PEACH2 1. (Graphics Processing Unit) HPC GP(General Purpose ) TOP500 [1] CPU PCI Express (PCIe)

More information

PRIMERGY TX1310 M1 未サポートOS動作検証確認情報

PRIMERGY TX1310 M1 未サポートOS動作検証確認情報 PRIMERGY TX1310 M1 未サポート OS 動作検証確認情報 ソフトウェア名称 オンボード SATA コントローラ ( ソフトウェア RAID) 動作確認結果 オンボード SATA コントローラ (ahci) CentOS 7.2(x86_64) [ 詳細 ]( 注 5) ( 注 6) CentOS 7.1(x86_64) [ 詳細 ]( 注 5) ( 注 6) CentOS 7.0(x86_64)

More information

iphone GPGPU GPU OpenCL Mac OS X Snow LeopardOpenCL iphone OpenCL OpenCL NVIDIA GPU CUDA GPU GPU GPU 15 GPU GPU CPU GPU iii OpenMP MPI CPU OpenCL CUDA OpenCL CPU OpenCL GPU NVIDIA Fermi GPU Fermi GPU GPU

More information

PRIMERGY TX100 S3 未サポートOS動作検証確認情報

PRIMERGY TX100 S3 未サポートOS動作検証確認情報 ソフトウェア名称 SAS アレイコントローラカード MegaRAID SAS 9260-8i 動作確認結果 オンボード SATA アレイコントローラ ( ソフトウェア RAID) CentOS 6.0(x86) ( 注 6) ( 注 5) CentOS 6.0(x86_64) ( 注 6) ( 注 5) CentOS 5.7(x86) ( 注 6) ( 注 5)

More information

tabaicho3mukunoki.pptx

tabaicho3mukunoki.pptx 1 2 はじめに n 目的 4倍精度演算より高速な3倍精度演算を実現する l 倍精度では足りないが4倍精度は必要ないケースに欲しい l 4倍精度に比べてデータサイズが小さい Ø 少なくともメモリ律速な計算では4倍精度よりデータ 転送時間を減らすことが可能 Ø PCIeやノード間通信がボトルネックとなりやすい GPUクラスタ環境に有効か n 研究概要 l DD型4倍精度演算 DD演算 に基づく3倍精度演算

More information

スライド 1

スライド 1 計算科学が拓く世界スーパーコンピュータは何故スーパーか 学術情報メディアセンター中島浩 http://www.para.media.kyoto-u.ac.jp/jp/ username=super password=computer 講義の概要 目的 計算科学に不可欠の道具スーパーコンピュータが どういうものか なぜスーパーなのか どう使うとスーパーなのかについて雰囲気をつかむ 内容 スーパーコンピュータの歴史を概観しつつ

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション AICS 公開ソフトウェア講習会 15 回 表題通信ライブラリと I/O ライブラリ 場所 AICS R104-2 時間 2016/03/23 ( 水 ) 13:30-17:00 13:30-13:40 全体説明 13:40-14:10 PRDMA 14:10-14:40 MPICH 14:40-15:10 PVAS 15:10-15:30 休憩 15:30-16:00 Carp 16:00-16:30

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション Foundation アプライアンス スケーラブルシステムズ株式会社 サーバ クラスタの課題 複数のシステムを一つの だけで容易に管理することは出来ないだろうか? アプリケーションがより多くのメモリを必要とするのだけど ハードウエアの増設なしで対応出来ないだろうか? 現在の利用環境のまま 利用できるコア数やメモリサイズの増強を図ることは出来ないだろうか? 短時間で導入可能で また 必要に応じて 柔軟にシステム構成の変更が可能なソリューションは無いだろうか?...

More information

23 Fig. 2: hwmodulev2 3. Reconfigurable HPC 3.1 hw/sw hw/sw hw/sw FPGA PC FPGA PC FPGA HPC FPGA FPGA hw/sw hw/sw hw- Module FPGA hwmodule hw/sw FPGA h

23 Fig. 2: hwmodulev2 3. Reconfigurable HPC 3.1 hw/sw hw/sw hw/sw FPGA PC FPGA PC FPGA HPC FPGA FPGA hw/sw hw/sw hw- Module FPGA hwmodule hw/sw FPGA h 23 FPGA CUDA Performance Comparison of FPGA Array with CUDA on Poisson Equation (lijiang@sekine-lab.ei.tuat.ac.jp), (kazuki@sekine-lab.ei.tuat.ac.jp), (takahashi@sekine-lab.ei.tuat.ac.jp), (tamukoh@cc.tuat.ac.jp),

More information

2 T 1 N n T n α = T 1 nt n (1) α = 1 100% OpenMP MPI OpenMP OpenMP MPI (Message Passing Interface) MPI MPICH OpenMPI 1 OpenMP MPI MPI (trivial p

2 T 1 N n T n α = T 1 nt n (1) α = 1 100% OpenMP MPI OpenMP OpenMP MPI (Message Passing Interface) MPI MPICH OpenMPI 1 OpenMP MPI MPI (trivial p 22 6 22 MPI MPI 1 1 2 2 3 MPI 3 4 7 4.1.................................. 7 4.2 ( )................................ 10 4.3 (Allreduce )................................. 12 5 14 5.1........................................

More information

GPU CUDA CUDA 2010/06/28 1

GPU CUDA CUDA 2010/06/28 1 GPU CUDA CUDA 2010/06/28 1 GPU NVIDIA Mark Harris, Optimizing Parallel Reduction in CUDA http://developer.download.nvidia.com/ compute/cuda/1_1/website/data- Parallel_Algorithms.html#reduction CUDA SDK

More information

HPC146

HPC146 2 3 4 5 6 int array[16]; #pragma xmp nodes p(4) #pragma xmp template t(0:15) #pragma xmp distribute t(block) on p #pragma xmp align array[i] with t(i) array[16] 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Node

More information

Fujitsu Standard Tool

Fujitsu Standard Tool 低レベル通信ライブラリ ACP の PGAS ランタイム向け機能 2014 年 10 月 24 日富士通株式会社 JST CREST 安島雄一郎 Copyright 2014 FUJITSU LIMITED 本発表の構成 概要 インタフェース チャネル ベクタ リスト メモリアロケータ アドレス変換 グローバルメモリ参照 モジュール構成 メモリ消費量と性能評価 利用例 今後の課題 まとめ 1 Copyright

More information

untitled

untitled A = QΛQ T A n n Λ Q A = XΛX 1 A n n Λ X GPGPU A 3 T Q T AQ = T (Q: ) T u i = λ i u i T {λ i } {u i } QR MR 3 v i = Q u i A {v i } A n = 9000 Quad Core Xeon 2 LAPACK (4/3) n 3 O(n 2 ) O(n 3 ) A {v i }

More information

iiyama PC、「LEVEL∞(レベル インフィニティ)」より第7世代インテル® Core™ i7とGeForce® GTX 10シリーズを搭載したコンパクトゲームパソコンを発売

iiyama PC、「LEVEL∞(レベル インフィニティ)」より第7世代インテル® Core™ i7とGeForce® GTX 10シリーズを搭載したコンパクトゲームパソコンを発売 2017 年 6 月 22 日 株式会社ユニットコム iiyama PC LEVEL ( レベルインフィニティ ) より 第 7 世代インテル Core i7 と GeForce GTX 10 シリーズを搭載した コンパクトゲームパソコンを発売 画像はイメージです パソコン工房 グッドウィルを運営する株式会社ユニットコム ( 代表取締役 : 端田泰三 本社 : 大阪市浪速区 ) は 信頼の JAPAN

More information

TSUBAME2.0におけるGPUの 活用方法

TSUBAME2.0におけるGPUの 活用方法 GPU プログラミング 基礎編 東京工業大学学術国際情報センター 1. GPU コンピューティングと TSUBAME2.0 スーパーコンピュータ GPU コンピューティングとは グラフィックプロセッサ (GPU) は グラフィック ゲームの画像計算のために 進化を続けてきた 現在 CPU のコア数は 2~12 個に対し GPU 中には数百コア その GPU を一般アプリケーションの高速化に利用! GPGPU

More information

Microsoft PowerPoint - GPU_computing_2013_01.pptx

Microsoft PowerPoint - GPU_computing_2013_01.pptx GPU コンピューティン No.1 導入 東京工業大学 学術国際情報センター 青木尊之 1 GPU とは 2 GPGPU (General-purpose computing on graphics processing units) GPU を画像処理以外の一般的計算に使う GPU の魅力 高性能 : ハイエンド GPU はピーク 4 TFLOPS 超 手軽さ : 普通の PC にも装着できる 低価格

More information

PRIMERGY TX100 S3 未サポートOS動作検証確認情報

PRIMERGY TX100 S3 未サポートOS動作検証確認情報 ソフトウェア名称 SAS アレイコントローラカード MegaRAID SAS 9260-8i 動作確認結果 オンボード SATA アレイコントローラ ( ソフトウェア RAID) CentOS 6.1(x86) ( 注 6) ( 注 7) CentOS 6.1(x86_64) ( 注 6) ( 注 7) CentOS 6.0(x86) ( 注 6) ( 注 5) CentOS

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション vsmp Foundation スケーラブル SMP システム スケーラブル SMP システム 製品コンセプト 2U サイズの 8 ソケット SMP サーバ コンパクトな筐体に多くのコアとメモリを実装し SMP システムとして利用可能 スイッチなし構成でのシステム構築によりラックスペースを無駄にしない構成 将来的な拡張性を保証 8 ソケット以上への拡張も可能 2 システム構成例 ベースシステム 2U

More information

120802_MPI.ppt

120802_MPI.ppt CPU CPU CPU CPU CPU SMP Symmetric MultiProcessing CPU CPU CPU CPU CPU CPU CPU CPU CPU CPU CPU CPU CP OpenMP MPI MPI CPU CPU CPU CPU CPU CPU CPU CPU CPU CPU MPI MPI+OpenMP CPU CPU CPU CPU CPU CPU CPU CP

More information

GPUコンピューティングの現状と未来

GPUコンピューティングの現状と未来 GPU コンピューティングの現状と未来 成瀬彰, HPC Developer Technology, NVIDIA Summary 我々のゴールと方向性 ゴール実現に向けて進めている技術開発 Unified Memory, OpenACC Libraries, GPU Direct Kepler の機能紹介 Warp shuffle, Memory system Hyper-Q, Dynamic Parallelism

More information

Images per Second Images per Second VOLTA: ディープラーニングにおける大きな飛躍 ResNet-50 トレーニング 2.4x faster ResNet-50 推論 TensorRT - 7ms レイテンシ 3.7x faster P100 V100 P10

Images per Second Images per Second VOLTA: ディープラーニングにおける大きな飛躍 ResNet-50 トレーニング 2.4x faster ResNet-50 推論 TensorRT - 7ms レイテンシ 3.7x faster P100 V100 P10 NVIDIA TESLA V100 CUDA 9 のご紹介 森野慎也, シニアソリューションアーキテクト (GPU-Computing) NVIDIA Images per Second Images per Second VOLTA: ディープラーニングにおける大きな飛躍 ResNet-50 トレーニング 2.4x faster ResNet-50 推論 TensorRT - 7ms レイテンシ

More information

CELSIUSカタログ(2012年7月版)

CELSIUSカタログ(2012年7月版) CELSIUS PC "MADE IN JAPAN" 2012.7 W520 ハイエンドの過酷な要求に応えるパワフルなデュアルと高信頼を搭載 RAID構成 選択可能 富士通がお勧めする Windows 7. ミニタワーエントリーモデル より速く より強力に 最新の技術をフル投入 スピードとパワー 安定性を提供 RAID構成 選択可能 Windows 7 Professional 32bit版 正規版

More information

CELSIUSカタログ(2012年5月版)

CELSIUSカタログ(2012年5月版) CELSIUS PC "MADE IN JAPAN" 2012.5 New W520 ハイエンドの過酷な要求に応えるパワフルなデュアルと高信頼を搭載 トを搭載 RAID構成 選択可能 New グラフィックス/GPUカード 500GB 1TB 500GB 2 RAID1 Quadro 5000 Quadro 4000 Quadro 2000 Quadro 600 4 Quadro 4000 TeslaTM

More information

スライド 1

スライド 1 期間限定販売プログラム vsmp Foundation クラスタを仮想化して運用と管理の容易なシングルシステムを構築様々なリソースを柔軟に統合化 Panasas ActiveStor 研究開発やエンタープライズクラスのワークロードに理想的なハイブリッドスケールアウト NAS アプライアンス 販売プログラム PANASAS ACTIVESTORE 仮想化ソフトウエア無償提供 2 販売プログラムの内容

More information

熊本大学学術リポジトリ Kumamoto University Repositor Title GPGPU による高速演算について Author(s) 榎本, 昌一 Citation Issue date Type URL Presentation

熊本大学学術リポジトリ Kumamoto University Repositor Title GPGPU による高速演算について Author(s) 榎本, 昌一 Citation Issue date Type URL Presentation 熊本大学学術リポジトリ Kumamoto University Repositor Title GPGPU による高速演算について Author(s) 榎本, 昌一 Citation Issue date 2011-03-17 Type URL Presentation http://hdl.handle.net/2298/23539 Right GPGPU による高速演算について 榎本昌一 東京大学大学院工学系研究科システム創成学専攻

More information

GPGPU

GPGPU GPGPU 2013 1008 2015 1 23 Abstract In recent years, with the advance of microscope technology, the alive cells have been able to observe. On the other hand, from the standpoint of image processing, the

More information

― ANSYS Mechanical ―Distributed ANSYS(領域分割法)ベンチマーク測定結果要約

― ANSYS Mechanical ―Distributed ANSYS(領域分割法)ベンチマーク測定結果要約 ANSYS Mechanical Distributed ANSYS( 領域分割法 ) 2011 年 1 月 17 日 富士通株式会社 ANSYS Mechanical ベンチマーク測定結果 目次 測定条件 1 標準問題モデル 2 総括 3 ベンチマーク測定について 3 留意事項 9 商標について 9 測定条件 測定に使用した環境は下記のとおりです System PRIMERGY BX922 S2

More information

Microsoft PowerPoint - stream.ppt [互換モード]

Microsoft PowerPoint - stream.ppt [互換モード] STREAM 1 Quad Opteron: ccnuma Arch. AMD Quad Opteron 2.3GHz Quad のソケット 4 1 ノード (16コア ) 各ソケットがローカルにメモリを持っている NUMA:Non-Uniform Access ローカルのメモリをアクセスして計算するようなプログラミング, データ配置, 実行時制御 (numactl) が必要 cc: cache-coherent

More information

Microsoft PowerPoint - SWoPP2010_Shirahata

Microsoft PowerPoint - SWoPP2010_Shirahata GPU を考慮した MapReduce の タスクスケジューリング 白幡晃一 1 佐藤仁 1 松岡聡 1 2 3 1 東京工業大学 2 科学技術振興機構 3 国立情報学研究所 大規模データ処理 情報爆発時代における 大規模データ処理 気象 生物学 天文学 物理学など様々な科学技術計算での利用 MapReduce 大規模データ処理のためのプログラミングモデルデ スケーラブルな並列データ処理 GPGPU

More information

Microsoft PowerPoint - suda.pptx

Microsoft PowerPoint - suda.pptx GPU の HWアーキテクチャと高性能化手法 須田礼仁 ( 東京大学 ) 2011/03/22 GPU 高性能プログラミング GPU のハードウェアを理解する CUDA のソフトウェアを理解する CUDA でプログラムを書くのは難しくないが, CUDA で高速なプログラムを書くのは難しい どうすれば遅くなるかを理解する! 効果が大きいものから順に説明します 1 高性能プログラミングの手順 1. 現在のコードの,

More information

EGunGPU

EGunGPU Super Computing in Accelerator simulations - Electron Gun simulation using GPGPU - K. Ohmi, KEK-Accel Accelerator Physics seminar 2009.11.19 Super computers in KEK HITACHI SR11000 POWER5 16 24GB 16 134GFlops,

More information

理化学研究所計算科学研究機構研究部門量子系分子科学研究チーム殿 hp170163: 有機半導体 有機分子発光材料の全自動探索シミュレーションシステムの開発 高度化支援作業 2017 年 9 6 ( R405 般財団法 度情報科学技術研究機構利 援部 1

理化学研究所計算科学研究機構研究部門量子系分子科学研究チーム殿 hp170163: 有機半導体 有機分子発光材料の全自動探索シミュレーションシステムの開発 高度化支援作業 2017 年 9 6 ( R405 般財団法 度情報科学技術研究機構利 援部 1 理化学研究所計算科学研究機構研究部門量子系分子科学研究チーム殿 hp170163: 有機半導体 有機分子発光材料の全自動探索シミュレーションシステムの開発 高度化支援作業 2017 年 9 6 ( )@AICS R405 般財団法 度情報科学技術研究機構利 援部 1 Outline 高度化支援の依頼内容 実行環境と計算条件 PWscf フロー図 各ライブラリを使用した場合のプログラム全体の実行時間の比較

More information

untitled

untitled PC murakami@cc.kyushu-u.ac.jp muscle server blade server PC PC + EHPC/Eric (Embedded HPC with Eric) 1216 Compact PCI Compact PCIPC Compact PCISH-4 Compact PCISH-4 Eric Eric EHPC/Eric EHPC/Eric Gigabit

More information

並列・高速化を実現するための 高速化サービスの概要と事例紹介

並列・高速化を実現するための 高速化サービスの概要と事例紹介 第 4 回 AVS 可視化フォーラム 2019 並列 高速化を実現するための 高速化サービスの概要と事例紹介 株式会社アーク情報システム営業部仮野亮ソリューション技術部佐々木竜一 2019.08.30 はじめに アーク情報システムの紹介 高速化サービスとは? 事例紹介 コンサルティングサービスについて アーク情報システムの紹介 設立 資本金 :1987 年 10 月 :3 億 600 万円 従業員数

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション LAN 1. LAN,. NAT,., LAN. NTMobile Network Traversal with Mobilty [1]. NTMobile. OS TUN/TAP, LAN. 2. NTMobile NTMobile NAT, IPv4/IPv6,,. NTMobile. DC Direction Coordinator. NTMobile. DC,. NTMobile NTMfw.

More information

Z800 WinXP 64bitマニュアルインストール手順(SATA)ver2

Z800 WinXP 64bitマニュアルインストール手順(SATA)ver2 発行 2010 年 06 月日本ヒューレット パッカード ( 株 ) Z800 WindowsXP 64bit SATA Ver2.0 対象となる機種 Z800 本手順は SATA インターフェイスのハードディスクでの方法となります SAS インターフェイスのハードディスクの方法ではありません 事前に搭載しているハードディスクの種類をご確認頂くよう お願い致します SAS インターフェイスのハードディスクでの方法は別の手順書として用意致しております

More information

21 20 20413525 22 2 4 i 1 1 2 4 2.1.................................. 4 2.1.1 LinuxOS....................... 7 2.1.2....................... 10 2.2........................ 15 3 17 3.1.................................

More information

Slide 1

Slide 1 CUDA プログラミングの基本 パート I - ソフトウェアスタックとメモリ管理 CUDA の基本の概要 パート I CUDAのソフトウェアスタックとコンパイル GPUのメモリ管理 パートII カーネルの起動 GPUコードの具体項目 注 : 取り上げているのは基本事項のみです そのほか多数の API 関数についてはプログラミングガイドを ご覧ください CUDA インストレーション CUDA インストレーションの構成

More information

gworksctl コマンドマニュアル 2019/6/17 株式会社 GDEP アドバンス 本書は GDEP Advance gworksctl コマンドマニュアルです G-Works G-Works Deep Learning Distribution for Linux( 以下 G-Works)

gworksctl コマンドマニュアル 2019/6/17 株式会社 GDEP アドバンス 本書は GDEP Advance gworksctl コマンドマニュアルです G-Works G-Works Deep Learning Distribution for Linux( 以下 G-Works) gworksctl コマンドマニュアル 2019/6/17 株式会社 GDEP アドバンス 本書は GDEP Advance gworksctl コマンドマニュアルです G-Works G-Works Deep Learning Distribution for Linux( 以下 G-Works) は Deep Learning に使用される主要なフレームワークを 各世代の NVIDIA GPU

More information

Microsoft PowerPoint _MPI-03.pptx

Microsoft PowerPoint _MPI-03.pptx 計算科学演習 Ⅰ ( 第 11 回 ) MPI を いた並列計算 (III) 神戸大学大学院システム情報学研究科横川三津夫 yokokawa@port.kobe-u.ac.jp 2014/07/03 計算科学演習 Ⅰ:MPI を用いた並列計算 (III) 1 2014/07/03 計算科学演習 Ⅰ:MPI を用いた並列計算 (III) 2 今週の講義の概要 1. 前回課題の解説 2. 部分配列とローカルインデックス

More information

HPEハイパフォーマンスコンピューティング ソリューション

HPEハイパフォーマンスコンピューティング ソリューション HPE HPC / AI Page 2 No.1 * 24.8% No.1 * HPE HPC / AI HPC AI SGIHPE HPC / AI GPU TOP500 50th edition Nov. 2017 HPE No.1 124 www.top500.org HPE HPC / AI TSUBAME 3.0 2017 7 AI TSUBAME 3.0 HPE SGI 8600 System

More information

卒業論文

卒業論文 PC OpenMP SCore PC OpenMP PC PC PC Myrinet PC PC 1 OpenMP 2 1 3 3 PC 8 OpenMP 11 15 15 16 16 18 19 19 19 20 20 21 21 23 26 29 30 31 32 33 4 5 6 7 SCore 9 PC 10 OpenMP 14 16 17 10 17 11 19 12 19 13 20 1421

More information

Microsoft PowerPoint - GPGPU実践基礎工学(web).pptx

Microsoft PowerPoint - GPGPU実践基礎工学(web).pptx GPU のプログラム構造 長岡技術科学大学電気電子情報工学専攻出川智啓 今回の内容 GPU プログラミング環境 (CUDA) GPU プログラムの実行の流れ CUDA によるプログラムの記述 カーネル (GPU で処理する関数 ) の構造 記述方法とその理由 GPU 固有のパラメータの確認 405 GPU(Graphics Processing Unit) とは 画像処理専用のハードウェア 具体的には画像処理用のチップ

More information

Z400/Z600 WinXP 64bitマニュアルインストール手順(SATA)ver2

Z400/Z600 WinXP 64bitマニュアルインストール手順(SATA)ver2 発行 2010 年 06 月日本ヒューレット パッカード ( 株 ) Z400,Z600 WindowsXP 64bit SATA Ver2.0 対象となる機種 Z400 Z600 本手順は SATA インターフェイスのハードディスクでの方法となります SAS インターフェイスのハードディスクの方法ではありません 事前に搭載しているハードディスクの種類をご確認頂くよう お願い致します SAS インターフェイスのハードディスクでの方法は別の手順書として用意致しております

More information

develop

develop SCore SCore 02/03/20 2 1 HA (High Availability) HPC (High Performance Computing) 02/03/20 3 HA (High Availability) Mail/Web/News/File Server HPC (High Performance Computing) Job Dispatching( ) Parallel

More information

Microsoft PowerPoint PCクラスタワークショップin京都.ppt

Microsoft PowerPoint PCクラスタワークショップin京都.ppt PC クラスタシステムへの富士通の取り組み 富士通株式会社株式会社富士通研究所久門耕一 29 年度に富士通が提供する ( した ) 大規模クラスタ 今年度はCPUとしてメモリバンド幅がNehalem, QDR- IB( 片方向 4GB/s) などPCクラスタにとって期待できる多くのコモディティコンポーネントが出現 これら魅力ある素材を使ったシステムとして 2つのシステムをご紹介 理化学研究所様 RICC(Riken

More information

1重谷.PDF

1重谷.PDF RSCC RSCC RSCC BMT 1 6 3 3000 3000 200310 1994 19942 VPP500/32PE 19992 VPP700E/128PE 160PE 20043 2 2 PC Linux 2048 CPU Intel Xeon 3.06GHzDual) 12.5 TFLOPS SX-7 32CPU/256GB 282.5 GFLOPS Linux 3 PC 1999

More information

NVIDIA Tesla K20/K20X GPU アクセラレータ アプリケーション パフォーマンス テクニカル ブリーフ

NVIDIA Tesla K20/K20X GPU アクセラレータ アプリケーション パフォーマンス テクニカル ブリーフ NVIDIA Tesla K20/K20X GPU アクセラレータ アプリケーション パフォーマンス テクニカル ブリーフ K20 GPU2 個に対するスピードアップ NVIDIA は Fermi アーキテクチャ GPU の発表により パフォーマンス エネルギー効率の両面で飛躍的な性能向上を実現し ハイパフォーマンスコンピューティング (HPC) の世界に変革をもたらしました また 実際に GPU

More information

コードのチューニング

コードのチューニング ハイブリッド並列 八木学 ( 理化学研究所計算科学研究機構 ) 謝辞 松本洋介氏 ( 千葉大学 ) KOBE HPC Spring School 2017 2017 年 3 月 14 日神戸大学計算科学教育センター MPI とは Message Passing Interface 分散メモリのプロセス間の通信規格(API) SPMD(Single Program Multi Data) が基本 -

More information

目 目 用方 用 用 方

目 目 用方 用 用 方 大 生 大 工 目 目 用方 用 用 方 用 方 MS-MPI MPI.NET MPICH MPICH2 LAM/MPI Ver. 2 2 1 2 1 C C++ Fortan.NET C# C C++ Fortan 用 行 用 用 用 行 用 言 言 言 行 生 方 方 一 行 高 行 行 文 用 行 If ( rank == 0 ) { // 0 } else if (rank == 1) {

More information

Microsoft PowerPoint - KHPCSS pptx

Microsoft PowerPoint - KHPCSS pptx KOBE HPC サマースクール 2018( 初級 ) 9. 1 対 1 通信関数, 集団通信関数 2018/8/8 KOBE HPC サマースクール 2018 1 2018/8/8 KOBE HPC サマースクール 2018 2 MPI プログラム (M-2):1 対 1 通信関数 問題 1 から 100 までの整数の和を 2 並列で求めなさい. プログラムの方針 プロセス0: 1から50までの和を求める.

More information

EQUIUM EQUIUM S5010 1

EQUIUM EQUIUM S5010 1 EQUIUM EQUIUM S5010 1 1 1 2 3 4 2 1 2 3 2 3 1 2 3 4 5 6 7 4 1 2 5 1 2 6 1 7 1 2 3 4 5 6 7 1 2 3 4 5 6 3 7 8 9 1 2 3 4 4 5 6 7 8 1 1 2 3 4 10 1 11 12 1 13 14 1 15 16 1 1 2 3 17 1 2 3 18 4 5 6 1 19 1 2 3

More information

untitled

untitled taisuke@cs.tsukuba.ac.jp http://www.hpcs.is.tsukuba.ac.jp/~taisuke/ CP-PACS HPC PC post CP-PACS CP-PACS II 1990 HPC RWCP, HPC かつての世界最高速計算機も 1996年11月のTOP500 第一位 ピーク性能 614 GFLOPS Linpack性能 368 GFLOPS (地球シミュレータの前

More information

スライド 1

スライド 1 Multimeter Version 1. 3. 3 簡易取扱説明書 2009 年 9 月 9 日 この簡易説明書は Multimeter Version 1. 3. 3 ( 以後 IntuiLink) の簡易説明書です サポートしておりますマルチメータは 34401A, 34405A, 34410A, 34411A, L4411A, 34420A です IntuiLink Multimeter は

More information

ERDAS IMAGINE における処理速度の向上 株式会社ベストシステムズ PASCO CORPORATION 2015

ERDAS IMAGINE における処理速度の向上 株式会社ベストシステムズ PASCO CORPORATION 2015 ERDAS IMAGINE における処理速度の向上 株式会社ベストシステムズ 本セッションの目的 本セッションでは ERDAS IMAGINEにおける処理速度向上を目的として機器 (SSD 等 ) 及び並列処理の比較 検討を行った 1.SSD 及び RAMDISK を利用した処理速度の検証 2.Condorによる複数 PCを用いた並列処理 2.1 分散並列処理による高速化試験 (ERDAS IMAGINEのCondorを使用した試験

More information

Microsoft PowerPoint - CAEworkshop_ _01.ver1.3

Microsoft PowerPoint - CAEworkshop_ _01.ver1.3 GPU メニーコアにおける OpenFOAM の高度化支援紹介 第 1 回 CAE ワークショップ 流体 構造解析アプリケーションを中心に 2017 年 12 月 6 日秋葉原 UDX Gallery NEXT 山岸孝輝井上義昭青柳哲雄浅見曉 ( 高度情報科学技術研究機構 ) ver 1.3 1 outline RISTの高度化支援について GPU メニーコアについて OpenFOAMとGPU GPU

More information

4 倍精度基本線形代数ルーチン群 QPBLAS の紹介 [index] 1. Introduction 2. Double-double algorithm 3. QPBLAS 4. QPBLAS-GPU 5. Summary 佐々成正 1, 山田進 1, 町田昌彦 1, 今村俊幸 2, 奥田洋司

4 倍精度基本線形代数ルーチン群 QPBLAS の紹介 [index] 1. Introduction 2. Double-double algorithm 3. QPBLAS 4. QPBLAS-GPU 5. Summary 佐々成正 1, 山田進 1, 町田昌彦 1, 今村俊幸 2, 奥田洋司 4 倍精度基本線形代数ルーチン群 QPBLAS の紹介 [index] 1. Introduction 2. Double-double algorithm 3. QPBLAS 4. QPBLAS-GPU 5. Summary 佐々成正 1, 山田進 1, 町田昌彦 1, 今村俊幸 2, 奥田洋司 3 1 1 日本原子力研究開発機構システム計算科学センター 2 理科学研究所計算科学研究機構 3 東京大学新領域創成科学研究科

More information

Microsoft PowerPoint - GPGPU実践基礎工学(web).pptx

Microsoft PowerPoint - GPGPU実践基礎工学(web).pptx GPU のメモリ階層 長岡技術科学大学電気電子情報工学専攻出川智啓 今回の内容 GPU のメモリ階層 グローバルメモリ 共有メモリ モザイク処理への適用 コンスタントメモリ 空間フィルタへの適用 577 GPU の主要部品 基盤 GPU( チップ )+ 冷却部品 画面出力端子 電源入力端子 メモリ 特性の把握が重要 電源入力端子 画面出力端子 メモリ チップ PCI Ex 端子 http://www.geforce.com/whats

More information

スパコンに通じる並列プログラミングの基礎

スパコンに通じる並列プログラミングの基礎 2018.09.10 furihata@cmc.osaka-u.ac.jp ( ) 2018.09.10 1 / 59 furihata@cmc.osaka-u.ac.jp ( ) 2018.09.10 2 / 59 Windows, Mac Unix 0444-J furihata@cmc.osaka-u.ac.jp ( ) 2018.09.10 3 / 59 Part I Unix GUI CUI:

More information

Microsoft Word - Dolphin Expressによる10Gbpソケット通信.docx

Microsoft Word - Dolphin Expressによる10Gbpソケット通信.docx Dolphin Express による 10Gbps ソケット通信 Dolphin Express は 標準的な低価格のサーバを用いて 強力なクラスタリングシステムが構築できる ハードウェアとソフトウェアによる通信用アーキテクチャです 本資料では Dolphin Express 製品の概要と 実際にどの程度の性能が出るのか市販 PC での実験結果をご紹介します Dolphin Express 製品体系

More information

64bit SSE2 SSE2 FPU Visual C++ 64bit Inline Assembler 4 FPU SSE2 4.1 FPU Control Word FPU 16bit R R R IC RC(2) PC(2) R R PM UM OM ZM DM IM R: reserved

64bit SSE2 SSE2 FPU Visual C++ 64bit Inline Assembler 4 FPU SSE2 4.1 FPU Control Word FPU 16bit R R R IC RC(2) PC(2) R R PM UM OM ZM DM IM R: reserved (Version: 2013/5/16) Intel CPU (kashi@waseda.jp) 1 Intel CPU( AMD CPU) 64bit SIMD Inline Assemler Windows Visual C++ Linux gcc 2 FPU SSE2 Intel CPU double 8087 FPU (floating point number processing unit)

More information

Windows2000/XPインストール手順

Windows2000/XPインストール手順 日歯生涯研修事業 IC カード用研修受付ソフト インストール手順書 (NFC Port Software 用 ) 日本歯科医師会 1 IC カード用研修受付ソフト の NFC Port Software のインストール手順... 3 1. インストール前の確認事項... 3 2. インストール手順の概略説明... 4 3. 新規インストール... 5 4. 既に FeliCa Port Software

More information

スライド 1

スライド 1 知能制御システム学 画像処理の高速化 東北大学大学院情報科学研究科鏡慎吾 swk(at)ic.is.tohoku.ac.jp 2008.07.22 今日の内容 ビジュアルサーボのようなリアルタイム応用を考える場合, 画像処理を高速に実装することも重要となる いくつかの基本的な知識を押さえておかないと, 同じアルゴリズムを実行しているのに性能が上がらないということがしばしば生じる 今日は, あくまで普通の

More information

スパコンに通じる並列プログラミングの基礎

スパコンに通じる並列プログラミングの基礎 2018.06.04 2018.06.04 1 / 62 2018.06.04 2 / 62 Windows, Mac Unix 0444-J 2018.06.04 3 / 62 Part I Unix GUI CUI: Unix, Windows, Mac OS Part II 2018.06.04 4 / 62 0444-J ( : ) 6 4 ( ) 6 5 * 6 19 SX-ACE * 6

More information

IPSJ SIG Technical Report Vol.2013-HPC-138 No /2/21 GPU CRS 1,a) 2,b) SpMV GPU CRS SpMV GPU NVIDIA Kepler CUDA5.0 Fermi GPU Kepler Kepler Tesla

IPSJ SIG Technical Report Vol.2013-HPC-138 No /2/21 GPU CRS 1,a) 2,b) SpMV GPU CRS SpMV GPU NVIDIA Kepler CUDA5.0 Fermi GPU Kepler Kepler Tesla GPU CRS 1,a),b) SpMV GPU CRS SpMV GPU NVIDIA Kepler CUDA5.0 Fermi GPU Kepler Kepler Tesla K0 CUDA5.0 cusparse CRS SpMV 00 1.86 177 1. SpMV SpMV CRS Compressed Row Storage *1 SpMV GPU GPU NVIDIA Kepler

More information

A Responsive Processor for Parallel/Distributed Real-time Processing

A Responsive Processor for Parallel/Distributed Real-time Processing E-mail: yamasaki@{ics.keio.ac.jp, etl.go.jp} http://www.ny.ics.keio.ac.jp etc. CPU) I/O I/O or Home Automation, Factory Automation, (SPARC) (SDRAM I/F, DMAC, PCI, USB, Timers/Counters, SIO, PIO, )

More information

... 1... 2... 2... 3... 3... 4... 4... 5... 6 (a) 20... 6 (b) 10... 7 (c) 10... 8 (d) 24... 8 (e) 7... 9 (f) 7... 10... 10 (a) 12... 10 (b) 34... 11..

... 1... 2... 2... 3... 3... 4... 4... 5... 6 (a) 20... 6 (b) 10... 7 (c) 10... 8 (d) 24... 8 (e) 7... 9 (f) 7... 10... 10 (a) 12... 10 (b) 34... 11.. ... 1... 2... 2... 3... 3... 4... 4... 5... 6 (a) 20... 6 (b) 10... 7 (c) 10... 8 (d) 24... 8 (e) 7... 9 (f) 7... 10... 10 (a) 12... 10 (b) 34... 11... 13 (a) 7... 13 (b) 8... 14 (c) 19... 14... 16...

More information