HPC 分野におけるGPU 活用技術 アクセラレータ技術 WG 成果報告 SS 研アクセラレータ技術 WG 取りまとめ役井上弘士 ( 九州大学 ) 1

Size: px
Start display at page:

Download "HPC 分野におけるGPU 活用技術 アクセラレータ技術 WG 成果報告 SS 研アクセラレータ技術 WG 取りまとめ役井上弘士 ( 九州大学 ) 1"

Transcription

1 HPC 分野におけるGPU 活用技術 アクセラレータ技術 WG 成果報告 SS 研アクセラレータ技術 WG 取りまとめ役井上弘士 ( 九州大学 ) 1

2 発表内容 ワーキンググループ (WG) 設置の背景 WG 活動概要 GPU を 手軽に 使って性能が改善するか? GPU に不向きと われるアプリは本当に不向きなのか? 将来のアクセラレータ活用のあるべき姿は? 2

3 WG 設置の背景 3

4 エクサ実現へのチャレンジ エクサ フロップス級スパコンの実現における最大の課題は? 消費電 の壁 スパコンを実現するには? 京 を基準にすると消費電 2x で性能 100x 1E+10 Gflops (Rmax) 1E+09 1E+08 1E+07 1E x 2x 1EFlops 1E+05 1E Power (KW) 20MW 4

5 DARPAIPTO ExascaleComputingStudy 既存マシンをベースにしたスケーリングによりシステム性能を予測 消費電 と 積 ( 最 ラック数 ) 制約を考慮 ノード名説明システム例プロセッサ例 HeavyNode(HN) 高性能プロセッサ搭載型ノード RedStorm Intel,AMD などのプロセッサ LightNode(LN) 組込み向けプロセッサ搭載型ノード BlueGene/L,/P PPC440,450 AggressiveNode(AN) 1EFlops のシステムを前提とした仮想ノード 無し 無し 5

6 DARPAIPTO ExascaleComputingStudy 半導体デバイス メモリ総容量 理論ピーク性能 ノード消費電 モデル SimplisticllyScaledPowerModel プロセッサ 主記憶 (DRAM) #DRAM チップ ルータ ベースと同じ割合で一定 FullyScaledPowerModel プロセッサ 主記憶 (DRAM) #DRAM チップ 性能 ルータ 性能 コア メモリ (DRAM) ルータ ラック Cache プロセッサノードボード 6 システム

7 DARPAIPTO ExascaleComputingStudy は到達できない! Fully で 50 60x,Simplisticaly で 10x の性能向上が必要 何らかの質的な変化が必要では? アクセラレーション技術 Figure 7.14: Light node strawman performance projections 1EFlops 50~60x 10x 消費電力制約無し W Simplistically 20MW Simplistically W Fully 20MW Fully LN: Light Node の結果

8 本 WG の狙い 現在最も有望なアクセラレーション技術 GPU GPU 向きアプリ を対象とした多くの事例報告 素朴な, でも, 本質的な疑問 GPU を 手軽に 使って性能が改善するか? PGI コンパイラを用いた ライトな チューニング GPU に不向きと われるアプリは本当に不向きなのか? GPU に不向きとして知られるアプリを対象に ヘビーな チューニング 上記の調査を通して将来のアクセラレータ活用のあるべき姿を模索 議論 8

9 WG 活動概要 9

10 メンバーと活動内容 氏名 担当幹事村上和彰九州大学 所属 会合日時活動内容 第一回 2009 年 10 月 29 日 ( 木 ) WG 全体スケジュールの議論 今後の議題検討 推進委員 尊之 東京工業大学 遠藤敏夫 東京工業大学 川原佳 理化学研究所 第二回 2010 年 1 月 19 日 ( 火 ) 会員報告 (PGI アクセラレータコンパイラ コーンビーム再構成の高速化 初心者による GPU プログラミング事例 複合型計算機向けソフトウェア開発環境 ) 富士通報告 (GPGPU プログラミングの状況 GPUSIM から た GPU) 滝沢寛之 伊野文彦 東北 学 大阪大学 第三回 2010 年 4 月 7 日 ( 水 ) 会員報告 (LinpackonGPU 搭載スパコン Tsubame) 富士通報告 (OpenCL の評価 ) OpenCL に関する議論 井上弘士 九州大学 本田宏明 九州大学 堀田耕 郎 富士通 ( 株 ) 第四回 第五回 2010 年 7 月 14 日 ( 水 ) 2010 年 12 月 3 日 ( ) 会員報告 (PGI コンパイラ評価 ) 富士通報告 (nvidia 新 GPU 評価 ) 会員報告 ( アクセラレータの大規模システム導入課題 LinpackonTsubame2) 丸山拓 富士通 ( 株 ) 坂口吉生 富士通 ( 株 ) 第六回 201 年 3 月 25 日 ( ) 会員報告 (PGI コンパイラ評価 ) 富士通報告 ( 分子軌道法プログラムの GPU 化検討 ) 佐々木啓 富士通 ( 株 ) 久門耕一 ( 株 ) 富士通研究所 成瀬彰 ( 株 ) 富士通研究所 第七回 第八回 201 年 8 月 19 日 ( ) 2012 年 1 月 19 日 ( 木 ) まとめ 会員報告 (CUDAFortran 評価 ) 富士通報告 ( 分子軌道法プログラムの GPU 化結果 ) 10

11 GPU を 手軽に 使って性能が 改善するか? 11

12 3 人の開発者による PGI アクセラレータ利 事例 PGI アクセラレータ : nvidiagpu 向けのディレクティブ挿入方式のプログラム開発言語 環境 3 人の開発者 開発者 A OpenMP MPI による並列プログラム開発経験はあるが,PGI アクセラレータの使用経験は無し. 開発者 B 開発者 C 計算科学分野のアプリ開発経験は豊富. 逐次プログラム開発が主体であり, プログラムの並列化はあまり詳しくない. 並列処理のエキスパートであり,CUDA OpenCL でのプログラム開発経験がある. 3 種類のアプリ 姫野 BMT 2D-FDTD 分子軌道法 12

13 実験結果 姫野 BMT 2D-FDTD 分子軌道法 GFLOPS Directive 数開発工数 GFLOPS Directive 数開発工数 GFLOPS PGIver 時間 ( 学習に数日 ) GPU コード生成できず PGIver 分 CUDA 版 (by 開発者 C) CUDA 版 (by 開発者 B) XeonX GHz1 コア XeonX GHz4 コア 50 数日 程度 エキスパート ( 開発者 C) の CUDA 版実装と比較して 40% 程度の性能 13

14 GPU に不向きと われるアプリ は本当に不向きなのか? 14

15 分子軌道法とは 分子内において, 主に電子がどのような運動をしており, どのようなエネルギーを持っているかを量 化学的計算により求める方法の一つ 分子物性の解析 創薬 新素材の開発 ex) プリンタのカラーインク 液晶ディスプレイ 15

16 GPU での高速化は難しい らしい 分子軌道法プログラムの GPU 化は一般的に難しいとされている 数例の報告のみ オリジナルコード コードが複雑 ステップ数大 PGI アクセラレータコンパイラのディレクティブの方法では GPU へのオフロードコードは生成されず GPU 使用の問題点 倍精度計算の使 開平逆数 指数関数計算が必要 条件分岐計算 レジスタ量が不 分 シェアードメモリを利 のための適切な 法が不明確 デバイスメモリサイズの制限 などなど 16

17 分 軌道法プログラムの処理フロー 分子の座標 座標 電子数 基底関数データなどを入力 重なり積分 S, 1 電子ハミルトン行列 H core および 2 電子積分を計算 重なり積分を Cholesky 分解 (S=U T U) 密度行列の初期値 (D 0 ) を設定 積分駆動型アルゴリズムによる 2 電 フォック 列計算 Obara のアルゴリズムによる積分計算法計算 全て C 言語で記述 密度行列と 2 電子積分から 2 電子ハミルトン行列 G を計算 密度行列を更新 F=H core +G を計算 FC=SCε を解く C から新たな密度行列 D を計算 N N 2 G [ ] ij D kl k l i j k l i k j l no 密度行列が収束した? yes 収束した F, C, D などを用いて 望みの期待値 ( エネルギーなど ) を計算 2 電子積分計算 (ERI) を含む G 行列計算式 17

18 ボトルネックは G 列計算 分子軌道法プログラムの高速化 G 列計算の 速化 CPU Core-i7 2600K 3.4GHz (1core) Compiler Intel v12.1 (-O3) Program Kyudai-HFR Input data h16o8 (24 atoms) Elapsed time sec 18

19 CPU 向け並列化 19

20 係数 列作成 1 st loopbegin 2 nd loopbegin 3 rd loopbegin 4 th loopbegin 初期積分計算 垂直漸化式計算 4 th loopend 3 rd loopend 水平漸化式計算 G 列更新 2 nd loopend 1 st loopend G 列計算の概要 & OpenMP によるCPU 向け並列化 ompparallelfor 1 st loo pの iteratio nをスレッドに分配 ompatomic 他スレッドと同じ箇所を更新する可能性 G[ij]+= 4*x*D [kl] G[kl]+= 4*x*D [ij] G[ik]-= x*d [jl] G[il]-= x*d [jk] G[jk]-= x*d [il] G[jl]-= x*d [ik] 20

21 実際には 6 種類の積分計算 係数 列作成 1 st loopbegin 2 nd loopbegin 3 rd loopbegin 4 th loopbegin 初期積分計算垂直漸化式計算 4 th loopend 3 rd loopend 水平漸化式計算 G 列更新 2 nd loopend 1 st loopend (ss,ss) タイプ (ps,ss) タイプ (ps,ps) タイプ (pp,ss) タイプ (pp,ps) タイプ (pp,pp) タイプ CPU:Core-i72600 K3.4GHz (1core) Compile r:intelv12.1(-o3) Program:Kyudai-HFR Input data:(h 2 O) 8 (24atoms) Elapsedtime:14.29sec 21

22 OpenMP による並列化効果 ( コア数 :1 4) CPU Core-i72600 K 3.4GHz (1-4cores) Compile r Intelv12.1 (-O3-openmp) Program Kyudai-HFR 6 種類の積分型を全て OpenMP で並列化 Inputdata h16o8(24atoms) 22

23 性能 積分型 実 時間 (1 コアに対する性能向上 ) CPU GPU 1 コア 4 コア (ss,ss) (ps,ss) (ps,ps) (pp,ss) (pp,ps) (pp,pp) 246 (1.0x) 279 (1.0x) 1 2 (1.0x) 67 (1.0x) 62 (1.0x) 12 (1.0x) 66.2 (3.7x) 85.8 (3.3x) 39.6 (3.1x) 21.3 (3.1x) 21.0 (3.0x) 4.0 (3.0x)? 23

24 GPU 向け並列化 (NAÏVE 実装 ) 24

25 G 列計算処理 ((ss,ss) 積分型 ) 係数 列作成 1 st loopbegin 2 nd loopbegin 3 rd loopbegin 4 th loopbegin 初期積分計算垂直漸化式計算 4 th loopend 3 rd loopend 水平漸化式計算 G 列更新 2 nd loopend 1 st loopend 係数 列作成係数 列数 :16 種総量 :2.4MB( 依存 ) 1 st &2 nd loop: ループ回数 :139,656( 依存 ) ERI 計算 : ループ回数 :81( 依存 ) ERI 値 :1 種 ( 積分型依存 ) G 配列更新前出 ERI 値と関連する部分を更新 G 列更新 :6 箇所 ( 積分型依存 ) G 配列要素数 :1,596( 依存 ) (*)Inputdata:(H 2 O) 8 24atoms 25

26 G 列計算の GPGPU 化 係数 列作成 1 st loopbegin 2 nd loopbegin 3 rd loopbegin 4 th loopbegin 初期積分計算垂直漸化式計算 4 th loopend 3 rd loopend 水平漸化式計算 1 st &2 nd loop: ループ回数 :139,656( 依存 ) 1 st &2 nd loo pの各 iteratio nを 1スレッドに割当 G 列更新 2 nd loopend 1 st loopend (*) Input data: h16o8 (24 atoms) 26

27 係数 列作成 1 st loopbegin 2 nd loopbegin G 列計算の GPGPU 化 3 rd loopbegin 4 th loopbegin 初期積分計算垂直漸化式計算 4 th loopend 3 rd loopend 水平漸化式計算 ERI 計算 : ループ回数 :81( 依存 ) ERI 値 :1 種 ( 積分型依存 ) マルチスレッド化 各 ERI 値の計算には 5 スレッド使 ( 定量的な解析より ) G 列更新 2 nd loopend 1 st loopend (*) Input data: h16o8 (24 atoms) 27

28 係数 列作成 1 st loopbegin 2 nd loopbegin ボトルネックはどこに? 3 rd loopbegin 4 th loopbegin 初期積分計算垂直漸化式計算 4 th loopend 3 rd loopend 水平漸化式計算 G 列更新 2 nd loopend 1 st loopend N スレッド並列 (*)N=2 81 N-1 スレッドは待機 (6 回の atomic 操作 ) (*) Input data: h16o8 (24 atoms) 28

29 係数 列作成 1 st loopbegin 2 nd loopbegin G 列計算の GPGPU 化 3 rd loopbegin 4 th loopbegin 初期積分計算垂直漸化式計算 4 th loopend 3 rd loopend 水平漸化式計算 G 列更新 2 nd loopend 1 st loopend 部分 G 列更新 ERI 値毎に 関連する箇所を更新 G 列更新箇所 :6 ( 全要素数 :1,596) 更新箇所は不連続 他スレッドが同時に同じ G 列要素を更新する可能性 atomiccas() による排他処理 CAS: CompareAndSwap (*) Input data: h16o8 (24 atoms) 29

30 GPU 環境 Tesla C2050 Fermi 世代 CUDA 4.2 Stream Multi-processor Register Files (128KB) CC CC CC CC CC CC CC CC CC CC CC CC CC CC CC CC L1+Shmem:64KB (*) CC = CUDA Core CC CC CC CC CC CC CC CC CC CC CC CC CC CC CC CC SM L2(128KB) Memory Controller GDDR5 64bit (x14) X-Bar (x6) SM L2(128KB) Memory Controller 64bit GDDR5 30

31 性能 積分型 実 時間 (1 コアに対する性能向上 ) CPU GPU 1 コア 4 コア Naïve (ss,ss) (ps,ss) (ps,ps) (pp,ss) (pp,ps) (pp,pp) 246 (1.0x) 279 (1.0x) 1 2 (1.0x) 67 (1.0x) 62 (1.0x) 12 (1.0x) 66.2 (3.7x) 85.8 (3.2x) 39.6 (3.0x) 21.3 (3.1x) 21.0 (2.9x) 4.0 (3.0x) 45 (5.4x) ? 31

32 GPU 向け並列化 ( 実装アルゴリズムの最適化 ) 32

33 ボトルネックはどこに存在する? atomic 操作を外すと CPU(1core) 246ms GPU (2x2x5) 45ms(5.4x) GPU (w/oatomic 操作 ) 25ms(9.8x) (*) ただし 正しい結果は得られない ボトルネックは G 列計算の atomic 操作 これをなんとかしないと速くならない! 33

34 Kernel 分離 :atomic 操作を無くす! 1 st &2 nd loopbegin ERI 計算 G 列更新 1 st &2 nd loopend ERI 値の計算直後に関連する G 列要素を更新 分離 1 st &2 nd loopbegin ERI 計算 (ERI 値をメモリに WRITE) 1 st &2 nd loopend + 1 st &2 nd loopbegin (ERI 値をメモリから READ) G 列更新 1 st &2 nd loopend ERI 値をメモリに記録するオーバーヘッドは高いメモリバンド幅で隠蔽 ( と期待 ) 34

35 性能 積分型 (ss,ss) (ps,ss) (ps,ps) (pp,ss) (pp,ps) (pp,pp) 実 時間 (1コアに対する性能向上) CPU GPU 1 コア 4 コア Naïve カーネル分割 (1.0x) (3.7x) (5.4x) (1.0x) (3.2x) (1.0x) (3.0x) (1.0x) (3.1x) (1.0x) (2.9x) (1.0x) (3.0x) -- (23.4x) 16.2 (17.2x) 12.6 (9.7x) 6.3 (10.6x) 10.1 (6.1x) 9.6 (1.3x)? 35

36 性能 積分型 実 時間 (1 コアに対する性能向上 ) CPU GPU (ss,ss) (ps,ss) (ps,ps) (pp,ss) (pp,pp) 1 コア 4 コア Naïve カーネル分割 (1.0x) (3.7x) (1.0x) (3.2x) (1.0x) (3.0x) (1.0x) 62 (1.0x) 12 (3.1x) 21.0 (2.9x) 4.0 (1.0x) (3.0x) (5.4x) 積分型により性能 UP 率に きな違い 複雑な積分型は (pp,ps) GPUで性能向上難しい --? さらなるチューニングを試みる! -- (23.4x) 16.2 (17.2x) 12.6 (9.7x) 6.3 (10.6x) 10.1 (6.1x) 9.6 (1.3x) GPU 向き 繰り返し多 計算単純 GPU 不向き 繰り返し少 計算複雑 36

37 積分型による G 列計算処理の違い 係数行列作成 1 st loop begin 2 nd loop begin 3 rd loop begin 4 th loop begin 初期積分計算 垂直漸化式計算 4 th loop end 3 rd loop end 水平漸化式計算 G 行列更新 2 nd loop end 1 st loop end 計算されるERI 値 (ss,ss) 1 個 (pp,pp) 81 個 更新される G 配列要素 (ss,ss) 最多 6 箇所 (pp,pp) 最多 486 箇所 37

38 積分型 ERI 計算の複雑さは積分型次第 # used registers Shmem (bytes) Spill stores (bytes) Spill loads (bytes) (ss,ss) (ps,ss) (ps,ps) (pp,ss) (pp,ps) (pp,pp) ,708 2,332 レジスタ数が足りない レジスタスピル発生 38

39 Shmem の活用 積分型 # used registers Shmem (bytes) Spill stores (bytes) Spill loads (bytes) (ss,ss) (ps,ss) (ps,ps) 62 4, (pp,ss) (pp,ps) 63 7, (pp,pp) 63 7, Shmem を使ってレジスタスピル量を削減 他にも細かなチューニング 39

40 性能 積分型 (ss,ss) (ps,ss) (ps,ps) (pp,ss) (pp,ps) (pp,pp) 実 時間 (1コアに対する性能向上) CPU GPU 1 コア 4 コア Naïve カーネル分割 (1.0x) (3.7x) (5.4x) (1.0x) (3.2x) (1.0x) (3.0x) (1.0x) (3.1x) (1.0x) (2.9x) (1.0x) (3.0x) -- 更なる チューニング 10.5 (23.4x) (23.4x) (17.2x) (18.8x) (9.7x) (14.1x) (10.6x) (15.9x) (6.1x) 9.6 (1.3x) (6.8x) 7.6 (1.5x) 40

41 全体性能比較 (CPU vs GPU) 14.3 秒 1.16 秒 CPU(1core) GPU: 12.3x CPU GPU Core-i7 2600K 3.4GHz (1core) Intel compiler v12.1 (-O3) Tesla C2050 CUDA 4.2 Program Kyudai-HFR Input data: h16o8 (24 atoms) 41

42 各種 データでの性能比較 (vs.1 コア ) 42

43 各種 データでの性能比較 (vs.4 コア ) 43

44 将来のアクセラレータ活用のあ るべき姿は? 44

45 GPU を 手軽に 使って性能が 改善するか? GPU に向いている単純なコード 数 のディレクティブ挿 エキスパートによるチューニング実装と比較して 40% 程度の性能 コンパイルできないコードも存在 45

46 GPU に不向きと われるアプリは 本当に不向きなのか? 実装アルゴリズムを GPU 特性に合わせて 直すことで CPU を大きく上回る性能を達成 GTX 580 性能 : 対 CPU(1core) で最大 21.2 倍 対 CPU(4core) で最大 6.0 倍 本トライアルで性能向上を達成できた理由 理解し易いシンプルなコードの提供 実装屋の存在 46

47 CPUvs.GPU CPU Memory (on-chip) Memory (on-chip) GPU 如何に上手く使うか? 如何に稼働率を高めるか? Control Calculation Control Calculation 如何に性能向上に活かすか? Memory Memory 47

48 アクセラレータ 活用の あるべき姿 (1/2) GPU 化に 向く 部分と 向かない 部分はある 依然としてアプリ屋と実装屋のギャップは大きい アクセラレータ活用のあるべき姿 素性の良いアプリ コンパイラが そこそこ 使える 向かないアプリ アプリ屋と実装屋の協調 (Co- Design?) で多くを 向く アプリに! 理解し易いシンプルなコード ( マシン非依存 ) アプリ レベルの最適化に注 アーキ依存な 度最適化 実装レベルの最適化に注 アクセラレータ HW としての進化 フィードバック性能解析 48

49 アクセラレータ 活用の あるべき姿 (2/2) CPU(FatCore) と GPU(ThinCores) の併用 どうしても GPU に向かない処理はある (ppp 型など ) ただし, データサイズが さく実 時間が短いことが多い このような処理は CPU に任せる タスク並列的な CPU/GPU 併用 49

Microsoft PowerPoint - GPUシンポジウム _d公開版.ppt [互換モード]

Microsoft PowerPoint - GPUシンポジウム _d公開版.ppt [互換モード] 200/0/9 数値流体解析の並列効率とその GPU による高速化の試み 清水建設 ( 株 ) 技術研究所 PHAM VAN PHUC ( ファムバンフック ) 流体計算時間短縮と GPU の活用の試み 現 CPUとの比較によりGPU 活用の可能性 現 CPU の最大利用 ノード内の最大計算資源の利用 すべてCPUコアの利用 適切なアルゴリズムの利用 CPU コア性能の何倍? GPU の利用の試み

More information

RICCについて

RICCについて RICC 1 RICC 2 RICC 3 RICC GPU 1039Nodes 8312core) 93.0GFLOPS, 12GB(mem), 500GB (hdd) DDR IB!1 PC100Nodes(800core) 9.3 GPGPU 93.3TFLOPS HPSS (4PB) (550TB) 0.24 512GB 1500GB MDGRAPE33TFLOPS MDGRAPE-3 64

More information

並列・高速化を実現するための 高速化サービスの概要と事例紹介

並列・高速化を実現するための 高速化サービスの概要と事例紹介 第 4 回 AVS 可視化フォーラム 2019 並列 高速化を実現するための 高速化サービスの概要と事例紹介 株式会社アーク情報システム営業部仮野亮ソリューション技術部佐々木竜一 2019.08.30 はじめに アーク情報システムの紹介 高速化サービスとは? 事例紹介 コンサルティングサービスについて アーク情報システムの紹介 設立 資本金 :1987 年 10 月 :3 億 600 万円 従業員数

More information

GPU GPU CPU CPU CPU GPU GPU N N CPU ( ) 1 GPU CPU GPU 2D 3D CPU GPU GPU GPGPU GPGPU 2 nvidia GPU CUDA 3 GPU 3.1 GPU Core 1

GPU GPU CPU CPU CPU GPU GPU N N CPU ( ) 1 GPU CPU GPU 2D 3D CPU GPU GPU GPGPU GPGPU 2 nvidia GPU CUDA 3 GPU 3.1 GPU Core 1 GPU 4 2010 8 28 1 GPU CPU CPU CPU GPU GPU N N CPU ( ) 1 GPU CPU GPU 2D 3D CPU GPU GPU GPGPU GPGPU 2 nvidia GPU CUDA 3 GPU 3.1 GPU Core 1 Register & Shared Memory ( ) CPU CPU(Intel Core i7 965) GPU(Tesla

More information

Slides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments

Slides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments 計算機アーキテクチャ第 11 回 マルチプロセッサ 本資料は授業用です 無断で転載することを禁じます 名古屋大学 大学院情報科学研究科 准教授加藤真平 デスクトップ ジョブレベル並列性 スーパーコンピュータ 並列処理プログラム プログラムの並列化 for (i = 0; i < N; i++) { x[i] = a[i] + b[i]; } プログラムの並列化 x[0] = a[0] + b[0];

More information

hpc141_shirahata.pdf

hpc141_shirahata.pdf GPU アクセラレータと不揮発性メモリ を考慮した I/O 性能の予備評価 白幡晃一 1,2 佐藤仁 1,2 松岡聡 1 1: 東京工業大学 2: JST CREST 1 GPU と不揮発性メモリを用いた 大規模データ処理 大規模データ処理 センサーネットワーク 遺伝子情報 SNS など ペタ ヨッタバイト級 高速処理が必要 スーパーコンピュータ上での大規模データ処理 GPU 高性能 高バンド幅 例

More information

GPGPUクラスタの性能評価

GPGPUクラスタの性能評価 2008 年度理研 HPC シンポジウム第 3 世代 PC クラスタ GPGPU クラスタの性能評価 2009 年 3 月 12 日 富士通研究所成瀬彰 発表の概要 背景 GPGPU による高速化 CUDA の概要 GPU のメモリアクセス特性調査 姫野 BMT の高速化 GPGPU クラスタによる高速化 GPU Host 間のデータ転送 GPU-to-GPU の通信性能 GPGPU クラスタ上での姫野

More information

TSUBAME2.0 における GPU の 活用方法 東京工業大学学術国際情報センター丸山直也第 10 回 GPU コンピューティング講習会 2011 年 9 月 28 日

TSUBAME2.0 における GPU の 活用方法 東京工業大学学術国際情報センター丸山直也第 10 回 GPU コンピューティング講習会 2011 年 9 月 28 日 TSUBAME2.0 における GPU の 活用方法 東京工業大学学術国際情報センター丸山直也第 10 回 GPU コンピューティング講習会 2011 年 9 月 28 日 目次 1. TSUBAMEのGPU 環境 2. プログラム作成 3. プログラム実行 4. 性能解析 デバッグ サンプルコードは /work0/gsic/seminars/gpu- 2011-09- 28 からコピー可能です 1.

More information

GPUコンピューティング講習会パート1

GPUコンピューティング講習会パート1 GPU コンピューティング (CUDA) 講習会 GPU と GPU を用いた計算の概要 丸山直也 スケジュール 13:20-13:50 GPU を用いた計算の概要 担当丸山 13:50-14:30 GPU コンピューティングによる HPC アプリケーションの高速化の事例紹介 担当青木 14:30-14:40 休憩 14:40-17:00 CUDA プログラミングの基礎 担当丸山 TSUBAME の

More information

Microsoft PowerPoint - ARCEMB08HayashiSlides.ppt [互換モード]

Microsoft PowerPoint - ARCEMB08HayashiSlides.ppt [互換モード] 演算 / メモリ性能バランスを考慮した CMP 向けオンチップ メモリ貸与法の提案 九州大学 林徹生今里賢一井上弘士村上和彰 1 発表手順 背景 目的 演算 / メモリ性能バランシング 概要 アクセスレイテンシの削減とオーバーヘッド 提案手法の実現方法 着目する命令 (Cell プロセッサへの ) 実装 性能評価 姫野ベンチマーク Susan@MiBench おわりに 2 チップマルチプロセッサ (CMP)

More information

VXPRO R1400® ご提案資料

VXPRO R1400® ご提案資料 Intel Core i7 プロセッサ 920 Preliminary Performance Report ノード性能評価 ノード性能の評価 NAS Parallel Benchmark Class B OpenMP 版での性能評価 実行スレッド数を 4 で固定 ( デュアルソケットでは各プロセッサに 2 スレッド ) 全て 2.66GHz のコアとなるため コアあたりのピーク性能は同じ 評価システム

More information

NVIDIA Tesla K20/K20X GPU アクセラレータ アプリケーション パフォーマンス テクニカル ブリーフ

NVIDIA Tesla K20/K20X GPU アクセラレータ アプリケーション パフォーマンス テクニカル ブリーフ NVIDIA Tesla K20/K20X GPU アクセラレータ アプリケーション パフォーマンス テクニカル ブリーフ K20 GPU2 個に対するスピードアップ NVIDIA は Fermi アーキテクチャ GPU の発表により パフォーマンス エネルギー効率の両面で飛躍的な性能向上を実現し ハイパフォーマンスコンピューティング (HPC) の世界に変革をもたらしました また 実際に GPU

More information

スライド 1

スライド 1 GPU クラスタによる格子 QCD 計算 広大理尾崎裕介 石川健一 1.1 Introduction Graphic Processing Units 1 チップに数百個の演算器 多数の演算器による並列計算 ~TFLOPS ( 単精度 ) CPU 数十 GFLOPS バンド幅 ~100GB/s コストパフォーマンス ~$400 GPU の開発環境 NVIDIA CUDA http://www.nvidia.co.jp/object/cuda_home_new_jp.html

More information

<4D F736F F F696E74202D2091E63489F15F436F6D C982E682E992B48D8291AC92B489B F090CD2888F38DFC E B8CDD8

<4D F736F F F696E74202D2091E63489F15F436F6D C982E682E992B48D8291AC92B489B F090CD2888F38DFC E B8CDD8 Web キャンパス資料 超音波シミュレーションの基礎 ~ 第 4 回 ComWAVEによる超高速超音波解析 ~ 科学システム開発部 Copyright (c)2006 ITOCHU Techno-Solutions Corporation 本日の説明内容 ComWAVEの概要および特徴 GPGPUとは GPGPUによる解析事例 CAE POWER 超音波研究会開催 (10 月 3 日 ) のご紹介

More information

スライド 1

スライド 1 計算科学が拓く世界スーパーコンピュータは何故スーパーか 学術情報メディアセンター中島浩 http://www.para.media.kyoto-u.ac.jp/jp/ username=super password=computer 講義の概要 目的 計算科学に不可欠の道具スーパーコンピュータが どういうものか なぜスーパーなのか どう使うとスーパーなのかについて雰囲気をつかむ 内容 スーパーコンピュータの歴史を概観しつつ

More information

GPU チュートリアル :OpenACC 篇 Himeno benchmark を例題として 高エネルギー加速器研究機構 (KEK) 松古栄夫 (Hideo Matsufuru) 1 December 2018 HPC-Phys 理化学研究所 共通コードプロジェクト

GPU チュートリアル :OpenACC 篇 Himeno benchmark を例題として 高エネルギー加速器研究機構 (KEK) 松古栄夫 (Hideo Matsufuru) 1 December 2018 HPC-Phys 理化学研究所 共通コードプロジェクト GPU チュートリアル :OpenACC 篇 Himeno benchmark を例題として 高エネルギー加速器研究機構 (KEK) 松古栄夫 (Hideo Matsufuru) 1 December 2018 HPC-Phys 勉強会 @ 理化学研究所 共通コードプロジェクト Contents Hands On 環境について Introduction to GPU computing Introduction

More information

Microsoft PowerPoint - GPU_computing_2013_01.pptx

Microsoft PowerPoint - GPU_computing_2013_01.pptx GPU コンピューティン No.1 導入 東京工業大学 学術国際情報センター 青木尊之 1 GPU とは 2 GPGPU (General-purpose computing on graphics processing units) GPU を画像処理以外の一般的計算に使う GPU の魅力 高性能 : ハイエンド GPU はピーク 4 TFLOPS 超 手軽さ : 普通の PC にも装着できる 低価格

More information

Microsoft PowerPoint - SWoPP2010_Shirahata

Microsoft PowerPoint - SWoPP2010_Shirahata GPU を考慮した MapReduce の タスクスケジューリング 白幡晃一 1 佐藤仁 1 松岡聡 1 2 3 1 東京工業大学 2 科学技術振興機構 3 国立情報学研究所 大規模データ処理 情報爆発時代における 大規模データ処理 気象 生物学 天文学 物理学など様々な科学技術計算での利用 MapReduce 大規模データ処理のためのプログラミングモデルデ スケーラブルな並列データ処理 GPGPU

More information

高性能計算研究室の紹介 High Performance Computing Lab.

高性能計算研究室の紹介 High Performance Computing Lab. 高性能計算研究室 (HPC Lab) の紹介 High Performance Computing Lab. 静岡理工科大学総合情報学部コンピュータシステム学科 ( 兼 Web デザイン特別プログラム ) 幸谷智紀 543 研究室 幸谷研究室 @ 静岡 検索 概要 1. 幸谷智紀 個人の研究テーマ 2. 3 年生ゼミ ( 情報セミナー II) 3. 卒研テーマ 4. 過去の卒研 5. 今後について

More information

Microsoft Word ●IntelクアッドコアCPUでのベンチマーク_吉岡_ _更新__ doc

Microsoft Word ●IntelクアッドコアCPUでのベンチマーク_吉岡_ _更新__ doc 2.3. アプリ性能 2.3.1. Intel クアッドコア CPU でのベンチマーク 東京海洋大学吉岡諭 1. はじめにこの数年でマルチコア CPU の普及が進んできた x86 系の CPU でも Intel と AD がデュアルコア クアッドコアの CPU を次々と市場に送り出していて それらが PC クラスタの CPU として採用され HPC に活用されている ここでは Intel クアッドコア

More information

本文ALL.indd

本文ALL.indd Intel Xeon プロセッサにおける Cache Coherency 時間の性能測定方法河辺峻田口成美古谷英祐 Intel Xeon プロセッサにおける Cache Coherency 時間の性能測定方法 Performance Measurement Method of Cache Coherency Effects on an Intel Xeon Processor System 河辺峻田口成美古谷英祐

More information

4 倍精度基本線形代数ルーチン群 QPBLAS の紹介 [index] 1. Introduction 2. Double-double algorithm 3. QPBLAS 4. QPBLAS-GPU 5. Summary 佐々成正 1, 山田進 1, 町田昌彦 1, 今村俊幸 2, 奥田洋司

4 倍精度基本線形代数ルーチン群 QPBLAS の紹介 [index] 1. Introduction 2. Double-double algorithm 3. QPBLAS 4. QPBLAS-GPU 5. Summary 佐々成正 1, 山田進 1, 町田昌彦 1, 今村俊幸 2, 奥田洋司 4 倍精度基本線形代数ルーチン群 QPBLAS の紹介 [index] 1. Introduction 2. Double-double algorithm 3. QPBLAS 4. QPBLAS-GPU 5. Summary 佐々成正 1, 山田進 1, 町田昌彦 1, 今村俊幸 2, 奥田洋司 3 1 1 日本原子力研究開発機構システム計算科学センター 2 理科学研究所計算科学研究機構 3 東京大学新領域創成科学研究科

More information

openmp1_Yaguchi_version_170530

openmp1_Yaguchi_version_170530 並列計算とは /OpenMP の初歩 (1) 今 の内容 なぜ並列計算が必要か? スーパーコンピュータの性能動向 1ExaFLOPS 次世代スハ コン 京 1PFLOPS 性能 1TFLOPS 1GFLOPS スカラー機ベクトル機ベクトル並列機並列機 X-MP ncube2 CRAY-1 S-810 SR8000 VPP500 CM-5 ASCI-5 ASCI-4 S3800 T3E-900 SR2201

More information

修士論文

修士論文 AVX を用いた倍々精度疎行列ベクトル積の高速化 菱沼利彰 1 藤井昭宏 1 田中輝雄 1 長谷川秀彦 2 1 工学院大学 2 筑波大学 1 目次 1. 研究背景 目的 2. 実装, 実験環境 3. 実験 - 倍々精度ベクトル演算 - 4. 実験 - 倍々精度疎行列ベクトル積 - 5. まとめ 多倍長精度計算フォーラム 2 目次 1. 研究背景 目的 2. 実装, 実験環境 3. 実験 - 倍々精度ベクトル演算

More information

Microsoft Word - HOKUSAI_system_overview_ja.docx

Microsoft Word - HOKUSAI_system_overview_ja.docx HOKUSAI システムの概要 1.1 システム構成 HOKUSAI システムは 超並列演算システム (GWMPC BWMPC) アプリケーション演算サーバ群 ( 大容量メモリ演算サーバ GPU 演算サーバ ) と システムの利用入口となるフロントエンドサーバ 用途の異なる 2 つのストレージ ( オンライン ストレージ 階層型ストレージ ) から構成されるシステムです 図 0-1 システム構成図

More information

GPGPU によるアクセラレーション環境について

GPGPU によるアクセラレーション環境について GPGPU によるアクセラレーション環境について 長屋貴量 自然科学研究機構分子科学研究所技術課計算科学技術班 概要 GPGPU とは 単純で画一的なデータを一度に大量に処理することに特化したグラフィックカードの演算資源を 画像処理以外の汎用的な目的に応用する技術の一つである 近年 その演算能力は CPU で通常言われるムーアの法則に則った場合とは異なり 飛躍的に向上しており その演算性能に魅力を感じた各分野での応用が広がってきている

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション 各種計算機アプリケーション性能比較 目次. はじめに. 行列積計算.QDR 積計算 4.N 体問題計算 5. 多次元積分計算 5. 次元積分計算 5. 次元積分計算 5. 4 次元積分計算 5.4 5 次元積分計算 5.5 6 次元積分計算 平成 6 年度第 四半期 . はじめに 今までと少し性質の異なるグラフィックボードが使用できる様になったので従来のアプリケーションで性能比較を実施しました 主に使用した計算機は以下のものです

More information

untitled

untitled PC murakami@cc.kyushu-u.ac.jp muscle server blade server PC PC + EHPC/Eric (Embedded HPC with Eric) 1216 Compact PCI Compact PCIPC Compact PCISH-4 Compact PCISH-4 Eric Eric EHPC/Eric EHPC/Eric Gigabit

More information

Microsoft PowerPoint - ARCICD07FukumotoSlides.pptx

Microsoft PowerPoint - ARCICD07FukumotoSlides.pptx チップマルチプロセッサにおける データ プリフェッチ効果の分析 福本尚人, 三原智伸九州大学大学院システム情報科学府情報理学専攻 井上弘士, 村上和彰九州大学大学院システム情報科学研究院情報理学部門 2007/6/1 1 発表手順 研究の背景 目的 効果に基づくプリフェッチの分類法 マルチプロセッサ チップマルチプロセッサ 性能モデル式による定性的評価 定量的評価 まとめ 2007/6/1 2 研究の背景

More information

CCS HPCサマーセミナー 並列数値計算アルゴリズム

CCS HPCサマーセミナー 並列数値計算アルゴリズム 大規模系での高速フーリエ変換 2 高橋大介 daisuke@cs.tsukuba.ac.jp 筑波大学計算科学研究センター 2016/6/2 計算科学技術特論 B 1 講義内容 並列三次元 FFT における自動チューニング 二次元分割を用いた並列三次元 FFT アルゴリズム GPU クラスタにおける並列三次元 FFT 2016/6/2 計算科学技術特論 B 2 並列三次元 FFT における 自動チューニング

More information

supercomputer2010.ppt

supercomputer2010.ppt nanri@cc.kyushu-u.ac.jp 1 !! : 11 12! : nanri@cc.kyushu-u.ac.jp! : Word 2 ! PC GPU) 1997 7 http://wiredvision.jp/news/200806/2008062322.html 3 !! (Cell, GPU )! 4 ! etc...! 5 !! etc. 6 !! 20km 40 km ) 340km

More information

九州大学学術情報リポジトリ Kyushu University Institutional Repository マッスル サーバー ( 汎用 PC クラスタ + 特定計算向けハードウェア ) の開発 : 分子軌道法を例にして 村上, 和彰九州大学大学院システム情報科学研究院 九州大学情報基盤センタ

九州大学学術情報リポジトリ Kyushu University Institutional Repository マッスル サーバー ( 汎用 PC クラスタ + 特定計算向けハードウェア ) の開発 : 分子軌道法を例にして 村上, 和彰九州大学大学院システム情報科学研究院 九州大学情報基盤センタ 九州大学学術情報リポジトリ Kyushu University Institutional Repository マッスル サーバー ( 汎用 PC クラスタ + 特定計算向けハードウェア ) の開発 : 分子軌道法を例にして 村上, 和彰九州大学大学院システム情報科学研究院 九州大学情報基盤センター http://hdl.handle.net/2324/9106 出版情報 :SLRC プレゼンテーション,

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション みんなの ベクトル計算 たけおか @takeoka PC クラスタ コンソーシアム理事でもある 2011/FEB/20 ベクトル計算が新しい と 2008 年末に言いました Intelに入ってる! (2008 年から見た 近未来? ) GPU 計算が新しい (2008 年当時 ) Intel AVX (Advanced Vector Extension) SIMD 命令を進めて ベクトル機構をつける

More information

HPC143

HPC143 研究背景 GPUクラスタ 高性能 高いエネルギー効率 低価格 様々なHPCアプリケーションで用いられている TCA (Tightly Coupled Accelerators) 密結合並列演算加速機構 筑波大学HA-PACSクラスタ アクセラレータ GPU 間の直接通信 低レイテンシ 今後のHPCアプリは強スケーリングも重要 TCAとアクセラレータを搭載したシステムに おけるプログラミングモデル 例

More information

スパコンに通じる並列プログラミングの基礎

スパコンに通じる並列プログラミングの基礎 2018.09.10 furihata@cmc.osaka-u.ac.jp ( ) 2018.09.10 1 / 59 furihata@cmc.osaka-u.ac.jp ( ) 2018.09.10 2 / 59 Windows, Mac Unix 0444-J furihata@cmc.osaka-u.ac.jp ( ) 2018.09.10 3 / 59 Part I Unix GUI CUI:

More information

iphone GPGPU GPU OpenCL Mac OS X Snow LeopardOpenCL iphone OpenCL OpenCL NVIDIA GPU CUDA GPU GPU GPU 15 GPU GPU CPU GPU iii OpenMP MPI CPU OpenCL CUDA OpenCL CPU OpenCL GPU NVIDIA Fermi GPU Fermi GPU GPU

More information

untitled

untitled A = QΛQ T A n n Λ Q A = XΛX 1 A n n Λ X GPGPU A 3 T Q T AQ = T (Q: ) T u i = λ i u i T {λ i } {u i } QR MR 3 v i = Q u i A {v i } A n = 9000 Quad Core Xeon 2 LAPACK (4/3) n 3 O(n 2 ) O(n 3 ) A {v i }

More information

untitled

untitled A = QΛQ T A n n Λ Q A = XΛX 1 A n n Λ X GPGPU A 3 T Q T AQ = T (Q: ) T u i = λ i u i T {λ i } {u i } QR MR 3 v i = Q u i A {v i } A n = 9000 Quad Core Xeon 2 LAPACK (4/3) n 3 O(n 2 ) O(n 3 ) A {v i }

More information

2ndD3.eps

2ndD3.eps CUDA GPGPU 2012 UDX 12/5/24 p. 1 FDTD GPU FDTD GPU FDTD FDTD FDTD PGI Acceralator CUDA OpenMP Fermi GPU (Tesla C2075/C2070, GTX 580) GT200 GPU (Tesla C1060, GTX 285) PC GPGPU 2012 UDX 12/5/24 p. 2 FDTD

More information

Microsoft PowerPoint - ARC2009HashiguchiSlides.pptx

Microsoft PowerPoint - ARC2009HashiguchiSlides.pptx 3 次元 DRAM プロセッサ積層実装を 対象としたオンチップ メモリ アーキテクチャの提案と評価 橋口慎哉 小野貴継 ( 現 ) 井上弘士 村上和彰 九州大学大学院システム情報科学府 九州大学大学院システム情報科学研究院 発表手順 研究背景 研究目的 ハイブリッド キャッシュ アーキテクチャ 評価実験 まとめと今後の課題 2 3 次元実装技術 研究背景 グローバル配線長の削減 チップ面積縮小 異なるプロセスを経て製造されたダイ同士の積層

More information

Coding theorems for correlated sources with cooperative information

Coding theorems for correlated sources with cooperative information MCMC-based particle filter を用いた人間の映像注視行動の実時間推定 2009 年 7 月 21 日 宮里洸司 (2) 木村昭悟 (1) 高木茂 (2) 大和淳司 (1) 柏野邦夫 (1) (1) 日本電信電話 ( 株 )NTT コミュニケーション科学基礎研究所メディア情報研究部メディア認識研究グループ (2) 国立沖縄工業高等専門学校情報通信システム工学科 背景 ヒトはどのようにして

More information

Microsoft PowerPoint ppt

Microsoft PowerPoint ppt 並列アルゴリズム 2005 年後期火曜 2 限 高見利也 ( 青柳睦 ) Aoyagi@cc.kyushu-u.ac.jp http://server-500.cc.kyushu-u.ac.jp/ 12 月 20 日 ( 火 ) 9. PC クラスタによる並列プログラミング ( 演習 ) つづき 1 もくじ 1. 序並列計算機の現状 2. 計算方式およびアーキテクチュアの分類 3. 並列計算の目的と課題

More information

熊本大学学術リポジトリ Kumamoto University Repositor Title GPGPU による高速演算について Author(s) 榎本, 昌一 Citation Issue date Type URL Presentation

熊本大学学術リポジトリ Kumamoto University Repositor Title GPGPU による高速演算について Author(s) 榎本, 昌一 Citation Issue date Type URL Presentation 熊本大学学術リポジトリ Kumamoto University Repositor Title GPGPU による高速演算について Author(s) 榎本, 昌一 Citation Issue date 2011-03-17 Type URL Presentation http://hdl.handle.net/2298/23539 Right GPGPU による高速演算について 榎本昌一 東京大学大学院工学系研究科システム創成学専攻

More information

GPU n Graphics Processing Unit CG CAD

GPU n Graphics Processing Unit CG CAD GPU 2016/06/27 第 20 回 GPU コンピューティング講習会 ( 東京工業大学 ) 1 GPU n Graphics Processing Unit CG CAD www.nvidia.co.jp www.autodesk.co.jp www.pixar.com GPU n GPU ü n NVIDIA CUDA ü NVIDIA GPU ü OS Linux, Windows, Mac

More information

1. GPU コンピューティング GPU コンピューティング GPUによる 汎用コンピューティング GPU = Graphics Processing Unit CUDA Compute Unified Device Architecture NVIDIA の GPU コンピューティング環境 Lin

1. GPU コンピューティング GPU コンピューティング GPUによる 汎用コンピューティング GPU = Graphics Processing Unit CUDA Compute Unified Device Architecture NVIDIA の GPU コンピューティング環境 Lin Windows で始める CUDA 入門 GTC 2013 チュートリアル エヌビディアジャパン CUDA エンジニア森野慎也 1. GPU コンピューティング GPU コンピューティング GPUによる 汎用コンピューティング GPU = Graphics Processing Unit CUDA Compute Unified Device Architecture NVIDIA の GPU コンピューティング環境

More information

高性能計算研究室の紹介 High Performance Computing Lab.

高性能計算研究室の紹介 High Performance Computing Lab. 高性能計算研究室 (HPC Lab) の紹介 High Performance Computing Lab. 静岡理工科大学総合情報学部コンピュータシステム学科 ( 兼 Web デザイン特別プログラム ) 幸谷智紀 http://na-inet.jp/ 概要 1. 幸谷智紀 個人の研究テーマ 2. 3 年生ゼミ ( 情報セミナー II) 3. 卒研テーマ 4. Webデザイン特別プログラム 5. 今後について

More information

Microsoft PowerPoint - SWoPP06HayashiSlides.ppt

Microsoft PowerPoint - SWoPP06HayashiSlides.ppt Cell プロセッサへの分子軌道法 プログラムの実装と評価 林徹生 九州大学大学院システム情報科学府九州大学情報基盤センター 本田宏明稲富雄一井上弘士村上和彰九州大学大学院システム情報科学研究院 背景と目的 Cell アーキテクチャ 構成と特徴 分子軌道法プログラム アルゴリズムと特徴 タスク分配法 ( 実装方法 ) 粒度と割り当て 同期方法 評価 評価対象モデル 評価結果 おわりに 発表手順 背景と目的

More information

スライド 1

スライド 1 知能制御システム学 画像処理の高速化 OpenCV による基礎的な例 東北大学大学院情報科学研究科鏡慎吾 swk(at)ic.is.tohoku.ac.jp 2007.07.03 リアルタイム処理と高速化 リアルタイム = 高速 ではない 目標となる時間制約が定められているのがリアルタイム処理である.34 ms かかった処理が 33 ms に縮んだだけでも, それによって与えられた時間制約が満たされるのであれば,

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション vsmp Foundation スケーラブル SMP システム スケーラブル SMP システム 製品コンセプト 2U サイズの 8 ソケット SMP サーバ コンパクトな筐体に多くのコアとメモリを実装し SMP システムとして利用可能 スイッチなし構成でのシステム構築によりラックスペースを無駄にしない構成 将来的な拡張性を保証 8 ソケット以上への拡張も可能 2 システム構成例 ベースシステム 2U

More information

Slide 1

Slide 1 CUDA プログラミングの基本 パート I - ソフトウェアスタックとメモリ管理 CUDA の基本の概要 パート I CUDAのソフトウェアスタックとコンパイル GPUのメモリ管理 パートII カーネルの起動 GPUコードの具体項目 注 : 取り上げているのは基本事項のみです そのほか多数の API 関数についてはプログラミングガイドを ご覧ください CUDA インストレーション CUDA インストレーションの構成

More information

スパコンに通じる並列プログラミングの基礎

スパコンに通じる並列プログラミングの基礎 2018.06.04 2018.06.04 1 / 62 2018.06.04 2 / 62 Windows, Mac Unix 0444-J 2018.06.04 3 / 62 Part I Unix GUI CUI: Unix, Windows, Mac OS Part II 2018.06.04 4 / 62 0444-J ( : ) 6 4 ( ) 6 5 * 6 19 SX-ACE * 6

More information

Microsoft PowerPoint - ★13_日立_清水.ppt

Microsoft PowerPoint - ★13_日立_清水.ppt PC クラスタワークショップ in 京都 日立テクニカルコンピューティングクラスタ 2008/7/25 清水正明 日立製作所中央研究所 1 目次 1 2 3 4 日立テクニカルサーバラインナップ SR16000 シリーズ HA8000-tc/RS425 日立自動並列化コンパイラ 2 1 1-1 日立テクニカルサーバの歴史 最大性能 100TF 10TF 30 年間で百万倍以上の向上 (5 年で 10

More information

TSUBAME2.0におけるGPUの 活用方法

TSUBAME2.0におけるGPUの 活用方法 GPU プログラミング 基礎編 東京工業大学学術国際情報センター 1. GPU コンピューティングと TSUBAME2.0 スーパーコンピュータ GPU コンピューティングとは グラフィックプロセッサ (GPU) は グラフィック ゲームの画像計算のために 進化を続けてきた 現在 CPU のコア数は 2~12 個に対し GPU 中には数百コア その GPU を一般アプリケーションの高速化に利用! GPGPU

More information

HPCマシンの変遷と 今後の情報基盤センターの役割

HPCマシンの変遷と 今後の情報基盤センターの役割 筑波大学計算科学センターシンポジウム 計算機アーキテクトが考える 次世代スパコン 2006 年 4 月 5 日 村上和彰 九州大学 murakami@cc.kyushu-u.ac.jp 次世代スパコン ~ 達成目標と制約条件の整理 ~ 達成目標 性能目標 (2011 年 ) LINPACK (HPL):10PFlop/s 実アプリケーション :1PFlop/s 成果目標 ( 私見 ) 科学技術計算能力の国際競争力の向上ならびに維持による我が国の科学技術力

More information

Hphi実行環境導入マニュアル_v1.1.1

Hphi実行環境導入マニュアル_v1.1.1 HΦ の計算環境構築方法マニュアル 2016 年 7 月 25 日 東大物性研ソフトウェア高度化推進チーム 目次 VirtualBox を利用した HΦ の導入... 2 VirtualBox を利用した MateriAppsLive! の導入... 3 MateriAppsLive! への HΦ のインストール... 6 ISSP スパコンシステム B での HΦ の利用方法... 8 各種ファイルの置き場所...

More information

研究報告用MS-Wordテンプレートファイル

研究報告用MS-Wordテンプレートファイル マルチコアおよび GPGPU 環境における画像処理最適化 矢野勝久 高山征大 境隆二出宮健彦 スケーラを題材として, マルチコアおよび GPGPU 各々の HW 特性に適した画像処理の最適化を図る. マルチコア環境では, 数値演算処理の削減,SIMD 化など直列性能の最適化を行った後,OpenMP を利用して並列化を図る.GPGPU(CUDA) では, スレッド並列を優先して並列処理の設計を行いブロックサイズを決める.

More information

Microsoft PowerPoint - sales2.ppt

Microsoft PowerPoint - sales2.ppt 最適化とは何? CPU アーキテクチャに沿った形で最適な性能を抽出できるようにする技法 ( 性能向上技法 ) コンパイラによるプログラム最適化 コンパイラメーカの技量 経験量に依存 最適化ツールによるプログラム最適化 KAP (Kuck & Associates, Inc. ) 人によるプログラム最適化 アーキテクチャのボトルネックを知ること 3 使用コンパイラによる性能の違い MFLOPS 90

More information

Images per Second Images per Second VOLTA: ディープラーニングにおける大きな飛躍 ResNet-50 トレーニング 2.4x faster ResNet-50 推論 TensorRT - 7ms レイテンシ 3.7x faster P100 V100 P10

Images per Second Images per Second VOLTA: ディープラーニングにおける大きな飛躍 ResNet-50 トレーニング 2.4x faster ResNet-50 推論 TensorRT - 7ms レイテンシ 3.7x faster P100 V100 P10 NVIDIA TESLA V100 CUDA 9 のご紹介 森野慎也, シニアソリューションアーキテクト (GPU-Computing) NVIDIA Images per Second Images per Second VOLTA: ディープラーニングにおける大きな飛躍 ResNet-50 トレーニング 2.4x faster ResNet-50 推論 TensorRT - 7ms レイテンシ

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション Dell PowerEdge C6320 スケーラブルサーバアプライアンス 仮想化アプライアンスサーバ 最新のプロセッサを搭載したサーバプラットフォーム vsmp Foundation によるサーバ仮想化と統合化の適用 システムはセットアップを完了した状態でご提供 基本構成ではバックプレーン用のスイッチなどが不要 各ノード間を直接接続 冗長性の高いバックプレーン構成 利用するサーバプラットフォームは

More information

最新の並列計算事情とCAE

最新の並列計算事情とCAE 1 大島聡史 ( 東京大学情報基盤センター助教 / 並列計算分科会主査 ) 最新の並列計算事情と CAE アウトライン 最新の並列計算機事情と CAE 世界一の性能を達成した 京 について マルチコア メニーコア GPU クラスタ 最新の並列計算事情と CAE MPI OpenMP CUDA OpenCL etc. 京 については 仕分けやら予算やら計画やらの面で問題視する意見もあるかと思いますが

More information

Microsoft PowerPoint - OpenMP入門.pptx

Microsoft PowerPoint - OpenMP入門.pptx OpenMP 入門 須田礼仁 2009/10/30 初版 OpenMP 共有メモリ並列処理の標準化 API http://openmp.org/ 最新版は 30 3.0 バージョンによる違いはあまり大きくない サポートしているバージョンはともかく csp で動きます gcc も対応しています やっぱり SPMD Single Program Multiple Data プログラム #pragma omp

More information

HPC (pay-as-you-go) HPC Web 2

HPC (pay-as-you-go) HPC Web 2 ,, 1 HPC (pay-as-you-go) HPC Web 2 HPC Amazon EC2 OpenFOAM GPU EC2 3 HPC MPI MPI Courant 1 GPGPU MPI 4 AMAZON EC2 GPU CLUSTER COMPUTE INSTANCE EC2 GPU (cg1.4xlarge) ( N. Virgina ) Quadcore Intel Xeon 5570

More information

Microsoft PowerPoint - ICD2011TakadaSlides.pptx

Microsoft PowerPoint - ICD2011TakadaSlides.pptx キャッシュウェイ割り当てと コード配置の同時最適化による メモリアクセスエネルギーの削減 九州大学 高田純司井上弘士京都大学石原亨 2012/8/9 1 目次 研究背景 組込みプロセッサにおけるエネルギー削減の必要性 キャッシュウェイ割り当て 提案手法 キャッシュウェイ割り当てとコード配置の組み合わせ 同時最適化 評価実験 まとめ 2012/8/9 2 組込みプロセッサの課題 研究背景 低消費エネルギー化,

More information

CLEFIA_ISEC発表

CLEFIA_ISEC発表 128 ビットブロック暗号 CLEFIA 白井太三 渋谷香士 秋下徹 盛合志帆 岩田哲 ソニー株式会社 名古屋大学 目次 背景 アルゴリズム仕様 設計方針 安全性評価 実装性能評価 まとめ 2 背景 AES プロジェクト開始 (1997~) から 10 年 AES プロジェクト 攻撃法の進化 代数攻撃 関連鍵攻撃 新しい攻撃法への対策 暗号設計法の進化 IC カード, RFID などのアプリケーション拡大

More information

(速報) Xeon E 系モデル 新プロセッサ性能について

(速報) Xeon E 系モデル 新プロセッサ性能について ( 速報 ) Xeon E5-2600 系モデル新プロセッサ性能について 2012 年 3 月 16 日 富士通株式会社 2012 年 3 月 7 日 インテル社より最新 CPU インテル Xeon E5 ファミリー の発表がありました この最新 CPU について PC クラスタシステムの観点から性能検証を行いましたので 概要を速報いたします プロセッサインテル Xeon プロセッサ E5-2690

More information

Agenda GRAPE-MPの紹介と性能評価 GRAPE-MPの概要 OpenCLによる四倍精度演算 (preliminary) 4倍精度演算用SIM 加速ボード 6 processor elem with 128 bit logic Peak: 1.2Gflops

Agenda GRAPE-MPの紹介と性能評価 GRAPE-MPの概要 OpenCLによる四倍精度演算 (preliminary) 4倍精度演算用SIM 加速ボード 6 processor elem with 128 bit logic Peak: 1.2Gflops Agenda GRAPE-MPの紹介と性能評価 GRAPE-MPの概要 OpenCLによる四倍精度演算 (preliminary) 4倍精度演算用SIM 加速ボード 6 processor elem with 128 bit logic Peak: 1.2Gflops ボードの概要 Control processor (FPGA by Altera) GRAPE-MP chip[nextreme

More information

TopSE並行システム はじめに

TopSE並行システム はじめに はじめに 平成 23 年 9 月 1 日 トップエスイープロジェクト 磯部祥尚 ( 産業技術総合研究所 ) 2 本講座の背景と目標 背景 : マルチコア CPU やクラウドコンピューティング等 並列 / 分散処理環境が身近なものになっている 複数のプロセス ( プログラム ) を同時に実行可能 通信等により複数のプロセスが協調可能 並行システムの構築 並行システム 通信 Proc2 プロセス ( プログラム

More information

マルチコアPCクラスタ環境におけるBDD法のハイブリッド並列実装

マルチコアPCクラスタ環境におけるBDD法のハイブリッド並列実装 2010 GPGPU 2010 9 29 MPI/Pthread (DDM) DDM CPU CPU CPU CPU FEM GPU FEM CPU Mult - NUMA Multprocessng Cell GPU Accelerator, GPU CPU Heterogeneous computng L3 cache L3 cache CPU CPU + GPU GPU L3 cache 4

More information

第122号.indd

第122号.indd -1- -2- -3- 0852-36-5150 0852-36-5163-4- -5- -6- -7- 1st 1-1 1-2 1-3 1-4 1-5 -8- 2nd M2 E2 D2 J2 C2-9- 3rd M3 E3 D3 J3 C3-10- 4th M4 E4 D4 J4 C4-11- -12- M5 E5 J5 D5 C5 5th -13- -14- NEWS NEWS -15- NEWS

More information

スパコンに通じる並列プログラミングの基礎

スパコンに通じる並列プログラミングの基礎 2016.06.06 2016.06.06 1 / 60 2016.06.06 2 / 60 Windows, Mac Unix 0444-J 2016.06.06 3 / 60 Part I Unix GUI CUI: Unix, Windows, Mac OS Part II 0444-J 2016.06.06 4 / 60 ( : ) 6 6 ( ) 6 10 6 16 SX-ACE 6 17

More information

チューニング講習会 初級編

チューニング講習会 初級編 GPU のしくみ RICC での使い方 およびベンチマーク 理化学研究所情報基盤センター 2013/6/27 17:00 17:30 中田真秀 RICC の GPU が高速に! ( 旧 C1060 比約 6.6 倍高速 ) RICCのGPUがC2075になりました! C1060 比 6.6 倍高速 倍精度 515GFlops UPCに100 枚導入 : 合計 51.5TFlops うまく行くと5 倍程度高速化

More information

ためのオーバーヘッドが課題となりつつある しかしこのオーバーヘッドに関する数値はほとんど公開されていない この論文ではこの cache coherency の時間を Linux カーネルで提供されている atomic_inc 関数を用いて測定する方法を新たに考案し 実測プログラムを作成した 実測はプ

ためのオーバーヘッドが課題となりつつある しかしこのオーバーヘッドに関する数値はほとんど公開されていない この論文ではこの cache coherency の時間を Linux カーネルで提供されている atomic_inc 関数を用いて測定する方法を新たに考案し 実測プログラムを作成した 実測はプ Intel Xeon プロセッサにおける Cache Coherency 時間の測定方法と大規模システムにおける実測結果 Performance Measurement Method of Cache Coherency Effects on a large Intel Xeon Processor System 河辺峻 1 古谷英祐 2 KAWABE Shun, FURUYA Eisuke 要旨現在のプロセッサの構成は,

More information

システムソリューションのご紹介

システムソリューションのご紹介 HP 2 C 製品 :VXPRO/VXSMP サーバ 製品アップデート 製品アップデート VXPRO と VXSMP での製品オプションの追加 8 ポート InfiniBand スイッチ Netlist HyperCloud メモリ VXPRO R2284 GPU サーバ 製品アップデート 8 ポート InfiniBand スイッチ IS5022 8 ポート 40G InfiniBand スイッチ

More information

23 Fig. 2: hwmodulev2 3. Reconfigurable HPC 3.1 hw/sw hw/sw hw/sw FPGA PC FPGA PC FPGA HPC FPGA FPGA hw/sw hw/sw hw- Module FPGA hwmodule hw/sw FPGA h

23 Fig. 2: hwmodulev2 3. Reconfigurable HPC 3.1 hw/sw hw/sw hw/sw FPGA PC FPGA PC FPGA HPC FPGA FPGA hw/sw hw/sw hw- Module FPGA hwmodule hw/sw FPGA h 23 FPGA CUDA Performance Comparison of FPGA Array with CUDA on Poisson Equation (lijiang@sekine-lab.ei.tuat.ac.jp), (kazuki@sekine-lab.ei.tuat.ac.jp), (takahashi@sekine-lab.ei.tuat.ac.jp), (tamukoh@cc.tuat.ac.jp),

More information

名称 : 日本 GPU コンピューティングパートナーシップ (G-DEP) 所在 : 東京都文京区本郷 7 丁目 3 番 1 号東京大学アントレプレナープラザ, 他工場 URL アライアンスパートナー コアテクノロジーパートナー NVIDIA JAPAN ソリュ

名称 : 日本 GPU コンピューティングパートナーシップ (G-DEP) 所在 : 東京都文京区本郷 7 丁目 3 番 1 号東京大学アントレプレナープラザ, 他工場 URL   アライアンスパートナー コアテクノロジーパートナー NVIDIA JAPAN ソリュ GPUDirect の現状整理 multi-gpu に取組むために G-DEP チーフエンジニア河井博紀 (kawai@gdep.jp) 名称 : 日本 GPU コンピューティングパートナーシップ (G-DEP) 所在 : 東京都文京区本郷 7 丁目 3 番 1 号東京大学アントレプレナープラザ, 他工場 URL http://www.gdep.jp アライアンスパートナー コアテクノロジーパートナー

More information

ストリームを用いたコンカレントカーネルプログラミングと最適化 エヌビディアジャパン CUDAエンジニア森野慎也 GTC Japan 2014

ストリームを用いたコンカレントカーネルプログラミングと最適化 エヌビディアジャパン CUDAエンジニア森野慎也 GTC Japan 2014 ストリームを用いたコンカレントカーネルプログラミングと最適化 エヌビディアジャパン CUDAエンジニア森野慎也 GTC Japan 2014 コンカレントな処理の実行 システム内部の複数の処理を 平行に実行する CPU GPU メモリ転送 カーネル実行 複数のカーネル間 ストリーム GPU 上の処理キュー カーネル実行 メモリ転送の並列性 実行順序 DEFAULT STREAM Stream : GPU

More information

参考1 第2回自動車ワーキンググループ議事録(未定稿)

参考1		第2回自動車ワーキンググループ議事録(未定稿) 19 9 25 15 30 17 30 10 1012 2 WG 9 10 1 WG 1 CO2 CO2 CO2 WG 1 CO2 CO2 CO2 1/2 1/2 CO2 2 2 CO2 2 WG CO2 1 2 3 7 3 3 3 WG CO CO 10 1.5 50 50 2 1 1 CO 2 CO 4 CO CO 2 2 p.4 7 7 1 7 1 1 5 p.7 2 1 1 1.5 2 1

More information

! 行行 CPUDSP PPESPECell/B.E. CPUGPU 行行 SIMD [SSE, AltiVec] 用 HPC CPUDSP PPESPE (Cell/B.E.) SPE CPUGPU GPU CPU DSP DSP PPE SPE SPE CPU DSP SPE 2

! 行行 CPUDSP PPESPECell/B.E. CPUGPU 行行 SIMD [SSE, AltiVec] 用 HPC CPUDSP PPESPE (Cell/B.E.) SPE CPUGPU GPU CPU DSP DSP PPE SPE SPE CPU DSP SPE 2 ! OpenCL [Open Computing Language] 言 [OpenCL C 言 ] CPU, GPU, Cell/B.E.,DSP 言 行行 [OpenCL Runtime] OpenCL C 言 API Khronos OpenCL Working Group AMD Broadcom Blizzard Apple ARM Codeplay Electronic Arts Freescale

More information

<4D F736F F F696E74202D F A282BD94BD959C89F A4C E682528D652E707074>

<4D F736F F F696E74202D F A282BD94BD959C89F A4C E682528D652E707074> 発表の流れ SSE を用いた反復解法ライブラリ Lis 4 倍精度版の高速化 小武守恒 (JST 東京大学 ) 藤井昭宏 ( 工学院大学 ) 長谷川秀彦 ( 筑波大学 ) 西田晃 ( 中央大学 JST) はじめに 4 倍精度演算について Lisへの実装 SSEによる高速化 性能評価 スピード 収束 まとめ はじめに クリロフ部分空間法たとえば CG 法は, 理論的には高々 n 回 (n は係数行列の次元数

More information

hotspot の特定と最適化

hotspot の特定と最適化 1 1? 1 1 2 1. hotspot : hotspot hotspot Parallel Amplifier 1? 2. hotspot : (1 ) Parallel Composer 1 Microsoft* Ticker Tape Smoke 1.0 PiSolver 66 / 64 / 2.76 ** 84 / 27% ** 75 / 17% ** 1.46 89% Microsoft*

More information

Microsoft PowerPoint - ICD2011UenoSlides.pptx

Microsoft PowerPoint - ICD2011UenoSlides.pptx 画像認識向け 3 次元積層 アクセラレータ アーキテクチャの検討 九州大学大学院システム情報科学府学院 * 九州大学大学院システム情報科学研究院 ** 上野伸也 * Gauthier Lovic Eric** 井上弘士 ** 村上和彰 ** 1 概要 画像認識技術 アクセラレータによる高性能 低消費エネルギー化 アプリケーション分析 アクセラレータ アーキテクチャ検討ア 性能 消費エネルギー評価 まとめ

More information

EnSightのご紹介

EnSightのご紹介 オープン CAE シンポジウム 2014 汎用ポストプロセッサー EnSight の大規模データ対応 CEI ソフトウェア株式会社代表取締役吉川慈人 http://www.ceisoftware.co.jp/ 内容 大規模データで時間のかかる処理 クライアント サーバー機能 マルチスレッドによる並列処理 サーバーの分散処理 クライアントの分散処理 ( 分散レンダリング ) EnSightのOpenFOAMインターフェース

More information

組込み Linux の起動高速化 株式会社富士通コンピュータテクノロジーズ 亀山英司 1218ka01 Copyright 2013 FUJITSU COMPUTER TECHNOLOGIES LIMITED

組込み Linux の起動高速化 株式会社富士通コンピュータテクノロジーズ 亀山英司 1218ka01 Copyright 2013 FUJITSU COMPUTER TECHNOLOGIES LIMITED 組込み Linux の起動高速化 株式会社富士通コンピュータテクノロジーズ 亀山英司 1218ka01 組込み Linux における起動高速化 組込み Linux の起動時間短縮について依頼あり スペック CPU : Cortex-A9 ( 800MB - single) RAM: 500MB 程度 要件 起動時間 画出し 5 秒 音出し 3 秒 終了時間 数 ms で電源断 1 課題と対策 問題点

More information

N08

N08 CPU のキモチ C.John 自己紹介 英語きらい 絵かけない 人の話を素直に信じない CPUにキモチなんてない お詫び 予告ではCとC# とありましたがやる気と時間の都合上 C++のみを対象とします 今日のネタ元 MSDN マガジン 2010 年 10 月号 http://msdn.microsoft.com/ja-jp/magazine/cc850829.aspx Windows と C++

More information

Microsoft PowerPoint - ARC-SWoPP2011OkaSlides.pptx

Microsoft PowerPoint - ARC-SWoPP2011OkaSlides.pptx データ値の局所性を利用した ライン共有キャッシュの提案 九州大学大学院 岡慶太郎 福本尚人 井上弘士 村上和彰 1 キャッシュメモリの大容量化 マルチコア プロセッサが主流 メモリウォール問題の深刻化 メモリアクセス要求増加 IOピンの制限 大容量の LL(Last Level) キャッシュを搭載 8MB の L3 キャッシュを搭載 Core i7 のチップ写真 * * http://www.atmarkit.co.jp/fsys/zunouhoudan/102zunou/corei7.html

More information

1 GPU GPGPU GPU CPU 2 GPU 2007 NVIDIA GPGPU CUDA[3] GPGPU CUDA GPGPU CUDA GPGPU GPU GPU GPU Graphics Processing Unit LSI LSI CPU ( ) DRAM GPU LSI GPU

1 GPU GPGPU GPU CPU 2 GPU 2007 NVIDIA GPGPU CUDA[3] GPGPU CUDA GPGPU CUDA GPGPU GPU GPU GPU Graphics Processing Unit LSI LSI CPU ( ) DRAM GPU LSI GPU GPGPU (I) GPU GPGPU 1 GPU(Graphics Processing Unit) GPU GPGPU(General-Purpose computing on GPUs) GPU GPGPU GPU ( PC ) PC PC GPU PC PC GPU GPU 2008 TSUBAME NVIDIA GPU(Tesla S1070) TOP500 29 [1] 2009 AMD

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション 多倍長精度演算の性能評価 日時 年 月 日 :3-: 場所工学院大学新宿校舎 8 階第 4 会議室 高エネルギー加速器研究機構 濱口信行 hgu@post.kek.jp // 第 回多倍長精度計算フォーラム . はじめに 計算センター => ユーザプログラムの実行効率は何 % です よく出ています or 改善してください 実行性能 = 演算量 / 実行時間実行効率 = 実行性能 / 理論性能 ユーザ実行時間

More information

rank ”«‘‚“™z‡Ì GPU ‡É‡æ‡éŁÀŠñ›»

rank ”«‘‚“™z‡Ì GPU ‡É‡æ‡éŁÀŠñ›» rank GPU ERATO 2011 11 1 1 / 26 GPU rank/select wavelet tree balanced parenthesis GPU rank 2 / 26 GPU rank/select wavelet tree balanced parenthesis GPU rank 2 / 26 GPU rank/select wavelet tree balanced

More information

Operating System 仮想記憶

Operating System 仮想記憶 Operating System 仮想記憶 2018-12 記憶階層 高速 & 小容量 ( 高価 ) レジスタ アクセスタイム 数ナノ秒 容量 ~1KB CPU 内キャッシュ (SRAM) 数ナノ秒 1MB 程度 ランダムアクセス 主記憶 (DRAM) 数十ナノ秒 数 GB 程度 ランダムアクセス フラッシュメモリ (SSD) 約 100 万倍 シーケンシャルアクセス 磁気ディスク (HDD) 数十ミリ秒

More information

tabaicho3mukunoki.pptx

tabaicho3mukunoki.pptx 1 2 はじめに n 目的 4倍精度演算より高速な3倍精度演算を実現する l 倍精度では足りないが4倍精度は必要ないケースに欲しい l 4倍精度に比べてデータサイズが小さい Ø 少なくともメモリ律速な計算では4倍精度よりデータ 転送時間を減らすことが可能 Ø PCIeやノード間通信がボトルネックとなりやすい GPUクラスタ環境に有効か n 研究概要 l DD型4倍精度演算 DD演算 に基づく3倍精度演算

More information

計算機アーキテクチャ

計算機アーキテクチャ 計算機アーキテクチャ 第 11 回命令実行の流れ 2014 年 6 月 20 日 電気情報工学科 田島孝治 1 授業スケジュール ( 前期 ) 2 回日付タイトル 1 4/7 コンピュータ技術の歴史と コンピュータアーキテクチャ 2 4/14 ノイマン型コンピュータ 3 4/21 コンピュータのハードウェア 4 4/28 数と文字の表現 5 5/12 固定小数点数と浮動小数点表現 6 5/19 計算アーキテクチャ

More information

Microsoft PowerPoint - 01_Vengineer.ppt

Microsoft PowerPoint - 01_Vengineer.ppt Software Driven Verification テストプログラムは C 言語で! SystemVerilog DPI-C を使えば こんなに便利に! 2011 年 9 月 30 日 コントローラ開発本部コントローラプラットフォーム第五開発部 宮下晴信 この資料で使用するシステム名 製品名等は一般にメーカーや 団体の登録商標などになっているものもあります なお この資料の中では トレードマーク

More information

Microsoft PowerPoint - suda.pptx

Microsoft PowerPoint - suda.pptx GPU の HWアーキテクチャと高性能化手法 須田礼仁 ( 東京大学 ) 2011/03/22 GPU 高性能プログラミング GPU のハードウェアを理解する CUDA のソフトウェアを理解する CUDA でプログラムを書くのは難しくないが, CUDA で高速なプログラムを書くのは難しい どうすれば遅くなるかを理解する! 効果が大きいものから順に説明します 1 高性能プログラミングの手順 1. 現在のコードの,

More information

スライド 0

スライド 0 2012/7/11 OpeMP を用いた Fortra コードの並列化基礎セミナー 株式会社計算力学研究センター 技術 1 部三又秀行 mimata@rccm.co.jp 目次 高速化 並列化事例 PARDISO について (XLsoft 黒澤様 ) 並列化 並列化について 並列化作業の流れ 並列化の手段 OpeMP デモ OpeMP で並列計算する 円周率 p の計算 (private reductio)

More information

Microsoft Word - JP-AppLabs-MySQL_Update.doc

Microsoft Word - JP-AppLabs-MySQL_Update.doc アダプテック MaxIQ SSD キャッシュパフォーマンスソリューション MySQL 分析 September 22, 2009 はじめにアダプテックは Adaptec 5445Z ストレージコントローラでアダプテック MaxIQ SSD キャッシュパフォーマンスソリューション使用した場合のパフォーマンス評価を依頼しました アダプテックは 5 シリーズコントローラ全製品において MaxIQ をサポートしています

More information

ポスト「京」でのコデザイン 活動報告

ポスト「京」でのコデザイン 活動報告 重点課題 9 でのポスト 京 に対す るコデザイン活動報告 広島大学理学研究科 石川健一 1 目次 1. コデザイン活動 2. ポスト京関連公開情報 3. 重点課題 9 に関するコデザイン活動 2 1. コデザイン活動 RIKEN,R-CCS と FUJITSU によるポスト京計算機開発 コデザイン活動 重点課題からのターゲットアプリケーションの開発とシステムやソフトウェア開発を連携して開発 9 個のターゲットアプリケーション

More information

Microsoft PowerPoint - CCS学際共同boku-08b.ppt

Microsoft PowerPoint - CCS学際共同boku-08b.ppt マルチコア / マルチソケットノードに おけるメモリ性能のインパクト 研究代表者朴泰祐筑波大学システム情報工学研究科 taisuke@cs.tsukuba.ac.jp アウトライン 近年の高性能 PC クラスタの傾向と問題 multi-core/multi-socket ノードとメモリ性能 メモリバンド幅に着目した性能測定 multi-link network 性能評価 まとめ 近年の高性能 PC

More information

演習1: 演習準備

演習1: 演習準備 演習 1: 演習準備 2013 年 8 月 6 日神戸大学大学院システム情報学研究科森下浩二 1 演習 1 の内容 神戸大 X10(π-omputer) について システム概要 ログイン方法 コンパイルとジョブ実行方法 OpenMP の演習 ( 入門編 ) 1. parallel 構文 実行時ライブラリ関数 2. ループ構文 3. shared 節 private 節 4. reduction 節

More information