Microsoft PowerPoint - 03_murakami(参照)_ pptx[読み取り専用]

Size: px

Start display at page:

Download "Microsoft PowerPoint - 03_murakami(参照)_ pptx[読み取り専用]"

うたろうきちや
5 years ago
Views:

1 SS 研科学技術計算分科会アクセラレータ技術の現状と今後 ~HPC とアクセラレータ ~ 2008 年 10 月 22 日村上和彰 murakami@i.kyushu u.ac.jp 国立大学法人九州大学教授 SS 研会長 1

2 概要高性能科学技術計算 (HPC) とアクセラレータとの関係は歴史が長いベクトル処理もアクセラレータの一種でありかつその元祖的存在であるベクトル処理が時間軸方向のデータレベル並列処理だったものを空間軸方向に置き換えたものが現在主流となっている SIMD 処理であり CELL や ClearSpeed がこれに該当する一方信号処理の世界もアクセラレータとの付き合いは古い DSP 然り最近では DAPDNA のように数百個の演算器を 2 次元配列に配置したものも登場している世の中のテクノロジードライバーがコンシューマーエレクトロニクスに移行している昨今今後の HPC 業界におけるアクセラレータの進む方向性について議論する 2

3 アクセラレータ (accelerator) とは? Wikipedia Hardware accelerator: An additional unit of hardware to perform some function faster than is possible in software running on the normal CPU. むらかみの定義主たるプロセッサにおける処理の一部を当該プロセッサに代わって実行することで当該プロセッサ単独実行に比べて全体性能を向上 (= 加速 ) させることを可能とする ( 主たるプロセッサとは異なるアーキテクチャの ) プロセッサまたはハードウェア 3

4 アクセラレータとは? メインプロセッサ結合路 ( 結合方式は?) アクセラレータ ( 加速方式は?) 4

5 アクセラレータ & 採用システム実例一覧メインプロセッサ結合方式アクセラレータ ( 加速方式 ) 採用システムメインプロセッサ結合方式アクセラレータ加速方式 IBM Roadrunner BladeCenter LS21 ボード間 : デュアルギガ (Opteron DC 1.8GHz 2) ビットイーサネット BladeCenter QS22 (PowerXCell 8i 3.2GHz 2) 東工大 TSUBAME Opteron DC 2.4GHz ボード間 :PCI X ClearSpeed Advance CSX600 PCI X Board DELL Precision T7400 Core2 Q コア 2.5GHz チップ間 :PCI Express Nvidia GeForce GHz GRAPE 汎用プロセッサチップチップ間 : 共有バス重力計算専用プロセッサ GRAPE 4 way SIMD 8 way マルチコア 96 way SIMD 8 way SIMD 16 way マルチコア並列演算パイプライン九州大学 EHPC/Eric SH 4 チップ間 :SH 4バス二電子積分計算専用プロセッサEric 初期積分計算専用コア 1+ 漸化計算専用コア 4 CRAY XD1 Opteron チップ間 : FPGA ハードウェア処理 CREST SFQ RDP 汎用プロセッサチップチップ間 : 共有バス九州大学 LSRDP( 再構成可能大規模データパス 80GHz)MCM 4 NEC SX 9 スカラユニットチップ内 : ベクトルパイプライン 8 IBM CELL/B.E. PowerPC 4GHz チップ内 : 共有リングバス SPE 4GHz 8 (EIB) 2 次元 FPU アレイ (1024FPU/MCM) 並列ベクトル処理 4 Way SIMD IPFLEX DAPDNA II DAP 166MHz チップ内 : 共有バス DNA 166MHz 2 次元 ALUアレイ (168ALU) TI OMAP 3530 ARM Coretex A8 チップ内 : 共有バス TMS320C64x DSP Core VLIW DSP 5

6 アクセラレータ & 採用システム実例一覧メインプロセッサ結合方式アクセラレータ ( 加速方式 ) 採用システムメインプロセッサ結合方式アクセラレータ加速方式 IBM Roadrunner BladeCenter LS21 (Opteron DC 1.8GHz 2) ボード間 : デュアルギガビットイーサネット BladeCenter QS22 (PowerXCell 8i 3.2GHz 2) 東工大 TSUBAME Opteron DC 2.4GHz ボード間 :PCI X ClearSpeed Advance CSX600 PCI X Board DELL Precision T7400 疎 Core2 Q コア 2.5GHz チップ間 :PCI Express Nvidia GeForce GHz GRAPE 汎用プロセッサチップチップ間 : 共有バス重力計算専用プロセッサ GRAPE 4 way SIMD 8 way マルチコア 96 way SIMD 8 way SIMD 16 way マルチコア並列演算パイプライン九州大学 EHPC/Eric SH 4 チップ間 :SH 4バス二電子積分計算専用プロセッサEric 初期積分計算専用コア 1+ 漸化計算専用コア 4 CRAY XD1 Opteron チップ間 : FPGA ハードウェア処理 CREST SFQ RDP 汎用プロセッサチップチップ間 : 共有バス九州大学 LSRDP( 再構成可能大規模データパス 80GHz)MCM 4 NEC SX 9 スカラユニットチップ内 : ベクトルパイプライン 8 IBM CELL/B.E. PowerPC 4GHz チップ内 : 共有リングバス (EIB) SPE 4GHz 8 2 次元 FPU アレイ (1024FPU/MCM) 並列ベクトル処理 4 Way SIMD IPFLEX DAPDNA II DAP 166MHz チップ内 : 共有バス DNA 166MHz 2 次元 ALUアレイ (168ALU) 密 TI OMAP 3530 ARM Coretex A8 チップ内 : 共有バス TMS320C64x DSP Core VLIW DSP 6

7 アクセラレータ & 採用システム実例一覧メインプロセッサ結合方式アクセラレータ ( 加速方式 ) 採用システムメインプロセッサ結合方式アクセラレータ加速方式 IBM Roadrunner BladeCenter LS21 (Opteron DC 1.8GHz 2) ボード間 : デュアルギガビットイーサネット BladeCenter QS22 (PowerXCell 8i 3.2GHz 2) 東工大 TSUBAME Opteron DC 2.4GHz ボード間 :PCI X ClearSpeed Advance CSX600 PCI X Board DELL Precision T7400 疎 Core2 Q コア 2.5GHz チップ間 :PCI Express Nvidia GeForce GHz GRAPE 汎用プロセッサチップチップ間 : 共有バス重力計算専用プロセッサ GRAPE 4 way SIMD 8 way マルチコア 96 way SIMD 8 way SIMD 16 way マルチコア並列演算パイプライン九州大学 EHPC/Eric SH 4 チップ間 :SH 4バス二電子積分計算専用プロセッサEric 初期積分計算専用コア 1+ 漸化計算専用コア 4 CRAY XD1 Opteron チップ間 : FPGA ハードウェア処理 CREST SFQ RDP 汎用プロセッサチップチップ間 : 共有バス九州大学 LSRDP( 再構成可能大規模データパス 80GHz)MCM 4 NEC SX 9 スカラユニットチップ内 : ベクトルパイプライン 8 IBM CELL/B.E. PowerPC 4GHz チップ内 : 共有リングバス (EIB) SPE 4GHz 8 2 次元 FPU アレイ (1024FPU/MCM) 並列ベクトル処理 4 Way SIMD IPFLEX DAPDNA II DAP 166MHz チップ内 : 共有バス DNA 166MHz 2 次元 ALUアレイ (168ALU) 密 TI OMAP 3530 ARM Coretex A8 チップ内 : 共有バス TMS320C64x DSP Core VLIW DSP 7

8 九州大学 EHPC/Eric ~Eric チップ ~ Eric:( 世界初の ) 二電子積分計算専用 LSI 仕様プロセス :TSMC 0.13um, 6 層, Cu 配線チップサイズ :5 x 10mm 2 論理ゲート :4M メモリ :704KB パッケージ : セラミック PGA 257PIN, 50.8mm 動作テスト結果動作周波数 200MHz でテスト歩留まり約 80% 消費電力 2.1W 8

9 九州大学 EHPC/Eric ~ マルチコア (CMP) チップ Eric~ 32b SH-4 I/F 64b 64b 64b 64b IIC Program Memory (64KB) IALU FMUL &ADD FDIV &SQRT ERF Table (128KB) EXP &ERF IALU FMUL &ADD RC Microprogram Memory (64KB) 16b 64b 64b 64b 64b 64b IIC Engine RC Engine 0 RC Engine 1 RC Engine 2 RC Engine 3 IALU FMUL &ADD IALU FMUL &ADD IALU FMUL &ADD Register File Register File Register File Register File Register File 64b 64b 64b 64b 64b Data Memory (32KB/bank 8banks) 64b IIC エンジン ( 汎用 RISC プロセッサ + 専用演算回路 ) 64b SDRAM I/F 64b RC エンジン ( 複数のマイクロエンジンからなるCMPアーキテクチャ )

10 九州大学 EHPC/Eric ~EHPC ボード (SH 4+Eric 2)~ 10

11 九州大学 EHPC/Eric ~EHPC システム ~ 11

12 CREST SFQ-RDP 4.2 K 2TB memory module (FB-DIMM [DDR3@1333MHz, 128GB] 16 modules) CMOS CPU (1chip) ORN FPU... ORN : : : : SFQ 0.5um process SFQ RDP (32FPU 32chips) (4GFLOPS/FPU)... ORN ORN... SFQ Streaming Buffer (64Kb 2chips) : : : SMAC SMAC SB... : 1024FPU@MCM (34chips) 4MCM SMAC Memory band width per MCM:256GB/s (=16GB/s 16 channels) 12

13 CREST SFQ-RDP ~2 2 SFQ-RDP~ 1 mm 配線資源出力 SR 配線資源タイミング調整 DFF 入力 SR ALU ORN 設計周波数 :25 GHz バイアス電流 :1.286 A 回路面積 :5.90 x 3.68 mm 2 接合数 : ALU 制御 13

14 CREST SFQ-RDP ~ 半精度浮動小数点加算器 ~ SRL Nb 2.5 ka/cm 2 standard process 設計周波数 : 20 GHz 性能 : 1 GFLOPs 接合数 : JJs 消費電力 : 3.1 mw 回路面積 : mm 2 14

15 CREST SFQ-RDP ~ 半精度浮動小数点乗算器 ~ SRL Nb 2.5 ka/cm 2 standard process CONNECT cooperated with SRL, NiCT, NU & YNU 接合数 : 11044JJs 回路面積 : mm 2 設計周波数 : 25GHz 15

16 CREST SFQ-RDP ~1um 多層配線プロセス ~ 500 nm 500 nm 400 nm 400 nm 300 nm 300 nm 400 nm 300 nm 150 nm 150 nm 150 nm 150 nm 150 nm 150 nm 150 nm 150 nm 200 nm 200 nm 200 nm GC C4 BC M8 (BAS) C3 M10 (CTL) M9 (COU) JC AlOx JJ RC RES1 RC M7 (Main ground plane) 完全平坦化層 C5 C4 C3 C2 M6 (GND3) M5 (PTL2) M4 (GND2) M3 (PTL1) M2 (GND1) M1 (DCP) GC C6 C5 C4 C3 SiO2 M8 (BAS) GC C6 C5 C4 C3 C2 C1 CC M9 (COU) BC GC C6 C5 C4 C3 C2 M2 (GND1) 接合を含むアクティブ層主グランド面と完全平坦化層第 2 の PTL 層第 1 の PTL 層 DC 電源層各層でカルデラ平坦化Nb-10 層構造 Si Substrate 16

17 CREST SFQ-RDP ~ 新ニオブ10 層構造の断面 SEM 写真 ~ M10 M9 CC JC 接合 CC BC 接合を含むアクティブ層 M8 M7 M6 M5 M4 M3 M2 M1 GC M6 M4 M2 RC C5 C4 C3 C2 RES C1 C6 C3 C2 主グランド面と完全平坦化層第 2 の PTL 層第 1 の PTL 層 DC 電源層 ADP613 No.4 17

18 アクセラレータ & 採用システム実例一覧メインプロセッサ結合方式アクセラレータ ( 加速方式 ) 採用システムメインプロセッサ結合方式アクセラレータ加速方式 IBM Roadrunner BladeCenter LS21 (Opteron DC 1.8GHz 2) ボード間 : デュアルギガビットイーサネット BladeCenter QS22 (PowerXCell 8i 3.2GHz 2) 東工大 TSUBAME Opteron DC 2.4GHz ボード間 :PCI X ClearSpeed Advance CSX600 PCI X Board DELL Precision T7400 疎 Core2 Q コア 2.5GHz チップ間 :PCI Express Nvidia GeForce GHz GRAPE 汎用プロセッサチップチップ間 : 共有バス重力計算専用プロセッサ GRAPE 4 way SIMD 8 way マルチコア 96 way SIMD 8 way SIMD 16 way マルチコア並列演算パイプライン九州大学 EHPC/Eric SH 4 チップ間 :SH 4バス二電子積分計算専用プロセッサEric 初期積分計算専用コア 1+ 漸化計算専用コア 4 CRAY XD1 Opteron チップ間 : FPGA ハードウェア処理 CREST SFQ RDP 汎用プロセッサチップチップ間 : 共有バス九州大学 LSRDP( 再構成可能大規模データパス 80GHz)MCM 4 NEC SX 9 スカラユニットチップ内 : ベクトルパイプライン 8 IBM CELL/B.E. PowerPC 4GHz チップ内 : 共有リングバス (EIB) SPE 4GHz 8 2 次元 FPU アレイ (1024FPU/MCM) 並列ベクトル処理 4 Way SIMD IPFLEX DAPDNA II DAP 166MHz チップ内 : 共有バス DNA 166MHz 2 次元 ALUアレイ (168ALU) 密 TI OMAP 3530 ARM Coretex A8 チップ内 : 共有バス TMS320C64x DSP Core VLIW DSP 18

19 アクセラレータとは? メインプロセッサ結合路 ( 結合方式は?) アクセラレータ ( 加速方式は?) 19

20 アクセラレータ & 採用システム実例一覧メインプロセッサ結合方式アクセラレータ ( 加速方式 ) 採用システムメインプロセッサ結合方式アクセラレータ加速方式 IBM Roadrunner BladeCenter LS21 ボード間 : デュアルギガ (Opteron DC 1.8GHz 2) ビットイーサネット BladeCenter QS22 (PowerXCell 8i 3.2GHz 2) 東工大 TSUBAME Opteron DC 2.4GHz ボード間 :PCI X ClearSpeed Advance CSX600 PCI X Board DELL Precision T7400 Core2 Q コア 2.5GHz チップ間 :PCI Express Nvidia GeForce GHz GRAPE 汎用プロセッサチップチップ間 : 共有バス重力計算専用プロセッサ GRAPE 九州大学 EHPC/Eric SH 4 チップ間 :SH 4バス二電子積分計算専用プロセッサEric 4 way SIMD 8 way マルチコア 96 way SIMD 8 way SIMD 16 way マルチコア並列演算パイプライン初期積分計算専用コア 1+ 漸化計算専用コア 4 CRAY XD1 Opteron チップ間 : FPGA ハードウェア処理 CREST SFQ RDP 汎用プロセッサチップチップ間 : 共有バス九州大学 LSRDP( 再構成可能大規模データパス 80GHz)MCM 4 NEC SX 9 スカラユニットチップ内 : ベクトルパイプライン 8 IBM CELL/B.E. PowerPC 4GHz チップ内 : 共有リングバス SPE 4GHz 8 (EIB) 2 次元 FPU アレイ (1024FPU/MCM) 並列ベクトル処理 4 Way SIMD IPFLEX DAPDNA II DAP 166MHz チップ内 : 共有バス DNA 166MHz 2 次元 ALUアレイ (168ALU) TI OMAP 3530 ARM Coretex A8 チップ内 : 共有バス TMS320C64x DSP Core VLIW DSP 20

21 加速方式一覧 (1/2) 方針方式活用対象メインプロセッサアクセラレータ基礎体力の強化実行命令数の削減クロック周波数の向上メモリアクセスレイテンシの短縮メモリバンド幅の向上クロック周波数向上信号線数拡大メモリサイズの拡大命令セットアーキテクチャの最適化カスタム命令特徴的固定的処理データ依存関係 SIMD 演算命令データレベル並列性ベクトル演算命令データレベル並列性コンパイラ最適化機能の強化並列化データレベル並列処理データレベル並列性 SIMD 演算空間的並列性ベクトル演算時間的並列性命令レベル並列処理命令レベル並列性命令パイプライン処理時間的並列性スーパースカラ処理空間的並列性 21

22 加速方式一覧 (2/2) 方針方式活用対象メインプロセッサアクセラレータ並列化 ( 続き ) スレッド / タスクレベル並列処理粗粒度並列性マルチスレッディングマルチコア / メニーコアカスタム化 ASIP( 特定用途向けプロセッサ ) 特徴的固定的処理構成可能プロセッサ再構成可能プロセッサハードウェア処理特徴的固定的処理布線論理再構成可能ハードウェア階層化階層化メモリ参照の局所性スクラッチパッドメモリキャッシュメモリ仮想記憶投機化先行制御動的振舞の規則性命令プリフェッチ参照の連続性データプリフェッチ参照の規則性予測制御動的振舞の偏り分岐予測値予測 22

23 アクセラレータ向き主要加速方式方針方式活用対象メインプロセッサアクセラレータ実行命令数の削減命令セットアーキテクチャの最適化カスタム命令特徴的固定的処理データ依存関係 SIMD 演算命令データレベル並列性ベクトル演算命令データレベル並列性コンパイラ最適化機能の強化並列化データレベル並列処理データレベル並列性 SIMD 演算空間的並列性ベクトル演算時間的並列性命令レベル並列処理命令レベル並列性スレッド / タスクレベル並列処理粗粒度並列性マルチスレッディングマルチコア / メニーコアカスタム化 ASIP( 特定用途向けプロセッサ ) 特徴的固定的処理構成可能プロセッサ再構成可能プロセッサハードウェア処理特徴的固定的処理布線論理再構成可能ハードウェア 23

24 アクセラレータとは? メインプロセッサ結合路 ( 結合方式は?) アクセラレータ ( 加速方式は?) しかし並列処理度に比例して増加するメモリアクセス頻度 ( メモリプレッシャー要求メモリバンド幅 ) にどう対処するか? コア内はデータレベル並列性を活用したカスタム化または汎用性を重視してデータレベル並列処理 (SIMD 演算 ) のみ上記と直交する形でマルチコア化 24

25 アクセラレータの課題 ~ 増大する要求メモリバンド幅にどう対応するか?~ 従来のアクセラレータの場合 (SIMD 演算ベクトル演算 ) 大規模データパス (LSRDP) の場合 25

26 大規模再構成可能データパス (LSRDP: Large Scale Reconfigurable Data Path) 汎用プロセッサ (General Purpose Processor) バス FPU FPU... FPU FPU FPU ORN : : : : FPU LSRDP... FPU FPU FPU ORN... FPU FPU FPU SB : : :... : SMAC 多数の演算器 (FPU: Floating- Point Unit) とそれらを相互接続する網 (ORN: Operand Routing Network) を搭載し FPU で行う演算内容 ORN 上の FPU 間接続関係を再構成可能としたデータパスデータレベル並列性とデータ依存関係を同時に活用することにより要求メモリバンド幅を抑えつつ高い演算性能を実現! 主記憶 26

アプリ例 :1 次元時間発展熱伝導方程式 32 32 LSRDP:32 入力 16 出力 728 FPUs (add, mul) 364 即値 [ ] [ ] ), ( ), ( * ), ( * ) ( ), ( 2 ), ( ), ( * ),

27 アプリ例 :1 次元時間発展熱伝導方程式 LSRDP:32 入力 16 出力 728 FPUs (add, mul) 364 即値 [ ] [ ] ), ( ), ( * ), ( * ) ( ), ( 2 ), ( ), ( * ), ( ), ( j i j i j i j i j i j i j i j i t x T t x T B t x T D x t x T t x T t x T A t x T t x T = Δ + + =

28 アプリ例 :1 次元時間発展熱伝導方程式正規化した実行時間 (3.2GHz SimpleScalar の実行時間を 1) 主記憶メモリバンド幅 [GB/sec] M:26 20=520 L: 70 32=2240

29 アプリ例 : 二電子積分計算正規化した実行時間 (3.2GHz SimpleScalar の実行時間を 1) 主記憶メモリバンド幅 [GB/sec] L: 70 32=2240

30 アクセラレータ & 採用システム実例一覧メインプロセッサ結合方式アクセラレータ ( 加速方式 ) 採用システムメインプロセッサ結合方式アクセラレータ加速方式 IBM Roadrunner BladeCenter LS21 ボード間 : デュアルギガ (Opteron DC 1.8GHz 2) ビットイーサネット BladeCenter QS22 (PowerXCell 8i 3.2GHz 2) 東工大 TSUBAME Opteron DC 2.4GHz ボード間 :PCI X ClearSpeed Advance CSX600 PCI X Board DELL Precision T7400 Core2 Q コア 2.5GHz チップ間 :PCI Express Nvidia GeForce GHz GRAPE 汎用プロセッサチップチップ間 : 共有バス重力計算専用プロセッサ GRAPE 九州大学 EHPC/Eric SH 4 チップ間 :SH 4バス二電子積分計算専用プロセッサEric 4 way SIMD 8 way マルチコア 96 way SIMD 8 way SIMD 16 way マルチコア並列演算パイプライン初期積分計算専用コア 1+ 漸化計算専用コア 4 CRAY XD1 Opteron チップ間 : FPGA ハードウェア処理 CREST SFQ RDP 汎用プロセッサチップチップ間 : 共有バス九州大学 LSRDP( 再構成可能大規模データパス 80GHz)MCM 4 NEC SX 9 スカラユニットチップ内 : ベクトルパイプライン 8 IBM CELL/B.E. PowerPC 4GHz チップ内 : 共有リングバス SPE 4GHz 8 (EIB) 2 次元 FPU アレイ (1024FPU/MCM) 並列ベクトル処理 4 Way SIMD IPFLEX DAPDNA II DAP 166MHz チップ内 : 共有バス DNA 166MHz 2 次元 ALUアレイ (168ALU) TI OMAP 3530 ARM Coretex A8 チップ内 : 共有バス TMS320C64x DSP Core VLIW DSP 30

31 CREST SFQ RDP 4.2 K 2TB memory module (FB-DIMM [DDR3@1333MHz, 128GB] 16 modules) CMOS CPU (1chip) ORN FPU... ORN : : : : SFQ 0.5um process SFQ RDP (32FPU 32chips) (4GFLOPS/FPU)... ORN ORN... SFQ Streaming Buffer (64Kb 2chips) : : : SMAC SMAC SB... : 1024FPU@MCM (34chips) 4MCM SMAC Memory band width per MCM:256GB/s (=16GB/s 16 channels) 31

32 HPC とアクセラレータの今後 HPC マシンスパコン時代 (1980~1990 中 ) 集積回路技術実装技術技術移転コンパイラ技術 PCクラスタ時代 (1990 中 ~ 現在 ) 高性能汎用マイクロプロセッサ製品移転高集積メモリ高速インターコネクト 2010 年のHPCマシン高性能 & 低消費電力組込みプロセッサ+アクセラレータ高速 & 知的インターコネクトテクノロジドライバ汎用大型計算機 PC&LAN 技術フィードバック CE 情報家電 / 携帯情報端末 32

HPCマシンの変遷と今後の情報基盤センターの役割

HPCマシンの変遷と今後の情報基盤センターの役割筑波大学計算科学センターシンポジウム計算機アーキテクトが考える次世代スパコン 2006 年 4 月 5 日村上和彰九州大学 murakami@cc.kyushu-u.ac.jp 次世代スパコン ~ 達成目標と制約条件の整理 ~ 達成目標性能目標 (2011 年 ) LINPACK (HPL):10PFlop/s 実アプリケーション :1PFlop/s 成果目標 ( 私見 ) 科学技術計算能力の国際競争力の向上ならびに維持による我が国の科学技術力