PowerPoint Presentation

Size: px

Start display at page:

Download "PowerPoint Presentation"

あきとしごみぶち
5 years ago
Views:

1 計算機の展望 ( 高性能計算システムの展望 ) 朴泰祐筑波大学計算科学研究センター ( システム情報工学研究科 ) taisuke@cs.tsukuba.ac.jp

2 アウトライン HPCシステムの歴史概観 HPCシステムの現状と展望クラスタコンピューティングヘテロジニアスコンピューティング Exa-scaleコンピューティングに向けてまとめ 2

3 HPC システム概観

4 HPC システム概観 (1) 100MFLOPS~1GFLOPS 時代 ( 70 代後半 ~ 80 代前半 ) Cray-1に代表されるベクトル計算機ベクトルレジスタと高バンド幅メモリによる高性能計算史上初の over 1GFLOPS 計算機 :NEC SX-2 10GFLOPS~100GFLOPS 時代 ( 80 代後半 ~ 90 代前半 ) ベクトルの高性能化に加えパイプラインを並列に持つベクトル計算機を共有メモリ結合 ( 数台 ~ 数十台規模 ) 超並列計算機の兆し 1996 年 : 国産計算機がTOP500 中 #1~#3を独占 CP-PACS, SR2201: 準ベクトル超並列 NWT: 並列ベクトル ( 共有メモリ ) 4

5 HPC システム概観 (2) 1TFLOPS オーダー時代 ( 90 代後半 ) 汎用マイクロプロセッサによる超並列 :ASCI machines 史上初のover 1TFLOPS machine: SNL ASCI Red 10TFLOPS 時代 ( 00 代前半 ) ASCI 終盤マシン地球シミュレータ (40TFLOPS): 共有 / 分散メモリ並列ベクトル 100TFLOPS 時代 ( 00 台中盤 ) 超並列省電力省スペース :IBM GlueGene/L 1PFLOPS 時代 ( 08) 超並列クラスタアクセラレータ :LANL RoadRunner 超並列汎用クラスタ :ORNL Jaguar 史上初のover 1PFLOPS machine: Roadrunner, Jaguar この間クラスタシステムの性能はコンスタントに向上し続けている 5

6 HPC システム概観 : 全体的な流れ初期スパコンはベクトル計算機大量のベクトルレジスタと高バンド幅メモリ ( バンクメモリ ) による物量作戦ベクトルコンパイラ技術の進歩ベクトル単体の性能限界並列ベクトル方式最初はベクトルパイプラインを並列化ベクトル計算機を複数並列に ( 共有メモリ ) 共有メモリベクトル計算機の限界分散メモリ並列ベクトル超並列計算機の台頭汎用マイクロプロセッサの高性能化様々な並列ネットワークの登場ベクトル計算機も超並列化クラスタ計算機の出現主流へ MPP(Massively Parallel Processor: 超並列計算機 ) より安価汎用ネットワークの高性能化大規模化アクセラレータの出現とこれを利用しやすいシステム構成 6

7 HPC システムの現状 ~ クラスタシコンピューティング ~

8 クラスタ計算機によるスーパーコンピュータクラスタ計算機 : 今日の HPC への最大の貢献者 TOP500 リストにおけるランクイン数ベクトル計算機等に比べ格段の対価格性能比 ( ピーク性能 ) プロセッサとネットワークの両方にコモディティ技術を投入同じプラットフォーム上で汎用計算と専用計算の両者を吸収可能 64bit 化された IA-32 (x86) プロセッサを Linux 環境で利用するのが典型的 ( 近年 Windows クラスタが出現 ) 柔軟な拡張性 (I/O を通して ) を用いた加速装置による高速化専用化が可能超並列化は必須単体 CPU は速くはなっているが全体の計算機性能要求はそれ以上に向上しているコモディティネットワークによる大規模化が可能になってきた 8

9 TOP500 リスト (2008/06) アーキテクチャ Architecture Count Share (%) Rmax (GF) Rpeak (GF) Processor Cluster Constellations MPP Totals プロセッサファミリ Processor Count Share (%) Rmax (GF) Rpeak (GF) Processor Intel EM64T +AMD x86_ Others Totals

10 コモディティ CPU COTS (Commodity Of The Shelf) CPU による高い対価格性能比本来一種の専用計算機だったスパコンを汎用技術で実現 Commodity 研究者 ( ユーザ ) が開発費用を払わなくてよい計算機要素技術 ( 世界中の一般ユーザが代わりに払ってくれている ) ベクトル計算機 or MPP: ユーザが開発コストを払う過去 10 年間で単体 CPU の性能は飛躍的に伸びている周波数の向上マルチコア技術 SIMD (SSE-type) 命令による FLOP/clock の向上 10

11 単体 CPU の計算性能データ容量の限界半導体の集積度は 1.5 年で約 2 倍になるムーアの法則もし IC 上のトランジスタ数の増加を演算性能に転換できればプロセッサの性能は 1.5 年で約 2 倍になると読み替えられる右図 :Intel プロセッサのトランジスタ数の伸びメモリ等の容量の伸びもほぼこれに従うしかしこれだけでは爆発する性能向上要求に対応できない ( ムーアの法則に従うプロセッサ単体の性能向上も限界に近づいている ) 近年ムーアの法則は multi-core で稼ぎ始めている 11

12 コモディティネットワーク ( 相互結合網 ) 古典的なコモディティネットワーク Ethernet: 10base -> 100base -> 1000base -> 10Gbase 極めて高い対価格性能比がバンド幅において得られているただしレイテンシ ( 遅延時間 ) については今一つ基本的に木構造なため拡張性が低い SAS (System Area Network / Storage Area Network) Infiniband, Myrinet,... バンド幅とレイテンシの両方で高い性能ただし高価 Clos 網やFat-Tree 網が使えるため拡張性が高い近年 SAS の価格が急激に低下している SAS がコモディティとなってきた On-board Ethernet NIC の代わりに On-board Infiniband NIC 等も出てきた 12

13 クラスタの持つ高い性能拡張性汎用 I/O バスの進化 PCI -> PCI-X -> PCI-Express -> PCI-E gen2 並列リンク -> 複数の超高速シリアルリンク CPUからの直接リンク : Hyper Transport, Quick Path ハードウェアアクセラレータの装着 Clear Speed: 東工大 TSUBAME Cell Broadband Engine: LANL Roadrunner GRAPE: 筑波大 FIRST Cluster GPGPU: PC clusters 全般 13

14 日本の TOP-4 スパコン TOP /11 Machine Site Vendor Rpeak (GF) Rmax (GF) #rank T2K-Todai Univ. Tokyo Hitachi TSUBAME Tokyo Inst. Tech. Sun T2K-Tsukuba Univ. Tsukuba Appro T2K-Kyodai Kyoto Univ. Fujitsu 現在大学の計算センターのマシンが TOP-4 を占めている 4 台中 3 台が T2K Open Supercomputer Alliance のマシン T2K システムは全て quad-core Opteron (Barcelona) と quad-rail SAS (Myrinet10G or Infiniband) を利用東工大 TSUBAME は dual-core Opteron + アクセラレータ (ClearSpeed + GT200) 14

T2K Open Supercomputer Alliance 元々は次期スパコン調達における共通仕様策定と運用連携が目的学際的な計算機科学計算科学の展開を目指し研究教育

Open software stack with opensource middleware & tools.

2TF) / 13TB Linpack Result: Rpeak= 61.2TF (416 nodes) Rmax = 50.5TF Univ. Tokyo 952 nodes (140.

15 T2K Open Supercomputer Alliance 元々は次期スパコン調達における共通仕様策定と運用連携が目的学際的な計算機科学計算科学の展開を目指し研究教育グリッド運用等における連携活動へ Open hardware architecture with commodity devices & technologies. Open software stack with opensource middleware & tools. Open to user s needs not only in FP & HPC field but also INT world. Kyoto Univ. 416 nodes (61.2TF) / 13TB Linpack Result: Rpeak= 61.2TF (416 nodes) Rmax = 50.5TF Univ. Tokyo 952 nodes (140.1TF) / 31TB Linpack Result: Rpeak= 113.1TF ( nodes) Rmax = 83.0TF Univ. Tsukuba 648 nodes (95.4TF) / 20TB Linpack Result: Rpeak= 92.0TF (625 nodes) Rmax = 76.5TF

16 T2K-Tsukuba: 大規模汎用クラスタ #20 at TOP500 on June 2008 (Linpack: TFLOPS) 16

high reliability 648 node (quad-core x 4socket / node) Opteron Barcelona B8000 CPU 2.

17 計算ノードとファイルサーバ Computation node (70racks) 800 TB (physical 1PB) RAID-6 Luster cluster file system Infiniband x 2 Dual MDS and OSS config. high reliability 648 node (quad-core x 4socket / node) Opteron Barcelona B8000 CPU 2.3GHz x 4FLOP/c x 4core x 4socket = GFLOPS / node = 95.3 TFLOPS / system 20.8 TB memory / system File server (disk array only) 17

計算ノードのブロックダイアグラム 2GB 667MHz DDR2 DIMM x4 Dual Channel Reg DDR2 2GB 667MHz DDR2 DIMM x4 Hyper

(A)1 (B)1 4GB/s (Full-duplex) PCI-Express X16 PCI-Express X8 PCI-X PCI-X Bridge 8GB/s X16 X8 X4

X8 4GB/s (Full-duplex) (A)2 (B)2 4GB/s (Full-duplex) Mellanox MHGH28-XTC ConnectX HCA x2 (1.

18 計算ノードのブロックダイアグラム 2GB 667MHz DDR2 DIMM x4 Dual Channel Reg DDR2 2GB 667MHz DDR2 DIMM x4 Hyper Transport 8GB/s (Fullduplex) 2GB 667MHz DDR2 DIMM x4 2GB 667MHz DDR2 DIMM x4 4GB/s (Full-duplex) (A)1 (B)1 4GB/s (Full-duplex) PCI-Express X16 PCI-Express X8 PCI-X PCI-X Bridge 8GB/s X16 X8 X4 Bridge NVIDIA nforce GB/s Bridge NVIDIA nforce 3050 X16 X8 X4 SAS PCI-Express X16 PCI-Express X8 4GB/s (Full-duplex) (A)2 (B)2 4GB/s (Full-duplex) Mellanox MHGH28-XTC ConnectX HCA x2 (1.2µs MPI Latency, 4X DDR 20Gb/s) I/O Hub USB PCI-X Mellanox MHGH28-XTC ConnectX HCA x2 (1.2µs MPI Latency, 4X DDR 20Gb/s) 18

Infiniband 4xDDR x 4-rail の Fat-Tree 網 Full bi-sectional FAT-tree

SWs L1 SWs Nodes Detail View for one network unit 1 2 3 4 5 6 7 8

24-port) #IB cable 8554 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17

19 Infiniband 4xDDR x 4-rail の Fat-Tree 網 Full bi-sectional FAT-tree Network L3 SWs n n : #Node with 4 Links : #24ports IB Switch L2 SWs L1 SWs Nodes Detail View for one network unit # switches =616 (all 24-port) #IB cable x 20 network units

20 今日の最先端コモディティ CPU の性能上の問題メモリと I/O のバンド幅に比べ極めて高い浮動小数点演算性能 CPU 周波数は限界に達しつつあり ( 消費電力のため ) これ以上大幅な向上は見込めない半導体テクノロジは進歩し続けており (90[nm] -> 65 -> 45 -> 22 ->...) ダイ上のトランジスタ数は増加を続けるピーク性能維持のためマルチコア / メニーコア化していくのは自然な流れメモリバンド幅 : Rich Vector vs Poor Scalar CPU FLOPS とメモリバンド幅のギャップは確実に増え続けている深刻な問題ピーク性能 (Linpack) と実効性能 (non-cache-aware applications) の差が益々大きくなっていく 20

21 Balance on CPU : Memory : Network Systems C : M : N = GFLOPS : GB/s : GB/s C : M : N (M = 1.0) CP-PACS Earth Simulator PACS-CS T2K-Tsukuba C が小さく N が大きいほどバンド幅的によいかつてのベクトル計算機 = 4Byte/FLOP ( 上の表では C:M = 0.25:1) 21

22 QCD (Quantum Chromo Dynamics) に必要なメモリバンド幅 QCD-mult benchmark core equation dim. computation load store B/flops t 168(x), 120(+) = 288 flop z 144(x), 192(+) = 336 flop y 144(x), 192(+) = 336 flop x 144(x), 192(+) = 336 flop clover 288(x), 312(+) = 600 flop 21*2 complex = 672B 21*2+12 complex = 864B 21*2+12 complex = 864B 21*2+12 complex = 864B 21*2+12 complex = 864B 12 complex = 192B 12 complex = 192B 12 complex = 192B 12 complex = 192B 12 complex = 192B (by Prof. Hiroshima U.) 5088B / 1896flop = 2.68 Byte/flop 近年のコモディティCPUの傾向では圧倒的に不足 22

23 HPC システムの現状 ~ ヘテロジニアスコンピューティング ~

24 Heterogeneous Computing Platform 計算ノードに汎用プロセッサと専用プロセッサを混在 ( 混載 ) させた ( 並列処理 ) システム基本的なスタイル : クラスタ型並列計算機の計算ノードに何らかの演算加速装置を搭載 ClearSpeed GRAPE GPGPU (General Purpose Graphic Processing Unit) Cell Broadband Engine 従来より特定アプリケーションにおける高性能化が図られてきたが 2008/06 にLANLにおいてRoadrunnerがOpteron + Cell BEのヘテロ構成でover 1PFLOPS Linpack 性能を達成 ( ピーク性能は1.3PFLOPS) Hybrid Computing という言葉は共有メモリと分散メモリの programming paradigm を指す場合があるのでここでは Hetero- と呼ぶ 24

25 FIRST: 宇宙物理学のためのヘテロクラスタ nodes 512 CPU 256 Blade-GRAPE Total Performance = 36.1 Tflops Host 3.1 Tflops Blade-GRAPE 33 Tflops Total Memory = 1.6TB Total storage = 22TB (Gfarm) Blade-GRAPE 25

26 主な演算加速装置 (1) ClearSpeed 最大 192 個の演算装置を SIMD で動作内部に演算装置毎のレジスタファイルと共有メモリを持つ最近ではピーク性能が他の加速演算装置よりやや劣り衰退気味 GRAPE 元々は重力多体計算のための演算加速装置理研の MD-GRAPE 等重力計算以外にも近年は GRAPE-DR による一般化が進む ( 入出力に関しては従来に近い ) 26

SPEがcircular busで結合されるだけでなく各 SPEが256KBの高速ローカルストレージを持つ GPU (GPGPU) 元々 PC 用グラフィックエンジン

27 主な演算加速装置 (2) Cell Broadband Engine 1 つの汎用プロセッサ (PPE) と 8 つの SIMD 型演算エンジン (SPE) を 1 チップに収めた超高性能プロセッサ PS3 用に開発されたが高性能加速エンジンとして利用され改良版がLANL Roadrunnerに大量投入された PPEと全 SPEがcircular busで結合されるだけでなく各 SPEが256KBの高速ローカルストレージを持つ GPU (GPGPU) 元々 PC 用グラフィックエンジン内部演算性能を極限まで高め最近は倍精度浮動小数点演算にも対応 SIMD 型演算を内蔵高速メモリ上で実現本格的なHPCプラットフォームとして複数のGPUを標準プラットフォームに収めたものも (nvidia TESLA) 27

28 演算加速装置への期待従来の専用演算装置から ( 準 ) 汎用演算装置へ従来型 GRAPE のような特殊な演算加速から SIMD 命令による汎用的な演算パイプラインが利用可能 GPGPU では標準的なプログラミングツールが準備されつつある (nvidia の CUDA や PGI の CUDA 準拠コンパイラ等 ) 汎用 CPU に比べ極めて高い性能 / 電力比 Opteron B8300 : 37GFLOPS / 120 W = 0.3GFLOPS/W TESLA C1060 card : 1TFLOPS / 160W = 6.25GFLOPS/W On-chip でのメモリ / データアクセスバンド幅 GPGPU では非常に高い内部メモリバンド幅を実現約 20 倍!! GRAPE ではツリー型データパスにより各データ流のスループットは非常に高い 28

29 現在の演算加速装置の問題点メイン CPU との間のデータ移動バンド幅が小さい何らかの外部バスによる接続現在は標準的にPCI-Expressが用いられる PCI-E Gen2 x 16 でも理論ピーク性能 10GB/s 最高性能のDDR3 メモリ等に比べ数分の一例 :1 台のGForceGTX280 上でCUDAを用いて姫野ベンチマークが70GFLOPS 以上で動作するあくまで1 台のGPU 上での話複数台接続やマザーボード上でCPUと結合すると性能が著しく低下するレジスタ内部メモリ容量 SIMD 命令等により適用アプリケーションの制約がまだある 29

30 準汎用応用分野での演算加速装置への期待 GRAPE は過去 20 年成功してきた演算性能と入出力性能のバランスする世界では極めて有望システムと応用の歩み寄り応用分野の範囲と骨格的なアルゴリズムを限定することにより FPGA 等の構成要素を最適化演算加速器に適応する新アルゴリズム / 新パラダイムの構築素核宇宙分野の基礎科学では有望アルゴリズム的に様々なアプローチが可能極めて重い計算を行うシステムやソフトウェアの開発コスト ( 人的コストを含め ) が生きる演算加速装置の外部バンド幅増強の研究推進 Direct-CPU/Memory Attached Chip の研究 (HyperTransport や QuickPath への直付けチップ等 ) 30

31 Exa-Scale コンピューティングに向けて 31

32 課題は山積みシステム側の課題数百万ノード規模 ( コア数では数千万コア規模 ) の超々並列システムの実現相互結合網メモリ ( 実装技術よりもむしろコスト ) 耐故障性超大規模システムの電力削減半導体プロセスのさらなる微細化 + リーク電流等の対策性能 / 電力比率をさらに高めるための演算加速技術の向上クラスタシステムではいずれ限界がアプリケーション側の課題 EFLOPS の世界は超々並列の世界 weak scaling な問題を対象にしないとピーク性能を生かせない問題自体が百万規模の超並列処理に適応できなければいけない 32

33 超並列向けアプリケーション超並列方式におけるアプローチ実空間離散化コンセプトに基づく超並列向けコード隣接通信 + ブロードキャスト / リダクションを基本とする大規模並列処理総演算量削減ではなく総演算時間削減を従来手法 :FFT スペクトル法ルジャンドル展開空間分解能を上げず畳み込みによる間接計算実空間手法 : 実空間上の実モデルを直接シミュレート超並列処理により間接解法から直接解法へのパラダイムシフトが実現可能では? 将来の拡張に向けてアプリケーションのアルゴリズムコードの本質的見直しが必要実空間離散化からプロセッサ空間へ直接マップ物理空間を直接シミュレーション 33

34 EFLOPS への挑戦計算科学の要請は EFLOPS へと続くベクトル SMP 方式スカラ SMP 方式は電力密度ネットワーク規模及びバンド幅の点で限界に超低消費電力技術を駆使した超並列方式 + 何らかの演算加速技術 100 万規模のノードを結合するためネットワークトポロジは制約計算基礎科学 ( 素核宇宙 ) では対応可能 ( だと思われる ) 34

35 超並列方式のエコシステム物理空間を直接シミュレーション実空間離散化から直接マップ問題空間の高密度離散化 FFT スペクトル法等に依存しない直接解法へ空間局所性を生かしたプロセッサ + ネットワークであれば超並列は可能非常に高い演算性能が要求されるが近接通信のみでよい超並列方式と実空間物理シミュレーションは相補的な関係にあり実空間アプローチへのパラダイムシフトがそれ自身が必要とする十分な並列演算性能を生み出す 35

36 まとめ基礎科学分野における HPC 技術超並列化への準備はある程度できているあらゆる局面でバンド幅を縮小するためのアルゴリズム開発は必須超々並列化における省電力問題演算加速装置の積極的利用ハード / アプリに任せっきりの研究体制では不可能システム側研究者 ( 計算機科学 ) と応用側研究者 ( 計算科学 ) の二人三脚が最大の鍵基礎科学高性能計算連携の枠組みでシステム ( ハードソフト )+アルゴリズムの見直しと実効性能重視のシステム構築応用分野の絞込み+ 各組織の英知 ( 計算科学 + 計算機科学 ) を結集し次の世代の計算基礎科学の発展を目指すいろいろな研究グループの立ち上げ : High Performance Accelerated Computing Research Group (HPAC-RG) 36

Microsoft PowerPoint - CCS学際共同boku-08b.ppt

Microsoft PowerPoint - CCS学際共同boku-08b.ppt マルチコア / マルチソケットノードにおけるメモリ性能のインパクト研究代表者朴泰祐筑波大学システム情報工学研究科 taisuke@cs.tsukuba.ac.jp アウトライン近年の高性能 PC クラスタの傾向と問題 multi-core/multi-socket ノードとメモリ性能メモリバンド幅に着目した性能測定 multi-link network 性能評価まとめ近年の高性能 PC