PowerPoint プレゼンテーション

スーパーコンピュータのネットワーク情報ネットワーク特論南里豪志 ( 九州大学情報基盤研究開発センター ) 1

今日の講義内容スーパーコンピュータとはどうやって計算機を速くするかスーパーコンピュータのネットワーク 2

スーパーコンピュータとは? " スーパー " な計算機 = その時点で一般的な計算機の性能をはるかに超える性能を持つ計算機スーパーコンピュータの用途主に科学技術分野創薬分子構造シミュレーション車飛行機等の設計構造シミュレーション気象予測熱力学シミュレーション等出典 : http://eng.mod.gov.cn/database/academies/2013-06/18/content_4455818_2.htm 出典 : https://www.llnl.gov/news/aroundthelab/2012/jun/atl- 061812_sequoia.html 近年他の分野でも利用拡大株価変動予測交通量解析ソーシャルネットワーク上のデータ解析顧客の行動予測等出典 : http://www.aics.riken.jp/jp/k/facility.html 常により高い性能の計算機を要求 3

計算機の理論的な最大性能 FLOPS (FLoating Operations Per Second) 一秒間に実行できる実数演算 (floating point operation) の数実数計算がほとんどを占める科学技術計算で使用理論的な最大 FLOPS の計算式 : Theoretical Peak FLOPS = frequency of CPU(CPU のクロック周波数 ) x number of operations per clock (1 クロックあたりの演算数 ) x number of CPUs (CPU の数 ) 例えば : 1GHz で 1 クロック当たり 4 個の演算を実行できる CPU を 1000 個搭載する計算機の理論的な最大 FLOPS = 4000 GFLOPS = 4 TFLOPS (Tera FLOPS) 4

実際の計算機の性能例えば CPU は以下を待つ間計算が出来ない計算すべきデータがディスクメモリネットワークから CPU に届く他の CPU との同期が完了するなので実際の計算機の性能はプログラムに依存する例 ) 多数の仕事に分けて分担させることができるプログラム低速の CPU を多数持つ計算機で高い性能が得られる仕事の分割や分担が難しいプログラム非常に高速な CPU を持つ計算機でなければ高い性能が得られない同じプログラムを各計算機で実行して実行時間を比較ベンチマークプログラム 5

Top500 List http://www.top500.org 最も有名なスーパーコンピュータ性能比較リスト稼働中のスーパーコンピュータの 1 位 ~500 位を掲載毎年 6 月と 11 月に更新 LINPACK ベンチマークプログラムの性能で順位付け連立一次方程式の解を求める計算比較的理論的な最大性能に近い性能が出る他の計算機との比較や傾向の分析などが容易 1993 年からほとんど同じ条件で更新を継続世界中のほぼ全てのスーパーコンピュータが登録スーパーコンピュータ開発競争に利用 6

スーパーコンピュータの例 : 地球シミュレータ 2002 年 3 月に稼働を開始主に NEC が開発開発目標 : 10km 四方 ( 赤道近辺 ) の精度で地球全体の大気循環をシミュレートそれまでは 100km 四方例えば台風の発生過程 :100km 四方だと台風が台風に見えない地球シミュレータの成果台風進路予測 5.5km 四方で地球全体をシミュレート ( 日本近辺は 2.78km 四方 ) 海底探査船ちきゅうに正確な台風進路の予測結果を到達予定の 3 日前までに提供台風発生予測過去 10 年間についてシミュレーションによる台風発生回数が実際の値とほぼ一致 7 CO2 の増加に伴う温暖化の予測 2040 年には年間の真夏日日数が約 20 日増加, 平均気温が約 2 度上昇.

Top500 における地球シミュレータの性能 Linpack 性能 35.8TFLOPS ( 理論最大性能 41.0TFLOPS) = 1 秒あたりの 35 兆回の実数計算断トツの 1 位 2 位から 10 位までの計算機の演算性能の合計を上回る性能 (2002 年 6 月時点 ) Computenik = 計算機分野での Sputnik だ! (in New York Times) by Jack Dongarra 教授テネシー大学教授 Top500 サイトの創始者 USA のスーパーコンピュータ開発意欲に火を付けた 8

USA の逆襲 (2004 年 ) IBM Blue Gene/L (2004 年 11 月 ~) http://www.research.ibm.com/bluegene/ 70.7TFLOPS ( 理論最大性能 91.8TF) ちなみに地球シミュレータ (35TFLOPS) は 3 位に後退まだ完成形ではない : 2005 年前半にさらに 4 倍高速化する計画日本のすべてのスーパーコンピュータをかき集めても追いつかない規模になる 9

USA の逆襲 (2005 年 ) IBM Blue Gene/L (2005 年 11 月 ) 280.6TFLOPS ( 理論最大性能 367.0TFLOPS) 世界で初めて 100TFLOPS を越えた計算機地球シミュレータは 7 位に後退本当に日本のすべてのスーパーコンピュータをかき集めても追いつかない規模に世界 500 位に入った計算機の性能の国別合計 : 1 位 USA 68.3% 2 位 Japan 5.68 % 3 位 UK 5.41% 4 位 Germany 3.10% 5 位 China 2.59% 以下 Australia, Switzerland, Netherland, Korea,... 10

1 位の計算機の変遷 2006 年 ~2014 年 Appear Name Country Linpack Peak 2000. 11 - ASCI White USA 7.2 TFLOPS 12.3 TFLOPS 2002. 6 - Earth Simulator Japan 35.9 TFLOPS 41.0 TFLOPS 2004. 11 - BlueGene/L USA 478.2 TFLOPS 596.4 TFLOPS 2008. 6 - RoadRunner USA 1.1 PFLOPS 1.5 PFLOPS 2009. 11 - Jaguar USA 1.8 PFLOPS 2.3 PFLOPS 2010. 11 - Tianhe-1A China 2.6 PFLOPS 4.7 PFLOPS 2011. 6 - K computer Japan 10.5 PFLOPS 11.3 PFLOPS 2012. 6 - Titan USA 17.6 PFLOPS 27.1 PFLOPS 2013. 6 - Tianhe-2 China 33.9 PFLOPS 54.9 PFLOPS 11

最新情報 : 2014 年 6 月 1 位 Tianhe-2(China) 33.9 PFLOPS 2 位 Titan (USA) 17.6 PFLOPS 3 位 Sequoia (USA) 17.1 PFLOPS 4 位 K Computer(Japan) 10.5 PFLOPS 国別合計 : 1 位 USA 44.7% (122.5 PFLOPS) 2 位 China 19.0% ( 52.1 PFLOPS) 3 位 Japan 8.7% ( 23.9 PFLOPS) 4 位 UK 5.4% ( 14.9 PFLOPS) 5 位 Germany 5.4% ( 14.8 PFLOPS) 以下,France, Switzerland, Italy, India, Australia, Korea,... 来月更新予定 12

どうやって計算機を速くするか? CPU を速くするクロック周波数の向上命令レベル並列処理の向上電力熱の限界命令レベル並列性の限界プロセッサコア数の増加アクセラレータの利用 13

プロセッサを増やす現在の計算機 = 複数のプロセッサを搭載した並列計算機スーパーコンピュータだけでなく PC やタブレットスマートフォンまであらゆる計算機が並列計算機スーパーコンピュータのプロセッサコア数 Name Number of Cores K computer 705,024 Titan 560,640 Tianhe-2 3,120,000 タブレットのプロセッサコア数 Name Number of Cores Nexus9 2 ipadair2 3 Xperia Z3 Tablet 4 YOGA Tablet 2 4 14

並列計算機仕事を複数のプロセッサに分担させて高速化 = 並列処理普通の処理仕事 1 並列処理仕事 1 仕事 2 仕事 3 仕事 2 仕事 3 うまく分担できればプロセッサの数に応じて性能向上並列処理をするには? 並列プログラムが必要 15

並列プログラム並列処理に必要な事項を含むプログラム各 CPU コアへの仕事の分担のさせ方相互の情報交換 CPU コアの間の同期等普通のプログラム (= 並列じゃないプログラム ) とどう違う? 16

普通のプログラムの例 : 2 つのベクトルの和を計算 0 番目から 99 番目までの要素を順に計算 A B C... 0 99 プログラム double A[100], B[100], C[100];... for (i = 0; i < 100; i++) A[i] = B[i] + C[i]; 17

並列プログラムの例 : 複数のスレッドで並列処理スレッド : 同じ記憶空間を共有しながら進行する流れ A B C スレッド 0 スレッド 1 スレッド 2 スレッド 3... 25... 50... 75... 0 24 49 74 99 全スレッドが同じ配列を共有 double A[100],B[100],C[100];... double A[100],B[100],C[100]; for (i=0; i<25; i++)... double A[100],B[100],C[100]; A[i] = B[i] + for C[i]; (i=25; i<50; i++)... double A[100],B[100],C[100]; A[i] = B[i] + C[i]; for (i=50; i<75; i++)... A[i] = B[i] + C[i]; for (i=75; i<100; i++) スレッド0 スレッド1 A[i] = B[i] + C[i]; スレッド2 18 スレッド3

スレッドによる並列化の利点と欠点利点 : 比較的簡単に並列化自動並列化コンパイラ等も利用可能欠点 : 基本的に共有メモリ型並列計算機向け分散メモリ型並列計算機では使えない = 大規模な計算機で利用できない 19

共有メモリ型並列計算機 1 つのメインメモリを複数の CPU コアで共有マルチ CPU コアの PC 等 CPU コア CPU コア CPU コア CPU コア CPU コア CPU コアメインメモリ CPU コアからメインメモリへの経路が共有規模 (=CPU コア数 ) に限界 20

分散メモリ型並列計算機複数の独立したメインメモリで構成 CPU コア CPU コア CPU コア CPU コア CPU コア CPU コア CPU コア CPU コアメインメモリメインメモリメインメモリメインメモリネットワーク規模に応じて経路の数も増加大規模化が比較的容易 21

プロセス並列プログラム分散メモリ型並列計算機における並列処理に必要プロセス並列独立した記憶空間をもつプロセスを単位とした並列処理 22

プロセス並列プログラムの特徴 (1) 処理だけでなくデータも分割各プロセスが別の配列を利用 A プロセス0... 0 24 A プロセス1... 0 24 A プロセス2... 0 24 A プロセス3... 0 24 B C B B C C C B double A[25],B[25],C[25];... double A[25],B[25],C[25]; for (i=0;i<25;i++)... double A[25],B[25],C[25]; A[i] = B[i] + for C[i]; (i=0;i<25;i++)... double A[25],B[25],C[25]; プロセス0 A[i] = B[i] + for C[i]; (i=0;i<25;i++)... プロセス1 A[i] = B[i] + for C[i]; (i=0;i<25;i++) プロセス2 A[i] = B[i] + C[i]; 23 プロセス3

プロセス並列プログラムの特徴 (2) 他のプロセスのデータは直接参照できない必要に応じてプロセス間通信プロセス 0 プロセス 1 プロセス 2 プロセス 3 A A A A 受信送信ネットワーク 24

MPI (Message Passing Interface) 並列プログラム用に用意された通信関数群の定義例 ) プロセス 0 からプロセス 1 にデータを転送 MPI_Comm_rank(MPI_COMM_WORLD, &myid);... if (myid == 0) MPI_Send(&(a[5]), 1, MPI_DOUBLE, 1, 0, MPI_COMM_WORLD); if (myid == 1) MPI_Recv(&(a[3]), 1, MPI_DOUBLE, 0, 0, MPI_COMM_WORLD, &status); 自分のプロセス番号を取得プロセス 0 がプロセス 1 に送信プロセス 1 がプロセス 0 から受信 25

分散メモリ型並列計算機の利点と欠点利点 : 理論的な性能は比較的容易に向上極端な話, 単純に数を増やせば向上する欠点 : 実質的な性能向上には工夫が必要並列プログラムの作成計算の分担データの分割計算結果の通信並列処理のための時間増加他の CPU との同期待ちや通信現在のスーパーコンピュータは全て分散メモリ型並列計算機 26

並列化手段と並列計算機利用可能な並列化手段自動並列化 OpenMP 共有メモリ型分散メモリ型 MPI MPI プログラムは作るのに苦労するがどこでも実行できる 27

アクセラレータ背景 : 今後のスーパーコンピュータ高速化に向けた最大の課題は電力アクセラレータの基本的な考え方 : 低性能低機能だが電力効率の高いコアを多数並べて並列計算する電力 Top500 に登場する主なアクセラレータ : NVIDIA Tesla Intel Xeon Phi 例 ) 半分の性能を 1/8 の電力で達成性能電力効率 4 倍 28

NVIDIA Tesla GPGPU (General Purpose Graphic Processing Unit) グラフィック用の GPU を汎用計算にも使用する高い電力効率メモリ量を制限して高速メモリアクセスを実現 1 6GB 程度演算の種類を制限して回路を単純化主に加算, 乗算の性能重視複雑な処理は制限 29

GPGPU の問題メモリからアクセラレータのメモリへのデータ転送が遅い Tesla C2015 で 515GFLOPS に対して 8GB/sec アクセラレータ上のメモリへのアクセスは 144GB/sec NEC のベクトルプロセッサは 100GFLOPS に対して 256GB/sec 京のスカラープロセッサは 128GFLOPS に対して 64GB/sec 性能に対するメモリ量が少ない Tesla C2015 で 515GFLOPS に対して 6GB NEC のベクトルプロセッサは 100GFLOPS に対して 64GB 京のスカラープロセッサは 128GFLOPS に対して 16GB 専用のプログラム言語やインタフェースが必要 CUDA, OpenACC 30

Intel Xeon Phi 古い Pentium のアーキテクチャ + ベクトル演算器を最新の回路技術で実装ベクトル演算器 : 1 度に 8 個の実数計算を実行可能高い電力効率小さい実装面積高密度実装が可能 (Intel Xeon Phi 5110P で 60 コア ) 最新 CPU とアーキテクチャ互換将来は CPU とメモリを共有既存のプログラムが動くデータのコピーが不要どちらも性能を活かすためには高度なチューニングが必要 31

性能比較単精度実数演算性能倍精度実数演算性能 NVIDIA Tesla K20X Intel Xeon Phi 5110P Intel Xeon E5-2687 4.0TF 2.0TF 0.33TF 1.3TF 1.0TF 0.33TF メモリ容量 6GB 8GB 16~128GB 消費電力 235W 225W 150W 32

Tianhe-2 ( 天河 2) 構成 : (24 プロセッサコア + アクセラレータ ) x 約 1 万 6 千ノード CPU: Intel Xeon E5-2692 2.2GHz x 12cores x 2chips アクセラレータ : Intel Xeon Phi 31S1P 理論演算性能に対する実性能比 : 0.617 (= 33.9PF / 54.9PF) 電力あたり性能 : 1.90GF / W ネットワーク : Fat Tree 名称 : TH Express-2 出典 : http://eng.mod.gov.cn/database/academies/ 2013-06/18/content_4455818_2.htm 出典 : http://www.china.org.cn/top10/2013-06/21/content_29187340_10.htm 33

Titan 製品名 : Cray XK7 構成 : (16 プロセッサコア + GPU) x 約 1 万 8 千ノード CPU: AMD Opteron 6274 2.2GHz アクセラレータ : NVIDIA Tesla K20X 理論演算性能に対する実性能比 : 0.65 (= 17.6PF / 27.1PF) 電力あたり性能 : 2.14GF / W ネットワーク : 3 次元トーラス構造名称 : GEMINI 出典 : http://www.olcf.ornl.gov/titan/ 34

Sequoia 製品名 : IBM BlueGene/Q Top500 List の 2 位,4 位,5 位,9 位構成 : 16 プロセッサコア x 約 10 万ノード CPU: IBM PowerBQC 1.6GHz 理論演算性能に対する実性能比 : 0.81(= 16.3 PF / 20.1 PF ) 電力あたり性能 : 2.1GFLOPS / W ネットワーク : 5 次元トーラス構造出典 : https://www.llnl.gov/news/aroundthelab/2012/jun/atl -061812_sequoia.html 35

K Computer 理化学研究所と富士通による開発 http://www.aics.riken.jp 互換機の製品名 : Fujitsu PRIMEHPC FX10 九大情報基盤研究開発センターで利用可能構成 : 8 プロセッサコア x 約 8 万ノード CPU: Fujitsu SPARC64 VIIIfx 2.0GHz 理論演算性能に対する実性能比 : 0.93 (=10.5PF / 11.3PF) 出典 : http://www.aics.riken.jp/jp/k/facility.html 消費電力 : 0.83GFLOPS / W ネットワーク : 6 次元トーラス / メッシュ構造名称 : Tofu インターコネクト 36

Tianhe-2 vs Titan vs Sequoia vs K computer vs 地球シミュレータ天河 2 Titan Sequoia K computer 地球シミュレータ総 CPU コア数 384,000 299,008 1,572,864 705,024 5,120 ノード数 16,000 18,688 98,304 88,128 640 アクセラレータ Xeon Phi Tesla No No No 理論性能 54.9 PF 27.1 PF 20.1 PF 11.3 PF 0.041 PF 実性能 33.9 PF 17.6 PF 16.3 PF 10.5 PF 0.036 PF 実性能 / 理論 0.61 0.64 0.81 0.93 0.88 電力 17.8MW 8.2MW 7.9MW 12.7MW 3.2 MW 実性能 / 電力 1.9 GF/W 2.1 GF/W 2.1 GF/W 0.83GF/W 0.01GF/W 37

スーパーコンピュータを使いこなす : 並列計算に対する期待と現実プログラマ : CPU を 4 台使うんだから, 並列計算で 4 倍速くなって欲しい計算機製作者 : CPU 4 台で 3 倍くらい速くなれば十分だろう Why? アムダールの法則負荷のバランス通信のコスト 38

アムダールの法則プログラム中の高速化した部分しか高速化されない並列化にあてはめて考えると : 並列化による性能向上率の理論的な限界 =1/((1-P)+P/N) P: プログラム中の並列化対象部分が全処理時間に占める割合 N: プロセス数例 ) N=4 で 3.5 倍以上高速化するためには 95% 以上の部分の並列化が必要 39

分担する計算量のバランス並列プログラムの処理時間は最も遅いプロセスの処理時間である Execution time of this program Execution time of this program Rank 0 Rank 1 Rank 2 Rank 3 計算量が不均等な場合 Rank 0 Rank 1 Rank 2 Rank 3 計算量が均等な場合 40

通信時間並列化前は不要だった時間 = 並列化によるオーバーヘッド並列化前並列化後 Rank 0 Rank 1 Rank 2 Rank 3 41

スーパーコンピュータの計算時間と通信時間計算時間 : 基本的にプロセス数に応じて短縮通信時間 : 基本的にプロセス数に応じて増加所要時間 1 2 4 8 通信時間計算時間プロセス数プロセス数に応じて通信時間の比率が増大 42

スーパーコンピュータのネットワークへの要求通信性能遅延時間を短く高速なネットワークコントローラ短い接続経路経路の帯域幅を大きく高い伝送速度のネットワーク経路長い帯域幅細い経路短い帯域幅太い経路の競合を少なく経路数増加高度な経路制御競合競合経路数少ない経路数多い費用なるべく安く : ネットワークコントローラ経路数やスイッチ数経路の帯域幅に依存 43

Bus / Ring Topology 一本の Bus を全ノードで共有両端をつなげたものが Ring 長所 : 構成が簡単なので 1 本あたりの帯域幅を太く出来る経路とスイッチの数はノード数と同じなので費用は低い短所 : 同時に利用可能な通信経路は 1 本だけ双方向の場合 2 本プロセッサ内部のコア間ネットワーク (8 コア ) のような小規模なネットワークで利用 44

Full Direct Connection 全ノード間で一対一に接続長所 : 遅延時間 ( 通信距離 ) 最小短所 : 高価ノード数の 2 乗に応じた経路数各ノードでノード数分の接続が可能な大規模スイッチ小規模の CPU 間ネットワーク (4CPU 程度 ) で利用 45

Crossbar Switch 行列上の switch を介して全ノードを接続長所 : 遅延時間 ( 通信距離 ) はほぼ最小ノード数に比例した同時通信帯域幅短所 : 高価ノード数の 2 乗に比例した結線数とスイッチ数最大で地球シミュレータ (640 ノード ) 程度まで利用通常は数十ノード程度まで 46

Fat Tree 多段の crossbar switch による木構造で構成長所 : 比較的遅延時間が低い通信距離はスイッチの段数 x 2 比較的同時通信帯域幅が高い上位層のスイッチ数と経路数による比較的費用が安価短所 : 数万ノード以上のシステムではまだ高価大規模なシステムでは上位層の経路数を削減通常数千ノード規模まで Tianhe-2 は特別 47

多次元メッシュ / トーラス多次元の格子状にノードを配置し隣接ノード間を直接接続両端を接続したものがトーラス長所 : 費用が安価ノード数 N に比例した経路数リングやバスより格段に高速特に隣接ノードとの通信短所 : 通信パターンによっては通信衝突が多発プログラムの高度なチューニングが必要主に数万ノード規模で利用 48

さらなる大規模化に向けて High-Radix switch( ポート数の多いスイッチ ) の利用段数小通信遅延の低減同時通信帯域幅の維持例 ) 多段全対全結合出典 : http://www.unixer.de/publications/img/ibm-percs-network.pdf Dragonfly 出典 : http://research.google.com/pubs/archive/35154.pdf 49

スーパーコンピュータ開発の今後膨大な開発費 : 京の場合,7 年間で約 1,200 億円事業仕分けでの指摘 2 番じゃダメなんですか? 次の目標 : 2018 年 ~2020 年に 1 Exa FLOPS を達成 (1 Exa = 1,000 Peta) 予算は??? 50

今後の開発計画富士通 : 京の商用機発表 http://www.hpcwire.com/hpcwire/2011-11-07/fujitsu_unveils_postk_supercomputer.html NEC: SX-9 後継のベクトル計算機開発計画を発表 http://www.perfect-abs.info/news/vector-processor.html IBM: BlueGene/Q で 100PFLOPS を狙う http://www.theregister.co.uk/2011/11/16/ibm_bluegene_q_power_775/ Cray: Blue Water http://wjbc.com/cray-replaces-ibm-on-u-of-illinois-supercomputer/ Barcelona Supercomputing Center: Tegra + GPGPU でスーパーコンピュータ開発 http://latimesblogs.latimes.com/technology/2011/11/nvidiasupercomputer.html 中国 : 自国製 CPU ShenWey SW1600 http://www.hpcwire.com/hpcwire/2011-11- 01/china_s_indigenous_supercomputing_strategy_bears_first_fruit.html 51

米国の変化 PCAST (President s Council of Advaisors on Science and Technology) の指摘 http://insidehpc.com/2010/12/22/pcast-report-supercomputing-arms-race-may-be-the-wrong-path-forward/ "an arms race that is very expensive and may not be a good use of funds." TOP500 創設者が LINPACK ベンチマークの限界を指摘 http://www.top500.org/blog/top500-founder-erich-strohmaier-on-the-lists-evolution/ "It is expected to debut this November in tandem with SC13." "you will need to keep learning, changing and adapting to the rapidly changing hardware and software environments of HPC." 今後ゲームのルールが変わる可能性 52

Top500 に代わる指標 HPC Challenge http://icl.cs.utk.edu/hpcc/ 複数の部門でそれぞれ順位づけ Linpack, Matrix Multiply, Memory Bandwidth, Matrix Transpose, Random Access, Fast Fourier Trans, Communication Bandwidth and Latency 京は HPC Challenge の 5 部門でも 1 位 Graph500 http://www.graph500.org 組み合わせ最適化問題の計算性能比較 Green500 http://www.green500.org Top500 の性能を消費電力で割った電力対性能比を比較 53

次のスーパーコンピュータ開発に向けた議論米国 http://www.exascale.org ヨーロッパ http://www.prace-project.eu 日本 http://www.open-supercomputer.org/workshop/purpose.html 予算が問題 http://sankei.jp.msn.com/politics/news/111116/plc11111611240003-n1.htm 54