Microsoft PowerPoint - 講習 _kido.pptx[読み取り専用]

Size: px

Start display at page:

Download "Microsoft PowerPoint - 講習 _kido.pptx[読み取り専用]"

たいちかいて
6 years ago
Views:

1 スパコンの概要と CMC のスパコンの紹介大阪大学サイバーメディアセンター講師木戸善之 2015/1/15

2 目次 1. スパコンの略歴 2. 計算機の概要 3. 並列計算 4. CMCのスパコン 1

3 1. スパコンの略歴計算機ってなんだ? 計算機計算に用いる機械 ( デジタル大辞泉 ) 計算のための機械器具のことコンピュータや電卓を指すことが多い (Wikipedia) 人が不得意な正確な演算やルーチンワークを肩代わりするための道具 2

4 1. スパコンの略歴計算機にも様々な種類がパーソナルコンピュータ主に個人で使用するために作られたコンピューターパソコン PC 汎用機 ( メインフレーム ) 企業の基幹業務に利用される大規模なコンピュータスーパーコンピュータ高度な数値計算 ( 量子物理流体解析ケモバイオインフォマティクス天文地学...etc) のためのコンピュータ数値だけでなく画像文書など様々な入力に対し処理を行い出力する装置 3

5 1. スパコンの略歴計算機は気安く触れられるものではなかった世界初の計算機 Atanasoff-Berry Computer (ABC), 1937 年, Iowa, USA ENIAC, 1946 年, Pennsylvania, USA Zuse Z3, 1941 年, Germany 世界初の汎用機 UNIVAC I, 1950 年, USA アポロ 11 号着陸, 1969 年の誕, 1975 年 CMC の前型計算機センター発, 1962 年 TCP/IP 採, 1983 年, USA 1939 年 1945 年第次世界戦! Grid Computing, 2003 年, I. Foster 1990 WWW/HTTP, 1990 年, CERN, EU 2000 Webサービス, 2000 年, W3C

6 1. スパコンの略歴弾道計算のシミュレーションただの放物運動 t 秒後の速度真空中の放物運動初期角度 :θ 0 初期速度 :v 0 重力加速度 :g 時間 :t v x v 0 cos 0 v y v 0 sin 0 gt t 秒後の座標 x v 0 cos 0 t y v 0 sin 0 t 1 2 gt

7 1. スパコンの略歴弾道計算のシミュレーション空気抵抗を入れてみよう速度に比例する空気抵抗を持つ放物運動初期角度 :θ 0 初期速度 :v 0 重力加速度 :g 時間 :t 空気抵抗 :k 物体の質量 :m t 秒後の速度 v x v 0 e k m t cos 0 v y (v 0 sin 0 m k g)e k m t m k g t 秒後の座標 x mv 0 k cos 0(1 e k m t ) y m k {(v 0 sin 0 m k g)(1 e k m t ) gt}

8 1. スパコンの略歴弾道計算シミュレーション様々な要因と応用発射された物体を正確に標的に当てるため最初は軍事目的ゴルフ野球などスポーツ科学衛星スペースシャトルの打ち上げフライトシミュレータ 3D ゲームなどのレンダリング物理演算分動学によるポリマー合成ドラッグデザイン天気予報要素初速仰空気抵抗 ( 湿度気温気圧により密度が変わり空気抵抗が変化 ) 弾丸の前投影積表の摩擦係数質量向きコリオリの重加速度物体の転 ( スピン ) による揚シミュレーション現実世界での現象を単純化簡略化した数理モデル ( は模型 ) をいて検証をう模擬実験 7

9 1. スパコンの略歴世界初の計算機世界初の計算機 ENIAC, 1946 年, Pennsylvania, USA 世界初の汎用機 UNIVAC I, 1950 年, USA 商業業務利に特化可性を追求科学技術計算に特化計算性能を追求世界初の電卓 Anita Mark8, 1963 年, UK 世界初のパーソナルコンピュータ Altair 8800, 1975 年, USA 世界初? のスーパーコンピュータ CDC 6600, 1964 年, Lawrence Livermore National Lab., USA. 3 MFLOPS FLOP = Floating point number Operations Per Second 8

10 1. スパコンの略歴計算機の速さって? FLOPS (Floating point Operations Per Second) 一秒間に浮動小数点演算を何回できるか? 京 : 約 10Peta FLOPS(10 16 回 ) Y: ヨタ Z: ゼタ E: エクサ P: ペタ T: テラ G: ギガ M: メガ k: キロ 10,000,000,000,000,000 世界初のスパコン CDC ,000,000 9

11 1. スパコンの略歴 Top500 Nov 天河 2A/ 広州国スパコンセンター, 中国 Jun, 1993 Nov, 1993 Jun, 1994 Nov, 1994 Jun, 1995 Dec, 1995 Jun, 1996 Nov, 1996 Jun, 1997 Nov, 1997 Jun, 1998 Nov, 1998 Jun, 1999 Nov, 1999 Jun, 2000 Nov, 2000 Jun, 2001 Nov, 2001 Jun, 2002 Nov, 2002 Jun, 2003 Nov, 2003 Jun, 2004 Nov, 2004 Jun, 2005 Nov, 2005 Jun, 2006 Nov, 2006 Jun, 2007 Nov, 2007 Jun, 2008 Nov, 2008 Jun, 2009 Nov, 2009 Jun, 2010 Nov, 2010 Jun, 2011 Nov, 2011 Jun, 2012 Nov, 2012 Jun, 2013 Nov, 2013 Jun, 2014 Nov, 2014 京, 理化学研究所 / 富通 10PFlop/s 1PFlop/s 100TFlop/s 10TFlop/s 地球シミュレータ, JAMSTEC/NEC CP-PACS, 筑波 / * #1 #500 1TFlop/s 100GFlop/s 阪大スパコン SX ACE(3 クラスタ ), 423TFLOPS ( 理論性能値 ) 10GFlop/s 数値洞, NAL( 現 JAXA)/ 富通 1GFlop/s 100MFlop/s 10

12 目次 1. スパコンの略歴 2. 計算機の概要 3. 並列計算 4. CMCのスパコン 11

2. 計算機の概要計算機のアーキテクチャ中央処理演算装置 :CPU( プロセッサ ) 計算を行う頭脳

揮発性が高く電源を落とすと内容は破棄補助記憶装置 : ハードディスク不揮発性で電源を落としても内容を保持

マウス Application OS hardware ハードウェアアーキテクチャ主記憶装置メモリ補助記憶装置

13 2. 計算機の概要計算機のアーキテクチャ中央処理演算装置 :CPU( プロセッサ ) 計算を行う頭脳命令により演算を行うベクタ部 (SIMD) とスカラ部をあわせもつ主記憶装置 : メモリ揮発性が高く電源を落とすと内容は破棄補助記憶装置 : ハードディスク不揮発性で電源を落としても内容を保持グラフィックカード出力装置につなぐデバイス GPGPU: 画像処理専用の補助演算装置入力装置 : キーボードマウス Application OS hardware ハードウェアアーキテクチャ主記憶装置メモリ補助記憶装置ハードディスクコア CPU コアチップセットチップセットキャッシュキーボードマウス USB ネットワークカード DVD ドライブグラフィックカード 12

14 2. 計算機の概要ベクタとスカラスパコン / プロセッサの種類スカラ計算機の命令を 1 つづつ実行逐次的に命令を実行高速化 : パイプライン処理, スーパースカラ代表システム : 京 Tsubame etc. 得意な計算 : 遺伝子相同性検索ベクタ複数の命令を一つにまとめて実行同じ命令 ( 演算 ) に対し異なるデータ ( 項 ) で実行する場合 1 つにまとめて実行することができる代表システム : 阪大 SX ACE 地球シミュレータ得意な計算 : 気候シミュレーション流体解析行列和の計算 x 0 x 1 x 2 x y 0 y 1 y 2 x スカラ命令 [x 0 x 1 x 2 x 63 ] +( ベクトル演算 ) [y 0 y 1 y 2 y 63 ] 1 ベクトル命令 13

15 2. 計算機の概要計算機における OS ARPANET からいろいろなネットワークが接続されて超巨大なネットワークインターネットに変貌.The Internet ネットワークのモチベーションデータの共有大型計算機を複数のユーザで共有 UNIX の登場 Unics, 1969 年 AT&T, USA Version 7 Unix, 1979 年, AT&T, USA Linux, 1991 年, GNU, USA Windows 年, Microsoft, USA Windows NT 年, Microsoft, USA Windows 95, 1995 年, Microsoft, USA Mac OS X, 2001 年, Apple, USA Windows XP, 2001 年, Microsoft, USA Android, 2007 年, Google, USA ios, 2008 年, Apple, USA 14

16 2. 計算機の概要 OS:UNIX のアーキテクチャマルチタスク ( マルチプロセス ) マルチユーザクライアントサーバモデル Application OS hardware 計算機はみんなで共有 OS カする計算機はネットワークでつなぐことを想定カーネル(POSIX) CUI システムライブラリファイルアクセス Application アクセス制御 GUI プロセス管理メモリ管理デバイスドライバ hard ware デバイスドライバ hard ware デバイスドライバ hard ware15

17 2. 計算機の概要コンピュータクラスタユーザクライアントリモートからアクセスインターネット /ODINS SSH でリモートログインログインノード / フロントエンドノードログインノードから計算ノードへジョブ投計算ノード 16

18 2. 計算機の概要ジョブ投入フロントエンドノードバッチキューシステム計算ノード待ち行列キュー 17

19 2. 計算機の概要 qsub でジョブ投入 #!/bin/csh #PBS q ACE #PBS l elapstim_req=1:00:00,memsz_job=60gb #PBS v F_RSVTASK=4 setenv F_PROGINF DETAIL cd $PBS_O_WORKDIR./a.out 計算機環境の指定ジョブキューに登録 $ qsub a_batch.sh Request cmc submitted to queue: ACE. $ 18

20 目次 1. スパコンの略歴 2. 計算機の概要 3. 並列計算 4. CMCのスパコン 19

21 3. 並列計算並列プログラミングとは逐次処理の問題, プログラム ( 実行時間 :T) をnに分割し n 台のプロセッサ (or 計算機 ) でT/n 時間にするプロセッサに割り当てられるタスクは独立並列化できる問題はデータに依存性のない問題のみに限られる通信によるオーバヘッド立ち上がり時間データ転送時間問題分割数 :n T/n 並列化時間 :T オーバヘッドち上がり時間データ転送時間 20

22 3. 並列計算プロセス並列とスレッド並列プロセス並列メモリ空間は独立並列タスク間でのデータ通信は必要に応じて例 :Message Passing Interface (MPI) スレッド並列メモリ空間を共有データ通信の必要性なし例 :OpenMP プロセス並列プロセス 1 メモリ空間ローカル変数スレッド並列スレッド 1 ローカル変数プロセス2 メモリ空間ローカル変数インターコネクトプロセスメモリ空間スレッド 2 ローカル変数グローバル変数領域プロセス3 メモリ空間ローカル変数スレッド 3 ローカル変数 21

23 3. 並列計算 Message Passing Interface (MPI) メッセージパッシング / プロセス間通信の規格分散メモリ型並列計算機での並列実行に向く大規模計算が可能にスケーラビリティ性能は高主要な実装例 MPICH LAM OpenMPI(C 言語,C++,Fortran) 略語 Processor Element: プロセスの単位.MPI プロセスを指す. Rank:PE の識別番号のこと.MPI_Comm_rank 関数で設定されるランク ID 22

24 3. 並列計算 MPI で Hello, World. #include <mpi.h> #include <stdio.h> #include <string.h> int main(int argc, char **argv) { char msg[20]; int myrank, num, i; MPI_Status status; MPI_Init(&argc, &argv); MPI_Comm_rank( MPI_COMM_WORLD, &myrank); MPI_Comm_size( MPI_COMM_WORLD, &num); if ( myrank == 0 ) { strcpy(msg, "Hello, World."); for (i = 1; i < num; i++) { } Rank 0 は送信側 MPI_Send(msg, strlen(msg) + 1, MPI_CHAR, i, 99, MPI_COMM_WORLD); } printf("rank %d send: %s n", myrank, msg); } else { MPI_Recv(msg, 20, MPI_CHAR, 0, 99, MPI_COMM_WORLD, &status); printf("rank %d receive: %s n", myrank, msg); } MPI_Barrier(MPI_COMM_WORLD); $ mpicc hello_mpi.c o m.out MPI_Finalize(); $ mpirun n 4./m.out return 0; rank 0 send: Hello, World. rank 1 receive: Hello, World. rank 2 receive: Hello, World. rank 3 receive: Hello, World. $ その他の Rank は受信側 23

25 3. 並列計算 OpenMP によるスレッド並列 MPI プログラマが並列化を意識してコードを書く必要がある OpenMP 1 ノードの中で閉じた並列処理コンパイラが自動的に並列化 ( 並列化効率はコンパイラに依存 ) ソースコード中に OpenMP ディレクティブを挿入し OpenMP 環境下では有効になり, それ以外では無効になる並列化と非並列では同じソースコードとなる #ifdef _OPENMP //OpenMP を使う #else //OpenMP を使わない #endif #pragma omp parallel for for (i = 0; i < 1000; i++ ) { // 並列処理させたいコード } 24

26 3. 並列計算 OpenMP で Hello, World. #include <omp.h> #include <stdio.h> 4 つのスレッド並列 int main(int argc, char **argv) { #pragma omp parallel num_threads(4) { printf("thread %d, Hello, world n", omp_get_thread_num()); } return 0; } $ gcc fopenmp hello_omp.c -o o.out $./o.out Thread 3, Hello, world Thread 0, Hello, world Thread 1, Hello, world Thread 2, Hello, world $ 25

27 3. 並列計算ハイブリッド並列フラット並列モデルプロセス並列のみコアごとにプロセス通信がプロセス間ごとに発生ハイブリッド並列モデルプロセス並列 ( ノード間 )+ スレッド並列 ( ノード内 ) コア数が増えてもプロセス数は増加せず通信が混雑しないフラット並列プロセスプロセスノード 1 スレッドスレッドプロセスプロセスプロセスハイブリッド並列スレッドスレッドノード 1 プロセスプロセスプロセスプロセスノード 2 スレッドスレッドプロセススレッドスレッドノード 2 26

28 4.CMC のスパコン CMC 大規模計算機システムサービススカラープロセッサベクタープロセッサ汎用コンクラスタ (HCC) 大規模可視化対応 PC クラスタ (VCC) スーパーコンピュータ SX ACE 更新スーパーコンピュータ SX 8, SX 9 変わりました! 27

29 4.CMC のスパコン CMC 大規模計算機システムの利用方法ログインノードフロントエンドノード % qsub % qsub スケジューラスケジューラジョブクラスを指定フロントエンドノード実行時間 CPU 並列数などを定めたジョブクラスに対応したキューにジョブが蓄積される HCC VCC SX ACE 28

NUMAの構成

NUMAの構成メッセージパッシングプログラミング天野共有メモリ対メッセージパッシング共有メモリモデル共有変数を用いた単純な記述自動並列化コンパイラ簡単なディレクティブによる並列化 :OpenMP メッセージパッシング形式検証が可能 ( ブロッキング ) 副作用がない ( 共有変数は副作用そのもの ) コストが小さいメッセージパッシングモデル共有変数は使わない共有メモリがないマシンでも実装可能クラスタ