(Microsoft PowerPoint \215u\213`3\201i\217\254\226\366\201j.pptx)

Size: px

Start display at page:

Download "(Microsoft PowerPoint \215u\213`3\201i\217\254\226\366\201j.pptx)"

ありおきひめい
7 years ago
Views:

1 ( 講義 3) 並列システム概説神戸大学システム情報学研究科小柳義夫並列システム概説 1

2 目次 1.1 フォンノイマン型コンピュータ 1.2 仮想記憶 1.3 キャッシュメモリ 1.4 メモリ階層と局所性 1.5 演算順序 ( 高速処理 ) 1.6 マルチコア 1.7 並列処理 1.8 並列性 1.9 並列コンピュータの歩み 1.10 並列処理性能評価指標 1.11 エクサフロップスに向けて岩波講座計算科学別巻スーパーコンピュータに基づく [2012 年出版 ] 並列システム概説 2

3 1.1 フォンノイマン型コンピュータ特徴 (1) 記憶装置 ( メモリ主記憶 ) は 1 個だけあり 1 次元アドレスにより規定されるアドレス空間を構成する (2) 演算を制御する命令がデータとともに記憶装置に記憶される (3) 演算は命令の信号によって実行される (4) 命令は次に実行すべき命令のアドレスを保持する単一のプログラムカウンタ (program counter) により逐次的に実行されるプログラム内蔵型コンピュータ命令駆動コンピュータ並列システム概説 3

4 1.2 仮想記憶現在のほとんどのコンピュータは仮想記憶 (virtual memory) 方式を採用仮想的な記憶装置を提供プログラムカウンタは仮想アドレスを示す命令のオペランドのアドレスは仮想アドレス物理的な大きさに囚われず ( オーバーレイ不要 ) 不連続なメモリ領域をプログラムから連続に見せるプロセス毎に別のアドレス空間 ( 多重仮想記憶 ) データの保護 ( アクセス権を設定できる ) 並列システム概説 4

5 仮想記憶のメカニズムプログラムやデータは補助記憶装置 ( ディスク ) に格納される必要に応じて主記憶にコピーし補助記憶に戻される仮想 ( 論理 ) アドレスと実 ( 物理 ) アドレス変換テーブル ( ページ表 ) は OS が管理必要なデータが主記憶になければ OS が補助記憶から読み出して主記憶に置く主記憶が一杯になれば一定のアルゴリズムで補助記憶に待避する ( 変更がなければただ消去 ) 変換テーブルもデータの一種 ( 待避されることもある ) 並列システム概説 5

が管理必要なデータが主記憶になければ OS が補助記憶から読み出して主記憶に置く主記憶が一杯になれば

6 アドレス変換の高速化 TLB(translation lookaside buffer) よく使われる論理アドレスについてのページテーブルのデータを保持格納方式は後述のキャッシュと同じ保護フィールド利用ビットダーティビットも持つ TLB ミス : 変換テーブルの一部を TLB にコピー ( どこかを追い出す必要 ) アドレス変換テーブルの変更を反映キャッシュと同じく多重 TLB もある ( 京は 2 段 ) 命令用とデータ用で区別することもある並列システム概説 6

利用ビットダーティビットも持つ TLB ミス : 変換テーブルの一部を TLB にコピー ( どこかを追い出す必要

7 アドレス変換ページ ( 例えば 4KB) 単位に管理論理物理の変換はページ単位下位 12 ビット ( ページオフセット ) を除く上位アドレスを仮想ページ番号という変換テーブルはページテーブルページフォールト OS は一定のアルゴリズムで物理メモリのあるページを追い出し ( ページアウトという ) 必要なページを補助記憶から読み込み物理メモリのそのページに置くもちろんページテーブルも更新する並列システム概説 7

ページフォールト OS は一定のアルゴリズムで物理メモリのあるページを追い出し ( ページアウトという )

8 ページサイズの選択ページサイズが大きい方が : ページテーブル自体が小さくなる空間局所性 ( 後述 ) を活用できる補助記憶とのやりとりが効率的 TLB ミスが減るしかし容量の無駄が生じやすい複数のページサイズをもつプロセッサもある京の Sparc64 viiifx では 8KB, 64KB, 512KB, 4MB, 32MB, 256MB, 2 GB を指定できる ( らしい ) 並列システム概説 8

複数のページサイズをもつプロセッサもある京の Sparc64 viiifx では 8KB, 64KB,

9 1.3 キャッシュメモリ主記憶の容量は急速に増大しているがアクセス時間は CPU の演算速度に比べて非常に大きい ( 数百演算に相当 ) 1 命令につき必ずメモリアクセスフォンノイマンボトルネックキャッシュ : 高速小容量のメモリユーザから直接見えない機能的にはフォンノイマン型コンピュータの基本原理に準拠並列システム概説 9

10 キャッシュのデータ格納構造アクセスするデータがキャッシュ上 : ヒットヒット率を上げる必要主記憶のどの部分をコピーしておくかキャッシュ上にあるかどうかを高速に判定チェック機構を単純にどの単位で出し入れ小さいと転送の回数が増える大きいと不必要なデータも転送することになるラインを単位例えば64B( 下位 6ビットに対応 ) 並列システム概説 10

11 キャッシュのデータ格納構造フルアソシアティブキャッシュ : ラインより上位のアドレスそのものをキーとして検索キャッシュとしては非現実的実際は上位アドレスを分割するフレームアドレスエントリアドレスライン内アドレスフレームアドレスをキーとするエントリアドレスはキャッシュ内のアドレスダイレクトマップ方式 k-way set associative cache キャッシュラインの入れ替えアルゴリズム並列システム概説 11

12 キャッシュメモリの動作 (data cache) メモリとキャッシュの一致をどう保つか CPUがキャッシュに書き込む場合メモリが共有されている場合 ( 後述 ) 通信 ( 受信 ), I/O 等でメモリに書き込まれる場合通信 ( 送信 ), I/Oでメモリから送る場合 Write through と write back 書き込みの高速性 :write back Consistency: write through 命令キャッシュは書き込みなし ( 現在では ) 並列システム概説 12

I/Oでメモリから送る場合 Write through と write back 書き込みの高速性 :write back

13 多階層キャッシュプロセッサの速度向上 L1: 高速小容量命令とデータと別 L2: 中速中容量命令とデータ共通メモリ : 低速大容量キャッシュの格納構造キャッシュ毎に設定可能 Sparc64 viiifx の例 Line size: 128B L1: 命令データ別 2-way, 各 32KB, write through, core 毎 L2: 共通 12-way, 6MB, write back, 共有 CPU L1 cache L2 cache memory 並列システム概説 13

128B L1: 命令データ別 2-way, 各 32KB, write through, core 毎 L2: 共通

14 仮想記憶とキャッシュ物理インデックスキャッシュと仮想インデックスキャッシュ仮想アドレス : 一意でない ( 多重仮想空間 ) プロセスの切り替えのたびに追い出す必要物理アドレス : 一意だが TLB により変換が必要 L1: 仮想 ( 高速小容量で入れ替え負担小 ) L2: 物理 ( 大容量 L1 アクセスと同時に TLB を引く ) TLB も多階層のことがある並列システム概説 14

15 命令用京の Sparc64 viiifx の場合 L1 TLB: 16 entries, full associative L2 TLB: 256 entries, 2-way set associative と full associative から成る ( らしい ) データ用 L1 TLB: 16 entries, full associative L2 TLB: 512 entries, 2-way set associative と full associative から成る ( らしい ) 並列システム概説 15

らしい ) データ用 L1 TLB: 16 entries, full associative L2 TLB: 512

16 1.4 メモリ階層と局所性 Register L1 cache L2 cache L3 cache(if any) main memory disk 昔は演算の時間が律速今はデータの供給が律速できるだけ高速メモリを使えばよいしかし容量は小さいメモリ階層を意識したプログラミングが重要しかしメモリ階層は直接見えない ( 見たくない ) 並列システム概説 16

17 局所性 (locality) メモリに複数回アクセスする場合の様式に関する概念時間的局所性 (temporal locality) 空間的局所性 (spatial locality) 定性的相対的概念定量化しにくいメモリ階層を有効に活用するために重要並列システム概説 17

18 時間的局所性あるデータがアクセス ( 読み出しまたは書き込み ) された場合近い将来にも同じデータが再びアクセスされる可能性が高いようなアクセスの形式このようなデータは高速な記憶装置 ( レジスタやキャッシュなど ) に置くことができるレジスタに置いておけるか : 次にアクセスされるまでの時間やレジスタの使用状況による割り付けは高級言語ではコンパイラの任務キャッシュに置いておけるか : 空間局所性並列システム概説 18

19 空間的局所性あるデータがアクセスされた場合近い将来にはその近傍 ( アドレスから見て ) のデータだけがアクセスされる可能性が高く遠いアドレスのデータがアクセスされないようなアクセスの様式キャッシュでは : ラインを単位とくにダイレクトマップの場合エントリアドレスが同一の違うデータへのアクセス必ず追い出される典型 : キャッシュサイズの間隔でアクセスこの意味でベストは連続アクセス ( 逐次的局所性ともいう ) 仮想記憶では : ページを単位にメモリ上にある実メモリから追い出される可能性 TLB をミスする可能性並列システム概説 19

エントリアドレスが同一の違うデータへのアクセス必ず追い出される典型 : キャッシュサイズの間隔でアクセス

20 命令の局所性実行される命令の集合の様式時間的局所性 : 小さな反復 ( 短い命令列 ) を多数回実行悪い例 : 長い命令の列を 1 回だけ実行する空間的局所性 : 命令キャッシュに収まる領域の中を走る場合悪い例 : しばしば離れたアドレスにジャンプ並列システム概説 20

21 1.5 演算順序 ( 高速化手法 ) 基本原理 : 逐次メモリから命令を取り出して実行する完全に終わってから次の命令を取り出すあまりに遅いもっと高速に実行したい逸脱する手法が発達してきた : ただし結果はあくまで基本原理に従って実行した場合と同一でなければならない並列システム概説 21

22 命令パイプラインパイプライン制御 ( 流れ作業 ) 命令 1: フェッチデコード実行命令 2: フェッチデコード実行命令 3: フェッチデコード実行命令 4: フェッチデコード実行時間依存関係 : 演算の結果による分岐など割り込みの処理 ( エラーなど ) 並列システム概説 22

23 演算パイプライン ( ベクトル処理 ) 演算そのものをオーバーラップさせる do i=1, n c(i)=a(i)+b(i) end do 並列システム概説 23

24 演算パイプライン ( ベクトル処理 ) ベクトル処理 :1~3 個の 1 次元データの各要素に対する同一の演算を演算パイプラインにより高速に処理最初に提案 :D. N. Senzigand R. V. Smith (IBM), Proc. of AFIPS 65, 1965 最初のベクトル演算器 2938 Array Processor (IBM), J.F.Ruggieroand D.A. Coryell, IBM Systems Journal, 8(1969) 並列システム概説 24

25 演算パイプライン ( ベクトル処理 ) データの供給ベクトルレジスタ (ASC, Star-100, IAP, Cyber203/205, ETA10 を除く ) レイテンシ隠蔽時間的局所性バンクメモリ ( バンド幅 ) キャッシュは役に立たない NEC SX-9 には ADB という制御可能なキャッシュがある多重ベクトル処理日本のベクトル計算機のお家芸並列システム概説 25

26 多数の命令の同時実行依存性のない演算は並行して実行できる命令レベル並列性 (Instruction-level parallelism) 現在のコンピュータには多数の演算器が装備メモリアクセスも並行して実行スーパーパイプラインただし基本原理に従った場合と同一判断コンパイラ CPU( ハードウェア ) 並列システム概説 26

27 SIMD 方式本来 Flynn の分類の一つ Single Instruction, Multiple Data SSE, VMX, AVX など同一の命令 (a+b, a*b+c など ) を複数 (2~8) 個のデータに対して実行ベクトル処理と類似 (short vector) GPU (graphic processing unit) グラフィックコントローラから発展 GPGPU 並列システム概説 27

28 Out-of-Order 実行命令の順序を入れ替えて実行命令のブロックをバッファに読み込みデコードを行って待つ入力オペランドが得られた順に実行する一種のデータ駆動計算機基本原理に従って計算したのと同一の結果が得られるよう制御する並列システム概説 28

29 分岐予測投機的実行高速化の邪魔 : 分岐ー判定に時間が掛かる予測し分岐の先まで実行を進める予測が当たればラッキー外れたらリセット予測の精度にもよるが平均的には得両方の分岐先の実行をあらかじめ並列に進めておき判定が出た段階で正しい方を採用投機的実行 (speculative execution): 結果を捨ててしまうかもしれない命令を実行すること有り余るトランジスタの利用法の一つ並列システム概説 29

30 1.6 マルチコア複数の CPU を搭載したチップ個々の CPU をコア (core) という磁気 core ではない ( このジョークの分かる人は老人 ) コアの数は 18 ヶ月毎に倍増する ( 新しい Moore の法則 ) チップ自体を CPU と呼ぶこともあるがよくないせめて CPU チップと ( メモリや NW と区別 ) あるいはダイソケット ( ニュアンスが違う ) 現在は 16 コア程度が最高 BlueGene/Q は 18 コア (1 つは予備 1 つは OS 専用 ) このノートパソコンは dual core 大学で使っているデスクサイド PC は octacore 並列システム概説 30

31 メニーコア (manycore) 機能を制限した CPU を多数組み込んだチップ OSの主要部が動く程度 GPUなどのアクセラレータは演算のみ同一コア (MICなど) 混合チップも出てくるであろう問題点メモリバンド幅が相対的に減少 Local memoryかキャッシュか 3 次元チップ並列システム概説 31

32 1.8 並列処理並列処理 (parallel proc.) と並行処理 (concurrent proc.) 歴史 L.F. リチャードソンの夢 (1922) リチャードソン加速 ( 補外 ) も彼による建部賢弘は 200 年前に ENIAC でも加減算と乗算の同時処理 EDVAC 報告書では非現実的広義の並列処理前述の CPU 内高速化技術全体も一種の並列処理狭義には複数の CPU が並列動作の場合並列システム概説 32

33 Richardson's Forecast Factory 並列システム概説 33

34 Richardson's Forecast Factory 並列システム概説 34

35 ベクトルか並列か? 1960 年以来の高性能計算の対立項単独 ( 少数 ) の高性能ベクトルで実現 ( 少数精鋭 ) 比較的低い性能のプロセッサを多数 ( 人海戦術 ) 半導体技術の進歩対立項の解消 : 結局多数精鋭でなければならないさきほどベクトル処理を CPU 内の高速化技術として位置づけた現在ではマルチコアメニーコアの時代並列システム概説 35

36 1.8 並列性並列性 : 複数の処理が原理的に同時に実行可能結合則分配則によって並列性を見いだすカスケード演算 ( 分散メモリの場合 ) 全部のノードで総和がほしい浮動小数演算の丸め誤差バタフライ加算 Sparc64 viifx/viiifx の演算器付きネットワーク Recursive doubling 漸化式の並列化並列システム概説 36

37 並列処理モデル ( マクロな並列性 ) Master-worker モデル (EP, embarrassingly parallel) Worker 同士に通信なし Load balance が問題データ並列配列の各要素にほぼ同一な演算を行う Loop-level parallelism とも呼ばれるベクトル処理や SIMD 演算が得意データ配置の問題並列システム概説 37

38 並列処理モデル ( マクロな並列性 ) タスク並列プロセッサ毎にタスクを割り当てる領域分割法偏微分方程式に対する反復法が典型依存関係はアルゴリズムによる加法的 Schwarz 領域分割内点消去領域分割法粒子分割法多粒子問題は領域分割でも可能並列システム概説 38

39 メモリアーキテクチャ大きく二つに分類共有メモリ対称型マルチプロセッサ分散共有マルチプロセッサ分散メモリプログラミングモデルとしても意味をもつ両者は独立共有メモリモデルでプログラムして分散メモリのコンピュータの上で走らせる (HPF など ) 逆もある並列システム概説 39

40 対称型マルチプロセッサメモリの任意の場所がどのプロセッサからも等距離 ( 原理的に ) メモリはプロセッサ数の口をもつ必要排他制御が必要メモリバンド幅の維持現在では SMP は symmetric multiprocessor よりも shared memory processor の略号として使われることの方が多い並列システム概説 40

41 分散共有メモリ (Distributed Shared Memory) 各プロセッサは固有のメモリをもっているが他のプロセッサからもアクセス可能 NUMA (Non-Uniform Memory Access) とも呼ばれる対称型は UMA 現在では対称型でも完全に同一の時間でアクセスできるわけではないので両者の区別は曖昧に各データをどこのメモリに置くかが重要 First touch, memory affinity,. 並列システム概説 41

42 キャッシュコヒーレンシ共有メモリ型のキャッシュ 1. 個別のプロセッサが独占するキャッシュ 2. 一部のプロセッサが共有するキャッシュ 3. 全体で共有するキャッシュメモリ上の同一のデータのコピーが複数のキャッシュに存在する場合あるプロセッサが書き込むと不整合 Write through でも write back でも同様不整合を起こさないこと : コヒーレンシ Update 方式 ( 無駄 ) Invalidate 方式バススヌーピングとディレクトリ方式 ccnuma 並列システム概説 42

43 分散メモリ型並列コンピュータ複数台のコンピュータをネットワーク ( 相互接続網 ) で接続通信モデルメッセージパシングリモート DMA( ユーザレベル通信ゼロコピー通信 ) リダクション通信バンド幅遅延レイテンシ倍セクションバンド幅ハイブリッド並列処理並列システム概説 43

44 1.9 並列コンピュータの歩み milestone に注目 1 MF: CDC6600 (1964, pk4 MF) 10 個の functional units. LLNL に納入 clock 10 MHz, add 4 clocks, mult10 clocks(x2) 10 MF: CDC7600 (1969, pk36 MF) 命令パイプライン FACOM APU (1977, pk22 MF) NAL 100 MF: Cray-1 (1976, pk160 MF) 演算パイプライン IlliacIV (1976, pk150 MF) SIMD 並列処理 (64) デコーダは 1 個 HITAC S810/20, FACOM VP200 など並列システム概説 44

45 並列コンピュータの歩み (2/5) 1 GF: Cray X-MP/4 (1984, pk1.26 GF) Cray-2 (1985, pk 1.95 GF) VP-400 (1985, pk 1.14 GF) SX-2 (1986, pk1.3 GF) SX-2 は Livermore Loop No. 7 (Equation of States) で GFlops を実測 X-MP/4 では最大 GFlops(No. 7) を達成 10 GF: ETA-10 (1987, pk10 GF) 液体窒素冷却ほとんど安定に作動せず PHI (1989, pk10 GF) スパコン大プロ評価後解体 SX-3/44R (1990, Lp23.2 GF) NEC 社内 C916/16256 (1992, Lp13.7 GF) Cray 社内 CM-5/1024 (1993, Lp 59.7 GF) LANL S-3800 (1993, Lp27.5 GF) 東大並列システム概説 45

46 並列コンピュータの歩み (3/5) 100 GF: NWT (1993, Lp124 GF) NAL Paragon XP/S140 (1993, Lp GF) SNL cp-pacs(1996, Lp368.2 GF) 筑波大 Petaflops 計画始まる (1994) 1 TF: ASCI Red (1997, Lp1.068 TF 2.379) SNL ASCI Blue Mountain (1998, Lp TF) LANL ASCI Blue Pacific (1998, Lp2.144 TF) LLNL ASCI White (2000, Lp ) LLNL 並列システム概説 46

47 HTMT 構想並列システム概説 47

48 並列コンピュータの歩み (4/5) 10 TF: Earth Simulator (2002, Lp35.86 TF) ASCI Q (2002, Lp13.88 TF) LANL Red Storm (2005, Lp36.19 TF) SNL ASCI Purple (2006, Lp75.78 TF) LLNL Tsubame(2006, Lp38.18 TF) 東工大 100 TF: BlueGene/L (2005, Lp )LLNL BlueGene/P (2007, Lp ) FZJ Earth Simulator 2 (2009, Lp TF) Kraken (2009, Lp TF) Tennessee 並列システム概説 48

49 並列コンピュータの歩み (5/5) 1 PF: Roadrunner (2008, Lp1.026 PF) LANL Jaguar (2008, Lp ) ORNL Nebulea(2010, Lp1.271 PF) Shenzhen 深圳市天河 1A (2010, Lp2.566 PF) 天津 Tsubame2.0 (2010, Lp1.192) 東工大 10 PF: 京 (2011, Lp ) 理研 Sequoia (2012, Lp PF) LLNL Mira (2012, Lp8.163 PF) ANL 100 PF:? 1 EF:??? 並列システム概説 49

50 1.10 並列処理性能評価指標速度向上率 S(p) = T( 1)/T(p) 並列処理効率 E ( p) = S( p) / p Amdahl の法則 S( p) = 1 1 α + α / p < 1 1 α 並列システム概説 50

51 並列処理性能評価指標 Gustafsonの法則 S( p) = p β ( p 1) Amdahl の法則との関係 1 α β = 1 α + α / スケーリング p いくつかの条件を固定したときある量が他の量に一定の範囲でほぼ比例する強いスケーリングと弱いスケーリング並列システム概説 51

52 並列化で速度が向上しない理由以下の理由は独立ではない並列化できない処理とくに初期化や入出力通信 ( 隠蔽できない場合 ) とくにリダクション通信同期できるだけ減らしてパイプライン処理負荷の不均衡アルゴリズムの不適切並列システム概説 52

53 1.11 エクサフロップスに向けてメモリバンド幅の壁チップ内メモリなら高速アクセス可能キャッシュ ( またはその変種 ) で済むかプログラマブルメモリ : フォンノイマン型コンピュータの基本原理からバイバイ消費電力の壁数 pj/flop データ移動の方が電気を食う故障率の壁故障しても動けるコンピュータ並列システム概説 53

54 Memory and memory B/W 地球シミュレータ 4 B/Flop and 0.25 B/Flops (10 TB for 40 Tflops) The K Computer (single node) 64 GB/s for 128 Gflops B/Flop 16 GB for 128 Gflops B/Flops Standard EXA 0.1 EB/s for 1 Eflops B/Flop PB for 1 Eflops B/Flops Limitation Cost and power Programmability 並列システム概説 54

55 今後の HPCI 技術開発に関する報告書計算科学ロードマップ白書 HPCI 技術ロードマップ白書並列システム概説 55

56 Memory and memory bandwidth SoC Big technical issue Large B/Flop K ES Small system standard 0.1 Small B/Flops 0.1 Large B/Flops GPU Small B/Flop 並列システム概説 56

57 最後に Von Neumann アーキテクチャにもかかわらず並列処理はコンピュータの初期から利用されていた現在では core 内 chip 内 chip 間 node 間の並列性が存在並列性を活用するソフトウェアは今後の発展が期待されるいつまで MPI か? エクサフロップスでは 10 8 以上の並列性を活用する必要がある並列システム概説 57

この方法では, 複数のアドレスが同じインデックスに対応づけられる可能性があるため, キャッシュラインのコピーと書き戻しが交互に起きる性のミスが発生する可能性がある. これを回避するために考案されたのが, 連想メモリアクセスができる形キャッシュである. この方式は, キャッシュに余裕がある限り主記憶の

この方法では, 複数のアドレスが同じインデックスに対応づけられる可能性があるため, キャッシュラインのコピーと書き戻しが交互に起きる性のミスが発生する可能性がある. これを回避するために考案されたのが, 連想メモリアクセスができる形キャッシュである. この方式は, キャッシュに余裕がある限り主記憶の計算機システム Ⅱ 演習問題学科学籍番号氏名 1. 以下の分の空白を埋めなさい. CPUは, 命令フェッチ (F), 命令デコード (D), 実行 (E), 計算結果の書き戻し (W), の異なるステージの処理を反復実行するが, ある命令の計算結果の書き戻しをするまで, 次の命令のフェッチをしない場合, ( 単位時間当たりに実行できる命令数 ) が低くなる. これを解決するために考案されたのがパイプライン処理である.