Microsoft PowerPoint ppt [互換モード]

計算機アーキテクチャ特論 2016 年 10 17 枝廣前半 ( 並列アーキテクチャの基本枝廣 ) 10/3, 10/17, 10/24, 10/31, 11/7, 11/14( 程は予定 ) 内容 ( 変更の可能性あり ) 序論 ( マルチコア= 並列アーキテクチャ概論 ) キャッシュコヒーレンシメモリコンシステンシ並列アーキテクチャモデル OSモデルスケーラビリティに関する法則並列プログラミングモデル語資料置場 : http://www.pdsl.jp/class/ 後半 ( 先端トピックス本 ) 11/21 内容 ( 変更の可能性あり ) 組込みアーキテクチャ再構成可能アーキテクチャ Page 1

メモリアーキテクチャ CPU CPU CPU CPU メモリメモリメモリ集中メモリ方式分散メモリ方式 CPU SoC メモリ階層キャッシュ CPU 内蔵メモリ SoC 内蔵メモリボード上メモリ別ボード上メモリストレージシステム高速小容量ボード低速大容量

次キャッシュコヒーレンシ ( キャッシュの貫性 ) メモリコンシステンシ ( メモリの整合性 ) Page 3

キャッシュの貫性 (coherency) シングルプロセッサ SW1 CPU1 SW2 3 4 キャッシュメモリバス AMP 型 ( ハードウェアサポートなし ) CPU1 3 4 キャッシュ CPU2 3? メモリバス SMP 型 ( キャッシュの Snoop( 盗み見 ) 機構 ) SW1 SW2 SW1 SW2 CPU1 3 4 キャッシュ CPU2 4 3 共有メモリ 3 共有メモリ 3 AMP 型の場合 SW2でメモ SMP 型では隣のCPUのシングルプロセッサの場リ上の同じデータを使いたいキャッシュの内容を盗み見合 SW1もSW2も同じ場合 SW1はキャッシュの内る (Snoop) ハードウェア機キャッシュから読むので容を一度共有メモリに戻す必構を持つソフトでは気にオーバーヘッドなく正しい要があるせずにSW1とSW2のデー値が読める SW1からSW2への通信をタ共有ができるプログラムに明示的に書く ( オーバーヘッドが小さい ) Page 4

キャッシュの役割 ( 復習 ) キャッシュは高速だが容量が小さい ( 入替がある ) Page 5

Page 6 キャッシュの構造 ( 復習 )

Page 7 ダイレクトマップ式 ( 復習 )

ライトスルーとライトバックライトスルー新しいデータを常にメモリに書き戻す書き込みデータをキャッシュに残す式と残さない式があるいずれにしてもメモリとキャッシュはいつも同じ値書き込みの時に時間がかかる後述のストアバッファ ( ライトバッファ ) を使うことによって改善できるがそれでも多くの書き込みが発すると CP U がまるライトバック新しいデータをキャッシュに書きメモリにはその時には書き戻さない 3つの状態インバリッド : 初期値無効な値クリーン : メモリと同じ値を保持ダーティ : メモリと異なる新しい値を保持 Page 8

ライトバックキャッシュの状態遷移ライトのキャッシュミス Page 9

例 SW1 SW2 CPU1 3 4 キャッシュ初期状態インバリッド値 3を読むクリーン 3 値 4に書き換えるダーティ Page 10

マルチコアのキャッシュ ( スヌープ式 ) Configurable number of hardware interrupt lines Interrupt Distributor Private lines Per CPU Peripher als Timer CPU Wdog interface IR Q Timer CPU Wdog interface Timer CPU Wdog interface Timer CPU Wdog interface Configurabl e SMP (1 and 4 PEs) CPU/VFP L1 Cache CPU/VFP L1 Cache CPU/VFP L1 Cache CPU/VFP L1 Cache ARM11 MPCore I & D Snoop Control Unit (SCU) 64bit Primary AXI R/W 64bit bus bus Optional 2 nd AXI R/W 64bit bus Coherence Control Bus Page 11

ライトアップデートとライトインバリデートライトアップデート書き込みがあった場合同じデータをもつすべてのコアのキャッシュの該当データを書き換える Page 12 ライトインバリデート書き込みがあった場合同じデータをもつすべてのコアのキャッシュの該当データを無効化 ( インバリデート ) するデータ書き換えよりも無効化のが簡単なので組込みプロセッサでは主流

スヌープキャッシュの状態遷移いろいろな式がある MESI MOESI など M(Exclusive Modified: モディファイド ) データが書き変わっている状態 ( 主記憶と致せず分だけがデータを持っている ) O(Owned: オウンド ) 主記憶と致していないが他のコアも同じデータを持っている E(Exclusive Clean: イクスクルーシブ ) 主記憶と致し分だけが持っている S(Shared Clean: シェアード ) 主記憶と致し他のコアも同じデータを持っている I(Invalid: インバリッド ) 無効状態 Page 13

Page 14 例 (MESI)

Page 15

Page 16

Page 17 キャッシュ間コピーができるアーキテクチャもある

Page 18 キャッシュ間コピーができるアーキテクチャもある

ミス I Invalid ミス Page 19

Page 20

Page 21

ディレクトリ型スヌープ型は集中メモリ型に多く使われるがメモリが分散している場合には実装が難しいその場合にはディレクトリ型が使われる今後つのLSIに多くのプロセッサが搭載される時代に有になると思われる Page 22

Page 23

Page 24 I

Page 25 フォールスシェアリング問題

キャッシュスラッシング問題同じキャッシュラインになってしまったセットアソシアティブキャッシュなら回避それでもダメなら配列参照がずれるようにする Page 26

メモリ整合性 AMP 型 ( ハードウェアサポートなし ) SW1 CPU1 SW2 CPU2 キャッシュ同時に書き込みがあったときの順番は? キャッシュなどの影響は? Page 27

メモリ整合性 ( メモリコンシステンシ ) プロセッサP1とP2でそれぞれのプログラムが動く変数 A Bは共有メモリ上にあるとする両のIF が同時に真になることはないはずある種のスイッチ / 排他制御になっているつもり例えば P1 で IF が真になったとすると P2 は L2 の前を実しているはずだから P2 の IF の評価のときには既に A=1 になっているはずしかしながら実際にはうまく動かない場合が多いなんらかの順序関係の記述が必要 Page 28

順序関係順序関係の保証をハードでやるのかソフトでやるのかハードですべて保証しようと思えばできないことはないがオーバーヘッドがきい ( プログラムのごく部の話で全体が遅くなっていいのか ) 部ソフトで保証することにしてハードを簡単化緩和する順序関係の候補 Read Write Write Read Write Write (Read Read) Page 29

順序関係スレッド 1 スレッド 1 Load M[x] スレッド 1 Store M[x] Load M[x] Store M[x] W R スレッド 2 Store M[x] Load M[x] 同期スレッド 2 スレッド 2 スレッド 1 スレッド 1 Store M[x] Store M[x] Store M[x] Store M[x] W W スレッド 2 スレッド 2 スレッド 1 スレッド 1 Store M[x] Load M[x] Store M[x] Load M[x] R W スレッド 2 スレッド 2 Page 30

メモリ整合性モデル W R W R, W W ソフトウェアでの対応 : 同期をとって ( 例えば ) ライトバッファをはきだす命令を出す sync() や flush() など Page 31

ライトバッファライトマージノンブロッキングキャッシュ Page 32 ライトバッファ書き込み終了を待つことなくバッファにためるライトバッファがあるとリードがライトを追い越すことがあるライトマージ近く ( 同時にメモリに書きこめる ) の書き込み命令をまとめるライトマージするとライトがライトを追い越すことがあるノンブロッキングキャッシュ前データ到着前にCPUはキャッシュアクセスが可能あらゆるメモリアクセス処理の追い越しがあり得る