Microsoft PowerPoint - No14…L………b…V…–…†…‡…−.ppt

Similar documents

積載せずかつ燃料冷却水及び潤滑油の全量を搭載し自動車製作者が定める工具及び付属品 (スペアタイヤを含む )を全て装備した状態をいうこの場合において燃料の全量を搭載するとは燃料

2 役員の報酬等の支給状況役名法人の長理事理事 ( 非常勤 ) 平成 25 年度年間報酬等の総額就任退任の状況報酬 ( 給与 ) 賞与その他 ( 内容 ) 就任退任 16,936 10,654 4,36

KINGSOFT Office 2016 動作環境対応日本語版版共通利用上記動作以上以上空容量以上他接続環境推奨必要 2

(2) 単身者向け以外の賃貸共同住宅等当該建物に対して新たに固定資産税等が課税される年から起算して5 年間とする ( 交付申請及び決定 ) 第 5 条補助金の交付を受けようとする者は

Microsoft PowerPoint - 報告書(概要).ppt

続に基づく一般競争 ( 指名競争 ) 参加資格の再認定を受けていること ) c) 会社更生法に基づき更生手続開始の申立てがなされている者又は民事再生法に基づき再生手続開始の申立てがなさ

する ( 評定の時期 ) 第条成績評定の時期は第 3 次評定者にあっては完成検査及び部分引渡しに伴う検査の時とし第次評定者及び第次評定者にあっては工事の完成の時とする ( 成績評定

私立大学等研究設備整備費等補助金（私立大学等

2 県公立高校の合格者はこのように決まる (1) 選抜の仕組み選抜の資料選抜の資料は主に下記の3つがあり全高校で使用する共通のものと高校ごとに決めるものとがあります 1 学力検査 ( 国語数

別冊資料-11

2 役員の報酬等の支給状況平成 27 年度年間報酬等の総額就任退任の状況役名報酬 ( 給与 ) 賞与その他 ( 内容 ) 就任退任 2,142 ( 地域手当 ) 17,205 11,580 3,311 4 月 1

<4D F736F F D F4390B3208A948C E7189BB8CE F F8C668DDA97702E646F63>

第２回　制度設計専門会合事務局提出資料

第１章　簿記の一巡

平成25年度　独立行政法人日本学生支援機構の役職員の報酬・給与等について

ていることからそれに先行する形で下請業者についても対策を講じることとしました本県としましてはそれまでの間に未加入の建設業者に加入していただきますよう 28 年 4 月から実施することとしました問 6 公共工事の

は固定流動及び繰延に区分することとし減価償却を行うべき固定の取得又は改良に充てるための補助金等の交付を受けた場合においてはその交付を受けた金額に相当する額を長期前受金とし

社会保険加入促進計画に盛込むべき内容

根本確根本確民主率運民主率運確施保障確施保障自治本旨現資自治本旨現資挙管挙管代表監査教育代表監査教育警視総監道府県警察本部市町村警視総監道府県警察本部

<6D33335F976C8EAE CF6955C A2E786C73>

第３１６回取締役会議案

全設健発第　　　　　号

のとする (1) 防犯カメラを購入し設置 ( 新設又は増設に限る ) すること (2) 設置する防犯カメラは新設又は既設の録画機と接続することただし録画機能付防犯カメラは

(Microsoft Word - \203A \225\345\217W\227v\227\314 .doc)

一般競争入札について

Transcription:

メモリアーキテクチャ2 キャッシュメモリ計算機アーキテクチャ ( 第 14 回目 ) 今井慈郎 (imai@eng.kagawa-u.ac.jp)

キャッシュメモリ(cache memory) CPU 内部 (or 周辺 )に設けられた高速小容量メモリキャッシュメモリに使用頻度の高いデータを格納. 低速な主記憶へのアクセスを低減. 結果として, CPU 処理を高速化最近のCPUでは,キャッシュメモリをn 段階 (n 種類 ) 搭載.CPUが,まず,i 次キャッシュにデータを読みに行き,もしデータがなければ,(i+1) 次キャッシュへアクセス(i=1,2, n=2,3). i 次キャッシュの速度 > (i+1) 次キャッシュの速度 i 次キャッシュの容量 < (i+1) 次キャッシュの容量

キャッシュ(cache) 使用頻度の高いデータを高速アクセス可能な記憶装置に蓄えておくことで,いちいち低速な装置から読み出す無駄を省いて高速化すること.また,その際に使われる高速な記憶装置. ( 例 ) 主記憶はハードディスクと比較すれば高速データアクセスが可能. 使用頻度の高い( 入出力 )データをメモリ内に保持.ハードディスク上にデータ総て置いた場合よりも処理を高速化 : 主記憶がハードディスクのキャッシュとして動作 ( 例 ) 通信では, 低速な通信回線による読込み済みデータをハードディスクに蓄積 : 次からはハードディスクをキャッシュとして高速データ閲覧可能

キャッシュ(cache) 但し, 単にキャッシュと表記した場合,コンピュータ内の主記憶 (メインメモリ)よりもさらに高速アクセスが可能な CPU 内部に用意されたキャッシュメモリを指す場合が一般的である. ここでは, キャッシュ = キャッシュメモリとして話を進める.

キャッシュメモリとは No1 メモリシステムの高速化技法の1つであるキャッシング(caching)に使われるメモリデータを遣り取りする2つのデバイス間に速度差が存在すると, 遅いほうのデバイスがボトルネックになり, 速いほうのデバイスが本来の性能を発揮できない( 相手の動作を待つため). この速度差を緩衝するのがキャッシュメモリの役目

キャッシュメモリとは No2 メインメモリに使われているDRAMの速度はCPUに比べて遅く,CPUの命令実行速度を下げる原因問題解決のため,CPU メインメモリ間にキャッシュメモリと呼ばれる高速 & 小容量メモリを配置 CPUがアクセスする頻度の高いコード&データを可能な限りキャッシュメモリに格納 CPUがメインメモリのあるアドレスからデータを読み込む時,キャッシュにそのデータを蓄積.その後, CPUが再び同じアドレスからデータを読み込もうとしたら,メインメモリの代わりにキャッシュからデータを供給.CPUは低速なメインメモリに待たされることなく, 必要なデータを読み込める

キャッシュメモリとは No3 書き込みの場合は, ライトスルーやライトバックといったアルゴリズムによりキャッシュの性能は変化メモリシステムの高速化のため,キャッシュメモリを2 段,3 段と重ねて実装する場合あり. 486 以降のx86 CPUは1K~16Kbytes 程度の1 次キャッシュをCPU 内部に内蔵 IBM-PC 互換機では, 高速 SRAMを用いて64K~ 1Mbytes 程度の2 次キャッシュを実装 CPUに内蔵されているキャッシュ: 内部キャッシュ CPUの外部に実装されるキャッシュ: 外部キャッシュ

キャッシュメモリとは No4 ( 少し学術的に表現すると)CPUなど処理装置が命令やデータなどの情報を取得, 更新する際に主記憶やバスなどの遅延あるいは低帯域を隠蔽化させ, 処理装置と記憶装置の性能差を埋めるために用いる高速小容量メモリこれをキャッシュメモリと呼ぶコンピュータはデバイスの性能上, 記憶装置の性能が処理装置の性能に追いつけず,この差が全体性能に対するボトルネックとなる.これをノイマンズボトルネック (von Neumann Bottle Neck)と呼ぶ.これは拡大の傾向あり. キャッシュメモリは, 記憶階層の観点からこのボトルネックを解消しようとするもの

キャッシュメモリとは No5 CPUと主記憶との間に構成されることが一般的 CPUがアクセスしたいデータやそのアドレス, 状態, 設定など属性情報をコピーし保持することで, 本来アクセスすべき主記憶に代わってデータの入出力を行う. 通常,キャッシュメモリが自動的にデータ保存や主記憶の代替を行うため, 基本的にCPUのプログラムがキャッシュを意識する必要なし. 特定のデバイスの処理速度を高速化させる場合に利用される場合もある.

キャッシュメモリの構造 No1 キャッシュメモリはデータをライン(ブロック)と呼ぶまとまった単位で管理 ( 例えばIntel Pentium4の8k Byte L1キャッシュはラインサイズ64Byte) データのアクセス要求があった時にそのデータがキャッシュに存在しているか,あるならどのラインかなどを瞬時 ( 一般に,1サイクルのスループット)に検索する必要あり. そのため,データ格納アドレスの一部, 具体的にはライン単位アドレスの下位数ビット(エントリアドレス)により,ある程度の格納位置を限定することで検索速度を向上

キャッシュメモリの構造 No2 各ラインにはライン単位アドレスの上位ビット(フレームアドレス)を格納キャッシュ検索時には検索アドレスのフレームアドレス部と,キャッシュ内に格納されている検索エントリアドレス位置に対応したフレームアドレスとを比較これにより,キャッシュのヒット( 望みのデータがキャッシュ内に存在 )を検出このフレームアドレス格納バッファをタグと呼ぶ. 複数セットのタグを持てば同じエントリアドレスでも複数データの格納を行うことが可能このタグのセット数 (ウエイ)を連想度と呼ぶ.データ格納構造の相違は連想度の相違

キャッシュメモリの構造 No3 ダイレクトマップ方式 (Direct Mapping) 1 組のタグにより構成 ( 連想度 1)されるデータ格納構造.アドレスにより一意に配置が決まるため,タグの構造が非常に単純. 同一エントリに異なるフレームアドレスが転送されると必ずラインの入れ替えが発生ラインの入れ替えが頻発し,スループットが落ちる(これをキャッシュスラッシングという)と,ヒット率が低下他の方式に比べて効率 (ヒット率 )は高くない.

キャッシュメモリの構造 No4 セットアソシアティブ方式 (Set Associative) 複数タグにより構成 ( 連想度 2 以上 ). 同一エントリに異なるフレームアドレスのデータを複数格納することが可能. 連想度が上がるほどキャッシュのヒット率は上昇するが実装は困難になっていくため,システムによりバランスのよい実装が必要. n 個のタグにより構成された場合,nウエイセットアソシアティブ方式と呼ぶ. 最近はCAM ( 連想メモリ: Content Addressable Memory)がタグとして使用 32など非常に高い連想度を実装できるようになる.

キャッシュメモリの構造 No5 フルアソシアティブ方式 (Fully Associative) エントリアドレスによる振り分けはなく, 全てのラインが検索対象となる構造. 従って連想度はライン数分. キャッシュスラッシングは起こり難くヒット率は最も優れている. 実装コストや複雑度の面から通常用いられることはない.

キャッシュメモリの構造 No6 ヒット率フルアソシアティブ方式セットアソシアティブ方式ダイレクトマップ方式検索速度ダイレクトマップ方式セットアソシアティブ方式フルアソシアティブ方式ヒット率も検索速度もある程度を確保 : セットアソシアティブ方式が無難!?

キャッシュメモリの実装 No1 ライン入替え方式 (Refill) ラインの入替え(これをリフィルと呼ぶ)は該当エントリの全ラインにデータが格納されて,なお同一エントリ新規フレームアドレスが入力されて,キャッシュのミスヒットが生じた場合に起きる. その場合,どのラインを掃き出して新規アドレスと入替えるか,はアルゴリズムによるが,それによってキャッシュのヒット率が変動. アルゴリズムとして, 代表例は, ラウンドロビン LRU あるいはランダムなどがある.

キャッシュメモリの実装 No2 ラウンドロビン (Round Robin) 方式リフィル対象となるラインを順番に交代させる方法. 各ラインのアクセス頻度に拘らず順番にリフィルを実行. あまりヒット率は高くない.

キャッシュメモリの実装 No3 LRU (Least Recently Used) 方式最も古くアクセスされたラインをリフィルする方法. 時間的局所性に基づき, 過去最もアクセスのなかったラインは将来にわたってもアクセスされる可能性は少ないと言える. 従って,この方法はヒット率がかなり高い方法としてよく採用される. 但し, 各ラインごとにアクセス履歴を持ち,アクセスがある度に履歴を入替える必要があるため, 複雑な履歴を反映させる構成が必要結果として,アクセス速度を低下させるなどの負の影響も懸念される場合がある.

キャッシュメモリの実装 No4 ランダム (Random) 方式リフィルするラインの選択をランダムに行う方式. 各ライン毎にリフィル用の特殊な機構を持つ必要はない. 従って,キャッシュの構成が簡易. ヒット率はラウンドロビンよりは良いとされる.

キャッシュメモリの実装 No5 データ更新方式 (Purging) CPUキャッシュは命令キャッシュとデータキャッシュの2 種類が搭載されている場合が多い. 命令キャッシュ:プログラムという静的なデータを扱うのでデータ更新は存在しない. データキャッシュ:メモリへのライト動作があるため, データ更新が存在する. 更新されたデータはどこかのタイミングで下位レベルのメモリ( 主記憶あるいは高次キャッシュ)にも反映される必要があり. そのタイミングの相違により2つのアルゴリズムが存在する.

キャッシュメモリの実装 No6 ライトスルー方式 (Write Through Algorithm) CPUがメモリ書き込みを行うと,キャッシュにストアすると同時に下位レベルのメモリにも書き戻す方式. 必ず下位レベルのバスが活性化するため,バスの競合や下位レベルの低いスループットに影響されるなどの制約あり. しかし, 単純な構成で実現でき,またデータのコヒーレンシを保つことが容易. 出力段にライトバッファを設けると, 単一 CPUであればライトバック方式と遜色のない性能が期待できる. CPUのL1キャッシュなどに実装される場合が多い.

キャッシュメモリの実装 No7 ライトバック方式 (Write Back Algorithm) その1 CPUがメモリ書き込みを行っても, 条件が整わない限り, 書き換えはキャッシュ内に留まり, 下位メモリへの書き戻しを同時には行わない方式. 書き戻す条件は対象エントリにウエイ数以上のフレームアドレスのリード/ライトが行われる, 他のバスマスタが対象エントリが保持しているアドレスに対しアクセスを行った時にコヒーレンシ(Coherency: 一貫性のこと)を保つために行うなどがある. 要するにライン入替え(リフィル)などが発生しなければ, 書き戻さない.

キャッシュメモリの実装 No8 ライトバック方式 (Write Back Algorithm) その2 ライトスルー方式に対し, 下位レベルのバスが競合を起こしにくい( 頻繁にメモリアクセスが発生しないので),マルチCPU 構成に向く. 従って, 記憶階層の同一レベルに複数のキャッシュが接続されているようなL2キャッシュ(あるいはそれより高次のメモリ)に実装されることが一般的.

キャッシュメモリ( 上級編 ) その1 キャッシュコヒーレンシ(Cache Coherency) その1 マルチCPU&マルチキャッシュ構成など複数のバスマスタが存在し, 各々がデータ更新を行った場合でも最新の正しいデータにアクセスできるよう保つべきデータの一貫性 (あるいは整合性 )のことをキャッシュコヒーレンシもしくはキャッシュコンシステンシ (cache consistency)という. データ更新にライトバック方式を用いた場合など, キャッシュに更新されたデータが滞留して主記憶装置など下位レベルのメモリには最新のデータが存在しない可能性がある. これは問題!!

キャッシュメモリ( 上級編 ) その1 キャッシュコヒーレンシ(Cache Coherency) その2 この時に複数のCPUが同一の記憶領域を参照 / 更新しようとすると,データの不整合が起こり, 正しい結果が得られない. これを解決し,どのCPUも必ず最新のデータにアクセスできるようにする必要がある. このための代表的なアルゴリズムとして,1)スヌープ方式,2)ディレクトリ方式あるいは3) 共有キャッシュなどがある.

キャッシュメモリ( 上級編 ) その2 スヌープ方式 (Cache Snooping) その1 キャッシュコヒーレンシのアルゴリズムにおいて, 特に各キャッシュ自身に搭載される方法としてスヌープ方式がある. これは各々のキャッシュが自身や他 CPUのキャッシュのライン更新状態を把握管理し, 他のキャッシュと更新状態の情報を交換することで,どのキャッシュに最新のデータが存在するかを知り, 各キャッシュが必要なときに最新のデータを取得できるように自身の状態を変更したりラインのパージなどを行う.

キャッシュメモリ( 上級編 ) その2 スヌープ方式 (Cache Snooping) その2 この情報交換は共通のデータバスを介して行われるため, 情報の通知と実際のデータ転送との順序が保たれ, 破綻を起こすことはない. 逆に共通バスを持たない分散型メモリシステムには用いることが困難などの制約もある.

キャッシュメモリ( 上級編 ) その2 スヌープ方式 (Cache Snooping) その3 1) 無効型プロトコル (Invalidate Protocol) 複数のキャッシュから参照があるアドレスに対しあるキャッシュが更新を行う場合,そのアドレスはダーティであるとして参照中の全キャッシュの該当ラインを無効化する. これにより更新されたラインがありながら他のキャッシュで古いデータをキャッシングしている状態がなくなり,コヒーレンシが保たれる.

キャッシュメモリ( 上級編 ) その2 スヌープ方式 (Cache Snooping) その4 2) 更新型プロトコル (Update Protocol) 複数のキャッシュが参照しているアドレスに対してデータ更新を行うときはライトスルー型となり, 単独でアクセスしている場合はライトバック型となるような制御を行う. 従って, 更新データを他にも行き渡らせ,コヒーレンシを保つ.

キャッシュメモリ( 上級編 ) その2 ディレクトリ方式 (Directory-based Protocol) スヌープ方式と異なり,メモリの一貫性をディレクトリと呼ぶ専用領域にて一元管理する方式. この領域は実装上の各メモリ領域に分散してよく, 分散メモリ型システムに適する.

キャッシュメモリ( 上級編 ) その2 共有キャッシュ (Shared Cache) 1つのキャッシュに対し複数のCPUが参照できるような構成を持つキャッシュ. 1チップに集積された複数のCPUを扱うなど限定的な場面ではキャッシュコヒーレンシを根本的に解決可能. しかし,キャッシュ自体の構造が非常に複雑,もしくは性能低下の要因多くのCPUを接続することは困難