定義アクセス要求を発行する機構と,その供給に応える機構との中間に位置し,すべての要求を検知して処理するよう構築される. キャッシュは選択されたデータの局所的なコピーを保持し, 可能な場合にはアクセ

Similar documents

検討検討の進め方検討状況簡易収支の世帯からサンプリング世帯名作成事務の廃止 4 5 必要な世帯数の確保が可能か簡易収支を実施している民間事業者との連絡等に伴う事務の複雑

養老保険の減額払済保険への変更 1. 設例会社が役員を被保険者とし死亡保険金及び満期保険金のいずれも会社を受取人とする養老保険に加入している場合を解説します資金繰りの都

KINGSOFT Office 2016 動作環境対応日本語版版共通利用上記動作以上以上空容量以上他接続環境推奨必要 2

1. 前払式支払手段サーバ型の前払式支払手段に関する利用者保護等発行者があらかじめ利用者から資金を受け取り財サービスを受ける際の支払手段として前払式支払手段が発行される場合

は固定流動及び繰延に区分することとし減価償却を行うべき固定の取得又は改良に充てるための補助金等の交付を受けた場合においてはその交付を受けた金額に相当する額を長期前受金とし

( 別途調査様式 1) 減損損失を認識するに至った経緯等 1 列 2 列 3 列 4 列 5 列 6 列 7 列 8 列 9 列 10 列 11 列 12 列 13 列 14 列 15 列 16 列 17 列 18 列 19 列 20 列 21 列 22 列固定

SXF 仕様実装規約版 ( 幾何検定編 ) 新旧対照表 2013/3/26 文言変更 p.12(1. 基本事項 ) (5)SXF 入出力バージョン Ver.2 形式と Ver.3.0 形式および Ver.3.1 形式の入出力機能を

Microsoft Word - 07②-2 補足説明資料１.docx

< E95FB8CF689638AE98BC689FC90B390A CC8CA992BC82B582C982C282A282C E90E096BE8E9E8E9197BF2E786477>

1 書誌作成機能 (NACSIS-CAT)の軽量化合理化電子情報資源への適切な対応のための資源 ( 人的資源,システム資源, 経費を含む) の確保のために, 書誌作成と書誌管理作業の軽量化を図

1. 決算の概要法人全体として 2,459 億円の当期総利益を計上し末をもって繰越欠損金を解消しています ( : 当期総利益 2,092 億円 ) 中期計画における収支改善項目に関して ( : 繰越

第３１６回取締役会議案

注記事項 (1) 当四半期連結累計期間における重要な子会社の異動 : 無 (2) 四半期連結財務諸表の作成に特有の会計処理の適用 : 有 ( 注 ) 詳細は添付資料 4ページ 2.サマリー情報 (

Microsoft PowerPoint - OS10.pptx

4 承認コミュニティ組織は市長若しくはその委任を受けた者又は監査委員の監査に応じなければならない ( 状況報告 ) 第 7 条承認コミュニティ組織は市長が必要と認めるときは交付金事業の遂行の

<4D F736F F D F4390B3816A91E6398D A948EE58E91967B939995CF93AE8C768E5A8F9182C98AD682B782E989EF8C768AEE8F8082CC934B97708E77906A81762E646F63>

平成25年度　独立行政法人日本学生支援機構の役職員の報酬・給与等について

PowerPoint Presentation

WEBメールシステム　操作手順書

DRAM SRAM SDRAM (Synchronous DRAM) DDR SDRAM (Double Data Rate SDRAM) DRAM 4 C Wikipedia 1.8 SRAM DRAM DRAM SRAM DRAM SRAM (256M 1G bit) (32 64M bit)

事業税の外形標準課税事業税は都道府県が所得 ( 利益 )に対して課税します 1. 個人事業税業種区分税率 ( 標準税率 ) 第 1 種事業 ( 物品販売業製造業金銭貸付業飲食店業不動

(Microsoft Word - \203A \225\345\217W\227v\227\314 .doc)

(4) 給与制度の総合的見直しの実施状況について概要国の給与制度の総合的見直しにおいては俸給表の水準の平均 2の引下げ及び地域手当の支給割合の見直し等に取り組むとされている.

R4財務対応障害一覧

Taro-契約条項（全部）

<4D F736F F D2095CA8E A90DA91B18C9F93A289F1939A8F D8288B3816A5F E646F63>

第 9 条の前の見出しを削り同条に見出しとして ( 部分休業の承認 ) を付し同条中 1 日を通じて2 時間 ( 規則で定める育児休暇を承認されている職員については 2 時間から当該育児休暇の

Microsoft Word - 不正アクセス行為の禁止等に関する法律等に基づく公安

検索文字列が住所にマッチするならば地図画面を表示します検索文字列が住所の一部ならばキーワードを含む検索結果画面を表示します

国税クレジットカード納付の創設国税のクレジットカード納付についてはマイナンバー制度の活用による年金保険料税に係る利便性向上に関するアクションプログラム( 報告書 ) においてその導入の方向性が示されている

Ｑ　IFRSの特徴について教えてください

< DB8CAF97BF97A6955C2E786C73>

(3) 善通寺市の状況善通寺市においては固定資産税の納期前前納に対する報奨金について善通寺市税条例の規定 ( 交付率 :0.1% 限度額 :2 万円 )に基づき交付を行っています参考善通寺

[2] 控除限度額繰越欠損金を有する法人において欠損金発生事業年度の翌事業年度以後の欠損金の繰越控除にあたっては平成 27 年度税制改正により次ページ以降で解説するの特例 (

企業結合ステップ2に関連するJICPA実務指針等の改正について③・資本連結実務指針（その2）

Microsoft Word ）40期決算公開用.doc

(2) 単身者向け以外の賃貸共同住宅等当該建物に対して新たに固定資産税等が課税される年から起算して5 年間とする ( 交付申請及び決定 ) 第 5 条補助金の交付を受けようとする者は

第２回　制度設計専門会合事務局提出資料

入札公告機動装備センター

文化政策情報システムの運用等

Microsoft PowerPoint - 報告書(概要).ppt

連結計算書

目次. WEB メールへのログイン.... メール送信手順.... メール受信手順アドレス帳の操作手順フォルダーの操作手順メール発信者登録署名登録手順基本的な設定

<4D F736F F D208E9197BF A955B895E93AE82CC8B4B90A C982C282A282C42E646F6378>

学校教育法等の一部を改正する法律の施行に伴う文部科学省関係省令の整備に関する省令等について（通知）

している 5. これに対して親会社の持分変動による差額を資本剰余金として処理した結果資本剰余金残高が負の値となるような場合の取扱いの明確化を求めるコメントが複数寄せられた 6. コメントでは親

<819A955D89BF92B28F BC690ED97AA8EBA81418FA48BC682CC8A8890AB89BB816A32322E786C7378>

測量士補重要事項「写真地図作成」

定款　　変更

<4D F736F F D E598BC68A8897CD82CC8DC490B68B7982D18E598BC68A8893AE82CC8A C98AD682B782E993C195CA915B C98AEE82C382AD936F985E96C68B9690C582CC93C197E1915B927582CC898492B75F8E96914F955D89BF8F915F2E646F6

4 応募者向けメニュー画面が表示されます応募者向けメニュー画面で [ 交付内定時の手続を行う] [ 交付決定後の手続を行う]をクリックします 10

空き家を売却した場合の,000 万円控除特例の創設被相続人が住んでいた家屋及びその敷地を相続があった日から年を経過する年の月日までに耐震工事をしてからあるいは家を除却してから売却

2 役員の報酬等の支給状況平成 27 年度年間報酬等の総額就任退任の状況役名報酬 ( 給与 ) 賞与その他 ( 内容 ) 就任退任 2,142 ( 地域手当 ) 17,205 11,580 3,311 4 月 1

Microsoft Word - 第3章.doc

4 参加資格要件本提案への参加予定者は以下の条件を全て満たすこと 1 地方自治法施行令 ( 昭和 22 年政令第 16 号 ) 第 167 条の4 第 1 項各号の規定に該当しない者であること 2 会社

損益計算書 ( 平成 25 年 10 月 1 日から平成 26 年 9 月 30 日まで) ( 単位 : 千円 ) 科目金額営業収益 304,971 営業費用 566,243 営業総損失 261,271 営業外収益受取利息 3,545

2 役員の報酬等の支給状況役名法人の長理事理事 ( 非常勤 ) 平成 25 年度年間報酬等の総額就任退任の状況報酬 ( 給与 ) 賞与その他 ( 内容 ) 就任退任 16,936 10,654 4,36

<4D F736F F F696E74202D2082C882E982D982C DD8ED88EE688F882CC82B582AD82DD C668DDA9770>

( 別紙 ) 以下法とあるのは改正法第 5 条の規定による改正後の健康保険法を指す ( 施行期日は平成 28 年 4 月 1 日 ) 1. 標準報酬月額の等級区分の追加について問 1 法改正により追加

Microsoft Word - 佐野市生活排水処理構想（案）.doc

私立大学等研究設備整備費等補助金（私立大学等

< CF6955C976C8EAE DE82C28E73816A2E786C73>

<4D F736F F D F5A91EE8BC F368C8E3393FA8DC48D F C8E323893FA916493C B95AA8D CE3816A>

東近江行政組合職員の育児休業等に関する条例

Taro-事務処理要綱250820

下水道工事標準仕様書

１　変更の許可等（都市計画法第35条の2）

事前チェック提出用現況報告書作成ツール入力マニュアル(法人用)

経常収支差引額等の状況平成 26 年度予算早期集計平成 25 年度予算対前年度比較経常収支差引額 3,689 億円 4,597 億円 908 億円減少赤字組合数 1,114 組合 1,180 組合 66

のとする (1) 防犯カメラを購入し設置 ( 新設又は増設に限る ) すること (2) 設置する防犯カメラは新設又は既設の録画機と接続することただし録画機能付防犯カメラは

操作の手順 : 個人住民税一括納付 / 新規依頼修正複写個人住民税一括納付メニュー個人住民税一括納付新規依頼修正複写依頼 / 委託者情報入力 (P100) 依頼修正 / 委託者情

平成１9年9月改定

2. 会計規程の業務 (1) 規程と実際の業務の調査規程や運用方針に規定されている業務 ( 帳票 )が実際に行われているか( 作成されているか)どうかについて調べてみた以下の表は規程の条項とそこに

<4D F736F F D2091E F18CB48D C481698E7B90DD8F9590AC89DB816A2E646F63>

k_setumeikai_siryo

<4D F736F F D C689D789B582B581698AAE90AC92CA926D816A2E646F63>

Sea-NACCS 利用者研修　【通関編】

以内とする (5) 据置期間償還金の据置期間は償還期間のうち6ケ月以内とする (6) 償還方法据置期間終了後月賦隔月賦又は3ケ月毎の均等分割償還とする (7) 担保保証人取扱金融機

(5) 給与制度の総合的見直しの実施状況について概要の給与制度の総合的見直しにおいては俸給表の水準の平均 2の引き下げ及び地域手当の支給割合の見直し等に取り組むとされている

(4) ラスパイレス指数の状況 ( 各年 4 月 1 日現在 ) ( 例 ) ( 例 ) 15 (H2) (H2) (H24) (H24) (H25.4.1) (H25.4.1) (H24) (H24)

<4D F736F F F696E74202D D382E982B382C68AF1958D8BE090A C98AD682B782E B83678C8B89CA81698CF6955C A2E >

<4D F736F F D D3188C091538AC7979D8B4B92F F292B98CF092CA81698A94816A2E646F63>

経理上くん db(version 8.001)の変更点概要 Ⅰ. 消費税 /リバースチャージ方式の申告に対応 1 特定課税仕入特定課税仕入返還区分を追加しました Ⅱ.その他の改良修正詳細は後述を参照

Taro-役員退職手当規程（H27.10改正）ＨＰ版

第一部【証券情報】

取り消された後当該産前の休業又は出産に係る子若しくは同号に規定する承認に係る子が死亡し又は養子縁組等により職員と別居することとなったこと (2) 育児休業をしている職員が休職又

その他事業推進体制平成 20 年 3 月 26 日に石垣島国営土地改良事業推進協議会を設立し事業を推進 ( 構成 : 石垣市石垣市議会石垣島土地改良区石垣市農業委員会沖縄県農

図 2 エクスポートによるシェープファイルの新規保存新規保存するファイルは,より分かりやすい名前をつけて適切なフォルダ(shape フォルダにまとめておくのがよい) 上に保存しておく 2 / 10

答申第585号

する ( 評定の時期 ) 第条成績評定の時期は第 3 次評定者にあっては完成検査及び部分引渡しに伴う検査の時とし第次評定者及び第次評定者にあっては工事の完成の時とする ( 成績評定

目次 1. Web メールのご利用について Web メール画面のフロー図 Web メールへのアクセスログイン画面ログイン後 (メール一覧画面 ) 画面共通項目

_ZEI-0329_特集(朝倉)_プ2.indd

Transcription:

キャッシュとキャッシュ技術 71

定義アクセス要求を発行する機構と,その供給に応える機構との中間に位置し,すべての要求を検知して処理するよう構築される. キャッシュは選択されたデータの局所的なコピーを保持し, 可能な場合にはアクセス要求にこたえる. 通常のメモリ機構より高速に動作するよう設計されているメモリアクセス時間の短縮など, 性能向上を目指す. メモリアクセス時間 1G 当たりのコスト SRAM 0.5~2.5nS 2000~5000ドル DRAM 50~70nS 20~75ドル磁気ディスク 5~20mS 0.2~2ドル 72

時間的局所性と空間的局所性 73

キャッシュの特徴小容量メインメモリの10% 程度の小容量常時動作要求されたデータがキャッシュで利用可能か可能でないなら,メインメモリからのコピーを取り出したり,どのデータをキャッシュ上に保持するか決定する機構透過性要求側から見えるインターフェイスは,メインメモリに示すインターフェイスと同一自動性どのデータを保持するかなどの命令はない 74

キャッシュ技術の重要性情報を検索するほぼすべてのハードウエアやソフトウエアシステムにおいて利用される, 基本的な最適化技術キャッシュ内に保持されたデータが特定の形式や,サイズ制限されない小規模データ(バイトやワードメモリ) 中規模データ(メモリのセグメントやページ) 大規模データ(プログラム全体 ) 包括的なデータ(ファイルやディスクブロック) アプリケーションに特化したデータ (Webページやワープロ文書,データベース登録データ) 文書データ( 電子メールなど) 75

キャッシュにおける用語キャッシュヒットメインメモリへのアクセスを必要とせず, 要求がキャッシュによって満足されることキャッシュミスキャッシュによっては, 要求が満足されないこと 76

最善, 最悪の場合のキャッシュ性能ヒットした場合のコスト c h ミスヒット時のコストc m c m c h 要求元キャッシュメインメモリ 77

N 個の連続したアクセス列についての, 最良, 最悪の振舞いすべてのアクセスがあらたなデータを参照する場合 : 最悪時キャッシュによる性能の改善はない最悪時のコスト c worst c worst =Nc m アクセスごとの平均コスト= c m 連続するすべてのアクセスが, 同じデータを指す場合キャッシュによる性能の改善は最良最善時のコスト c best c worst =c m +(N-1) c h アクセスごとの平均コスト = + : 平均コストキャッシュによる性能は,キャッシュが存在しない場合に比べ悪くはならない 78

典型的な連続アドレスにおけるキャッシュ性能ヒット率 = ヒットしたアクセス数全アクセス数ミス率 =1-ヒット率データ記憶にアクセスするコストコスト= + 1 :ヒット率キャッシュ性能の改善 : ヒット率の向上ヒット時のコストの低減 79

キャッシュ置き換えポリシー新たなデータを無視するのか, 新たなデータのための場所を確保するために,どの古いデータをキャッシュ上から消去するのか LRU(Least Recently Used) 置き換え最も長い期間参照されなかったデータを置き換えるキャッシュメカニズムは現在キャッシュ上にあるデータ項目のリストを保持データの参照後,リストの最前部に移動データの置き換えはリストの最後部から 80

多重レベルキャッシュ階層コスト= 1 + 2 + 1 1 2 1, 2 :ヒット率 c h1 c h2 c m 要求元キャッシュ #1 キャッシュ #2 メインメモリ 81

先読みキャッシュシステム起動時 : キャッシュがメインメモリよりデータを読み出すため初期ヒット率は極端に低下キャッシュの先読み(pre-load)により, 起動時の負荷を低減関連するデータを先読み(pre-fech) プロセッサが1バイトアクセスする際,64バイトプリフェッチ 2バイト目からはキャッシュがヒット 82

メモリシステムにおけるキャッシュメモリ: 高価で低速キャッシュ: 高速メモリの高いコストをかけずに性能改善 83

物理メモリキャッシュ同時実行 ( 並列処理 ) リードアクセス要求メインメモリに対してリードアクセス要求発行メインメモリに対してメモリ処理の中断要求 Yes キャッシュ上に存在するか検索存在 No メモリ処理の完了を待機並列性を実現ハードウエアは複雑化メモリからのデータを保存 CPUへのデータ転送同時実行 ( 並列処理 ) 84

メモリキャッシュの実現キャッシュのエントリメモリアドレスとそのアドレスで示されるバイト列各エントリごとに完全なアドレスを保持することは非効率必要となる空間の容量削減のための技術ダイレクトマッピングセットアソシアティブ 85

ダイレクトマッピングキャッシュ 2つのアドレスはキャッシュ内の1つの空きスロットを奪い合う A1への参照は,キャッシュ内のA1の値を読み出し,A2への参照はA2の値を読み出す交互に参照すると,すべての参照はキャッシュミスセットアソシアティブキャッシュ A1が2つのキャッシュ内の1つに置かれ,A2はもう一方に格納することができる交互の参照でも,すべてキャッシュはヒットする並列度が増すと, 性能は向上 86

セットアソシアティブキャッシュ複数のキャッシュを管理同時にそれらすべてを検索できるハードウエア複数のキャッシュを扱うため, 同じ番号を持つブロックを1つ以上格納可能 87

ダイレクトマッピング方式のキャッシュキャッシュはバイトアドレッシングメモリとキャッシュを同一のサイズのブロック群に分割ブロックごとのメモリの取り扱いメモリブロック 0 1 2 3 0 タグ値 4 5 6 7 1 0 8 9 10 11 2 12 13 14 15 3 1 2 3 メモリブロック 0 1 2 3 0 1 2 3 0 タグ0 タグ1 88 1

ダイレクトマッピング方式インデックスキャッシュ 000 001 010 011 100 101 110 111 ブロック数 :8 ブロックの大きさ:1ワード 0001 0010 0011 0100 0101 0110 0111 1000 1001 1010 1011 1100 1101 メモリタグ 0 0 0 1 キャッシュ中のブロック番号 89

ダイレクトマッピング方式のキャッシュの動作例参照先の10 進参照先の2 進割り当てられているヒット/ミスの別アドレスアドレスキャッシュブロック 22 10110 ミス 110 26 11010 ミス 010 22 10110 ヒット 110 26 11010 ヒット 010 16 10000 ミス 000 3 00011 ミス 011 16 10000 ヒット 000 18 10010 ミス 010 16 10000 ヒット 000 90

インデックス有効タグデータ 000 N 001 N 010 N 011 N 100 N 110 N 111 N 電源投入直後インデックス有効 000 N 001 N 010 N 011 N タグデータ 100 N 110 Y 10 メモリ(10110) 111 N アドレス 10110 のミスを処理した後 91

アドレスとキャッシュインデックスの関係 31 30 29 13 12 タグフィールド 11 10 3 2 1 0 ブロック数 =2 10 20 10 index 有効タグデータ 0 1 1bit 20bit 32bit バイトオフセットアドレス 32bit = 4byte 2bit 1kword=4kbyteキャッシュ 2 データ 32 1023 20 ブロック数 :1024 : 10bit ブロックの大きさ:1ワード = ヒット 92

31 タグフィールド n m 2 0 キャッシュ容量 :2 n ブロックキャッシュインデックス:n bit ブロックサイズ: 2 m ワード(= 2 m+2 バイト) ブロック番号有効タグ #0ワード #1ワード... #(2 m -1)ワード 0 1 32-(n+m+2) bit 32 bit 32 bit 32 bit 32 bit 1... 2 n -1 1ブロック=2 m ワード 2 n ( 有効フィールド長 + タグ長 + ブロックサイズ) = 2 n ( 1+(32-(n+m+2) +2 m 32) 93

16kバイトのデータを保持するダイレクトマップ方式のキャッシュに必要なビット数.ブロックサイズは4word, アドレスは32bitとする 94

16kバイトのデータを保持するダイレクトマップ方式のキャッシュに必要なビット数.ブロックサイズは4word, アドレスは32bitとする 1word=4byte, 16kbyte=4kword, ブロックサイズが4word キャッシュのブロック数 =1k=2 10 31 0 タグフィールド=32-14 10 2 2 有効タグ #0word #1word #2word #3word 0 1 18 32 32 32 32 1 1023 95 1024 (1+18+4 32)=1024 147=147kbit

ブロックサイズが16バイトの64 個のブロックからなるキャッシュがある.バイトアドレスが1200 番地のブロック番号はいくらか 96

ブロックサイズが16バイトの64 個のブロックからなるキャッシュがある.バイトアドレスが1203 番地のブロック番号はいくらかブロックアドレスは =75 このブロックアドレスに対するキャッシュブロック番号は 75を64で割った余りの11 ちなみにこのブロック番号 75のブロックには,1200 番地から 1215 番地のバイトアドレスに対応有効タグ #0 #1 #15 0 1 97 63

ブロックサイズとヒット率大きなブロックミス率を下げられる ( 空間局所性の活用 ) 反面,キャッシュ容量に対する相対的なブロック数を大きくするとミス率の上昇につながるまた,ミス時のミスペナルティの増大にもつながるミス率 10 5 0 32 64 128 ブロックサイズ 4K 16K 64K キャッシュ容量 98

キャッシュミスの取り扱い 1. 元のプログラムカウンタ値 ( 現在のPC-4)をメモリに転送 2. 主記憶から読み出しを行うよう指示, 完了を待機 3. キャッシュの該当するブロックに書き込みを行う. その際, 主記憶から読み出したデータをキャッシュのデータ部分に格納し,アドレスの上位 4ビットを ALUからタグフィールドへ収め, 有効ビットをON 4. 実行命令を最初のステップから再開. ( 命令をフェッチしなおすことにより,キャッシュはヒットする) 99

ライトスルーとライトバックキャッシュ: 読み出し性能の改善目的書き込み要求のためのものではないライト操作によって, 元のメモリの値を変更が必要メモリに転送を要求するだけでなく,キャッシュは当該データの有無を探索.もし存在する場合,その値も変更が必要ライトスルーキャッシュ: キャッシュはコピーを保持.ライト操作をメモリに転送ライトバックキャッシュ: キャッシュがローカルにデータを保持, 必要時にメモリに値を書き込む. どのデータを書き戻すかダーティビット 100

書き込みの取り扱いキャッシュと主記憶の一貫性の保持ライトスルー方式 : キャッシュと主記憶に毎回書き込む方式例 )メモリへの書き込み時間 :CPUの100サイクル分命令の10%がストア命令, 元々CPUのCPIが1.0の場合 CPI = 1.0+100 10% = 11.0 性能が10 分の1に低下 101

書き込み時の取り扱いライトバッファ方式書き込み用のバッファを用意し,CPUはバッファへの書き込みで書き込み操作を完了バッファから主記憶への書き込み速度が,CPUの書き込み派生頻度より低いと効果ないライトバック方式書き込み発生時はキャッシュのみに書き込み置き換え対象になった時のみ, 主記憶へ書き込み複雑な構造が必要 102

ライトバックキャッシュの性能向上の例メモリ内に値を増加させるプログラムにおけるループライトスルーキャッシュ: ループ実行ごとに,メモリ上のデータを更新するライトバックキャッシュ: プログラム実行中は値をキャッシュ上に保持ループ終了後,メモリ上のデータを更新 103

キャッシュの一貫性 (コヒーレンス) 2つのプロセッサが,それぞれキャッシュを用いてメモリにアクセスする場合キャッシュの一貫性プロトコル(ハードウエアの追加 ) プロセッサ2がアドレスAからデータを読むとき, 一貫性プロトコルは,キャッシュ2にキャッシュ1に通知を要求キャッシュ1がアドレスAのデータを保持している場合,キャッシュ1はデータを最新のものに更新プロセッサ1 プロセッサ2 キャッシュ1 キャッシュ2 メモリ 104

キャッシュを支援する記憶システム CPU CPU CPU キャッシュキャッシュキャッシュインターリーブ方式メモリバンク#0 メモリバンク#1 メモリバンク#2 メモリバンク#3 メモリメモリ 105

キャッシュを支援する記憶システムキャッシュミス発生時 : 必要な語は主記憶から読み出し例 )アドレス送出 :1メモリバスクロックサイクル DRAMの一語当たりのアクセス時間 :15メモリバスクロックサイクルデータの一語の転送 :1メモリバスクロックサイクルキャッシュのブロックは4 語から構成 DRAMのバンク幅が1 語の場合ミスペナルティ 1+4 15+4 1=65 メモリバスクロックサイクルメモリのデータ幅を2 語長 1+2 15+2 1=33 メモリバスクロックサイクルバンク数 4のメモリ構成 (インターリーブ) 1+1 15+4 1=20 メモリバスクロックサイクル 106

メモリストールとCPU 時間 CPU 時間 =( 実行クロック数 +メモリストールクロック数 ) クロックサイクル時間キャッシュミスの増大メモリストールクロック数の増大メモリストールクロック数 = 読み出しストールクロック数 + 書き込みクロックストール数読み出しストールクロック数 =プログラム当たりの読み出し件数読み出しミス率読み出しミスペナルティ書き込みストールクロック数 =プログラム当たりの読み出し件数書き込みミス率書き込みミスペナルティ+ 書き込みバッファストール 107

メモリストールとCPU 時間メモリストールクロック数 =プログラム当たりのメモリアクセス件数ミス率ミスペナルティメモリストールクロック数 =プログラム当たりのメモリアクセス命令件数 1メモリアクセス命令当たりのミス率ミスペナルティ 108

例題 1 あるコンピュータ命令のキャッシュミス率 =2% データのキャッシュミス率 =4% プロセッサのCPI:メモリのストールなしで2 ミスペナルティ=すべてのミスに対して100クロックサイクルミスのないプロセッサに対して,このコンピュータはどの程度の速度となるか.ただし,メモリアクセス命令の出現頻度は 36%に想定 109

解答例命令数を I とすると, 命令のミスクロック数 =I 2% 100=2.0 I メモリアクセス命令数は36%なのでデータのミスクロック数 =I 36% 4% 100=1.44 I よって1 命令当たりのメモリストールの合計クロック数は3.44 以上よりメモリストールのあるCPU 時間完全キャッシュを備えたマシンのCPU 時間 = 2+3.44 2 = 5.44 2 よってメモリストールがあると, 完全なキャッシュを備えるコンピュータに比べその性能は2.72 分の1となる 110

例題 2 例題 1とクロック周波数も含め同一条件下でプロセッサを高速なものにした場合どうなるかプロセッサの速度を例 1の2CPIのものから,その速度を2 倍に向上させCPIが1になったとする.この場合,メモリストールに対する合計のクロック数は3.44と変化はないのでメモリストールのあるCPU 時間完全キャッシュを備えたマシンのCPU 時間 = 1+3.44 1 = 4.44 1 となる.この場合,メモリストールに要する時間の割合は, 3.44/5.44=63%から3.44/4.44=77%へ増大することになる 111

キャッシュミスの影響例題 2で示したように, 記憶システムを変えずにプロセッサの速度のみを向上させると,キャッシュミスによる性能低下を大きくする. このことは, 記憶システムを変えずにクロック周波数を引き上げても同様に,キャッシュミスによる性能低下を大きくする. また,ヒット時間が大きくなると, 記憶システムからの語アクセスに要する合計時間が長くなり, 結果としてプロセッサのクロックサイクル時間が増大する可能性がある.このことは,キャッシュ容量を大きくした場合に, 注意が必要である. キャッシュ容量を単に増大するのではなく, 多段階のキャッシュの構成につながる 112

L1,L2,L3キャッシュ多くのコンピュータメモリシステム背景 2レベル以上のキャッシュ階層 1. 伝統的なメモリキャッシュは,メモリ,プロセッサ双方から独立していた 2. キャッシュへのアクセスには,プロセッサチップと接続する接続する信号線が必要 3. 外部ハードウエアに信号線を使うのは,チップ内の機能ユニットにアクセスするのに比べ,アクセス遅延大 4. 半導体技術の進歩により,チップ内に搭載できるトランジスタ数増大プロセッサチップ内に2 次キャッシュ搭載 L1キャッシュ:プロセッサチップ内 (オンチップ) L2,L3キャッシュ:プロセッサチップ外 (オフチップ) 113

平均メモリアクセス時間 AMAT ヒットした場合とミスした場合の両方を考慮したメモリアクセス時間の平均値 AMAT=ヒットした場合のアクセス時間 +ミス率ミスペナルティクロックサイクル時間が1ns,ミスペナルティが20クロックサイクル. 命令当たりのミス率が0.05,キャッシュへのアクセス時間が 1クロックサイクルであるプロセッサのAMATはいくらか.ただし, 読み出しと書き込みのミスペナルティは等しいものとし,その他の書き込みストールは無視する. AMAT=1+0.05 20=2 クロックサイクル,すなわち,2nsとなる 114

柔軟性の高いブロックの配置によるミスの削減ダイレクトマッピング方式メモリブロックを配置するキャッシュの場所が特定フルアソシアティブ方式メモリブロックを配置するキャッシュの場所が任意セットアソシアティブ方式メモリブロックを配置するキャッシュの場所が,あるきまった数 n (セット数 )に定められている nウエイセットアソシアティブ方式ダイレクトマッピング方式 1ウエイセットアソシアティブ方式フルセットアソシアティブ方式 (キャッシュがm 個のブロック) 1ウエイセットアソシアティブ方式連想度 :1セットのブロック数 115

ダイレクトマッピング方式におけるブロックの場所ブロック番号をキャッシュ内のブロック数で割った剰余フルアソシアティブ方式キャッシュ内の任意の位置にブロックを配置ブロックの位置 :キャッシュ内のすべての要素の探索が必要セットアソシアティブ方式におけるブロックが含まれるセットの位置ブロック番号をキャッシュ内のセット数で割った剰余ブロックの位置 :セット内のすべての要素の探索が必要ダイレクトマッピングブロック番号 2ウエイセットアソシアティブセット番号 0 1 2 3 4 5 6 7 0 1 2 3 フルセットアソシアティブアドレス12のブロックが格納される( 可能性のある)キャッシュ内の位置キャッシュは8ブロック 116

8ブロックのキャッシュがとりうる形態ブロック 0 1 2 3 4 5 6 7 タグデータダイレクトマッピング方式セット 0 1 2 3 タグデータタグデータ 2ウエイセットアソシアティブ方式ほかに8ウエイセットアソシアティブ (フルアソシアティブ方式 )があるセットタグデータタグデータタグデータタグデータ 0 1 4ウエイセットアソシアティブ方式 117

キャッシュにおける連想度とミスセットアソシアティブ方式連想度を増やす利点ミス率の低減その欠点ヒット時間の増大例題 ) 連想度とミス 1 語のブロック4つからなるキャッシュを想定し,ブロックアドレスが0,8,0,6,8の順にアクセスするとき, 以下の方式におけるキャッスミスの発生数 1 フルアソシアティブ方式 2 2ウエイセットアソシアティブ方式 3 ダイレクトマッピング方式 118

ダイレクトマッピング方式各ブロックアドレスとキャッシュブロックの対応ブロックアドレスキャッシュブロック 0 0mod 4 = 0 6 6 mod 4 = 4 8 8 mod 4 = 0 各ブロックアドレスを参照した後のキャッシュの内容参照したメモリブロックのアドレスヒット/ミス参照後の各キャッシュブロックの内容 0 1 2 3 0 ミスメモリ[0] 8 ミスメモリ[8] 0 ミスメモリ[0] 6 ミスメモリ[0] メモリ[6] 8 ミスメモリ[8] メモリ[6] 119

セットアソシアティブ方式各ブロックアドレスとキャッシュブロックの対応ブロックアドレスキャッシュのセット 0 0mod 2 = 0 6 6 mod 2 = 0 8 8 mod 2 = 0 セット内はLRU(least recently used) により置換ブロックを決定各ブロックアドレスを参照した後のキャッシュの内容参照したメモリブロックのアドレスヒット/ミス 0 ミスメモリ[0] 8 ミスメモリ[0] メモリ[8] 0 ヒットメモリ[0] メモリ[8] 6 ミスメモリ[0] メモリ[6] 8 ミスメモリ[8] メモリ[6] 参照後の各キャッシュブロックの内容セット0 セット0 セット1 セット1 120

フルアソシアティブ方式各ブロックアドレスとキャッシュブロックの対応各ブロックアドレスを参照した後のキャッシュの内容参照したメモリブロックのアドレスヒット/ミス参照後の各キャッシュブロックの内容ブロック0 ブロック1 ブロック2 ブロック3 0 ミスメモリ[0] 8 ミスメモリ[0] メモリ[8] 0 ヒットメモリ[0] メモリ[8] 6 ミスメモリ[0] メモリ[8] メモリ[6] 8 ヒットメモリ[0] メモリ[6] メモリ[6] 121

連想度とミス率連想度とミス率の関係を示す実験結果 1ブロック16 語からなる64Kバイトのデータキャッシュを例連想度ミス率 1 10.3% 2 8.6% 4 8.3% 8 8.1% 122

キャッシュ内のブロックの見つけ方セットアソシアティブ方式キャッシュ中の各ブロックには,そのブロックのアドレスを示すアドレスタグを付加タグインデックスブロック内のオフセットアドレスの3つの部分インデックスはセットの選択に,タグはセット中の全ブロックと比較してブロックを選択するために使用される. ブロック内オフセットはブロック中の求めるデータのアドレス 123

セット中の全ブロックの探索は並列的に実行されるキャッシュの全容量を一定に保つ場合連想度 (1セット当たりのブロック数 )を2 倍に増やすと,セット数は半分に減少インデックスは1ビット減少し,タグ長が1ビット増加フルアソシアティブ方式 :セット数は1(インデックスは不要 ) すべてのブロックを並列的に照合が必要性 124

4ウエイセットアソシアティブ方式 125

置き換え対象ブロックの選択ダイレクトマッピング方式ブロックの格納場所は1つアソシアティブ方式ブロックの格納場所を選択可能どのブロックを置き換えるかを決定する必要がある一般的な方法 LRU 法使用されずにいた時間が最も長いブロックを選択 2ウエイセットアソシアティブ方式の場合, 要素が参照されるたびにどちらが使用されたか記録 1ビット 126

タグのサイズと連想度連想度を上げるとそれに応じて比較器が増加するとともに, キャッシュブロック当たりのタグのビット数が増加.4Kブロックのキャッシュがあり,そのブロックサイズが4 語である.またそのアドレスは32ビットとする.ダイレクトマッピング方式, 2ウエイおよび4ウエイセットアソシアティブ方式,フルアソシアティブ方式のキャッシュについて,セットの総数とタグビットの総数を求めよ. 127

ブロック当たりのバイト数は2 4 =16 アドレス長が32ビットインデックスとタグに32-4=28ビット使用ダイレクトマッピング方式セット数 =ブロック数 4K= 2 12 より,インデックスは12ビットタグの総数は (28-12) 4K=64K 128

2ウエイセットアソシアティブ方式連想度を1つ上げると,セット数が半分になるインデックスが1ビット減り,タグ中のビット数が1ビット増加セット数は2K タグビットの総数 (28-11) 2 2K=68K ビット 2ウエイセットアソシアティブ方式セット数は1K タグビットの総数 (28-10) 4 1K=72K ビットフルアソシアティブ方式セット数は1つ,ブロック数は4K タグの総ビット数は28 4K=112Kビット 129

キャッシュとしてのTLB( 変換側付きバッファ) デマンドページングシステムで利用されているTLB 劇的にデマンドページングシステムの性能を向上させている小規模かつ高速なハードウエア機構から構成 TLB:キャッシュそのもの 130

マルチレベルキャッシュ DRAMにアクセスに要する時間と,CPUのクロック周波数とのギャップの解消のため CPUと同一のチップ上に,2 次キャッシュを実装 131

L1,L2,L3キャッシュの容量プロセッサ L1キャッシュ L2キャッシュ Itanium2 32KB 256KB L3キャッシュ 3MB,4MBor 6MB Itanium 32KB 96KB 2MB or 4MB Xeon MP 8KB 256KB or 512KB 512KB,1MB or 2MB P4 8KB 512KB 132

マルチレベルキャッシュの性能基本 CPIが1.0のCPU,クロック周波数は4GHz. 主記憶へのアクセス時間は,キャッシュミスに関する処理も含め100nS.1 次キャッシュにおける命令あたりのミス率は2%. 2 次キャッシュを追加したとき,それへのアクセス時間は, 5ns.2 次キャッシュは, 主記憶へのミス率を0.5%に下げられるだけの容量があると仮定. CPUの速度の向上はどの程度か 133

主記憶へのミスペナルティは 100ns 0.25ns/クロックサイクル=400クロックサイクルキャッシュが1レベルの場合, 実行 CPIは実行 CPI= 基本 CPI+ 命令あたりのメモリストールサイクル数 =1.0+2% 400=9.0 2 次キャッシュを追加すると,2 次キャッシュに対するミスペナルティは 5ns 0.25ns/クロックサイクル=20クロックサイクル 2 次キャッシュにより主記憶へのミス率は0.5%となるので, 実行 CPI=1.0+2% 20+0.5% 400=3.4 2 次キャッシュを参照するだけで済んだ,ストールサイクル数 + 主記憶までアクセスしたときのストールサイクル数 (2 次キャッシュへのアクセスも加算 ) (2%-0.5%) 20=0.3,0.5% (20+400)=2.1 1.0+0.3+2.1=3.4 134

マルチレベルキャッシュ単一レベルキャッシュに比べ, 1 次キャッシュ: ミスペナルティの低減がねらい容量は小さく,ブロックサイズも小さい 2 次キャッシュ: ミス率の低下が目的容量は大きく,より大きなブロックサイズ 1 次キャッシュに比べ, 連想度も高い 135

キャッシュ技術としてのデマンドページング概念的にキャッシュ技術の一つの形メインメモリ, キャッシュ外部記憶装置メインメモリデマンドページングキャッシュシステム仮想空間をメインメモリより広くとることができるキャッシュはページ全体の一部を保持 136

仮想アドレス使用 MMUが仮想アドレスを物理アドレスに変換前にキャシュが応答可能メモリ応答速度向上 MMUがプロセッサチップ外にある場合,L1キャッシュは仮想アドレスを使わねばならないキャッシュが仮想メモリシステムと相互に作用することを可能とするハードウエアの追加が必要 137

仮想メモリキャッシュ技術とキャッシュフラッシュキャッシュ技術と仮想メモリの併用時 : キャッシュは,プロセッサとMMUの間? MMUと物理メモリの間? キャッシュのデータを指定するとき, 仮想アドレスか, 物理アドレスか 138

仮想メモリシステムが, 通常アプリケーションプログラムに同一アドレス空間を提供時アプリケーションプログラムは0 番地から開始 OSがアプリケーションをスイッチする時アプリケーションは新しい値を参照するのに同じアドレスを使用キャッシュのデータ取り替え必要複数のアプリケーションが同一アドレスを使用時の,あいまい性の克服方法キャッシュフラッシュ命令 OSが新しい仮想アドレス空間に変わるごとにキャッシュをフラッシュあいまい性を排除した認証アドレス空間を認証するためのビットを使用 ID 仮想アドレスキャッシュが使用するアドレス 139

プログラマにとっての重要性プログラム中のループ: 繰り返し小さな命令集合へのアクセス同じデータの参照大規模配列の各要素に, 何度も繰り返し処理するプログラム次の要素に移行する前に, 配列の一要素にすべての演算を実行するその要素がキャッシュに残っているので, 高速処理が可能 140

141

142

命令とデータキャッシュ命令 : 連続性が高く, 高い局所性データ:ランダム性があり, 局所性は低いランダムな参照を連続したアクセスに挿入すると,キャッシュの性能を悪化ランダムな参照数を低減させることで,キャッシュ性能は向上 143