システムLSIとアーキテクチャ技術　（part　II：オンチップ並列　　　　　　　　　　　アーキテクチャ）

今回は前回の続きでキャッシュの書き込みポリシー性能の検討をやって仮想記憶を紹介します 1

ではメモリの基本がわかったところでキャッシュの話をしましょうキャッシュとは頻繁にアクセスされるデータ ( 命令もデータの一種と考える ) を入れておく小規模高速なメモリを指します小銭の Cash ではなく Cache( 貴重なものを入れておく小物入れ ) なのでご注意くださいこの言葉はコンピュータの世界で大変有名になったので IT 機器の色々なところで使われるようになりましたディスクキャッシュやページキャッシュとかがこの例ですキャッシュ上にデータが存在する場合はヒットと呼びはずれるとミスヒット ( ミス ) と呼びますミスヒットしたら下のメモリ階層から持ってきて入れ替えますこの処理をリプレイスと呼びますキャッシュを理解するには三つのポイントがあります一つはマッピングです主記憶とキャッシュのアドレスを高速に対応付ける方法です二つ目は書き込みポリシー三つ目はリプレイスポリシーですこれを順に紹介しましょう 2

次のポイントである書き込みポリシーについて説明しますキャッシュから読み出す場合ヒットすれば直接読みミスヒットすれば主記憶からブロックを取ってきて ( リプレイス ) してから読み出しますしかし書き込みの際どのようにするかには二つの方法がありますライトスルーはキャッシュに書き込む時に主記憶にもデータを書いてしまう方法でキャッシュ上のデータと主記憶上のデータが常に一致するようにします一方ライトバックは書き込みはキャッシュだけにしてキャッシュ上のデータと主記憶のデータが一時的に異なった状態にすることを許しています以下順に説明します 3

ライトスルーキャッシュは図に示すようにヒットした場合はキャッシュに書いたデータをそのまま主記憶に串刺しで書き込みます 4

ではミスした場合はどうなるでしょう? この時の処理によりライトスルーキャッシュは二つの方法に分かれます一つはダイレクトライトと呼びミスした場合キャッシュをすっとばしてデータを直接主記憶に書いてしまう方法ですキャッシュへの書き込み信号をストップするだけなので実装が簡単な利点があります 5

もう一つの方法では書き込みミスの場合も読み出しミス同様まず主記憶からブロックを取ってきてキャッシュに入れ ( リプレイス ) てやりそれから書き込みヒットと同様にキャッシュと主記憶に同時にデータを書き込みますこれをフェッチオンライトと呼びますフェッチオンライトはダイレクトライトに比べて実装がやや複雑 ( リードミスとライトヒットを順に行えばよいのでそんなに複雑というほどではない ) ですが局所性の原則により書いたブロックには次には読み出しが予想されるのでこの際にヒットする可能性が高くヒット率が若干改善されるという利点があります 6

一方ライトバックキャッシュではキャッシュにだけデータを書き込み主記憶には書き込みませんこのためキャッシュの内容と主記憶の内容が違ってしまいますこの状態をダーティ ( 汚れちゃった ) と呼び主記憶と一致している状態をクリーンと呼びますキャッシュディレクトリにこの状態を示すダーティビットを付けておき最初に書いたときにこのビットをセットします 7

ライトバックキャッシュはキャッシュにヒットしつづける限りそこに書いて読めばよいので問題ないです問題はこのキャッシュブロックがキャッシュから追い出されるときに生じます今キャッシュがミスしてブロックのリプレイスが起きる際に今までのように単純に主記憶からブロックを持ってきて上書きすると書いたデータが消えてしまいますそこでまずダーティなブロックを主記憶に書き戻し ( ライトバックし ) それから新しいキャッシュブロックを取って来ますディレクトリを更新するとともにダーティビットを 0 にしますこの書き戻しはダーティビットがセットされているブロックだけに必要ですクリーンなキャッシュに対しては今まで同様単にキャッシュブロックを取ってくれば良いですダーティビットの存在によりこの部分で効率化を行っています 8

さてライトスルーとライトバックを比較してみますライトスルーは遅い主記憶を待たなければならないので非効率と書いてあるテキストもありますがこれは半分嘘です書き込みの場合 CPU は終了を待たずに次の命令の実行に入れるのでキャッシュと主記憶の間にきちんとした中間記憶 ( ライトバッファ ) を設けておけばライトスルーの性能はライトバックに比べてさほど落ちませんしかしライトバックは性質上シングルワードの書き込みが必要です先ほどメモリで紹介したように最近の DRAM はブロックライトしか受け付けないのでシングルワードの書き込みを行うためには 1 ブロック読み出してこの一部を変更して書き込む操作が必要になりますこれは非効率ですしたがってライトスルーは L1 キャッシュと L2 キャッシュの間などキャッシュ間のみで使われますライトスルーの良い点は常にデータの一致が取れることです観測性が良く来年やりますが入出力を行う場合に有利です一方ライトバックは主記憶との転送が常にブロック単位なので DRAM やブロック転送の得意な高速バスに良く合っていますまたバスの利用率が下がるので最近のマルチコアに適合します世の中のマルチコア化が進むにつれライトバックはライトスルーを圧倒して使われるようになっています 9

ではキャッシュの書き込みについての動作を確認しましょう c2kai.tar を取ってきてこの wth,wback のそれぞれで単純なテストプログラム test.asm を動かして様子を見ましょうメッセージは多少見やすくなっていると思います 10

最後のポイントはリプレイスポリシーですこれはリプレイスすなわち主記憶からブロックを持ってきてキャッシュに入れる際にセット内のどのウェイに入れるのかを決める方法のことですセット内に 1 ウェイしかないダイレクトマップは入れる場所が一つに決まるので悩みがありませんセット内に複数のウェイがある場合はどれかのウェイのブロックを選んでここに新しいブロックを入れる必要がありますこのリプレイスポリシーで最も良く使われるのが LRU( Least Recently Used) で対象ブロックの中で使われた時間が最も古いものを選ぶ方法ですつまり最近使われていないものを選びます最近使われたものはまた使われる可能性が高いので追い出しの対象にするのは良くないです LRU は最後に使われたのが最も古いものを選ぶので局所性の原則に適っていますこれは 2 ウェイの場合最後に使われた方のビットをセットしておけば良いので簡単です Verilog のコードを見てもとても簡単なことが分かりますしかし 4 ウェイ以上は履歴を取っておく必要があって結構面倒です実際は最近使われたものその次に使われたものを除外して後は適当に選んでもさほど性能は低下しないので擬似的な LRU で済ませる場合が多いです他にもランダムに選んだり入ってきた順に選んだり (FIFO:First In First Out) する方法もあるのですが実際上は LRU 以外には用いられません 11

理想のキャッシュを使った場合の CPI(Clock cycles Per Instruction) はキャッシュミスが起きると延びてしまいますキャッシュの性能はキャッシュのオーバーヘッドを含む CPI の値で示すことができます命令を一つ読み出す度に命令キャッシュがアクセスされますこのため命令キャッシュのミス率ミスペナルティでミス時のオーバーヘッドが表されますちなみにミスペナルティはミス時に増加するクロック数で表します命令の中でデータを読み出す命令についてはデータキャッシュがミスするとそのペナルティだけ CPI が延びますすなわちデータキャッシュの読み出しミス率読み出し命令の生起確率ミスペナルティがこれに加わりますこの式ではデータキャッシュへの書き込みミスについては無視していますこれは CPU はミスが起きた場合でも次の命令を実行することができるからですただしこの式は問題がありますまずミスペナルティは一定ではないです Write Back キャッシュでは書き戻しを伴うかどうかで 2 倍くらい違ってきます次にこの式では書き込みミスでも CPU は次の命令を実行できるとしましたが書き込みが続いたり書き込み命令がミスした直後に読み出しを行う時などその読み出しがヒットしてもキャッシュが使えない場合がでてきます ( これを防ぐには後に示すノンブロッキングキャッシュを使います ) 実際の記憶の階層は 1 階層ではなくてもっと深いのでこれも考えないといけません最後に CPU が会うとオブオーダー実行可能 ( この話は来年やります ) な場合ミスが起きてもそのままオーバーヘッドにならない場合があります 12

というわけでキャッシュの性能をきちんと評価したかったらシミュレータを用いるしかありませんここに示す式は単純なものの中ではマシな方とお考え下さい 12

先ほどの式がどの程度正確かどうかは疑問の余地があるとはいえキャッシュの性能がミス率とミスペナルティによって決まることは間違いないですすなわちキャッシュの性能を上げるにはミス率を減らすかミスペナルティを小さくすれば良いのですまずミスについて検討しましょうミスは容量ミス競合ミス初期化ミスの三つに分けて考えることができます英語の頭文字をとって 3 つの C と呼びます容量ミスはキャッシュの絶対的な容量不足により生じるミス競合 ( 衝突 ) ミスはインデックスが衝突することによって格納できなくなってしまう問題最後の初期化 (Compulsory: 強制必須という意味です ) ミスはスタート時プロセス切り替え時など最初にキャッシュにブロックを持ってくるためのミスですこれは避けることができません 13

このグラフはキャッシュの原因を分類したもので横軸にキャッシュ容量縦軸にミス率を取っています 1-way( ダイレクトマップ ) 2-way とウェイ数が増えていくにつれ競合ミスが減っていきますウェイ数を無限に増やしても減らすことができない部分が容量ミスになります初期化ミスは下のほうに見える非常に細い筋です下のグラフは上のグラフと同じデータですがミス率全体を 100% と考えてこの中のミスの成分を示しています 14

ミス率を減らすのに最も効果的な方法は容量を増やすことでこのことで容量ミス競合ミスの両方が減りますしかし容量が増えるとコストが大きくなりヒット時間が増えますさらに物理的にチップやボードに搭載できる量は制限されます次に Way 数を増やすと競合 ( 衝突 ) ミスが減ります先の図を見るとキャッシュ容量が小さいとき 2way は 2 倍の容量のダイレクトマップとほとんど同じくらいのミス率になります Way 数を増やす効果は 4,8 と大きくするほど小さくなってしまい 4 以上にしてもほとんど効果がなくなります Way 数を増やす効果はキャッシュ容量が小さいときに大きいですが逆に容量が非常に大きい場合にも不運な競合ミスを減らしてミス率を非常に小さくするために有効です前のページの図をご覧下さい Way 数を増やすと比較器やマルチプレクサのコストが大きくなりヒット時の遅延が増えますこのため 8 より大きいものはほとんど使われません最後にブロックサイズを大きくする手がありますこれについては次のページにグラフが載っています 15

ブロックサイズを増やすと一度に周辺のデータを取って来ることができるので局所性の原則からミス率を減らすことができますしかしキャッシュ容量自体が小さいときにブロックサイズを大きくするとインデックスが重なる可能性が増えるため競合ミスが増えてしまいますこの図はサイズをパラメータに取っているので一番小さい 4K でこの傾向がはっきり出ています 64K 以上のサイズならばブロックサイズを増やしてもミス率は上がりませんとはいえ下がることもないです 16

ブロックサイズを増やす問題点はミスペナルティが大きくなることです大きいサイズのデータを動かすのでこれは当然ですしかし DRAM やバスの性質上サイズに比例して増えるのではなく増え方はずっとおだやかなものになりますこの表はひとつの例であり実装でいろいろ変わりますがブロックサイズとミスペナルティ ( クロック数 ) を示していますキャッシュサイズのところに示してる数値はミス率とペナルティを掛けたものです太字がもっとも小さい値ですこれを見るともっとも小さくなるのはブロックサイズが 32-64 バイトであることがわかります実際のキャッシュのブロックサイズもこの程度の値を取ります 17

ではキャッシュの性能を向上する代表的な手法を紹介しますざっと概念だけ理解しましょう 18

階層キャッシュは主記憶と CPU の間にアクセス時間と容量の違った複数のキャッシュを置く方法ですまず CPU の直近に小容量でもできるだけ高速なキャッシュを置きますこれが L1 キャッシュです次に CPU と同じチップ内に容量が大きい L2 キャッシュを置きます最近のマルチコアプロセッサではさらに次の L3 キャッシュも同一チップ内に置く場合が多いですこの図では次に CPU チップ外で同じボード上にオンボードキャッシュを置きますオンボードキャッシュは高速 SSRAM が用いられますこの次のレベルが DRAM の主記憶になります 19

マルチレベルキャッシュの制御法にはマルチレベルインクルージョンとマルチレベルエクスクルージョンがありますマルチレベルインクルージョンは上位階層のキャッシュがそれより低い階層の内容を全て含んでいますしたがって階層間のやり取りはキャッシューメモリの場合と同じでそれぞれの階層で今まで紹介してきた構成にすれば良く一度リプレイスされたキャッシュブロックに再びアクセスがあった場合一つ深い階層に存在する利点がありますしかしメモリシステム全体としてデータのコピーが複数個所に存在することになり無駄が多いといえます一方でマルチレベルエクスクルージョンは上位階層のキャッシュと下位階層のキャッスを入れ替えてしまい内容が重ならないようにする方法ですミスヒットが起きたらキャッシュブロックは上位階層に移動しその場所にあったブロックが下位階層に移動しますリプレースというよりもスワップを行いますマルチレベルエクスクルージョンはメモリ全体の利用効率は良いのですがミスが起きた際深い階層までとりに行かなければならない場合が増えます 20

キャッシュの書き込みミスが起きても CPU は引き続き命令を実行することができますこの場合再び CPU が読み出し命令を実行したらキャッシュはどうすれば良いでしょうキャッシュコントローラが単純なものだと書き込みミスヒット時の処理中は次のアクセスが受け付けられず例えヒットしても値を返すことができませんこのようなことを防ぐためにキャッシュ自体をパイプライン化 ( これも 3 年生でやります ) して連続した要求を処理できるようにするのがノンブロッキングキャッシュですノンブロッキングキャッシュは次々に到着した要求を待たせることなしに次々と受け付けるのが理想ですが実際にはミスの間に起きた一つのヒットを扱えれば十分な性能向上が得られますまたこの方法は CPU がアウトオブオーダ実行できないとあまり効果が上がりませんこのため今年はこの程度の説明にとどめたいです 21

クリティカルワードファーストとアーリーリスタートはもっと簡単な実装上のアイディアですミスをしたキャッシュを主記憶から取って来る際に通常はまずブロックを取ってきてキャッシュに転送し終わってから CPU にそのことを知らせてそのワードを読みこんでもらいますしかし CPU はブロック全体の転送が終わるのを待っている必要はなく自分が欲しいワードが主記憶から読み出されてきたらすぐそれを受け取って次の処理に移ればペナルティが減ります CPU が動くのと並行してキャッシュの転送も引き続き行われますさらにこの考え方を進めブロックの先頭からではなく CPU が要求したワードから先に読み出して 1 ブロック分をぐるっとまわって読む方法をクリティカルワードファーストと呼びますこれはメモリの方が対応する必要がありますが最速で必要なワードを CPU に渡してスタートさせることができます 22

プリフェッチはキャッシュ上に存在しないブロックをアクセスされることを予測してそれがアクセスされる前にキャッシュに取って来る方法です予測が当たればペナルティを場合によってはゼロにすることができますしかしこれには問題点があり予測がはずれた場合不要なブロックによって使うかもしれないブロックが追い出される可能性が出てきてしまいますそこでプリフェッチしたブロックはまず小規模なプリフェッチバッファに入れておき本当にアクセスされた場合にキャッシュに移すのが標準的な方法になっていますプリフェッチはハードウェアプリフェッチとソフトウェアプリフェッチがあり 23

プリフェッチ以外でもコンパイラががんばることでキャッシュのヒット率を上げることができます例えば左の入れ子構造を見てください i が 0 から 5000 まで変化するのでループの内部で何回もミスヒットが起きますこれを外側のループと内側のループを入れ替えれば内側のループで扱う構造がキャッシュの中に入ってしまうのでミス数が減りますこれをループ交換と呼びます他にもループをくっつけたり扱う配列をキャッシュに入るようにブロック化する方法が知られていますこれらは行列のように静的なデータ構造を扱う科学技術計算では効果的です 24

最後に仮想記憶について紹介します実はこの仮想記憶は OS の守備範囲です最近のプロセッサの多くはプロセッサから見たアドレス ( 論理アドレスあるいは仮想アドレス ) と実際のメモリ上のアドレスを分離していますこのことで実メモリよりも大きいメモリを扱うことができ複数のプロセスを互いのアドレスを気にしないで実行させることもできますさらに管理単位で記憶領域の保護もできますこの管理単位は固定サイズのページ ( これはキャッシュブロックよりも大きく 4KB から 16KB くらいです ) と可変サイズのセグメントがありますが最近の OS ではページを用いる場合が多いですこの仮想記憶は記憶の階層の最後の主記憶と補助記憶間のやりとりであり概念としては今まで紹介してきたキャッシュに似ていますがハードウェアではなく OS が管理する点が大きく違います用語も違っておりキャッシュブロックに対応するのがページリプレイスはスワップインライトバックはスワップアウトと呼びます主記憶と補助記憶 ( ディスク ) とのアドレスのマッピングは OS が管理するのでダイレクトマップのようなキャッシュで使った方法よりもずっと高度な方法が用いられますしかしスワップの方法は LRU で同じです書き込みの制御は補助記憶とのやり取りを減らすために当然ライトバックです 25

論理アドレスと物理アドレスの変換の例を図に示しますこの例では仮想アドレス空間は 32 ビット分すなわち 4GB で物理アドレス空間は 16MB を想定しています実際はもっと大きいですが原理は同じです両者ともに 4KB のページで区切られていますのでアドレスの対応は論理ページと物理ページの対応表により行いますすなわち 20 ビットの論理ページ番号で参照すると 12 ビットの物理ページ番号が出てくる表を用意すればいいですしかしこのような表は巨大になってしまうため実際は主記憶上で OS により管理されます変換の度に巨大な表を引いていては大変なので小規模高速なメモリを設けて変換テーブルの内容をキャッシュしますこのメモリを TLB(Translation Lookaside Buffer) と呼びますページは 4KB 程度の大きさがあるので局所性の原則からプログラムが利用するページのアドレスが TLB に入ってしまえば実行中ほとんどミスをすることはなくなります 26

TLB は小規模のメモリを効率良く利用するためキャッシュではほとんど用いられることはないフルマップ方式を用いることが多いですここでは先のスライドの TLB に相当する実装例を示します論理ページ番号は一度に TLB の全ての値と比較しマッチすれば対応する物理ページ番号が出力されます物理ページ番号のほかにもそのページに書き込みがあったかどうかを示す Dirty bit そのページを普通のユーザがアクセスして良いのかどうかを示す Priority ビットなどページの管理に必要なデータをも持たせておきますページ内アドレスは変わらないのでこれを物理ページ番号にくっつけて物理アドレスができあがりです 27

CPU からのアドレスが TLB にマッチしなかったらどうなるでしょう? この時にはページフォールトと呼ばれる例外処理が発生しますこの話は 3 年のコンピュータアーキテクチャ OS の授業で学びますページフォールトはページ自体は主記憶に存在するけれどそのコピーが TLB に存在しない場合とページ自体が主記憶中に存在しない場合の両方で生じます前者は TLB を入れ替えだけで済みますが後者はディスクなどの補助記憶からページをスワップインしてきてさらに TLB を入れ替えますこの処理はいずれも OS が行います他にも TLB 自体にヒットしたけれど Dirty bit が 0 のページに書き込みを行った場合もページフォルトが生じますこれは Dirty bit をセットする必要があるからでライトバックキャッシュ同様 Dirty bit がセットされているページはスワップアウトの際補助記憶にライトバックしなければなりませんさらに特権違反などでもページフォルトが生じ全て OS により処理されます 28

TLB でやっかいな点はキャッシュは物理アドレスでアクセスされるのが普通でこのため論理アドレスと物理アドレスの変換はキャッシュをアクセスする前に行なわれなければならないですこれは論理アドレスでキャッシュをアクセスすると違ったプロセスでアドレスが重複してしまう問題 ( シノニム問題 ) が発生してしまうためですしかし TLB で変換してからキャッシュをアクセスすると時間が掛かってしまい折角のキャッシュの効果が台無しになりかねませんそこでよく使われるのが仮想アドレスインデックスー物理アドレスタグ方式ですこれは論理アドレスと物理アドレスの変換の対象外のページ内アドレスをキャッシュのインデックスにつかうことで TLB 参照とタグ参照キャッシュ参照を同時に行なって TLB 変換による時間的ロスを防ぐ方法ですページサイズが 4KB の場合はインデックスも 12 ビットまでの範囲で収めなければならないためダイレクトマップだとキャッシュサイズは 4KB に制限されます 2way ならば 8K,4way ならば 16K までになりますしかし TLB の変換時間が問題になるのは L1 キャッシュまでの話なのでサイズは小さくても問題は少ない場合が多いです 29

仮想アドレスインテックス物理アドレスタグ方式の図ですページ番号の部分で TLB を引き残りの部分はインデックスとしてタグメモリキャッシュをアクセスします同時に TLB により得られた物理アドレスのタグとタグメモリから出力されるタグを比較しますこの方法は三つの記憶要素を同時にアクセスすることで TLB の変換時間を隠蔽することができます 30

インフォ丸が教えてくれる今日のまとめです 31

システムLSIとアーキテクチャ技術 （part II：オンチップ並列 アーキテクチャ）

システムLSIとアーキテクチャ技術　（part　II：オンチップ並列　　　　　　　　　　　アーキテクチャ）