MIPSのマイクロアーキテクチャ - PDF 無料ダウンロード

今回はパイプラインの動作を妨げるハザードとその対処法をやります 1

前回紹介した構造ハザードは資源の競合により起こるハザードで回避は簡単 ( というか複製しか手がない ) でした今回はハザードの中のハザードデータハザードを紹介します 2

パイプライン処理では直前の命令の結果がレジスタファイルに書き込まれないうちに後続の命令が読み出しを行うためこの命令間にデータの依存性があると誤って更新前の値を読み出してしまいますこれを書き込む前に読んでしまうことから RAW(Read After Write) ハザードと呼ばれ最も一般的なハザードです他にも WAR や WAW があるのですが MIPS ではパイプラインの最後に結果を書き込むのでこれらは生じません RAW ハザードを解決するには命令間の間隔を保ってやれば良いのですがこれは本質的に性能を落とすことになりますもう一つ最新の結果を横流しすることでデータハザードのロスを軽減することができます 3

データハザードの範囲を検討しましょう W ステージで書き込みを行うので 2 3 ではこの値が読めずこれ以前の値を読み出すことになります 4 も書き込んだデータを読めるように工夫しなければ同様に以前の値を読んでしまうことになりますここで 4 は比較的容易に対処が可能ですレジスタファイルに書き込んだ値をそのまま読めれば良いので書いた値をスルーして読めるようにするかサイクルの前半で書いて後半で読み出すようにするかを行います 4

この記述は後者のアプローチでクロックが立ち下がった時にデータが格納されるようにしますこの方法でクロックの前半で書き込み後半で読み出しが行われます後半の時間がクリティカルパスになり勝ちです 5

5 は回避できたのでそれ以前の命令のデータハザードを回避するために命令間の距離を取る方法を検討しましょうこの場合二つ NOP を入れれば回避できることが分かりますしかしこれはかなりの性能低下をもたらしますより現実的な方法は来週検討しましょう 6

さらに積極的にフォワーディングをするにはどうすれば良いでしょう? この例では 1 の命令の結果は E ステージの終わりでは計算済ですこれを次の命令の E ステージの最初に送れば計算可能になりますまたこの命令が M ステージを出た所で次の次の命令の E ステージに送ってやれば 3 の命令も計算可能になります 7

ここではデータの入れ替えは基本的に E ステージの ALU の直前で行いますこれは先行命令の結果を書き込むレジスタ (rd か rt) が E ステージの命令の rt(rs) と一致することが必要でかつ先行命令がレジスタファイルに書き込みを行う命令であることが必要です 8

このために ALU の入力にフォワーディング用のマルチプレクサを付けます 9

このマルチプレクサに対して条件が成立した場合の計算結果をフィードバックしますこれは命令 1 から命令 2 へのフィードバックです 10

同様のフォワーディングは W ステージからも行います両方からのフィードバックが必要な場合 M ステージを優先します 11

通常の計算データはこの方法でフォワーディング可能ですしかし Load 系の命令 lw, lb, lbu ではこれだけでは十分でないですこの命令では答が M ステージの終了後でなければ得られないためですこのため次の命令でこの結果を利用する場合どうしても 1 サイクル分のバブルを入れてパイプラインを待たせてやる必要があります 12

この待たせる操作をパイプラインインターロックと呼びますこれを実現するにはまず D ステージでチェックをし E ステージの Load 命令の読んできた結果が D ステージで利用される場合 M と W は実行を続け F,D,E は実行を停止しますこれをパイプラインインターロックと呼びます 13

パイプラインインターロックは命令コードの実行順を入れ替えることで対処できます例えば例題のコードを実行する場合普通にプログラミングすると 2 か所ストールしてしまいます 14

しかし処理の順番を入れ替えることでストールは 0 にすることができますこれをコードスケジュールと呼びます 15

ではフォワーディングの Verilog 記述を紹介します ALU の A,B それぞれのマルチプレクサを拡張します図と対応させて理解しましょう 16

やや拡大した図です Verilog 記述と対応させてください 17

次にパイプラインインターロックの Verilog 記述を紹介します D ステージで判定を行い F ステージはこの信号 lwstall でパイプラインを止めます 18

D ステージも同様にしてパイプラインを止めます一方 E ステージ以降はこのようなインターロックをさせません 19

最後のハザードがコントロール ( 制御 ) ハザードですこれは分岐命令が原因で次に実行する命令の確定ができないことから生じます 20

ALU で分岐先を計算させるとしましょう E ステージの後の M ステージで PC が更新され次のクロックからそれに従ってフェッチされますこれだ 3 クロック分次の命令の始まりが遅れパイプラインの性能計算の式に基づくと分岐系の命令が合わせて 25% と仮定すると CPI=1 が 1.75 になってしまいますこれはちょっとダメージが大きいです 21

F ステージではそもそも命令をまだ取って来てないので最速で分岐先を計算するのは D ステージで計算および判断をやって次のステージに分岐後の命令を取ってくることですこの方法では ALU が使えないので専用の加算器が必要ですがダメージが 1 サイクルになります分岐命令と分かったら次に命令を取ってくるのを止めて 1 クロック待って ( バブルが入る ) 次のクロックに正しい命令を取ってきますこの場合 1 クロックのダメージがあるので分岐命令の確率を 25% とすると CPI は 1 から 1.25 になります 22

ではこのための仕組みを考えます D ステージに飛び先計算と飛ぶかどうかを判定するハードウェアを入れてやります飛び先の計算は加算器に入れる前にシフトが必要です分岐の判定はレジスタ同士が等しいかどうかをしれべれば良いので簡単です 23

問題は分岐の判定を早い時期に持ってきたことで判定するレジスタに対してデータハザードが生じてしまうことですこれは M ステージからと E ステージからの二つを考慮する必要があります両方ともレジスタ番号が一致して先行命令がレジスタに書き込む命令で後続命令が分岐命令の時フォワーディングが必要になりますが直前からフォワーディングをするとクリティカルパスが延びてしまうのでここではインターロックをすることにします 24

また lw 命令は結果が使えるのは M ステージの後なのでこれもインターロックの必要があります 25

M ステージからのフォワーディングを行うためにマルチプレクサをレジスタファイルの出力に付けてやります 26

それでは Verilog コードを見てやりましょうパイプラインハザードの対処はステージ間をまたがるので慎重に考えて信号名を間違えないようにしましょうストールしない場合で分岐が成立すれば pc に飛び先をセットしそうでなければ pc+4 を pc にセットしますこれとは別に pc+4 は次のステージに送ってやる必要があります 27

では D ステージでの処理です分岐命令が成立するかどうかはフォワーディングのマルチプレクサを含めての記述です条件が少しややっこしいです分岐の飛び先は F ステージからの PC+4 に飛び先をシフトした値を足しますここで専用の加算器を使いますここで使うレジスタには M ステージからのフォワーディングを行う必要があります 28

次はパイプラインインターロックの説明です lw 命令の次の命令がそれを使う時これがデータハザードによるインターロックで lwstall という信号名を使っています分岐命令の方は branchstall という名前になっていて E ステージの命令の結果が次の分岐命令の判断に使う時 M ステージのレジスタを分岐命令で使う時にパイプラインを止めていますこれらのインターロックは命令スケジューリングによって回避できます 29

このパイプラインでは分岐命令の次の命令はフェッチしてきても捨てなければならず 1 クロックのストールが必ず生じますこれを低減するための簡単な方法を二つ紹介します一つは Predict Not Taken という方法で分岐命令が常に分岐しないと予想する一種の分岐予測です予測がはずれて分岐が成立すると分岐命令を NOP に変更してパイプラインに流しますこれはバブルとなってダメージとなりますが分岐が不成立ならばフェッチしてきた命令をそのまま使うことができてロスが生じませんこの方法は簡単な付加ハードウェアで性能が向上しますが不幸なことに分岐命令は成立する場合の方が多いので思ったより効果が得られませんもう一つの方法は遅延分岐 (Delayed Branch) といってハードウェアは何も変更せずに取ってきた命令をパイプラインに流してしまいますそしてこの分岐命令は一命令分効き目が遅いんだと解釈しますこのパイプラインに流してしまう命令の場所を遅延スロットと呼びます 30

この図は Predict Not Taken を示しています成立の場合のみ命令をフェッチしなおします 31

遅延分岐は分岐命令の次の命令をパイプラインに入れてしまい必ず実行する方法ですすなわち分岐命令の効き目が遅いと考えるのですパイプラインスケジュールによって有効な命令を入れてやることができればこの命令は無駄にはならないですどうしても有効な命令が入れられない場合 NOP 命令を入れておきますこれはロスになってしまいます 32

mult.asm の例を考えましょうこの分岐は遅延分岐で NOP が入って正常に動いていますではこの NOP を有効な命令で埋めるにはどうすれば良いでしょうか? 33

add 命令を持ってきた例ですこのコードは一見ものすごく変に見えますが bne が遅延分岐ならばちゃんと動きます 34

もう一つ制御変数の $1 をカウントダウンする命令を使う方法もありますこの場合はインターロックを減らす効力もありますしかし命令の実行順は変わらないためあらかじめ一つ引いて置く工夫が必要になります 35

ではインフォ丸に MIPS5 段パイプラインをまとめてもらいましょう実際このパイプラインは良くできていて単純な 32 ビットプロセッサはおおむねこれに類似した 5 段パイプラインを持っています 37