< B8CDD8AB B83685D> - PDF Free Download

() 坂井修一東京大学大学院情報理工学系研究科電子情報学専攻東京大学工学部電子情報工学科 / 電気電子工学科はじめにアウトオブオーダ処理工学部講義はじめに本講義の目的の基本を学ぶ場所火曜日 8:40-0:0 工学部号館 4 ホームページ ( ダウンロード可能 ) url: http://www.mtl.t.u-tokyo.ac.jp/~sakai/hard/ 教科書坂井修一 ( コロナ社電子情報レクチャーシリーズ C-9) 坂井修一実践 ( コロナ社 ) 教科書通りやります参考書. Patterson and J. Hennessy, Computer Organization & esign rd d.( 邦訳コンピュータの構成と設計 ( 第版 ) 上下 ( 日系 BP) ) 馬場敬信 ( 改訂版 ) オーム社富田眞治 Ⅰ 丸善予備知識 : 論理回路坂井修一論理回路入門培風館成績試験 +レポート+ 出席講義の概要と予定 (/) 講義の概要と予定 (/). 入門ディジタルな表現負の数実数加算器, フリップフロップレジスタ計算のサイクル. データの流れと制御の流れ主記憶装置メモリの構成と分類命令命令実行の仕組み実行サイクル算術論理演算命令シーケンサ条件分岐命令. 命令セットアーキテクチャ操作とオペランド命令の表現形式アセンブリ言語命令セット算術論理演算命令データ移動命令分岐命令アドレシングサブルーチン ISCとCISC 4. パイプライン処理 () パイプラインの原理命令パイプラインオーバヘッド構造ハザードデータハザード制御ハザード 5. パイプライン処理 () 遅延分岐分岐予測命令スケジューリング 6. キャッシュ記憶階層と局所性透過性キャッシュライトスルーとライトバックダイレクトマップ型フルアソシアティブ型セットアソシアティブ型キャッシュミス 7. 仮想記憶仮想記憶ページフォールト TLB 物理アドレスキャッシュ仮想アドレスキャッシュメモリアクセス機構 8. 基本 CPU の設計ディジタル回路の入力 Verilog HL シミュレーションによる動作検証アセンブラ基本プロセッサの設計基本プロセッサのシミュレーションによる検証 9. 命令レベル並列処理 () 並列処理並列処理パイプライン VLI スーパスカラ並列処理とハザード 0. 命令レベル並列処理 () 静的最適化ループアンローリングソフトウェアパイプライニングトレーススケジューリング. アウトオブオーダ処理インオーダーとアウトオブオーダーフロー依存逆依存出力依存命令ウィンドウリザベーションステーションレジスタリネーミングプロセッサの性能. 入出力と周辺装置周辺装置ディスプレイ二次記憶装置ハードウェアインタフェース割り込みとポーリングアービタ MA 例外処理試験 : 7 月後半

. アウトオブオーダ処理内容アウトオブオーダ処理アウトオブオーダ処理とはなにかデータ依存再考アウトオブオーダ処理の機構レジスタリネーミングソフトウェアによるレジスタリネーミングハードウェアによるレジスタリネーミング () ハードウェアによるレジスタリネーミング () スーパスカラプロセッサの構成アウトオブオーダ処理を行うプロセッサの構成プロセッサの性能アウトオブオーダ処理とはなにかアウトオブオーダ処理プログラムの意味を変えない範囲で命令実行完了の順序を変更し並列度をあげる処理 cf. インオーダ処理 : 命令を動的に入れ替えることをしない処理動的スケジューリングの一種動的スケジューリング : 実行時に行うスケジューリングアウトオブオーダ実行命令をステージに入れる順番を入れ替えるアウトオブオーダ完了実行結果をレジスタに格納する順番を入れ替えるアウトオブオーダ処理の例アウトオブオーダ処理の機構デコーダ mul r, r, r add r4, r, r5 mul r6, r7, r8 add r9, r0, r add r, r, r4 タグ演算器命令 add r, r, r mul r4, r5, r6 mul r7, r8, r9 sub r0, r, r メモリ lw r, 4 (r4) 集中型命令ウィンドウアウトオブオーダ処理の実現命令ウィンドウ命令ウィンドウ = 実行可能な命令を選び出す機構 (d) アウトオブオーダ実行アウトオブオーダ完了 (a) クロック (b) 0クロック (a) 集中型デコーダ命令ウィンドウ集中型分散型 = リザベーションステーション (c) 9 クロック (d) 8 クロックタグ命令 add r, r, r タグ命令 mul r4, r5, r6 タグ命令 sw r5, 0 (r6) sub r0, r, r mul r7, r8, r9 lw r, 4 (r4) リザベーションステーション () リザベーションステーション () リザベーションステーション () (b) 分散型 ( リザベーションステーション )

データ依存性再考データ依存の分類フロー依存命令 A で書き込んだ値を後続の命令 B で読み出すことで起こる A B の依存関係真の依存関係ともいう逆依存命令 A で読み出したレジスタ ( メモリ語 ) に後続の命令 B が書き込みを行うことで起こる A B の依存関係出力依存命令 A で書き込んだレジスタ ( メモリ語 ) に後続の命令 B が再度書き込みを行うことで起こる A B の依存関係逆依存と出力依存は主にレジスタ数の不足からくる依存 cf. インオーダの場合フロー依存だけを意識すればよくで解決していたデータ依存の例題 mul r, r, r add r4, r, r5 add r5, r6, r7 4add r4, r8, r9 5add r0, r4, r 6add r, r0, r フロー依存 : (r) 5 (r4) 4 5 (r4) 5 6 (r0) 逆依存 : (r5) 出力依存 : 4 (r4) データ依存とデータハザード例題のパイプライン実行フロー依存 A(read after write) ハザード逆依存 A(write after read) ハザード出力依存 A(write after write) ハザード mul r, r, r add r4, r, r5 add r5, r6, r7 add r4, r8, r9 (A) (A) (A) add r0, r4, r (A) add r, r0, r (A) アウトオブオーダ実行が可能であっても種類の依存関係からくるハザードによって実行時の並列度が下がる

レジスタリネーミングソフトウェアによるレジスタリネーミングレジスタリネーミングレジスタ番地のつけかえによる逆依存出力依存の解消やりかたソフトウェアソフトウェアによるレジスタリネーミング = 機械語プログラムの書き換え mul r, r, r add r4, r, r5 add r4, r6, r7 4add r5, r8, r9 5add r0, r5, r 6add r, r0, r mul r, r, r add r4, r, r5 add r4, r6, r7 add r5, r8, r9 add r0, r5, r add r, r0, r (A) (A) クロックの実行短縮ソフトウェアによるリネーミングの問題点ハードウェアによるレジスタリネーミング () () 機械語プログラムで指定できるレジスタ数には限界がある () CPU のアーキテクチャの細部 ( 特に並列動作可能なユニット数 ) にプログラムが影響を受けるため透過性互換性が失われるもとの命令 add r0, r4, r mul r, r, r r r r r4 r5 r6 r7 r8 r9 r0 r r r 5 4 6 7 8 9 0 変換後の命令 add 0, 5, (a) による命令の変換はリネームのステージ mul,, add r4, r, r5 add 4,, 5 (A) () 機械語プログラムの変換の手間がかかる add r5, r6, r7 add r4, r8, r9 add 4, 6, 7 add 5, 8, 9 add r0, r4, r add 0, 5, add r, r, r add,, (A) (b) マッピング機構を入れたパイプライン

ハードウェアによるレジスタリネーミング () vs 書き込み ( リタイア ) レジスタ値またはタグアドレスハードウェア機構動作単純複雑オペランドデータ ( 命令ウィンドウへ ) (a) によるリネーミング命令実行結果パイプライン長 + ステージ増えない e0 e r 8 add r0, r4, r e e r4 wait 新しいエント e4 リe4の確保 e5 r0 wait 対応するエントリからの値タグの読み出し add e4, wait(e), 8 命令ウィンドウへ (b) の動作アウトオブオーダ処理を行うプロセッサの構成 () アウトオブオーダ処理を行うプロセッサの構成 () パイプラインステージ PC パイプラインステージ PC フェッチ命令レジスタ add r0, r4, r add r, r, r 命令キャッシュフェッチ命令レジスタ add r0, r4, r add r, r, r 命令キャッシュリネームリネームデコードリネーム後の命令 add 0, 5, add,, レジスタ読み出しデコードリネーム後の命令 add 0, 5, add,, レジスタ読み出し集中型命令ウィンドウタグ演算器命令 add,, wait(4) mul 4,, - 集中型命令ウィンドウタグ演算器命令 add,, wait(4) mul 4,, - デコード mul 7, wait(5), sub 0, 4, デコード mul 7, wait(5), sub 0, 4, メモリ lw, 4 (0x) メモリ lw, 4 (0x) 実行データキャッシュ実行データキャッシュ結果格納結果格納

アウトオブオーダ処理を行うプロセッサの構成 () プロセッサの性能パイプラインステージフェッチデコード結果格納命令レジスタ add r0, r4, r add r, r, r デコードタグ命令 add e,, wait(e5) sub e,, -40 リザベーションステーション () 実行 PC add e7, wait(e), 8 add e8, 8, 書き込み ( リタイア ) タグ命令 mul e, 5, - mul e4, wait(e8), リザベーションステーション () 命令キャッシュタグ命令 sw e5, 0 (wait(e0)) lw e6, 4 (0x4) リザベーションステーション () データキャッシュ性能指標 ( 例 ) クロックあたりの平均実行命令数クロック周波数クロックあたりの平均実行命令数増やす方法命令スケジューリング分岐予測キャッシュ命令レベル並列処理アウトオブオーダ処理減る要因分岐予測の失敗キャッシュミス TLB ミスページフォルトハザードクロック周波数パイプラインの各ステージの複雑さによって決まる