cmpsys13w03_cpu_hp.ppt

Size: px

Start display at page:

Download "cmpsys13w03_cpu_hp.ppt"

ありかつささおか
5 years ago
Views:

1 情報システム論第 3 章! CPU! 根来均

2 Outline! u CPU の主な働き! u CPU での命令実行処理! u CPU の高速化技術! u CPU の性能評価方法手段! u 並列計算機! u 現在の CPU の動向

3 CPU の主な働き u 制御装置 (Control Unit, CU)! プログラム制御 ( 命令の解読実行分岐命令データ転送命令 )! 入出力制御 ( 入出力動作と内部処理入出力命令 )! 誤り制御 ( データの誤りの検出パリティチェック )! 記憶保護機構 ( 多重平行処理での各記憶領域の保護 )! u 演算装置 (Arithmetic and Logic Unit, ALU)! 整数演算 ( 四則演算算術演算命令 )! 論理演算 ( 論理和積論理否定など論理演算命令 )! 比較演算 ( 算術論理比較比較演算命令 )! シフト演算 ( ビットシフトシフト演算命令 )! 浮動小数点演算

CPU での命令の実行の流れ 1) 命令をレジスタやメモリから取り出す (Instruction Fetch, IF)!

3b) オペランドの取出し ( 主記憶装置上のデータやレジスタの内容を演算回路に取り込む )!

4 CPU での命令の実行の流れ 1) 命令をレジスタやメモリから取り出す (Instruction Fetch, IF)! 2) 命令を解読する ( 演算回路の選択 ) (Instruction Decode, ID)! 3) レジスタやメモリへアクセスする (Operand Addressing, OA)!!3a) オペランド ( 対象となる値や変数 ) の有効アドレス計算 ( 利用する主記憶装置上での場所やレジスタの決定 )! 3b) オペランドの取出し ( 主記憶装置上のデータやレジスタの内容を演算回路に取り込む )! 4) 命令を実行する (Execute, E)! 5) 演算結果をレジスタやメモリに書き込む (Write back/store, W/S) 命令取り出し段階命令実行段階命令サイクル ( 要する時間 : サイクルタイム )

5 ( 実際の処理手順はより多段かつ複雑 CPU メーカのホームページなどのデータシート参考のこと )

6 動作クロック (clock) 水晶発振器を用いて発生させるスタート write back execute addressing decode fetch この例では 1 つの計算 ( 命令 ) に 5 clock かかっている 1 clock 1 計算でない! クロック周波数 :1 秒間のクロック数 (CPU の性能の基準値の一つ )

7 実際の処理手順プログラム ( 人が書く処理手順書 ) a = 20; b = 15; c = a + b; コンパイル ( 機械語へ変換 ) 0 load A add B store C stop CPU での処理これら 1 つ 1 つに対して先の fetch ~ write back が CPU で処理がされていく 1 年時の計算機基礎を参照

8 実行コードを知るアッセンブラコード (assembler code) で確認する (gcc -S source.c)! ( 情報処理試験 COMET)! C の ( 意味のない ) ソースコード main(){ int a,b,c; a=1; b=2; c=a+b; } 命令コード部 (operator, 演算子 ) [ 実行命令部 ] main:... movl $1, -12(%rbp) movl $2, -8(%rbp) movl -8(%rbp), %eax movl -12(%rbp), %edx leal (%rdx,%rax), %eax movl %eax, -4(%rbp) leave ret 一部抜粋 x86/linux の例オペランド部 (operand, 被演算子 ) [ 対象となるデータの場所 ( アドレス ) 指定部 ] このような機械語と 1 対 1 の関係にある言語をアッセンブリ言語と言うこれを機械語に変換するソフトウェアをアッセンブラと言う各命令は命令コード部とオペンランド部から成り先の fetch ~ write back の命令サイクルの例は例えばこの 1 つ命令に対して 1 サイクル行なわれる

9 CPU の高速化技法

パイプライン処理 1 つの命令 fetch! decode! access! execute!

access! execute! write! パイプラインの段数無駄! 分岐予測失敗!

10 パイプライン処理 1 つの命令 fetch! decode! access! execute! write! fetch! decode! access! execute! write! 並列処理 ( 次の処理を予測し次々に処理 ) により単位時間当たりの実行命令数 (through-put) は増加時間 ( クロック ) fetch! decode! access! execute! write! パイプラインの段数無駄! 分岐予測失敗! fetch! decode! access! execute! fetch! decode! access! このようなパリプライン処理の失敗滞りをパイプラインハザード (hazard) という多段の方が 1 段あたり処理が少なくクロックアップは容易しかし予測を間違うと多くの計算が無駄になる

11 計算機そのものではない! CPU の性能の決定要因 u 内部動作周波数 ( クロック数, 1 GHz or 3 GHz?)! u 一度に処理出来る bit 数 (16, 32 or 64 bit?)! u パイプライン処理! 一連の処理に必要な命令数 (RISC or CISC?)! 1 命令あたりの実行に必要なクロック数! スーパーパイプライン (Pen4: ハイパーパイプライン ): パイプラインのステージをさらに細分化して並列処理 (1 ステージ当りの作業が減りクロック数の上昇が容易 )! 分岐予想の正確さ! u 演算装置 ( 浮動小数点演算装置など ) の数! スーパースカラ (superscalar): 同時に並行して命令を処理! u 1 (+ 2) 次キャッシュ (L1, L2 cache) の性能と大きさ! u (CPU (core) の数 )!

12 Intel モバイル Pentium の例 CPU 名 PenIII-M! Pen4-M! Pen M! パイプライン段数 10 段 20! 10~12?! 整数 3! 6! 3?! 実行ユニット数浮動小数点 1! 2! 2?! MMX/SSE/SSE2! 2! 1! 2?! 命令 L1 キャッシュ容量 16 kb! 12kμOps! 32 kb! データ L1 キャッシュ容量 16 kb! 8 kb! 32 kb! L2 キャッシュ容量 512 kb! 512 kb! 1-2 MB! FSB 周波数 (MHz)! 100/133! 400/533! 400!

ソースコードの行数でない ) CPI (Cycles Per Instruction) u 1 命令の実行に必要なクロック数 ( 種々の命令の平均値 )!

13 実行時間と実行尺度 CPI! u プログラムの CPU の実行時間 = 命令数 x 平均 CPI x クロックサイクル時間命令数 u オブジェクトコードにおいて実行される機械語の命令数 ( ソースコードの行数でない ) CPI (Cycles Per Instruction) u 1 命令の実行に必要なクロック数 ( 種々の命令の平均値 )! u 1 命令の実行時間 = CPI クロック周波数! u パイプライン処理により向上可 (CPI の値はより小さく )! クロックサイクル時間 (= 1/ クロック周波数 )! u cf. IPC (Instruction Per Cycle)! ICP = 1/CPI! 1 クロックで実行可能な命令数! 最近のものでは ( スーパースカラを用いて 1 コアあたり ) IPC = 1~2 が多い!

演算アーキテクチャ u RISC (Reduced Instruction Set Computer) 縮小命令セットコンピュータ命令を複数の単純化したものにして実行する! 例 ) IBM/Motorola [Power, PowerPC], Sun [Sparc], Dec( 現 HP) [Alpha], MIPS [MIPS]!

14 演算アーキテクチャ u RISC (Reduced Instruction Set Computer) 縮小命令セットコンピュータ命令を複数の単純化したものにして実行する! 例 ) IBM/Motorola [Power, PowerPC], Sun [Sparc], Dec( 現 HP) [Alpha], MIPS [MIPS]! u CISC (Complex Instruction Set Computer) 複合命令セットコンピュータ! 一つの命令を段階を踏んで処理をする! u 複雑な処理も 1 命令で出来るが実行に時間がかかる! 例 ) Intel [x86 系, Xeon, Pentium, Celeron], AMD [Athlon, Duron]! 現在では上記の CPU は内部的には RISC と言われている!

15 実行尺度 MIPS! u MIPS (Million Instruction Per Second)! 1 秒間あたりの命令実行回数 /10 6! CPU によって命令セットの数が異なり異なる CPU 間同士の比較は難しい u 以前は MIPS が性能評価によく使われていたが現在は使われないことが多い例 : クロック数 f = 1 GHz, CPI (= 1/IPC) = 0.8 f / CPI (or = f x IPC) = 1x10 9 / 0.8 = 1.25 x 10 9!!!!= 1,250 MIPS! (c.f., 1 実行時間 = (1 / 1x10 9 ) x 0.8 = 8x10-10 s = 0.8 ns)

0 GHz [705,024 cores] (11/06-11/11 はトップ, 13/06 現在 4 位 ) u 日本 NEC の地球シミュレータは 2004 年まで

16 性能評価 FLOPS, Benchmark Test! u FLOPS ( ) 1 秒間あたりの浮動小数点計算回数日本 ( 理化学研究所富士通 ) の京 K SPARC GHz [705,024 cores] (11/06-11/11 はトップ, 13/06 現在 4 位 ) u 日本 NEC の地球シミュレータは 2004 年まで 2 年半首位だった u Benchmark Test! 実際に使われるアプリケーションソフトウエアでの性能評価! 公的な基準としては SPECint, SPECfp など! u Benchmark テスト用のアプリでは CPU メーカの最適化により? 実際を反映していない場合がある!

17 並列計算機の分類 u MIMD, SIMD, SISD, MISD に分類される u MIMD (Multiple Instruction stream Multiple Data stream) 複数の CPU ( マルチプロセッサ ) に対して複数の異なる命令を同時処理 ( 各 CPU は独立にプログラムを実行 )! 現在の超並列コンピュータの主流! PC での Dual-CPU, Dual-Core, Quad-CPU/Core,..! L2 Cache CPU Core/Chip CPU L1 Cache L2 Cache CPU Core/Chip CPU L1 Cache CPU Core/Chip CPU Core/Chip CPU CPU L1 Cache L1 Cache L2 Cache Chip Set (North Bridge) Dual CPU の例 Chip Set (North Bridge) Dual Core の例 ( 様々な形態有 )

18 ( 実際の CPU 回路の写真などを見るとわかりやすい CPU によって 2 次 3 次キャッシュの位置も異なる )

並列計算機の分類 (SIMD)! u SIMD (Single Instruction stream Multiple Data stream)! 1 つの命令で複数のデータを処理 ( 各 CPU は同期的に動作し演算を並列に実行 ) 行列演算など! スーパーコンピュータで用いられている! 1CPU 内でも!

19 並列計算機の分類 (SIMD)! u SIMD (Single Instruction stream Multiple Data stream)! 1 つの命令で複数のデータを処理 ( 各 CPU は同期的に動作し演算を並列に実行 ) 行列演算など! スーパーコンピュータで用いられている! 1CPU 内でも! u Intel/Pentium : MMX (Multi-Media extension),! SSE (Stream SIMD Extension)! u IBM/PowerPC : AltiVec (Velocity Engine)! u AMD/Athlon : 3DNow!! y1 y2 y3. = 例 ) jpeg: Fourier 変換 a11 a12... a21 a22.. a31.. 他に SISD ( 逐次型計算機 ), MISD ( 演算パイプライン型計算機 ) 等 x1 x2 x3.

20 現在の CPU の動向 u CPU の高周波数化の限界 (~ 3-4 GHz) から複数の CPU コアを積んだ並行処理化 (MIMD) へ! 複数の CPU( コア ) を搭載することにより同時に複数の処理をする ex. Dual-Core (2 core), Quad-Core (4 core)! 対応したアプリケーションのみ有効! u 関連した最近流行の技術! クラスタリング (clustering)! グリッドコンピューティング (grid computing)! u (GPU を用いた高速浮動小数点計算 )! u 静穏化 / 省電力の方が重要に! トランジスタ間の配線を細く (~ 30 nm (=300A ) ) 短く! 節電 ( 周波数を可変に使っていない回路は停止など )! u CPU チップの多機能化! メモリコントローラ, GPU の内蔵! u 高速化省電力化

コンピュータ工学Ⅰ

コンピュータ工学Ⅰ コンピュータ工学 Ⅰ Rev. 2018.01.20 コンピュータの基本構成と CPU 内容 ➊ CPUの構成要素 ➋ 命令サイクル ➌ アセンブリ言語 ➍ アドレッシング方式 ➎ CPUの高速化 ➏ CPUの性能評価コンピュータの構成装置中央処理装置 (CPU) 主記憶装置から命令を読み込み実行を行う主記憶装置 CPU で実行するプログラム ( 命令の集合 ) やデータを記憶する補助記憶装置