Microsoft PowerPoint ppt [互換モード]

Similar documents
Microsoft PowerPoint ppt [互換モード]

Microsoft PowerPoint ppt [互換モード]

講義計画 1. コンピュータの歴史 1 2. コンピュータの歴史 2 3. コンピュータの歴史 3 4. 論理回路と記憶, 計算 : レジスタとALU 5. 主記憶装置とALU, レジスタの制御 6. 命令セットアーキテクチャ 7. 演習問題 8. パイプライン処理 9. メモリ階層 : キャッシュ

< B8CDD8AB B83685D>

Microsoft PowerPoint - ARCICD07FukumotoSlides.pptx

PowerPoint プレゼンテーション

本文ALL.indd

Microsoft PowerPoint - ARC2009HashiguchiSlides.pptx

Microsoft PowerPoint - 11Web.pptx

VXPRO R1400® ご提案資料

Microsoft PowerPoint - t-kubo07PN-LAMBDA-slide.ppt

この方法では, 複数のアドレスが同じインデックスに対応づけられる可能性があるため, キャッシュラインのコピーと書き戻しが交互に起きる性のミスが発生する可能性がある. これを回避するために考案されたのが, 連想メモリアクセスができる形キャッシュである. この方式は, キャッシュに余裕がある限り主記憶の

システムLSIとアーキテクチャ技術  (part II:オンチップ並列            アーキテクチャ)

Microsoft PowerPoint - ARCEMB08HayashiSlides.ppt [互換モード]

020105.メモリの高機能化

システムLSIとアーキテクチャ技術  (part II:オンチップ並列            アーキテクチャ)

Microsoft PowerPoint ppt [互換モード]

PowerPoint プレゼンテーション

Microsoft PowerPoint - ICD2011TakadaSlides.pptx

2015_collabo_04

Microsoft PowerPoint - No7note.ppt

Microsoft PowerPoint - No14…L………b…V…–…†…‡…−.ppt

Operating System 仮想記憶

NUMAの構成

SpeC記述のC記述への変換 (SpecCによるソフトウェア記述の実装記述への変換)

スライド 1

Microsoft PowerPoint - GPGPU実践基礎工学(web).pptx

出 アーキテクチャ 誰が 出 装置を制御するのか 1

Microsoft PowerPoint ppt [互換モード]

Microsoft PowerPoint - sp ppt [互換モード]

スライド 1

Microsoft PowerPoint - os ppt [互換モード]

Pervasive PSQL v11 のベンチマーク パフォーマンスの結果

計算機アーキテクチャ

PowerPoint プレゼンテーション

メモリ管理

科学技術振興調整費 中間成果報告書 若手任期付研究員支援 組込みアーキテクチャ協調型実時間 OS 研究期間 : 平成 13 年度 ~ 平成 15 年 6 月 北陸先端科学技術大学院大学田中清史

Slides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments

Microsoft PowerPoint - sales2.ppt

計算機アーキテクチャ

スライド 1

特集新世代マイクロプロセッサアーキテクチャ ( 後編 ) 3. 実例 3 ユビキタス コンピューティング時代の組み込みマイクロコンピュータ, SuperH と M32R 清水徹 * 1 長谷川淳 * 2 服部俊洋 * 3 近藤弘郁 * 4 ( 株 ) ルネサステクノロジシステムソリューション統括本部

Microsoft Word LenovoSystemx.docx

OS

Microsoft PowerPoint - arc5

Microsoft PowerPoint mm2

hard5.pptx

Microsoft PowerPoint - NVMe-PRES-AJ.ppt

コンピュータ工学Ⅰ

コンピュータ工学Ⅰ

スライド タイトルなし

Microsoft PowerPoint - No15›¼‚z‰L›¯.ppt

PowerPoint プレゼンテーション

Microsoft PowerPoint - OpenMP入門.pptx

情報処理概論(第二日目)

Microsoft PowerPoint - ARC-SWoPP2011OkaSlides.pptx

Presentation Title

Microsoft PowerPoint - Lec ppt [互換モード]

計算機構成: トップダウンの解説

(Microsoft PowerPoint - \221g\202\335\215\236\202\335\203\\\203t\203g\203E\203F\203A\215H\212w No03\201i\224z\225z\227p\201j.pptx)

TopSE並行システム はじめに

このダイナミックリンクライブラリ GaugeC48.dll は 8CH から 48CH 用の DigitalGaugeCounterDG3000 シリーズ共通の DLL です この説明書は GaugeC48.dll を使ったアプリケーションを作成するためのものです 開発環境は MicrosoftVi

COMET II のプログラミング ここでは機械語レベルプログラミングを学びます 1

Microsoft PowerPoint - os ppt [互換モード]

Microsoft PowerPoint - compsys2-06.ppt

10-vm1.ppt

Microsoft PowerPoint - sp ppt [互換モード]

ComputerArchitecture.ppt

メモリ管理

C に必要なコンピュータ知識 C はコンピュータの力を引き出せるように設計 コンピュータの知識が必要

PowerPoint Presentation

新技術説明会 様式例

マルチコア時代の並列プログラミング

ホワイト ペーパー EMC VFCache により Microsoft SQL Server を高速化 EMC VFCache EMC VNX Microsoft SQL Server 2008 VFCache による SQL Server のパフォーマンスの大幅な向上 VNX によるデータ保護 E

Monthly Research / セキュアハードウェアの登場とその分析

Microsoft PowerPoint ppt [互換モード]

Microsoft PowerPoint - 11_4-4-5pagerepl.pptx

Insert your Title here

ためのオーバーヘッドが課題となりつつある しかしこのオーバーヘッドに関する数値はほとんど公開されていない この論文ではこの cache coherency の時間を Linux カーネルで提供されている atomic_inc 関数を用いて測定する方法を新たに考案し 実測プログラムを作成した 実測はプ

Microsoft PowerPoint - 講義10改.pptx

ERDAS IMAGINE における処理速度の向上 株式会社ベストシステムズ PASCO CORPORATION 2015

PowerPoint Presentation

Microsoft PowerPoint - OS07.pptx

スライド 1

スライド 1

はじめに Web アプリケーションの発展と普及の勢いは弱まる兆しがありません 弱まるどころか 加速し続けています これは これまでの ERP CRM Web 2.0 などの Web ベースアプリケーションが提供してきたメリットを考えると 不思議なことではありません Web アプリケーションの爆発的拡

DRAM SRAM SDRAM (Synchronous DRAM) DDR SDRAM (Double Data Rate SDRAM) DRAM 4 C Wikipedia 1.8 SRAM DRAM DRAM SRAM DRAM SRAM (256M 1G bit) (32 64M bit)

Microsoft PowerPoint - yamagata.ppt

-2 外からみたプロセッサ GND VCC CLK A0 A1 A2 A3 A4 A A6 A7 A8 A9 A10 A11 A12 A13 A14 A1 A16 A17 A18 A19 D0 D1 D2 D3 D4 D D6 D7 D8 D9 D10 D11 D12 D13 D14 D1 MEMR

スライド 1

ホワイトペーパー NVIDIA Tegra 4 ファミリの CPU アーキテクチャ 4-PLUS-1 クアッドコア 1

の 内 容 の 一 貫 性 )を 保 つために 用 いられるのが スヌープ キャッシュ 方 式 である. キャッシュメモリにおいて, 主 記 憶 のアドレスの 下 部 (インデックス)を 用 いてキャッシュメモリ 上 のインデックスを 求 める 方 法 を ダイレクトマッピング と 呼 ぶ.キャッシ

2ALU 以下はデータ幅 4ビットの ALU の例 加算, 減算,AND,OR の4つの演算を実行する 実際のプロセッサの ALU は, もっと多種類の演算が可能 リスト 7-2 ALU の VHDL 記述 M use IEEE.STD_LOGIC_1164.ALL; 00 : 加算 use IEE

(Microsoft PowerPoint - \221g\202\335\215\236\202\335\203\\\203t\203g\203E\203F\203A\215H\212w No02\201i\224z\225z\227p\201j.pptx)

Microsoft PowerPoint - 09_2008_0619.pptx

組込み Linux の起動高速化 株式会社富士通コンピュータテクノロジーズ 亀山英司 1218ka01 Copyright 2013 FUJITSU COMPUTER TECHNOLOGIES LIMITED

Resigtration Manual (Japanese)

ビットリアカップ2007けいはんなサイクルレースリザルト

yume_P01-056

Transcription:

計算機アーキテクチャ特論 2016 年 10 17 枝廣 前半 ( 並列アーキテクチャの基本 枝廣 ) 10/3, 10/17, 10/24, 10/31, 11/7, 11/14( 程は予定 ) 内容 ( 変更の可能性あり ) 序論 ( マルチコア= 並列アーキテクチャ概論 ) キャッシュ コヒーレンシ メモリ コンシステンシ 並列アーキテクチャモデル OSモデル スケーラビリティに関する法則 並列プログラミングモデル 語 資料置場 : http://www.pdsl.jp/class/ 後半 ( 先端トピックス 本 ) 11/21 内容 ( 変更の可能性あり ) 組込みアーキテクチャ 再構成可能アーキテクチャ Page 1

メモリ アーキテクチャ CPU CPU CPU CPU メモリ メモリ メモリ 集中メモリ方式 分散メモリ方式 CPU SoC メモリ階層 キャッシュ CPU 内蔵メモリ SoC 内蔵メモリ ボード上メモリ 別ボード上メモリ ストレージシステム 高速小容量 ボード 低速大容量

次 キャッシュ コヒーレンシ ( キャッシュの 貫性 ) メモリ コンシステンシ ( メモリの整合性 ) Page 3

キャッシュの 貫性 (coherency) シングルプロセッサ SW1 CPU1 SW2 3 4 キャッシュ メモリバス AMP 型 ( ハードウェアサポートなし ) CPU1 3 4 キャッシュ CPU2 3? メモリバス SMP 型 ( キャッシュの Snoop( 盗み見 ) 機構 ) SW1 SW2 SW1 SW2 CPU1 3 4 キャッシュ CPU2 4 3 共有メモリ 3 共有メモリ 3 AMP 型の場合 SW2でメモ SMP 型では隣のCPUの シングルプロセッサの場 リ上の同じデータを使いたい キャッシュの内容を盗み見 合 SW1もSW2も同じ 場合 SW1はキャッシュの内 る (Snoop) ハードウェア機 キャッシュから読むので 容を一度共有メモリに戻す必 構を持つ ソフトでは気に オーバーヘッドなく正しい 要がある せずにSW1とSW2のデー 値が読める SW1からSW2への 通信 を タ共有ができる プログラムに明示的に書く ( オーバーヘッドが小さい ) Page 4

キャッシュの役割 ( 復習 ) キャッシュは高速だが容量が小さい ( 入替がある ) Page 5

Page 6 キャッシュの構造 ( 復習 )

Page 7 ダイレクトマップ 式 ( 復習 )

ライトスルーとライトバック ライトスルー 新しいデータを常にメモリに書き戻す 書き込みデータをキャッシュに残す 式と残さない 式がある いずれにしてもメモリとキャッシュはいつも同じ値 書き込みの時に時間がかかる 後述のストアバッファ ( ライトバッファ ) を使うことによって改善できるが それでも多くの書き込みが発 すると CP U が まる ライトバック 新しいデータをキャッシュに書き メモリにはその時には書き戻さない 3つの状態 インバリッド : 初期値 無効な値 クリーン : メモリと同じ値を保持 ダーティ : メモリと異なる新しい値を保持 Page 8

ライトバックキャッシュの状態遷移 ライトのキャッシュミス Page 9

例 SW1 SW2 CPU1 3 4 キャッシュ 初期状態 インバリッド値 3を読む クリーン 3 値 4に書き換える ダーティ Page 10

マルチコアのキャッシュ ( スヌープ 式 ) Configurable number of hardware interrupt lines Interrupt Distributor Private lines Per CPU Peripher als Timer CPU Wdog interface IR Q Timer CPU Wdog interface Timer CPU Wdog interface Timer CPU Wdog interface Configurabl e SMP (1 and 4 PEs) CPU/VFP L1 Cache CPU/VFP L1 Cache CPU/VFP L1 Cache CPU/VFP L1 Cache ARM11 MPCore I & D Snoop Control Unit (SCU) 64bit Primary AXI R/W 64bit bus bus Optional 2 nd AXI R/W 64bit bus Coherence Control Bus Page 11

ライトアップデートとライトインバリデート ライトアップデート 書き込みがあった場合 同じデータをもつすべてのコアのキャッシュの該当データを書き換える Page 12 ライトインバリデート 書き込みがあった場合 同じデータをもつすべてのコアのキャッシュの該当データを無効化 ( インバリデート ) する データ書き換えよりも無効化の が簡単なので 組込みプロセッサでは主流

スヌープキャッシュの状態遷移 いろいろな 式がある MESI MOESI など M(Exclusive Modified: モディファイド ) データが書き変わっている状態 ( 主記憶と 致せず 分だけがデータを持っている ) O(Owned: オウンド ) 主記憶と 致していないが 他のコアも同じデータを持っている E(Exclusive Clean: イクスクルーシブ ) 主記憶と 致し 分だけが持っている S(Shared Clean: シェアード ) 主記憶と 致し 他のコアも同じデータを持っている I(Invalid: インバリッド ) 無効状態 Page 13

Page 14 例 (MESI)

Page 15

Page 16

Page 17 キャッシュ間コピーができるアーキテクチャもある

Page 18 キャッシュ間コピーができるアーキテクチャもある

ミス I Invalid ミス Page 19

Page 20

Page 21

ディレクトリ型 スヌープ型は集中メモリ型に多く使われるが メモリが分散している場合には実装が難しい その場合にはディレクトリ型が使われる 今後 つのLSIに多くのプロセッサが搭載される時代に有 になると思われる Page 22

Page 23

Page 24 I

Page 25 フォールスシェアリング問題

キャッシュ スラッシング問題 同じキャッシュラインになってしまった セットアソシアティブ キャッシュなら回避 それでもダメなら配列参照がずれるようにする Page 26

メモリ整合性 AMP 型 ( ハードウェアサポートなし ) SW1 CPU1 SW2 CPU2 キャッシュ 同時に書き込みがあったときの順番は? キャッシュなどの影響は? Page 27

メモリ整合性 ( メモリコンシステンシ ) プロセッサP1とP2でそれぞれのプログラムが動く 変数 A Bは共有メモリ上にあるとする 両 のIF が同時に真になることはないはず ある種のスイッチ / 排他制御になっているつもり 例えば P1 で IF が真になったとすると P2 は L2 の前を実 しているはずだから P2 の IF の評価のときには既に A=1 になっているはず しかしながら 実際にはうまく動かない場合が多い なんらかの順序関係の記述が必要 Page 28

順序関係 順序関係の保証をハードでやるのか ソフトでやるのか ハードですべて保証しようと思えばできないことはないが オーバーヘッドが きい ( プログラムのごく 部の話で全体が遅くなっていいのか ) 部ソフトで保証することにしてハードを簡単化 緩和する順序関係の候補 Read Write Write Read Write Write (Read Read) Page 29

順序関係 スレッド 1 スレッド 1 Load M[x] スレッド 1 Store M[x] Load M[x] Store M[x] W R スレッド 2 Store M[x] Load M[x] 同期 スレッド 2 スレッド 2 スレッド 1 スレッド 1 Store M[x] Store M[x] Store M[x] Store M[x] W W スレッド 2 スレッド 2 スレッド 1 スレッド 1 Store M[x] Load M[x] Store M[x] Load M[x] R W スレッド 2 スレッド 2 Page 30

メモリ整合性モデル W R W R, W W ソフトウェアでの対応 : 同期をとって ( 例えば ) ライトバッファをはきだす命令を出す sync() や flush() など Page 31

ライトバッファ ライトマージ ノンブロッキングキャッシュ Page 32 ライトバッファ 書き込み終了を待つことなく バッファにためる ライトバッファがあると リードがライトを追い越すことがある ライトマージ 近く ( 同時にメモリに書きこめる ) の書き込み命令をまとめる ライトマージすると ライトがライトを追い越すことがある ノンブロッキングキャッシュ 前データ到着前にCPUはキャッシュアクセスが可能 あらゆるメモリアクセス処理の追い越しがあり得る