Microsoft PowerPoint - ARCICD07FukumotoSlides.pptx

Similar documents
Microsoft PowerPoint - ARC2009HashiguchiSlides.pptx

Microsoft PowerPoint - ARC-SWoPP2011OkaSlides.pptx

Microsoft PowerPoint - ARCEMB08HayashiSlides.ppt [互換モード]

Microsoft PowerPoint - ICD2011TakadaSlides.pptx

本文ALL.indd

Microsoft PowerPoint - ICD2011UenoSlides.pptx

スライド 1

VXPRO R1400® ご提案資料

情報処理学会研究報告 IPSJ SIG Technical Report Vol.2010-ARC-187 No.3 Vol.2010-EMB-15 No /1/28 マルチコアプロセッサのコアごとのアクセス局所性を利用した共有キャッシュの消費電力削減 1 1 L2 キャッシュに共有キャ

Microsoft PowerPoint - MATE2010Inoue.pptx

システムLSIとアーキテクチャ技術  (part II:オンチップ並列            アーキテクチャ)

User-defined Logic Application Memory Manager (Replacement) Application Specific Prefetcher (ASP) Application Kernel On-chip RAM (BRAM) On-chip RAM I/

この方法では, 複数のアドレスが同じインデックスに対応づけられる可能性があるため, キャッシュラインのコピーと書き戻しが交互に起きる性のミスが発生する可能性がある. これを回避するために考案されたのが, 連想メモリアクセスができる形キャッシュである. この方式は, キャッシュに余裕がある限り主記憶の

Microsoft PowerPoint - SWoPP06HayashiSlides.ppt

PowerPoint プレゼンテーション

HPCマシンの変遷と 今後の情報基盤センターの役割

スライド 1

Microsoft PowerPoint - No7note.ppt

講義計画 1. コンピュータの歴史 1 2. コンピュータの歴史 2 3. コンピュータの歴史 3 4. 論理回路と記憶, 計算 : レジスタとALU 5. 主記憶装置とALU, レジスタの制御 6. 命令セットアーキテクチャ 7. 演習問題 8. パイプライン処理 9. メモリ階層 : キャッシュ

SCIMA アーキテクチャと性能評価 - SCIMA アーキテクチャの概要 - 中村宏東京大学先端科学技術研究センター


untitled

Microsoft Word ●IntelクアッドコアCPUでのベンチマーク_吉岡_ _更新__ doc

橡matufw


NewBead_no17_4c_pdf.indd

untitled

O

財団法人母子健康協会第三十回シンポジウム

ためのオーバーヘッドが課題となりつつある しかしこのオーバーヘッドに関する数値はほとんど公開されていない この論文ではこの cache coherency の時間を Linux カーネルで提供されている atomic_inc 関数を用いて測定する方法を新たに考案し 実測プログラムを作成した 実測はプ

MRI X......

.g.i.~.^.A

ヴィエトナム高原におけるマッシュルーム栽培の基本

2.

Microsoft PowerPoint - OpenMP入門.pptx

Microsoft PowerPoint - sales2.ppt

020105.メモリの高機能化

Pervasive PSQL v11 のベンチマーク パフォーマンスの結果

AC-2

エンジョイ北スポーツ

Microsoft PowerPoint 知る集い(京都)最終.ppt

なる 次元積層 L2 キャッシュのリーク消費電力増加問題 一般にコアの温度分布はそのコアが割り当てられているプログラムによって異なる. した がって, マルチプログラム実行を考えた場合, コアひとつひとつの温度分布が異なる. この ため, 上層のキャッシュメモリの温度分布は, 下層コア

Microsoft PowerPoint - GPGPU実践基礎工学(web).pptx

Slides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments

(速報) Xeon E 系モデル 新プロセッサ性能について

にゃんぱすー

Microsoft PowerPoint - CCS学際共同boku-08b.ppt

Operating System 仮想記憶

スライド 1

並列・高速化を実現するための 高速化サービスの概要と事例紹介

特集新世代マイクロプロセッサアーキテクチャ ( 後編 ) 3. 実例 3 ユビキタス コンピューティング時代の組み込みマイクロコンピュータ, SuperH と M32R 清水徹 * 1 長谷川淳 * 2 服部俊洋 * 3 近藤弘郁 * 4 ( 株 ) ルネサステクノロジシステムソリューション統括本部

工学院大学建築系学科近藤研究室2000年度卒業論文梗概

Software-Defined Tester(SDT) を用いた高精度遅延測定による SDN/NFV 品質向上 富士通アドバンストテクノロジ株式会社システム技術統括部大久保克彦 0 Copyright 2017 FUJITSU AD

Microsoft Word - HOKUSAI_system_overview_ja.docx

SpeC記述のC記述への変換 (SpecCによるソフトウェア記述の実装記述への変換)

< B8CDD8AB B83685D>

Slides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments

パフォーマンスレポート PRIMERGY TX100 S3

九州大学学術情報リポジトリ Kyushu University Institutional Repository マッスル サーバー ( 汎用 PC クラスタ + 特定計算向けハードウェア ) の開発 : 分子軌道法を例にして 村上, 和彰九州大学大学院システム情報科学研究院 九州大学情報基盤センタ

Microsoft PowerPoint - GPUシンポジウム _d公開版.ppt [互換モード]

reply_letter

パフォーマンスレポート PRIMERGY TX100 S2

組込み Linux の起動高速化 株式会社富士通コンピュータテクノロジーズ 亀山英司 1218ka01 Copyright 2013 FUJITSU COMPUTER TECHNOLOGIES LIMITED

システムLSIとアーキテクチャ技術  (part II:オンチップ並列            アーキテクチャ)

DRAM L2 L2 DRAM L2 DRAM L2 RAM DRAM 3 DRAM 3. 1 DRAM SRAM/DRAM 2. SRAM/DRAM DRAM LLC Last Level Cache 2 2) DRAM 1(A) (B) LLC L2 DRAM DRAM L2 SRAM DRAM

Chip Size and Performance Evaluations of Shared Cache for On-chip Multiprocessor Takahiro SASAKI, Tomohiro INOUE, Nobuhiko OMORI, Tetsuo HIRONAKA, Han

4 実験方法 本章では具体的な実験方法を説明します 本章をよく読んで作業を進めてください 4.3 章以降はキャッシュの構造や動作について既に十分に理解していることが前提となっ ています キャッシュの理解に自信がない学生は 4.3 章に進む前に まずはキャッシュの 構造と動作を理解した方がよいでしょう

Microsoft PowerPoint - 03_murakami(参照)_ pptx[読み取り専用]

router_cachehit.eps

2015 TRON Symposium セッション 組込み機器のための機能安全対応 TRON Safe Kernel TRON Safe Kernel の紹介 2015/12/10 株式会社日立超 LSIシステムズ製品ソリューション設計部トロンフォーラム TRON Safe Kernel WG 幹事

OS

<4D F736F F F696E74202D2091E63489F15F436F6D C982E682E992B48D8291AC92B489B F090CD2888F38DFC E B8CDD8

ComputerArchitecture.ppt

Agenda GRAPE-MPの紹介と性能評価 GRAPE-MPの概要 OpenCLによる四倍精度演算 (preliminary) 4倍精度演算用SIM 加速ボード 6 processor elem with 128 bit logic Peak: 1.2Gflops

[4] ACP (Advanced Communication Primitives) [1] ACP ACP [2] ACP Tofu UDP [3] HPC InfiniBand InfiniBand ACP 2 ACP, 3 InfiniBand ACP 4 5 ACP 2. ACP ACP

熊本大学学術リポジトリ Kumamoto University Repositor Title GPGPU による高速演算について Author(s) 榎本, 昌一 Citation Issue date Type URL Presentation

はじめに Web アプリケーションの発展と普及の勢いは弱まる兆しがありません 弱まるどころか 加速し続けています これは これまでの ERP CRM Web 2.0 などの Web ベースアプリケーションが提供してきたメリットを考えると 不思議なことではありません Web アプリケーションの爆発的拡

ソフトウェア基礎技術研修

Vol.-ARC-8 No.8 Vol.-OS- No.8 // DRAM DRAM DRAM DRAM ) DRAM. DRAM. ) DRAM DRAM DRAM DRAM DRAM SRAM DRAM MB B MB DRAM SRAM.. DRAM DRAM SRAM DRAM SRAM C

Microsoft PowerPoint IEEE関西3D(ハンドアウト).pptx

システムソリューションのご紹介

Microsoft PowerPoint - 09_2008_0619.pptx

PowerPoint プレゼンテーション

第一章 本書の概要 ( ア ) はじめにいわゆるサーバ用プロセッサである Xeon と いわゆるデスクトップ用プロセッサである Core i7 の違いを性能の観点からまとめました 性能とは例えば速さなどの数値のことで 機能 ( できること ) の違いについては立ち入りません Xeon の方がなんとな

株式会社神奈川銀行

プロジェクトを成功させる見積りモデルの構築と維持・改善 ~CoBRA法による見積りモデル構築とその活用方法について~

スライド 1

パフォーマンスレポート PRIMERGY TX120 S3

スライド 1

PowerPoint プレゼンテーション

Microsoft Word LenovoSystemx.docx

ホワイトペーパー NVIDIA Tegra 4 ファミリの CPU アーキテクチャ 4-PLUS-1 クアッドコア 1

z% & A C % z cc z acc c c A % c C z D %

cmpsys13w03_cpu_hp.ppt

スライド 1

Microsoft PowerPoint - arc5

hpc141_shirahata.pdf

Microsoft PowerPoint - arc12

15群(○○○)-8編

2014 年電子情報通信学会総合大会ネットワークシステム B DNS ラウンドロビンと OpenFlow スイッチを用いた省電力法 Electric Power Reduc8on by DNS round- robin with OpenFlow switches 池田賢斗, 後藤滋樹

Transcription:

チップマルチプロセッサにおける データ プリフェッチ効果の分析 福本尚人, 三原智伸九州大学大学院システム情報科学府情報理学専攻 井上弘士, 村上和彰九州大学大学院システム情報科学研究院情報理学部門 2007/6/1 1

発表手順 研究の背景 目的 効果に基づくプリフェッチの分類法 マルチプロセッサ チップマルチプロセッサ 性能モデル式による定性的評価 定量的評価 まとめ 2007/6/1 2

研究の背景 CMP (Chip MultiProcessor) の登場 1つのチップに複数のプロセッサコアを搭載 並列処理により性能向上 例 POWER5, Core2 Duo コア CMP コア CMP の高性能化阻害要因 L1 $ L1 $ メモリウォール問題の深刻化 主記憶へのアクセス頻度の増加 L2 $ コアあたりのメモリバンド幅の減少 データ プリフェッチにより 平均メモリアクセス時間を削減 チップ 2007/6/1 3

研究の背景 目的 研究の背景 従来のプリフェッチ手法はシングルコアプロセッサ前提 CMPでも高い性能向上を発揮できるか分からない メモリ性能をさらに向上させるためにはCMPの特性を考慮したプリフェッチ手法が必要では? 研究目的 CMP におけるプリフェッチ効果の分析 2007/6/1 4

発表手順 研究の背景 目的 効果に基づくプリフェッチの分類法 マルチプロセッサ チップマルチプロセッサ 性能モデル式による定性的評価 定量的評価 まとめ 2007/6/1 5

効果に基づくプリフェッチの分類法 (1/2) プリフェッチ処理においてアクセス対象となるデータ ( プリフェッチ データ ) に着目 プリフェッチ データの状態を定義 初期状態 : プリフェッチ データがキャッシュに読込まれた直後の状態 状態はメモリ性能へ影響を与えるイベントにより遷移 最終状態 : プリフェッチ データがキャッシュから追出されるときの状態 2007/6/1 6

効果に基づくプリフェッチの分類法 (2/2) メモリ性能へ影響を与えるイベント 1. プリフェッチ データの参照 メモリアクセス時間の削減 2. プリフェッチ データによってキャッシュから追出されたデータへの参照 キャッシュミスの増加 3. プリフェッチにより共有状態になったデータへの書込み プリフェッチ データの無効化 無効化要求の増加 状態名 Useful: 1が発生した状態 Conflict:2が発生した状態 Harmful:3が発生した状態 コア 1 2007/6/1 7 L1$ AL2$ 主記憶 コア 2 L1$ L2$ A 3の例 1. コア2:prefetch A 2. データが共有状態へ 3. コア1:Store A 4. コア2のデータが無効化

シングルプロセッサにおける プリフェッチ データの状態遷移 プリフェッチ データの参照 Useful プリフェッチ データの参照 Useful/Conflict Useless 追い出されたデータの参照 Useless/Conflict Useless: プリフェッチ データが参照されていない状態 Useful: プリフェッチ データが参照された状態 Conflict: プリフェッチにより追い出されたデータへの参照があった状態 2007/6/1 8

マルチプロセッサにおけるプリフェッチ データの状態遷移 * プリフェッチ データの参照 Useful プリフェッチ データの参照 Useful/Conflict Useless 追い出されたデータの参照 Useless/Conflict プリフェッチにより共有状態になったデータへの書きこみ プリフェッチにより共有状態になったデータへの書きこみ Harmful 追い出されたデータの参照 Harmful/Conflict Useless: プリフェッチ データが参照されていない状態 Useful: プリフェッチ データが参照された状態 Conflict: プリフェッチにより追い出されたデータへの参照があった状態 Harmful: プリフェッチによる無効化要求が発生した状態 * Jerger, N., Hill, E., and Lipasti, M., ``Friendly Fire: Understanding the Effects of Multiprocessor Prefetching In Proceedings of the IEEE International Symposium on Performance Analysis of Systems and Software (ISPASS), 2006. 9

マルチプロセッサと CMP の違い マルチプロセッサ プロセッサ間の通信の際 オフチップをまたぐ必要あり プロセッサ間の通信が遅い マルチプロセッサ コア L1$ L2$ コア L1$ L2$ CMP プロセッサコア間の通信の際 オフチップをまたぐ必要なし プロセッサコア間の通信が高速 あるコアがプリフェッチしたデータを周りのコアが高速にアクセス可能 CMP コア L1 $ コア L1 $ チップ L2 $ 2007/6/1 10

CMP において新たに増えるイベント プリフェッチ データの他コアからの参照 下位メモリ階層よりプリフェッチしたデータを他コアが参照 そのデータを参照したコアのメモリアクセス時間を削減 このイベントが発生した後の状態名 :Remote コア 1 AL1 $ コア 2 L1 $ A 1. コア 1:prefetch A A L2 $ 2. コア 2:Load A A 主記憶 2007/6/1 11

CMP におけるプリフェッチ データの状態遷移 Useless Useful プリフェッチ データの参照 Useless/Remote 他のコアからの参照 Harmful Useful/Conflict プリフェッチ データの参照 2007/6/1 追い出されたデータへの参照 Useless/Conflict /Remote Useless/Conflict 他のコアからの参照 Harmful/Conflict 12

CMP におけるプリフェッチ データの状態遷移 Useless Useful Useless/Remote Harmful プリフェッチによりキャッシュミス増加 Useless/Conflict 2007/6/1 Useful/Conflict Useless/Conflict /Remote Harmful/Conflict 13

CMP におけるプリフェッチ データの状態遷移 プリフェッチ データが参照される プリフェッチ データが他のコアに参照される Useless プリフェッチによる無効化要求の増加 Useful Useless/Remote Harmful Useless/Conflict Useful/Conflict 2007/6/1 Useless/Conflict /Remote プリフェッチ データが参照されない Harmful/Conflict 14

発表手順 研究の背景 目的 効果に基づくプリフェッチの分類法 マルチプロセッサ チップマルチプロセッサ 性能モデル式による定性的評価 定量的評価 まとめ 2007/6/1 15

性能モデル式 (1/2) あるスレッドの実行クロックサイクル CC = CC exe + CC mem CC overlap CC CC CC CC exe mem overlap : 実行クロックサイクル数 : 演算実行に要するクロックサイクル数 : メモリアクセスに要するクロックサイクル数 : オーバーラップ実行したクロックサイクル数 2007/6/1 16

性能モデル式 (2/2) CC mem = AC [ HCC { SBCC ( HCC L2 L1 + (1 MR + + MR MR L2 L1 L1R ) HCC L1 + ( MBCC + MC MR L2 L1R ))}] AC HCC MR MR L1 L1R L2 L1, HCC, MR L2 L2 SBCC, MBCC MC : メモリアクセス回数 :L1(L2) キャッシュアクセス時間 :L1(L2) キャッシュミス率 : 周りのコアのL1キャッシュに対するミス率 :L1 L2 間 (L2 主記憶間 ) バスアクセス時間 : 主記憶アクセス時間 コアコア L1 $ L1 $ L2 $ 主記憶 2007/6/1 17

プリフェッチによるメモリアクセス時間の変化 CC mem = AC [ HCC { SBCC ( HCC L2 L1 + (1 MR + + MR MR ))}] MRL1(MRL2) SBCC(MBCC) MRL1R Useful( プリフェッチ データの参照 ) - - Useless( 参照なし ) - - Remote( 周りのコアからの参照 ) - - Conflict( 必要なデータの追出し ) - Harmful( 無効化要求の増加 ) - - L2 L1 L1R ) HCC L1 + ( MBCC + MC MR L2 L1R Harmful による悪影響を小さくし Remote を利用することで CMP においてより高い性能向上を得ることが可能 18

プリフェッチ効果の定量的分析 分析項目 プリフェッチ データの最終状態の割合 平均メモリアクセス時間 シミュレーション環境 M5:CMP シミュレータ L1 キャッシュでプリフェッチ ストライドプリフェッチ tagged プリフェッチ MOESI プロトコル ベンチマークプログラム SPLASH2: 並列計算用の科学技術計算 D コア I 4MB 8way コアコア D I D I L2$ 主記憶 D コア I 64KB 2 way 2007/6/1 19

周りのコアが得をする場合 (Remote) 参照される場合 1 2 FMM LU Radix Water 1. ストライドプリフェッチ 2.taggedプリフェッチ 周りのコアが得をするプリフェッチは約 5% 2007/6/1 20

プリフェッチによるトラフィックの増加 参照される場合 1 2 FMM LU Radix Water 1. ストライドプリフェッチ 2.taggedプリフェッチ taggedプリフェッチはトラフィックの増加量が大きい 無効化要求が増加するプリフェッチは極めて少ない 2007/6/1 21

プリフェッチによるバスアクセス時間の変化 バスアクセス時間 1 2 3 FMM LU Radix Water 1. ベース 2. ストライドプリフェッチ 3.taggedプリフェッチ プリフェッチによるバスアクセス時間の増加は小さい 2007/6/1 22

まとめと今後の課題 まとめ 発行された各プリフェッチを分類し調査することで CMPにおけるデータ プリフェッチ効果を分析した 従来のプリフェッチ手法は周りのコアからの参照を有効活用していない プリフェッチによる無効化要求の増加は極めて小さい プリフェッチによるトラフィックの増加が性能へ与える影響は小さい 今後の課題 より詳細なプリフェッチ効果の分析 プリフェッチ手法 ベンチマークプログラム キャッシュ構成 CMP 向けプリフェッチ手法の考案 2007/6/1 23

ご清聴ありがとうございました 2007/6/1 24