Microsoft PowerPoint - ARCICD07FukumotoSlides.pptx

Size: px
Start display at page:

Download "Microsoft PowerPoint - ARCICD07FukumotoSlides.pptx"

Transcription

1 チップマルチプロセッサにおける データ プリフェッチ効果の分析 福本尚人, 三原智伸九州大学大学院システム情報科学府情報理学専攻 井上弘士, 村上和彰九州大学大学院システム情報科学研究院情報理学部門 2007/6/1 1

2 発表手順 研究の背景 目的 効果に基づくプリフェッチの分類法 マルチプロセッサ チップマルチプロセッサ 性能モデル式による定性的評価 定量的評価 まとめ 2007/6/1 2

3 研究の背景 CMP (Chip MultiProcessor) の登場 1つのチップに複数のプロセッサコアを搭載 並列処理により性能向上 例 POWER5, Core2 Duo コア CMP コア CMP の高性能化阻害要因 L1 $ L1 $ メモリウォール問題の深刻化 主記憶へのアクセス頻度の増加 L2 $ コアあたりのメモリバンド幅の減少 データ プリフェッチにより 平均メモリアクセス時間を削減 チップ 2007/6/1 3

4 研究の背景 目的 研究の背景 従来のプリフェッチ手法はシングルコアプロセッサ前提 CMPでも高い性能向上を発揮できるか分からない メモリ性能をさらに向上させるためにはCMPの特性を考慮したプリフェッチ手法が必要では? 研究目的 CMP におけるプリフェッチ効果の分析 2007/6/1 4

5 発表手順 研究の背景 目的 効果に基づくプリフェッチの分類法 マルチプロセッサ チップマルチプロセッサ 性能モデル式による定性的評価 定量的評価 まとめ 2007/6/1 5

6 効果に基づくプリフェッチの分類法 (1/2) プリフェッチ処理においてアクセス対象となるデータ ( プリフェッチ データ ) に着目 プリフェッチ データの状態を定義 初期状態 : プリフェッチ データがキャッシュに読込まれた直後の状態 状態はメモリ性能へ影響を与えるイベントにより遷移 最終状態 : プリフェッチ データがキャッシュから追出されるときの状態 2007/6/1 6

7 効果に基づくプリフェッチの分類法 (2/2) メモリ性能へ影響を与えるイベント 1. プリフェッチ データの参照 メモリアクセス時間の削減 2. プリフェッチ データによってキャッシュから追出されたデータへの参照 キャッシュミスの増加 3. プリフェッチにより共有状態になったデータへの書込み プリフェッチ データの無効化 無効化要求の増加 状態名 Useful: 1が発生した状態 Conflict:2が発生した状態 Harmful:3が発生した状態 コア /6/1 7 L1$ AL2$ 主記憶 コア 2 L1$ L2$ A 3の例 1. コア2:prefetch A 2. データが共有状態へ 3. コア1:Store A 4. コア2のデータが無効化

8 シングルプロセッサにおける プリフェッチ データの状態遷移 プリフェッチ データの参照 Useful プリフェッチ データの参照 Useful/Conflict Useless 追い出されたデータの参照 Useless/Conflict Useless: プリフェッチ データが参照されていない状態 Useful: プリフェッチ データが参照された状態 Conflict: プリフェッチにより追い出されたデータへの参照があった状態 2007/6/1 8

9 マルチプロセッサにおけるプリフェッチ データの状態遷移 * プリフェッチ データの参照 Useful プリフェッチ データの参照 Useful/Conflict Useless 追い出されたデータの参照 Useless/Conflict プリフェッチにより共有状態になったデータへの書きこみ プリフェッチにより共有状態になったデータへの書きこみ Harmful 追い出されたデータの参照 Harmful/Conflict Useless: プリフェッチ データが参照されていない状態 Useful: プリフェッチ データが参照された状態 Conflict: プリフェッチにより追い出されたデータへの参照があった状態 Harmful: プリフェッチによる無効化要求が発生した状態 * Jerger, N., Hill, E., and Lipasti, M., ``Friendly Fire: Understanding the Effects of Multiprocessor Prefetching In Proceedings of the IEEE International Symposium on Performance Analysis of Systems and Software (ISPASS),

10 マルチプロセッサと CMP の違い マルチプロセッサ プロセッサ間の通信の際 オフチップをまたぐ必要あり プロセッサ間の通信が遅い マルチプロセッサ コア L1$ L2$ コア L1$ L2$ CMP プロセッサコア間の通信の際 オフチップをまたぐ必要なし プロセッサコア間の通信が高速 あるコアがプリフェッチしたデータを周りのコアが高速にアクセス可能 CMP コア L1 $ コア L1 $ チップ L2 $ 2007/6/1 10

11 CMP において新たに増えるイベント プリフェッチ データの他コアからの参照 下位メモリ階層よりプリフェッチしたデータを他コアが参照 そのデータを参照したコアのメモリアクセス時間を削減 このイベントが発生した後の状態名 :Remote コア 1 AL1 $ コア 2 L1 $ A 1. コア 1:prefetch A A L2 $ 2. コア 2:Load A A 主記憶 2007/6/1 11

12 CMP におけるプリフェッチ データの状態遷移 Useless Useful プリフェッチ データの参照 Useless/Remote 他のコアからの参照 Harmful Useful/Conflict プリフェッチ データの参照 2007/6/1 追い出されたデータへの参照 Useless/Conflict /Remote Useless/Conflict 他のコアからの参照 Harmful/Conflict 12

13 CMP におけるプリフェッチ データの状態遷移 Useless Useful Useless/Remote Harmful プリフェッチによりキャッシュミス増加 Useless/Conflict 2007/6/1 Useful/Conflict Useless/Conflict /Remote Harmful/Conflict 13

14 CMP におけるプリフェッチ データの状態遷移 プリフェッチ データが参照される プリフェッチ データが他のコアに参照される Useless プリフェッチによる無効化要求の増加 Useful Useless/Remote Harmful Useless/Conflict Useful/Conflict 2007/6/1 Useless/Conflict /Remote プリフェッチ データが参照されない Harmful/Conflict 14

15 発表手順 研究の背景 目的 効果に基づくプリフェッチの分類法 マルチプロセッサ チップマルチプロセッサ 性能モデル式による定性的評価 定量的評価 まとめ 2007/6/1 15

16 性能モデル式 (1/2) あるスレッドの実行クロックサイクル CC = CC exe + CC mem CC overlap CC CC CC CC exe mem overlap : 実行クロックサイクル数 : 演算実行に要するクロックサイクル数 : メモリアクセスに要するクロックサイクル数 : オーバーラップ実行したクロックサイクル数 2007/6/1 16

17 性能モデル式 (2/2) CC mem = AC [ HCC { SBCC ( HCC L2 L1 + (1 MR + + MR MR L2 L1 L1R ) HCC L1 + ( MBCC + MC MR L2 L1R ))}] AC HCC MR MR L1 L1R L2 L1, HCC, MR L2 L2 SBCC, MBCC MC : メモリアクセス回数 :L1(L2) キャッシュアクセス時間 :L1(L2) キャッシュミス率 : 周りのコアのL1キャッシュに対するミス率 :L1 L2 間 (L2 主記憶間 ) バスアクセス時間 : 主記憶アクセス時間 コアコア L1 $ L1 $ L2 $ 主記憶 2007/6/1 17

18 プリフェッチによるメモリアクセス時間の変化 CC mem = AC [ HCC { SBCC ( HCC L2 L1 + (1 MR + + MR MR ))}] MRL1(MRL2) SBCC(MBCC) MRL1R Useful( プリフェッチ データの参照 ) - - Useless( 参照なし ) - - Remote( 周りのコアからの参照 ) - - Conflict( 必要なデータの追出し ) - Harmful( 無効化要求の増加 ) - - L2 L1 L1R ) HCC L1 + ( MBCC + MC MR L2 L1R Harmful による悪影響を小さくし Remote を利用することで CMP においてより高い性能向上を得ることが可能 18

19 プリフェッチ効果の定量的分析 分析項目 プリフェッチ データの最終状態の割合 平均メモリアクセス時間 シミュレーション環境 M5:CMP シミュレータ L1 キャッシュでプリフェッチ ストライドプリフェッチ tagged プリフェッチ MOESI プロトコル ベンチマークプログラム SPLASH2: 並列計算用の科学技術計算 D コア I 4MB 8way コアコア D I D I L2$ 主記憶 D コア I 64KB 2 way 2007/6/1 19

20 周りのコアが得をする場合 (Remote) 参照される場合 1 2 FMM LU Radix Water 1. ストライドプリフェッチ 2.taggedプリフェッチ 周りのコアが得をするプリフェッチは約 5% 2007/6/1 20

21 プリフェッチによるトラフィックの増加 参照される場合 1 2 FMM LU Radix Water 1. ストライドプリフェッチ 2.taggedプリフェッチ taggedプリフェッチはトラフィックの増加量が大きい 無効化要求が増加するプリフェッチは極めて少ない 2007/6/1 21

22 プリフェッチによるバスアクセス時間の変化 バスアクセス時間 FMM LU Radix Water 1. ベース 2. ストライドプリフェッチ 3.taggedプリフェッチ プリフェッチによるバスアクセス時間の増加は小さい 2007/6/1 22

23 まとめと今後の課題 まとめ 発行された各プリフェッチを分類し調査することで CMPにおけるデータ プリフェッチ効果を分析した 従来のプリフェッチ手法は周りのコアからの参照を有効活用していない プリフェッチによる無効化要求の増加は極めて小さい プリフェッチによるトラフィックの増加が性能へ与える影響は小さい 今後の課題 より詳細なプリフェッチ効果の分析 プリフェッチ手法 ベンチマークプログラム キャッシュ構成 CMP 向けプリフェッチ手法の考案 2007/6/1 23

24 ご清聴ありがとうございました 2007/6/1 24

Microsoft PowerPoint - ARC2009HashiguchiSlides.pptx

Microsoft PowerPoint - ARC2009HashiguchiSlides.pptx 3 次元 DRAM プロセッサ積層実装を 対象としたオンチップ メモリ アーキテクチャの提案と評価 橋口慎哉 小野貴継 ( 現 ) 井上弘士 村上和彰 九州大学大学院システム情報科学府 九州大学大学院システム情報科学研究院 発表手順 研究背景 研究目的 ハイブリッド キャッシュ アーキテクチャ 評価実験 まとめと今後の課題 2 3 次元実装技術 研究背景 グローバル配線長の削減 チップ面積縮小 異なるプロセスを経て製造されたダイ同士の積層

More information

Microsoft PowerPoint - ARC-SWoPP2011OkaSlides.pptx

Microsoft PowerPoint - ARC-SWoPP2011OkaSlides.pptx データ値の局所性を利用した ライン共有キャッシュの提案 九州大学大学院 岡慶太郎 福本尚人 井上弘士 村上和彰 1 キャッシュメモリの大容量化 マルチコア プロセッサが主流 メモリウォール問題の深刻化 メモリアクセス要求増加 IOピンの制限 大容量の LL(Last Level) キャッシュを搭載 8MB の L3 キャッシュを搭載 Core i7 のチップ写真 * * http://www.atmarkit.co.jp/fsys/zunouhoudan/102zunou/corei7.html

More information

Microsoft PowerPoint - ARCEMB08HayashiSlides.ppt [互換モード]

Microsoft PowerPoint - ARCEMB08HayashiSlides.ppt [互換モード] 演算 / メモリ性能バランスを考慮した CMP 向けオンチップ メモリ貸与法の提案 九州大学 林徹生今里賢一井上弘士村上和彰 1 発表手順 背景 目的 演算 / メモリ性能バランシング 概要 アクセスレイテンシの削減とオーバーヘッド 提案手法の実現方法 着目する命令 (Cell プロセッサへの ) 実装 性能評価 姫野ベンチマーク Susan@MiBench おわりに 2 チップマルチプロセッサ (CMP)

More information

Microsoft PowerPoint - ICD2011TakadaSlides.pptx

Microsoft PowerPoint - ICD2011TakadaSlides.pptx キャッシュウェイ割り当てと コード配置の同時最適化による メモリアクセスエネルギーの削減 九州大学 高田純司井上弘士京都大学石原亨 2012/8/9 1 目次 研究背景 組込みプロセッサにおけるエネルギー削減の必要性 キャッシュウェイ割り当て 提案手法 キャッシュウェイ割り当てとコード配置の組み合わせ 同時最適化 評価実験 まとめ 2012/8/9 2 組込みプロセッサの課題 研究背景 低消費エネルギー化,

More information

本文ALL.indd

本文ALL.indd Intel Xeon プロセッサにおける Cache Coherency 時間の性能測定方法河辺峻田口成美古谷英祐 Intel Xeon プロセッサにおける Cache Coherency 時間の性能測定方法 Performance Measurement Method of Cache Coherency Effects on an Intel Xeon Processor System 河辺峻田口成美古谷英祐

More information

Microsoft PowerPoint - ICD2011UenoSlides.pptx

Microsoft PowerPoint - ICD2011UenoSlides.pptx 画像認識向け 3 次元積層 アクセラレータ アーキテクチャの検討 九州大学大学院システム情報科学府学院 * 九州大学大学院システム情報科学研究院 ** 上野伸也 * Gauthier Lovic Eric** 井上弘士 ** 村上和彰 ** 1 概要 画像認識技術 アクセラレータによる高性能 低消費エネルギー化 アプリケーション分析 アクセラレータ アーキテクチャ検討ア 性能 消費エネルギー評価 まとめ

More information

スライド 1

スライド 1 知能制御システム学 画像処理の高速化 OpenCV による基礎的な例 東北大学大学院情報科学研究科鏡慎吾 swk(at)ic.is.tohoku.ac.jp 2007.07.03 リアルタイム処理と高速化 リアルタイム = 高速 ではない 目標となる時間制約が定められているのがリアルタイム処理である.34 ms かかった処理が 33 ms に縮んだだけでも, それによって与えられた時間制約が満たされるのであれば,

More information

VXPRO R1400® ご提案資料

VXPRO R1400® ご提案資料 Intel Core i7 プロセッサ 920 Preliminary Performance Report ノード性能評価 ノード性能の評価 NAS Parallel Benchmark Class B OpenMP 版での性能評価 実行スレッド数を 4 で固定 ( デュアルソケットでは各プロセッサに 2 スレッド ) 全て 2.66GHz のコアとなるため コアあたりのピーク性能は同じ 評価システム

More information

情報処理学会研究報告 IPSJ SIG Technical Report Vol.2010-ARC-187 No.3 Vol.2010-EMB-15 No /1/28 マルチコアプロセッサのコアごとのアクセス局所性を利用した共有キャッシュの消費電力削減 1 1 L2 キャッシュに共有キャ

情報処理学会研究報告 IPSJ SIG Technical Report Vol.2010-ARC-187 No.3 Vol.2010-EMB-15 No /1/28 マルチコアプロセッサのコアごとのアクセス局所性を利用した共有キャッシュの消費電力削減 1 1 L2 キャッシュに共有キャ マルチコアプロセッサのコアごとのアクセス局所性を利用した共有キャッシュの消費電力削減 1 1 L2 キャッシュに共有キャッシュ方式を用いたマルチコアプロセッサにおいて, ラインごとのコア局所性に着目し, タグ比較の回数を減らすことにより動的な消費電力を削減することを考える. L2 キャッシュの各ラインごとに前回アクセスしたコアの番号を記憶させ, 次回のアクセスに利用する手法を提案する. 本手法の有効性を調べるために,

More information

Microsoft PowerPoint - MATE2010Inoue.pptx

Microsoft PowerPoint - MATE2010Inoue.pptx 3 次元積層が可能にする 次世代マイクロプロセッサ アーキテクチャ 九州大学井上こうじ (inoue@ait.kyushu u.a.jp) 1 More Than Moore を目指して なぜ 3 次元積層なのか? 2 半導体も 2D から 3D の世界へ! 複数のダイを同一パッケージに集積 ダイ間を貫通ビア (Through Silion Via:TSV) で接続 Wire bonding (WB)

More information

システムLSIとアーキテクチャ技術  (part II:オンチップ並列            アーキテクチャ)

システムLSIとアーキテクチャ技術  (part II:オンチップ並列            アーキテクチャ) コンピュータ基礎記憶階層とキャッシュその2 テキスト第 10 章 天野英晴 hunga@am.ics.keio.ac.jp 記憶システム 膨大な容量を持ち アクセス時間 ( 読み出し 書き込み ) が短いメモリが欲しい! しかし 容量の大きい ( ビット単価が安い ) メモリは遅い 高速なメモリは容量が小さいお金にモノを言わせて高速なメモリをたくさん揃えても大容量化の段階で遅くなってしまう そこでアクセスの局所性

More information

User-defined Logic Application Memory Manager (Replacement) Application Specific Prefetcher (ASP) Application Kernel On-chip RAM (BRAM) On-chip RAM I/

User-defined Logic Application Memory Manager (Replacement) Application Specific Prefetcher (ASP) Application Kernel On-chip RAM (BRAM) On-chip RAM I/ RTL 1,2,a) 1,b) CPU Verilog HDL RTL 1. CPU GPU Verilog HDL VHDL RTL HDL Vivado HLS Impulse C CPU 1 2 a) takamaeda@arch.cs.titech.ac.jp b) kise@cs.titech.ac.jp RTL RTL RTL Verilog HDL RTL 2. 1 HDL 1 User-defined

More information

この方法では, 複数のアドレスが同じインデックスに対応づけられる可能性があるため, キャッシュラインのコピーと書き戻しが交互に起きる性のミスが発生する可能性がある. これを回避するために考案されたのが, 連想メモリアクセスができる形キャッシュである. この方式は, キャッシュに余裕がある限り主記憶の

この方法では, 複数のアドレスが同じインデックスに対応づけられる可能性があるため, キャッシュラインのコピーと書き戻しが交互に起きる性のミスが発生する可能性がある. これを回避するために考案されたのが, 連想メモリアクセスができる形キャッシュである. この方式は, キャッシュに余裕がある限り主記憶の 計算機システム Ⅱ 演習問題学科学籍番号氏名 1. 以下の分の空白を埋めなさい. CPUは, 命令フェッチ (F), 命令デコード (D), 実行 (E), 計算結果の書き戻し (W), の異なるステージの処理を反復実行するが, ある命令の計算結果の書き戻しをするまで, 次の命令のフェッチをしない場合, ( 単位時間当たりに実行できる命令数 ) が低くなる. これを解決するために考案されたのがパイプライン処理である.

More information

Microsoft PowerPoint - SWoPP06HayashiSlides.ppt

Microsoft PowerPoint - SWoPP06HayashiSlides.ppt Cell プロセッサへの分子軌道法 プログラムの実装と評価 林徹生 九州大学大学院システム情報科学府九州大学情報基盤センター 本田宏明稲富雄一井上弘士村上和彰九州大学大学院システム情報科学研究院 背景と目的 Cell アーキテクチャ 構成と特徴 分子軌道法プログラム アルゴリズムと特徴 タスク分配法 ( 実装方法 ) 粒度と割り当て 同期方法 評価 評価対象モデル 評価結果 おわりに 発表手順 背景と目的

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション 高性能計算基盤 第 7 回 CA1003: 主記憶共有型システム http://arch.naist.jp/htdocs-arch3/ppt/ca1003/ca1003j.pdf Copyright 2019 奈良先端大中島康彦 1 2 3 4 マルチスレッディングとマルチコア 5 6 7 主記憶空間の数が 複数 か 1 つ か 8 ただしプログラムは容易 9 1 つの主記憶空間を共有する場合 10

More information

HPCマシンの変遷と 今後の情報基盤センターの役割

HPCマシンの変遷と 今後の情報基盤センターの役割 筑波大学計算科学センターシンポジウム 計算機アーキテクトが考える 次世代スパコン 2006 年 4 月 5 日 村上和彰 九州大学 murakami@cc.kyushu-u.ac.jp 次世代スパコン ~ 達成目標と制約条件の整理 ~ 達成目標 性能目標 (2011 年 ) LINPACK (HPL):10PFlop/s 実アプリケーション :1PFlop/s 成果目標 ( 私見 ) 科学技術計算能力の国際競争力の向上ならびに維持による我が国の科学技術力

More information

スライド 1

スライド 1 知能制御システム学 画像処理の高速化 東北大学大学院情報科学研究科鏡慎吾 swk(at)ic.is.tohoku.ac.jp 2008.07.22 今日の内容 ビジュアルサーボのようなリアルタイム応用を考える場合, 画像処理を高速に実装することも重要となる いくつかの基本的な知識を押さえておかないと, 同じアルゴリズムを実行しているのに性能が上がらないということがしばしば生じる 今日は, あくまで普通の

More information

Microsoft PowerPoint - No7note.ppt

Microsoft PowerPoint - No7note.ppt 仮想記憶 (2) 実際に存在する主記憶 ( 物理メモリ ) の容量に制限されない 仮想的な記憶空間 をユーザに提供する 仮想記憶の基本アイディア 主記憶に入りきらない大きなプログラムでも, ある時点で実行されているのはプログラムの一部のみ, 必要となるデータも一時には一部のデータのみ ( 参照の局所性 ) プログラム全体はディスク装置に入れておき, 実行時に必要な部分を主記憶にもってくればよい 主記憶容量

More information

講義計画 1. コンピュータの歴史 1 2. コンピュータの歴史 2 3. コンピュータの歴史 3 4. 論理回路と記憶, 計算 : レジスタとALU 5. 主記憶装置とALU, レジスタの制御 6. 命令セットアーキテクチャ 7. 演習問題 8. パイプライン処理 9. メモリ階層 : キャッシュ

講義計画 1. コンピュータの歴史 1 2. コンピュータの歴史 2 3. コンピュータの歴史 3 4. 論理回路と記憶, 計算 : レジスタとALU 5. 主記憶装置とALU, レジスタの制御 6. 命令セットアーキテクチャ 7. 演習問題 8. パイプライン処理 9. メモリ階層 : キャッシュ 計算機システム Ⅱ キャッシュと仮想記憶 和田俊和 講義計画 1. コンピュータの歴史 1 2. コンピュータの歴史 2 3. コンピュータの歴史 3 4. 論理回路と記憶, 計算 : レジスタとALU 5. 主記憶装置とALU, レジスタの制御 6. 命令セットアーキテクチャ 7. 演習問題 8. パイプライン処理 9. メモリ階層 : キャッシュと仮想記憶 ( 本日 ) 10. 命令レベル並列処理

More information

SCIMA アーキテクチャと性能評価 - SCIMA アーキテクチャの概要 - 中村宏東京大学先端科学技術研究センター

SCIMA アーキテクチャと性能評価 - SCIMA アーキテクチャの概要 - 中村宏東京大学先端科学技術研究センター SCIMA アーキテクチャと性能評価 - SCIMA アーキテクチャの概要 - 中村宏東京大学先端科学技術研究センター nakamura@hal.rcast.u-tokyo.ac.jp nakamura@acm.org 第一部 :SCIMA アーキテクチャと性能評価 講演の流れ SCIMAアーキテクチャの概要 ( 東大 : 中村宏 ) NASPBを用いたSCIMAの評価 ( 東大 : 岩本貢 M2)

More information

1 z q w e r t y x c q w 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 R R 32 33 34 35 36 MR MR MR MR MR MR MR MR MR MR MR MR MR MR MR MR MR MR MR MR MR MR MR MR MR

More information

Microsoft Word ●IntelクアッドコアCPUでのベンチマーク_吉岡_ _更新__ doc

Microsoft Word ●IntelクアッドコアCPUでのベンチマーク_吉岡_ _更新__ doc 2.3. アプリ性能 2.3.1. Intel クアッドコア CPU でのベンチマーク 東京海洋大学吉岡諭 1. はじめにこの数年でマルチコア CPU の普及が進んできた x86 系の CPU でも Intel と AD がデュアルコア クアッドコアの CPU を次々と市場に送り出していて それらが PC クラスタの CPU として採用され HPC に活用されている ここでは Intel クアッドコア

More information

橡matufw

橡matufw 3 10 25 3 18 42 1 2 6 2001 8 22 3 03 36 3 4 A 2002 2001 1 1 2014 28 26 5 9 1990 2000 2000 12 2000 12 12 12 1999 88 5 2014 60 57 1996 30 25 205 0 4 120 1,5 A 1995 3 1990 30 6 2000 2004 2000 6 7 2001 5 2002

More information

O

O 11 2 1 2 1 1 2 1 80 2 160 3 4 17 257 1 2 1 2 3 3 1 2 138 1 1 170 O 3 5 1 5 6 139 1 A 5 2.5 A 1 A 1 1 3 20 5 A 81 87 67 A 140 11 12 2 1 1 1 12 22 1 10 1 13 A 2 3 2 6 1 B 2 B B B 1 2 B 100 B 10 B 3 3 B 1

More information

ためのオーバーヘッドが課題となりつつある しかしこのオーバーヘッドに関する数値はほとんど公開されていない この論文ではこの cache coherency の時間を Linux カーネルで提供されている atomic_inc 関数を用いて測定する方法を新たに考案し 実測プログラムを作成した 実測はプ

ためのオーバーヘッドが課題となりつつある しかしこのオーバーヘッドに関する数値はほとんど公開されていない この論文ではこの cache coherency の時間を Linux カーネルで提供されている atomic_inc 関数を用いて測定する方法を新たに考案し 実測プログラムを作成した 実測はプ Intel Xeon プロセッサにおける Cache Coherency 時間の測定方法と大規模システムにおける実測結果 Performance Measurement Method of Cache Coherency Effects on a large Intel Xeon Processor System 河辺峻 1 古谷英祐 2 KAWABE Shun, FURUYA Eisuke 要旨現在のプロセッサの構成は,

More information

2.

2. 2. 10 2. 2. 1995/12006/111995/42006/12 2. 10 1995120061119954200612 02505 025 05 025 02505 0303 02505 250100 250 200 100200 5010050 100200 100 100 50100 100200 50100 10 75100100 0250512 02505 1 025051205

More information

Microsoft PowerPoint - OpenMP入門.pptx

Microsoft PowerPoint - OpenMP入門.pptx OpenMP 入門 須田礼仁 2009/10/30 初版 OpenMP 共有メモリ並列処理の標準化 API http://openmp.org/ 最新版は 30 3.0 バージョンによる違いはあまり大きくない サポートしているバージョンはともかく csp で動きます gcc も対応しています やっぱり SPMD Single Program Multiple Data プログラム #pragma omp

More information

Microsoft PowerPoint - sales2.ppt

Microsoft PowerPoint - sales2.ppt 最適化とは何? CPU アーキテクチャに沿った形で最適な性能を抽出できるようにする技法 ( 性能向上技法 ) コンパイラによるプログラム最適化 コンパイラメーカの技量 経験量に依存 最適化ツールによるプログラム最適化 KAP (Kuck & Associates, Inc. ) 人によるプログラム最適化 アーキテクチャのボトルネックを知ること 3 使用コンパイラによる性能の違い MFLOPS 90

More information

020105.メモリの高機能化

020105.メモリの高機能化 速化記憶階層の活用 5. メモリの高機能化 メモリインタリーブ メモリインタリーブとは 0 2 3 5 バンク番号 0 2 3 5 8 9 0 2 3 5 8 9 20 並列アクセス 主記憶装置をいくつかのバンクに分割し 各バンク毎にアクセスパスを設定する あるバンクの情報に対するアクセスがある時は それに続く全てのバンクの情報を同時にそれぞれのアクセスパスを経由して読み出す バンク数をウェイといい

More information

Pervasive PSQL v11 のベンチマーク パフォーマンスの結果

Pervasive PSQL v11 のベンチマーク パフォーマンスの結果 Pervasive PSQL v11 のベンチマークパフォーマンスの結果 Pervasive PSQL ホワイトペーパー 2010 年 9 月 目次 実施の概要... 3 新しいハードウェアアーキテクチャがアプリケーションに及ぼす影響... 3 Pervasive PSQL v11 の設計... 4 構成... 5 メモリキャッシュ... 6 ベンチマークテスト... 6 アトミックテスト... 7

More information

AC-2

AC-2 AC-1 AC-2 AC-3 AC-4 AC-5 AC-6 AC-7 AC-8 AC-9 * * * AC-10 AC-11 AC-12 AC-13 AC-14 AC-15 AC-16 AC-17 AC-18 AC-19 AC-20 AC-21 AC-22 AC-23 AC-24 AC-25 AC-26 AC-27 AC-28 AC-29 AC-30 AC-31 AC-32 * * * * AC-33

More information

エンジョイ北スポーツ

エンジョイ北スポーツ 28 3 20 85132 http://www.kita-city-taikyo.or.jp 85 63 27 27 85132 http://www.kita-city-taikyo.or.jp 2 2 3 4 4 3 6 78 27, http://www.kita-city-taikyo.or.jp 85132 3 35 11 8 52 11 8 2 3 4 1 2 4 4 5 4 6 8

More information

Microsoft PowerPoint 知る集い(京都)最終.ppt

Microsoft PowerPoint 知る集い(京都)最終.ppt 次世代スパコンについて知る集い 配布資料 世界最高性能を目指すシステム開発について ー次世代スパコンのシステム構成と施設の概要 - 平成 22 年 1 月 28 日 理化学研究所次世代スーパーコンピュータ開発実施本部横川三津夫 高性能かつ大規模システムの課題と対応 演算性能の向上 CPU のマルチコア化,SIMD( ベクトル化 ) 機構 主記憶へのアクセス頻度の削減 - CPU 性能とメモリアクセス性能のギャップ

More information

なる 次元積層 L2 キャッシュのリーク消費電力増加問題 一般にコアの温度分布はそのコアが割り当てられているプログラムによって異なる. した がって, マルチプログラム実行を考えた場合, コアひとつひとつの温度分布が異なる. この ため, 上層のキャッシュメモリの温度分布は, 下層コア

なる 次元積層 L2 キャッシュのリーク消費電力増加問題 一般にコアの温度分布はそのコアが割り当てられているプログラムによって異なる. した がって, マルチプログラム実行を考えた場合, コアひとつひとつの温度分布が異なる. この ため, 上層のキャッシュメモリの温度分布は, 下層コア 温度を考慮した 3 次元積層 LSI 向け低消費エネルギー L2 キャッシュの提案 阿部祐希 1 花田高彬 1 井上弘士 2 村上和彰 2 本稿では, 温度を考慮した 3 次元積層 L2 キャッシュ向けバンク電源遮断による消費エネルギー削減手法について検討し, 有効性評価を行う.3 次元積層 L2 キャッシュは, 垂直方向に隣接するコアの熱伝導のため, 平面実装時の L2 キャッシュと比較して高温となり,

More information

Microsoft PowerPoint - GPGPU実践基礎工学(web).pptx

Microsoft PowerPoint - GPGPU実践基礎工学(web).pptx GPU のメモリ階層 長岡技術科学大学電気電子情報工学専攻出川智啓 今回の内容 GPU のメモリ階層 グローバルメモリ 共有メモリ モザイク処理への適用 コンスタントメモリ 空間フィルタへの適用 577 GPU の主要部品 基盤 GPU( チップ )+ 冷却部品 画面出力端子 電源入力端子 メモリ 特性の把握が重要 電源入力端子 画面出力端子 メモリ チップ PCI Ex 端子 http://www.geforce.com/whats

More information

Slides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments

Slides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments 加藤真平計算機アーキテクチャ特論 計算機アーキテクチャ特論後半第 1 回最先端アーキテクチャのトレンド 本資料は授業用です 無断で転載することを禁じます 講師加藤真平 前半の趣旨 : 並列化プログラミング for (i = 0; i < N; i++) { x[i] = a[i] + b[i]; } シングルプロセッサ マルチプロセッサ x[0]=a[0]+b[0]; x[1]=a[1]+b[1];

More information

(速報) Xeon E 系モデル 新プロセッサ性能について

(速報) Xeon E 系モデル 新プロセッサ性能について ( 速報 ) Xeon E5-2600 系モデル新プロセッサ性能について 2012 年 3 月 16 日 富士通株式会社 2012 年 3 月 7 日 インテル社より最新 CPU インテル Xeon E5 ファミリー の発表がありました この最新 CPU について PC クラスタシステムの観点から性能検証を行いましたので 概要を速報いたします プロセッサインテル Xeon プロセッサ E5-2690

More information

にゃんぱすー

にゃんぱすー ビッグデータ分析技術ワークショップ ~ グラフマイニング研究の最新動向と応用事例 ~ 平成 28 年 2 月 28 日 頂点順序の最適化による 高速なグラフ分析 新井淳也 日本電信電話株式会社 ソフトウェアイノベーションセンタ この発表について 下記論文についての発表です Rabbit Order: Just-in-time Parallel Reordering for Fast Graph Analysis

More information

Microsoft PowerPoint - CCS学際共同boku-08b.ppt

Microsoft PowerPoint - CCS学際共同boku-08b.ppt マルチコア / マルチソケットノードに おけるメモリ性能のインパクト 研究代表者朴泰祐筑波大学システム情報工学研究科 taisuke@cs.tsukuba.ac.jp アウトライン 近年の高性能 PC クラスタの傾向と問題 multi-core/multi-socket ノードとメモリ性能 メモリバンド幅に着目した性能測定 multi-link network 性能評価 まとめ 近年の高性能 PC

More information

Operating System 仮想記憶

Operating System 仮想記憶 Operating System 仮想記憶 2018-12 記憶階層 高速 & 小容量 ( 高価 ) レジスタ アクセスタイム 数ナノ秒 容量 ~1KB CPU 内キャッシュ (SRAM) 数ナノ秒 1MB 程度 ランダムアクセス 主記憶 (DRAM) 数十ナノ秒 数 GB 程度 ランダムアクセス フラッシュメモリ (SSD) 約 100 万倍 シーケンシャルアクセス 磁気ディスク (HDD) 数十ミリ秒

More information

スライド 1

スライド 1 Nehalem 新マイクロアーキテクチャ スケーラブルシステムズ株式会社 はじめに 現在も続く x86 マイクロプロセッサマーケットでの競合において Intel と AMD という 2 つの会社は 常に新しい技術 製品を提供し マーケットでのシェアの獲得を目指しています この技術開発と製品開発では この 2 社はある時は 他社に対して優位な技術を開発し 製品面での優位性を示すことに成功してきましたが

More information

並列・高速化を実現するための 高速化サービスの概要と事例紹介

並列・高速化を実現するための 高速化サービスの概要と事例紹介 第 4 回 AVS 可視化フォーラム 2019 並列 高速化を実現するための 高速化サービスの概要と事例紹介 株式会社アーク情報システム営業部仮野亮ソリューション技術部佐々木竜一 2019.08.30 はじめに アーク情報システムの紹介 高速化サービスとは? 事例紹介 コンサルティングサービスについて アーク情報システムの紹介 設立 資本金 :1987 年 10 月 :3 億 600 万円 従業員数

More information

特集新世代マイクロプロセッサアーキテクチャ ( 後編 ) 3. 実例 3 ユビキタス コンピューティング時代の組み込みマイクロコンピュータ, SuperH と M32R 清水徹 * 1 長谷川淳 * 2 服部俊洋 * 3 近藤弘郁 * 4 ( 株 ) ルネサステクノロジシステムソリューション統括本部

特集新世代マイクロプロセッサアーキテクチャ ( 後編 ) 3. 実例 3 ユビキタス コンピューティング時代の組み込みマイクロコンピュータ, SuperH と M32R 清水徹 * 1 長谷川淳 * 2 服部俊洋 * 3 近藤弘郁 * 4 ( 株 ) ルネサステクノロジシステムソリューション統括本部 3. 実例 3 ユビキタス コンピューティング時代の組み込みマイクロコンピュータ, SuperH と M32R 清水徹 * 1 長谷川淳 * 2 服部俊洋 * 3 近藤弘郁 * 4 ( 株 ) ルネサステクノロジシステムソリューション統括本部システムコア技術統括部 * 1 shimizu.toru@renesas.com * 2 hasegawa.atsushi@renesas.com * 3 hattori.toshihiro@renesas.com

More information

工学院大学建築系学科近藤研究室2000年度卒業論文梗概

工学院大学建築系学科近藤研究室2000年度卒業論文梗概 耐災害性の高い通信システムにおけるサーバ計算機の性能と消費電力に関する考察 耐障害性, 消費電力, 低消費電力サーバ 山口実靖 *. はじめに 性能と表皮電力の関係について調査し, 考察を行う 災害においては, 減災活動が極めて重要である すなわち 災害が発生した後に適切に災害に対処することにより, その被害を大きく軽減できる. 適切な災害対策を行うには災害対策を行う拠点が正常に運営されていることが必要不可欠であり,

More information

Software-Defined Tester(SDT) を用いた高精度遅延測定による SDN/NFV 品質向上 富士通アドバンストテクノロジ株式会社システム技術統括部大久保克彦 0 Copyright 2017 FUJITSU AD

Software-Defined Tester(SDT) を用いた高精度遅延測定による SDN/NFV 品質向上 富士通アドバンストテクノロジ株式会社システム技術統括部大久保克彦 0 Copyright 2017 FUJITSU AD Software-Defined Tester(SDT) を用いた高精度遅延測定による SDN/NFV 品質向上 富士通アドバンストテクノロジ株式会社システム技術統括部大久保克彦 fatec-ood-2017@dl.jp.fujitsu.com 0 背景 リアルタイム性が必要な分野への適用 5G( 低遅延 ) による新たなサービス展開 ゲーム VoIP 動画医療金融車載 遅延がサービス品質に直結 End-to-End

More information

Microsoft Word - HOKUSAI_system_overview_ja.docx

Microsoft Word - HOKUSAI_system_overview_ja.docx HOKUSAI システムの概要 1.1 システム構成 HOKUSAI システムは 超並列演算システム (GWMPC BWMPC) アプリケーション演算サーバ群 ( 大容量メモリ演算サーバ GPU 演算サーバ ) と システムの利用入口となるフロントエンドサーバ 用途の異なる 2 つのストレージ ( オンライン ストレージ 階層型ストレージ ) から構成されるシステムです 図 0-1 システム構成図

More information

SpeC記述のC記述への変換 (SpecCによるソフトウェア記述の実装記述への変換)

SpeC記述のC記述への変換 (SpecCによるソフトウェア記述の実装記述への変換) TOPPERS プロジェクトプレス発表 2009 年 4 月 23 日 TOPPERS/FMP カーネル TraceLogVisualizer(TLV) 本田晋也 名古屋大学大学院情報科学研究科附属組込みシステム研究センター (NCES) 助教 honda@ertl.jp 1 TOPPERS/FMP カーネル 2 組込みシステムにおけるマルチプロセッサの利用 大きく二つの理由により利用が進んでいる

More information

< B8CDD8AB B83685D>

< B8CDD8AB B83685D> () 坂井 修一 東京大学大学院情報理工学系研究科電子情報学専攻東京大学工学部電子情報工学科 / 電気電子工学科 はじめに アウトオブオーダ処理 工学部講義 はじめに 本講義の目的 の基本を学ぶ 場所 火曜日 8:40-0:0 工学部 号館 4 ホームページ ( ダウンロード可能 ) url: http://www.mtl.t.u-tokyo.ac.jp/~sakai/hard/ 教科書 坂井修一

More information

Slides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments

Slides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments 計算機アーキテクチャ第 11 回 マルチプロセッサ 本資料は授業用です 無断で転載することを禁じます 名古屋大学 大学院情報科学研究科 准教授加藤真平 デスクトップ ジョブレベル並列性 スーパーコンピュータ 並列処理プログラム プログラムの並列化 for (i = 0; i < N; i++) { x[i] = a[i] + b[i]; } プログラムの並列化 x[0] = a[0] + b[0];

More information

パフォーマンスレポート PRIMERGY TX100 S3

パフォーマンスレポート PRIMERGY TX100 S3 ホワイトペーパー パフォーマンスレポート ホワイトペーパー FUJITSU PRIMERGY サーバパフォーマンスレポート 本書では で実行したベンチマークの概要について説明します のパフォーマンスデータを 他の PRIMERGY モデルと比較して説明しています ベンチマーク結果に加え ベンチマークごとの説明およびベンチマーク環境の説明も掲載しています バージョン 1.1 2011-09-30 目次

More information

九州大学学術情報リポジトリ Kyushu University Institutional Repository マッスル サーバー ( 汎用 PC クラスタ + 特定計算向けハードウェア ) の開発 : 分子軌道法を例にして 村上, 和彰九州大学大学院システム情報科学研究院 九州大学情報基盤センタ

九州大学学術情報リポジトリ Kyushu University Institutional Repository マッスル サーバー ( 汎用 PC クラスタ + 特定計算向けハードウェア ) の開発 : 分子軌道法を例にして 村上, 和彰九州大学大学院システム情報科学研究院 九州大学情報基盤センタ 九州大学学術情報リポジトリ Kyushu University Institutional Repository マッスル サーバー ( 汎用 PC クラスタ + 特定計算向けハードウェア ) の開発 : 分子軌道法を例にして 村上, 和彰九州大学大学院システム情報科学研究院 九州大学情報基盤センター http://hdl.handle.net/2324/9106 出版情報 :SLRC プレゼンテーション,

More information

Microsoft PowerPoint - GPUシンポジウム _d公開版.ppt [互換モード]

Microsoft PowerPoint - GPUシンポジウム _d公開版.ppt [互換モード] 200/0/9 数値流体解析の並列効率とその GPU による高速化の試み 清水建設 ( 株 ) 技術研究所 PHAM VAN PHUC ( ファムバンフック ) 流体計算時間短縮と GPU の活用の試み 現 CPUとの比較によりGPU 活用の可能性 現 CPU の最大利用 ノード内の最大計算資源の利用 すべてCPUコアの利用 適切なアルゴリズムの利用 CPU コア性能の何倍? GPU の利用の試み

More information

reply_letter

reply_letter 条件付採録に対する回答文 投稿論文番号 :2012JDP7055 ご査読に際し, 貴重なご指摘とご意見を頂きありがとうございました. 採録条 件に対する回答と, 採録条件を満たすために, 投稿論文を加筆, 修正した点に ついて, ご説明致します. 採録条件 本論文では, 下記の点について新規性が主張されています. Nov1) タスク処理内容をプログラム形式で抽象的に記述することにより, 条件分岐や繰返しを含むような処理時間が変動するようなアプリケーションに対するシミュレーションを可能にしている.

More information

パフォーマンスレポート PRIMERGY TX100 S2

パフォーマンスレポート PRIMERGY TX100 S2 ホワイトペーパー パフォーマンスレポート PRIMERGY TX100 S2 ホワイトペーパー FUJITSU PRIMERGY サーバパフォーマンスレポート PRIMERGY TX100 S2 本書では PRIMERGY TX100 S2 で実行したベンチマークの概要について説明します PRIMERGY TX100 S2 のパフォーマンスデータを 他の PRIMERGY モデルと比較して説明しています

More information

組込み Linux の起動高速化 株式会社富士通コンピュータテクノロジーズ 亀山英司 1218ka01 Copyright 2013 FUJITSU COMPUTER TECHNOLOGIES LIMITED

組込み Linux の起動高速化 株式会社富士通コンピュータテクノロジーズ 亀山英司 1218ka01 Copyright 2013 FUJITSU COMPUTER TECHNOLOGIES LIMITED 組込み Linux の起動高速化 株式会社富士通コンピュータテクノロジーズ 亀山英司 1218ka01 組込み Linux における起動高速化 組込み Linux の起動時間短縮について依頼あり スペック CPU : Cortex-A9 ( 800MB - single) RAM: 500MB 程度 要件 起動時間 画出し 5 秒 音出し 3 秒 終了時間 数 ms で電源断 1 課題と対策 問題点

More information

システムLSIとアーキテクチャ技術  (part II:オンチップ並列            アーキテクチャ)

システムLSIとアーキテクチャ技術  (part II:オンチップ並列            アーキテクチャ) 今回は前回の続きでキャッシュの書き込みポリシー 性能の検討をやって 仮想記憶を紹介します 1 ではメモリの基本がわかったところでキャッシュの話をしましょう キャッシュとは頻繁にアクセスされるデータ ( 命令もデータの一種と考える ) を入れておく小規模高速なメモリを指します 小銭の Cash ではなく Cache( 貴重なものを入れておく小物入れ ) なのでご注意ください この言葉はコンピュータの世界で大変有名になったので

More information

DRAM L2 L2 DRAM L2 DRAM L2 RAM DRAM 3 DRAM 3. 1 DRAM SRAM/DRAM 2. SRAM/DRAM DRAM LLC Last Level Cache 2 2) DRAM 1(A) (B) LLC L2 DRAM DRAM L2 SRAM DRAM

DRAM L2 L2 DRAM L2 DRAM L2 RAM DRAM 3 DRAM 3. 1 DRAM SRAM/DRAM 2. SRAM/DRAM DRAM LLC Last Level Cache 2 2) DRAM 1(A) (B) LLC L2 DRAM DRAM L2 SRAM DRAM SRAM/DRAM 1 1 2 2 3 DRAM DRAM 2 SRAM/DRAM 1) 1) L2 3.01 1.17 Run-time Operation-Mode Management on SRAM/DRAM Hybrid Cache SHINYA HASHIGUCHI, 1 NAOTO FUKUMOTO, 1 KOJI INOUE 2 and KAZUAKI MURAKAMI 2 3D stacked

More information

Chip Size and Performance Evaluations of Shared Cache for On-chip Multiprocessor Takahiro SASAKI, Tomohiro INOUE, Nobuhiko OMORI, Tetsuo HIRONAKA, Han

Chip Size and Performance Evaluations of Shared Cache for On-chip Multiprocessor Takahiro SASAKI, Tomohiro INOUE, Nobuhiko OMORI, Tetsuo HIRONAKA, Han Chip Size and Performance Evaluations of Shared Cache for On-chip Multiprocessor Takahiro SASAKI, Tomohiro INOUE, Nobuhiko OMORI, Tetsuo HIRONAKA, Hans J. MATTAUSCH, and Tetsushi KOIDE 1 1 2 0.5 µm CMOS

More information

4 実験方法 本章では具体的な実験方法を説明します 本章をよく読んで作業を進めてください 4.3 章以降はキャッシュの構造や動作について既に十分に理解していることが前提となっ ています キャッシュの理解に自信がない学生は 4.3 章に進む前に まずはキャッシュの 構造と動作を理解した方がよいでしょう

4 実験方法 本章では具体的な実験方法を説明します 本章をよく読んで作業を進めてください 4.3 章以降はキャッシュの構造や動作について既に十分に理解していることが前提となっ ています キャッシュの理解に自信がない学生は 4.3 章に進む前に まずはキャッシュの 構造と動作を理解した方がよいでしょう 情報数理工学/コンピュータサイエンス実験第二 A/B キャッシュシミュレーション 担当 三輪忍 本書は 電気通信大学 I 類授業科目 情報数理工学実験第二 A/B および コンピュー タサイエンス実験第二 A/B における課題名 キャッシュシミュレーション の手引書で す 本課題を履修する学生は 本書をよく読んだ上で授業に臨んでください 1 本実験の目的 本実験の目的は 多くの CPU に搭載されており

More information

Microsoft PowerPoint - 03_murakami(参照)_ pptx[読み取り専用]

Microsoft PowerPoint - 03_murakami(参照)_ pptx[読み取り専用] SS 研科学技術計算分科会 アクセラレータ技術の現状と今後 ~HPC とアクセラレータ ~ 2008 年 10 月 22 日村上和彰 murakami@i.kyushu u.ac.jp 国立大学法人九州大学教授 SS 研会長 1 概要 高性能科学技術計算 (HPC) とアクセラレータとの関係は歴史が長い ベクトル処理もアクセラレータの一種であり かつ その元祖的存在である ベクトル処理が時間軸方向のデータレベル並列処理だったものを空間軸方向に置き換えたものが現在主流となっている

More information

router_cachehit.eps

router_cachehit.eps 人気度推定を用いたキャッシュ方式とネットワーク誘導型キャッシュ発見方式の融合 柳生智彦 (NEC / 電通大 ), 藤井厚太朗 ( 電通大 ) 情報指向ネットワーク技術時限研究会 2015/4/7 研究背景 増加するトラフィック モバイルデータトラヒック総量は 5 年間で 10 倍に [1] WEB やビデオなどコンテンツ流通が大半 現在, コンテンツ流通はトラヒックの約半分で毎年 69% 増加 増え続けるトラヒックへ対応

More information

2015 TRON Symposium セッション 組込み機器のための機能安全対応 TRON Safe Kernel TRON Safe Kernel の紹介 2015/12/10 株式会社日立超 LSIシステムズ製品ソリューション設計部トロンフォーラム TRON Safe Kernel WG 幹事

2015 TRON Symposium セッション 組込み機器のための機能安全対応 TRON Safe Kernel TRON Safe Kernel の紹介 2015/12/10 株式会社日立超 LSIシステムズ製品ソリューション設計部トロンフォーラム TRON Safe Kernel WG 幹事 2015 TRON Symposium セッション 組込み機器のための機能安全対応 TRON Safe Kernel TRON Safe Kernel の紹介 2015/12/10 株式会社日立超 LSIシステムズ製品ソリューション設計部トロンフォーラム TRON Safe Kernel WG 幹事 豊山 祐一 Hitachi ULSI Systems Co., Ltd. 2015. All rights

More information

OS

OS Operatig System 仮想記憶 2017-12 記憶階層 高速 & 小容量 ( 高価 ) レジスタ アクセスタイム 数ナノ秒 容量 ~1KB ランダムアクセス ランダムアクセス CPU 内キャッシュ (SRAM) 主記憶 (DRAM) フラッシュメモリ 数ナノ秒 数十ナノ秒 1MB 程度 数 GB 程度 シーケンシャルアクセス 磁気ディスク (HDD) 光磁気ディスク (CD-R DVD-RW

More information

<4D F736F F F696E74202D2091E63489F15F436F6D C982E682E992B48D8291AC92B489B F090CD2888F38DFC E B8CDD8

<4D F736F F F696E74202D2091E63489F15F436F6D C982E682E992B48D8291AC92B489B F090CD2888F38DFC E B8CDD8 Web キャンパス資料 超音波シミュレーションの基礎 ~ 第 4 回 ComWAVEによる超高速超音波解析 ~ 科学システム開発部 Copyright (c)2006 ITOCHU Techno-Solutions Corporation 本日の説明内容 ComWAVEの概要および特徴 GPGPUとは GPGPUによる解析事例 CAE POWER 超音波研究会開催 (10 月 3 日 ) のご紹介

More information

ComputerArchitecture.ppt

ComputerArchitecture.ppt 1 人間とコンピュータの違い コンピュータ 複雑な科学計算や膨大な量のデータの処理, さまざまな装置の制御, 通信などを定められた手順に従って間違いなく高速に実行する 人間 誰かに命令されなくても自発的に処理したり, 条件が変化しても臨機応変に対処できる 多くの問題解決を経験することで, より高度な問題解決法を考え出す 数値では表しにくい情報の処理ができる 2 コンピュータの構成要素 構成要素 ハードウェア

More information

Agenda GRAPE-MPの紹介と性能評価 GRAPE-MPの概要 OpenCLによる四倍精度演算 (preliminary) 4倍精度演算用SIM 加速ボード 6 processor elem with 128 bit logic Peak: 1.2Gflops

Agenda GRAPE-MPの紹介と性能評価 GRAPE-MPの概要 OpenCLによる四倍精度演算 (preliminary) 4倍精度演算用SIM 加速ボード 6 processor elem with 128 bit logic Peak: 1.2Gflops Agenda GRAPE-MPの紹介と性能評価 GRAPE-MPの概要 OpenCLによる四倍精度演算 (preliminary) 4倍精度演算用SIM 加速ボード 6 processor elem with 128 bit logic Peak: 1.2Gflops ボードの概要 Control processor (FPGA by Altera) GRAPE-MP chip[nextreme

More information

[4] ACP (Advanced Communication Primitives) [1] ACP ACP [2] ACP Tofu UDP [3] HPC InfiniBand InfiniBand ACP 2 ACP, 3 InfiniBand ACP 4 5 ACP 2. ACP ACP

[4] ACP (Advanced Communication Primitives) [1] ACP ACP [2] ACP Tofu UDP [3] HPC InfiniBand InfiniBand ACP 2 ACP, 3 InfiniBand ACP 4 5 ACP 2. ACP ACP InfiniBand ACP 1,5,a) 1,5,b) 2,5 1,5 4,5 3,5 2,5 ACE (Advanced Communication for Exa) ACP (Advanced Communication Primitives) HPC InfiniBand ACP InfiniBand ACP ACP InfiniBand Open MPI 20% InfiniBand Implementation

More information

熊本大学学術リポジトリ Kumamoto University Repositor Title GPGPU による高速演算について Author(s) 榎本, 昌一 Citation Issue date Type URL Presentation

熊本大学学術リポジトリ Kumamoto University Repositor Title GPGPU による高速演算について Author(s) 榎本, 昌一 Citation Issue date Type URL Presentation 熊本大学学術リポジトリ Kumamoto University Repositor Title GPGPU による高速演算について Author(s) 榎本, 昌一 Citation Issue date 2011-03-17 Type URL Presentation http://hdl.handle.net/2298/23539 Right GPGPU による高速演算について 榎本昌一 東京大学大学院工学系研究科システム創成学専攻

More information

はじめに Web アプリケーションの発展と普及の勢いは弱まる兆しがありません 弱まるどころか 加速し続けています これは これまでの ERP CRM Web 2.0 などの Web ベースアプリケーションが提供してきたメリットを考えると 不思議なことではありません Web アプリケーションの爆発的拡

はじめに Web アプリケーションの発展と普及の勢いは弱まる兆しがありません 弱まるどころか 加速し続けています これは これまでの ERP CRM Web 2.0 などの Web ベースアプリケーションが提供してきたメリットを考えると 不思議なことではありません Web アプリケーションの爆発的拡 ncore テクノロジー Web アプリケーションデリバリー性能の飛躍的向上 www.citrix.com はじめに Web アプリケーションの発展と普及の勢いは弱まる兆しがありません 弱まるどころか 加速し続けています これは これまでの ERP CRM Web 2.0 などの Web ベースアプリケーションが提供してきたメリットを考えると 不思議なことではありません Web アプリケーションの爆発的拡大の一方で

More information

ソフトウェア基礎技術研修

ソフトウェア基礎技術研修 算術論理演算ユニットの設計 ( 教科書 4.5 節 ) yi = fi (x, x2, x3,..., xm) (for i n) 基本的な組合せ論理回路 : インバータ,AND ゲート,OR ゲート, y n 組合せ論理回路 ( 復習 ) 組合せ論理回路 : 出力値が入力値のみの関数となっている論理回路. 論理関数 f: {, } m {, } n を実現.( フィードバック ループや記憶回路を含まない

More information

Vol.-ARC-8 No.8 Vol.-OS- No.8 // DRAM DRAM DRAM DRAM ) DRAM. DRAM. ) DRAM DRAM DRAM DRAM DRAM SRAM DRAM MB B MB DRAM SRAM.. DRAM DRAM SRAM DRAM SRAM C

Vol.-ARC-8 No.8 Vol.-OS- No.8 // DRAM DRAM DRAM DRAM ) DRAM. DRAM. ) DRAM DRAM DRAM DRAM DRAM SRAM DRAM MB B MB DRAM SRAM.. DRAM DRAM SRAM DRAM SRAM C IPSJ SIG Technical Report Vol.-ARC-8 No.8 Vol.-OS- No.8 // DRAM- DRAM DRAM DRAM % % On-Chip Memory Architecture for DRAM Stacking Microprocessors SHINYA HASHIGUCHI, TAKATSUGU ONO, KOJI INOUE and KAZUAKI

More information

Microsoft PowerPoint IEEE関西3D(ハンドアウト).pptx

Microsoft PowerPoint IEEE関西3D(ハンドアウト).pptx 3 次元積層マイクロプロセッサ 解決すべき課題と将来展望 九州 学井上こうじ (inoue@ait.kyushu-u.ac.jp) 1 世の中いたる所で 3D なぜ 3 次元積層なのか? 2 半導体も 2D から 3D の世界へ! 複数のダイを同 パッケージに集積 ダイ間を貫通ビア (Through Silicon Via:TSV) で接続 Wire-bonding (WB) 3D stacking

More information

システムソリューションのご紹介

システムソリューションのご紹介 HP 2 C 製品 :VXPRO/VXSMP サーバ 製品アップデート 製品アップデート VXPRO と VXSMP での製品オプションの追加 8 ポート InfiniBand スイッチ Netlist HyperCloud メモリ VXPRO R2284 GPU サーバ 製品アップデート 8 ポート InfiniBand スイッチ IS5022 8 ポート 40G InfiniBand スイッチ

More information

Microsoft PowerPoint - 09_2008_0619.pptx

Microsoft PowerPoint - 09_2008_0619.pptx 2008/6/19 基本情報技術概論 第9回 コンピュータの構成 基本情報技術概論 (第9回) (第1回の復習) ハードウェア (前回の続き) 基本ソフトウェア (OS) 制御装置 入力装置 埼玉大学 理工学研究科 堀山 貴史 演算装置 主記憶装置 出力装置 補助記憶装置 2 1 前回の復習 プログラムの実行 高速化技法 アドレス指定 ジャンプ命令 分岐命令 絶対アドレス P op (P) 相対アドレス

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション 総務省 ICTスキル総合習得教材 概要版 eラーニング用 [ コース2] データ蓄積 2-5: 多様化が進展するクラウドサービス [ コース1] データ収集 [ コース2] データ蓄積 [ コース3] データ分析 [ コース4] データ利活用 1 2 3 4 5 座学本講座の学習内容 (2-5: 多様化が進展するクラウドサービス ) 講座概要 近年 注目されているクラウドの関連技術を紹介します PCやサーバを構成するパーツを紹介後

More information

第一章 本書の概要 ( ア ) はじめにいわゆるサーバ用プロセッサである Xeon と いわゆるデスクトップ用プロセッサである Core i7 の違いを性能の観点からまとめました 性能とは例えば速さなどの数値のことで 機能 ( できること ) の違いについては立ち入りません Xeon の方がなんとな

第一章 本書の概要 ( ア ) はじめにいわゆるサーバ用プロセッサである Xeon と いわゆるデスクトップ用プロセッサである Core i7 の違いを性能の観点からまとめました 性能とは例えば速さなどの数値のことで 機能 ( できること ) の違いについては立ち入りません Xeon の方がなんとな 目次 第一章本書の概要 ( ア ) はじめに ( イ ) 比較早見表 第二章メモリ編 ( ア ) メモリ転送速度 ( 連続アクセス ) ( イ ) メモリレイテンシ ( ランダムアクセス ) ( ウ ) 測定方法 第三章コア編 ( ア ) 1 スレッドあたりの性能 ( イ ) 並列度 1 第一章 本書の概要 ( ア ) はじめにいわゆるサーバ用プロセッサである Xeon と いわゆるデスクトップ用プロセッサである

More information

株式会社神奈川銀行

株式会社神奈川銀行 19215 1933 2 自己資本の構成に関する事項 142 1819 25 連結自己資本比率 ( 国内基準 ) 平成 25 年度 25 1 17,842 9,292 8,712 50 111 61 1,579 1,579 31 32 41 51 683 712 20,106 2 44 44 47 25 20,106 3 226,000 223,909 1,414 82 44 82 82 1212

More information

プロジェクトを成功させる見積りモデルの構築と維持・改善 ~CoBRA法による見積りモデル構築とその活用方法について~

プロジェクトを成功させる見積りモデルの構築と維持・改善 ~CoBRA法による見積りモデル構築とその活用方法について~ 工数見積り手法 CoBRA ~ 勘 を見える化する見積り手法 ~ CoBRA 研究会 2011 年 5 月 情報技術研究センターシステム技術グループ Copyright 2011 MRI, All Rights Reserved ご紹介する内容 1.CoBRA 法の概要 2.CoBRAツール 3.CoBRAモデルでの見積り 4.CoBRAモデルの応用 5.CoBRAモデルの構築 6. まとめ 2 Copyright

More information

スライド 1

スライド 1 東北大学工学部機械知能 航空工学科 2017 年度 5 セメスター クラス C3 D1 D2 D3 計算機工学 13. メモリシステム ( 教科書 8 章 ) 大学院情報科学研究科 鏡慎吾 http://www.ic.is.tohoku.ac.jp/~swk/lecture/ ジスタ( 復習 ) MIPS の構造 PC 次 PC 計算 メモリ 命令デコーダ 制御回路 選択演算選択レmux 32x32

More information

パフォーマンスレポート PRIMERGY TX120 S3

パフォーマンスレポート PRIMERGY TX120 S3 ホワイトペーパー パフォーマンスレポート PRIMERGY TX120 S3 ホワイトペーパー FUJITSU PRIMERGY サーバパフォーマンスレポート PRIMERGY TX120 S3 本書では PRIMERGY TX120 S3 で実行したベンチマークの概要について説明します PRIMERGY TX120 S3 のパフォーマンスデータを 他の PRIMERGY モデルと比較して説明しています

More information

スライド 1

スライド 1 東北大学工学部機械知能 航空工学科 2019 年度クラス C D 情報科学基礎 I 14. さらに勉強するために 大学院情報科学研究科 鏡慎吾 http://www.ic.is.tohoku.ac.jp/~swk/lecture/ 0 と 1 の世界 これまで何を学んだか 2 進数, 算術演算, 論理演算 計算機はどのように動くのか プロセッサとメモリ 演算命令, ロード ストア命令, 分岐命令 計算機はどのように構成されているのか

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション 各種計算機アプリケーション性能比較 目次. はじめに. 行列積計算.QDR 積計算 4.N 体問題計算 5. 多次元積分計算 5. 次元積分計算 5. 次元積分計算 5. 4 次元積分計算 5.4 5 次元積分計算 5.5 6 次元積分計算 平成 6 年度第 四半期 . はじめに 今までと少し性質の異なるグラフィックボードが使用できる様になったので従来のアプリケーションで性能比較を実施しました 主に使用した計算機は以下のものです

More information

Microsoft Word LenovoSystemx.docx

Microsoft Word LenovoSystemx.docx Lenovo System x シリーズ データベースサーバー移行時の ハードウェア選定のポイント 2015 年 5 月作成 1 目次 1) 本ガイドの目的... 3 2) System x3550 M3 と x3550 M5 の比較ポイント... 3 CPU コア数の増加... 4 仮想化支援技術の性能向上... 4 メモリモジュールの大容量化... 5 低消費電力化... 5 ストレージの大容量化と搭載可能数の増加...

More information

ホワイトペーパー NVIDIA Tegra 4 ファミリの CPU アーキテクチャ 4-PLUS-1 クアッドコア 1

ホワイトペーパー NVIDIA Tegra 4 ファミリの CPU アーキテクチャ 4-PLUS-1 クアッドコア 1 ホワイトペーパー NVIDIA Tegra 4 ファミリの CPU アーキテクチャ 4-PLUS-1 クアッドコア 1 目次 はじめに... 3 NVIDIA Tegra 4 ファミリのモバイル プロセッサ... 4 CPU 性能のベンチマーク... 4 高性能 高電力効率を重視して設計された Tegra 4 ファミリの CPU... 7 より広い発行実行ユニットによるスループット向上... 7 アウトオブオーダー実行の命令ウィンドウを広げてメモリ

More information

cmpsys13w03_cpu_hp.ppt

cmpsys13w03_cpu_hp.ppt 情報システム論 第 3 章! CPU! 根来 均 Outline! u CPU の主な働き! u CPU での命令実行処理! u CPU の高速化技術! u CPU の性能評価方法 手段! u 並列計算機! u 現在の CPU の動向 CPU の主な働き u 制御装置 (Control Unit, CU)! プログラム制御 ( 命令の解読 実行 分岐命令 データ転送命令 )! 入出力制御 ( 入出力動作と内部処理

More information

スライド 1

スライド 1 計算科学が拓く世界スーパーコンピュータは何故スーパーか 学術情報メディアセンター中島浩 http://www.para.media.kyoto-u.ac.jp/jp/ username=super password=computer 講義の概要 目的 計算科学に不可欠の道具スーパーコンピュータが どういうものか なぜスーパーなのか どう使うとスーパーなのかについて雰囲気をつかむ 内容 スーパーコンピュータの歴史を概観しつつ

More information

Microsoft PowerPoint - arc5

Microsoft PowerPoint - arc5 工学部講義 (5) 坂井 修一 東京大学大学院情報理工学系研究科電子情報学専攻東京大学工学部電子情報工学科 / 電気電子工学科 はじめに キャッシュ はじめに 本講義の目的 の基本を学ぶ 時間場所 火曜日 8:40-10:10 工学部 2 号館 241 ホームページ ( ダウンロード可能 ) url: http://www.mtl.t.u-tokyo.ac.jp/~sakai/hard/ 教科書 坂井修一

More information

hpc141_shirahata.pdf

hpc141_shirahata.pdf GPU アクセラレータと不揮発性メモリ を考慮した I/O 性能の予備評価 白幡晃一 1,2 佐藤仁 1,2 松岡聡 1 1: 東京工業大学 2: JST CREST 1 GPU と不揮発性メモリを用いた 大規模データ処理 大規模データ処理 センサーネットワーク 遺伝子情報 SNS など ペタ ヨッタバイト級 高速処理が必要 スーパーコンピュータ上での大規模データ処理 GPU 高性能 高バンド幅 例

More information

Microsoft PowerPoint - arc12

Microsoft PowerPoint - arc12 工学部講義 (12) 坂井 修一 東京大学大学院情報理工学系研究科電子情報学専攻東京大学工学部電子情報工学科 / 電気電子工学科 はじめに コンピュータの歴史 デバイス技術とコンピュータ はじめに 本講義の目的 の基本を学ぶ 時間 場所 火曜日 8:40-10:10 工学部 2 号館 241 ホームページ ( ダウンロード可能 ) url: http://www.mtl.t.u-tokyo.ac.jp/~sakai/hard/

More information

15群(○○○)-8編

15群(○○○)-8編 6 群 ( コンピュータ - 基礎理論とハードウェア ) - 5 編 ( コンピュータアーキテクチャ (II) 先進的 ) 1 章命令レベル並列コンピュータ ( 執筆者 : 佐藤寿倫 )[2010 年 5 月受領 ] 概要 単一プロセッサの性能向上には命令レベル並列性の抽出が必須である. 本章では, 成熟した技術である制御投機方式から話を始め, 研究段階から実用化に移行しつつあるタイル型コンピュータに至るまで,

More information

2014 年電子情報通信学会総合大会ネットワークシステム B DNS ラウンドロビンと OpenFlow スイッチを用いた省電力法 Electric Power Reduc8on by DNS round- robin with OpenFlow switches 池田賢斗, 後藤滋樹

2014 年電子情報通信学会総合大会ネットワークシステム B DNS ラウンドロビンと OpenFlow スイッチを用いた省電力法 Electric Power Reduc8on by DNS round- robin with OpenFlow switches 池田賢斗, 後藤滋樹 ネットワークシステム B- 6-164 DNS ラウンドロビンと OpenFlow スイッチを用いた省電力法 Electric Power Reduc8on by DNS round- robin with OpenFlow switches 池田賢斗, 後藤滋樹 早稲田大学基幹理工学研究科情報理工学専攻 1 研究の背景 n インターネットトラフィックが増大 世界の IP トラフィックは 2012

More information