Microsoft PowerPoint IEEE関西3D(ハンドアウト).pptx

Size: px
Start display at page:

Download "Microsoft PowerPoint IEEE関西3D(ハンドアウト).pptx"

Transcription

1 3 次元積層マイクロプロセッサ 解決すべき課題と将来展望 九州 学井上こうじ 1

2 世の中いたる所で 3D なぜ 3 次元積層なのか? 2

3 半導体も 2D から 3D の世界へ! 複数のダイを同 パッケージに集積 ダイ間を貫通ビア (Through Silicon Via:TSV) で接続 Wire-bonding (WB) 3D stacking (System-in-Package or SiP) TSV Multi-Level 3DIC Package-on-Package g (POP) 3D stacking Source: Yuan Zie, 3D IC Design/Architecture, Coolchips Special Session, 2009 RF Analog DRAM Processor Sensor IO 3

4 3 次元積層デバイス の時代到来 ISSCCʼ09 Image Sensor(MIT) SRAM for SoCs(NEC) Source: EMC-3D Technical Symposium SRAM+Multicore(Keio Univ.) 8Gb 3D DRAM(Samsung) U. Kang et al., 8Gb DDR3 DRAM Using Through-Silicon-Via Technology, ISSCCʼ09. H. Saito et al., A Chip-Stacked Memory for On-Chip SRAM-Rich SoCs and Processors, ISSCCʼ09. V. Suntharalingam et al., A 4-Side Tileable Back Illuminated 3D- Integrated Mpixel CMOS Image Sensor, ISSCCʼ09. K. Niitsu et al., An Inductive-Coupling Link for 3D Integration of a 90nm CMOS Processor and a 65nm CMOS SRAM, ISSCCʼ09. 4

5 3 次元積層の うれしさ 配線 削減による 性能 / 低消費電 化 送受信モジュール間の物理的な距離を短縮 い配線の負荷容量 を TSV 負荷容量 に置換え 得に, グローバル配線において効果 (mm um) フットプリント 積を削減 クロック信号や電源ラインなどの配線 を削減 2 次元実装 IC 5

6 3 次元積層の うれしさ チップ集積による 性能 / 低消費電 化 と の接続によるバンド幅拡 Intel: 80 個のプロセッサ コア +SRAM 間 1) 1TB/S のバンド幅で接続 HRI: プロセッサ + カスタム回路 +SDRAM 2) プロセッサーカスタム回路間 :1,056 個の TSV で接続 カスタム回路ー SRAM 間 :278 個の TSV で接続 伝送路の負荷容量削減による低レイテンシ / 低消費電 化 I/O ピンや基板配線の駆動が不要に! 1) インテル : 2) 経マイクロデバイス 2008 年 2 6

7 3 次元積層の うれしさ 異種ダイの積層による 機能化 製造プロセスの異なるダイを低コストで積層 従来の SiP TSV を いることでダイ間を バンド幅で接続可能 従来にない新しい応 の可能性 SRAM/DRAM 以外の選択肢 ( 例 : 不揮発性メモリの積層など ) 7

8 3 次元積層の うれしさ 更に, 低コスト化までも Per rformance Improve ement (ti imes) 古いプロセスを いることでコスト削減も可能に!! Stacking Process node Fine Process Power Consumption 微細化に頼らない 集積化 (nm) N.Miyakawa, 3D Stacking Technology for Improvement of System Performance, International Trade Partners Conference, Nov

9 3 次元積層マイクロプロセッサ アーキテクチャ 9

10 3 次元積層デバイスへの期待 アーキテクチャの観点から プロセッサコアやメモリそのものの積層 マルチコア+マルチコア いわゆる, メニーコア化 マルチコア ( メニーコア )+メモリ 容量メモリの積層による メモリーウォール問題 の解決 (SRAM, DRAMなど ) 新デバイス (MRAMなど) の積層による 性能化 / 低消費電 化 / 不揮発 性の活 マルチコア + アクセラレータ 途の絞り込みによる加速実 の実現 ( 専 ASIC, 再構成可能ハードウェア,ASIP, 演算器アレイなど ) 実 効率を向上 10

11 3 次元積層化のポイントは? 配線 短縮 と オンチップ化 Divide &Stack Design Reuse 3D Communicati on Example Subsystem High Chip Core on Core on Multi Processor Processor+Large Memory Processor+Accelerator, Etc. Interconnect Cache on Core Main Mem. on Core Accelerator on Core Module CPU Core Cache Main Mi Memory Etc. Functional Unit Block (FUB) Memory y Array ALU, RF, Issue Queue Etc. Gate Mid. Low Global/Local wires Global/Local wires ALU on ALU Cache Bank on Bank RF on ALU Mem. Array Splitting ALU Splitting RF Splitting Issue Queue Splitting Wire Length Reduction almost no Global/Local Gate Splitting reuse wires On Chip Integration 11

12 3 次元積層化のポイントは? 配線 短縮 と オンチップ化 Divide &Stack Design Reuse 3D Communicati on Example Subsystem High Chip Core on Core on Multi Processor Processor+Large Memory Processor+Accelerator, Etc. Interconnect Cache on Core Main Mem. on Core Accelerator on Core Module CPU Core Cache Main Mi Memory Etc. Functional Unit Block (FUB) Memory y Array ALU, RF, Issue Queue Etc. Gate Mid. Low Global/Local wires Global/Local wires ALU on ALU Cache Bank on Bank RF on ALU Mem. Array Splitting ALU Splitting RF Splitting Issue Queue Splitting Wire Length Reduction almost no Global/Local Gate Splitting reuse wires On Chip Integration 12

13 FUB レベルの 3 次元積層 その狙いは? フットプリント 積の削減 Module/FUB 内部の配線 短縮による低レイテンシ / 低消費電 化 フットプリント面積の削減 L3 アクセスの低レイテンシ / 低消費電力 L3 CPU L3 CPU Cache Core Cache Core L3 CPU CPU Core Core L3 Cache Cache 2 次元実装 3 次元積層 3 次元積層 (Cache on Core) h C ) (Bank on Bank) Bank) 13

14 キャッシュ メモリを分割 & 積層する! ベースモデル :2 次元キャッシュ Bit Line Word Line 1MB 4 way Set Associative Cache r WL Dec&D Bank0 r WL Dec&D Bank1 r WL Dec&D Bank2 r WL Dec&D Bank3 Address Output Mux&SA Mux&SA Mux&SA Mux&SA Pre Dec. Mux&SA Mux&SA Mux&SA Mux&SA De elay (ns) WL Dec& &Dr Bank4 WL Dec& &Dr Bank5 WL Dec& &Dr Bank6 WL Dec& &Dr Bank7 Y. Tsai, F. Wang, Y. Xie, N. Vijaykrishnan, and M. J. Irwin, Design Space Exploration for 3 D Cache, IEEE Trans. On VLSI Systems, vol.16, No.4, Apr

15 キャッシュ メモリを分割 & 積層する! バンク同 を積層する 1MB 4 way StA Set Associative ti Cache Bit Line Word Line Address Output r r WL Dec&D WL Dec&Dr WL Dec& &Dr WL Dec&Dr Bank0 Bank2 WL Dec&D WL Dec&Dr Bank1 Bank3 Mux&SA Mux&SA Mux&SA Mux&SA Pre Dec. Mux&SA Mux&SA Bank4 Bank6 WL Dec& &Dr WL Dec&Dr Mux&SA Mux&SA Bank5 Bank7 De elay (ns)? 後述する DWL と同程度の効果と予想される K. Ruttaswamy and G. H. Loh, Implementing Caches in a 3D Technology for High Performance Processors, ICCD 05 15

16 キャッシュ メモリを分割 & 積層する! メモリアレイを WL 向に分割して積層する Bit Line 1MB4 way Set Associative Cache Word Line 2D BASE r WL Dec&D WL Dec&Dr r WL Dec&D WL Dec&Dr r WL Dec&D WL Dec&Dr r WL Dec&D WL Dec&Dr 3D DWL Address Output Pre Dec. De elay (ns) WL Dec& &Dr WL Dec&D Dr WL Dec& &Dr WL Dec&D Dr WL Dec& &Dr WL Dec&D Dr WL Dec& &Dr WL Dec&D Dr アドレス / データ線の短縮効果大! Y. Tsai, F. Wang, Y. Xie, N. Vijaykrishnan, and M. J. Irwin, Design Space Exploration for 3 D Cache, IEEE Trans. On VLSI Systems, vol.16, No.4, Apr Nx Ny Nx:3 次元方向への WB 分割数 Ny:3 次元方向への BL 分割数 16

17 キャッシュ メモリを分割 & 積層する! メモリアレイを WL/BL 向に分割して積層する Delay (n ns) D BASE 1MB4 way Set Associative Cache 3D DWL 3D DBL (BL 分割 ) (2 wafers) 3D DBL (2 wafers) 3D DWL (4 wafers) (4 wafers) 3D DWL (8 wafers) output SA BL WL-charge WL_driver decoder predec_driver x1 MLBS 2x1 1x2 4x1 2x2 1x4 8x1 4x2 2x4 1x8 Y. Tsai, F. Wang, Y. Xie, N. Vijaykrishnan, and M. J. Irwin, Design Space Exploration for 3 D Cache, IEEE Trans. On VLSI Systems, vol.16, No.4, Apr アクセス消費エネルギーも同時に削減 3D Partitioning i (Nx*Ny) アクセス消費エネルギ 17

18 レジスタファイルを分割 & 積層する! 3つのアプローチ レジスタ分割 : エントリを複数グループに分割し積層 ビットラインの短縮効果 ビット分割 : 上位 / 下位ビットに分割し積層 (WL 短縮 ) ワードラインの短縮効果 ポート分離 : ポート (WL+BL) を分離し積層 (bit/ 積縮 ) ビット / ワードラインの短縮効果 ( ただし,TSV 積コスト ) Reg. Partitioned Bit Partitioned Port Split K. Puttaswamy and G. H. Loh, Implementing Register Files for High Performance Microprocessors in a Die Stacked (3D) Technology, ISVLSI

19 その他のモジュール /FUB を 分割 & 積層する! Least significant 16 bits (15:0) Thermal Herding 16 bits (31:16) 16 bits (47:32) 16 bits (63:48) Kiran Puttaswamy and Gabriel H. Loh, Thermal Herding: Microarchitecture Techniques for Controlling Hotspots in High Performance 3D Integrated Processors, HPCA 2007 B. Vaidyanathan., W L. Hung, F. Wang, Yuan Xie, N. Vijaykrishnan, M. J. Irwin. Architecting Microprocessor Components in 3D Design Space, VLSID

20 Case Study: Alpha の場合 どのように 3 次元積層するか? 全ての FUB を 3 次元実装 ( と仮定 ) フットプリント 積が 1/2 に! 各 FUB のレイテンシ短縮 From 2D to 3D Xie, G. H. Loh, B. Black, and K. Bernstein, Design Space Exploration for 3D Architectures, ACM Journal on Emerging Technologies in Computing Systems, Vol.2, Nu.2, April

21 Case Study: Alpha の場合 どの程度, 性能 (IPC F) が向上するのか? FUB の 3 次元化により動作周波数を向上 ( フットプリント面積削減 ) 2 層 4 層 3 次元積層により FUB の機能拡大 ( エントリ数増等 ) 2 層 4 層 クラスタ単位で積層 Xie, G. H. Loh, B. Black, and K. Bernstein, Design Space Exploration for 3D Architectures, ACM Journal on Emerging Technologies in Computing Systems, Vol.2, Nu.2, April

22 Case Study: Pentium4 の場合 どのように 3 次元積層するか? 複数 FUBを積層しパイプラインステージを 25% 削減 DL1 と FU load-to-use 遅延を削減 RF と FP FP 実 までの遅延を削減 FUB を分割積層しレイテンシを削減 UL2キャッシュ 性能は 15% 程度向上, かつ, 消費電 を 25% 削減 Xie, G. H. Loh, B. Black, and K. Bernstein, Design Space Exploration for 3D Architectures, ACM Journal on Emerging Technologies in Computing Systems, Vol.2, Nu.2, April

23 モジュール /FUB レベルの 3D 化は有効か? 分割積層による実装 積 ( て床 積 ) の削減 きな効果あり 配線 削減による速度向上と低消費電 化 多くの場合で効果は限定的 (e.g % の改善 ) 主記憶やキャッシュといった 規則的構造を有し, か つ, 潜在的にグローバル配線がクリティカルになる場 合 は効果あり 3Dによりもたらされるブレークスルー はどこにあるのか? On-Chipp 3D Integration! 23

24 3 次元積層化のポイントは? 配線 短縮 と オンチップ化 Divide &Stack Design Reuse 3D Communicati on Example Subsystem High Chip Core on Core on Multi Processor Processor+Large Memory Processor+Accelerator, Etc. Interconnect Cache on Core Main Mem. on Core Accelerator on Core Module CPU Core Cache Main Mi Memory Etc. Functional Unit Block (FUB) Memory y Array ALU, RF, Issue Queue Etc. Gate Mid. Low Global/Local wires Global/Local wires ALU on ALU Cache Bank on Bank RF on ALU Mem. Array Splitting ALU Splitting RF Splitting Issue Queue Splitting Wire Length Reduction almost no Global/Local Gate Splitting reuse wires On Chip Integration 24

25 そもそも, マイクロプロセッサの進化は インテグレーション による! Intel 4004 (1971) Intel 486 (1989) 2,300 個のトランジスタを数値演算コプロセッサと集積キャッシュメモリを集積 Intel Pentium D (2005) Intel Test Chip (2007) 80 個のプロセッサコアを 1 つのダイに 2 個のプロセッサコアを集積 1つのパッケージに集積 出展 : html, Scale/1421.htm

26 インテグレーションが成功するには? マイクロプロセッサのお仕事は? プログラム ( ソフトウェア ) を 効率よく 実 インテグレーションの効果を発揮するには? ソフトウェアの特性を考慮する事が重要 成功例 : キャッシュメモリの場合 Program メモモリアドレス Processor Cache 時間 多くのプログラムは メモリ参照の時間 / 空間局所性 が有る!! 頻繁に参照されるメモリ領域をキャッシュメモリに保存 26

27 アーキテクチャ屋としての さ はどこに? 3 次元積層の光と影 : 素朴な疑問 から るアーキテクチャ アプローチアプロチ 27

28 3 次元積層マイクロプロセッサに関 する 素朴な疑問 を考えてみる 1. 容量キャッシュ積層は本当に得策か? 2. メモリバンド幅の活 は本当に得策か? 3. 主記憶を積層して L2$ は必要か? 4. MRAM の積層は本当に得策なのか? 5. 発熱は問題にならないのか? 28

29 素朴な疑問その 1 容量キャッシュ積層は本当に得策か? 平均メモリアクセス時間 :AMAT L1キャッシュのアクセス時間 [cc] L1キャッシュミスの割合 L2キャッシュのアクセス時間 [cc] L2キャッシュミスの割合 主記憶のアクセス時間 [cc] AMAT L1 L1 L 2 L 2 HT MR ( HT MR MMAT ) DRAM スタック法の効果 (?) 32MB DRAM Cache ベースプロセッサ (2 次元実装 ) DRAMスタック法 (3 次元実装 ) 29

30 容量化による L2 ミス削減効果は アプリによって異なる! L2 Miss Rates [%] Ocean LU Cholesky Sensitive! FFT Sensitive! Insensitive! Sensitive! Insensitive! Insensitive! FMM 10 Barnes WaterSpatial Raytrace 0 2MB 4MB 8MB 16MB 32MB 64MB 128MB L2 Size 30

31 L2ミス削減効果は実 中にも変化する! L 1 ミスペナナルティ [cc c] Ocean MB(12cc) 32MB(60cc) 適したキャッシュ容量 : 大区間 (300cc) 適したキャッシュ容量 : 小 L1 ミスペナルティ =HTL2+MRL2 MMAT 31

32 その結果, メモリ性能が低下することも! Profit 大容量 DRAM の3 次元積層 従来の 2 次元実装 172.mgrid LU 171.swim FMM Ocean ammp Barnes L2 Miss Rate Reduction[points] mcf 256.bzip2 WaterSpatial Cholesky 0 FFT 179.art 300.twolf 301.apsi HTL2_OVERHEAD[clock cycles] 32

33 SRAM/DRAM ハイブリッド 2 つの動作モードをサポート キャッシュ 速かつ 容量 な SRAM キャッシュ モード 低速かつ 容量 な DRAM キャッシュ モード 実 プログラムが要求するメモリ容量に応じて動作モード選択 性能化と低消費電 化を同時に達成可能! 32MB DRAM Cache 32MB DRAM Cache 橋口慎哉, 小野貴継, 井上弘士, 村上和彰, 3 次元 DRAM プロセッサ積層実装を対象としたオンチップ メモリ アーキテクチャの提案と評価, 情報処理学会研究報告, Vol ARC 183, No.16, 2009 年 4 月. 33

34 性能評価結果 AMA AT D SRAM DRAM STACK HYBRID IDEAL HYBRID ベンチマークプログラム 34

35 素朴な疑問その 2 メモリバンド幅の活 は本当に得策か? マイクロプロセッサと主記憶の 1 チップ化 キャッシュ - 主記憶間のデータ転送能 が劇的に向上 ミス ペナルティの増加を伴う事無くラインサイズ ( ブロックサイズ ) を拡 可能 平均メモリアクセス時間 = キャッシュヒット時間 + ミス率 ミスペナルティミスペナルティ = DRAM アクセス時間 + ラインサイズ / バンド幅 DRAM Main Memory Mem. BW: LineSize: MissPenalty: Mem. BW: LineSize: MissPenalty: 35

36 着 するソフトウェア特性 ( その 1) 最適ラインサイズはアプリによって異なる オンチップメモリバンド幅を積極活 するには? キャッシュ ラインサイズ ( ブロックサイズ ) を拡 その効果は? アプリケーションが有する メモリ参照の空間局所性の度合い に きく依存 Btt Better Miss Ra ate B L1D$ 16KB (%) hydro2d sc alvinn Line Size [byte] Miss Ra ate B L1D$ KB (%) 099.go 134.perl Line Size [byte] 36

37 着 するソフトウェア特性 ( その 2) 最適ラインサイズは実 中にも変化する 16KB Direct Mapped Cache w/ 128B Lines Cache 128B ブロックのロード Cache プロセッサが 2 つの 32B ブロックを参照 Cache 128B ブロックの追出し Ref. Sublines == 2 高い空間局所性 低い空間局所性 37

38 可変ラインサイズ キャッシュ プログラム特性に応じて DRAMーキャッシュ間データ転送量 ( ラインサイズ ) を 動調整 メモリ参照の空間局所性の度合いを静的または動的にモニタリング ラインサイズを動的もしくは静的に決定 SRAM Cache SRAM Cache SRAM Cache DRAM 高高 必要となるメモリバンド幅消費するエネルギー 低低 動的可変ラインサイズ キャッシュ :K. Inoue, K. Kai, and K. Murakami, ``Dynamically Variable Line Size Cache Exploiting High On Chip Memory Bandwidth of Merged DRAM/Logic LSIs, HPCA 5, 静的可変ラインサイズ キャッシュ :T. Ono, K. Inoue, K. Murakami, and K. Yoshida, Reducing On Chip DRAM Energy via Data Transfer Size Optimization, IEICE Tran. on Electronics,

39 ) d AMAT ccess Time) Normalized e. Mem. Ac N (Ave y) d AMAE cess Energy Normalized Mem. Acc N (Ave. どの程度, 性能化と低消費エネ 1.5 ルギー化を実現できるのか? KB Fix128 (Direct) 16KB Fix128 (4way) 32KB Fix128 (Direct) 16KB D VLS (Direct) Bette r Better ダイレクトマップ方式の高速アクセス 128B ラインサイズによるプリフェッチ効果 ラインサイズ縮小による競合ミス回避 ミス率改善によるオフチップアクセス回数削減 小ラインサイズにより活性化 DRAMバンクを削減 39

40 素朴な疑問その 3 主記憶を積層して L2$ は必要か? L2( ラストレベル ) キャッシュ導 の狙いは主記憶アクセス回数の削減 主記憶のオンチップ化により効果減 (!?) 現在のプロセッサでは L2 積 全コア 積 L2 積を いてコア数を増加可能と仮定すると Stacked Main Memory Stacked Main Memory TLP : TLP : Freq. : Freq. : Mem. Acc.: Mem. Acc.: 40

41 性能モデル式による解析 L2 未搭載マルチコアをベースとした性能 較 TLP 活 効果 vs. メモリ性能インパクト CC N wl2 m 演算性能の低下による実行クロッククサイクル数の増加 ( 1.0) メモリ性能の向上による実行クロッククサイクル数の減少 ( 1.0) L2 未搭載 N コア実行サイクル数 L2キャッシュ搭載 N m コアの実行時間 ( サイクル数 ) Stacked Main Memory Stacked Main Memory 41

42 簡易性能モデル式による解析 並列化できる演算の割合 CC L2 キャッシュ搭載 N m コアの実行時間 ( サイクル数 ) 1 L2 搭載により削減されるコア数 f N wl2 N m 2 1 f f m f N L2 未搭載時の総プロセッサコア数 L2キャッシュ導入によるメモリ性能改善率 ( 1.0) L2 未搭載時の N コア実行クロックサイクル数 1 r L MR kn CCN 全コア実行時の全実行時間にしめる主記憶アクセスによるストールの割合 ( 1.0) 42

43 N=8( 最 コア数が 8) の場合 ベース :L2 未搭載 8 コア (1.0) コア数削減による L2 搭載 K 8 =0.5( 全実行時間の 50% がメモリストール ) K 8 =0.1( 全実行時間の 10% がメモリストール ) F=0.7 相対実実行時間 性能低下 相対実実行時間 F=0.95 相対実行時間 相対実実行時間

44 素朴な疑問その 4 MRAMの積層は本当に得策なのか? SRAM DRAM MRAM Density Low (4MB:44mm 2 ) High (16MB: 49mm 2 ) High (16MB: 38mm 2 ) Speed Fast (4.659ns) Slow (5.845ns) Read: Fast (4.693ns) Write: Very Slow (12.272ns) Dynamic Energy / operation Low (0.103nJ) Medium (0.381nJ) Read: Low (0.102nJ) Write: High (2.126nJ) Leakage Power High (5.20W) Low (0.52W) Low (0.97W) Non Volatility No No Yes 65nm X. Dong, X. Wu, G. Sun, Y. Xie, H. Li, and Y. Chen, Circuit and Microarchitecture Evaluation of 3D Stacking Magnetic RAM (MRAM) as a Universal Memory Replacement, DAC

45 シングルコア +MARM-L2 キャッ シュの効果は? IPC 性能 (IPC) に関しては 幅な改善無し ワーキングセット サイズが さいため? リーク消費電 の削減による効果 4MB 16MB 16MB SRAM DRAM MRAM (W) mic Power c + Dynam Static Alpha like processor 90nm X. Dong, X. Wu, G. Sun, Y. Xie, H. Li, and Y. Chen, Circuit and Microarchitecture Evaluation of 3D Stacking Magnetic RAM (MRAM) as a Universal Memory Replacement, DAC

46 アプリ特性によっては 3D により性 能が低下する場合もある! 2MB 8MB 2MB 8MB SRAM SNUCA MRAM SNUCA SRAM DNUCA MRAM DNUCA Bet tter Performance galgel, apsi 若干の性能向上他のベンチマーク MRAMの使用により性能低下 swimとstreamclusterで顕著 書込みレイテンシ増大による後続 Readイベントの停滞 2MB SRAM SNUCA 8MB MRAM SNUCA 2MB SRAM DNUCA 8MB MRAM DNUCA Bette er Power Consumption 全てのベンチマーク 低消費電力化を実現 書込みエネルギーが大きいため,Writeイベントが多い場合は効果が低減 G. Sun, X. Dong, Y. Xie, J. Li, and Y. Chen, A Novel Architecture of the 3D Stacked MRAM L2 Cache for CMPs, HPCA

47 MRAM の 点を解決する アーキテクチャ サポート 2MB 2MB 8MB SRAM SNUCA SRAM DNUCA SRAM+MRAM Hybrid Be etter Bett ter アーキテクチャ サポート書込み遅延の削減 ライトバッファのエントリ数を増加 (4 20エントリへ) ライトイベントの後続リードイベントによる割込み許可書込み回数の削減 MRAMキャッシュの一部を SRAMで実現 (31way:MRAM, 1way:SRAM) ) SRAMはコアと同じレイヤに実装 頻繁に書込みが発生するブロックをSRAMへマイグレート G. Sun, X. Dong, Y. Xie, J. Li, and Y. Chen, A Novel Architecture of the 3D Stacked MRAM L2 Cache for CMPs, HPCA

48 素朴な疑問その 5 発熱は問題にならないのか? 3 次元積層 LSI の問題点はチップ温度上昇 チップ温度は消費電 に依存 消費電 はプロセッサの動作周波数に依存 プロセッサの最 動作周波数はチップ温度制約により決定 と仮定すると DRAM Main Memory Tem. : Freq. : Mem. Stall: Tem. : Freq. : Mem. Stall: 48

49 アプリ特性によっては3Dにより性能が低下する場合があるが! mcf(highly ( Memory Intensive) ) 動作周波数 2D: 約 2.9GHz 3D: 約 2.5GHz 平均命令実行時間 2D: 約 2.5 3D: 約 06(B 0.6(Better) ) twolf(less Memory Intensive) 動作周波数 2D: 約 2.8GHz 3D: 約 24GHz 2.4GHz 平均命令実行時間 2D: 約 0.35 (Better) 3D: 約 0.41 G. L. Loi, B. Agrawal, N. Srivastava, S. Lin, T. Sherwood, and K. Banerjee, A Thermally Aware Performance Analysis of Vertically Integrated (3 D) Processor Memory Hierarchy, DAC

50 今後の展望 2011 年 1 ARC/ICD 研究会パネ ルディスカッションより 50

51 パネル討論 3 次元積層 LSIは メインストリームになり得るか? パネリスト : 宮川宣明 ( 本 ) 岡本和也 ( 阪 ) 内健 ( 東 ) 池帆平 ( 産総研 ) 井上弘 ( 九 ) 51

52 議論のポイント なぜ 3 次元積層 LSI? 利点 : 量的スケーリング(More Moore) と 機能の多様化 (More Than Moore) 点 : 製造コスト, 設計コスト, 発熱, 信頼性, テスト 本当に 3 次元化が お得 なのか? ビジネスとして成り つのか? Supply Chain は? 3 次元積層 LSIはメインストリームになり得るか? (YES! として ) いつ頃なのか? (YES! として ) 産官学でどのような取組みが必要か? (NO! として ) 研究テーマを変えます 52

53 パネルディスカッションでの議論 を受けての私 ( まとめ ) 3 次元積層はメインストリームになる!( 本発の技術としてそうすべき!) デバイス技術は世界をリード アーキテクチャ / 設計 / 応 技術の研究開発を加速すべき! メモリは成功を に れようとしている より 機能な 3D-IC( ヘテロジニアス積層構造 によるシステムインテグレーション 特にアーキテクチャに着 すると ソフトウェア特性 を考慮した 賢い システムインテグレーション 利 シーンに応じた適応可能性のサポート 53

untitled

untitled 3 inoue@ait.kyushu u.ac.jp 1 3D 3? 2 2D 3D! Through Silicon Via:TSV Wire bonding (WB) 3D stacking (System in Package or SiP) TSV Package on Package (POP) 3D stacking Source: Yuan Zie, 3D IC Design/Architecture,

More information

Microsoft PowerPoint - MATE2010Inoue.pptx

Microsoft PowerPoint - MATE2010Inoue.pptx 3 次元積層が可能にする 次世代マイクロプロセッサ アーキテクチャ 九州大学井上こうじ (inoue@ait.kyushu u.a.jp) 1 More Than Moore を目指して なぜ 3 次元積層なのか? 2 半導体も 2D から 3D の世界へ! 複数のダイを同一パッケージに集積 ダイ間を貫通ビア (Through Silion Via:TSV) で接続 Wire bonding (WB)

More information

Microsoft PowerPoint - ARC2009HashiguchiSlides.pptx

Microsoft PowerPoint - ARC2009HashiguchiSlides.pptx 3 次元 DRAM プロセッサ積層実装を 対象としたオンチップ メモリ アーキテクチャの提案と評価 橋口慎哉 小野貴継 ( 現 ) 井上弘士 村上和彰 九州大学大学院システム情報科学府 九州大学大学院システム情報科学研究院 発表手順 研究背景 研究目的 ハイブリッド キャッシュ アーキテクチャ 評価実験 まとめと今後の課題 2 3 次元実装技術 研究背景 グローバル配線長の削減 チップ面積縮小 異なるプロセスを経て製造されたダイ同士の積層

More information

Microsoft PowerPoint MPSoC-KojiInoue-web.pptx

Microsoft PowerPoint MPSoC-KojiInoue-web.pptx Adaptive Execution on 3D Microprocessors Koji Inoue Kyushu University 1 Outline Why 3D? Will 3D always work well? work well? Support Adaptive Execution! Memory Hierarchy Run time Optimization Conclusions

More information

DRAM L2 L2 DRAM L2 DRAM L2 RAM DRAM 3 DRAM 3. 1 DRAM SRAM/DRAM 2. SRAM/DRAM DRAM LLC Last Level Cache 2 2) DRAM 1(A) (B) LLC L2 DRAM DRAM L2 SRAM DRAM

DRAM L2 L2 DRAM L2 DRAM L2 RAM DRAM 3 DRAM 3. 1 DRAM SRAM/DRAM 2. SRAM/DRAM DRAM LLC Last Level Cache 2 2) DRAM 1(A) (B) LLC L2 DRAM DRAM L2 SRAM DRAM SRAM/DRAM 1 1 2 2 3 DRAM DRAM 2 SRAM/DRAM 1) 1) L2 3.01 1.17 Run-time Operation-Mode Management on SRAM/DRAM Hybrid Cache SHINYA HASHIGUCHI, 1 NAOTO FUKUMOTO, 1 KOJI INOUE 2 and KAZUAKI MURAKAMI 2 3D stacked

More information

Microsoft PowerPoint - ARCICD07FukumotoSlides.pptx

Microsoft PowerPoint - ARCICD07FukumotoSlides.pptx チップマルチプロセッサにおける データ プリフェッチ効果の分析 福本尚人, 三原智伸九州大学大学院システム情報科学府情報理学専攻 井上弘士, 村上和彰九州大学大学院システム情報科学研究院情報理学部門 2007/6/1 1 発表手順 研究の背景 目的 効果に基づくプリフェッチの分類法 マルチプロセッサ チップマルチプロセッサ 性能モデル式による定性的評価 定量的評価 まとめ 2007/6/1 2 研究の背景

More information

Microsoft PowerPoint - ARC-SWoPP2011OkaSlides.pptx

Microsoft PowerPoint - ARC-SWoPP2011OkaSlides.pptx データ値の局所性を利用した ライン共有キャッシュの提案 九州大学大学院 岡慶太郎 福本尚人 井上弘士 村上和彰 1 キャッシュメモリの大容量化 マルチコア プロセッサが主流 メモリウォール問題の深刻化 メモリアクセス要求増加 IOピンの制限 大容量の LL(Last Level) キャッシュを搭載 8MB の L3 キャッシュを搭載 Core i7 のチップ写真 * * http://www.atmarkit.co.jp/fsys/zunouhoudan/102zunou/corei7.html

More information

Vol.-ARC-8 No.8 Vol.-OS- No.8 // DRAM DRAM DRAM DRAM ) DRAM. DRAM. ) DRAM DRAM DRAM DRAM DRAM SRAM DRAM MB B MB DRAM SRAM.. DRAM DRAM SRAM DRAM SRAM C

Vol.-ARC-8 No.8 Vol.-OS- No.8 // DRAM DRAM DRAM DRAM ) DRAM. DRAM. ) DRAM DRAM DRAM DRAM DRAM SRAM DRAM MB B MB DRAM SRAM.. DRAM DRAM SRAM DRAM SRAM C IPSJ SIG Technical Report Vol.-ARC-8 No.8 Vol.-OS- No.8 // DRAM- DRAM DRAM DRAM % % On-Chip Memory Architecture for DRAM Stacking Microprocessors SHINYA HASHIGUCHI, TAKATSUGU ONO, KOJI INOUE and KAZUAKI

More information

Microsoft PowerPoint - ARCEMB08HayashiSlides.ppt [互換モード]

Microsoft PowerPoint - ARCEMB08HayashiSlides.ppt [互換モード] 演算 / メモリ性能バランスを考慮した CMP 向けオンチップ メモリ貸与法の提案 九州大学 林徹生今里賢一井上弘士村上和彰 1 発表手順 背景 目的 演算 / メモリ性能バランシング 概要 アクセスレイテンシの削減とオーバーヘッド 提案手法の実現方法 着目する命令 (Cell プロセッサへの ) 実装 性能評価 姫野ベンチマーク Susan@MiBench おわりに 2 チップマルチプロセッサ (CMP)

More information

Microsoft PowerPoint - ICD2011TakadaSlides.pptx

Microsoft PowerPoint - ICD2011TakadaSlides.pptx キャッシュウェイ割り当てと コード配置の同時最適化による メモリアクセスエネルギーの削減 九州大学 高田純司井上弘士京都大学石原亨 2012/8/9 1 目次 研究背景 組込みプロセッサにおけるエネルギー削減の必要性 キャッシュウェイ割り当て 提案手法 キャッシュウェイ割り当てとコード配置の組み合わせ 同時最適化 評価実験 まとめ 2012/8/9 2 組込みプロセッサの課題 研究背景 低消費エネルギー化,

More information

DRAM SRAM SDRAM (Synchronous DRAM) DDR SDRAM (Double Data Rate SDRAM) DRAM 4 C Wikipedia 1.8 SRAM DRAM DRAM SRAM DRAM SRAM (256M 1G bit) (32 64M bit)

DRAM SRAM SDRAM (Synchronous DRAM) DDR SDRAM (Double Data Rate SDRAM) DRAM 4 C Wikipedia 1.8 SRAM DRAM DRAM SRAM DRAM SRAM (256M 1G bit) (32 64M bit) 2016.4.1 II ( ) 1 1.1 DRAM RAM DRAM DRAM SRAM RAM SRAM SRAM SRAM SRAM DRAM SRAM SRAM DRAM SRAM 1.2 (DRAM, Dynamic RAM) (SRAM, Static RAM) (RAM Random Access Memory ) DRAM 1 1 1 1 SRAM 4 1 2 DRAM 4 DRAM

More information

26 FPGA 11 05340 1 FPGA (Field Programmable Gate Array) ASIC (Application Specific Integrated Circuit) FPGA FPGA FPGA FPGA Linux FreeDOS skewed way L1

26 FPGA 11 05340 1 FPGA (Field Programmable Gate Array) ASIC (Application Specific Integrated Circuit) FPGA FPGA FPGA FPGA Linux FreeDOS skewed way L1 FPGA 272 11 05340 26 FPGA 11 05340 1 FPGA (Field Programmable Gate Array) ASIC (Application Specific Integrated Circuit) FPGA FPGA FPGA FPGA Linux FreeDOS skewed way L1 FPGA skewed L2 FPGA skewed Linux

More information

スライド 1

スライド 1 知能制御システム学 画像処理の高速化 OpenCV による基礎的な例 東北大学大学院情報科学研究科鏡慎吾 swk(at)ic.is.tohoku.ac.jp 2007.07.03 リアルタイム処理と高速化 リアルタイム = 高速 ではない 目標となる時間制約が定められているのがリアルタイム処理である.34 ms かかった処理が 33 ms に縮んだだけでも, それによって与えられた時間制約が満たされるのであれば,

More information

VXPRO R1400® ご提案資料

VXPRO R1400® ご提案資料 Intel Core i7 プロセッサ 920 Preliminary Performance Report ノード性能評価 ノード性能の評価 NAS Parallel Benchmark Class B OpenMP 版での性能評価 実行スレッド数を 4 で固定 ( デュアルソケットでは各プロセッサに 2 スレッド ) 全て 2.66GHz のコアとなるため コアあたりのピーク性能は同じ 評価システム

More information

スライド 1

スライド 1 東北大学工学部機械知能 航空工学科 2016 年度 5 セメスター クラス C3 D1 D2 D3 計算機工学 13. メモリシステム ( 教科書 8 章 ) 大学院情報科学研究科 鏡慎吾 http://www.ic.is.tohoku.ac.jp/~swk/lecture/ レジスタ選択( 復習 ) MIPS の構造 PC 命令デコーダ 次 PC 計算 mux 32x32 ビットレジスタファイル

More information

Microsoft PowerPoint - ICD2011UenoSlides.pptx

Microsoft PowerPoint - ICD2011UenoSlides.pptx 画像認識向け 3 次元積層 アクセラレータ アーキテクチャの検討 九州大学大学院システム情報科学府学院 * 九州大学大学院システム情報科学研究院 ** 上野伸也 * Gauthier Lovic Eric** 井上弘士 ** 村上和彰 ** 1 概要 画像認識技術 アクセラレータによる高性能 低消費エネルギー化 アプリケーション分析 アクセラレータ アーキテクチャ検討ア 性能 消費エネルギー評価 まとめ

More information

1 Hybrid Memory Cube HMC CPU HMC 2. Hybrid Memory Cube HMC 2.1 Hybrid Memory Cube (HMC) Micron HMC DDR DRAM TSV I/O HMC 1 1 (Vault ) 4 4 HMC DDR

1 Hybrid Memory Cube HMC CPU HMC 2. Hybrid Memory Cube HMC 2.1 Hybrid Memory Cube (HMC) Micron HMC DDR DRAM TSV I/O HMC 1 1 (Vault ) 4 4 HMC DDR 3 1 2 3 1 Micron 3 Hybrid Memory Cube (HMC) HPC SPARC64 XIfx HMC CPU SPARC 64XIfx HMC CPU HMC 1. CPU DRAM 3 LSI 3 Wide I/O[1] Hybrid Memory Cube (HMC)[2], [3] 3 3 CPU DIMM HMC CPU DRAM 4 8 CPU 1 Graduate

More information

2 1997 1M SRAM 1 25 ns 1 100 250 1,000 DRAM 60 120 ns 50 5 10 50 10 20 ms 5,000,000 0.1 0.2 1

2 1997 1M SRAM 1 25 ns 1 100 250 1,000 DRAM 60 120 ns 50 5 10 50 10 20 ms 5,000,000 0.1 0.2 1 1 2 1997 1M SRAM 1 25 ns 1 100 250 1,000 DRAM 60 120 ns 50 5 10 50 10 20 ms 5,000,000 0.1 0.2 1 CPU 1 1 2 2 n CPU SRAM DRAM CPU 3 4 5 6 7 N+ N+ P SRAM DRAM 8 Computer Architecture 9 DRAM 3 4 10 11 Ta 2

More information

Chip Size and Performance Evaluations of Shared Cache for On-chip Multiprocessor Takahiro SASAKI, Tomohiro INOUE, Nobuhiko OMORI, Tetsuo HIRONAKA, Han

Chip Size and Performance Evaluations of Shared Cache for On-chip Multiprocessor Takahiro SASAKI, Tomohiro INOUE, Nobuhiko OMORI, Tetsuo HIRONAKA, Han Chip Size and Performance Evaluations of Shared Cache for On-chip Multiprocessor Takahiro SASAKI, Tomohiro INOUE, Nobuhiko OMORI, Tetsuo HIRONAKA, Hans J. MATTAUSCH, and Tetsushi KOIDE 1 1 2 0.5 µm CMOS

More information

スライド 1

スライド 1 Nehalem 新マイクロアーキテクチャ スケーラブルシステムズ株式会社 はじめに 現在も続く x86 マイクロプロセッサマーケットでの競合において Intel と AMD という 2 つの会社は 常に新しい技術 製品を提供し マーケットでのシェアの獲得を目指しています この技術開発と製品開発では この 2 社はある時は 他社に対して優位な技術を開発し 製品面での優位性を示すことに成功してきましたが

More information

16.16%

16.16% 2017 (411824) 16.16% Abstract Multi-core processor is common technique for high computing performance. In many multi-core processor architectures, all processors share L2 and last level cache memory. Thus,

More information

富士通セミコンダクタープレスリリース 2009/05/19

富士通セミコンダクタープレスリリース 2009/05/19 [ デバイス ] 2009 年 5 月 19 日富士通マイクロエレクトロニクス株式会社 世界初!125 動作の SiP 向け低消費電力メモリを新発売 ~ メモリの耐熱性向上により 消費電力の大きな高性能デジタル家電に最適 ~ 富士通マイクロエレクトロニクス株式会社 ( 注 1) は DDR SDRAM インターフェースを持つメモリでは世界で初めて動作温度範囲を 125 まで拡張したコンシューマ FCRAM(

More information

この方法では, 複数のアドレスが同じインデックスに対応づけられる可能性があるため, キャッシュラインのコピーと書き戻しが交互に起きる性のミスが発生する可能性がある. これを回避するために考案されたのが, 連想メモリアクセスができる形キャッシュである. この方式は, キャッシュに余裕がある限り主記憶の

この方法では, 複数のアドレスが同じインデックスに対応づけられる可能性があるため, キャッシュラインのコピーと書き戻しが交互に起きる性のミスが発生する可能性がある. これを回避するために考案されたのが, 連想メモリアクセスができる形キャッシュである. この方式は, キャッシュに余裕がある限り主記憶の 計算機システム Ⅱ 演習問題学科学籍番号氏名 1. 以下の分の空白を埋めなさい. CPUは, 命令フェッチ (F), 命令デコード (D), 実行 (E), 計算結果の書き戻し (W), の異なるステージの処理を反復実行するが, ある命令の計算結果の書き戻しをするまで, 次の命令のフェッチをしない場合, ( 単位時間当たりに実行できる命令数 ) が低くなる. これを解決するために考案されたのがパイプライン処理である.

More information

CPU LSI [10] 3 3D [2] TSV [2], [12] TSV 3 [1], [12] Loh 3 [7]Puttaswamy [9] Cong [12] 3 [6] 2.3 [2] ( )

CPU LSI [10] 3 3D [2] TSV [2], [12] TSV 3 [1], [12] Loh 3 [7]Puttaswamy [9] Cong [12] 3 [6] 2.3 [2] ( ) 3 1,a) 2,b) 2,c) 2,d) 2,e) 2,f) 2,g) 3 3 3 Introducing Thermal Cost Function to Wire-Activity-Aware 3D-stacked Processor Floorplanner Abstract: The 3D-stacked silicon technology is reported to improve

More information

なる 次元積層 L2 キャッシュのリーク消費電力増加問題 一般にコアの温度分布はそのコアが割り当てられているプログラムによって異なる. した がって, マルチプログラム実行を考えた場合, コアひとつひとつの温度分布が異なる. この ため, 上層のキャッシュメモリの温度分布は, 下層コア

なる 次元積層 L2 キャッシュのリーク消費電力増加問題 一般にコアの温度分布はそのコアが割り当てられているプログラムによって異なる. した がって, マルチプログラム実行を考えた場合, コアひとつひとつの温度分布が異なる. この ため, 上層のキャッシュメモリの温度分布は, 下層コア 温度を考慮した 3 次元積層 LSI 向け低消費エネルギー L2 キャッシュの提案 阿部祐希 1 花田高彬 1 井上弘士 2 村上和彰 2 本稿では, 温度を考慮した 3 次元積層 L2 キャッシュ向けバンク電源遮断による消費エネルギー削減手法について検討し, 有効性評価を行う.3 次元積層 L2 キャッシュは, 垂直方向に隣接するコアの熱伝導のため, 平面実装時の L2 キャッシュと比較して高温となり,

More information

スライド タイトルなし

スライド タイトルなし 2019. 7.18 Ibaraki Univ. Dept of Electrical & Electronic Eng. Keiichi MIYAJIMA 今後の予定 7 月 18 日メモリアーキテクチャ1 7 月 22 日メモリアーキテクチャ2 7 月 29 日まとめと 期末テストについて 8 月 5 日期末試験 メモリアーキテクチャ - メモリ装置とメモリアーキテクチャ - メモリアーキテクチャメモリ装置とは?

More information

I/F Memory Array Control Row/Column Decoder I/F Memory Array DRAM Voltage Generator

I/F Memory Array Control Row/Column Decoder I/F Memory Array DRAM Voltage Generator - - 18 I/F Memory Array Control Row/Column Decoder I/F Memory Array DRAM Voltage Generator - - 19 - - 20 N P P - - 21 - - 22 DRAM - - 23 a b MC-Tr avcc=2.5vvbb=-1.5vvpp=4.0v bvcc=1.7vvbb=-1.0vvpp=3.0v

More information

hpc141_shirahata.pdf

hpc141_shirahata.pdf GPU アクセラレータと不揮発性メモリ を考慮した I/O 性能の予備評価 白幡晃一 1,2 佐藤仁 1,2 松岡聡 1 1: 東京工業大学 2: JST CREST 1 GPU と不揮発性メモリを用いた 大規模データ処理 大規模データ処理 センサーネットワーク 遺伝子情報 SNS など ペタ ヨッタバイト級 高速処理が必要 スーパーコンピュータ上での大規模データ処理 GPU 高性能 高バンド幅 例

More information

テストコスト抑制のための技術課題-DFTとATEの観点から

テストコスト抑制のための技術課題-DFTとATEの観点から 2 -at -talk -talk -drop 3 4 5 6 7 Year of Production 2003 2004 2005 2006 2007 2008 Embedded Cores Standardization of core Standard format Standard format Standard format Extension to Extension to test

More information

SCIMA アーキテクチャと性能評価 - SCIMA アーキテクチャの概要 - 中村宏東京大学先端科学技術研究センター

SCIMA アーキテクチャと性能評価 - SCIMA アーキテクチャの概要 - 中村宏東京大学先端科学技術研究センター SCIMA アーキテクチャと性能評価 - SCIMA アーキテクチャの概要 - 中村宏東京大学先端科学技術研究センター nakamura@hal.rcast.u-tokyo.ac.jp nakamura@acm.org 第一部 :SCIMA アーキテクチャと性能評価 講演の流れ SCIMAアーキテクチャの概要 ( 東大 : 中村宏 ) NASPBを用いたSCIMAの評価 ( 東大 : 岩本貢 M2)

More information

スライド 1

スライド 1 知能制御システム学 画像処理の高速化 東北大学大学院情報科学研究科鏡慎吾 swk(at)ic.is.tohoku.ac.jp 2008.07.22 今日の内容 ビジュアルサーボのようなリアルタイム応用を考える場合, 画像処理を高速に実装することも重要となる いくつかの基本的な知識を押さえておかないと, 同じアルゴリズムを実行しているのに性能が上がらないということがしばしば生じる 今日は, あくまで普通の

More information

HPCマシンの変遷と 今後の情報基盤センターの役割

HPCマシンの変遷と 今後の情報基盤センターの役割 筑波大学計算科学センターシンポジウム 計算機アーキテクトが考える 次世代スパコン 2006 年 4 月 5 日 村上和彰 九州大学 murakami@cc.kyushu-u.ac.jp 次世代スパコン ~ 達成目標と制約条件の整理 ~ 達成目標 性能目標 (2011 年 ) LINPACK (HPL):10PFlop/s 実アプリケーション :1PFlop/s 成果目標 ( 私見 ) 科学技術計算能力の国際競争力の向上ならびに維持による我が国の科学技術力

More information

23 Fig. 2: hwmodulev2 3. Reconfigurable HPC 3.1 hw/sw hw/sw hw/sw FPGA PC FPGA PC FPGA HPC FPGA FPGA hw/sw hw/sw hw- Module FPGA hwmodule hw/sw FPGA h

23 Fig. 2: hwmodulev2 3. Reconfigurable HPC 3.1 hw/sw hw/sw hw/sw FPGA PC FPGA PC FPGA HPC FPGA FPGA hw/sw hw/sw hw- Module FPGA hwmodule hw/sw FPGA h 23 FPGA CUDA Performance Comparison of FPGA Array with CUDA on Poisson Equation (lijiang@sekine-lab.ei.tuat.ac.jp), (kazuki@sekine-lab.ei.tuat.ac.jp), (takahashi@sekine-lab.ei.tuat.ac.jp), (tamukoh@cc.tuat.ac.jp),

More information

記者発表開催について

記者発表開催について 2014 年 6 月 4 日 東京工業大学広報センター長大谷清 300mm ウエハーを厚さ 4µm に超薄化 -DRAM で検証 超小型大規模三次元メモリーに威力 - 概要 東京工業大学異種機能集積研究センターの大場隆之特任教授は ディスコ 富士通研究所 PEZY Computing( ペジーコンピューティング 東京都千代田区 ) WOW アライアンス ( 用語 1) と共同で 半導体メモリー (DRAM)

More information

スライド 1

スライド 1 東北大学工学部機械知能 航空工学科 2017 年度 5 セメスター クラス C3 D1 D2 D3 計算機工学 13. メモリシステム ( 教科書 8 章 ) 大学院情報科学研究科 鏡慎吾 http://www.ic.is.tohoku.ac.jp/~swk/lecture/ ジスタ( 復習 ) MIPS の構造 PC 次 PC 計算 メモリ 命令デコーダ 制御回路 選択演算選択レmux 32x32

More information

Microsoft PowerPoint - 11Web.pptx

Microsoft PowerPoint - 11Web.pptx 計算機システムの基礎 ( 第 10 回配布 ) 第 7 章 2 節コンピュータの性能の推移 (1) コンピュータの歴史 (2) コンピュータの性能 (3) 集積回路の進歩 (4) アーキテクチャ 第 4 章プロセッサ (1) プロセッサの基本機能 (2) プロセッサの構成回路 (3) コンピュータアーキテクチャ 第 5 章メモリアーキテクチャ 1. コンピュータの世代 計算する機械 解析機関 by

More information

FabHetero FabHetero FabHetero FabCache FabCache SPEC2000INT IPC FabCache 0.076%

FabHetero FabHetero FabHetero FabCache FabCache SPEC2000INT IPC FabCache 0.076% 2013 (409812) FabHetero FabHetero FabHetero FabCache FabCache SPEC2000INT 6 1000 IPC FabCache 0.076% Abstract Single-ISA heterogeneous multi-core processors are increasing importance in the processor architecture.

More information

計算機ハードウエア

計算機ハードウエア 計算機ハードウエア 209 年度前期 第 5 回 前回の話 (SH745) (32 bit) コンピュータバスの構成 インタフェース (6 bit) I/O (Input/ Output) I/O (22 bit) (22 bit) 割り込み信号リセット信号 コンピュータバスは コンピュータ本体 () と そのコンピュータ本体とデータのやり取りをする複数の相手との間を結ぶ 共用の信号伝送路である クロック用クリスタル

More information

Microsoft PowerPoint - 3.3タイミング制御.pptx

Microsoft PowerPoint - 3.3タイミング制御.pptx 3.3 タイミング制御 ハザードの回避 同期式回路と非同期式回路 1. 同期式回路 : 回路全体で共通なクロックに合わせてデータの受け渡しをする 通信における例 :I 2 C(1 対 N 通信 ) 2. 非同期式回路 : 同一のクロックを使用せず データを受け渡す回路間の制御信号を用いてデータの受け渡しをす 通信における例 :UART(1 対 1 通信 ) 2 3.3.1 ハザード 3 1 出力回路のハザード

More information

DEIM Forum 2017 H ,

DEIM Forum 2017 H , DEIM Forum 217 H5-4 113 8656 7 3 1 153 855 4 6 1 3 2 1 2 E-mail: {satoyuki,haya,kgoda,kitsure}@tkl.iis.u-tokyo.ac.jp,.,,.,,.,, 1.. 1956., IBM IBM RAMAC 35 IBM 35 24 5, 5MB. 1961 IBM 131,,, IBM 35 13.,

More information

インテル アーキテクチャプラットフォーム リーダーシップ 2000 年 12 月 21 日 第 14 回数値流体力学シンポジウム インテル株式会社 ia 技術本部本部長坂野勝美

インテル アーキテクチャプラットフォーム リーダーシップ 2000 年 12 月 21 日 第 14 回数値流体力学シンポジウム インテル株式会社 ia 技術本部本部長坂野勝美 インテル アーキテクチャプラットフォーム リーダーシップ 2000 年 12 月 21 日 第 14 回数値流体力学シンポジウム インテル株式会社 ia 技術本部本部長坂野勝美 インテル アーキテクチャ プロセッサロードマップ 2000 年第 4 四半期 2001 年上半期 サーバ / インテル Pentium III インテル Itanium ワークステーション Xeon プロセッサプロセッサ パフォーマンスインテル

More information

組込みシステムシンポジウム2011 Embedded Systems Symposium 2011 ESS /10/20 FPGA Android Android Java FPGA Java FPGA Dalvik VM Intel Atom FPGA PCI Express DM

組込みシステムシンポジウム2011 Embedded Systems Symposium 2011 ESS /10/20 FPGA Android Android Java FPGA Java FPGA Dalvik VM Intel Atom FPGA PCI Express DM Android Android Java Java Dalvik VM Intel Atom PCI Express DMA 1.25 Gbps Atom Android Java Acceleration with an Accelerator in an Android Mobile Terminal Keisuke Koike, Atsushi Ohta, Kohta Ohshima, Kaori

More information

システムソリューションのご紹介

システムソリューションのご紹介 HP 2 C 製品 :VXPRO/VXSMP サーバ 製品アップデート 製品アップデート VXPRO と VXSMP での製品オプションの追加 8 ポート InfiniBand スイッチ Netlist HyperCloud メモリ VXPRO R2284 GPU サーバ 製品アップデート 8 ポート InfiniBand スイッチ IS5022 8 ポート 40G InfiniBand スイッチ

More information

システムLSIとアーキテクチャ技術  (part II:オンチップ並列            アーキテクチャ)

システムLSIとアーキテクチャ技術  (part II:オンチップ並列            アーキテクチャ) コンピュータ基礎記憶階層とキャッシュその2 テキスト第 10 章 天野英晴 hunga@am.ics.keio.ac.jp 記憶システム 膨大な容量を持ち アクセス時間 ( 読み出し 書き込み ) が短いメモリが欲しい! しかし 容量の大きい ( ビット単価が安い ) メモリは遅い 高速なメモリは容量が小さいお金にモノを言わせて高速なメモリをたくさん揃えても大容量化の段階で遅くなってしまう そこでアクセスの局所性

More information

-2 外からみたプロセッサ GND VCC CLK A0 A1 A2 A3 A4 A A6 A7 A8 A9 A10 A11 A12 A13 A14 A1 A16 A17 A18 A19 D0 D1 D2 D3 D4 D D6 D7 D8 D9 D10 D11 D12 D13 D14 D1 MEMR

-2 外からみたプロセッサ GND VCC CLK A0 A1 A2 A3 A4 A A6 A7 A8 A9 A10 A11 A12 A13 A14 A1 A16 A17 A18 A19 D0 D1 D2 D3 D4 D D6 D7 D8 D9 D10 D11 D12 D13 D14 D1 MEMR 第 回マイクロプロセッサのしくみ マイクロプロセッサの基本的なしくみについて解説する. -1 マイクロプロセッサと周辺回路の接続 制御バス プロセッサ データ バス アドレス バス メモリ 周辺インタフェース バスの基本構成 Fig.-1 バスによる相互接続は, 現在のコンピュータシステムのハードウェアを特徴づけている. バス (Bus): 複数のユニットで共有される信号線システム内の データの通り道

More information

A Responsive Processor for Parallel/Distributed Real-time Processing

A Responsive Processor for Parallel/Distributed Real-time Processing E-mail: yamasaki@{ics.keio.ac.jp, etl.go.jp} http://www.ny.ics.keio.ac.jp etc. CPU) I/O I/O or Home Automation, Factory Automation, (SPARC) (SDRAM I/F, DMAC, PCI, USB, Timers/Counters, SIO, PIO, )

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション vsmp Foundation スケーラブル SMP システム スケーラブル SMP システム 製品コンセプト 2U サイズの 8 ソケット SMP サーバ コンパクトな筐体に多くのコアとメモリを実装し SMP システムとして利用可能 スイッチなし構成でのシステム構築によりラックスペースを無駄にしない構成 将来的な拡張性を保証 8 ソケット以上への拡張も可能 2 システム構成例 ベースシステム 2U

More information

Slide 1

Slide 1 CMOS イメージセンサ向けプローブカードに求められる 信号の高速化と低電源ノイズ要求に対する最近の取り組みについて Minoru Mikami, Electrical Design Engineer Formfactor Inc. SPG Group Agenda 1. Overview 2. CIS(CMOS Image Sensor) Probe Card History 3. MIPI D-PHY

More information

スライド 1

スライド 1 東北大学工学部機械知能 航空工学科 2019 年度クラス C D 情報科学基礎 I 13. メモリシステム ( 教科書 8 章 ) 大学院情報科学研究科 鏡慎吾 http://www.ic.is.tohoku.ac.jp/~swk/lecture/ ( 復習 ) MIPS の構造 PC 命令デコーダ 次 PC 計算 レジ選ス択タ mux 32x32 ビットレジスタファイル メモリ mux 制御回路

More information

User-defined Logic Application Memory Manager (Replacement) Application Specific Prefetcher (ASP) Application Kernel On-chip RAM (BRAM) On-chip RAM I/

User-defined Logic Application Memory Manager (Replacement) Application Specific Prefetcher (ASP) Application Kernel On-chip RAM (BRAM) On-chip RAM I/ RTL 1,2,a) 1,b) CPU Verilog HDL RTL 1. CPU GPU Verilog HDL VHDL RTL HDL Vivado HLS Impulse C CPU 1 2 a) takamaeda@arch.cs.titech.ac.jp b) kise@cs.titech.ac.jp RTL RTL RTL Verilog HDL RTL 2. 1 HDL 1 User-defined

More information

情報処理学会研究報告 IPSJ SIG Technical Report Vol.2010-ARC-187 No.3 Vol.2010-EMB-15 No /1/28 マルチコアプロセッサのコアごとのアクセス局所性を利用した共有キャッシュの消費電力削減 1 1 L2 キャッシュに共有キャ

情報処理学会研究報告 IPSJ SIG Technical Report Vol.2010-ARC-187 No.3 Vol.2010-EMB-15 No /1/28 マルチコアプロセッサのコアごとのアクセス局所性を利用した共有キャッシュの消費電力削減 1 1 L2 キャッシュに共有キャ マルチコアプロセッサのコアごとのアクセス局所性を利用した共有キャッシュの消費電力削減 1 1 L2 キャッシュに共有キャッシュ方式を用いたマルチコアプロセッサにおいて, ラインごとのコア局所性に着目し, タグ比較の回数を減らすことにより動的な消費電力を削減することを考える. L2 キャッシュの各ラインごとに前回アクセスしたコアの番号を記憶させ, 次回のアクセスに利用する手法を提案する. 本手法の有効性を調べるために,

More information

講義計画 1. コンピュータの歴史 1 2. コンピュータの歴史 2 3. コンピュータの歴史 3 4. 論理回路と記憶, 計算 : レジスタとALU 5. 主記憶装置とALU, レジスタの制御 6. 命令セットアーキテクチャ 7. 演習問題 8. パイプライン処理 9. メモリ階層 : キャッシュ

講義計画 1. コンピュータの歴史 1 2. コンピュータの歴史 2 3. コンピュータの歴史 3 4. 論理回路と記憶, 計算 : レジスタとALU 5. 主記憶装置とALU, レジスタの制御 6. 命令セットアーキテクチャ 7. 演習問題 8. パイプライン処理 9. メモリ階層 : キャッシュ 計算機システム Ⅱ キャッシュと仮想記憶 和田俊和 講義計画 1. コンピュータの歴史 1 2. コンピュータの歴史 2 3. コンピュータの歴史 3 4. 論理回路と記憶, 計算 : レジスタとALU 5. 主記憶装置とALU, レジスタの制御 6. 命令セットアーキテクチャ 7. 演習問題 8. パイプライン処理 9. メモリ階層 : キャッシュと仮想記憶 ( 本日 ) 10. 命令レベル並列処理

More information

特集新世代マイクロプロセッサアーキテクチャ ( 後編 ) 3. 実例 3 ユビキタス コンピューティング時代の組み込みマイクロコンピュータ, SuperH と M32R 清水徹 * 1 長谷川淳 * 2 服部俊洋 * 3 近藤弘郁 * 4 ( 株 ) ルネサステクノロジシステムソリューション統括本部

特集新世代マイクロプロセッサアーキテクチャ ( 後編 ) 3. 実例 3 ユビキタス コンピューティング時代の組み込みマイクロコンピュータ, SuperH と M32R 清水徹 * 1 長谷川淳 * 2 服部俊洋 * 3 近藤弘郁 * 4 ( 株 ) ルネサステクノロジシステムソリューション統括本部 3. 実例 3 ユビキタス コンピューティング時代の組み込みマイクロコンピュータ, SuperH と M32R 清水徹 * 1 長谷川淳 * 2 服部俊洋 * 3 近藤弘郁 * 4 ( 株 ) ルネサステクノロジシステムソリューション統括本部システムコア技術統括部 * 1 shimizu.toru@renesas.com * 2 hasegawa.atsushi@renesas.com * 3 hattori.toshihiro@renesas.com

More information

1 薄膜 BOX-SOI (SOTB) を用いた 2M ビット SRAM の超低電圧 0.37V 動作を実証 大規模集積化に成功 超低電圧 超低電力 LSI 実現に目処 独立行政法人新エネルギー 産業技術総合開発機構 ( 理事長古川一夫 / 以下 NEDOと略記 ) 超低電圧デバイス技術研究組合(

1 薄膜 BOX-SOI (SOTB) を用いた 2M ビット SRAM の超低電圧 0.37V 動作を実証 大規模集積化に成功 超低電圧 超低電力 LSI 実現に目処 独立行政法人新エネルギー 産業技術総合開発機構 ( 理事長古川一夫 / 以下 NEDOと略記 ) 超低電圧デバイス技術研究組合( 1 薄膜 BOX-SOI (SOTB) を用いた 2M ビット SRAM の超低電圧 0.37V 動作を実証 大規模集積化に成功 超低電圧 超低電力 LSI 実現に目処 独立行政法人新エネルギー 産業技術総合開発機構 ( 理事長古川一夫 / 以下 NEDOと略記 ) 超低電圧デバイス技術研究組合( 理事長 : 豊木則行 / 以下 LEAP と略記 ) と国立大学法人東京大学は このたび マイコン等に使われる論理集積回路の大幅な省エネ化を可能とする

More information

N08

N08 CPU のキモチ C.John 自己紹介 英語きらい 絵かけない 人の話を素直に信じない CPUにキモチなんてない お詫び 予告ではCとC# とありましたがやる気と時間の都合上 C++のみを対象とします 今日のネタ元 MSDN マガジン 2010 年 10 月号 http://msdn.microsoft.com/ja-jp/magazine/cc850829.aspx Windows と C++

More information

本文ALL.indd

本文ALL.indd Intel Xeon プロセッサにおける Cache Coherency 時間の性能測定方法河辺峻田口成美古谷英祐 Intel Xeon プロセッサにおける Cache Coherency 時間の性能測定方法 Performance Measurement Method of Cache Coherency Effects on an Intel Xeon Processor System 河辺峻田口成美古谷英祐

More information

スライド 1

スライド 1 SoC -SWG ATE -SWG 2004 2005 1 SEAJ 2 VLSI 3 How can we improve manageability of the divergence between validation and manufacturing equipment? What is the cost and capability optimal SOC test approach?

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション Dell PowerEdge C6320 スケーラブルサーバアプライアンス 仮想化アプライアンスサーバ 最新のプロセッサを搭載したサーバプラットフォーム vsmp Foundation によるサーバ仮想化と統合化の適用 システムはセットアップを完了した状態でご提供 基本構成ではバックプレーン用のスイッチなどが不要 各ノード間を直接接続 冗長性の高いバックプレーン構成 利用するサーバプラットフォームは

More information

untitled

untitled PC murakami@cc.kyushu-u.ac.jp muscle server blade server PC PC + EHPC/Eric (Embedded HPC with Eric) 1216 Compact PCI Compact PCIPC Compact PCISH-4 Compact PCISH-4 Eric Eric EHPC/Eric EHPC/Eric Gigabit

More information

160311_icm2015-muramatsu-v2.pptx

160311_icm2015-muramatsu-v2.pptx Linux におけるパケット処理機構の 性能評価に基づいた NFV 導 の 検討 村松真, 川島 太, 中 裕貴, 林經正, 松尾啓志 名古屋 業 学 学院 株式会社ボスコ テクノロジーズ ICM 研究会 2016/03/11 研究 的 VM 仮想 NIC バックエンド機構 仮想化環境 仮想スイッチ パケット処理機構 物理環境 性能要因を考察 汎 IA サーバ NFV 環境に適したサーバ構成を検討

More information

VLSI工学

VLSI工学 2008/1/15 (12) 1 2008/1/15 (12) 2 (12) http://ssc.pe.titech.ac.jp 2008/1/15 (12) 3 VLSI 100W P d f clk C V 2 dd I I I leak sub g = I sub + I g qv exp nkt exp ( 5. 6V 10T 2. 5) gd T V T ox Gordon E. Moore,

More information

[4] ACP (Advanced Communication Primitives) [1] ACP ACP [2] ACP Tofu UDP [3] HPC InfiniBand InfiniBand ACP 2 ACP, 3 InfiniBand ACP 4 5 ACP 2. ACP ACP

[4] ACP (Advanced Communication Primitives) [1] ACP ACP [2] ACP Tofu UDP [3] HPC InfiniBand InfiniBand ACP 2 ACP, 3 InfiniBand ACP 4 5 ACP 2. ACP ACP InfiniBand ACP 1,5,a) 1,5,b) 2,5 1,5 4,5 3,5 2,5 ACE (Advanced Communication for Exa) ACP (Advanced Communication Primitives) HPC InfiniBand ACP InfiniBand ACP ACP InfiniBand Open MPI 20% InfiniBand Implementation

More information

Microsoft PowerPoint - 集積回路工学(5)_ pptm

Microsoft PowerPoint - 集積回路工学(5)_ pptm 集積回路工学 東京工業大学大学院理工学研究科電子物理工学専攻 松澤昭 2009/0/4 集積回路工学 A.Matuzawa (5MOS 論理回路の電気特性とスケーリング則 資料は松澤研のホームページ htt://c.e.titech.ac.j にあります 2009/0/4 集積回路工学 A.Matuzawa 2 インバータ回路 このようなインバータ回路をシミュレーションした 2009/0/4 集積回路工学

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション コンピュータアーキテクチャ 第 13 週 割込みアーキテクチャ 2013 年 12 月 18 日 金岡晃 授業計画 第 1 週 (9/25) 第 2 週 (10/2) 第 3 週 (10/9) 第 4 週 (10/16) 第 5 週 (10/23) 第 6 週 (10/30) 第 7 週 (11/6) 授業概要 2 進数表現 論理回路の復習 2 進演算 ( 数の表現 ) 演算アーキテクチャ ( 演算アルゴリズムと回路

More information

Microsoft PowerPoint - os ppt [互換モード]

Microsoft PowerPoint - os ppt [互換モード] 4. メモリ管理 (1) 概要メモリ管理の必要性静的メモリ管理と動的メモリ管理スワッピング, 仮想記憶ページングとセグメンテーション 2008/5/ 20 メモリ管理 (1) 1 メモリはコンピュータの 5 大構成要素 装置 ( キーボード, マウス ) CPU ( 中央演算装置 ) 出 装置 ( モニタ, プリンタ ) 主記憶装置 ( メインメモリ ) 外部記憶装置 (HDD) 2008/5/ 20

More information

Microsoft PowerPoint - sp ppt [互換モード]

Microsoft PowerPoint - sp ppt [互換モード] システムプログラム概論 メモリ管理 (1) 第 x 講 : 平成 20 年 10 月 15 日 ( 水 ) 2 限 S1 教室 今日の講義概要 メモリ管理の必要性 静的メモリ管理と動的メモリ管理 スワッピング, 仮想記憶 ページングとセグメンテーション 中村嘉隆 ( なかむらよしたか ) 奈良先端科学技術大学院大学助教 y-nakamr@is.naist.jp http://narayama.naist.jp/~y-nakamr/

More information

完成版_セミナー発表資料110928

完成版_セミナー発表資料110928 PROFINET オープンセミナー ASIC を使用した開発 開発セミナー 目次 2 PROFINET の実装 ASIC という選択 PROFINET 機器開発における課題 ASIC による課題の解決 ASIC の特徴ターゲットアプリケーション適用例ラインアップ ASIC 製品紹介 1 PROFINET の実装 3 PROFINET の実装手法 Ethernet ポート付きマイコン FPGA PROFINET

More information

Operating System 仮想記憶

Operating System 仮想記憶 Operating System 仮想記憶 2018-12 記憶階層 高速 & 小容量 ( 高価 ) レジスタ アクセスタイム 数ナノ秒 容量 ~1KB CPU 内キャッシュ (SRAM) 数ナノ秒 1MB 程度 ランダムアクセス 主記憶 (DRAM) 数十ナノ秒 数 GB 程度 ランダムアクセス フラッシュメモリ (SSD) 約 100 万倍 シーケンシャルアクセス 磁気ディスク (HDD) 数十ミリ秒

More information

Slides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments

Slides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments 計算機アーキテクチャ第 11 回 マルチプロセッサ 本資料は授業用です 無断で転載することを禁じます 名古屋大学 大学院情報科学研究科 准教授加藤真平 デスクトップ ジョブレベル並列性 スーパーコンピュータ 並列処理プログラム プログラムの並列化 for (i = 0; i < N; i++) { x[i] = a[i] + b[i]; } プログラムの並列化 x[0] = a[0] + b[0];

More information

Microsoft PowerPoint - SDF2007_nakanishi_2.ppt[読み取り専用]

Microsoft PowerPoint - SDF2007_nakanishi_2.ppt[読み取り専用] ばらつきの計測と解析技術 7 年 月 日設計基盤開発部先端回路技術グループ中西甚吾 内容. はじめに. DMA(Device Matrix Array)-TEG. チップ間 チップ内ばらつきの比較. ばらつきの成分分離. 各ばらつき成分の解析. まとめ . はじめに 背景 スケーリングにともない さまざまなばらつきの現象が顕著化しており この先ますます設計困難化が予想される EDA ツール 回路方式

More information

IPSJ SIG Technical Report Vol.2015-ARC-215 No.7 Vol.2015-OS-133 No /5/26 Just-In-Time PG 1,a) 1, Just-In-Time VM Geyser Dalvik VM Caffei

IPSJ SIG Technical Report Vol.2015-ARC-215 No.7 Vol.2015-OS-133 No /5/26 Just-In-Time PG 1,a) 1, Just-In-Time VM Geyser Dalvik VM Caffei Just-In-Time PG 1,a) 1, 1 2 1 1 Just-In-Time VM Geyser Dalvik VM CaffeineMark SPECJVM 17% 1. LSI [1][2][3][4][5] (PG) Geyser [6][7] PG ON/OFF OS PG PG [7][8][9][10] Java Just-In-Time (JIT PG [10] JIT 1

More information

単位、情報量、デジタルデータ、CPUと高速化 ~ICT用語集~

単位、情報量、デジタルデータ、CPUと高速化  ~ICT用語集~ CPU ICT mizutani@ic.daito.ac.jp 2014 SI: Systèm International d Unités SI SI 10 1 da 10 1 d 10 2 h 10 2 c 10 3 k 10 3 m 10 6 M 10 6 µ 10 9 G 10 9 n 10 12 T 10 12 p 10 15 P 10 15 f 10 18 E 10 18 a 10 21

More information

2005 1

2005 1 25 SPARCstation 2 CPU central processor unit 25 2 25 3 25 4 DRAM 25 5 25 6 : DRAM 25 7 2 25 8 2 25 9 2 bit: binary digit V 2V 25 2 2 2 2 4 5 2 6 3 7 25 A B C A B C A B C A B C A C A B 3 25 2 25 3 Co Cin

More information

スライド 1

スライド 1 東北大学工学部機械知能 航空工学科 2019 年度クラス C D 情報科学基礎 I 14. さらに勉強するために 大学院情報科学研究科 鏡慎吾 http://www.ic.is.tohoku.ac.jp/~swk/lecture/ 0 と 1 の世界 これまで何を学んだか 2 進数, 算術演算, 論理演算 計算機はどのように動くのか プロセッサとメモリ 演算命令, ロード ストア命令, 分岐命令 計算機はどのように構成されているのか

More information

Microsoft PowerPoint - NxLec-2010-11-01.ppt

Microsoft PowerPoint - NxLec-2010-11-01.ppt 2010 年 後 学 期 レポート 問 題 計 算 機 アーキテクチャ 第 二 (O) 4. シングルサイクルプロセッサの 実 装 とパイプライン 処 理 大 学 院 情 報 理 工 学 研 究 科 計 算 工 学 専 攻 吉 瀬 謙 二 kise _at_ cs.titech.ac.jp S321 講 義 室 月 曜 日 5,6 時 限 13:20-14:50 1 1. 1から100までの 加 算

More information

h-hwang11phdthesis-RealizingName.pptx

h-hwang11phdthesis-RealizingName.pptx 黄 大 大 大 用目 手 一 大 高 士 文 目 士 文 比 士 文 士 文 士 文 黄 山 一 田 比 用 子 黄 山 一 田 力 子 士 文 12.1.19 本章の背景および目的 提案手法の概要 高速なパケット転送 分類のために使用されている TCAM の問題点 高い消費電力 チップのコスト アクセス制御リスト (access control list; ACL) フィールドの中 ポート番号の範囲表現問題

More information

Slides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments

Slides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments 加藤真平計算機アーキテクチャ特論 計算機アーキテクチャ特論後半第 1 回最先端アーキテクチャのトレンド 本資料は授業用です 無断で転載することを禁じます 講師加藤真平 前半の趣旨 : 並列化プログラミング for (i = 0; i < N; i++) { x[i] = a[i] + b[i]; } シングルプロセッサ マルチプロセッサ x[0]=a[0]+b[0]; x[1]=a[1]+b[1];

More information

R1RW0408D シリーズ

R1RW0408D シリーズ お客様各位 カタログ等資料中の旧社名の扱いについて 2010 年 4 月 1 日を以って NEC エレクトロニクス株式会社及び株式会社ルネサステクノロジが合併し 両社の全ての事業が当社に承継されております 従いまして 本資料中には旧社名での表記が残っておりますが 当社の資料として有効ですので ご理解の程宜しくお願い申し上げます ルネサスエレクトロニクスホームページ (http://www.renesas.com)

More information

計算機ハードウエア

計算機ハードウエア 計算機ハードウエア 2017 年度前期 第 4 回 前回の話 コンピュータバスの構成 データバス I/O (Input/ Output) CPU メモリ アドレスバス コントロールバス コンピュータバスは コンピュータ本体 (CPU) と そのコンピュータ本体とデータのやり取りをする複数の相手との間を結ぶ 共用の信号伝送路である CPU は バス を制御して 複数のデバイス ( メモリや I/O)

More information

Agenda GRAPE-MPの紹介と性能評価 GRAPE-MPの概要 OpenCLによる四倍精度演算 (preliminary) 4倍精度演算用SIM 加速ボード 6 processor elem with 128 bit logic Peak: 1.2Gflops

Agenda GRAPE-MPの紹介と性能評価 GRAPE-MPの概要 OpenCLによる四倍精度演算 (preliminary) 4倍精度演算用SIM 加速ボード 6 processor elem with 128 bit logic Peak: 1.2Gflops Agenda GRAPE-MPの紹介と性能評価 GRAPE-MPの概要 OpenCLによる四倍精度演算 (preliminary) 4倍精度演算用SIM 加速ボード 6 processor elem with 128 bit logic Peak: 1.2Gflops ボードの概要 Control processor (FPGA by Altera) GRAPE-MP chip[nextreme

More information

Microsoft PowerPoint mm

Microsoft PowerPoint mm システムプログラム概論 Memory management 1/2 2005/4/26 門林雄基 ( インターネット工学講座 ) 奈良先端科学技術大学院大学 今日の講義のポイント 問題は何か? memory hierarchy ( メモリ階層 ) この複雑な技術を 単純なプログラミングで使いこなせるようにできないか memory management in operating system 今日の講義のポイント

More information

Microsoft PowerPoint - 集積デバイス工学 基礎編 2010_5 [互換モード]

Microsoft PowerPoint - 集積デバイス工学 基礎編 2010_5 [互換モード] 半導体メモリが新応用を開拓した例 集積デバイス工学半導体メモリ 2010 年 5 月 14 日東京大学大学院工学系研究科電気系工学竹内健 E-mail : takeuchi@lsi.t.u-tokyo.ac.jp http://www.lsi.t.u-tokyo.ac.jp p y jp アップル社の ipod nano 2005 年 9 月発売 フラッシュメモリの記憶容量によって価格の異なるラインアップ

More information

Microsoft PowerPoint - No6note.ppt

Microsoft PowerPoint - No6note.ppt 前回 : 管理 管理の目的 : の効率的利用 ( 固定区画方式 可変区画方式 ) しかし, いかに効率よく使ったとしても, 実行可能なプログラムサイズや同時に実行できるプロセス数は実装されているの大きさ ( 容量 ) に制限される 256kB の上で,28kB のプロセスを同時に 4 個実行させることはできないか? 2 256kB の上で,52kB のプロセスを実行させることはできないか? 方策 :

More information

Microsoft Word ●MPI性能検証_志田_ _更新__ doc

Microsoft Word ●MPI性能検証_志田_ _更新__ doc 2.2.2. MPI 性能検証 富士通株式会社 志田直之 ここでは,Open MPI および富士通 MPI を用いて,MPI 性能の評価結果について報告する 1. 性能評価のポイント MPI の性能評価は, 大きく 3 つに分けて評価を行った プロセス数増加に向けた検証 ノード内通信とノード間通信の検証 性能検証 - 連続データ転送 - ストライド転送 2. プロセス数増加に向けた検証 評価に用いたシステムを以下に示す

More information

Microsoft PowerPoint - sales2.ppt

Microsoft PowerPoint - sales2.ppt 最適化とは何? CPU アーキテクチャに沿った形で最適な性能を抽出できるようにする技法 ( 性能向上技法 ) コンパイラによるプログラム最適化 コンパイラメーカの技量 経験量に依存 最適化ツールによるプログラム最適化 KAP (Kuck & Associates, Inc. ) 人によるプログラム最適化 アーキテクチャのボトルネックを知ること 3 使用コンパイラによる性能の違い MFLOPS 90

More information

Microsoft PowerPoint - OS09.pptx

Microsoft PowerPoint - OS09.pptx この資料は 情報工学レクチャーシリーズ松尾啓志著 ( 森北出版株式会社 ) を用いて授業を行うために 名古屋工業大学松尾啓志 津邑公暁が作成しました 主記憶管理 ページング パワーポイント 7 で最終版として保存しているため 変更はできませんが 授業でお使いなる場合は松尾 (matsuo@nitech.ac.jp) まで連絡いただければ 編集可能なバージョンをお渡しする事も可能です 復習 復習 主記憶管理

More information

Microsoft PowerPoint - NxLec ppt

Microsoft PowerPoint - NxLec ppt 動的スケジューリング ( アウトオブオーダ実行 ) 計算機アーキテクチャ特論 (Advanced Computer Architectures) (1) DIV.D F0, F2, F4 (2) ADD.D F10, F0, F8 (3) SUB.D F12, F8, F14 9. アウトオブオーダプロセッサステートと例外回復 DIV.D とADD.Dの依存がパイプラインをストールさせ,SUB.D

More information

VLSI工学

VLSI工学 2008//5/ () 2008//5/ () 2 () http://ssc.pe.titech.ac.jp 2008//5/ () 3!! A (WCDMA/GSM) DD DoCoMo 905iP905i 2008//5/ () 4 minisd P900i SemiConsult SDRAM, MPEG4 UIMIrDA LCD/ AF ADC/DAC IC CCD C-CPUA-CPU DSPSRAM

More information

6 ZettaScaler-1.x Supercomputer systems

6 ZettaScaler-1.x Supercomputer systems VDEC20 周年記念行事講演 次世代 AI とスーパーコンピュータが実現する近未来に向けて ~ 国産技術による独自 AI エンジンとスパコン開発のご紹介 ~ 2017 年 1 月 20 日 齊藤 元章 ( 株式会社 PEZY Computing/ 株式会社 ExaScaler/UltraMemory 株式会社株式会社 Deep Insights/ 株式会社 Infinite Curation) 6

More information

SDRAM および DRAM の メモリ システムの概要

SDRAM および DRAM の メモリ システムの概要 CHAPTER 製品番号 :MEM-NPE-3MB= MEM-NPE-64MB= MEM-NPE-8MB= MEM-SD-NPE-3MB= MEM-SD-NPE-64MB= MEM-SD-NPE-8MB= MEM-SD-NSE-56MB= MEM-NPE-400-8MB= MEM-NPE-400-56MB= MEM-NPE-400-5MB= NPE-00= NPE-50= NPE-75= NPE-00=

More information

,4) 1 P% P%P=2.5 5%!%! (1) = (2) l l Figure 1 A compilation flow of the proposing sampling based architecture simulation

,4) 1 P% P%P=2.5 5%!%! (1) = (2) l l Figure 1 A compilation flow of the proposing sampling based architecture simulation 1 1 1 1 SPEC CPU 2000 EQUAKE 1.6 50 500 A Parallelizing Compiler Cooperative Multicore Architecture Simulator with Changeover Mechanism of Simulation Modes GAKUHO TAGUCHI 1 YOUICHI ABE 1 KEIJI KIMURA 1

More information

11 月発表の Green500 最新結果の顛末 本来は Green500 で 1-4 位独占を実現する目論見であった 7 月の ISC で 計測ルールが v2.0 になることが予告された ( 現行の v1.2 ルールでの計測値改善には注力せず v2.0 対応作業のみ進めていた ) 最後まで v1.

11 月発表の Green500 最新結果の顛末 本来は Green500 で 1-4 位独占を実現する目論見であった 7 月の ISC で 計測ルールが v2.0 になることが予告された ( 現行の v1.2 ルールでの計測値改善には注力せず v2.0 対応作業のみ進めていた ) 最後まで v1. ZettaScaler-1.5 による HPC システム構築と ZettaScaler-2.0 構想 2015 年 12 月 18 日 齊藤元章 ( 株式会社 PEZY Computing/ 株式会社 ExaScaler/UltraMemory 株式会社 ) 11 月発表の Green500 最新結果の顛末 本来は Green500 で 1-4 位独占を実現する目論見であった 7 月の ISC で

More information

Microsoft PowerPoint - Chap1 [Compatibility Mode]

Microsoft PowerPoint - Chap1 [Compatibility Mode] ディジタル設計 (A1) (Chap. 1) @ F301 http://www.ngc.is.ritsumei.ac.jp/~ger/lectures/digital2012/index.html 情報システム学科次世代コンピューティング研究室山下茂 ger@cs.ritsumei.ac.jp 0 目次 1. デジタル回路設計に関する概要の確認 基本的な用語 LSI 設計の流れ LSIの種類 現代用語の基礎知識ともいえます!

More information

OS

OS Operatig System 仮想記憶 2017-12 記憶階層 高速 & 小容量 ( 高価 ) レジスタ アクセスタイム 数ナノ秒 容量 ~1KB ランダムアクセス ランダムアクセス CPU 内キャッシュ (SRAM) 主記憶 (DRAM) フラッシュメモリ 数ナノ秒 数十ナノ秒 1MB 程度 数 GB 程度 シーケンシャルアクセス 磁気ディスク (HDD) 光磁気ディスク (CD-R DVD-RW

More information

スライド 1

スライド 1 Zabbix のデータベース ベンチマークレポート PostgreSQL vs MySQL Yoshiharu Mori SRA OSS Inc. Japan Agenda はじめに Simple test 大量のアイテムを設定 Partitioning test パーティションイングを利用して計測 Copyright 2013 SRA OSS, Inc. Japan All rights reserved.

More information

imai@eng.kagawa-u.ac.jp No1 No2 OS Wintel Intel x86 CPU No3 No4 8bit=2 8 =256(Byte) 16bit=2 16 =65,536(Byte)=64KB= 6 5 32bit=2 32 =4,294,967,296(Byte)=4GB= 43 64bit=2 64 =18,446,744,073,709,551,615(Byte)=16EB

More information

富士通セミコンダクター株式会社発表資料

富士通セミコンダクター株式会社発表資料 安心 安全を実現する安全を実現する FM3 マイコン 2012 年 6 月富士通セミコンダクター株式会社マイコンソリューション事業本部五十嵐稔行 Copyright 2010 FUJITSU LIMITED 目次 FM3 ロードマップ 安心 安全への取り組み安全への取り組み 1 Copyright 2010 FUJITSU LIMITED CPUロードマップとITRON系RTOS製品 T-Kernel/μT-Kernel

More information

Microsoft PowerPoint - 6.memory.ppt

Microsoft PowerPoint - 6.memory.ppt 6 章半導体メモリ 広島大学岩田穆 1 メモリの分類 リードライトメモリ : RWM リードとライトができる ( 同程度に高速 ) リードオンリメモリ : ROM 読み出し専用メモリ, ライトできない or ライトは非常に遅い ランダムアクセスメモリ : RAM 全番地を同時間でリードライトできる SRAM (Static Random Access Memory) 高速 DRAM (Dynamic

More information

Microsoft Word - SSTC_Intel_Core.doc

Microsoft Word - SSTC_Intel_Core.doc 技術メモ インテル Core マイクロアーキテクチャ スケーラブルシステムズ株式会社 技術メモ インテル Core マイクロアーキテクチャ 1. はじめに... 2 2. Intel Core マイクロアーキテクチャ... 3 3. マイクロプロセッサの性能を左右するものは?... 5 4. Intel Core マイクロアーキテクチャに投入された主要技術... 6 Advanced Digital

More information

Images per Second Images per Second VOLTA: ディープラーニングにおける大きな飛躍 ResNet-50 トレーニング 2.4x faster ResNet-50 推論 TensorRT - 7ms レイテンシ 3.7x faster P100 V100 P10

Images per Second Images per Second VOLTA: ディープラーニングにおける大きな飛躍 ResNet-50 トレーニング 2.4x faster ResNet-50 推論 TensorRT - 7ms レイテンシ 3.7x faster P100 V100 P10 NVIDIA TESLA V100 CUDA 9 のご紹介 森野慎也, シニアソリューションアーキテクト (GPU-Computing) NVIDIA Images per Second Images per Second VOLTA: ディープラーニングにおける大きな飛躍 ResNet-50 トレーニング 2.4x faster ResNet-50 推論 TensorRT - 7ms レイテンシ

More information