CacheBusのご紹介

Similar documents
VXPRO R1400® ご提案資料

富士通セミコンダクタープレスリリース 2009/05/19

特集新世代マイクロプロセッサアーキテクチャ ( 後編 ) 3. 実例 3 ユビキタス コンピューティング時代の組み込みマイクロコンピュータ, SuperH と M32R 清水徹 * 1 長谷川淳 * 2 服部俊洋 * 3 近藤弘郁 * 4 ( 株 ) ルネサステクノロジシステムソリューション統括本部

DRAM SRAM SDRAM (Synchronous DRAM) DDR SDRAM (Double Data Rate SDRAM) DRAM 4 C Wikipedia 1.8 SRAM DRAM DRAM SRAM DRAM SRAM (256M 1G bit) (32 64M bit)

スライド 1

スライド 1

10-vm1.ppt

完成版_セミナー発表資料110928

-2 外からみたプロセッサ GND VCC CLK A0 A1 A2 A3 A4 A A6 A7 A8 A9 A10 A11 A12 A13 A14 A1 A16 A17 A18 A19 D0 D1 D2 D3 D4 D D6 D7 D8 D9 D10 D11 D12 D13 D14 D1 MEMR

プロセッサ・アーキテクチャ

XAPP858 - High-Performance DDR2 SDRAM Interface In Virtex-5 Devices

今週の進捗

Microsoft PowerPoint - ARC2009HashiguchiSlides.pptx

Operating System 仮想記憶

OS

QuartusII SOPC_Builderで利用できるGPIF-AVALONブリッジとは?

Microsoft PowerPoint - 3.3タイミング制御.pptx

hpc141_shirahata.pdf

cpu2007lectureno2.ppt

(Microsoft PowerPoint - E6x5C SDXC Demo Seminar [\214\335\212\267\203\202\201[\203h])

QuartusII SOPC_Builderで利用できるGPIF-AVALONブリッジとは?

講義計画 1. コンピュータの歴史 1 2. コンピュータの歴史 2 3. コンピュータの歴史 3 4. 論理回路と記憶, 計算 : レジスタとALU 5. 主記憶装置とALU, レジスタの制御 6. 命令セットアーキテクチャ 7. 演習問題 8. パイプライン処理 9. メモリ階層 : キャッシュ

(Microsoft Word - DDR\203\215\203W\203A\203i\215\\\220\254-ver0619.doc)

平成20年度成果報告書

Microsoft PowerPoint - os ppt [互換モード]

スライド 1

TFTP serverの実装

Microsoft PowerPoint - ICD2011TakadaSlides.pptx

SCIMA アーキテクチャと性能評価 - SCIMA アーキテクチャの概要 - 中村宏東京大学先端科学技術研究センター

この方法では, 複数のアドレスが同じインデックスに対応づけられる可能性があるため, キャッシュラインのコピーと書き戻しが交互に起きる性のミスが発生する可能性がある. これを回避するために考案されたのが, 連想メモリアクセスができる形キャッシュである. この方式は, キャッシュに余裕がある限り主記憶の

増設メモリ 1. 機能仕様 型番 製品名 備考 N GB 増設メモリボード DDR3-1333(PC ) SDRAM, Unbuffered N GB 増設メモリボード DDR3-1333(PC ) SDRAM, Unbuffered N8

組込み Linux の起動高速化 株式会社富士通コンピュータテクノロジーズ 亀山英司 1218ka01 Copyright 2013 FUJITSU COMPUTER TECHNOLOGIES LIMITED

6. パイプライン制御

Microsoft PowerPoint - sp ppt [互換モード]

テクニカルガイド 増設メモリ

増設メモリ 1. 機能 型名 N N N N N GB 16GB 3 (x2 枚 ) (x2 枚 ) (x2 枚 ) (8GBx2 枚 ) (16GBx2 枚 ) DDR3-1066(PC3-8500) 動作クロック

増設メモリ 1. 機能仕様 型番製品名備考 N GB 増設メモリボード (2x 4 GB/U) DDR3L-1333(PC3L-10600) SDRAM ECC 付 Registered, 2GBx2 枚の N GB 増設メモリボード DDR3L-1600(PC3

増設メモリ 1. 機能 型名 N N N (x1 枚 ) (x1 枚 ) (x1 枚 ) DDR3-1333(PC ) SDRAM-DIMM, Unbuffered,ECC 動作クロック 667MHz( 差動 ) 1.5V 型名 N8102

26 FPGA FPGA (Field Programmable Gate Array) ASIC (Application Specific Integrated Circuit) FPGA FPGA FPGA FPGA Linux FreeDOS skewed way L1

テクニカルガイド 増設メモリ

増設メモリ (2010/06/17)

増設メモリ 1. 機能 型名 N8102-G342 N8102-G343 N8102-G344 1GB (1GBx1 枚 ) (x1 枚 ) (x1 枚 ) SDRAM-DIMM, Unbuffered,ECC 1.5V 型名 N N N (1GBx1

Avalon Memory-Mappedブリッジ

10年オンプレで運用したmixiをAWSに移行した10の理由

計算機ハードウエア

富士通セミコンダクター株式会社発表資料

Microsoft PowerPoint - No15›¼‚z‰L›¯.ppt

Microsoft Word - PCI-X_PCIeバスのデータ転送-ver1.0.docx

増設メモリ 1. 機能 型名 N N N N GB (x1 枚 ) (x1 枚 ) (x1 枚 ) (8GBx1 枚 ) DDR3-1333(PC ) 動作クロック 667MHz( 差動 ) 1.5V 型名 N8102-3

システムソリューションのご紹介

Microsoft Word - SUA007

Stratix IIIデバイスの外部メモリ・インタフェース

テクニカルガイド「増設メモリ」(2006/09/15)

White Paper 高速部分画像検索キット(FPGA アクセラレーション)

高速バックボーンネットワークにおける公平性を考慮した階層化パケットスケジューリング方式

Virtex-6 Clocking

Microsoft PowerPoint - ARC-SWoPP2011OkaSlides.pptx

Notes and Points for ADuCM320 Internal Flash memory

インテル アーキテクチャプラットフォーム リーダーシップ 2000 年 12 月 21 日 第 14 回数値流体力学シンポジウム インテル株式会社 ia 技術本部本部長坂野勝美

Microsoft PowerPoint - 【最終提出版】 MATLAB_EXPO2014講演資料_ルネサス菅原.pptx

プログラマブル論理デバイス

Microsoft PowerPoint - NxLec ppt

科学技術振興調整費 中間成果報告書 若手任期付研究員支援 組込みアーキテクチャ協調型実時間 OS 研究期間 : 平成 13 年度 ~ 平成 15 年 6 月 北陸先端科学技術大学院大学田中清史

Microsoft Office Visioによる 施設管理について

Microsoft Word ●MPI性能検証_志田_ _更新__ doc

複数の Nios II を構成する際の注意事項

スライド 1

スライド 1

スライド 0

Microsoft PowerPoint - ARCEMB08HayashiSlides.ppt [互換モード]

< B8CDD8AB B83685D>

Windows Server 2016 Hyper-V ストレージQoS機能の強化

Microsoft Word - nvsi_050110jp_netvault_vtl_on_dothill_sannetII.doc

スライド 1

RTC_STM32F4 の説明 2013/10/20 STM32F4 内蔵 RTC の日付 時刻の設定および読み込みを行うプログラムです UART2( 非同期シリアル通信ポート 2) を使用して RTC の設定および読み込みを行います 無料の開発ツール Atollic TrueSTUDIO for

セキュアVMの アーキテクチャ概要

ヤマハDante機器と他社AES67機器の接続ガイド

RL78開発環境移行ガイド R8C/M16C, H8S/H8SXからRL78への移行(統合開発環境編)(High-performance Embedded Workshop→CS+)

N Express5800/R320a-E4 N Express5800/R320a-M4 ユーザーズガイド

Express5800/R320a-E4, Express5800/R320b-M4ユーザーズガイド

メモリ管理

0630-j.ppt

モータ HILS の概要 1 はじめに モータ HILS の需要 自動車の電子化及び 電気自動車やハイブリッド車の実用化に伴い モータの使用数が増大しています 従来行われていた駆動用モータ単体のシミュレーション レシプロエンジンとモータの駆動力分配制御シミュレーションの利用に加え パワーウインドやサ

共通マイクロアーキテクチャ 富士通はプロセッサー設計に共通マイクロアーキテクチャを導入し メインフレーム UNIX サーバーおよびスーパーコンピューターそれぞれの要件を満たすプロセッサーの継続的かつ効率的な開発を容易にしている また この取り組みにより それぞれの固有要件を共通機能として取り込むこと

Microsoft Word - 03_PCIe特集_PCIe実現方法.doc

「電子政府推奨暗号の実装」評価報告書

I II III 28 29

生活設計レジメ

44 4 I (1) ( ) (10 15 ) ( 17 ) ( 3 1 ) (2)

Notes and Points for TM4C123Gx Internal Flash memory

増設メモリ (2006/11/20)


スライド 1

Microsoft PowerPoint - t-kubo07PN-LAMBDA-slide.ppt

HardCopy IIIデバイスの外部メモリ・インタフェース

コンテンツセントリックネットワーク技術を用いた ストリームデータ配信システムの設計と実装

スライド タイトルなし

Notes and Points for TMPR454 Flash memory

Express5800/R320a-E4/Express5800/R320b-M4ユーザーズガイド

PowerPoint プレゼンテーション

Transcription:

高性能メモリコントローラ Multiple Cache Memory Controller MC 2 の紹介 ArchiTek 株式会社 2011.10.28

用途によって異なる メモリアーキテクチャへの要求 同時動作帯域 メモリ構成 コストマッピング プロセス レイアウト 検証 開発期間

メモリアーキテクチャの 必要機能を統合 従来のシステム例 提案するシステム例 CPU DSP CPU DSP エンジン A エンジン B DMA エンジン A エンジン B DMA SRAM SRAM 制御 統合メモリ制御コア メモリ構成をその都度カスタマイズ 統合メモリ制御コアにより設計を分離 高性能システムの設計を簡単化する環境提供を目指します

メモリアーキテクチャの エッセンスを抽出 集積 性能 ランダムアクセス高スループット低レイテンシ 一貫 機能の直交性設定の対称性 省電力 内部クロック制御省メモリ制御 Multiple Cache Memory Controller 柔軟 メモリ構成各種パラメータ機能追加 適応 シンプルプロトコルキャッシュ操作 MMU 内蔵 隠蔽 メモリマッピングコヒーレンス

MC 2導入のメリット - メモリを使用するあらゆるLSIのベースに 高性能 低コスト化 使い易さ追求 Master 0 Cache 0 Bank 0 Master 1 Cache 1 Bank 1 Master 2 Cache 2 Bank 2 Master 3 Master 4 コスト Cache 3 Cache 4 Gather /Scatter Control Bank 3 Bank 4 Cache 5 Bank 5 Master 6 Cache 6 Bank 6 Master 7 Cache 7 Bank 7 Master 5 性能 Bus Matrix 複数キャッシュで帯域N倍拡大 内蔵メモリの集積 合理化 性能 コスト Master Master DDR2 AXI4 AHB Brg MMU DDR2 16bit Mapping Config DDR3 8bit ブリッジで拡張容易 性能使い切る 汎用的なプロトコル MMU対応 の実装種類 個数 使用個数を最小化 マッピングが自由に変更可能 完全なコヒーレンスを保証 設計期間短縮 低消費電力化 Off Master Complex Manage Large Buffer General Memory Controller Master Simple Manage Least Buffer Cache Configuration 設計毎 マスターとメモリ システムを意識した設計 マスター設計が容易 都合に合わせて設定変更 On/Off Off Clock 状態をクロック単位で把握 ブロックごとに細かく制御 メモリごとにOn/Off最適制御 キャッシュでアクセス量低減

メリットの内容 1. 高性能 低コスト化 2. 使い易さの追求 i. キャッシュの一体化とバンク構造の採用 ii. iii. 高スループット キャッシュの採用 高効率なメモリ制御 12 i. 汎用的なインターフェイスを装備 ii. 共有 MMU(TLB 込み ) を内蔵 iii. マスター単位の優先制御 12 iv. ユーザ回路の挿入 I/Fを用意 3. 設計期間の短縮 4. 低消費電力化 i. 簡単なキャッシュのカスタマイズ ii. 柔軟なの実装 構成 iii. 柔軟なアドレスマッピング i. 粒度の細かいクロックゲーティング ii. 規模 速度を考慮した階層設計

1 高性能 低コスト化 ⅰ キャッシュの一体化とバンク構造の採用 帯域拡大 同時アクセス とアクセス軽減 システムメモリの集積による低コスト化 マスター マスター マスター マスター マスター マスター Arbiter / MMU MUX 任意容量 任意バンク数 Cache Cache Cache Cache Cache Cache Cache Cache 可能な限り 集積 共用化 Control 論理帯域を飛躍的に拡大し複数マスターに対処します

1. 高性能 低コスト化 (ⅱ) エンジン向けの高スループット キャッシュの採用 Non-blocking アクセス Write-back, Write-through, Byte Mask Flush w/tag クリア, ID 選択, Area 選択 Miss でも次のアクセスを受け付け Address Non-blocking Processing Acknowledge Write Way 0 1 2 3 Addr(0) Addr(1) Read Addr(n-1) バイパス AV 処理など大容量で連続的なアクセスに対処します

1. 高性能 低コスト化 (ⅲ) 高効率なメモリ制御 1 CS, Bank, R/Wの連続性を考慮したスケジューリング Bankの交互アクセス 連続 ( ページ ) アクセスを自動判別 clk cke cs_n ras_n cas_n a[10] ba[2:0] dqs d Act Wr AP Act Precharge Cycle A B C B X Latecy Wr AP Act Wr AP Act Wr Wr Wr AP Act A A A A A A A A B B B B B B B B C C C C C C C C 0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7 Latecy Precharge Cycle B B A B B B B B B B B B B B B B B B B B B B B B 0 1 2 3 4 5 6 7 8 91011121314151617181920212223 異なる Bank に交互アクセス 同一 Bank にページアクセス 帯域使用効率 80~98%( シミュレーション計測例 ) 性能が最大限に発揮でき 部品削減の余地が生まれます

1 高性能 低コスト化 ⅲ 高効率なメモリ制御 ② 従来方式 ランダムアクセスシミュレーション サンプル M M M M Serialize 4000サイクル中 Control 本方式 トランザクション 2197 アイドルサイクル 706 ランダムアクセスシミュレーション サンプル 同一条件 同一スケール M M M M C C C C Control 4000サイクル中 選択肢多数 トランザクション 3473 アイドルサイクル 15 ペナルティは R W切り替えとテスト初期化のオーバヘッド

メリットの内容 1. 高性能 低コスト化 2. 使い易さの追求 i. キャッシュの一体化とバンク構造の採用 ii. iii. 高スループット キャッシュの採用 高効率なメモリ制御 12 i. 汎用的なインターフェイスを装備 ii. 共有 MMU(TLB 込み ) を内蔵 iii. マスター単位の優先制御 12 iv. ユーザ回路の挿入 I/Fを用意 3. 設計期間の短縮 4. 低消費電力化 i. 簡単なキャッシュのカスタマイズ ii. 柔軟なの実装 構成 iii. 柔軟なアドレスマッピング i. 粒度の細かいクロックゲーティング ii. 規模 速度を考慮した階層設計

2. 使い易さの追求 (ⅰ) 汎用的なインターフェイスを装備 アドレス データ分離のシンプルなバス仕様 ( クロック同期型 ) アドレス信号 Request, Grant, R/W, Address, Burst データ信号 Strobe, Acknowledge,, Mask その他の信号 Priority, Cache Op., Atomic Access 完全なコヒーレンス制御 同一マスターのIn-orderアクセスを保証 異なるマスター間のR/Wコヒーレンスを保証 マルチプロセッサ用のアトミックアクセスをサポート MC 2 AHB AXI OCP ブリッジがあれば 応用範囲がさらに拡がります シンプルなプロトコルで 幅広い対応が可能です

2. 使い易さの追求 (ⅱ) 共有 MMU(TLB 込み ) を内蔵 メモリから 1 回引きのページテーブル変換 (4KB / 64KB / 1MB) 並列処理によりスループットの低下なし Logical Address 31 28 27 12 11 0 Index Offset Shared MMU ID Table TLB ID マスターから固有 ID を指定し個別管理も OK + Table Addr +0 +1 +2 +3 +4 +5 +6 +7 Physical Address 後段は物理キャッシュになる システムで一元的なメモリ管理が可能になります

2 使い易さの追求 ⅲ マスター単位の優先制御 ① 優先度は任意に付与 最終判断はラウンドロビン 使用した帯域を計測し 優先度にフィードバック マスター X マスター Y Prior Target Bandwidth Access Counter 同一優先時はラ ウンドロビン マスター Z Prior ± Access Counter アクセス量 設定帯域 Prior ± Access Counter 時間 ± 単位時間内のアクセス量を計測 優先度を±1 Round-Robin Arbiter システム全体の帯域制御が簡単に制御できます

2. 使い易さの追求 (ⅲ) マスター単位の優先制御 2 帯域制御例 (8 マスターがランダムなアドレスにフルアクセス ) マスター番号昇順 ( 図では上から下へ ) に 2:2:4:4:8:8:15: 16 の割合の帯域を設定 t 単位時間内のアクセス量 優先度 ± 帯域設定の大きいものほど設定値通り高密度 結果 : アクセスの受け付け回数 設定通り 帯域が取得されている例です

2 使い易さの追求 ⅳ ユーザー回路の挿入I/Fを用意 キャッシュと間にユーザーパイプラインの設置が可能 特定IDのデータだけを選択して処理 Cache IDにより分岐 User Logic Writeパス 通常アクセスパス User Logic Readパス 任意パイプライン長 圧縮伸長 暗号などシステム全体に効く機能を組み込めます

メリットの内容 1. 高性能 低コスト化 2. 使い易さの追求 i. キャッシュの一体化とバンク構造の採用 ii. iii. 高スループット キャッシュの採用 高効率なメモリ制御 12 i. 汎用的なインターフェイスを装備 ii. 共有 MMU(TLB 込み ) を内蔵 iii. マスター単位の優先制御 12 iv. ユーザ回路の挿入 I/Fを用意 3. 設計期間の短縮 4. 低消費電力化 i. 簡単なキャッシュのカスタマイズ ii. 柔軟なの実装 構成 iii. 柔軟なアドレスマッピング i. 粒度の細かいクロックゲーティング ii. 規模 速度を考慮した階層設計

3 設計期間短縮 ⅰ 簡単なキャッシュのカスタマイズ コンパイラブル 一般的なSRAMを使用 主にSRAM容量のカスタマイズだけ Way数, キャッシュライン数 Wayごとの各種定義はレジスタで設定 専用RAM, 特定ID対応 コンフィグレーション キャッシュ ライン数 カスタマイズ カスタマイズ Way数 Way0 固定割当て 特定ID割当て Way0 Way1 Way2 Way3 Way1 Way2 Way3 Addr(0) Addr(0) Addr(0) Addr(0) Addr(1) Addr(1) Addr(1) Addr(1) SRAM キャッシュ の実装 構成を自由に決定できます

3 設計期間短縮 ⅱ 柔軟なの実装 構成 同一回路でDDR2/DDR3に対応 チャネル数 Group ランク数 Set は設計時にカスタマイズ バス幅 Full/Half 周波数 x1/x2 はレジスタ設定 動的変更 Group 0 Set 0 Set 1-3 B4-7 Group 1 Group X -3-3 B4-7 -3 Y ランク効果 バンク数Up メモリ容量Up B4-7 レイテンシDown 物理帯域Up B4-7 B4-7 チャネル効果 -3-3 Set B4-7 チャネルごとに 異なるの 実装OK の実装 構成を自由に決定できます

3. 設計期間短縮 (ⅲ) 柔軟なアドレスマッピング チャネル ランク バンクの配置はレジスタで設定 ( 動的変更 ) 高性能向き 低消費電力向き Address Address 31 28 24 20 16 12 8 4 0 31 28 24 20 16 12 8 4 0 S G B2 B1 G S B2 B1 0xFFFFFFFF 0xFFFFF000 0x00004000 0x00003000 0x00002000 0x00001000 0x00000000 Ch Grp 1 (4KB) Ch Grp 0 (4KB) Grp 1 (4KB) Ch Grp 0 (4KB) Ch Grp 1 (4KB) Ch Grp 0 (4KB) Ch Grp 1 (4KB) Ch Grp 0 (4KB) Rank 1 Rank 0 Rank 1 Rank 0 +F80 +F00 +E80 +E00 +D80 +D00 +C80 +C00 +B80 +0 +A80 +A00 +980 +900 +880 +800 +780 +700 +680 +600 +580 +500 +480 +400 +380 +300 +280 +200 +180 +100 +080 +000 16Byte Bank Bank Bank Bank Bank Bank Bank Bank 7 6 5 4 3 2 1 0 0xFFFFFFFF 0xC0000000 0x80000000 0x40000000 0x00000000 Rank Set 1 ( 1GB ) Rank Set 0 ( 1GB ) Rank Set 1 ( 1G B) Rank Set 0 ( 1G B) Ch 1 Ch 0 +FFFF +E000 +C000 +A000 +8000 +6000 +4000 +2000 +0000 Bank 7 Bank 6 Bank 5 Bank 4 Bank 3 Bank 2 Bank 1 Bank 0 LSB 寄りのチャネル, ランク, バンク配置 MSB 寄りのチャネル, ランク, バンク配置 極端な 2 例を提示 のアドレスマッピングを自由に変更できます

メリットの内容 1. 高性能 低コスト化 2. 使い易さの追求 i. キャッシュの一体化とバンク構造の採用 ii. iii. 高スループット キャッシュの採用 高効率なメモリ制御 12 i. 汎用的なインターフェイスを装備 ii. 共有 MMU(TLB 込み ) を内蔵 iii. マスター単位の優先制御 12 iv. ユーザ回路の挿入 I/Fを用意 3. 設計期間の短縮 4. 低消費電力化 i. 簡単なキャッシュのカスタマイズ ii. 柔軟なの実装 構成 iii. 柔軟なアドレスマッピング i. 粒度の細かいクロックゲーティング ii. 規模 速度を考慮した階層設計

4. 低消費電力化 (ⅰ) 粒度の細かいクロックゲーティング 主要ブロックごとに 動作タイミングに合わせてクロックを印加 のチャンネルとランクごとに細かく CKE を制御 IDLE 信号 動作タイミング Ack Ack Ack Ack Ack Ack Ack Ack Ack Ack Ack クロック IDEL 時クロック Off 動作時クロック On IDEL 時クロック Off ユーザーから意識することなく省電力化を図ります

4. 低消費電力化 (ⅱ) 規模 速度を考慮した階層設計 高い動作周波数部分を最小化 同期設計を徹底し性能を維持非同期マスターには マスター Arbiter / MMU MUX CACHE (User Logic) Control マスター ブリッジ ブリッジの挿入で対処 回路規模 1000 100 高速動作部分を限定し 合成 レイアウト負担を軽減させます 4 基本周波数 x 1 基本周波数 x 2 基本周波数 x 4 回路規模は参考相対値

仕様 仕様と回路規模 ( 例 ) クロック ( 目安 ) バス (200MHz), メモリ (800MHz), 完全同期 マスター数 8x32bit(via キャッシュ ), 4x64bit( バイパス ) コヒーレンス制御相互の R/W 全て, Atomic アクセスサポート 優先度制御固定, ランダム, 帯域設定 MMU サポート TLB 内蔵, 1 回のテーブルウォーク キャッシュ対応 8Bank, 4Way, Total 512KB 対応 DDR2/3( 混在可 ), 2Ch x 2Rank x 8/16bit メモリマッピング Bank, Ch, Rank の配置はレジスタ設定 レイテンシ 10( キャッシュヒット ), 20( キャッシュミス ) の設定により前後します 回路規模 ( 目安 ) FF 個数 100K 以下 SRAM 総容量 640KByte

システムへの組み込みに向けて I/O CPU システム LSI / FPGA エンジン PHY お客様 I/O Cache MC 2 MCMC 2 各種エンジン * DSP PSS* 各種 Cache *PSS は弊社の DMA 制御コアです * 各種エンジンの設計はご相談下さい ArchiTek エンジン エンジン PSS* PHY CPU メモリコアだけでなく総合的なソリューションの提案も可能です DSP

終わり ArchiTek 株式会社 Osaka, Japan ArchiTek Corporation +81-90-1590-6809 http://www.architek.co.jp