User-defined Logic Application Memory Manager (Replacement) Application Specific Prefetcher (ASP) Application Kernel On-chip RAM (BRAM) On-chip RAM I/



Similar documents
B

Core1 FabScalar VerilogHDL Cache Cache FabScalar 1 CoreConnect[2] Wishbone[3] AMBA[4] AMBA 1 AMBA ARM L2 AMBA2.0 AMBA2.0 FabScalar AHB APB AHB AMBA2.0

Chip Size and Performance Evaluations of Shared Cache for On-chip Multiprocessor Takahiro SASAKI, Tomohiro INOUE, Nobuhiko OMORI, Tetsuo HIRONAKA, Han

Microsoft PowerPoint - Lec pptx

3.1 Thalmic Lab Myo * Bluetooth PC Myo 8 RMS RMS t RMS(t) i (i = 1, 2,, 8) 8 SVM libsvm *2 ν-svm 1 Myo 2 8 RMS 3.2 Myo (Root

Microsoft PowerPoint - ARCICD07FukumotoSlides.pptx

26 FPGA FPGA (Field Programmable Gate Array) ASIC (Application Specific Integrated Circuit) FPGA FPGA FPGA FPGA Linux FreeDOS skewed way L1

IPSJ SIG Technical Report Vol.2013-ARC-206 No /8/1 Android Dominic Hillenbrand ODROID-X2 GPIO Android OSCAR WFI 500[us] GPIO GP


IPSJ SIG Technical Report Vol.2018-SE-200 No /12/ Proposal of test description support environment for request acquisition in web appli

Verilog HDL による回路設計記述

,4) 1 P% P%P=2.5 5%!%! (1) = (2) l l Figure 1 A compilation flow of the proposing sampling based architecture simulation

C ImpulseC[2] CyberWorkBench[3] LegUp[4] Java JHDL[5] Lime[6] JavaRock[7] HDL IP CFD Fortran Java JavaRock-Thrash[1] Verilog HDL HW Fortran Java HW Fo

組込みシステムシンポジウム2011 Embedded Systems Symposium 2011 ESS /10/20 FPGA Android Android Java FPGA Java FPGA Dalvik VM Intel Atom FPGA PCI Express DM

2). 3) 4) 1.2 NICTNICT DCRA Dihedral Corner Reflector micro-arraysdcra DCRA DCRA DCRA 3D DCRA PC USB PC PC ON / OFF Velleman K8055 K8055 K8055

Microsoft PowerPoint - Lec pptx

Lyra X Y X Y ivis Designer Lyra ivisdesigner Lyra ivisdesigner 2 ( 1 ) ( 2 ) ( 3 ) ( 4 ) ( 5 ) (1) (2) (3) (4) (5) Iv Studio [8] 3 (5) (4) (1) (

IPSJ SIG Technical Report Vol.2017-MUS-116 No /8/24 MachineDancing: 1,a) 1,b) 3 MachineDancing MachineDancing MachineDancing 1 MachineDan

IPSJ SIG Technical Report Vol.2017-ARC-225 No.12 Vol.2017-SLDM-179 No.12 Vol.2017-EMB-44 No /3/9 1 1 RTOS DefensiveZone DefensiveZone MPU RTOS

情報処理学会研究報告 IPSJ SIG Technical Report Vol.2014-DPS-159 No.31 Vol.2014-MBL-71 No /5/16 仮想化環境における読込み書込み比率を考慮した動的 VM メモリ割り当て 1 坂本雅哉 1 山口実靖 近年, サーバの

IPSJ SIG Technical Report Vol.2015-ARC-215 No.7 Vol.2015-OS-133 No /5/26 Just-In-Time PG 1,a) 1, Just-In-Time VM Geyser Dalvik VM Caffei

IPSJ SIG Technical Report 1 1, Nested Transactional Memory Selecting the Optimal Rollback Point Yuji Ito, 1 Ryota Shioya, 1, 2 Masahiro Goshima

FabHetero FabHetero FabHetero FabCache FabCache SPEC2000INT IPC FabCache 0.076%

Microsoft PowerPoint - ARCEMB08HayashiSlides.ppt [互換モード]

Unconventional HDL Programming ( version) 1

Run-Based Trieから構成される 決定木の枝刈り法

untitled

FPGAメモリおよび定数のインシステム・アップデート

Vol. 23 No. 4 Oct Kitchen of the Future 1 Kitchen of the Future 1 1 Kitchen of the Future LCD [7], [8] (Kitchen of the Future ) WWW [7], [3

Nios II 簡易チュートリアル

N conf N prog N input (1) T eva T eva T sim N conf N prog N input (1) T sim 2.2 T sim 1),17) 3),9),11),13) 10),12),14),19) Eeckh

IPSJ SIG Technical Report Vol.2011-EC-19 No /3/ ,.,., Peg-Scope Viewer,,.,,,,. Utilization of Watching Logs for Support of Multi-

Vol.55 No (Jan. 2014) saccess 6 saccess 7 saccess 2. [3] p.33 * B (A) (B) (C) (D) (E) (F) *1 [3], [4] Web PDF a m

1 OpenCL OpenCL 1 OpenCL GPU ( ) 1 OpenCL Compute Units Elements OpenCL OpenCL SPMD (Single-Program, Multiple-Data) SPMD OpenCL work-item work-group N

問 2. タイミングチャート以下に示す VHDL コードで記述されている回路に関するタイミングチャートを完成させよ ) レジスタの動作 use IEEE.std_logic_64.all; entity RegN is generic (N : integer := 8 port ( CLK, EN

strtok-count.eps

Computer Security Symposium October 2013 Android OS kub

FINAL PROGRAM 25th Annual Workshop SWoPP / / 2012 Tottori Summer United Workshops on Parallel, Distributed, and Cooperative Processing 2012

IPSJ SIG Technical Report Vol.2013-HCI-152 No /3/14 Sonoba.org: 1,a) 2 2 SNS SNS SNS Sonoba.org URL 1. Computer Mediated Communication (CMC) CM

GUI(Graphical User Interface) GUI CLI(Command Line Interface) GUI

MAC root Linux 1 OS Linux 2.6 Linux Security Modules LSM [1] Security-Enhanced Linux SELinux [2] AppArmor[3] OS OS OS LSM LSM Performance Monitor LSMP

IPSJ SIG Technical Report Vol.2014-CG-155 No /6/28 1,a) 1,2,3 1 3,4 CG An Interpolation Method of Different Flow Fields using Polar Inter

23 Fig. 2: hwmodulev2 3. Reconfigurable HPC 3.1 hw/sw hw/sw hw/sw FPGA PC FPGA PC FPGA HPC FPGA FPGA hw/sw hw/sw hw- Module FPGA hwmodule hw/sw FPGA h

Windows7 OS Focus Follows Click, FFC FFC focus follows mouse, FFM Windows Macintosh FFC n n n n ms n n 4.2 2

IPSJ SIG Technical Report Vol.2018-ARC-231 No /6/ TM HTM Tx HTM Tx read write Tx Tx Tx read write LogTM 63.6% 38.8% 1. Transaction

PowerPoint プレゼンテーション

( ) [1][2] 3 Displair Displair Displair Fig. 1 1 Overview of the proposed method. 2.2 Traxion[3] Traxion Lecuyer Pseudo-Haptic Fe

DRAM L2 L2 DRAM L2 DRAM L2 RAM DRAM 3 DRAM 3. 1 DRAM SRAM/DRAM 2. SRAM/DRAM DRAM LLC Last Level Cache 2 2) DRAM 1(A) (B) LLC L2 DRAM DRAM L2 SRAM DRAM

Vol.214-HPC-145 No /7/3 C #pragma acc directive-name [clause [[,] clause] ] new-line structured block Fortran!$acc directive-name [clause [[,] c

情報処理学会研究報告 図 1 不動カーソル領域 [6] より引用 図 2 DriftBoard [7] より引用 ポインティングの操作性能評価としては 代表的なもの に Fitts によって提唱された Fitts Law [5] がある 操作 性能を定式化することによって 定量的に性能を評価し かつ

Design at a higher level

Input image Initialize variables Loop for period of oscillation Update height map Make shade image Change property of image Output image Change time L

IPSJ SIG Technical Report Vol.2015-MUS-106 No.10 Vol.2015-EC-35 No /3/2 BGM 1,4,a) ,4 BGM. BGM. BGM BGM. BGM. BGM. BGM. 1.,. YouTube 201

1. HNS [1] HNS HNS HNS [2] HNS [3] [4] [5] HNS 16ch SNR [6] 1 16ch 1 3 SNR [4] [5] 2. 2 HNS API HNS CS27-HNS [1] (SOA) [7] API Web 2

2) TA Hercules CAA 5 [6], [7] CAA BOSS [8] 2. C II C. ( 1 ) C. ( 2 ). ( 3 ) 100. ( 4 ) () HTML NFS Hercules ( )

Łñ“’‘‚2004

プリント


IPSJ SIG Technical Report Vol.2013-ARC-203 No /2/1 SMYLE OpenCL (NEDO) IT FPGA SMYLEref SMYLE OpenCL SMYLE OpenCL FPGA 1

DPA,, ShareLog 3) 4) 2.2 Strino Strino STRain-based user Interface with tacticle of elastic Natural ObjectsStrino 1 Strino ) PC Log-Log (2007 6)

main.dvi

[4] ACP (Advanced Communication Primitives) [1] ACP ACP [2] ACP Tofu UDP [3] HPC InfiniBand InfiniBand ACP 2 ACP, 3 InfiniBand ACP 4 5 ACP 2. ACP ACP

1 2 3 マルチメディア, 分散, 協調とモバイル (DICOMO2013) シンポジウム 平成 25 年 7 月.,.,,.,. Surrogate Diner,., Surrogate Diner,, 3,, Surrogate Diner. An Interface Agent for Ps

2. Eades 1) Kamada-Kawai 7) Fruchterman 2) 6) ACE 8) HDE 9) Kruskal MDS 13) 11) Kruskal AGI Active Graph Interface 3) Kruskal 5) Kruskal 4) 3. Kruskal

160311_icm2015-muramatsu-v2.pptx

理工ジャーナル 23‐1☆/1.外村


取扱説明書[L704i]

ネットリストおよびフィジカル・シンセシスの最適化

IPSJ SIG Technical Report 1,a) 1,b) 1,c) 1,d) 2,e) 2,f) 2,g) 1. [1] [2] 2 [3] Osaka Prefecture University 1 1, Gakuencho, Naka, Sakai,


if clear = 1 then Q <= " "; elsif we = 1 then Q <= D; end rtl; regs.vhdl clk 0 1 rst clear we Write Enable we 1 we 0 if clk 1 Q if rst =

.,,, [12].,, [13].,,.,, meal[10]., [11], SNS.,., [14].,,.,,.,,,.,,., Cami-log, , [15], A/D (Powerlab ; ), F- (F-150M, ), ( PC ).,, Chart5(ADIns

IPSJ SIG Technical Report Vol.2014-MBL-70 No.49 Vol.2014-UBI-41 No /3/15 2,a) 2,b) 2,c) 2,d),e) WiFi WiFi WiFi 1. SNS GPS Twitter Facebook Twit

MAC61、MAC64、GAC61 改造仕様書

xx/xx Vol. Jxx A No. xx 1 Fig. 1 PAL(Panoramic Annular Lens) PAL(Panoramic Annular Lens) PAL (2) PAL PAL 2 PAL 3 2 PAL 1 PAL 3 PAL PAL 2. 1 PAL

IPSJ SIG Technical Report Vol.2013-ICS-172 No /11/12 1,a), 1,b) Anomaly Detection 1. 1 Nagoya Institute of Technology 1 Presently with Nagoya In

1 1 CodeDrummer CodeMusician CodeDrummer Fig. 1 Overview of proposal system c

23

Research Question Unacceptable Files:FS GQM 1 2 GQM s r 2.1 GQM Goal-Question-Metric GQM [2] GQM 3 Qustions GQM 3 GQM 2.2 UFs AFs Acceptable Fi

Vol.53 No (Mar. 2012) 1, 1,a) 1, 2 1 1, , Musical Interaction System Based on Stage Metaphor Seiko Myojin 1, 1,a

知能と情報, Vol.29, No.6, pp

OS,,, Abstract OS LibOS LibOS OS OS OS LibOS Elasticty LibOS LibOS Li

IPSJ SIG Technical Report Vol.2013-CE-122 No.16 Vol.2013-CLE-11 No /12/14 Android 1,a) 1 1 GPS LAN 2 LAN Android,,, Android, HTML5 LAN 1. ICT(I

PC Development of Distributed PC Grid System,,,, Junji Umemoto, Hiroyuki Ebara, Katsumi Onishi, Hiroaki Morikawa, and Bunryu U PC WAN PC PC WAN PC 1 P

IPSJ SIG Technical Report Vol.2015-GN-93 No.29 Vol.2015-CDS-12 No.29 Vol.2015-DCC-9 No /1/27 1,a) 1 1 LAN IP 1), 2), 3), 4), 5) [

IPSJ SIG Technical Report Vol.2015-ARC-215 No.13 Vol.2015-OS-133 No /5/ ,a) % 13.9% 1. Transactional Memory: TM [1] TM TM 1 Nag

The copyright of this material is retained by the Information Processing Society of Japan (IPSJ). The material has been made available on the website

IPSJ SIG Technical Report iphone iphone,,., OpenGl ES 2.0 GLSL(OpenGL Shading Language), iphone GPGPU(General-Purpose Computing on Graphics Proc

hpc141_shirahata.pdf

No. 3 Oct The person to the left of the stool carried the traffic-cone towards the trash-can. α α β α α β α α β α Track2 Track3 Track1 Track0 1

DRAM SRAM SDRAM (Synchronous DRAM) DDR SDRAM (Double Data Rate SDRAM) DRAM 4 C Wikipedia 1.8 SRAM DRAM DRAM SRAM DRAM SRAM (256M 1G bit) (32 64M bit)

27 AR

オンチップ・メモリ クイック・ガイド for Cyclone III

Fig. 3 3 Types considered when detecting pattern violations 9)12) 8)9) 2 5 methodx close C Java C Java 3 Java 1 JDT Core 7) ) S P S


/ / SeamlessCVE

Presentation Title

Wikipedia YahooQA MAD 4)5) MAD Web 6) 3. YAMAHA 7) 8) Vocaloid PV YouTube 1 minato minato ussy 3D MAD F EDis ussy

(a) 1 (b) 3. Gilbert Pernicka[2] Treibitz Schechner[3] Narasimhan [4] Kim [5] Nayar [6] [7][8][9] 2. X X X [10] [11] L L t L s L = L t + L s

Transcription:

RTL 1,2,a) 1,b) CPU Verilog HDL RTL 1. CPU GPU Verilog HDL VHDL RTL HDL Vivado HLS Impulse C CPU 1 2 a) takamaeda@arch.cs.titech.ac.jp b) kise@cs.titech.ac.jp RTL RTL RTL Verilog HDL RTL 2. 1 HDL 1

User-defined Logic Application Memory Manager (Replacement) Application Specific Prefetcher (ASP) Application Kernel On-chip RAM (BRAM) On-chip RAM I/O I/O s s 1 3 2 User-defined Logic Application I/O s On-chip RAM 3 3 (ASP: Application Specific Prefetecher) 2

5 Preprocess (Resolving macros) Lexical Analysis (Separating into tokens) Parse (AST generation) 4 Source Codes Module Analysis (Module / Input / Output / Inout / Parameter) Signal Analysis (Reg / Wire / Localparam) Bind Analysis (dataflow generation from =/<= assignments) Definition Tree Definition Tree Control Flow Analysis (Constructing FSM) Memory Access Timing Analysis Memory Address Analysis (Data Flow Analysis) Generating Definition Tree of Prefetcher Combining Trees of Application and Prefetcher Generating RTL in Verilog HDL Source Code with Prefetcher 3. RTL 3.1 RTL RTL RTL 5?? RTL Verilog HDL (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) (11), (12) RTL Verilog HDL (7) (8) (9) Python 9000 3.2 6 6 1 4 2 1 cnt 4 cnt cnt 6 4 7 1 cnt 1 4 cnt 4 CPU 4. Verilog HDL 3

情報処理学会研究報告 100.0% 250000 191318 150000 100000 93.7% 96.9% Base Prefetch 80.0% Hit rate! Cycle! 200000 195414 60.0% 40.0% 20.0% 50000 0.0% 0 Base Prefetch (a) 実行サイクル数 図 8 (b) キャッシュヒット率 実行サイクル数とキャッシュヒット率 Read サイクルレベルのタイミングシミュレータを VPI (Verilog Programming Interface) を介して HDL シミュレーション に組み込み使用した キャッシュの構成は ラインサイズ を 64 バイト ウェイ数を 4 キャッシュ容量を 16K バイ ト アクセスレイテンシを 1 とした メインメモリには アクセスレイテンシは 16 サイクル固定としたシンプルな モデルを用いた ベクター加算の扱うデータのメモリフッ トプリントは 96K バイトとした 1 回のベクター加算の処 Write 理には 8 サイクルのレイテンシを要するもとして 演算は パイプライン化されていないものとした 図 8(a) に基準のアプリケーションの実行サイクル数と プリフェッチャーを用いた場合の実行サイクル数を示す また 図 8(b) に両者のキャッシュヒット率を示す プリ フェッチャーの導入により 2.1%の性能向上を達成した またキャッシュヒット率が 3.1%向上した 性能向上率が Source of Address 伸び悩んだ理由としては キャッシュが許可するアウトス タンディングミスの数を 1 としたため プリフェッチリ クエストが後続の読み出しを妨害したことと 今回のプリ 図 6 Verilog HDL で記述したメモリアクセスを制御する状態遷移 フェッチ対象が ループ中の同状態における次回のアクセ コード例 ス先であったため 時系列において後続のリクエストに対 する先行読み出しが行えなかったことなどが挙げられる 前者を回避するには アプリケーションカーネルのリクエ ストを優先し カーネルからリクエストが発行された場合 には プリフェッチャー側の処理をアボートするなどの処 置を施すことなどが必要である 後者を回避するには 時 系列順に次のアクセスを対象としてプリフェッチするよう なプリフェッチャーの構成を検討する必要がある 5. 関連研究 向けのメモリシステムの最適化の研究としては Samuel ら [2] による 高位合成言語で記述されたカーネル 図 7 生成されるプリフェッチ用コード例 のコースコードを解析し オフチップ S へのメモリ アクセスを並べ替えることにより メモリバンド幅を有効 単なベンチマークを用いて 提案手法による性能向上の度 利用する方式や Eric ら [3] による抽象度の高いメモリモ 合いを評価する デルを用いてアプリケーションを記述し 外部メモリとの 性能およびキャッシュヒット率を Icarus Verilog[1] を用 カーネルの間にキャッシュとデータ転送機構を自動的に挿 いてシミュレーションにより評価する ベンチマークには 入するフレームワークの CoRAM などが挙げられる 前者 ベクター加算を用いた キャッシュには C++で記述した は 高位合成系をターゲットしており またループ中のイ 2013 Information Processing Society of Japan 4

SMT [4], [5] [4] Lu, J., Das, A., Hsu, W.-C., Nguyen, K. and Abraham, S. G.: Dynamic Helper Threaded Prefetching on the Sun UltraSPARC CMP Processor, Proceedings of the 38th annual IEEE/ACM International Symposium on Microarchitecture, MICRO 38, Washington, DC, USA, IEEE Computer Society, pp. 93 104 (online), DOI: 10.1109/MI- CRO.2005.18 (2005). [5] Kamruzzaman, M., Swanson, S. and Tullsen, D. M.: Inter-core prefetching for multicore processors using migrating helper threads, Proceedings of the sixteenth international conference on Architectural support for programming languages and operating systems, ASPLOS 11, New York, NY, USA, ACM, pp. 393 404 (online), DOI: 10.1145/1950365.1950411 (2011). 6. Verilog HDL RTL (CREST) [1] Williams, S. and Baxter, M.: Icarus verilog: opensource verilog more than a year later, Linux J., Vol. 2002, No. 99, pp. 3 (online), available from http://dl.acm.org/citation.cfm?id=513581.513584 (2002). [2] Bayliss, S. and Constantinides, G. A.: Optimizing S bandwidth for custom loop accelerators, Proceedings of the ACM/SIGDA international symposium on Field Programmable Gate Arrays, 12, New York, NY, USA, ACM, pp. 195 204 (online), DOI: 10.1145/2145694.2145727 (2012). [3] Chung, E. S., Hoe, J. C. and Mai, K.: CoRAM: an infabric memory architecture for -based computing, Proceedings of the 19th ACM/SIGDA international symposium on Field programmable gate arrays, 11, New York, NY, USA, ACM, pp. 97 106 (online), DOI: 10.1145/1950413.1950435 (2011). 5