Intel Xeon Phi (60 ) IBM Cyclops (64 [7]) [1] 10nm Memory Wall [6] [9] FPGA SH-2 2. FPGA FPGA FPGA Xilinx Virtex-6 HXT XC6VHX565T FPGA 2

Similar documents
Cloud[2] (48 ) Xeon Phi (50+ ) IBM Cyclops[9] (64 ) Cavium Octeon II (32 ) Tilera Tile-GX (100 ) PE [11][7] 2 Nsim[10] 8080[1] SH-2[5] SH [8

23 Fig. 2: hwmodulev2 3. Reconfigurable HPC 3.1 hw/sw hw/sw hw/sw FPGA PC FPGA PC FPGA HPC FPGA FPGA hw/sw hw/sw hw- Module FPGA hwmodule hw/sw FPGA h

IPSJ SIG Technical Report Vol.2013-ARC-203 No /2/1 SMYLE OpenCL (NEDO) IT FPGA SMYLEref SMYLE OpenCL SMYLE OpenCL FPGA 1

DPA,, ShareLog 3) 4) 2.2 Strino Strino STRain-based user Interface with tacticle of elastic Natural ObjectsStrino 1 Strino ) PC Log-Log (2007 6)

FabHetero FabHetero FabHetero FabCache FabCache SPEC2000INT IPC FabCache 0.076%

& Vol.5 No (Oct. 2015) TV 1,2,a) , Augmented TV TV AR Augmented Reality 3DCG TV Estimation of TV Screen Position and Ro

2. CABAC CABAC CABAC 1 1 CABAC Figure 1 Overview of CABAC 2 DCT 2 0/ /1 CABAC [3] 3. 2 値化部 コンテキスト計算部 2 値算術符号化部 CABAC CABAC

A Feasibility Study of Direct-Mapping-Type Parallel Processing Method to Solve Linear Equations in Load Flow Calculations Hiroaki Inayoshi, Non-member

( ) [1] [4] ( ) 2. [5] [6] Piano Tutor[7] [1], [2], [8], [9] Radiobaton[10] Two Finger Piano[11] Coloring-in Piano[12] ism[13] MIDI MIDI 1 Fig. 1 Syst

GPGPU

(a) 1 (b) 3. Gilbert Pernicka[2] Treibitz Schechner[3] Narasimhan [4] Kim [5] Nayar [6] [7][8][9] 2. X X X [10] [11] L L t L s L = L t + L s

6 2. AUTOSAR 2.1 AUTOSAR AUTOSAR ECU OSEK/VDX 3) OSEK/VDX OS AUTOSAR AUTOSAR ECU AUTOSAR 1 AUTOSAR BSW (Basic Software) (Runtime Environment) Applicat

1 Web [2] Web [3] [4] [5], [6] [7] [8] S.W. [9] 3. MeetingShelf Web MeetingShelf MeetingShelf (1) (2) (3) (4) (5) Web MeetingShelf

26 FPGA FPGA (Field Programmable Gate Array) ASIC (Application Specific Integrated Circuit) FPGA FPGA FPGA FPGA Linux FreeDOS skewed way L1

WikiWeb Wiki Web Wiki 2. Wiki 1 STAR WARS [3] Wiki Wiki Wiki 2 3 Wiki 5W1H Wiki Web 2.2 5W1H 5W1H 5W1H 5W1H 5W1H 5W1H 5W1H 2.3 Wiki 2015 Informa

第62巻 第1号 平成24年4月/石こうを用いた木材ペレット

MAC root Linux 1 OS Linux 2.6 Linux Security Modules LSM [1] Security-Enhanced Linux SELinux [2] AppArmor[3] OS OS OS LSM LSM Performance Monitor LSMP

Input image Initialize variables Loop for period of oscillation Update height map Make shade image Change property of image Output image Change time L

2017 (413812)

IPSJ SIG Technical Report Vol.2010-GN-74 No /1/ , 3 Disaster Training Supporting System Based on Electronic Triage HIROAKI KOJIMA, 1 KU

B HNS 7)8) HNS ( ( ) 7)8) (SOA) HNS HNS 4) HNS ( ) ( ) 1 TV power, channel, volume power true( ON) false( OFF) boolean channel volume int

17 Proposal of an Algorithm of Image Extraction and Research on Improvement of a Man-machine Interface of Food Intake Measuring System

IPSJ SIG Technical Report Vol.2014-IOT-27 No.14 Vol.2014-SPT-11 No /10/10 1,a) 2 zabbix Consideration of a system to support understanding of f

システムソリューションのご紹介

Vol. 48 No. 4 Apr LAN TCP/IP LAN TCP/IP 1 PC TCP/IP 1 PC User-mode Linux 12 Development of a System to Visualize Computer Network Behavior for L

IPSJ SIG Technical Report Vol.2012-CG-148 No /8/29 3DCG 1,a) On rigid body animation taking into account the 3D computer graphics came

Vol. 23 No. 4 Oct Kitchen of the Future 1 Kitchen of the Future 1 1 Kitchen of the Future LCD [7], [8] (Kitchen of the Future ) WWW [7], [3

Web Web [4] Web Web [5] Web 2 Web 3 4 Web Web 2.1 Web Web Web Web Web 2.2 Web Web Web *1 Web * 2*3 Web 3. [6] [7] [8] 4. Web 4.1 Web Web *1 Ama

Table 1. Assumed performance of a water electrol ysis plant. Fig. 1. Structure of a proposed power generation system utilizing waste heat from factori

<95DB8C9288E397C389C88A E696E6462>

, IT.,.,..,.. i

IPSJ SIG Technical Report Vol.2016-CE-137 No /12/ e β /α α β β / α A judgment method of difficulty of task for a learner using simple

IPSJ SIG Technical Report Vol.2011-IOT-12 No /3/ , 6 Construction and Operation of Large Scale Web Contents Distribution Platfo

7,, i

28 Docker Design and Implementation of Program Evaluation System Using Docker Virtualized Environment

[2] OCR [3], [4] [5] [6] [4], [7] [8], [9] 1 [10] Fig. 1 Current arrangement and size of ruby. 2 Fig. 2 Typography combined with printing

評論・社会科学 84号(よこ)(P)/3.金子

Windows7 OS Focus Follows Click, FFC FFC focus follows mouse, FFM Windows Macintosh FFC n n n n ms n n 4.2 2

Run-Based Trieから構成される 決定木の枝刈り法

Iteration 0 Iteration 1 1 Iteration 2 Iteration 3 N N N! N 1 MOPT(Merge Optimization) 3) MOPT MOP

A Study on Throw Simulation for Baseball Pitching Machine with Rollers and Its Optimization Shinobu SAKAI*5, Yuichiro KITAGAWA, Ryo KANAI and Juhachi

IPSJ SIG Technical Report Vol.2009-DPS-141 No.20 Vol.2009-GN-73 No.20 Vol.2009-EIP-46 No /11/27 1. MIERUKEN 1 2 MIERUKEN MIERUKEN MIERUKEN: Spe

IPSJ SIG Technical Report Vol.2010-NL-199 No /11/ treebank ( ) KWIC /MeCab / Morphological and Dependency Structure Annotated Corp

IPSJ SIG Technical Report Vol.2013-ARC-206 No /8/1 Android Dominic Hillenbrand ODROID-X2 GPIO Android OSCAR WFI 500[us] GPIO GP

untitled

soturon.dvi

The 15th Game Programming Workshop 2010 Magic Bitboard Magic Bitboard Bitboard Magic Bitboard Bitboard Magic Bitboard Magic Bitboard Magic Bitbo

特集新世代マイクロプロセッサアーキテクチャ ( 後編 ) 3. 実例 3 ユビキタス コンピューティング時代の組み込みマイクロコンピュータ, SuperH と M32R 清水徹 * 1 長谷川淳 * 2 服部俊洋 * 3 近藤弘郁 * 4 ( 株 ) ルネサステクノロジシステムソリューション統括本部

大学における原価計算教育の現状と課題

3.1 Thalmic Lab Myo * Bluetooth PC Myo 8 RMS RMS t RMS(t) i (i = 1, 2,, 8) 8 SVM libsvm *2 ν-svm 1 Myo 2 8 RMS 3.2 Myo (Root

3_23.dvi

2. VDEC 2.1 VDEC EDA EDA タイミング解析エラー出力タイミング解析 VDEC EDA 1 VDEC EDA 2.2 VDEC VDEC um 1. RTL 0.18um 1. サブモジュール RTL 記述 Verilog 等で記述 0.18um mm

. IDE JIVE[1][] Eclipse Java ( 1) Java Platform Debugger Architecture [5] 3. Eclipse GUI JIVE 3.1 Eclipse ( ) 1 JIVE Java [3] IDE c 016 Information Pr

[4] ACP (Advanced Communication Primitives) [1] ACP ACP [2] ACP Tofu UDP [3] HPC InfiniBand InfiniBand ACP 2 ACP, 3 InfiniBand ACP 4 5 ACP 2. ACP ACP

fiš„v8.dvi

2). 3) 4) 1.2 NICTNICT DCRA Dihedral Corner Reflector micro-arraysdcra DCRA DCRA DCRA 3D DCRA PC USB PC PC ON / OFF Velleman K8055 K8055 K8055

IPSJ SIG Technical Report Vol.2014-EIP-63 No /2/21 1,a) Wi-Fi Probe Request MAC MAC Probe Request MAC A dynamic ads control based on tra

1 Fig. 1 Extraction of motion,.,,, 4,,, 3., 1, 2. 2.,. CHLAC,. 2.1,. (256 ).,., CHLAC. CHLAC, HLAC. 2.3 (HLAC ) r,.,. HLAC. N. 2 HLAC Fig. 2

29 jjencode JavaScript

On the Wireless Beam of Short Electric Waves. (VII) (A New Electric Wave Projector.) By S. UDA, Member (Tohoku Imperial University.) Abstract. A new e


258 5) GPS 1 GPS 6) GPS DP 7) 8) 10) GPS GPS ) GPS Global Positioning System

Transcription:

FPGA NoC 1,a) 1,b) FPGA SH-2 Design of FPGA-based Many-core Evaluation Platform and NoC Evaluation Hisanobu Tomari 1,a) Kei Hiraki 1,b) Abstract: We developed a platform for examining realistic behavior of many-core processor and verifying a design method that supports higher core count in a processor. Core functions and on-chip network design that can extract as much instruction throughput as possible is required. An interconnect between manycore processors also needs to scale to the higher core count. Evaluations based on simulated results are not always feasible for large number of cores. Synchronizations of emulated processor cores are one of the most time-consuming parts of the simulation, and accuracy of the simulation needs to be traded off for the simulation speed. In addition when the network congests the simulated performance is further inaccurate. On this paper we developed an FPGA board that we use to verify both on-chip and off-chip interconnects. We have implemented a processor with SH-2 compatible instruction set. Using the board and the processor, an on-chip network is evaluated, and resource usage for topologies of the on-chi network is measured. 1. 1 The University of Tokyo a) tomari@is.s.u-tokyo.ac.jp b) hiraki@is.s.u-tokyo.ac.jp 10 10 CPU Tilera TILE-Gx (36 [5]), Cavium Octeon II (32 ) Oracle SPARC T4 (8 [4]) 1

Intel Xeon Phi (60 ) IBM Cyclops (64 [7]) [1] 10nm Memory Wall [6] [9] FPGA SH-2 2. FPGA FPGA FPGA Xilinx Virtex-6 HXT XC6VHX565T FPGA 2

情報処理学会研究報告 構成の柔軟性のため それぞれの基板に FPGA は 1 つ 実装した これらの基板を任意数接続するためのネット ワークポートが必要になる 今回 Gigabit Ethernet では 遅く 通常の使い方では外部の MAC が必要になることか ら に準じる方式を用いることにした は半 二重で Virtex-6 では 3 Gbps までのサポートになる 今 回 トランシーバーに入力するクロックを 標準の 150 MHz から 156 MHz に変更したため ケーブルの 上のデータレートは 3.125 Gbps である 利用する FPGA と基板面積の制約により 24 ポートを実装した は 2 対の差動信号ペアで構成されていて FPGA と コ ネクタの間には AC カップリング用のコンデンサを実装す るのみで済むほか ケーブルが安価に入手可能である こ 図 2 製作した基板の実装状況 のケーブルはすべてストレートケーブルのため 24 ポート の コネクタは 12 本ずつ ホスト側のピン配置のも 体的には プッシュピンではなくネジ固定式のもので 固 のとデバイス側のピン配置のものに分かれている 定金具の形状が単純なものを選択した 製造した基板に 他に コンソール用の RS-232C ポート 起動イメージ転 送用の Gigabit Ethernet 外部メモリとして 2 つの DDR3 SO-DIMM ソケット およびデバッグ用の LED とスイッ チ類を実装した 基板のブロック図を図 1 に示す LGA1155 クーラーを実装し MicroATX ケースに固定し た状態が図 2 である 3. コア 基板を ケーブルの届く範囲で多数安全に実装す メニーコアの構成要素であるコアとして SH-2 命令セッ る方法として MicroATX ケースを用いることができる ト [2] を持ったプロセッサを VHDL を用い実装した 本プ ようにした MicroATX ケースは小型の PC ケースとして ロセッサの特徴は以下の通り 安価に入手可能で この箱に基板を実装するためには基 SH-2 命令セット (MAC 命令はエミュレータで対応) 板の大きさとネジ穴の位置を企画書の通りにする必要が 5 段パイプライン あった 冷却対策として Intel の LGA1155 と同じ位置に 254 レベルの割り込み トラップに対応 ヒートシンク固定用の穴を開け PC 用のクーラーが利用 バスエラーからの復帰に対応 (仮想メモリサポート) する電源供給用のピンを実装した LGA1155 のクーラー 命令 データ分離キャッシュ合計 2KB も PC の CPU 用として様々な種類のものが安価に入手 キャッシュは Direct-mapped, 16 bytes/line 可能である ただ Intel の LGA1155 に CPU を実装した ライン単位で Write-back/Write-through, 書込禁止 場合と Virtex-6 を基板にハンダ付けした場合では基板か らヒートシンクの距離が異なるため 高さの固定が容易に 行えそうなデザインのクーラーを選択する必要がある 具 Cache 禁止指定可能 バスコントローラは DMA/バスマスタ転送に対応 それぞれの特徴について以下で説明する 我々は以前メニーコアのシミュレーションを 68000 と 8080, SH-2 命令セットを用い行ってきた [8] 68000 は当 Power Modules DE9M RJ45 初プログラミングの容易さと開発ツールの成熟度 および 機能の豊富さからシミュレーションに用いていたが ハー GbE MAC ドウェアとして実装する際に FPGA では回路規模が大き くなりすぎる問題点が後から判明した そのため 大幅 に単純化しコア数を増やした場合のメニーコアの振る舞 CLK FPGA DDR3 いを調査する意味で 8080 を パイプライン化しコアあた りの処理性能を向上させたプロセッサとして SH-2 を用い Power Modules てシミュレーションを行い 8080 については既にハード ウェア実装を行った SH-2 は命令が 16 ビット固定長であ ROM Switches and LEDs ROM JTAG り 68000 と命令形式 ニモニックや一部命令のビット表 現が似ている点などから移行先として選択した SH-2 は Power Connectors GCC/Binutils で対応しているため アセンブラ コンパ 図 1 製作した基板のブロック図 2013 Information Processing Society of Japan イラを新規に開発する必要がない SH-2 の命令は 2 オペ 3

2 2 MAC MAC GCC 4.8.0 Dhrystone V2.1 5 SH-2 2 2 2R1W SH-2 SH-2 2 (PC), 2 254 (VBR) 2 256 14 (SR) rte PC SR rte OS SH-2 PC rte 2 2 MC68030 MMU MMU MMU 1 KB 16 bytes/line direct mapped write-back SH-2 32- bit long word PC PC SH-2 16 bytes/line 8 SO-DIMM 8-byte DMA/ 4

CPU CPU 4. PE PE PE 4 KB PE [3] 2 PE PE PE PE 4 4 CPU 9 64 4 KB PE 4 CPU CPU 4 PE PE PE PE PE0 P0 3 PE1 PE2 PEn-1 PE 0 CPU MC6850 (ACIA) RS-232C Gigabit Ethernet PE 0 ROM 5. 5.1 PE 1 3 CPU 50 MHz (20 ns) PE 4 4 580 ns/hop CPU 50 MHz FPGA Tilera TILE-Gx36 1,200 MHz 36 70ns ns ns 10000 9000 8000 7000 6000 5000 4000 3000 2000 1000 0 0 2 4 6 8 10 12 14 16 18 4 #PE 1 5

R) Ring P0 PE0 PE1 PE2 PE23 M) Mesh 0P0 1 2 3 4 5 P0 21 22 23 S) Shuffle Exchange 5 T) Torus 0 1 2 3 21 22 23 0 1 2 3 4 5 6 7 1 21 22 23 FPGA Ring Mesh Torus Shuffle Exchange 53,724 55,358 58,576 55,721 CPU CPU 5.2 24 FPGA 5 PE 4 Xilinx ISE 14.4 Number of occupied slices 1 XC6VHX565T 88,560 6 Shuffle Exchange Torus Mesh Ring P0 Ring 6. FPGA 4 FPGA Shuffle Exchange Mesh [1] Borkar, S.: Thousand core chips: a technology perspective, DAC 07: Proceedings of the 44th annual Design Automation Conference, New York, NY, USA, ACM, pp. 746 749 (online), DOI: http://doi.acm.org/10.1145/1278480.1278667 (2007). [2] Hitachi America Ltd: SuperH RISC Engine SH-1/SH-2 Programming Manual (1996). [3] Lucci, S., Gertner, I., Gupta, A. and Hegde, U.: Reflective-memory multiprocessor, System Sciences, 1995. Proceedings of the Twenty-Eighth Hawaii International Conference on, Vol. 1, pp. 85 94 vol.1 (online), DOI: 10.1109/HICSS.1995.375406 (1995). [4] Shah, M., Golla, R., Grohoski, G., Jordan, P., Barreh, J., Brooks, J., Greenberg, M., Levinsky, G., Luttrell, M., Olson, C., Samoail, Z., Smittle, M. and Ziaja, T.: Sparc T4: A Dynamically Threaded Server-on-a-Chip, Micro, IEEE, Vol. 32, No. 2, pp. 8 19 (online), DOI: 10.1109/MM.2012.1 (2012). [5] Tilera Corporation: Tile Processor Architecture Overview for the TILE-Gx Series, No. UG130 (2012). [6] Wulf, W. A. and McKee, S. A.: Hitting the memory wall: implications of the obvious, SIGARCH Comput. Archit. News, Vol. 23, No. 1, pp. 20 24 (online), DOI: http://doi.acm.org/10.1145/216585.216588 (1995). [7] Zhang, Y. P., Jeong, T., Chen, F., Wu, H., Nitzsche, R. and Gao, G.: A study of the on-chip interconnection network for the IBM Cyclops64 multi-core architecture, Parallel and Distributed Processing Symposium, 2006. IPDPS 2006. 20th International, p. 10 pp. (online), DOI: 10.1109/IPDPS.2006.1639301 (2006). [8] Vol. ARC 2010-ARC-190, No. 3 (2010). [9] 1600 Vol. ARC 2012-ARC-201, No. 6 (2012). 6