第3回戦略シンポジウム緑川公開用

Similar documents
( CUDA CUDA CUDA CUDA ( NVIDIA CUDA I

09中西

[1] [2] [3] (RTT) 2. Android OS Android OS Google OS 69.7% [4] 1 Android Linux [5] Linux OS Android Runtime Dalvik Dalvik UI Application(Home,T

Microsoft PowerPoint - CCS学際共同boku-08b.ppt


07-二村幸孝・出口大輔.indd

ProLiant BL25p Generation 2システム構成図

ProLiant ML115 Generation 1 システム構成図

ProLiant BL35p システム構成図

ProLiant ML115 Generation 1 システム構成図

スライド 1

情報処理学会研究報告 IPSJ SIG Technical Report Vol.2013-HPC-139 No /5/29 Gfarm/Pwrake NICT NICT 10TB 100TB CPU I/O HPC I/O NICT Gf

01_OpenMP_osx.indd

ProLiant DL165 G6 システム構成図

ProLiant DL380 Generation 4 システム構成図

WinHPC ppt

23 Fig. 2: hwmodulev2 3. Reconfigurable HPC 3.1 hw/sw hw/sw hw/sw FPGA PC FPGA PC FPGA HPC FPGA FPGA hw/sw hw/sw hw- Module FPGA hwmodule hw/sw FPGA h

HP xw9400 Workstation

RDMAプロトコル: ネットワークパフォーマンスの向上

HP ProLiant Gen8とRed Hatで始めるHadoop™ ~Hadoop™スタートアップ支援サービス~

untitled

ProLiant ML110 Generation 4 システム構成図

HPE Moonshot System ~ビッグデータ分析&モバイルワークプレイスを新たなステージへ~


main.dvi

ProLiant DL380 SAN Storageモデル システム構成図

Second-semi.PDF

MPI usage

HP High Performance Computing(HPC)

TSUBAME2.0 における GPU の 活用方法 東京工業大学学術国際情報センター丸山直也第 10 回 GPU コンピューティング講習会 2011 年 9 月 28 日

r07.dvi

HPEハイパフォーマンスコンピューティング ソリューション

ohp07.dvi

Microsoft PowerPoint - stream.ppt [互換モード]

Microsoft PowerPoint - intro.ppt

HP ProLiant ML370 Generation

ProLiant ML110 Generation 4 システム構成図

ProLiant ML110 システム構成図

ProLiant BL460c システム構成図

OVERVIEW ProLiant ML370(X2400, X2800, X3060, X3200) ProLiant ML370 A B D B C D B C 2 () (2 ) (1.6 ) 3.5 LED 48 IDE CD-ROM 5.25 Wide Ultra3/U

untitled

,., ping - RTT,., [2],RTT TCP [3] [4] Android.Android,.,,. LAN ACK. [5].. 3., 1.,. 3 AI.,,Amazon, (NN),, 1..NN,, (RNN) RNN

MATLAB® における並列・分散コンピューティング ~ Parallel Computing Toolbox™ & MATLAB Distributed Computing Server™ ~

OVERVIEW hp StorageWorks NAS 2000s hp StorageWorks NAS 2000s A 3.5 B 3.5 IDE DVD-ROM C LED LED Ultra320 SCSI ( ) NAS 2000s NAS 2000s NAS

[1] #include<stdio.h> main() { printf("hello, world."); return 0; } (G1) int long int float ± ±

OVERVIEW ProLiant ML350 Generation 4 ProLiant ML IDE CD-ROM USB 6 4 () PCI (PCI-X 4 PCI-Express 2) ( ) A B C D C D 0 5 () N0 N3 () C D 2 (

システムユニット構成ツリーの見方

連載講座 : 高生産並列言語を使いこなす (4) ゲーム木探索の並列化 田浦健次朗 東京大学大学院情報理工学系研究科, 情報基盤センター 目次 1 準備 問題の定義 αβ 法 16 2 αβ 法の並列化 概要 Young Brothers Wa

OVERVIEW ProLiant ML350 ProLiant ML350 Generation 4p A B 2 A B C D IDE CD-ROM 3.5 USB 6 PCI (PCI-X 4 PCI Express 2) Smart ProLiant M

大規模共有メモリーシステムでのGAMESSの利点

ProLiant DL380 Generation 4 システム構成図

XcalableMP入門

ProLiant BL20p Generation 4 システム構成図

システムユニット構成ツリーの見方

Slides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments

total-all-nt.dvi

HP ProLiant ML110 Generation 5 システム構成図

IO Linux Vyatta PC

NEC Storage series NAS Device

OpenMP (1) 1, 12 1 UNIX (FUJITSU GP7000F model 900), 13 1 (COMPAQ GS320) FUJITSU VPP5000/64 1 (a) (b) 1: ( 1(a))

DEIM Forum 2012 C2-6 Hadoop Web Hadoop Distributed File System Hadoop I/O I/O Hadoo

Transcription:

2010 5 15 - -

(SDSM) SMS MpC DLM

Top500 Top 500 list of Supercomputers (http://www.top500.org)

Top 500 list of Supercomputers (http://www.top500.org) 1998 11

SMP Symmetric Multiprocessor CPU CPU CPU CPU CPU CPU CPU CPU cluster CPU CPU

1990100 10 20 50

send a recv b recv x send y

a = 10 b = a data

CPU 1. send p0 a; receive p1 b; ) MPI ( 2. b=a; OpenMP ( )

P0 P1 int a; int a; a=10; send P1 a; recv P0 a; P0 P1 int a; a=10; a a

2 b a P0 P1 int a=10; int b send P1 a; recv P0 b; P0 P1 int a=10; int b; b=a; a,b a,b

SMS SDSM b = a x = y

(SDSM) SMS MpC DLM

(SDSM) SMS MpC DL

PC 0 PC 1 PC 2 P0 P1 P2 PC

MpC C shared auto register static extern typedef shared

MpC P0 shared int a; int b; main( ){ int c=10; a=20; } P1 shared int a; int b; main( ){ int c=10; b=a; } PC

mpcc prg.mpc -osms_prog use sms MpC MpC MpC MpC MpC C C SMS pthread SDSM SMS, TreadMarks, JIAJIA pthread SDSM pthread

MpC vs. OmniOpenMP (Score : RWC floyd : Shortest path search 1Gbps Ethernet2Gbps Myrinet2000 (sec) MpC OmniOpenMP 2 Myrinet PM H. Midorikawa, et al.: "The Performance Analysis of Portable Parallel Programming Interface MpC for SDSM and pthread", Proc. of IEEE/ACM Inter. Symp. on Cluster Computing and the Grid (CCGrid2005),Vol.2, pp.889-896

(sec) ep (sec) laplace

(sec) mm(blocking) (sec) mm(nonblocking) MpC

NPB3.0 API 74% MpC 7% H. Midorikawa, et al.: "The Performance Analysis of Portable Parallel Programming Interface MpC for SDSM and pthread", Proc. of IEEE/ACM Inter. Symp. on Cluster Computing and the Grid (CCGrid2005),Vol.2, pp.889-896, (2005) MpC,,Vol.46 No.SIG4(ACS9), pp.69-85, 2005)

(SDSM) SMS MpC DLM

64bitOS x86_6448bit 256TB) 48bit (256tebibytes) 56bit (64pebibytes) 64bit (16exbibytes)

DLM ( Distributed Large Memory) Cal Thread calhost Cal Process Com Thread DLM memhost1 Memserv Process memhost2 Memserv Process memhost3 Memserv Process usr_prog args -- -n 4 f hostfile hostfile calhost 2048 // 2GB memhost1 8192 // 8GB memhost2 4096 // 4GB memhost3 4096 // 4GB memhost4 4096 // 4GB : DLM OS

DLM 1 matv.c #include <stdio.h> #include <dlm.h> #define N 16384 // total memory 2 31 B + 2 15 B, 2GiB dlmcc matv.c -omatv dlm double a[n][n], x[n], y[n]; // DLM int main(int argc, char *argv[]) { int i,j; double temp; // a for ( i = 0; i< N; i++) for ( j = 0; j<n; j++) a[i][j] = i; // x for (i = 0; i < N; i++) x[i] = i; // a[n][n]*x[n]=y[n] for(i = 0; i < N; i++){ temp = 0; for(j = 0; j<n; j++) temp += a[i][j]*x[j]; y[i] = temp; } return 0; } dlm DLM

10GbEthe CSLM 10GbEther (CSLM) swap 10GB Cluster Node CPU Node Memory PCI bus OS HP DL585 G2 x 5 Nodes Opteron 2.8GHz x 4 (8Cores) 64GByte 64GiB) 64bit/100MHz PCI-X, PCI-Expressx4 PCI-Expressx8 Linux kernel 2.6.9-42 x86_64 TCP socket Compiler gcc version 3.4.6 Network NIC Switch Hard Disk 10GbEthernet protocol Myri-10G Fujitsu XG1200(10GbE Switch) SAS 147GB 10krpm 2 RAID1 Smart array 5i HP 431958-B21 (SAS 147GB, 10krpm, TransRate 300MBps, seektime 4(Ave),8.1(Max)ms) op4 6000 // 60GB op3 6000 hostfile

SwapDisk DLM 10GbEthernet, 64GBMemory,10GBswap matv.c swap 15%, DLM 10 Disk DLM 2 67.1GB 64GiB swap3%, DLM : DLMDLM, Vol.102, No.398, pp.29-34, 2007

SwapDisk DLM 1GbEthernet, 1GBMem, 4GBswap matv.c swap 160%, DLM 9.5 swap DLM 4.5 5.5 : DLMDLM, Vol.102, No.398, pp.29-34, 2007

DLM (STREAM Benchmark) 380MB/sec ~ 40MB/ sec DLM 1MB ~ 4KB DLM Panda[2005] InfiniBand RDMA, 119MB/s [2006] 10Gb Ethernet, NIC,RDMA 131MB/S 204MB/s

) DLM Himeno Benchmark Large) 35 DLM 4KB DLM 5 10 8% DLM 1MB 5 DLM [2006] GbE NIC RDMA 55 128KB H.Midorikawa et al. : "DLM: A Distributed Large Memory System using Remote Memory Swapping over Cluster Nodes", Proc. of IEEE Cluster2008 pp.268-273, (2008-09) " DLM10GbEthernet ",, Vol.1, No.3, pp.136-157 2008

DLM-MPI MPI DLM MPI Ethernet, InfiniBand, Myrinet ) 2 T2K-Tokyo Myri-10G 4 40Gbps) T2K-Tsukuba InfiniBand 64Gbps)

!"#$%&'($)*&'+,-.&*/'+ ੩ᄢቇ ᚑ 䋨ᣣ 䋩 Top500 45位 日本3位 Nov. 2009 インターコネクト Myri-10G x 4本 /node Node間 40Gbps x双方向 J?$7-K&"J8'?&6 /"L:M""/)E:F'&> 3;44<:='&>?=$# @#?&7>$##&>? A$7"/*B"#$%&'C D01E:F'&>"G"/"H 9*1E:F'&>"G"9!"#$%&'! ()* +,&-.! /01234$,' 5&6$78! 9/"2: 4CPUs(16コア /node AMD Opteron8356 メモリ 32GB/node 8nodes メモリ 128GB/node 3;44<:='&>?=$#"@#?&7>$##&>? A$7")/*"#$%&'C"*I)2:F'&>!"#䉲䊮䊘䉳䉡䊛䈧䈒䈳"$$%!"#䉲䊮䊘 䊘䉳䉡䊛䈧䈒䈳"$$% システム図 朴泰祐 T2Kシンポジウムつくば2008 資料 http://www.ccs.tsukuba.ac.jp/workshop/t2k-sympo2008/

STREAM Kernel COPY SCALE ADD TRIAD Code a(i) = b(i) a(i) = q*b(i) a(i) = b(i) + c(i) a(i) = b(i) + q*c(i) DLM-MPI: MPI-MX 493MB/s Myri-10G 2 613MB/s Myri-10G 4 DLM-socket: TCP/IP EthernetonMyri-10G x 1 380MB/s

DLM Himeno benchmark XLARGE (112GB) 179.4MFLOPS, Relative Time 2.32 ( based on the time in Elarge,15GB) float 1025 x 1025 x 2049 20GB/node x 6 nodes Local memory ratio 17.4% Bonding = 4 XLARGE-d (241GB)88.8 MFLOPS, Relative Time 4.68 ( based on the time in Elarge,15GB) double1025 x 1025 x 2049 20GB/node x12nodes Localmemory ratio 8.1% Bonding = 4

!"#$%&'($)*&'+,-.&*/'+ 01&&+- 2$3+45$64&4(7 Top500 56 6 Nov. 2009!"#$%&'! ()* +,&-.! /0"123$,' 4&5$67! 89"1: InfiniBand 4x DDR 4 /node Node 64Gbps x 2C33D:E'&B<E$#"F#<&6B$##&B< 0G8"1:A' 4CPUs(16 /node AMD Opteron8356 32GB/node ;<$6-=&";7'<&5 *99"1:>""?8@:A'&B T2K 2008 http://www.ccs.tsukuba.ac.jp/workshop/t2k-sympo2008/

DLM-M DLM TCP/IP

Clients DLM fora Cluster on LAN Memory Servers

WANInTrigger http://www.intrigger.jp/ WAN 17, 21 2010 5 WAN 2008 6 11 319 /848 Intrigger :, Vol.49, No.8, pp.939-944, Aug.2008

DLM forclusters on WAN Client User User Program Cluster(LAN) DLM-LAN Admin DLM-WAN Admin Cluster(LAN) DLM-LAN Admin Group of Clusters (WAN) Cluster(LAN) DLM-LAN Admin Memory Server Calculate Node Memory Server Calculate Node Memory Server Calculate Node

Thank you! http://www.ci.seikei.ac.jp/midori/paper