untitled

Size: px

Start display at page:

Download "untitled"

ひろといしなみ
4 years ago
Views:

1 OpenMP MPI OpenMPI

2 CPU 3GHz, 10GHz 90nm 65nm, 45nm VLIW L3 Intel Hyperthreading CPU Pentium

Cell 23400 90nm 221mm2 SPU 1.52Moore s Law 19831 GFLOPS19961TFLOPS200236 GFLOPS MFLOPS: Millions of FLoating Po OPerationS.

3 Cell nm 221mm2 SPU 1.52Moore s Law GFLOPS19961TFLOPS GFLOPS MFLOPS: Millions of FLoating Po OPerationS GFLOPS 10 9 TFLOPS PFLOPS PFLOPSPeta FLOPS 40 TFLOPS 2005IBM BlueGene/L367 TFLOPS 9 10 Processor Type 10 Pentium, PowerAlphaItanium SIMD Vector SMPSymmetrical Multi Processor SMPConstellation PC GRAPE Jun-93 Nov-93 Jun-94 Nov-94 Jun-95 Nov-95 Jun-96 Nov-96 Jun-97 Nov-97 Jun-98 Nov-98 Jun-99 Scalar Nov-99 Jun-00 Nov-00 Jun-01 Nov-01 Jun

Chip Technology Manufacturers 500 400 300 200 100 0 Jun 93 Nov 93 Jun 94

97 Nov 97 Jun 98 Nov 98 Sparc Power Jun 99 Nov 99 Jun 00 Nov 00 Jun 01 Nov 01

org/ 500 400 300 200 100 0 others Jun-93 Nov-93 Jun-94 Intel TMC Cray Nov-94

Nov-98 Jun-99 Nov-99 Jun-00 Nov-00 Jun-01 Sun HP Nov-01 Jun-02 14 http://www.

4 Chip Technology Manufacturers Jun 93 Nov 93 Jun 94 other COTS el Nov 94 Jun 95 Nov 95 Jun 96 Nov 96 proprietary MIPS Alpha Jun 97 Nov 97 Jun 98 Nov 98 Sparc Power Jun 99 Nov 99 Jun 00 Nov 00 Jun 01 Nov 01 HP Jun others Jun-93 Nov-93 Jun-94 Intel TMC Cray Nov-94 Jun-95 Nov-95 Jun-96 Nov-96 Jun-97 NEC Fujitsu IBM SGI Hitachi Nov-97 Jun-98 Nov-98 Jun-99 Nov-99 Jun-00 Nov-00 Jun-01 Sun HP Nov-01 Jun PC PC PACS-CS Parallel Array Computer System for Computational Sciences Peak 14.34TF Linpack 10.35TF 34(2006/6) 15 16

5 CPU MEM CPU MEM CPU MEM Network CPU MEM CPU MPPMassively Parallel Processing) 17 CPU CPU CPU CPU BUS CPU CPU 18 CPU CPU CPU CPU BUS CPU CPU MEM MEM Network CPU CPU MEM MEM 19 (Message Passing) (shared memory) DSMon 20

6 MPI,PVM pthread, solaris thread, NT thread OpenMP annotation thread HPF annotation, distribution h for(i=0;i<1000; i++) S += A[i] S Fancy parallel programming languages S POSIX Pthread, Solaris thread for(t=1;t<n_thd;t++){ r=pthread_create(thd_main,t) thd_main(0); for(t=1; t<n_thd;t++) pthread_join(); s; /* global */ n_thd; /* number of threads */ thd_main( id) { c,b,e,i,ss; c=1000/n_thd; b=c*id; e=s+c; ss=0; for(i=b; i<e; i++) ss += a[i]; pthread_lock(); s += ss; pthread_unlock(); return s; 23 OpenMP OK! #pragma omp parallel for reduction(+:s) for(i=0; i<1000;i++) s+= a[i]; 24

7 OpenMP (Fortran/C/C++)directive ISV Oct Fortran ver.1.0 API Oct C/C++ ver.1.0 API OpenMP 3.0 URL SGI Cray Origin ASCI Blue Mountain System SUN Enterprise PC-based SMP SGI Power Fortran/C SUN Impact KAI/KAP OpenMP OpenMP OpenMPAPI 5%95%(?) 5% small-scale(16medium-scale (64 pthreados-oriented, general-purpose 27 directives/pragma Fortran77, f90, C, C++ Fortran!$OMP C: #pragma omp pragma incremental 28

8 OpenMP Parallel Region Fork-join parallel region A... #pragma omp parallel { foo(); /*..B... */ C. #pragma omp parallel { D E... Call foo() fork A Call foo() Call foo() B join C D E Call foo() 29 (team) Parallel Parallel regionteam regionteam Fortran: C:!$OMP PARALLEL #pragma omp parallel { parallel region Parallel region...!$omp END PARALLEL Work sharing For Team parallel region for sections single parallel parallel for parallel sections 31 ForDO forcanonical shape #pragma omp for [clause ] for(var=lb; var logical-op ub; incr-expr) body varprivate incr-expr ++var,var++,--var,var--,var+=incr,var-=incr logical-op break clause 32

9 Matvec(double a[], row_start, col_idx[], double x[],double y[], n) { i,j,start,end; double t; #pragma omp parallel for private(j,t,start,end) for(i=0; i<n;i++){ start=row_start[i]; end=row_start[i+1]; t = 0.0; for(j=start;j<end;j++) t += a[j]*x[col_idx[j]]; y[i]=t; 33 n schedule(static,n) Schedule(static) Schedule(dynamic,n) Schedule(guided,n) Iteration space 34 Data scope parallelwork sharing shared(var_list) private(var_list) private firstprivate(var_list) private lastprivate(var_list) private reduction(op:var_list) reduction private 35 Barrier flush work sharingnowait #pragma omp barrier 36

10 MPI MPI (Message Passing Interface) 100 Send/Receive Reduce/Bcast for(i=0;i<1000; i++) S += A[i] S Gather/Scatter S MPI #include "mpi.h" #include <stdio.h> #define MY_TAG 100 double A[1000/N_PE]; main( argc, char *argv[]) { n, myid, numprocs, i; double sum, x; namelen; char processor_name[mpi_max_processor_name]; MPI_Status status; MPI_Init(&argc,&argv); MPI_Comm_size(MPI_COMM_WORLD,&numprocs); MPI_Comm_rank(MPI_COMM_WORLD,&myid); MPI_Get_processor_name(processor_name,&namelen); fprf(stderr,"process %d on %s n", myid, processor_name); MPI sum = 0.0; for (i = 0; i < 1000/N_PE; i++){ sum+ = A[i]; if(myid == 0){ for(i = 1; i < numprocs; i++){ MPI_Recv(&t,1,MPI_DOUBLE,i,MY_TAG,MPI_COMM_WORLD,&status) sum += t; else MPI_Send(&t,1,MPI_DOUBLE,0,MY_TAG,MPI_COMM_WORLD); /* MPI_Reduce(&sum, &sum, 1, MPI_DOUBLE, MPI_SUM, 0, MPI_COMM_W MPI_Barrier(MPI_COMM_WORLD);... MPI_Finalize(); return 0; 40

11 MPICH % mpicc test.c MPI Mpirun np <n_proc> a.out a.out Mpichmachine file 41 N_PE main SPMD (single program/multiple data) MPI_Init MPI_Comm_size(MPI_COMM_WORLD,&numprocs); rank 0 MPI_Comm_rank(MPI_COMM_WORLD,&myid); 42 context MPI_COMM_WORLD Send/Recv MPI_Reduce(&sum, &sum, 1, MPI_DOUBLE, MPI_SUM, 0, MPI_COMM_WORLD); exit MPI_Finalize(); 43 Send/Receive MPI_Send( void *send_data_buffer, // count, // MPI_Datatype data_type, // (*1) destination, // tag, // MPI_Comm communicator // ); MPI_Recv( void *recv_data_buffer, // count, // MPI_Datatype data_type, // (*1) source, // tag, // MPI_Comm communicator, // MPI_Status *status // ); 44

12 MPI_INT MPI_DOUBLE BinaryMPI_BINARYbyte OpenMPMPI MPICpi MPICH Source/destinationrank) SendRecv RecvMPI_ANY OpenMPcpi-seq.c), 1 MPI_COMM_WORLD Status recvsend send recvrecvsend 45 MPI(cpi-mpi.c) nbcast reduction 46 : MPI_Bcast(&n, 1, MPI_INT, 0, MPI_COMM_WORLD); h = 1.0 / (double) n; sum = 0.0; for (i = myid + 1; i <= n; i += numprocs){ x = h * ((double)i - 0.5); sum += f(x); mypi = h * sum; MPI_Bcast( void *data_buffer, // count, // MPI_Datatype data_type, // (*1) source, // MPI_Comm communicator // ); MPI_Reduce(&mypi, &pi, 1, MPI_DOUBLE, MPI_SUM, 0, MPI_COMM_WORLD); 47 source 48

13 : MPI_Reduce( void *partial_result, // void *result, // count, // MPI_Datatype data_type, // (*1) MPI_Op operator, // (*2) destination, // MPI_Comm communicator // ); OpenMPMPI MPIlaplace Laplace 4update Oldnew partial_result result destination OpenMP lap.c 3 OpenMP Parallelfor MPI ResultMPI_AllReduce Rank=n Send/recv send/recv MPI_Isend( void *buf, count, MPI_Datatype datatype, dest, tag, MPI_Comm comm, MPI_Request *request ) MPI_Irecv( void *buf, count, MPI_Datatype datatype, source, tag, MPI_Comm comm, MPI_Request *request ) Rank=n-1 Sendrecv Rank=n+1 51 MPI_Wait ( MPI_Request MPI_Status *request, *status) 52

14 if(myid!= 0) /* recv from down */ MPI_Irecv(&uu[x_start-1][0],YSIZE,MPI_DOUBLE,myid-1,TAG MPI_COMM_WORLD,&req1); if(myid!= (numprocs -1)) /* recv from up */ MPI_Irecv(&uu[x_end][0],YSIZE,MPI_DOUBLE,myid+1,TAG_2, MPI_COMM_WORLD,&req2); if(myid!= 0) /* send to down */ MPI_Send(&u[x_start][0],YSIZE,MPI_DOUBLE,myid-1,TAG_2, MPI_COMM_WORLD); if(myid!= (numprocs-1)) /* send to up */ MPI_Send(&u[x_end-1][0],YSIZE,MPI_DOUBLE,myid+1,TAG_1, MPI_COMM_WORLD); if(myid!= 0) MPI_Wait(&req1,&status1); if(myid!= (numprocs -1)) MPI_Wait(&req2,&status2); index 0numprocs-1) PSC 2001 F ij = G m i m j / r 2 Van der Waals forces F i = F ij F = m a V = v+at p = p+vt 55 56

15 SMP MPIOpenMP OpenMP PC-based SMP Middle scale Server ASCI Blue Mountain, O2K T2K Open Supercomputer SMP) MPISMPOpenMP MPI+OpenMP MPI SMP vector supercomputer Hitachi SR11000 SX-6, 7, 8? SMP SMP 57 OpenMP+MPI OpenMP singlemastercritical thread-safempi MPI OpenMPthreadprivate SMP 58 OpenMP MPI MPI 59

untitled

untitled OpenMP 1 OpenMP MPI Open Advanced Topics SMP Hybrid Programming OpenMP 3.0 2 CPU 3GHz, 10GHz 65nm 45nm, 32nm VLIW L3 Intel Hyperthreading CPU 3 4 Pentium CPU CPU CPU CPU CPU CPU CPU CPU BUS CPU MEM CPU