2... Numerical Recipes [1] Matrix Computation [2].,.. 2.1, ( ) A. A,.,.. A [ ] [ ] a x T 0 A =, P = I β [0 u T ], P = I βuu T, β = 2/ u 2 x B u P ( ),

Size: px

Start display at page:

Download "2... Numerical Recipes [1] Matrix Computation [2].,.. 2.1, ( ) A. A,.,.. A [ ] [ ] a x T 0 A =, P = I β [0 u T ], P = I βuu T, β = 2/ u 2 x B u P ( ),"

みそらこいまる
5 years ago
Views:

1 T2K JST/CREST 1,.,, AX = XΛ AX = BXΛ. A, B (B ), Λ, X.,,., 1,.,.,,.., T2K.,, 1. T2K (HA8000),. eingen_s,, 64 (1024 ). T2K TIPS, T2K.. 1

2 2... Numerical Recipes [1] Matrix Computation [2].,.. 2.1, ( ) A. A,.,.. A [ ] [ ] a x T 0 A =, P = I β [0 u T ], P = I βuu T, β = 2/ u 2 x B u P ( ), P x = x e1 u x ( 0 )., P AP T [ P AP T a x e T ] 1 = x e 1 P B P T, e 1 1 0, 0. P B P T., T. ( ) T, A., A P T A. T x = P AP T x = λx, A(P T x) = λ(p T x) y = P T x. P B P T. P B P = (I βuu T )B(I βuu T ) = B uv T vu T, v = β(bu β/2(ubu T )u) 2

3 for j = N,..., 1 step M U, V, W A (,j M+1:j) for k = 0,..., M 1 (1) Householder block reflector: (β, u (k) ) := H(W (,j k) ) (2) Matrix-Vectors multiplication v (k 2 3 ) A (1:j k 1,1:j k 1) u (k) (3) v (k 1 3 ) v (k 2 3 ) (UV T + V U T )u (k) (4) v (k) β(v (k 1 3 ) su (k) ), s = 1 2 βu(k)t v (k 1 3 ) U [U, u (k) ], V [V, v (k) ]. (5) W (,j k:j) W (,j k:j) (u (k) v (k)t + v (k) u (k)t ) (,j k:j) endfor A (,j M+1:j) W (6) 2M rank-update (BLAS3) A (1:j M,1:j M) A (1:j M,1:j M) (UV T + V U T ) (1:j M,1:j M) endfor 1: Dongarra Sorensen,.,.,,, 1 1..,., 10%., Dongarra Sorensen 1 [3]., (6). BLAS(Basic Linear Algebra Subprograms) DGEMM. DGEMM HPC Challenge [4] Linpack [5], 70%. (6) 0, 1/2., 3

4 . 2.2 (Cuppen s divide and conquer method),.,, QR.,., Cuppen [6]., Cuppen., Dhillon MRRR(Multiple Relatively Robust Representations)[7] LAPACK3. I-SVD[8],. Cuppen 1. 1, 2 L = diag(λ 1, λ 2,..., λ n ), M = diag(µ 1, µ 2,..., µ n ) S, a. S T MS = L + aa T, a, λ, µ (secular ). 1 + n j=1 a 2 j λ j µ k = 0, L a M., 1 (aa T ),. Cuppen. 1. T 2 T 1 T 2 1. T = [ T1 T 2 ] + uu T 2. T 1, T 2., Q T 1 T 1Q 1 = D 1, Q T 2 T 2Q 2 = D 2 ( D 1, D 2 ). Q = diag(q 1, Q 2 ), T, ] Q T T Q = [ D1 D 2 + (Q T u)(q T u) T 4

5 .. λ (D λi) 1 Q T u, T Q Q(D λi) 1 Q T u. 3..,.,. Löwner., µ i, λ i, 1 j a j. a 2 j = (µ j λ j ) i j µ i λ j λ i λ j, 1 ( 2. Q T u),. (),., Löwner. LAPACK3,. T 1, T 2., 2,., secular Q. Q., DGEMM.,.,. 2.3 P j j = 1, 2, 3...,. P T = P n P n 1 P 2 P 1. x. P j x = (I β j u j u T j )x = x β j (u T j x)u j, dot( ) axpy()., x X 5

6 2:.,.,., I UCU T U C. 2, U C. (I β j u j u T j )(I UC j 1 U T ) = I β j u j u T j UC j 1 U T + β j u j u T j UC j 1 U T [ ] Cj 1 c 2 I [U, u j ] [U, u j ] T = I UC j 1 U T u j c 1 U T Uc 2 u T j u j c 3 u T j c 1 c 3 [ ] C j 1 0 C j = β j u T j UC, U := [U, u j ] j 1 β j WY [9].,,.,. (I UCU T )X = X (UC)(U T X) , 3 3.,,,., O(N 3 )., O(N 3 ).. 6

7 M ethod: Householder O(N 3 ) Divide&Conqure O(N 2 )~O(N 3 ) Back Transform O(N 3 ) Dense matrix Tridiagonal Eigenpairs Eigenpairs 3 3: ScaLAPACK T2K,, ScaLAPACK[10]. API. T2K HA8000. ScaLAPACK, LAPACK 1995 version version1.8. netlib 1,. ScaLAPACK,. 2. LAPACK LAPACK version3.2.1( )., ScaLAPACK LAPACK version2,. [11, 12]., 1995, 1990, T2K, ScaLAPACK , T2K, 15,. 1 ScaLAPACK pdsyevd, 3 7

8 pdsytrd, pdstedc, pdormtr. 4. Intel version 11, BLAS Intel MKL 11. Intel MKL, OMP_NUM_THREADS 4., numactl, 1 1., (FLOPS ), PDSYTRD 161GFLOPS, PDORMTR 1354GFLOPS. 3029GFLOPS., 64, 329GFLOPS, 2235GFLOPS, 580GFLOPS. T2K 2.3*4*16 =147.2GFLOPS,. ( ), ScaLAPACK , GFLOPS., eigen_s 1146 ( 5). 1598GFLOPS, ScaLAPACK , ScaLAPACK. ScaLAPACK 2. 4, NB. ( ), NB. 2 PDSYTRD PDORMTR 2, NB=1., NB.. NB,. %. 8

9 1: ScaLAPACK T2K ( ) ( , 128, 4 / ) ( , 256, 4 / ) 2: ( 2.1 PDSYTRD NB ) ( 2.2 PDORMTR NB ) 9

10 subroutine EIGEN(n, NB) integer integer real(8), pointer real(8), pointer :: n, NB :: lda1,lda2 :: d(:),e(:),tau(:) :: w(:), a(:), z(:) INTEGER, PARAMETER :: DLEN_ = 9 integer :: DESCA(DLEN_), DESCZ(DLEN_) integer integer real(8), pointer integer, pointer include mpif.h real(8) :: t1,t2, z1,z2 :: world_size, my_rank :: LWORK, LIWORK, TRILWMIN :: work(:) :: iwork(:) call MPI_COMM_SIZE( MPI_COMM_WORLD, world_size, ierr ) call MPI_COMM_RANK( MPI_COMM_WORLD, my_rank, ierr )! BLACS/PBLAS/SCALAPACK initialization CALL BLACS_PINFO( IAM, NPROCS ) if ( NPROCS < 1 ) then! MPI group setup NPROCS = world_size IAM = my_rank CALL BLACS_SETUP( IAM, NPROCS ) end if CALL BLACS_GET( -1, 0, ICTXT ) NPROW = INT(SQRT(DBLE(NPROCS))) DO IF(MOD(NPROCS,NPROW)==0)THEN EXIT ENDIF NPROW=NPROW-1 ENDDO NPCOL = NPROCS/NPROW CALL BLACS_GET( 0, 0, ICTXT ) CALL BLACS_GRIDINIT( ICTXT, Row-major, NPROW, NPCOL ) call BLACS_GRIDINFO( ICTXT, NPROW, NPCOL, MYROW, MYCOL )! BLACS array registration NP = NUMROC( n, NB, MYROW, 0, NPROW ) NQ = NUMROC( n, NB, MYCOL, 0, NPCOL ) lda1 = ((NP-1)/16+1)*16; lda2 = NQ lda = lda1; ldz = lda1 call DESCINIT( DESCA, n, n, NB, NB, 0, 0, ICTXT, lda, INFO ) allocate(w(n+1), a(lda1*lda2), z(lda1*lda2)) allocate(d(n+1), e(n+1), tau(n+1) )! preparing working arrays TRILWMIN = 3*N + MAX( NB*( NP+1 ), 3*NB ) LWORK = MAX( 1+6*N+2*NP*NQ, TRILWMIN ) + 2*N + 2*NB*NB LIWORK = 2+7*n+8*NPCOL allocate(work(lwork+16), iwork(liwork+16), stat=istat) if(istat.ne.0) then print*,"memory exhausted" call flush(6) call MPI_Abort( MPI_COMM_WORLD, 1, ierr ) end if!$omp PARALLEL DO PRIVATE(k1,i0,j0,i1,j1,i,j) do k2=1,lda2 do k1=1,lda1 i0=(k1-1)/nb; j0=(k2-1)/nb i1=mod(k1-1,nb); j1=mod(k2-1,nb) i=(i0*nprow+myrow)*nb+i1+1 j=(j0*npcol+mycol)*nb+j1+1 if(i<=n.and.j<=n)then a(k1+(k2-1)*lda)=(n+1)-max(i,j) else a(k1+(k2-1)*lda)=0.0d+00 endif end do end do!$omp END PARALLEL DO z = 0.0D+00 * * * if(my_rank==0)then print*,"n=",n,"nb=",nb endif z1 = MPI_Wtime() t1=mpi_wtime() CALL PDSYTRD( U, n, $ a(1), 1, 1, DESCA(1), $ d(1), e(1), tau(1), $ WORK(1), LWORK, INFO ) t2=mpi_wtime() if(my_rank==0)then print*,"pdsytrd",t2-t1,dble(n)**3*(4./3.)/(t2-t1)*1d-9 endif CALL PDLARED1D( n, 1, 1, DESCA(1), d(1), w(1), $ WORK(1), LWORK ) CALL PDLARED1D( n, 1, 1, DESCA(1), e(1), d(1), $ WORK(1), LWORK ) w(n+1)=0.0d+00 d(n+1)=0.0d+00 t1=mpi_wtime() CALL PDSTEDC( I, n, $ w(1), d(1+1), $ z(1), 1, 1, DESCA(1), $ WORK(1), LWORK, IWORK(1), LIWORK, INFO ) t2=mpi_wtime() if(my_rank==0)then print*,"pdstedc",t2-t1 endif t1=mpi_wtime() CALL PDORMTR( L, U, N, n, n, $ a(1), 1, 1, DESCA(1), $ z(1), 1, 1, DESCA(1), $ WORK(1+16), LWORK, IINFO ) t2=mpi_wtime() if(my_rank==0)then print*,"pdormtr",t2-t1,dble(n)**3*(4./2.)/(t2-t1)*1d-9 endif z2 = MPI_Wtime() if(my_rank==0)then print*,"total=",z2-z1,dble(n)**3*(10./3.)/(z2-z1)*1d-9 endif deallocate(work,iwork,w,a,z,d,e,tau)! BLACS/PBLAS/SCALAPACK finalize call BLACS_GRIDEXIT( ICTXT ) return end subroutine 4: ScaLAPACK.. PDSYTRD PDORMTR PDSYEVD. 10

11 3.2 eigen s 3.1 eigen_s.,,,. SC06, [13]., 70%., LINPACK 80%,. eigen_s,, T2K. T2K 2008, T2K 1., HPC 512. (2009 2[14]). eigen_s ScaLAPACK, 3, TRED1, DC, TRBAKWY.. ScaLAPACK pdstedc. MPI ( flat MPI), MPI OpenMP. eigen_s, 2, NB.,,., best , T2K *4*16*64=9421GFLOPS, 4.2%., 10., 81920, 16.9%. 20,

1200 1146. 1.598T 1000 [sec] 800 600 400 200 8.88 403G 36.85 776G 195.7 1.170T TRBAKW Y DC TRED1 0 10240 20480 40960 81920 [ ] 5: eigen s (T2K 64, 4 / ) (FLOPS),.

12 T 1000 [sec] G G T TRBAKW Y DC TRED [ ] 5: eigen s (T2K 64, 4 / ) (FLOPS), G 500 [sec] G G G TRBAKW Y DC TRED [ ] 6: eigen s (Xeon Quadcore 8, 4 / ) (FLOPS),. 12

13 , 2004GFLOPS( 21.2%). 6, eigen_s. Quadcore Xeon X3330(2.66GHz) 8, T2K,.., T2K PC. 7, 8 Strong Scaling Weak Scaling.,, weak scaling, ( 3, weak scaling ).. N=9600*( ),. T2K 9600, weak scaling,.,.,,. 9, T2K 1 16, eigen_s (GFLOPS). (TRED1) (TRBAKWY), , 1 16, 2 8, 4 4, 8 2, HA8000, 4 4., 2 8.,., ,. TRDBAKWY( PDORTRM ) GFLOPS, GFLOPS. HT(Hyper Transport)., 100., eigen_s (C-Stab [15]), 8192, 13

14 7: Strong Scaling on a T2K clutser system at Univ. of Tokyo Perform ance scalability of our eigensolver in w eak-scaling 1000 GFLOPS Tridiagonalization (ideal) Backtransform (ideal) : Weak Scaling on a T2K clutser system at Univ. of Tokyo 14

15 1.00E E E E E E E E E E E+00 PDSYTRD-16p-1t PDORM TR-p16-t E E E E E E E E E E E+00 PDSYTRD-p8-t2 PDORM TR-p8-t E E E E E E+01 PDSYTRD-4p-4t PDORM TR-4p-4t 0.00E PDSYTRD-2p-8t PDORM TR-2p-8t 9.00E E E E E E E E E E PDSYTRD-1p-16t PDORM TR-1p-16t 6.00E E E E E E E : eigen s 1. TRED1 TRBAKWY ( 1 16, 2 8, 4 4, 8 2, 16 1 ). PDSYTRD-16p-1t PDORM TR-p16-t1 9.00E E E E E E E E E E PDSYTRD-p8-t2 PDORM TR-p8-t2 9.00E E E E E E E E E E PDSYTRD-4p-4t PDORM TR-4p-4t 9.00E E E E E E E E E E PDSYTRD-2p-8t PDORM TR-2p-8t 7.00E E E E E E E E PDSYTRD-1p-16t PDORM TR-1p-16t 4.50E E E E E E E E E E : ScaLAPACK 1. PDSYTRD PDORMTR 15

16 ., ScaLAPACK. 10, PDSYTRD 1 16,. PDORMTR 2 8., ScaLAPACK BLAS., eigen_s, BLAS.,.,., ( ),.,. T2K. 4 TIPS(OpenMP ) eigen_s MPI OpenMP. MPI,,, OpenMP.,.. OpenMP, TIPS. 4.1 OpenMP OMP PARALLEL OMP END PARALLEL (OMP PAR- ALLEL ) ( ).,. OpenMP. 16

17 1., OMP PARALLEL DO. SUBROUTINE SUB(Z,V,SS) DO I=1,N S=SS(I)!$OMP PARALLEL DO DO J=1,K Z(J,I)=Z(J,I)+S*V(J) ENDDO!$OMP END PARALLEL DO ENDDO 2. OMP PARALLEL.,, PRIVATE. SUBROUTINE SUB(Z,V,SS)!$OMP PARALLEL PRIVATE(S,J) DO I=1,N S=SS(I)!$OMP DO DO J=1,K Z(J,I)=Z(J,I)+S*V(J) ENDDO!$OMP ENDDO ENDDO!$OMP END PARALLEL 3., SUB, OR- PHAN. SUB,. SAVE COMMON SHARED.,., SUB SHARED.,, SHARED.,, OMP DO,.!$OMP PARALLEL CALL SUB(Z,V,SS)!$OMP END PARALLEL 17

18 SUBROUTINE SUB(Z,V,SS) DO I=1,N!$OMP BARRIER S=SS(I)!$OMP DO DO J=1,K Z(J,I)=Z(J,I)+S*V(J) ENDDO!$OMP ENDDO ENDDO 4.2 OMP PARALLEL num_threads,., nested parallel,., 1, 5 1. CALL OMP_SET_NESTED(.TRUE.)!$OMP PARALLEL num_threads(2) IF(omp_get_thread_num()==0)THEN CALL SINGLE_THREAD_TASK() ELSE!$OMP PARALLEL num_threads(5) CALL FIVE_THREAD_TASK()!$OMP END PARALLEL ENDIF!$OMP END PARALLEL, numactl. 4.3,. OpenMP REDUCTION CRITICAL, ATOMIC,. eigen_s REDUCTION,., REDUCTION.. 18

19 PSI=ZERO!$OMP PARALLEL DO REDUCTION(+:PSI) DO I=1,N PSI=PSI+Z(J)**2 ENDDO!$OMP END PARALLEL DO, REDUCTION. SHARED TMP. PSI=ZERO!$ TMP(1)=PSI!$OMP PARALLEL PRIVATE(PSI)!$ PSI=0.0!$OMP MASTER!$ PSI=TMP(1)!$OMP END MASTER!$OMP DO DO I=1,N PSI=PSI+Z(J)**2 ENDDO!$OMP ENDDO!$ TMP(OMP_GET_THREAD_NUM()+1)=PSI!$OMP BARRIER!$OMP MASTER!$ PSI=0.0!$ DO I=1,OMP_GET_NUM_THREADS()!$ PSI=PSI+TMP(I)!$ ENDDO!$ TMP(1)=PSI!$OMP END MASTER!$OMP END PARALLEL!$ PSI=TMP(1) 5 T2K.,. T2K,.,., eigen_sx., 19

20 ..,,.,. [1] W.H. Press, S.A. Teukolsky, W.T. Vetterling, and B.O. Fkannery, Numerical Recipes: the Art of Scientific Computing, third edition, Cambridge University Press, [2] G.H. Golub, C.F.van Loan, Matrix Computations, third edition, the John Hopkins University Press, [3] J. Dongarra, S. Hammarling, and D. Sorensen, Block reduction of matrices to condensed forms for eigenvalue computation. J. Comput. Appl. Math. Vol , [4] HPC Challenge benchmark, [5] See Top500 benchmark or High Performance Linpack benchmark, or respectively. [6] J.J. Cuppen, A Divide-and-Conquer Method for the Symmetric Tridiagonal Eigenproblem, Numerische Mathematik 36, , [7] I.S. Dhillon, B.N. Parlett, and C. Vömel, The design and implementation of the MRRR algorithm, ACM Trans. Math. Softw., Vol.32, No.4, , [8] S. Tsujimoto, Y. Nakamura, and M. Iwasaki, Discrete Lotka-Volterra system computes singular values, Inverse Problems, Vol.17, 53 58, [9] C. Bischof, and C. van Loan, The WY representation for products of householder matrices, SIAM J. Sci. Stat. Comput. Vol.8, No.1, 2 13, [10] ScaLAPACK, [11],,, Vol.11, No.1, [12],,, Vol.14,

21 [13] S. Yamada, T. Imamura, T. Kano, and M. Machida, High-Performance Computing for Exact Numerical Approaches to Quantum Many-Body Problems on the Earth Simulator, ACM&IEEE Proceedings of SC 06, [14],,,,,, Vol.11, 2, [15],,,, Vol.45, No.SIG 6(ACS 6), ,

EigenExa Version 2.3c EigenExa

EigenExa Version 2.3c EigenExa 2015 6 24 3 1 5 1.1 EigenExa............................... 5 1.2 /Copyright.................................. 6 2 7 2.1 EigenExa............... 7 2.2 EigenExa..................................