2

Size: px

Start display at page:

Download "2"

あまめつちかね
5 years ago
Views:

1 ( ) 1

2 2

3 3

4 1.CPU, 2.,,,,,, 3. register, register, 4.L1, L2, (L3), (L4) 4

5 register L1 cache L2 cache Main Memory,, L2, L1 CPU L2, L1, CPU 5

6 , 6

7 dgem2vu 7

8 ? Wiedemann algorithm u 0, w 0, s i, s i = u 0 Ai w 0 t 0 = w 0, t 1 = At 0, t 2 = At 1, s 0 = u 0 t 0, s 1 = u 0 t 1, s 2 = u 0 t 2, 8

9 s i = u 0 Ai w 0 s 0 = (u 0 )(w 0) = (u 0 ) (w 0 ) s 1 = (u 0 )(Aw 0) = (u 0 ) (Aw 0 ) s 2 = (u 0 A)(Aw 0) = (A u 0 ) (Aw 0 ) s 3 = (u 0 A)(A 2 w 0 ) = (A u 0 ) (A 2 w 0 ) s 4 = (u 0 A2 )(A 2 w 0 ) = ((A ) 2 u 0 ) (A 2 w 0 ). 2 t 0 = w 0, t 1 = At 0, t 2 = At 1, v 0 = u 0, v 1 = A v 0, v 2 = A v 1, 2, 9

10 s 0 = v0 t 0 s 1 = v0 t 1 s 2 = v1 t 1 s 3 = v1 t 2 s 4 = v2 t 2. Wilkinson, Ax, A y, 10

11 for (j = 0; j < N; j++) ATY_TMP[j]=0; for (j = 0; j < N; j++){ TMP1 = 0; for (k = 0; k < N; k++){ TMP1 = (ULL) A[j][k] * X[k] + TMP1; ATY_TMP[k]=(ULL) A[j][k] * Y[j] + ATY_TMP[k]; } AX[j] = TMP1 % P; } for (j = 0; j < N; j++) ATY[j]=ATY_TMP[j] % P; Wiedemann algorithm, Z/pZ, % P, 1, 2 11

12 Ax, A y,,? Intel Math Kernel Libirary, BLAS LAPACK, BLAS?gem2vu The?gem2vu routines perform two matrix-vector operations defined as y1 := alpha*a*x1 + beta*y1, and y2 := alpha*a *x2 + beta*y2 12

13 two-stage algorithm 13

14 A n n, AV = V D, V V = V V = I n, λ 1 D =..., V = v 1 v n λ n, λ i (1 i n), V (n n) 14

15 A 1., A 3 T (1)Householder (Dongarra, ) (2)Bischof/Wu + 2. T V = V D, V V = V V = I n 3. V V 15

16 Bischof/Wu + n n A, (Bischof/Wu ), 3 T ( ) A 16

17 Bischof/Wu, O(n 3 )., O(Ln 2 ), L,. Bischof/Wu,, CPU. L,,,,, two-stage algorithm 17

18 two-stage algorithm Z/pZ, N N A, =, N N A, C, C Wiedemann algorithm A 18

19 N N, [1,10] N Wiedemann two-stage Hensel sec 0.579sec 0.263sec sec 1.983sec 2.757sec sec 5.891sec sec sec sec sec sec sec sec Intel(R) Core(TM) i7-4850hq 2.30GHz, L4 :128MB, Wiedemann algorithm CPU, Mem 16GB, Fodora 20 19

20 dgem2vu? two-stage algorithm, Wiedemann algorithm,, = 1, two-stage algorithm, Wiedemann algorithm 20

21 Hensel,,, ( ), v 0, Q, A k 1 v 0 A n 2 v 0 Av 0 v 0 c k 1. c 0 = A k v 0,, Hensel (p ) v 0 generic, 21

22 3 (1) (2) 1. AVX2 2. AVX bits 22

23 :two-stage algorithm n n A, 0 0 A 2 2,, 23

24 SIMD 24

25 SIMD(single instruction multiple data) IP x y y α x + y, SIMD (SSE,AVX ) SIMD, 25

26 s = min i, SIMD a i s 0 = a 0, s 1 = a 1, s 2 = a 2, s 3 = a 3 s 0 = min(s 0, a 4 ), s 1 = min(s 1, a 5 ), s 2 = min(s 2, a 6 ), s 3 = min(s 3, a 7 ) s 0 = min(s 0, a 8 ), s 1 = min(s 1, a 9 ), s 2 = min(s 2, a 10 ), s 3 = min(s 3, a 11 ) s = min(s 0, s 1, s 2, s 3 ) 26

27 , s = min i a i SIMD? C tmp=a[0]; for(i=step;i<n;i=i+step){ tmp=a[i] < tmp? A[i]:tmp; },, s = min i a i C, 27

28 FORTRAN Fortran =minval( ( )), SIMD, 28

29 C?, Intel Array Notation = sec reduce min( [ : : ]); Array Notation C

30 GNU minval Fortran gfortran -O3 -mtune=native -march=native -c program min.f program min.o gcc -O3 -mtune=native -march=native -o test test.c program min.o, Fortran C 30

31 2 ( ) 31

32 C89 double A[5][4];, OK, int N=atoi(argv[1]); double A[N][N]; double **A; A=(double **)malloc(sizeof(double *)*N); for(i=0;i<n;i++){ A[i]=(double *)malloc(sizeof(double)*n); }, 32

33 , 2, double *A; A=(double *)malloc(sizeof(double)*n*n);, A[i*N+j],, C99 int N=atoi(argv[1]); double A[N][N];,,, 33

34 , static double A[N][N];,, C99 int N=atoi(argv[1]); double (* restrict A)[N]; A=(double (* restrict)[n])malloc(sizeof(double)*n*n); A, N 1,, A[i][j], 34

35 restrict? Fortran C double precision A(N,N),B(N,N), Fortran, A B,, C, restrict,, 35

36 36

37 X X mod 2 = 1 X mod 3 = 2, X =, 13, 7, 1, 5, 11, 17,, X, 37

38 , X 1, X = 7, 1, 5,, 3 X mod 2 = 1 X mod 3 = 2 X mod 5 = 3,, X = 7,, 38

39 ( ) 2 2 : q, q 1 = q 2 = α 1,,α s c(α 1,, α s ), α 1,,α s c(α 1,, α s ) 2,, q = α 1,,α s c(α 1,, α s )x α 1 1 xα s s Z[x 1,, x s ] 39

40 A = (a i,j ) Z N N Hadamard, det(a) min N i=1 N j=1 a i,j 2, N j=1 N i=1 a i,j 2 A = (a i,j ) Z[x 1,, x s ] N N Goldstein Graham, det(a) 2 min N i=1 N j=1 a i,j 2 1, N j=1 N i=1 a i,j

41 B = a 2b 3c 4d + f = 4ad + 1af 6bc G.&G. = min( , ) < 13.1 A f(x) = det(xi A) f 1 (x) = f(x) mod p 1 f 2 (x) = f(x) mod p 2., f(x) 41

42 Z/pZ 42

43 .1:C GNU p, a, b Z, p < 2 63, 0 a, b < p, a b = (a + b) mod p 0 a 0,, a < p, r = a 0 a 1 a unsigned long long a[ ],r; r=0; for(i=0;i< ;i++) r=(r+a[i]) % p; 43

44 r = a 0 a 1 a = (a 0 + a a ) mod p typedef unsigned int uint128_t attribute ((mode(ti))); unsigned long long a[ ],r; uint128_t t=0; for(i=0;i< ;i++) t+=a[i]; r=t % p; 44

45 .2: Basic Linear Algebra Subprograms BLAS , p 1 2 p 1 2, N,, N p p 2 N + 1 p, BLAS 45

46 .3: SIMD 0 < p, N + 1 p Z/pZ, SIMD typedef unsigned int UI; typedef unsigned long long ULL; UI a[n],b[n],r,p; ULL t=0; for(i=0;i<n;i++) t+=(ull)a[i]*b[i]; r=t % p 46

47 .4: c i = a i mod p 0 c i < p, CPU, c i, 0 c i < 2p, 47

48 M = p ( ), M,, 128bits bits 64bits

49 (2) 1.0, M = (2 64 1)/p 1.0/p 2 64 p, M (a i M) 64bits, a i /p,, 1 (, ) c i = a i p (a i M 64bits) 49

50 64bits 64bits, xxx, asm ("mulq %3":"=a"(xxx),"=d"(r):"a"(a1),"g"(a2)) 50

51 Tropical Determinant 51

52 A:n A = (a ij ), det A det A = A = σ S n sgn(σ)a 1σ(1) a 2σ(2) a nσ(n) Permanent A:n A = (a ij ), per A per A = σ S n a 1σ(1) a 2σ(2) a nσ(n) 52

53 ultradiscretization, a + b max(a, b) a b a + b a/b a b ultradiscrete permanent A:n A = (a ij ), udper A udper A = max σ S n a 1σ(1) + a 2σ(2) + + a nσ(n) ultradiscrete permanent, Tropical Determinant 53

54 Tropical Determinant Linear Assignment Problem Tomizawa, N. : On some techniques useful for the solution of transportation problems. Networks 1, (1971). Jonker-Volgenant algorithm(lapjv),

55 Tropical Determinant A = 2x x 3 + 6x x x x 3, B = , B Tropical Determinant, A 55

56 Newton 56

57 Newton 1 n f(x) Newton f(x) = f[x 0 ] + (x x 0 )f[x 0, x 1 ] (x x 0 ) (x x n )f[x 0, x 1, x 2,..., x n ] f[x 0, x 1, x 2,..., x n ], 1, 2, f[x 0, x 1 ] = f(x 1) f(x 0 ) x 1 x 0, f[x 0, x 1, x 2 ] = f[x 0, x 2 ] f[x 0, x 1 ] x 2 x 1, 57

58 , n. f[x 0, x 1,..., x n ] = f[x 0, x 1,..., x n 2, x n ] f[x 0, x 1,..., x n 2, x n 1 ] x n x n 1, x n x n 1,, Z/pZ,, 1, 58

59 Newton (1) (x 0, f(x 0 )), (x 1, f(x 1 )),, (x N, f(x N )), f(x) = f 0 + (x x 0 )f 1 + (x x 0 )(x x 1 )f (x x 0 )(x x 1 ) (x x N )f N 59

60 f(x 0 ) = f 0, f(x 1 ) = f 0 + (x 1 x 0 )f 1, f 1 = f(x 1) f 0 x 1 x 0 f(x 2 ) = f 0 + (x 2 x 0 )f 1 + (x 2 x 0 )(x 2 x 1 )f 2, f 2 = f(x 2) (f 0 + (x 2 x 0 )f 1 ) (x 2 x 0 )(x 2 x 1 ) f 0 + (x 2 x 0 )f 1, 60

61 Newton (2) f(x j ) = f 0 + (x j x 0 )f 1 + (x j x 0 )(x j x 1 )f (x j x 0 )(x j x 1 ) (x j x N )f N (x j x 0 ), (x j x 0 )(x j x 1 ),, (x j x 0 )(x j x 1 ) (x j x N ),, f(x j ) = 1 f 0 + { (x j x 0 ) } f 1 + { (xj x 0 )(x j x 1 ) } f { (xj x 0 )(x j x 1 ) (x j x N ) } f N,, SIMD 61

62 Hyper-Threading Technology 62

63 1.x1=(ULL)a[i]*(ULL)b[i]+(ULL)c[i] 2. asm ("mulq %3":"=a"(xxx),"=d"(x2):"a"(x1),"g"(INV_CMX)) 3.z[i]=(UI)x1-(UI)x2*(UI)CM, z[i] = mod(a[i] b[i] + c[i], p) (ULL=unsigned long long,ui=unsigned int), i, , CPU ( CPU ) Hyper-Threading Technology 63

64 Intel Hyper-Threading Technology(HTT) Intel web page, Hyper-Threading Technology. ( HT ) 1 HT 64

65 E6(a)=a^27+12*p2*a^25+60*p2^2*a^23-48*p1*a^22+(168*p2^3+96*q2)*a^21-336*p2*p1*a^20+(294*p2^4+528*q2*p2+480*p0)*a^19+(-1008*p2^2*p1-1344*q1)*a^18 +(144*p1^2+336*p2^5+1152*q2*p2^2+2304*p0*p2)*a^17 +((-1680*p2^3-768*q2)*p1-5568*q1*p2)*a^16 +(608*p2*p1^2+252*p2^6+1200*q2*p2^3+4768*p0*p2^ *q0-1248*q2^2)*a^15 +((-1680*p2^4-2688*q2*p2+2304*p0)*p1-8832*q1*p2^2)*a^14 +(976*p2^2*p1^2+3264*q1*p1+120*p2^7+480*q2*p2^4+5696*p0*p2^3+ (43776*q0-4800*q2^2)*p *q2*p0)*a^13 +(832*p1^3+(-1008*p2^5-3072*q2*p2^2+5888*p0*p2)*p1-6528*q1*p2^ *q2*q1)*a^12 +((704*p2^3+4224*q2)*p1^2+2688*q1*p2*p1+33*p2^8-144*q2*p2^5+4384*p0*p2^4 +(41472*q0-6720*q2^2)*p2^ *q2*p0*p *p0^2)*a^11 +(2560*p2*p1^3+(-336*p2^6-768*q2*p2^3+3584*p0*p2^ *q0+8448*q2^2)*p1-2112*q1*p2^ *q2*q1*p *p0*q1)*a^10 +((176*p2^4+8960*q2*p *p0)*p1^2-5504*q1*p2^2*p1+4*p2^9-192*q2*p2^ *p0*p2^5+(22528*q0-3840*q2^2)*p2^ *q2*p0*p2^ *p0^2*p *q2*q *q1^2+5120*q2^3)*a^9 65

66 +(2688*p2^2*p1^3+4608*q1*p1^2+(-48*p2^7+768*q2*p2^4-1536*p0*p2^3 +(82944*q *q2^2)*p *q2*p0)*p1-192*q1*p2^ *q2*q1*p2^ *p0*q1*p2)*a^8 +(-2560*p1^4+(-32*p2^5+5376*q2*p2^ *p0*p2)*p1^2+(-6144*q1*p2^ *q2*q1)*p1-48*q2*p2^7+608*p0*p2^6+(9600*q0-480*q2^2)*p2^ *q2*p0*p2^ *p0^2*p2^2+(156672*q2*q *q1^2+9984*q2^3)*p *p0*q *q2^2*p0)*a^7 +((1024*p2^ *q2)*p1^ *q1*p2*p1^2+(384*q2*p2^5-1792*p0*p2^4 +(21504*q0+6912*q2^2)*p2^ *q2*p0*p *p0^2)*p1+1536*q2*q1*p2^ *p0*q1*p2^ *q1*q *q2^2*q1)*a^6 +(-1536*p2*p1^4+(-16*p2^6+768*q2*p2^3-4608*p0*p2^ *q *q2^2)*p1^2 +(-1344*q1*p2^ *q2*q1*p2-9216*p0*q1)*p1+64*p0*p2^7 +(2304*q0+192*q2^2)*p2^5-3072*p0^2*p2^3+(55296*q2*q *q1^ *q2^3)*p2^2+( *p0*q *q2^2*p0)*p *q2*p0^2)*a^5 +((64*p2^4-4096*q2*p2+8192*p0)*p1^3-512*q1*p2^2*p1^2+(-256*p0*p2^5+ (3072*q0-768*q2^2)*p2^3-8192*q2*p0*p2^ *p0^2*p *q2*q *q1^ *q2^3)*p1-1024*p0*q1*p2^3+(-36864*q1*q0-3072*q2^2*q1)*p *q2*p0*q1)*a^4 +(256*p2^2*p1^ *q1*p1^3+(128*q2*p2^4-1024*p0*p2^3+(-6144*q0

67 -2560*q2^2)*p2+8192*q2*p0)*p1^2+(-128*q1*p2^5+2048*q2*q1*p2^ *p0*q1*p2)*p1+256*q0*p2^6-256*q2*p0*p2^5+256*p0^2*p2^4+(9216*q2*q0-2560*q1^2-256*q2^3)*p2^3+(-18432*p0*q0-7680*q2^2*p0)*p2^ *q2*p0^2*p *q0^ *q2^2*q *q2*q1^ *p0^3-6912*q2^4)*a^3 +(-1024*p1^5+4096*p0*p2*p1^ *q2*q1*p1^ *q1^2*p2*p1)*a^2 +(-2048*q2*p1^4+2048*q1*p2*p1^3+((-3072*q0-256*q2^2)*p2^2+4096*q2*p0*p2-4096*p0^2)*p1^2+(512*q2*q1*p2^3-1024*p0*q1*p2^ *q1*q *q2^2*q1)*p1-256*q1^2*p2^4-6144*q2*q1^2*p *p0*q1^2)*a +(4096*q0-1024*q2^2)*p1^3+(2048*q2*q1*p2-4096*p0*q1)*p1^2-1024*q1^2*p2^2*p1-4096*q1^3 E6(a)

68 E6 k (a) = E6(a) mod a k+1,, CPU:Intel Core i7 980X(6 Core), Mem:24G, OS:Fedora 13 GNU GCC compiler Option:-O3 -mtune=native -march=native -fopenmp Kimura Parallel Kimura Parallel k Kimura Serial without HTT with HTT 7 5m46.000s 1m13.400s s 66

69 Intel C++ compiler Option:-fast -openmp Kimura Parallel Kimura Parallel k Kimura Serial without HTT with HTT 7 6m11.804s 1m11.837s s 6 Core CPU, 6 (super-linear) 67

70 E6(a) CPU:Intel Core i7 980X(6Core) Mem:24G Compiler:GCC Option:-O3 -mtune=native -march=native -fopenmp : (txt :2.5G) Serial: 10913m45.857s Parallel: 1773m28.272s Speed Up: 6.15 superlinear 68

untitled

untitled A = QΛQ T A n n Λ Q A = XΛX 1 A n n Λ X GPGPU A 3 T Q T AQ = T (Q: ) T u i = λ i u i T {λ i } {u i } QR MR 3 v i = Q u i A {v i } A n = 9000 Quad Core Xeon 2 LAPACK (4/3) n 3 O(n 2 ) O(n 3 ) A {v i }