Overview (Gaussian Process) GPLVM GPDM 2 / 59

Size: px

Start display at page:

Download "Overview (Gaussian Process) GPLVM GPDM 2 / 59"

よりとしかくはり
5 years ago
Views:

1 ( ) 1 / 59

2 Overview (Gaussian Process) GPLVM GPDM 2 / 59

3 (Gaussian Process) y x x y (regressor) D = { (x (n), y (n) ) } N, n=1 x (n+1) y (n+1), ( ) 3 / 59

4 (Gaussian Process) y x x y (regressor) D = { (x (n), y (n) ) } N, n=1 x (n+1) y (n+1), ( ) 3 / 59

5 (Gaussian Process) y x x y (regressor) D = { (x (n), y (n) ) } N, n=1 x (n+1) y (n+1), ( ) 4 / 59

6 y = w 0 + w 1 x 1 + w 2 x 2 + ϵ = (w 0 w 1 w 2 ) 1 +ϵ }{{} w T x 1 = w T x + ϵ x 2 }{{} x ŵ = (X T X) 1 X T y ( ), 5 / 59

7 (GLM) y = w 0 + w 1 x + w 2 x 2 + w 3 x 3 + ϵ (1) = (w 0 w 1 w 2 w 3 ) 1 +ϵ (2) }{{} w T x x 2 x 3 }{{} = w T ϕ(x) + ϵ ϕ(x) (3) ϕ(x)! 6 / 59

8 (GLM) (2) ϕ(x) = ( (x µ 1) 2 2σ 2, (x µ 2) 2 2σ 2,, (x µ K) 2 ) 2σ 2 (4),! µ = (µ 1, µ 2,, µ K ) 7 / 59

9 x y R y = f(x) x = (x 1,, x d ) R d y = f(x), x ϕ(x) y = w T ϕ(x) (5) ϕ(x) = (ϕ 1 (x), ϕ 2 (x),, ϕ H (x)) T = (1, x 1,, x d, x 2 1,, x 2 d )T w = (w 0, w 1,, w 2d ) T, y = w T ϕ(x) = w 0 + w 1 x w d x d + w d+1 x w 2d x 2 d. 8 / 59

10 GP (1) y (1) y (N), y = Φw (Φ : ) ϕ 1 (x (1) ) ϕ H (x (1) ) w 1. = ϕ 1 (x (2) ) ϕ H (x (2) ) w 2... ϕ 1 (x (N) ) ϕ H (x (N) ). y (1) y (2) y (N) w H y Φ w w p(w) = N(0, α 1 I), y = Φw, 0, yy T = (Φw) (Φw) T = Φ ww T Φ T (7) = α 1 ΦΦ T (6) 9 / 59

11 GP (2) p(y) = N(y 0, α 1 ΦΦ T ) (8), {x n } N n=1 (x 1, x 2,, x N ), y = (y 1, y 2,, y N ), p(y). =, K = α 1 ΦΦ T k(x, x ) = α 1 ϕ(x) T ϕ(x ) (9) k(x, x ) x x ; x y 10 / 59

12 GP (3), ϵ { y = w T ϕ(x) + ϵ = p(y f) = N(w T ϕ(x), β 1 I) (10) ϵ N(0, β 1 I) f = w T ϕ(x) p(y x) = p(y f)p(f x)df (11) = N(0, C) (12) Gaussian, C : C(x i, x j ) = k(x i, x j ) + β 1 δ(i, j). (13) GP, k(x, x ) α, β. 11 / 59

13 y 0 y x Gaussian: exp( (x x ) 2 /l) x Exponential: exp( x x /l) (OU process) y 0 y x x Periodic: exp( 2 sin 2 ( x x 2 )/l 2 ) Periodic(L): exp( 2 sin 2 ( x x 2 )/(10l) 2 ) 12 / 59

14 Correlated Gaussian K = 13 / 59

15 (2) Correlated Gaussian K = 14 / 59

16 (3) Correlated Gaussian K = 15 / 59

17 Infinite dimensional Gaussian, (x 1, x 2,, x n ) y = (y 1, y 2,, y n ), y. (x 1, x 2,, x n ), ( ). K K ij = k(x i, x j ) k. 16 / 59

18 RBF ϕ(x) = exp((x h) 2 /r 2 ) 1, h k(x, x ) = σ 2 H h=1 ϕ h (x)ϕ h (x ) (14) (x h)2 exp ( r 2 ) exp ( (x h) 2 r 2 ) dh (15) = πr 2 exp ( (x x ) 2 ) 2r 2 θ 1 exp ( (x x ) 2 ) θ 2 2 (16) (x, x ) RBF, RBF. θ 1, θ 2 17 / 59

19 GP y new y Gaussian, p(y new x new, X, y, θ) = p((y, ynew ) (X, x new ), θ) p(y X, θ) [ exp 1 2 ([y, K ynew ] k T k k ] 1 [ ] y y new y T K 1 y) (17) (18) (19) N(k T K 1 y, k k T K 1 k). (20) K = [k(x, x )]. k = (k(x new, x 1 ),, k(x new, x N )). 18 / 59

20 GP SVR, Ridge, ARD (Cohn+ 2013) ( ) k(x, x ) = σf 2 exp 1 (x k x k )2 2 σk 2 k (21) Model MAE RMSE µ SVM Linear ARD Squared exp. Isotropic Squared exp. ARD Rational quadratic ARD Matern(5,2) Neural network / 59

21 GP SVR, Ridge, ARD (Cohn+ 2013) ( ) k(x, x ) = σf 2 exp 1 (x k x k )2 2 σk 2 k (22) Model MAE RMSE µ Independent SVMs EasyAdapt SVM Independent Pooled Pooled &{N} Combined / 59

22 GP>SVR,, (Cohn etc.)! 21 / 59

23 GP GP : / X K 1 O(N 3 ) N > 1000, : m X m, X m O(m 2 N) 22 / 59

24 Subset of Data : K K mm (23), m O(m 3 ), 23 / 59

25 Subset of Data : K K mm (24), m O(m 3 ), / 59

26 (2) Subset of Regressors (Silverman 1985) : m K K nm K 1 mmk mn = K (25) K nm : N m O(m 2 N) 25 / 59

27 (2) Subset of Regressors (Silverman 1985) : m K K nm K 1 mmk mn = K (26) K nm : N m O(m 2 N), / 59

28 K, (Quiñonero-Candela & Rasmussen 2005). 27 / 59

29 (Titsias 2009), Jensen : log p(x)f(x)dx p(x) log f(x)dx X m GP f m, log p(y) = log p(y, f, f m )dfdf m (27) = log q(f, f m ) p(y, f, f m) q(f, f m ) dfdf m (28) q(f, f m ) log p(y, f, f m) q(f, f m ) dfdf m (29), q(f, f m ) 28 / 59

30 (2) p(y, f, f m ) = p(y f)p(f f m )p(f m ), q(f, f m ) = p(f f m )q(f m ), log p(y) = = = q(f, f m ) log p(y, f, f m) q(f, f m ) dfdf m (30) p(f f m )q(f m ) log p(y f) p(f f m )p(f m ) dfdf m p(f f m )q(f m ) (31) p(f f m )q(f m ) log p(y f)p(f m) dfdf m q(f m ) (32) q(f m )[ p(f f m ) log p(y f)df } {{ } G(f m ) + log p(f ] m) df m q(f m ) (33) 29 / 59

31 (3) G(f m ), G(f m ) = p(f f m ) log p(y f)df (34) = p(f f m ) ( N2 ) (y log(2πσ2 f)2 ) 2σ 2 df (35) [ = p(f f m ) N 2 log(2πσ2 ) 1 ] 2σ 2 tr(yt y 2y T f +f T f) df = N 2 log(2πσ2 ) 1 [ y T 2σ 2 y 2y T α+α T α+tr ( K nn K nm K 1 ( α = E[f fm ] = K nm Kmmf 1 ) m = log N(y α, σ 2 I) 1 2σ 2 tr ( K nn K nn (36) mmk mn )] (37) ). (38) 30 / 59

32 (4), log p(y) = = [ q(f m ) q(f m ) G(f m ) + log p(f m) q(f m ) [ log N(y α, σ 2 I) 1 ] df m (39) 2σ 2 tr ( K nn K nn ) + log p(f m) q(f m ) ] df m [ q(f m ) log N(y α, σ2 I) + log p(f m ) q(f m ) Jensen bound, p(x) log f(x) dx log p(x) ] df m (40) 1 2σ 2 tr(k nn K nn) (41) f(x)dx (42) 31 / 59

33 (5), log N(y α, σ 2 I)p(f m )df m 1 2σ 2 tr(k nn K nn) (K nn = K nm K 1 mmk mn ) (43) α = E[f f m ] = K nm K 1 mmf m, N(y α, σ 2 I)p(f m )df m = N(y 0, σ 2 I + K nn) (44), log p(y) log N(y 0, σ 2 I + K nn) 1 2σ 2 tr(k nn K nn). (45) 32 / 59

34 (6) log N(y 0, σ 2 I + K nn) 1 2σ 2 tr(k nn K nn) = log N(y 0, σ 2 I + K nn) 1 2σ 2 tr(cov(f f m)) (46) 1 : f m 2 : f m K nn, / 59

35 GP SVM y = {+1, 1}, p(y f) = σ(y f) (logit) or Ψ(y f) (probit) minimize: log p(y f)p(f X) = 1 N 2 f T K 1 f log p(y i f i ) (47) i=1 SVM Kα = f, w = α i x i w 2 = α T Kα = f T K 1 f, i 1 N minimize: 2 w 2 C (1 y i f i ) + i=1 = 1 N 2 f T K 1 f C (1 y i f i ) +. (48) i=1, SVM hinge loss. 34 / 59

36 Loss functions Relationships between GPs and Other Models 2 log(1 + exp( z)) log Φ(z) max(1 z, 0) g ǫ(z) ǫ 0 ǫ z (a) (b) Figure 6.3: (a) A comparison of the hinge error, g λ and g Φ. (b) The ǫ-insensitive error function used in SVR. SVM ME, :, GP classifier ( ) 35 / 59

37 DP Gaussian process Dirichlet process [ ] GP: (x 1, x 2,, x ), (y 1, y 2,, y ) DP: (X 1, X 2,, X ), Dir(α(X 1 ), α(x 2 ),, α(x )), smoother 36 / 59

39 Probabilistic PCA (Tipping & Bishop 1999), { yn = Wx n + ϵ ϵ N(0, σ 2 I) (49) L = log p(y n ) = log N(Wx n, σ 2 I) (50) = N 2 ( log 2π + log C + tr(c 1 S) ) (51), C = WW T + σ 2 I (52) S = 1 N YYT. (53) 38 / 59

40 (2) L = 0, L W W Ŵ U q(λ q σ 2 I) 1 2 (σ 2 = 0 U q Λ 1 2 ) (54) Λ q, U q : YY T q σ 2 = 0 39 / 59

41 Gaussian Process Latent Variable Models (GPLVM) Probabilistic PCA (Tipping&Bishop 1999): p(y n W, β) = p(y n x n,w, β)p(x n )dx n (55) p(y W, β) = n p(y n W, β) W GPLVM (Lawrence, NIPS 2003): W prior p(w) = D N(w i 0, α 1 I) (56) i=1 p(y X, β) = p(y X, β)p(w)dw (57) ( 1 = (2π) DN/2 exp 1 ) K D/2 2 tr(k 1 YY T ) (58) 40 / 59

42 GPLVM (2): PPCA Dual log p(y X, β) = DN 2 log(2π) D 2 log K 1 2 tr(k 1 YY T ) (59) K = αxx T + β 1 I (60) X = [x 1,, x N ] T (61) X, L X = αk 1 YY T K 1 X αdk 1 X = 0 (62) X = 1 D YYT K 1 X X U Q LV T (63) U Q (N Q) : YY T Q λ 1 λ Q L = diag(l 1,, l Q ); l i = 1/ λi αd 1 αβ 41 / 59

43 GPLVM (3) : Kernel log p(y X, β) = DN 2 log(2π) D 2 log K 1 2 tr(k 1 YY T ) K = αxx T + β 1 I, (64) X = [x 1,, x N ] T (65) = K ( k(x n, x m ) = α exp γ 2 (x n x m ) 2) + δ(n, m)β 1 (66) L K = K 1 YY T K 1 DK 1 L = L K x n,j K x n,j Scaled Conjugate Gradient GPLVM in MATLAB: neill/gplvm/ 42 / 59

44 GPLVM (4): Figure 1: Visualisation of the Oil data with (a) PCA (a linear GPLVM) and (b) A GPLVM which uses an RBF kernel. Crosses, circles and plus signs represent stratifi ed, annular and homogeneous flows respectively. The greyscales in plot (b) indicate the precision with which the manifold was expressed in data-space for that latent point. The optimised parameters of the kernel were, and f. PPCA( ), GP-LVM( ), Confidence (O(N 3 )): active set ( ), 43 / 59

45 GPLVM (4): Caveat PCA, Neil Lawrence, 1e-2*randn(N,dims) Scaled conjugate gradient / 59

46 GPLVM (5): / 59

47 GPLVM (6): / 59

48 GPLVM (6): PCA 47 / 59

49 GPLVM (7): MCMC Local Global MCMC ( =0.2, 400 iteration) 0 ( GPDM) 48 / 59

50 GPLVM (8): MCMC (Oil Flow) Local Global MCMC, X, X 49 / 59

Gaussian Process Dynamical Model (Hertzmann 2005) http://www.

51 Gaussian Process Dynamical Model (Hertzmann 2005) jmwang/gpdm/ GPLVM, x n x n (GP ). ( ).? 50 / 59

52 GPDM (2): Formulation (1) { xt = f(x t 1 ; A) + ϵ x,t y t = g(x t ; B) + ϵ y,t, f GP(0, K x ) (67) g GP(0, K y ) (68) p(y, X α, β) = p(y X, β)p(x α). 1 W N ( p(y X, β) = (2π) ND/2 exp 1 ) K Y D/2 2 tr(k 1 Y YW2 Y T ) (69) GPLVM. K Y ( ) RBF 51 / 59

53 GPDM (3): Formulation (2) 2 Markov N p(x α) = p(x 1 ) p(x t x t 1, A, α) p(a α) da (70) }{{} t=2 Gaussian ( 1 = p(x 1 ) (2π) d(n 1)/2 K X d exp 1 ) 2 tr(k 1 X X X T ) (71) X = [x 2,, x N ] T K X x 1 x N 1 RBF+ ( k(x, x ) = α 1 exp α 2 2 x x 2) + α 3 x T x + α4 1 δ(x, x ). (72) 52 / 59

54 GPDM (4): Formulation(3) p(y, X, α, β) = p(y X, β)p(x α)p(α)p(β) (73) p(α) i αi 1, p(β) i β 1 i. (74) log p(y, X, α, β) = 1 2 tr(k 1 X X X T ) tr(k 1 Y YW2 Y T ) + d 2 log K X + D 2 log K Y ( ) log W + log α j + log β j j j }{{} ( ) (75). (76) 53 / 59

55 Gaussian Process Density Sampler (1) (a) l x =1, l y =1, α=1 (b) l x =1, l y =1, α=10 (c) l x =0.2, l y =0.2, α=5 (d) l x =0.1, l y =2, α=5 GP prior? p(x) = 1 Φ(f(x))π(x) (77) Z(f) f(x) GP(x) ; π(x) : Φ(x) [0, 1] : ex. Φ(x) = 1/(1 + exp( x)) 54 / 59

56 Gaussian Process Density Sampler (2) : Rejection sampling p(x) = 1 Φ(f(x))π(x) (78) Z(f) 1. Draw x π(x). 2. Draw r Uniform[0, 1]. 3. If r < Φ(g(x)) then accept x; else reject x Accept N, reject M ( ) Z(f), Φ(g(x)) MCMC! Infinite Mixture 55 / 59

57 Gaussian process,,,,, (GPLVM, GPDM) 56 / 59

58 Literature Gaussian Process Dynamical Models. J. Wang, D. Fleet, and A. Hertzmann. NIPS jmwang/gpdm/ Gaussian Process Latent Variable Models for Visualization of High Dimensional Data. Neil D. Lawrence, NIPS The Gaussian Process Density Sampler. Ryan Prescott Adams, Iain Murray and David MacKay. NIPS Archipelago: Nonparametric Bayesian Semi-Supervised Learning. Ryan Prescott Adams and Zoubin Ghahramani. ICML / 59

59 (Pattern Recognition and Machine Learning), Chapter 6. Christopher Bishop, Springer, Gaussian Processes for Machine Learning. Rasmussen and Williams, MIT Press, Gaussian Processes A Replacement for Supervised Neural Networks?. David MacKay, Lecture notes at NIPS Videolectures.net: Gaussian Process Basics. mackay gpb/ (1)., tmasada/ pdf 58 / 59

60 Codes GPML Toolbox (in MATLAB): GPy (in Python): 59 / 59

? (EM),, EM? (, 2004/ 2002) von Mises-Fisher ( 2004) HMM (MacKay 1997) LDA (Blei et al. 2001) PCFG ( 2004)... Variational Bayesian methods for Natural

? (EM),, EM? (, 2004/ 2002) von Mises-Fisher ( 2004) HMM (MacKay 1997) LDA (Blei et al. 2001) PCFG ( 2004)... Variational Bayesian methods for Natural SLC Internal tutorial Daichi Mochihashi daichi.mochihashi@atr.jp ATR SLC 2005.6.21 (Tue) 13:15 15:00@Meeting Room 1 Variational Bayesian methods for Natural Language Processing p.1/30 ? (EM),, EM? (, 2004/