Variational Auto Encoder

Similar documents
Probit , Mixed logit

memo

集中理論談話会 #9 Bhat, C.R., Sidharthan, R.: A simulation evaluation of the maximum approximate composite marginal likelihood (MACML) estimator for mixed mu

ベイズ統計入門

Microsoft Word - 補論3.2

ビジネス統計 統計基礎とエクセル分析 正誤表

Microsoft PowerPoint - H17-5時限(パターン認識).ppt

Microsoft Word - Time Series Basic - Modeling.doc

5 Basis Expansions and Regularization 5.3 Filtering and Feature Extraction 5.4 Smoothing Splines Degrees of Freedom and Smoother Matrices

0 21 カラー反射率 slope aspect 図 2.9: 復元結果例 2.4 画像生成技術としての計算フォトグラフィ 3 次元情報を復元することにより, 画像生成 ( レンダリング ) に応用することが可能である. 近年, コンピュータにより, カメラで直接得られない画像を生成する技術分野が生

様々なミクロ計量モデル†

PowerPoint プレゼンテーション

講義「○○○○」

Microsoft Word - thesis.doc

PowerPoint プレゼンテーション

統計学 - 社会統計の基礎 - 正規分布 標準正規分布累積分布関数の逆関数 t 分布正規分布に従うサンプルの平均の信頼区間 担当 : 岸 康人 資料ページ :

パソコンシミュレータの現状

日心TWS

スライド 1

NLMIXED プロシジャを用いた生存時間解析 伊藤要二アストラゼネカ株式会社臨床統計 プログラミング グループグルプ Survival analysis using PROC NLMIXED Yohji Itoh Clinical Statistics & Programming Group, A

Microsoft PowerPoint - 三次元座標測定 ppt

文章のトピック 文章には様々なトピックが存在する Cuomo to Push for Broader Ban on Assault Weapons 2012 Was Hottest Year in U.S. History 2

DVIOUT

Microsoft PowerPoint - 14回パラメータ推定配布用.pptx

Microsoft PowerPoint - 10.pptx

If(A) Vx(V) 1 最小 2 乗法で実験式のパラメータが導出できる測定で得られたデータをよく近似する式を実験式という. その利点は (M1) 多量のデータの特徴を一つの式で簡潔に表現できること. また (M2) y = f ( x ) の関係から, 任意の x のときの y が求まるので,

? (EM),, EM? (, 2004/ 2002) von Mises-Fisher ( 2004) HMM (MacKay 1997) LDA (Blei et al. 2001) PCFG ( 2004)... Variational Bayesian methods for Natural

PowerPoint Presentation

ボルツマンマシンの高速化

PowerPoint プレゼンテーション

SAP11_03

景気指標の新しい動向

Microsoft Word - reg2.doc

横浜市環境科学研究所

Chap2.key

生命情報学

untitled

ii 3.,. 4. F. (), ,,. 8.,. 1. (75% ) (25% ) =9 7, =9 8 (. ). 1.,, (). 3.,. 1. ( ).,.,.,.,.,. ( ) (1 2 )., ( ), 0. 2., 1., 0,.

森林水文 水資源学 2 2. 水文統計 豪雨があった時, 新聞やテレビのニュースで 50 年に一度の大雨だった などと報告されることがある. 今争点となっている川辺川ダムは,80 年に 1 回の洪水を想定して治水計画が立てられている. 畑地かんがいでは,10 年に 1 回の渇水を対象として計画が立て

Microsoft Word ã‡»ã…«ã‡ªã…¼ã…‹ã…žã…‹ã…³ã†¨åłºæœ›å•¤(佒芤喋çfl�)

Microsoft PowerPoint slide2forWeb.ppt [互換モード]

<4D F736F F D20824F B CC92E8979D814696CA90CF95AA82C691CC90CF95AA2E646F63>

14 化学実験法 II( 吉村 ( 洋 mmol/l の半分だったから さんの測定値は くんの測定値の 4 倍の重みがあり 推定値 としては 0.68 mmol/l その標準偏差は mmol/l 程度ということになる 測定値を 特徴づけるパラメータ t を推定するこの手

<4D F736F F D20824F E B82CC90FC90CF95AA2E646F63>

統計学的画像再構成法である

DVIOUT

OpenFOAM(R) ソースコード入門 pt1 熱伝導方程式の解法から有限体積法の実装について考える 前編 : 有限体積法の基礎確認 2013/11/17 オープンCAE 富山富山県立大学中川慎二

Stanによるハミルトニアンモンテカルロ法を用いたサンプリングについて

PowerPoint プレゼンテーション

混沌系工学特論 #5

ワースペクトルの離散フーリエ逆変換として以下の式で 与えられる XkY k rm IDFT Xk Y k 信号の位相スペクトルが 変量確率分布に従う場合 の POC 関数の統計的性質 3 3. 著者らのグループがこれまでに行ってきた POC 関数の XkY k W mk Xk Y k 統計的解析では

ファイナンスのための数学基礎 第1回 オリエンテーション、ベクトル

第 3 回講義の項目と概要 統計的手法入門 : 品質のばらつきを解析する 平均と標準偏差 (P30) a) データは平均を見ただけではわからない 平均が同じだからといって 同一視してはいけない b) データのばらつきを示す 標準偏差 にも注目しよう c) 平均

Kumamoto University Center for Multimedia and Information Technologies Lab. 熊本大学アプリケーション実験 ~ 実環境における無線 LAN 受信電波強度を用いた位置推定手法の検討 ~ InKIAI 宮崎県美郷

1/30 平成 29 年 3 月 24 日 ( 金 ) 午前 11 時 25 分第三章フェルミ量子場 : スピノール場 ( 次元あり ) 第三章フェルミ量子場 : スピノール場 フェルミ型 ボーズ量子場のエネルギーは 第二章ボーズ量子場 : スカラー場 の (2.18) より ˆ dp 1 1 =

09.pptx

線積分.indd

OCW-iダランベールの原理

情報工学概論

Microsoft Word - Stattext07.doc

スライド 1

1/17 平成 29 年 3 月 25 日 ( 土 ) 午前 11 時 1 分量子力学とクライン ゴルドン方程式 ( 学部 3 年次秋学期向 ) 量子力学とクライン ゴルドン方程式 素粒子の満たす場 y ( x,t) の運動方程式 : クライン ゴルドン方程式 : æ 3 ö ç å è m= 0

ディジタル信号処理

untitled

0 部分的最小二乗回帰 Partial Least Squares Regression PLS 明治大学理 学部応用化学科 データ化学 学研究室 弘昌

データ解析

Microsoft PowerPoint - 第3回2.ppt

Microsoft PowerPoint - 基礎・経済統計6.ppt

データ科学2.pptx

カイ二乗フィット検定、パラメータの誤差

多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典

Microsoft PowerPoint - H21生物計算化学2.ppt

画像処理工学

統計的データ解析

Microsoft Word - Matlab_R_MLE.docx

Microsoft PowerPoint - CSA_B3_EX2.pptx

PowerPoint プレゼンテーション

Microsoft Word - Chap17

Microsoft PowerPoint - e-stat(OLS).pptx

OpRisk VaR3.2 Presentation

ベクトル公式.rtf

スライド 1

CAEシミュレーションツールを用いた統計の基礎教育 | (株)日科技研

Microsoft PowerPoint - DigitalMedia2_3b.pptx

MCMC: Marov Chain Monte Carlo [20] 2. VAE-NMF DNN DNN F T X x t R F t = 1,..., T x t 2. 1 Generative Adversarial Networ: GAN [21,22] GAN z t R D x t z

数学 t t t t t 加法定理 t t t 倍角公式加法定理で α=β と置く. 三角関数

航空機の運動方程式

画像解析論(2) 講義内容

Microsoft PowerPoint - 10.pptx

Microsoft PowerPoint - 資料04 重回帰分析.ppt

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション

Microsoft Word - reg.doc

1/10 平成 29 年 3 月 24 日午後 1 時 37 分第 5 章ローレンツ変換と回転 第 5 章ローレンツ変換と回転 Ⅰ. 回転 第 3 章光速度不変の原理とローレンツ変換 では 時間の遅れをローレンツ変換 ct 移動 v相対 v相対 ct - x x - ct = c, x c 2 移動

したがって このモデルではの長さをもつ潜在履歴 latent history が存在し 同様に と指標化して扱うことができる 以下では 潜在的に起こりうる履歴を潜在履歴 latent history 実際にデ ータとして記録された履歴を記録履歴 recorded history ということにする M

受信機時計誤差項の が残ったままであるが これをも消去するのが 重位相差である. 重位相差ある時刻に 衛星 から送られてくる搬送波位相データを 台の受信機 でそれぞれ測定する このとき各受信機で測定された衛星 からの搬送波位相データを Φ Φ とし 同様に衛星 からの搬送波位相データを Φ Φ とす

Microsoft Word - 1B2011.doc

U U U car Vcar car bus Vbus bus rail Vrail bus 多項ロジットモデル ε~iidガンベル 2 独立で (Independently) 同一 (Identically) の分散を持つ 0 分布 (Distributed) 0 Cov(U)

Dirichlet process mixture Dirichlet process mixture 2 /40 MIRU2008 :

スライド 1

Transcription:

Variational Auto Encoder nzw 216 年 12 月 1 日 1 はじめに 深層学習における生成モデルとして Generative Adversarial Nets (GAN) と Variational Auto Encoder (VAE) [1] が主な手法として知られている. 本資料では,VAE を紹介する. 本資料は, 提案論文 [1] とチュートリアル資料 [2] をもとに作成した. おまけとして潜在表現が離散値を仮定したパターンと Keras による実験結果をつけている. 間違いなどがあれば指摘してほしい. 2 Variational Auto Encoder 2.1 導入 φ z θ x N 図 1 今回考えるグラフィカルモデル VAE では図 1 にあるような潜在変数を含んだグラフィカルモデルで表現される生成過程を考える.x は 1 つのデータで,i.i.d を仮定する. 各 x に対して潜在変数 z が 1 つ定義され,z は実数値を要素にもつベクトルとする. また θ はモデル全体に共通した潜在変数, N はデータ数である. これらの依存関係は図 1 において実線で表される. データの生成過程は以下のとおりである. 1. Sample z (i) from prior p(z; θ) 2. Sample x (i) from p(x (i) z (i) ; θ) MNIST *1 の例で考えると,x は 1 つのデータなので MNIST の 1 画像と対応する. 潜在変数 z を仮定することで, 潜在変数で表した抽象的な表現をもとに具体的な画像が生成されることをモデリングしている. 図 1 のような潜在変数を仮定した場合, 学習データ x から以下の周辺尤度を最大化することで潜在変数を *1 ~9 までのグレースケール手書き文字画像. 1 つの画像は x とすると x ij 1 かつ i, j 27 をみたす. 1

推定する. p(x; θ) = p(x z; θ)p(z; θ)dz (1) このとき, 事前分布 p(z; θ) と事後分布 p(x z; θ) はパラメトリックな分布を仮定するため, それらのパラメータ θ について PDF は微分可能だが, 潜在変数 θ と z は未知であるため微分できない. このような場合,EM アルゴリズム, 平均場近似を導入した変分ベイズ学習,MCMC 法による推定を行うことが多い. 今回の VAE では別の変分推論を与えている. まず VAE では, 推定が困難な p(z x; θ) の近似として q(z x; φ) (2) という分布を置く.q(z x; φ) の依存関係は図 1 の点線で与えられる. 次節では, この q(z x; φ) と式 1 の関係からニューラルネットワークで最小化する損失関数を定義する. 2.2 Variational Lower Bound 変分ベイズ学習で変分下限を求めたように,KL ダイバージェンス ( 以下 KL ) との関係式から最適化の対 象である evidence lower bound (ELBO) を求める.VAE ではこの値を最大化するようにパラメータの推定 を行う. 推定困難な潜在変数 z の事後確率分布 p(z x; θ) の推定をするために, 比較的容易に推定可能な確率 分布 q(z x; φ) を導入した. 確率分布間がどれほど違っているかを表す KL を使って p(z x; θ) との関係式か ら ELBO を求める. KL ( q(z x; φ) p(z x; θ) ) (3) この式には推定困難な事後分布 p(z x; θ) が含まれているため, 直接最適化できない. そこで, 尤度と式 3 の 関係性を利用した式変形を行う. 以下の式変形では, 見た目を優先してパラメータ φ と θ は省略している. KL(q(z x) p(z x)) = q(z x) log q(z x) dz (4) p(z x) = q(z x) ( log q(z x) log p(z x) ) dz () = q(z x) ( log q(z x) log p(x z)p(z) ) dz (6) p(x) = q(z x) ( log q(z x) log p(x z) log p(z) + log p(x) ) dz (7) = log p(x) + q(z x) ( log q(z x) log p(x z) log p(z) ) dz (8) = log p(x) + q(z x) log q(z x) p(z) dz q(z x) log p(x z)dz (9) = log p(x) + KL ( q(z x) p(z) ) q(z x) log p(x z)dz (1) log p(x) KL(q(z x) p(z x)) = q(z x) log p(x z)dz KL ( q(z x) p(z) ) (11) となる.KL は負の値は取らないことから, 左辺の 2 項目を取り除くことで log p(x) q(z x) log p(x z)dz KL ( q(z x) p(z) ) = L(θ, φ; x) (12) が常に成立する. このときの右辺が ELBO で L(θ, φ; x) = q(z x) log p(x z)dz KL ( q(z x) p(z) ) (13) 2

である. 左辺を最大化する代わりに右辺の最大化を行う. これで事後分布 p(z x) を含まない ELBO の最適化問題に帰着される. 式 13 の各項についてみると.2 項目の KL は解析的に求まる形で導出され, また正規化項の役割を果たす. 1 項目は期待値計算なため,VAE ではサンプリング近似によって求める. 例えばサンプル数 L のサンプリング近似は次式となる. L(θ, φ; x) KL ( q(z x) p(z) ) + 1 L L log p(x i z (i,l) ) (14) 確率的勾配法で使用するミニバッチ数 M が十分に確保できれば ( 論文では 1),L = 1 でよいとしている *2. また L > 1 とする手法もあり,L が大きいほど推定性能が上がるが, その分計算量が増えるのでトレードオフの関係にある. l=1 2.3 VAE における Neural Networks VAE では q(z x; φ) p(x z; θ) の 2 つを NN で近似する. 前者が encoder で, 後者が decoder に対応する. 図 2 に VAE のアーキテクチャを示す. 青い部分が損失関数である. 以下では, それぞれの NN について説明する. 2.3.1 encoder ELBO で z のサンプル近似が必要であった. ニューラルネットワークの中でサンプルを行うことは難しい ので,encoder では入力 x から z をサンプルする分布のパラメータ ( ガウス分布なら平均と分散 ) を出力する. encoder 側の損失関数である KL の項には, 事前分布 p(z; θ) が含まれる.VAE では, 事前分布 p(z; θ) と して平均ベクトル, 共分散行列 I の多変量正規分布 N (z;, I) を仮定する. 事前分布が多変量正規分布と すれば, 事後分布 p(z x) も同様に多変量正規分布となるので,q(z x; φ) も多変量正規分布とする.encoder の損失関数は事前分布 p(z) との KL で定義されるため, 以下ではその損失関数を導出する. 実は, 多変量正 規分布同士の KL は,closed form で求まり, さらに N 1 (z; µ, Σ) = N (z;, I) なので代入して単純化できる. KL(N N 1 ) = 1 2 ( tr ( Σ 1 1 Σ ) ( ) T + µ1 µ Σ 1 1 (µ Σ 1 ) 1 µ ) k + log e Σ (1) = 1 2( tr(σ ) + µ T µ k log e Σ ) (16) このとき, K は潜在変数の次元数 (= 多変数正規分布の次元数 ) であり,µ は q(z x) の平均ベクトル,Σ は, q(z x) の対角の共分散行列である. 対角の共分散行列なので, 行列ではなく対角成分を要素にもつベク トルとして encoder で推定する. encoder のネットワーク設計はタスクに応じて異なるが,VAE の論文では, 隠れ層 1 層, 出力層が µ と Σ の 2 つからなる NN とする.VAE の元論文では活性化関数は tanh としているが, 非線形な関数でいい ので relu とする文献もある.encoder の計算式を以下に示す. *2 これが [3] の evidence lower bound と対応する 3

loss(x, f(z)) f(z) KL ( N (z; µ(x), Σ(X)) N (z;, I) ) decoder: p + µ(x) Σ(X) encoder: q ɛ N (ɛ;, I) X 図 2 VAE の外観図 Σ = Ws h + b s (17) µ = W m h + b m (18) h = f (W x x + b x ) (19) 2.3.2 decoder decoder は encoder の出力したパラメータ µ, Σ をパラメータにもつ確率分布からサンプルした,z を入力とし, x を復元する NN である.auto-encoder と系譜としてみると encoder をひっくり返したような NN となる. y = f σ (W o f (W h z + b h ) + b o ) (2) MNIST やカラー画像では値はスケーリングされているため, は ~1 の間に収まるロジスティクスシグモイド 関数を出力層の活性化関数とする.loss 関数はデータに依存するが, ロジスティックシグモイド関数であれば binary cross entropy となる. 4

2.4 Reparameterization Trick VAE のキモがここで紹介する reparametarization trick にある. 式 14 の第 2 項は encoder で推定したパラメータから z をサンプルする必要があった : z q(z x; φ) (21) しかし z のサンプリングを多変量正規分布から行うと decoder と encoder の計算グラフが途切れてしまうた め誤差逆伝播法が使えない. そこで VAE では encoder で推定した q(z x; φ) のパラメータ用いた確率分布に 従って z をサンプルせずに, 関数から決定的に z を生成する. つまり z i = g(ɛ i, x i ; φ) (22) where ɛ i p(ɛ) となるような関数 g を考える. ニューラルネットワークの最適化とは無関係な項 ɛ と encoder で推定した q(z x) のパラメータとで z を表現できれば, 誤差逆伝播法が可能になる. これを reparametarization trick という. 共分散行列が対角行列の多変量正規分布の場合, z = g(ɛ i, x i ; φ) = µ + Σ 1 2 ɛ (23) where ɛ N (ɛ;, I) が成り立つことが知られている *3. このとき は要素積である. 3 潜在変数が離散値のときの reparametarization trick VAE の論文では潜在変数 z を連続値で構成した. 潜在変数を離散値で表現するための自然な reparametarization trick の論文は最近になって arxiv に投稿されている *. 個人的な印象として,[4] のほうが順を追って説明している.reparametarization trick で使う変数 ( これまで説明してきた, µ, Σ に対応 ) を実装に落としにくいが, 証明や分布の形については詳しく述べられているため理論的な参考になる. 同様のアイディアである [] は実験で半教師あり学習と教師なしの 2 つを行っており, 実装上参考にしやすい. 今回の説明は [] を元に行う. 潜在変数 z を離散値で表すことを考える. 以下では, 離散値は 1 から K までの値をとるものとする. 深層学習では, 基本的に離散値は one-hot ベクトル ( あるいは one-of-k 表現 ) とするため, 例えば K = 6 において 2 は one-hot ベクトル z = [, 1,,,, ] で表される. このような離散値を出力する分布のパラメータを encoder で推定し,reparametarization trick でパラメータから one-hot ベクトルを構成する. 離散値を 1 つ生成するような分布といえばカテゴリカル分布 p(k = i) = π i. where π i = 1. and i π i. (24) *3 余談だが,nzw は確率統計に疎いので, ガウス分布を一様分布から構成する方法を少し調べて見たところ. この証明は PRML の演習問題 11. の回答と対応しているようで,wikipedia にも記述があるくらいの事実らしい *4. 念のため 1 変数については証明を appendix につけた. *4 https://en.wikipedia.org/wiki/multivariate_normal_distribution#geometric_interpretation * 今回紹介した手法以外にも離散分布に対する reparametarization trick の別のアプローチを PFN の得居さんと東大の佐藤さんが arxiv に同時期に投稿している

がある.encoder では, 入力 x を K 次元のベクトル π に変換する. カテゴリカル分布からサンプルを得るに は, 多変量正規分布と同様に関数としてサンプル値を決定する. ここでは Gumbel 分布を用いた Gumbel-Max trick [6] を使用する.Gumbel 分布も正規分布と同様に一様乱数からサンプルが生成可能であることが明らか になっているため, 一様分布からのサンプルを使って関数的に決定できる. まず乱数 u を K 個生成してか ら,one-hot ベクトルを構成ために argmax の演算を行う : G (, 1) = log ( log(u) ) where u Uniform(, 1) (2) argmax k [G k (, 1) + log π k ] π k K i π i (26) argmax を使うと対応する次元の π i 以外の勾配は になってしまう. そこで argmax を使わずに one-hot ベクトルを Gumbel-Softmax *6 で直接近似する : ( ( exp log πk + G k (, 1) ) ) /τ o k = ( ( exp log πi + G i (, 1) ) (27) /τ)) K i τ は temperature と呼ばれるパラメータで,τ で one-hot 表現に近づき, 大きいほど複数の次元が非零 をとり, τ で離散一様分布になる.τ を変化させた時の Gumbel-softmax 関数の出力は付録を参照さ れたい. 実装上, τ の値は重要で, 提案論文では τ を annealing している. もう一方の [4] では, 潜在変数が K {2, 4, 8} のときは τ = 2 3 がよいとしている. さらに細かい話だが,one-hot ベクトルを構築する際に,Gumbel 分布と足し合わせる π は正の値であれば よい [6]. 今回の場合,encoder で KL を計算する都合上, 確率値としたほうが扱いやすいので π を確率ベク トルとしている. encoder の出力はカテゴリカル分布のパラメータ π であった. 事前分布は K 次元の離散一様分布になるた め, 簡単な形で求めることができる. KL ( p(k; π) p(k; 1 K 1)) = 実際には π は複数あること ( 潜在変数は複数存在 ) に注意したい. K π k log Kπ k (28) k 参考文献 [1] Diederik P Kingma and Max Welling. Auto-Encoding Variational Bayes. In ICLR, 214. [2] Carl Doersch. Tutorial on Variational Autoencoders. arxiv, pages 1 23, 216. [3] M D Hoffman, D M Blei, C Wang, and J Paisley. Stochastic Variational Inference. Journal of Machine Learning Research, 14:133 1347, 213. [4] Chris J. Maddison, Andriy Mnih, and Yee Whye Teh. The Concrete Distribution: A Continuous Relaxation of Discrete Random Variables. arxiv, 216. [] Eric Jang, Shixiang Gu, and Ben Poole. Categorical Reparameterization with Gumbel-Softmax. arxiv, 216. [6] Chris J Maddison, Daniel Tarlow, and Tom Minka. A* Sampling. In NIPS, 214. *6 もう一方の論文では Concrete distribution と呼んでいる 6

付録 A 1 次元正規分布における関数化 1 変数の正規分布 x N (x; µ, σ 2 ) に対して x = µ + σɛ where ɛ N (ɛ;, 1) であることを示す. A.1 事前計算 E[ɛ] = V[ɛ] = E[ɛ 2 ] + E[ɛ] 2 = E[ɛ 2 ] = 1 A.2 期待値 E[µ + ɛσ] = E[µ] + σe[ɛ] (29) = µ (3) = E[x] (31) A.3 分散 V[µ + ɛσ] = E[ɛ 2 ] E[ɛ] 2 (32) = E[µ 2 + 2µσɛ + ɛ 2 σ 2 ] µ 2 (33) = E[µ 2 ] + E[2µσɛ] + E[ɛ 2 σ 2 ] µ 2 (34) = µ 2 + 2σµE[ɛ] + σ 2 E[ɛ 2 ] µ 2 (3) = σ 2 (36) = V[x] (37) 付録 B Gumbel-softmax 関数 図 4 のような 6 つの離散値におけるカテゴリカル分布を考える. この分布に従ってサンプルした one-hot ベ クトルを近似する Gumbel-softmax 関数は, τ によって異なるため,τ を変化させた時の Gumbel-softmax 関数を示す. 付録 C 実験 C.1 MNIST 提案論文と同様に VAE で MNIST の生成モデルを学習する.Keras の公式サンプルにも含まれているためこれを使うのが最も早いと思われる. 潜在変数 z を 2 次元ベクトルとした. 図 6 では test データを encoder の入力とし, 得られた平均値ベクトルを 2 次元座標にプロットしている. 各点の色は MNIST の数字 ( クラス ) 7

.8.7.6. PDF of Gumbel distribution µ =, β = 1 µ =, β =. µ =, β = 2 µ =, β = 1.4.3.2.1. 6 4 2 2 4 6 8 1 12 x 図 3 Gumbel 分布の確率密度関数.4 π.3.3 Probability.2.2.1.1.. 1 2 3 4 Categorical value 図 4 6 変数のカテゴリカル分布例 に対応する. 同じクラスが特定の箇所に偏っていることが確認できる. 図 C.1 では 2 変数標準正規分布から サンプルした平均ベクトルから decoder で構成した数値である. 中央部分がおよそ に対応し, 左上に近い ほど両方の次元の値が負のベクトルで, 右下に近いほど両方の次元の値が正のベクトルである. C.2 CIFAR1 MNIST と同様に潜在変数を 2 次元の VAE で CIFAR1 の学習を行った. 図 C.1 と同様に構成した画像を図 C.2 に示す. 潜在変数の次元数が少ないためか, 背景と中央部分のみ構成できている. 使用したコードは github 上で公開している. C.3 Categorical MNIST Gumbel-softmax を使って MNIST を VAE で学習した. 潜在変数は 2 個の離散値をとる変数を 1 個から構成される. 図 C.3 は,test データを encoder で変換した π の分布である. 色が濃いほどその次元に対応する離散値を取りやすくなる. 図 C.3 は, ランダムに生成した one-hot ベクトルから decoder で復元結果である. 使用したコードは github 上で公開している. 8

1. τ =. 3962 1. τ =. 62.8.8 Probability.6.4 Probability.6.4.2.2..7 1 2 3 4 Categorical value τ = 1...2 1 2 3 4 Categorical value τ = 16..6..1 Probability.4.3 Probability.1.2..1. 1 2 3 4 Categorical value. 1 2 3 4 Categorical value 図 図 4 のカテゴリカル分布において τ を変化させたときの Gumbel-softmax の出力値.τ が高いほ ど, 離散一様分布に近づく. 9 4 8 7 2 2 6 4 3 2 4 1 4 2 2 4 図 6 test データから求めた平均ベクトル. 色はクラスに対応している. 9

1 2 3 4 6 7 1 1 2 2 3 1 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 1 1 2 2 2 2 3 3 1 1 2 2 3 1 1 1 1 2 2 2 2 3 3 1 1 2 2 3 1 1 1 1 2 2 2 2 3 3 1 1 2 2 3 1 1 1 1 2 2 2 2 3 3 1 1 2 2 3 1 1 1 1 2 2 2 2 3 3 1 1 2 2 3 1 1 1 1 2 2 2 2 3 3 1 1 2 2 3 1 1 1 1 2 2 2 2 3 3 1 1 2 2 3 1 1 1 1 2 2 2 2 3 3 1 1 2 2 3 1 1 2 2 3 2 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 4 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 6 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 7 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3 1 1 2 2 3

9 8 7 6 4 3 2 1 9 8 7 6 4 3 2 1 1 2 3 4 6 7 8 9 111121314116171819 1 2 3 4 6 7 8 9 111121314116171819 1..8.6.4.2. 1..8.6.4.2. 9 8 7 6 4 3 2 1.8.6.4.2 9 8 7 6 4 3 2 1 9 8 7 6 4 3 2 1 9 8 7 6 4 3 2 1 9 8 7 6 4 3 2 1 9 8 7 6 4 3 2 1 9 8 7 6 4 3 2 1 9 8 7 6 4 3 2 1 1 2 3 4 6 7 8 9 111121314116171819 1 2 3 4 6 7 8 9 111121314116171819 1 2 3 4 6 7 8 9 111121314116171819 1 2 3 4 6 7 8 9 111121314116171819 1 2 3 4 6 7 8 9 111121314116171819 1 2 3 4 6 7 8 9 111121314116171819 1 2 3 4 6 7 8 9 111121314116171819 1 2 3 4 6 7 8 9 111121314116171819 1..8.6.4.2. 1..8.6.4.2 1..8.6.4.2. 1..8.6.4.2 1..8.6.4.2 1..8.6.4.2. 1..8.6.4.2. 11

12