序本冊子は 2015 年 1 月 5-6 日に行われた統計数理研究所共同利用研究集会生物に見られる時空間パターンと統計数理: 同調認知行動において行われた統計手法チュートリアル離散データの確率的トピックモデル ( 統計数理研究所持橋大地 ) の講義録ですチュートリアル講義を録音しテー

Size: px

Start display at page:

Download "序本冊子は 2015 年 1 月 5-6 日に行われた統計数理研究所共同利用研究集会生物に見られる時空間パターンと統計数理: 同調認知行動において行われた統計手法チュートリアル離散データの確率的トピックモデル ( 統計数理研究所持橋大地 ) の講義録ですチュートリアル講義を録音しテー"

うまじやまがた
5 years ago
Views:

2 序本冊子は 2015 年 1 月 5-6 日に行われた統計数理研究所共同利用研究集会生物に見られる時空間パターンと統計数理: 同調認知行動において行われた統計手法チュートリアル離散データの確率的トピックモデル ( 統計数理研究所持橋大地 ) の講義録ですチュートリアル講義を録音しテープを起こし講義で用いた該当するスライドと合わせて編集しましたなお講義は一般に話し言葉で語られますが講義録として読む場合往々にして同義の書き言葉に変換したほうが読みやすいので気付いた部分は書き言葉風に直してありますまた講義中は指さしでこの式となっていた部分などは対応する数式などを明記し読み物として通用するよう編集しました本冊子は持橋氏の講義録音を丹野夕輝 ( 岐阜大学 ) がテープ起こしした上で読みやすいように編集を行った文書を三村喬生 ( 精神神経セ ) 長田穣( 東京大 ) 深谷肇一( 統数研 ) がスライドを加えながら再編集しさらに島谷健一郎 ( 統数研 ) が編集加筆した上で持橋氏に内容を確認修正してもらって完成となりました確率的トピックモデルは広範な応用可能性を秘めながら未だ和文教科書はおろか review paper や紹介記事も著しく不足しており統計数理研究者以外には近寄りがたい手法となっていますトピックモデル適用に適した実データを有する非統計数理研究者が独習するさいのいくらかの補助になるよう本冊子を編集しましたなお冊子中に不適切な表現等が見受けられた場合それはすべて本研究集会代表の島谷の責任です目次序 Introduction スライド 2-8 ナイーブベイズスライド 9-16 Unigram Mixtures ( ユニグラム混合モデル ) スライドベイズ推定とディリクレ分布スライド Probabilistic latent Semantic Indexing (PLSI) スライド Latent Dirichlet Allocation (LDA) スライド最近の話題から : Geographic Topic Model スライド編集後記

3 私の専門は統計的自然言語処理という言葉をあつかう分野です言葉というのはデータとしては離散データでその扱いにはその特性に応じた統計が必要になりますそしてトピックモデルというのはもともとは言語処理という統計数理で生まれた手法なのですが今日では様々な分野の様々なデータへ適用されるようになっています生態学でも Valle et al., "Decomposing biodiversity data using the Latent Dirichlet Allocation model, a probabilistic multivariate statistical method". Ecology Letters, 17(12), , 2014 のように使われ始めていますなお私も東大の基礎二という学科にいたせいもあって生態学には関心がありこの講義をひとつのきっかけにトピックモデルが日本の生物分野へ適用されていくことになりましたら望外の喜びというものです

4 離散データは大事です実際動物, 植物, 昆虫バイオ関連の話題など解析対象に離散データが出てくることは本当にたくさんありますしかし普通の統計解析ではガウス分布などを仮定するため最初から連続値として取り扱うことが多いそうではなく離散データそのものに対してまともな統計モデルを作りたいという要求が結構多いのではないかと思いますとりわけデータ相互に相関があるとき例えば生物の例ですとある種のクジラが観測された場合見えてはいないが他の種の魚も生息していると考えられますこの場合観測種ごとの観測数のヒストグラムの間は独立でなく相関がありますそれをどうやってモデル化していくかというのが高次元の離散データを扱ううえでの本質的な問題です

5 統計的言語処理の分野ではデータを Bag of words として表します言葉というのはテキストがありテキストに単語が書いてあるというものです Bag of words の考え方では単語の順番よりもどんな単語が出てくるかの方に着目します例えば情報が 5 回 IT が 2 回システムが 1 回と出てきたらなんとなく IT 系の文章だとわかりますまたバッター監督ドラフト打率などが出てくると野球の話だとわかりますこの中のバッターと監督の間には高い相関があってそれをどうとらえていくかが問題になります言語処理で扱うデータでは単語の種類は1 万ではおさまらなくて Google などのデータでは 1 千万を簡単に超えるような超高次元ですここでは言語データを実例として話しますが例えば生態学では文書は観測ユニット単語は生物種で単語の出現回数はどの種が何回出てきたかという頻度のように自分が関わっているデータの事例に読み替えて実例を見ていただけると理解もしやすいことと思います

6 文書を Bag of words としてデータ化するという作業は行列で表すと簡単にできます横方向の列つまり図の W に単語 1 単語 2 と単語の種類をとり縦方向の行図の N に一個一個の文書の番号をとり一個の文書を行すなわち単語を表す W 次元ベクトルに対応させます例えば最初の文書には2 番目の単語が1 回 3 番目の単語が一回出てきています次の文書には最初の単語が 1 回しばらく0 回で最後にまた 1 回ずつです概して文書を行列表現すると0が多くなります 0が多い行列をスパース ( 疎 ) な行列といいますがそんな行列の扱いがこの分野での一つの大きな問題となります

7 上の図は実際のデータの例ですがご覧のとおりスパースになっていますこの図は DailyKOS という有名なデータセットの一部で新聞記事のデータから単語を百個文章を百個選びその単語の出てきた文書の行に点を入れてあるのですがこのようにぽつぽつしたゴマ塩みたいなスパース行列が出てきます縦の列の中に多く出ている単語がありますがそれは例えば日本語の場合でははやがなどどの文章にも出てくる単語が対応します一方一般の内容的な言葉は出てきたり出てこなかったりするためほとんどの値は 0 ですまた出現したとしても 1 などの小さな数値になりがちですカウントデータとしてポアソン分布のような特徴を示す場合が多くなります

カウント数が多ければあまり問題は起こらないのですが生態学などではレアな種が 1 回だけ観察されたり 2 回だけ観察されることは普通に見られかつ

8 このようなデータには古典的には多変量解析という伝統があると思いますしかし相関分析や回帰分析や判別分析には問題があります一つには一部の変数だけを取り出して分析することもう一つは暗黙のうちにこういう解析手法ではガウス分布を仮定することです本当のデータは離散でかつ非負なのに無理やりガウス分布に合わせて使ってしまいますそれでもカウント数が多ければあまり問題は起こらないのですが生態学などではレアな種が 1 回だけ観察されたり 2 回だけ観察されることは普通に見られかつそうした情報は重要な意味を持っていますそういう情報を普通の多変量解析では全く無視してしまいますそうではなく 1 回や 2 回という情報までしっかり全部とらえたいというのが確率的トピックモデルの一番の目標です

9 従来の多変量解析の何が最大の問題かというと観測データが来たときに後付けの解析手法になっているという点です回帰分析や主成分分析はとりあえずガウシアンだという間違った仮定を置いて適当にやるという後付けの解析手法でしかありませんそのためそのあとの発展性がないつまりモデルがないのでそれで解析をやりましたという以上のものがないそれに対してそもそも離散で非負の整数の観測データを生み出すような確率モデルを先に考えましょうそのモデルに従ってカウントデータは確率論的に出てきたと思うのですそしてそのモデルの未知パラメーターを推定しますそうすればより複雑なモデルも作れるしそれにより性能も上がるということになりますこういう言語処理で統計処理をやるようになったのは大ざっぱに言うと 90 年代の終わりから 2000 年ぐらいでこの話の最後に出てくる Latent Dirichlet Allocation model は 2003 年ぐらいに出た話です今それが非常に複雑なレベルになっていますがたかだかここ 10 年ぐらいの話と思ってかまいません

10 確率的トピックモデルの一番簡単な例はナイーブベイズですこれは有名な例なので皆さんもネットなどで見たことがある人も多いと思います電子メールでは普通のメールに混じって広告などの迷惑メールもいっぱい来るのですがそれを分類するという問題を考えますすなわち普通メールの集合と迷惑メールの集合があったときに新しいメールをどちらに分類するかという問題です

11 いまカテゴリは普通メールと迷惑メール ( 広告メール ) の 2 つですそしてそれぞれで単語の出方が違います例えば普通メールでは単語の分布が上の図のようになっているとします縦軸はある単語が出現する確率を表しすべての単語についての和は 1 になっていますこのような確率分布を多項分布といいますそれに対して広告メールでは例えば激安や特価やバイアグラなどの単語の出現確率が高く全然別の分布をしているでしょう単語の分布が違っており広告メールは広告メール側の分布から単語をランダムにサンプルしてできたと思い普通メールは普通メール側の分布から単語をランダムにサンプリングしてできたと思いますここで単語の選ばれ方は独立と仮定しますそしてデータを単語の順番を無視して単なる使われた単語のカウント数というベクトルと考えますするとカテゴリ k が決まればこのベクトルが出てくる確率は一個一個の単語が選ばれる確率を単にかけ算した値になりますこれが Bag of words (BOW) という仮定です

12 BOW の仮定の下では普通メールと迷惑メールの生成モデルを簡単に作ることができますまず普通メールか迷惑メールかの割合をあらわす確率分布例えば普通メール (k=0) は確率 0.9 迷惑メール (k=1) は確率 0.1 で出てくるという確率分布がありそこからどちらのメールを作るかというカテゴリ k をサンプリングします k として普通メールが選ばれたら p(w 0) という多項分布からランダムにこの単語この単語と順に n = 1, 2,, N 番目の単語をサンプリングしてメールを作ります迷惑メール (k=1) が選ばれたら迷惑メールの確率分布 p(w 1) から単語を選びます結局あるメール ( 文書 : 以下単語の集合は文書と呼ぶようにします ) が生成される確率はどうなるかというとそれはある文書 d とそのラベル k の対の同時確率となりそこではまずラベルが決まりそれからそのラベルのもとで文書が作られますそのラベルが選ばれる確率を p(k) とし ( ここでは p(k)=[0.9, 0.1] でした ) その k のもとで単語 w が選ばれる確率を p(w k) とするとそれらは n 回独立に出てくるので全体の同時確率は以下の式になりますここで p(k) と p(w k) は本当は未知のパラメータです p(d, k) = p(k) p(w n k) N n=1

13 データがあれば未知パラメータの値は以下のように推定できます単純には単に数えるだけですとても簡単な例ですが上のようなデータ D があったとしますすなわちメールが 3 つ (d 1, d 2, d 3 ) あり単語の種類は 7 個 (w 1 ~w 7 ) です最初の二つ (d 1, d 2 ) が普通メールで最後 (d 3 ) が広告メールです文章のカテゴリを選ぶ確率 p(k) は一番ナイーブには普通メール (k=0) が 2/3 迷惑メール(k=1) が 1/3 と推定できます普通メールの中でどういう単語が出てくるかの推定はやはり一番ナイーブには普通メールの中での単語の頻度を単に足して 1 になるように正規化した以下のような分布になります p(w k = 0) = [0.1, 0.4, 0.1, 0, 0.2, 0.1, 0.1] 迷惑メールのほうの p(w k) は 3 番目のメールの単語のカウントを正規化して以下のような分布になります p(w k = 1) = [0.2, 0, 0.2, 0.2, 0, 0.4, 0] そうすると 1 個 1 個のメールが生成される確率を計算することができ例えばメール d 1 の確率は最初に普通メールである確率が 2/3 でかつ最初の単語が出てくる確率は 1/10 次に確率 4/10 の単語が 2 回出てくるので 4/10 4/10 次に 1/10 最後に 2/10 が一回掛け算されという確率が求まります

14 さてこんな計算がなんの役に立つかというとそれは新しいメールのカテゴリを分類するときです与えられた文書 d のカテゴリ k が 0 なのか 1 なのかその確率 p(k d) を p(k) と p(w k) から計算するのですところでさきほど求めたのは同時確率 p(d,k) や p(w k) や p(k) です p(k d) では k が条件を表す記号の左側にあります k が条件の方にいる条件つき確率ではなくある d の下で k である確率を知りたいわけです k の位置がひっくり返っているのですがこれは最近だとどこかで見たことのある人も多いのではないでしょうかそうベイズの定理です

ベイズの定理では A と B の同時確率はまず B が出てそれから B の下で A が出てくるという確率で書けます p(a, B) = p(a B)p(B) この式から p(a B) は p(a,b) を p(b) で割り算した形で書くことができます p(a B) = p(a, B) p(b) p(a,b) を先に A が出てそのもとで B が出てくる確率と考えても同じなので p(a,

15 ベイズの定理では A と B の同時確率はまず B が出てそれから B の下で A が出てくるという確率で書けます p(a, B) = p(a B)p(B) この式から p(a B) は p(a,b) を p(b) で割り算した形で書くことができます p(a B) = p(a, B) p(b) p(a,b) を先に A が出てそのもとで B が出てくる確率と考えても同じなので p(a, B) = p(b A)p(A) とも書けますこの p(a, B) を上に代入しますさらに今は p(a B) では B の下での A の確率の話をしており B の確率 p(b) には関心がないのでこれは単なる定数ですから比例式の形にして p(a B) を A と B をひっくり返した p(b A) と p(a) の積で書けることになります p(a B) p(b A)p(A) このようにベイズの定理で条件付き確率を逆にすることができるわけです

16 今知りたいのは p(k d) ですが先ほど出てきたモデルのパラメータは p(k) と p(w k) で k の位置が逆ですそれでも p(k d) を求めたかったらこのベイズの定理を使えばよいわけです p(k d) p(d k)p(k) いまカテゴリの出現確率である p(k) はわかっているしカテゴリ k から文書 d が生成される確率 p(d k) は単語は独立だと思っているので (BOW の仮定 ) 単語の出てくる確率 p(w k) を単にかけ算すれば求まります

17 例えばさきほどからの例で単語 1 と単語 6 が 1 回だけ出てくる新しい文書が来た場合これが普通メールか迷惑メールか知りたかったらそれぞれの確率を計算します k=0 だという確率は 2/3 (1/10 1/10) に比例しますし k=1 であるという確率は 1/3 (2/10 4/10) に比例しますこれらを和が 1 になるように正規化すればそれぞれの確率となりそれらは 0.2 と 0.8 となっていますこれがこの文書が持っている k の確率分布事後分布と呼ばれるものです両者を比べるとこれはおそらく迷惑メールだろうと推定できますこういうものが実際のメーラーにも入っていてよく使われています

18 これまでの方法では文書とラベル k の一対一対応があるデータセットを使って k の出現確率 p(k) とラベルが k の文書に含まれる単語の出現確率分布 p(w k) を推定しておかないと p(k d) が計算できませんしかし一般の文書ではこうしたラベル k は与えられていません文書に最初からこれは政治これはスポーツこれは家庭というラベルは貼られていたりしないのが普通ですね次はこの場合どうするか? という話になります

19 Unigram Mixtures ( ユニグラム混合モデル ) という手法があります先ほどのナイーブベイズの式ではある文書とそのラベル k ではまずラベル k が決まりそれからそのラベルのもとでの単語がそれぞれかけ合わされて確率が決まっているのでした p(d, k) = p(k) p(w n k) ここでもしそもそも k がわからないのならすべての k について確率の和をとってしまえばよいではないかと考えますこれを周辺化といいますがそういう確率モデルを作るのです N n=1 p(d) = p(k) p(w n k) N k n=1 この p(d) は文書 d が全てのカテゴリ k を通して生成される確率です

20 ナイーブベイズに比べて Unigram Mixtures は一般的にあまり知られていないのですがそれはこれを解こうとすると単に数を数えるだけでは無理で例えば EM アルゴリズムなどを使わないと解けないからです EM アルゴリズムについてここでは詳しくは説明しませんが大ざっぱに言うとまず各文書に初期値 p(k d) を与えますある文書がどういう kをラベルとして持っているかという今まさに知りたい値を最初は適当に設定しておきますそれらから確率分布に関する計算式を使ってパラメータ p(k), p(w k) を計算しますつまり先ほどは一個一個の文書が持っている確率分布は既知言い換えるとデルタ関数のように迷惑メールか普通メールかで 1 か 0 かのどちらかになっているものを仮定したわけですが一般にはデルタ関数ではなくわからないので何か大ざっぱな初期値を与えそこからパラメータ p(k), p(w k) を推定しますするとそれらから先ほどのようにベイズの定理で p(k d) を再推定できますこのような操作をぐるぐる回して交互に推定を繰り返すのですするとほどなくすべての値が一定の値に収束していきますこういう手法を EM アルゴリズムといいますパラメータ p(k), p(w k) を計算する部分は基本的に先ほどと同じでデータのカウント数に関する割り算ですがこれは多項分布における最尤推定 ( データの確率を最大にするパラメータを求める作業 ) を実行していることに相当します一般の EM アルゴリズムでは確率の最大化を行うのでここは M-step と呼ばれます一方これらのパラメータによる p(k d) の計算は期待値を求めているので EM アルゴリズムでは E-step と呼ばれます

21 最初の例では最初の二つが普通メールで最後が迷惑メールだとわかっているとしましたがそれを知らずにデータだけ与えられたときに一個一個のメールをどちらに分類するかという問題を考えます EM アルゴリズムを用いる方法では d 1, d 2, d 3 という3つの文書について文書 1 は k=0 か k=1 かわからないのでここでは 0.5 を中心に適当にとしました (Step 1) d 2 は 0.6 と 0.4 d 3 は 0.4 と 0.6 とやはり適当に置きましたこの初期値をもとに一回計算し直すと確率分布が変わりますが k=1 の方が少し大きい値のままなのでどうも d 1 は k=1 の確率が高いように思えます (Step 2) 逆に d 2 では k=0 がさらに増えて k=1 が減るので k=0 らしい d 3 では k=0 が減って k=1 が増えるので k=1 らしいこういう風に少しずつ変わるわけですさらにもう一回計算すると d 1 では大小が逆転し k=0 が増えて k=1 より大きくなっています (Step 3) 他では元から大きかったところがさらに大きく小さかったところはさらに小さくなっていますこの操作をぐるぐる回すとこの例では 5 回くらいで収束して文書 1 はカテゴリ 0 つまり普通メールである確率がほぼ 1 文書 2 が普通メールである確率もほぼ 1 文書 3 は迷惑メールである確率が 1 となっています

22 最初ラベルは与えなかったのですがまるで与えたかのように分類できてしまうのですただしあくまで各文書があるラベルを持つ確率が 1 に収束するというだけでそのラベルに普通メールという名前が自動的につくわけではありません以上が Unigram Mixtures と呼ばれているものでいわゆる K-means という手法とほぼ等価です何も教えていないのですが一個一個のテキストあるいは観測データが持っている確率分布を推定できてしまいますこれは一番簡単なトピックモデルで一個一個の文書に潜在トピックつまりこのテキストはこういう話題ですよと決め打ちする言い換えると真の値があってそれを推定するという一番簡単なトピックモデルです先ほどのメールの例でいえば普通メール迷惑メールがトピックです一般的には政治とか経済とかコンピューターとかトピックがいろいろあるわけですパラメータは 2 種類ありトピックの事前分布 p(k) とそこからどんな単語が出てくるか p(w k) です

23 毎日新聞の 2001 年の新聞記事のデータでは 1 千万個くらい単語があるのですがその 1/10 くらいを使いトピックは 100 個と限定して Unigram Mixtures を適用した場合の結果の例を上に挙げています分類された各トピックの単語分布の上位特徴語です特徴語とは大ざっぱに言うと確率の高いものですねそうすると例えばトピック 2 は大体会社経営みたいな内容でトピック 3 は人事に関する内容が目立ちますトピック 4 では国際的な内容でしょうかこれは何も経営とか国際に関する言葉を集めるようにプログラムを組んだのではなく Unigram Mixtures というモデルが勝手に学習した結果だという点を留意しておいてください

24 もう少し見てみるとトピック 5 では科学のことトピック 10 では教育問題トピック 100 は警察の話をしていることがわかりますなおここではトピック数はあらかじめ決めてありいくつのトピックに分けるべきかという個数を推定しているわけではありません分けるべき個数自体を推定することもできますがそれは難しい話題なのでここでは触れないことにします今の場合は 100 個と決めてやりました

25 以上で基本的なトピックモデルはできておりこれを生態データや RNA のシーケンスデータに使うこともできるはずですただそういうときしばしば問題になるのが例えば 100 や 200 といったカウントはいいのですがカウントデータには 1 や 0 などの頻度の低いものも多くそれらがそのままでは信用できない場合が多いという点ですカウント数 0 の単語に先ほどの手法を使うと当然出る確率は 0 になるのですがそのデータではたまたま 0 だっただけで本当は確率は 0 ではないのかもしれませんつまりデータが 0 回だから確率も 0 としたのでは推定した確率分布自体が信用できなくなるのです例えば先ほど迷惑メールでは出現回数は単語 1 が 1 回単語 2 が 0 回単語 3 が 1 回数列としては , となっていますがこれらを足して割った数値が本当に確率なのでしょうかカウント数を単純に割り算した確率 (p (w)=n(w)/n) はデータの尤度を最大にするので最尤推定量と呼ばれますしかしデータのカウント数はたまたま 0 だっただけで確率が本当に 0 かというとおそらくそういうことではないカウントデータから割り算で算出する最尤推定量は特にデータが少ない場合あまり信用できません言語データでは単語という空間の次元が数万次元ありほとんどのカウントは 0 で一個の文書に出てくる単語の数はたかだか数百か多くて 1000 くらいですそんなデータだけからこの数万次元を推定できるわけがなくもっとまじめに確率を考える必要があります

26 そのためにベイズ推定をします先ほどもナイーブベイズといってベイズの定理を使った推定をしましたがそれとは別に今一度もう少し深くベイズの定理を用いますナイーブベイズでは k=0 のときにはどんな単語が出て k=1 のときにはどんな単語が出るかという風に複数個の多項分布を考えましたするとあるカテゴリーのデータの中でカウントが 0 のときそのまま割り算で確率を求めてしまうとその多項分布では確率 0 になってしまいますしかし他のカテゴリーでは現れている場合が多い例えば 3 番目の迷惑メールでは単語 2 単語 5 単語 7 の出現回数はいずれも 0 回ですしかし迷惑メールにこれらの単語が絶対に出ないかというと例えば単語 2 は普通メールでは文書 1 文書 2 ともに 2 回出現しているのですから迷惑メールでもそれなりの確率で出現するだろうと思えます逆に単語 4 は迷惑メールには 1 回出ていますが普通メールには出てきていませんしかし普通メールに全く出ないと考えるより低い確率で出てきてもよいとするほうが自然に思えますそこで確率分布を独立に割り算して決めてしまうのでなくベイズ的な考え方をしましょうつまり今単語の出現頻度という多項分布を考えているのですがその多項分布を生成する分布 [ 事前分布 ] を考えてそれによって多項分布つまりそれぞれの単語の出現確率を直接推定するのではなく多項分布自体の確率分布 [ 事後分布 ] を推定しようとするのですそのために事前分布として用意する一番簡単な分布がディリクレ (Dirichlet) 分布と呼ばれるものです

例えばカテゴリーが三つの多項分布の場合まず三角形の内部の点のそれぞれがこの多項分布の 3 個の確率を表していると考えます足して 1 になるような 0 以上の数値の 3 組の集合は三角形の中に含まれますそれを平面に描いたのが上の図ですつまり三面サイコロを考え 1 しか出ないサイコロが三角形の左下の頂点 p=(1,0,0) に相当し 1,2,3 が均等に出るサイコロが三角形の中心

27 例えばカテゴリーが三つの多項分布の場合まず三角形の内部の点のそれぞれがこの多項分布の 3 個の確率を表していると考えます足して 1 になるような 0 以上の数値の 3 組の集合は三角形の中に含まれますそれを平面に描いたのが上の図ですつまり三面サイコロを考え 1 しか出ないサイコロが三角形の左下の頂点 p=(1,0,0) に相当し 1,2,3 が均等に出るサイコロが三角形の中心 p=(1/3, 1/3, 1/3) に相当すると考えているわけですね右下の頂点は 3 だけが出るサイコロ上の頂点は 2 しか出ないサイコロに対応しますこの 3 角形の中を点が動くことで全てのサイコロを表現することができます今あるデータがどのサイコロらしいかの確率分布がディリクレ分布です文書の単語を出すために単語の種類と同じ数の面を持つ巨大なサイコロがあると考えるとほぼ 1 しか出ないけれど少ない確率で 2 や 3 も出るという多項分布やどの値も同じくらいの頻度で出る多項分布のどれがどのくらいもっともらしいかをディレクレ分布で表現できるわけですカテゴリーが四つの多項分布では正四面体を考えることになります

多項分布 p に対して以下の式で確率密度関数が定義される確率分布をディリクレ分布といいます k ) p(p a) = Γ( α k Γ (α k ) p k k K k=1 α k 1 最初にガンマ関数を含む謎の定数が付いていますがこれは定数なので確率密度関数の形は後の部分に比例しています K α p(p a) p k 1 k k=1 今確率変数は p=(p 1,p 2,.

28 多項分布 p に対して以下の式で確率密度関数が定義される確率分布をディリクレ分布といいます k ) p(p a) = Γ( α k Γ (α k ) p k k K k=1 α k 1 最初にガンマ関数を含む謎の定数が付いていますがこれは定数なので確率密度関数の形は後の部分に比例しています K α p(p a) p k 1 k k=1 今確率変数は p=(p 1,p 2,...,p K ) でそれらは足すと 1 になる数の K 個の組でそれらは p k の α k -1 乗の巾乗という形になっていますディリクレ分布は離散分布におけるガウシアンのようななものと思っていいかもしれません α はハイパーパラメータと呼ばれます期待値はこの α を和が 1 になるよう正規化した形 α k k α k になり α の総和が広がりを表す分散のようなものになっています

29 K 個のパラメータ α を変えるといろいろな分布が出てきます例えば α=(1,1,1) とおくと α k -1=0 ですが p k を 0 乗したら必ず 1 となるため Uniform な分布が作られます α が 1 より大きい値をとるとどこかに集中します逆に 1 より小さい値をとるとくぼみが出て端で高くなるような分布になります

30 実際にディリクレ分布から p k たちをランダムにとってみると例えばすべての α k が 1 に等しい Uniform な分布からとると得られる多項分布は右上のようにいろいろな形になります一方 10,10,10, のような中央にピークを持つ分布からとると得られる多項分布は大ざっぱには一緒で一様な多項分布になります ( 左上 ) それに対してこういう 0.1,0.1, のときはどこかの値が大きく他はほとんど 0 のようなものが出てくるはずで実際やってみるとどこかが大きくて他が 0 に近いという多項分布が出てきます

31 ディレクレ分布をどう使うかというと X が何かの観測頻度とします例えばある植物 1 が観測されたのが n 1 回植物 2 が観測されたのが n 2 回,, 一般に植物 k が n k 回とします (X = (n 1, n 2,, n k,, n K ) この裏にはこれらの真の確率を表すベクトル p が隠れているはずですこの p の X の観察データを踏まえた事後確率分布 p(p X) はこれを逆転してまず事前分布 p(p) があったと考えますこの事前分布のもとでデータが生成されそれらから事後分布 p(p X) を求めますこれは簡単で一個一個の確率が p k でそれが n k 回出てきているので p k の n k 乗がその確率になりますそれを事前分布のディレクレ分布に掛け算します掛け算をすると k 番目は p k の (n k +α k -1) 乗という形になるので結局全体では (n k +α k ) という新しいパラメータを持つディリクレ分布になっているだけですその期待値は α k の和が 1 になるように正規化したもので以下のようになります E[p k X] = n k + α k (n k + α k ) k

32 こうするとたまたま n k が 0 だったとしても E[p k x] には α k が残るので確率が 0 になることはなくすべてについて穏やかな確率の値が得られます言い換えると偶然 k 番目の項目の出現回数が 0 だった場合 (n k =0) でも期待値 (n k +α k )/ k(n k + α k ) は 0 になりませんこのため全体的に穏やかな確率が得られますこうした方法をスムージングといいますまとめると最尤推定では観察されたカウント数をすべてそのまま正規化して和を 1 にするのですがここでは k 番目のカウント数 n k に α k というハイパーパラメーターを与えそれらを n k +α k のように足しその和が 1 になるように正規化しています実はそれがベイズ推定になっていてこれをディリクレスムージングと言いますそのほうがより頑健な推定値になりますナイーブなやり方はカウントに全部 1 を足すというやり方で 1 を足すというのは α k =1 に対応しさきほど示したようにこれは事前分布が一様分布であることを意味します言語処理の世界でも最初の頃 ( どれくらい昔かというとラプラスが言ったので 18 世紀の終わりくらいです ) は 1 としてたりしたのですがもちろん 1 とすることは良くなくて正しい値がありますそれを推定したい場合はこの α k 自体にガンマ分布を置いてさらにベイズでサンプリングをしたりすると正しい値を求められますカテゴリごとに何か小さな値を推定することで推測性能が良くなることがわかっています

33 質問今ディリクレ分布を使ったのは多項分布のパラメータ p k の分布を求めたいからですか? 答そうですもともとディリクレ分布の形からそれに多項分布の尤度をかけると同じ形で出るわけです p k のべき乗という形です事前分布が Dir(α) で事後分布が Dir(α+n) と同じ形が出てきますなお絶対にディリクレ分布でないといけないというわけではなくもっと複雑な分布を使ってもかまいません質問今のディリクレ分布ではp を表していたと思うのですがちょっと前の話でカテゴリを迷惑メールとそうでないメールのようにいくつか分けていましたねあれをディリクレ分布で表しているのですか? それとも同じカテゴリの中での p のばらつきをディリクレ分布で表しているのでしょうか? 答両方できます先ほどのナイーブベイズでは分布が p(k) と p(w k) の 2 種類ありどちらも多項分布でしたどちらでやってもかまいません片方は最尤推定でもかまいません質問モデルを選ぶ p(k) のほうにディリクレ分布を使ってもいいのですか? 答はいそしてそこから単語を出すほうに使ってもいいわけですこれはいい質問でそれをやらないと Unigram Mixture を動かしてもなかなかうまくいかないという場合は結構ありますディリクレスムージングを入れたソフトを私が書いてプログラムとして公開していますこれをダウンロードすると普通に使えるようになっています

34 これは復習です Bag of Words テキスト = 単語の集合としその前後関係は考慮に入れず単語の出現頻度がテキストの特徴を表現しているという仮定 Unigram Mixtures の生成モデルテキスト d = 1, 2,, D に対し確率 p(z) でトピック z を採用トピック z を特徴づける単語の確率分布 p(w z) に従って n 個の単語 w 1, w 2,, w n を抽出

35 さて Unigram mixture の次のステップに進む前にグラフィカルモデルについて説明しておきます上の図は Unigram Mixture のグラフィカルモデル表現で黒丸は観測値を表しています今観測されているのは単語ベクトル w=w 1,, w N だけでその裏に一個一個の文書ごとにカテゴリ z があり ( 先ほどまでは k と書きましたがいわゆる潜在変数なので z にするほうが多いです ) そのカテゴリから単語が全部で N 回抽出されています図の箱は繰返しを表していて単語 w 1 単語 w 2 単語 w 3 とランダムにサンプリングされているのが全部で N 回あるという意味ですそもそも文書が D 個ありますので同じことが全体で D 回行われていますどういうトピック z を選ぶかというパラメーター (λ=p(z)) が一個ありそこから z を選ぶ操作を D 回やり各 z の中で単語を N 回出すこういうモデルになっています一方全ての文書に共通なカテゴリ k からどんな単語が出てくるのですかという分布 p(w k) がありこの z が決まったらこの分布を使って (k=z として ) 単語 w を出力します箱は繰返しを表していて箱の右下に繰り返し回数が書いてありますこういうのがグラフィカルモデルですなおユニグラムとかナイーブベイズとかいう言葉は最近よく聞かれるのですが本屋でよく売っているベイズ統計の本は大体このあたりまでで終わっていてそれ以上の話題に触れておりませんしかしこの段階ではまだまだ問題があります

何が問題かというと例えばこれは Yahoo ニュースから取ってきたのですがしらせとか南極などは多分南極観測のようなトピックから出てきていますがこの記事はしらせで投票をしたという話なので衆院選とかファックスとか A4 とかも出てきていますところで A4 と衆院選としらせ

36 何が問題かというと例えばこれは Yahoo ニュースから取ってきたのですがしらせとか南極などは多分南極観測のようなトピックから出てきていますがこの記事はしらせで投票をしたという話なので衆院選とかファックスとか A4 とかも出てきていますところで A4 と衆院選としらせが一個の確率分布から出てきたとは到底思えないそうではなくてこの記事に関する話題は南極船の話題が 0.6 くらいで選挙の話題が 0.3 くらいで他の話題が 0.1 くらい入っているという感じに思えるわけです一個一個の文書が複数のトピックにおける単語の確率分布の混合分布になっていると考えられるわけです

それがいわゆるトピックモデルというもので最初に提案されたときには上のような簡単な形になっていましたこれは一見簡単に見えますが文書ごとにそれがどういう話題 z を持つかが確率分布になっていますつまり文書 d からどういうトピック z が出てくるかというトピックの分布が文書ごとに一個一個決まっていてその確率分布からまず話題 z を選び次にそこから単語を出しますこの操作を全体で

37 それがいわゆるトピックモデルというもので最初に提案されたときには上のような簡単な形になっていましたこれは一見簡単に見えますが文書ごとにそれがどういう話題 z を持つかが確率分布になっていますつまり文書 d からどういうトピック z が出てくるかというトピックの分布が文書ごとに一個一個決まっていてその確率分布からまず話題 z を選び次にそこから単語を出しますこの操作を全体で N 回繰り返しますつまり一単語ごとに違うトピックがあるのです先ほどは一個の文書があったらその話題は全部同じだったのですがこのモデルからは一単語ごとに違う話題があるわけですそうすると先ほどの例ではしらせを出すときにはまず南極トピックを選び次にそこからしらせという単語が選ばれたと考える次に衆院選を出した時にはまず選挙トピックが選ばれそこから衆院選という単語が出てきたこのように考えられるわけです

38 グラフィカルモデル表現も違ってきますさっきと似ていますが d から z の部分が図の右に示したような確率分布 p(z d) になっていますこれは未知のパラメータなので推定することになりますそれからもちろん p(d) や p(w k) も推定します

こうしたアイデアに基づく最初のトピックモデルは PLSI と呼ばれるものでこれについてはすぐ後で説明しますが先にその効果を見ておきますこれは前に 1 個の文書はすべて同じ分布から出てきたと考える Unigram Mixture のときの例と同じデータに PLSI を適用した結果の一部なのですが以前は頻度の高い上位語の中にをとかのとかする

39 こうしたアイデアに基づく最初のトピックモデルは PLSI と呼ばれるものでこれについてはすぐ後で説明しますが先にその効果を見ておきますこれは前に 1 個の文書はすべて同じ分布から出てきたと考える Unigram Mixture のときの例と同じデータに PLSI を適用した結果の一部なのですが以前は頻度の高い上位語の中にをとかのとかするとかいう機能語の類がたくさん入っていましたそれが PLSI を使うとほとんど除かれるのです実は Unigram mixture の例でも結構頑張って機能語を除いたのですが手作業で除くのには限界がありちゃんと統計的にやらないとうまく動きませんでしたそれが PLSI を用いると Topic 3 は見事に野球の話ばかり集まっていますし Topic 1 は将棋ですねべつにテキストにトピックは将棋と書いてあるわけではないのですがモデルが勝手にこうした単語を見つけてまとめてくれるわけです Topic 2 も原発とか事故とか配管とか原発事故に関するものですね Topic 4 は研究とか細胞とか遺伝子とか医学や生物学に関する単語です

40 他のトピックも何となくどういう話題なのか想像がつくことと思います

41 さて生成モデルとして PLSI はどうなっているかというと全部で D 個の文書があり文書一個一個についてまずインデックスを作り (d~p(d)) このインデックスすなわち文書ごとに単語が N 個あるのですがまず文書が持っている話題分布からトピック z を作り (z~p(z d)) その話題から単語を出す (w~p(w z)) ということをぐるぐる繰り返しますつまり確率で書くとある文書とある単語が共起したのはその裏に z という見えない話題がありそれに対して周辺化されているわけですがそれは文書をまず選びその文書から話題を選び話題から単語を選ぶということを z に対して和をとったという確率モデルになります

42 今までは一つの文書と一つの単語が共起する確率を考えていましたがここでは一つの文書と複数の単語が共起する確率について考えていますそれは単に各文書ごとにすべての単語との共起確率をかけあわせさらにそれらをすべての文書についてかけ合せるだけです

こうして p(z d) や p(w z) が与えられたら確率的に文書を生成するモデルはできたのですが問題はこの逆で文書が沢山与えられたときそれからどうやって p(z d) や p(w z) を推定するかにありますいわゆる逆問題ですねここでいささかテクニカルになりますがまたベイズの定理を使って式を書き直します特に難解な計算をするわけではありませんがそれで Unigram

43 こうして p(z d) や p(w z) が与えられたら確率的に文書を生成するモデルはできたのですが問題はこの逆で文書が沢山与えられたときそれからどうやって p(z d) や p(w z) を推定するかにありますいわゆる逆問題ですねここでいささかテクニカルになりますがまたベイズの定理を使って式を書き直します特に難解な計算をするわけではありませんがそれで Unigram Mixture と同様に EM アルゴリズムを使うことで推定が可能となってしまうのですさきほどから文書を選ぶ確率 p(d) というのが出ていますがこれの意味になんとなく謎めいた印象を受けている人はいませんか?p(d) がちょっと怪しいと気付いた人は鋭い人だと思いますそこで条件付き確率とベイズの定理を使って上のように式を変形します最後の式はどう解釈されるかというとある文書 d とその中の単語 w が共起する確率はまず話題 z が先に選ばれますまず z を選びその z から文書と単語が出てきたと思いましょう最初の p(z) はどんな話題が出やすいかという確率分布を表していてその話題からどんな文書が出やすいのか (p(d z)) あるいはその話題からどんな単語が出やすいのか (p(w z)) が決まってくるちょっと変形しただけなのですがこれでモデルが EM アルゴリズムで解ける形になってしまうのです

44 EM アルゴリズムの手順の詳細は説明しませんがある程度のイメージを持つためにこのモデルの下でのデータの対数尤度の式は必要です D は文書の集合 W は単語ベクトルの集合でこれらはデータとして与えられます一方 Z は話題ですがこれは未知の潜在変数で問題はこの推定にあるわけですですから推定したいのは p(z), p(d z), p(w z) というパラメータとそれぞれの文書の中の各単語がどの話題から選ばれたものなのかという潜在変数 Z です

45 EM アルゴリズムは E-step と M-step に分けられます E-step では推定したい未知の潜在変数についてその期待値を求めますいまのモデルでは文書 d の中のある単語 w がどのトピックかという確率分布 p(z d,w) の形で求めますこれは上のようにして 3 つのパラメータが与えられれば計算できます M ステップではこの期待値の下で対数尤度を最大にするパラメータを求めますそこでテクニカルな話ですが Q 関数というものを作ります

46 Q を最大化したいのでこれを微分して 0 とおくことで 3 つのパラメータの計算式が得られますここで n(d, w) は文書 d の中に単語 w が何回入っているかそのカウント数要するにデータを表しています

以上の EM アルゴリズムをまとめてみます E-step では各文書 d の各単語 w についてその単語 w はどういう話題から選ばれたらしいかを確率分布の形で推定しますこの一個一個の単語がどういう話題に割り当てられたのかがわかっていると ( 期待値という意味で ) それを逆に使うことである話題からどういう単語が出やすいかがわかりますそれが M ステップでそれを使って

47 以上の EM アルゴリズムをまとめてみます E-step では各文書 d の各単語 w についてその単語 w はどういう話題から選ばれたらしいかを確率分布の形で推定しますこの一個一個の単語がどういう話題に割り当てられたのかがわかっていると ( 期待値という意味で ) それを逆に使うことである話題からどういう単語が出やすいかがわかりますそれが M ステップでそれを使って 3つのパラメーターを更新しますそうしたら E ステップに戻ってもう一回その新しいパラメーターを使って単語が本当はどういう話題なのかを計算するこれをぐるぐる繰り返しますこの計算は R のようなソフトでもできると思いますが言語処理では単語の種類の数が数万あり文書の数も数万とか数十万とか数百万とかあるので R とかでは一年たっても終わらないようですそれで普通 C 言語とかでプログラムをゴリゴリ書きますうまく工夫すると 10 時間とか一晩くらいで終わるくらいの計算量です 4 日くらいかかる研究も普通にあります

こうして文書 d の各単語 w ごとに潜在的な話題 z を考えるのでいわゆるナイーブベイズなどよりはるかによいモデルが作れます Unigram Mixture も混合モデルの一種でつまりまず混合比からある話題を選びその話題からテキスト全体を作っているわけです一方このトピックモデル PLSI では一個一個の文章ごとにまず混合比 p(z d) を選び

48 こうして文書 d の各単語 w ごとに潜在的な話題 z を考えるのでいわゆるナイーブベイズなどよりはるかによいモデルが作れます Unigram Mixture も混合モデルの一種でつまりまず混合比からある話題を選びその話題からテキスト全体を作っているわけです一方このトピックモデル PLSI では一個一個の文章ごとにまず混合比 p(z d) を選びこの混合比から各単語ごとにトピックを選んでそこから単語を出力します結局混合モデルの混合モデルというのがトピックモデルの本質ですただし p(z d) は生成モデルには登場しますが EM を適用する段階でこれは逆の p(d z) になっています p(z d) はベイズの定理を使えば p(z)p(d z) に比例するので求められますねこの p(d z) というのも少々謎の確率分布ですがこの問題はすぐ後で述べますそれがそのまま次のステップのモデル LDA へつながっていきます

LDA へ進む前に PLSI の性能について少し触れておきますトピックモデルは言語処理の人にはそれなりに知られてきていますが他の分野では多分まだ教科書がないこともあって 1 あまり知られていないと思います Unigram Mixture (UM) と比較してみると PLSI のほうが性能がよいことを示しているのが上の図です縦軸についてしっかりした説明は省きますが

49 LDA へ進む前に PLSI の性能について少し触れておきますトピックモデルは言語処理の人にはそれなりに知られてきていますが他の分野では多分まだ教科書がないこともあって 1 あまり知られていないと思います Unigram Mixture (UM) と比較してみると PLSI のほうが性能がよいことを示しているのが上の図です縦軸についてしっかりした説明は省きますがモデルの性能の評価の一つで下に行くほど性能が良いモデルを意味します赤の DM=Dirichlet Mixtures は今はおいておいていわゆるナイーブベイズ ( 教師なしナイーブベイズ ) でやると Unigram Mixture は黒い実線ですが話題の数を増やしていくと性能は良くはなるものの図のように向上が止まってきます一方 PLSI やすぐ後で説明するそのベイズ版 LDA でははるかによい性能が出ていますちなみに DM=Dirichlet Mixtures というモデルは話題は文書ごとに一個ですが単語にキャッシュがあって一回出た単語が二回以上出やすくなるという性質をうまくモデル化するものですそれを使うとつまり Unigram Mixture にキャッシュを付けるとものすごく性能が良くなるわけです現状では LDA にキャッシュを入れるともっと性能がよくなるみたいなことがわかりつつあるというのが今の言語処理の状況です 1 この講演の時点 (2015 年 1 月 ) ではまだ日本語の教科書は出版されていなかった

PLSI は 99 年頃に出て統計を知っている人はすごいと思ったわけですがもちろん問題もあります何が問題かというと話題の事前分布 p(z) とか話題ごとの単語の分布 p(w z) を推定するという部分はいいのですが p(d z) がパラメータに入っていますこれは話題 z からどんな文書 d が選ばれるかの確率ですがこの文書 d というよくわからない謎の確率変数が入っています

50 PLSI は 99 年頃に出て統計を知っている人はすごいと思ったわけですがもちろん問題もあります何が問題かというと話題の事前分布 p(z) とか話題ごとの単語の分布 p(w z) を推定するという部分はいいのですが p(d z) がパラメータに入っていますこれは話題 z からどんな文書 d が選ばれるかの確率ですがこの文書 d というよくわからない謎の確率変数が入っていますそしてこれは学習データに比例して増えていきますこれはモデルの中に含まれていて未知パラメータとして推定しないといけません未知パラメータを導入したことで EM で解けるようになったのですが推定すべきパラメータ数が膨大になってしまいましたそのためしばしば学習データにオーバーフィットして性能がどんどん悪くなってしまうのですそれを解決するためには焼きなまし (Tempered) 法というのがあって確率分布の計算をしたときにオーバーフィットしないように β 乗しますこの β が 1 より小さい値例えば 1/2 だとをとる形になるので確率分布がなめらかになるわけです

51 焼きなましでこの β をだんだん 1 に近づけるといったある意味姑息な方法を使うと β が 1 だとだめなものが β を 0.75 くらいにするとうまくいくみたいな方法が最初のころ取られていましたでもこんなアドホックでいいの? という疑問がありましたここでいうアドホックとはオーバーフィットする原因自体を解決することなく対処療法的に学習し過ぎないようにしていることです

52 そもそも問題は EM で解くということからわかるように PLSI というトピックモデルはベイズではなく真の生成モデルでもなく最尤推定をやっているだけなのです文書ごとの p(d z) をパラメータと思って最尤推定していて p(z d) はパラメータの最尤推定値から求められるのですがこれを確率的に生成するようなモデルを考えましょうそれには全体をベイズで書きましょうこれが一番基本的なトピックモデルである Latent Dirichlet Allocation ですこれが 2001 年から 2003 年ごろの話です

53 基本的な考え方は PLSI と同じで単語ごとに見えないトピックがあるというものです

54 ではどうすればいいかというとある文書が持っている話題の分布というものは離散分布なのでディリクレ分布を使ってこれを作る基本的にはこれだけですこのことを簡単に θ と書いていますがディリクレ分布を使って作るそれだけです

55 そうするとあるテキスト w 1 が持っている話題の分布が上のほうのような感じになっていてそれはこのディリクレ分布からランダムにとってきたのだけどそれは上の図で θ 1 で指されているあたりからだった w 2 だと下のほうのような感じの分布になっていてそれも同じディリクレ分布からランダムにとってきたのだけどこっちは θ 2 で指されているあたりからだったこういうモデルを考えます

56 話題から単語を選ぶ方はこっちは最尤推定をやっても良いのですがこれも多項分布なのでやはりディリクレ分布から作ることにしましょうたいていの場合話題より高次元のディリクレ分布になります

57 全体の生成モデルは一個一個の文書に対してどういう話題を持っているかという混合比 θ という確率分布これをまずディリクレ分布からのランダムサンプリングで作りますもし全部で話題が 4 個あるなら各文書について 4 次元のディリクレ分布からのランダムサンプリングで話題の分布を決めます次にその多項分布の中から話題 z をランダムに選びますそれからその話題からはどういう単語が出やすいかという多項分布からランダムに単語を選びます 2 番目の単語についても同じようにまず混合比の多項分布から話題を決めその話題の多項分布から単語を選びますもし話題政治が選ばれたなら政治トピックの確率分布から単語をランダムサンプリングしますおそらく法案とか国会とか議院などが出やすい確率分布なのでしょう今とり出した単語が法案だったとします次にまた同じことをして今度は話題経済が選ばれ経済トピックから単語を出したとしますこの操作を N 個ある単語ごとに行います次の文書に対しては混合比をディリクレ分布からランダムにサンプリングする作業から始めますこれが生成モデルですがもちろん現実には文書つまり単語のカウント数というデータがあるだけでこの生成過程はわかっていませんそれをデータから求めるのです

58 グラフィカルモデルでいうと我々にわかっているのは出現した単語 w という黒丸だけですこの単語の黒丸の裏に見えない話題があってこの話題を作る見えない話題分布があるこれら全てを推定するという一見無茶に見えることをしますなお話題分布を支配するハイパーパラメーターもありこれも頑張れば推定できます

59 数式で書くと w というのが単語ですその裏に一個一個の単語が持っている話題 z n と文書が持っている話題分布 θ がありますある単語ベクトル w が生成される確率 p(w) は n 個の単語についての n 個の積についてのすべての話題の和 (Σ z ) とすべての話題分布の和 (θ についての積分 ) になります θ の分布がディリクレ分布でそこから θ k という話題 k の出る確率が現れ θ k から単語が出てくるパラメーターはディリクレ分布の α と話題 k から単語 w の出る確率 ( 上では β となっています ) これが全体のパラメーターですこんな尤度をもつモデルの最適化など無理なように思えますがこれが実は解けるのです

LDA モデルの計算法を説明する前に LDA を適用した時に得られる結果の事例を先に示しておきます縦の列はそれぞれ LDA が求めた話題とその話題の下で選ばれる確率の高い単語です話題には単なる番号しか付いていませんこの結果を見てどういう話題かは人が見て話題の名前を決めています例えば話題 1 には

60 LDA モデルの計算法を説明する前に LDA を適用した時に得られる結果の事例を先に示しておきます縦の列はそれぞれ LDA が求めた話題とその話題の下で選ばれる確率の高い単語です話題には単なる番号しか付いていませんこの結果を見てどういう話題かは人が見て話題の名前を決めています例えば話題 1 には Art に関する言葉が多いから Art と名付けました 3 番目には子供に関する言葉が多いから children にしています 4 番目は教育関係が並んでいるから education にしました Art "Budgets Children Education はモデルではなく図示のために与えた各話題の名前です

61 ここまでですと PLSI の結果と変わらないのですが実際のテキストの単語ごとに話題があるのでテキストを話題で色分けできるのです例えばこの文書の冒頭には William Randolph Hearst Fundation will give $1.25 million to と書いてあります New York Philharmonic と Juilliard School に Foundation をあげましたという話で音楽関係の話とお金関係の話が混じっているのですが New York Philharmonic とか performing とか Lincoln は音楽関係 ( 赤 ) 緑色のところはお金関係というように単語ごとに ( それを選ばせた ) 話題をあてることができるわけです本当はどの話題かは確率分布として推定されますがここでは一番事後確率の高かった話題に単語を色づけしています

62 この複雑なモデルをどうやって解くかというと実はモデルの提唱以来たくさんの方法が提唱されています

63 一番簡単なのは Gibbs サンプラーと呼ばれているものでこれだけ紹介します

65 図の横軸と縦軸は 2 つの潜在変数 z 1 と z 2 です z 1 と z 2 が特定の値のときにデータが得られる確率を等高線状に示していますデータの確率が高くなるパラメーターの値を推定するためにマルコフ連鎖モンテカルロ法というものを使います

67 一個一個の単語つまりある単語ベクトル w の中の i 番目の単語が持っている話題が k である確率はベイズでひっくり返すと上のようになりますそれが何かというとある単語が持っている話題の分布はその単語が含まれている文章の中でその話題がどのくらい出てくるかという事前分布とその話題からその単語がどのくらい出てくるかという尤度をかけ合わせた形になりますそれに従って一個一個の単語がどういう話題なのかをサンプリングしますこれがギブスサンプリングです

68 一個一個の単語が観測値でその裏に見えない話題があります話題を色で分類してありますこの黒の単語が持っている話題が青である確率を計算するのですが青になる確率はこの文書の中で青がどのぐらい出てきたかという確率と青という話題からこの黒い単語はどのぐらい出てくるかこの尤度を掛け合わせた形になりますそれをこの文書という単語の配列に対してサンプリングを回します通常計算には一晩くらいかかります

69 人工的に作った文書にギブスサンプリングを実際に行った例をお見せしましょうまず単語の種類を 25 とし単語 1, 単語 2,, 単語 25 を横に5つずつ 5 行に並べて表示することにしますトピックは 10 個としました 10 個のトピックからそれぞれどんな単語が出てくるかを表すパラメータ β k ={p(w k)} を表すのが 10 個の正方形です図の黒の部分は単語の出る確率が 0.2 それ以外は 0 を意味しますつまり左上のトピックでは黒の部分は単語 1,6,11,16, 21 なのでそれらが確率 0.2 ずつ出て他は 0 という意味です

次にこのトピックをどういう風に混ぜ合わせて文書を作るかを表す多項分布をディリクレ分布からランダムに選びます今文書を 4 つ作ることにし一様なディリクレ分布 (Dir(1,1,,1)) からランダムにサンプリングしたところ右上のような 4 つの多項分布が選ばれたとしましょうこの割合に従って 10

70 次にこのトピックをどういう風に混ぜ合わせて文書を作るかを表す多項分布をディリクレ分布からランダムに選びます今文書を 4 つ作ることにし一様なディリクレ分布 (Dir(1,1,,1)) からランダムにサンプリングしたところ右上のような 4 つの多項分布が選ばれたとしましょうこの割合に従って 10 個のトピックを混ぜ合わせて単語をサンプリングするので 10 個のトピックをそれぞれの多項分布で混ぜた分布を下に図示しました一個一個の文書 1 文書 2 文書 3 文書 4が持つ各単語の出やすさを黒の濃さで表していますもちろん我々はこの確率分布自体を知っているわけではなくてここからさらにサンプリングした単語の回数というデータを持っているだけです

上がそうやって作った文書の例ですこの例では 1000 個の文書を作っていて図にはその最初の 12 個について 25 個の単語がそれぞれ何回出現したかを示しています横軸が 1 個の文書です文書 1 では単語 1 が 10 回単語 2 が 10 回単語 3 が 8 回単語 4 が 12 回単語 5 が 7 回という感じで単語 25 が 13 回出てきていますそういった文書が

71 上がそうやって作った文書の例ですこの例では 1000 個の文書を作っていて図にはその最初の 12 個について 25 個の単語がそれぞれ何回出現したかを示しています横軸が 1 個の文書です文書 1 では単語 1 が 10 回単語 2 が 10 回単語 3 が 8 回単語 4 が 12 回単語 5 が 7 回という感じで単語 25 が 13 回出てきていますそういった文書が文書 1 文書 2 文書 3 とたくさん ( 全部で 1000 個 ) あります我々が知っているのはこれだけです β は教えませんそしてこのカウントデータだけを使って β が本当に復元できるのかを試しますつまり β の真の分布はある 5 個が確率 0.2 で出て他は確率 0 という分布でしたもちろん我々は真の β を知りません β を θ で混ぜ合わせ ( 混ぜ合わせ方 θ も知らない ) そこからさらに単語をランダムサンプリングして作ったカウントデータから β を復元できるかテストするのです

72 最初はさっぱりわからないのでひとまずランダムに β を定めそこから少しずつ学習します

73 それでギブスサンプラーを一回やります少しきれいになったようなたいして変わらないような

74 ギブズサンプラーを 3 回やったところです

76 16 回で結構きれいになっていて 32 回でかなり真の分布に近づいています 64 回だともうほぼ復元できています

78 10 個のトピックの順番は関係ないのでこの段階で真の分布はほぼ復元できたといえます

79 データの対数尤度も最初はだーっと上がっていき先ほどほぼ正解だった 64 あたりから横ばいになっています

80 以上が LDA というものですオーバーフィットしないトピックモデルでかつ完全な生成モデルなのでいろいろと拡張することができますそれでいて計算オーダーはほとんどナイーブベイズと同じくらいです

81 モデルの性能の比較ですが今回は特に説明しないことにします

最後に Geographic Topic model というのが面白かったので紹介しようと思います同じトピックでも地域によって言葉というものは微妙に違っていて例えばこの例で Food とは Dinner や Delicious Snack などですけれどサンフランシスコに行くと Food というと Sprouts や Avocados などのほうが結構確率が高い逆にピッツバーグだと

82 最後に Geographic Topic model というのが面白かったので紹介しようと思います同じトピックでも地域によって言葉というものは微妙に違っていて例えばこの例で Food とは Dinner や Delicious Snack などですけれどサンフランシスコに行くと Food というと Sprouts や Avocados などのほうが結構確率が高い逆にピッツバーグだとこの単語の意味は知らないですがレストランの名前などが多かったりします全体としては多分別々のものではなくあくまで Food ですね大事なのは地域がサンフランシスコやピッツバーグなどと分かっていれば地域ごとに単語が出現した回数を数えればよいのですがそもそもどこまでが地域かということがよくわかりません例えば北海道地域という風に区分できればよいのですが北海道から東北のここまでが一個のまとまりをもった地域なのかもしれませんそうした地域自体をデータから見つけたいそのような問題です

方言みたいなものですがデータとしては Twitter のツイートを使っているので緯度経度がわかっています緯度経度からでは領域が見えないわけですまず地域をガウス混合分布で表現しますつまりその地域の中心がありそこから離れるに従ってその地域性は薄れていくこのとき

83 方言みたいなものですがデータとしては Twitter のツイートを使っているので緯度経度がわかっています緯度経度からでは領域が見えないわけですまず地域をガウス混合分布で表現しますつまりその地域の中心がありそこから離れるに従ってその地域性は薄れていくこのとき地域ごとのガウス分布は基本となるガウス分布にノイズが加わったものだと仮定しますこのガウス分布をロジスティック変換して和を 1 にした分布がトピックでそれを使って MCMC で学習を動かしますどういう地域があるかということとそこからどういう単語が出てくるかの両方を知ろうというのです

これは food ではなく basketball 関連らしいのですが全体としては PISTONS や LAKERS などが出てきますでも Boston だと CELTICS が出てくるし New York だと KNICKS が出てきます他の例で popular music だと playing, daughter, PEARL が

84 これは food ではなく basketball 関連らしいのですが全体としては PISTONS や LAKERS などが出てきますでも Boston だと CELTICS が出てくるし New York だと KNICKS が出てきます他の例で popular music だと playing, daughter, PEARL が Boston では出てきますが New York では BRONX が出てきます Emoticons ( 顔文字 ) というのは面白くてこの haha という笑いマークがアメリカ全土で同じかというとそんなことはなくてボストンでは図のようなものを使うけれど California では別なものを使い New York ではまた別なものが使われています

85 ガウス混合分布なのでこの辺りこの辺りとたくさんあるんですがそのうちの一部をとってきた例で lol というのは日本語で言うと ( 笑 ) です ( 笑 ) は全体的に散らばっています全国に散らばっているのですが lls(laughing like shit という少し下品な表現 ) があるらしくそれはごく一部にしかありません

86 Very は普通の表現で全国にあるのですがカリフォルニアには hella というのがあるらしくそれがこういった感じのガウス分布で説明できるようです af というのは書こうと思いましたが品がないのでやめました odee はなにかの四文字言葉のようですほかにも色々最近の話を用意してきましたが今回はこのあたりにしておくのがよいかと思います

87 編集後記実際のチュートリアルはこの後活発な質疑が続きそこからはチュートリアルならではの躍動感が感じ取れると期待できますがテープ起こしの負担は重くまた入門講義としてはナイーブベイズ Unigram Mixture, PLSI, LDA と 1 つずつ 4 つのステップを登ったところがひとつの切れ目になると考え本講義録はここで打ち切ることにしましたトピックモデルについては佐藤一誠著トピックモデルによる統計的潜在意味解析 (2015 年 ) 岩田具治著トピックモデル ( 機械学習プロフェッショナルシリーズ 2015 年 ) のように和文教科書も出版され始めていますただ統計数理系の読者を満足させる書物になっているため非統計数理系の研究者が独習するには数式が多く難儀するかもしれません本講義録は生物系研究者中心のチュートリアルだったため計算アルゴリズムの詳細を大胆に割愛しモデルの生成過程やアウトプットの解釈などエンドユーザーにとって最も重要な部分に重点を置いたものとなっています専門書と合わせて活用することでぜひこの新しい統計モデルの活用法を覚え新しいデータ科学の世界を切り拓いていきましょう

様々なミクロ計量モデル†

様々なミクロ計量モデル† 担当 : 長倉大輔 ( ながくらだいすけ ) この資料は私の講義において使用するために作成した資料です WEB ページ上で公開しており自由に参照して頂いて構いませんただし内容について一応検証してありますがもし間違いがあった場合でもそれによって生じるいかなる損害不利益について責任を負いかねますのでご了承ください間違いは発見次第継続的に直していますがまだ存在する可能性があります 1 カウントデータモデル