トピックモデルの応用：関係データ、ネットワークデータ

NTT コミュニケーション科学基礎研究所石黒勝彦 2013/01/15-16 統計数理研究所会議室 1 1

画像認識系から尐し遅れますが最近では音声音響データに対してもトピックモデルが利用されるようになっています 2

1. どの特徴量を利用するか? 2. 時系列性をどう扱うか? 3

どの特徴量を利用してどうやって BoW 形式に変換するかを検討する必要があります MFCC: 音声認識などで広い範囲で利用される F0: 発話のイントネーションやメロディを表現 MFCC: 人間の音声知覚を反映した ( とされる ) 特徴 F0: 波形の基本周波数ピッチ http://d.hatena.ne.jp/aidiary/20120225/1330179868 https://sites.google.com/site/utsakr/home/courses/tsukuba2010/contents/13-f0 4

マルコフ性を仮定する時系列モデルを利用するのが王道ですがその必要があるかどうかの検討も必要です f t = g t τ τ dτ http://plaza.rakuten.co.jp/dflyroom/diary/200808030000/ 5

Topic Model for speaker diarization [Ishiguro, 2012] Ishiguro et al., Probabilistic Speaker Diarization with Bag-of-Words Representations of Speaker Angle Information, IEEE Trans. ASLP, Vol. 20(2), pp. 447-460, 2012. 6

speaker diarization 複数の音源があるときに各音源がいつ信号を発信したかを決定応用範囲 : 会議の自動議事録作成テレビ電話における発話者音声強調ロボットと人間のインタラクションなど 7

diarization テーブルにマイクを置いて会議状況を diarization します一般に何人の話者がどこに座るかは事前にわかりません話者は潜在的な隠れ要素ですその時々によって発話者が代わります各話者の発話状況は時間変化します 8

diarization 時刻 = 文書と考えると各時刻の発話は複数の潜在トピック = 話者で表現できますトピック ( 話者 ) はわからないので推定しますトピック分布に発話状況が反映されます t t θ t θ t 9

diarization とトピックモデルの共通点に気付いたことで話者 = トピックと各時刻の発話状態 = 文書のトピック分布を同時に推定できます diarization に対するベイジアンモデルを提案できます 10

考えるべき 2 つの問題に以下のように対応します特徴量 : 方向情報 (DOA) Bag of Angle Words 時系列性 : 非定常な話者分布変化トピック分布の線形補間モデル 11

DOA [cf. Araki, 2008] DOA: 音の聞こえてくる方向の特徴量クラスタリングによって話者がどこにいるのかを推定できることが分かっています : Δt 12

: Bag of Angle Words [Ishiguro, 2012] 13

時間連続性 : ミリ秒単位の時間ステップでは話者の発話分布は変わりません時間非連続性 : 発言を受けての応答など会議の流れにそって話者分布が変化します (turn-taking) つまり話者の発話状態の変化自体が非定常になっています 14

: 話者分布の時間変化の非定常性を表すために時変の補間係数を導入します θ t 1 w t θ t π t θ t = 1 w t θ t 1 + w t π t 15

: 簡単な線形モデルによる LDA の時間発展モデル小規模 ~ 大幅な話者変化を表現可能前時刻との依存度を w t で制御する θ t 1 w t θ t π t θ t = 1 w t θ t 1 + w t π t 16

各時刻の話者分布 q は時刻ごとに独立な p の組み合わせで表現できますマルコフ性が消えて推論が簡単になります θ t = 1 w t θ t 1 + w t π t = 1 w t 1 w t 1 θ t 2 + w t 1 π t 1 + w t π t t = v tl π l l=1 t v tl = w l 1 w m m=l+1 17

LDA β k k=1,, K データ解析計算機.05.04.03 α θ d z d,n x d,n リンクソーシャルマイニング.04.02.01 β k n=1,, N d z d,n n=1 d=1,, D 構造機械学習最適.04.03.01 θ d K n=2 n=3 x d,n [ 石黒 & 竹内, 2012] 18

Topic model for diarization μ 0 γ 0 ξ 0 ψ 0 α π t β k t=1,, T k=1,, K a 0 w t c t,n z t,n x t,n b 0 n=1,, N t t=1,, T θ t = 1 w t θ t 1 + w t π t t π t = v tl π l l=1 t v tl = w l 1 w m m=l+1 19

for 時間 t = 1, 2,, T innovation topic proportion π t α~dir α interpolation factor w t a 0, b 0 ~Beta a 0, b 0 for l = 1, 2,, t v tl = w l 1 w m m=l+1 for 単語 n = 1, 2,, N t,d t for speaker (topic) k = 1, 2,, K topic-angle word proportion β k μ 0, γ 0, ξ 0, ψ 0 ~NormalGamma μ 0, γ 0, ξ 0, ψ 0 20

for 時間 t = 1, 2,, T π t α~dirichlet α t v tl = w l 1 w m m=l+1 for 単語 n = 1, 2,, N t,d innovation topic dist.-word assignment c t,n v t ~Mult v t speaker-angle word assignment z t,n c t,n, π t ~Mult π ct,n Angle word observation x t,n z t,n, β t,k ~N β t,zd,n 21

Angle Words Bag of Angle word の値 ( 角度位置 ) には意味があるので Normal から生成します π t n=1 n=2 n=3 z t,n c t,n, π t ~Multi π ct,n β k = μ k, σ 2 x t,n z t,n, β t,k ~N β t,zd,n 22

自動的に話者数も推定できます発話していない話者に対応するトピックの重み z t.n.k は学習と共に 0 に近づきます従って存在しない話者に対応するトピック k は以下を満たすかで判定できます 1 K t,n z t,n,k 1 K > z t,n,k t,n ( 実際にはほぼ 0 になります ) 23

論文では変分ベイズ法 (VB-EM) による解法が提案されています具体的な式は煩雑になるので省略します必要な方は論文をチェックしてください 24

v tl の定義から q t ( 時刻 t の話者分布 ) の学習には昔の分布の情報はほとんど影響しませんすなわち直近の情報だけを用いたオンライン ( 逐次 ) 学習が可能となります θ t = 1 w t θ t 1 + w t π t t = v tl π l l=1 t v tl = w l 1 w m m=l+1 25

[Ishiguro, 2012] 26

話者 4 人のデータからの speaker (topic) 学習結果 [Ishiguro, 2012] 27

[Ishiguro, 2012] 28

: Topic model for speaker diarizatoin トピックモデルにより speaker diarization タスクを解決できます簡単な時間発展モデルで話者の切り替わり (turn-taking) も自然にモデル化 state-of-the-art の作りこんだモデルと comparable の性能 29

Ohtsuka et al., Bayesian Unification of Sound Source Localization and Separation with Permutation Resolution, in Proc. AAAI, 2012. Yoshii and Goto, A Nonparametric Bayesian Multiple Analyzer Based on Infinite Latent Harmonic Allocation, IEEE Trans. ASLP, Vol. 20(3), pp. 717-730, 2012. 30

[Ishiguro, 2012] Ishiguro et al., Probabilistic Speaker Diarization with Bag-of-Words Representations of Speaker Angle Information, IEEE Trans. ASLP, Vol. 20(2), pp. 447-460, 2012. [Araki, 2008] Araki et al., A DOA based Speaker Diarization System for Real Meetings, in Proc. Joint Workshop Hndns-Free Speech Comm. Microphone Arrays, 2008. [ 石黒 & 竹内, 2012] 石黒, 竹内, 特徴的な構造を抽出するデータマイニング技術, NTT 技術ジャーナル, Vol. 24, No. 9, 2012. 31

トピックモデルの応用： 関係データ、ネットワークデータ

トピックモデルの応用：関係データ、ネットワークデータ