トピックモデルの応用: 関係データ、ネットワークデータ

Similar documents
Ł\”ƒ-2005

第90回日本感染症学会学術講演会抄録(I)

Microsoft PowerPoint - Ishiguro_IBIS_presentation.pptx

GJG160842_O.QXD


日本内科学会雑誌第98巻第4号

日本内科学会雑誌第97巻第7号

抄録/抄録1    (1)V

パーキンソン病治療ガイドライン2002

研修コーナー

tnbp59-21_Web:P2/ky132379509610002944

本文/目次(裏白)

医系の統計入門第 2 版 サンプルページ この本の定価 判型などは, 以下の URL からご覧いただけます. このサンプルページの内容は, 第 2 版 1 刷発行時のものです.

nsg02-13/ky045059301600033210

positron 1930 Dirac 1933 Anderson m 22Na(hl=2.6years), 58Co(hl=71days), 64Cu(hl=12hour) 68Ge(hl=288days) MeV : thermalization m psec 100

SAP11_03

N cos s s cos ψ e e e e 3 3 e e 3 e 3 e

トピックモデルを用いた歌声特徴量の分析

日本内科学会雑誌第102巻第4号

陦ィ邏・2

様々なミクロ計量モデル†

Probit , Mixed logit

1 (Berry,1975) 2-6 p (S πr 2 )p πr 2 p 2πRγ p p = 2γ R (2.5).1-1 : : : : ( ).2 α, β α, β () X S = X X α X β (.1) 1 2

日心TWS

nsg04-28/ky208684356100043077

I II III IV V

O1-1 O1-2 O1-3 O1-4 O1-5 O1-6

untitled

第86回日本感染症学会総会学術集会後抄録(I)


(trip) ( ) 1 1

PowerPoint プレゼンテーション

放射線専門医認定試験(2009・20回)/HOHS‐05(基礎二次)

プログラム

NLMIXED プロシジャを用いた生存時間解析 伊藤要二アストラゼネカ株式会社臨床統計 プログラミング グループグルプ Survival analysis using PROC NLMIXED Yohji Itoh Clinical Statistics & Programming Group, A

7 π L int = gψ(x)ψ(x)φ(x) + (7.4) [ ] p ψ N = n (7.5) π (π +,π 0,π ) ψ (σ, σ, σ )ψ ( A) σ τ ( L int = gψψφ g N τ ) N π * ) (7.6) π π = (π, π, π ) π ±

LDA (Latent Dirichlet Allocation) Wikipediade LDA 2 / 37

例 e 指数関数的に減衰する信号を h( a < + a a すると, それらのラプラス変換は, H ( ) { e } e インパルス応答が h( a < ( ただし a >, U( ) { } となるシステムにステップ信号 ( y( のラプラス変換 Y () は, Y ( ) H ( ) X (

OngaCREST [10] A 3. Latent Dirichlet Allocation: LDA [11] Songle [12] Pitman-Yor (VPYLM) [13] [14,15] n n n 3.1 [16 18] PreFEst [19] F

文章のトピック 文章には様々なトピックが存在する Cuomo to Push for Broader Ban on Assault Weapons 2012 Was Hottest Year in U.S. History 2

日歯雑誌(H19・5月号)済/P6‐16 クリニカル  柿木 5

ohpmain.dvi

PowerPoint プレゼンテーション

プログラム

音響モデル triphone 入力音声 音声分析 デコーダ 言語モデル N-gram bigram HMM の状態確率として利用 出力層 triphone: 3003 ノード リスコア trigram 隠れ層 2048 ノード X7 層 1 Structure of recognition syst

4 Mindlin -Reissner 4 δ T T T εσdω= δ ubdω+ δ utd Γ Ω Ω Γ T εσ (1.1) ε σ u b t 3 σ ε. u T T T = = = { σx σ y σ z τxy τ yz τzx} { εx εy εz γ xy γ yz γ

NewsLetter-No2

日歯雑誌(H22・7月号)HP用/p06‐16 クリニカル① 田崎


FEM原理講座 (サンプルテキスト)

201711grade1ouyou.pdf

微分積分 サンプルページ この本の定価 判型などは, 以下の URL からご覧いただけます. このサンプルページの内容は, 初版 1 刷発行時のものです.

LLG-R8.Nisus.pdf

Microsoft PowerPoint - 3.ppt [互換モード]

IPSJ SIG Technical Report Vol.2015-MUS-107 No /5/23 HARK-Binaural Raspberry Pi 2 1,a) ( ) HARK 2 HARK-Binaural A/D Raspberry Pi 2 1.

Microsoft Word doc

untitled

untitled

日本医科大学医学会雑誌第7巻第2号

2 3

ボルツマンマシンの高速化

64 3 g=9.85 m/s 2 g=9.791 m/s 2 36, km ( ) 1 () 2 () m/s : : a) b) kg/m kg/m k

main.dvi

生命情報学

Z: Q: R: C: sin 6 5 ζ a, b

cm λ λ = h/p p ( ) λ = cm E pc [ev] 2.2 quark lepton u d c s t b e 1 3e electric charge e color charge red blue green qq

untitled

ばらつき抑制のための確率最適制御

01.Œk’ì/“²fi¡*

四変数基本対称式の解放

#A A A F, F d F P + F P = d P F, F y P F F x A.1 ( α, 0), (α, 0) α > 0) (x, y) (x + α) 2 + y 2, (x α) 2 + y 2 d (x + α)2 + y 2 + (x α) 2 + y 2 =

Microsoft PowerPoint - 第3回2.ppt

スライド 1

(extended state) L (2 L 1, O(1), d O(V), V = L d V V e 2 /h 1980 Klitzing

1 1.1 ( ). z = a + bi, a, b R 0 a, b 0 a 2 + b 2 0 z = a + bi = ( ) a 2 + b 2 a a 2 + b + b 2 a 2 + b i 2 r = a 2 + b 2 θ cos θ = a a 2 + b 2, sin θ =

集中理論談話会 #9 Bhat, C.R., Sidharthan, R.: A simulation evaluation of the maximum approximate composite marginal likelihood (MACML) estimator for mixed mu

H 0 H = H 0 + V (t), V (t) = gµ B S α qb e e iωt i t Ψ(t) = [H 0 + V (t)]ψ(t) Φ(t) Ψ(t) = e ih0t Φ(t) H 0 e ih0t Φ(t) + ie ih0t t Φ(t) = [

インターリーブADCでのタイミングスキュー影響のデジタル補正技術

[1] convention Minkovski i Polchinski [2] 1 Clifford Spin 1 2 Euclid Clifford 2 3 Euclid Spin 6 4 Euclid Pin Clifford Spin 10 A 12 B 17 1 Cliffo

JKR Point loading of an elastic half-space 2 3 Pressure applied to a circular region Boussinesq, n =

2009 年 11 月 16 日版 ( 久家 ) 遠地 P 波の変位波形の作成 遠地 P 波の変位波形 ( 変位の時間関数 ) は 波線理論をもとに P U () t = S()* t E()* t P() t で近似的に計算できる * は畳み込み積分 (convolution) を表す ( 付録

untitled

( ) Note (e ) (µ ) (τ ) ( (ν e,e ) e- (ν µ, µ ) µ- (ν τ,τ ) τ- ) ( ) ( ) (SU(2) ) (W +,Z 0,W ) * 1) 3 * 2) [ ] [ ] [ ] ν e ν µ ν τ e

An Automated Proof of Equivalence on Quantum Cryptographic Protocols

it-ken_open.key

0 スペクトル 時系列データの前処理 法 平滑化 ( スムージング ) と微分 明治大学理 学部応用化学科 データ化学 学研究室 弘昌

音声認識

1

ファイナンスのための数学基礎 第1回 オリエンテーション、ベクトル

位相最適化?

(1.2) T D = 0 T = D = 30 kn 1.2 (1.4) 2F W = 0 F = W/2 = 300 kn/2 = 150 kn 1.3 (1.9) R = W 1 + W 2 = = 1100 N. (1.9) W 2 b W 1 a = 0

Microsoft PowerPoint - LD1_iwata.ppt

Microsoft PowerPoint - …Z…O…†…fi…g…‡…f…‰‡É‡æ‡é™ñ‘oflÅ


スライド 1

03.Œk’ì

PowerPoint プレゼンテーション

sigmus-2009-yoshii.dvi

Hanbury-Brown Twiss (ver. 2.0) van Cittert - Zernike mutual coherence

(e ) (µ ) (τ ) ( (ν e,e ) e- (ν µ,µ ) µ- (ν τ,τ ) τ- ) ( ) ( ) ( ) (SU(2) ) (W +,Z 0,W ) * 1) [ ] [ ] [ ] ν e ν µ ν τ e µ τ, e R,µ R,τ R (2.1a

Transcription:

NTT コミュニケーション科学基礎研究所 石黒勝彦 2013/01/15-16 統計数理研究所会議室 1 1

画像認識系から尐し遅れますが 最近では音声 音響データに対してもトピックモデルが利用されるようになっています 2

1. どの特徴量を利用するか? 2. 時系列性をどう扱うか? 3

どの特徴量を利用して どうやって BoW 形式に変換するかを検討する必要があります MFCC: 音声認識などで広い範囲で利用される F0: 発話のイントネーションやメロディを表現 MFCC: 人間の音声知覚を反映した ( とされる ) 特徴 F0: 波形の基本周波数 ピッチ http://d.hatena.ne.jp/aidiary/20120225/1330179868 https://sites.google.com/site/utsakr/home/courses/tsukuba2010/contents/13-f0 4

マルコフ性を仮定する時系列モデルを利用するのが王道ですが その必要があるかどうかの検討も必要です f t = g t τ τ dτ http://plaza.rakuten.co.jp/dflyroom/diary/200808030000/ 5

Topic Model for speaker diarization [Ishiguro, 2012] Ishiguro et al., Probabilistic Speaker Diarization with Bag-of-Words Representations of Speaker Angle Information, IEEE Trans. ASLP, Vol. 20(2), pp. 447-460, 2012. 6

speaker diarization 複数の音源があるときに 各音源がいつ信号を発信したかを決定 応用範囲 : 会議の自動議事録作成 テレビ電話における発話者音声強調 ロボットと人間のインタラクションなど 7

diarization テーブルにマイクを置いて 会議状況を diarization します 一般に何人の話者がどこに座るかは事前にわかりません 話者は潜在的な隠れ要素です その時々によって発話者が代わります 各話者の発話状況は時間変化します 8

diarization 時刻 = 文書と考えると 各時刻の発話は複数の潜在トピック = 話者で表現できます トピック ( 話者 ) はわからないので推定します トピック分布に発話状況が反映されます t t θ t θ t 9

diarization とトピックモデルの共通点に気付いたことで 話者 = トピック と 各時刻の発話状態 = 文書のトピック分布 を同時に推定できます diarization に対するベイジアンモデルを提案できます 10

考えるべき 2 つの問題に以下のように対応します 特徴量 : 方向情報 (DOA) Bag of Angle Words 時系列性 : 非定常な話者分布変化 トピック分布の線形補間モデル 11

DOA [cf. Araki, 2008] DOA: 音の聞こえてくる方向の特徴量 クラスタリングによって 話者がどこにいるのか を推定できることが分かっています : Δt 12

: Bag of Angle Words [Ishiguro, 2012] 13

時間連続性 : ミリ秒単位の時間ステップでは 話者の発話分布は変わりません 時間非連続性 : 発言を受けての応答など 会議の流れにそって話者分布が変化します (turn-taking) つまり 話者の発話状態の変化自体が非定常になっています 14

: 話者分布の時間変化の非定常性を表すために 時変の補間係数を導入します θ t 1 w t θ t π t θ t = 1 w t θ t 1 + w t π t 15

: 簡単な線形モデルによる LDA の時間発展モデル 小規模 ~ 大幅な話者変化を表現可能 前時刻との依存度を w t で制御する θ t 1 w t θ t π t θ t = 1 w t θ t 1 + w t π t 16

各時刻の話者分布 q は 時刻ごとに独立な p の組み合わせで表現できます マルコフ性が消えて推論が簡単になります θ t = 1 w t θ t 1 + w t π t = 1 w t 1 w t 1 θ t 2 + w t 1 π t 1 + w t π t t = v tl π l l=1 t v tl = w l 1 w m m=l+1 17

LDA β k k=1,, K データ解析計算機.05.04.03 α θ d z d,n x d,n リンクソーシャルマイニング.04.02.01 β k n=1,, N d z d,n n=1 d=1,, D 構造機械学習最適.04.03.01 θ d K n=2 n=3 x d,n [ 石黒 & 竹内, 2012] 18

Topic model for diarization μ 0 γ 0 ξ 0 ψ 0 α π t β k t=1,, T k=1,, K a 0 w t c t,n z t,n x t,n b 0 n=1,, N t t=1,, T θ t = 1 w t θ t 1 + w t π t t π t = v tl π l l=1 t v tl = w l 1 w m m=l+1 19

for 時間 t = 1, 2,, T innovation topic proportion π t α~dir α interpolation factor w t a 0, b 0 ~Beta a 0, b 0 for l = 1, 2,, t v tl = w l 1 w m m=l+1 for 単語 n = 1, 2,, N t,d t for speaker (topic) k = 1, 2,, K topic-angle word proportion β k μ 0, γ 0, ξ 0, ψ 0 ~NormalGamma μ 0, γ 0, ξ 0, ψ 0 20

for 時間 t = 1, 2,, T π t α~dirichlet α t v tl = w l 1 w m m=l+1 for 単語 n = 1, 2,, N t,d innovation topic dist.-word assignment c t,n v t ~Mult v t speaker-angle word assignment z t,n c t,n, π t ~Mult π ct,n Angle word observation x t,n z t,n, β t,k ~N β t,zd,n 21

Angle Words Bag of Angle word の値 ( 角度 位置 ) には意味があるので Normal から生成します π t n=1 n=2 n=3 z t,n c t,n, π t ~Multi π ct,n β k = μ k, σ 2 x t,n z t,n, β t,k ~N β t,zd,n 22

自動的に話者数も推定できます 発話していない話者に対応するトピックの重み z t.n.k は学習と共に 0 に近づきます 従って 存在しない 話者に対応するトピック k は以下を満たすかで判定できます 1 K t,n z t,n,k 1 K > z t,n,k t,n ( 実際にはほぼ 0 になります ) 23

論文では変分ベイズ法 (VB-EM) による解法が提案されています 具体的な式は煩雑になるので省略します 必要な方は論文をチェックしてください 24

v tl の定義から q t ( 時刻 t の話者分布 ) の学習には昔の分布の情報はほとんど影響しません すなわち 直近の情報だけを用いたオンライン ( 逐次 ) 学習が可能となります θ t = 1 w t θ t 1 + w t π t t = v tl π l l=1 t v tl = w l 1 w m m=l+1 25

[Ishiguro, 2012] 26

話者 4 人のデータからの speaker (topic) 学習結果 [Ishiguro, 2012] 27

[Ishiguro, 2012] 28

: Topic model for speaker diarizatoin トピックモデルにより speaker diarization タスクを解決できます 簡単な時間発展モデルで話者の切り替わり (turn-taking) も自然にモデル化 state-of-the-art の作りこんだモデルと comparable の性能 29

Ohtsuka et al., Bayesian Unification of Sound Source Localization and Separation with Permutation Resolution, in Proc. AAAI, 2012. Yoshii and Goto, A Nonparametric Bayesian Multiple Analyzer Based on Infinite Latent Harmonic Allocation, IEEE Trans. ASLP, Vol. 20(3), pp. 717-730, 2012. 30

[Ishiguro, 2012] Ishiguro et al., Probabilistic Speaker Diarization with Bag-of-Words Representations of Speaker Angle Information, IEEE Trans. ASLP, Vol. 20(2), pp. 447-460, 2012. [Araki, 2008] Araki et al., A DOA based Speaker Diarization System for Real Meetings, in Proc. Joint Workshop Hndns-Free Speech Comm. Microphone Arrays, 2008. [ 石黒 & 竹内, 2012] 石黒, 竹内, 特徴的な構造を抽出するデータマイニング技術, NTT 技術ジャーナル, Vol. 24, No. 9, 2012. 31