Learning Bayesian Network from data 本論文はデータから大規模なベイジアン ネットワークを構築する TPDA(Three Phase Dependency Analysis) のアルゴリズムを記述 2002 年の発表だが 現在も大規模用 BN モデルのベンチマークと

Similar documents
Microsoft PowerPoint - mp11-06.pptx

Microsoft PowerPoint - ad11-09.pptx

様々なミクロ計量モデル†

Microsoft PowerPoint - H17-5時限(パターン認識).ppt

umeda_1118web(2).pptx

Kumamoto University Center for Multimedia and Information Technologies Lab. 熊本大学アプリケーション実験 ~ 実環境における無線 LAN 受信電波強度を用いた位置推定手法の検討 ~ InKIAI 宮崎県美郷

統計的データ解析

Microsoft Word - 補論3.2

切片 ( 定数項 ) ダミー 以下の単回帰モデルを考えよう これは賃金と就業年数の関係を分析している : ( 賃金関数 ) ここで Y i = α + β X i + u i, i =1,, n, u i ~ i.i.d. N(0, σ 2 ) Y i : 賃金の対数値, X i : 就業年数. (

Microsoft PowerPoint - Inoue-statistics [互換モード]

Microsoft PowerPoint - mp13-07.pptx

Probit , Mixed logit

カイ二乗フィット検定、パラメータの誤差

Microsoft Word doc

memo

Microsoft PowerPoint - 統計科学研究所_R_重回帰分析_変数選択_2.ppt

講義「○○○○」

Microsoft PowerPoint - mp11-02.pptx

4 段階推定法とは 予測に使うモデルの紹介 4 段階推定法の課題 2

構造方程式モデリング Structural Equation Modeling (SEM)

SAP11_03

2010_LD_Ide.ppt

Microsoft PowerPoint - 資料04 重回帰分析.ppt

ボルツマンマシンの高速化

2014 BinN 論文セミナーについて

PowerPoint Presentation

Microsoft PowerPoint - e-stat(OLS).pptx

基礎統計

2007年08月号 022416/0812 会告

ε

Microsoft PowerPoint - 13.ppt [互換モード]

PowerPoint プレゼンテーション

ファイナンスのための数学基礎 第1回 オリエンテーション、ベクトル

Microsoft PowerPoint - 三次元座標測定 ppt

<4D F736F F F696E74202D E738A5889BB8BE688E68A4F82CC926E89BF908492E882C98AD682B782E98CA48B862E707074>

混沌系工学特論 #5

OpRisk VaR3.2 Presentation

図 1 アドインに登録する メニューバーに [BAYONET] が追加されます 登録 : Excel 2007, 2010, 2013 の場合 1 Excel ブックを開きます Excel2007 の場合 左上の Office マークをクリックします 図 2 Office マーク (Excel 20

PowerPoint プレゼンテーション

1.民営化

NLMIXED プロシジャを用いた生存時間解析 伊藤要二アストラゼネカ株式会社臨床統計 プログラミング グループグルプ Survival analysis using PROC NLMIXED Yohji Itoh Clinical Statistics & Programming Group, A

回帰分析の用途・実験計画法の意義・グラフィカルモデリングの活用 | 永田 靖教授(早稲田大学)

Microsoft PowerPoint - 06graph3.ppt [互換モード]

2008 年度下期未踏 IT 人材発掘 育成事業採択案件評価書 1. 担当 PM 田中二郎 PM ( 筑波大学大学院システム情報工学研究科教授 ) 2. 採択者氏名チーフクリエータ : 矢口裕明 ( 東京大学大学院情報理工学系研究科創造情報学専攻博士課程三年次学生 ) コクリエータ : なし 3.

             論文の内容の要旨

untitled

untitled


ベイズ統計入門

PowerPoint Template

BIC32_B6web用PDF台紙.indd

dlshogiアピール文章

Microsoft PowerPoint - データ解析発表2用パワポ

NLP プログラミング勉強会 5 HMM による品詞推定 自然言語処理プログラミング勉強会 5 隠れマルコフモデルによる品詞推定 Graham Neubig 奈良先端科学技術大学院大学 (NAIST) 1

EBNと疫学

Microsoft PowerPoint - ch04j

多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典

スライド 1

プログラミング基礎

Microsoft Word - å“Ÿåłžå¸°173.docx

今回のプログラミングの課題 ( 前回の課題で取り上げた )data.txt の要素をソートして sorted.txt というファイルに書出す ソート (sort) とは : 数の場合 小さいものから大きなもの ( 昇順 ) もしくは 大きなものから小さなもの ( 降順 ) になるよう 並び替えること

以下 変数の上のドットは時間に関する微分を表わしている (ex. 2 dx d x x, x 2 dt dt ) 付録 E 非線形微分方程式の平衡点の安定性解析 E-1) 非線形方程式の線形近似特に言及してこなかったが これまでは線形微分方程式 ( x や x, x などがすべて 1 次で なおかつ

技術開発懇談会-感性工学.ppt

Stanによるハミルトニアンモンテカルロ法を用いたサンプリングについて

040402.ユニットテスト

PowerPoint プレゼンテーション

Transcription:

@mabo0725 2015 年 05 月 29 日

Learning Bayesian Network from data 本論文はデータから大規模なベイジアン ネットワークを構築する TPDA(Three Phase Dependency Analysis) のアルゴリズムを記述 2002 年の発表だが 現在も大規模用 BN モデルのベンチマークとして使用されている TPDA は BN Power Constructor としてフリーのソフトが公開されている 2

構造推定モデルの種類 データから変数間の有意で疎な関連を図示するモデル ベイジアンネットワーク ( 有向 ) GGM( ガウシアン グラフィカル モデル )( 無向 ) SEM( 共分散構造分析因子分析の拡張 )( 有向 ) グラフィカル Lasso( 無向 ) 3

BN( ベイジアンネットワーク ) の課題 ベイジアンネットには課題があり下段方向へほど問題が難しくなる 1. ネットワーク上での確率伝播推論 確率伝播法 ( ノードを辿って確率が伝播する ) 風が吹けば桶屋が儲かる式の知識発見ができる 2. データから確率分布のパラメータ推定 本論ではデータの頻度で確率を計算するので言及せず 3. データから大規模 BN の構造推定 ( 本論の課題 ) 4. ベイジアンネットワークが循環する場合の対処 4

データからの BN の構造推定 現在はデータを厳密に反映した大規模 BN が要求される 構造推定には 2 方法ある ( 現在はこの複合モデルがある ) 1. ノードのリンク状態を対数尤度指標 (MDL) で計測し最適構造を求める (score based learning) MDL は AIC BIC と同様な指標 組合の爆発発生し大規模 BN には不適 2. 条件付独立を検定して判定 (constraint based learning) 単調 DAG-faithful の概念導入 ( 本論の前提 ) 変数をノードに対応付け 条件付独立 非連結と見做す TDPA は連結の増殖と縮減する GS モデルの 1 つ よく利用される PC アルゴリズムは最も簡単なモデル 5

MDL による構造推定 ノード間リンクの組合せの爆発 ノード数 5 個 29,000 組合せ ノード数 10 個 4.2 10 18 組合せ 6

Learning Bayesian network from Data の目次 1. 概要 2. 情報理論によるベイジアンネットの構造学習の考え方 3. SLA-Ⅱノードの順を持つ構造学習の方法の説明 (TPDA-Ⅱの簡易版) 4. SLA ノードの順が無い構造学習の方法の説明 (TPDAの簡易版) 5. TPDAとTPDA-Ⅱの説明 6. TPDAが効率的に学習していること示す実用例の紹介 7. 他のベイジアンネットワーク構造学習の方法との比較 8. TPDA の成果と将来の発展 説明範囲 9. 付録 定理の証明 単調 DAG-faithful 仮定の説明 フリーソフトの導入方法の紹介 7

情報理論による BN の構造学習の考え方 ノード間の連結は 2 点間だけでなく その間に介在するノード群の影響も考える 具体的には 介在するノード群を条件とした 2 点間の条件付独立を情報量で計り連結するか決定する I(A,B) < ε ならば X と Y は独立 ( 非連結 ) I(A,B C) < ε ならば X と Y は条件付独立 (C を介して非連結 ) ε はモデルに依存するが 0.01 程度とする 8

条件付独立 Y の条件で X と Y は独立 I(X,Z Y) <ε X Z X Z X Z Y Y が観測されると X と Y は無関係 Y Y が観測されると X と Z は無関係 Y Y が観測されると X と Z は無関係 Yの条件でXとYは非独立 I(X,Z Y) ε X Y Z V 構造は矢印が決まる Y が観測されると X と Z は依存関係 9

SLA-Ⅱ( ノード順番あり ) のアルゴリズム (1) ノードの順番で I(X,Y) > ε となる組を選別し 選別リスト L に入れる 矢印の方向は X Y となる (2) 連結を増殖する過程 (Thickening) L 内の (X,Y) について以下を繰返し連結を増やす X と Y の最小の介在ノード群 C を見つける ( 最初は C は存在しない ) I(X,Y C) > ε なら X と Y を連結する (3) 連結を縮約する過程 (Thinning) 不要な連結を条件付独立で削除する各連結 (X,Y) について以下を繰返し連結を削減する 最小の介在ノード群 C' を見つける I(X,Y C') < ε なら X と Y を非連結とする 10

TDPA のアルゴリズム (1) 大規模 BN に工夫されたアルゴリズム 最初にドラフトの BN を生成する 条件付独立は関数 EdgeNeed_H と EdgeNeed で判断 EdgeNeed_H は近傍のみで条件付独立を判断介在ノードの探査空間は狭いので早い _H はヒュリステッィク ( 経験的 ) の意味 EdgeNeed は近傍の近傍で条件付独立を判断 殆ど Call されない介在ノードの探査空間は広く 厳密な条件独立を判断 ノードの矢印付けは関数 OrientNode で行う 11

TPDA のアルゴリズム (2) (1) I(X,Y) > ε となるペアを選別し I(X,Y) 値の昇順にリスト L にいれる (2) ドラフトの BN を生成 (Chow-Liu の木構造 BN 連結 E の生成 ) X と Y を連結先はリスト L から外す (3) 連結を増殖する過程 (Thickening) L 内 (X,Y) について以下を繰返し連結を増やす 関数 EdgeNeed_H(X,Y,E) が真なら X と Y を連結する (4) 連結を縮減する過程 (Thinning) 各連結 (X,Y) について以下を繰返し連結を削減する 関数 EdgeNeed_H(X,Y,E') が偽なら非連結とする (5) まだ X と Y が連結している場合 以下の条件のみ行う X が Y 以外に 3 近傍以上あれば or Y が X 以外に 3 近傍あれば関数 EdgeNeed(X,Y,E') が偽なら非連結にする (6) 関数 OrientEdge(E) で方向付けする 12

TPDA の BN 作成例 (a) 真のBN (b) Chow-liu 法によるドラフト ( 木構造 ) (c) 連結増殖過程 (B-C D-Eを連結 ) (d) 連結縮約過程 (B-Eを非連結) (e) 連結の方向付け ( 全てに矢印は付かない ) 13

関数 OrientEdge 関数 OrientEdge(CutSet) 3 連結を見つけ方向付けを繰返す 引数 CutSet は関数 EdgeNeed 非連結にした介在ノード群 ( ここでの条件独立の計算を省いている ) (1)V 構造を見つける X-Yが非連結でX-Y-Zが非条件独立の場合 CutSetに (X,Z,C') があっても (Y C') なら X Y Z と方向付ける CutSetに (X,Z,C') (Y C') が無ければ X Y Z と方向付ける X Y Z (2)3 連結 (X,Y,Z) について X Y ー Z(X Z) ならば X Y Z と方向付ける X Y Z (3)X ー Y の場合 X から Y へ連結路があれば X Y と方向付ける ( 非循環にしないため ) 14

関数 NeedEdge_H(X,Y,E) 関数 EdgeNeed_H(X,Y,E): 連結 E での X と Y の近傍で条件独立をチェック 1)Sx : X と Y の連結路にあり X の近傍先のノード群 Sy : Y と X の連結路にあり Y の近傍先のノード群 2){Sx と Sy} ノード群の各組合わせ C について以下を繰り返す I(X,Y C) < ε) ならば CutSet に (X,Y,C) を追加する ( 関数 OrientEdge で使う ) 偽 ( 非連結 ) を返す 終了 C のノード群について 1 個づつ減らして確かめる C' = C 群から j 番目のノードを除く s(j) = I(X,Y C/j) if( 最小 s(j) < ε) ならば CutSet リストに (X,Y,C') を追加する ( 関数 OrientEdge で使う ) 偽 ( 非連結 ) を返す 終了 X CutSet2 CutSet1 Y 上記以外なら 2) に戻って次のノード群 C について行う 3) 上記以外なら真 ( 連結 ) を返し 終了 15

関数 NeedEdge(X,Y,E) 関数 EdgeNeed(X,Y,E): 近傍の近傍まで条件独立をチェックする Sx : X と Y の連結路にあり X の近傍先のノード群 Sy : Y と X の連結路にあり Y の近傍先のノード群 Sx': Sx と Sy の連結路にあり Sx ノード群の近傍 (Sx は含まない ) Sy': Sx と Sy の連結路にあり Sy ノード群の近傍 (Sy は含まない ) Sx' と Sy について関数 NeedEdge_H(X,Y,E) と同じ処理をする X Y 16

まとめ (TPDA) TPDA はデータから大規模 BN を厳密に求めるため開発されたアルゴリズム データの条件付独立の検定で連結を判断 3 フェーズ ( ドラフト 増殖 縮減 ) で構成 ヒューリステック ( 経験的 ) な関数で BN を作成し特別な状態のみ厳密的な関数を適用する 連結後に関数 OrientEdge で矢印を付ける J.Pearl の DAG( 非循環方向モデル ) に準拠 ( 正確な因果を表しているわでない ) 全ての連結に矢印が付くとは限らない 17

まとめ (TPDA の改良版 ) 介在ノード群の探索を 3 回で済む方法が考案されている ( 植野真臣 TPDA の高速化 2010) ノード数 1000 で約 1200 秒 (( 株 )CAC 技術レポート ) TPDA は大規模な範囲で条件独立を判定するので精度が劣化する計算時間と精度向上のため小規模に分解して構造学習する RAI の実装 ( 森下民平 2012) がある スコアベースと制約ベース ( 条件独立 ) を合体した構造学習 MMHC(2006) がある 18