Microsoft PowerPoint - 03ModelBased.ppt

本日の目的知的情報処理 3. 原因があって結果がある ( か?) 櫻井彰人慶應義塾大学理工学部データを生成する法則が存在すると仮定しそれを推定することを考えるその場合推定できるのか? 推定する方法はあるのか? 推定しなくてもよいということはないのか? という問いを背景にモデルという概念モデルを推定するということモデルを推定しないということを知るなお事例ベース学習は丸暗記丸暗記の拡張であった生成モデルデータがあるということはそのデータを生成する原因があると考えるのちほど原因を考えることはしない方が良いという主張を紹介するどちらがよいかは神のみぞ知る deterministic ( 決定論的とでもいいましょうか ) なモデルであれば ( 状況が同じであれば ) 結果は一個ところがデータは複数個ある風邪なら体温 38 度咳が 1 時間に回喉の腫れは 5mm ほかには目立った症状なしなんて綺麗に症状が記述できればよい世の中そうではないということは決定論的モデルでは不便である ( 不適当だと言っているわけではない ) そこで確率論的モデルを考えよう確率的モデルとはある確率密度分布があってその分布に従いデータが生まれてくるようなモデルモデルとは模型本物ではないがその動きのある面 ( 今一番関心があるところ ) をうまく表現するであろうもの数学的にはあっさりとデータ x は確率密度分布に従って生成されるといった具合に書くを具体的に書かないことには話しにならない確率変数 X は確率密度関数 X) に従う x 1,..,x 5 は X のサンプルである例えばデータ x は正規分布 =(1/ (π)) ex -x / ) によって生成されるといった具合確率的モデルとは絵で書くと ( あんまり変わらないが ) = 1 e π x x 1, x,... データは複数個絵の方には描いたが統計的な生成モデルを考えるときにはデータは複数個 ( 一般にはたくさん ) あるのが前提 x, x,... 1 データ一個は仮に正規分布に従うとしよう次の一個も正規分布に従うとしようしかし現実には番目のデータが一番目のデータの値に依存することはよくあるそれを考えるべきであろうか? 当然考えるべきしかし初めからそれを考えるのは難しい

-6-4 - 4 6 独立性そこでまず各データは独立に生成されるものとする Strongly correlated この独立性は正しくは成り立っていなくても結構良い近似になっていることが多い従って多くの場合データ間の独立性は暗黙に仮定するなお属性間の独立性は一般には仮定しない ( しかし従属の場合好ましくないことが発生しがち ) 喉が腫れれば熱がでる咳がでれば喉が腫れるしかし咳喉の腫れ熱はそれぞれ重要な症状として考えるのが普通である ( 本当に従属ならどれか一つがあればよい ) 図は http://metalogue.img.jugem.jp/9317_57334.jpg 例 : コイン投げコイン投げ 1 回中の表の回数の 1 回分表が出る確率 p のコインで各試行は独立だとする表の回数は二項分布 B(p,1-p) に従う 1 P( X = =.5 x 1 1 x P( X = = p (1 p) x ( x µ ) 1 σ P( X = = e πσ 1 x 生成度数 5 15 1 5 コイン投げ 1 回を 1 回 1 3 4 5 6 7 8 9 1 表の回数図は http://i.dailymail.co.uk/i/pix/8/1/4/article-181-86fd58-365_33x37.jpg 注意 : ある分布注意 : ある分布 -6-4 - 4 6-75 -5-5 5 5 75-6 -4-4 6.7.5.3. 5-15 -1-5 5 1 15-6 -4-4 6.5.7.5.5 どちらも著名学術誌に掲載された論文とほぼ同等の近似である.5.3. 5.5.5-6 -4-4 6-15 -1-5 5 1 15-6 -4-4 6.5.5.5-6 -4-4 6.5-6 -4-4 6-75 -5-5 5 5 75.5.5.5-6 -4-4 6.7.5.3. 5-15 -1-5 5 1 15-6 -4-4 6 機械学習として個のクラスさきほどの説明は分布の近似という意味あいが強い次に未知データの予測という意味あいで述べてみよう学習サンプル : 属性値とクラスが分かる様々な検査値と ( 名医が診断した ) 病名テストサンプル : 属性値のみクラスは不明あなたの目の前の患者さん検査結果あり病名不明..1 仮定 - - 米国エネルギー省の1996 年の資料より http://www-lbit.iro.umontreal.ca/mcfold/logo.mcfold.png Prediction http://rovicky.wordpress.com/6/1/19/do-we-need-a-prediction/ 右図は http://www.wpsychic.com/wp-content/uploads/9/7/free-psychic-prediction.jpg 確率に基づき最適な判断境界を定める図は http://www.whizzdome.com/sciatica/diagnosis_small.jpg

確率分布の推定注意 : ある分布で示したように確率分布の推定は難しい ( 今回は説明しないが ) 次元が上がる ( 属性の個数が増える ) と分布の推定はもっと難しくなる一般に属性の個数は多い現在では数個ということは少ないそれにも関わらずモデルを考えることに意味があるのか? 実用上極めて意味がある説明は naïve Bayes の説明の中で行いますではどう行うか枠組み : m) : クラス m の生起確率 m は例えば風邪ひき風邪ひきでない別例 : 男声 or 女声 x m) : クラス m のときにサンプル ( 患者 ) の属性 ( 検査値 ) が x である確率 x の値は体温とか咳の程度分かっているとする別例 : 声の高さ ( ピッチ ) x m) m) を最大とする m を求めるクラスとする例えば x 風邪 ) 風邪 ) と x not 風邪 ) not 風邪 ) とを比較し前者の方が大きければ風邪だと結論する別例 : 声のピッチからそれが男声か女声かを決める式で書くと属性が一個のとき max m x m) m) を与える m を答えとするこれをしばしば argmax m x m) m) と書く確率ピッチ男声 ) 平均 1 分散 1 ピッチ女声 ) 平均分散声のピッチ Freund による例なぜクラス確率を用いるのか? なぜ x m) m) を比較するのか? つまりなぜ単に x m) の比較で済ませないのか? m) が m ごとに異なるからである例えば x は咳があるかないか m は風邪か風邪でないかとしよう咳風邪 )=.9, 咳風邪 )=.1, 咳風邪 )=.5, 咳風邪 )=.5 としようつまり風邪なら確率.9 で咳風邪でなければ確率.5 で咳をするとするこの場合咳があれば必ず風邪と診断することになるしかし実際には風邪になる確率風邪 ) は. であるとすれば風邪で咳がある確率は咳風邪 ) 風邪 ) =.18 であるのに風邪でないのに咳がある確率は咳風邪 ) 風邪 ) =.4 となるつまり風邪でない確率の方が高いのに風邪だと判断していることになるこれを防ぐには m) を考慮するしかないクラス確率だけでよいのか? m c として確率が非常に低いクラスをとる例えば極めて稀なしかし致死率の高い病気であったとする x m) はそこそこに大きい値であっても x m)m) は非常に小さい値になりこの推定法では m c が推定されることがなくなるコストを考えに入れればよい! 例えば c(m) x m)m) を最大化する m を求めればよいしかしまた問題が発生! x が発熱であったとする熱が出るとすぐ m c を推定しまうこれが昔 ( 今でも!) 診断システムが成功しなかった理由症状を入れるととにかく重篤な病気から日常的な病気までいろいろ推定してくる医者はどうしているのだろうか?

なぜ確率最大か前にも議論したが風邪か風邪でないかを判断するのに風邪の確率.6, 風邪でない確率.4 では困るから治療するかしないかの二者択一をしないといけないから二者択一でなかったり繰り返し行えるならこの限りではないところで確率最大という言葉は少し不正確であるところで条件付確率の定義から x m) m) = x, m ) である再び条件付確率の定義を用いると x, m ) = m すなわち m = x m) m) 書き換えると m = x m) m) / となるこれはご存じベイズの定理である従ってさきほど行った推定は, x が定数であるから argmax m x m) m) = argmax m x m) m) / = argmax m m 事後確率ところで m はなんであろうか? これはサンプルの属性値 ( 検査値等 ) が x であると分かったときそれを生成したモデルが m である条件付確率であるこれをモデル m の事後確率という事後というのはサンプルが生成された後という意味である従って argmax m m を求めることは事後確率を最大化することであるちなみに x が既知のとき m は確率である総和も 1 になっている事後確率を最大化するパラメータ ( 今の場合モデル m) を推定する量 argmax m m のことを maximum a posteriori estimator 事後確率最大化推定量 ( MAP 推定量 ) という事前確率事後があれば事前がある m = x m) m) / の右辺に表れた m) をモデル m の事前確率というサンプルを見る前から知っているモデル m の確率だからある患者を前にして診察も検査もしないときその患者が風邪である確率は風邪 ) となる事前確率! 診察なり検査なりの結果 x が分かると風邪だと考えられる確率は風邪に変化する事後確率! 病名の候補がたくさんあるときデータが増えれば増えるほど一般には病名に対する確信度合いが高くなるノイズがないときの事後確率の変化ベイズ推定仮説そのモデルに対する確信度合病名 P(h) P(h D1) 証拠データ P(h D1,D) これまで述べてきたように ( 例えばサンプル x を生成したモデル m を推定するにあたって ) モデル m の事前分布を考え x を観測した後の事後分布を考えこの事後分布に従って推定を行うことをベイズ推定という特にモデル m を推定するのはその典型であるモデル m の事前分布が分からないまたは哲学として知らない知りようがない存在しないと考え x m) を最大化する m を求める手法があるそれを最尤推定法と呼ぶ右上図は http://dev.team-lab.com/index.php?itemid=165 より

..1 - - 最尤推定ベイズ推定で行うことは argmax m x m) m) を求めることであったクラス確率 m) が全て等しい場合を考えてみようちょっとずるいが情報不足でクラス確率 m) が分からない場合は m) は全部等しいと仮定してしまうことがあるこの場合も含むその場合行うことは argmax m x m) を求めることになる m) が何であってもこの公式を使うことも考えられる ( 前に不適当だといったが ) この場合最大化しているのは x m 1 ), x m ), であるがその和は一般に 1ではないつまり確率ではない正規化 ( 総和 =1) にすればよいかというとそもそも総和してよいか甚だ議論である確率と区別するためにこれ ( 例えば x m 1 ) ) を m 1 の尤度 (likelihood) という尤度を最大にするもの ( 今の場合 m ) を推定するのでこの方法を最尤推定という (maximum likelihood estimation) ベイズ推定を実行するには x, m) x m) m) p ( m = = 事後確率条件付き確率事前確率であるからベイズ推定を行うには事前確率 m) と条件付確率 x m) を知る必要がある m) はクラス m の頻度で推定すればよいでは x m) はどうしたら推定できるだろうか? 図は http://farm3.static.flickr.com/45/18695311_dedfa67f8.jpg x m) の推定以前のスライドを思い出してください確率に基づき最適な判断境界を定める個のクラス属性が一個のとき学習サンプル : 属性値とクラスが分かる様々な検査値と ( 名医が診断した ) 病名ピッチ男声 ) ピッチ女声 ) テストサンプル : 属性値のみクラスは不明あなたの目の前の患者さん検査結果あり病名不明平均 1 平均分散 1 分散仮定声のピッチ Freund による例 m ごとに分布を推定すればよいわけです確率簡単か? 考えてみると分布の形 ( つまり関数形 ) が分かっていてそれが簡単 ( 正規分布とか二項分布とか ) かつ次元が低い ( 属性の個数が少ない ) なら確かに簡単であるしかし世の中そんなに甘くない分布の形なぞ分かりようがない正規分布のように綺麗なわけがない属性は山ほどあるというのが普通であるしかし簡単化してみようなぜ属性数が問題か? 多くの場合正規分布や ( 離散変数 : サイコロの目コインの裏表の場合には ) 多項分布で近似できるから分布は連続値なら正規分布離散値なら多項分布で考えようしかし属性数が問題前のスライドの図を思い出してくださいコイン投げをしてコインの表が出る確率を推定する問題と考えてください正解は.5 ですしかし 1 回投げたうち 3 回以下しか表が出ない場合が 169 回 7 回以上出てしまう場合が 19 回もあるつまり値属性のパラメータを 1 個推定するにもサンプル 1 個では不足だということである独立な属性が 1 個あればそれらのパラメータをまあまあの精度で推定するには 1 1 =1 万個のサンプルが必要になる一般にはなかなか難しい度数 5 15 1 5 コイン投げ 1 回を 1 回 1 3 4 5 6 7 8 9 1 表の回数ではどうするか?