Microsoft PowerPoint - 03ModelBased.ppt

Similar documents
Microsoft PowerPoint slide2forWeb.ppt [互換モード]

様々なミクロ計量モデル†

基礎統計

Probit , Mixed logit

Microsoft PowerPoint - 基礎・経済統計6.ppt

講義「○○○○」

第7章

統計学 - 社会統計の基礎 - 正規分布 標準正規分布累積分布関数の逆関数 t 分布正規分布に従うサンプルの平均の信頼区間 担当 : 岸 康人 資料ページ :

Microsoft PowerPoint - stat-2014-[9] pptx

Microsoft Word - 補論3.2

ビジネス統計 統計基礎とエクセル分析 正誤表

日心TWS

<4D F736F F D208D A778D5A8A778F4B8E7793B CC A7795D2816A2E646F6378>

PowerPoint プレゼンテーション

母平均 母分散 母標準偏差は, が連続的な場合も含めて, すべての個体の特性値 のすべての実現値 の平均 分散 標準偏差であると考えてよい 有限母集団で が離散的な場合, まさにその意味になるが, そうでない場合も, このように理解してよい 5 母数 母集団から定まる定数のこと 母平均, 母分散,

ベイズ統計入門

統計的データ解析

生命情報学

<4D F736F F D208EC08CB18C7689E68A E F AA957A82C682948C9F92E82E646F63>

Microsoft Word - Time Series Basic - Modeling.doc

スライド 1

切片 ( 定数項 ) ダミー 以下の単回帰モデルを考えよう これは賃金と就業年数の関係を分析している : ( 賃金関数 ) ここで Y i = α + β X i + u i, i =1,, n, u i ~ i.i.d. N(0, σ 2 ) Y i : 賃金の対数値, X i : 就業年数. (

NLMIXED プロシジャを用いた生存時間解析 伊藤要二アストラゼネカ株式会社臨床統計 プログラミング グループグルプ Survival analysis using PROC NLMIXED Yohji Itoh Clinical Statistics & Programming Group, A

Microsoft Word - Stattext07.doc

Microsoft PowerPoint - sc7.ppt [互換モード]

多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典

経済統計分析1 イントロダクション

不偏推定量

Excelによる統計分析検定_知識編_小塚明_5_9章.indd

Microsoft PowerPoint - e-stat(OLS).pptx

RSS Higher Certificate in Statistics, Specimen A Module 3: Basic Statistical Methods Solutions Question 1 (i) 帰無仮説 : 200C と 250C において鉄鋼の破壊応力の母平均には違いはな

Microsoft PowerPoint - statistics pptx

確率分布 - 確率と計算 1 6 回に 1 回の割合で 1 の目が出るさいころがある. このさいころを 6 回投げたとき,1 度も 1 の目が出ない確率を求めよ. 5 6 /6 6 =15625/46656= (5/6) 6 = ある市の気象観測所での記録では, 毎年雨の降る

SAP11_03

Microsoft PowerPoint - 資料04 重回帰分析.ppt

情報工学概論

統計学的画像再構成法である

第 3 回講義の項目と概要 統計的手法入門 : 品質のばらつきを解析する 平均と標準偏差 (P30) a) データは平均を見ただけではわからない 平均が同じだからといって 同一視してはいけない b) データのばらつきを示す 標準偏差 にも注目しよう c) 平均

3章 度数分布とヒストグラム

モジュール1のまとめ

森林水文 水資源学 2 2. 水文統計 豪雨があった時, 新聞やテレビのニュースで 50 年に一度の大雨だった などと報告されることがある. 今争点となっている川辺川ダムは,80 年に 1 回の洪水を想定して治水計画が立てられている. 畑地かんがいでは,10 年に 1 回の渇水を対象として計画が立て

布に従う しかし サイコロが均質でなく偏っていて の出る確率がひとつひとつ異なっているならば 二項分布でなくなる そこで このような場合に の出る確率が同じであるサイコロをもっている対象者をひとつのグループにまとめてしまえば このグループの中では回数分布は二項分布になる 全グループの合計の分布を求め

Information Theory

14 化学実験法 II( 吉村 ( 洋 mmol/l の半分だったから さんの測定値は くんの測定値の 4 倍の重みがあり 推定値 としては 0.68 mmol/l その標準偏差は mmol/l 程度ということになる 測定値を 特徴づけるパラメータ t を推定するこの手

Microsoft PowerPoint - Inoue-statistics [互換モード]

自動車感性評価学 1. 二項検定 内容 2 3. 質的データの解析方法 1 ( 名義尺度 ) 2.χ 2 検定 タイプ 1. 二項検定 官能検査における分類データの解析法 識別できるかを調べる 嗜好に差があるかを調べる 2 点比較法 2 点識別法 2 点嗜好法 3 点比較法 3 点識別法 3 点嗜好

EBNと疫学

カイ二乗フィット検定、パラメータの誤差

Microsoft Word - reg.doc

_KyoukaNaiyou_No.4

Kumamoto University Center for Multimedia and Information Technologies Lab. 熊本大学アプリケーション実験 ~ 実環境における無線 LAN 受信電波強度を用いた位置推定手法の検討 ~ InKIAI 宮崎県美郷

<4D F736F F D208EC08CB18C7689E68A E F193F18D8095AA957A C C839395AA957A814590B38B4B95AA957A2E646F63>

Microsoft PowerPoint - 05DecisionTree-print.ppt

Microsoft PowerPoint - H17-5時限(パターン認識).ppt

データ解析

統計学 Ⅱ8-9 章 確率分布 確率の条件 8 ページ p: 確率関数 p は の関数とみなせる 確率分布 : すべてのに関する = または p の分布 グラフや表で表わすことが多い サイコロの例 : 計 縦軸は p または = 棒の幅は 線 確率 p.. = / / / / / / サイコロの目の

Microsoft PowerPoint - データ解析基礎4.ppt [互換モード]

ダンゴムシの 交替性転向反応に 関する研究 3A15 今野直輝

Python-statistics5 Python で統計学を学ぶ (5) この内容は山田 杉澤 村井 (2008) R によるやさしい統計学 (

ファイナンスのための数学基礎 第1回 オリエンテーション、ベクトル

スライド 1

<4D F736F F D2090B695A8939D8C768A E F AA957A82C682948C9F92E8>

PowerPoint プレゼンテーション

Microsoft Word - t30_西_修正__ doc

3章 度数分布とヒストグラム

数値計算法

<4D F736F F D FCD B90DB93AE96402E646F63>

Microsoft PowerPoint - 測量学.ppt [互換モード]

横浜市環境科学研究所

PowerPoint プレゼンテーション

<4D F736F F D208CF68BA48C6F8DCF8A C30342C CFA90B68C6F8DCF8A7782CC8AEE967B92E8979D32288F4390B394C529332E646F63>

パソコンシミュレータの現状

ii 2. F. ( ), ,,. 5. G., L., D. ( ) ( ), 2005.,. 6.,,. 7.,. 8. ( ), , (20 ). 1. (75% ) (25% ). 60.,. 2. =8 5, =8 4 (. 1.) 1.,,

13章 回帰分析

スライド 1

データ科学2.pptx

untitled

Microsoft Word - apstattext04.docx

平成 7 年度数学 (3) あるゲームを 回行ったときに勝つ確率が. 8のプレイヤーがいる このゲームは 回ごとに独 立であるとする a. このゲームを 5 回行う場合 中心極限定理を用いると このプレイヤーが 5 回以上勝つ確率 は である. 回以上ゲームをした場合 そのうちの勝ち数が 3 割以上

<4D F736F F D208EC08CB18C7689E68A E F193F18D8095AA957A C C839395AA957A814590B38B4B95AA957A2E646F63>

Microsoft Word - NumericalComputation.docx

Medical3

Microsoft Word - Matlab_R_MLE.docx

Microsoft PowerPoint 確率レジュメA

Microsoft Word - Chap17

PowerPoint Presentation

<4D F736F F D2094F795AA95FB92F68EAE82CC89F082AB95FB E646F63>

Microsoft PowerPoint - ch04j

memo

JMP による 2 群間の比較 SAS Institute Japan 株式会社 JMP ジャパン事業部 2008 年 3 月 JMP で t 検定や Wilcoxon 検定はどのメニューで実行できるのか または検定を行う際の前提条件の評価 ( 正規性 等分散性 ) はどのメニューで実行できるのかと

0 21 カラー反射率 slope aspect 図 2.9: 復元結果例 2.4 画像生成技術としての計算フォトグラフィ 3 次元情報を復元することにより, 画像生成 ( レンダリング ) に応用することが可能である. 近年, コンピュータにより, カメラで直接得られない画像を生成する技術分野が生

Microsoft PowerPoint - statistics pptx

Microsoft PowerPoint - NA03-09black.ppt

Microsoft PowerPoint - LectureB1handout.ppt [互換モード]

スライド 1

Microsoft PowerPoint - 14回パラメータ推定配布用.pptx

Microsoft PowerPoint - 08LR-conflicts.ppt [互換モード]

<4D F736F F D208EC08CB18C7689E68A E F1939D8C E82E646F63>

測量士補 重要事項「標準偏差」

Microsoft PowerPoint ppt

Transcription:

本日の目的 知的情報処理 3. 原因があって結果がある ( か?) 櫻井彰人慶應義塾大学理工学部 データを生成する法則が存在すると仮定し それを推定することを考える その場合 推定できるのか? 推定する方法はあるのか? 推定しなくてもよいということはないのか? という問いを背景に モデル という概念 モデル を推定するということ モデル を推定しないということを知る なお 事例ベース学習は 丸暗記 丸暗記の拡張であった 生成モデル データがある ということは そのデータを生成する原因がある と考える のちほど 原因を考えることはしない方が良い という主張を紹介する どちらがよいかは 神のみぞ知る deterministic ( 決定論的とでもいいましょうか ) なモデルであれば ( 状況が同じであれば ) 結果は一個 ところが データは複数個ある 風邪なら 体温 38 度 咳が 1 時間に 回 喉の腫れは 5mm ほかには目立った症状なし なんて綺麗に症状が記述できればよい 世の中そうではない ということは 決定論的モデルでは不便である ( 不適当だと言っているわけではない ) そこで 確率論的モデルを考えよう 確率的モデルとは ある確率密度分布があって その分布に従い データが生まれてくるような モデル モデルとは 模型 本物ではないが その動きのある面 ( 今一番関心があるところ ) をうまく表現するであろう もの 数学的には あっさりと データ x は 確率密度分布 に従って生成される といった具合に書く を具体的に書かないことには話しにならない 確率変数 X は確率密度関数 X) に従う x 1,..,x 5 は X のサンプルである 例えば データ x は 正規分布 =(1/ (π)) ex -x / ) によって生成される といった具合 確率的モデルとは 絵で書くと ( あんまり変わらないが ) = 1 e π x x 1, x,... データは複数個 絵の方には描いたが 統計的な生成モデルを考えるときには データは複数個 ( 一般にはたくさん ) あるのが前提 x, x,... 1 データ一個は 仮に 正規分布に従うとしよう 次の一個も正規分布に従うとしよう しかし 現実には 番目のデータが一番目のデータの値に依存することは よく ある それを考えるべきであろうか? 当然考えるべき しかし 初めからそれを考えるのは 難しい

-6-4 - 4 6 独立性 そこで まず 各データは 独立に生成されるものとする Strongly correlated この独立性は 正しくは成り立っていなくても 結構良い近似になっていることが多い 従って 多くの場合 データ間の独立性は暗黙に仮定する なお 属性間の独立性は 一般には仮定しない ( しかし 従属の場合 好ましくないことが発生しがち ) 喉が腫れれば 熱がでる 咳がでれば 喉が腫れる しかし 咳 喉の腫れ 熱は それぞれ 重要な症状として 考えるのが普通である ( 本当に従属なら どれか一つがあればよい ) 図は http://metalogue.img.jugem.jp/9317_57334.jpg 例 : コイン投げ コイン投げ 1 回中の表の回数の 1 回分 表が出る確率 p のコインで 各試行は独立だとする 表の回数は 二項分布 B(p,1-p) に従う 1 P( X = =.5 x 1 1 x P( X = = p (1 p) x ( x µ ) 1 σ P( X = = e πσ 1 x 生成 度数 5 15 1 5 コイン投げ 1 回を 1 回 1 3 4 5 6 7 8 9 1 表の回数 図は http://i.dailymail.co.uk/i/pix/8/1/4/article-181-86fd58-365_33x37.jpg 注意 : ある分布 注意 : ある分布 -6-4 - 4 6-75 -5-5 5 5 75-6 -4-4 6.7.5.3. 5-15 -1-5 5 1 15-6 -4-4 6.5.7.5.5 どちらも 著名学術誌に掲載された論文とほぼ同等の近似である.5.3. 5.5.5-6 -4-4 6-15 -1-5 5 1 15-6 -4-4 6.5.5.5-6 -4-4 6.5-6 -4-4 6-75 -5-5 5 5 75.5.5.5-6 -4-4 6.7.5.3. 5-15 -1-5 5 1 15-6 -4-4 6 機械学習として 個のクラス さきほどの説明は 分布の近似という意味あいが強い 次に 未知データの予測という意味あいで 述べてみよう 学習サンプル : 属性値とクラスが分かる 様々な検査値と ( 名医が診断した ) 病名 テストサンプル : 属性値のみ クラスは不明 あなたの目の前の患者さん 検査結果あり 病名不明..1 仮定 - - 米国エネルギー省の1996 年の資料より http://www-lbit.iro.umontreal.ca/mcfold/logo.mcfold.png Prediction http://rovicky.wordpress.com/6/1/19/do-we-need-a-prediction/ 右図は http://www.wpsychic.com/wp-content/uploads/9/7/free-psychic-prediction.jpg 確率に基づき 最適な判断境界を定める 図は http://www.whizzdome.com/sciatica/diagnosis_small.jpg

確率分布の推定 注意 : ある分布 で示したように 確率分布の推定は難しい ( 今回は説明しないが ) 次元が上がる ( 属性の個数が増える ) と分布の推定はもっと難しくなる 一般に属性の個数は多い 現在では 数個ということは少ない それにも関わらず モデルを考えることに意味があるのか? 実用上 極めて意味がある 説明は naïve Bayes の説明の中で行います では どう行うか 枠組み : m) : クラス m の生起確率 m は 例えば 風邪ひき 風邪ひきでない 別例 : 男声 or 女声 x m) : クラス m のときに サンプル ( 患者 ) の属性 ( 検査値 ) が x である確率 x の値は 体温とか咳の程度 分かっているとする 別例 : 声の高さ ( ピッチ ) x m) m) を最大とする m を求めるクラスとする 例えば x 風邪 ) 風邪 ) と x not 風邪 ) not 風邪 ) とを比較し 前者の方が大きければ 風邪だと結論する 別例 : 声のピッチから それが男声か女声かを決める 式で書くと 属性が一個のとき max m x m) m) を与える m を答えとする これを しばしば argmax m x m) m) と書く 確率 ピッチ 男声 ) 平均 1 分散 1 ピッチ 女声 ) 平均 分散 声のピッチ Freund による例 なぜ クラス確率を用いるのか? なぜ x m) m) を比較するのか? つまり なぜ単に x m) の比較で済ませないのか? m) が m ごとに異なるからである 例えば x は咳があるかないか m は風邪か 風邪でないか としよう 咳 風邪 )=.9, 咳 風邪 )=.1, 咳 風邪 )=.5, 咳 風邪 )=.5 としよう つまり 風邪なら確率.9 で咳 風邪でなければ確率.5 で咳をするとする この場合 咳があれば必ず風邪と診断することになる しかし 実際には 風邪になる確率 風邪 ) は. であるとすれば 風邪で咳がある確率は 咳 風邪 ) 風邪 ) =.18 であるのに 風邪でないのに咳がある確率は 咳 風邪 ) 風邪 ) =.4 となる つまり 風邪でない確率の方が高いのに 風邪だと判断していることになる これを防ぐには m) を考慮するしかない クラス確率だけでよいのか? m c として 確率が非常に低いクラスをとる 例えば 極めて稀なしかし致死率の高い病気であったとする x m) はそこそこに大きい値であっても x m)m) は非常に小さい値になり この推定法では m c が推定されることがなくなる コストを考えに入れればよい! 例えば c(m) x m)m) を最大化する m を求めればよい しかし また問題が発生! x が発熱であったとする 熱が出るとすぐ m c を推定しまう これが 昔 ( 今でも!) 診断システムが成功しなかった理由 症状を入れると とにかく 重篤な病気から日常的な病気まで いろいろ推定してくる 医者はどうしているのだろうか?

なぜ 確率最大 か 前にも議論したが 風邪か風邪でないかを判断するのに 風邪の確率.6, 風邪でない確率.4 では困るから 治療するかしないかの二者択一をしないといけないから 二者択一でなかったり 繰り返し行えるなら この限りではない ところで 確率最大 という言葉は少し不正確である ところで 条件付確率の定義から x m) m) = x, m ) である 再び 条件付確率の定義を用いると x, m ) = m すなわち m = x m) m) 書き換えると m = x m) m) / となる これはご存じ ベイズの定理 である 従って さきほど行った推定は, x が定数であるから argmax m x m) m) = argmax m x m) m) / = argmax m m 事後確率 ところで m はなんであろうか? これは サンプルの属性値 ( 検査値等 ) が x であると分かったとき それを生成したモデルが m である条件付確率である これをモデル m の事後確率という 事後 というのは サンプルが生成された後という意味である 従って argmax m m を求めることは事後確率を最大化することである ちなみに x が既知のとき m は確率である 総和も 1 になっている 事後確率を最大化するパラメータ ( 今の場合 モデル m) を推定する量 argmax m m のことを maximum a posteriori estimator 事後確率最大化推定量 ( MAP 推定量 ) という 事前確率 事後があれば事前がある m = x m) m) / の右辺に表れた m) をモデル m の事前確率という サンプルを見る前から知っている モデル m の確率だから ある患者を前にして 診察も検査もしないとき その患者が風邪である確率は 風邪 ) となる 事前確率! 診察なり検査なりの結果 x が分かると 風邪だと考えられる確率は 風邪 に変化する 事後確率! 病名の候補がたくさんあるとき データが増えれば増えるほど 一般には 病名に対する確信度合いが高くなる ノイズがないときの事後確率の変化 ベイズ推定 仮説そのモデルに対する確信度合病名 P(h) P(h D1) 証拠データ P(h D1,D) これまで述べてきたように ( 例えば サンプル x を生成したモデル m を推定するにあたって ) モデル m の事前分布を考え x を観測した後の事後分布を考え この事後分布に従って推定を行うことをベイズ推定という 特に モデル m を推定するのは その典型である モデル m の事前分布が分からない または 哲学として 知らない 知りようがない 存在しないと考え x m) を最大化する m を求める手法がある それを最尤推定法と呼ぶ 右上図は http://dev.team-lab.com/index.php?itemid=165 より

..1 - - 最尤推定 ベイズ推定で行うことは argmax m x m) m) を求めることであった クラス確率 m) が全て等しい場合を考えてみよう ちょっとずるいが 情報不足でクラス確率 m) が分からない場合は m) は全部等しいと仮定してしまうことがある この場合も含む その場合 行うことは argmax m x m) を求めることになる m) が何であってもこの公式を使うことも考えられる ( 前に不適当だといったが ) この場合 最大化しているのは x m 1 ), x m ), であるが その和は一般に 1ではない つまり 確率ではない 正規化 ( 総和 =1) にすればよいかというと そもそも 総和してよいか 甚だ議論である 確率と区別するために これ ( 例えば x m 1 ) ) を m 1 の尤度 (likelihood) という 尤度を最大にするもの ( 今の場合 m ) を推定するので この方法を最尤推定という (maximum likelihood estimation) ベイズ推定を実行するには x, m) x m) m) p ( m = = 事後確率 条件付き確率 事前確率 であるから ベイズ推定を行うには 事前確率 m) と条件付確率 x m) を知る必要がある m) はクラス m の頻度で推定すればよい では x m) はどうしたら推定できるだろうか? 図は http://farm3.static.flickr.com/45/18695311_dedfa67f8.jpg x m) の推定 以前のスライドを思い出してください 確率に基づき 最適な判断境界を定める 個のクラス属性が一個のとき 学習サンプル : 属性値とクラスが分かる 様々な検査値と ( 名医が診断した ) 病名 ピッチ 男声 ) ピッチ 女声 ) テストサンプル : 属性値のみ クラスは不明 あなたの目の前の患者さん 検査結果あり 病名不明平均 1 平均 分散 1 分散 仮定声のピッチ Freund による例 m ごとに 分布を推定すればよいわけです 確率 簡単か? 考えてみると 分布の形 ( つまり関数形 ) が分かっていて それが簡単 ( 正規分布とか二項分布とか ) かつ 次元が低い ( 属性の個数が少ない ) なら 確かに簡単である しかし 世の中そんなに甘くない 分布の形なぞ分かりようがない 正規分布のように綺麗なわけがない 属性は山ほどあるというのが普通である しかし 簡単化してみよう なぜ属性数が問題か? 多くの場合 正規分布や ( 離散変数 : サイコロの目 コインの裏表の場合には ) 多項分布で近似できるから 分布は 連続値なら正規分布 離散値なら多項分布で考えよう しかし 属性数が問題 前のスライドの図を思い出してください コイン投げをして コインの表が出る確率を推定する問題と考えてください 正解は.5 です しかし 1 回投げたうち 3 回以下しか表が出ない場合が 169 回 7 回以上出てしまう場合が 19 回もある つまり 値属性のパラメータを 1 個推定するにも サンプル 1 個では不足だということである 独立な属性が 1 個あれば それらのパラメータをまあまあの精度で推定するには 1 1 =1 万個のサンプルが必要になる 一般にはなかなか難しい 度数 5 15 1 5 コイン投げ 1 回を 1 回 1 3 4 5 6 7 8 9 1 表の回数 では どうするか?