統計的データ解析 - PDF 無料ダウンロード

統計的データ解析 011 011.11.9 林田清 ( 大阪大学大学院理学研究科 )

連続確率分布の平均値分散比較のため

P(c ) c 分布自由度の ( カイ c 平均値 0, 標準偏差 1の正規分布に従う変数 xの自乗和 c x =1 が従う分布を自由度の分布と呼ぶ一般に自由度の分布は f /1 c / / ( c ) {( c ) e }/ ( / ) 期待値二乗 ) 分布 c c E( c ) 分散 V ( c ) ( x ) 平均値, 標準偏差の正規分布に従うも自由度のc 分布 =1 ( x x) はしかし自由度 1の c 分布 c 分布の加算 : 自由度 mの c 分布に従う変数と自由度 lの c 分布に従う変数の和は自由度 m lの c 分布に従う =1 0.5 0.4 0.3 0. 0.1 0 c dstrbuto 0 5 10 15 c dof=1 dof=4 dof= dof=6

カイ二乗分布の確率分布の積分あてはめの良さの検定 reduced-c の値の表 ( 対応する c の値を超える確率 P と自由度の関数として表示されている ) 最小二乗フィットによりモデルパラメータを最適化した際の c 値を求める上記の c 値 ( 以上の値 ) を得る確率を表から調べる確率があまりにも小さければ何か間違っている ( 例えばモデルが適当でない ) Data Reducto ad Error Aalyss for the Physcal Sceces, Bevgto & Robso より

htt://cluster.f7.ems.okayama-u.ac./~ya/scscd/table/ch.html にも同様の表 ( 但し reduced ch-squared ではなく ch-squared の値 ) が掲載されている Excel なら CHIDIST,CHIINV

統計的検定 (statstcal test) 例 )xの10 回の測定平均値が0.45 標準偏差が0.05 仮説 H:( 例 ) 母集団での平均値は0.5である本当は対立仮説 H': 母集団での平均値は0.5でないを示したいので Hを帰無仮説という H': 母集団での平均値は0.5より小さい ( 大きい ) の場合も有り得る両側検定片側検定平均値 0.5 標準偏差 0.05の母集団から10 個の標本をサンプルした場合に平均値が0.45 以下になる ( あるいは0.45 以下 0.55 以上になる ) 確率 Pは? Pが定められた危険率 ( 有意水準 )aより小さい : 仮説は誤り正しい可能性を棄てる危険性 aを伴って大きい : 仮説は否定できない危険率 ( 有意水準 )=sgfcace level

フィットのよさに関するカイ二乗検定 [ 問題例 ] 7 組の測定データ (x,y ) (=1,..,7) で X の誤差は無視できるほど小さく y の誤差はとするこれを y=ax+b の直線モデルを仮定し a,b をフリーパラメータとしてカイ二乗フィットする自由度は 7-=5 c m の値によってどのような判断をするか? 例えば c m=15.1を得た場合自由度 5のc 分布で15.1 以上の値を得る確率は0.99% 結論例 1: 危険率 1%( 以上 ) でこのモデルは棄却される結論例 : 危険率 0.5% ではこのモデルは棄却されない c m=6.0を得た場合自由度 5 の c 分布で 6.0 以上の値を得る確率は 31% 結論例 : ( 危険率 10% では ) このモデルは棄却されない c m=0.55 を得た場合自由度 5 の c 分布で 0.55 以下の値を得る確率は 1% 結論例 : c m の値が小さすぎる ( と危険率 1% で結論できる ) 誤差の評価が不適当である可能性が大きい

パラメータの推定誤差最適化したパラメータはあくまでもパラメータの真の値の推定値必ず推定誤差がある直線モデルの場合誤差伝播側より計算できる a 1 1 a 1 y b 1 x b 1 y c y( x ) y ax b P( a, b) を最大にする=c を最小にする c 0, c 0 a b からc を最小にするab, として 1 b y 1 1 1 1 x y x y a ただし x y x x y 1 x x

任意関数の最小二乗 ( カイ二乗 ) フィット任意の関数形 yx ( ) をモデルに採用した場合でも y y( x) c 1 を最小にするようパラメータを決定するパラメータの数をmとしてc は自由度 = mの c 分布に従うことが期待されるパラメータの誤差の推定 : c を最小にするパラメータ値 a に対して c を1だけ増加させる c m ( ) aの値 a a a a を探す c 1 cm cm aの誤差範囲 (1パラメータ68% 信頼水準 ) はacm aから acm a

カイ二乗フィットのパラメータ推定誤差 1 回の測定でデータの組 ( x, y ),...,( x y ) が得られたとし y,..., y の測定誤差 1 1, 1 ( ただし正規分布するランダム誤差 ) を,..., とするこれらのデータ点は個のパラメータで指定されるモデルf ( x; a,..., a ) に正規分布に従う誤差が付加されたデータで構成される母集団から採取されたと仮定するパラメータの真の値 ( これは不可知 ) を( a,..., a ) と仮定すると尤度 ( データ点の組が得られる確率は ) は 1 P( a,..., a ) ex y f ( x; a1,..., a ) 1 1 1 y f ( x; a1,..., a ) 1 1 1 1 exの中身をc と定義する c は自由度の c 分布に従う 1 一方 P( a,..., a ) を最大にするようなパラメータの組 (= 最適パラメータ ) を( aˆ,..., aˆ ) と y ˆ ˆ f ( x; a1,..., a ) するとこれはc の最小値 cm を与える 1 c m は個のパラメータによって調整して最小化を行ったので自由度が減って自由度 - の c 分布に従う

カイ二乗フィットのパラメータ推定誤差 f x a a a a aˆ aˆ ; 1,..., が 1,..., の線形関数の場合 ( 1,..., ) がc の最小値を与えることに注意すると y ; 1 ˆ ˆ f x a,..., a y f x; a1,..., a c A ˆ a a 1 1 c 1 という形にかけるはず ( =0) とすると a A P( a,..., a ) F( a,..., a を含まない関数 ) 1 1 m ; 1 1 m 1 1 ex a aˆ これからc c c は自由度の c 分布に従うことがわかる f x a,..., a がa,..., a の線形関数でない場合はこのような形にはかけないが c c c は自由度の c 分布で近似する

区間推定例 ) 平均値標準偏差の正規分布に従う母集団から 1 回の測定で測定値 xを採取する操作を考えるの真の値は知らずは何らかの方法で推定できていたとする ( 例えば測定誤差に等しい z ( ) など ) の存在する範囲はどのように推定できるか? - z( / ) 1- / z( / ) z zを平均 0 標準偏差 1の正規分布に従う変数だとして確率 1-となる区間は - z( /) ( x )/ z( /) 変形して x - z( / ) x z( / ) が信頼係数 100 (1- ) % でのの信頼区間信頼区間 =cofdece terval 信頼係数 =cofdece level

信頼区間の推定正規分布の場合 -<x-< にくる確率 68.3% -<x-< にくる確率 95.5% -3<x-<3 にくる確率 99.7% -1.96<x-<1.96 にくる確率 95% -.58<x-<.58 にくる確率 99%

カイ二乗フィットのパラメータ誤差推定 ( パラメータの数による信頼区間の違い ) パラメータ a 1,a それぞれのの 68% 信頼区間は Δχ =1 であるが (a 1,a ) の組の 68% 信頼区間は Δχ =.3 の楕円で囲まれた領域になる Numercal Reces C, 技術評論社より転載上の表で自由度とは ( 注目する ) パラメータの数

相関が 0 でない例ラインスペクトルをガウシアンモデルでフィットするモデルとして次の形式のガウシアン関数を仮定 F( x) Aex して A, B, C, x C フィッティングプログラムはA, B, Cの最適値とその誤差,, を出力してくれる A B C B をフィッティングにより求めるこのラインの積分強度はI A B I I I A B 共分散を無視してと計算すると A B 誤差を過大評価する恐れがある I x C Gx ( ) ex B B というモデル式を使えばこのような問題は回避できる

最小二乗 ( カイ二乗 ) フィットのまとめ最尤法が根拠ただし測定値 y のモデル点からのばらつきが正規分布で近似できる場合に限定 c を最小にするパラメータが最良推定値あてはめの良さモデルの妥当性は c の値が自由度 -m に近いかどうかで評価できるパラメータの誤差 ( 信頼区間 ) は c から推定できる

宿題 D デルタカイ乗 =1 がパラメータの推定誤差になることを y(x)=b のモデルの例で示せ xsec のフィッティングの出力結果に関して具体的な例を使いどのような定義の値がかかれているか説明せよ x にも誤差がある場合どのように扱うべきか?x,y が独立でそれぞれ正規分布に従う誤差をもっているとして直線モデルの場合を例にとって考えよ ( ヒント : 下の式 ) x xˆ y yˆ x y y 1 1 P( a, b; x,,, ) ˆ y x y dx ex ex x ただし xˆ, yˆ はyˆ axˆ bであらわされる直線モデル上の点 ˆ ˆ 1 x x y ax b y ax b P( a, b; x,,, ) ˆ y x y dx ex ex x y x y a x y