カイ二乗フィット検定、パラメータの誤差

統計的データ解析 008 008.. 林田清 ( 大阪大学大学院理学研究科 )

問題 C (, ) ( x xˆ) ( y yˆ) σ x πσ σ y y Pabx (, ;,,, ) ˆ y σx σ y = dx exp exp πσx ただし xy ˆ ˆ はyˆ = axˆ+ bであらわされる直線モデル上の点 ( ˆ) ( ˆ ) ( ) x x y ax b y ax b Pabx (, ;,,, ) ˆ y σx σ y = dx exp exp πσ σ σ σ x y x y a σx + σ y ( ). x にも誤差がある場合どのように扱うべきか?x,y が独立でそれぞれ正規分布に従う誤差をもっているとして直線モデルの場合を例にとって考えよ ( ヒント : 上の式 ). y の値のモデル点まわりの分布が正規分布からずれている場合最尤法に立ち戻って考える必要がある例えばポアソン分布の場合はどうなるか? 尤度をあらわす式をかき直線モデルのパラメータ a,b を決めるための手順を示せ 3. 6keV 付近でおよそ 0eVFWHM 程度のエネルギー分解能をもつ検出器があるエネルギー分解能を ev の誤差 ( 標準偏差 ) で求めるためには X 線イベントをどのくらい集める必要があるか 4. ガウシアン + 定数のモデルで与えられたデータ点をカイ乗フィットせよ出力されるフィット結果の数字の意味 ( 定義 ) を調べることまたガウシアン関数として二通りの形 (0/4 の資料参照 ) を試し積分強度とその誤差を計算し共分散の寄与を確認せよ追加 :3x3 ピクセル内に光子入るイベントを % 以下にする条件

カイ二乗分布の確率分布の積分あてはめの良さの検定 reduced-χ の値の表 ( 対応する χ の値を超える確率 P と自由度 ν の関数として表示されている ) 最小二乗フィットによりモデルパラメータを最適化した際の χ 値を求める上記の χ 値 ( 以上の値 ) を得る確率を表から調べる確率があまりにも小さければ何か間違っている ( 例えばモデルが適当でない ) Data Reducto ad Error Aalyss for the Physcal Sceces, Bevgto & Robso より

http://cluster.f7.ems.okayama-u.ac.jp/~ya/jscscd/table/ch.html にも同様の表 ( 但し reduced ch-squared ではなく ch-squared の値 ) が掲載されている Excel なら CHIDIST,CHIINV

フィットのよさに関するカイ二乗検定 [ 問題例 ] 7 組の測定データ (x,y ) (=,..,7) で X の誤差は無視できるほど小さく y の誤差は σ とするこれを y=ax+b の直線モデルを仮定し a,b をフリーパラメータとしてカイ二乗フィットする自由度は 7-=5 χ m の値によってどのような判断をするか? 例えば χ m=5.を得た場合自由度 5のχ 分布で5. 以上の値を得る確率は0.99% 結論例 : 危険率 %( 以上 ) でこのモデルは棄却される結論例 : 危険率 0.5% ではこのモデルは棄却されない χ m=6.0を得た場合自由度 5 の χ 分布で 6.0 以上の値を得る確率は 3% 結論例 : ( 危険率 0% では ) このモデルは棄却されない χ m=0.55 を得た場合自由度 5 の χ 分布で 0.55 以下の値を得る確率は % 結論例 : χ m の値が小さすぎる ( と危険率 % で結論できる ) 誤差の評価が不適当である可能性が大きい

モデルの妥当性の検討 [ 問題例 ] 7 組の測定データ (x,y ) (=,..,7) で Xの誤差は無視できるほど小さく y の誤差はσ とするこれをa,bをフリーパラメータとする3 種のモデルを用いてそれぞれカイ二乗フィットする自由度はいずれも5 A) y=ax+bのモデルa) に対してχ m=5.0 B) y=ax b のモデルB) に対してχ m=6.0 C) y=aexp(-x/b) のモデルC) に対してχ m=5. [ 結論例 ] モデルC) は危険率 % で棄却される一方モデルA),B) は棄却されないモデル A) がモデル B) より適当という結論はこのカイ二乗フィットのみからは導かれないことに注意

パラメータの推定誤差最適化したパラメータはあくまでもパラメータの真の値の推定値必ず推定誤差がある直線モデルの場合誤差伝播側より計算できる σ σ a = = a σ = y Δ σ = = b x b σ = y Δ σ y( x) y ax b y χ = = σ = σ Pab (,) を最大にする=χ を最小にする χ = 0, χ = 0 a b からχ を最小にするab, として xy x y a = Δ σ σ σ σ x y x xy b = Δ σ σ σ σ x x ただしΔ= σ σ σ

任意関数の最小二乗 ( カイ二乗 ) フィット任意の関数形 yx () をモデルに採用した場合でも y y( x) χ = σ を最小にするようパラメータを決定する m χ ν m χ パラメータの数をとしては自由度 = の分布に従うことが期待されるパラメータの誤差の推定 : χ を最小にするパラメータ値 a に対して χ をだけ増加させる χ m Δ χ = a aχm +Δa+ aχm Δa ( ) の値を探す aの誤差範囲 (パラメータ68% 信頼水準 ) はaχm Δ a から aχm +Δa+

カイ二乗フィットのパラメータ推定誤差回の測定でデータの組 ( x, y ),...,( x y ) が得られたとし y,..., yの測定誤差, ( ただし正規分布するランダム誤差 ) をσ,..., σとするこれらのデータ点は p 個のパラメータで指定されるモデルf(; x a,..., a ) に正規分布に従う誤差が付加されたデータで構成される母集団から採取されたと仮定するパラメータの真の値 ( これは不可知 ) を( a,..., a ) と仮定すると尤度 ( データ点の組が得られる確率は ) は Pa (,..., a ) = exp ( y ) f( x; a,..., ap) p = σ σ π y f( x; a,..., ap) p expの中身をχ と定義する χ は自由度の χ 分布に従う = σ 一方 Pa (,..., a ) を最大にするようなパラメータの組 (= 最適パラメータ ) を( aˆ,..., aˆ ) と y ˆ ˆ f( x; a,..., ap) するとこれはχ の最小値 χm = を与える = σ χ m はp 個のパラメータによって調整して最小化を行ったので自由度が p減って自由度の χ 分布に従う - p p p p

カイ二乗フィットのパラメータ推定誤差 ( ) f x a,..., a a,..., a ( aˆ,..., aˆ ) ; p が pの線形関数の場合 p がχ の最小値を与えることに注意すると ( y ( ; )) ( ˆ ˆ f xa,..., ap y f x; a,..., ap) ( ) p Δ χ = Aj aj aj = σ j= Δχ という形にかけるはず ( =0) δj = とすると a A Pa (,..., a ) = Fa (,..., aを含まない関数 ) p ( ) p m ; p p m j p j j= exp δj π ( ˆ ) ( a ˆ j aj) これからΔχ χ χ は自由度 pの χ 分布に従うことがわかる f x a,..., a がa,..., a の線形関数でない場合はこのような形にはかけないが Δχ χ χ は自由度 pの χ 分布で近似する δ j

カイ二乗フィットのパラメータ誤差推定 ( パラメータの数による信頼区間の違い ) パラメータ a,a それぞれのの 68% 信頼区間は Δχ = であるが (a,a ) の組の 68% 信頼区間は Δχ =.3 の楕円で囲まれた領域になる Numercal Recpes C, 技術評論社より転載上の表で自由度とは ( 注目する ) パラメータの数

最小二乗 ( カイ二乗 ) フィットのまとめ最尤法が根拠ただし測定値 y のモデル点からのばらつきが正規分布で近似できる場合に限定 χ を最小にするパラメータが最良推定値あてはめの良さモデルの妥当性は χ の値が自由度 -m に近いかどうかで評価できるパラメータの誤差 ( 信頼区間 ) は Δ χ から推定できる

カイ二乗フィットの計算手法モデル関数が多項式の場合行列計算 ( 連立方程式 ) で解ける一般の関数形のモデルでχ を最小化する方法 Grd Search Gradet Search Expaso Method χ をbest ftパラメータ付近で放物面で近似するモデル関数をbest ftパラメータ付近で線形化する Gradet-Expaso algorthm (Marquardt method) 詳細は Data Reducto ad Error Aalyss for the Physcal Sceces, Bevgto & Robso 等を参考のこと

問題 D. xspec におけるカイ乗フィットの実例を紹介せよ. デルタカイ乗 = がパラメータの推定誤差になることを y(x)=b のモデルの例で示せ 3. デルタカイ乗 = がパラメータの推定誤差になることを一般的な場合 ( ただし各パラメータは独立な場合 ) に関して説明せよ ( 配布資料にかいている内容を理解して説明をせよ ) 4. F-test を説明せよ特にカイ乗フィットでモデルパラメータを増やす際の検定について