統計的データ解析 008 008.. 林田清 ( 大阪大学大学院理学研究科 )
問題 C (, ) ( x xˆ) ( y yˆ) σ x πσ σ y y Pabx (, ;,,, ) ˆ y σx σ y = dx exp exp πσx ただし xy ˆ ˆ はyˆ = axˆ+ bであらわされる直線モデル上の点 ( ˆ) ( ˆ ) ( ) x x y ax b y ax b Pabx (, ;,,, ) ˆ y σx σ y = dx exp exp πσ σ σ σ x y x y a σx + σ y ( ). x にも誤差がある場合どのように扱うべきか?x,y が独立で それぞれ正規分布に従う誤差をもっているとして 直線モデルの場合を例にとって考えよ ( ヒント : 上の式 ). y の値のモデル点まわりの分布が正規分布からずれている場合 最尤法に立ち戻って考える必要がある 例えばポアソン分布の場合は どうなるか? 尤度をあらわす式をかき 直線モデルのパラメータ a,b を決めるための手順を示せ 3. 6keV 付近で およそ 0eVFWHM 程度のエネルギー分解能をもつ検出器がある エネルギー分解能を ev の誤差 ( 標準偏差 ) で求めるためには X 線イベントをどのくらい集める必要があるか 4. ガウシアン + 定数のモデルで与えられたデータ点をカイ 乗フィットせよ 出力されるフィット結果の数字の意味 ( 定義 ) を調べること また ガウシアン関数として 二通りの形 (0/4 の資料参照 ) を試し 積分強度とその誤差を計算し 共分散の寄与を確認せよ 追加 :3x3 ピクセル内に 光子入るイベントを % 以下にする条件
カイ二乗分布の確率分布の積分あてはめの良さの検定 reduced-χ の値の表 ( 対応する χ の値を超える確率 P と自由度 ν の関数として表示されている ) 最小二乗フィットによりモデルパラメータを最適化した際の χ 値を求める 上記の χ 値 ( 以上の値 ) を得る確率を表から調べる 確率があまりにも小さければ何か間違っている ( 例えばモデルが適当でない ) Data Reducto ad Error Aalyss for the Physcal Sceces, Bevgto & Robso より
http://cluster.f7.ems.okayama-u.ac.jp/~ya/jscscd/table/ch.html にも同様の表 ( 但し reduced ch-squared ではなく ch-squared の値 ) が掲載されている Excel なら CHIDIST,CHIINV
フィットのよさに関するカイ二乗検定 [ 問題例 ] 7 組の測定データ (x,y ) (=,..,7) で X の誤差は無視できるほど小さく y の誤差は σ とする これを y=ax+b の直線モデルを仮定し a,b をフリーパラメータとしてカイ二乗フィットする 自由度は 7-=5 χ m の値 によって どのような判断をするか? 例えば χ m=5.を得た場合 自由度 5のχ 分布で5. 以上の値を得る確率は0.99% 結論例 : 危険率 %( 以上 ) でこのモデルは棄却される 結論例 : 危険率 0.5% ではこのモデルは棄却されない χ m=6.0を得た場合 自由度 5 の χ 分布で 6.0 以上の値を得る確率は 3% 結論例 : ( 危険率 0% では ) このモデルは棄却されない χ m=0.55 を得た場合 自由度 5 の χ 分布で 0.55 以下の値を得る確率は % 結論例 : χ m の値が小さすぎる ( と危険率 % で結論できる ) 誤差の評価が不適当である可能性が大きい
モデルの妥当性の検討 [ 問題例 ] 7 組の測定データ (x,y ) (=,..,7) で Xの誤差は無視できるほど小さく y の誤差はσ とする これをa,bをフリーパラメータとする3 種のモデルを用いて それぞれカイ二乗フィットする 自由度はいずれも5 A) y=ax+bのモデルa) に対してχ m=5.0 B) y=ax b のモデルB) に対してχ m=6.0 C) y=aexp(-x/b) のモデルC) に対してχ m=5. [ 結論例 ] モデルC) は危険率 % で棄却される 一方 モデルA),B) は棄却されない モデル A) がモデル B) より適当という結論は このカイ二乗フィットのみからは導かれないことに注意
パラメータの推定誤差 最適化したパラメータはあくまでもパラメータの真の値の推定値 必ず推定誤差がある 直線モデルの場合 誤差伝播側より計算できる σ σ a = = a σ = y Δ σ = = b x b σ = y Δ σ y( x) y ax b y χ = = σ = σ Pab (,) を最大にする=χ を最小にする χ = 0, χ = 0 a b からχ を最小にするab, として xy x y a = Δ σ σ σ σ x y x xy b = Δ σ σ σ σ x x ただしΔ= σ σ σ
任意関数の最小二乗 ( カイ二乗 ) フィット 任意の関数形 yx () をモデルに採用した場合でも y y( x) χ = σ を最小にするようパラメータを決定する m χ ν m χ パラメータの数をとしては自由度 = の分布に従うことが期待される パラメータの誤差の推定 : χ を最小にするパラメータ値 a に対して χ をだけ増加させる χ m Δ χ = a aχm +Δa+ aχm Δa ( ) の値 を探す aの誤差範囲 (パラメータ68% 信頼水準 ) はaχm Δ a から aχm +Δa+
カイ二乗フィットのパラメータ推定誤差 回の測定でデータの組 ( x, y ),...,( x y ) が得られたとし y,..., yの測定誤差, ( ただし正規分布するランダム誤差 ) をσ,..., σとする これらのデータ点は p 個のパラメータで指定されるモデルf(; x a,..., a ) に 正規分布に従う誤差が 付加されたデータで構成される母集団から採取されたと仮定する パラメータの真の値 ( これは不可知 ) を( a,..., a ) と仮定すると尤度 ( データ点の組が得られる確率は ) は Pa (,..., a ) = exp ( y ) f( x; a,..., ap) p = σ σ π y f( x; a,..., ap) p expの中身をχ と定義する χ は自由度 の χ 分布に従う = σ 一方 Pa (,..., a ) を最大にするようなパラメータの組 (= 最適パラメータ ) を( aˆ,..., aˆ ) と y ˆ ˆ f( x; a,..., ap) するとこれはχ の最小値 χm = を与える = σ χ m はp 個のパラメータによって調整して最小化を行ったので自由度が p減って 自由度の χ 分布に従う - p p p p
カイ二乗フィットのパラメータ推定誤差 ( ) f x a,..., a a,..., a ( aˆ,..., aˆ ) ; p が pの線形関数の場合 p がχ の最小値を与えることに 注意すると ( y ( ; )) ( ˆ ˆ f xa,..., ap y f x; a,..., ap) ( ) p Δ χ = Aj aj aj = σ j= Δχ という形にかけるはず ( =0) δj = とすると a A Pa (,..., a ) = Fa (,..., aを含まない関数 ) p ( ) p m ; p p m j p j j= exp δj π ( ˆ ) ( a ˆ j aj) これからΔχ χ χ は自由度 pの χ 分布に従うことがわかる f x a,..., a がa,..., a の線形関数でない場合は このような形にはかけないが Δχ χ χ は自由度 pの χ 分布で近似する δ j
カイ二乗フィットのパラメータ誤差推定 ( パラメータの数による信頼区間の違い ) パラメータ a,a それぞれのの 68% 信頼区間は Δχ = であるが (a,a ) の組の 68% 信頼区間は Δχ =.3 の楕円で囲まれた領域になる Numercal Recpes C, 技術評論社より転載 上の表で自由度とは ( 注目する ) パラメータの数
最小二乗 ( カイ二乗 ) フィットのまとめ 最尤法が根拠 ただし 測定値 y のモデル点からのばらつきが正規分布で近似できる場合に限定 χ を最小にするパラメータが最良推定値 あてはめの良さ モデルの妥当性は χ の値が自由度 -m に近いかどうかで評価できる パラメータの誤差 ( 信頼区間 ) は Δ χ から推定できる
カイ二乗フィットの計算手法 モデル関数が多項式の場合 行列計算 ( 連立方程式 ) で解ける 一般の関数形のモデルでχ を最小化する方法 Grd Search Gradet Search Expaso Method χ をbest ftパラメータ付近で放物面で近似する モデル関数をbest ftパラメータ付近で線形化する Gradet-Expaso algorthm (Marquardt method) 詳細は Data Reducto ad Error Aalyss for the Physcal Sceces, Bevgto & Robso 等を参考のこと
問題 D. xspec におけるカイ 乗フィットの実例を紹介せよ. デルタカイ 乗 = がパラメータの推定誤差になることを y(x)=b のモデルの例で示せ 3. デルタカイ 乗 = がパラメータの推定誤差になることを 一般的な場合 ( ただし各パラメータは独立な場合 ) に関して説明せよ ( 配布資料にかいている内容を理解して説明をせよ ) 4. F-test を説明せよ 特にカイ 乗フィットでモデルパラメータを増やす際の検定について