統計的データ解析

Similar documents
カイ二乗フィット検定、パラメータの誤差

数値計算法

最小二乗フィット、カイ二乗フィット、gnuplot

EBNと疫学

基礎統計

講義「○○○○」

スライド 1

Microsoft PowerPoint - e-stat(OLS).pptx

スライド 1

ビジネス統計 統計基礎とエクセル分析 正誤表

情報工学概論

数値計算法

<4D F736F F D208EC08CB18C7689E68A E F AA957A82C682948C9F92E82E646F63>

RSS Higher Certificate in Statistics, Specimen A Module 3: Basic Statistical Methods Solutions Question 1 (i) 帰無仮説 : 200C と 250C において鉄鋼の破壊応力の母平均には違いはな

Kumamoto University Center for Multimedia and Information Technologies Lab. 熊本大学アプリケーション実験 ~ 実環境における無線 LAN 受信電波強度を用いた位置推定手法の検討 ~ InKIAI 宮崎県美郷

統計的データ解析

Microsoft PowerPoint - ch04j

Medical3

Microsoft PowerPoint - sc7.ppt [互換モード]

<4D F736F F D2090B695A8939D8C768A E F AA957A82C682948C9F92E8>

自動車感性評価学 1. 二項検定 内容 2 3. 質的データの解析方法 1 ( 名義尺度 ) 2.χ 2 検定 タイプ 1. 二項検定 官能検査における分類データの解析法 識別できるかを調べる 嗜好に差があるかを調べる 2 点比較法 2 点識別法 2 点嗜好法 3 点比較法 3 点識別法 3 点嗜好

Python-statistics5 Python で統計学を学ぶ (5) この内容は山田 杉澤 村井 (2008) R によるやさしい統計学 (

Microsoft Word - Stattext13.doc

第7章

Excelによる統計分析検定_知識編_小塚明_5_9章.indd

経済統計分析1 イントロダクション

PowerPoint プレゼンテーション

Microsoft Word - Time Series Basic - Modeling.doc

Microsoft Word - å“Ÿåłžå¸°173.docx

(3) 検定統計量の有意確率にもとづく仮説の採否データから有意確率 (significant probability, p 値 ) を求め 有意水準と照合する 有意確率とは データの分析によって得られた統計値が偶然おこる確率のこと あらかじめ設定した有意確率より低い場合は 帰無仮説を棄却して対立仮説

ベイズ統計入門

多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典

青焼 1章[15-52].indd

Microsoft PowerPoint - 資料04 重回帰分析.ppt

Microsoft PowerPoint - Econometrics pptx

Probit , Mixed logit

データ解析

Medical3

統計学 Ⅱ( 章 ( 区間推定のシミュレーション 母平均 μ の区間推定 X ~ N, のとき X T ~ 自由度 1の t分布 1 自由度 -1のt 分布の97.5% 点 :t.975 P t T t この式に T を代入する t.975 母集団

14 化学実験法 II( 吉村 ( 洋 mmol/l の半分だったから さんの測定値は くんの測定値の 4 倍の重みがあり 推定値 としては 0.68 mmol/l その標準偏差は mmol/l 程度ということになる 測定値を 特徴づけるパラメータ t を推定するこの手

<4D F736F F D208EC08CB18C7689E68A E F1918A8AD695AA90CD2E646F63>

Microsoft PowerPoint - H17-5時限(パターン認識).ppt

Microsoft Word - Stattext12.doc

不偏推定量

仮説検定を伴う方法では 検定の仮定が満たされ 検定に適切な検出力があり データの分析に使用される近似で有効な結果が得られることを確認することを推奨します カイ二乗検定の場合 仮定はデータ収集に固有であるためデータチェックでは対応しません Minitab は近似法の検出力と妥当性に焦点を絞っています

Microsoft PowerPoint - statistics pptx

第 3 回講義の項目と概要 統計的手法入門 : 品質のばらつきを解析する 平均と標準偏差 (P30) a) データは平均を見ただけではわからない 平均が同じだからといって 同一視してはいけない b) データのばらつきを示す 標準偏差 にも注目しよう c) 平均

はじめに Excel における計算式の入力方法の基礎 Excel では計算式を入力することで様々な計算を行うことができる 例えば はセルに =SQRT((4^2)/3+3*5-2) と入力することで算出される ( 答え ) どのような数式が使えるかは 数式

目次 1 章 SPSS の基礎 基本 はじめに 基本操作方法 章データの編集 はじめに 値ラベルの利用 計算結果に基づく新変数の作成 値のグループ化 値の昇順

解析センターを知っていただく キャンペーン

Microsoft PowerPoint slide2forWeb.ppt [互換モード]

Microsoft PowerPoint - statistics pptx

統計学 - 社会統計の基礎 - 正規分布 標準正規分布累積分布関数の逆関数 t 分布正規分布に従うサンプルの平均の信頼区間 担当 : 岸 康人 資料ページ :

統計学の基礎から学ぶ実験計画法ー1

モジュール1のまとめ

Microsoft PowerPoint - A1.ppt [互換モード]

スライド 1

Microsoft PowerPoint - stat-2014-[9] pptx

Microsoft PowerPoint - Statistics[B]

スライド 1

Microsoft PowerPoint - 測量学.ppt [互換モード]

Microsoft Word - apstattext04.docx

JMP による 2 群間の比較 SAS Institute Japan 株式会社 JMP ジャパン事業部 2008 年 3 月 JMP で t 検定や Wilcoxon 検定はどのメニューで実行できるのか または検定を行う際の前提条件の評価 ( 正規性 等分散性 ) はどのメニューで実行できるのかと

Microsoft Word - reg.doc

ダンゴムシの 交替性転向反応に 関する研究 3A15 今野直輝

異文化言語教育評価論 ⅠA 第 4 章分散分析 (3 グループ以上の平均を比較する ) 平成 26 年 5 月 14 日 報告者 :D.M. K.S. 4-1 分散分析とは 検定の多重性 t 検定 2 群の平均値を比較する場合の手法分散分析 3 群以上の平均を比較する場合の手法 t 検定

Microsoft Word - Stattext11.doc

PowerPoint プレゼンテーション

異文化言語教育評価論 ⅠA 教育 心理系研究のためのデータ分析入門 第 3 章 t 検定 (2 変数間の平均の差を分析 ) 平成 26 年 5 月 7 日 報告者 :M.S. I.N. 3-1 統計的検定 統計的検定 : 設定した仮説にもとづいて集めた標本を確率論の観点から分析し 仮説検証を行うこと

Microsoft Word - appendix_b

Microsoft PowerPoint - Lecture 10.ppt [互換モード]

0 部分的最小二乗回帰 Partial Least Squares Regression PLS 明治大学理 学部応用化学科 データ化学 学研究室 弘昌

経営統計学

Microsoft PowerPoint - statistics pptx

平成 7 年度数学 (3) あるゲームを 回行ったときに勝つ確率が. 8のプレイヤーがいる このゲームは 回ごとに独 立であるとする a. このゲームを 5 回行う場合 中心極限定理を用いると このプレイヤーが 5 回以上勝つ確率 は である. 回以上ゲームをした場合 そのうちの勝ち数が 3 割以上

Microsoft PowerPoint DegreesOfFreedom.ppt [互換モード]

<4D F736F F D208EC08CB18C7689E68A E F1939D8C E82E646F63>

日心TWS

Microsoft Word - reg2.doc

<4D F736F F D204B208C5182CC94E497A682CC8DB782CC8C9F92E BD8F6494E48A722E646F6378>

MT2-Slides-13.pptx

ii 3.,. 4. F. (), ,,. 8.,. 1. (75% ) (25% ) =9 7, =9 8 (. ). 1.,, (). 3.,. 1. ( ).,.,.,.,.,. ( ) (1 2 )., ( ), 0. 2., 1., 0,.

Microsoft Word - 補論3.2

タイトルを修正 軸ラベルを挿入グラフツール デザイン グラフ要素を追加 軸ラベル 第 1 横 ( 縦 ) 軸 凡例は削除 横軸は, 軸の目盛範囲の最小値 最 大値を手動で設定して調整 図 2 散布図の仕上げ見本 相関係数の計算 散布図を見ると, 因果関係はともかく, 人口と輸送量の間には相関関係があ

経済統計分析1 イントロダクション

Microsoft PowerPoint - 統計科学研究所_R_重回帰分析_変数選択_2.ppt

PowerPoint プレゼンテーション

日経平均株価の推移 ( 円 ) 5,, 15, 1, 5, ( データ ) 日経 NEEDS 3 日本株価の推移 (1 年 1 月 =1) 5 日経平均 TOPIX JASDAQ ( データ ) 日

Microsoft PowerPoint - 三次元座標測定 ppt

Excelにおける回帰分析(最小二乗法)の手順と出力

Microsoft PowerPoint - データ解析基礎4.ppt [互換モード]

解答のポイント 第 1 章問 1 ポイント仮に1 年生全員の数が 100 人であったとする.100 人全員に数学の試験を課して, それらの 100 人の個人個人の点数が母集団となる. 問 2 ポイント仮に10 人を抽出するとする. 学生に1から 100 までの番号を割り当てたとする. 箱の中に番号札

1.民営化

3. みせかけの相関単位根系列が注目されるのは これを持つ変数同士の回帰には意味がないためだ 単位根系列で代表的なドリフト付きランダムウォークを発生させてそれを確かめてみよう yと xという変数名の系列をを作成する yt=0.5+yt-1+et xt=0.1+xt-1+et 初期値を y は 10

2. 時系列分析 プラットフォームの使用法 JMP の 時系列分析 プラットフォームでは 一変量の時系列に対する分析を行うことができます この章では JMP のサンプルデ ータを用いて このプラットフォームの使用法をご説明します JMP のメニューバーより [ ヘルプ ] > [ サンプルデータ ]

切断安定分布による資産収益率のファットテイル性のモデル化とVaR・ESの計測手法におけるモデル・リスクの数値的分析

Microsoft PowerPoint - S11_1 2010Econometrics [互換モード]

13章 回帰分析

Microsoft PowerPoint - H21生物計算化学2.ppt

データ科学2.pptx

Transcription:

統計的データ解析 011 011.11.9 林田清 ( 大阪大学大学院理学研究科 )

連続確率分布の平均値 分散 比較のため

P(c ) c 分布 自由度 の ( カイ c 平均値 0, 標準偏差 1の正規分布 に従う変数 xの自乗和 c x =1 が従う分布を自由度 の分布と呼ぶ 一般に自由度の分布は f /1 c / / ( c ) {( c ) e }/ ( / ) 期待値 二乗 ) 分布 c c E( c ) 分散 V ( c ) ( x ) 平均値, 標準偏差 の正規分布に従う も自由度 のc 分布 =1 ( x x) はしかし自由度 1の c 分布 c 分布の加算 : 自由度 mの c 分布に従う変数と自由度 lの c 分布に従う 変数の和は 自由度 m lの c 分布に従う =1 0.5 0.4 0.3 0. 0.1 0 c dstrbuto 0 5 10 15 c dof=1 dof=4 dof= dof=6

カイ二乗分布の確率分布の積分あてはめの良さの検定 reduced-c の値の表 ( 対応する c の値を超える確率 P と自由度 の関数として表示されている ) 最小二乗フィットによりモデルパラメータを最適化した際の c 値を求める 上記の c 値 ( 以上の値 ) を得る確率を表から調べる 確率があまりにも小さければ何か間違っている ( 例えばモデルが適当でない ) Data Reducto ad Error Aalyss for the Physcal Sceces, Bevgto & Robso より

htt://cluster.f7.ems.okayama-u.ac./~ya/scscd/table/ch.html にも同様の表 ( 但し reduced ch-squared ではなく ch-squared の値 ) が掲載されている Excel なら CHIDIST,CHIINV

統計的検定 (statstcal test) 例 )xの10 回の測定平均値が0.45 標準偏差が0.05 仮説 H:( 例 ) 母集団での平均値は0.5である 本当は対立仮説 H': 母集団での平均値は0.5でない を示したいので Hを帰無仮説という H': 母集団での平均値は0.5より小さい ( 大きい ) の場合も有り得る 両側検定 片側検定 平均値 0.5 標準偏差 0.05の母集団から10 個の標本をサンプルした場合に平均値が0.45 以下になる ( あるいは0.45 以下 0.55 以上になる ) 確率 Pは? Pが定められた危険率 ( 有意水準 )aより 小さい : 仮説は誤り 正しい可能性を棄てる危険性 aを伴って 大きい : 仮説は否定できない 危険率 ( 有意水準 )=sgfcace level

フィットのよさに関するカイ二乗検定 [ 問題例 ] 7 組の測定データ (x,y ) (=1,..,7) で X の誤差は無視できるほど小さく y の誤差は とする これを y=ax+b の直線モデルを仮定し a,b をフリーパラメータとしてカイ二乗フィットする 自由度は 7-=5 c m の値 によって どのような判断をするか? 例えば c m=15.1を得た場合 自由度 5のc 分布で15.1 以上の値を得る確率は0.99% 結論例 1: 危険率 1%( 以上 ) でこのモデルは棄却される 結論例 : 危険率 0.5% ではこのモデルは棄却されない c m=6.0を得た場合 自由度 5 の c 分布で 6.0 以上の値を得る確率は 31% 結論例 : ( 危険率 10% では ) このモデルは棄却されない c m=0.55 を得た場合 自由度 5 の c 分布で 0.55 以下の値を得る確率は 1% 結論例 : c m の値が小さすぎる ( と危険率 1% で結論できる ) 誤差の評価が不適当である可能性が大きい

パラメータの推定誤差 最適化したパラメータはあくまでもパラメータの真の値の推定値 必ず推定誤差がある 直線モデルの場合 誤差伝播側より計算できる a 1 1 a 1 y b 1 x b 1 y c y( x ) y ax b P( a, b) を最大にする=c を最小にする c 0, c 0 a b からc を最小にするab, として 1 b y 1 1 1 1 x y x y a ただし x y x x y 1 x x

任意関数の最小二乗 ( カイ二乗 ) フィット 任意の関数形 yx ( ) をモデルに採用した場合でも y y( x) c 1 を最小にするようパラメータを決定する パラメータの数をmとしてc は自由度 = mの c 分布に従うことが期待される パラメータの誤差の推定 : c を最小にするパラメータ値 a に対して c を1だけ増加させる c m ( ) aの値 a a a a を探す c 1 cm cm aの誤差範囲 (1パラメータ68% 信頼水準 ) はacm aから acm a

カイ二乗フィットのパラメータ推定誤差 1 回の測定でデータの組 ( x, y ),...,( x y ) が得られたとし y,..., y の測定誤差 1 1, 1 ( ただし正規分布するランダム誤差 ) を,..., とする これらのデータ点は 個のパラメータで指定されるモデルf ( x; a,..., a ) に 正規分布に従う誤差が 付加されたデータで構成される母集団から採取されたと仮定する パラメータの真の値 ( これは不可知 ) を( a,..., a ) と仮定すると尤度 ( データ点の組が得られる確率は ) は 1 P( a,..., a ) ex y f ( x; a1,..., a ) 1 1 1 y f ( x; a1,..., a ) 1 1 1 1 exの中身をc と定義する c は自由度 の c 分布に従う 1 一方 P( a,..., a ) を最大にするようなパラメータの組 (= 最適パラメータ ) を( aˆ,..., aˆ ) と y ˆ ˆ f ( x; a1,..., a ) するとこれはc の最小値 cm を与える 1 c m は 個のパラメータによって調整して最小化を行ったので自由度が 減って 自由度 - の c 分布に従う

カイ二乗フィットのパラメータ推定誤差 f x a a a a aˆ aˆ ; 1,..., が 1,..., の線形関数の場合 ( 1,..., ) がc の最小値を与えることに 注意すると y ; 1 ˆ ˆ f x a,..., a y f x; a1,..., a c A ˆ a a 1 1 c 1 という形にかけるはず ( =0) とすると a A P( a,..., a ) F( a,..., a を含まない関数 ) 1 1 m ; 1 1 m 1 1 ex a aˆ これからc c c は自由度 の c 分布に従うことがわかる f x a,..., a がa,..., a の線形関数でない場合は このような形にはかけないが c c c は自由度 の c 分布で近似する

区間推定 例 ) 平均値 標準偏差 の正規分布に従う母集団 から 1 回の測定で測定値 xを採取する操作を 考える の真の値は知らず は何らかの方法で 推定できていたとする ( 例えば測定誤差に等しい z ( ) など ) の存在する範囲はどのように推定できるか? - z( / ) 1- / z( / ) z zを平均 0 標準偏差 1の正規分布に従う変数だとして 確率 1-となる区間は - z( /) ( x )/ z( /) 変形して x - z( / ) x z( / ) が信頼係数 100 (1- ) % でのの信頼区間 信頼区間 =cofdece terval 信頼係数 =cofdece level

信頼区間の推定 正規分布の場合 -<x-< にくる確率 68.3% -<x-< にくる確率 95.5% -3<x-<3 にくる確率 99.7% -1.96<x-<1.96 にくる確率 95% -.58<x-<.58 にくる確率 99%

カイ二乗フィットのパラメータ誤差推定 ( パラメータの数による信頼区間の違い ) パラメータ a 1,a それぞれのの 68% 信頼区間は Δχ =1 であるが (a 1,a ) の組の 68% 信頼区間は Δχ =.3 の楕円で囲まれた領域になる Numercal Reces C, 技術評論社より転載 上の表で自由度とは ( 注目する ) パラメータの数

相関が 0 でない例 ラインスペクトルをガウシアンモデルでフィットするモデルとして次の形式のガウシアン関数を仮定 F( x) Aex して A, B, C, x C フィッティングプログラムはA, B, Cの最適値と その誤差,, を出力してくれる A B C B をフィッティングにより求める このラインの積分強度はI A B I I I A B 共分散を無視して と計算すると A B 誤差を過大評価する恐れがある I x C Gx ( ) ex B B というモデル式を使えば このような問題は回避できる

最小二乗 ( カイ二乗 ) フィットのまとめ 最尤法が根拠 ただし 測定値 y のモデル点からのばらつきが正規分布で近似できる場合に限定 c を最小にするパラメータが最良推定値 あてはめの良さ モデルの妥当性は c の値が自由度 -m に近いかどうかで評価できる パラメータの誤差 ( 信頼区間 ) は c から推定できる

宿題 D デルタカイ 乗 =1 がパラメータの推定誤差になることを y(x)=b のモデルの例で示せ xsec のフィッティングの出力結果に関して 具体的な例を使い どのような定義の値がかかれているか説明せよ x にも誤差がある場合どのように扱うべきか?x,y が独立で それぞれ正規分布に従う誤差をもっているとして 直線モデルの場合を例にとって考えよ ( ヒント : 下の式 ) x xˆ y yˆ x y y 1 1 P( a, b; x,,, ) ˆ y x y dx ex ex x ただし xˆ, yˆ はyˆ axˆ bであらわされる直線モデル上の点 ˆ ˆ 1 x x y ax b y ax b P( a, b; x,,, ) ˆ y x y dx ex ex x y x y a x y