情報工学概論

Similar documents
自動車感性評価学 1. 二項検定 内容 2 3. 質的データの解析方法 1 ( 名義尺度 ) 2.χ 2 検定 タイプ 1. 二項検定 官能検査における分類データの解析法 識別できるかを調べる 嗜好に差があるかを調べる 2 点比較法 2 点識別法 2 点嗜好法 3 点比較法 3 点識別法 3 点嗜好

基礎統計

EBNと疫学

統計学 - 社会統計の基礎 - 正規分布 標準正規分布累積分布関数の逆関数 t 分布正規分布に従うサンプルの平均の信頼区間 担当 : 岸 康人 資料ページ :

ビジネス統計 統計基礎とエクセル分析 正誤表

Python-statistics5 Python で統計学を学ぶ (5) この内容は山田 杉澤 村井 (2008) R によるやさしい統計学 (

第7章

統計学の基礎から学ぶ実験計画法ー1

統計的データ解析

<4D F736F F D208EC08CB18C7689E68A E F AA957A82C682948C9F92E82E646F63>

スライド 1

Microsoft Word - Stattext12.doc

Microsoft PowerPoint - sc7.ppt [互換モード]

(3) 検定統計量の有意確率にもとづく仮説の採否データから有意確率 (significant probability, p 値 ) を求め 有意水準と照合する 有意確率とは データの分析によって得られた統計値が偶然おこる確率のこと あらかじめ設定した有意確率より低い場合は 帰無仮説を棄却して対立仮説

講義「○○○○」

第 3 回講義の項目と概要 統計的手法入門 : 品質のばらつきを解析する 平均と標準偏差 (P30) a) データは平均を見ただけではわからない 平均が同じだからといって 同一視してはいけない b) データのばらつきを示す 標準偏差 にも注目しよう c) 平均

Microsoft PowerPoint - statistics pptx

Microsoft PowerPoint - 基礎・経済統計6.ppt

スライド 1

Medical3

母平均 母分散 母標準偏差は, が連続的な場合も含めて, すべての個体の特性値 のすべての実現値 の平均 分散 標準偏差であると考えてよい 有限母集団で が離散的な場合, まさにその意味になるが, そうでない場合も, このように理解してよい 5 母数 母集団から定まる定数のこと 母平均, 母分散,

Microsoft PowerPoint - stat-2014-[9] pptx

Microsoft PowerPoint - Lecture 10.ppt [互換モード]

<4D F736F F D2090B695A8939D8C768A E F AA957A82C682948C9F92E8>

Microsoft PowerPoint - statistics pptx

Microsoft PowerPoint - e-stat(OLS).pptx

不偏推定量

Microsoft PowerPoint - A1.ppt [互換モード]

Medical3

モジュール1のまとめ

Excelによる統計分析検定_知識編_小塚明_5_9章.indd

Microsoft PowerPoint - Statistics[B]

Microsoft PowerPoint - statistics pptx

Microsoft Word - å“Ÿåłžå¸°173.docx

Microsoft Word - Stattext11.doc

Microsoft Word - Stattext13.doc

多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典

統計学 Ⅱ( 章 ( 区間推定のシミュレーション 母平均 μ の区間推定 X ~ N, のとき X T ~ 自由度 1の t分布 1 自由度 -1のt 分布の97.5% 点 :t.975 P t T t この式に T を代入する t.975 母集団

RSS Higher Certificate in Statistics, Specimen A Module 3: Basic Statistical Methods Solutions Question 1 (i) 帰無仮説 : 200C と 250C において鉄鋼の破壊応力の母平均には違いはな

異文化言語教育評価論 ⅠA 教育 心理系研究のためのデータ分析入門 第 3 章 t 検定 (2 変数間の平均の差を分析 ) 平成 26 年 5 月 7 日 報告者 :M.S. I.N. 3-1 統計的検定 統計的検定 : 設定した仮説にもとづいて集めた標本を確率論の観点から分析し 仮説検証を行うこと

経済統計分析1 イントロダクション

<4D F736F F D208D A778D5A8A778F4B8E7793B CC A7795D2816A2E646F6378>

<4D F736F F D208EC08CB18C7689E68A E F193F18D8095AA957A C C839395AA957A814590B38B4B95AA957A2E646F63>

R-introduction.R

Microsoft PowerPoint - 測量学.ppt [互換モード]

数値計算法

カイ二乗フィット検定、パラメータの誤差

Microsoft PowerPoint - Econometrics pptx

Microsoft Word - apstattext04.docx

解答のポイント 第 1 章問 1 ポイント仮に1 年生全員の数が 100 人であったとする.100 人全員に数学の試験を課して, それらの 100 人の個人個人の点数が母集団となる. 問 2 ポイント仮に10 人を抽出するとする. 学生に1から 100 までの番号を割り当てたとする. 箱の中に番号札

Microsoft PowerPoint - データ解析基礎4.ppt [互換モード]

目次 1 章 SPSS の基礎 基本 はじめに 基本操作方法 章データの編集 はじめに 値ラベルの利用 計算結果に基づく新変数の作成 値のグループ化 値の昇順

PowerPoint プレゼンテーション

青焼 1章[15-52].indd

禁無断転載 第 3 章統計的手法に用いられる分布 All rights reserved (C) 芳賀 第 1 節我々の身の回りにある代表的分布と性質 1. 分布の表わし方我々の身の回りにある全てのものは ばらつきを持っています 収集したデータを分析していくためには このばらつきがどのような分布にな

森林水文 水資源学 2 2. 水文統計 豪雨があった時, 新聞やテレビのニュースで 50 年に一度の大雨だった などと報告されることがある. 今争点となっている川辺川ダムは,80 年に 1 回の洪水を想定して治水計画が立てられている. 畑地かんがいでは,10 年に 1 回の渇水を対象として計画が立て

Kumamoto University Center for Multimedia and Information Technologies Lab. 熊本大学アプリケーション実験 ~ 実環境における無線 LAN 受信電波強度を用いた位置推定手法の検討 ~ InKIAI 宮崎県美郷

はじめに Excel における計算式の入力方法の基礎 Excel では計算式を入力することで様々な計算を行うことができる 例えば はセルに =SQRT((4^2)/3+3*5-2) と入力することで算出される ( 答え ) どのような数式が使えるかは 数式

(.3) 式 z / の計算, alpha( ), sigma( ) から, 値 ( 区間幅 ) を計算 siki.3<-fuctio(, alpha, sigma) elta <- qorm(-alpha/) sigma /sqrt() elta [ 例 ]., 信頼率 として, サイ

Microsoft Word - appendix_b

確率分布 - 確率と計算 1 6 回に 1 回の割合で 1 の目が出るさいころがある. このさいころを 6 回投げたとき,1 度も 1 の目が出ない確率を求めよ. 5 6 /6 6 =15625/46656= (5/6) 6 = ある市の気象観測所での記録では, 毎年雨の降る

<4D F736F F D208EC08CB18C7689E68A E F193F18D8095AA957A C C839395AA957A814590B38B4B95AA957A2E646F63>

Microsoft PowerPoint slide2forWeb.ppt [互換モード]

PowerPoint プレゼンテーション

したがって ばらつきを表すには 偏差の符号をなくしてから平均化する必要がある そのひとつの方法は 1 偏差の絶対値を用いることである 偏差の絶対値の算術平均を 平均偏差 という ( )/5=10.8 偏差の符号を取るもうひとつの方法は 2それを2 乗することです 偏差の2 乗の算

数値計算法

MT2-Slides-13.pptx

平成 7 年度数学 (3) あるゲームを 回行ったときに勝つ確率が. 8のプレイヤーがいる このゲームは 回ごとに独 立であるとする a. このゲームを 5 回行う場合 中心極限定理を用いると このプレイヤーが 5 回以上勝つ確率 は である. 回以上ゲームをした場合 そのうちの勝ち数が 3 割以上

untitled

0415

_KyoukaNaiyou_No.4

<4D F736F F D208EC08CB18C7689E68A E F1939D8C E82E646F63>

講義ノート p.2 データの視覚化ヒストグラムの作成直感的な把握のために重要入力間違いがないか確認するデータの分布を把握する fig. ヒストグラムの作成 fig. ヒストグラムの出力例 度数分布表の作成 データの度数を把握する 入力間違いが無いかの確認にも便利 fig. 度数分布表の作成

日経平均株価の推移 ( 円 ) 5,, 15, 1, 5, ( データ ) 日経 NEEDS 3 日本株価の推移 (1 年 1 月 =1) 5 日経平均 TOPIX JASDAQ ( データ ) 日

仮説検定を伴う方法では 検定の仮定が満たされ 検定に適切な検出力があり データの分析に使用される近似で有効な結果が得られることを確認することを推奨します カイ二乗検定の場合 仮定はデータ収集に固有であるためデータチェックでは対応しません Minitab は近似法の検出力と妥当性に焦点を絞っています

Microsoft Word - 保健医療統計学112817完成版.docx

Probit , Mixed logit

Microsoft PowerPoint ppt

日心TWS

. 測定方法 7 尺度化 ( 数値化 ) 8 絶対判断 評点法採点法カテゴリー尺度法 図示法 / 線分法 心理物理学的測定法 相対判断 分類法 格付け分類法 順位法 一対比較法 リッカート法 カテゴリー尺度法 / 評定尺度法 あなたは ですか? 9 SD(Semantic Differential)

<4D F736F F D208EC08CB18C7689E68A E F1918A8AD695AA90CD2E646F63>

3. 株式投資の リスクとリターン 経済統計分析 (2015 年度春学期 )

経営統計学

クロス集計表の作成 2 つのカテゴリ変数をもつデータがあるとする ( 例 )AGE( 年齢 ),EXPOSURE( 曝露の有無 ) と DISEASE( 病気の有無 ) についての 40 人のデータ タブ区切りテキストファイル

スライド 1

Microsoft Word - reg2.doc

異文化言語教育評価論 ⅠA 第 4 章分散分析 (3 グループ以上の平均を比較する ) 平成 26 年 5 月 14 日 報告者 :D.M. K.S. 4-1 分散分析とは 検定の多重性 t 検定 2 群の平均値を比較する場合の手法分散分析 3 群以上の平均を比較する場合の手法 t 検定

医学 薬学分野の研究で用いられるのは推測統計学 母集団のデータ 多数データの 数学的要約 記述 記述統計学 ( 古典統計学 ) 母集団 ( 準母集団 ) 無作為抽出 標本集団のデータ 少数データの 数学的要約 記述 推測統計学 ( 近代統計学 ) 逆規定 確率的推測 記述 記述統計学調査対象集団 =

基礎数理 ()Aさんは確定拠出年金の加入者となった 投資商品は収益率がそれぞれ独立な正規分布 N(7, σ ), N(, σ y ) に従う,Y から選択することとした の過去 8 年間の収益率の実績は {8,,,5,,-,6,}(%) Y の過去 6 年間の収益率の実績は {,,,4,,}(%)

Microsoft PowerPoint - ch04j

様々なミクロ計量モデル†

現代日本論演習/比較現代日本論研究演習I「統計分析の基礎」

Microsoft Word - Stattext07.doc

データ科学2.pptx

CAEシミュレーションツールを用いた統計の基礎教育 | (株)日科技研

Microsoft PowerPoint - Inoue-statistics [互換モード]

統計学 Ⅱ8-9 章 確率分布 確率の条件 8 ページ p: 確率関数 p は の関数とみなせる 確率分布 : すべてのに関する = または p の分布 グラフや表で表わすことが多い サイコロの例 : 計 縦軸は p または = 棒の幅は 線 確率 p.. = / / / / / / サイコロの目の

<4D F736F F D204B208C5182CC94E497A682CC8DB782CC8C9F92E BD8F6494E48A722E646F6378>

ベイズ統計入門

Excelによる統計分析検定_知識編_小塚明_1_4章.indd

Transcription:

確率と統計 中山クラス 第 11 週 0

本日の内容 第 3 回レポート解説 第 5 章 5.6 独立性の検定 ( カイ二乗検定 ) 5.7 サンプルサイズの検定結果への影響練習問題 (4),(5) 第 4 回レポート課題の説明 1

演習問題 ( 前回 ) の解説 勉強時間と定期試験の得点の関係を無相関検定により調べる. データ入力 > aa<-c(1,3,10,12,6,3,8,4,1,5) > aa [1] 1 3 10 12 6 3 8 4 1 5 > bb<-c(20,40,100,80,50,50,70,50,10,60) > bb [1] 20 40 100 80 50 50 70 50 10 60 2

検定結果 > cor.test(aa,bb) Pearson's product-moment correlation data: aa and bb t = 6.1802, df = 8, p-value = 0.0002651 alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval: 0.6542283 0.9786369 sample estimates: cor 0.9092974 p-value = 0.0002651<0.05 より,5% の有意水準で帰無仮説 ( 相関係数 =0) は棄却される. 従って, 勉強時間と定期試験の得点の間には相関があると言える. 3

第 3 回レポート解説 Ⅰ. 次の用語を説明せよ. 母集団対象とするデータ全体 ( 全集合 ) 母数母集団の性質を表す統計量 ( 平均, 分散, 相関係数など ) 標本母集団から一部を取り出したデータ 標本抽出母集団から標本 ( 一部のデータ ) を取り出すこと 推定量ある母数を推定するために用いられる標本統計量 推定値標本データを用いて計算された推定量の値 4

確率変数サイコロの目のように, どのような値 ( 事象 ) が出るか分からない ( 決められない ) 変数で, その振る舞い ( 現象 ) は確率的にしか表現できない変数. 確率分布確率変数がどのような値をどのような割合 ( 確率 ) でとるかを表したもの. 確率変数が離散的な場合 ( 例 : サイコロの目 ) は確率そのものを表す. 確率変数が連続値の場合は確率密度関数となり, 確率変数がある区間の値をとる確率をその区間の面積で表す. 正規分布確率分布の一種で釣り鐘形をしており, 平均と分散 ( 標準偏差 ) で規定される. 5

標本分布標本統計量 ( 標本平均, 標本分散など ) に関する確率分布. 母集団分布, 標本統計量の種類, サンプルサイズが決まると理論的 ( 数学的 ) に求まる. 標本抽出されたデータから決まるものではない. 不偏性ある推定量の標本分布の平均が推定しようとしている母数と一致するとき, その推定量は不偏性がある ( 不偏である ) という. 例えば, 標本平均は母平均, 不偏分散は母分散の不偏推定量である. 標本誤差推定量の標本分布の広がり ( ばらつき ) を表す. 具体的には, 標本分布の標準偏差で表す.N(μ, σ 2 ) に従う母集団から n サンプル抽出したとき, 標本平均の標本分布は N μ, σ 2 /n に従う. 従って, 標準誤差は σ/ n となる. 6

Ⅱ. 第 4 章の練習問題と考察 (1) 標本平均の分布 N(50,10 2 ) から n = 20 の標本抽出を 5000 回繰り返し, 標本平均の経験的な標本分布を求める. > 標本平均 <-numeric(length=5000) > for(i in 1:5000){ + 標本 <-rnorm(n=20,mean=50,sd=10) + 標本平均 [i]<-mean( 標本 ) + } > hist( 標本平均 ) 7

Frequency 0 200 400 600 800 Histogram of 標本平均 抽出回数が多いので. 正規分布に近い形になっている. また, 平均がほぼ 50 になっており, 標準偏 差も 102 20 = 5 に近いことが分かる. 45 50 55 標本平均 8

経験的な標本分布と理論的な標本分布 > 分散 <-10^2/20 > 分散 [1] 5 > sd<-sqrt( 分散 ) > sd [1] 2.236068 > hist( 標本平均,freq=FALSE) > curve(dnorm(x,mean=50,sd=sqrt( 分散 )),add=true) 9

Density 0.00 0.05 0.10 0.15 Histogram of 標本平均 標本抽出を 5,000 回行っており,5,000 個の標本平均のヒストグラムとなっている. 抽出回数が多いので, 理論的な標本分布である N(50, 10 2 /20) に近い分布となっている. 45 50 55 標本平均 10

(2) 標準正規分布 N(0,1) に従う母集団から n = 1, 4, 9, 16, 25 を抽出するときの理論的な標本分布 > sd1<-sqrt(1/1) > sd2<-sqrt(1/4) > sd3<-sqrt(1/9) > sd4<-sqrt(1/16) > sd5<-sqrt(1/25) > curve(dnorm(x,mean=0,sd=sd5),from=-2,to=2) > curve(dnorm(x,mean=0,sd=sd4),from=-2,to=2,add=true) > curve(dnorm(x,mean=0,sd=sd3),from=-2,to=2,add=true) > curve(dnorm(x,mean=0,sd=sd2),from=-2,to=2,add=true) > curve(dnorm(x,mean=0,sd=sd1),from=-2,to=2,add=true) 11

dnorm(x, mean = 0, sd = sd5) 0.0 0.5 1.0 1.5 2.0 n=25 n=16 n=9 n=4 n=1 N(μ, σ 2 ) に従う母数団から n サンプル抽出したときの標本平均の標本分布は N(μ, σ2 n ) に従う. サンプル数 n が大きくなるに従って標本分布は狭く分布している. これは,n が大きくなるに従って標本統計量の精度が上がり, 標本誤差が小さくなることを示している. -2-1 0 1 2 x 12

5.6 独立性の検定 ( カイ 2 乗検定 ) 2 つの質的変数の独立性を評価する. 独立である 連関がない 観測度数 : セルの数字周辺度数 : 列方向, 行方向に合計した数字総度数 : 周辺度数の合計 13

検定統計量と分布関数 検定統計量 Χ 2 = O 1 E 2 1 + O 2 E 2 E 1 E 2 2 + + O k E k E k 2 観測度数 O i と期待度数 E i の間のずれを評価する. 期待度数 : 連関がないことを前提とした度数セルの期待度数 =( セルが属する行の周辺度数 セルが属する列の周辺度数 ) 総度数 分布関数検定統計量 Χ 2 は帰無仮説 ( 連関がない ) のもので, 自由度 dfのカイ二乗分布に従う. 自由度 =( 行の数 -1) ( 列の数 -1) 14

例題 : 数学と統計のクロス集計表 ( 表 5.2) (1) 帰無仮説と対立仮説の設定帰無仮説 :2 つの変数は独立である ( 数学の好き 嫌いと, 統計の好き 嫌いには連関がない ) 対立仮説 :2 つの変数には連関がある ( 数学の好き 嫌いと, 統計の好き 嫌いは独立ではない ) (2) 検定統計量の選択 Χ 2 = O 1 E 2 1 + O 2 E 2 E 1 E 2 2 + + O k E k E k 2 (3) 有意水準 α の決定検定統計量が正であるため, 片側検討となる. 15

(4) 検定統計量の実現値期待度数の計算 > 期待度数 11<-12*14/20 > 期待度数 21<-12*6/20 > 期待度数 12<-8*14/20 > 期待度数 22<-8*6/20 > 期待度数 <-c( 期待度数 11, 期待度数 21, 期待度数 12, 期待度数 22) > 期待度数 [1] 8.4 3.6 5.6 2.4 > 観測度数 <-c(10,2,4,4) > 観測度数 [1] 10 2 4 4 > カイ二乗要素 <-( 観測度数 - 期待度数 )^2/ 期待度数 > カイ二乗要素 [1] 0.3047619 0.7111111 0.4571429 1.0666667 > カイ二乗 <-sum( カイ二乗要素 ) > カイ二乗 [1] 2.539683 16

(5) 帰無仮説の棄却 / 採択の決定 検定統計量 Χ 2 は帰無仮説のもとで自由度 df = 2 1 2 1 = 1 のカイ二乗分布に従う. > qchisq(0.95,1) [1] 3.841459 > qchisq(0.05,1, lower.tail=false) [1] 3.841459 2.539683<3.841459 であり, 帰無仮説は棄却されない. > pchisq(2.539683,1,lower.tail=false) [1] 0.1110171 > 1-pchisq(2.539683,1) [1] 0.1110171 0.1110171>0.05 であり, 帰無仮説は棄却されない. 以上より, 数学の好き 嫌い と 統計の好き 嫌い の間には有意な連関があるとは言えない. 17

カイ二乗分布 t 分布同様, 統計学でよく利用される自由度によりその形状が決まる. 下限が 0 であり, 正規分布や t 分布のように左右対称にならない. 自由度が高くなると左右対称の形状に近づく. 自由度 無限大で正規分布に近づく. > curve(dchisq(x,2),0,20) > curve(dchisq(x,1),0,20,add=true) > curve(dchisq(x,4),0,20,add=true) > curve(dchisq(x,8),0,20,add=true) 18

dchisq(x, 2) 0.0 0.1 0.2 0.3 0.4 0.5 df=1 df=2 df=4 df=8 0 5 10 15 20 x 19

dchisq(x, 50) 0.00 0.01 0.02 0.03 0.04 > curve(dchisq(x,50),0,100) 0 20 40 60 80 100 x 20

dchisq(x, 1) 0.0 0.5 1.0 1.5 > curve(dchisq(x,1),0,6) > abline(v=qchisq(0.05, 1, lower.tail=false)) 棄却域 0 1 2 3 4 5 6 x 21

chisq.test による検定 > クロス集計表 <-table( 数学, 統計 ) > クロス集計表統計数学嫌い好き嫌い 10 4 好き 2 4 > chisq.test( クロス集計表,correct=FALSE) Pearson's Chi-squared test data: クロス集計表 X-squared = 2.5397, df = 1, p-value = 0.111 警告メッセージ : In chisq.test( クロス集計表, correct = FALSE) : カイ自乗近似は不正確かもしれません 22

5.7 サンプルサイズの検定結果への影響 カイ二乗検定におけるサンプルサイズの影響 文系学生に比べ理系学生は世界史を履修しなかった傾向がある 帰無仮説 : 世界史の履修の有無と文系 理系の別には連関がない カイ二乗検定有意水準 =0.05 Χ 2 = 1.9048 < 3.841459 p = 0.1675 > 0.05 帰無仮説は棄却されない 5% の水準で有意な連関がない 23

文系学生に比べ理系学生は世界史を履修しなかった傾向がある 帰無仮説 : 世界史の履修の有無と文系 理系の別には連関がない カイ二乗検定有意水準 =0.05 Χ 2 = 19.0476 > 3.841459 p = 1.275 10 5 < 0.05 帰無仮説は棄却され 5% の水準で有意な連関がある サンプルサイズが変わると検定結果が変わり得るサンプルサイズが大きくなる 検定結果は有意になりやすい 24

練習問題 (4) (A) 教科書の 130~134 頁に記載されているカイ二乗分布を用いる方法により検定せよ.Χ 2 統計量に対する棄却域を求める方法と,p 値を用いる方法を試みよ. 但し, 有意水準は 5% とする. (B) chisq.test 関数を用いて検定を行い,(A) の結果と比較せよ. 25

練習問題 (5) (5-1),(5-2) 共に cor.test 関数を用いて検定を行い, それらの結果と比較せよ. 26

第 4 回レポート課題 練習問題 (1),(2),(4),(5) が対象講義スライドの指示に従って解析すること. 帰無仮説と対立仮説を日本語で示せ. 検定統計量を文字と数式で示せ. 片側検定か両側検定かを説明せよ. 有意水準を示せ. 検定統計量の実現値と棄却域を示せ. P 値を示せ. 帰無仮説を棄却 / 採択を理由を付して述べよ. 解析結果を文章で述べよ. ( 例 : と は 5% の水準で有意な連関がある ) 27

第 4 回レポートの締め切り 2014 年 1 月 10 日 ( 金 )17:00 時 来週の予定 第 11 章統計解析で分かること 分からないこと 第 4 回レポート作成 コンピュータ演習 28