統計学テキストの69ページに 平均偏差 分散 標準偏差 変動係数 標準誤差 信頼区間に関する記述がある 分布を考える分布の中心の位置 ( 例 ) 65 53 44 78 50 の数値の算術平均は (65+53+44+78+50)/5=58 である 此れだけでは 分布の状態がわからない ばらつきの程度を表すには最大値と最小値との差 (78-44)=34 これをレンジ ( 範囲 ) と言う しかし 両端の数字だけでは その間にある分布状態は少しも反映されていない すべての点の分布状態を反映させるには, 各点の重心 ( 算術平均 ) からの距離を測れば良い しかし それぞれの数値から算術平均を引いた値 ( 偏差 と言う) を加えるとゼロになってしまう 65-58=7 53-58=-5 44-58=-14 78-58=20 50-58=-8 7+(-5)+(-14)+20+(-8)=0
したがって ばらつきを表すには 偏差の符号をなくしてから平均化する必要がある そのひとつの方法は 1 偏差の絶対値を用いることである 偏差の絶対値の算術平均を 平均偏差 という (7+5+14+20+8)/5=10.8 偏差の符号を取るもうひとつの方法は 2それを2 乗することです 偏差の2 乗の算術平均を計算し此れによりばらつきの程度を測ることが出きる 此れを 分散 という しかし, 分散は 2 乗するためもとの数字より高い次元の量を表してしまう 3 与えられた数字と同じ次元の量としてばらつきを表すためには分散の平方根を用いれば良い 標準偏差 とは分散の平方根平均偏差 = 偏差の絶対値の算術平均分散 = 偏差の2 乗の算術平均標準偏差 = 分散の平方根計算してみると分散 =146.8 標準偏差 = 146.8=12.1 偏差平方和 (S)= 偏差の 2 乗の和分散 (V) s2=s/(n-1) 標準偏差 =s= S/(n-1) なぜ n でなく (n-1) で割るのか 母集団と標本を区別する時 標本の分散は (n-1)( 自由度と言う ) で割っておいたほうが母集団の分散の推定値としてより好ましい性質を持つからです
正規分布 (Normal distribution) 正規分布は平均値と分散を決めれば その形が決まる 平均値 µ を中心として左右対称である 標準偏差 σは曲線の形を決める σの値が大きければ曲線は扁平になり 値が小さければ狭く高くなる どの場合も µ-σと µ+σにおける曲線状の点は編曲点となる µ+σ µ σの間の正規曲線下の面積は 全面積の約 68% ±2σ 約 95% ±3σ 約 99.7% 標準誤差平均値のばらつきを示す 推定値 Xの標本分布が近似的に正規分布とみなされる時はこの標本の平均値, 分散, 標準偏差をE X V X δxと表す 仮に 目指す母数 AがE X に等しいか, 其れにごく近いとすると X-1.96δx A X+1.96δx 此れがAの信頼率 95% の信頼区間になる つまり 信頼率 95% で 差 (X-A) の標本誤差はせいぜい ±1.96δx であると言える 母数 AとE X が等しいと言う仮定では δxの値を評価できれば 推計値 X の標本誤差の程度を知ることができる事になる その意味でこのδxのことを標準誤差とも言う 問題は 標準誤差 δx その2 乗である分散 V X をどう評価するかである 其れは抽出方式 推定方式によって異なる
標本調査 母集団と標本 母集団 標本 全数調査 標本調査 標本抽出 母集団から標本を抽出すること その際 母集団と等しい確率を持った標本を得るために無作為抽出 (random sampling) などが用いられる
標本抽出法 1 単純無作為抽出法 母集団の対象を一連の番号化し 乱数表を用いる 例題 600 人から 30 人の標本を作る場合 ⅰ)600 人に番号をつける ⅱ) 一様乱数表を用いる (0から9までの数字がどの数字も10 分の 1の確率で無作為に出現している表デス ) ⅲ) 最初の番号を決める ( 正 20 面体の乱数さいころなどを使う 3 個 ) 00 行の 00 列と言う具合です ⅳ) 方向を決める ( 上でも下でも斜めでも良い ) ⅴ) たとえば 最初に第 10 行第 21 列と決まると この場合は3 桁の数字を読むとすれば 863を得る ここを出発として下へ30 個拾い上げると 562,603,813 と続く事になります
2 系統抽出法最初の数字を乱数表で決める ( この場合 600 30=20だから 1から20までの数字になるように乱数表で決めると言うこと ) 次には最初の数字 例えば4なら20づつ足して 24 44 64,84 と 30 人を選ぶ 3 集落抽出法事前に母集団に似たいくつかの小集団を作っておくその手段を無作為に抽出する方法 4 層別抽出法属性の似た者をいくつかの層に母集団を別けておき その各層ごとに無作為抽出する例えば 20 歳代 30 歳代の年齢別の層など 5 多段抽出法母集団を一定の抽出単位に別けておく例えば 日本を県単位 市町村単位 町内単位 各世帯に
度数分布 データの整理 内容を把握しやすくする 度数分布が代表的データを小さいものから大きいものに順次並び替えるそれをいくつかの階級に別ける各階級にどのように分布するかを調べる 度数 各階級に属するデータの数累積度数 最初から順番に足して その階級のでの累積数をいうヒストグラム 縦軸に度数 横軸に階級とした図形階級の数は 10こ前後が良い
累積相対度数 相対度数 相対度数 (%) 各階級の度数を総度数で割った値 累積相対度数 (%) 各階級の累積度数を総度数で割った値 この累積相対度数をもとに縦に百分率 横に階級を取った図 累積相対度数グラフにおいて 50% にあたる当るデータは中央値となる これを 50 パーセンタイル値 (percentile) とよぶ 25 75 パーセンタイル値は 4 分位 (quartile) 具体的例題は歯科衛生統計テキスト P66 表 5-2,3
平均値 中央値 小さいほうから順位並べた時の中央値 累積相対度数の 50 パーセンタイル値 最頻値 度数分布においては 度数の一番多い階級の中央値
標準偏差 (standard deviation) データのちらばり方を表す代表的値 前出 ( プリント参照 ) 標準偏差 変異係数 (CV) N で割ると 標準誤差 二つのサンプルのばらつきを比較するとき 通常は標準偏差で充分比較できるが 平均値に大きな差があるときは標準偏差も差が生まれてくるので このような場合はCVの方が適している CV=( 標準偏差 / 平均 ) 100(%)
カイ二乗検定 この検定を採用するケース のイメージ ハイ イイエとか 1 or 0 とか 体重とか身長のようにある程度自由に変化す る数字ではなく 2 つまたは 3,4 個くらいしか選 べない中での 標本の検定に使う
標本百分率の差の検定 A B 二つの工場の社員を対象にアンケート調査を実施した 歯磨きに関する項目で 時間をかけて丁寧に磨いているか否かを ( ハイ イイエ ) 形式で調べた結果が下記にある 両工場において差があるかを検定しなさい 2 2 分割表とカイ二乗分布表を利用する ハイ イイエ A 工場 10 40 (1 50 ) B 工場 15 35 (2 50 ) (3 25 ) (4 75 ) (5 100 ) カイ二乗 =(6 10 35-7 40 15 )2 (8 10 0)/(9 25 75 50 50 ) =(10 1,33 ) 計算した結果を比較する カイ二乗分布表では 自由度 1の有意 水準 5% と1% を見ると3,841 と 6,635 であるの で 有意の差が (11 ない ) となる
このケースは有意の差がない ならば どのようになっていれば 有意の差がある? A 工場 10 40 (1 50 ) B 工場 15 35 (2 50 ) (3 25 ) (4 75 ) (5 100 ) カイ二乗 =(6 10 35-7 40 15 )2 (8 1 00)/(9 25 75 50 50 ) =(10 1,33 )
一般式から 疾病 ( 歯磨き ) ありなし合計 要因 A 工場 a b a+b B 工場 c d c+d (a+c) (b+d) (a+b+c+d) カイ二乗 = (ad ー bc)2 乗 (a+b+c+d)/(a+c) (b+d) (a+b) (c+d) 1 同じ率でもサンプル数が 2 倍なら?4 倍なら? 2 (ad ー bc)2 乗の値が大きくなるようにする
1 人数を大きくする A~d を各 2a~2d とする (ad ー bc)2 乗 (a+b+c+d)/(a+c) (b+d) (a+b) (c+d) {(ad ー bc) (2 2)}2 乗 (a+b+c+d) 2/ (a+c) (b+d) (a+b) (c+d) 2 2 2 2 結局 16 2/16=2 結果の数字は 2 倍になる サンプル数が N 倍なら値も N 倍になる 同じ比率でもこのままの比率で 4 倍の人数なら 1.33 4=5,32 となり有意の差がある
2 a d-c b) の値を大きくする (ad ー bc)2 乗 (a+b+c+d)/(a+c) (b+d) (a+b) (c+d) (ad ー bc)2 乗 a と d が大きければいい を大きくすると言うことは つまり a= 要因ありで疾病があるケースが多いこと b= 要因なしで疾病がないケースが多いこと 当たり前のことだが両極端に分かれた状態なら優位の差があるということで これは一目瞭然で検定する以前に直感的に察知できる
大数の法則 調査する集団の特徴に関しては 調査量を大きくすれば ( 大標本 ) より明確なものが得られる 分散 平均値など 一方 大標本を前提としないで 小標本から母集団の知識を導こうとする推計的な 手段がある ex) 標本からの母集団の平均 標本間の検定 割合の差の検定 など
1) 度数分布 ( テキストの 20 ページ ) 度数分布表の作り方 1) 最大値と最小値を求める 2) 範囲を算出する 3) 階級の数を決める 普通は 10 こ前後に 1 シャリエの方法 ( 大標本 ) 階級の幅を標準偏差の 1/3 に 2 フィシャーの方法 ( 小標本 ) 階級の幅を標準偏差の 1/4 に 一般的には 小標本は標準偏差の値が大きく出るので 1/3 だと幅が大きすぎる
2) 代表値 平均値 算術平均 幾何平均 ( あまり使われない ) 中央値 最頻度 ( モード流行値 M0) 百分位 ( パーセンタイル P) テキストの 21 ページ
3) ばらつき 4 変異係数 分散や標準偏差を 2 つ以上の集団で比較す るとき 平均値や単位が著しく異なっていると き 変異係数を用いたほうが理解しやす い ( 表 5-5) ( 例人のジャンプと蚤のジャンプ ) CV= 標準偏差 / 平均値
4) 相関テキストの 22 ページ 二つの事象において 一方が変化すると 他方も変化すると言う関係を表すもの 例えば 身長と体重 勉強時間と試験の成績 しかし 二つの事象の関係でも その数量が 3 とか 4 等と少なく 限られているものは この方法には適さない
4) 相関 二つの事象において 一方が変化すると 他方も変化すると言う関係を表すもの 例えば 身長と体重 勉強時間と試験の成績 しかし 二つの事象の関係でも その数量が 3 とか 4 等と少なく 限られているものは この方法には適さない
相関係数 相関係数 ;r は -1 から +1 までの値をとる 0 から 0,2 ほとんど相関がない 0,2 から 0,4 やや関係あり 0,4 から 0,7 かなり相関がある 0,7 から 1.0 強い相関がある
相関とカイ二乗分布検定 テキストの 24 ページ 相関に適さない場合 良い 悪いとか赤 白 黒などの性質が含まれるとき たとえ関係する二つの事象が数字であっても その数量地が 0 1.2 等の 3 種類と少ない場合 このような時はカイ二乗検定がふさわしい グラフにプロットすると 可能性的には 無限にプロットするポイントがあることが望ましい
5) 回帰直線 図 5-4 のように X と Y の両者の関係において 両者の関係を一次関数で表したもの
第 6 章 推定と検定 推測統計 標本が正しく抽出されていれば 1 標本から母集団の値を推定することは可能 2 標本相互の値を比較することで母集団に差があるのかを比較することが可能 しかし 正確な標本抽出ができないような場合は記述統計手段 ( 度数分布 分散 相関 回帰直線など ) で終わるほうが適切である
差の検定 ( 超大切デス ) 1 差はないという仮説を立てる 2 実際に得られた差が偶然である確率を求める 3その確率が5% 以下なら 危険率 5% で有意の差を認める
検定推計とは母数に対して何の予備知識もなく, その値はいくらであるかを知ろうとするものであるが 検定 では母数に対して何らかの予想を持っていて, 其れを仮説と言う形で表し その真偽を標本 ( サンプル ) に基づいて検証しようとするものである 母平均の検定大標本の場合母集団の分布が正規分布に近いと想定される時の検定サンプル数 n 30 そうでない時でも n 50 として良い z=(x-µ)/δ n 値を求めて 正規分布表をみれば解る そうでなくても危険率 α=0.05になる値 (2Sd)1.96 α=0.01になる値 (3Sd)2.576 をあらかじめ知っておけば即, 判定できる 小標本の場合母集団の標準偏差が未知で かつ標本の数が小さい場合 t 分布 t 検定を用いる t 表を用いる分散に関する推定と検定 ( カイ2 乗 ) χ2 乗分布,χ2 乗検定 χ2
推定 検定を行うとき 一般的には 1 平均値は正規分布か t ー分布を利用する 2 割合 カイ二乗分布 3 分散分析 F- 分布
1 標本平均からの推定と検定 図 6-1 正しい抽出法により得られた標本の平均値はおそらく母集団の平均値と非常に近い値を示すだろう しかし必ず同一となるとは限らない それでも図 6-1のように どのような母集団からでも標本の平均値は母集団の平均値を中心に一つの分布を形成する このとき 標本の数が 30 以上の大標本は正規分布をする ( 中心極限定理 )
2 標準誤差 標本の標準偏差は特に標準誤差 (SE) と もいう SE=σ/ n
3 不偏分散 ( 標本の分散 ) 母集団の母分散 (σ 二乗 ) は 実際にはわか らないことが多い このとき 標本の分散 (S 二乗 ) をデータから 得て使用する 不偏分散という σ と S の違いは n で割るか (n ー 1) で割るかの違い この (n ー 1) を d f(degree of freedom) という
1) 標本平均からの推定と検定 1 標本平均からの母平均の推定 母分散が解っている場合の母平均の推定母分散がわからない場合の推定 2 標本平均の差の検定大標本平均と母平均の差の検定二つの大標本の検定小標本平均と母平均との差の検定 対応ある二つの小標本平均の差の検定対応のない二つの小標本平均の差の検定 2) 標本百分率からの推定と検定 ( テスト ) 3) 実験計画法
標本平均からの母平均の推定 母分散がわかっている場合 正規分布を使う
信頼限界 95% 99% 一般的に 信頼限界は95% または99% で推計することが多い 大雑把に ±2SE の範囲は 95,4% だから 2SE を使っても良いが 正確には 95% 信頼限界は 母集団の平均値 = 標本平均 ±1,96SE 99% 信頼限界は 母集団の平均 = 標本平均 ±2,58SE テキストの 71 ページ 信頼区間を参照
標本平均から母平均の推定 母分散が分からない場合 t ー分布を使う
t 分布 母分散がわかる場合は正規分布 例 P91 母分散がわからない場合は t 分布 t- 分布は正規分布とよく似た形態をとる nが30 以上になるとほとんど正規分布となる
t ー分布で自由度 n= 正規分布と同じ 母分散がわからない場合の母平均を推定 t- 分布を利用する
P96 例題実習 1) 歯肉の良い者指導を受けた者では45/53 受けない者 18/55 2)2 2 分割表を作る 3) 仮説を立てる ( 関係がない 差はないとする ) 4) 仮説どおりなら 期待値理論値を求める ( 表 6-6)
5 5) 教科書のように計算すると 表を二 つ作る必要がある それで 一般式を用いることにする ΧΧ= (ad-bc)(ad-bc)(a+b+c+d)/ (a+c)(b+ d)(a +b)(c +d)
(45 37-8 18) 二乗 108/ 63 45 53 55 =1521 1521 108/8526375 =249851628/8526375 =29,30
表を読むと 29 3 は危険率 1% の値 10,8277 をはるかに超えている つまり この仮説 ( 関係がない 差がない ) は実際は起こりえない事象であるといえる ということは 関係がある差があると言うことになる 試験問題は P214 の例題 4 から出します 実際にやってみましょう!
重要です第三 4 分位