したがってばらつきを表すには偏差の符号をなくしてから平均化する必要があるそのひとつの方法は 1 偏差の絶対値を用いることである偏差の絶対値の算術平均を平均偏差という ( )/5=10.8 偏差の符号を取るもうひとつの方法は 2それを2 乗することです偏差の2 乗の算

統計学テキストの69ページに平均偏差分散標準偏差変動係数標準誤差信頼区間に関する記述がある分布を考える分布の中心の位置 ( 例 ) 65 53 44 78 50 の数値の算術平均は (65+53+44+78+50)/5=58 である此れだけでは分布の状態がわからないばらつきの程度を表すには最大値と最小値との差 (78-44)=34 これをレンジ ( 範囲 ) と言うしかし両端の数字だけではその間にある分布状態は少しも反映されていないすべての点の分布状態を反映させるには, 各点の重心 ( 算術平均 ) からの距離を測れば良いしかしそれぞれの数値から算術平均を引いた値 ( 偏差と言う) を加えるとゼロになってしまう 65-58=7 53-58=-5 44-58=-14 78-58=20 50-58=-8 7+(-5)+(-14)+20+(-8)=0

したがってばらつきを表すには偏差の符号をなくしてから平均化する必要があるそのひとつの方法は 1 偏差の絶対値を用いることである偏差の絶対値の算術平均を平均偏差という (7+5+14+20+8)/5=10.8 偏差の符号を取るもうひとつの方法は 2それを2 乗することです偏差の2 乗の算術平均を計算し此れによりばらつきの程度を測ることが出きる此れを分散というしかし, 分散は 2 乗するためもとの数字より高い次元の量を表してしまう 3 与えられた数字と同じ次元の量としてばらつきを表すためには分散の平方根を用いれば良い標準偏差とは分散の平方根平均偏差 = 偏差の絶対値の算術平均分散 = 偏差の2 乗の算術平均標準偏差 = 分散の平方根計算してみると分散 =146.8 標準偏差 = 146.8=12.1 偏差平方和 (S)= 偏差の 2 乗の和分散 (V) s2=s/(n-1) 標準偏差 =s= S/(n-1) なぜ n でなく (n-1) で割るのか母集団と標本を区別する時標本の分散は (n-1)( 自由度と言う ) で割っておいたほうが母集団の分散の推定値としてより好ましい性質を持つからです

正規分布 (Normal distribution) 正規分布は平均値と分散を決めればその形が決まる平均値 µ を中心として左右対称である標準偏差 σは曲線の形を決める σの値が大きければ曲線は扁平になり値が小さければ狭く高くなるどの場合も µ-σと µ+σにおける曲線状の点は編曲点となる µ+σ µ σの間の正規曲線下の面積は全面積の約 68% ±2σ 約 95% ±3σ 約 99.7% 標準誤差平均値のばらつきを示す推定値 Xの標本分布が近似的に正規分布とみなされる時はこの標本の平均値, 分散, 標準偏差をE X V X δxと表す仮に目指す母数 AがE X に等しいか, 其れにごく近いとすると X-1.96δx A X+1.96δx 此れがAの信頼率 95% の信頼区間になるつまり信頼率 95% で差 (X-A) の標本誤差はせいぜい ±1.96δx であると言える母数 AとE X が等しいと言う仮定では δxの値を評価できれば推計値 X の標本誤差の程度を知ることができる事になるその意味でこのδxのことを標準誤差とも言う問題は標準誤差 δx その2 乗である分散 V X をどう評価するかである其れは抽出方式推定方式によって異なる

標本調査母集団と標本母集団標本全数調査標本調査標本抽出母集団から標本を抽出することその際母集団と等しい確率を持った標本を得るために無作為抽出 (random sampling) などが用いられる

標本抽出法 1 単純無作為抽出法母集団の対象を一連の番号化し乱数表を用いる例題 600 人から 30 人の標本を作る場合 ⅰ)600 人に番号をつける ⅱ) 一様乱数表を用いる (0から9までの数字がどの数字も10 分の 1の確率で無作為に出現している表デス ) ⅲ) 最初の番号を決める ( 正 20 面体の乱数さいころなどを使う 3 個 ) 00 行の 00 列と言う具合です ⅳ) 方向を決める ( 上でも下でも斜めでも良い ) ⅴ) たとえば最初に第 10 行第 21 列と決まるとこの場合は3 桁の数字を読むとすれば 863を得るここを出発として下へ30 個拾い上げると 562,603,813 と続く事になります

2 系統抽出法最初の数字を乱数表で決める ( この場合 600 30=20だから 1から20までの数字になるように乱数表で決めると言うこと ) 次には最初の数字例えば4なら20づつ足して 24 44 64,84 と 30 人を選ぶ 3 集落抽出法事前に母集団に似たいくつかの小集団を作っておくその手段を無作為に抽出する方法 4 層別抽出法属性の似た者をいくつかの層に母集団を別けておきその各層ごとに無作為抽出する例えば 20 歳代 30 歳代の年齢別の層など 5 多段抽出法母集団を一定の抽出単位に別けておく例えば日本を県単位市町村単位町内単位各世帯に

度数分布データの整理内容を把握しやすくする度数分布が代表的データを小さいものから大きいものに順次並び替えるそれをいくつかの階級に別ける各階級にどのように分布するかを調べる度数各階級に属するデータの数累積度数最初から順番に足してその階級のでの累積数をいうヒストグラム縦軸に度数横軸に階級とした図形階級の数は 10こ前後が良い

累積相対度数相対度数相対度数 (%) 各階級の度数を総度数で割った値累積相対度数 (%) 各階級の累積度数を総度数で割った値この累積相対度数をもとに縦に百分率横に階級を取った図累積相対度数グラフにおいて 50% にあたる当るデータは中央値となるこれを 50 パーセンタイル値 (percentile) とよぶ 25 75 パーセンタイル値は 4 分位 (quartile) 具体的例題は歯科衛生統計テキスト P66 表 5-2,3

平均値中央値小さいほうから順位並べた時の中央値累積相対度数の 50 パーセンタイル値最頻値度数分布においては度数の一番多い階級の中央値

標準偏差 (standard deviation) データのちらばり方を表す代表的値前出 ( プリント参照 ) 標準偏差変異係数 (CV) N で割ると標準誤差二つのサンプルのばらつきを比較するとき通常は標準偏差で充分比較できるが平均値に大きな差があるときは標準偏差も差が生まれてくるのでこのような場合はCVの方が適している CV=( 標準偏差 / 平均 ) 100(%)

カイ二乗検定この検定を採用するケースのイメージハイイイエとか 1 or 0 とか体重とか身長のようにある程度自由に変化する数字ではなく 2 つまたは 3,4 個くらいしか選べない中での標本の検定に使う

標本百分率の差の検定 A B 二つの工場の社員を対象にアンケート調査を実施した歯磨きに関する項目で時間をかけて丁寧に磨いているか否かを ( ハイイイエ ) 形式で調べた結果が下記にある両工場において差があるかを検定しなさい 2 2 分割表とカイ二乗分布表を利用するハイイイエ A 工場 10 40 (1 50 ) B 工場 15 35 (2 50 ) (3 25 ) (4 75 ) (5 100 ) カイ二乗 =(6 10 35-7 40 15 )2 (8 10 0)/(9 25 75 50 50 ) =(10 1,33 ) 計算した結果を比較するカイ二乗分布表では自由度 1の有意水準 5% と1% を見ると3,841 と 6,635 であるので有意の差が (11 ない ) となる

このケースは有意の差がないならばどのようになっていれば有意の差がある? A 工場 10 40 (1 50 ) B 工場 15 35 (2 50 ) (3 25 ) (4 75 ) (5 100 ) カイ二乗 =(6 10 35-7 40 15 )2 (8 1 00)/(9 25 75 50 50 ) =(10 1,33 )

一般式から疾病 ( 歯磨き ) ありなし合計要因 A 工場 a b a+b B 工場 c d c+d (a+c) (b+d) (a+b+c+d) カイ二乗 = (ad ー bc)2 乗 (a+b+c+d)/(a+c) (b+d) (a+b) (c+d) 1 同じ率でもサンプル数が 2 倍なら?4 倍なら? 2 (ad ー bc)2 乗の値が大きくなるようにする

1 人数を大きくする A~d を各 2a~2d とする (ad ー bc)2 乗 (a+b+c+d)/(a+c) (b+d) (a+b) (c+d) {(ad ー bc) (2 2)}2 乗 (a+b+c+d) 2/ (a+c) (b+d) (a+b) (c+d) 2 2 2 2 結局 16 2/16=2 結果の数字は 2 倍になるサンプル数が N 倍なら値も N 倍になる同じ比率でもこのままの比率で 4 倍の人数なら 1.33 4=5,32 となり有意の差がある

2 a d-c b) の値を大きくする (ad ー bc)2 乗 (a+b+c+d)/(a+c) (b+d) (a+b) (c+d) (ad ー bc)2 乗 a と d が大きければいいを大きくすると言うことはつまり a= 要因ありで疾病があるケースが多いこと b= 要因なしで疾病がないケースが多いこと当たり前のことだが両極端に分かれた状態なら優位の差があるということでこれは一目瞭然で検定する以前に直感的に察知できる

大数の法則調査する集団の特徴に関しては調査量を大きくすれば ( 大標本 ) より明確なものが得られる分散平均値など一方大標本を前提としないで小標本から母集団の知識を導こうとする推計的な手段がある ex) 標本からの母集団の平均標本間の検定割合の差の検定など

1) 度数分布 ( テキストの 20 ページ ) 度数分布表の作り方 1) 最大値と最小値を求める 2) 範囲を算出する 3) 階級の数を決める普通は 10 こ前後に 1 シャリエの方法 ( 大標本 ) 階級の幅を標準偏差の 1/3 に 2 フィシャーの方法 ( 小標本 ) 階級の幅を標準偏差の 1/4 に一般的には小標本は標準偏差の値が大きく出るので 1/3 だと幅が大きすぎる

2) 代表値平均値算術平均幾何平均 ( あまり使われない ) 中央値最頻度 ( モード流行値 M0) 百分位 ( パーセンタイル P) テキストの 21 ページ

3) ばらつき 4 変異係数分散や標準偏差を 2 つ以上の集団で比較するとき平均値や単位が著しく異なっているとき変異係数を用いたほうが理解しやすい ( 表 5-5) ( 例人のジャンプと蚤のジャンプ ) CV= 標準偏差 / 平均値

4) 相関テキストの 22 ページ二つの事象において一方が変化すると他方も変化すると言う関係を表すもの例えば身長と体重勉強時間と試験の成績しかし二つの事象の関係でもその数量が 3 とか 4 等と少なく限られているものはこの方法には適さない

4) 相関二つの事象において一方が変化すると他方も変化すると言う関係を表すもの例えば身長と体重勉強時間と試験の成績しかし二つの事象の関係でもその数量が 3 とか 4 等と少なく限られているものはこの方法には適さない

相関係数相関係数 ;r は -1 から +1 までの値をとる 0 から 0,2 ほとんど相関がない 0,2 から 0,4 やや関係あり 0,4 から 0,7 かなり相関がある 0,7 から 1.0 強い相関がある

相関とカイ二乗分布検定テキストの 24 ページ相関に適さない場合良い悪いとか赤白黒などの性質が含まれるときたとえ関係する二つの事象が数字であってもその数量地が 0 1.2 等の 3 種類と少ない場合このような時はカイ二乗検定がふさわしいグラフにプロットすると可能性的には無限にプロットするポイントがあることが望ましい

5) 回帰直線図 5-4 のように X と Y の両者の関係において両者の関係を一次関数で表したもの

第 6 章推定と検定推測統計標本が正しく抽出されていれば 1 標本から母集団の値を推定することは可能 2 標本相互の値を比較することで母集団に差があるのかを比較することが可能しかし正確な標本抽出ができないような場合は記述統計手段 ( 度数分布分散相関回帰直線など ) で終わるほうが適切である

差の検定 ( 超大切デス ) 1 差はないという仮説を立てる 2 実際に得られた差が偶然である確率を求める 3その確率が5% 以下なら危険率 5% で有意の差を認める

検定推計とは母数に対して何の予備知識もなく, その値はいくらであるかを知ろうとするものであるが検定では母数に対して何らかの予想を持っていて, 其れを仮説と言う形で表しその真偽を標本 ( サンプル ) に基づいて検証しようとするものである母平均の検定大標本の場合母集団の分布が正規分布に近いと想定される時の検定サンプル数 n 30 そうでない時でも n 50 として良い z=(x-µ)/δ n 値を求めて正規分布表をみれば解るそうでなくても危険率 α=0.05になる値 (2Sd)1.96 α=0.01になる値 (3Sd)2.576 をあらかじめ知っておけば即, 判定できる小標本の場合母集団の標準偏差が未知でかつ標本の数が小さい場合 t 分布 t 検定を用いる t 表を用いる分散に関する推定と検定 ( カイ2 乗 ) χ2 乗分布,χ2 乗検定 χ2

推定検定を行うとき一般的には 1 平均値は正規分布か t ー分布を利用する 2 割合カイ二乗分布 3 分散分析 F- 分布

1 標本平均からの推定と検定図 6-1 正しい抽出法により得られた標本の平均値はおそらく母集団の平均値と非常に近い値を示すだろうしかし必ず同一となるとは限らないそれでも図 6-1のようにどのような母集団からでも標本の平均値は母集団の平均値を中心に一つの分布を形成するこのとき標本の数が 30 以上の大標本は正規分布をする ( 中心極限定理 )

2 標準誤差標本の標準偏差は特に標準誤差 (SE) ともいう SE=σ/ n

3 不偏分散 ( 標本の分散 ) 母集団の母分散 (σ 二乗 ) は実際にはわからないことが多いこのとき標本の分散 (S 二乗 ) をデータから得て使用する不偏分散という σ と S の違いは n で割るか (n ー 1) で割るかの違いこの (n ー 1) を d f(degree of freedom) という

1) 標本平均からの推定と検定 1 標本平均からの母平均の推定母分散が解っている場合の母平均の推定母分散がわからない場合の推定 2 標本平均の差の検定大標本平均と母平均の差の検定二つの大標本の検定小標本平均と母平均との差の検定対応ある二つの小標本平均の差の検定対応のない二つの小標本平均の差の検定 2) 標本百分率からの推定と検定 ( テスト ) 3) 実験計画法

標本平均からの母平均の推定母分散がわかっている場合正規分布を使う

信頼限界 95% 99% 一般的に信頼限界は95% または99% で推計することが多い大雑把に ±2SE の範囲は 95,4% だから 2SE を使っても良いが正確には 95% 信頼限界は母集団の平均値 = 標本平均 ±1,96SE 99% 信頼限界は母集団の平均 = 標本平均 ±2,58SE テキストの 71 ページ信頼区間を参照

標本平均から母平均の推定母分散が分からない場合 t ー分布を使う

t 分布母分散がわかる場合は正規分布例 P91 母分散がわからない場合は t 分布 t- 分布は正規分布とよく似た形態をとる nが30 以上になるとほとんど正規分布となる

t ー分布で自由度 n= 正規分布と同じ母分散がわからない場合の母平均を推定 t- 分布を利用する

P96 例題実習 1) 歯肉の良い者指導を受けた者では45/53 受けない者 18/55 2)2 2 分割表を作る 3) 仮説を立てる ( 関係がない差はないとする ) 4) 仮説どおりなら期待値理論値を求める ( 表 6-6)

5 5) 教科書のように計算すると表を二つ作る必要があるそれで一般式を用いることにする ΧΧ= (ad-bc)(ad-bc)(a+b+c+d)/ (a+c)(b+ d)(a +b)(c +d)

(45 37-8 18) 二乗 108/ 63 45 53 55 =1521 1521 108/8526375 =249851628/8526375 =29,30

表を読むと 29 3 は危険率 1% の値 10,8277 をはるかに超えているつまりこの仮説 ( 関係がない差がない ) は実際は起こりえない事象であるといえるということは関係がある差があると言うことになる試験問題は P214 の例題 4 から出します実際にやってみましょう!

重要です第三 4 分位