Microsoft Word - 保健医療統計学112817完成版.docx

講義で使用するのでテキスト ( 地域診断のすすめ方 ) を必ず持参すること 5 4 統計処理のすすめ方 ( テキスト P. 134 136) 1. 6つのステップ分布を知る ( 度数分布表ヒストグラム ) 基礎統計量を求める Ø 代表値 Ø バラツキ : 範囲 ( 最大値最小値四分位偏位 ) 分散標準偏差標準誤差集計する ( 単純集計クロス集計 ) 母集団の情報を推定する ( 母平均母比率など ) 差の検定 ( パラメトリック検定ノンパラメトリック検定など ) 結果の意味を解釈する ( 偶然バイアス交絡因子サンプル数 ) (P. 139) 2. 平均値の落とし穴とりあえず平均値をとればいいと思うかもしれないがケースによっては平均値ではデータの分布を正しく反映していない場合が出てくる例えば 5 名のスコア ( 点数 ) があったとする 100 110 105 115 120 1

この場合平均値は 110 になるここに 190 という数字が加わったとするとどうなるであろうか? 平均値は 150 となり平均値の近くにはあまり観測値がないことになる極端に大きな観測値や小さな観測値 ( はずれ値という ) が含まれているとその影響を強く受けてしまうことを認識しておく必要があるこうした現象を見抜くにはデータの分布を見ることが大切である 3. データの分布をみる階級 : 変数が取る値の範囲をグループ分けしたそれぞれの区間のこと度数 ( 頻度 ): 階級に含まれる観測値の個数をその階級の度数という度数分布 : 階級ごとに度数を整理したものでありその表のことを度数分布表という相対度数 : 階級の度数度数の合計で求められる相対度数を小さい階級から合計して得られるものは累積相対度数という ( 累積度数分布図のイメージ ): パーセンタイル図ともいう度数分布表ヒストグラムのイメージ 2

問題 1 あるクラスで通学時間を調べたところ次のような度数分布表が得られた通学時間 ( 分 ) 度数 0 2 3 2 4 7 4 6 10 6 8 6 8 10 2 10 12 3 12 14 2 14 16 1 16 18 0 18 20 1 合計 35 問. この度数分布表を使って描かれたヒストグラムとして適切なのはどれか 3

4. 代表値とは?(P. 148 151) 一般に知られている代表値としては3つあり平均値中央値最頻値である 4-1 平均値観測値観測値の個数で定義されるただしはずれ値の影響を受けるので代表性の解釈には注意を要する 4-2 中央値中位数メジアンメディアンというはずれ値の影響を受けにくいという点で平均値とは異なる性質を有している n が奇数の場合は (n+1/2) を中央値とし n が偶数の場合は (n/2) と (n/2+1) の平均を中央値とする 4-3 最頻値モードともいう最も頻繁に出現する値を意味する問題 2 次は 10 名の学生が読んだ本の数を示すデータである 5 5 5 10 10 10 10 15 20 50( 冊 ) このデータに関する記述として誤っているのはどれか a. 中央値は 15( 冊 ) である b. 平均値は 14 である c. 最頻値は 10 である d. 最大値は 50 である 4

5. 分位数と箱ひげ図分位数とはデータを大きさの順に並べデータ全体をいくつかのグループに観測値の個数で等分した際の境界となる値であるデータ全体を 4 等分した場合の四分位数はよく使われるまた最小値第 1 四分位数 (Q1) 第 2 四分位数 ( 中央値 )(Q2) 第 3 四分位数 (Q3) 最大値の5つの数をまとめて 5 数要約といい分布の形状を判断するために用いられる 7. はずれ値 ( 外れ値 ) IQR:Inter-Quartile Range の略 Q3 Q1 のこと四分位範囲ともいうはずれ値とは他の観測値と比べて大きくはずれた観測値のことをいう箱ひげ図ははずれ値を検出するための簡易な手法であり四分位範囲 (Q3 Q1) の 1.5 倍よりも外 5

側に離れている観測値をはずれ値という問題 3 次のデータはあるクラスの 20 人の通学時間の測定結果である 56 24 32 19 33 60 31 23 22 87 45 47 12 28 7 12 43 32 101 26 平均値は 37.0 分第 1 四分位数 22.5 分第 2 四分位数 31.5 分第 3 四分位数 46.0 分最小値 7 分最大値 101 分である箱ひげ図を利用してはずれ値の検出を行いその結果を述べよ解答 IQR= 46 22.5= 23.5 Q3+1.5 IQR= 46+1.5 23.5= 81.25 よって 87 分と 101 分がはずれ値となる低い方の外れ値はマイナス値になるのでこの場合はあり得ない 6. 正規分布 6

データが左右対称で 1つの山型の分布に従う場合正規分布に従うという人の身長やよく管理された製品の寸法の分布などは正規分布に近いとされる正規分布の検定にはいくつかあるが Kolmogorov-Smirnov 検定などが代表的正規分布では平均値中央値最頻値は一致するまた正規分布の場合理論上以下の特徴がある 1) 平均値標準偏差 (SD) から平均値 +SD の間にデータ全体の約 68% が存在する 2) 平均値 2SD から平均値 +2SD の間にデータ全体の約 95% が存在する 3) 平均値 3SD から平均値 +3SD の間にデータ全体の約 99.7% が存在する 7. 分散標準偏差について偏差 = 観測値 - 平均値 =xi x 偏差が正の値のときは xi>x 負の値のときは xi<x を意味する定義より偏差の合計は 0 となる分散 (s 2 ) = 偏差を平方した値の平均値 % & & )*% xi x ( 標準偏差 (s) = 分散の正の平方根 7

問題 4 学生点数偏差偏差の 2 乗 1 82 13.1 171.61 2 91 22.1 488.41 3 38-30.9 954.81. 20 69 0.1 0.01 合計 1378 0 5929.80 平均 68.9 0 296.49 この得点の標準偏差はいくらか 1. 5929.80 2. 296.49 3. 296.49 = 17.22 4. この情報だけでは求められない 8. スキューネスとカルトシス検定ではないが正規性があるかどうかの傾向をみる場合 Skewness や Kurtosis といった指標があるわいど 1)Skewness( 歪度 ): 分布の左右対称性の違いをみる正規分布のように左右対称のとき歪度 =0( ゼロ ) となる右に裾が長い分布では歪度は正の値を左に裾が長い分布では負の値になるせんど 2)Kurtosis( 尖度 ): 分布の山が一つ ( 単峰 ) であるとき山のとがり度と裾の広がりを示す値として尖度 ( とがり度 ) がある正規分布では必ず尖度 =0 となる正 8

規分布との比較でとがっていて裾の長い分布の尖度は正の値となる一様分布やドーム型の分布のように裾の短い分布の尖度は負の値になるなお正規分布の尖度を 3 とする定義もあるので注意 9. クロス集計 (P. 163 168) 行と列の要因別に集計することをクロス集計という例下宿自宅男 110 214 女 30 290 ( テキスト P. 168) 9

クロス集計を用いた検定として χ 2 ( カイ 2 乗 ) 検定がある CBT 問題から無作為抽出した標本に同一の食品を摂取させアンケートに回答してもらった結果を表に示す好き嫌い男 30 人 70 人女 60 人 40 人この結果から食品の好き嫌いが性別によって影響されているか否かを分析する方法はどれか A t 検定 B U 検定 C χ2 検定 D 相関分析 E 分散分析 10

また類似した検定としてフィッシャーの直接確率検定 (Fisher s exact test) があるこの検定は 1 つのセル内の数値が 5 以下の場合に適用される 10. ノンパラかパラか検定法の選択ポイントとしては正規分布に従うかどうか 2 群間の比較なのか 3 群間以上の比較なのかを考慮して選択する t ANOVA Mann-Whitney U 2 Kruscal-Wallis 3 11. その他の解析方法 (P. 136) 1) 相関分析相関の強さは相関係数によって求められピアソン積率相関係数とスピアマン順位相関係数などがある相関係数は 1から1の間の値をとる相関係数の値の正負は正の相関負の相関を示し値の絶対値が大きいほど強い相関といえる目安としては相関係数が 0.4 0.7 の場合弱い相関 0.7 1の場合強い相関としていることが多い例 2) 単回帰分析単回帰分析は回帰分析の中で最も単純なモデルであり目的変数 ( 従属変数ともいう ) y の値を 1 つの説明変数 ( 独立変数ともいう )x の一次式 (y = ax + b) で予測する分析 11

方法であるこの場合目的変数および説明変数は連続変数を用いる 3) 重回帰分析単回帰分析の応用編で複数の説明変数 x1, x2,,,, xi を組み合わせて 1 つの目的変数 y を予測する方法である変数は連続変数を用いる 4) ロジスティック回帰分析回帰分析の一つだが目的変数が成功失敗や生存死亡といった 2 値 (0 か 1 の変量 ) のデータである場合に用いる方法である 12. 第 1 種の過誤 (αエラー) 第 2 種の過誤 (βエラー)(p. 135) αエラーとは差がないのに差があると誤ってしまうこと βエラーとは差があるのに差がないと見逃してしまうこと βエラーはサンプルサイズが小さいと起こりやすい α β α α β β 13. データの解釈検定の結果有意差があったかどうかだけをみるのではなく例えばバイアス ( 対象者の選択バイアス報告バイアス ) の有無交絡因子 ( 原因と結果の両方の要因に関係する要因の影響 ) の有無標本数 ( サンプルサイズ ) は十分だったかなどについて検討することが必要である 12

Selection bias Information bias 補足パソコン用統計関連ソフト (P. 136) 代表的なのは SPSS( エスピーエスエス ) や SAS( サス ) だが他にも STATA や JMP などもあるまたフリーソフトで R( アール ) js-star などもあるこれらは通常エクセルに入力されたデータを読み取る形で使用する統計専用ソフトがなくてもエクセルがあればエクセル統計 ( 社会情報サービス ) を購入すればほとんどの統計分析が可能となる参考文献 1) データの分析日本統計学会編東京図書. 13