Microsoft Word - 保健医療統計学112817完成版.docx

Similar documents
平均値 () 次のデータは, ある高校生 7 人が ヵ月にカレーライスを食べた回数 x を調べたものである 0,8,4,6,9,5,7 ( 回 ) このデータの平均値 x を求めよ () 右の表から, テレビをみた時間 x の平均値を求めよ 階級 ( 分 ) 階級値度数 x( 分 ) f( 人 )

Microsoft Word - lec_student-chp3_1-representative

経営統計学

散布度

Excelによる統計分析検定_知識編_小塚明_1_4章.indd

情報工学概論

ビジネス統計 統計基礎とエクセル分析 正誤表

Microsoft PowerPoint - A1.ppt [互換モード]

EBNと疫学

. 測定方法 7 尺度化 ( 数値化 ) 8 絶対判断 評点法採点法カテゴリー尺度法 図示法 / 線分法 心理物理学的測定法 相対判断 分類法 格付け分類法 順位法 一対比較法 リッカート法 カテゴリー尺度法 / 評定尺度法 あなたは ですか? 9 SD(Semantic Differential)

基礎統計

(3) 検定統計量の有意確率にもとづく仮説の採否データから有意確率 (significant probability, p 値 ) を求め 有意水準と照合する 有意確率とは データの分析によって得られた統計値が偶然おこる確率のこと あらかじめ設定した有意確率より低い場合は 帰無仮説を棄却して対立仮説

Microsoft PowerPoint ppt

PowerPoint プレゼンテーション

スライド 1

Microsoft Word - Stattext13.doc

Microsoft PowerPoint - データ解析基礎2.ppt

Medical3

第 3 回講義の項目と概要 統計的手法入門 : 品質のばらつきを解析する 平均と標準偏差 (P30) a) データは平均を見ただけではわからない 平均が同じだからといって 同一視してはいけない b) データのばらつきを示す 標準偏差 にも注目しよう c) 平均

スライド 1

Medical3

Microsoft PowerPoint - 代表値と散布度.ppt [互換モード]

第4回

Microsoft PowerPoint - sc7.ppt [互換モード]

Microsoft Word - å“Ÿåłžå¸°173.docx

Microsoft Word - Stattext12.doc

これに対する度数分布表は次のようになる : 階級 階級値 度数 相対度数 累積度数 累積相対度数 ( 以上 ) ~ ( 未満 ) 0 ~ (3/50 = ) ~ (2/50 = ) ~ (6/5

<4D F736F F F696E74202D B835E82CC8EED97DE B835E82CC834F BB F0955C82B793C190AB926C>

PowerPoint プレゼンテーション

<4D F736F F D208D A778D5A8A778F4B8E7793B CC A7795D2816A2E646F6378>

目次 1 章 SPSS の基礎 基本 はじめに 基本操作方法 章データの編集 はじめに 値ラベルの利用 計算結果に基づく新変数の作成 値のグループ化 値の昇順

青焼 1章[15-52].indd

統計学 - 社会統計の基礎 - 正規分布 標準正規分布累積分布関数の逆関数 t 分布正規分布に従うサンプルの平均の信頼区間 担当 : 岸 康人 資料ページ :

基礎統計

Microsoft PowerPoint - 測量学.ppt [互換モード]

自動車感性評価学 1. 二項検定 内容 2 3. 質的データの解析方法 1 ( 名義尺度 ) 2.χ 2 検定 タイプ 1. 二項検定 官能検査における分類データの解析法 識別できるかを調べる 嗜好に差があるかを調べる 2 点比較法 2 点識別法 2 点嗜好法 3 点比較法 3 点識別法 3 点嗜好

0415

Microsoft Word - apstattext04.docx

1.民営化

MedicalStatisticsForAll.indd

はじめに Excel における計算式の入力方法の基礎 Excel では計算式を入力することで様々な計算を行うことができる 例えば はセルに =SQRT((4^2)/3+3*5-2) と入力することで算出される ( 答え ) どのような数式が使えるかは 数式

Microsoft PowerPoint - R-stat-intro_04.ppt [互換モード]

日心TWS

モジュール1のまとめ

EBNと疫学

Microsoft PowerPoint - 統計科学研究所_R_重回帰分析_変数選択_2.ppt

【指導のポイント】

多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典

Microsoft PowerPoint - 基礎・経済統計6.ppt

Microsoft PowerPoint - e-stat(OLS).pptx

JMP による 2 群間の比較 SAS Institute Japan 株式会社 JMP ジャパン事業部 2008 年 3 月 JMP で t 検定や Wilcoxon 検定はどのメニューで実行できるのか または検定を行う際の前提条件の評価 ( 正規性 等分散性 ) はどのメニューで実行できるのかと

Blue circle & gradation

簿記教育における習熟度別クラス編成 簿記教育における習熟度別クラス編成 濱田峰子 要旨 近年 学生の多様化に伴い きめ細やかな個別対応や対話型授業が可能な少人数の習熟度別クラス編成の重要性が増している そのため 本学では入学時にプレイスメントテストを実施し 国語 数学 英語の 3 教科については習熟

Microsoft Word - Stattext11.doc

RSS Higher Certificate in Statistics, Specimen A Module 3: Basic Statistical Methods Solutions Question 1 (i) 帰無仮説 : 200C と 250C において鉄鋼の破壊応力の母平均には違いはな

異文化言語教育評価論 ⅠA 第 4 章分散分析 (3 グループ以上の平均を比較する ) 平成 26 年 5 月 14 日 報告者 :D.M. K.S. 4-1 分散分析とは 検定の多重性 t 検定 2 群の平均値を比較する場合の手法分散分析 3 群以上の平均を比較する場合の手法 t 検定

講義ノート p.2 データの視覚化ヒストグラムの作成直感的な把握のために重要入力間違いがないか確認するデータの分布を把握する fig. ヒストグラムの作成 fig. ヒストグラムの出力例 度数分布表の作成 データの度数を把握する 入力間違いが無いかの確認にも便利 fig. 度数分布表の作成

Microsoft Word - SPSS2007s5.doc

Microsoft PowerPoint - データ解析基礎4.ppt [互換モード]

データ 統計 情報 計算 分析 ( 数量的情報 定性的情報 ) 上の図にもあるように 統計学 の目的の一つとして データ ( 中学校では資料と呼んでいた ) や 統計 を正しく分析し 我々の判断や 行動に役立つ 情報 を導き出す力を養うことが挙げられる ( 度数分布表とヒストグラム ) 1 年 A

Microsoft PowerPoint - 医学統計のつぼ.ppt

PowerPoint プレゼンテーション

Microsoft PowerPoint - Statistics[B]

経済統計分析1 イントロダクション

Microsoft PowerPoint - 資料04 重回帰分析.ppt

したがって ばらつきを表すには 偏差の符号をなくしてから平均化する必要がある そのひとつの方法は 1 偏差の絶対値を用いることである 偏差の絶対値の算術平均を 平均偏差 という ( )/5=10.8 偏差の符号を取るもうひとつの方法は 2それを2 乗することです 偏差の2 乗の算

Chapter 1 Epidemiological Terminology

Python-statistics5 Python で統計学を学ぶ (5) この内容は山田 杉澤 村井 (2008) R によるやさしい統計学 (

ファイナンスのための数学基礎 第1回 オリエンテーション、ベクトル

講義「○○○○」

スライド 1

テレビ学習メモ 数学 Ⅰ 第 40 回 第 5 章データの分析 相関係数 監修 執筆 湯浅弘一 今回学ぶこと データの分析の最終回 今までの代表値を複合し ながら 2 種類のデータの関係を数値化します 相関係数は 相関がどの程度強いのかを表しています 学習のポイント 12 種類のデータの相関関係を

学力スタンダード(様式1)

夏期講習高 センター数学 ⅠA テキスト第 講 [] 人の生徒に数学のテストを行った 次の表 は, その結果である ただし, 表 の数値はすべて正確な値であるとして解答せよ 表 数学のテストの得点 次

stat-base_ppt [互換モード]

際 正規分布に従わない観測値に対して通常の t 検定を適用した場合 どのような不都合が生じるかを考える 一般に通常の t 検定や Wilcoxon 検定などの仮説検定を行う場合 2つの処理の間に差がないことが真実であるにもかかわらず差があると主張する過誤確率 ( 第 1 種の過誤確率 ) 2つの処理

統計的データ解析

森林水文 水資源学 2 2. 水文統計 豪雨があった時, 新聞やテレビのニュースで 50 年に一度の大雨だった などと報告されることがある. 今争点となっている川辺川ダムは,80 年に 1 回の洪水を想定して治水計画が立てられている. 畑地かんがいでは,10 年に 1 回の渇水を対象として計画が立て

3章 度数分布とヒストグラム

相関分析・偏相関分析

1. 多変量解析の基本的な概念 1. 多変量解析の基本的な概念 1.1 多変量解析の目的 人間のデータは多変量データが多いので多変量解析が有用 特性概括評価特性概括評価 症 例 主 治 医 の 主 観 症 例 主 治 医 の 主 観 単変量解析 客観的規準のある要約多変量解析 要約値 客観的規準のな

Microsoft Word - mstattext02.docx

Microsoft PowerPoint - statistics pptx

統計学の基礎から学ぶ実験計画法ー1

代表値

<4D F736F F D208EC08CB18C7689E68A E F193F18D8095AA957A C C839395AA957A814590B38B4B95AA957A2E646F63>

数値計算法

CAEシミュレーションツールを用いた統計の基礎教育 | (株)日科技研

Microsoft PowerPoint - 11統計の分析と利用_1-1.pptx

Microsoft Word - Stattext07.doc

ANOVA

数表 4-1. つづき i\n

Microsoft PowerPoint - CVM.ppt [互換モード]

確率分布 - 確率と計算 1 6 回に 1 回の割合で 1 の目が出るさいころがある. このさいころを 6 回投げたとき,1 度も 1 の目が出ない確率を求めよ. 5 6 /6 6 =15625/46656= (5/6) 6 = ある市の気象観測所での記録では, 毎年雨の降る

3章 度数分布とヒストグラム

異文化言語教育評価論 ⅠA 教育 心理系研究のためのデータ分析入門 第 3 章 t 検定 (2 変数間の平均の差を分析 ) 平成 26 年 5 月 7 日 報告者 :M.S. I.N. 3-1 統計的検定 統計的検定 : 設定した仮説にもとづいて集めた標本を確率論の観点から分析し 仮説検証を行うこと

Microsoft Word - apstattext05.docx

stat-base [互換モード]

切片 ( 定数項 ) ダミー 以下の単回帰モデルを考えよう これは賃金と就業年数の関係を分析している : ( 賃金関数 ) ここで Y i = α + β X i + u i, i =1,, n, u i ~ i.i.d. N(0, σ 2 ) Y i : 賃金の対数値, X i : 就業年数. (

Microsoft Word - appendix_b

Transcription:

講義で使用するので テキスト ( 地域診断のすすめ方 ) を必ず持参すること 5 4 統計処理のすすめ方 ( テキスト P. 134 136) 1. 6つのステップ 分布を知る ( 度数分布表 ヒストグラム ) 基礎統計量を求める Ø 代表値 Ø バラツキ : 範囲 ( 最大値 最小値 四分位偏位 ) 分散 標準偏差 標準誤差 集計する ( 単純集計 クロス集計 ) 母集団の情報を推定する ( 母平均 母比率など ) 差の検定 ( パラメトリック検定 ノンパラメトリック検定など ) 結果の意味を解釈する ( 偶然 バイアス 交絡因子 サンプル数 ) (P. 139) 2. 平均値の落とし穴とりあえず平均値をとればいいと思うかもしれないが ケースによっては平均値ではデータの分布を正しく反映していない場合が出てくる 例えば 5 名のスコア ( 点数 ) があったとする 100 110 105 115 120 1

この場合 平均値は 110 になる ここに 190 という数字が加わったとするとどうなるであろうか? 平均値は 150 となり 平均値の近くにはあまり観測値がないことになる 極端に大きな観測値や小さな観測値 ( はずれ値という ) が含まれていると その影響を強く受けてしまうことを認識しておく必要がある こうした現象を見抜くにはデータの分布を見ることが大切である 3. データの分布をみる階級 : 変数が取る値の範囲をグループ分けしたそれぞれの区間のこと 度数 ( 頻度 ): 階級に含まれる観測値の個数をその階級の度数という 度数分布 : 階級ごとに度数を整理したものであり その表のことを度数分布表という 相対度数 : 階級の度数 度数の合計で求められる 相対度数を小さい階級から合計して得られるものは累積相対度数という ( 累積度数分布図のイメージ ): パーセンタイル図ともいう 度数分布表 ヒストグラムのイメージ 2

問題 1 あるクラスで通学時間を調べたところ 次のような度数分布表が得られた 通学時間 ( 分 ) 度数 0 2 3 2 4 7 4 6 10 6 8 6 8 10 2 10 12 3 12 14 2 14 16 1 16 18 0 18 20 1 合計 35 問. この度数分布表を使って描かれたヒストグラムとして適切なのはどれか 3

4. 代表値とは?(P. 148 151) 一般に知られている代表値としては3つあり 平均値 中央値 最頻値である 4-1 平均値観測値 観測値の個数で定義される ただし はずれ値の影響を受けるので代表性の解釈には注意を要する 4-2 中央値中位数 メジアン メディアンという はずれ値の影響を受けにくいという点で平均値とは異なる性質を有している n が奇数の場合は (n+1/2) を中央値とし n が偶数の場合は (n/2) と (n/2+1) の平均を中央値とする 4-3 最頻値 モードともいう 最も頻繁に出現する値を意味する 問題 2 次は 10 名の学生が読んだ本の数を示すデータである 5 5 5 10 10 10 10 15 20 50( 冊 ) このデータに関する記述として 誤っているのはどれか a. 中央値は 15( 冊 ) である b. 平均値は 14 である c. 最頻値は 10 である d. 最大値は 50 である 4

5. 分位数と箱ひげ図分位数とはデータを大きさの順に並べ データ全体をいくつかのグループに観測値の個数で等分した際の境界となる値である データ全体を 4 等分した場合の四分位数はよく使われる また 最小値 第 1 四分位数 (Q1) 第 2 四分位数 ( 中央値 )(Q2) 第 3 四分位数 (Q3) 最大値の5つの数をまとめて 5 数要約といい 分布の形状を判断するために用いられる 7. はずれ値 ( 外れ値 ) IQR:Inter-Quartile Range の略 Q3 Q1 のこと 四分位範囲ともいう はずれ値とは 他の観測値と比べて大きくはずれた観測値のことをいう 箱ひげ図は はずれ値を検出するための簡易な手法であり 四分位範囲 (Q3 Q1) の 1.5 倍よりも外 5

側に離れている観測値をはずれ値という 問題 3 次のデータはあるクラスの 20 人の通学時間の測定結果である 56 24 32 19 33 60 31 23 22 87 45 47 12 28 7 12 43 32 101 26 平均値は 37.0 分 第 1 四分位数 22.5 分 第 2 四分位数 31.5 分 第 3 四分位数 46.0 分 最小値 7 分 最大値 101 分である 箱ひげ図を利用してはずれ値の検出を行い その結果を述べよ 解答 IQR= 46 22.5= 23.5 Q3+1.5 IQR= 46+1.5 23.5= 81.25 よって 87 分と 101 分がはずれ値となる 低い方の外れ値はマイナス値になるのでこの場合はあり得ない 6. 正規分布 6

データが左右対称で 1つの山型の分布に従う場合 正規分布に従う という 人の身長やよく管理された製品の寸法の分布などは正規分布に近いとされる 正規分布の検定にはいくつかあるが Kolmogorov-Smirnov 検定などが代表的 正規分布では 平均値 中央値 最頻値は一致する また 正規分布の場合 理論上 以下の特徴がある 1) 平均値 標準偏差 (SD) から平均値 +SD の間にデータ全体の約 68% が存在する 2) 平均値 2SD から平均値 +2SD の間にデータ全体の約 95% が存在する 3) 平均値 3SD から平均値 +3SD の間にデータ全体の約 99.7% が存在する 7. 分散 標準偏差について 偏差 = 観測値 - 平均値 =xi x 偏差が正の値のときは xi>x 負の値のときは xi<x を意味する 定義より偏差の合計は 0 となる 分散 (s 2 ) = 偏差を平方した値の平均値 % & & )*% xi x ( 標準偏差 (s) = 分散の正の平方根 7

問題 4 学生 点数 偏差 偏差の 2 乗 1 82 13.1 171.61 2 91 22.1 488.41 3 38-30.9 954.81. 20 69 0.1 0.01 合計 1378 0 5929.80 平均 68.9 0 296.49 この得点の標準偏差はいくらか 1. 5929.80 2. 296.49 3. 296.49 = 17.22 4. この情報だけでは求められない 8. スキューネスとカルトシス 検定ではないが 正規性があるかどうかの傾向をみる場合 Skewness や Kurtosis と いった指標がある わいど 1)Skewness( 歪度 ): 分布の左右対称性の違いをみる 正規分布のように左右対称の とき歪度 =0( ゼロ ) となる 右に裾が長い分布では歪度は正の値を 左に裾が長 い分布では負の値になる せんど 2)Kurtosis( 尖度 ): 分布の山が一つ ( 単峰 ) であるとき 山のとがり度と裾の広が りを示す値として尖度 ( とがり度 ) がある 正規分布では必ず尖度 =0 となる 正 8

規分布との比較で とがっていて裾の長い分布の尖度は正の値となる 一様分布や ドーム型の分布のように裾の短い分布の尖度は負の値になる なお 正規分布の尖度を 3 とする定義もあるので注意 9. クロス集計 (P. 163 168) 行 と 列 の要因別に集計することをクロス集計という 例 下宿 自宅 男 110 214 女 30 290 ( テキスト P. 168) 9

クロス集計を用いた検定として χ 2 ( カイ 2 乗 ) 検定がある CBT 問題から 無作為抽出した標本に同一の食品を摂取させ アンケートに回答してもらった結果を表 に示す 好き 嫌い 男 30 人 70 人 女 60 人 40 人 この結果から食品の好き嫌いが性別によって影響されているか否かを分析する方法は どれか A t 検定 B U 検定 C χ2 検定 D 相関分析 E 分散分析 10

また 類似した検定として フィッシャーの直接確率検定 (Fisher s exact test) が ある この検定は 1 つのセル内の数値が 5 以下の場合に適用される 10. ノンパラかパラか 検定法の選択 ポイントとしては 正規分布に従うかどうか 2 群間の比較なのか 3 群間以上の比較 なのか を考慮して選択する t ANOVA Mann-Whitney U 2 Kruscal-Wallis 3 11. その他の解析方法 (P. 136) 1) 相関分析相関の強さは相関係数によって求められ ピアソン積率相関係数とスピアマン順位相関係数などがある 相関係数は 1から1の間の値をとる 相関係数の値の正負は 正の相関 負の相関を示し 値の絶対値が大きいほど強い相関といえる 目安としては 相関係数が 0.4 0.7 の場合弱い相関 0.7 1の場合強い相関としていることが多い 例 2) 単回帰分析 単回帰分析は回帰分析の中で最も単純なモデルであり 目的変数 ( 従属変数ともいう ) y の値を 1 つの説明変数 ( 独立変数ともいう )x の一次式 (y = ax + b) で予測する分析 11

方法である この場合 目的変数および説明変数は連続変数を用いる 3) 重回帰分析 単回帰分析の応用編で 複数の説明変数 x1, x2,,,, xi を組み合わせて 1 つの目的変数 y を予測する方法である 変数は連続変数を用いる 4) ロジスティック回帰分析 回帰分析の一つだが 目的変数が 成功 失敗 や 生存 死亡 といった 2 値 (0 か 1 の変量 ) のデータである場合に用いる方法である 12. 第 1 種の過誤 (αエラー) 第 2 種の過誤 (βエラー)(p. 135) αエラーとは 差がないのに差があると誤ってしまうこと βエラーとは 差があるのに差がないと見逃してしまうこと βエラーはサンプルサイズが小さいと起こりやすい α β α α β β 13. データの解釈検定の結果 有意差があったかどうかだけをみるのではなく 例えば バイアス ( 対象者の選択バイアス 報告バイアス ) の有無 交絡因子 ( 原因と結果の両方の要因に関係する要因の影響 ) の有無 標本数 ( サンプルサイズ ) は十分だったか などについて検討することが必要である 12

Selection bias Information bias 補足 パソコン用統計関連ソフト (P. 136) 代表的なのは SPSS( エスピーエスエス ) や SAS( サス ) だが 他にも STATA や JMP などもある また フリーソフトで R( アール ) js-star などもある これらは通常 エクセルに入力されたデータを読み取る形で使用する 統計専用ソフトがなくてもエクセルがあれば エクセル統計 ( 社会情報サービス ) を購入すればほとんどの統計分析が可能となる 参考文献 1) データの分析 日本統計学会編 東京図書. 13