本日のテーマ 1. データの分類 2. データを簡単にまとめる (1 変数の場合 ) 特に, 代表値と散布度 3.2 変数を合わせてまとめる ~ここまでのクイズ~ 4. 推定と検定略 5. まとめたデータから解析手法へ 2

平成 25 年度新潟精神看護研究会秋季研修会 2. データをうまくまとめるには講師 : 赤城病院副院長群馬大学医学部医学統計学講師 ( 非常勤 ) 藤田晴康 1

1. データの分類を知ろう 3

尺度による分類どの教科書にも登場する分類 ( 水準 ) 例別分類名義尺度職業性別背番号診断名順序尺度服のサイズ (L M S) 薬効 ( 悪化無効有効著効 ) 質的データ ( カテゴリカルデータ ) 間隔尺度比尺度摂氏 ~ 華氏の温度暦年長さ重さ濃度人数絶対温度量的データ 4

この分類の特徴質的データとは数え上げて解析するデータ質的研究とは別分類 ( 水準 ) 例別分類 (1) 名義尺度職業性別背番号診断名下に行くほど情報量が多い (2) 下から上への変換可だが, 逆は不可順序尺度服のサイズ (L M S) 155,167,184 低, 中, 薬効 ( 悪化無効有効著高効 ) 質的データ ( カテゴリカルデータ ) 間隔尺度比尺度摂氏 ~ 解析実務上まとめて華氏の温度暦年よいことが多い長さ重さ濃度人数間隔尺度以上とよぶ絶対温度量的データ 5

問. 順序尺度の差や比は? 質問票の回答データで 1. 少ない 2. 中程度 3. 多いこの 1,2,3 は量ではない 1 と 2,2 と 3 の間が等しいとは限らない解析に工夫が必要量データを順位に変換して解析することあり (2.4,3.6,1.7,3.8) (2,3,1,4) 小さい方から 2 位,3 位,1 位, 6

別の分類連続量 ( 実数で )/ 離散量 ( 整数で ) 二値データ (0-1 データ ): 男女, 生死等循環するデータ : じゃんけん ( グーチョキパー ) や 12~24 時間制の時刻 7

2. データを簡単にまとめる (1 変数のまとめ ) 8

健診結果の例どのようなデータか? 簡約表現できるか? 9

データをまとめる基本 1) カテゴリカルデータ ( 分類 ) の場合まず数え上げる : 集計割合を求める AB O A B 2) 量的データ ( 連続量 ) の場合グラフ化指標計算 ( 中心とばらつき ) 10

図はこんなふうに見て下さい正規分布の場合分布実データ表示 11

問. 棒グラフとヒストグラムの違い棒グラフヒストグラム棒の間が空いている? 棒が接している? 12

2 つのグラフが異なるとき階級の幅が等しい場合同じに見えるが階級の幅が等しくない場合は, 下記のように異なる 40 50 60 70 才代 40 50 60 70 才 +80 才代 13

横軸が問題! 棒グラフヒストグラム分類離散量連続量 14

注意ばらつき歪み偏りばらつきが大きい歪みが大きい偏りがある 15

アメリカの高校の問題問. 次の分布の形を言葉で表してください a) b) 答.a)Approximately normal with an outlier ほぼ正規分布しているが, はずれ値あり b)bi-modal, somewhat skewed to the left 二峰性で, やや左に歪んでいる 16

2-1. 分布の中心 ( 代表値 ) 17

量的データを 2つの指標でまとめる! 中心の位置とばらつきの程度がわかればよい頻度値 18

問. 平均値の欠点は? 分布が左右対称でないときは平均値は代表値らしくない 3 3 多くの値が代表値より小さくなってしまう 2 3 7 100 3 7 ( 平均値 =16) 算術平均は物理学で重心 19

平均値以外に中央値を知ろう上下に 50% ずつのデータがある分布が歪んでいるときの代表値としてよい中央値平均値年収生存時間など 20

中央値を求めるには 1) データが奇数個の場合 1, 1, 1, 2, 3, 3, 99 の中央値は 2( 平均値は 55) 2) データが偶数個の場合中央 2 個の平均 1, 1, 1, 2, 3, 3, 3, 99 の中央値は 2.5( 平均値は 56.5) 21

2-2. バラツキの指標 ( 散布度 ) 22

数理的に扱いやすい指標分散 (V,σ 2 ) 分散 = ( m) å x i - n 2 中心からのずれ : (x i 平均値 ) の 2 乗を使う ( 総合して 1 つの値平均をとる ) 23

実務でよく使われる指標標準偏差 (SD,σ) 標準偏差 = 分散これだけ! 24

標準偏差は正規分布と相性が良い正規分布は平均値と標準偏差 (σ) で決まる μ-3σ μ-2σ μ-σ μ μ+σ μ+2σ μ+3σ 中心から 2σ 離れると約 95% が入る中心から 3σ 離れると 99.7% ( ほぼ全部 ) 入る 25

標準偏差の 1.96 倍 ( 切りのよい数値 ) ±2σ よりやや内側 -1.96σ 0 +1.96σ 1.96 は統計学でよく登場 26

問 : クラスの身長の標準偏差は? 平均値 155cm, 最大値 170cmとする身長データは正規分布に従うとする標準偏差 (SD) =15 3 =5 正規分布の性質を利用して 155cm 15 170cm 中心から最大まで 3σ 27

ここに戻ります中心の位置とばらつきの程度がわかればよい平均値と標準偏差中央値と? 頻度値 28

中央値は二分割した ~ 今度は四分割して考える ~ 25% の人 25% の人第 1 四分位点中央値第 3 四分位点四分位範囲 ( 四分位偏差 ) これをばらつきの指標に中央 50% が入る 29

歪んだ分布で便利な箱ひげ図体重のヒストグラム ( 回転して表示 ) 箱ひげ図ヒゲはばらつきの目安箱の上下間で全体の 50% 箱中の線は中央値箱の縦幅が四分位範囲 30

表グラフ表現のまとめ A1) 平均値と標準偏差を ± でつないで記す 37.2 ± 5.8(mean ± SD) A2) 中央値と四分位範囲の表記は定型なし B1) 棒グラフ + エラーバーバーの端は最大値ではない B2) 箱ひげ図四分位範囲 5.8 37.2 これはひげ中央値を示すことが多い 31

3.2 つの変数を合わせて簡約記述 32

2 変数の簡約記述ここでは 2 つの変数 ( 項目 ) をまとめて簡約記述する場合を説明する 1 つずつの変数 ( 項目 ) について記述する場合と異なり,2 者の関係性が問題となる 33

(1)2 つの質的変数の関係の強さとは? 下の2つのクロス集計からみて, 病気になりやすさと性別の間の関連が強そうなのはA,Bのいずれであろうか? 直観的に左の疾患 Aの方であるとわかる疾患 A 疾患 B ありなしありなし性別男 100 20 女 10 150 性別男 50 80 女 60 90 34

(2)2 つの量的変数の関係の強さ相関係数という指標に注目直線的な関係の強さを表す点の並びがどの程度直線に近いか散布図単位は無い正負がある -1 相関係数 1 記号はρ( ロー ),r 70 60 50 40 体重30 140 150 160 170 性別女性男性 180 身長 35

相関係数の例 (1): 身長と体重 20 歳 ~62 歳の男性 1936 名 r=0.454 140 120 100 80 60 体重40 140 150 160 170 180 190 200 身長 36

相関係数の例 (2): 腹囲と体重 20 歳 ~62 歳の男性 561 名 r=0.858 140 120 100 80 60 体重40 60 70 80 90 100 110 120 体重との相関は身長より腹囲の方が大きい! 腹囲 37

相関の大小の基準相関係数がどの程度あれば相関が大といえるか? 明確な基準はない人間の感覚と相関係数の 2 乗が合致するといわれる 38

注意相関係数解釈 1) 曲線的な関係性がある場合 (U 字型ではr =0) 2) はずれ値に影響される場合 3)2つ以上の集団が混在している場合 4) 本来の集団の一部のみを見ている場合散布図で検討するとよい 1) 2) 3) 4) 40

質的変数量的変数のまとめ平均値を棒グラフなどで表すことが多い. エラーバー ( 標準偏差など ) を付けるストリップチャート or ドットチャート A B C A B C 41

2 変数でまとめるとよい 3 つに分けると見通しが良くなる変数質的質的量的量的質的量的図表クロス集計表散布図棒グラフ箱ひげ図指標関連係数相関係数 ( 相関比 ) 解析 χ 2 検定相関回帰 t 検定分散分析 42

記述統計ができれば全くの初心者から大きな一歩前進??? えーとあれがこうで, これはああで正規分布していて平均値 57.3 標準偏差 11.8 ね! 2 変数の相関係数は 0.87 と大きい! 43

確認クイズ ( 記述統計 ) Q1. 棒グラフとヒストグラムの使い分けは? Q2. 平均値と中央値の使い分けは? Q3. 分散と標準偏差の違いは? Q4. 標準偏差はなぜよく使われる? Q5. 平均値と標準偏差を組み合わせるでは中央値と組み合わせるのは? Q6. 相関係数が 0 ならば,2 変数の間に関係性はない?[ 正誤 ] 44

4. 推定と検定 46

5. まとめたデータから解析へ 47

解析手法は沢山あって覚えられない!? Mann-Whitney のU 検定解析目的とデータ構造を基に

再 2 変数でまとめるとよい 3 つに分けると見通しが良くなる変数質的質的量的量的質的量的図表クロス集計表散布図棒グラフ箱ひげ図指標関連係数相関係数 ( 相関比 ) 解析 χ 2 検定相関回帰 t 検定分散分析 49

復習対応のある / ないの別に注意 1) 対応のない (non-paired) 場合疾患群健常群バイアスの入る余地あり : 性別, 年齢などいずれかが多いなど 2) 対応のある (paired) 場合 ( 同じ人を 2 回測定 ) 処置前処置後この差 ( ) の 1 群を問題にする 50

解析手法選択の視点 A B 視点選択肢注釈何を行うか変数の種類比較予測や判別検定手法で多い差の有無, 大小を知る回帰分析内部構造を知る因子分析など量的変数質的変数手法が多い質的変数に変換可能数え上げたデータ ( 何人, 何個 ) を用いる 51

解析手法選択 : もう少し細かく 1 データの種類 2 視点例注釈解析対象 ( 群の特性 ) 名義 / 順序 / 量平均値 / 中央値 / 3 群の数 1 群 /2 群 / 多群 =3 群以上 1 の制約を受ける 4 データの構造 2 群では, 対応あり / なし多群では一元配置 / 二元配置 / 52

1. クロス集計表のデータから (1) 一般に,χ 2 検定 2 2 表では比率の差の検定と同じ (2) セルの期待値 <5 があるとき Fisher の正確確率検定 (3)2 群の比較 (2 k 表 ) で, 順位のみを利用し Mann-Whitney の U 検定 53

2. 量としての x と Y の関係を追及 (1) 相関係数と無相関の検定 (2)x,yが1つずつなら,( 単 ) 回帰分析 (3) 説明変数 (x) が複数なら, 重回帰分析 y =β 0 + β 1 x 1 + β 2 x 2 + + β p x p 体重 y = 定数 + 身長 x 1 の何倍 + 腹囲 x 2 の何倍 + 年齢 x 3 の何倍 + 54

2.x や y が質の場合 (1) 説明変数 (x) が質ならダミー変数を用いた重回帰分析 (2) 従属変数 (y) が 0-1(2 値 ) ならば logistic 回帰 55

3. 群の平均値等の比較 (1) 平均値の比較 (1-1)2 群の場合 t 検定 ( 対応有無 ) (1-2)3 群以上の場合分散分析, 多重比較 (2) 中央値等の比較ノンパラメトリック法 (Mann-Whitney,Wilcoxon,etc) 56

フローチャートは役に立つか? 1) 基本概念を知らないと選択できません 2) 統計の知識でデータの種類や構造を変更してフローの選択を変えることも可 ( 例 : 何も知らなければ自然に右のコースだが難解, しかし, ちょっと知識を使うと簡明な左のコースに行けるなど ) これでは何のためのフローチャートか? フローチャートは全体を知らないと役に立たないが, 全体を学習してしまえば, フローチャートは不要? 分野を限定すれば役に立つかもしれません 57

Petrie & Sabin 著, 吉田監訳一目でわかる医科統計学 ( メティカルサイエンスインターナショナル )2006 年による広範囲のフローチャート 58

部分的なフローの例あるブログより http://ken7821.exblog.jp/m2011-09-01/ 3 標本以上の差の検定方法について表をのせていますとあるが, 読みこなすのはなかなか難しそうです 59

バラツキを評価して真理へ ~ 推定や検定の考え方の基本 ~ 61

問 1. 2 つの観測値の差 1) 条件 A で 1 つの観測値 3.6 を得た 2) 条件 B で 1 つの観測値 3.5 を得た 2 つの観測値の差を表現するにはどうしたらよいか? A B 62

差を論文に記すには? (1)3.6-3.5 と引き算の結果を記す (2)0.1 とわずかなので差なしとする (3) 統計学的に差の推定を行う A B 63

統計学の基礎は誤差の評価反復測定でないと偶然誤差の大きさが評価できず, 信頼性が不明反復数 (n) が多いとより有利! 1 回の測定では誤差の評価不可次の測定値も同じ様次の測定値は? 64

問 2. 今度は n が多い! 1) 群 A で標本平均値 3.6 を得た (n=50) 2) 群 B で標本平均値 3.5 を得た (n=52) これら 2 つの標本平均値の差を表現するにはどうしたらよいか? A B 65

論文に記すのは? (1)3.6-3.5 と引き算の結果を記す (2)0.1 とわずかなので差なしとする (3) 統計学的に差の推定を行う A B 66

標本の特性を表現するのは記述 1) まとめる : 手元のデータを ( 記述 ) 手元のデータは? 2) 推し量る : 標本データから母集団を ( 推測 ) 母集団では? 67

問 3. 似て非なる問題! 1) 群 A で標本平均値 3.6 を得た (n=50) 2) 群 B で標本平均値 3.5 を得た (n=53) これら 2 群の母集団での平均値の差を表現するにはどうしたらよいか? A B 68

研究では母集団について知りたい 1) まとめる : 手元のデータを ( 記述 ) 手元のデータは? 2) 推し量る : 標本データから母集団を ( 推測 ) 母集団では? 69

3 つの問の違い! 問 1. 2 つの観測値の差を表現するにはどうしたらよいか? 問 2. 2 つの標本平均値の差を表現するにはどうしたらよいか? 問 3. 2 つの母平均値の差を表現するにはどうしたらよいか? 70

幹葉図で中央値等を例示 3. 9 4. 02234 4. 55566777899 5. 00000111222223444 5. 5556667789 6. 001122334 6. 5679 7. 001 8. 3 25% ずつ色分けしてみた 61 人のデータ中央値は 53 第 1 四分位点 48.5 第 3 四分位点 60.5 四分位範囲 12 72

歪んだ分布でも中央値は万能でない高値の重症者に奏功して正常化した場合処置 A 中央値は変化せず効果が分からない! 平均値は小さくなるが t 検定不可 73

アメリカの高校の問題問.1 から 5 までの 15 個の整数値の分布がヒストグラムで示されている.SD が最も小さいのはどれか? 答.a: 中央に集中した ( 平均値に近い ) 値が多い. 逆に SD 最大は c ( m) å x i - n 2 これは 1 が最少で 5 が最多 74

箱ひげ図の描き方 Tukey 先生 C * far out = 極外値 (extreme value): C よりも外れの値ヒンジ巾 1.5 outside= 外れ値 (outlier): BC 間の値ヒンジ巾 1.5 B ひげ端 : AB 間で最外の実値 ( 全体の最大値, 最小値を用いることもある ) A 中央値 : この上下に 50% ずつヒンジ巾四分位範囲 John W. Tukey Exploratory Data Analysis Addison-Wesley 1977 年,p.44 75

蛇足正確に説明するのは難しいうまくいおうとして, ちょっとウソをついてしまうってことがあるあのときの王子くん ( 星の王子さまの大久保ゆう訳 ) より

統計学の全体統計学の仕事記述 :description 簡約表現 1 変数,2 変数推測 :inference 標本を基に母集団の特性は推定 :estimation 点推定母数はいくつ区間推定いくつからい検定 :test 母集団である仮説が成り立つ Yes/No

本日のテーマ 1. データの分類 2. データを簡単にまとめる (1 変数の場合 ) 特に, 代表値と散布度 3.2 変数を合わせてまとめる ~ここまでのクイズ~ 4. 推定と検定 略 5. まとめたデータから解析手法へ 2

本日のテーマ 1. データの分類 2. データを簡単にまとめる (1 変数の場合 ) 特に, 代表値と散布度 3.2 変数を合わせてまとめる ~ここまでのクイズ~ 4. 推定と検定略 5. まとめたデータから解析手法へ 2