平成 25 年度新潟精神看護研究会秋季研修会 2. データをうまくまとめるには 講師 : 赤城病院副院長 群馬大学医学部医学統計学講師 ( 非常勤 ) 藤田晴康 1
本日のテーマ 1. データの分類 2. データを簡単にまとめる (1 変数の場合 ) 特に, 代表値と散布度 3.2 変数を合わせてまとめる ~ここまでのクイズ~ 4. 推定と検定 略 5. まとめたデータから解析手法へ 2
1. データの分類を知ろう 3
尺度による分類 どの教科書にも登場する 分類 ( 水準 ) 例別分類 名義尺度 職業 性別 背番号 診断名 順序尺度服のサイズ (L M S) 薬効 ( 悪化 無効 有効 著効 ) 質的データ ( カテゴリカル データ ) 間隔尺度 比尺度 摂氏 ~ 華氏の温度 暦年 長さ 重さ 濃度 人数 絶対温度 量的データ 4
この分類の特徴 質的データ とは数え上げて解析するデータ 質的研究 とは別 分類 ( 水準 ) 例別分類 (1) 名義尺度職業 性別 背番号 診断名下に行くほど情報量が多い (2) 下から上への変換可だが, 逆は不可順序尺度服のサイズ (L M S) 155,167,184 低, 中, 薬効 ( 悪化 無効 有効 著高 効 ) 質的データ ( カテゴリカル データ ) 間隔尺度 比尺度 摂氏 ~ 解析実務上まとめて華氏の温度 暦年よいことが多い長さ 重さ 濃度 人数 間隔尺度以上 とよぶ絶対温度 量的データ 5
問. 順序尺度の差や比は? 質問票の回答データで 1. 少ない 2. 中程度 3. 多い この 1,2,3 は 量 ではない 1 と 2,2 と 3 の間が等しいとは限らない 解析に工夫が必要 量データを順位に変換して解析することあり (2.4,3.6,1.7,3.8) (2,3,1,4) 小さい方から 2 位,3 位,1 位, 6
別の分類 連続量 ( 実数で )/ 離散量 ( 整数で ) 二値データ (0-1 データ ): 男女, 生死等 循環するデータ : じゃんけん ( グー チョキ パー ) や 12~24 時間制の時刻 7
2. データを簡単にまとめる (1 変数のまとめ ) 8
健診結果の例 どのようなデータか? 簡約表現できるか? 9
データをまとめる基本 1) カテゴリカルデータ ( 分類 ) の場合 まず数え上げる : 集計 割合を求める AB O A B 2) 量的データ ( 連続量 ) の場合 グラフ化 指標計算 ( 中心とばらつき ) 10
図はこんなふうに見て下さい 正規分布の場合 分布 実データ 表示 11
問. 棒グラフとヒストグラムの違い 棒グラフ ヒストグラム 棒の間が空いている? 棒が接している? 12
2 つのグラフが異なるとき 階級の幅が等しい場合同じに見えるが 階級の幅が等しくない場合は, 下記のように異なる 40 50 60 70 才代 40 50 60 70 才 +80 才代 13
横軸が問題! 棒グラフ ヒストグラム 分類 離散量 連続量 14
注意 ばらつき 歪み 偏り ばらつきが大きい 歪みが大きい 偏りがある 15
アメリカの高校の問題 問. 次の分布の形を言葉で表してください a) b) 答.a)Approximately normal with an outlier ほぼ正規分布しているが, はずれ値あり b)bi-modal, somewhat skewed to the left 二峰性で, やや左に歪んでいる 16
2-1. 分布の中心 ( 代表値 ) 17
量的データを 2つの指標でまとめる! 中心の位置とばらつきの程度がわかればよい 頻度 値 18
問. 平均値の欠点は? 分布が左右対称でないときは平均値は代表値らしくない 3 3 多くの値が代表値より小さくなってしまう 2 3 7 100 3 7 ( 平均値 =16) 算術平均は物理学で 重心 19
平均値以外に中央値を知ろう 上下に 50% ずつのデータがある 分布が歪んでいるときの代表値としてよい 中央値 平均値 年収 生存時間など 20
中央値を求めるには 1) データが奇数個の場合 1, 1, 1, 2, 3, 3, 99 の中央値は 2( 平均値は 55) 2) データが偶数個の場合 中央 2 個の平均 1, 1, 1, 2, 3, 3, 3, 99 の中央値は 2.5( 平均値は 56.5) 21
2-2. バラツキの指標 ( 散布度 ) 22
数理的に扱いやすい指標 分散 (V,σ 2 ) 分散 = ( m) å x i - n 2 中心からのずれ : (x i 平均値 ) の 2 乗を使う ( 総合して 1 つの値 平均をとる ) 23
実務でよく使われる指標 標準偏差 (SD,σ) 標準偏差 = 分散 これだけ! 24
標準偏差は 正規分布と相性が良い 正規分布は平均値と標準偏差 (σ) で決まる μ-3σ μ-2σ μ-σ μ μ+σ μ+2σ μ+3σ 中心から 2σ 離れると約 95% が入る 中心から 3σ 離れると 99.7% ( ほぼ全部 ) 入る 25
標準偏差の 1.96 倍 ( 切りのよい数値 ) ±2σ よりやや内側 -1.96σ 0 +1.96σ 1.96 は統計学でよく登場 26
問 : クラスの身長の標準偏差は? 平均値 155cm, 最大値 170cmとする 身長データは正規分布に従うとする 標準偏差 (SD) =15 3 =5 正規分布の性質を利用して 155cm 15 170cm 中心から最大まで 3σ 27
ここに戻ります 中心の位置とばらつきの程度 がわかればよい 平均値と標準偏差 中央値と? 頻度 値 28
中央値は二分割した ~ 今度は四分割して考える ~ 25% の人 25% の人 第 1 四分位点中央値第 3 四分位点 四分位範囲 ( 四分位偏差 ) これをばらつきの指標に中央 50% が入る 29
歪んだ分布で便利な箱ひげ図 体重のヒストグラム ( 回転して表示 ) 箱ひげ図 ヒゲはばらつきの目安 箱の上下間で全体の 50% 箱中の線は中央値 箱の縦幅が四分位範囲 30
表 グラフ表現のまとめ A1) 平均値と標準偏差を ± でつないで記す 37.2 ± 5.8(mean ± SD) A2) 中央値と四分位範囲の表記は定型なし B1) 棒グラフ + エラーバー バーの端は最大値ではない B2) 箱ひげ図四分位範囲 5.8 37.2 これは ひげ 中央値を示すことが多い 31
3.2 つの変数を合わせて簡約記述 32
2 変数の簡約記述 ここでは 2 つの変数 ( 項目 ) をまとめて簡約記述する場合を説明する 1 つずつの変数 ( 項目 ) について記述する場合と異なり,2 者の関係性が問題となる 33
(1)2 つの質的変数の関係の強さとは? 下の2つのクロス集計からみて, 病気になりやすさ と 性別 の間の関連が強そうなのはA,Bのいずれであろうか? 直観的に左の疾患 Aの方であるとわかる 疾患 A 疾患 B あり なし あり なし 性別 男 100 20 女 10 150 性別 男 50 80 女 60 90 34
(2)2 つの量的変数の関係の強さ 相関係数 という指標に注目 直線的な関係の強さを表す 点の並びがどの程度直線に近いか 散布図 単位は無い 正 負がある -1 相関係数 1 記号はρ( ロー ),r 70 60 50 40 体重30 140 150 160 170 性別 女性男性 180 身長 35
相関係数の例 (1): 身長と体重 20 歳 ~62 歳の男性 1936 名 r=0.454 140 120 100 80 60 体重40 140 150 160 170 180 190 200 身長 36
相関係数の例 (2): 腹囲と体重 20 歳 ~62 歳の男性 561 名 r=0.858 140 120 100 80 60 体重40 60 70 80 90 100 110 120 体重との相関は身長より腹囲の方が大きい! 腹囲 37
相関の大小の基準 相関係数がどの程度あれば相関が大といえるか? 明確な基準はない 人間の感覚と相関係数の 2 乗が合致するといわれる 38
39
注意 相関係数解釈 1) 曲線的な関係性がある場合 (U 字型ではr =0) 2) はずれ値に影響される場合 3)2つ以上の集団が混在している場合 4) 本来の集団の一部のみを見ている場合散布図で検討するとよい 1) 2) 3) 4) 40
質的変数 量的変数のまとめ 平均値を棒グラフなどで表すことが多い. エラーバー ( 標準偏差など ) を付ける ストリップチャート or ドットチャート A B C A B C 41
2 変数でまとめるとよい 3 つに分けると見通しが良くなる 変数 質的 質的 量的 量的 質的 量的 図表 クロス集計表 散布図 棒グラフ 箱ひげ図 指標 関連係数 相関係数 ( 相関比 ) 解析 χ 2 検定 相関 回帰 t 検定 分散分析 42
記述統計ができれば 全くの初心者から大きな一歩前進??? えーとあれがこうで, これはああで 正規分布していて平均値 57.3 標準偏差 11.8 ね! 2 変数の相関係数は 0.87 と大きい! 43
確認クイズ ( 記述統計 ) Q1. 棒グラフとヒストグラムの使い分けは? Q2. 平均値と中央値の使い分けは? Q3. 分散と標準偏差の違いは? Q4. 標準偏差はなぜよく使われる? Q5. 平均値と標準偏差を組み合わせる では中央値と組み合わせるのは? Q6. 相関係数が 0 ならば,2 変数の間に関係性はない?[ 正 誤 ] 44
4. 推定と検定 46
5. まとめたデータから解析へ 47
解析手法は沢山あって覚えられない!? Mann-Whitney のU 検定 解析目的とデータ構造を基に
再 2 変数でまとめるとよい 3 つに分けると見通しが良くなる 変数 質的 質的 量的 量的 質的 量的 図表 クロス集計表 散布図 棒グラフ 箱ひげ図 指標 関連係数 相関係数 ( 相関比 ) 解析 χ 2 検定 相関 回帰 t 検定 分散分析 49
復習 対応のある / ないの別に注意 1) 対応のない (non-paired) 場合 疾患群 健常群 バイアスの入る余地あり : 性別, 年齢などいずれかが多いなど 2) 対応のある (paired) 場合 ( 同じ人を 2 回測定 ) 処置前 処置後 この差 ( ) の 1 群を問題にする 50
解析手法選択の視点 A B 視点選択肢注釈 何を行うか 変数の種類 比較 予測や判別 検定手法で多い差の有無, 大小を知る 回帰分析 内部構造を知る因子分析など 量的変数 質的変数 手法が多い質的変数に変換可能 数え上げたデータ ( 何人, 何個 ) を用いる 51
解析手法選択 : もう少し細かく 1 データの種類 2 視点例注釈 解析対象 ( 群の特性 ) 名義 / 順序 / 量 平均値 / 中央値 / 3 群の数 1 群 /2 群 / 多群 =3 群以上 1 の制約を受ける 4 データの構造 2 群では, 対応あり / なし多群では一元配置 / 二元配置 / 52
1. クロス集計表のデータから (1) 一般に,χ 2 検定 2 2 表では比率の差の検定と同じ (2) セルの期待値 <5 があるとき Fisher の正確確率検定 (3)2 群の比較 (2 k 表 ) で, 順位のみを利用し Mann-Whitney の U 検定 53
2. 量としての x と Y の関係を追及 (1) 相関係数と無相関の検定 (2)x,yが1つずつなら,( 単 ) 回帰分析 (3) 説明変数 (x) が複数なら, 重回帰分析 y =β 0 + β 1 x 1 + β 2 x 2 + + β p x p 体重 y = 定数 + 身長 x 1 の何倍 + 腹囲 x 2 の何倍 + 年齢 x 3 の何倍 + 54
2.x や y が質の場合 (1) 説明変数 (x) が質ならダミー変数を用いた重回帰分析 (2) 従属変数 (y) が 0-1(2 値 ) ならば logistic 回帰 55
3. 群の平均値等の比較 (1) 平均値の比較 (1-1)2 群の場合 t 検定 ( 対応有無 ) (1-2)3 群以上の場合 分散分析, 多重比較 (2) 中央値等の比較 ノンパラメトリック法 (Mann-Whitney,Wilcoxon,etc) 56
フローチャートは役に立つか? 1) 基本概念を知らないと選択できません 2) 統計の知識でデータの種類や構造を変更してフローの選択を変えることも可 ( 例 : 何も知らなければ自然に右のコースだが難解, しかし, ちょっと知識を使うと簡明な左のコースに行けるなど ) これでは何のためのフローチャートか? フローチャートは全体を知らないと役に立たないが, 全体を学習してしまえば, フローチャートは不要? 分野を限定すれば役に立つかもしれません 57
Petrie & Sabin 著, 吉田監訳 一目でわかる医科統計学 ( メテ ィカル サイエンス インターナショナル )2006 年による広範囲のフローチャート 58
部分的なフローの例 あるブログより http://ken7821.exblog.jp/m2011-09-01/ 3 標本以上の差の検定方法について表をのせています とあるが, 読みこなすのはなかなか難しそうです 59
バラツキを評価して真理へ ~ 推定や検定の考え方の基本 ~ 61
問 1. 2 つの観測値の差 1) 条件 A で 1 つの観測値 3.6 を得た 2) 条件 B で 1 つの観測値 3.5 を得た 2 つの観測値の差を表現するにはどうしたらよいか? A B 62
差を論文に記すには? (1)3.6-3.5 と引き算の結果を記す (2)0.1 とわずかなので 差なし とする (3) 統計学的に 差の推定 を行う A B 63
統計学の基礎は誤差の評価 反復測定でないと偶然誤差の大きさが評価できず, 信頼性が不明 反復数 (n) が多いとより有利! 1 回の測定では誤差の評価不可 次の測定値も同じ様 次の測定値は? 64
問 2. 今度は n が多い! 1) 群 A で標本平均値 3.6 を得た (n=50) 2) 群 B で標本平均値 3.5 を得た (n=52) これら 2 つの標本平均値の差を表現するにはどうしたらよいか? A B 65
論文に記すのは? (1)3.6-3.5 と引き算の結果を記す (2)0.1 とわずかなので 差なし とする (3) 統計学的に 差の推定 を行う A B 66
標本の特性を表現するのは記述 1) まとめる : 手元のデータを ( 記述 ) 手元のデータは? 2) 推し量る : 標本データから母集団を ( 推測 ) 母集団では? 67
問 3. 似て非なる問題! 1) 群 A で標本平均値 3.6 を得た (n=50) 2) 群 B で標本平均値 3.5 を得た (n=53) これら 2 群の母集団での平均値の差を表現するにはどうしたらよいか? A B 68
研究では母集団について知りたい 1) まとめる : 手元のデータを ( 記述 ) 手元のデータは? 2) 推し量る : 標本データから母集団を ( 推測 ) 母集団では? 69
3 つの問の違い! 問 1. 2 つの観測値の差を表現するにはどうしたらよいか? 問 2. 2 つの標本平均値の差を表現するにはどうしたらよいか? 問 3. 2 つの母平均値の差を表現するにはどうしたらよいか? 70
71
幹葉図で中央値等を例示 3. 9 4. 02234 4. 55566777899 5. 00000111222223444 5. 5556667789 6. 001122334 6. 5679 7. 001 8. 3 25% ずつ色分けしてみた 61 人のデータ中央値は 53 第 1 四分位点 48.5 第 3 四分位点 60.5 四分位範囲 12 72
歪んだ分布でも中央値は万能でない 高値の重症者に奏功して正常化した場合 処置 A 中央値は変化せず効果が分からない! 平均値は小さくなるが t 検定不可 73
アメリカの 高校の問題 問.1 から 5 までの 15 個の整数値の分布がヒストグラムで示されている.SD が最も小さいのはどれか? 答.a: 中央に集中した ( 平均値に近い ) 値が多い. 逆に SD 最大は c ( m) å x i - n 2 これは 1 が最少で 5 が最多 74
箱ひげ図の描き方 Tukey 先生 C * far out = 極外値 (extreme value): C よりも外れの値 ヒンジ巾 1.5 outside= 外れ値 (outlier): BC 間の値 ヒンジ巾 1.5 B ひげ端 : AB 間で最外の実値 ( 全体の最大値, 最小値を用いることもある ) A 中央値 : この上下に 50% ずつ ヒンジ巾 四分位範囲 John W. Tukey Exploratory Data Analysis Addison-Wesley 1977 年,p.44 75
蛇足 正確に説明するのは難しい うまくいおうとして, ちょっとウソをついてしまうってことがある あのときの王子くん ( 星の王子さま の大久保ゆう訳 ) より
統計学の全体 統計学の仕事記述 :description 簡約表現 1 変数,2 変数推測 :inference 標本を基に母集団の特性は 推定 :estimation 点推定 母数はいくつ 区間推定 いくつからい 検定 :test 母集団である仮説が成り立つ Yes/No