Microsoft PowerPoint - 医学統計のつぼ.ppt

Similar documents
Microsoft PowerPoint - 医学統計の応用のこつ2006.ppt

Medical3

EBNと疫学

<4D F736F F D208EC08CB18C7689E68A E F AA957A82C682948C9F92E82E646F63>

基礎統計

Microsoft Word - 保健医療統計学112817完成版.docx

情報工学概論

青焼 1章[15-52].indd

ビジネス統計 統計基礎とエクセル分析 正誤表

PowerPoint プレゼンテーション

Microsoft PowerPoint - A1.ppt [互換モード]

多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典

自動車感性評価学 1. 二項検定 内容 2 3. 質的データの解析方法 1 ( 名義尺度 ) 2.χ 2 検定 タイプ 1. 二項検定 官能検査における分類データの解析法 識別できるかを調べる 嗜好に差があるかを調べる 2 点比較法 2 点識別法 2 点嗜好法 3 点比較法 3 点識別法 3 点嗜好

Microsoft Word - Stattext12.doc

Microsoft PowerPoint - sc7.ppt [互換モード]

スライド 1

<4D F736F F D2090B695A8939D8C768A E F AA957A82C682948C9F92E8>

RSS Higher Certificate in Statistics, Specimen A Module 3: Basic Statistical Methods Solutions Question 1 (i) 帰無仮説 : 200C と 250C において鉄鋼の破壊応力の母平均には違いはな

スライド 1

Excelによる統計分析検定_知識編_小塚明_5_9章.indd

(3) 検定統計量の有意確率にもとづく仮説の採否データから有意確率 (significant probability, p 値 ) を求め 有意水準と照合する 有意確率とは データの分析によって得られた統計値が偶然おこる確率のこと あらかじめ設定した有意確率より低い場合は 帰無仮説を棄却して対立仮説

JMP による 2 群間の比較 SAS Institute Japan 株式会社 JMP ジャパン事業部 2008 年 3 月 JMP で t 検定や Wilcoxon 検定はどのメニューで実行できるのか または検定を行う際の前提条件の評価 ( 正規性 等分散性 ) はどのメニューで実行できるのかと

8 A B B B B B B B B B 175

異文化言語教育評価論 ⅠA 第 4 章分散分析 (3 グループ以上の平均を比較する ) 平成 26 年 5 月 14 日 報告者 :D.M. K.S. 4-1 分散分析とは 検定の多重性 t 検定 2 群の平均値を比較する場合の手法分散分析 3 群以上の平均を比較する場合の手法 t 検定

. 測定方法 7 尺度化 ( 数値化 ) 8 絶対判断 評点法採点法カテゴリー尺度法 図示法 / 線分法 心理物理学的測定法 相対判断 分類法 格付け分類法 順位法 一対比較法 リッカート法 カテゴリー尺度法 / 評定尺度法 あなたは ですか? 9 SD(Semantic Differential)

第 3 回講義の項目と概要 統計的手法入門 : 品質のばらつきを解析する 平均と標準偏差 (P30) a) データは平均を見ただけではわからない 平均が同じだからといって 同一視してはいけない b) データのばらつきを示す 標準偏差 にも注目しよう c) 平均

統計学 - 社会統計の基礎 - 正規分布 標準正規分布累積分布関数の逆関数 t 分布正規分布に従うサンプルの平均の信頼区間 担当 : 岸 康人 資料ページ :

Microsoft PowerPoint - 統計調査概論2010.ppt

<4D F736F F D208EC08CB18C7689E68A E F1918A8AD695AA90CD2E646F63>

PowerPoint プレゼンテーション

Microsoft PowerPoint - データ解析基礎2.ppt

Medical3

Python-statistics5 Python で統計学を学ぶ (5) この内容は山田 杉澤 村井 (2008) R によるやさしい統計学 (

Microsoft PowerPoint - e-stat(OLS).pptx

切片 ( 定数項 ) ダミー 以下の単回帰モデルを考えよう これは賃金と就業年数の関係を分析している : ( 賃金関数 ) ここで Y i = α + β X i + u i, i =1,, n, u i ~ i.i.d. N(0, σ 2 ) Y i : 賃金の対数値, X i : 就業年数. (

講義「○○○○」

第7章

Microsoft PowerPoint - R-stat-intro_12.ppt [互換モード]

<4D F736F F D204B208C5182CC94E497A682CC8DB782CC8C9F92E BD8F6494E48A722E646F6378>

Microsoft PowerPoint - 基礎・経済統計6.ppt

Microsoft PowerPoint - 代表値と散布度.ppt [互換モード]

Microsoft PowerPoint - statistics pptx

Excelによる統計分析検定_知識編_小塚明_1_4章.indd

Microsoft Word - apstattext04.docx

Microsoft Word - Stattext13.doc

1. 多変量解析の基本的な概念 1. 多変量解析の基本的な概念 1.1 多変量解析の目的 人間のデータは多変量データが多いので多変量解析が有用 特性概括評価特性概括評価 症 例 主 治 医 の 主 観 症 例 主 治 医 の 主 観 単変量解析 客観的規準のある要約多変量解析 要約値 客観的規準のな

ダンゴムシの 交替性転向反応に 関する研究 3A15 今野直輝

統計的データ解析

Kumamoto University Center for Multimedia and Information Technologies Lab. 熊本大学アプリケーション実験 ~ 実環境における無線 LAN 受信電波強度を用いた位置推定手法の検討 ~ InKIAI 宮崎県美郷

ANOVA

Microsoft Word - appendix_b

Microsoft PowerPoint - 栄養疫学デザインと解析1.ppt

Microsoft PowerPoint - 統計科学研究所_R_重回帰分析_変数選択_2.ppt

<4D F736F F F696E74202D B835E82CC8EED97DE B835E82CC834F BB F0955C82B793C190AB926C>

Microsoft Word - mstattext02.docx

Microsoft Word - Stattext11.doc

はじめに Excel における計算式の入力方法の基礎 Excel では計算式を入力することで様々な計算を行うことができる 例えば はセルに =SQRT((4^2)/3+3*5-2) と入力することで算出される ( 答え ) どのような数式が使えるかは 数式

経営統計学

Microsoft PowerPoint - statistics pptx

母平均 母分散 母標準偏差は, が連続的な場合も含めて, すべての個体の特性値 のすべての実現値 の平均 分散 標準偏差であると考えてよい 有限母集団で が離散的な場合, まさにその意味になるが, そうでない場合も, このように理解してよい 5 母数 母集団から定まる定数のこと 母平均, 母分散,

異文化言語教育評価論 ⅠA 教育 心理系研究のためのデータ分析入門 第 3 章 t 検定 (2 変数間の平均の差を分析 ) 平成 26 年 5 月 7 日 報告者 :M.S. I.N. 3-1 統計的検定 統計的検定 : 設定した仮説にもとづいて集めた標本を確率論の観点から分析し 仮説検証を行うこと

<4D F736F F D208EC08CB18C7689E68A E F193F18D8095AA957A C C839395AA957A814590B38B4B95AA957A2E646F63>

Microsoft Word - å“Ÿåłžå¸°173.docx

Microsoft PowerPoint - Statistics[B]

0415

経済統計分析1 イントロダクション

目次 1 章 SPSS の基礎 基本 はじめに 基本操作方法 章データの編集 はじめに 値ラベルの利用 計算結果に基づく新変数の作成 値のグループ化 値の昇順

例 : 中央値 全データの中央の値を表すため 分布の両端のデータは反映しない 結果の精度が低い 結果の普遍化は困難 母集団について特定の仮定をせず 標本集団のデータに基づいて計算するため 結果の外挿が不可能で結果を普遍化しにくい 統計学の解説書などに データが正規分布しない時はノンパラメトリック手法

Microsoft PowerPoint - 資料04 重回帰分析.ppt

基礎統計

Microsoft PowerPoint - 14都市工学数理ノンパラ.pptx

1

様々なミクロ計量モデル†

Microsoft PowerPoint - statistics pptx

データ科学2.pptx

<4D F736F F D208EC08CB18C7689E68A E F193F18D8095AA957A C C839395AA957A814590B38B4B95AA957A2E646F63>

MedicalStatisticsForAll.indd

統計学の基礎から学ぶ実験計画法ー1

Microsoft PowerPoint - stat-2014-[9] pptx

したがって ばらつきを表すには 偏差の符号をなくしてから平均化する必要がある そのひとつの方法は 1 偏差の絶対値を用いることである 偏差の絶対値の算術平均を 平均偏差 という ( )/5=10.8 偏差の符号を取るもうひとつの方法は 2それを2 乗することです 偏差の2 乗の算

統計学 Ⅱ( 章 ( 区間推定のシミュレーション 母平均 μ の区間推定 X ~ N, のとき X T ~ 自由度 1の t分布 1 自由度 -1のt 分布の97.5% 点 :t.975 P t T t この式に T を代入する t.975 母集団

仮説検定の手順

<4D F736F F D208EC08CB18C7689E68A E F1939D8C E82E646F63>

Microsoft PowerPoint - ch04j

本日のテーマ 1. データの分類 2. データを簡単にまとめる (1 変数の場合 ) 特に, 代表値と散布度 3.2 変数を合わせてまとめる ~ここまでのクイズ~ 4. 推定と検定 略 5. まとめたデータから解析手法へ 2

_KyoukaNaiyou_No.4

<4D F736F F D208D A778D5A8A778F4B8E7793B CC A7795D2816A2E646F6378>

Microsoft Word - apstattext05.docx

森林水文 水資源学 2 2. 水文統計 豪雨があった時, 新聞やテレビのニュースで 50 年に一度の大雨だった などと報告されることがある. 今争点となっている川辺川ダムは,80 年に 1 回の洪水を想定して治水計画が立てられている. 畑地かんがいでは,10 年に 1 回の渇水を対象として計画が立て

Excelによる統計分析検定_知識編_小塚明_1_4章.indd

解析センターを知っていただく キャンペーン

Microsoft PowerPoint ppt

データ解析

1.民営化

<4D F736F F F696E74202D208EC0926E89758A7782CC82BD82DF82CC939D8C765F939693FA2E >

宗像市国保医療課 御中

EBNと疫学

JUSE-StatWorks/V5 活用ガイドブック

数値計算法

際 正規分布に従わない観測値に対して通常の t 検定を適用した場合 どのような不都合が生じるかを考える 一般に通常の t 検定や Wilcoxon 検定などの仮説検定を行う場合 2つの処理の間に差がないことが真実であるにもかかわらず差があると主張する過誤確率 ( 第 1 種の過誤確率 ) 2つの処理

Transcription:

日本補綴学会第 114 回学術大会 研究教育研修 Ⅰ 2005.10.1. 医学統計のつぼ 国立保健医療科学院技術評価部 横山徹爾

研究計画 データの整理 検定とは? 数量データの差の検定 質的データの差の検定 検定と区間推定 関連の分析 22 つの数量データの関連

研究計画時に行うこと 目的 仮説を明確に 最終的なまとめの図表を頭に描いておく 統計解析手法も決めておく とはいえ 統計学の基本が分かっていないと これらを考えることができない 本日の学習目標 : 目的 ( この研究で言いたいこと ) に応じた基本的な統計手法を学ぶ 実験計画法は別の機会に

統計学の原点 : 標本調査 調査対象 ( 母集団 ) を明確にするそこから無作為抽出無作為抽出された標本標本を用いて推測を行う 50 人の某遺伝子型を調べた AA 型の 20 名は AT/TT 型の 30 名よりも収縮期血圧の平均値が 10mmHg 高かった だから 遺伝子型 AA 遺伝子型 AT/TT 母集団血圧未知 母集団血圧未知 無作為抽出 無作為抽出 標本 20 例平均 =130mmHg 標本 30 例平均 =120mmHg

研究計画 データの整理 検定とは? 数量データの差の検定 質的データの差の検定 検定と区間推定 関連の分析 22 つの数量データの関連 いきなり複雑なことをしない まずは簡単にデータを整理する

医学データの種類 数量データ : 量的に測定できる連続的な測定値 連続データ ( 例 ) 身長 体重 血圧 血清総コレステロール 離散データ ( 例 ) う歯の本数 質的データ : 2 値 ( 例 ) 性別の 男 と 女 既往歴の 有り と なし カテゴリーが 3 つ以上 順序尺度 ordinal scale: : 順序関係はあるが絶対量としての意味はない測定値 ( 例 ) 胃癌の深達度 :T1,: T2, T3, T4 名義尺度 nominal scale: : 順序関係がない分類のための変数 ( 例 ) 病理分類の 腺腫, 線維腫, 血管腫,, etc.

データを整理する いきなり平均 標準偏差を計算しない! まず ヒストグラムヒストグラム等を描いて分布を視覚的に確認 その後 適切な要約統計量要約統計量を決めて分布の特徴を表現する いきなり検定しない! まず 図や要約統計量で比較図や要約統計量で比較して特徴を確認 その後 適切な方法で検定

図 1 ヒストグラム 500 450 400 度 350 300 250 200 150 100 50 0 80 100 120 140 160 180 200 収縮期血圧 (mmhg) 数(人)階級数は 標本数 +1 前後を目安にすると形が分かりや 階級数は 標本数 +1 前後を目安にすると形が分かりやすい 分布の形を確認する 左右対称かか? 右裾が長い場合 対数変換を考慮 外れ値はないか? 標本として適切か検討 分布の中心位置中心位置はどのあたりか? 代表値 ( 平均 中央値など ) 分布のばらつき具合ばらつき具合はは? 散布度 ( 標準偏差 四分偏差など )

分布型を確認 統計学的方法のうち よく使うのうち よく使うパラメトリックな方法 (t 検定など ) では 左で右対称な分布 ( 正規分布 ) を前提としているものが多い 従って 可能ならば 何らかの変換変換によって正規分布に近似させてから処理すべきである 対数変換 Box-Cox 変換 平方根変換など正規分布に近似できない場合 ノンパラメトリックな方法ノンパラメトリックな方法を考慮 ( 後述 ) 図 2 正規分布 図 3 対数正規分布 度数 左右対称でベル形 ( 正規分布 ) 度数 右に歪んでいる ( 対数正規分布 ) 測定値 測定値を対数変換 ( 横軸を log[ 測定値 ] に ) すると 左右対称になる 測定値

log 中性脂肪 (log mg/dl) 中性脂肪 (mg/dl) 120 100 80 60 40 20 0 617.4-651.7-686.0-3.5-3.7-3.8-4.0-4.2-4.3-4.5-4.6-4.8-4.9-5.1-5.3-5.4-5.6-5.7-5.9-6.1-6.2-6.4-6.5-34.0-68.3-102.6-136.9-171.3-205.6-239.9-274.2-308.5-342.8-377.2-411.5-445.8-480.1-514.4-548.7-583.1- 度数 ( 人 ) 50 45 40 35 30 25 20 15 10 5 0 対数変換 対数正規分布の典型例 細菌数 中性脂肪 AST ALT γ-gtp など 正規分布の典型例 身長 体重など 医学データは 少し右裾が長いことが多い 度数 ( 人 )

代表値 ( 中心位置の指標 ) 図 4 分布型と代表値 左右対称の分布 ( 正規分布など ) 中央値 歪んだ分布 ( 対数正規分布など ) 最頻値 中央値 平均値 最幾頻何値平均 平均値 平均値 左右対称な場合に有用 中央値 非対称等 歪んだ分布の場合

図 5 標準偏差はバラツキの指標 平均 ±1 標準偏差 ( 全体の 68%) 平均 =100 標準偏差 =20 上側隣接値 箱ヒゲ図 度数 平均 ±2 標準偏差 ( 全体の 95%) 平均 =100 標準偏差 =40 0 20 40 60 80 100 120 140 160 180 200 測定値 75% 点中央値 25% 点下側隣接値 代表値 ( 中心位置の指標 ) と散布度 ( バラツキの指標 ) として 平均と標準偏差平均と標準偏差 中央値と四分偏差中央値と四分偏差 の組合せがよく用いられる

標準偏差と標準誤差を混同しない 60 血清総コレステロール (mg/dl) 平均 193, 標準偏差 20 (mg/dl) 平均 193, 標準誤差 3 (mg/dl) 50 標準偏差は データのばらつき標準誤差は 標本平均の確からしさ 40 30 どちらを使うかは 何を言いたいかによるどちらを示したか 必ず明記する 20 10 0 113.0-124.6-136.3-147.9-159.5-171.2-182.8-194.4-206.1-217.7-229.3-240.9-252.6-264.2-275.8-287.5-299.1-310.7-322.4-334.0- 度数 ( 人 ) 血清総コレステロール (mg/dl)

研究計画 データの整理 検定とは? 数量データの差の検定 質的データの差の検定 検定と区間推定 関連の分析 22 つの数量データの関連

検定とは 検定 観測された差 ( や関連 ) が偶然によるものか否かがを判断する方法 検定の論法 真実 ( 母集団 ) は差 ( や関連 ) がない と仮定する (= 帰無仮説 H 0 ) 帰無仮説が正しい場合に 標本において観測された差 ( や関連 ) が生じる確率 (P( P 値 ) を計算する その確率が十分に小さければ ( 例えば P<0.05) ) 帰無仮説が正しい場合に偶然では起こりにくいことが起きたということなので 帰無仮説を棄却して 真実は差 ( や関連 ) がある (= 対立仮説 H 1 ) と判断する ( 一般に 有意差がある という )

遺伝子型 AA 遺伝子型 BB 母集団血圧未知 母集団血圧未知 標本 20 例平均 =130mmHg 標本 30 例平均 =120mmHg 帰無仮説 (AA と BB で母集団の血圧の平均は同じ ) が正しい場合に標本平均に 10mmHg の差が生じる確率は? t 検定で 1%(P=0.01) と計算された 帰無仮説が正しければめったに生じない現象がおきたといえる 従って たぶん帰無仮説は正しくないのだろう 対立仮説 (AA と BB で母集団の血圧の平均は異なる ) を採用

検定における 2 種類の判断ミス 検定は万能ではなく しばしばしばしば誤った判断に 陥ることがある 真実 差がある 差がない 判断 ( 検定結果 ) 差がある 第 1 種の過誤 (α エラー ) 有意水準 (P 値 ) は 第 1 種の過誤が生じる確率 差がない ( あるとはいえない ) 第 2 種の過誤 (βエラー) 第 2 種の過誤が生じない確率のことを検出力 ( パワー ) という 一般に 標本数が小さいほど検出力も小さい = 第 2 種の過誤が生じやすい

有意差なし は 差がない ことを 積極的に示したわけではない! 例 1 降圧薬 A と B を 5 匹ずつのマウスに投与した A 薬と B 薬で血圧の低下幅の平均値の差は 10mmHg で 有意差はなかった 降圧薬 A と B を 20 匹ずつのマウスに投与した A 薬と B 薬で血圧の低下幅の平均値の差は 10mmHg で 有意差があった 差がない ことを証明するためには ケチって小標本にすればいい???( そんな馬鹿な!) 同等性の検定同等性の検定 を行う必要がある あるいは 検出力を計算すると参考になる

例 2 降圧薬 C 血圧低下幅 プラセボ 血圧低下幅 低下幅の差 人数平均標準誤差人数平均標準誤差平均 P 値 高齢者 10-10 2.5 10-3 2.4-7 0.15 若年者 40-15 1.2 40-5 1.1-10 0.01 降圧薬 C は 高齢者には効果がない効果がないが 若年者にが 若年者には効果がある??? 有意差なし は 差がない ではない しかも 高齢者は標本数が少なく検出力が小さい 降圧薬 C は 高齢者よりもよりも若年者で効果が大きい??? -7と-10 の差の検定をしなければそのようなことは積極的には言えない 薬 年齢群 の交互作用で検定

研究計画 データの整理 検定とは? 数量データの差の検定 質的データの差の検定 検定と区間推定 関連の分析 22 つの数量データの関連 数量データの比較では 平均値などの代表値を複数の群間で比較することに興味がある

パラメトリックとノンパラメトリックな方法 パラメトリックな検定 母集団の分布に特定の分布型 ( 例えば正規分布 ) を仮定した検定方法 母集団の分布が正規分布か否かの判断 経験による標本分布による ヒストグラム 正規確率紙等で視覚的に判断 著しく正規分布ではない分布型なのに無理にパラメトリックな検定を用いると その検定結果は信頼できない! ノンパラメトリックな検定 母集団の分布に特定の分布型を仮定しない検定方法

独立な 2 群の差の検定 パラメトリックな検定 Student t 検定 正規分布 等分散 Welch t 検定 正規分布 不等分散 ノンパラメトリックな検定 Mann-Whitney U 検定 非正規分布 帰無仮説 H 0 : μ 1 =μ 2 対立仮説 H 1 : μ 1 μ 2 等分散の判断は正規確率紙による視覚的検討 および F 検定 t 検定の 4 倍程度の有意水準を使うことが多い (F 検定 :P<0.20 で不等分散 ) 対数変換等を行っても正規分布に近づかない場合 小標本では母分布型の判断が難しいが どうする? ノンパラメトリックな検定を行うと 検出力が著しく落ちることがある パラメトリックな検定を行うと 検定結果が信頼できない恐れ 十分な標本サイズになるように事前に計画しましょう

例題 1: どのような検定を行うか 40 歳代男性における飲酒習慣と血圧等との関連 飲酒者 非飲酒者 (n=100) (n=80) 収縮期血圧 ほぼ正規分布 等分散 Student t 検定 中性脂肪 対数変換したところ正規分布 等分散 Student t 検定 γ-gtp 平均 SD 平均 SD P 値 収縮期血圧 (mmhg) 130 20 125 18? 中性脂肪 (ml/dl) (mg/dl) 140 110 100 80? γ-gtp (IU/L) 70 80 30 40? 変換しても強く歪んだ分布 Mann Mann-Whitney U 検定

例題 2: どのような検定を行うか 40 歳代男性における飲酒習慣と血圧等との関連 飲酒者 非飲酒者 (n=100) (n=80) やめた (n=20) 平均 SD 平均 SD 平均 SD 収縮期血圧 (mmhg) 130 20 125 18 135 22 t 検定 ( または U 検定 ) を全ての組合せについて繰り返す??? 1 回の検定につき 第 1 種の過誤が 5% の確率で生じる 3 回検定を繰り返すと 1-(1-0.05) 3 =14% の確率で第 1 種の過誤が生じる 有意水準 5% といいながら 実は 14% の確率で 3 つの検定のうち 1 つ以上で第 1 種の過誤を生じる!

独立な 3 群の差の検定 パラメトリックな検定 一元配置分散分析 正規分布 等分散 ノンパラメトリックな検定 Kruskal-Wallis 検定 非正規分布 不等分散 帰無仮説 H 0 : μ 1 =μ 2 =μ 3 対立仮説 H 1 : H 0 ではない 等分散の判断は正規確率紙による視覚的検討 および Bartlett 検定など 歪んだ分布は対数変換を行うと 正規分布に近づくだけでなく 等分散に近づくこともある 対数変換等を行っても正規分布に近づかない 不等分散の場合 3 群のどこかどこかに差があるということが示される どことどこの組合せに差があるかは まだ分からない!

例題 3: どのような検定を行うか 40 歳代男性における ALDH2 遺伝子型と血圧との関連 収縮期血圧 ほぼ正規分布 等分散 一元配置分散分析 中性脂肪 対数変換したところ正規分布 等分散 一元配置分散分析 γ-gtp ALDH2 遺伝子型 1/1 (n=240) 1/2 (n=140) 2/2 (n=20) 平均 SD 平均 SD 平均 SD P 値 収縮期血圧 (mmhg) 130 20 125 18 110 17? 中性脂肪 (ml/dl) (mg/dl) 140 110 110 80 100 77? γ-gtp (IU/L) 70 80 40 40 35 30? 変換しても強く歪んだ分布 Kruskal Kruskal-Wallis 検定

独立な 3 群以上の差の検定と対比較 分散分析 帰無仮説 H 0 : μ 1 =μ 2 =μ 3 対立仮説 H 1 : μ 1 =μ 2 =μ 3 ではない 対比較 つまり どれとどれに差があるかは分からないどれとどれに差があるかは分からない そこで どことどこの組合せに差があるか 興味のある組合せに対して検定を繰り返す ( 対比較 ) ただし 検定を繰り返しても第 1 種の過誤の生じる確率が 5% を超えないように工夫する工夫する 全ての組合せに興味がある場合 :Tukey: 法 (Tukey-Kramer 法 ) 一つの対照群と残りの群を比較する場合 :Dunnet: 法後で一部のカテゴリーを併合していろいろな比較を行う ( 線型比較 ):Scheffe 法特定の組合せに興味があり 検定回数を事前に決めておく場合 :Bonferroni: 法 (Holm 法 ) 3 群の場合のみ 分散分析で有意になったという前提で 3 回の t 検定を繰り返す方法 :Fisher: LSD 法

例題 2 : どのような検定を行うか 40 歳代男性における飲酒習慣と血圧等との関連 飲酒者 非飲酒者 (n=100) (n=80) やめた (n=20) 平均 SD 平均 SD 平均 SD 収縮期血圧 (mmhg) 130 20 125 18 135 22 まず 一元配置分散分析を行うどことどこに差があるかを確認するために 3 通り全て興味がある場合 Tukey-Kramer 法 非飲酒者と他の 2 群の比較に興味がある場合 Dunnet 法 注意 : 結果を見てから差のありそうな比較だけをしちゃダメ!

例題 4: どのような検定を行うか 試験薬 A 投与前後のネズミ 20 匹の体重 (g) の変化 投与前投与後後 - 前 平均 SD 平均 SD 平均 SD P 値 対応のある t 検定 理由 200 30 180 28-20 10? 投与前と投与後の体重が独立ではないから 対応のない t 検定は 独立な 2 群の比較

例題 5: どのような検定を行うか 50 歳代男性における喫煙習慣と歯周ポケットの深さ (mm) 喫煙 (80 名 ) 非喫煙 (60 名 ) N 平均 SD N 平均 SD P 値 320 2.5 0.4 240 1.8 0.3? 一人につき4 本ずつ調べたので Nは人数の4 倍 Student t 検定? Mann-Whitney U 検定? N=320 と240 のまま検定しちゃダメ! 理由 : 同一人物の 4 本の測定値は独立でないから 対応のない t 検定は 独立な 2 群の 全て群の 全て独立な標本独立な標本の比較 個人毎に 4 本の平均値を計算して 1 人 1 つの値にしてから t 検定など 特殊な方法として GEE という方法もある

研究計画 データの整理 検定とは? 数量データの差の検定 質的データの差の検定 検定と区間推定 関連の分析 22 つの数量データの関連 質的データの比較では 割合の差を複数群間で比較することに興味がある

例題 6: どのような検定を行うか 高血圧 あり なし 計 果物頻摂度取 週 2 日以下 (55%) 22 18 40 週 3~5 日 (40%) 8 12 20 週 6 日以上 (25%) 10 30 40 計 40 60 100 χ 2 検定 Fisher の正確な検定 果物摂取頻度と高血圧有病率との関連関連の有無 拡張 Mantel 検定 果物摂取頻度と高血圧有病率との順序的な関連順序的な関連の有無

中中中1 量 - 反応関係なし 2 量 - 反応関係なし 3 量 - 反応関係あり 0.6 0.5 高血 0.4 圧 0.3 有病 0.2 率 0.1 少0.6 0.5 高血 0.4 圧 0.3 有病 0.2 率 0.1 少0.6 0.5 高血 0.4 圧 0.3 有病 0.2 率 0.1 少0 0 0 物摂取頻度多果 物摂取頻度多果 物摂取頻度多果 1の場合 2の場合 3の場合 独立性のχ 2 検定 p=0.024 p=0.024 p=0.024 傾向性の検定 ( 拡張 Mantel 検定 ) p =0.10 p =0.10 p =0.0064 量 - 反応関係を積極的に示すためには 拡張 Mantel 検定の方がよい

例題 7: どのような検定を行うか 100 人の聴力低下所見の有無 左耳 右耳 所見あり なし 所見あり 5 13 なし 17 65 McNemar 検定 理由 右耳と左耳が独立ではないから 独立性の χ 2 検定は 独立な 2 群の比較

例題 8: どのような検定を行うか 50 歳代男性における喫煙習慣と歯周ポケット 4mmの割合 喫煙 (80 名 ) 非喫煙 (60 名 ) N % N % P 値 320 33 240 25? 一人につき4 本ずつ調べたので Nは人数の4 倍 χ 2 検定? N=320 と240 のまま検定しちゃダメ! 理由 : 同一人物の 4 本の測定値は独立でないから χ 2 検定は 独立な複数群独立な複数群の 全て独立な標本独立な標本の比較 GEE など 同一人物における 4 本の類似性を考慮する

研究計画 データの整理 検定とは? 数量データの差の検定 質的データの差の検定 検定と区間推定 関連の分析 22 つの数量データの関連 検定よりも区間推定が望ましいこともある

有意差あり 検定と区間推定 母平均の差が 5mmHg ということを示したわけではない 差なし を否定しただけ 区間推定 この検定結果をどう解釈するか? 40 歳代男性における飲酒習慣と血圧との関連 飲酒者 非飲酒者 平均 SD 平均 SD P 値 収縮期血圧 (mmhg) 130 20 125 18 0.02 母平均の差 (95% 信頼区間 )=5.0(1.2-8.8) のように示した方が有用かも 95% 信頼区間が 0を含んでいなければ 5% 水準で有意差ありを意味する

検定と区間推定 検定は 差がある ということを言えるが ど の程度の大きさの差があるのか? という問に は答えられない 区間推定は は どの程度の大きさの差がある のかを幅をもって示すことができる 検定と同 じ意味合いももつ 差の大きさに興味がある場合は がある場合は 検定よりも 推定

研究計画 データの整理 検定とは? 数量データの差の検定 質的データの差の検定 検定と区間推定 関連の分析 22 つの数量データの関連 相関分析と回帰分析がよく使われる

相関と回帰 図 7 正相関と負相関 正相関 負相関 無相関 3 3 3 測定値 B 測定値 B 測定値 B -3-3 3 測定値 A -3-3 3 測定値 A -3-3 3 測定値 A 相関係数 -1~+1 の値をとり 2 変数の直線的な関連の強さを表す 検定も行う ( 帰無仮説 : 母相関係数 =0)

相関と回帰 3 (従測属定変値 Y 数)α -3 図 8 回帰直線 この距離 2 の合計が最小になるように直線を決める ( 最小二乗法 ) y=βx+α -3 3 測定値 X ( 独立変数 ) 相関係数の検定 ( 帰無仮説 : 母相関係数 =0) 回帰係数の検定 ( 帰無仮説 : 母回帰係数 =0) 両者の結果は一致する 回帰直線 2 つの連続量の関係を y=βx+ x+αの形の 1 次式で表したもの 回帰係数 β 相関係数と違い 単位があるので 様々な値をとる 独立変数が 1 増加した時の 従属変数の増加量の期待値を表す

偏相関と重回帰 他の要因の影響を補正したうえで 2 変数間 の直線的な関連を表す方法 食塩摂取量 年齢の影響を除いたより直接的な関連 ( 偏相関係数 =0.2) ( 偏回帰係数 =2.0) 血圧 正相関 見かけの関連 ( 相関係数 =0.3) ( 回帰係数 =3.0) 正相関 年齢

研究計画 データの整理 検定とは? 数量データの差の検定 質的データの差の検定 検定と区間推定 関連の分析 22 つの数量データの関連

http://www.niph.go.jp/soshiki/gijutsu/index_j.html

最後に 大規模な研究プロジェクトには 計画段階か ら疫学 生物統計学の専門家を 1 名 仲間に 入れましょう データ収集後に相談するのでは 手遅れ手遅れかも