クロス集計表の作成 2 つのカテゴリ変数をもつデータがあるとする ( 例 )AGE( 年齢 ),EXPOSURE( 曝露の有無 ) と DISEASE( 病気の有無 ) についての 40 人のデータ タブ区切りテキストファイル

Similar documents
自動車感性評価学 1. 二項検定 内容 2 3. 質的データの解析方法 1 ( 名義尺度 ) 2.χ 2 検定 タイプ 1. 二項検定 官能検査における分類データの解析法 識別できるかを調べる 嗜好に差があるかを調べる 2 点比較法 2 点識別法 2 点嗜好法 3 点比較法 3 点識別法 3 点嗜好

Medical3

情報工学概論

Microsoft PowerPoint - sc7.ppt [互換モード]

Microsoft PowerPoint - R-stat-intro_12.ppt [互換モード]

経済統計分析1 イントロダクション

第1回

MedicalStatisticsForAll.indd

EBNと疫学

基礎統計

EBNと疫学

Chapter 1 Epidemiological Terminology

スライド 1

Chapter カスタムテーブルの概要 カスタムテーブル Custom Tables は 複数の変数に基づいた多重クロス集計テーブルや スケール変数を用いた集計テーブルなど より複雑な集計表を自由に設計することができるIBM SPSS Statisticsのオプション製品です テーブ

統計的データ解析

Medical3

モジュール1のまとめ

Microsoft PowerPoint - e-stat(OLS).pptx

PowerPoint プレゼンテーション

Microsoft Word - å“Ÿåłžå¸°173.docx

RSS Higher Certificate in Statistics, Specimen A Module 3: Basic Statistical Methods Solutions Question 1 (i) 帰無仮説 : 200C と 250C において鉄鋼の破壊応力の母平均には違いはな

<4D F736F F D208EC08CB18C7689E68A E F AA957A82C682948C9F92E82E646F63>

目次 1 章 SPSS の基礎 基本 はじめに 基本操作方法 章データの編集 はじめに 値ラベルの利用 計算結果に基づく新変数の作成 値のグループ化 値の昇順

ビジネス統計 統計基礎とエクセル分析 正誤表

1. 多変量解析の基本的な概念 1. 多変量解析の基本的な概念 1.1 多変量解析の目的 人間のデータは多変量データが多いので多変量解析が有用 特性概括評価特性概括評価 症 例 主 治 医 の 主 観 症 例 主 治 医 の 主 観 単変量解析 客観的規準のある要約多変量解析 要約値 客観的規準のな

Microsoft Word - 保健医療統計学112817完成版.docx

分析のステップ Step 1: Y( 目的変数 ) に対する値の順序を確認 Step 2: モデルのあてはめ を実行 適切なモデルの指定 Step 3: オプションを指定し オッズ比とその信頼区間を表示 以下 このステップに沿って JMP の操作をご説明します Step 1: Y( 目的変数 ) の

Microsoft PowerPoint - R-stat-intro_04.ppt [互換モード]

スライド 1

13章 回帰分析

Microsoft Word - Stattext12.doc

因子分析

構造方程式モデリング Structural Equation Modeling (SEM)

ANOVA

日本言語科学会(JSLS)チュートリアル講演会 平成13年12月16日(日)午前10時30分から午後4時30分 慶應義塾大学三田キャンパス東館6階G-SEC Lab   言語研究のための統計解析 「論理」学としての思考法,「美」学としての提示法

当し 図 6. のように 2 分類 ( 疾患の有無 ) のデータを直線の代わりにシグモイド曲線 (S 字状曲線 ) で回帰する手法である ちなみに 直線で回帰する手法はコクラン アーミテージの傾向検定 疾患の確率 x : リスクファクター 図 6. ロジスティック曲線と回帰直線 疾患が発

<4D F736F F D F4390B394C5816A8C B835E C835A AA90CD82A982E78CA982E990B68A888F4B8AB595618AC7979D312D332E646F63>

Microsoft PowerPoint - Lecture 10.ppt [互換モード]

Microsoft Word - Stattext13.doc

仮説検定を伴う方法では 検定の仮定が満たされ 検定に適切な検出力があり データの分析に使用される近似で有効な結果が得られることを確認することを推奨します カイ二乗検定の場合 仮定はデータ収集に固有であるためデータチェックでは対応しません Minitab は近似法の検出力と妥当性に焦点を絞っています

Probit , Mixed logit

第 3 回講義の項目と概要 統計的手法入門 : 品質のばらつきを解析する 平均と標準偏差 (P30) a) データは平均を見ただけではわからない 平均が同じだからといって 同一視してはいけない b) データのばらつきを示す 標準偏差 にも注目しよう c) 平均

8 A B B B B B B B B B 175

<4D F736F F D2090B695A8939D8C768A E F AA957A82C682948C9F92E8>

<4D F736F F D204B208C5182CC94E497A682CC8DB782CC8C9F92E BD8F6494E48A722E646F6378>

多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典

Microsoft Word - mstattext02.docx

カイ二乗フィット検定、パラメータの誤差

横浜市環境科学研究所

切片 ( 定数項 ) ダミー 以下の単回帰モデルを考えよう これは賃金と就業年数の関係を分析している : ( 賃金関数 ) ここで Y i = α + β X i + u i, i =1,, n, u i ~ i.i.d. N(0, σ 2 ) Y i : 賃金の対数値, X i : 就業年数. (

日心TWS

タイトルを修正 軸ラベルを挿入グラフツール デザイン グラフ要素を追加 軸ラベル 第 1 横 ( 縦 ) 軸 凡例は削除 横軸は, 軸の目盛範囲の最小値 最 大値を手動で設定して調整 図 2 散布図の仕上げ見本 相関係数の計算 散布図を見ると, 因果関係はともかく, 人口と輸送量の間には相関関係があ

Microsoft PowerPoint - Statistics[B]

Microsoft PowerPoint - statistics pptx

PowerPoint プレゼンテーション

第7章

<4D F736F F F696E74202D2088E38A77939D8C7695D78BAD89EF313791E63589F194E497A682C695AA8A84955C2E >

第1回

(3) 検定統計量の有意確率にもとづく仮説の採否データから有意確率 (significant probability, p 値 ) を求め 有意水準と照合する 有意確率とは データの分析によって得られた統計値が偶然おこる確率のこと あらかじめ設定した有意確率より低い場合は 帰無仮説を棄却して対立仮説

CAEシミュレーションツールを用いた統計の基礎教育 | (株)日科技研

Microsoft Word - SPSS2007s5.doc

統計学の基礎から学ぶ実験計画法ー1

Microsoft Word - apstattext04.docx

<4D F736F F F696E74202D208EC0926E89758A7782CC82BD82DF82CC939D8C765F939693FA2E >

Microsoft PowerPoint - Econometrics pptx

<4D F736F F F696E74202D20352D335F8D5C90AC CF909482CC90B690AC82C695D28F572E707074>

Microsoft PowerPoint - 基礎・経済統計6.ppt

無党派層についての分析 芝井清久 神奈川大学人間科学部教務補助職員 統計数理研究所データ科学研究系特任研究員 注 ) 図表は 不明 無回答 を除外して作成した 設問によっては その他 の回答も除外した この分析では Q13 で と答えた有権者を無党派層と定義する Q13 と Q15-1, 2 のクロ

Microsoft PowerPoint 古川杉本SASWEB用プレゼン.ppt

<4D F736F F F696E74202D2088E38A77939D8C7695D78BAD89EF313691E63589F194E497A682C695AA8A84955C2E >

Microsoft Word - apstattext03.docx

事例から振り返る    調査プロセスの検証

Microsoft PowerPoint - 資料04 重回帰分析.ppt

<4D F736F F D208EC08CB18C7689E68A E F1918A8AD695AA90CD2E646F63>

1.民営化

Microsoft PowerPoint - データ解析発表2用パワポ

Microsoft PowerPoint - ch04j

Microsoft PowerPoint - CVM.ppt [互換モード]

統計学 - 社会統計の基礎 - 正規分布 標準正規分布累積分布関数の逆関数 t 分布正規分布に従うサンプルの平均の信頼区間 担当 : 岸 康人 資料ページ :

Excelによる統計分析検定_知識編_小塚明_5_9章.indd

スライド タイトルなし

ベイズ統計入門

図 1 アドインに登録する メニューバーに [BAYONET] が追加されます 登録 : Excel 2007, 2010, 2013 の場合 1 Excel ブックを開きます Excel2007 の場合 左上の Office マークをクリックします 図 2 Office マーク (Excel 20

スライド 0

様々なミクロ計量モデル†

Kumamoto University Center for Multimedia and Information Technologies Lab. 熊本大学アプリケーション実験 ~ 実環境における無線 LAN 受信電波強度を用いた位置推定手法の検討 ~ InKIAI 宮崎県美郷

<4D F736F F D2088E38A77939D8C7695D78BAD89EF313791E63789F18C588CFC E646F6378>

スライド 1

数値計算法

IBM Software Business Analytics IBM SPSS Missing Values IBM SPSS Missing Values 空白を埋める際の適切なモデルを構築 ハイライト データをさまざまな角度から容易に検証する 欠損データの問題を素早く診断する 欠損値を推定値に

DVIOUT

Microsoft PowerPoint - データ解析基礎4.ppt [互換モード]

<4D F736F F D208D A778D5A8A778F4B8E7793B CC A7795D2816A2E646F6378>

Microsoft PowerPoint - データ解析演習 0520 廣橋

現代日本論演習/比較現代日本論研究演習I「統計分析の基礎」

<4D F736F F D204A4D5082C982E682E991CE B A F2E646F63>

1

ハートレー近似(Hartree aproximation)

異文化言語教育評価論 ⅠA 第 4 章分散分析 (3 グループ以上の平均を比較する ) 平成 26 年 5 月 14 日 報告者 :D.M. K.S. 4-1 分散分析とは 検定の多重性 t 検定 2 群の平均値を比較する場合の手法分散分析 3 群以上の平均を比較する場合の手法 t 検定


Transcription:

第 11 回クロス集計 (1) 今回はカテゴリ変数が 2 つ以上ある場合に, その関係をみる話に入ります クロス集計の方法とクロス集計表の操作 2 つのカテゴリ変数が独立 ( 無相関 ) であるという帰無仮説の検定 第 3 の変数で層別化することによって交絡を制御する話 2 つのカテゴリ変数間の関連の程度の評価 ( 次回 )

クロス集計表の作成 2 つのカテゴリ変数をもつデータがあるとする ( 例 )AGE( 年齢 ),EXPOSURE( 曝露の有無 ) と DISEASE( 病気の有無 ) についての 40 人のデータ タブ区切りテキストファイル http://phi.med.gunma-u.ac.jp/medstat/s11.txt AGE EXPOSURE DISEASE 69 "YES" "YES" 54 "YES" "NO" 76 "YES" "YES" 44 "YES" "NO" 50 "YES" "YES" 70 "YES" "YES" 40 "YES" "YES" 54 "YES" "YES" 50 "YES" "YES"

さまざまな集計の例 データを読みこむ (R を起動してプロンプト ">" に下記を打つ ) x <- read.delim("http://phi.med.gunma-u.ac.jp/medstat/s11.txt") データ構造を見て, ちゃんと読めたか確認 str(x) 曝露の有無 (EXPOSURE) について集計 table(x$exposure) または xtabs(~exposure, data=x) 集計結果を EXC という名前のオブジェクトに付値 EXC <- table(x$exposure) などとする 曝露ありの人についてだけ, 病気の有無 (DISEASE) を集計 table(x$disease[x$exposure=="yes"]) または table(subset(x,exposure=="yes")$disease) この結果を EXD という名前のオブジェクトに付値 EXD <- table(x$disease[x$exposure=="yes"])

さまざまな集計の例 ( 続き ) 曝露なしの人についてだけ病気の有無 (DISEASE) を集計し NED に付値 NED <- table(x$disease[x$exposure=="no"]) これら 2 つの集計結果を行方向に結合するとクロス集計表になる rbind(exd,ned) しかし実は最初からクロス集計は table() でも xtabs() でも可能 table(x$exposure,x$disease) または xtabs(~exposure+disease, data=x) 結果のクロス集計表は下記 DISEASE EXPOSURE NO YES NO 12 8 YES 4 16 最初からクロス集計表の人数がわかっていれば matrix(c(12,4,8,16),2,2) でも OK

さまざまな集計の例 ( 続き ) 違う名前でもいい 行名, 列名の順 カテゴリに名前を付けて, オブジェクト TBL として保存するには TBL <- matrix(c(12,4,8,16),2,2) としてから rownames(tbl) <- colnames(tbl) <- c("no","yes") または dimnames(tbl) <- list(exposure=c("no","yes"),disease=c("no","yes")) 上のようにすると, オブジェクト TBL は, 下記 xtabs 結果と一致 TBL <- xtabs(~exposure+disease, data=x) 60 歳未満の人だけ (AGE<60) についてクロス集計するなら xtabs(~exposure+disease, data=subset(x,age<60)) 60 歳以上の人だけなら, 同様に xtabs(~exposure+disease, data=subset(x,age>=60)) 10 歳刻みで別々にクロス集計表を作るには x$ac <- cut(x$age,seq(min(x$age),max(x$age)+1,by=10),right=false) xtabs(~exposure+disease+ac, data=x)

3 次元のクロス集計表 ( 続き ) 10 歳刻みで別々にクロス集計表を作るには ( 再掲 ) x$ac <- cut(x$age,seq(min(x$age),max(x$age)+1,by=10),right=false) xtabs(~exposure+disease+ac, data=x) または table(x$exposure,x$disease,x$ac) これは 3 次元のクロス集計表 AC の代わりに 60 歳未満 / 以上の 2 区分では, xtabs(~exposure+disease+(age>=60), data=x) 2 つのクロス集計表から合成するには, YTBL <- xtabs(~exposure+disease, data=subset(x,age<60)) ETBL <- xtabs(~exposure+disease, data=subset(x,age>=60)) T3 <- array(c(ytbl,etbl),dim=c(2,2,2)) 行名, 列名, 表名が全部消えてしまうので, 付け直すには dimnames(t3) <- list(e=c("n","y"),d=c("n","y"),age=c("<60",">=60")) 3 次元クロス表の 1 枚である 2 次元クロス集計表を参照 T3[,,1] や T3[,,"<60"] は YTBL と同値 T3[,,2] は ETBL と同値 病気ありの人だけで曝露の有無と年齢のクロスは T3[,2,] で OK T3[,,1]+T3[,,2] により年齢区分をしないクロス表が得られる QUIZ: 年齢区分をしないで曝露と病気のクロス表を得るには?

クロス集計表をどのように分析する? 知りたいこと :2 つのカテゴリ変数 ( 曝露と病気 ) に関連があるか? 関連がない 帰無仮説の検定 = 独立性の検定 カイ二乗検定 ( 数学的に比率の差の検定と同値 ) フィッシャーの直接確率 どの程度の関連があるか =3 つのアプローチ 属性相関係数 ( やポリコリック相関係数 ) を調べる 比 曝露した人の病気のなりやすさが曝露が無い人の何倍かを調べる 差 曝露した人の病気のなりやすさが曝露が無い人よりどれだけ大きいかを調べる 注意点 病気のなりやすさ をどうやって示すか? 率と割合 曝露と病気の関連が歪められていないか? 交絡 次回やります

独立性の検定 カイ二乗検定 クロス集計表の実際の数値を観測度数, 関連が無かった場合に観察されるはずの人数を期待度数とし, 適合度検定と同じく差の二乗を期待度数で割ったものを加えてカイ二乗値を計算する ( 自由度に注意 ) 度数は離散値でカイ二乗分布は連続分布なため,Yates の連続修正 ( 度数の差に 0.5 を足したり引いたりする ) によりカイ二乗分布の近似をよくする 通常は,chisq.test( クロス集計表 ) で OK フィッシャーの直接確率 周辺度数が決まっているときのすべてのあらゆる組み合わせを考え, 観察されている表よりも出現確率が低い表の出現確率の総和をとって有意確率を得る 通常は fisher.test( クロス集計表 ) で OK

やりたいことの分解 前出の例 (s11.txt) では? データを読む x < - read.delim("http://phi.med.gunma-u.ac.jp/medstat/s11.txt) 曝露の有無と病気の有無のクロス集計表を計算 表示 (TBL <- xtabs(~exposure+disease,data=x)) 曝露の有無と病気の有無に関係が無いという帰無仮説の検定 chisq.test(tbl) または fisher.test(tbl) 期待度数が小さすぎるセルがあると chisq.test() は警告が出る 現在ではコンピュータは充分速いので, 常に fisher.test() で OK この例では, どちらでも, ほぼ同じ有意確率が得られる この部分の説明は次回

属性相関係数 ファイ係数 (φ) 曝露の有無, 発症の有無を 1/0 で表した相関係数 π1= 曝露群の有病割合,π2= 非曝露群の有病割合,θ1= 病気ありの人の曝露割合,θ2= 病気なしの人の曝露割合として, φ= ((π1-π2)(θ1-θ2)) 2 2 に限らず一般の k m 分割表について計算可能 カイ二乗統計量 χ2 と総人数 n を用いると (χ2/n) ピアソンのコンティンジェンシー係数 C ファイ係数からカテゴリ数の影響を除去したもの C= (φ2/(1+φ2)) クラメールの V ファイ係数の取りうる値の範囲を 0 から 1 にしたもの k と m の小さな方を t として,V=φ/ (t-1) vcd ライブラリの assocstats() 関数で計算できる

属性相関係数の計算例 s11.txt で曝露と病気についての属性相関係数は? # データを読む x <- read.delim("http://phi.med.gunma-u.ac.jp/medstat/s11.txt") # 集計 (TBL <- xtabs(~exposure+disease,data=x)) # vcd ライブラリを読み込む library(vcd) # 属性相関係数の計算 assocstats(tbl) ファイ係数 Yates の連続性の修正がされていないカイ二乗検定の結果 コンティンジェンシー係数 クラメールの V

交絡とは何か? 原因への曝露と結果である病気との因果関係を歪めるバイアスの1つ交絡因子でなければ, 制 交絡因子の3つの条件御しなくても因果関係は歪まないので,2 次元クロス集計で分析可能 曝露と関係している 病気と関係している 曝露の結果ではない ( 因果パスの中間にはない ) 喫煙 COPD 喫煙 高血圧 喫煙 肺がん 年齢 動脈硬化 遺伝因子 喫煙への曝露と COPD 発症の因果関係において年齢は交絡因子 こういう因果パスがあったとすると, 動脈硬化は交絡因子ではない 曝露と関係していなければ交絡因子でない

交絡の検討方法 限定による解析 ある要因曝露と病気の関係が高齢者でだけ見られる場合は, 広い年齢層のデータを一緒にしてしまうと関連がマスクされるので, 対象を高齢者に 限定 して解析 層別解析 上の例で, 若い人も調べるが高齢者とは年齢層別に解析することにすれば, 高齢者での関連がマスクされないだけでなく, もし若い人に別の関連性が潜んでいても見いだせる 層別のクロス集計表の併合による解析 どの層でも同じ方向に関連がある, といいたいときマンテル = ヘンツェルの要約カイ二乗検定 mantelhaen.test(3 次元の集計表 ) ただし 3 次元の交互作用がないことを確認するため Woolf の検定で有意でないことを要確認 library(vcd); woolf_test(3 次元の集計表 ) ロジスティック回帰分析など多変量解析 ( 第 14 回参照 )

交絡が疑われる時の解析例 (s11.txt) データは既に x に読めているとする 60 歳以上に限定するには fisher.test(xtabs(~exposure+disease, data=subset(x,age>=60)) 60 歳以上か未満かで層別に解析するには T3 <- xtabs(~exposure+disease+(age>=60),data=x) fisher.test(t3[,,1]) fisher.test(t3[,,2]) クロス表を併合して解析するなら fisher.test(t3[,,1]+t3[,,2]) や chisq.test(t3[,,1]+t3[,,2]) の結果と mantelhaen.test(t3) の結果を比較ただし library(vcd) woolf_test(t3) で有意確率が大きく3 次の交互作用が有意でないことが前提 このデータの場合,p 値が大きく異なるので, 層別因子にした 年齢 は交絡である可能性が高い

付. 反復測定の一致度について ( 詳細は省略するのでテキスト参照 ) 対象者に同じ検査や質問紙調査を反復測定あるいは別の検査者や評価者による測定が実施された場合に測定の信頼性 (test-retest reliability や inter-rater reliability) を調べたいとき 形はクロス集計となるが, 帰無仮説 関連が無い では論理的におかしい つまり関連はあって当然 偶然よりも一致度が高くなって初めて意味があるので, 帰無仮説は 偶然の一致と差が無い カイ二乗検定やフィッシャーの検定は使えない カッパ統計量の計算と有意性検定 (fmsb ライブラリの Kappa.test), 拡張マクネマー検定 (mcnemar.test) などの方法がある