第 章頻度データの評価 第 章頻度データの評価頻度データは一般的に の検定を用いている. この中には, カイ二乗 (X ) 検定,Fisher 直接確率検定およびオッズ比計算などがある.. カイ二乗検定 Xmas は,Christmas(/5) の Christ の前半をギリシャ読みでカイと読めることが語源. 横の行 ( 群数 ) が, 縦の列 ( 反応 ) が なので 定性的相関表 ( Contingency)( 表 ) という. この検定は, 両側検定を前提としている. どこかのセルに 5 以下の数値がある場合は, カイ二乗確率が低めに算出されることから Yetes の補正または Fisher の直接確率検定が使用されている. 表. 定性的相関表 Class Class Total Group A B AB Group C D CD AC BD ABCD=N X N( A D - B C) = ( A C) ( B D) ( A B) ( C D) ある病院の病棟別に 週間あたりの風邪の罹患率について調査した結果を表 に示した. 病棟間に差があるか解析する. 表. 病棟別風邪の罹患率 病棟 人数罹患罹患なし合計 A 49 50 B 9 4 50 計算すると下記の通りになる. 自由度 =( 行数 -)( 列数 -)= (-) (-) = を計算すると, カイ二乗値 = X = 7. 自由度,X の分布表 ( 数表 -) から 7. に対する確率は % 水準の値 6.635 より大きいので % 水準で有意 (P<0.0) を示したことになる. すなわち病棟間に差があることになる. 数表 -. カイ二乗分布のパーセント ( 吉村ら,987) 自由度, 有意水準点, α 群数 - 0.00 0.050 0.00 0.00.705 3.84 6.635 0.8 4.605 5.99 9.0 3.8 3 6.5 7.84.34 6.6 4 7.779 9.487 3.7 8.46 5 9.36.07 5.08 0.5 6 0.64.59 6.8.45 7.0 4.06 8.47 4.3 8 3.36 5.50 0.09 6. 9 4.68 6.9.66 7.87 0 5.98 8.30 3.0 9.58 SAS JMP で計算する場合の入力フォーマットを表 3 に示した. 表 3. 表 のデータを SAS JMP に入力 病棟 罹患 該当人数 A アリ B アリ 9 A ナシ 49 B ナシ 4 8
第 章頻度データの評価 SAS JMP による解析結果を下記に示した. SAS JMP では, 分析 ニ変量の分布 病棟を X へ, 罹患を Y へ, 該当人数を 重み へ アクション OK 計算結果の表が算出される.Pearson の値で判断する. P=0.0077 で有意差 (P<0.0) を示す. 同時に Fisher の正確検定も計算される. 左側検定 ( 片側検定,P=0.0078) で判断する. この場合, 直接確率が表示される. SAS JMP のサンプルデータの タイタニック を開く. のクロス検定で生存者の動向を検索する.SAS JMP では, 分析 ニ変量の分布 生存者を説明変数 X へ, クラス, 年齢および度数を Y へ, アクション OK. Pearson の値を得る. 生存者に対して全ての調査項目は, 有意差が認められる. このデータは, 集計データではなく生データである. したがって, ニ変量の分布で解析する. タイタニック号に乗船していた 0 名の生死別を乗船クラス別 ( 等, 等,3 等, 乗組員 ), 性別 ( 男女 ) および年齢別 ( 成人, 子供 ) に調査した結果である.. 適合度の検定 ( ある観察度数と理論値との比較 ) 血漿分離に用いる遠心分離器を 4 台使用したところ年間次の如き故障回数 ( 表 4) を示した. これは故障回数が等しいといえるか? 表 4. 遠心分離器の年間故障回数 遠心分離器番号 3 4 計 故障回数 46 33 38 49 66 9
X 46 33 38 49 7050 = -66 = -66 = 3.88 66 66 66 66 4.5 4 4 4 4 = 0.5 は仮定する確率分布 ( N = 4群 ) 4 第 章頻度データの評価 X 分布表 ( 数表 -) の自由度 4-=3 の点は 7.84. したがって, 算出した 3.88 はこれより小さいことから, 同等という故障回数を捨てることできない. すなわち, 故障回数が等しく, 機械による差はないと結論できる. SAS JMP による解析結果を下記に示した. SAS JMP では, 分析 一変量の分布 水準を Y へ, 故障回数を度数へ, アクション OK 水準をクリック 割合の検定 全ての空欄にこの場合 ( 仮説割合, 実際には 0.5 となる ) を入力する 完了.Pearson の値を得る.P=0.75,5% 水準で有意差を認めない. 適合度の検定の検出力の把握適合度の検定 ; ショウジョウバエが酒を鑑定するはなし ( 佐藤,968). 箱の中に二種類の異なったお酒を入れてショウジョウバエを 50 匹放ちどちらのお酒に何匹飛び込んだかを記録する. 下記に有意差 (P<0.05) の目安を P 値で示した. ( 佐藤原図,968) 0
第 章頻度データの評価 ショウジョウバエのきき酒テストの結果 ( 有意水準 ) 清酒 : 焼酎 =48: (P=0.%) 清酒 : 赤ブドー酒 =8:4 (P=0.%) ビール : 赤ブドー酒 =6:34 (P=.%) ビール : 清酒 =36:4 (P=.8%) 清酒 : 合成酒 =33:7 (P=.4%) ブランデー : ウイスキー =3:8 (P=4.7%) ウイスキー特級 : ウイスキー一級 =8: (P=39%) ブランデー : ウイスキー =3:8 を計算する. 3 8 X = - 50 = 53.9-50 = 3.9 50 50 数表 - のカイ二乗分布の 0.05, 自由度 (-) の交点 3.84 と比較して計算値 3.9 は大きいことから, この食い違いは 5% 水準で有意差を示したことになる. SAS JMP による解析結果を下記に示した. Pearson の値で判定する.
第 章頻度データの評価 イカサマサイコロの検定サイコロの一部に穴をあけて鉛をつめ, 外見上は見分けが付かないように細工したものであるとか, その他色々なことを聞く. しかし, 全く正しいサイコロ, つまり から 6 までの目が公正に出るサイコロを作ろうとすると, 極めて困難なことであると聞く. サイコロを 0 回振った出目の結果を表 5 に示した. 表 5. サイコロを 0 回振った出目 目 3 4 5 6 出目の回数 8 7 5 0 30 0 X 8 7 5 0 30 0 = -0 = 3.9-0 =.9 0 0 0 0 0 0 6 6 6 6 6 6 この場合の自由度は, 出目が 6 種類あるので (6-)5 である. 数表 - のカイ二乗分布の 0.05, 自由度 5 の交点.07 と比較して計算値.9 は大きいことから, サイコロの目の出方は公正でないということが, 危険率 5% 以下でいえることになる. SAS JMP による解析結果を下記に示した. SAS JMP では, 分析 一変量の分布 水準を Y へ, 度数を度数へ, アクション OK 水準をクリック 割合の検定 全ての空欄にこの場合 ( 仮説割合, 実際には 0.6667 となる ) を入力する 完了.Pearson の値を得る.P=0.036,5% 水準で有意差を認める.
第 章頻度データの評価 応用例 : SAS JMP のサンプルデータの Car poll を用いた検定. ) 車の車種別保有率のデータを分析する商業車 (work), スポーツ車 (sporty) およびファミリーカー (family) の保有率を解析したい. 始めに各車種が :: として入力する. 検定結果は, ピアソンタイプの値で吟味すると 0.% 水準で有意差がある. したがって, 車種は :: ではないことが分かる. 次に 5:: では,5% 水準で有意差がない. したがって, 車種は 5:: であることが分かる. ) 肉眼的観察割合が理論値に合致するか否か? メンデルの遺伝, あるデータベースより得た豆の形態を分類した.3::9:3 に合致しているか否か吟味する. gr=08, gw=3, yr=35, yw=0, Total 556, y= 黄色,r= 丸い,g= 緑,w= しわがある. メンデルの法則によると gr:gw:yr:yw=3::9:3 である.393=6 3
第 章頻度データの評価 X 3 6 = 0.875, 6 = 9 0.065, 6 = 0.565 08 3 35 0 = - 556 = 556.47-556 = 0.47 556 0.875 556 0.065 556 0.565 556 0.875 0.8750.0650.5650.875= 検定結果は, 数表 - カイ二乗分布のパーセント点, 自由度 (4-)=3 の 5% 水準点の 7.8 と計算値 0.47 を比較すると計算値の方が小さいことから 5% 水準で有意差が認められないことからメンデルの遺伝の 3::9:3 の理論に合致していることが分かる. 3. Fisher の直接確率検定前述の表 に示したデータについて解析する. 表. 病棟別風邪の罹患率 病棟 人数罹患罹患なし合計 A (A) 49 (B) 50 B 9 (C) 4 (D) 50 ( A B)! ( C D)! ( A C)! ( B D)! P = N! A! B! C! D! P 50! 50!0! 90! = = 0. 0078 = 直接確率 00!! 49! 9! 4!!; 階乗記号 ;5 の場合, 3 4 5 となる. この確率に加えてもっと極端な結果を考えると表 6 の表となる.P を計算する.0 の欄が見られたらこれより極端な例はないので終わりとする. 表 6. 病棟別風邪の罹患率 病棟 人数罹患罹患なし合計 A 0 50 50 B 0 40 50 P 50! 50!0! 90! = = 0. 0006 = 直接確率 00! 0!50!0! 40! 最終確率は P と P を加えた値となる.P P =0.00780.0006=0.0084 分子分母でお互いに消去する. しかし, コンピュータでなければ対応ができない.0.0084 は % より小さいので,P<0.0 で有意差を示したことになる. 片側検定が一般的に使用されている. 両側検定を望む場合は, 計算値を二倍する. SAS JMP による Fisher の直接確率検定の解析は, カイ二乗検定の項に記載した.SAS JMP では片側検定で 0.0078 となり他のコンピュータ ( 上記の 0.0084) による計算と若干直接確率が異なる. 4
第 章頻度データの評価 4. オッズ比,Odds ratio 産業衛生 疫学調査分野およびその他の広い分野で常用されている. これは, 当たる確率と外れる確率との比である. 競馬のオッズと同様である. ) ケースおよびコントロールグループの因果関係 ( 表 7) 調査研究グループ 表 7. ある調査研究の結果暴露あり () なし (-) 合計 ケース ( 処置 ) a b ab コントロール ( 対照 ) c D cd 合計 ac bd abcd 方波見ら (997) の例題 ( 表 8) によって説明する. オッズ比 (OR) は, 95% 信頼区間 (CI) は, 表 8. 食塩摂取量と脳血管疾患患者発生数 調査群 食塩摂取量 日 5g 以上 () 日 5g 未満 (-) 計 脳血管疾患ケース 84(a) 36(b) 0 対照 66(c) 54(d) 0 計 50 90 40 OR ad = bc 84 54 = =.9 36 66 ïì ïü CI = exp íin( OR) ±.96 ý ïî a b c d ïþ.96 は,t- 分布表の 5% 水準値の の値である. 同様に正規分布表 (Z の表 ) の両側の 5% 水準値である. In( OR) = log.9 = 0.647 e S =.96 =.96 a b c d 84 36 66 54 = 0.533 信頼区間の下限値 CI, 上限値 CI とすると, e 0.4 およびe.8 In( OR) - S = 0.647-0.533 = 0.4から \ CI = e In( OR) S = 0.647 0.533 =.8から \ CI = e 0.4.8 =. = 3.5 から. および3.5を算出するには, 関電卓数または, Excelに = Exp(0.4) と入力すると. が得られる. オッズ比は,.9,95% 信頼区間は.-3.5 となる. これは.00 より大きいので, 日に 5 g 以上の食塩摂取は脳血管疾患の危険因子である可能性が大きい. 調査人数は各群とも同数である. オッズ比で示した文献例 ( 今泉, 稲葉編集,997) を表 9 に示す. ケースおよびコントロール ( 対照 ) の調査標本数は大きく, ほぼ同数を集めている. 5
第 章頻度データの評価 表 9. アルツハイマー病の危険要因 (EC 共同体での共同研究結果 ) 危険因子 オッズ比 95% 信頼頻度区間ケースコントロール. 痴呆の家族歴 3.5.6-4.6 03/84 40/894. パーキンソン病の家族歴.4.0-5.8 0/3 8/94 3. ダウン症候群 精神遅延の家族歴.7.-5.7 0/588 7/65 4. 頭部外傷 ( アルツハイマー病発症 年以上前に意識消失 ).8.3-.7 87/059 50/059 5. 甲状腺機能低下症.3.0-5.4 7/655 8/73 6. うつ病.8.-.9 55/743 34/88 7. 喫煙 0.8 0.6-.0 477/899 563/955 危険因子を判定する際, オッズ比の大きさの目安は,.00 以上が危険因子を良く反映していると思われる. 一般的に喫煙群では, アルツハイマー病の罹患率が少ないといわれているが, このデータからは, 喫煙によってアルツハイマー病の予防効果はないと考える. ) 発生率を解析する場合何らかの特性の有無によってここの対照を二つのグループに分割し, ある発生率 頻度を評価する場合 ( 舟喜 折笠,00) のクロス表を表 0 に示した. 表 0. 因果関係のあるデータのクロス表 調査研究結果 特性あり () なし (-) 合計 発生 A b ab 発生せず C D cd 合計 ac bd abcd イングランドおよびウェールズの三つの保健所で出産前健康診断における風疹の感染に関する研究を実施した結果を表 に示す. オッズ比 (OR) は, log e R の標誤誤差は, 表. アジア系および非アジア系別の出産前健康診断における風疹感染 風疹感染 グループアジア系非アジア系 合計 あり 6 748 909 なし 475 3400 36495 合計 636 34768 37404 a /( a c) OR = = b /( b d) 6/ 636 748/ 34768 =.84 6-636 748-34768 = 0.0845 95% 信頼区間 (CI) は, および W X = e log.84 - (.96 0.0845) = 0.878 = e log.84 (.96 0.0845) =.094 以上から母集団における R に関する 95% 信頼区間は, 0.878 e ~ e.094 6
第 章頻度データの評価 すなわち.4~3.35 となる. オッズ比は,.84,95% 信頼区間は.4-3.35 となる..84 は.00 と比較して大きいので, アジア系と非アジア系の妊婦間では風疹の感染に差があることが分かる. オッズ比の有意差判断基準は, オッズ比の 95% 信頼区間が.0 を含まないものを有意水準 5% で統計学的に有意と判断する ( 中村ら,00). 引用文献および引用資料 今泉洋子, 稲葉裕編集 (997): 保健統計学,pp34, 倍風館, 東京. 方波見重兵衛, 金森雅夫, 本多靖 (997): 系統看護学講座,pp7-73, 医学書院, 東京. 佐藤信 (968): 推計学のすすめ, 講談社, 東京. 舟喜光一, 折笠秀樹共訳 (00): 信頼性の統計学,pp60-6, サイエンティスト社, 東京. 吉村功編著 (987): 毒性 薬効データの統計解析 - 事例研究によるアプローチ -, サイエンティスト社, 東京. 中村好一, 金子勇, 河村優子, 坂野達郎, 内藤佳津雄, 前田一男, 黒部睦夫, 平田滋, 矢崎俊樹, 後藤康章, 橋本修二 (00): 在宅高齢者の主観的健康観と関連する因子, 日本公衆衛生雑誌,49, No.5, 409-46. 7