Microsoft Word - apstattext03.docx

3 章質的データの検定これから検定の手法を順番に詳しく見て行きましょう最初は質的データの検定についてです質的データの検定は構成比率の検定でアンケートで賛成が過半数であるかとか賛成の比率が男女で異なるかといったことを調べますこれからは最初に例題を置きそれについて College Analysis による回答を示します理論のところではその検定のために使った公式を簡単に表示しますが必要なければ無視してもらって結構です 3.1 母集団の比率と指定比率との検定例ある大学の学生 50 人を任意抽出し大学改革のアンケートを行ったところ賛成 35 反対 15 であった学生の過半数が賛成している ( 賛成の比率が 1/ と異なる ) といえるか有意水準 5% で判定せよこの例は前の章の超能力の検定とほぼ同じ内容ですデータはファイル Samples テキスト 3.txt を選択しますそうすると以下のような分割表になったデータが表示されます図 3.1.1 分割表データ次にメニューで [ 分析 - 基本統計 - 質的データの検定 - 質的データ検定メニュー ] を選択し質的データの検定 Window を開きます 1

図 3.1.1 質的データの検定メニューこの例題は過半数かどうかを調べる問題なので確率 0.5 との比較になります検定メニューを見ると一番上に指定比率との比較というのがありますのでそこを右にたどって適合度検定を選んでクリックします変数選択で度数を選択しラジオボタンで 1 次元分割表を選んで指定比率のところに賛成と反対の比較する比率 0.5,0.5 または 1/,1/ を入力しますここでは同比率ですので等確率ボタンをクリックして比率を入力することもできますそこまで終わった画面が以下の図です図 3.1. 適合度検定メニューここで検定ボタンをクリックすると以下の結果が表示されます

図 3.1.3 適合度検定結果画面ここではいくつかのデータが表示されていますが注意して見ておくべきは片側確率 P の値と一番下の検定結果の文章です通常統計ソフトでは検定の確率までは表示されますが下の文章までは表示されませんこれは解釈を間違える学生が多くいたことから追加した文章です検定の評価の文章では p 0. 05 の場合差があるという言い方で結構ですが p 0. 05 の場合は差がないではなく差があるといえないという控えめな言い方をしますこれはこのデータ数ではまだ差はみつからないというだけでデータ数を増やすと見つかるようになるかも知れないからですこの例題ではこの段階でもう有意な ( 有意差がある ) 結果になっているようです 70% が賛成して検定の結果が 1/ と比べて差があるということは過半数であるということです最後にこの計算をするための公式を示しておきましょう理論適合度検定出現比率が指定比率と比べて差がないとすると ( n1 m1 ) ( n m) ( nk mk ) ~ k 1 分布 m m m 1 ( n m ) ( n m ) 1 1 1 1 1 k k ~ k 1 分布 m n 1 m mk k ( n m ) (Yates の連続補正 ) 3

ここには公式が種類書いてありますが一般的な教科書などでは上の公式が説明されていますこれはデータ数が十分大きい場合に成り立つ公式なので実用上は下の公式がよく使われます上の式から下の式への補正は Yates の連続補正と呼ばれていますこのような分割表の検定が信用できるものになるためには分割表の 1 つのセルに 10 程度以上の度数が必要であると言われています問題 1 ある工場で1 年間におきた事故の件数を曜日毎に調べたところ以下の表が得られた事故は曜日による差があるといえるか? 有意水準 5% で判定せよ曜日月火水木金計事故件数 3 14 16 11 16 80 P =[ ] 判定曜日による差があると [ いえるいえない ] 問題上の問題で月曜日は特に事故が起こっているといえるか月曜日とその他の曜日に分けて有意水準 5% で判定せよ P =[ ] 判定月曜日に事故が多く起こっていると [ いえるいえない ] 問題 3 Samples テキスト 9.txt について以下の問いに答え結果を文書にまとめよ 1) 意見 1について1 次元分割表を描け (1: はい,: いいえ ) はいいいえ合計 ) 意見 1においていいえは過半数といえるか有意水準 5% で判定せよ P =[ ] 判定過半数と [ いえるいえない ] 3) 上の問題で Yates の補正をしない場合どうなるか P =[ ] 4

判定過半数と [ いえるいえない ] 4) 意見について1 次元分割表を描け (1: 案 1,: 案,3: 案 3) 案 1 案案 3 合計 5) 意見について以下のような円グラフを描け 6) 意見において回答間に差があるといえるか有意水準 5% で判定せよ P =[ ] 判定回答間に差があると [ いえるいえない ] 3. 対応のない群間の比率の検定これまでは指定した比率と母集団の比率を比較するような検定でしたがここからはつ以上の母集団の比率の比較検定です 1. 表の検定例ある問題についての調査で男女別に賛成か反対かを集計したところ以下の結果を得た賛成 ( または反対 ) の比率に男女差はあるといえるか有意水準 5% で判定せよ賛成反対計男性 18 10 8 女性 1 14 6 計 30 4 54 これは男性母集団と女性母集団の賛成比率を比較する検定です標本での比率は男性 18/8 女性 1/6 で男性の比率が高いですが母集団ではどうでしょうかまずこのデータを読み込みメニュー [ 分析 - 基本統計 - 質的データの検定 - 質的 5

データ検定メニュー ] を選択します図 3..1 質的データの検定メニューこの例題は男女で比べますので群間の比較です次に対応ですが一番分かりやすいのはこのつの群に同じ人がいるかどうかです群は男女で分かれ同じ人は無理なのでここの場合の対応はなしです例えば使用前と使用後の感想などというと同じ人がつの群にいますので群間に 1 対 1 の対応があると言いますここでは対応なしのところをたどって χ 検定ボタンをクリックしますすると以下のような χ 検定メニューが表示されます図 3.. χ 検定メニューこのデータは次元分割表なので次元分割表からラジオボタンを選び変数選択ですべてを選択し検定コマンドボタンをクリックします 6

解答図 3..3 χ 検定結果画面 1.1358, p 0.8654 p 0.05 より男女差があるとはいえない以下にここで使った分割表のχ 検定の公式を示しておきます χ 検定では分割表の場合は簡単に計算できるように一般の場合とは違った計算式が与えられています一般の場合はちょっと複雑になりますがそれも示しておきます理論分割表の場合 ( 特別な書式 ) 事象 1 事象計要因 1 a b a+b 要因 c d c+d 計 a+c b+d a+b+c+d=n 要因間で事象の出現比率に差がないとすると ad bc n ~ 1 分布 ( a b)( c d)( a c)( b d) n ad bc n ~ 1 分布 (Yates の連続補正 ) ( a b)( c d)( a c)( b d) 7

m n 分割表の場合事象 1 事象事象 s 計要因 1 x 11 x 1 x 1s x 1 要因 x 1 x x s x : : : : : 要因 r x r1 x r x rs x r 計 x 1 x x s n 要因間で事象の出現比率に差がないとすると r s x ij xi x j n ( r ~ 1)( s 1) 分布 i 1 j 1 xi x j n xij xi x j n 1 表の統計量の一般形 r s ~ ( r 1)( s 1) 分布 (Yates の連続補正 ) i 1 j 1 xi x j n 問題 4 ある案についてのアンケートで以下の結果を得た男女間の回答 ( 賛成の比率 ) に差があるといえるか有意水準 5% で判定せよ賛成反対男性 18 86 女性 107 95 確率 [ ] 判定男女間に差があると [ いえるいえない ] 問題 5 女性を対象とした調査である化粧品の所有の有無を職業別に分類してみると以下の結果が得られた職業間で商品所有の割合に差があるといえるか有意水準 5% で判定せよ所有あり所有なし計主婦 90 199 89 事務 3 47 79 販売生産 53 71 14 計 175 317 49 確率 [ ] 判定男女間に差があると [ いえるいえない ] 問題 6 Samples テキスト 9.txt において以下の問いに答えよ 8

1) 意見 1の回答に地域による差があるか有意水準 5% で判定せよ確率 [ ] 判定地域による差があると [ いえるいえない ] ) 上の問題で有意水準を 1% にすると結果はどう変わるか判定地域による差があると [ いえるいえない ] 3) 意見の回答に地域による差があるか有意水準 5% で判定せよ確率 [ ] 判定地域による差があると [ いえるいえない ] 4) 意見の回答に意見 1による差があるか有意水準 5% で判定せよ確率 [ ] 判定意見 1による差があると [ いえるいえない ] 3.3 対応のある母集団間の比率の検定 (McNemar 検定 ) ここではまず対応について説明します簡単に言うとつの母集団に同じ人がいるかどうかが対応の分かり易い区別です例えばある調査を広島県と岡山県で実施して結果を比較したとしますこの調査では広島県と岡山県で調査対象が違いますので一般に同じ人はいませんこのような場合この母集団間に対応はないと言います同様にある調査で男性の結果と女性の結果を比較する場合男性の集団と女性の集団には一般に同じ人はいませんでこれも母集団間に対応はありませんしかし例えばあるダイエット食品の使用前と使用後で体重を比較するなどは同じ人を追跡調査するわけですから使用前の集団に含まれる人が使用後の集団に含まれていないと意味がありませんこの様な場合母集団間に (1 対 1) の対応があるといいます同様にある試験を実施して英語の点数と国語の点数を比較する場合英語を受けた人はほぼ国語を受けていますのでどちらか受けていない人を除けば英語を受験した集団に含まれる人は国語を受験した集団に含まれていますまたその逆も成り立ちますこのような場合も対応がある例です対応がないデータと対応があるデータでは入力方式が違います今つの群で対応がある場合とない場合で比較してみましょうまず対応があるばあいで例えばある健康食品の使用前と使用後 ( 前 :1, 後 :) で体調 ( 良い :1, 悪い ) を比較する場合ですこのように対応がある場合通常同じ人を横に並べて描きますこのデータの場合の次元分割表は右のようになります表 3.3.1 対応のある場合のデータと集計使用前使用後使用前 \ 使用後良い悪い 1 1 良い 1 1 悪い 1 9

1 1 1 1 次に名前を調べずに同じ人が特定できない場合の結果はどうなるでしょうかまず上のように横列に入力することも可能です但し同一人物が横 1 列になっている保証はありませんこのような形式を我々は群別データと呼んでいますまた別の形式もあります使用前と使用後を数字で 1 とに分け人を区別せずに以下のようにならべますもちろん順番は以下のようでなくても構いませんこのデータの場合の次元分割表は右のようになります表 3.3. 対応のない場合のデータと集計前 / 後体調体調良い体調悪い 1 1 使用前 3 3 1 使用後 4 1 1 1 1 1 1 1 1 1 1 これを見ると前の表の 1 列と列を縦にくっつけて列目とし 1 列目に使用前は 1 使用後はと入力していることが分かります対応がある場合に比べてデータ数が倍になっていますがこれは対応がある場合はつのデータを 1 組として数えるからですこのように対応があるデータには対応がある場合の集計法と対応を考えない集計法があり検定もつの集計法に応じて変わります対応のある場合の分割表の場合には McNemar という検定法を利用しますもちろん対応を考えない場合は通常の χ 検定を用いますここでは対応のあるデータの検定の例題を見てみましょう 10

例あるキャンペーン実施の前後で各支店の印象について客からアンケートをとり支店毎に好印象かどうかで分類したところ以下の結果を得たキャンペーンは効果があったと言えるか有意水準 5% で判定せよ前 \ 後好印象悪印象好印象 40 11 悪印象 4 10 データを Samples テキスト 3.txt から開いて質的データ検定メニューの中から McNemar 検定ボタンをクリックすると以下の画面が表示されます図 3.3.1 McNemar 検定画面ここで検定ボタンをクリックすると以下のような結果が示されます図 3.3. McNemar 検定結果解答 4.1143, p 0.045 p 0.05 よりキャンペーンによる差があるといえる 11

この計算は大変簡単で以下のような公式を利用しています理論 (McNemar 検定 ) データ \ 対照データ結果 1 結果結果 1 a b 結果 c d つのデータによる差がないとすると ( b c) ~ 1 分布 b c ( b c 1) ~ 1 分布 (Yates の連続補正 ) b c 注 ) 通常の分割表のまとめ方だと以下のようになる結果 1 結果データ a+b c+d 対照データ a+c b+d 問題 7 ある社は同種の製品を作っているがこの度後継の新製品が発売された新製品の発売前後で各量販店の売上を比較したところ以下の結果を得た以下の問いに答えよ新製品は売上に影響を与えたと言えるか有意水準 5% で判定せよ前 1 1 1 1 1 1 後 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1) このデータから次元分割表を作れ後 :A 社が多い前 :A 社が多い前 :B 社が多い後 :B 社が多い 1: A 社が多い : B 社が多い ) 新製品は売り上げに影響を与えたと言えるか有意水準 5% で判定せよ検定名 [ ] 確率 [ ] 売り上げに影響を与えたと [ いえるいえない ] 3) この検定は対応がない場合としても行うこともできるその際データはどのよう 1

な形であればよいと思うかデータシートの新しいページで以下のヒントを参考に考えよヒント分類を新製品発売前後 ( 前 :1, 後 :) と A, B 社のどちらが多いか (A 社 :1, B 社 :) に変更するそうするとデータのレコード数 ( 行数 ) は [ ] となり現在の形式の行数の [ ] 倍となる 4) 新しいデータを用いて次元分割表を作れ [ ] [ ] A 社が多い B 社が多い 5) 新しいデータを用いて新製品は売り上げに影響を与えたと言えるか有意水準 5% で判定せよ検定名 [ ] 確率 [ ] 売り上げに影響を与えたと [ いえるいえない ] 注 ) 質的データの検定で正しい結果を得るためには分割表の各セルに少なくとも 10 程度以上の値が必要である 13