Excelによる統計分析検定_知識編_小塚明_5_9章.indd

第7章57766 検定と推定サンプリングによって得られた標本から, 母集団の統計的性質に対して推測を行うことを統計的推測といいます本章では, 推測統計の根幹をなす仮説検定と推定の基本的な考え方について説明します前章までの知識を用いて, 具体的な分析を行います本章以降の知識は操作編での操作に直接関連していますので, 少し聞きなれない言葉ですが, 帰無仮説有意水準棄却域などの意味を理解して, 実際に使えるようにしておくことが重要です仮説検定観測された標本に基づき, 母集団に対するある仮説が成り立つかどうかを判断することを検定, または仮説検定といいます特に, 統計学に則った検定という意味を込めて, 統計的仮説検定ということもありますここでは, 検定の基本的な事項について説明します 7-1-1 仮説検定の考え方たとえば, 次のような例を考えてみましょう 7129 例 7.1 小売業を営む A 社のある店舗における, これまでの 1 日の売上高は平均値が 250.0 ( 万円 ), 標準偏差は 30.0( 万円 ) の正規分布 N (250.0, 30.0 2 ) でほぼ近似できるものとします A 社ではこれまで比較的広い地域へのチラシ広告配布を実施していましたが, その効果に疑問があがっていましたそこで, 配布地域を近隣の地域に限定し, 代わりにポイントカードで一定数の買い物をした顧客に対して優待券 ( クーポン ) を発行して, その効果を検証することになりましたその効果が現れると考えられる十分な日数を置いてから,1 日の売上高について,n = 15 日分のデータを観測したところ, 次のような結果となりました

7777777識編, 広告戦略を変更したことによって, 売上高に変化が生じたと言えるでしょうか? このような問題に答えるには, 統計的なばらつきを考慮に入れた判断が必要です 15 日の売上実績を見ると, 従来の平均値である 250.0( 万円 ) よりも少ない日もあれば, 多い日もあります一方, この 15 日の売上データの平均をとってみると,X = 268.7 ( 万円 ) となります従来の 250.0( 万円 ) よりも大きい数字になっていますが, これはたまたま得られた偶然の数値であり, 平均値は 250.0( 万円 ) から変化していないと考えるべきでしょうかそれとも, 平均値が 250.0( 万円 ) から変化したと結論付けるべきでしょうかこのような課題に答えるのが, 仮説検定です一般に, 仮説検定は背理法による手続きをとり, ある仮説のもとで計算される理論値に対し, 実測値を照らし合わせたときに矛盾があるかどうかを検討しますこのように, 母集団第に対して設定される検証対象の仮説を帰無仮説といい,H 0 で表します帰無という言葉は, 7 章さて文字どおり無に帰したいという意味合いが込められており, 仮説検定は, 帰無仮説が統計的に否定されることを目的としています一方, 帰無仮説が成り立たないときに成り立つ仮説を対立仮説といい,H 1 で表しますふたたび, 先の具体例で話を進めましょういま, 上の例の 15 日間のデータの不偏分散を計算してみると,s 2 = 926.71 となり, この値から計算される標準偏差は s = 30.44 です従来の売上が従うとされている正規分布の標準偏差 30.0 とほとんど変わらないので, ここでは簡単に, 標準偏差は変化していないと仮定しますここで, 広告戦略を変更したことによって売上高の分布が正規分布 N (250.0, 30.0 2 ) から変化したかどうかを検証するため, 変更後の平均値 μ に対して, 帰無仮説をと設定しますこれに対し, 対立仮説は, 広告戦略の変更によって売上の平均が変化したという仮説になるので, となりますもし, 観測した 15 日分のデータが変わらず, 帰無仮説 H 0 に従うのであれば, 正規分布 N (250.0, 30.0 2 ) から自然に生起する標本が実際に観測されるでしょう一方, もし正規分布 N (250.0, 30.0 2 ) からは, きわめて小さい確率でしか生起しないような特異な観測値が得られているのであれば, 平均値は 250.0 から変化していると結論付けることが自然でしょう 7130 知

第7章57766そこで, 帰無仮説 H 0 が成り立つもとでの統計量の確率分布を考え, 実際に観測された統計量がその分布に従っているかどうかについて, 確率の低さという観点から判断を下すことを考えてみます帰無仮説 H 0 が正しい場合の統計量 Y の確率分布を定めることができるものとしましょうこのような統計量は, 検定に用いるための統計量という意味で検定統計量とも呼ばれますこの検定統計量の確率分布に対し, 下側確率 100(α/2)% のパーセント点を u 1, 上側確率 100(α/2)% のパーセント点を u 2 とすると, となります f(y) u 1 u 2 y 図 7.1: 帰無仮説が成り立っているときの統計量 Y の標本分布 7131 α を十分小さくとるとき, 観測された標本から計算された統計量 y が y < u 1 または u 2 < y を満たすなら, その結果は帰無仮説 H 0 が正しいもとではきわめて起こりにくい ( 確率 α 以下 ) と考えられますそこで, 帰無仮説 H 0 は正しくないと判定し ( 帰無仮説を棄却するといいます ), 対立仮説 H 1 が正しいと結論付けられます対立仮説 H 1 のほうが正しいとして採用することを, 対立仮説を採択するといいますこのとき, 判断の基準として設定する確率 α は有意水準と呼ばれ, 分析の前に設定されますが, 慣習としては α = 0.05(5%) や α = 0.01(1%) が使われます一般的な仮説検定の結論の述べ方としては, 有意水準 α で, 帰無仮説 H 0 は棄却され, 対立仮説 H 1 が正しいと言えるという表現になりますまた, 帰無仮説 H 0 が棄却される範囲の y < u 1 または u 2 < y は棄却域と呼ばれます一方, 統計量 y が u 1 y u 2 を満たしているなら, そのような y は, 帰無仮説 H 0 のもとで 1 - α という高い確率で起こり得る結果ですから, 帰無仮説 H 0 が間違っているとは言えませんこの場合は, 帰無仮説 H 0 を棄却できず, 帰無仮説が間違っているとは言えないという結論になりますまとめると, 統計的仮説検定の手順は以下のようになります

7777777識編仮説検定の手続き (1) 1. 検証したい帰無仮説 H0 と対立仮説 H1, 並びに有意水準 α を設定する 2. 帰無仮説 H 0 のもとで, 統計量 Y の標本分布を定め, 棄却域を求める 3. 実際に観測された標本から統計量 Y の実現値 y を計算する 4. y が棄却域に入っているかどうかによって判定し, 結論を述べる (a) y が棄却域に入っていれば, 有意水準 α で, 帰無仮説 H 0 は棄却され, 対立仮説 H 1 が正しいと言えると結論付ける (b) y が棄却域に入っていなければ, 有意水準 α で, 帰無仮説 H 0 は棄却されず, 対立仮説 H 1 が正しいとは言えないと結論付ける以上が, 一般論としての仮説検定の手続きですが, この手続きは p 値という概念を用いてもよいでしょういま, 観測された標本から計算される統計量 y が, 帰無仮説 H 0 のもとで, どの程度, 出現しやすい値であるのかを示す尺度を考えてみましょう帰無仮説 H 0 のもとで成り立つ標本分布 f (y ) の期待値を E [Y ] として,y E [Y ] に対しては, 第7 章を,y < E [Y ] に対しては, を考えると, これは y よりも大きな値, または小さな値が出てくる確率を意味しますこれを, 統計量 Y の実現値 y の p 値 (p-value) といいます得られた標本から計算される統計量 y に対して, この p 値が非常に小さい場合, このような y は帰無仮説 H 0 のもとでは, めったに起こり得ないことが起こったと解釈することができます f(y) 図 7.2: 検定統計量 y の p 値 (p-value) p-value =P{y< Y} y 7132 知

第7章57766先の検定の手続きでは, 下側確率 100(α/2)% のパーセント点を u 1, 上側確率 100(α/2)% のパーセント点を u 2 とし, y < u 1 または u 2 < y となる領域を棄却域としました検定統計量の値がこの棄却域にあれば, 帰無仮説 H 0 を棄却し, 対立仮説 H 1 を採択することになります一方, 検定統計量 y の p 値が α/2 より小さいことと,y が棄却域に存在することは等価ですしたがって, 統計的仮説検定の手順は以下のようにしても結果は等価です仮説検定の手続き (2) 1. 検証したい帰無仮説 H 0 と対立仮説 H 1, 並びに有意水準 α を設定する 2. 帰無仮説 H 0 のもとで, 統計量 Y の標本分布を定める 3. 実際に観測された標本から統計量 Y の実現値 y を計算する 4. y の p 値と α/2 の大小関係によって結果を判定し, 結論を述べる (a) y の p 値が α/2 よりも小さければ, 有意水準 α で, 帰無仮説 H 0 は棄却され, 対立仮説 H 1 が正しいと言えると結論付ける (b) y の p 値が α/2 よりも大きければ, 有意水準 α で, 帰無仮説 H 0 は棄却されず, 対立仮説 H 1 が正しいとは言えないと結論付ける 7-1-2 両側検定と片側検定本章の冒頭にあげた例 7.1 では, 広告戦略を変更したことによって, 売上高の平均値に変化が生じたかどうか? が問題でしたつまり, 売上高の平均値は上がったかもしれないし, 下がったかもしれないという状況で検定を考えているわけですそのため, 棄却域を y < u 1 または u 2 < y となる領域と, 検定統計量の確率分布の両側にとっていますこのような検定を両側検定といいます一方, 例 7.1 において, 広告戦略を変更したことによって, 売上高の平均値が向上したかどうか? という疑問について, 仮説検定によって結論付けたい場合がありますこの場合, 帰無仮説 H 0 は変わらず, 7133 ですが, 対立仮説は, 広告戦略の変更によって売上の平均が向上したという仮説になるので, となりますこの場合, 平均値が大きくなったかどうかに焦点があるため, 帰無仮説の棄却域は u < y のように片側だけに設定されますこのような検定を片側検定といいます

7777777識編図 7.3: 片側検定の棄却域両側検定と片側検定は, 明らかにしたい対立仮説の置き方によって適切に使い分ける必要があります 7-1-3 仮説検定の誤り先にも述べましたが, 仮説検定は背理法をもとにした判断に基づいており, その際の矛盾は確率的に可能性が低いという意味で示されるものです有意水準 α よりも低い可能性がある帰無仮説は棄却しようという発想のため, この判断は小さい確率で誤っている可能性がありますつまり, 本当は帰無仮説 H 0 が正しいにもかかわらず, たまたま標本から計算される統計量の値が棄却域に落ちてしまう場合には, 検定の結果は誤りとなりますこのような検定結果の誤りを第 1 種の誤りといいますこの誤りの確率は, 有意水準として設定した α であり, これを小さくするためには有意水準 α を小さくするしかありません一方で, 対立仮説 H 1 が正しいにもかかわらず, 検定統計量が棄却域に落ちず, 帰無仮説 H 0 が棄却されないという誤りも起こり得えますこのような誤りを第 2 種の誤りといいますこの誤りは, 対立仮説が正しかったときの統計量の確率分布に依存します例 7.1 で言えば, 売上の母平均が大きく変化していれば, 第 2 種の誤りは小さくなるでしょう逆に, 売上の母平均の変化が微小であれば, 第 2 種の誤りは大きくなってしまいます片側検定を行う際に, 対立仮説が真である場合を考えてみましょう帰無仮説 H 0 のもとで統計量 Y が従う確率分布を f 1 (y) とし, 対立仮説 H 1 が正しいもので真の統計量の確率分布を f 2 (y) としますこのとき, 棄却域は帰無仮説 H 0 が成り立つと仮定した確率分布 f 1 (y) に対して, 有意水準 α を満たすように設定されます一方, 真の確率分布は f 2 (y) に従っているので, 図 7.4 に示す斜線部分の確率 β が第 2 種の誤りの確率となります f(y) u 第7 章y 7134 知