異文化言語教育評価論 ⅠA 教育 心理系研究のためのデータ分析入門 第 3 章 t 検定 (2 変数間の平均の差を分析 ) 平成 26 年 5 月 7 日 報告者 :M.S. I.N. 3-1 統計的検定 統計的検定 : 設定した仮説にもとづいて集めた標本を確率論の観点から分析し 仮説検証を行うこと 使用する標本は母集団から無作為抽出し 母集団を代表している値と考える 標本同士を比較して得た結果から 母集団の性質や傾向を推測する 2 種類の統計的検定 1 パラメトリック検定母集団の特性を規定する母数に ある特定の分布の仮説を設ける検定 母集団が正規分布に従う間隔尺度あるいは比率尺度の連続したデータが対象である (t 検定 分散分析 ) 2 ノンパラメトリック検定母集団に特定の分布を仮定しない検定で 正規分布を成しておらず母数が決められないデータに対して用いる 名義尺度 順序尺度データなどの標本が対象となる ( カイ2 乗検定 フィッシャーの正確率検定 ) 3-1-1 統計的検定の手順手順仮説の設定 有意水準の設定 検定統計量の有意確率にもとづく仮説の採否 (1) 仮説の設定対立仮説 (alternative hypothesis,h1): 帰無仮説が棄却された場合に採択される ( 立証したい ) 仮説 帰無仮説 (null hypothesis, H0): 本来の研究目的とは逆の仮説 仮説が矛盾していることを立証する (2) 有意水準の決定帰無仮説を棄却して 対立仮説を採択するかどうかを判断する基準を設定する この基準を有意水準 (significance level :α) と呼び 通常 5%(α=.05) に設定される 1% 水準 (α=.01) もある (3) 検定統計量の有意確率にもとづく仮説の採否集めたデータから有意確率 (significance probability, p 値 ) を求め 前もって設定した有意水準と照らし合わせる 有意確率が有意水準より低い場合は 偶然おこるような差でないと判断し 帰無仮説を棄却し 対立仮説を採択する また有意確率が有意水準より高い場合は 帰無仮説を採択する 有意確率 : データの分析により得られた統計値が偶然起こる確率 3-1-2 統計的検定における過誤と問題点 (1) 統計的検定における過誤 統計的検定は観測された標本データから母集団の特性を推測するため 次のような過誤が起こる 第 1 種の過誤 (TypeⅠerror): ほんとうは差がないのに誤って差があると判断してしまうこと 有意水準が 5% の場合に あやまって帰無仮説を棄却する可能性を5% 含んでいる そのため この有意水準を危険率 (critical value) とも呼ぶ 1
第 2 種の過誤 (Type Ⅱerror): ほんとうは有意差があるのに 有意差がないと判断してしまうこと 有意水準 1% の場合や サンプルサイズが小さい場合は 5% 設定でも起こ る可能性がある このような過ちがなく ほんとうに有意差があり有意であると判断する確率と検定力 (power: 1-β) と 呼ぶ サンプルサイズが小さい場合には検定力が低く有意になりにくいため 検定力分析 (power analysis) により 十分検定料を確保するために必要なサンプリングサイズをあらかじめ求めておく必要がある (2) 有意性検定の問題 1 母集団から純粋な意味での標本の無作為抽出が行われていない サンプリングにより結果が変わってしまうため 信頼区間を明記すべきである 2 有意性検定の結果はサンプルサイズに大きく左右される サンプルサイズに左右されにくい効果の大きさをあらわす統計量である効果量 (effect size) も合わせて求めるとよい 3-1-3 標本分布標本分布 (sampling distribution): 母集団から無限回ランダム サンプリングした場合に求めた統計量が どのような確率でどのような値をとるか 1 回のサンプリングサイズ別に分布したもの 統計量は t 値 その標本分布をt 分布と呼ぶ P36 図 3.1 (χ2 値とχ2 分布 F 値と F 分布もある ) 集めた標本から目的に合った検定を行い統計量を求め その標本分布に照らしわせ 有意確率を算出する サンプリングサイズが大きいほど標準誤差が小さくなり 母集団の真の値 ( 母数 ) に集中した分布になる 3-1-4 両側検定と片側検定両側検定 : 棄却域 ( 有意水準 ) を分布の上側 ( 右側 ) と下側 ( 左側 ) の両方に設定して行う一般的な検定 片側検定 : 分布の片側だけに基準を設定する検定 両側検定より小さな値で棄却域に入るため有意になりやすいが 予想と反対側で 2.5% 域に入っても有意と言えない 片側検定の有意確率は両側検定の有意確率を2で割った値になる 3-2 t 検定とは t 検定 (t-test): t 分布に照らし合わせて 2 群の平均の差を検証する場合に用いるパラメトリック検定 t 検定では平均値の大小だけでなく 分散も考慮し検討すること P38 図 3.3 3-2-1 t 検定の実験計画と前提 (1) t 検定の基本用語対応あり (repeated-measure): 同じ被験者に異なる2つ条件を与えて その条件間の差を検討する実験計画 対応なし (independent-measure): 1 異なる条件を持った被験者に 同じ条件を与え グループ間を比較 2 同じ性質を持った2 群 統制群 (control group) と実験群 (experimental group) に異なる条件を振り分ける方法 ( 実験群 : 条件をあたえるグループ 統制群 : 条件を与えないグループ ) 2
独立変数 (independent variable): 被験者を分ける条件や原因となる変数 ( 実験群と統制群 男女 ) 従属変数 (dependent variable): 独立変数の条件をもとに集めたデータを扱った変数 ( テストの得点 ) (3) t 検定を使用する前提 1データ種類 : 連続性のある間隔尺度 比率尺度の量的データであること 2ランダム サンプリング : 母集団からランダム サンプリングされ 母集団を十分代表していること 3 正規性 : ランダム サンプリングされた標本平均の分布が正規分布に従うこと ヒストグラムで確認 対応なし検定で加わる前 4 等分散性 (homogeneity of variance): 比較する2 群のデータの分散が等しいこと それぞれ母分散が等しい集団から抽出されているということ t 検定は母分散の等質性に関して頑健で 特にグループのサンプリングサイズが等しい場合には 分析結果が歪むことはほとんどない SPSS では2つの母分散が等しいことを帰無仮説としたルビーン (Levene) の検定が行われる この検定で有意でなければ前提を見たしていると考え 有意だった場合は等分散とは言えないので 等分散を仮定しない と表示されるウェルチの法則(Welch s Method) による結果を参照する 5 観測値の独立性 : 異なった被験者からデータが独立していること 3-2-2 t 検定の設定と t 値の算出 t 検定では 何らかの効果や原因による標本平均の差がその標準誤差のいくつ分ゼロから離れているか計算し 偶然起こる誤差よりどの程度大きいか調べる ( 具体的な算出方法は p41 参照して下さい ) (1) 対応なしt 検定 (2 群のサンプルサイズが同じ場合 ) 2 群は集団として受けた条件による違いに加えて 個人の性質の違いも誤差として含まれる (2) 対応なしt 検定 (2 群のサンプルサイズが異なる場合 ) 異なる人数の2 群間を比較する場合には 各郡のサンプルサイズの違いを考慮する (3) 対応ありt 検定 2 条件が割り当てられた同一被験者間の差のため 相関が高いほど誤差は小さくなり 対応なし検定よりも有意になりやすい t 値が求められると 設定した有意水準と自由度から t 分布表に照らし合わせて t 値の棄却域を求め る t 値 > 棄却値であれば 帰無仮説を棄却し 2 群間には有意な差があると結論づける 3-3 対応なし t 検定 3-3-1 対応なし t 検定の事例と SPSS での操作手順 ( 事例 ) 同質の2クラスに異なる語彙指導を用いて授業を行い その効果に違いがあるかを語彙テストで調べてみよう * この場合は指導法が異なるふたつのクラスを比較する ( 比較する被験者が異なる ) ので 対 3
応なし t 検定 を用います [1] 表 3.2 のエクセルデータを SPSS にインポートする [2][ 変数ビュー ] を選んで [ クラス ] の [ 値 ] をクリックし 1=クラス A 2=クラス B と指定する また[ 語彙 ] の [ 尺度 ] を [ スケール (S)] と選択する [3] メニューから [ 分析 (A)] [ 平均の比較 (M)] [ 独立したサンプルの t 検定 (T)] と選択する [4] 図 3.7 の画面が表示されたら [ 検定変数 (T)] の中に従属変数として [ 語彙 ] を [ グループ化変数 (G)]7 に独立変数として [ クラス ] を入れる [5][ グループ化変数 (G)] に [ クラス (??)] と表示されるので [ グループの定義 (D)] をクリックし [ グループ1] に 7 1 [ グループ2] に 2 を入力し続行をクリックする [6] 図 3.7 の画面に戻ったら OK をクリックする 3-3-2 出力結果の見方 1[ グループ統計量 ]: 図 3.9 のように2クラスの [ 語彙 ] の [ グループ統計量 ] が算出される ここからはクラス間で平均値が大きく異なっているのがわかる 2[ 独立サンプルの検定 ]: 図 3.10 のように結果が出る [ 等分散性のための Leven の検定 ] における [ 有意確率 ] の数字が.598 と表示されており 等分散であるとみなす また [2つの母平均の差の検定] における [t 値 ] が 7.559 となっているが これは 効果が誤差の約 7.5 倍もある ことを意味している [ 有意確率 ( 両側 )] が.000 となっていることからは t 値が 0.1% 水準よりも小さい確率で起こる現象であることが分析できる 3-3-3 論文への掲載上記の手順で出した検定結果 ( 図 3.9 図 3.10) を APA マニュアルに沿った形式に整えて以下のように提出することができる t( 自由度 )=t 値 ( 検定で得られた統計量 ) p= 有意確率 d= 効果量 (*d については後で述べる ) 異なる指導法を実施したクラス A とクラス B の語彙テストの平均点はそれぞれ 7.03 点と 3.46 点であった t 検定を使って比較した結果 t(68)=7.56,p<.001,d=1.81 で有意差があり クラス A のほうが有意に語彙の成績が高くなっていることが分かった また効果量 (Cohen s d) も大きく クラス A に指導した指導法のほうが有効であるといえる 3-4 対応あり t 検定 3-4-1 対応あり t 検定の事例と SPSS での操作手順 ( 事例 ) クラス A の生徒 30 名を対象に 1 学期と2 学期の2 回にわたってエッセイ [30 点満点 ] を書かせ 2 回目のほうが上達しているかどうかを検証しよう * この場合は同じ被験者の変化を比較するので ( 比較する被験者が同じ ) ので 対応あり t 検定 を用います [1] 表 3.3 のようにデータを用意する [2] そのデータを SPSS にインポートする [ 変数ビュー (V)] で [ 一学期 ][ 二学期 ] の [ 尺度 ] を [ スケール (S)] に指定する [3] メニューから [ 分析 (A)] [ 平均の比較 (M)] [ 対応のあるサンプルの t 検定 (P)] と進む [4] [ 対応のあるサンプルの t 検定 ]( 図 3.13) の画面で [ 変数 1] に [1 学期 ] を [ 変数 2] に [2 学期 ] を指定する OK を押すと分析が実行される 4
3-4-2 出力結果の見方 1[ 対応サンプルの統計量 ]: 図 3.14 のように結果が出る ここからは平均値が1 学期の 12 点から 二学期は 17.57 点に上がったことが分かる 2[ 対応サンプルの検定 ]: 図 3.15 のように結果が出る t 値 ( 平均差 平均値の標準誤差 )=-6.309 であり [ 有意確率 ] が.000 となっているので 0.1% 水準で平均値の差が有意になっていることが分かる 3-4-3 論文への掲載上記手順で得た分析結果は以下のように報告できる クラス A の生徒 30 名を対象に 一学期と二学期の二回にわたってエッセイテスト (30 点満点 ) を行った その平均の差を 対応あり t 検定で検討した その結果 t(29)=-6.309,p<.001 で 1 学期に比べて 2 学期のほうがテストの結果が有意に伸びていることが分かった また Cohen の効果量を算出した結果 d=1.06 となり 効果が大きいことが分かった (d の求め方は 3-5 にて説明する ) 3-5 t 検定で使用される効果量 効果量とは : 変数間の効果の大きさを量的に表した統計量のこと ( 変数にどれくらいの差があるのか つまりどれくらい効果があったのかを表す ) 有意性検定はサンプルサイズに影響されやすく また平均値の差が確率的に有意であるかないか白黒つけるだけの役割 効果量も参考にして分析結果を解釈することが望ましい 効果量を表す2つの指標 (a) と (b) (a) 標準化平均値差効果量指標 : 標準偏差を単位とした 2 群間の標準化された平均値差の指標 1コーエンの d (Cohen s d): 標本分散を用いた効果量 2 群の標本分散をそれぞれのサンプルサイズで重みづけして平均をとることによって2 群の違いを考慮に入れた分散 2ヘッジの g (Hedge s g): 不偏分散を用いた効果量不偏分散を利用して d 値より正確に母集団の効果量を推定しようとする指標 サンプルサイズが小さいときはこちらを使用したほうがより正確 3グラスのデルタ (Glass s Δ): 統制群と実験群を設定した場合の効果量 Δ 値は平均値と標準偏差のみを使って算出できる指標 統制群は実験による影響を受けないので より母集団を代表していると考えられるので 統制群の標準偏差だけを用いて実験群との差の効果の大きさを表すことができる 効果量 d,g,δの大きさの目安 :0.20( 小 ) 0.50( 中 ) 0.80( 大 ) (b) 相関効果量指標変数間の関係の強さ ( あるいは大きさ ) を示す効果量 (r) 相関係数に基づいて算出される 効果量 r の大きさの目安 :.10( 小 ).30( 中 ).50( 大 ) 5
授業後レポート ( 前半 ) 3-1 統計的検定について正規分布をなぜ使うか 集めたデータが歪んでいる場合に個々の歪みに対応できない よいサンプルを採取し正規分布に近づける必要性がある ノンパラメトリック検定について 授業では離散型定性変数を扱うノンパラメトリック検定は どうしようもないデータや頻度 を調べるさいに使われるという説明があった 研究を進める上で種々の制約を負い 定量変数 ( 連続型変数 ) を適用するのが難しい 十分な標本サイズが確保できない等の問題が発生する このような難点を克服するためにノンパラメトリック検定の諸技法が開発された 例えば 高校 1 年生の英語の得点ならば正規分布を前提にできるように思われるが 有名な進学校や荒れた学校ならば正規分布を前提にできず ノンパラメトリック検定の必要性が出てくる そのほかにも心理的な要因を扱うときはノンパラメトリック検定が不可欠になるようである 3-2 t 検定について ランダム サンプリングが前提となる 様々な場所からできるだけ多くのデータを集めると正規分布に近づく さらに 本当に正しいか追調査を行うことがある t 検定の分布の関係例について (p.38 図 3.3) 図 3.3 があるテストの分布状況で縦線が平均値である場合 2クラスの平均は同じ程度離れているが 分布の重なりが異なっている 1の場合では 重なりが大きく2クラス間で同じ点数の生徒が多くいるということを表し 2は重なりが小さく 各クラスとも平均値に近い点数の生徒が多い これより重なりの小さい2の方がより有効な指導をしているということができる 感想有意水準が1% と5% に設定されることを知り驚いた 厳しい水準下で判断しなければならないのかと思うと いかによいデータを取れるかが大きな問題になると思う テキストでは英語の指導法の効果を探る例が使われていた 実際に中学校等で今後標本の採取をすることを考えると 集めた標本が本当に正規分布に近づくか心配になった 個人的には対応なし検定の観測値の独立性には気を付けないといけないと感じた それはこれまでも学校で小テスト等を行う場合に あるクラスが終わった途端に内容や方法が噂となり広まり テストをする前にテスト形式や内容を一部知っている生徒が必ずいたからだ ( 後半 ) 対応なしt 検定 対応ありt 検定それぞれの SPSS での操作手順を説明しました また検定によって出た数値の意味と 論文への掲載のしかたを説明しました 等分散性のための Levene の検定は 2つの分散が等しいことを帰無仮説としているので 有意確率として出される数値が大きいほど 2つの分散の形が等しいことを表す t 検定自体の有意確率の数値は小さいほど 自分の設定した仮説が成り立つことを意味する 数値の大小の扱いを間違えやすいので注意すること t 検定の効果量について説明しました t 検定の有意性検定では平均値のみ使ったが 効果量の検定では標準偏差も使う 標準偏差を使うことによって どのくらいの差がでるか がわかる p.48 の式 3.5 式 3.5a を見ると それぞれの検定に必要 6
なデータが分かる 有意検定に必要なデータ: 平均値 サンプルサイズ 効果量検定に必要なデータ: 平均値 標準偏差 サンプルサイズ数式に出てくる記号について n と N は独立変数の数 ( 人数など ) を表す n はサブグループの数を N は全体の数を表す [ 例 ] グループ1の人数 35 人 グループ2の人数 36 人 全体の人数 71 人 n1 = 35, n2 = 36, N = 71 今後 論文を読んだり 自分で実験を行って論文を書いていくうえで必要な知識だと思いました 7