異文化言語教育評価論 ⅠA 教育心理系研究のためのデータ分析入門第 3 章 t 検定 (2 変数間の平均の差を分析 ) 平成 26 年 5 月 7 日報告者 :M.S. I.N. 3-1 統計的検定統計的検定 : 設定した仮説にもとづいて集めた標本を確率論の観点から分析し仮説検証を行うこと

異文化言語教育評価論 ⅠA 教育心理系研究のためのデータ分析入門第 3 章 t 検定 (2 変数間の平均の差を分析 ) 平成 26 年 5 月 7 日報告者 :M.S. I.N. 3-1 統計的検定統計的検定 : 設定した仮説にもとづいて集めた標本を確率論の観点から分析し仮説検証を行うこと使用する標本は母集団から無作為抽出し母集団を代表している値と考える標本同士を比較して得た結果から母集団の性質や傾向を推測する 2 種類の統計的検定 1 パラメトリック検定母集団の特性を規定する母数にある特定の分布の仮説を設ける検定母集団が正規分布に従う間隔尺度あるいは比率尺度の連続したデータが対象である (t 検定分散分析 ) 2 ノンパラメトリック検定母集団に特定の分布を仮定しない検定で正規分布を成しておらず母数が決められないデータに対して用いる名義尺度順序尺度データなどの標本が対象となる ( カイ2 乗検定フィッシャーの正確率検定 ) 3-1-1 統計的検定の手順手順仮説の設定有意水準の設定検定統計量の有意確率にもとづく仮説の採否 (1) 仮説の設定対立仮説 (alternative hypothesis,h1): 帰無仮説が棄却された場合に採択される ( 立証したい ) 仮説帰無仮説 (null hypothesis, H0): 本来の研究目的とは逆の仮説仮説が矛盾していることを立証する (2) 有意水準の決定帰無仮説を棄却して対立仮説を採択するかどうかを判断する基準を設定するこの基準を有意水準 (significance level :α) と呼び通常 5%(α=.05) に設定される 1% 水準 (α=.01) もある (3) 検定統計量の有意確率にもとづく仮説の採否集めたデータから有意確率 (significance probability, p 値 ) を求め前もって設定した有意水準と照らし合わせる有意確率が有意水準より低い場合は偶然おこるような差でないと判断し帰無仮説を棄却し対立仮説を採択するまた有意確率が有意水準より高い場合は帰無仮説を採択する有意確率 : データの分析により得られた統計値が偶然起こる確率 3-1-2 統計的検定における過誤と問題点 (1) 統計的検定における過誤統計的検定は観測された標本データから母集団の特性を推測するため次のような過誤が起こる第 1 種の過誤 (TypeⅠerror): ほんとうは差がないのに誤って差があると判断してしまうこと有意水準が 5% の場合にあやまって帰無仮説を棄却する可能性を5% 含んでいるそのためこの有意水準を危険率 (critical value) とも呼ぶ 1

第 2 種の過誤 (Type Ⅱerror): ほんとうは有意差があるのに有意差がないと判断してしまうこと有意水準 1% の場合やサンプルサイズが小さい場合は 5% 設定でも起こる可能性があるこのような過ちがなくほんとうに有意差があり有意であると判断する確率と検定力 (power: 1-β) と呼ぶサンプルサイズが小さい場合には検定力が低く有意になりにくいため検定力分析 (power analysis) により十分検定料を確保するために必要なサンプリングサイズをあらかじめ求めておく必要がある (2) 有意性検定の問題 1 母集団から純粋な意味での標本の無作為抽出が行われていないサンプリングにより結果が変わってしまうため信頼区間を明記すべきである 2 有意性検定の結果はサンプルサイズに大きく左右されるサンプルサイズに左右されにくい効果の大きさをあらわす統計量である効果量 (effect size) も合わせて求めるとよい 3-1-3 標本分布標本分布 (sampling distribution): 母集団から無限回ランダムサンプリングした場合に求めた統計量がどのような確率でどのような値をとるか 1 回のサンプリングサイズ別に分布したもの統計量は t 値その標本分布をt 分布と呼ぶ P36 図 3.1 (χ2 値とχ2 分布 F 値と F 分布もある ) 集めた標本から目的に合った検定を行い統計量を求めその標本分布に照らしわせ有意確率を算出するサンプリングサイズが大きいほど標準誤差が小さくなり母集団の真の値 ( 母数 ) に集中した分布になる 3-1-4 両側検定と片側検定両側検定 : 棄却域 ( 有意水準 ) を分布の上側 ( 右側 ) と下側 ( 左側 ) の両方に設定して行う一般的な検定片側検定 : 分布の片側だけに基準を設定する検定両側検定より小さな値で棄却域に入るため有意になりやすいが予想と反対側で 2.5% 域に入っても有意と言えない片側検定の有意確率は両側検定の有意確率を2で割った値になる 3-2 t 検定とは t 検定 (t-test): t 分布に照らし合わせて 2 群の平均の差を検証する場合に用いるパラメトリック検定 t 検定では平均値の大小だけでなく分散も考慮し検討すること P38 図 3.3 3-2-1 t 検定の実験計画と前提 (1) t 検定の基本用語対応あり (repeated-measure): 同じ被験者に異なる2つ条件を与えてその条件間の差を検討する実験計画対応なし (independent-measure): 1 異なる条件を持った被験者に同じ条件を与えグループ間を比較 2 同じ性質を持った2 群統制群 (control group) と実験群 (experimental group) に異なる条件を振り分ける方法 ( 実験群 : 条件をあたえるグループ統制群 : 条件を与えないグループ ) 2

独立変数 (independent variable): 被験者を分ける条件や原因となる変数 ( 実験群と統制群男女 ) 従属変数 (dependent variable): 独立変数の条件をもとに集めたデータを扱った変数 ( テストの得点 ) (3) t 検定を使用する前提 1データ種類 : 連続性のある間隔尺度比率尺度の量的データであること 2ランダムサンプリング : 母集団からランダムサンプリングされ母集団を十分代表していること 3 正規性 : ランダムサンプリングされた標本平均の分布が正規分布に従うことヒストグラムで確認対応なし検定で加わる前 4 等分散性 (homogeneity of variance): 比較する2 群のデータの分散が等しいことそれぞれ母分散が等しい集団から抽出されているということ t 検定は母分散の等質性に関して頑健で特にグループのサンプリングサイズが等しい場合には分析結果が歪むことはほとんどない SPSS では2つの母分散が等しいことを帰無仮説としたルビーン (Levene) の検定が行われるこの検定で有意でなければ前提を見たしていると考え有意だった場合は等分散とは言えないので等分散を仮定しないと表示されるウェルチの法則(Welch s Method) による結果を参照する 5 観測値の独立性 : 異なった被験者からデータが独立していること 3-2-2 t 検定の設定と t 値の算出 t 検定では何らかの効果や原因による標本平均の差がその標準誤差のいくつ分ゼロから離れているか計算し偶然起こる誤差よりどの程度大きいか調べる ( 具体的な算出方法は p41 参照して下さい ) (1) 対応なしt 検定 (2 群のサンプルサイズが同じ場合 ) 2 群は集団として受けた条件による違いに加えて個人の性質の違いも誤差として含まれる (2) 対応なしt 検定 (2 群のサンプルサイズが異なる場合 ) 異なる人数の2 群間を比較する場合には各郡のサンプルサイズの違いを考慮する (3) 対応ありt 検定 2 条件が割り当てられた同一被験者間の差のため相関が高いほど誤差は小さくなり対応なし検定よりも有意になりやすい t 値が求められると設定した有意水準と自由度から t 分布表に照らし合わせて t 値の棄却域を求める t 値 > 棄却値であれば帰無仮説を棄却し 2 群間には有意な差があると結論づける 3-3 対応なし t 検定 3-3-1 対応なし t 検定の事例と SPSS での操作手順 ( 事例 ) 同質の2クラスに異なる語彙指導を用いて授業を行いその効果に違いがあるかを語彙テストで調べてみよう * この場合は指導法が異なるふたつのクラスを比較する ( 比較する被験者が異なる ) ので対 3

応なし t 検定を用います [1] 表 3.2 のエクセルデータを SPSS にインポートする [2][ 変数ビュー ] を選んで [ クラス ] の [ 値 ] をクリックし 1=クラス A 2=クラス B と指定するまた[ 語彙 ] の [ 尺度 ] を [ スケール (S)] と選択する [3] メニューから [ 分析 (A)] [ 平均の比較 (M)] [ 独立したサンプルの t 検定 (T)] と選択する [4] 図 3.7 の画面が表示されたら [ 検定変数 (T)] の中に従属変数として [ 語彙 ] を [ グループ化変数 (G)]7 に独立変数として [ クラス ] を入れる [5][ グループ化変数 (G)] に [ クラス (??)] と表示されるので [ グループの定義 (D)] をクリックし [ グループ1] に 7 1 [ グループ2] に 2 を入力し続行をクリックする [6] 図 3.7 の画面に戻ったら OK をクリックする 3-3-2 出力結果の見方 1[ グループ統計量 ]: 図 3.9 のように2クラスの [ 語彙 ] の [ グループ統計量 ] が算出されるここからはクラス間で平均値が大きく異なっているのがわかる 2[ 独立サンプルの検定 ]: 図 3.10 のように結果が出る [ 等分散性のための Leven の検定 ] における [ 有意確率 ] の数字が.598 と表示されており等分散であるとみなすまた [2つの母平均の差の検定] における [t 値 ] が 7.559 となっているがこれは効果が誤差の約 7.5 倍もあることを意味している [ 有意確率 ( 両側 )] が.000 となっていることからは t 値が 0.1% 水準よりも小さい確率で起こる現象であることが分析できる 3-3-3 論文への掲載上記の手順で出した検定結果 ( 図 3.9 図 3.10) を APA マニュアルに沿った形式に整えて以下のように提出することができる t( 自由度 )=t 値 ( 検定で得られた統計量 ) p= 有意確率 d= 効果量 (*d については後で述べる ) 異なる指導法を実施したクラス A とクラス B の語彙テストの平均点はそれぞれ 7.03 点と 3.46 点であった t 検定を使って比較した結果 t(68)=7.56,p<.001,d=1.81 で有意差がありクラス A のほうが有意に語彙の成績が高くなっていることが分かったまた効果量 (Cohen s d) も大きくクラス A に指導した指導法のほうが有効であるといえる 3-4 対応あり t 検定 3-4-1 対応あり t 検定の事例と SPSS での操作手順 ( 事例 ) クラス A の生徒 30 名を対象に 1 学期と2 学期の2 回にわたってエッセイ [30 点満点 ] を書かせ 2 回目のほうが上達しているかどうかを検証しよう * この場合は同じ被験者の変化を比較するので ( 比較する被験者が同じ ) ので対応あり t 検定を用います [1] 表 3.3 のようにデータを用意する [2] そのデータを SPSS にインポートする [ 変数ビュー (V)] で [ 一学期 ][ 二学期 ] の [ 尺度 ] を [ スケール (S)] に指定する [3] メニューから [ 分析 (A)] [ 平均の比較 (M)] [ 対応のあるサンプルの t 検定 (P)] と進む [4] [ 対応のあるサンプルの t 検定 ]( 図 3.13) の画面で [ 変数 1] に [1 学期 ] を [ 変数 2] に [2 学期 ] を指定する OK を押すと分析が実行される 4

3-4-2 出力結果の見方 1[ 対応サンプルの統計量 ]: 図 3.14 のように結果が出るここからは平均値が1 学期の 12 点から二学期は 17.57 点に上がったことが分かる 2[ 対応サンプルの検定 ]: 図 3.15 のように結果が出る t 値 ( 平均差平均値の標準誤差 )=-6.309 であり [ 有意確率 ] が.000 となっているので 0.1% 水準で平均値の差が有意になっていることが分かる 3-4-3 論文への掲載上記手順で得た分析結果は以下のように報告できるクラス A の生徒 30 名を対象に一学期と二学期の二回にわたってエッセイテスト (30 点満点 ) を行ったその平均の差を対応あり t 検定で検討したその結果 t(29)=-6.309,p<.001 で 1 学期に比べて 2 学期のほうがテストの結果が有意に伸びていることが分かったまた Cohen の効果量を算出した結果 d=1.06 となり効果が大きいことが分かった (d の求め方は 3-5 にて説明する ) 3-5 t 検定で使用される効果量効果量とは : 変数間の効果の大きさを量的に表した統計量のこと ( 変数にどれくらいの差があるのかつまりどれくらい効果があったのかを表す ) 有意性検定はサンプルサイズに影響されやすくまた平均値の差が確率的に有意であるかないか白黒つけるだけの役割効果量も参考にして分析結果を解釈することが望ましい効果量を表す2つの指標 (a) と (b) (a) 標準化平均値差効果量指標 : 標準偏差を単位とした 2 群間の標準化された平均値差の指標 1コーエンの d (Cohen s d): 標本分散を用いた効果量 2 群の標本分散をそれぞれのサンプルサイズで重みづけして平均をとることによって2 群の違いを考慮に入れた分散 2ヘッジの g (Hedge s g): 不偏分散を用いた効果量不偏分散を利用して d 値より正確に母集団の効果量を推定しようとする指標サンプルサイズが小さいときはこちらを使用したほうがより正確 3グラスのデルタ (Glass s Δ): 統制群と実験群を設定した場合の効果量 Δ 値は平均値と標準偏差のみを使って算出できる指標統制群は実験による影響を受けないのでより母集団を代表していると考えられるので統制群の標準偏差だけを用いて実験群との差の効果の大きさを表すことができる効果量 d,g,δの大きさの目安 :0.20( 小 ) 0.50( 中 ) 0.80( 大 ) (b) 相関効果量指標変数間の関係の強さ ( あるいは大きさ ) を示す効果量 (r) 相関係数に基づいて算出される効果量 r の大きさの目安 :.10( 小 ).30( 中 ).50( 大 ) 5

授業後レポート ( 前半 ) 3-1 統計的検定について正規分布をなぜ使うか集めたデータが歪んでいる場合に個々の歪みに対応できないよいサンプルを採取し正規分布に近づける必要性があるノンパラメトリック検定について授業では離散型定性変数を扱うノンパラメトリック検定はどうしようもないデータや頻度を調べるさいに使われるという説明があった研究を進める上で種々の制約を負い定量変数 ( 連続型変数 ) を適用するのが難しい十分な標本サイズが確保できない等の問題が発生するこのような難点を克服するためにノンパラメトリック検定の諸技法が開発された例えば高校 1 年生の英語の得点ならば正規分布を前提にできるように思われるが有名な進学校や荒れた学校ならば正規分布を前提にできずノンパラメトリック検定の必要性が出てくるそのほかにも心理的な要因を扱うときはノンパラメトリック検定が不可欠になるようである 3-2 t 検定についてランダムサンプリングが前提となる様々な場所からできるだけ多くのデータを集めると正規分布に近づくさらに本当に正しいか追調査を行うことがある t 検定の分布の関係例について (p.38 図 3.3) 図 3.3 があるテストの分布状況で縦線が平均値である場合 2クラスの平均は同じ程度離れているが分布の重なりが異なっている 1の場合では重なりが大きく2クラス間で同じ点数の生徒が多くいるということを表し 2は重なりが小さく各クラスとも平均値に近い点数の生徒が多いこれより重なりの小さい2の方がより有効な指導をしているということができる感想有意水準が1% と5% に設定されることを知り驚いた厳しい水準下で判断しなければならないのかと思うといかによいデータを取れるかが大きな問題になると思うテキストでは英語の指導法の効果を探る例が使われていた実際に中学校等で今後標本の採取をすることを考えると集めた標本が本当に正規分布に近づくか心配になった個人的には対応なし検定の観測値の独立性には気を付けないといけないと感じたそれはこれまでも学校で小テスト等を行う場合にあるクラスが終わった途端に内容や方法が噂となり広まりテストをする前にテスト形式や内容を一部知っている生徒が必ずいたからだ ( 後半 ) 対応なしt 検定対応ありt 検定それぞれの SPSS での操作手順を説明しましたまた検定によって出た数値の意味と論文への掲載のしかたを説明しました等分散性のための Levene の検定は 2つの分散が等しいことを帰無仮説としているので有意確率として出される数値が大きいほど 2つの分散の形が等しいことを表す t 検定自体の有意確率の数値は小さいほど自分の設定した仮説が成り立つことを意味する数値の大小の扱いを間違えやすいので注意すること t 検定の効果量について説明しました t 検定の有意性検定では平均値のみ使ったが効果量の検定では標準偏差も使う標準偏差を使うことによってどのくらいの差がでるかがわかる p.48 の式 3.5 式 3.5a を見るとそれぞれの検定に必要 6

なデータが分かる有意検定に必要なデータ: 平均値サンプルサイズ効果量検定に必要なデータ: 平均値標準偏差サンプルサイズ数式に出てくる記号について n と N は独立変数の数 ( 人数など ) を表す n はサブグループの数を N は全体の数を表す [ 例 ] グループ1の人数 35 人グループ2の人数 36 人全体の人数 71 人 n1 = 35, n2 = 36, N = 71 今後論文を読んだり自分で実験を行って論文を書いていくうえで必要な知識だと思いました 7