(Blank page) このページを捨てて 次のページから両面してください
社会調査者のための STATA による統計統計データデータ分析 1 < 基礎編 > Text 5 ヒストグラム 平均 分散 標準偏差 対応のある t 検定 ( 事前 - 事後の t 検定 ) 独立の t 検定 (2 群の t 検定 ) Version 2.3 (2013 年 03 月 03 日 ) 佐々木亮 Ph.D. 国際開発センター評価事業部主任研究員立教大学大学院 21 世紀社会デザイン研究科兼任講師
<STATA 無料体験版の入手方法 > STATA の無料体験版が必要な方は以下のウェブサイトから申し込んで入手し てください http://www.stata.com/customer-service/evaluate-stata/
STATA によるデータ処理の演習 1 基礎編 目次 第 0 セッション :STATA の立ち上げと Log の Begin&Close 1 第 1 セッション : ヒストグラム 平均 分散 標準偏差 3 第 2 セッション : 対応のある t 検定 ( 事前 - 事後の t 検定 ) 14 第 3 セッション : 独立の t 検定 (2 群の t 検定 ) 21 特別セッション :Do-File の作成と利用 33 著者紹介 35 作成履歴 36
第 0 セッション : STATA の立ち上げと Log の Begin & Close [ 1 ] STATA の立ち上げ 以下のように STATA を選択する すると以下の画面が現れる STATA が立ち上がった 1
[ 1 ] Log の Begin & Close Log > Begin を選択する これで メインウィンドウ ( 中央のウィンドウ ) の保存が開始される 現れたウィンドウでファイル名をつける STATA log 2012MMDD などとつけておくとあとでわかりやすい ( 拡張子は自動的に.smcl になる ) 保存 を押す これで メインウィンドウ ( 中央のウィンドウ ) の保存が開始される ( 作業が終了した際には Log >Close を選択する メインウィンドウに保存されたことが表示される ) 2
第 1 セッション : ヒストグラム 平均 分散 標準偏差学力テスト点数の特徴を把握する 日本のある NGO は 革新的な学校運営プログラム の普及を支援している この 革新的な学校運営プログラム を導入している A 小学校において あるクラスの学力テストの点数が集計された 満点は 100 点満点である A 小学校の校長先生は 集計されたデータの基本的な特徴を知らねばならない とくに以下の特徴である 平均値と中央値はいくらか? 大半のデータが入る範囲はどこからどこまでか? 学校の当該クラスの学力テストの平均値 中央値 範囲はどれくらいだろうか? 3
[ 1 ] ヒストグラムを作る エクセルで以下のようにデータを入力する デスクトップに適当なフォルダを作って そのエクセルファイルを保存する ( ただしフォルダ名 ファイル名とも日本語は不可 ) File>Import>Excel spreadsheet(*.xls, *.xlsx) を選ぶ 4
以下のようなボックスで作成したエクセルファイルを選択する また Import first row as variable names にチェックを入れる OK を押す メニューから Data > Data Editor > Data Editor (Edit) を選択する ( あるいは Data editor のアイコンをクリックする ) 5
データのウィンドウが現れる 確かにデータが読み込まれているかを確認する その後 Format をクリックする データのタイプは Numeric が選択されていることを確認する 小数点を表示させる必要がある場合には 少数点 (Digits right of decimal) で必要な桁数を選ぶ ( 通常は 0,1, あるいは 2) OK を押す 6
Data > Describe data > List data を選択する Variables ですべてのデータを選択する OK を押す 7
以下のとおりに一部のデータが表示される more を押すとすべてのデータが表示される すべてのデータが表示された 8
Graphics > Histogram を選ぶ Variable で testscore を選択する Width of bins で 10 を入力する Lower limit of first bin で 0 を入力する OK を押す 9
以下のようなヒストグラムが得られる 10
[ 2 ] 平均値と標準偏差の計算 Summaries, tables and tests > Summary and descriptive statistics > Summary statistics を選択する 以下のように Variables を選択する 11
以下のような値を得る 平均値 (Mean (Average)) データを単純に平均した値標準偏差 (Standard deviation) データのばらつき具合を表す値 12
評価結果あなたは以下の情報を得た クラスの15 人の平均点は56.8 点であった 標準偏差は 11.54 点 ヒストグラムを見ると ばらつき具合はわりと普通 ( 標準的 ) である (relatively normal) クラスの学力テストの 特徴が分かりましたね 13
第 2 セッション : 対応のある t 検定 ( 事前 - 事後の t 検定保護者の満足度は向上したか?1: 過去の満足度去の満足度と比較してみよう あなたが経営する小売チェーン ( Shop Gold ) は新しいセールスキャンペーンを始めた ( Get Gold! と命名 ) この新しいセールスキャンペーンの効果を評価するために 顧客満足度サーベイが行われた 顧客の満足度は向上したと言えるだろうか? < 必要な条件 > - 同一のサーベイ用紙 ( アンケート用紙 ) が 事前サーベイと事後サーベイで使用されねばならない - 事前と事後で 同一の顧客がサーベイ用紙に記入せねばならない - 定量的な選択肢が用いられねばならない (e.g.) 5= たいへん満足 (Very satisfactory) 4= 満足 (Satisfactory) 3= どちらとも言えない (Hard to say) 2= 不満足 (Unsatisfactory) 1= たいへん不満足 (Very unsatisfactory) ( 注 ) このテキストでは いわゆる以下のような Likert scale を用いている 1 たいへん 満足 どちらとも 不満足 たいへん 満足 言えない 不満足 5 4 3 2 1 1 Likert scale に t-test などのパラメトリック検定が適用可能かどうかに関しては議論があるが 現実には調査研究において広く用いられている また Winder and Dodou (2012) の最新の研究では次のように結論されている In conclusion, the t-test (parametric test) and MWW test (nonparametric test) generally have similar power, and researchers do not have to worry about finding a difference. (Source) Joost C. F. de Winter and Dimitra Dodou.(2012). Five-Point Likert Items: t test versus Mann-Whitney-Wilcoxon, Practical Assessment, Research and Evaluation. http://pareonline.net/pdf/v15n11.pdf 14
保護者 15 人に対して実施されたサーベイ結果は以下のとおりであった ID Before After 1 3 4 2 2 3 3 3 2 4 2 3 5 1 3 6 3 4 7 1 2 8 4 5 9 2 4 10 3 4 11 2 3 12 3 2 13 1 2 14 3 4 15 2 3 本当に保護者の満足は改善したと言えるのだろうか? 15
データの入力 データ分析 の選択 File>Import>Excel spreadsheet (*.xls, *.xlsx) を選ぶ 現れたウィンドウで保存しておいたエクセルファイルを選択する 現れたウィンドウで Import first row as variable names にチェックを入れる OK を押す 16
メニューから Data > Data Editor > Data Editor (Edit) を選択する ( あるいは Data editor のアイコンをクリックする ) 現れたウィンドウでデータが確かに読み込まれていることを確認する ( 小数点を表示する必要がある場合には Format をクリックして設定する ) Statistics > Summaries, tables and tests > Classical test of hypotheses > Mean-comparison test, paired data を選択する 17
以下のボックスが現れる First variable に After Second variable に Before を選ぶ ( 逆でもいいが t 値を正の値 (+XX) に表示させるためにこうする 逆にすると t 値が負の値 (-XX) と表示されるが t 値は絶対値を見るので 結局どちらもでいい ) OK を押す 以下の結果を得る 以下に結果を拡大した 18
個数平均値標準偏差 p 値 ( 確率値, %) p 0.05 : 有意とは言えない p < 0.05 : 有意である ( 差がある ) t 値 ( 絶対値を見る ) t 2 : 有意とは言えない t >2 : 有意である ( 差がある ) 結論 事前 の平均値と 事後 の平均値の差は 統計学的に有意である ( p< 5%) したがって したがって 革新的な 革新的な学校運営プログラム学校運営プログラム によってによって保護者の保護者の満足度は改善したと判断できる判断できる 19
( 発展学習 : エフェクトサイズの計算 ) d = X after X s d before = 0.8667 0.8338 = 1.039 エフェクトサイズ ( 効果幅 ) の一般的な判断基準は以下のとおりです ただ し事業の種類によって適宜見直すべきです 0 0.2 0.5 0.8 1.0~ 小 (Small effect) 中 (Medium effect) 大 (Large effect) ( 出所 ) Cohen, J. (1988) をもとに筆者作成 20