SPSS の使い方 ( 改訂版 20071019) 齋藤雄志 このSPSS マニュアルには 初級用 ( 第 Ⅰ 部 = 情報リテラシー演習 2 用 ) のみが含まれています 第 Ⅱ 部は情報リテラシー演習 2 では使いません 時間などの関係で 各クラスが以下のとおりに演習を行えない場合もあります 担当教員の指示に従ってください 第 Ⅰ 部 SPSS の使い方 ( 初級 情報リテラシー演習用 ) 進め方 SPSS は著名なデータ解析ソフトのひとつであり 専門家の間でも 初心者の間でも 広く使われています 機能や使い勝手からいえば Excel と SS の中間より SS 側よりに位置します SPSS は 簡単な分析をするためであればほとんど Excel と変わらない操作性でさまざまな分析を行うことができます SPSS は専門家にとっても十分な解析能力を提供しています パス解析用の mos( 大学の端末の一部には組み込まれています ) など SPSS にはいろいろなオプションがありそれらを付加すればより高度な能力を持たせることができますが 通常は BSE とよばれる基本機能セットで十分です SPSS は BSE とはいえ 市販のソフトと異なり 大きな能力を有すると感じられるひとつの理由は 大規模なデータを処理できることです 比較的低価格の市販のソフトでは ある分析に 50 変数まで処理可能 というような条件がかかることがありますが SPSS ではそのようなことは少なく かなり大規模なデータを処理できます それゆえ 統計的手法を使うための最低限の知識を持っていれば 通常必要とされるさまざまなデータ解析には Excel と組み合わせながら SPSS でほとんど応えることができます データ解析はビジネス分野では不可欠の知識であり 特にネットワーク情報学部の学生によっては将来の活動において大きなよりどころとなります 以下の第 Ⅰ 部は 90 分間 1-2 回の授業につくられたものです このマニュアルでは Excel の使い方を学んでいることを前提としています なお 統計解析を自由に行えるようになるには SPSS などのソフトの使い方を理解すること が重要なのではなく データ解析の理論や考え方を理解すること が重要です やさしい入門書などで理屈を少し勉強すれば ソフトを利用するのには大きな手間は必要ありません 以下にはつぎのような内容が含まれています なお 練習用のデータは自分で入力するか分担して入力してください 主な作業内容 Excel データの用意 SPSS の起動と Excel からのデータの読み込み 1
基本統計量の計算合成変数の作成と変数の追加相関係数の計算回帰分析の計算グラフ作成その他 1.Excel データの用意 練習問題 1 以下の説明に従い実際に SPSS を操作し 同じ結果を出力しなさい 入力の時間を測定しなさい 罫線と図表 1の表題は不要です Excel 上のデータは第 1シートに入力します 罫線は不要です またシート上では左上に 寄せて入力してください 同じシートには表以外のデータを入力しないようにしてくださ い このような条件を満たさなくても正しく読めますが このようにしたほうが無難です 図表 1 高校の成績データ 通し番号 氏名 英語 数学 社会 理科 クラス 出身中学 1 山田 20 30 75 45 X 2 西 75 80 45 75 B Y 3 大野 63 60 30 75 C Z 4 岡 80 75 55 62 B Z 5 齋藤 85 88 50 60 X 6 綿貫 30 45 50 45 C Y 7 三枝 85 96 86 75 B Y 8 日高 86 45 63 55 C Z 9 荒井 99 85 95 88 X 10 西岡 48 33 24 54 C X 11 仙石 90 78 70 95 B Y 12 伊藤 55 60 85 70 Z 13 山下 78 85 45 88 X 14 向井 85 89 91 95 B Z 15 岡本 62 45 100 45 C Y 16 岸岡 85 75 70 80 X 17 川内 99 88 75 80 B Y 18 河野 52 63 45 62 C Z 19 村田 55 63 86 80 C X 2
20 本田 45 25 36 30 Y 21 植木 95 91 85 88 B Z 22 上田 25 36 45 45 X 23 氷野 50 38 70 70 B Z 24 辻 35 40 35 20 Y 25 山崎 82 89 75 60 C X 練習問題 2( 宿題 [ 教室による ]) 図表 1のデータをもとに Excel を利用してさまざまな検討を行い 高校の成績データの検討 というテーマのレポートをまとめなさい Excel の出力を列挙するだけでは十分ではありません 文章による説明も必要です どのような分析を行うかは担当教員より指示がある予定です 2.SPSS の起動と Excel からのデータの読み込み大学の端末の Windows の すべてのプログラム から SPSS15.0J for Windows ( 古いバージョンであっても 以下の説明の基本は変わりません ) をクリックし SPSS を起動します つぎのような画面がでます 図表 2 起動直後の SPSS の画面 3
データを入力 をクリックし ok をクリックすれば 下記の図表 3のように データ入力画面 (SPSS データエディタ ) になります この画面は変数を定義する画面です この画面の下のタグに データビュー と 変数ビュー の2つがありますが 現在は後者になっていますが ここでは変数の定義を行いますが その説明は後にします 現在の画面が 変数ビュー になっている場合は データビュー タブをクリックすると 図表 4のようなデータ画面になります 図表 3 変数ビュー ( データエディタ画面 ) 4
図表 4 データビュー画面 この画面に つぎのような手順でデータを読み込みます 1 ファイル(F) 開く(O) データ() と選択します 2 ファイル名の種類(T) を Excel(*.xls) にします 3 上部にある ファイルの場所 を操作し 上記の Excel ファイルのある場所を選びます 4 対象ファイルをクリックすると ファイル名 に対象ファイルの名前が読み込まれます 開く をクリックするとデータが読み込まれます( 図表 5 データ画面 ) 自動的に第 1 行が変数としてよみこまれるように設定されています 5 必要があれば 見やすいように SPSS データエディタ を画面いっぱいに拡大します 氏名 クラス名 出身中学 などの列幅が狭い場合は 変数名の部分をドラッグすれば任意に拡大できます 5
図表 5 データ画面 これで作業に必要なデータが読み込まれました 画面下の 変数ビュー のタブをクリックし その画面を見ると 変数の定義が自動的になされています 変数の型としては 数値型 と 文字型 があります 少数桁数を調整すると データが見やすくなりますが 現時点ではその調整は必要ありません また データビュー の画面に戻します 注 )SPSS の古いバージョンや SPSS の設定によっては 変数名として 日本語が使えない場合もありますが ここでは第 1 行の日本語変数名が使えるバージョンを前提としています 3. 基本統計量の計算 分析 記述統計(F) 記述統計(D) とクリックすると 変数選択画面が表れます 6
左の箱の中には全変数があります これらの変数を一つずつクリックし 二つの箱の間にある矢印をクリックすると 右の箱に移動します ここでは 英語 数学 社会 理科 の変数を移動します 右の箱に入った変数が計算の対象となる変数です 左の箱から右の箱へ移動する際に CNTL キーを押しながらクリックすると複数の変数を同時に選べ かつ同時に移動可能になります ここで ok をクリックすると 基本統計量( 記述統計 ) がつぎのように計算されます 図表 6 基本統計量の計算結果 記述統計量 度数 最小値 最大値 平均値 標準偏差 英語 25 20 99 66.56 23.845 数学 25 25 96 64.08 22.842 社会 25 24 100 63.44 21.983 理科 25 20 95 65.68 19.937 有効なケースの数 ( リストごと ) 25 標準偏差は データのバラツキを表す指標で その2 乗を 分散 といいます 受験における偏差値は標準偏差の概念を使っています 平均値が偏差値 50, 平均値- 標準偏差 が偏差値 40 平均値 + 標準偏差 が偏差値 60に対応しています このようなデータが計算されれば 対象となる生徒の成績の概況がわかります 4. 合成変数の作成と変数の追加 成績合計 という変数と 頻度 という変数を追加してみます (1) 合成変数の作成 変換(T) 変数の計算(C) とクリックします 1 目標変数名 の箱を 成績合計 とします 2 数式の箱へ 英語 + 数学 + 社会 + 理科 とクリックし式を書き ok を押します 3 データエディタ画面で 変数ビュー タブをクリックし 成績合計 の少数桁数を 0 にします この方が無用の小数点以下の数字がなくなり 見やすくなります これで合計の成績変数ができました (2) 頻度 という新しい変数の追加値はすべて 1 のデータで この変数は後にクロス集計用に使用します 1 変数ビュー画面を開きます 7
2 一番下の行の名前欄に 頻度 という名前の変数を入れます 3 小数桁数は 0 に直しておきます 4 デービュー画面 で 頻度 のすべて欄に 1 を入力します この変数を使ってクロス集計 (Excel のピボット計算に相当 ) をやってみましょう 1 分析() 記述統計(E) クロス集計表(C) とクリックします 2 行 の箱に クラス 列 の箱に 出身中学 一番下の箱に 頻度 を移動し ok をクリックすると次の結果が得られます 図表 7 クラスと出身中学と頻度のクロス表 度数 出身中学 頻度 X Y Z 合計 1 クラス 6 2 1 9 B 0 4 4 8 C 3 2 3 8 合計 9 8 8 25 5. 相関係数の計算 分析() 相関(C) 2 変数 (B) とクリックし 変数の箱に 英語 数学 社会 理科 の4つの変数を移動します 相関係数は Peason 有意差検定が 両側 の他 有意な相関係数に星印をつける にしておきます ( なにもしなければ このようになっています その意味はここでは考える必要ありません ) ここで ok をクリックするとつぎのような相関係数が計算されます Peason の相関係数 と書いてある4つの行が相関係数の計算結果です この表は対角線に対して対称となっています 有意確率 ( 両側 ) を理解するには統計学の知識が必要なので省略しましょう 8
図表 8 相関係数の計算結果 相関係数 英語数学社会理科 英語 Pearson の相関係数 1.842(**).413(*).719(**) 有意確率 ( 両側 ).000.040.000 N 25 25 25 25 数学 Pearson の相関係数.842(**) 1.401(*).755(**) 有意確率 ( 両側 ).000.047.000 N 25 25 25 25 社会 Pearson の相関係数.413(*).401(*) 1.449(*) 有意確率 ( 両側 ).040.047.024 N 25 25 25 25 理科 Pearson の相関係数.719(**).755(**).449(*) 1 有意確率 ( 両側 ).000.000.024 N 25 25 25 25 ** 相関係数は 1% 水準で有意 ( 両側 ) です * 相関係数は 5% 水準で有意 ( 両側 ) です 6. 回帰分析相関係数の計算によれば 数学と英語の相関係数が 0.842 とかなり高いことがわかりました そこで英語 =a +b 数学 + e eは誤差項 (e を省略することもあります ) という単回帰式を作ってみます 英語を従属変数 ( 被説明変数 ) 数学を独立変数( 説明変数 ) とよびます 独立変数が複数ある場合は重回帰分析といいます 回帰式が正しく推定できれば ( 決定係数が高い ) 英語が数学の成績でほぼ説明できることを意味します 上式は英語 a +b 数学と書いてもかまいません 計量経済学などの分野では 英語 =a +b 数学と省略書きすることもあります 分析() 回帰 R 線形(L) とクリックした後 従属変数の箱に 英語 独立変数の箱に 数学 を移動します 方法は 強制投入法 のままにしておきます ok をクリックするとつぎのような回帰分析の結果が得られました 9
図表 9 回帰分析の計算結果 モテ ル集計 モテ ル R R2 乗 調整済み R2 乗 推定値の 標準誤差 1.842(a).710.697 13.128 a 予測値 : ( 定数 ) 数学 分散分析 (b) モテ ル平方和自由度平均平方 F 値有意確率 1 回帰 9682.241 1 9682.241 56.180.000(a) 残差 3963.919 23 172.344 全体 13646.160 24 a 予測値 : ( 定数 ) 数学 b 従属変数 : 英語 係数 (a) 標準化係 非標準化係数 数 モテ ル B 標準誤差ヘ ータ t 有意確率 1 ( 定数 ) 10.212 7.963 1.282.212 a 従属変数 : 英語 数学.879.117.842 7.495.000 この結果より 英語 =10.212 +0.879 b 数学 + e という回帰式が得られました 独立変数を複数個にした回帰分析も同様な作業で得られますが 今のデータではあまりよい結果を得られせんので行いません 回帰分析の結果をみるにはつぎのような知識が必要です 10
(1)R,R2, 調整済み R2 Rは相関係数のことです 先に計算した英語と数学の相関係数と同じ値になっています R2 は SPSS 側の都合で正しく表現されていませんが 正しくは R 2 のことで R R を意味します 決定係数とよばれています また調整済み R2 は 自由度調整済み決定係数 とよ ばれ 正式には R 2 とかかれます 社会科学分野のモデル分析では 自由度調整済み決定 係数 とよばれますが この3つの意味はいずれも 誤差項 e がいかに小さいかを表します 逆にいえば等号 = がいかに正しいかを表します R,R2, 調整済み R2 などが完全に1と一致すれば 誤差項はゼロを意味します 分野によって異なりますが 計量経済学の分野では 回帰式を予測で利用できるためには 0.95 以上は必要でしょう 上記の結果は 相関は強いものの 英語の成績を数学の成績で予測できる いうほどの強い関係はありません (2)t 値 t とは t 値 のことでその絶対値が2 以上であればその変数は説明力があるといわれます 複数の独立変数が含まれる重回帰分析の時の評価基準になります t 値は独立変数が2 個以上の時に意味を持ちます t 値が悪い独立変数は 説明力がないことを意味しますので 回帰式から除いてやる必要があります しかし ここでは回帰分析に関する詳しいことは省略します t 値の意味をここでは理解する必要はありませんが 名前くらいは覚えていてもよいでしょう 7. グラフ作成 SPSS のグラフは多様かつ高度な能力をもっていますが 普通のグラフ作成ならば SPSS よりは Excel の方がわかりやすく使いやすいといえます また Excel で手に負えないようなグラフは グラフ専用ソフトを使えばよいと思います それゆえ ここでは簡単なグラフの例を図 10 と図 12 だけ示しておきます (1) プロット グラフ(G) インタラクティブ() 点(D) とクリックし 縦軸に英語 横軸に数学をドラッグしたあと ok をクリックします 11
99 英語図 10 プロット例 95 90 86 85 82 80 78 75 63 62 55 52 50 48 45 35 30 25 20 点 / 線は最頻値を表示しています 25 30 33 36 38 40 45 60 63 75 78 80 85 88 89 91 96 数学 (2)3 次元棒グラフまず グラフ (G) インタラクティブ() 棒(B) とクリックします さらに下記の図のように右上で3-Dを選択した後 成績合計 出身中学 クラス をドラッグにより移動します その結果 下記のような図が描けます しろいろな選択肢がありますので試してみてください 図 11 3D 棒グラフの作成 12
図表 12 3D 棒グラフ 棒は平均値を表示しています 8. その他 (1) 列ベース ( つまり変数ベース ) のデータの合体 行ベース ( つまりケース [ サンプル ] ベース ) のデータの合体もできます 分担してデータを入力したり 複数の調査を合体するときに有効です データ (D) ファイルの結合(G) を利用します (2) データの縦と横を交換することができます データによっては 変数名が縦に並んでいることがありますが SPSS では横に直す必要があります データ (D) [ 行と列の入れ替え (N)] を使用します 練習問題 3 図表 1のデータをもとに SPSS を利用してさまざまな検討を行い 高校の成績データの検討 というテーマのレポートをまとめなさい SPSS の出力を列挙するだけでは十分ではありません 文章による説明も必要です どのような分析を行うかは担当教員より指示がある予定です 練習問題は宿題になる場合もあります ( 第 Ⅱ 部省略 ) 13