SPSS 講習会テキスト 明治大学教育の情報化推進本部 IZM20140527
目次 1 章 SPSS の基礎 基本... 3 1.1 はじめに... 3 1.2 基本操作方法... 3 2 章データの編集... 6 2.1 はじめに... 6 2.2 値ラベルの利用... 6 2.3 計算結果に基づく新変数の作成... 7 2.4 値のグループ化... 8 2.5 値の昇順 降順... 10 3 章グラフの作成... 11 3.1 はじめに... 11 3.2 棒グラフ... 11 3.3 グラフの編集方法... 12 3.4 円グラフ... 14 3.5 欠損値について... 15 4 章統計解析の基礎...17 4.1 はじめに... 17 4.2 基本統計量... 17 4.3 度数分布表... 19 4.4 ヒストグラム... 20 4.5 散布図と相関係数... 22 4.6. クロス集計 2 種類の質的データの分析 ( 独立性の検定 )!!... 24 4.7 回帰分析... 26 5 章おわりに...30 2
1 章 SPSS の基礎 基本 1.1 はじめにこのテキストは SPSS の基本操作の習得を目指して作成されたものである SPSS とは 統計解析ソフトウェアの製品群のことであり 現在では IBM 社の製品となっている 講習会では SPSS Statistic ver.21 を扱う 以下では 単に SPSS と表記してある場合 この SPSS Statistic ver.21 を指すこととする SPSS の特徴は 信頼が高いこと 簡便であることである SPSS の開発以来 統計処理ソフトの代表的存在であり GUI による操作で excel などよりも簡単に 高度な統計解析を行うことが可能となっている 本テキストでは 2 章で簡単なデータの編集 3 章でグラフの作成 4 章で統計解析の基礎の説明を行っている 1.2 基本操作方法 起動方法 スタート すべてのプログラム IBM SPSS Statistics IBM SPSS Statistics 21 図 1.1: 起動方法 3
図 1.2:SPSS の表示画面 ( データエディタ ) セルで区切られている 注意 :SPSS は データエディタ と ビューア で構成される データの入力方法 1 変数ビュー (V) で定義 2 データビュー (D) で入力 図 1.3: 変数ビューの入力例 図 1.4: データビューの入力例 3 excel などからデータを コピー 貼り付け することも可能 4
注意 : データビューと変数ビューについて データビュー : データの入力を行う 変数ビュー : 入力するデータの定義を行う 以下を設定する 名前 : 表示させる名前 型 : 数値型や文字列型などデータの型を定義 小数桁数 : 表示する小数点以下の桁数 ラベル : データの説明部分 グラフなどで表示される 値 : 指定することで表示を変換できる ( 例 :1 男 ) 尺度 : 名義データ 順序データ スケールデータに分類する ( 重要 ) 名義データ : 名前 性別などの順列をつけられない質的データ 順序データ : 年代などの順列をつけられる質的データ スケールデータ : 身長などの量的データ 注意 : 上記の例において身長 2 は以下の区分とした 表 1.1: 身長 2 の区分 身長 [cm] 区分 150 未満 1 150 以上 2 160 以上 3 170 以上 4 180 以上 5 ファイルの保存ファイル (F) 名前を付けて保存 (A) ファイルの場所 ファイル名の指定 保存注意 : データエディタ ( データビュー及び変数ビュー ) のデータに関しては拡張子.sav で保存される 一方 ビューアのデータに関しては.spv で保存される それぞれを保存することに注意してほしい ファイルを開く( データエディタの場合 ) ファイル (F) 開く (O) データ(A) ファイル名の指定 開く注意 :excel データなどを開くこともできる ファイル名を指定する際 ファイルの種類を すべてのファイル (*.*) などに変更すればよい ファイルを開く ( ビューアの場合 ) ファイル (F) 開く (O) 出力 (O) ファイル名の指定 開く 5
2 章データの編集 2.1 はじめにこの章では セルに入力されたデータに関しての簡単な編集 処理として 値ラベルの利用 や 値のグループ化 などを扱う 実際に SPSS 講習会例題.sav を例題として操作方法などを紹介していく なお SPSS 講習会例題.sav は付録 A のアンケートをコンピュータを使ってランダムに答えたものであり 何の信憑性ないことに注意されたい 2.2 値ラベルの利用 例 : 性別が 1(2) と表示されているのを 男性 ( 女性 ) と表示したい 操作方法 1 変数ビュー (V) において 性別 値 セルをクリック をクリック 2 値 (U) に <1> ラベル (L) に < 男性 > と入力 追加 (A) 3 値 (U) に <2> ラベル (L) に < 女性 > と入力 追加 (A) OK 4 データビュー (D) において 表示 (V) 値ラベル (V) にチェック 注意 :< > と入力する場合 記号 <> は入力しない ( 文中においては 入力する文字と文章とを区別するために記号 <> を使用している ) 図 2.1: 値ラベルの 設定画面 結果 略 6
2.3 計算結果に基づく新変数の作成 例 : 身長 [cm] を身長 [m] に変更したい 操作方法 1 変換 (T) 変数の計算 (C) 2 目標変数 (T) に< 身長 m>と入力する 3 数式 (E) に< 身長 cm>をドラッグ </100>と入力 ( 画面上のキーボードからも入力可 ) OK 4 変数ビュー (V) において 身長 m の尺度を スケール と変更する 図 2.2: 変数の計算 の設定画面 結果 略 7
2.4 値のグループ化 例 : 年齢を 10 歳毎 ( 年代 ) で区切りたい 操作方法 1 変換 (T) 他の変数への値の再割り当て (R) 2 入力変数 -> 出力変数 (V) に< 年齢 >をドラッグ 名前 (N) に< 年代 >と入力 変更 (H) 3 今までの値と新しい値 (O) 今までの値 / 範囲 (N) に<20>から (T)<29>と入力 新しい値 / 値 (L) に<20>と入力 追加 (A) 4 同様に 30 から 39 30 40 から 49 40 50 から 59 50 と入力 5 今までの値 / 範囲 : 下の値から最大値まで (E) に<60> 入力 新しい値 / 値 (L) に<60>と入力 追加 (A) 続行 OK 6 変数ビュー (V) において 年代 の尺度を 順序 に変更する 7 値ラベルを 20=20 代のように設定する 図 2.3: 他の変数への値の再割り当て の設定画面 8
図 2.4: 今までの値と新しい値 の設定画面 結果 略 9
2.5 値の昇順 降順 例 : テストの点数の良い順に並べ替えたい 操作方法 1 データ (D) ケースの並べ替え (O) 2 並べ替え (S) に < テスト > をドラッグ 降順 (D) にチェック OK 図 2.5: ケースの並び替え の設定画面 結果 略 10
3 章グラフの作成 3.1 はじめにこの章では 2 章で用いた SPSS 研修会例題.sav のデータに関して グラフを作成 編集方法について述べる 今回は 棒グラフ と 円グラフ を作成 編集する また 欠損値の処理 についても簡単に述べる 3.2 棒グラフ 例 : 県別の出身者数の棒グラフを描く 操作方法 1 1 グラフ (G) レガシーダイアログ (L) 棒 (B) ( 単純 グループごとの集計 (G) ) 定義 2 カテゴリ軸 (X) に < 出身地 > をドラッグ OK 図 3.1: 単純棒グラフ の設定画面 11
3.3 グラフの編集方法 操作方法 1 ビューアにおいて グラフをダブルクリック= 図表エディタが開く 2 図表エディタにおいて アイコンをクリック ( 編集 1) 3 図表エディタにおいて 変更したい部分をダブルクリック= 黄線で囲まれる プロパティが開く プロパティで変更する ( 編集 2) 4 図表エディタを閉じる 図 3.2: 図表エディタの例 グラフの編集例 編集 1 の例 タイトルの挿入 タイトルの挿入 をクリック タイトルを入力 適当な場所をクリック 編集 2の例 グラフの色の変更グラフ部分をダブルクリック= 黄線で囲まれる プロパティが開く 塗りつぶしと枠線において 好きな色を選択 適用 12
文字の編集方法 変更したい部分をダブルクリック = 黄線で囲まれる プロパティが開く もう一度クリック 文字を 入力する 適当な場所をクリック 図 3.3: グラフ例 13
3.4 円グラフ 例 : 携帯キャリアの割合を表す 操作方法 1 グラフ (G) レガシーダイアログ (L) 円 (E) ( グループごとの集計 (G) ) 定義 2 分割の定義 (B) に < 使用している携帯のキャリア [ アンケート 1]]> をドラッグ OK 図 3.4: 円グラフの定義 の設定画面 14
結果 図 3.5: 携帯キャリアの割合 ( 携帯を持っていない場合を含む ) 3.5 欠損値について欠損値とは 無回答 や 無効回答 などを集計から除去する値のことである 例えば上記 3.4 の例において 携帯電話を持っている人の中でのキャリアの割合を調べたい場合 携帯電話を 持っていない 人を 欠損値 として設定すれば良い 操作方法 1 変数ビュー (V) において アンケート 1 欠損値 セルをクリック をクリック 2 個別の欠損値 (D) にチェック <9> と入力 OK 3 上記と同様に円グラフを作成する 15
図 3.6: 欠損値 の設定画面 図 3.7: 携帯キャリアの割合 ( 携帯を持っていない場合を除く ) このように 欠損値を設定すると 欠損値を除いたデータで処理を行う 16
4 章統計解析の基礎 4.1 はじめにこの章では 統計解析の基礎として 基本統計量 ( 平均など ) 度数分布表 回帰分析 などを扱う それぞれに関しては統計学として扱うのではなく SPSS の操作方法を主として扱うことに注意されたい 4.2 基本統計量 例 : 身長の平均などを知りたい 操作手順 1: すべてのデータをまとめて扱うとき 1 分析 (A) 記述統計 (E) 記述統計 (D) 2 変数 (V) に身長をドラッグ 3 オプション (O) 平均値 (M) など 求める項目にチェック 続行 OK 図 4.1: 記述統計量 の設定画面 結果 1: 度数 最小値 最大値 平均値 標準偏差 分散 身長 cm 1000 141.0 188.2 165.947 8.2308 67.746 有効なケースの数 ( リストごと ) 1000 表 4.1: 記述統計量 17
操作方法 2: 男女別の身長 のような条件があるとき 1 分析 (A) 記述統計 (E) 探索的 (E) 2 従属変数 (D) に< 身長 cm> 因子(F) に< 性別 >をドラッグ 3 統計量 (S) 記述統計量 (D) 外れ値(O) にチェック 続行 4 作図 (T) 従属変数ごとの因子レベル (F) ヒストグラム(H) にチェック 続行 OK 図 4.2: 探索的 の設定画面 18
結果 2 表 4.2: 記述統計 性別 身長 cm 男性 平均値 女性 平均値の 95% 信頼区間 5% トリム平均 中央値 分散 標準偏差 最小値 最大値 範囲 4 分位範囲 歪度 尖度 平均値 平均値の 95% 信頼区間 5% トリム平均 中央値 分散 標準偏差 最小値 最大値 範囲 4 分位範囲 歪度 尖度 統計量 標準誤差 171.951.2325 下限 171.494 上限 172.408 171.992 171.900 28.381 5.3274 156.1 188.2 32.1 7.0 下限 158.840 上限 159.783 -.120.107.155.213 159.312.2400 159.332 159.200 27.355 5.2302 141.0 175.8 34.8 6.9 -.047.112.209.224 4.3 度数分布表 例 : 県別の出身者数を知りたい 操作方法 1: 度数分布表のみを作成する場合 1 分析 (A) 記述統計 (E) 度数分布表 (F) 2 変数 (V) に < 出身地 > をドラッグ OK 19
図 4.3: 度数分布表 の設定画面 操作方法 2: 棒グラフも同時に作成する場合 1 分析 (A) 記述統計 (E) 度数分布表 (F) 2 変数 (V) に出身者をドラッグ 3 図表 (C) 棒グラフ (B) にチェック 続行 OK 結果 有効 表 4.3: 出身地 度数 パーセント 有効パーセント 累積パーセント 東京 368 36.8 36.8 36.8 神奈川 243 24.3 24.3 61.1 埼玉 184 18.4 18.4 79.5 千葉 180 18.0 18.0 97.5 その他 25 2.5 2.5 100.0 合計 1000 100.0 100.0 棒グラフ : 略 4.4 ヒストグラム 例 : 男女別の身長の分布を知りたい 操作方法 1 グラフ (G) レガシーダイアログ (L) ヒストグラム (I) 2 変数 (V) に < 身長 cm> をドラッグ 行 (W) に < 性別 > をドラッグ OK 20
結果 図 4.4: ヒストグラム の設定画面 図 4.5: 男女別の身長の分布図 21
4.5 散布図と相関係数 例 : 身長と体重にはどんな関係があるのだろうか 散布図の作成方法 1 グラフ (G) レガシーダイアログ (L) 散布図 / ドット (S) 単純な散布図 定義 2 Y 軸 (Y) に < 体重 kg> X 軸 (X) に < 身長 cm> をドラッグ OK 図 4.6: 単純散布図 の設定画面 22
図 4.7: 身長と体重の散布図 相関係数の求め方 1 分析 (A) 相関 (C) 2 変量 (B) 2 変数 (U) に < 身長 cm> と < 体重 kg> をドラッグ OK 図 4.8: 2 変量の相関分析 の設定画面 23
結果 表 4.4: 相関係数 身長 cm 体重 kg 身長 cm Pearson の相関係数 1.580 ** 有意確率 ( 両側 ).000 N 1000 1000 体重 kg Pearson の相関係数.580 ** 1 有意確率 ( 両側 ).000 N 1000 1000 **. 相関係数は 1% 水準で有意 ( 両側 ) です 注意 : 相関係数について相関係数とは 2 変量にどの程度の関係性があるかを表す指標であり おおまかに以下のような関係となっている 表 4.5: 相関係数 相関係数 関係性 -1~-0.7 強い負の相関がある -0.7~-0.4 中程度の負の相関がある -0.4~-0.2 弱い負の相関がある -0.2~0.2 ほとんど相関がない 0.2~0.4 弱い正の相関がある 0.4~0.7 中程度の正の相関がある 0.7~1 強い正の相関がある よって 上記の身長と体重の例では 中程度の正の相関がある といえる 4.6. クロス集計 2 種類の質的データの分析 ( 独立性の検定 )!! 例 : 性別によってお酒の好き嫌いに違いはあるのか? 一般的な手順 1 性別によって違いがある( 関連性がある ) と仮定( 対立仮定 2 つの変数は独立ではない ) する 2 性別によって違いはない( 関連性はない ) と仮定( 帰無仮定 2 つの変数は独立である ) する 3 カイ二乗検定を行う=SPSS を用いる 4 有意確率が 0.05(0.01) 以下であるならば 5(1)% の有意水準で 2 つの変数は独立である という帰無仮説は棄却 = 対立仮説の採択 = 性別によって違いがある カイ二乗検定の操作方法 1 分析 (A) 記述統計 (E) クロス集計表(C) 2 行 (O) に< 性別 > 列(C) に<お酒が好きか?[ アンケート 2]>をドラッグ 3 統計量 (S) カイ 2 乗 (H) にチェック 続行 4 クラスタ棒グラフの表示 (B) にチェック OK 24
図 4.9: クロス集計表 の設定画面 棒グラフの編集方法 1 ビューアにおいて 棒グラフをダブルクリック= 図表エディタ プロパティが開く 2 図表エディタにおいて 棒の部分をダブルクリック= 棒の周りが黄線で囲まれる プロパティが変化 3 プロパティ ( 変数 ) において お酒が好きか? を <XCluster> < 積み上げ>に変更 適用 (A) 4 図表エディタにおいて 100% に尺度設定 (S) をクリック 閉じる 結果 漸近有意確率 値 自由度 ( 両側 ) Pearson のカイ 2 乗 80.652 a 1.000 b 連続修正 79.499 1.000 尤度比 81.636 1.000 正確有意確率 ( 両側 ) 正確有意確率 ( 片側 ) Fisher の直接法.000.000 線型と線型による連関 80.571 1.000 有効なケースの数 1000 表 4.6: カイ 2 乗検定 a. 0 セル (.0%) は期待度数が 5 未満です 最小期待度数は 194.28 です b. 2x2 表に対してのみ計算 25
図 4.10: 性別におけるお酒の好き嫌いの比較 Pearson のカイ 2 乗の漸近有意確率 ( 両側 ) が.000 なので 1% の有意水準で帰無仮説は棄却 すなわち 性別によってお酒の好き嫌いに違いがあるといえる 4.7 回帰分析 例 : 広告費から売上高を予測したい ( 広告費と売上高.sav を用いる ) 一般的な手順 1 広告費と売上高には関連性がある と仮定( 対立仮定 ) する 2 広告費と売上高には関連性はない と仮定( 帰無仮定 ) する 3 散布図 回帰直線を描く=SPSS を用いる 4 相関係数を求める=SPSS を用いる 5 回帰分析を行う=SPSS を用いる 6 モデル ( 広告費と売上高の関係 ) を評価する ( 寄与率 F 値など ) 26
散布図 回帰直線の描き方 1 グラフ (G) レガシーダイアログ(L) 散布図 / ドット (S) 単純な散布図 定義 2 Y 軸 (Y) に< 売上高 > X 軸 (X) に< 広告費 >をドラッグ OK 3 ビューアにおいて グラフをダブルクリック= 図表エディタが開く 4 図表エディタにおいて 合計での線の当てはめ をクリック 閉じる 相関係数の求め方 1 分析 (A) 相関 (C) 2 変量 (B) 2 変数 (U) に < 広告費 > と < 売上高 > をドラッグ OK 回帰分析の操作方法 1 分析 (A) 回帰 (R) 線型 (L) 2 従属変数 (D): 売上高 独立変数 (I): 広告費をドラッグ OK 図 4.11: 線型回帰 の設定画面 27
結果 広告費 売上高 図 4.12: 広告費と売上高の関係 表 4.7; 相関係数 広告費 売上高 Pearson の相関係数 1.942 ** 有意確率 ( 両側 ).000 N 100 100 Pearson の相関係数.942 ** 1 有意確率 ( 両側 ).000 N 100 100 **. 相関係数は 1% 水準で有意 ( 両側 ) です b 表 4.8: モデル集計 モデル R R2 乗 調整済み R2 乗 推定値の標準誤差 1.942 a.888.887 99.0787 a. 予測値 : ( 定数 ) 広告費 b. 従属変数売上高 b 表 4.9: 分散分析 モデル平方和 ( 分散成分 ) 自由度平均平方 F 値有意確率 1 回帰 7624191.367 1 7624191.367 776.664.000 a 残差 ( 分散分析 ) 962025.753 98 9816.589 合計 8586217.120 99 a. 予測値 : ( 定数 ) 広告費 b. 従属変数売上高 28
標準化係数 モデル B 標準誤差ベータ t 値有意確率 1 ( 定数 ) -21.046 22.290 -.944.347 広告費 2.083.075.942 27.869.000 a. 従属変数売上高 a 表 4.10: 係数 標準化されていない係数 広告費と売上高には強い正の相関があることがわかる また 分散分析における F 値の有意確率は 0.000 なので 5% の有意水準で帰無仮説を棄却する すなわち 寄与率 (R2 乗値 )88.8% 回帰直線 :( 売 上高 )=2.083 ( 広告費 )-21.046 で 広告費と売上高には関係があると言える 29
5 章おわりにこのテキストでは SPSS の講習として 基本的な操作方法に関しての説明を行った 特に データの編集 グラフの作成 統計解析の基礎を扱った SPSS は統計解析ソフトである 従って 特に4 章のように統計学の知識を要する場合があるが 講習会では時間の関係上 統計学の知識については割愛した 興味を持った箇所などに関しては 図書館などの書籍で調べたり インターネットを活用したりして欲しい 30