データ分析 (SPSS) 第 01 回講義ノート p.1 講義ノート用スペース その回の授業の内容について 箇条書きや図版などが書き記されている 講義ノートは当該授業の翌週までしか配布しないので注意すること ノートの取り方 この部分 ( 右側 ) に書き込み書き込みをするのは主に授業中 スライドにしか書いてないことなどは 必要に応じてノートに追記を行うこと 講義ノートの活用法 授業中でふれる内容は あらかじめ印刷してあるので 気になる部分などにはマーカーを引くなどしておくこと 授業中に疑問に思ったことなどは 左側の 手がかり用スペース に書き込むこと 気になった内容は放置しないで 後で調べて書き込んでおくこと
データ分析 (SPSS) 第 01 回講義ノート p.2 オリエンテーション この授業はどんな内容か統計についての理解を深める 実際のデータを用いて SPSS で分析を行えるようになる 授業の回数と内容 集中講義 15 回内容はシラバス通り ( 下記参照 ) ただし 進行は現況を優先する シラバス 第 01 回 (08/03): オリエンテーションと統計的データ分析への導入 SPSS の操作の紹介第 02 回 (08/07): 講義 : データの性質と視覚化第 03 回 (08/07): 実習 :SPSS を用いた基本統計量の求め方とデータの視覚化の実習 第 04 回 (08/10): 講義 : 二つの変数の関係 回帰分析第 05 回 (08/10): 実習 :SPSS を用いた相関分析 回帰分析の実習と重回帰分析への導入第 06 回 (08/24): 講義 : 推測統計と検定第 07 回 (08/24): 実習 :SPSS を用いたカイ二乗検定の実習第 08 回 (08/28): 講義 :t 検定第 09 回 (08/28): 実習 :SPSS を用いた t 検定の実習第 10 回 (08/31): 講義 : 一要因の分散分析第 11 回 (08/31): 実習 :SPSS を用いた一要因の分散分析と多重比較の実習第 12 回 (09/04): 講義 : 二要因の分散分析第 13 回 (09/04): 実習 :SPSS を用いた二要因の分散分析の実習と交互作用の解釈第 14 回 (09/07): 講義 : 多変量解析への導入第 15 回 (09/07): 実習 :SPSS を用いた因子分析の実習 教科書 超初心者向け SPSS 統計解析マニュアル統計の基礎から多変量解析まで米川和雄 山崎貞政北大路書房 (2010) 参考書 ウルトラ ビギナーのための SPSS による統計解析入門小川利勝プレアデス出版 (2007) 授業の進め方 講義と実習を合わせた形で進める基本的には教科書を参照しながら進めるが 不足している部分もあるので プリント資料を配布資料は当日未明までには掲示するので各自当日に印刷して持参すること自分で資料に書き込みながら理解を深めること 評価 出席状況 (30 点 ) 毎回の授業の最後に CourceN@vi で 200 字程度のレビューを書き込む事授業について感想や意見を記述すること各回の課題 (70 点 ) 練習問題や分析用データを配布する それらの課題を実施し 提出すること なお 表やグラフの適切な利用が強く推奨される 備考 質問事項などは CourceN@vi 上の当該の回の BBS に掲示する事 積極的に質問し また解答した者に対してはボーナスを与える
データ分析 (SPSS) 第 01 回講義ノート p.3 データの種類とその扱い 世の中の数字には色々な質があるデータは数値で表されることが多い 尺度と測定の基準測定 ( 数値化 ) の基準を 尺度 という統計で扱う尺度は一般的に 4 種類 4 種類の尺度名義尺度順序尺度間隔尺度比例尺度 名義尺度 (SPSS では 名義 アイコンで示される ) 対象を区別するための数字最も低い水準の数値情報量は少ない例 : 性別 1. 男性 2. 女性名義尺度の数字は名前のようなもの ( 大小に意味は無い ) 練習問題 : 名義尺度には 他にどのような例があるか挙げてみよう 名義尺度の数字はカテゴリーを作るための数字名義尺度のデータはカテゴリカルデータとも呼ばれる平均値などを求めることは無意味合計や差分を出すことも無意味 順序尺度 (SPSS では 順序 アイコンで示される ) 名義尺度よりも高度な数値順序尺度から名義尺度は作れるが その逆はできない高い水準の数値は 低い水準の数値に変換可能 ( 名義尺度は他の尺度に変換は不可能 ) 順序を表現する数値例 : マラソンの順位 1 位 A さん 2 位 B さん 3 位 C さん数字は大小等の順序のみを意味する ( 等間隔であるかは保証されない )
データ分析 (SPSS) 第 01 回講義ノート p.4 練習問題 : 順序尺度には他にどのような例があるか挙げてみよう 順序尺度の数字は順序を表現できる値平均値などを求めることは無意味合計や差分を出すことも無意味ダントツの 1 位と僅差の 1 位は順序尺度の中では同じ 1 位 名義尺度と順序尺度に共通の区分これらの尺度データは 次のような共通の呼ばれ方をする質的尺度質的変数質的評価定性的データ検定には ノンパラメトリック検定 を用いる 間隔尺度名義尺度 順序尺度より高い水準の値順序尺度の要件を満たし 間隔も一定 ( 等間隔なので 間隔尺度 ) どれだけ離れているか を表現できる加算 減算が可能マイナスの値が利用できるゼロの位置が任意例 : 温度計 ( 摂氏 ) の目盛りの数値 10 ( ) -5 ( ) 100 ( ) 数字は等間隔の数直線上に配置されている差を求めることが可能 (10 の水と 20 の水の差は 10 ) 練習問題 : 間隔尺度には他にどのような例があるか挙げてみよう 間隔尺度の特徴一般線形変換 (x =ax+b の形の変換 ) が可能平均値 標準偏差 相関係数は間隔尺度以上で利用可能人文科学の研究は順序尺度 間隔尺度で行われる場合が多い心理学 社会学など
データ分析 (SPSS) 第 01 回講義ノート p.5 間隔尺度の注意点 数字が倍 は 絶対的な倍 という意味ではない摂氏 50 度の湯は摂氏 100 度の湯の絶対的な半分の熱さ? 絶対温度なら 絶対的な半分 になる 間隔尺度には 絶対原点 が存在しない次に紹介する比例尺度との違い 比例尺度最も高い水準の値 ( 情報量が最大 ) 間隔尺度までの要件を全て満たした上で 絶対原点を持つ絶対的なゼロの概念を持つ 比率 を表現できる例 : 長さ 10 (m) 100 (m) 1000 (m) 数字は絶対原点を持つ等間隔の数直線上に配置されている比を求めることが可能 (10m の 10 倍は 100m) 練習問題 : 比例尺度にはほかにどのような例があるか挙げてみよう 間隔尺度と比例尺度に共通の区分これらの尺度データは 次のような共通の呼ばれ方をする量的尺度量的変数量的評価定量的データ検定には パラメトリック検定 を用いる SPSS では間隔尺度と比例尺度をあわせて スケール と呼び アイコンで示される それぞれの尺度と統計的指標それぞれの尺度で 使える統計的手法が異なる適切な統計手法のためには尺度 ( とその尺度によって示されるデータ ) の限界を知ることが大事
データ分析 (SPSS) 第 01 回講義ノート p.6 練習問題 : 次の数字は 名義尺度 順序尺度 間隔尺度 比例尺度のうち どれに属するか書きなさい カレンダーの日付洋服のサイズ教室番号モース硬度絶対温度 それぞれの尺度と統計的指標 それぞれの尺度で 使える統計的手法が異なる 名義尺度 ( 名義 ) で使われる統計的指標度数 ( どのようなデータがいくつあるか ) 使える代表値 ( 今後の授業で説明します ) は 最頻値 のみ検定では カイ二乗検定 を使用可能 順序尺度 ( 順序 ) で使われる統計的指標度数使用可能な代表値は 最頻値 と 中央値 検定では マン ホイットニーの U 検定 ( またはウィルコクソンの順位和検定 ) を使用可能 間隔尺度と比例尺度 ( スケール ) で使われる統計的指標使用可能な代表値は 最頻値 と 中央値 と 算術平均値 標準偏差 や ピアソンの積率相関係数 が使用可能 t 検定 や 分散分析 などの一般的な検定方法が使用可能教科書 p.2 を参照
データ分析 (SPSS) 第 01 回講義ノート p.7 SPSS の機動と画面構成 起動画面 起動直後 スタートアップウィザードダイアログボックス が出現 fig. スタートアップウィザードダイアログボックス 既存のファイルを開く場合などはここから指定可能必要な時以外は キャンセル で良い ( 今回もキャンセルする ) データビュー 実際に値を入力していく画面 Excel からコピー & 貼り付けでもデータを入力可能数値は入力可能だが 変数名は自分でその都度設定する必要がある メニューバー ツールバー fig. データビュー
データ分析 (SPSS) 第 01 回講義ノート p.8 データの入力と変数の指定 データの入力配付資料の Excel データシート spss01-01.xlsx を開く サンプルデータ 20 人の男女が A と B のスナック菓子の試食を行い 10 点満点で評価を行った結果 以下の通りになった Table1 第 01 回サンプルデータ 名前 性別 菓子 A 菓子 B 安藤 1 7 9 石井 2 7 10 今井 2 6 7 上田 1 6 10 遠藤 1 8 7 大塚 2 7 6 大和田 1 5 7 香山 2 9 6 桑原 2 7 6 近藤 2 10 10 佐藤 1 8 5 島村 1 8 8 杉田 2 6 4 立川 1 4 9 戸田 2 9 9 新倉 1 2 4 深町 2 8 2 町田 1 7 8 山田 1 8 8 横川 2 6 3 これらのデータに基づき 実習を行う データの入力 データビュー変数ビュー : 実際にデータを入力するビュー : 変数の性質を設定するためのビュー
データ分析 (SPSS) 第 01 回講義ノート p.9 変数ビューの設定データビュータブの隣にある 変数ビュー タブを開く fig. 変数ビュー 変数ビューの項目変数ビューには 以下のような項目がある 名前 : 変数の名称 半角 64 文字 ( 全角 32 文字 ) 以内数字記号から始めることはできず 空白やピリオドも利用できないアルファベットは大文字小文字を区別する型 : 数値から文字列までの 8 種類から選ぶ名前は 文字型 幅 : 文字数小数桁数 : 少数第何位までを有効とするか 整数なら 0 ラベル : 変数につける説明値 : 名義尺度のそれぞれの値の説明 表示 値ラベル から表示の設定が可能 1: 男性 2: 女性など各性別に値を設定する ( 入力は数値で行う ) 欠損値 : 基本的に欠損値のあるデータを除外して分析する欠損処理には色々あるが リストごとに除外 をする場合が多い列 : 列の幅の文字数の設定配置 : セルの中で寄せる位置の設定尺度 : 尺度水準を 名義 順序 スケール から選ぶ役割 : 役割の割り当てをサポートするダイアログにのみ有効現時点ではいじる必要は特にない 変数ビューで設定が完了したらデータビューで入力を行う入力が完了し次第 保存しておくことファイル名は 0801spss01_ 学籍番号 など提出を求められた際に個人を特定できるようにすること
データ分析 (SPSS) 第 01 回講義ノート p.10 入力されたデータ初回なので詳しく紹介する具体的には以下のようになる fig. サンプルデータを入力した状態 fig. サンプルデータの変数ビュー
データ分析 (SPSS) 第 01 回講義ノート p.11 データの視覚化 ヒストグラム 度数分布表 基本統計量の把握 データの特徴を捉えるためにヒストグラムを描く グラフ レガシーダイアログ ヒストグラム fig. グラフ レガシーダイアログ ヒストグラム fig. ヒストグラムダイアログボックス 変数 の枠内に 菓子 A を指定 OK 正規曲線の表示 で正規分布曲線が表示される fig. ヒストグラムの描かれたビューシート
データ分析 (SPSS) 第 01 回講義ノート p.12 ビューシート 保存をしておくことで結果を見返すことができる図などに利用する場合は ファイル エクスポート から各種形式で出力可能 度数分布表の作成度数分布表を作成して データの統計的な情報を把握する各変数ごとの値の出現頻度 ( 度数 ) の分布を調べる単純集計ともいう記述統計量の算出の基本 分析 記述統計 度数分布表 fig. 分析 記述統計 度数分布表 出現したダイアログボックスで変数を選択し OK を押す fig. 度数分布表ダイアログボックス 度数分布表が出現し 変数ごとの度数の分布が把握できる fig. 度数分布表の出力結果 追補度数分布表で 度数 0 のものがある場合 シンタックスという機能を用いることで実現可能 http://www.spss.co.jp/support/spss_faq/output/output05.html
データ分析 (SPSS) 第 01 回講義ノート p.13 基本統計量の算出度数分布表のダイアログボックスで 統計量 ボタンを押す様々な基本統計量を設定するオプションが設定可能になる fig. 度数分布表 統計量 中心傾向 ( 代表値 ) 平均値 : いわゆる算術平均値中央値 : データを昇順に並べた中心の値最頻値 : 度数の最も多い測定値散らばり ( 散布度 ) 標準偏差最小値分散最大値範囲標準誤差分布歪度 : データの分布の非左右対称性を判定する値分布が左に偏っている場合は正の値分布が右に偏っている場合は負の値尖度 : 分布の尖り具合と裾の広がり具合を示す SPSS では +の値は尖った分布を示す具体的な中心傾向と散らばりの話は次回行う 練習問題 : 菓子 B のヒストグラムを描いてみよう練習問題 : 菓子 B の度数分布表を基本統計量とともに出力してみよう なぜデータの視覚化を行う必要があるのか 入力の誤りを発見する 1-10 で入力するデータに 14 という値が入っていたら? 分布の性質を把握する特にある特定の分布の性質を元にした分析を行なう際には その性質に則っていないデータは分析の対象にならない必ず視覚化して データの性質を把握する必要がある
データ分析 (SPSS) 第 01 回講義ノート p.14 第 1 回課題 ( 次々回授業前までを提出期限とする ) 問 1 20 人の高校生を対象に数学のテストを行った その結果以下のようなデータを得た サンプルデータ 37, 48, 56, 43, 33, 48, 63, 42, 36, 44 65, 45, 23, 54, 75, 45, 36, 55, 83, 45 このデータについて以下の問いに答えなさい 1-1 最小値 最大値 範囲を求めなさい 1-2 このデータを元に 度数分布表を作成しなさい 1-3 このデータを元に ヒストグラムを作成しなさい 1-4 このデータにおいて 平均値と中央値のそれぞれの値を答えなさい 問 2 20 人の小学生を対象にお年玉の額を調査した その結果以下のようなデータを得た 5000, 8000, 8000, 10000, 12000, 13000, 13000, 16000, 18000, 20000, 22000, 22500,23000, 24000, 25000, 30000, 32000, 40000, 100000, 600000( 単位 : 円 ) このデータについて 以下の問いに答えなさい 2-1 平均値を求めなさい 2-2 中央値を求めなさい 2-3 このデータの範囲を求めなさい 2-4 このデータは正に歪んでいるか負に歪んでいるといえるか答えなさい 2-5 このデータの代表値は平均値と中央値のどちらの方が妥当と考えられるか答えなさい 問 3. 平均値が同じで範囲が異なる 2 種類のデータセット ( データ数 =10) を作成しなさい その上でそれぞれの平均値と中央値を求め それぞれのデータセットの傾向を簡単に説明しなさい 説明には図版等を含める方が望ましい 解答にはデータセットも記述すること