講義ノート p.2 データの視覚化ヒストグラムの作成直感的な把握のために重要入力間違いがないか確認するデータの分布を把握する fig. ヒストグラムの作成 fig. ヒストグラムの出力例度数分布表の作成データの度数を把握する入力間違いが無いかの確認にも便利 fig. 度数分布表の作成

講義ノート p.1 前回の復習尺度について数字には情報量に応じて 4 段階の種類がある名義尺度順序尺度 : 質的データ間隔尺度比例尺度 : 量的データ尺度によって利用できる分析方法に差異がある SPSS での入力の練習と簡単な操作の説明変数ビューで変数を設定 ( 型や尺度に注意 ) fig. 変数ビューデータビューでデータを入力 fig. データビュー

講義ノート p.3 fig. 度数分布表の出力例基本統計量の算出度数分布表のオプションで統計量を選ぶ fig. 基本統計量の算出中心傾向 ( 代表値 ) 散らばり ( 散布度 ) 分布前回のサンプルデータを用いて整理する手元に無い人はダウンロードしておくこと

講義ノート p.4 ばらつき具合とその指標 Excel を用いた基本統計量の理解代表値 ( 中心傾向 ) 平均値 (=average 関数 ) 中央値 (=median 関数 ) 散布度 ( 散らばり ) 分散標準偏差 } 今日はここを理解する本日の内容ばらつき具合とその指標散布度の求め方 Z スコアと偏差値使用するデータの特徴代表値代表値として平均値を用いる数学的に最も高度な代表値分布の全ての値を使って求める分布の形いわゆる正規分布を前提とする正規分布の特徴を確認してみよう正規分布の特徴左右対称中央部分が最も値が多い極端な値は少ない釣り鐘型 fig. 正規分布の例

講義ノート p.5 正規分布の比較と標準正規分布平均値が等しい正規分布の比較平均値が等しいからといっても同じ正規分布ではない平均値が等しい正規分布の比較下の二つの図は何が違うのか? fig. 平均値の等しい 2 種類の正規分布の例解答 : ばらつき具合の違いの表現なだらかな分布データがばらついている尖った分布データがばらついていない尖度という指標で確認可能 SPSS では 0 を基準としているプラスの値は尖った分布を意味するデータのばらつきが分布の形を決めるばらつき具合を他人に伝えるためには? 視覚的に把握する簡潔には伝えられない数値で表現する散布度という指標を用いる代表値と散布度で分布の特徴を表現する代表値とは何か簡潔に説明できるようになっておこう!

講義ノート p.6 簡単な散布度範囲 ( 分析記述統計度数分布表の統計量 ) 最大値と最小値から求める値極端な値に弱い 2 つの値しか使っていないので情報量が少ない平均値のように全てのデータを使いたいより高度なばらつき具合の表現へばらつき具合の表現ばらつきとは何からのばらつきか? 代表値 ( 平均値 ) からどれだけ離れているかそれぞれの値が平均値からどれだけ離れているかを計算して集計すれば良い以下の表の空欄を埋める CourceN@vi からファイルをダウンロードし Excel で実習する SPSS で値だけ求めても無意味それが何の意味なのか理解しておく必要がある散布度の計算過程名前得点得点 - 平均値 ( 得点 - 平均値 )^2 A 2 B 2 C 3 D 3 E 5 F 6 G 6 H 7 I 8 J 8 平均値合計値合計値 = 偏差平方和 5 分散 = 偏差平方和 / データ数標準偏差 = 分散

講義ノート p.7 偏差代表値からどれだけ離れているか偏差 = 個々の値 - 平均値計算結果を p.6 の表に書き入れること偏差の合計偏差を出し終えたら合計する 0になる証明は以下の通り偏差の平均 = 偏差の合計 / データ数 =(( それぞれのデータから平均値を引いたもの ) の合計 ) データ数 =( 全データの合計から平均値データ数を引いたもの ) データ数 =( 全データの合計データ数 ) ー ( 平均値データ数データ数 ) = 平均値ー平均値 =0 従ってそのままでは立ち行かなくなる偏差二乗和なぜ偏差の合計は 0 になるかは上の証明通りならば全てを正の数にすればいい二乗すれば正の数になる ( 単位も二乗になる ) 全て計算したら合計する計算結果を p.6 の表に書き入れること偏差二乗和 (Sum of Squares = SS) 偏差二乗和偏差自乗和偏差平方和どれも同じものを指す最も基本となる散布度の指標データ数が増えると値が大きくなる分散偏差二乗和をデータ数で調整した値不偏分散 = 偏差二乗和自由度 ( データ数 -1) 調整してあるのでばらつき具合の評価が比較しやすい自由度で割っているので母集団の性質を求めているただし単位は二乗のまま不偏標準偏差 ( 本来は標本標準偏差と言われるが混乱を避けるために不偏標準偏差とする ) 不偏分散の単位を元の単位に戻したもの不偏分散の平方根 ( ルート ) を取る不偏標準偏差 = 不偏分散 p.6 のサンプルデータの不偏標準偏差 5.56 2.36 このテストの結果は平均 5.0 点でおおよそのばらつき具合は平均点を中心にしてを 2.36 点であるといえる

講義ノート p.8 散布度についてのまとめ代表値と散布度でデータのおおまかな性質を捉えられる代表値平均値中央値最頻値散布度偏差二乗和分散標準偏差データを比較する異なる科目のテストで同じ点数を取ったとするそれぞれの科目の平均値が同じなら成績は等しくなるか? 実は散布度を考慮していない設問各科目の成績はどの程度ばらついているかの情報が必要平均 50 点のテストで 60 点を取った場合標準偏差 10 点の分布 60 点は標準偏差 1 つ分上回っているといえる標準偏差 5 点の (10 点よりもばらつきが少ない ) 分布 60 点は標準偏差 2 つ分上回っているといえる標準偏差を単位として個々の得点がどれだけ平均値から離れているかが数値化できる偏差標準偏差 = 標準得点データを全て標準得点に直した分布を標準正規分布と呼ぶ標準正規分布の形に変換することを標準化という 0.5 0.5 0.4 0.4 0.3 0.3 0.2 0.2 0.1 0.1 0.0-4.0-3.0-2.0-1.0 0.0 1.0 2.0 3.0 4.0 0.0-4.0-3.0-2.0-1.0 0.0 1.0 2.0 3.0 4.0 0.5 0.4 0.3 0.2 0.1 0.0-4.0-3.0-2.0-1.0 0.0 1.0 2.0 3.0 4.0 fig. 標準化の模式図 Z スコア ( 個々の得点ー平均値 ) 標準偏差 = Z スコア ( 標準得点 ) 標準正規分布の形に変換すればどんなデータでも比較可能異なる科目間身長と体重

講義ノート p.9 以下の表を埋めてみようデータの標準化 (Z スコア ) と偏差値名前得点偏差 A 2 Z スコア ( 偏差 / 標準偏差 ) B 2 C 3 D 3 E 5 F 6 G 6 H 7 I 8 J 8 Z スコアの意味 E くん ( 平均値と完全に一致した成績 ) 0 2.36 = 0 F くん ( 平均値 +1.0SD の成績 ) 1 2.36 0.42 データの個々の位置を表すのに役立つ偏差値 Z スコアには小数点以下の値もマイナスの値もある Z スコアを 10 倍して 50 を足した値が偏差値偏差値 60 は標準偏差 1 つ分プラスであるという意味上側確率標準正規分布の特徴全体の面積を 1 とした際のある値より上の面積が既に計算済み斜線の部分の面積は全体の 2.5% 標準偏差 ±1 の範囲に全体の 68.26% が入るこのテストの結果は平均 5.0 点で平均点を中心とした ±2.36 点の範囲に全体の 68.26% のデータが入るといえる

講義ノート p.10 SPSS での Z スコアと偏差値の求め方ただし SPSS では不偏標準偏差 ( 不偏分散の平方根 ) を用いて計算されるデータビューに Excel のデータをコピーする fig. Excel のデータをコピー & 貼り付け変数ビューを編集する fig. 変数ビューの名前と尺度を編集分析記述統計記述統計を選択 fig. メニューから分析方法を選択

講義ノート p.11 Z スコアに変換する変数の指定標準化された値を変数として保存にチェック fig. 変数の指定必要なら記述統計のオプションを指定 fig. 記述統計のオプションを指定続行ボタンを押すと結果と共にデータビューに Z スコアの値が自動的に入力される fig. Z スコアの出力結果

講義ノート p.12 Z スコアと偏差値いわゆる偏差値は Z スコアを 10 倍し 50 を加算するという線形変換をした値である偏差値 =Z スコア *10+50 SPSS では以下のようにして算出することが可能である前提として Z スコアを算出しておく変換変数の計算を選択 fig. 変数の計算を選択出現した変数の計算ダイアログボックスで Z スコアの変数を選択する数式欄でその変数名に 10 を乗算し 50 を加算する Z 成績 *10+50 となる目標変数の名称を入力する ( ここでは偏差値とした ) fig. 目標変数と数式を入力 OK ボタンを押すと全データの偏差値が出力される

講義ノート p.13 fig. 偏差値の出力 Excel での偏差値の求め方各 Z スコアのセルを指定し = セル番地 *10+50 として算出する練習問題以下のサンプルデータの菓子 A と菓子 B についてそれぞれ基本統計量と Z スコアを求めなさい名前性別菓子 A 菓子 B 安藤 1 7 9 石井 2 7 10 今井 2 6 7 上田 1 6 10 遠藤 1 8 7 大塚 2 7 6 大和田 1 5 7 香山 2 9 6 桑原 2 7 6 近藤 2 10 10 佐藤 1 8 5 島村 1 8 8 杉田 2 6 4 立川 1 4 9 戸田 2 9 9 新倉 1 2 4 深町 2 8 2 町田 1 7 8 山田 1 8 8 横川 2 6 3

講義ノート p.14 第 2-3 回課題 ( 次々回授業前までを提出期限とする ) なお計算には Excel を用いても SPSS を用いても良いがどちらの環境で算出したかを明記すること問 1 あるテストを 10 人に課したところ得点が以下のようなものになった a:22 b:24 c:55 d:46 e:47 f:38 g:53 h:60 i:74 j:51 1-1 平均値を求めなさい 1-2 偏差平方和を求めなさい 1-3 分散を求めなさい 1-4 標準偏差を求めなさい 1-5 f と i の z スコアを求めなさい 1-6 g の偏差値を求めなさい問 2 データ数が 25 分散が 16.0 であったとき標準偏差と偏差二乗和を求めなさい問 3 以下のデータから平均値偏差二乗和分散標準偏差を求めなさいまた j の偏差値を求めなさい a:48 b:42 c:49 d:43 e:51 f:59 g:65 h:68 i:78 j:84 平均値は小数点以下第 1 位まで求め散布度は小数点以下第 2 位まで求めなさい偏差値は整数位までで良いものとする問 4 10 人のデータの値が全て同じものであった場合標準偏差を求めることはできるかどうか考察しなさい