データの種類とデータの分布 統計基礎の補足資料 218 年 6 月 4 日金沢学院大学経営情報学部藤本祥二
2( 教科書 P.52) データのばらつき
分布について データの分布データ全体のばらつき具合 ( 広がり具合 ) 等の全体的な様子をとらえたもの 度数 ( 頻度数 ) ある項目, 又はある値, 又は範囲にデータがどれくらい存在するのかを頻度で示したもの 度数分布度数に関するデータ全体の様子 分布の特徴を, 表やグラフや統計量を使って明らかにすることが記述統計学の目的
2.1( 教科書 P.53) データの種類
データの種類 データは大きく分けて 2 種類 質的データ (category data, 分類データ ) 分類や種類の違い ( カテゴリー ) のデータ例 ) 国籍, 血液型, 好きな科目, 趣味, 量的データ (quantity data, 数量データ ) 数量で測れるデータ例 ) 身長, 体重, 気温, テストの点数, 注意数字で書かれてるからと言って量的データとは限らない数値の大きさや順番, 間隔などに意味があることが重要 ( 電話番号などは数字で書かれてるが分類のための質的データ )
更に細かな分類 ( 統計検定 2 級相当 ) 質的データ 名義尺度 ( 順番に意味がない分類 ) 好き 嫌い, 男 女, 好きな色, 職業, 血液型, 順序尺度 ( 順番に意味がある分類 ) 学歴, 震度,5 段階評価, 優 良 可, 松 竹 梅, 量的データ 間隔尺度 ( 数値の差に意味がある量 ) 摂氏温度, 華氏温度, テストの点数, 時刻, 年齢, 比例尺度 ( 数値の差だけでなく比にも意味がある量 ) 長さ, 重さ, 速度, 絶対温度, 経過時間,
2.2( 教科書 P.55~77) 質的データの分析
質的データの分析 質的データの分布を調べる 項目ごとの度数 ( 頻度, 件数 ) を集計する 集計 ( 教科書 P.55 の集計表,P62 のクロス集計 ) 数え漏れ, 数え過ぎ, をしないように注意 集計した度数から度数分布表や度数グラフを作成する ( 度数の全体の様子が度数分布 ) 項目の順番に意味がないときは大きい順に並べる 大きく占める要因を知りたい時は累積度数を計算しパレート図を作成する
データの集計 ( 表 2.2.1 表 2.2.2) 日付 時間 学年組 名前 理由 12 月 1 日 1:35 2 年 1 組 酒井はるこ ねんざ 12 月 1 日 11:2 1 年 4 組 石田ななこ 頭痛 12 月 3 日 12:55 1 年 1 組 松井たかし 腹痛 保健室を利用した理由 人数 ( 度数 ) 切り傷 5 すり傷 9 ねんざ 3 発熱 3 頭痛 12 腹痛 5 その他 3 理由に注目して集計日本, 中国, 韓国 : ヨーロッパ, 北米 : スペイン語圏 : 参考 : 画線法 - Wikipedia
図 2.2.2~2.2.3 度数 14 12 1 8 6 4 2 保健室を利用した理由 切り傷すり傷ねんざ発熱頭痛腹痛その他 度数 14 12 1 8 6 4 2 保健室を利用した理由 頭痛すり傷切り傷腹痛ねんざ発熱その他 度数保健室を利用した理由 ( 曜日別 ) 14 12 1 8 6 4 2 月曜日火曜日水曜日木曜日金曜日土曜日 横軸の順番に特に意味がないときは度数の大きい順に並べる ( その他は度数の大きさに関係なく最後 ) 横軸の順番に意味があるときはその順に並べる
度数分布 度数 (frequency) その項目に存在するデータ数 ( 頻度, 件数 ) のこと 相対度数 (relative frequency) 全体 ( 総度数 ) に対するその項目の度数の割合 累積度数 (cumulative frequency) その項目までの度数の累積和 累積相対度数 (cumulative relative frequency) 累積 : 累々と積み上げること 全体に対する累積度数の割合 度数分布 (frequency distribution) 全項目の度数を眺めたもの ( 全項目の度数の様子 ) この度数分布で全体の様子が把握できる 相対度数の累積と考えても良い
表 2.2.5 球種 度数 累積度数 相対度数 累積相対度数 ストレート 156 156.47.47 スライダー 814 2374.245.715 カットボール 339 累積和 2713.12.817 チェンジアップ 281 2994.85.92 カーブ 172 累積和 3166.52.953 フォーク 155 3321.47 1. 合計 3321 1. 累積度数 : その項目までの度数の累積和相対度数 : 度数の全体に対する割合累積相対度数 : その項目までの相対度数の累積和累積度数の全体に対する割合 281 3321 2994 3321
松坂投手の球種の分布のパレート図 ( 図 2.2.4) 度数の目盛 3321 3 25 2 15 1 5 ストレートスライダーカットボールチェンジアップカーブフォーク 質的データの度数 ( 棒グラフ ) と累積度数 ( 折れ線グラフ ) を一緒に表示したものがパレート図 度数の目盛 3321 を相対度数の目盛 1(1%) に合わせる 度数 累積度数 相対度数の目盛 1.9.8.7.6.5.4.3.2.1 累積相対度数を見るとストレートとスライダーで全体の 7% を占めることが分かる
表 2.2.4 改 理由 度数 相対度数 累積度数 累積相対度数 頭痛 12.3 12.3 すり傷 9.225 21.525 切り傷 5.125 26.65 腹痛 5.125 31.775 ねんざ 3.75 34.85 発熱 3.75 37.925 その他 3.75 4 1. 計 4 1. パレート図を描くために, 度数の大きい順に並べ替えて累積度数等を計算した
表 2.2.4 のパレート図 度数の目盛 4 度数の目盛 4 を相対度数の目盛 1(1%) に合わせる 相対度数の目盛 1 3.75 2.5 1.25 頭痛すり傷切り傷腹痛ねんざ発熱その他 質的データの度数 ( 棒グラフ ) と累積度数 ( 折れ線グラフ ) を一緒に表示したのがパレート図 度数 累積度数 累積相対度数を見ると腹痛までの要因で全体の 75% を占めることが分かる
累積相対度数と帯グラフ 度数の目盛 相対度数の目盛 帯グラフ 4 1 その他 1 発熱 3.75 ねんざ腹痛.75 切り傷 2.5.5 すり傷 1.25.25 頭痛 帯グラフ (1% 積み上げ棒グラフ ) の境目は累積相対度数に対応
2.3( 教科書 P.78~129) 量的データの分析 今週 2.3.1(P.78)~ 2.3.2(P.98) 2.3.3 以降は次週
量的データの分析 量的データは 2 種類ある 離散データ (discrete data, 整数データ ) 飛び飛びの値のデータ例 ) 抜けた乳歯の本数 縄跳びを飛んだ回数 データ毎に集計し度数分布を調べ グラフを描くグラフを描く際の横軸はデータの値の順に並べる 連続データ (continuous data, 実数データ ) 小数点以下いくらでも小さく半端な値を持つデータ例 ) 身長データ, 体重データ 以上 未満の階級 (class) に分けないと度数の集計ができない 度数分布のグラフでは棒と棒の間に隙間を入れない ( 棒の面積に意味があるため ) このグラフのことを ヒストグラム という
量的データの分布の特徴 ヒストグラムの特徴を分析 ( 教科書 P.84~89) 多峰性に注意 山の頂点が複数 ( 多峰性 ) 異質の集団が混在してる可能性がある 単峰性の分布 分布全体のばらつき ( 広がり ) 具合 左右対称性 ( 左右の歪み具合 ) 峰の尖り具合 外れ値の存在 ミスの場合もあれば, 重要なデータの場合もある 教科書の図を参照するように
単峰性 (unimadal) 多峰性 (multimadal) データが集中してる部分 ( 峰, 山 ) が 1 つ 2 つ以上の峰 異質の集団が混在してる可能性がある 画像元 : 身近な統計第 3 回データのばらつきを表やグラフで要約する ( 量的データの場合 )
歪んだ分布 (skewed distribution) 右に歪んだ分布 ( 右に裾を引く分布 ) 外れ値 (outliner) データの大部分が含まれる区間から, かけ離れたところに位置するデータ 単なるミスの場合もあれば, 重要なデータの場合もある 画像元 : 身近な統計第 3 回データのばらつきを表やグラフで要約する ( 量的データの場合 )
表 2.3.1 の度数分布表 ( 離散データ ) 歩数 [ 歩 ] 度数 [ 人 ] 相対度数 累積度数 累積相対度数 4.143 4.143 1 6.214 1.357 2 1.357 2.714 3 5.179 25.893 4 2.71 27.964 5 1.36 28 1. 計 28 1.
図 2.3.1 度数の目盛 28 度数の目盛 28 を相対度数の目盛 1(1%) に合わせる 相対度数の目盛 1 2 1.75.5.25 1 2 3 4 5 数量データでは横軸は数量の大きさ順にする離散データの場合は棒の間を開ける 度数 累積度数 [ 歩 ] 累積相対度数を見ると 2 歩までで全体の 75% を占めることが分かる
表 2.3.2 の度数分布表 ( 離散データ ) 歩数 [ 歩 ] 度数 [ 人 ] 相対度数 累積度数 累積相対度数 ~5 1.25 1.25 6~1 7.175 8.2 11~15 16.4 24.6 16~2 9.225 33.825 21~25 5.125 38.95 26~3 1.25 39.975 31~35 1.25 4 1. 計 28 1.
図 2.3.2 度数の目盛 4 度数の目盛 4 を相対度数の目盛 1(1%) に合わせる 相対度数の目盛 1 3.75 2.5 1.25 ~5 6~1 11~15 16~2 21~25 26~3 31~35 数量データでは横軸は数量の大きさ順にする離散データの場合は棒の間を開ける 度数 累積度数 [ 歩 ] 累積相対度数を見ると 2 歩までで全体の 8% を占めることが分かる
連続データの扱い 連続データ : 小数点以下いくらでも小さく半端な値を持つデータ階級 ( 度数を集計するための区間 ) に分けて集計 表 2.3.3 集計前のデータ No. 名前体重 [kg] 1 吉永カナ 37. 2 酒井愛 45.6 3 武田智 45. 4 渡辺さえ 42.2 階級 1kg 未満 1kg 以上 2kg 未満 2kg 以上 3kg 未満 3kg 以上 4kg 未満 4kg 以上 5kg 未満 5kg 以上 6kg 未満 度数 各データが必ずどこか 1 つの階級に属するように隙間のない階級に分ける. 2kg ぴったりや,3kg ぴったりのデータがどの階級に所属するのか意識して 以上 や 未満 などの言葉を使う.
表 2.3.5 の女性の体重の度数分布表 階級 [ 単位 kg] 度数相対度数累積度数累積相対度数 1 未満.. 1 以上 2 未満 1.5 1.5 2 以上 3 未満 5.25 6.3 3 以上 4 未満 8.4 14.7 4 以上 5 未満 5.25 19.95 5 以上 6 未満 1.5 2 1. 合計 2 1. 連続データの度数分布の棒グラフをヒストグラム (histogram) という ヒストグラムや累積度数グラフを作る際の注意 連続データの場合, 隣の棒との隙間を開けない 連続データの場合, 累積度数は階級の境目に点を打つ
女性の体重のヒストグラムと累積度数 度数の目盛 2 16 12 8 4 度数の目盛 2 を相対度数の目盛 1(1%) に合わせる 相対度数の目盛 1.8.6.4.2 1 2 3 4 5 6 7 単峰性 左右対称 35[kg] あたりが中心 度数 累積度数 [kg] 累積相対度数と下の目盛で 4kg 未満の人で全体の 7% を占めてること等が分かる
表 2.3.5 の男性の体重の度数分布表 階級 [ 単位 kg] 度数 相対度数累積度数 累積相対度数 2 未満.. 2 以上 3 未満 1.5 1.5 3 以上 4 未満 2.1 3.15 4 以上 5 未満 4.2 7.35 5 以上 6 未満 8.4 15.75 6 以上 7 未満 5.25 2 1. 合計 2 1.
男性の体重のヒストグラムと累積度数 度数の目盛 2 16 12 8 4 度数の目盛 2 を相対度数の目盛 1(1%) に合わせる 相対度数の目盛 1.8.6.4.2 1 2 3 4 5 6 7 8 単峰性 左の裾が長い 65[kg] あたりの頻度が高い 度数 累積度数 [kg] 累積相対度数と下の目盛でどの値までが全体の何 % になるか分かる
表 2.3.7 の 5m 走の度数分布表 階級 [ 単位 : 秒 ] 度数 相対度数累積度数 累積相対度数 7 未満.. 7 以上 8 未満 2.1 2.1 8 以上 9 未満 36.198 38.199 9 以上 1 未満 772.498 18.697 1 以上 11 未満 384.248 1464.945 11 以上 12 未満 72.46 1536.992 12 以上 13 未満 8.5 1544.997 13 以上 14 未満 3.2 1547.999 14 以上 15 未満 2.1 1549 1. 合計 1549 1.
度数の目盛 1549 14 12 1 8 6 4 2 図 2.3.11 5m 走のヒストグラムと累積度数 上位 2% の記録は 9 秒を切っている 度数の目盛 1549 を相対度数の目盛 1(1%) に合わせる 6 7 8 9 1 11 12 13 14 15 16 [ 秒 ] 度数 累積度数 相対度数の目盛 1.95 11 秒より遅い人は 5% に過ぎない.9.8.7.6.5.4.3.2.1
階級幅が等しくない時 表 2.3.6 小遣いの度数分布表 階級 [ 円 ] 階級幅 [ 円 ] 度数 以上 2 未満 2 5 2 以上 4 未満 2 15 4 以上 6 未満 2 25 6 以上 8 未満 2 7 8 以上 1 未満 2 5 1 以上 2 未満 1 1 階級 階級幅 度数 1 以上 12 未満 2 2 12 以上 14 未満 2 2 14 以上 16 未満 2 2 16 以上 18 未満 2 2 18 以上 2 未満 2 2 階級幅を揃えて度数を等分する
図 2.3.1 度数の目盛 67 6.9 5.8.7 4.6 3.5.4 2.3 1.2.1 度数の目盛 67 を相対度数の目盛 1(1%) に合わせる -2 2 4 6 8 1 12 14 16 18 2 22 度数累積度数 相対度数の目盛 1 [ 円 ]