統計の種類 統計学 データの種類データのグラフ化中心を表す特性値 記述統計母集団 ( 調査対象の集団 ) をすべて調査でき その調査結果に基づき データをまとめる統計 推測統計母集団 ( 調査対象の集団 ) をすべて調査できないが 一部のデータから母集団の状況を推測する統計 外れ値 データの中には 他の観測値に比べて著しく離れた値が含まれている場合があります ( 入力ミスではなく ) このような値のことを外れ値といいます 外れ値は測定の誤り 測定対象の異常 記録時のミスなどによって起こり データ解析の結果に影響を与える場合もあります 欠損値 またデータの中には 観測対象により一部のデータが取れない場合があります このような値のことを欠損値といいます 欠損値は単純に除いて分析を行うこともありますが 推測統計においては単純に除くことは注意が必要です 統計データ イリス セトーサ (A 群 ) イリス ヴェルシコロール (B 群 ) イリス ヴィルジニカ (C 群 ) がくの がくの 花弁の 花弁の がくの がくの 花弁の 花弁の がくの がくの 花弁の 花弁の 長さ 幅 長さ 幅 長さ 幅 長さ 幅 長さ 幅 長さ 幅 5.1 3.5 1.4 0.2 7.0 3.2 4.7 1.4 6.3 3.3 6.0 2.5 4.9 3.0 1.4 0.2 6.4 3.2 4.5 1.5 5.8 2.7 5.1 1.9 4.7 3.2 1.3 0.2-3.1 4.9 1.5 7.1 3.0 5.9 2.1 4.6 3.1 1.5 0.2 5.5 2.3 4.0 1.3 6.3 2.9 5.6 1.8 5.0 3.6 1.4 0.2 6.5 2.8 4.6 1.5 6.5 3.0 5.8 2.2 5.4 3.9 1.7 0.4 5.7 2.8 4.5 1.3 7.6 3.0 6.6 2.1 4.6 3.4 1.4 0.3 6.3 3.3 4.7 1.6 4.9 2.5 4.5 1.7 5.0 3.4 1.5 0.2 4.9 2.4 3.3 1.0 7.3 2.9 6.3 1.8 4.4 2.9 1.4 0.2 6.6 2.9 4.6 1.3 6.7 2.5 5.8 1.8 4.9 3.1 1.5 0.1 5.2 2.7 3.9 1.4 7.2 3.6 6.1 2.5 5.4 3.7 1.5 0.2 5.0 2.0 3.5-6.5 3.2 5.1 2.0 4.8 3.4 1.6 0.2 5.9 3.0 4.2 1.5 6.4 2.7 5.3 1.9 4.8 3.0-0.1 6.0 2.2 4.0 1.0 6.8 3.0 5.5 2.1 4.3 3.0 1.1 0.1 6.1 2.9 4.7 1.4 5.7 2.5 5.0 2.0 5.8 4.0 1.2 0.2 5.6 2.9 1.2 1.3 5.8 2.8 5.1 2.4 5.7 4.4 1.5 0.4 6.7 3.1 4.4 1.4 6.4 3.2 5.3 2.3 5.4 3.9 1.3 0.4 5.6 3.0 4.5 1.5 6.5 3.0 5.5 1.8 標本 ( データ ) の種類 質的データ 量的データ 名義尺度 順序尺度間隔尺度 比尺度 1
名義尺度 性別や所属などを表すデータ また それらに数値を対応させる場合もある A さん B さん C さん D さん E さん 数値で表された名義尺度の場合 数値間の演算や差には何の意味もありません! 単純の 2 つのデータが等しい (=) か等しくない ( ) という情報しか得られません 男 女 男 男 女 2 1 2 2 1 順序尺度 好感度や好きな食べ物の順番など順位がつけられているデータ データ間の順序性 (<,>) があるため データ値の順にデータを並び変えたりできます < 例 > 次の食べ物の中で好きな順に順位をつけて下さい りんご いちご みかん ブルーベリー Aさん :1. ブルーベリー 2. いちご 3. りんご 4. みかん 間隔尺度 順序性だけではなく数値自身が意味を持ち 数値の間隔が等しくはないデータ 統計の本に最も良く現れるデータ 数値の加減法 ( 足す 引く ) ができ その数値に意味があるデータ < 例 > 気温昨日の気温は 15 で 今日の気温は 19 です 今日の気温は昨日の気温より 4 (= 19-15 ) 暖かい 比尺度 データの数値同士を掛けたり 割ったりしても意味のあるデータ このデータは 足したり引いたりしても意味のある数値が得られる 同一性 順序性 加法性 等比性 (=, ) (<,>) (+,-) (, ) 名義尺度 質的データ順序尺度 間隔尺度 量的データ比尺度 間隔尺度と比尺度 間隔尺度のデータと比尺度のデータはどちらも数値であり 等比性の有無だけが異なる より分かりやすい見分け方は 各データにおける 0( 零 ゼロ ) の意味を考えるとよい 間隔尺度の 0 は 基準としての 0 であり 比尺度の 0 は 無としての 0 である 2
データの種類によって 使える集計法は異なります 2 つの変数間の関係 質的データ 名義尺度 度数分布表 最頻値 質的データ クロス集計 ( 棒グラフ ) 順序尺度 度数分布表 最頻値 中央値 量的データ 間隔尺度 比尺度 度数分布表 最頻値 中央値 平均 標準偏差 分散など 量的データ 相関係数 散布図 ( 棒グラフ ) 棒グラフ ( 名義尺度 ) データのグラフ化 新車販売台数 ( 平成 25 年 7 月 ) 新車販売台数 ( 平成 25 年 7 月 ) 160,000 140,000 120,000 新車販売台数 100,000 80,000 60,000 40,000 S/ 標準 20,000 0 M/ 標準 メーカー 昇順や降順に並び替えると グラフは見やすくなる 3
棒グラフ ( 順序尺度 ) 棒グラフ ( 経時データ ) 順序尺度の場合 昇順 降順に並べる必要はない 折れ線グラフ ( 経時データ ) 円グラフ ドーナツグラフ 帯グラフ 4
学食でよく食べる昼食 ラーメン系カレーライスうどん そばパスタ系洋食系 学食でよく食べる昼食 ラーメン系カレーライスうどん そばパスタ系洋食系 女性 (100 人 ) 25.4% 20.1% 28.4% 14.9% 11.2% 女性 (100 人 ) 34 27 38 20 15 ラーメン系は女性 男性で同人数くらいの人が食べているうどん そばは男性よりも女性の方が多くの人が食べている男性の 2 倍の女性がパスタ系を食べている ラーメン系は女性 男性で同人数くらいの人が食べているうどん そばは男性よりも女性の方が多くの人が食べている男性の 2 倍の女性がパスタ系を食べている 男性 (262 人 ) 25.8% 23.6% 17.3% 7.4% 25.8% 男性 (262 人 ) 70 64 47 20 70 幹葉図 ヒストグラム (1) 51.5, 51.5, 51.6, 51.7, 51.9 という 5 個のデータをまとめた この数字を棒状に塗りつぶしたものがヒストグラムである ヒストグラム (2) ヒストグラム (3) 区間幅によって データ傾向の印象が異なることが分かる スタージェスの式 このデータではスタージェスの式に依る区間幅は 7.7mm である 5
ヒストグラム = 棒グラフ? 箱ひげ図 後述するデータの縮約値を用いた図である 階級を割り当てる 度数を割り当てる 縦軸 横軸に何を割り当てても良い データの分布を知る 棒の高さで互いの量を比較する 数種類のデータをグラフ化 バブルチャート 散布図 相関図 レーダーチャート星座グラフ (4 次元データ ) iris data 0 1-1 0 1 (http://aoki2.si.gunma u.ac.jp/r/constellation.html 参照 ) 6
顔グラフ (18 次元データ ) まとめ データを視覚的に分かり易くするものとして統計グラフがある データの種類によって 使用するグラフを選ぶ必要がある (http://aoki2.si.gunma u.ac.jp/r/face.html 参照 ) グラフの描き方により データ傾向の印象が異なる場合もあるため 注意しながら使用する必要がある 母集団分布 中心を表す特性値 ( 記述統計 ) 母集団に含まれている調査対象の興味ある値を観測してデータを得ますが それらの分布状況を母集団分布といいます 母集団全体を調査し 表やグラフにまとめると母集団分布の特徴が視覚的に分かりやすくなります この母集団分布を知ることが統計を使う目的です 60 人の新生児体重 母 数 データ区間 頻度 累積 % -2000 0 0.00% 14 2001-2250 2 3.33% 12 2251-2500 2 6.67% 10 2501-2750 8 20.00% 2751-3000 11 38.33% 8 3001-3250 10 55.00% 6 3251-3500 13 76.67% 4 3501-3750 5 85.00% 2 3751-4000 3 90.00% 0 4001-4250 4 96.67% 4251-4500 1 98.33% 4501-4750 1 100.00% 4751-0 100.00% 母集団分布の特徴を表す特性値のことを一般には母数と呼びます この中には数種類の特性値があり 代表的なものは中心的傾向を表すものと散らばり傾向を表すものです 授業では扱いませんが 対称性 や とがり具合 を表す特性値も存在します ( 教科書 32 ~34ページ ) 7
60 人の新生児体重 データ区間頻度累積 % -2000 0 0.00% 平均は3179.2gになる 14 2001-2250 2 3.33% 12 2251-2500 2 6.67% 10 2501-2750 8 20.00% 2751-3000 11 38.33% 8 3001-3250 10 55.00% 6 3251-3500 13 76.67% 4 3501-3750 5 85.00% 2 3751-4000 3 90.00% 0 4001-4250 4 96.67% 4251-4500 1 98.33% 4501-4750 1 100.00% 4751-0 100.00% 中心的傾向を表す特性値 いま 母集団からデータが得られているとする 平均 ( 算術平均 ) 世の中で最もよく使われている特性値である 60 人の新生児体重 60 人の新生児体重 ( 単位変換 ) 470-450 -80-470 280-160 -480 350 610 430 20 320-210 50 620 260 320 800-360 360 320 1100-280 1050 850 380 40-290 1150 200 1120-220 220-220 -510-50 -420-980 10-990 -200 760 1480-10 700-40 -680 60 200 380 100-160 -10 100 530 270-400 640 300 1570 変換後の平均 を定数として全データを 平均の短所 平均は 60 点ですが 分布状況は二峰です このようなデータに対する平均はデータの中心を表しているとは言い難く 多峰性のあるデータに平均を使用するのは注意が必要です と変換したとき これらの平均は 300 250 英語の得点分布 200 頻度 150 100 50 もとの平均を倍してを加えればよい 0 0 10 11 20 21 30 31 40 41 50 51 60 61 70 71 80 81 90 91 100 データ区間 8
表にまとめられた平均 (p.25) 中心的傾向を表す特性値 中央値 ( メディアン ) データを大きさの順に並べ 中央に位置するデータの値 データ数が偶数個の場合は 中央に位置する二つのデータの平均とする 少年 :1, 1,, 1 (171 人 ) 2,2,,2 (81 人 ) 3,3,,3 (46 人 ) 4,4,,4 (37 人 ) 5,5,,5 (25 人 ) という 360 個のデータの平均であるので データが平均を中心として左右対称でないとき 有効である 60 人の新生児体重 平均 : 中央値 : データを大きさの順に並べると 2010 < 2020 < < 3100 < 3200 < < 4480 < 4570 1 番目 30 番目 31 番目 60 番目 平成 26 年年収データ 階級 代表値パーセント 月額 20 18 100 万円以下 50 8.78 30,304 16 100 万円台 150 15.17 90,910 14 200 万円台 250 16.88 151,516 12 300 万円台 350 17.33 212,122 10 400 万円台 450 13.95 272,728 8 6 500 万円台 550 9.47 333,334 4 600 万円台 650 5.90 393,940 2 700 万円台 750 3.99 454,546 0 800 万円台 850 2.63 515,152 900 万円台 950 1.73 575,758 1000~1500 万円台 1250 3.12 757,576 1500~2000 万円台 1750 0.64 1,060,607 2000~2500 万円台 2150 0.20 1,303,031 2500 万円超 3000 0.23 1,818,182 中央値平均 平均 :413.3 万円 ( 月額約 25 万円 ) 中央値 :302.9 万円 ( 月額約 18.4 万円 ) であるので 中央値は 調和平均 平均の速さや並列に接続された全抵抗のなど 120km 120km 40km/h 120km/h 3h 1h 平均の速さ :(40km/h+120km/h) 2=80km/h 平均の速さ :(120km+120km) (3h+1h)=60km/h 平均の速さ : 相乗平均 売上高 売上高の伸び率 1 月 180,000 2 月 270,000 50.0% 150.0% 3 月 370,000 37.0% 137.0% 4 月 380,000 2.7% 102.7% 算術平均 29.9% 相乗平均 128.3% 29.9% ずつ売上高がのびた場合 28.3% ずつ売上高がのびた場合 売上高 売上高の伸び率 売上高 売上高の伸び率 1 月 180,000 1 月 180,000 2 月 233,820 29.9% 2 月 230,940 28.3% 3 月 303,732 29.9% 3 月 296,296 28.3% 4 月 394,548 29.9% 4 月 380,148 28.3% このような前月比の割合の平均には 相乗平均が有効です 9
最頻値 ( モード ) データの中でもっとも頻繁に出現しているデータの値 α% トリム平均データを大きさの順に並べ 大きい方からと小さい方から [α 100 ( データ数 ) 2] 個のデータを除いて残ったデータの平均値 最頻値 トリム平均 最頻値 :3320g は 3 人いて一番多く出現しているので これが最頻値 10% トリムド平均 : [10 100 60 2] 個 =3 個 つまりデータを大きさの順に並べ 大きい方と小さい方から 3 個ずつデータを除いた 54(=60-6) 個のデータの平均値 2010<2020<2320<2490< <3100<3200< <4120<4150<4480<4570 1 番目 3 番目 30 番目 31 番目 58 番目 60 番目 60 人の新生児体重 ある医院で1ヶ月間に生まれた新生児の体重を調査した (g) 4120 2780 3220 2780 2490 2950 2580 1500 3010 1050 いま あるデータが 2 個変わりました それに伴い 平均 : 3179.2g 3154.5g 中央値 : 3150g 3150g 最頻値 : 3320g 3320g 10% トリム平均 : 3170.4g 3170.4g と変化しました 中心的傾向を表す特性値 平均は極端に大きい値のデータや極端に小さい値のデータに影響を受けやすいが 中央値 トリム平均値はこれらの影響を受けにくい 母集団分布が平均を中心として左右対称である場合 これら平均 中央値 トリム平均値は同じくらいの値を示す 母集団分布が平均を中心として左右対称でない場合 平均は中央値 トリム平均値に比べ少し大きめまたは小さめの値になる 演 習 A さん所属している総務課の人たちの通勤時間を調べたところ次のようであった 総務課の通勤時間の平均 中央値 トリム平均 ( 大きい 2 つのデータと小さい 2 つのデータを除いた 6 個平均 ) を求めよ 10, 65, 45, 95, 80, 120, 40, 30, 85, 80 ( 分 ) 10