<4D F736F F F696E74202D B835E82CC8EED97DE B835E82CC834F BB F0955C82B793C190AB926C>

統計の種類統計学データの種類データのグラフ化中心を表す特性値記述統計母集団 ( 調査対象の集団 ) をすべて調査できその調査結果に基づきデータをまとめる統計推測統計母集団 ( 調査対象の集団 ) をすべて調査できないが一部のデータから母集団の状況を推測する統計外れ値データの中には他の観測値に比べて著しく離れた値が含まれている場合があります ( 入力ミスではなく ) このような値のことを外れ値といいます外れ値は測定の誤り測定対象の異常記録時のミスなどによって起こりデータ解析の結果に影響を与える場合もあります欠損値またデータの中には観測対象により一部のデータが取れない場合がありますこのような値のことを欠損値といいます欠損値は単純に除いて分析を行うこともありますが推測統計においては単純に除くことは注意が必要です統計データイリスセトーサ (A 群 ) イリスヴェルシコロール (B 群 ) イリスヴィルジニカ (C 群 ) がくのがくの花弁の花弁のがくのがくの花弁の花弁のがくのがくの花弁の花弁の長さ幅長さ幅長さ幅長さ幅長さ幅長さ幅 5.1 3.5 1.4 0.2 7.0 3.2 4.7 1.4 6.3 3.3 6.0 2.5 4.9 3.0 1.4 0.2 6.4 3.2 4.5 1.5 5.8 2.7 5.1 1.9 4.7 3.2 1.3 0.2-3.1 4.9 1.5 7.1 3.0 5.9 2.1 4.6 3.1 1.5 0.2 5.5 2.3 4.0 1.3 6.3 2.9 5.6 1.8 5.0 3.6 1.4 0.2 6.5 2.8 4.6 1.5 6.5 3.0 5.8 2.2 5.4 3.9 1.7 0.4 5.7 2.8 4.5 1.3 7.6 3.0 6.6 2.1 4.6 3.4 1.4 0.3 6.3 3.3 4.7 1.6 4.9 2.5 4.5 1.7 5.0 3.4 1.5 0.2 4.9 2.4 3.3 1.0 7.3 2.9 6.3 1.8 4.4 2.9 1.4 0.2 6.6 2.9 4.6 1.3 6.7 2.5 5.8 1.8 4.9 3.1 1.5 0.1 5.2 2.7 3.9 1.4 7.2 3.6 6.1 2.5 5.4 3.7 1.5 0.2 5.0 2.0 3.5-6.5 3.2 5.1 2.0 4.8 3.4 1.6 0.2 5.9 3.0 4.2 1.5 6.4 2.7 5.3 1.9 4.8 3.0-0.1 6.0 2.2 4.0 1.0 6.8 3.0 5.5 2.1 4.3 3.0 1.1 0.1 6.1 2.9 4.7 1.4 5.7 2.5 5.0 2.0 5.8 4.0 1.2 0.2 5.6 2.9 1.2 1.3 5.8 2.8 5.1 2.4 5.7 4.4 1.5 0.4 6.7 3.1 4.4 1.4 6.4 3.2 5.3 2.3 5.4 3.9 1.3 0.4 5.6 3.0 4.5 1.5 6.5 3.0 5.5 1.8 標本 ( データ ) の種類質的データ量的データ名義尺度順序尺度間隔尺度比尺度 1

名義尺度性別や所属などを表すデータまたそれらに数値を対応させる場合もある A さん B さん C さん D さん E さん数値で表された名義尺度の場合数値間の演算や差には何の意味もありません! 単純の 2 つのデータが等しい (=) か等しくない ( ) という情報しか得られません男女男男女 2 1 2 2 1 順序尺度好感度や好きな食べ物の順番など順位がつけられているデータデータ間の順序性 (<,>) があるためデータ値の順にデータを並び変えたりできます < 例 > 次の食べ物の中で好きな順に順位をつけて下さいりんごいちごみかんブルーベリー Aさん :1. ブルーベリー 2. いちご 3. りんご 4. みかん間隔尺度順序性だけではなく数値自身が意味を持ち数値の間隔が等しくはないデータ統計の本に最も良く現れるデータ数値の加減法 ( 足す引く ) ができその数値に意味があるデータ < 例 > 気温昨日の気温は 15 で今日の気温は 19 です今日の気温は昨日の気温より 4 (= 19-15 ) 暖かい比尺度データの数値同士を掛けたり割ったりしても意味のあるデータこのデータは足したり引いたりしても意味のある数値が得られる同一性順序性加法性等比性 (=, ) (<,>) (+,-) (, ) 名義尺度質的データ順序尺度間隔尺度量的データ比尺度間隔尺度と比尺度間隔尺度のデータと比尺度のデータはどちらも数値であり等比性の有無だけが異なるより分かりやすい見分け方は各データにおける 0( 零ゼロ ) の意味を考えるとよい間隔尺度の 0 は基準としての 0 であり比尺度の 0 は無としての 0 である 2

データの種類によって使える集計法は異なります 2 つの変数間の関係質的データ名義尺度度数分布表最頻値質的データクロス集計 ( 棒グラフ ) 順序尺度度数分布表最頻値中央値量的データ間隔尺度比尺度度数分布表最頻値中央値平均標準偏差分散など量的データ相関係数散布図 ( 棒グラフ ) 棒グラフ ( 名義尺度 ) データのグラフ化新車販売台数 ( 平成 25 年 7 月 ) 新車販売台数 ( 平成 25 年 7 月 ) 160,000 140,000 120,000 新車販売台数 100,000 80,000 60,000 40,000 S/ 標準 20,000 0 M/ 標準メーカー昇順や降順に並び替えるとグラフは見やすくなる 3

棒グラフ ( 順序尺度 ) 棒グラフ ( 経時データ ) 順序尺度の場合昇順降順に並べる必要はない折れ線グラフ ( 経時データ ) 円グラフドーナツグラフ帯グラフ 4

学食でよく食べる昼食ラーメン系カレーライスうどんそばパスタ系洋食系学食でよく食べる昼食ラーメン系カレーライスうどんそばパスタ系洋食系女性 (100 人 ) 25.4% 20.1% 28.4% 14.9% 11.2% 女性 (100 人 ) 34 27 38 20 15 ラーメン系は女性男性で同人数くらいの人が食べているうどんそばは男性よりも女性の方が多くの人が食べている男性の 2 倍の女性がパスタ系を食べているラーメン系は女性男性で同人数くらいの人が食べているうどんそばは男性よりも女性の方が多くの人が食べている男性の 2 倍の女性がパスタ系を食べている男性 (262 人 ) 25.8% 23.6% 17.3% 7.4% 25.8% 男性 (262 人 ) 70 64 47 20 70 幹葉図ヒストグラム (1) 51.5, 51.5, 51.6, 51.7, 51.9 という 5 個のデータをまとめたこの数字を棒状に塗りつぶしたものがヒストグラムであるヒストグラム (2) ヒストグラム (3) 区間幅によってデータ傾向の印象が異なることが分かるスタージェスの式このデータではスタージェスの式に依る区間幅は 7.7mm である 5

ヒストグラム = 棒グラフ? 箱ひげ図後述するデータの縮約値を用いた図である階級を割り当てる度数を割り当てる縦軸横軸に何を割り当てても良いデータの分布を知る棒の高さで互いの量を比較する数種類のデータをグラフ化バブルチャート散布図相関図レーダーチャート星座グラフ (4 次元データ ) iris data 0 1-1 0 1 (http://aoki2.si.gunma u.ac.jp/r/constellation.html 参照 ) 6

顔グラフ (18 次元データ ) まとめデータを視覚的に分かり易くするものとして統計グラフがあるデータの種類によって使用するグラフを選ぶ必要がある (http://aoki2.si.gunma u.ac.jp/r/face.html 参照 ) グラフの描き方によりデータ傾向の印象が異なる場合もあるため注意しながら使用する必要がある母集団分布中心を表す特性値 ( 記述統計 ) 母集団に含まれている調査対象の興味ある値を観測してデータを得ますがそれらの分布状況を母集団分布といいます母集団全体を調査し表やグラフにまとめると母集団分布の特徴が視覚的に分かりやすくなりますこの母集団分布を知ることが統計を使う目的です 60 人の新生児体重母数データ区間頻度累積 % -2000 0 0.00% 14 2001-2250 2 3.33% 12 2251-2500 2 6.67% 10 2501-2750 8 20.00% 2751-3000 11 38.33% 8 3001-3250 10 55.00% 6 3251-3500 13 76.67% 4 3501-3750 5 85.00% 2 3751-4000 3 90.00% 0 4001-4250 4 96.67% 4251-4500 1 98.33% 4501-4750 1 100.00% 4751-0 100.00% 母集団分布の特徴を表す特性値のことを一般には母数と呼びますこの中には数種類の特性値があり代表的なものは中心的傾向を表すものと散らばり傾向を表すものです授業では扱いませんが対称性やとがり具合を表す特性値も存在します ( 教科書 32 ~34ページ ) 7

60 人の新生児体重データ区間頻度累積 % -2000 0 0.00% 平均は3179.2gになる 14 2001-2250 2 3.33% 12 2251-2500 2 6.67% 10 2501-2750 8 20.00% 2751-3000 11 38.33% 8 3001-3250 10 55.00% 6 3251-3500 13 76.67% 4 3501-3750 5 85.00% 2 3751-4000 3 90.00% 0 4001-4250 4 96.67% 4251-4500 1 98.33% 4501-4750 1 100.00% 4751-0 100.00% 中心的傾向を表す特性値いま母集団からデータが得られているとする平均 ( 算術平均 ) 世の中で最もよく使われている特性値である 60 人の新生児体重 60 人の新生児体重 ( 単位変換 ) 470-450 -80-470 280-160 -480 350 610 430 20 320-210 50 620 260 320 800-360 360 320 1100-280 1050 850 380 40-290 1150 200 1120-220 220-220 -510-50 -420-980 10-990 -200 760 1480-10 700-40 -680 60 200 380 100-160 -10 100 530 270-400 640 300 1570 変換後の平均を定数として全データを平均の短所平均は 60 点ですが分布状況は二峰ですこのようなデータに対する平均はデータの中心を表しているとは言い難く多峰性のあるデータに平均を使用するのは注意が必要ですと変換したときこれらの平均は 300 250 英語の得点分布 200 頻度 150 100 50 もとの平均を倍してを加えればよい 0 0 10 11 20 21 30 31 40 41 50 51 60 61 70 71 80 81 90 91 100 データ区間 8

表にまとめられた平均 (p.25) 中心的傾向を表す特性値中央値 ( メディアン ) データを大きさの順に並べ中央に位置するデータの値データ数が偶数個の場合は中央に位置する二つのデータの平均とする少年 :1, 1,, 1 (171 人 ) 2,2,,2 (81 人 ) 3,3,,3 (46 人 ) 4,4,,4 (37 人 ) 5,5,,5 (25 人 ) という 360 個のデータの平均であるのでデータが平均を中心として左右対称でないとき有効である 60 人の新生児体重平均 : 中央値 : データを大きさの順に並べると 2010 < 2020 < < 3100 < 3200 < < 4480 < 4570 1 番目 30 番目 31 番目 60 番目平成 26 年年収データ階級代表値パーセント月額 20 18 100 万円以下 50 8.78 30,304 16 100 万円台 150 15.17 90,910 14 200 万円台 250 16.88 151,516 12 300 万円台 350 17.33 212,122 10 400 万円台 450 13.95 272,728 8 6 500 万円台 550 9.47 333,334 4 600 万円台 650 5.90 393,940 2 700 万円台 750 3.99 454,546 0 800 万円台 850 2.63 515,152 900 万円台 950 1.73 575,758 1000~1500 万円台 1250 3.12 757,576 1500~2000 万円台 1750 0.64 1,060,607 2000~2500 万円台 2150 0.20 1,303,031 2500 万円超 3000 0.23 1,818,182 中央値平均平均 :413.3 万円 ( 月額約 25 万円 ) 中央値 :302.9 万円 ( 月額約 18.4 万円 ) であるので中央値は調和平均平均の速さや並列に接続された全抵抗のなど 120km 120km 40km/h 120km/h 3h 1h 平均の速さ :(40km/h+120km/h) 2=80km/h 平均の速さ :(120km+120km) (3h+1h)=60km/h 平均の速さ : 相乗平均売上高売上高の伸び率 1 月 180,000 2 月 270,000 50.0% 150.0% 3 月 370,000 37.0% 137.0% 4 月 380,000 2.7% 102.7% 算術平均 29.9% 相乗平均 128.3% 29.9% ずつ売上高がのびた場合 28.3% ずつ売上高がのびた場合売上高売上高の伸び率売上高売上高の伸び率 1 月 180,000 1 月 180,000 2 月 233,820 29.9% 2 月 230,940 28.3% 3 月 303,732 29.9% 3 月 296,296 28.3% 4 月 394,548 29.9% 4 月 380,148 28.3% このような前月比の割合の平均には相乗平均が有効です 9

最頻値 ( モード ) データの中でもっとも頻繁に出現しているデータの値 α% トリム平均データを大きさの順に並べ大きい方からと小さい方から [α 100 ( データ数 ) 2] 個のデータを除いて残ったデータの平均値最頻値トリム平均最頻値 :3320g は 3 人いて一番多く出現しているのでこれが最頻値 10% トリムド平均 : [10 100 60 2] 個 =3 個つまりデータを大きさの順に並べ大きい方と小さい方から 3 個ずつデータを除いた 54(=60-6) 個のデータの平均値 2010<2020<2320<2490< <3100<3200< <4120<4150<4480<4570 1 番目 3 番目 30 番目 31 番目 58 番目 60 番目 60 人の新生児体重ある医院で1ヶ月間に生まれた新生児の体重を調査した (g) 4120 2780 3220 2780 2490 2950 2580 1500 3010 1050 いまあるデータが 2 個変わりましたそれに伴い平均 : 3179.2g 3154.5g 中央値 : 3150g 3150g 最頻値 : 3320g 3320g 10% トリム平均 : 3170.4g 3170.4g と変化しました中心的傾向を表す特性値平均は極端に大きい値のデータや極端に小さい値のデータに影響を受けやすいが中央値トリム平均値はこれらの影響を受けにくい母集団分布が平均を中心として左右対称である場合これら平均中央値トリム平均値は同じくらいの値を示す母集団分布が平均を中心として左右対称でない場合平均は中央値トリム平均値に比べ少し大きめまたは小さめの値になる演習 A さん所属している総務課の人たちの通勤時間を調べたところ次のようであった総務課の通勤時間の平均中央値トリム平均 ( 大きい 2 つのデータと小さい 2 つのデータを除いた 6 個平均 ) を求めよ 10, 65, 45, 95, 80, 120, 40, 30, 85, 80 ( 分 ) 10