度数分布とヒストグラム データとは 複雑な確率ゲームから生まれたと考えてよい データ分析の第一歩として データの持つ基本的特性を把握することが重要である
分析の流れ データの分布 ( 散らばり ) を 度数分布表にまとめ グラフ化する グラフに 平均値や分散など 分布の特徴を示す客観的な数値を加える データが母集団からのランダムサンプルならば 母集団についての推測を行う
度数分布とヒストグラムの作成 データを昇 ( 降 ) 順に並べ替える 階級を設定し 各階級に属するデータの個数をカウントする 各階級の相対度数 累積度数 及び 累積相対度数を計算する 度数分布表をもとに ヒストグラムを作成する 3
もとのデータと並べ替え もとのデータを x x, x, x,,, 3 4 x n とする それを昇順に並べ替えたものを x, x, x, x,, x ( ) () (3) (4) ( n) であらわす データが与えられたら, それを昇順に並べ替えると都合がよい. 43,0,8,38,3,33,9,9,,6,4,53,5,65, 9,37,36,43,33,57 9,,8,0,5,6,9, 3,33,33,36,37,38,4,43,43,53,57,65,9 4
エクセルを用いた並べ替え 昇順 降順 5
女子学生の身長の例 並べ替えにより 最大値 最小値 メディアン ( 中位数 ) が分かる 最大値 最小値 7 50 メディアン x (5) x (6) 58 6
身長の度数分布表を完成させよう 級の区間代表値度数累積度数相対度数累積相対度数 49.5-5.5 5 5.5-55.5 54 55.5-58.5 57 58.5-6.5 60 6.5-64.5 63 64.5-67.5 66 67.5-70.5 69 70.5-73.5 7 合計 5 3 9 5 0 3 4 50 5 8 7 3 4 45 49 50 7
身長の度数分布表を完成させよう 級の区間代表値度数累積度数相対度数累積相対度数 49.5-5.5 5 5 5 5.5-55.5 54 3 8 55.5-58.5 57 9 7 58.5-6.5 60 5 3 6.5-64.5 63 0 4 64.5-67.5 66 3 45 67.5-70.5 69 4 49 70.5-73.5 7 50 合計 50 550 350 0. 0.6 7 50 0.54 8
身長の度数分布表を完成させよう 級の区間代表値度数累積度数相対度数累積相対度数 49.5-5.5 5 5 5 0.0 0.0 5.5-55.5 54 3 8 0.6 0.36 55.5-58.5 57 9 7 0.8 0.54 58.5-6.5 60 5 3 0.0 0.64 6.5-64.5 63 0 4 0.0 0.84 64.5-67.5 66 3 45 0.06 0.90 67.5-70.5 69 4 49 0.08 0.98 70.5-73.5 7 50 0.0.00 合計 50.00 9
練習〆次の表を完成させよ 表 3- サイコロを 00 回投げたときに出た目の度数分布表 合計 サイコロの目度数相対度数累積度数累積相対度数 0 8 3 0 4 4 5 6 7 注〆度数は各目が出る確率が等しいという条件で Excel の乱数の関数を用いて擬似的に発生させた 0
練習の解答 表 3- サイコロを 00 回投げたときに出た目の度数分布表 サイコロの目度数相対度数累積度数累積相対度数 0 0.0 0 0.0 8 0.8 38 0.38 3 0 0.0 48 0.48 4 4 0.4 6 0.6 5 0. 83 0.83 6 7 0.7 00.00 合計 00.00 - - 注〆度数は各目が出る確率が等しいという条件で Excel の乱数の関数を用いて擬似的に発生させた
グラフの作成 4 0 8 身長の度数 人数を見たいなら 6 4 0 0.30 0.5 0.0 身長の相対度数 0.5 0.0 0.05 割合を見たいなら 0.00
累積相対度数のグラフ 約 80% 0.9 0.8 累積相対度数のグラフ 64cm 以下の割合を知りたいなら 0.7 0.6 約 44% 0.5 0.4 0.3 0. 57cm 以下の割合を知りたいなら 0. 0 73.5 70.5 67.5 64.5 6.5 58.5 55.5 5.5 49.5 3
ヒストグラムを作るとき. 階級を決める. 各階級の度数をカウントする 3. 相対度数 累積度数 累積相対度数を計算する 4. グラフ化する階級を決めることは 意外に難しい ( 教科書に一般論はあるが グラフで何を示したいか を考えるとよい ) 4
年間収入の場合 経済データは 度数分布の形で提供される場合が多い 収入データは 他の経済データと同様に 高額データの取り扱いが難しい 身長データや試験の点数データでは さほど極端な値がないので 取り扱いが比較的楽である 5
006 年度年間収入 ( 農林漁家を除く全世帯 ) 年間収入階級階級値度数 ( 世帯数 ) 00 万円未満 57 39 00 万円以上 ~ 50 万円未満 5 368 50 ~ 300 75 537 300 ~ 350 33 79 350 ~ 400 373 880 々々々々々々々々々々々々々々々々 39 世帯の平均が 57 万円 階級幅が一定ではない 700 ~ 750 70 463 750 ~ 800 77 387 800 ~ 900 84 65 900 ~ 000 945 50 000 ~ 50,04 700 50 ~ 500,359 8 500 万円以上,985 334 合計 0,000 年収 500 万円超の世帯が数多く存在していることが分かる最高額は不明 6
階級幅の差を考慮せずにグラフ にすれば々々,000 900 度数 ( 世帯数 ) 800 700 600 500 400 300 00 00 0 階級幅が異なっている 7
x 00 57 x 4 最低収入が不明 表 3 4 の作成 / 年間収入以上未満 階級値 世帯数 階級幅 度数階級幅 50 x ~00 57 39 00~50 5 368 00 4 50 00 86 50 39 8650 39 368 5050 368 これをヒストグラムの棒の高さとする : 級幅の違いを考慮に入れてやる 階級幅が広いほど, 棒は低くなる 8
x 500 985 x 470 表 3 4 の作成 / 年間収入以上未満 階級値 世帯数 50~500 359 8 階級幅世帯数 階級幅 50= 棒の高さ 500 50 50 8 5050 56 x 500~ 985 334 470 500 970 334 97050 7 最高収入が不明 棒の面積と世帯数とが比例する 9
階級幅を変えてグラフ化すると 度数 ( 世帯数 ) 000 800 図 3-5 年間収入のヒストグラム 柱の面積が世帯数と比例する 600 400 00 0 00 3 5 400 7 9 600 3 800 5 7 000 9 3505 75009 3 33 35 37 39 年間収入 ( 万円 ) 表 3-4より作成 0
参考〆階級数と階級幅の決め方 階級数は データの数に応じて決める log n + に近い数で データの性質を加味して決める 階級の幅は 最初と最後を除いて 同じ幅にする 階級の端点は出来るだけ簡単な数字にする
累積相対度数分布とローレンツ曲線 累積相対度数の応用例として 格差を表すローレンツ曲線とジニ係数について学ぶ 000 年において 世界人口の貧しい方から 50% の収入は 世界全体の富の % に過ぎない ( 国連調査 ) といった表現を より充実させるものである
遺産相続の例 ( 分配 ) 相続者 相続額 長男 000 次男 800 3 男 600 4 男 400 左表では 明らかに 相続額が不平等である 最も平等な配分は? 最も不平等な配分は? 5 男 00 3
遺産相続の例 ( 分配 ) 並べ替えー貧しい方から金持ちへ 人数 金額 比率 累積比率 人数金額人数金額 4 男 400 3 男 600 5 0. 600 4000 0.5 次男 800 長男 000 5 男 00 Σ 5 4000 ーー 4
遺産相続の例 ( 分配 ) 人数 金額 比率 累積比率 人数金額人数金額 4 男 400 0. 0.0 3 男 600 0. 0.5 次男 800 0. 0.0 長男 000 0. 0.5 0. 0. 0.5 0.45 5 男 00 0. 0.30 Σ 5 4000.0.00 5
遺産相続の例 ( 分配 ) 人数 金額 比率 累積比率 人数金額人数金額 4 男 400 0. 0.0 0. 0.0 3 男 600 0. 0.5 0.4 0.5 次男 800 0. 0.0 0.6 0.45 長男 000 0. 0.5 0.8 0.70 5 男 00 0. 0.30.0.00 Σ 5 4000.0.00 ーー 6
ローレンツ曲線 遺産相続の例 ( 分配 ) 累積比率 人数 金額 金額の累積比率 図 3-7 遺産配分の例のローレンツ曲線 4 男 0. 0.0 0.8 3 男 0.4 0.5 0.6 次男 0.6 0.45 0.4 長男 0.8 0.70 5 男.0.00 0. Σ ーー 0 0 0. 0.4 0.6 0.8 人数の累積比率 7
遺産相続の例 ( 分配 ) 人数 金額 比率 累積比率 人数金額人数金額 金額の累積比率 図 3-8 つの分配方法のローレンツ曲線 4 男 3 男 600 0. 0.5 0. 0.5 700 0. 0.75 0.4 0.35 0.8 0.6 分配 分配 次男 800 0. 0.0 0.6 0.55 0.4 長男 5 男 900 0. 0.5 0.8 0.75 Σ 5 00 0 400 0 0. 0.5.0.00.0.00 ーー 0. 0 0 0. 0.4 0.6 0.8 人数の累積比率 8
P 4 p p p 3 p 4 P 3 p 4 遺産相続の例 ( 分配 ) ( 数式 ) 人数 金額 比率 累積比率 人数金額人数金額 4 男 600 0. 0.5 0. 0.5 3 男 700 0. 0.75 0.4 0.35 次男 800 0. 0.0 0.6 0.55 x 長男 900 0. 0.5 0.8 0.75 x 5 男 000 0. 0.5.0.00 n n x 3 Σ 5 5 x 5 5 i i 4000 p 5 n i i i.0.00 ーー i i 9 n 3 n 4 n 5 x 4 x 5 p p p 3 p 4 p 5 q q q 3 q 4 q 5 qi P P P 3 P 4 P 5 Q Q Q 3 Q 4 Q 5
遺産相続の例 ( 均等分布 ) 人数 金額 比率 累積比率 人数金額人数金額 金額の累積比率 図 3-8 つの分配方法のローレンツ曲線 4 男 800 0. 0. 0. 0. 3 男 800 0. 0. 0.4 0.4 0.8 0.6 分配 均等分布線 分配 次男 800 0. 0. 0.6 0.6 0.4 長男 800 0. 0. 0.8 0.8 5 男 800 0. 0..0.0 Σ 5 4000.0.00 ーー 0. 0 0 0. 0.4 0.6 0.8 人数の累積比率 30
ジニ係数とは? 右の図の 緑の線で囲まれた面積の 倍を ジニ係数と呼ぶ ジニ係数は 0 と の間の数で に近いとき不平等度が高くなります. 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0. 0. 0 3
ジニ係数とは? 0.9 0.8 右の線で囲まれた面積のことをジニ係数と呼ぶ 0.7 0.6 0.5 0.4 0.3 0. 0. 0 3 0 0. 0.4 0.6 0.8
ジニ係数〆実際の計算方法 人数 累積比率 金額 ジニ係数計算欄 4 男 0. 0.0 3 男 0.4 0.5 次男 0.6 0.45 長男 0.8 0.70 0. 0.5 0.00.4 0.4 0.45 0.50.6 0.6 0.70 0.450.8 0.0 0.03 0.06 5 男.0.00 0.8.0 0.7.0 0. ジニ係数 0. 33
ジニ係数の求め方 順位 累積人数比 累積金額比 P Q P Q Q 5 3 P 3 Q 3 Q 3 Q 4 4 P 4 Q 4 Q 5 5 P 5 Q P P P Q P3 P P4 P 3 P5 P 4 34
累積人数比 ジニ係数の求め方 ( 式 ) 累積金額比 三角形か台形の面積 ジニ係数は () P Q P Q P 3 Q 3 P 4 Q 4 P 5 Q 5 P Q (P P )(Q Q ) (P 3 P )(Q 3 Q ) (P 4 P 3 )(Q 4 Q 3 ) (P 5 P 4 )(Q 5 Q 4 ) () 0.8 0.6 0.4 0. 0 0 0. 0.4 0.6 0.8 35
36 ジニ係数の公式を求める )} )( ( ) )( ( ) )( ( ) )( ( { 5 4 4 5 4 3 3 4 3 3 Q Q P P Q Q P P Q Q P P Q Q P P PQ ジニ係数 )} { 5 4 4 4 5 5 4 5 4 3 3 3 4 4 3 4 3 3 3 3 P Q P Q P Q P Q P Q P Q P Q P Q P Q P Q PQ P Q PQ PQ P Q P Q PQ
ジニ係数の求め方 ( 公式 ) 累積人数比 累積金額比 三角形か楕円の面積 ( PQ ( P Q ( P Q 4 3 5 ジニ係数 P Q 3 5 PQ P Q ) 4 ) ) ( PQ 3 4 P Q 4 3 ) P Q P Q P 3 Q 3 P Q P Q P Q 3 P 3 Q P 4 Q 4 P 3 Q 4 P 4 Q 3 P 5 Q 5 P 4 Q 5 P 5 Q 4 ジニ係数 37
ジニ係数計算法の意味 累積比率 人数 金額 ジニ係数計算欄 4 男 0. 0.0 3 男 0.4 0.5 次男 0.6 0.45 0. 0.5 0.00.4 長男 0.8 0.70 5 男.0.00 ジニ係数 38
ジニ係数計算法の意味 累積比率 人数 金額 ジニ係数計算欄 4 男 0. 0.0 3 男 0.4 0.5 次男 0.6 0.45 長男 0.8 0.70 5 男.0.00 ジニ係数 0. 0.5 0.00.4 0.4 0.45 0.50.6 0.6 0.70 0.450.8 0.8.0 0.7.0 0. 39
ジニ係数計算法の意味 B B A x C B x A C ジニ係数 B A ( B C) ( AC) ジニ係数
表 世帯と年間収入の累積比率等 (006 年 農林漁家世帯を除く全世帯 ) 年間収入階級 階級値 度数 ( 世帯数 ) = 総収入 ( 階級値 度数 ) 比率 累積比率 世帯収入世帯収入 00 万円未満 57 39 37,53 0.039 0.0059 0.039 0.0059 00 万円以上 ~ 50 万円未満 5 368 = 8,800 0.0368 0.09 0.0607 0.088 50 ~ 300 75 537 47,675 0.0537 0.03 0.44 0.049 300 ~ 350 33 79 55,86 0.079 0.0400 0.936 0.089 350 ~ 400 373 880 38,40 0.0880 0.053 0.86 0.33 400 ~ 450 43 8 343,053 0.08 0.0536 0.367 0.868 450 ~ 500 473 707 334,4 0.0707 0.053 0.4334 0.39 500 ~ 550 5 700 365,400 0.0700 0.057 0.5034 0.96 550 ~ 600 57 53 303,73 0.053 0.0475 0.5565 0.3437 600 ~ 650 6 606 376,36 0.0606 0.0588 0.67 0.405 650 ~ 700 673 49 33,6 0.049 0.058 0.6663 0.4543 700 ~ 750 70 463 333,360 0.0463 0.05 0.76 0.5064 750 ~ 800 77 387 98,764 0.0387 0.0467 0.753 0.553 800 ~ 900 84 65 548,4 0.065 0.0857 0.864 0.6388 900 ~ 000 945 50 49,400 0.050 0.0768 0.8684 0.756 000 ~ 50,04 700 77,800 0.0700 0.08 0.9384 0.8364 50 ~ 500,359 8 383,38 0.08 0.0599 0.9666 0.8964 500 万円以上,985 334 66,990 0.0334 0.036.0000.0000 合計 0,000 6,396,786.0000.0000 4
ローレンツ曲線と均等分布線 年間収入階級 累積比率世帯収入 00 万円未満 0.039 0.0059 00 万円以上 ~ 50 万円未満 0.0607 0.088 50 ~ 300 0.44 0.049 300 ~ 350 0.936 0.089 350 ~ 400 0.86 0.33 400 ~ 450 0.367 0.868 450 ~ 500 0.4334 0.39 500 ~ 550 0.5034 0.96 550 ~ 600 0.5565 0.3437 600 ~ 650 0.67 0.405 650 ~ 700 0.6663 0.4543 700 ~ 750 0.76 0.5064 750 ~ 800 0.753 0.553 800 ~ 900 0.864 0.6388 900 ~ 000 0.8684 0.756 000 ~ 50 0.9384 0.8364 50 ~ 500 0.9666 0.8964 500 万円以上.0000.0000 合計 年間収入の累積比率 0.8 0.6 0.4 0. 0 図 3-9 年間収入のローレンツ曲線 ローレンツ曲線均等分布線 0 0. 0.4 0.6 0.8 表 3-7 より作成 世帯の累積比率 4
ジニ係数の計算 年間収入階級 世帯 累積比率 収入 ジニ係数計算欄 00 万円未満 0.039 0.0059 00 万円以上 ~ 50 万円未満 0.0607 0.088 0.000 50 ~ 300 0.44 0.049 0.0004 300 ~ 350 0.936 0.089 0.003 350 ~ 400 0.86 0.33 0.007 400 ~ 450 0.367 0.868 0.0043 450 ~ 500 0.4334 0.39 0.0058 500 ~ 550 0.5034 0.96 0.0080 550 ~ 600 0.5565 0.3437 0.008 600 ~ 650 0.67 0.405 0.09 650 ~ 700 0.6663 0.4543 0.0 700 ~ 750 0.76 0.5064 0.037 750 ~ 800 0.753 0.553 0.037 800 ~ 900 0.864 0.6388 0.084 900 ~ 000 0.8684 0.756 0.095 000 ~ 50 0.9384 0.8364 0.0548 50 ~ 500 0.9666 0.8964 0.036 500 万円以上.0000.0000 0.070 合計 0.977 計算不要 0.039 0.088-0.0059 0.0607 ジニ係数 43
遺産相続の例 ( 分配 ) 並べ替えー貧しい方から金持ちへ 人数 金額 比率 累積比率 人数金額人数金額 4 男 400 3 男 600 次男 800 長男 000 5 男 00 Σ 5 4000 ーー 44
遺産相続の例 金額の累積比率 図 3-7 遺産配分の例のローレンツ曲線 0.8 0.6 0.4 0. 0 0 0. 0.4 0.6 0.8 人数の累積比率 45
遺産相続の例 ( 分配 ) 人数 金額 比率 累積比率 人数金額人数金額 4 男 600 3 男 700 次男 800 長男 900 5 男 000 Σ 5 4000 46
遺産相続の例 ( 均等分布 ) 人数 金額 比率 累積比率 人数金額人数金額 4 男 800 3 男 800 次男 800 長男 800 5 男 800 Σ 5 4000 47
ジニ係数〆実際の計算方法 人数 累積比率 金額 ジニ係数計算欄 4 男 0. 0.0 3 男 0.4 0.5 次男 0.6 0.45 長男 0.8 0.70 5 男.0.00 ジニ係数 48
ジニ係数の求め方 順位 累積人数比 累積金額比 P Q P Q 3 P 3 Q 3 4 P 4 Q 4 5 P 5 Q 5 49
累積人数比 ジニ係数の求め方 ( 式 ) 累積金額比 三角形か台形の面積 ジニ係数は () P Q P Q P 3 Q 3 P 4 Q 4 0.8 0.6 0.4 0. 0 P 5 Q 5 () 0 0. 0.4 0.6 0.8 50
5 ジニ係数の公式を求める )} )( ( ) )( ( ) )( ( ) )( ( { 5 4 4 5 4 3 3 4 3 3 Q Q P P Q Q P P Q Q P P Q Q P P PQ ジニ係数
ジニ係数計算法の意味 累積比率 人数 金額 ジニ係数計算欄 4 男 0. 0.0 3 男 0.4 0.5 次男 0.6 0.45 長男 0.8 0.70 5 男.0.00 ジニ係数 5
ジニ係数計算法の意味 B A xc B x A C