1. はじめに この節でのテーマ データ分布の中心位置を数値で表す 可視化でとらえた分布の中心位置を数量化する 平均値とメジアン, 幾何平均 この節での到達目標 1 平均値 メジアン 幾何平均の定義を書ける 2 平均値とメジアン, 幾何平均の特徴と使える状況を説明できる. 3 平均値 メジアン 幾何平均を計算できる 2. 特性値 集めたデータを度数分布表やヒストグラムに整理する ( 可視化する ) と データの特徴がある程度明確になる 可視化は, データ全体の傾向を把握するために非常に重要である. しかし, 可視化で得られる傾向の把握は直感的かつ主観的であくまでも, 科学的な分析のための指針を得るためのツールと心得るべきである. 統計分析もその 1 つ 統計分析では データの分布の特徴をいくつかの数値にまとめる これらの, データの分布のある特徴 ( 特性 ) を表す数値を, 特性値という 代表的な特性値 代表値 平均値, メジアン, 幾何平均,% 分位点, 四分位点 etc.. 散布度 範囲, 偏差, 分散, 標準偏差, 四分位偏差 etc. 2 つの系列のデータの関係の強さ 相関係数, 共分散, 変動係数, etc 1
2. 代表値 2.1 代表値とは 一般的にデータは, 観測される値が小さな値からに大きな値に変化するにつれ, ある値まで度数が増加し その後減少する [ 例 ] 1 年間の土 日来店客数 日数 ( 日 ) 35 30 25 20 15 10 5 0 160-200 200-240 240-280 280-320 320-360 360-400 400-440 客数 ( 人 ) 一般に, 観測したデータがある値に集中する傾向がある 代表値とは, 観測値が集中する位置を表す数値である. 2.2 代表値の意義 度数分布曲線 ( ヒストグラムを曲線にしたもの ) が同じ形をしていても, 観測値が集まる位置が異なれば,2 つのデータは性質が異なる別の集団を表していることになる. この分布の代表値は大体この値 この分布の代表値は大体この値 a b 2
3. 平均値 ( 算術平均 ) 記号 : ( 変数の上にバーをつける,) 最もよく利用される代表値である. 観測項目としては, 需要量, 売上高, 3.1. 定義 平均値の定義を言葉で表すと 観測項目 の平均値 := データ値の和をデータ数で割った値 平均値を式で定義すると 観測項目のデータ値が,,, のとき, = [ ] = 1 Excel で計算する場合 : 関数 aveage( ) を使う 用法 : =average( データの範囲 ) [ 例 1] 来客数 ( 人 ) ( で表す ) の平均値 ( ) を ( 表示桁が 8 桁の ) 電卓で求める. データに誤差が含まれていないと仮定すると, この計算の有効桁数は 8 桁となる. 有効桁数については,Moodle 上の資料を参照 データ : {292, 373, 282, 251, 322, 392, 366, 300, 226, 314, 325, 213}, データ数 :12 件 = (292 + 373 + 282 + 251 + 322 + 392 + 366 + 300 + 226 + 314 + 325 + 213) 12 = 3656 12 = 304.66666 平均値 =304.66666 人 3
[ 例 2] 1 年間の土 日来店客数 (104 営業日 ) 電卓 (8 桁 ) で計算する : = (292 + 373 + +292 + 261) 104 = 30971 104 = 297.79807 ( 人 ) Excel で計算する : = average(a1:j11) 3.2. 度数分布表を用いた平均値 データ値がなく度数分布表しか手に入らない場合, 度数分布表にもとづく算術平均を求める. 平均値の定義を言葉で表すと 観測項目 の平均値 := 各階級の階級値 度数の和をデータ数で割った値 平均値を式で定義すると 各階級の階級値と度数が, (, ),,,, (, ) のとき, = ( + + + ) = 1 ( はデータの個数, は階級の個数 ) 4
[ 例 ] (1) 電卓 (8 桁 ) で計算する上表の列 fy に計算結果を入力して, 以下の計算をする. = ( 4 180 + 7 220 + 27 260 + 33 300 + 19 340 + 12 380+ 2 420 ) / 104=31040/104 = 298.46153 ( 人 ) (2) Excel 関数 sumproduct( ) で計算する =SUMPRODUCT(B4:B10,C4:C10)/C11 sumproduct( 配列 1, 配列 2, ) が行う処理 : 配列 1, 配列 2, の同じ場所の要素の積を求めて足し合わせる. 3.3. 平均値の性質 利点 1 度数分布曲線の形が単峰 ( 山が 1 つ ) で峰 ( 山 ) を中心にほぼ対称のとき, 大体分布の中心位置となる. 2 計算が容易である.( 加算と 1 回の除算 ) 3 統計的性質が良く, アドバンストな統計手法の多くで利用される. 欠点 1 度数分布曲線の形が複峰 ( 山が 2 つ以上 ) だったり, 単峰でも極端に偏りがある場合, すべての観測値を同等に扱うため極端な値の影響を強く受け, 分布の中心位置を正しく与えない. 5
4. メジアン (Median, 中央値 ) 記号 : ( に添え字 e をつける ) 平均値が向かないデータで使われる代表値観測値がある値にあまり集中していない場合など 4.1. 定義 メジアンの定義を言葉で表すと 観測項目のメジアン := データを小さい値から順 ( 昇順に並べたとき, 中央の順位 (50% の順位 ) になる値 メジアンを式で定義すると 観測項目のデータを小さい値から順に並べたものが < < < のとき = 2, は以上の最小整数 =, if が奇数 ( + ) 2, if が偶数 Excel で計算する場合 : 関数 median( ) を使う 用法 : = median( データの範囲 ) [ 例 1] データ数が奇数の場合のメジアン 5 個のデータ {2, 14, 9, 19, 8} 昇順に並べ替えたデータ {2, 8, 9, 14, 19}, データ数 n=5, 5/2= 2.5 より, メジアンは 3 番目のデータである. = = 9 [ 例 2] データ数が偶数の場合のメジアン 6 個のデータ {2, 14, 9, 18, 19, 8} 昇順に並べ替えたデータ {2, 8, 9, 14, 18, 19}, データ数 n=6, 6/2= 3 より, メジアンは 3 番目と 4 番目のデータの平均である. = + 2 = 9 + 14 2 = 11.5 6
4.2. 度数分布表を用いたメジアン 観測項目の度数分布表が分かっている場合第番目の階級の度数を, 下限値を, 累積度数, データ総数, 階級幅をh, と表すと, メジアンが第番目の階級にあるとき, 観測項目のメジアン := + h [ 例 ] (1) 電卓 (8 桁 ) で計算する場合 上表の累積度数の列に計算結果を入力して, 以下の計算をする. 104 / 2 = 52 52 以上で, これに最も近い累積日数は 71 である. 280 + 40 (52 38) / 33 = 296.96969 よって, メジアン =296.96969( 人 ) (2) Excel で計算する場合 =280+ 40*(C11/2 - D6)/C7 4.3. メジアンの性質 利点 1 観測値の順位を用いて分布の中心位置を求めるので, 極端な値のデータの影響を受けにくい. 2 観測値の分布に関係なく求めることができる. 欠点 1 計算負荷が高い並べ替えを用いる. 2 統計的な性質があまり保証されておらず, アドバンストな統計分析に使いにくい. 7
5. モード (Mode, 最頻値 ) 記号 : ( に添え字 o( オー ) をつける ) 5.1. 定義 モードの定義を言葉で表すと 観測項目の値が分かってる場合, 観測項目のモード := 最も頻繁に出現する観測値 [ 例 ] { 1, 3, 6, 6, 6, 6, 7, 7, 12, 12, 17 } この場合のモードは,6 である. Excel で計算する場合 : 関数 mode.sngl( ) を使う 用法 : = mode.sngl( データの範囲 ) 5.2. 度数分布表を用いたモード 観測項目の度数分布表が分かっている場合第番目の階級の度数を, 下限値を, 階級幅をhと表すと, 最も大きな度数を持つ階級が第番目の階級のとき, 観測項目のモード := + h [ 例 ] (1) 電卓 (8 桁 ) で計算する場合最も多いなど数を持つ階級は, 第 4 番目の階級 ( 度数 33) である. = 280 + 40 = 296.52173 この場合のモード=296.52 173( 人 ) (2) Excel を用いて計算する場合 = 280 + 40*C8/(C6+C8) 8
6. 幾何平均記号 : ( 平均値 に添え字 g をつける ) データが比の場合に使われる代表値売上高の対前年比,GDP の対前年度比など 6.1. 前処理 売上高や GDP に関するデータが収益率や成長率など, *** 率 で与えられている場合は, 幾何平均を計算する前に前処理が必要である. 例えば,t 年度の GDP の成長率 (%) は,t 1 年度の GDP と t 年度の GDP から = 100 = 1 100 で求められている. したがって, t 年度の GDP の対前年度比は = 100 + 1 成長率が % でなく単に小数の場合は, 100 の部分を省略する. 6.2 定義 幾何平均の定義を言葉で表すと 観測項目 の幾何平均 := データ値の相乗平均 幾何平均を式で定義すると 観測項目のデータ値が,,, のとき = Excel で計算する場合 : 関数 geomean( ) を使う 用法 := geomean( データの範囲 ) 9
6.3 計算例 日本の経済成長率の推移 (1980~1989 年 ) ( 単位 :%) 年次 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 経済成長率 3.18 4.18 3.38 3.06 4.46 6.33 2.83 4.11 7.15 5.35 但し,t 年の経済成長率 ( ) は,t 年の GDP ( ) と t 1 年の GDP ( ) から = 100 で計算されている. 前処理として,GDP の前年度比を求める = 100 + 1 年次 経済成長率 (%) GDP 前年比 1980 3.18 1.0318 1981 4.18 1.0418 1982 3.38 1.0338 1983 3.06 1.0306 1984 4.46 1.0446 1985 6.33 1.0633 1986 2.83 1.0283 1987 4.11 1.0411 1988 7.15 1.0715 1989 5.35 1.0535 1980 年の対前年比 3.18 100+1=1.0318 [ 幾何平均の計算 ] この例の場合, 元データの有効桁数が 3 桁なので, 前年比に直したときの有効桁数は 5 桁と なる. よって, 幾何平均の有効桁数は 5 桁となり, 平均成長率の有効桁数は元のデータと同 じく 3 桁である. = 1.0318 1.0418 1.0715 1.0535 = 1.0440 ゆえに,1980~1989 年の 10 年間の GDP の平均前年比は 1.0440. ( 幾何平均 ) [ 平均経済成長率の計算 ] したがって,1980~1989 年の 10 年間の平均経済成長率は, = 1 100 = (1.0440 1) 100 = 4.40 (%) 10
7. パーセント分位点 (% 分位点 ) 記号 : ( に添え字 p をつける ) 7.1 定義 p % 分位点の定義を言葉で表すと 観測項目 の p % 分位点 := データを小さい値から順に並べたとき,p % の順位になる値 p % 分位点を式で定義すると 観測項目のデータを昇順に並べたものが < < < のとき =, は以上の最小整数 =, if が整数でないとき ( + ) 2, if が整数のとき Excel で計算する場合 : 関数 percentile.exc(, ) を使う 用法 : = percentile.exc( データ範囲, 率 ( 小数 ) ) 古い関数 percentile(, ) があるが, 結果が違うので使わないように! 7.2 % 分位点の計算例 (65% 分位点と 70% 分位点を求める ) 10 個のデータ : { 27, 50, 28, 29, 21, 20, 30, 37, 15, 11 } 昇順に並べ替えたデータ :{11, 15, 20, 21, 27, 28, 29, 30, 37, 50} [ 例 1] 65% 分位点の計算 = 10 0.65 = 6.5 は整数でないので, 以上の最小の整数は = 7 65% 分位点 = 順位が 7 番目のデータ値 =29 = 29 [ 例 2] 70% 分位点の計算 = 10 0.7 = 7 は整数だから, 以上の最小の整数は = 7 70% 分位点 = 順位が 7 番目と 8 番目のデータ値の平均値 = (29 + 30) 2 = 29.5 = 29.5 11
7.3. 度数分布表を用いた % 分位点の計算 観測項目の度数分布表が分かっている場合第番目の階級の度数を, 下限値を, 累積度数, データ総数, 階級幅をh, と表すと, p % 分位点が第番目の階級にあるとき, 観測項目の p % 分位点 := + h [ 例 ] 60% 分位点を求める (1) 電卓 (8 桁 ) で計算する場合 上表の累積度数の列に計算結果を入力して, 以下の計算をする. 104 0.6 = 62.4 62.4 以上でこれに最も近い累積日数は 71 である. 280 + 40. = 309.57575 よって,60% 分位点 =309.57575 ( 人 ) (2) Excel で計算する場合 =280+ 40*(C11*0.6-D6)/C7 12
8.( 第 ) 四分位点記号 : ( に添え字 4をつける ) 8.1 定義 第 q 四分位点の定義を言葉で表すと 観測項目のデータを昇順に並べたとき, 第 q 四分位点 := 4 分の q 番目の順位 (25q % の順位 ) になる値 ( = 1,2,3) 第 q 四分位点を式で定義すると 観測項目のデータを昇順に並べたものが < < < のとき =, は以上の最小整数 =, if が整数でないとき ( + ) 2, if が整数のとき ( = 1,2,3) 四分位点と % 分位点, その他の特性値の関係 四分位点 記号 % 分位点 記号 その他の特性値 第 1 四分位点 25% 分位点 第 2 四分位点 50% 分位点 メジアン 第 3 四分位点 75% 分位点 Excel で計算する場合 : 関数 quartile.exc(, ) を使う 用法 : = quartile.exc( データ範囲, q ), q = 1, 2, 3 第 2 引数 k には,k = 0, k=4 も入れられ,k=0 で最小値,k = 4 で最大値が得られるが 通常これは使わない.min( ) と max( ) を使うようにする. 古い関数 quartile(, ) があるが, 結果が違うので使わないように! 13
8.2 四分位点の計算例第 1 四分位点と第 3 四分位点を求める [ 例 1] 第 1 四分位点の計算 12 個のデータ : { 9, 27, 50, 28, 29, 21, 20, 30, 37, 15, 11, 46 } 昇順に並べ替えたデータ : {9, 11, 15, 20, 21, 27, 28, 29, 30, 37, 46, 50} = 12 0.25 = 3 は整数だから, 以上の最小の整数は = 3 第 1 四分位点 =25% 分位点 = 順位が 3 番目と 4 番目のデータ値の平均値 = (15 + 20) 2 = 17.5 = 17.5 [ 例 2] 第 3 四分位点の計算 10 個のデータ : { 27, 50, 28, 29, 21, 20, 30, 37, 15, 11 } 昇順に並べ替えたデータ : { 11, 15, 20, 21, 27, 28, 29, 30, 37, 50} = 10 0.75 = 7.5 は整数でないので, 以上の最小の整数は = 8 第 3 四分位点 =75% 分位点 = 順位が 8 番目のデータ値 =30 = 30 7.3. 度数分布表を用いた四分位点の計算 観測項目の度数分布表が分かっている場合第番目の階級の度数を, 下限値を, 累積度数, データ総数, 階級幅をh, と表すと, 第 q 四分位点が第番目の階級にあるとき, 観測項目の第 q 四分位点 := + h ( = 1, 2, 3 ) [ 例 ] 第 3 四分位点を求める (1) 電卓 (8 桁 ) で計算する場合 表の累積度数の列に計算結果を入 力して, 以下の計算をする. 104 (3 4) = 78 78 以上でこれに最も近い累積日数は 90 である. 320 + 40 = 334.73684 よって, 第 3 四分位点 =334.73684 ( 人 ) (2) Excel で計算する場合 =320+ 40*(C11*(3/4)-D7)/C8 14