春学期統計学 I データの整理 : 度数分布 標本分散 等 担当 : 長倉大輔 ( ながくらだいすけ ) 1
データの整理 ( 度数分布表とヒストグラム ) 1 次元のデータの整理の仕方として代表的な ものに度数分布表とヒストグラムがあります 度数分布表観測値をその値に応じていくつかのグループ ( これを階級という ) に分類し 各階級に入る観測値の数 ( これを度数という ) を数えて表にしたもの 2
データの整理 ( 度数分布表とヒストグラム ) 度数分布表 階級は下限値と上限値によって決まります 下限値と上限値を足して 2 で割ったものをその階級の階級値もしくは代表値といいます それぞれの階級の度数を全ての観測値の数で割ったものを相対度数といいます 度数の累積和を累積度数といいます 相対度数の累積和を累積相対度数といいます 3
データの整理 ( 度数分布表とヒストグラム ) 度数分布表の作り方 (1) 範囲 ( レンジ ) を求める ( 下の例では 99 5 = 94) (2) 範囲を全てカバーする階級数 階級幅 階級を決める (3) 階級値を計算する (4) 度数を数える (5) 相対度数などの必要な計算をする 4
データの整理 ( 度数分布表とヒストグラム ) スタージェスの公式 階級数を決める 1 つの目安としてスタージェスの公式というものがあります ( スタージェスの公式 ) 階級数 = 1 + 3.3 log 10 ( 観測値の数 ) 下記の例では 1+3.3 log 10 47 6.5 よりだいたい 6 か 7 となります ( 実際には 6 としました ) オープンエンド階級 下記の例の最上位の階級のように上限 ( 場合によっては下限 ) がない階級の事をオープンエンド階級といい その階級値はその階級に属するデータの平均をとります 5
データの整理 ( 度数分布表とヒストグラム ) 例 : 度数分布表 以下は厚生労働省 人口動態統計 にもとづく 2004 年の都道府県別出生データを小さい順に並べたものです ( 単位 :1000 人 ) 5, 6, 6, 6, 7, 8, 8, 8, 8, 9, 9, 10, 10, 10, 11, 11, 12, 12, 12, 12, 13, 14, 15, 16, 16, 16, 18, 18, 18, 18, 18, 19, 20, 20, 22, 26, 26, 34, 44, 45, 50, 53, 62, 70, 79, 80, 99 このデータの度数分布表を書いてみましょう 統計学 森棟公夫 照井伸彦 中川満 西埜晴久 黒住英司著 2008 有斐閣 p.25 より 6
データの整理 ( 度数分布表とヒストグラム ) 以上 未満階級値度数累積度数相対度数累積相対度数 0-10 5 11 11 0.23 0.23 10-20 15 21 32 0.45 0.68 20-30 25 5 37 0.11 0.79 30-40 35 1 38 0.02 0.81 40-50 45 2 40 0.04 0.85 50-70 7 47 0.15 1.00 47 1.00 最後のオープンエンド階級の階級値はその階級に属するデータの平均値になっています ( 上記の 70 は四捨五入した値 ) 7
データの整理 ( 度数分布表とヒストグラム ) ヒストグラム ヒストグラムとは各棒の面積が度数 もしくは相対度数と比例するように作成された棒グラフで 度数分布表の階級値を棒の中点 階級幅を棒の幅とし 高さを度数もしくは相対度数としたものです オープンエンド階級の場合は階級値を棒の中点とし 棒の幅は隣の階級の上限からオープンエンド階級の階級値までの距離の 2 倍とした上で 棒の面積が度数もしくは相対度数と比例するように高さを調整します ヒストグラムを描くことによって データの分布を視覚的に表す事ができます 8
データの整理 ( 度数分布表とヒストグラム ) 例 1: ヒストグラム 先ほどの度数分布表のヒストグラムは以下のようになります 25 20 15 10 5 0 5 15 25 35 45 70 9
データの整理 ( 度数分布表とヒストグラム ) 例 2: ヒストグラム 日本の年齢別総人口 (2005) 12,000 10,000 人口 ( 単位 1000 人 ) 8,000 6,000 4,000 年齢別総人口 2,000 0 0 5~ 9 15~19 25~29 35~39 45~49 55~59 65~69 75~79 85~89 95~99 年齢 10
データの広がり 分散 平均 メディアンなどはデータの中心を示す統計量でした しかしながら データの中心だけではデータの特徴を十分にとらえきれない場合がほとんどです 通常 データには他にもいろいろな特徴があります その一つが中心からの広がり具合です 分散はデータの広がり具合を示す統計量です 11
データの広がり 記述統計量としての分散 ( 全標本分散 ) n 個のデータ { x 1, x 2,, x n } が与えられている時 これが興味のある全てのデータである場合 ( 全標本の場合 ) 記述統計量としての分散は 2 1 n n 1 ( x x) と定義されます これは全標本分散と呼ばれます 2 12
データの広がり 分散の推定値 n 個のデータ { x 1, x 2,, x n } は興味のある母集団の一部から得られた標本であるとしましょう これらより母集団全体の分散を推定する場合には s 2 1 n 1 n 1 ( x x) が用いられます これは標本分散 ( もしくは標本不偏分散 ) と呼ばれます 2 13
データの広がり 2 つの分散の違い σ 2 と s 2 の違いは n で割るか n 1 で割るかです ( ここでは詳しく述べませんが ) n 1 で割ったほうが母集団全体の分散の推定値として不偏性という統計学的な観点から望ましい性質を持つ事を示す事ができます ( これについては春学期の中盤ごろに詳しく説明する予 定です ) 14
15 15 データの広がり 分散の別表現 σ 2 と s 2 はおよびと表す事もできます n x n x n 1 2 2 2 1 n x n x n s 1 2 2 2 1 1
データの広がり 標準偏差 全標本標準偏差は全標本分散の平方根 標本標準偏差は標本分散の平方根として定義され それぞれ σ, s で表わされます 標準偏差を用いると データのおおよその広がり具合を把握する事ができます 16
データの広がり 分散 標準偏差の例 以下のデータの分散 標準偏差を比べてみましょう ( 標本数は共に 30 です ) ( データ 1) {26, 32, 4, 28, 12, 31, 27, 15, 26, 18, 27, 13, 29, 13, 45, 39, 18, 23, 35, 19, 33, 26, 21, 37, 21, 36, 23, 23, 24, 26} ( データ 2) {4, 12, 27, 43, 23, 14, 26, 35, 15, 17, 38, 19, 22, 25, 49, 7, 42, 31, 23, 46, 25, 28, 36, 24, 1, 15, 33, 8, 27, 35} 17
データの広がり まず平均を比べてみると 実は 2 つのデータとも平均は 25 です 次にこの 2 つのデータのヒストグラムを書いてみると ( データ 1 のヒストグラム ) ( データ 2 のヒストグラム ) 16 16 14 14 12 12 10 10 8 8 6 6 4 4 2 2 0 5 15 25 35 45 0 5 15 25 35 45 のようになります どちらのデータの方が広がっている ( 平均から離れたデータが多い ) でしょうか? 18
データの広がり データ 1 の全標本分散と全標本標準偏差はデータ 1 の分散 77.45 データ 1 の標準偏差 8.8 データ 2 の全標本分散と全標本標準偏差はデータ 2 の分散 149.2 データ 2 の標準偏差 12.21 データの広がりが大きいほど分散 標準偏差は大きくなる 19
データの広がり 分散と標準偏差の性質 分散と標準偏差には次の 3 つの重要な性質があります ( これは先ほどの両方の分散 標準偏差に当てはまります ) 1 全ての標本に一定数を加えたり または減らしたりしても 値は変わらない 2 全ての標本を k 倍すると 分散は k 2 倍になり標準偏差は k 倍になる 3 全ての標本のうちで 平均からの乖離 ( かいり ) が標準偏差の k 倍以内にある標本の割合は少なくとも 1 1 以上である k 2 20
データの広がり チェビシェフの不等式性質 3は以下のように言い換える事ができます 標本 { x 1, x 2,, x n } の平均値を x 標準偏差を s k を1より大きい任意の数とした時に もしくは 区間 [ x ks, x ks] に含まれるx の数 1 1 観測値の数 ( n) k 区間 [ x ks, x ks] に含まれないx の数 1 観測値の数 ( n) k 2 2 が成立する これはチェビシェフの不等式と呼ばれます 21
データの広がり チェビシェフの不等式の例 ( バスの待ち時間 ) 毎朝のバスの待ち時間を 30 日間記録し 分析するとします この時 平均待ち時間が 7.13 分 標本標準偏差が 2.69 であったとしましょう シェビチェフの不等式において k =1.1 とおくと 待ち時間が区間 [7.13 1.1 2.69, 7.13 + 1.1 2.69] [ 4.17, 10.09] に入らない割合は全体の 1/1.1 2 0.83 つまり 17 % 以上の割合でバスの待ち時間は約 4 分から 10 分の間となっています 22
データの広がり チェビシェフの不等式の注意点 チェビシェフの不等式は平均と標準偏差さえわかればどのような標本にもあてはまるという意味で非常に強力な 結果です しかしながら その一般性が高いがゆえに 結論の解釈には注意が必要です 以下の例はチェビシェフの不等式があまり意味をもたない例です 23
データの広がり チェビシェフの不等式の例 2 ( 統計学の点数 ) ある統計学の試験の得点分布が以下のように与えられているとしましょう { 20, 25, 30, 35, 40, 45, 50, 55, 60, 65 } この時平均は 42.5 標準偏差は 15.14 です チェビシェフの不等式に基づいて 56% 以上の人が含まれる区間をもとめてみましょう 結果は意味のあるものでしょうか? 24
データの広がり チェビシェフの不等式の例 2 ( 統計学の点数 ) シェビチェフの不等式において k = 1.5 とすると 1 1/1.5 2 0.556 なので全体の約 56% 以上の学生の点数は区間 [42.5 1.5 15.14, 42.5 + 1.5 15.14] [19.8, 65.2] に入る事になります しかし実際には 100% の学生がこの区間に入る点数を取っています チェビシェフの不等式は区間を大きくとる傾向があるという事には注意が必要です 25
データの標準化と偏差値 標準化 ( 基準化 ) 標準化とは変換後のデータが平均 0 標準偏差 1 ( 分散 1) となるように与えられたデータを変換する事です 偏差値 偏差値とは与えられたデータを平均 50 標準偏差 10 ( 分散 100) となるように変換した時 もとのデータの値に対応する変換後の値の事です 26
データの標準化と偏差値 標準化の仕方 x 2 x 平均 分散のとき x を z x x x と変換する ( 平均を引いて標準偏差で割るという事 ) ことを標準化 ( もしくは基準化 ) するといいます この時 z の平均は 0 標準偏差 ( および分散 ) は 1 となる事が確認できます 27
データの標準化と偏差値 偏差値の計算の仕方 x の偏差値を y としましょう y は次のように計算できます まず x を標準化します この値を z としましょう この時 y は z を用いて と計算されます y 50 10z この時 y の平均は 50 標準偏差は 10 となる事が確認できます 28
データの標準化と偏差値 標準化と偏差値の意味 与えられたデータの中で 個々のデータが全体の中でどのような位置にあるのかは個々のデータをその標本の平均や標準偏差と比べる事によって把握することができます しかしながら 平均や分散が異なる 2 つのデータにおいて ある特定のデータが全体の中で相対的にどのような位置にあるのかを比較するのは難しいでしょう 標準化と偏差値の一つの利点はそのような異なった標本からのデータの比較を可能にするという事です 29
データの標準化と偏差値 例題 ( 標準化と偏差値 ) 今 2 つのデータセットがあるとしましょう データセット 1 の平均と分散は 5 と 4 データセット 2 の平均と分散は 3 と 9 であるとしましょう これら 2 つのデータセットはともに 9 を含んでいるとします (1) 9 の偏差値をそれぞれのデータセットに対して計算しなさい (2) どちらの 9 がそれぞれのデータセットのほかの値と比べて相対的に大きいと考えられますか? (3) 100 点満点のテストで偏差値が 100 以上になることはあり得ますか? 30
演習問題 問題 1 ある試験の平均点が 40 点 標準偏差が 5 点の時に 区間 [30 点, 50 点 ] の間には何 % 以上の人が入るでしょうか? 問題 2 この時 20 点の人と 60 点の人の偏差値を求めなさい 31
宿題 ( 提出する必要はありません ) 40 人のクラスが受験したあるテストにおいて 全ての生徒の点数は整数値をとり 平均が 60 点 標本標準偏差が 5 点であったとしよう A 君のこのテストの得点は 76 点であった これらの情報より A 君のこのクラスでの順位は少なくとも何位以上になる事がいえるか? ヒント : チェビシェフの不等式 32
2 変量のデータの分析 平均や分散は 1 変量のデータに関する値です これらは 1 変量のデータの分布の形状をとらえる上で有用です しかし より複雑な分析では複数の変数に関するデータに対して その相互関係の分析を行う必要が出てきます 以下ではまず変数が 2 つある (2 変量の ) データについてデータの特性のとらえ方を考えます 33
2 変量のデータの分析 散布図 n 個の観測値の組 { (x 1, y 1 ), (x 2, y 2 ),, (x n, y n ) } が与えられたとき これらをプロットしたものを散布図といいます 34
2 変量のデータの分析 ( 例 ) 散布図下の表はある年のJ リーグ18 試合の試合結果です チーム 1 2 3 4 5 6 7 8 9 勝ち数 22 20 20 18 17 18 13 13 13 得点 67 84 80 60 68 62 51 47 49 失点 28 55 48 41 51 53 49 45 43 チーム 10 11 12 13 14 15 16 17 18 勝ち数 13 13 13 13 12 12 5 6 4 得点 50 57 43 56 46 42 32 44 38 失点 56 58 55 65 65 64 56 70 74 統計学 森棟公夫 照井伸彦 中川満 西埜晴久 黒住英司著 2008 有斐閣 p.66 より 35
2 変量のデータの分析 ( 例 ) 散布図 {(x, y)} = {( 得点, 勝ち数 )} の散布図 得点と勝ち数の散布図 25 20 勝数 15 10 5 0 25 35 45 55 65 75 85 得点 36
2 変量のデータの分析 ( 例 ) 散布図 {(x, y)} = {( 失点, 勝ち数 )} の散布図 25 失点と勝ち数の散布図 20 勝数 15 10 5 0 25 35 45 55 65 75 85 失点 37
2 変量のデータの分析 ( 例 ) 散布図 {(x, y)} = {( 得点, 失点 )} の散布図 85 75 失点と得点の散布図 得点 65 55 45 35 25 25 35 45 55 65 75 85 失点 38
2 変量のデータの分析 共分散 対になった n 個のデータ {(x 1, y 1 ), (x 2, y 2 ),, (x n, y n )} が与えられた時 全標本共分散は xy n 1 ( x x)( y y) n 1 x と定義されます ここでとはそれぞれ x と y の標本平均です ( 標本共分散の場合は n が n 1 になります ) y 39
2 変量のデータの分析 共分散の意味 共分散の符号は 2 変数間の直線的な関係の符号を表しています ( 正か負か ) 共分散の問題点 共分散は 2 変数間の直線的な関係の符号を表すのみであって 直線関係の強さを表すものでは ( データの観測単位が同じである時を除いて ) ありません 40
2 変量のデータの分析 例 : 共分散の問題点 以下は男子 10 人の身長と体重のデータです ( 身長の測定単位は上のデータは cm 下のデータは m) 身長 (cm) 175 183 167 178 158 170 165 174 180 162 体重 (kg) 75 90 76 65 60 80 61 67 87 58 身長 (m) 1.75 1.83 1.67 1.78 1.58 1.70 1.65 1.74 1.80 1.62 体重 (kg) 75 90 76 65 60 80 61 67 87 58 この時 上のデータと下のデータの ( 全標本 ) 共分散はそれぞれ 62.32 0.6232 となります では身長と体重の ( 線形 ) 関係は身長を cm で測ったときの方が大きいといえるのでしょうか? 41
体重 (kg) 2 変量のデータの分析 身長 (cm) と体重 (kg) の散布図 100 80 60 40 20 0 150 160 170 180 190 身長 (cm) それぞれの散布図 体重 (kg) 100 80 60 40 20 身長 (m) と体重 (kg) の散布図 0 1.5 1.6 1.7 1.8 1.9 身長 (m) この散布図から明らかなように 2 つのデータの ( 線形 ) 関係の強さは同じです 共分散は観測値の測定単位によって同じデータでもその値が変わるという問題があります 42
2 変量のデータの分析 相関係数 共分散のこのような欠点を補ったものが相関係数です 相関係数は r xy と書かれます ( 相関係数の定義 ) r xy n 1 n ( x 1 ( x x) 2 x)( y r xy はデータを標準化したものの共分散と等しくなります ( 各自で確認して下さい ) n 1 y) ( y y) 2 43
2 変量のデータの分析 相関係数の意味 2 つの変数 x と y の相関係数が (1) 正の値をとる時 正の相関があるといいます これは片方が大きい時 もう片方も大きくなる傾向がある事を意味しています (2) 負の値をとる時 負の相関があるといいます これは片方が大きいとき もう片方は小さくなる傾向がある事を意味しています (3) 0 の時 無相関といいます これは 2 つの変数間にはどのような線形関係もない事を意味しています 44
2 変量のデータの分析 ( 例 ) 相関係数 先ほどの身長と体重の相関係数は cm m のどちらの場合でも 0.74 となります ちなみに J リーグの例では勝数と得点の相関は 0.87, 勝数と失点の相関は 0.71 得点と失点の相関は 0.44 となります 45
2 変量のデータの分析 相関係数の性質 (1) 相関係数はあくまで 2 つの変数の間の線形関係の強さを見る尺度です x と y の間の関係が強くても それが線形関係で無いのであれば 相関係数には反映されません ( 変数間に強い非線形関係があるが相関が 0 の例 ) 30 25 20 15 10 5 0-6 -4-2 0 2 4 6 46
2 変量のデータの分析 相関係数の性質 (2) 相関係数の値は 1 以上 1 以下の値をとります 相関係数が 1 の時には 完全な負の相関があるといい 1 の時には 完全な正の相関があるといいます ( 完全の負の相関 ) ( 完全な正の相関 ) 10 10 5 5 0-6 0 6-5 0-6 0 6-5 -10-10 47
2 変量のデータの分析 相関係数の性質 (3) 相関係数はあくまで相関関係を示すものであり 因果関係を示すものではありません 因果関係とはどちらかがどちらかの原因となっているような関係の事です 例えば身長と体重の場合は身長が高ければ体重が重いという因果関係があると考えられます 48
49 49 2 変量のデータの分析 性質 (2) の証明相関係数の定義はであるが ここで, と置くと シュワルツの不等式より となります n n n xy y y x x y y x x r 1 2 1 2 1 ) ( ) ( ) )( ( x x a y y b 1 1 2 1 2 1 1 2 1 2 1 n n n n n n b a a b b a a b
演習問題 問題 3 {x 1,, x n } と {y 1,, y n } の相関係数の値が 0.2 であるとする z = y +2, ( =1,,n) とした時 {x 1,, x n } と {z 1,, z n } の相関係数の値を求めよ 問題 4 {x 1,, x n } と {y 1,, y n } の相関係数の値が 0.1 であるとする w = 2y,( =1,,n) とした時 {x 1,, x n } と {w 1,,w n } の相関係数の値を求めよ 50