データの整理 ( 度数分布表とヒストグラム ) 1 次元のデータの整理の仕方として代表的なものに度数分布表とヒストグラムがあります度数分布表観測値をその値に応じていくつかのグループ ( これを階級という ) に分類し各階級に入る観測値の数 ( これを度数という ) を数えて表にしたもの 2

春学期統計学 I データの整理 : 度数分布標本分散等担当 : 長倉大輔 ( ながくらだいすけ ) 1

データの整理 ( 度数分布表とヒストグラム ) 度数分布表階級は下限値と上限値によって決まります下限値と上限値を足して 2 で割ったものをその階級の階級値もしくは代表値といいますそれぞれの階級の度数を全ての観測値の数で割ったものを相対度数といいます度数の累積和を累積度数といいます相対度数の累積和を累積相対度数といいます 3

データの整理 ( 度数分布表とヒストグラム ) 度数分布表の作り方 (1) 範囲 ( レンジ ) を求める ( 下の例では 99 5 = 94) (2) 範囲を全てカバーする階級数階級幅階級を決める (3) 階級値を計算する (4) 度数を数える (5) 相対度数などの必要な計算をする 4

データの整理 ( 度数分布表とヒストグラム ) スタージェスの公式階級数を決める 1 つの目安としてスタージェスの公式というものがあります ( スタージェスの公式 ) 階級数 = 1 + 3.3 log 10 ( 観測値の数 ) 下記の例では 1+3.3 log 10 47 6.5 よりだいたい 6 か 7 となります ( 実際には 6 としました ) オープンエンド階級下記の例の最上位の階級のように上限 ( 場合によっては下限 ) がない階級の事をオープンエンド階級といいその階級値はその階級に属するデータの平均をとります 5

データの整理 ( 度数分布表とヒストグラム ) 例 : 度数分布表以下は厚生労働省人口動態統計にもとづく 2004 年の都道府県別出生データを小さい順に並べたものです ( 単位 :1000 人 ) 5, 6, 6, 6, 7, 8, 8, 8, 8, 9, 9, 10, 10, 10, 11, 11, 12, 12, 12, 12, 13, 14, 15, 16, 16, 16, 18, 18, 18, 18, 18, 19, 20, 20, 22, 26, 26, 34, 44, 45, 50, 53, 62, 70, 79, 80, 99 このデータの度数分布表を書いてみましょう統計学森棟公夫照井伸彦中川満西埜晴久黒住英司著 2008 有斐閣 p.25 より 6

データの整理 ( 度数分布表とヒストグラム ) 以上未満階級値度数累積度数相対度数累積相対度数 0-10 5 11 11 0.23 0.23 10-20 15 21 32 0.45 0.68 20-30 25 5 37 0.11 0.79 30-40 35 1 38 0.02 0.81 40-50 45 2 40 0.04 0.85 50-70 7 47 0.15 1.00 47 1.00 最後のオープンエンド階級の階級値はその階級に属するデータの平均値になっています ( 上記の 70 は四捨五入した値 ) 7

データの整理 ( 度数分布表とヒストグラム ) ヒストグラムヒストグラムとは各棒の面積が度数もしくは相対度数と比例するように作成された棒グラフで度数分布表の階級値を棒の中点階級幅を棒の幅とし高さを度数もしくは相対度数としたものですオープンエンド階級の場合は階級値を棒の中点とし棒の幅は隣の階級の上限からオープンエンド階級の階級値までの距離の 2 倍とした上で棒の面積が度数もしくは相対度数と比例するように高さを調整しますヒストグラムを描くことによってデータの分布を視覚的に表す事ができます 8

データの整理 ( 度数分布表とヒストグラム ) 例 1: ヒストグラム先ほどの度数分布表のヒストグラムは以下のようになります 25 20 15 10 5 0 5 15 25 35 45 70 9

データの整理 ( 度数分布表とヒストグラム ) 例 2: ヒストグラム日本の年齢別総人口 (2005) 12,000 10,000 人口 ( 単位 1000 人 ) 8,000 6,000 4,000 年齢別総人口 2,000 0 0 5~ 9 15~19 25~29 35~39 45~49 55~59 65~69 75~79 85~89 95~99 年齢 10

データの広がり分散平均メディアンなどはデータの中心を示す統計量でしたしかしながらデータの中心だけではデータの特徴を十分にとらえきれない場合がほとんどです通常データには他にもいろいろな特徴がありますその一つが中心からの広がり具合です分散はデータの広がり具合を示す統計量です 11

データの広がり記述統計量としての分散 ( 全標本分散 ) n 個のデータ { x 1, x 2,, x n } が与えられている時これが興味のある全てのデータである場合 ( 全標本の場合 ) 記述統計量としての分散は 2 1 n n 1 ( x x) と定義されますこれは全標本分散と呼ばれます 2 12

データの広がり分散の推定値 n 個のデータ { x 1, x 2,, x n } は興味のある母集団の一部から得られた標本であるとしましょうこれらより母集団全体の分散を推定する場合には s 2 1 n 1 n 1 ( x x) が用いられますこれは標本分散 ( もしくは標本不偏分散 ) と呼ばれます 2 13

データの広がり 2 つの分散の違い σ 2 と s 2 の違いは n で割るか n 1 で割るかです ( ここでは詳しく述べませんが ) n 1 で割ったほうが母集団全体の分散の推定値として不偏性という統計学的な観点から望ましい性質を持つ事を示す事ができます ( これについては春学期の中盤ごろに詳しく説明する予定です ) 14

15 15 データの広がり分散の別表現 σ 2 と s 2 はおよびと表す事もできます n x n x n 1 2 2 2 1 n x n x n s 1 2 2 2 1 1

データの広がり標準偏差全標本標準偏差は全標本分散の平方根標本標準偏差は標本分散の平方根として定義されそれぞれ σ, s で表わされます標準偏差を用いるとデータのおおよその広がり具合を把握する事ができます 16

データの広がり分散標準偏差の例以下のデータの分散標準偏差を比べてみましょう ( 標本数は共に 30 です ) ( データ 1) {26, 32, 4, 28, 12, 31, 27, 15, 26, 18, 27, 13, 29, 13, 45, 39, 18, 23, 35, 19, 33, 26, 21, 37, 21, 36, 23, 23, 24, 26} ( データ 2) {4, 12, 27, 43, 23, 14, 26, 35, 15, 17, 38, 19, 22, 25, 49, 7, 42, 31, 23, 46, 25, 28, 36, 24, 1, 15, 33, 8, 27, 35} 17

データの広がりまず平均を比べてみると実は 2 つのデータとも平均は 25 です次にこの 2 つのデータのヒストグラムを書いてみると ( データ 1 のヒストグラム ) ( データ 2 のヒストグラム ) 16 16 14 14 12 12 10 10 8 8 6 6 4 4 2 2 0 5 15 25 35 45 0 5 15 25 35 45 のようになりますどちらのデータの方が広がっている ( 平均から離れたデータが多い ) でしょうか? 18

データの広がりデータ 1 の全標本分散と全標本標準偏差はデータ 1 の分散 77.45 データ 1 の標準偏差 8.8 データ 2 の全標本分散と全標本標準偏差はデータ 2 の分散 149.2 データ 2 の標準偏差 12.21 データの広がりが大きいほど分散標準偏差は大きくなる 19

データの広がり分散と標準偏差の性質分散と標準偏差には次の 3 つの重要な性質があります ( これは先ほどの両方の分散標準偏差に当てはまります ) 1 全ての標本に一定数を加えたりまたは減らしたりしても値は変わらない 2 全ての標本を k 倍すると分散は k 2 倍になり標準偏差は k 倍になる 3 全ての標本のうちで平均からの乖離 ( かいり ) が標準偏差の k 倍以内にある標本の割合は少なくとも 1 1 以上である k 2 20

データの広がりチェビシェフの不等式性質 3は以下のように言い換える事ができます標本 { x 1, x 2,, x n } の平均値を x 標準偏差を s k を1より大きい任意の数とした時にもしくは区間 [ x ks, x ks] に含まれるx の数 1 1 観測値の数 ( n) k 区間 [ x ks, x ks] に含まれないx の数 1 観測値の数 ( n) k 2 2 が成立するこれはチェビシェフの不等式と呼ばれます 21

データの広がりチェビシェフの不等式の例 ( バスの待ち時間 ) 毎朝のバスの待ち時間を 30 日間記録し分析するとしますこの時平均待ち時間が 7.13 分標本標準偏差が 2.69 であったとしましょうシェビチェフの不等式において k =1.1 とおくと待ち時間が区間 [7.13 1.1 2.69, 7.13 + 1.1 2.69] [ 4.17, 10.09] に入らない割合は全体の 1/1.1 2 0.83 つまり 17 % 以上の割合でバスの待ち時間は約 4 分から 10 分の間となっています 22

データの広がりチェビシェフの不等式の注意点チェビシェフの不等式は平均と標準偏差さえわかればどのような標本にもあてはまるという意味で非常に強力な結果ですしかしながらその一般性が高いがゆえに結論の解釈には注意が必要です以下の例はチェビシェフの不等式があまり意味をもたない例です 23

データの広がりチェビシェフの不等式の例 2 ( 統計学の点数 ) ある統計学の試験の得点分布が以下のように与えられているとしましょう { 20, 25, 30, 35, 40, 45, 50, 55, 60, 65 } この時平均は 42.5 標準偏差は 15.14 ですチェビシェフの不等式に基づいて 56% 以上の人が含まれる区間をもとめてみましょう結果は意味のあるものでしょうか? 24

データの広がりチェビシェフの不等式の例 2 ( 統計学の点数 ) シェビチェフの不等式において k = 1.5 とすると 1 1/1.5 2 0.556 なので全体の約 56% 以上の学生の点数は区間 [42.5 1.5 15.14, 42.5 + 1.5 15.14] [19.8, 65.2] に入る事になりますしかし実際には 100% の学生がこの区間に入る点数を取っていますチェビシェフの不等式は区間を大きくとる傾向があるという事には注意が必要です 25

データの標準化と偏差値標準化 ( 基準化 ) 標準化とは変換後のデータが平均 0 標準偏差 1 ( 分散 1) となるように与えられたデータを変換する事です偏差値偏差値とは与えられたデータを平均 50 標準偏差 10 ( 分散 100) となるように変換した時もとのデータの値に対応する変換後の値の事です 26

データの標準化と偏差値標準化の仕方 x 2 x 平均分散のとき x を z x x x と変換する ( 平均を引いて標準偏差で割るという事 ) ことを標準化 ( もしくは基準化 ) するといいますこの時 z の平均は 0 標準偏差 ( および分散 ) は 1 となる事が確認できます 27

データの標準化と偏差値偏差値の計算の仕方 x の偏差値を y としましょう y は次のように計算できますまず x を標準化しますこの値を z としましょうこの時 y は z を用いてと計算されます y 50 10z この時 y の平均は 50 標準偏差は 10 となる事が確認できます 28

データの標準化と偏差値標準化と偏差値の意味与えられたデータの中で個々のデータが全体の中でどのような位置にあるのかは個々のデータをその標本の平均や標準偏差と比べる事によって把握することができますしかしながら平均や分散が異なる 2 つのデータにおいてある特定のデータが全体の中で相対的にどのような位置にあるのかを比較するのは難しいでしょう標準化と偏差値の一つの利点はそのような異なった標本からのデータの比較を可能にするという事です 29

データの標準化と偏差値例題 ( 標準化と偏差値 ) 今 2 つのデータセットがあるとしましょうデータセット 1 の平均と分散は 5 と 4 データセット 2 の平均と分散は 3 と 9 であるとしましょうこれら 2 つのデータセットはともに 9 を含んでいるとします (1) 9 の偏差値をそれぞれのデータセットに対して計算しなさい (2) どちらの 9 がそれぞれのデータセットのほかの値と比べて相対的に大きいと考えられますか? (3) 100 点満点のテストで偏差値が 100 以上になることはあり得ますか? 30

演習問題問題 1 ある試験の平均点が 40 点標準偏差が 5 点の時に区間 [30 点, 50 点 ] の間には何 % 以上の人が入るでしょうか? 問題 2 この時 20 点の人と 60 点の人の偏差値を求めなさい 31

宿題 ( 提出する必要はありません ) 40 人のクラスが受験したあるテストにおいて全ての生徒の点数は整数値をとり平均が 60 点標本標準偏差が 5 点であったとしよう A 君のこのテストの得点は 76 点であったこれらの情報より A 君のこのクラスでの順位は少なくとも何位以上になる事がいえるか? ヒント : チェビシェフの不等式 32

2 変量のデータの分析平均や分散は 1 変量のデータに関する値ですこれらは 1 変量のデータの分布の形状をとらえる上で有用ですしかしより複雑な分析では複数の変数に関するデータに対してその相互関係の分析を行う必要が出てきます以下ではまず変数が 2 つある (2 変量の ) データについてデータの特性のとらえ方を考えます 33

2 変量のデータの分析散布図 n 個の観測値の組 { (x 1, y 1 ), (x 2, y 2 ),, (x n, y n ) } が与えられたときこれらをプロットしたものを散布図といいます 34

2 変量のデータの分析 ( 例 ) 散布図下の表はある年のJ リーグ18 試合の試合結果ですチーム 1 2 3 4 5 6 7 8 9 勝ち数 22 20 20 18 17 18 13 13 13 得点 67 84 80 60 68 62 51 47 49 失点 28 55 48 41 51 53 49 45 43 チーム 10 11 12 13 14 15 16 17 18 勝ち数 13 13 13 13 12 12 5 6 4 得点 50 57 43 56 46 42 32 44 38 失点 56 58 55 65 65 64 56 70 74 統計学森棟公夫照井伸彦中川満西埜晴久黒住英司著 2008 有斐閣 p.66 より 35

2 変量のデータの分析 ( 例 ) 散布図 {(x, y)} = {( 得点, 勝ち数 )} の散布図得点と勝ち数の散布図 25 20 勝数 15 10 5 0 25 35 45 55 65 75 85 得点 36

2 変量のデータの分析 ( 例 ) 散布図 {(x, y)} = {( 失点, 勝ち数 )} の散布図 25 失点と勝ち数の散布図 20 勝数 15 10 5 0 25 35 45 55 65 75 85 失点 37

2 変量のデータの分析 ( 例 ) 散布図 {(x, y)} = {( 得点, 失点 )} の散布図 85 75 失点と得点の散布図得点 65 55 45 35 25 25 35 45 55 65 75 85 失点 38

2 変量のデータの分析共分散対になった n 個のデータ {(x 1, y 1 ), (x 2, y 2 ),, (x n, y n )} が与えられた時全標本共分散は xy n 1 ( x x)( y y) n 1 x と定義されますここでとはそれぞれ x と y の標本平均です ( 標本共分散の場合は n が n 1 になります ) y 39

2 変量のデータの分析共分散の意味共分散の符号は 2 変数間の直線的な関係の符号を表しています ( 正か負か ) 共分散の問題点共分散は 2 変数間の直線的な関係の符号を表すのみであって直線関係の強さを表すものでは ( データの観測単位が同じである時を除いて ) ありません 40

2 変量のデータの分析例 : 共分散の問題点以下は男子 10 人の身長と体重のデータです ( 身長の測定単位は上のデータは cm 下のデータは m) 身長 (cm) 175 183 167 178 158 170 165 174 180 162 体重 (kg) 75 90 76 65 60 80 61 67 87 58 身長 (m) 1.75 1.83 1.67 1.78 1.58 1.70 1.65 1.74 1.80 1.62 体重 (kg) 75 90 76 65 60 80 61 67 87 58 この時上のデータと下のデータの ( 全標本 ) 共分散はそれぞれ 62.32 0.6232 となりますでは身長と体重の ( 線形 ) 関係は身長を cm で測ったときの方が大きいといえるのでしょうか? 41

体重 (kg) 2 変量のデータの分析身長 (cm) と体重 (kg) の散布図 100 80 60 40 20 0 150 160 170 180 190 身長 (cm) それぞれの散布図体重 (kg) 100 80 60 40 20 身長 (m) と体重 (kg) の散布図 0 1.5 1.6 1.7 1.8 1.9 身長 (m) この散布図から明らかなように 2 つのデータの ( 線形 ) 関係の強さは同じです共分散は観測値の測定単位によって同じデータでもその値が変わるという問題があります 42

2 変量のデータの分析相関係数共分散のこのような欠点を補ったものが相関係数です相関係数は r xy と書かれます ( 相関係数の定義 ) r xy n 1 n ( x 1 ( x x) 2 x)( y r xy はデータを標準化したものの共分散と等しくなります ( 各自で確認して下さい ) n 1 y) ( y y) 2 43

2 変量のデータの分析相関係数の意味 2 つの変数 x と y の相関係数が (1) 正の値をとる時正の相関があるといいますこれは片方が大きい時もう片方も大きくなる傾向がある事を意味しています (2) 負の値をとる時負の相関があるといいますこれは片方が大きいときもう片方は小さくなる傾向がある事を意味しています (3) 0 の時無相関といいますこれは 2 つの変数間にはどのような線形関係もない事を意味しています 44

2 変量のデータの分析 ( 例 ) 相関係数先ほどの身長と体重の相関係数は cm m のどちらの場合でも 0.74 となりますちなみに J リーグの例では勝数と得点の相関は 0.87, 勝数と失点の相関は 0.71 得点と失点の相関は 0.44 となります 45

2 変量のデータの分析相関係数の性質 (1) 相関係数はあくまで 2 つの変数の間の線形関係の強さを見る尺度です x と y の間の関係が強くてもそれが線形関係で無いのであれば相関係数には反映されません ( 変数間に強い非線形関係があるが相関が 0 の例 ) 30 25 20 15 10 5 0-6 -4-2 0 2 4 6 46

2 変量のデータの分析相関係数の性質 (2) 相関係数の値は 1 以上 1 以下の値をとります相関係数が 1 の時には完全な負の相関があるといい 1 の時には完全な正の相関があるといいます ( 完全の負の相関 ) ( 完全な正の相関 ) 10 10 5 5 0-6 0 6-5 0-6 0 6-5 -10-10 47

2 変量のデータの分析相関係数の性質 (3) 相関係数はあくまで相関関係を示すものであり因果関係を示すものではありません因果関係とはどちらかがどちらかの原因となっているような関係の事です例えば身長と体重の場合は身長が高ければ体重が重いという因果関係があると考えられます 48

49 49 2 変量のデータの分析性質 (2) の証明相関係数の定義はであるがここで, と置くとシュワルツの不等式よりとなります n n n xy y y x x y y x x r 1 2 1 2 1 ) ( ) ( ) )( ( x x a y y b 1 1 2 1 2 1 1 2 1 2 1 n n n n n n b a a b b a a b

演習問題問題 3 {x 1,, x n } と {y 1,, y n } の相関係数の値が 0.2 であるとする z = y +2, ( =1,,n) とした時 {x 1,, x n } と {z 1,, z n } の相関係数の値を求めよ問題 4 {x 1,, x n } と {y 1,, y n } の相関係数の値が 0.1 であるとする w = 2y,( =1,,n) とした時 {x 1,, x n } と {w 1,,w n } の相関係数の値を求めよ 50