基礎統計 第 4 回講義資料
本日の講義内容 第 3 章 : 次元データの整理 散布図 [ グラフ ] 共分散と相関係数 [ 数値 ] 回帰分析 [ 数値とグラフ ] 偏相関係数 [ 数値 ]
第 3 章 次元のデータ
第 3 章 : 次元のデータ ( 目的 ) 変数間の関係を探る 相関と回帰 ( 相関 ) 変数を区別せず対等にみる ( 相関関係 ) 身長と体重, 教科目の成績 ( 回帰 ) 一方が他方に影響を与える ( 因果関係 ) 年齢と血圧, 所得と消費 ( あるいは貯蓄 ) 手法 散布図 ( 量的データ ) 各観測対象を XY 平面上にプロットしたもの 分割表 ( 質的データ ) つのカテゴリデータの組み合わせを数え上げて表にしたもの. 同時度数分布表 質的データ, 量的データ ( 適当な階級に分ければ可能. 相関表と呼ばれる )
小売業 事業所数 3.1 散布図 人口と小売業事業所数 10,000 人口と小売業事業所数 100,000 80,000 60,000 40,000 0,000 0 0,000 4,000 6,000 8,000 10,000 1,000 14,000 人口 ( 単位 : 千人 ) 出典 : 総務省統計局 平成 0 年 10 月 1 日現在推計人口 経済産業省 平成 19 年商業統計表業態別統計編 ( 小売業 )
その他の散布図の例 統計学入門 p44 8 月の不快日数とエアコン保有率 正の相関 1 世帯当たりの米の消費支出とパンの消費支出 相関関係なし ( 無相関 ) 出生率と死亡率 負の相関 つの変数の間に直線関係に近い傾向がみられるとき, 相関関係がある という
共分散 (covariance) 1 n n i1 ( i )( i ) 0 正の相関 0 負の相関 共分散 : 相関関係を記述する指標
事例 : 大卒率と平均給与の散布図 450.0 430.0 410.0 i 390.0 370.0 i 350.0 330.0 310.0 90.0 平均給与 70.0 50.0 0.0 5.0 10.0 15.0 0.0 5.0 30.0 平均値
共分散の考え方 Y 1 0 X 3 左上と右下は偏差積が負となる 4 右上と左下は偏差積が正となる
共分散の性質 つの変数の関係が最大限に強いとき データがすべて直線上に並んでいるとき b a a 定理より n i i n i i i n i i i a n a b a b a n n 1 1 1 ) / ( ) ( )] ( ) )[( ( 1 ) )( ( 1 完全な正の相関の場合, 共分散はそれぞれの変数の標準偏差の積と同じ a 0
相関係数 (correlation coefficient) 共分散のとりうる値の範囲 1 1 相関係数 r 1 r 1 ピアソンの積率相関係数 相関係数のとりうる値の範囲
相関係数 正の相関 0 r 1 無相関 r 0 負の相関 1 r 0 目安として 0 < r < 0., -0. < r <0 ほとんど相関なし 0. < r < 0.4, -0.4 < r < -0. 弱い相関あり 0.4 < r < 0.7, -0.7 < r < -0.4 中程度の相関あり 0.7 < r < 1.0, -1.0 < r < -0.7 強い相関あり
相関係数の注意点 相関係数のみでの評価は危険 散布図上での分布の様子を確認すべき 外れ値の影響を受けやすい 散布図上で異常値がないか確認すべき 見かけ上の相関 (3.4 偏相関係数 p90)
散布図のチェックポイント 1 分布の状況と異常点の確認 ヒストグラムと同様に全体的な散らばり具合をつかむこと. X と Y の関係 3 層別の検討 4 測定範囲 大きな集団から離れたデータ 記入ミス 測定ミス? 異質な集団 ( 層別 ) 直線関係 曲線関係 相関なし等 5 見かけ上の相関 15 17 19 1 3 5 7 9 31 33 35 15 0 5 30
3 層別と相関 層別の効果 : 特性の異なる集団かどうかを見分ける もともとのデータに, 特性の異なるいくつかの部分集合を含んでいる場合, 全体では相関がなくても, 各グループでは相関が表れることがあったり 逆に全体では相関があっても, グループに分けるとなかったりすることがある. 統計学入門 p53 例 :1986 年のイギリスの総選挙 失業率と保守党得票率には負の相関関係がある 層別した結果, イングランドとスコットランドには強い負の相関関係がみられるが ウェールズにはみられないことがわかった.
やや相関があるようにみえるが 30 8 6 4 0 18 16 14 1 10 1 17 7 40 35 30 5 0 15 相関係数 0.534 相関係数 0.634 10 1 17 7 3 層別してみると 30 8 6 4 0 18 16 14 1 相関係数 A 0.843 B 0.77 10 1 17 7 40 35 30 5 0 15 相関係数 A 0.617 B 0.139 10 1 17 7 3 A B A B
4 選抜効果 ( 測定範囲による相関の違い ) 事例 : 学力選抜 40 35 30 5 0 15 10 1 17 7 3 相関なし相関あり
見かけ上の相関 (3.4 偏相関係数 ) 実際の相関が低い場合でも, 第 3 の変数の影響によって, 相関関係が強く現れることがある 見かけ上の相関 例 : 出生率と女性の就業率の相関係数 0.4136 男女共同参画が進展すれば出生率は回復するといえるだろうか? 都市化度の代理変数として 第三次産業の就業者構成比 の影響を除去すると, 出生率と女性の就業率との相関係数 ( 偏相関係数と呼ばれる ) は 0.171 となった.
偏相関係数 偏相関係数 出生率と女性の就業率 合計特殊出生率 () と第三次産業の就業者構成比 (z) の相関係数 女性の就業率 () と第三次産業の就業者構成比 (z) の相関係数 偏相関係数
3.3 回帰分析 散布図 共分散 相関係数 つの変数の相関関係の有無, 正負の強さの指標 つの変数の関係が非対称な場合 ( 因果関係がある場合 ) には その現象を分析するには不十分である. 回帰分析 変数 と の間の関係を適当な関数を用いて と表現し, 関数がどのような性質を持っているかを調べることにより,つの変数の関係を明らかにしていく. データを利用してを分析する手法を回帰分析という.
小売業 事業所数 3.3 回帰分析 二変量の定量的な構造 ( モデル ) を求める モデル : Y を X で定量的に説明するもの回帰方程式, 回帰関数 Y: 従属変数, 被説明変数, 内生変数と呼ばれる X: 独立変数, 説明変数, 外生変数と呼ばれる 回帰方程式 ( 回帰直線 ) 10,000 100,000 80,000 60,000 人口と小売業事業所数 = 7.165 + 4848.6 R² = 0.9598 40,000 0,000 0 0,000 4,000 6,000 8,000 10,000 1,000 14,000 人口 ( 単位 : 千人 )
小売業 事業所数 適用例 人口と商店数 回帰直線 相関係数 決定係数 : 説明変数が被説明変数を決定する強弱の度合 10,000 人口と小売業事業所数 100,000 80,000 = 7.165 + 4848.6 R² = 0.9598 60,000 40,000 0,000 0 0,000 4,000 6,000 8,000 10,000 1,000 14,000 人口 ( 単位 : 千人 )
3.3.1 回帰モデル データの背後には定量的な構造 ( モデル ) があると仮定して, それを関数で表現したもの. 例 :1 次関数 : 従属変数, 被説明変数, 内生変数と呼ばれる 0, 1 : 独立変数, 説明変数, 外生変数と呼ばれる : 回帰係数 : 誤差項 ( の1 次関数 ) [ それ以外の要因 ( 誤差 ) ]
事例 : 大卒率と平均給与 高等教育への進学率の上昇が人的資本の蓄積を引き起こし, 生産性 ( そして給与 ) が上昇する と唱えたベーカー (G. Becker) の人的資本理論の考えに立てば, 大卒率と平均給与の間には回帰モデルが想定できる. ( 平均給与 ) i 1( 大卒率 ) ( i 1,, 0 i i,47)
事例 : 大卒率と平均給与の散布図 ( 都道府県別 ) 平均給与額 ( 千円 ) 450.0 430.0 410.0 390.0 370.0 350.0 330.0 310.0 平均給与 平均値 線形 ( 平均給与 ) 90.0 70.0 50.0 0.0 5.0 10.0 15.0 0.0 5.0 30.0 大卒率 (%)
事例 : 散布図と回帰直線 450.0 430.0 410.0 390.0 370.0 350.0 330.0 310.0 平均給与 平均値 線形 ( 平均給与 ) 90.0 70.0 50.0 0.0 5.0 10.0 15.0 0.0 5.0 30.0
3.3. 最小 乗法 直線とデータとの乖離 ( かいり ) その 乗和をデータと直線の乖離の程度を表す指標として採用する 変数関数を最小にするを求める. ( 最小 乗法 ) 最小 乗値あるいは最小 乗推定値
最小 乗推定値 最小 乗推定値は で与えられる. 証明のポイント に を追 加して, 式にの偏差 との偏差 を作る. 偏差の和は0であるという性質を利用して, 展開後の項を減らす. n n n( b 0 b1 ) b1 n b1n n p81 の下から 5 行目の右辺
事例 : 回帰分析 回帰統計 重相関 R 0.8466 重決定 R 0.7167 補正 R 0.7104 標準誤差 18.07 観測数 47 係数 標準誤差 t P- 値 下限 95% 上限 95% 切片 44.5 9.03 7.09 1.67E-9 6.3396 6.6959 大卒率 (%) 7.53 0.71 10.67 6.54E-14 6.106685 8.9483
おさらい : 回帰分析 X の値の差異に対応して Y の値がどの程度異なるか? の値に対して はいろいろな値を取りうるため の値の平均に注目する ( の値を与えたときの の条件付き平均 ) 回帰直線 予測値 最小 乗推定値 ˆ 1 ˆ 0 ˆ ˆ ˆ i 0 1 i, ( i 1,, n ˆ 1 r ) 予測式に代入して整理すると ˆ ( ˆ ) ˆ ˆ i 1 1i 1( i ) 平均値を通ることがわかる
3.3.3 予測値と残差 予測値 残差 定理 3.4 残差の性質 後半の証明のポイントは
Ƹ 定理 3.4 残差の性質 の後半の証明 次のように とおき n i=1 i n ε i = i=1 n = i=1 i ҧ i ҧ = n መβ 1 n = n n = 0 n ε i Ƹ + ҧ i=1 ε i Ƹ i ത መβ 1 i ҧ 前半の証明で 0
予測値と残差の性質予測値の平均は の平均より 残差の平均は 0 が示せる残差と独立変数及び残差と予測値の相関係数は 0 ) ( ˆ ˆ 1 0 ˆ ˆ 0 ˆ ˆ 1 ˆ 1 ˆ ˆ ˆ n r n i i i 定理 3.4 より 0 0 ˆ ˆ r
残差 大卒率 ( 独立変数 ) と残差の散布図 大卒率 (%) 残差グラフ 40 30 0 10 0-10 0.0 5.0 10.0 15.0 0.0 5.0 30.0-0 -30-40 -50-60 -70 大卒率 (%)
変数の直交分解 r ˆ ˆ 0 から予測値と残差は互いに直交する関係 残差の定義から i ˆ ˆ i は直交分解 X との相関係数は 1 X との相関係数は 0 独立変数 とは相関のない残差成分が取り出せる
残差 残差が主役となることもある 身長 () と体重 () のデータ 残差 = 身長では説明できない部分 不健康度 8 90 身長の割には重い子 85 = 0.4195 + 3.51 R² = 0.5437 6 4 80 75 70 65 0 145 155 165 175 185 - -4-6 60 145 155 165 175 185-8 身長 身長の割には軽い子
変動の分解 1 つの変数の和の分散 AB A AB B ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆ 定理 3.5 変動の分解 ( テキスト 86p)
変動の分解 1( 定理 3.5) ˆ ˆ 全変動回帰変動残差変動 i, i ε i Ƹ = i i 平均, ҧ ത i, i i ത
変動の分割 第 1 項 ˆ ˆ ˆ ˆ 1 r r 第 項 ˆ ˆ r (1 r ) 従属変数 の分散が r, (1 r ) の割合で 予測値の分散と残差の分散に分割される この割合 r が決定係数
決定係数 改めて て ˆ ˆ から 第 項目を左辺に移行し 両辺を の分散で割ると ˆ ˆ 1 ˆ ˆ ( R ) の間の値をとり,1 に近いほどモデルの当てはまりがよいと判断する.
Ƹ 決定係数 R = σ n i=1 i ത n i ത = 1 σ n ε i=1 i n i ത σ i=1 σ i=1 大卒率と平均給与 (7) 全変動 51893.67, 回帰変動 37194.7 より 決定係数 0.7167
今後の展開
これまでのおさらい データの持つ情報を効率よく引き出すための整理 要約の方法 図やグラフによる方法 1 次元 次元 度数分布表, ヒストグラム, 箱ひげ図散布図,( 分割表 ) 数値による方法 代表値 平均 ( 算術平均, トリム平均 など ), メディアン, モード 散らばり分散, 標準偏差, 平均偏差, 範囲, 四分位範囲, 変動係数 その他歪度, 尖度,( ジニ係数 ) 相関係数, 共分散, 回帰分析 ( 回帰係数, 決定係数など ), 偏相関係数
統計解析とは 標本 ( データ ) の情報から母集団の性質について推論すること 母集団 : 調査対象全体 標本 : 調査のために母集団から抽出されたデータ 標本 無作為抽出 母集団 統計的推測
確率モデル テキスト p197 参照 標本 無作為抽出 母集団 統計的推測 モデル化 確率変数 i.i.d 確率分布 統計量 統計的推測 パラメータ
正規母集団 母集団分布が正規分布の場合 確率変数 i.i.d 確率分布 統計量 統計的推測 パラメータ 母平均と母分散がパラメータ
推定と検定 確率モデルをベースにして, データから母数に関する推測を行う方法に推定と検定がある. 推定 点推定 区間推定 1 つの値によって母数を推定する ある区間を設けて母数の値はこの区間に ふくまれるだろうという形で推定する 検定母数の値に関する仮説を立てて, データに基づいて その仮説を採択するか棄却するかの判断をする
回帰分析 (9 章 ) 回帰モデル 標準的仮定 回帰係数の推定 ( 最小 乗推定量 ) 最小 乗推定量の性質 最小 乗推定量の標本分布 ( 確率分布 ) 誤差分散の推定 回帰係数の t 検定 重回帰モデル F 検定 決定係数 分散分析 (10 章 ) ( テスト範囲外 )
次回の講義内容 (5/13) 第 4 章 : 確率モデル 4.1 標本空間と事象 4. 確率 4.3 確率変数 4.4 離散型確率分布の代表例 4.5 連続型確率分布