基礎統計

Similar documents
スライド 1

Microsoft PowerPoint - e-stat(OLS).pptx

13章 回帰分析

スライド 1

Microsoft PowerPoint - 資料04 重回帰分析.ppt

1.民営化

EBNと疫学

基礎統計

平均値 () 次のデータは, ある高校生 7 人が ヵ月にカレーライスを食べた回数 x を調べたものである 0,8,4,6,9,5,7 ( 回 ) このデータの平均値 x を求めよ () 右の表から, テレビをみた時間 x の平均値を求めよ 階級 ( 分 ) 階級値度数 x( 分 ) f( 人 )

多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典

<4D F736F F D208D A778D5A8A778F4B8E7793B CC A7795D2816A2E646F6378>

Microsoft PowerPoint - 基礎・経済統計6.ppt

テレビ学習メモ 数学 Ⅰ 第 40 回 第 5 章データの分析 相関係数 監修 執筆 湯浅弘一 今回学ぶこと データの分析の最終回 今までの代表値を複合し ながら 2 種類のデータの関係を数値化します 相関係数は 相関がどの程度強いのかを表しています 学習のポイント 12 種類のデータの相関関係を

13章 回帰分析

情報工学概論

Microsoft Word - mstattext02.docx

Microsoft PowerPoint - stat-2014-[9] pptx

ビジネス統計 統計基礎とエクセル分析 正誤表

Microsoft PowerPoint - statistics pptx

経済統計分析1 イントロダクション

講義「○○○○」

0 部分的最小二乗回帰 Partial Least Squares Regression PLS 明治大学理 学部応用化学科 データ化学 学研究室 弘昌

統計的データ解析

Microsoft Word - appendix_b

Microsoft PowerPoint - Econometrics pptx

Medical3

基礎統計

Microsoft PowerPoint - データ解析基礎4.ppt [互換モード]

学習指導要領

タイトルを修正 軸ラベルを挿入グラフツール デザイン グラフ要素を追加 軸ラベル 第 1 横 ( 縦 ) 軸 凡例は削除 横軸は, 軸の目盛範囲の最小値 最 大値を手動で設定して調整 図 2 散布図の仕上げ見本 相関係数の計算 散布図を見ると, 因果関係はともかく, 人口と輸送量の間には相関関係があ

データの整理 ( 度数分布表とヒストグラム ) 1 次元のデータの整理の仕方として代表的な ものに度数分布表とヒストグラムがあります 度数分布表観測値をその値に応じていくつかのグループ ( これを階級という ) に分類し 各階級に入る観測値の数 ( これを度数という ) を数えて表にしたもの 2

ベイズ統計入門

Microsoft PowerPoint - A1.ppt [互換モード]

相関分析・偏相関分析

Microsoft PowerPoint - 測量学.ppt [互換モード]

学習指導要領

学習指導要領

スライド 1

Microsoft PowerPoint - R-stat-intro_12.ppt [互換モード]

本日の内容 相関関係散布図 相関係数偏相関係数順位相関係数 単回帰分析 対数目盛 2

Probit , Mixed logit

Microsoft Word - econome4.docx

第7章

Microsoft Word - 保健医療統計学112817完成版.docx

Microsoft PowerPoint - Econometrics

PowerPoint プレゼンテーション

不偏推定量

統計学の基礎から学ぶ実験計画法ー1

14 化学実験法 II( 吉村 ( 洋 mmol/l の半分だったから さんの測定値は くんの測定値の 4 倍の重みがあり 推定値 としては 0.68 mmol/l その標準偏差は mmol/l 程度ということになる 測定値を 特徴づけるパラメータ t を推定するこの手

Excelによる統計分析検定_知識編_小塚明_1_4章.indd

母平均 母分散 母標準偏差は, が連続的な場合も含めて, すべての個体の特性値 のすべての実現値 の平均 分散 標準偏差であると考えてよい 有限母集団で が離散的な場合, まさにその意味になるが, そうでない場合も, このように理解してよい 5 母数 母集団から定まる定数のこと 母平均, 母分散,

平成 7 年度数学 (3) あるゲームを 回行ったときに勝つ確率が. 8のプレイヤーがいる このゲームは 回ごとに独 立であるとする a. このゲームを 5 回行う場合 中心極限定理を用いると このプレイヤーが 5 回以上勝つ確率 は である. 回以上ゲームをした場合 そのうちの勝ち数が 3 割以上

Microsoft Word - å“Ÿåłžå¸°173.docx

相関係数と偏差ベクトル

Microsoft PowerPoint - Econometrics

Microsoft PowerPoint - データ解析基礎2.ppt

Microsoft Word - reg.doc

Microsoft PowerPoint - ch03j

Microsoft PowerPoint - H17-5時限(パターン認識).ppt

Microsoft PowerPoint - ch04j

切片 ( 定数項 ) ダミー 以下の単回帰モデルを考えよう これは賃金と就業年数の関係を分析している : ( 賃金関数 ) ここで Y i = α + β X i + u i, i =1,, n, u i ~ i.i.d. N(0, σ 2 ) Y i : 賃金の対数値, X i : 就業年数. (

PowerPoint プレゼンテーション

カイ二乗フィット検定、パラメータの誤差

回帰分析 単回帰

Microsoft Word - 町田・全 H30学力スタ 別紙1 1年 数学Ⅰ.doc

7. フィリップス曲線 経済統計分析 (2014 年度秋学期 ) フィリップス曲線の推定 ( 経済理論との関連 ) フィリップス曲線とは何か? 物価と失業の関係 トレード オフ 政策運営 ( 財政 金融政策 ) への含意 ( 計量分析の手法 ) 関数形の選択 ( 関係が直線的でない場合の推定 ) 推

Microsoft PowerPoint - 統計科学研究所_R_重回帰分析_変数選択_2.ppt

目次 1 章 SPSS の基礎 基本 はじめに 基本操作方法 章データの編集 はじめに 値ラベルの利用 計算結果に基づく新変数の作成 値のグループ化 値の昇順

スライド タイトルなし

Microsoft PowerPoint slide2forWeb.ppt [互換モード]

青焼 1章[15-52].indd

学習指導要領

構造方程式モデリング Structural Equation Modeling (SEM)

Excelにおける回帰分析(最小二乗法)の手順と出力

<4D F736F F D208EC08CB18C7689E68A E F193F18D8095AA957A C C839395AA957A814590B38B4B95AA957A2E646F63>

Microsoft Word - reg2.doc

学習指導要領

Microsoft PowerPoint - R-stat-intro_04.ppt [互換モード]

<4D F736F F F696E74202D B835E82CC8EED97DE B835E82CC834F BB F0955C82B793C190AB926C>

経済統計分析1 イントロダクション

経営統計学

If(A) Vx(V) 1 最小 2 乗法で実験式のパラメータが導出できる測定で得られたデータをよく近似する式を実験式という. その利点は (M1) 多量のデータの特徴を一つの式で簡潔に表現できること. また (M2) y = f ( x ) の関係から, 任意の x のときの y が求まるので,

Microsoft PowerPoint - sc7.ppt [互換モード]

学習指導要領

学習指導要領

Microsoft Word - Stattext13.doc

【補足資料】確率・統計の基礎知識

Microsoft Word - lec_student-chp3_1-representative

Kumamoto University Center for Multimedia and Information Technologies Lab. 熊本大学アプリケーション実験 ~ 実環境における無線 LAN 受信電波強度を用いた位置推定手法の検討 ~ InKIAI 宮崎県美郷

自動車感性評価学 1. 二項検定 内容 2 3. 質的データの解析方法 1 ( 名義尺度 ) 2.χ 2 検定 タイプ 1. 二項検定 官能検査における分類データの解析法 識別できるかを調べる 嗜好に差があるかを調べる 2 点比較法 2 点識別法 2 点嗜好法 3 点比較法 3 点識別法 3 点嗜好

横浜市環境科学研究所

景気指標の新しい動向

様々なミクロ計量モデル†

モジュール1のまとめ

学習指導要領

Microsoft Word - 訋é⁄‘組渋å�¦H29æœ�末試é¨fi解ç�fl仟㆓.docx

Microsoft Word - apstattext04.docx

統計学 Ⅱ( 章 ( 区間推定のシミュレーション 母平均 μ の区間推定 X ~ N, のとき X T ~ 自由度 1の t分布 1 自由度 -1のt 分布の97.5% 点 :t.975 P t T t この式に T を代入する t.975 母集団

<4D F736F F D208EC08CB18C7689E68A E F1918A8AD695AA90CD2E646F63>

8 A B B B B B B B B B 175

Transcription:

基礎統計 第 4 回講義資料

本日の講義内容 第 3 章 : 次元データの整理 散布図 [ グラフ ] 共分散と相関係数 [ 数値 ] 回帰分析 [ 数値とグラフ ] 偏相関係数 [ 数値 ]

第 3 章 次元のデータ

第 3 章 : 次元のデータ ( 目的 ) 変数間の関係を探る 相関と回帰 ( 相関 ) 変数を区別せず対等にみる ( 相関関係 ) 身長と体重, 教科目の成績 ( 回帰 ) 一方が他方に影響を与える ( 因果関係 ) 年齢と血圧, 所得と消費 ( あるいは貯蓄 ) 手法 散布図 ( 量的データ ) 各観測対象を XY 平面上にプロットしたもの 分割表 ( 質的データ ) つのカテゴリデータの組み合わせを数え上げて表にしたもの. 同時度数分布表 質的データ, 量的データ ( 適当な階級に分ければ可能. 相関表と呼ばれる )

小売業 事業所数 3.1 散布図 人口と小売業事業所数 10,000 人口と小売業事業所数 100,000 80,000 60,000 40,000 0,000 0 0,000 4,000 6,000 8,000 10,000 1,000 14,000 人口 ( 単位 : 千人 ) 出典 : 総務省統計局 平成 0 年 10 月 1 日現在推計人口 経済産業省 平成 19 年商業統計表業態別統計編 ( 小売業 )

その他の散布図の例 統計学入門 p44 8 月の不快日数とエアコン保有率 正の相関 1 世帯当たりの米の消費支出とパンの消費支出 相関関係なし ( 無相関 ) 出生率と死亡率 負の相関 つの変数の間に直線関係に近い傾向がみられるとき, 相関関係がある という

共分散 (covariance) 1 n n i1 ( i )( i ) 0 正の相関 0 負の相関 共分散 : 相関関係を記述する指標

事例 : 大卒率と平均給与の散布図 450.0 430.0 410.0 i 390.0 370.0 i 350.0 330.0 310.0 90.0 平均給与 70.0 50.0 0.0 5.0 10.0 15.0 0.0 5.0 30.0 平均値

共分散の考え方 Y 1 0 X 3 左上と右下は偏差積が負となる 4 右上と左下は偏差積が正となる

共分散の性質 つの変数の関係が最大限に強いとき データがすべて直線上に並んでいるとき b a a 定理より n i i n i i i n i i i a n a b a b a n n 1 1 1 ) / ( ) ( )] ( ) )[( ( 1 ) )( ( 1 完全な正の相関の場合, 共分散はそれぞれの変数の標準偏差の積と同じ a 0

相関係数 (correlation coefficient) 共分散のとりうる値の範囲 1 1 相関係数 r 1 r 1 ピアソンの積率相関係数 相関係数のとりうる値の範囲

相関係数 正の相関 0 r 1 無相関 r 0 負の相関 1 r 0 目安として 0 < r < 0., -0. < r <0 ほとんど相関なし 0. < r < 0.4, -0.4 < r < -0. 弱い相関あり 0.4 < r < 0.7, -0.7 < r < -0.4 中程度の相関あり 0.7 < r < 1.0, -1.0 < r < -0.7 強い相関あり

相関係数の注意点 相関係数のみでの評価は危険 散布図上での分布の様子を確認すべき 外れ値の影響を受けやすい 散布図上で異常値がないか確認すべき 見かけ上の相関 (3.4 偏相関係数 p90)

散布図のチェックポイント 1 分布の状況と異常点の確認 ヒストグラムと同様に全体的な散らばり具合をつかむこと. X と Y の関係 3 層別の検討 4 測定範囲 大きな集団から離れたデータ 記入ミス 測定ミス? 異質な集団 ( 層別 ) 直線関係 曲線関係 相関なし等 5 見かけ上の相関 15 17 19 1 3 5 7 9 31 33 35 15 0 5 30

3 層別と相関 層別の効果 : 特性の異なる集団かどうかを見分ける もともとのデータに, 特性の異なるいくつかの部分集合を含んでいる場合, 全体では相関がなくても, 各グループでは相関が表れることがあったり 逆に全体では相関があっても, グループに分けるとなかったりすることがある. 統計学入門 p53 例 :1986 年のイギリスの総選挙 失業率と保守党得票率には負の相関関係がある 層別した結果, イングランドとスコットランドには強い負の相関関係がみられるが ウェールズにはみられないことがわかった.

やや相関があるようにみえるが 30 8 6 4 0 18 16 14 1 10 1 17 7 40 35 30 5 0 15 相関係数 0.534 相関係数 0.634 10 1 17 7 3 層別してみると 30 8 6 4 0 18 16 14 1 相関係数 A 0.843 B 0.77 10 1 17 7 40 35 30 5 0 15 相関係数 A 0.617 B 0.139 10 1 17 7 3 A B A B

4 選抜効果 ( 測定範囲による相関の違い ) 事例 : 学力選抜 40 35 30 5 0 15 10 1 17 7 3 相関なし相関あり

見かけ上の相関 (3.4 偏相関係数 ) 実際の相関が低い場合でも, 第 3 の変数の影響によって, 相関関係が強く現れることがある 見かけ上の相関 例 : 出生率と女性の就業率の相関係数 0.4136 男女共同参画が進展すれば出生率は回復するといえるだろうか? 都市化度の代理変数として 第三次産業の就業者構成比 の影響を除去すると, 出生率と女性の就業率との相関係数 ( 偏相関係数と呼ばれる ) は 0.171 となった.

偏相関係数 偏相関係数 出生率と女性の就業率 合計特殊出生率 () と第三次産業の就業者構成比 (z) の相関係数 女性の就業率 () と第三次産業の就業者構成比 (z) の相関係数 偏相関係数

3.3 回帰分析 散布図 共分散 相関係数 つの変数の相関関係の有無, 正負の強さの指標 つの変数の関係が非対称な場合 ( 因果関係がある場合 ) には その現象を分析するには不十分である. 回帰分析 変数 と の間の関係を適当な関数を用いて と表現し, 関数がどのような性質を持っているかを調べることにより,つの変数の関係を明らかにしていく. データを利用してを分析する手法を回帰分析という.

小売業 事業所数 3.3 回帰分析 二変量の定量的な構造 ( モデル ) を求める モデル : Y を X で定量的に説明するもの回帰方程式, 回帰関数 Y: 従属変数, 被説明変数, 内生変数と呼ばれる X: 独立変数, 説明変数, 外生変数と呼ばれる 回帰方程式 ( 回帰直線 ) 10,000 100,000 80,000 60,000 人口と小売業事業所数 = 7.165 + 4848.6 R² = 0.9598 40,000 0,000 0 0,000 4,000 6,000 8,000 10,000 1,000 14,000 人口 ( 単位 : 千人 )

小売業 事業所数 適用例 人口と商店数 回帰直線 相関係数 決定係数 : 説明変数が被説明変数を決定する強弱の度合 10,000 人口と小売業事業所数 100,000 80,000 = 7.165 + 4848.6 R² = 0.9598 60,000 40,000 0,000 0 0,000 4,000 6,000 8,000 10,000 1,000 14,000 人口 ( 単位 : 千人 )

3.3.1 回帰モデル データの背後には定量的な構造 ( モデル ) があると仮定して, それを関数で表現したもの. 例 :1 次関数 : 従属変数, 被説明変数, 内生変数と呼ばれる 0, 1 : 独立変数, 説明変数, 外生変数と呼ばれる : 回帰係数 : 誤差項 ( の1 次関数 ) [ それ以外の要因 ( 誤差 ) ]

事例 : 大卒率と平均給与 高等教育への進学率の上昇が人的資本の蓄積を引き起こし, 生産性 ( そして給与 ) が上昇する と唱えたベーカー (G. Becker) の人的資本理論の考えに立てば, 大卒率と平均給与の間には回帰モデルが想定できる. ( 平均給与 ) i 1( 大卒率 ) ( i 1,, 0 i i,47)

事例 : 大卒率と平均給与の散布図 ( 都道府県別 ) 平均給与額 ( 千円 ) 450.0 430.0 410.0 390.0 370.0 350.0 330.0 310.0 平均給与 平均値 線形 ( 平均給与 ) 90.0 70.0 50.0 0.0 5.0 10.0 15.0 0.0 5.0 30.0 大卒率 (%)

事例 : 散布図と回帰直線 450.0 430.0 410.0 390.0 370.0 350.0 330.0 310.0 平均給与 平均値 線形 ( 平均給与 ) 90.0 70.0 50.0 0.0 5.0 10.0 15.0 0.0 5.0 30.0

3.3. 最小 乗法 直線とデータとの乖離 ( かいり ) その 乗和をデータと直線の乖離の程度を表す指標として採用する 変数関数を最小にするを求める. ( 最小 乗法 ) 最小 乗値あるいは最小 乗推定値

最小 乗推定値 最小 乗推定値は で与えられる. 証明のポイント に を追 加して, 式にの偏差 との偏差 を作る. 偏差の和は0であるという性質を利用して, 展開後の項を減らす. n n n( b 0 b1 ) b1 n b1n n p81 の下から 5 行目の右辺

事例 : 回帰分析 回帰統計 重相関 R 0.8466 重決定 R 0.7167 補正 R 0.7104 標準誤差 18.07 観測数 47 係数 標準誤差 t P- 値 下限 95% 上限 95% 切片 44.5 9.03 7.09 1.67E-9 6.3396 6.6959 大卒率 (%) 7.53 0.71 10.67 6.54E-14 6.106685 8.9483

おさらい : 回帰分析 X の値の差異に対応して Y の値がどの程度異なるか? の値に対して はいろいろな値を取りうるため の値の平均に注目する ( の値を与えたときの の条件付き平均 ) 回帰直線 予測値 最小 乗推定値 ˆ 1 ˆ 0 ˆ ˆ ˆ i 0 1 i, ( i 1,, n ˆ 1 r ) 予測式に代入して整理すると ˆ ( ˆ ) ˆ ˆ i 1 1i 1( i ) 平均値を通ることがわかる

3.3.3 予測値と残差 予測値 残差 定理 3.4 残差の性質 後半の証明のポイントは

Ƹ 定理 3.4 残差の性質 の後半の証明 次のように とおき n i=1 i n ε i = i=1 n = i=1 i ҧ i ҧ = n መβ 1 n = n n = 0 n ε i Ƹ + ҧ i=1 ε i Ƹ i ത መβ 1 i ҧ 前半の証明で 0

予測値と残差の性質予測値の平均は の平均より 残差の平均は 0 が示せる残差と独立変数及び残差と予測値の相関係数は 0 ) ( ˆ ˆ 1 0 ˆ ˆ 0 ˆ ˆ 1 ˆ 1 ˆ ˆ ˆ n r n i i i 定理 3.4 より 0 0 ˆ ˆ r

残差 大卒率 ( 独立変数 ) と残差の散布図 大卒率 (%) 残差グラフ 40 30 0 10 0-10 0.0 5.0 10.0 15.0 0.0 5.0 30.0-0 -30-40 -50-60 -70 大卒率 (%)

変数の直交分解 r ˆ ˆ 0 から予測値と残差は互いに直交する関係 残差の定義から i ˆ ˆ i は直交分解 X との相関係数は 1 X との相関係数は 0 独立変数 とは相関のない残差成分が取り出せる

残差 残差が主役となることもある 身長 () と体重 () のデータ 残差 = 身長では説明できない部分 不健康度 8 90 身長の割には重い子 85 = 0.4195 + 3.51 R² = 0.5437 6 4 80 75 70 65 0 145 155 165 175 185 - -4-6 60 145 155 165 175 185-8 身長 身長の割には軽い子

変動の分解 1 つの変数の和の分散 AB A AB B ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆ 定理 3.5 変動の分解 ( テキスト 86p)

変動の分解 1( 定理 3.5) ˆ ˆ 全変動回帰変動残差変動 i, i ε i Ƹ = i i 平均, ҧ ത i, i i ത

変動の分割 第 1 項 ˆ ˆ ˆ ˆ 1 r r 第 項 ˆ ˆ r (1 r ) 従属変数 の分散が r, (1 r ) の割合で 予測値の分散と残差の分散に分割される この割合 r が決定係数

決定係数 改めて て ˆ ˆ から 第 項目を左辺に移行し 両辺を の分散で割ると ˆ ˆ 1 ˆ ˆ ( R ) の間の値をとり,1 に近いほどモデルの当てはまりがよいと判断する.

Ƹ 決定係数 R = σ n i=1 i ത n i ത = 1 σ n ε i=1 i n i ത σ i=1 σ i=1 大卒率と平均給与 (7) 全変動 51893.67, 回帰変動 37194.7 より 決定係数 0.7167

今後の展開

これまでのおさらい データの持つ情報を効率よく引き出すための整理 要約の方法 図やグラフによる方法 1 次元 次元 度数分布表, ヒストグラム, 箱ひげ図散布図,( 分割表 ) 数値による方法 代表値 平均 ( 算術平均, トリム平均 など ), メディアン, モード 散らばり分散, 標準偏差, 平均偏差, 範囲, 四分位範囲, 変動係数 その他歪度, 尖度,( ジニ係数 ) 相関係数, 共分散, 回帰分析 ( 回帰係数, 決定係数など ), 偏相関係数

統計解析とは 標本 ( データ ) の情報から母集団の性質について推論すること 母集団 : 調査対象全体 標本 : 調査のために母集団から抽出されたデータ 標本 無作為抽出 母集団 統計的推測

確率モデル テキスト p197 参照 標本 無作為抽出 母集団 統計的推測 モデル化 確率変数 i.i.d 確率分布 統計量 統計的推測 パラメータ

正規母集団 母集団分布が正規分布の場合 確率変数 i.i.d 確率分布 統計量 統計的推測 パラメータ 母平均と母分散がパラメータ

推定と検定 確率モデルをベースにして, データから母数に関する推測を行う方法に推定と検定がある. 推定 点推定 区間推定 1 つの値によって母数を推定する ある区間を設けて母数の値はこの区間に ふくまれるだろうという形で推定する 検定母数の値に関する仮説を立てて, データに基づいて その仮説を採択するか棄却するかの判断をする

回帰分析 (9 章 ) 回帰モデル 標準的仮定 回帰係数の推定 ( 最小 乗推定量 ) 最小 乗推定量の性質 最小 乗推定量の標本分布 ( 確率分布 ) 誤差分散の推定 回帰係数の t 検定 重回帰モデル F 検定 決定係数 分散分析 (10 章 ) ( テスト範囲外 )

次回の講義内容 (5/13) 第 4 章 : 確率モデル 4.1 標本空間と事象 4. 確率 4.3 確率変数 4.4 離散型確率分布の代表例 4.5 連続型確率分布