経済統計分析1 イントロダクション

Similar documents
Microsoft Word - lec_student-chp3_1-representative

3章 度数分布とヒストグラム

DVIOUT-mem

散布度

Excelによる統計分析検定_知識編_小塚明_1_4章.indd

<4D F736F F F696E74202D B835E82CC8EED97DE B835E82CC834F BB F0955C82B793C190AB926C>

代表値

平均値 () 次のデータは, ある高校生 7 人が ヵ月にカレーライスを食べた回数 x を調べたものである 0,8,4,6,9,5,7 ( 回 ) このデータの平均値 x を求めよ () 右の表から, テレビをみた時間 x の平均値を求めよ 階級 ( 分 ) 階級値度数 x( 分 ) f( 人 )

3章 度数分布とヒストグラム

第4回

Microsoft PowerPoint - データ解析基礎2.ppt

(Microsoft PowerPoint - \214o\215\317\223\235\214va-8.ppt [\214\335\212\267\203\202\201[\203h])

Microsoft PowerPoint ppt

統計学 Ⅰ(8) 累積度数 : ある階級以下に含まれる度数の合計 階級 度数 相対度数累積度数 累積相対度数 点以上 ~ 点未満.. ~.. ~. 7. ~ 6..6 ~. 6.8 ~ ~ ~ ~ ~.. ~.. 合計. - -

Microsoft PowerPoint - 代表値と散布度.ppt [互換モード]

講義ノート p.2 データの視覚化ヒストグラムの作成直感的な把握のために重要入力間違いがないか確認するデータの分布を把握する fig. ヒストグラムの作成 fig. ヒストグラムの出力例 度数分布表の作成 データの度数を把握する 入力間違いが無いかの確認にも便利 fig. 度数分布表の作成

Microsoft PowerPoint - 12統計の分析と利用_1-1.pptx

基礎統計

PowerPoint プレゼンテーション

Microsoft PowerPoint - 10統計の分析と利用_1.pptx

Microsoft PowerPoint - 11統計の分析と利用_1-1.pptx

第 3 回講義の項目と概要 統計的手法入門 : 品質のばらつきを解析する 平均と標準偏差 (P30) a) データは平均を見ただけではわからない 平均が同じだからといって 同一視してはいけない b) データのばらつきを示す 標準偏差 にも注目しよう c) 平均

経営統計学

Microsoft PowerPoint - 基礎・経済統計6.ppt

stat-base_ppt [互換モード]

Microsoft Word - 保健医療統計学112817完成版.docx

Microsoft PowerPoint - CVM.ppt [互換モード]

統計学入門 練習問題解答集

Microsoft PowerPoint - 測量学.ppt [互換モード]

学習指導要領

stat-base [互換モード]

経済統計分析1 イントロダクション

1.民営化

Microsoft PowerPoint - ICS修士論文発表会資料.ppt

Microsoft PowerPoint - e-stat(OLS).pptx

EBNと疫学

新学習指導要領における数学科 「資料の活用」および「データの分析」 で育む統計的問題解決授業

データの整理 ( 度数分布表とヒストグラム ) 1 次元のデータの整理の仕方として代表的な ものに度数分布表とヒストグラムがあります 度数分布表観測値をその値に応じていくつかのグループ ( これを階級という ) に分類し 各階級に入る観測値の数 ( これを度数という ) を数えて表にしたもの 2

目次 はじめに データの種類 平均値 (Mean) と標準偏差 (Standard Deviation, SD) データの代表値である平均値データのばらつきを表す標準偏差 中央値 (Median) と四分位範囲 (Inter-Quartile Range) 平均値の問題点と中央値標準偏差の問題点と四

データ 統計 情報 計算 分析 ( 数量的情報 定性的情報 ) 上の図にもあるように 統計学 の目的の一つとして データ ( 中学校では資料と呼んでいた ) や 統計 を正しく分析し 我々の判断や 行動に役立つ 情報 を導き出す力を養うことが挙げられる ( 度数分布表とヒストグラム ) 1 年 A

PowerPoint プレゼンテーション

Microsoft PowerPoint - データ解析基礎4.ppt [互換モード]

学習指導要領

学力スタンダード(様式1)

ビジネス統計 統計基礎とエクセル分析 正誤表

Microsoft Word - apstattext01b.docx

日心TWS

これに対する度数分布表は次のようになる : 階級 階級値 度数 相対度数 累積度数 累積相対度数 ( 以上 ) ~ ( 未満 ) 0 ~ (3/50 = ) ~ (2/50 = ) ~ (6/5

Microsoft Word - nakamoto2.docx

【指導のポイント】

テレビ学習メモ 数学 Ⅰ 第 40 回 第 5 章データの分析 相関係数 監修 執筆 湯浅弘一 今回学ぶこと データの分析の最終回 今までの代表値を複合し ながら 2 種類のデータの関係を数値化します 相関係数は 相関がどの程度強いのかを表しています 学習のポイント 12 種類のデータの相関関係を

Microsoft Word - M1-05.docx

13章 回帰分析

_KyoukaNaiyou_No.4

相関係数と偏差ベクトル

統計学 - 社会統計の基礎 - 正規分布 標準正規分布累積分布関数の逆関数 t 分布正規分布に従うサンプルの平均の信頼区間 担当 : 岸 康人 資料ページ :

テレビ講座追加資料1105

Microsoft Word - スーパーナビ 第6回 数学.docx

<4D F736F F D208D A778D5A8A778F4B8E7793B CC A7795D2816A2E646F6378>

ファイナンスのための数学基礎 第1回 オリエンテーション、ベクトル

夏期講習高 センター数学 ⅠA テキスト第 講 [] 人の生徒に数学のテストを行った 次の表 は, その結果である ただし, 表 の数値はすべて正確な値であるとして解答せよ 表 数学のテストの得点 次

Microsoft PowerPoint - R-stat-intro_04.ppt [互換モード]

モジュール1のまとめ

測量試補 重要事項

Microsoft Word - 操作マニュアル-Excel-2.doc

Microsoft PowerPoint - statistics08_03.ppt [互換モード]

. 角の二等分線と調和平均 平面上に点 を端点とする線分 と を重ならないようにとる, とし とする の二等分線が線分 と交わる点を とし 点 から に垂直に引いた直線が線分 と交わる点 とする 線分 の長さを求めてみよう 点 から に垂直な直線と および との交点をそれぞれ, Dとする つの直角三

Microsoft Word - 町田・全 H30学力スタ 別紙1 1年 数学Ⅰ.doc

森林水文 水資源学 2 2. 水文統計 豪雨があった時, 新聞やテレビのニュースで 50 年に一度の大雨だった などと報告されることがある. 今争点となっている川辺川ダムは,80 年に 1 回の洪水を想定して治水計画が立てられている. 畑地かんがいでは,10 年に 1 回の渇水を対象として計画が立て

微分方程式による現象記述と解きかた

2. 幹葉図数表はデータの詳細な値を知ることができますが, 一見してデータ全体の傾向を読み取るのは困難です. 一方, グラフはデータ全体の傾向を視覚的に捉えることができますが, 細かい値を知るには適していません. 幹葉図はこの両面性を備え, かつ, データの集計にも使えるという方法です. 例 次のデ

測量士補 重要事項「標準偏差」

所得の水準とばらつきの時系列的推移について-JGSSと政府統計の比較-

講座内容 第 1 週 データサイエンスとは 第 2 週 分析の概念と事例ビジネス課題解決のためのデータ分析基礎 ( 事例と手法 )1 第 3 週 分析の具体的手法ビジネス課題解決のためのデータ分析基礎 ( 事例と手法 )2 第 4 週 ビジネスにおける予測と分析結果の報告ビジネス課題解決のためのデー

現代日本論演習/比較現代日本論研究演習I「統計分析の基礎」

Microsoft PowerPoint - Econometrics

学習指導要領

解答のポイント 第 1 章問 1 ポイント仮に1 年生全員の数が 100 人であったとする.100 人全員に数学の試験を課して, それらの 100 人の個人個人の点数が母集団となる. 問 2 ポイント仮に10 人を抽出するとする. 学生に1から 100 までの番号を割り当てたとする. 箱の中に番号札

学習指導要領

Microsoft Word - 補論3.2

画像類似度測定の初歩的な手法の検証

Microsoft Word - Stattext11.doc

Blue circle & gradation

Microsoft Word - apstattext04.docx

<4D F736F F D208CF68BA48C6F8DCF8A C30342C CFA90B68C6F8DCF8A7782CC8AEE967B92E8979D32288F4390B394C529332E646F63>

Microsoft Word - Stattext07.doc

Microsoft PowerPoint - Statistics[B]

Matrix and summation convention Kronecker delta δ ij 1 = 0 ( i = j) ( i j) permutation symbol e ijk = (even permutation) (odd permutation) (othe

学習指導要領

目次 1 章 SPSS の基礎 基本 はじめに 基本操作方法 章データの編集 はじめに 値ラベルの利用 計算結果に基づく新変数の作成 値のグループ化 値の昇順

振動学特論火曜 1 限 TA332J 藤井康介 6 章スペクトルの平滑化 スペクトルの平滑化とはギザギザした地震波のフーリエ スペクトルやパワ スペクトルでは正確にスペクトルの山がどこにあるかはよく分からない このようなスペクトルから不純なものを取り去って 本当の性質を浮き彫

各資産のリスク 相関の検証 分析に使用した期間 現行のポートフォリオ策定時 :1973 年 ~2003 年 (31 年間 ) 今回 :1973 年 ~2006 年 (34 年間 ) 使用データ 短期資産 : コールレート ( 有担保翌日 ) 年次リターン 国内債券 : NOMURA-BPI 総合指数

学習指導要領

Microsoft PowerPoint - Econometrics

【FdData中間期末過去問題】中学数学2年(連立方程式の応用2/速さ/数の問題)

Microsoft PowerPoint - 10.pptx

したがって ばらつきを表すには 偏差の符号をなくしてから平均化する必要がある そのひとつの方法は 1 偏差の絶対値を用いることである 偏差の絶対値の算術平均を 平均偏差 という ( )/5=10.8 偏差の符号を取るもうひとつの方法は 2それを2 乗することです 偏差の2 乗の算

学習指導要領

2) 数値データを整理して情報を得る 作成案を考える 数値データの整理方法を考える個人の合計点数と各問の平均点 最高点 最低点は 各問の点数を使って求めることができます それぞれの点数を 表のどの位置に どのような方法で求めるのがよいか考えましょう 1 個人の合計点数を求める 生徒一人一人の合計点数

画像処理工学

Transcription:

1 経済統計分析 3 よく使う記述統計量

事務連絡 Webclass を使ってみようと思います. 登録できる人はしておいてください. 宿題を webclass 経由で回収 返却する予定です. じつはすでにデータをアップロードしています. MS-Word, Excel が使えますか? VBA とかできなくてもいいです. 宿題をこれらで出していただけると, 採点しやすいです. 互換機能 ( 校閲機能含む ) があればいいです. 2

今日のおはなし. 記述統計, ただし 1 変数, ちょっと 2 変数 データの状況をおおまかに表す / 伝える たくさんあるデータをいくつかの数値で代表して表現する ふつー ってなんだ? いくつかの 平均 指数, ふたたび 散らばりと分位点, 丌平等度尺度 今日のタネ 中村隆英ほか.1984. 統計入門 東大出版会, 第 3 章 飯田泰之.2007. 考える技術としての統計学.NHK ブックス 1101. 3

見ただけで分かるか. あるひとつの事柄についてのデータの状況を伝えたい ある 1 変数の分布を伝えたい ヒストグラムは視覚に訴える 正確さを求めるなら, 度数分布表を用いる 度数分布表やヒストグラムでは? 度数分布表はまだデータ量が多い ヒストグラムは違いを表すにはよいが, 類似は示しにくい 記述統計 データの分布の状態をいくつかの数値で表現すること それらの指標をまとめて 特性値 と呼ぶ ふつう と ちらばり をあらわす特性値が基本中の基本 4

ふつう もいろいろ. データの状況を数値 1 つで代表させるには? 例 : 日本人の所得ってどれくらい? ふつう な値を1つ使う それだけ 情報を捨てている ふつう をあらわすいくつかの指標 平均値 算術平均, 幾何平均, 調和平均 加重平均 切り落とし平均 中位値 / 中央値 最頻値 5

算術平均 average, mean 定義 値の総和を観測値数 ( データのサイズ ) で割ったもの x1 x2... x 1 n n x xi n いわゆる 平均値 といえば, 算術平均を指すことが多い 特徴 6 n i 1 個々の観測値の値が分からなくても, サイズと総和から計算可能 例 :1 人当たりGDP = GDP / 人口 逆に, 平均とサイズから総和を計算できる 平均値 をもつ観測値は存在しない( ことが多い ) 例 : 試験の平均点が59.7 点であっても, 各点数は整数値 率 は質的変数の平均値と解釈できる

算術平均の性質 偏差の和がゼロ. 偏差 = 各観測値と平均値との差 n i 1 ( x x) 0 i 平均値の一次変換は, 一次変換の平均値に等しい ax b ax b 平均値の計算の簡単化 ( 暗算 ) によく用いられる 例 : 点数の平均値を求めるとき 主体が同じであれば, 平均の和は和の平均に等しい ax by ax by 例 : 平均収入額と平均支出額の差 = 平均黒字額 7

加重平均 重み weight をつけた和 ( 加重和 ) 重みの和が 1 になるようにしておく 単純平均は, すべての重みが 1/n であるような加重平均 例 :2 グループのそれぞれの単純平均がわかっているとき 全体の平均 n n x x x n n n n 1 2 1 2 1 2 1 2 度数分布からの平均値の計算 階級内の平均値の, 相対頻度をウェイトとする加重平均 階級内平均値が分からないときには, 階級値で代理 k f j 全体の平均 x xi j 1 n 8

伸び率の平均は単純平均でいい?: 幾何平均 原数値伸び率原数値伸び率 100.00 100.00 130.00 30.00 101.00 1.00 91.00-30.00 99.99-1.00 118.30 30.00 100.99 1.00 82.81-30.00 99.98-1.00 107.65 30.00 100.98 1.00 75.36-30.00 99.97-1.00 近似的に 伸び率の単純平均 が用いられることも多い. 複利計算 の恐ろしさ 9 左の例では 伸び率の単純平均 :0% 最後 / 最初 6 = - 4.11% 最後 / 最初の 6 乗根 = -4.61% 幾何平均 積の n 乗根をとったもの 一般に幾何平均のほうが小さい 伸び率の平均値によく用いる 対数変換値の算術平均に等しい

時速の平均のばあい?: 調和平均 例 : 片道 10km の道のりを, 行きは平均時速 10km で, 帰りは平均時速 5km で往復したときの平均時速は? 往復 20km に合計 3 時間かかっているから,6.7km 算術平均 (7.5km) より小さい 一般に調和平均は幾何平均より小さい 定義 幾何平均 n x x... x 調和平均 1 2 n 1 1 1... x x x 1 2 n n 10

例 : 金融資産保有額 ( 日本銀行金融広報中央委員会, 家計の金融行動に関する世論調査 [ 二人以上世帯調査 ] 平成 20 年 ) 頻度 相対頻度 階級値 0 858 22.08 0 0-100 213 5.48 50 100-200 237 6.10 150 200-300 212 5.46 250 300-400 215 5.53 350 400-500 145 3.73 450 500-700 291 7.49 600 700-1000 255 6.56 850 1000-1500 336 8.65 1250 1500-2000 220 5.66 1750 2000-3000 272 7.00 2500 > 3000 386 9.93 6000 N.A. 246 6.33 合計 3886 100.00 1111.55 平均の計算では無回答 (N.A.) は除去している. 11 公表されている平均値は 1,152 万円 しかしそれは少し多いのではない?

(%) 例 : 金融資産保有額 ( 続き ) 25 20 15 10 相対度数が最も多い階級 累積相対度数が 50% を超える階級 算術平均が含まれる階級 5 0 0 50 150 250 350 450 600 850 1250 1750 2500 6000 ( 階級値 ) 12

ふつう を表す他の特性値 中位値, 中央値,median データを大きさ順に並べたときの真ん中の値 累積相対度数が 50% になる観測値の値 中位値からの偏差の絶対値を最小化する 最頻値,mode 相対度数が最も大きくなる階級の階級値 平均値 中位値 最頻値の関係 ヒストグラムが左右対称ならすべて等しい 右に歪んだ分布 : 最頻値 < 中位値 < 平均値 所得 消費 資産など, 右に歪んだ分布は多い 金融資産保有額の中位値は 430 万円 13

中位値によく似た他の特性値 中位値の別名 :50% 分位点 下 から数えて 50% のところにあるから. q% 分位点 percentile 累積相対度数がq% になる観測値 例 :1% 分位点より小さな値を取る観測値は全体の1% 四分位点 quartile 25% 分位点が第 1 四分位点,75% 分位点が第 3 四分位点 十分位 decile 10%, 20%,, 90% 分位点のこと. 公表統計では階級が十分位に分けられていることもある 14

外れ値 outlier 算術平均は極端な値の影響を受けやすい 中位値は 外れた 値の影響が小さい しかし, 算術平均でも 外れた 値を外せば使えるのでは? 注意! 異常値 ではない 例 : 日本の都道府県データでの北海道や東京都 切り落とし平均 trimmed mean たとえば, 両側 1%(1% 分位点より小さいデータと 99% 分位点より大きいデータ ) を除去した残りについての算術平均 3 点平均 trimean:( 第 1 四分位 + 中位値の 2 倍 + 第 3 四分位 ) を 4 で割った値 15

指数 : ふつう がどう変化しているか 全体的な状況の変化を大雑把に知りたい 各時点における ふつう がどう変化しているか 指数 : 平均値 が時間によってどう動いているか 例 : 物価指数は各時点の平均的な物価を示す 例 : 株価指数は各時点の平均的な株価を示す 各時点のふつう をどう定義するか? 物価指数は, 単に値段の算術平均でよいのか? あまり買わないものの値段が変化しても 実感に合わない 各時点で, なんらかの加重平均を使おう 購入量で 値段が変わらなくて購入量が変化したら指数も変化 16 重みは変化させない どの時点での重みを使うの? ラスパイレス, パーシェ,...

散らばり の大きさ 使われる機会は比較的少ないものの, 簡単なもの 計算がめんどう, 数学的な扱いがめんどう 平均偏差 偏差 ( 平均との差 ) の絶対値の算術平均 レンジ range( 範囲 ) 最大値と最小値の差 外れ値の影響を受けやすい 四分位範囲 第 3 四分位と第 1 四分位の差 外れ値の影響が小さい 範囲内の散らばり方についてはなにも言えない 17

よく使う 散らばり の指標 : 分散 variance 散らばっている とは? 平均値 の周りに集まっているかどうか 偏差の平均値を取ればよい? 偏差の合計は常にゼロ 分散 偏差を2 乗して正の値に直してその平均をとったもの 2 2 n 2 x1 x... xn x x i 1 i x 分散 s n n 観測値がすべて同じ値を取ればゼロ 分散の公式の分子の部分を 変動 とも呼ぶ 2 単位 はもとのデータの単位の 2 乗 18 絶対値が出てこないので数学的にも扱いやすい

標準偏差 standard deviation 定義 : 分散の 2 乗根 性質 標準偏差 s s 2 i 1 標準偏差は 単位 がもとのデータと同じ 1 次変換 (ax + b) したデータの標準偏差はそのまま 1 次変換 (ax + b) したデータの標準偏差は 2 乗される 2 2 s 2 ax b a s, sax b a s いずれも, 定数 b に依存しない x x 2 平均から標準偏差 k 個分の範囲内に入らないデータの相対度数は (1/k 2 ) より小さい : チェブシェフの丌等式 n i n 19

変動係数 標準偏差は 単位 を持つ 平均を中心に,±3s の外にある観測値の相対度数は 1/9 以下 とはいえ, 他のデータとの比較は難しい 例 : 日本は他の国と比べて所得や資産の散らばりが大きいのか 変動係数 : 標準偏差を平均で割った値 単位を持たない ( 無名数 ) データの単位が異なっても比較できる 例 : 日本は他の国と比べて所得の分散が大きいのか 例 : 日本の所得分布は広がってきたのか : インフレの影響を除去 20

例 : 金融資産保有額 階級値 相対度数 平均 分散 0 23.57 0.00 291236 50 5.85 2.93 65942 150 6.51 9.77 60199 250 5.82 14.56 43231 350 5.91 20.67 34256 450 3.98 17.93 17434 600 7.99 47.97 20920 850 7.01 59.55 4792 1250 9.23 115.38 1769 1750 6.04 105.77 24636 2500 7.47 186.81 144054 平均 階級値と相対度数 /100 の積 すべて足すと算術平均 分散 階級値と平均の差の 2 乗に, 相対度数 /100 をかけたもの すべて足すと分散 分散の 2 乗根が標準偏差 標準偏差 = 1520.48 変動係数 = 1.37 5000 10.60 530.22 1603387 1111.55 2311859 21

データの標準化 ここでは, それぞれのデータに注目. 標準偏差を使うと, 平均からどれくらい離れているか をそれぞれのデータについて計算できる 各観測値から平均を引いて, 標準偏差で割るもとの値 平均標準化されたデータ 標準偏差 標準化されたデータの平均はゼロ, 標準偏差は 1 異なるデータの 位置 を比較できる xi s x 偏差値 : 平均 50, 標準偏差 10に標準化した値 xi x 偏差値 50 10 s 22

丌平等 指標 ローレンツ曲線 (Lorenz curve) 所得や資産の小さい順に観測値を並べ替え, 下から x % の人たちが全体の y % を保有している, という関係を (x-y) 平面にプロットしたもの 累積相対度数と, 累積保有比率のプロット (0, 0) と (1, 1) を通るが, すべてが同じ量だけ保有しているとき, (0, 0) と (1, 1) を結ぶ 45 度線になる ( 完全平等線 ) 一般に,45 度線の右下にふくらんだ線となり, 右下にふくらむほど丌平等とされる 単位に依存しないので, 異なる集合の比較が可能. ただし, 曲線が交差するときは順位をつけられない 23

丌平等 指標 ジニ係数 (Gini coefficient) 定義はややこしいので省略. ローレンツ曲線と完全平等線 (45 線 ) で囲まれた弓形の面積の 2 倍に等しい ローレンツ曲線が交差するケースでも順位付けが可能 ハーフィンダール指数 (Herfindahl Index) 集中度の尺度として知られる 企業の市場占有率の 2 乗の和 例 : 複占で, シェアがともに 50% のとき,0.5 2 + 0.5 2 = 0.5 その他 丌平等 議論で使われる指標 24 タイル尺度 貧困率

例 : 金融資産保有額 階級値 累積度数 累積資産 0 23.57 0.00 50 29.42 0.26 150 35.93 1.14 250 41.76 2.45 350 47.66 4.31 450 51.65 5.92 600 59.64 10.24 850 66.65 15.60 1250 75.88 25.98 1750 81.92 35.49 2500 89.40 52.30 5000 100.00 100.00 25 100 90 80 70 60 50 40 30 20 10 0 0 10 20 30 40 50 60 70 80 90 100