1 日目の内容 午前 記述統計 1. データの表現 図表によるデータの可視化 2. データ分布の特徴づけ 代表値 : 平均, 中央値, 最頻値 散布度 : 分散, 標準偏差, 四分位偏差 3. データの比較 標準化 基準化 2 変数の関係 : 散布図, 共分散, 相関係数, クロス表 2

Similar documents
<4D F736F F D208D A778D5A8A778F4B8E7793B CC A7795D2816A2E646F6378>

Microsoft PowerPoint - 基礎・経済統計6.ppt

平均値 () 次のデータは, ある高校生 7 人が ヵ月にカレーライスを食べた回数 x を調べたものである 0,8,4,6,9,5,7 ( 回 ) このデータの平均値 x を求めよ () 右の表から, テレビをみた時間 x の平均値を求めよ 階級 ( 分 ) 階級値度数 x( 分 ) f( 人 )

Excelによる統計分析検定_知識編_小塚明_1_4章.indd

Microsoft Word - lec_student-chp3_1-representative

Microsoft PowerPoint slide2forWeb.ppt [互換モード]

EBNと疫学

Microsoft PowerPoint - データ解析基礎2.ppt

Microsoft PowerPoint - データ解析基礎4.ppt [互換モード]

<4D F736F F F696E74202D B835E82CC8EED97DE B835E82CC834F BB F0955C82B793C190AB926C>

散布度

Microsoft PowerPoint - 代表値と散布度.ppt [互換モード]

講義「○○○○」

経営統計学

_KyoukaNaiyou_No.4

第 3 回講義の項目と概要 統計的手法入門 : 品質のばらつきを解析する 平均と標準偏差 (P30) a) データは平均を見ただけではわからない 平均が同じだからといって 同一視してはいけない b) データのばらつきを示す 標準偏差 にも注目しよう c) 平均

母平均 母分散 母標準偏差は, が連続的な場合も含めて, すべての個体の特性値 のすべての実現値 の平均 分散 標準偏差であると考えてよい 有限母集団で が離散的な場合, まさにその意味になるが, そうでない場合も, このように理解してよい 5 母数 母集団から定まる定数のこと 母平均, 母分散,

基礎統計

Microsoft PowerPoint - stat-2014-[9] pptx

Microsoft PowerPoint - statistics pptx

情報工学概論

Microsoft PowerPoint ppt

講義ノート p.2 データの視覚化ヒストグラムの作成直感的な把握のために重要入力間違いがないか確認するデータの分布を把握する fig. ヒストグラムの作成 fig. ヒストグラムの出力例 度数分布表の作成 データの度数を把握する 入力間違いが無いかの確認にも便利 fig. 度数分布表の作成

Microsoft Word - 保健医療統計学112817完成版.docx

Microsoft PowerPoint - sc7.ppt [互換モード]

スライド 1

様々なミクロ計量モデル†

Microsoft PowerPoint - statistics pptx

3章 度数分布とヒストグラム

3章 度数分布とヒストグラム

第4回

スライド 1

Microsoft PowerPoint - statistics pptx

【指導のポイント】

確率分布 - 確率と計算 1 6 回に 1 回の割合で 1 の目が出るさいころがある. このさいころを 6 回投げたとき,1 度も 1 の目が出ない確率を求めよ. 5 6 /6 6 =15625/46656= (5/6) 6 = ある市の気象観測所での記録では, 毎年雨の降る

講座内容 第 1 週 データサイエンスとは 第 2 週 分析の概念と事例ビジネス課題解決のためのデータ分析基礎 ( 事例と手法 )1 第 3 週 分析の具体的手法ビジネス課題解決のためのデータ分析基礎 ( 事例と手法 )2 第 4 週 ビジネスにおける予測と分析結果の報告ビジネス課題解決のためのデー

データの整理 ( 度数分布表とヒストグラム ) 1 次元のデータの整理の仕方として代表的な ものに度数分布表とヒストグラムがあります 度数分布表観測値をその値に応じていくつかのグループ ( これを階級という ) に分類し 各階級に入る観測値の数 ( これを度数という ) を数えて表にしたもの 2

<4D F736F F D208EC08CB18C7689E68A E F193F18D8095AA957A C C839395AA957A814590B38B4B95AA957A2E646F63>

PowerPoint プレゼンテーション

Microsoft PowerPoint - 測量学.ppt [互換モード]

森林水文 水資源学 2 2. 水文統計 豪雨があった時, 新聞やテレビのニュースで 50 年に一度の大雨だった などと報告されることがある. 今争点となっている川辺川ダムは,80 年に 1 回の洪水を想定して治水計画が立てられている. 畑地かんがいでは,10 年に 1 回の渇水を対象として計画が立て

Microsoft Word - Stattext07.doc

ファイナンスのための数学基礎 第1回 オリエンテーション、ベクトル

学習指導要領

目次 1 章 SPSS の基礎 基本 はじめに 基本操作方法 章データの編集 はじめに 値ラベルの利用 計算結果に基づく新変数の作成 値のグループ化 値の昇順

PowerPoint プレゼンテーション

夏期講習高 センター数学 ⅠA テキスト第 講 [] 人の生徒に数学のテストを行った 次の表 は, その結果である ただし, 表 の数値はすべて正確な値であるとして解答せよ 表 数学のテストの得点 次

ビジネス統計 統計基礎とエクセル分析 正誤表

数値計算法

Microsoft PowerPoint - e-stat(OLS).pptx

Microsoft PowerPoint - Statistics[B]

統計学 Ⅱ8-9 章 確率分布 確率の条件 8 ページ p: 確率関数 p は の関数とみなせる 確率分布 : すべてのに関する = または p の分布 グラフや表で表わすことが多い サイコロの例 : 計 縦軸は p または = 棒の幅は 線 確率 p.. = / / / / / / サイコロの目の

テレビ学習メモ 数学 Ⅰ 第 40 回 第 5 章データの分析 相関係数 監修 執筆 湯浅弘一 今回学ぶこと データの分析の最終回 今までの代表値を複合し ながら 2 種類のデータの関係を数値化します 相関係数は 相関がどの程度強いのかを表しています 学習のポイント 12 種類のデータの相関関係を

Probit , Mixed logit

データ解析

データの種類とデータの分布

Microsoft PowerPoint 確率レジュメA

基礎統計

<4D F736F F D208EC08CB18C7689E68A E F AA957A82C682948C9F92E82E646F63>

統計学 - 社会統計の基礎 - 正規分布 標準正規分布累積分布関数の逆関数 t 分布正規分布に従うサンプルの平均の信頼区間 担当 : 岸 康人 資料ページ :

多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典

基礎統計

Blue circle & gradation

Microsoft Word - Stattext12.doc

Microsoft PowerPoint - R-stat-intro_04.ppt [互換モード]

<4D F736F F D208FAC8A778D5A8A778F4B8E7793B CC81698E5A909495D2816A2E646F6378>

自動車感性評価学 1. 二項検定 内容 2 3. 質的データの解析方法 1 ( 名義尺度 ) 2.χ 2 検定 タイプ 1. 二項検定 官能検査における分類データの解析法 識別できるかを調べる 嗜好に差があるかを調べる 2 点比較法 2 点識別法 2 点嗜好法 3 点比較法 3 点識別法 3 点嗜好

<4D F736F F D208EC08CB18C7689E68A E F193F18D8095AA957A C C839395AA957A814590B38B4B95AA957A2E646F63>

統計学の基礎から学ぶ実験計画法ー1

不偏推定量

Microsoft PowerPoint - Inoue-statistics [互換モード]

統計的データ解析

MedicalStatisticsForAll.indd

切片 ( 定数項 ) ダミー 以下の単回帰モデルを考えよう これは賃金と就業年数の関係を分析している : ( 賃金関数 ) ここで Y i = α + β X i + u i, i =1,, n, u i ~ i.i.d. N(0, σ 2 ) Y i : 賃金の対数値, X i : 就業年数. (

stat-base_ppt [互換モード]

平成 7 年度数学 (3) あるゲームを 回行ったときに勝つ確率が. 8のプレイヤーがいる このゲームは 回ごとに独 立であるとする a. このゲームを 5 回行う場合 中心極限定理を用いると このプレイヤーが 5 回以上勝つ確率 は である. 回以上ゲームをした場合 そのうちの勝ち数が 3 割以上

青焼 1章[15-52].indd

Excelによる統計分析検定_知識編_小塚明_1_4章.indd

CAEシミュレーションツールを用いた統計の基礎教育 | (株)日科技研

0415

Microsoft PowerPoint - statistics08_03.ppt [互換モード]

モジュール1のまとめ

Microsoft PowerPoint - CVM.ppt [互換モード]

相関係数と偏差ベクトル

学習指導要領

日心TWS

スライド 1

Microsoft Word - Stattext13.doc

テレビ講座追加資料1105

第7章

ダンゴムシの 交替性転向反応に 関する研究 3A15 今野直輝

学習指導要領

Excelによる統計分析検定_知識編_小塚明_5_9章.indd

画像類似度測定の初歩的な手法の検証

横浜市環境科学研究所

stat-base [互換モード]

memo

Medical3

RSS Higher Certificate in Statistics, Specimen A Module 3: Basic Statistical Methods Solutions Question 1 (i) 帰無仮説 : 200C と 250C において鉄鋼の破壊応力の母平均には違いはな

Microsoft Word - appendix_b

Transcription:

記述統計と確率変数 確率分布 統計数理研究所 坂田綾香 モデリング研究系 1

1 日目の内容 午前 記述統計 1. データの表現 図表によるデータの可視化 2. データ分布の特徴づけ 代表値 : 平均, 中央値, 最頻値 散布度 : 分散, 標準偏差, 四分位偏差 3. データの比較 標準化 基準化 2 変数の関係 : 散布図, 共分散, 相関係数, クロス表 2

1 日目の内容 午後 確率と統計 4. 確率と統計の基礎 確率変数 確率関数と確率密度関数 確率変数の期待値 分散 共分散 相関係数 5. 推測統計学の基礎 母集団と標本 大数の法則と中心極限定理 3

変数と観測対象 一般的にデータは, 観測対象 変数 の形式で得られる 観測対象とは, データを取得する対象 変数とは, 人や物 時間によって値が異なる特性 身長, 年齢, 性別, 株価など 4

立川市の気象データ データの例 年 合計 降水量 (mm) 気温 ( ) 日照最大平均時間日最最高最低大 1 時間 (h) 10 分間 日平均 日最高 日最低 平成 20 1,994.0 123.0 58.5 21.5 15.4 20.3 11.1 37.4-5.5 1,863.0 21 1,566.0 130.5 39.5 11.0 15.6 20.3 11.3 34.6-5.8 1,793.9 22 1,714.0 99.0 41.5 21.0 15.8 20.8 11.2 37.2-5.2 2,016.2 23 1,427.5 157.0 24.0 10.0 15.3 20.4 10.7 37.2-6.8 2,073.5 24 1,696.0 117.0 43.0 25.0 14.9 19.8 10.5 36.2-5.5 2,057.1 http://www.city.tachikawa.lg.jp/somu/shise/toke/nenpo/tokehyo.html 5

データの例 立川市のごみ排出量の推移 ( 単位 : トン ) 年度総数 小 計 収集ごみ持ち込み資源ごみ可燃物不燃物粗大ごみ 1 日当たりの排出量 19 61,844 31,972 29,006 2,116 850 18,867 11,005 169 20 59,826 31,456 28,673 1,951 832 17,736 10,634 164 21 57,391 29,669 26,902 1,935 832 16,160 11,562 157 22 53,399 28,764 25,414 2,538 812 12,901 11,734 146 23 52,334 29,109 25,629 2,675 805 12,054 11,171 143 http://www.city.tachikawa.lg.jp/somu/shise/toke/nenpo/tokehyo.html 6

データの要約の必要性 データは一般的に巨大 眺めているだけではよく分からない そこでデータを要約する必要がある 図表による要約 度数分布表, 棒グラフ, ヒストグラムなど 数値要約 最頻値, 中央値, 平均値, 標準偏差, 相関係数など データ要約により, 必要な情報を簡潔に伝える方法を記述統計と呼ぶ 7

(1) データの型による分類 量的データ データの種類 連続データ : 身長 体重 温度 時間など 離散データ : 人数 カウントデータなど 質的データ 名義尺度 : 性別 天気 居住地域など 順序尺度 : 薬剤の治療効果の判定 ( 悪化 不変 改善 ) など 8

データの種類 (2) データの次元による分類 1 次元データ : 変数が1つだけのデータ ( 例 ) ある学年全員の数学の点数 多次元データ : 2 つ以上の変数が組となっているデータ ( 例 ) 2 次元データ : ある学年全員の数学と英語の点数 3 次元データ : ある学年全員の数学と英語と物理の点数 今日の講義では 2 次元データまでを扱います 9

1 日目の内容 午前 記述統計 1. データの表現 図表によるデータの可視化 2. データ分布の特徴づけ 代表値 : 平均, 中央値, 最頻値 散布度 : 分散, 標準偏差, 四分位偏差 3. データの比較 標準化 基準化 2 変数の関係 : 散布図, 共分散, 相関係数, クロス表 10

記述統計学 記述統計学とは データのもっている主要な特性をより鮮明に 表現するために, データを要約したり 作表をしたりすること一般を指す ( 統計科学事典, 清水良一訳 ) 11

ここで扱うデータ 統計数理研究所による 日本人の国民性調査 より あなたは結婚していらっしゃいますか? もういちど生まれかわるとしたら あなたは男と女の どちらに 生れてきたいと思いますか? あなたが最後にいらっしゃった学校はなんですか? 国税庁による 民間給与実態統計調査 ( 平成 26 年実施 ) これらのデータを以下の図表により可視化する (1) 度数分布表 (2) 棒グラフ (3) ヒストグラム (4) 折れ線グラフ (5) 円グラフ 12

(1) 度数分布表 観測値のとりうる値をいくつかのカテゴリ ( 階級 ) に分類 各階級で 観測値がいくつあるかを表にまとめる 度数 : 各カテゴリーに所属する観測値の数 分布 : データがある値をとる頻度を表したもの 13

離散変数の度数分布表 あなたは結婚していらっしゃいますか? 項目 度数 相対度数 累積相対度数 未婚 17 17 17 死別 7 7 24 離別 5 5 29 既婚 71 71 100 その他 0 0 100 各階級の度数を全観測数で割ったもの ( 100) 最初の階級から相対度数を足し合わせたもの 14

連続変数の度数分布表 連続変数の場合には階級を作り, 度数分布を作成する 男性の給与の度数分布 ( 民間給与実態統計調査 ) 階級 ( 万円 ) 度数 ( 万人 ) 相対度数 累積相対度数 200 未満 301.3 10.7 10.7 200~299 371.4 13.2 24.0 300~399 513.8 18.3 42.3 400~499 487.8 17.4 59.7 500~599 358.2 12.8 72.5 600~699 235.6 8.4 80.9 700~799 165.7 5.9 86.8 800~899 112.3 4.0 90.8 900~999 75.2 2.7 93.5 1000 以上 183.6 6.5 100.0 15

(2) 棒グラフ あなたは結婚していらっしゃいますか? 80 70 60 割合 (%) 50 40 30 20 10 0 未婚死別離別既婚その他 棒と棒はくっつけない 16

(2) 棒グラフ 男性の給与 ( 民間給与実態統計調査より ) 割合 (%) 20 18 16 14 12 10 8 6 4 2 0 17

棒グラフとヒストグラムの違い 棒グラフ : 階級 項目ごとの個体数を表す ヒストグラム : それぞれの柱の 面積 ( 太さ 高さ ) が 度数を表す 例えば 幅が 500 万円の柱は 幅が 100 万円の柱の 5 倍の太さがあるので 同じ度数でも柱の高さは 1/5 になる 18

( 万人 ) 6 5 4 (3) ヒストグラム 男性の給与 ( 民間給与実態統計調査より ) 300~400( 万円 ) の 513.8( 万人 ) を 100 5.138 として表す 3 2 1 1000~1500( 万円 ) の 136.4( 万人 ) を 500 0.2728 として表す 0 ( 万円 ) 19

(3) ヒストグラム 幅のとり方で印象が異なるので注意が必要 男性の給与 ( 民間給与実態統計調査より ) 1000 万円以下を100 万円刻みにした場合 1000 万円以下を200 万円刻みにした場合 6 5 5 4 4 3 3 2 2 1 1 0 0 20

(4) 円グラフ あなたが 最後にいらっしゃった学校はなんですか? 2008 年 1978 年 高校大学中学校小学校その他 違いが視覚的に分かる 21

(5) 折れ線グラフ もう一度生まれかわるとしたら あなたは男と女のどちらに生れてきたいと思いますか? 割合 (%) 100 90 80 70 60 50 40 30 20 10 0 男 と回答した人の割合の変化 1958 1963 1968 1973 1978 1983 1988 1993 1998 2003 2008 2013 時系列的変化を示すのに便利 男 女 実施年 22

データを特徴づける 分布の性質をどのように説明するか 6 5 4 3 2 1 0 分布の中心的な位置は? 分布の広さはどれくらい? ピークはどれくらい急なのか? 分布の裾はどんな形なのか? 定量的に分布の特徴を記述したい これにより データの背後にある現象の解釈につながる 異なるデータとの比較を定量的に行うことができる 23

1 日目の内容 午前 記述統計 1. データの表現 図表によるデータの可視化 2. データ分布の特徴づけ 代表値 : 平均, 中央値, 最頻値 散布度 : 分散, 標準偏差, 四分位偏差 3. データの比較 標準化 基準化 2 変数の関係 : 散布図, 共分散, 相関係数, クロス表 24

( 補足 ) を使った計算 1. 2. 3. 25

( 補足 ) を使った計算 4. = 1 + 1 + 1 + 1 + ( 1) 5. = 1 + 1 + 1 + 1 + 1 26

記述統計量 データの分布を特徴づける指標を記述統計量と呼ぶ 統計量 とは統計学で用いる指標を指す ここでは以下の記述統計量について説明する 代表値 : 分布を代表する値 散布度 : 分布の広がり ばらつきを表す指標 27

代表値の例 最頻値 (mode): 最も頻繁に出現する値 外れ値に強い 一つに決まらない場合がある 中央値 (median) : 真ん中の値 外れ値に強い 全てのデータを考慮できない 平均値 (mean) : 個々の値の和 対象の数 ( 個体数 ) 全てのデータを考慮できる 外れ値に弱い 対象の数 = 1 個々の値 28

平均の計算 3 人数 2 1 = 1 1 2 3 4 5 ゴールデンウィークの休暇日数 = 1 10 1 + 3 2 + 3 3 + 4 + 2 5} = 3 29

代表値の例 最頻値 = 0 中央値 = 0 平均値 = 0 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0-8 -6-4 -2 0 2 4 6 8 左右対称な分布では 最頻値 = 中央値 = 平均値となる 30

代表値の例 最頻値 = 5 中央値 = 5 平均値 = 5.5 0.18 0.16 0.14 0.12 0.1 0.08 0.06 0.04 0.02 0 0 5 10 15 20 非対称な分布では 3 つの値は一致しない 31

代表値の例 多峰性の分布の場合 最頻値 = 0 0.25 0.2 中央値 = 1.5 平均値 = 2.5 0.15 0.1 0.05 0-5 0 5 10 15 分布の 中心的な値 を表す指標として解釈できない 32

代表値だけでは分布を区別できない どちらの分布も = 0, = 0, = 0 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0-15 -10-5 0 5 10 15 0.14 0.12 0.1 0.08 0.06 0.04 0.02 0-15 -10-5 0 5 10 15 33

代表値だけでは分布を区別できない どちらの分布も = 0, = 0, = 0 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0-15 -10-5 0 5 10 15 0.14 0.12 0.1 0.08 0.06 0.04 0.02 0-15 -10-5 0 5 10 15 データのばらつきを表す指標が必要 散布度 34

分布のばらつきを特徴づける 平均値と個々の値が 平均的にどの程度離れているかを表す指標 分散! = 1 例えば の単位が kg のとき 分散の単位は kg 2 となる 標準偏差! = 1 標準偏差の単位は の単位と同じ 35

分散による分布の区別 どちらの分布も = 0, = 0, = 0 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0-15 -10-5 0 5 10 15 0.14 0.12 0.1 0.08 0.06 0.04 0.02 0-15 -10-5 0 5 10 15! = 1! = 9 36

分散の計算 3 = 3 人数 2 1! = 1 1 2 3 4 5 = 1 10 # 1 3 + 3 2 3 + 3 3 3 + 4 3 + 2 5 3 } = 1.6 ゴールデンウィークの休暇日数 37

歪度 分布の左右非対称性を表す 1 % =! どちらの分布も = 1.13,! = 0.36 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 1 2 3 4 5 6 7 8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0-4 -3-2 -1 0 1 2 3 4 % = 1.66 % = 0 38

尖度 分布のとがり具合を表す 1 ' =! 0.45 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 どちらの分布も = 0,! = 1.56, % = 0 0.3 0.25 0.2 0.15 0.1 0.05 0-6 -4-2 0 2 4 6 0-6 -4-2 0 2 4 6 ' = 3.82 ' = 3 39

その他の散布度指標 分位点 データを昇順に並べ 下側の p% のところにある値を p% 分位点 と呼ぶ 第 1 四分位点 :25% 分位点, 下側四分位点 第 2 四分位点 :50% 分位点, 中央値 第 3 四分位点 :75% 分位点, 上側四分位点 範囲 : データの最大値ー最小値 四分位範囲 : 上側四分位点ー下側四分位点 中央部で 50% のデータが入る範囲 40

箱ひげ図による表現 四分位範囲 第 3 四分位 第 1 四分位 1.5 四分位範囲 中央値 1.5 四分位範囲 ひげの中に全てのデータが収まる場合 ひげは最大値 最小値までしか延ばさない ひげの外にあるデータは点で表す 41

1 日目の内容 午前 記述統計 1. データの表現 図表によるデータの可視化 2. データ分布の特徴づけ 代表値 : 平均, 中央値, 最頻値 散布度 : 分散, 標準偏差, 四分位偏差 3. データの比較 標準化 基準化 2 変数の関係 : 散布図, 共分散, 相関係数, クロス表 42

標準化 基準化 異なる分布に従うデータを比較するための手続き例題 Aさんのテストの点数 数学 :75 点 英語 :65 点 Aさんは, 数学と英語のどちらの方が得意でしょうか? 点数で比較すると 数学の方が得意? 43

判断の手がかり 数学における1 点と, 英語における1 点は同じ価値? 学年の平均点と比較してみる Aさんの数学の得点ー数学の平均点 と Aさんの英語の得点ー英語の平均点 を比較する しかし, 数学における平均点との差と英語における平均点との差が同じ価値とは限らない Aさんよりも高い点数を取った人が少ないほど, その得点は貴重だと考える 平均値だけでなく, 点数の散らばりも考慮する必要がある 44

数学 英語の点の分布 数学 英語 平均 : = 65 平均 : = 50 割合 (%) 標準偏差 :! = 8 割合 (%) 標準偏差 :! = 5 5 4.5 4 3.5 3 2.5 2 1.5 1 0.5 0 0 20 40 60 80 100 8 7 6 5 4 3 2 1 0 0 20 40 60 80 100 Aさん (75 点 ) 点数 Aさん (65 点 ) A さんより高い点数の人は 9.5% A さんより高い点数の人は 1% 点数 45

標準化 基準化 を標準化して ) とする : ) を標準得点 (z 得点 ) 標準化変量 基準化変量と呼ぶ 標準得点の平均は0, 標準偏差は1になる 標準化により 変数値の相対的 位置 を把握できる 難易度の異なる数学と英語のテストにおいて 数学でX 点を取ったことと 英語でY 点取ったことを 全体の中での位置 という観点で比較できる 46

標準化した数学 英語の点の分布 数学 65 標準化得点 : 8 割合 (%) 割合 (%) 4 4 英語 標準化得点 : 50 5 3.5 3 2.5 2 1.5 1 0.5 0-10 -5 0 5 10 標準得点 3.5 3 2.5 2 1.5 1 0.5 0-10 -5 0 5 10 標準得点 どちらも平均 0 標準偏差 1 の分布になる 47

A さんの得点の場合 75 65 数学の標準得点 : 8 65 50 英語の標準得点 : 5 割合 (%) 4 = 1.25 = 3 数学英語 3.5 3 英語の方が得意と言える 2.5 2 1.5 1 0.5 0-10 -5 0 5 10 標準得点 48

ここまでの議論は 注意 データが正規分布に従うことを仮定している 平均 分散のみで形を指定できる 左右対称な分布 ( 午後の講義で詳しく扱います ) データが厳密に正規分布に従わなくても 正規分布に近い 左右対称な分布をしている場合は 標準化によるデータの比較は有効である また標準化はデータの大きさを揃える効果があるため 回帰分析において重要 49

標準化の実用例 偏差値 点数 を標準化したものを ) 得点と呼ぶ : ) 得点の平均は 0 標準偏差は 1. ) =! 割合 (%) 偏差値 =10 ) + 50 偏差値の平均は 50 標準偏差は 10 4 3.5 3 2.5 2 1.5 1 正規分布を仮定した場合の偏差値の分布 0.5 0 0 20 40 60 80 100 偏差値 50

変動係数 1 人当たり県民所得 の推移 ( 内閣府県民経済計算より ) 年平均値 ( 万円 ) 標準偏差 ( 万円 ) 1955 7.4 1.4 1975 101.6 14 2013 282.7 39.3 最も格差が大きい年は? 標準偏差が最も大きいのは 2013 年 そもそも平均値が大きく異なる ( 貨幣価値が異なる ) が 標準偏差を単純に比較してよいのか? 51

変動係数 平均値の大きさを考慮したうえで ばらつきを評価する 変動係数 = 標準偏差 平均値 年平均値 ( 万円 ) 標準偏差 ( 万円 ) 変動係数 1955 7.4 1.4 0.189 1975 101.6 14 0.138 2013 282.7 39.3 0.139 相対的な地域格差は 1955 年が最も大きい 52

1 日目の内容 午前 記述統計 1. データの表現 図表によるデータの可視化 2. データ分布の特徴づけ 代表値 : 平均, 中央値, 最頻値 散布度 : 分散, 標準偏差, 四分位偏差 3. データの比較 標準化 基準化 2 変数の関係 : 散布図, 共分散, 相関係数, クロス表 53

2 変数間の関係 統計データの解析では 複数の変数間の関係性に関心があることが多い ( 例 ) BMIが大きい人ほど血圧が高いか? 雨が降るほど渋滞が発生しやすいか? ネットでの人気と視聴率の関係は? ここでは 2 変数の関係性を表すための 記述統計学の方法をまとめる 54

ここで扱うデータ 平成 26 年死傷事故件数 ( 国道交通省より ) 都道府県 自動車専用道路 一般国道 ( 人口 10 万人当たり ) 一般都道府県道等 市町村道その他 北海道 8.3 56.1 48.6 120.7 宮城県 7.9 109.7 83.9 191.2 新潟県 5.0 77.9 65.8 124.4 東京都 8.4 29.3 105.3 134.7 愛知県 11.9 111.1 183.6 312.2 大阪府 12.3 101.5 147.6 222.1 広島県 12.1 123.3 94.3 210.8 福岡県 11.4 200.7 192.7 379.0 沖縄県 3.8 132.9 134.2 168.3 55

散布図 一般国道での事故数 450.0 400.0 350.0 300.0 250.0 200.0 150.0 100.0 50.0 0.0 佐賀県 兵庫県 0.0 5.0 10.0 15.0 20.0 25.0 自動車専用道路での事故数 56

散布図 市町村道その他での事故数 500.0 450.0 400.0 350.0 300.0 250.0 200.0 150.0 100.0 50.0 0.0 静岡県 香川県 0.0 100.0 200.0 300.0 400.0 一般都道府県道等での事故数 57

散布図 市町村道その他での事故数 500.0 450.0 400.0 350.0 300.0 250.0 200.0 150.0 100.0 50.0 0.0 静岡県 佐賀県 0.0 100.0 200.0 300.0 400.0 500.0 一般国道での事故数 58

散布図から読み取れること,,, + X が大きいほど Y も大きい Y が大きいほど X も大きい + X と Y の大きさに 関連はない + X が大きいほど Y は小さい Y が大きいほど X は小さい X と Y の間には正の相関がある X と Y は無相関である X と Y の間には負の相関がある 59

2 変数の関係を表す統計量 共分散 + と, の間に 正の相関があるとき 正の値をとる 相関関係が強いほど 共分散は大きくなる 負の相関があるとき 負の値をとる 相関関係が強いほど 共分散の絶対値は大きくなる 無相関のとき 0 に近い値をとる! -. = 1 / / 60

共分散 (4) (1) 共分散が正のとき (1), (3) にデータが多い / / 1 共分散が負のとき (2), (4) にデータが多い (3) (2) 共分散が 0 に近いとき 全ての領域にデータがまんべんなく存在 61

共分散 平成 26 年死傷事故件数の共分散 X 自動車専用道路 一般国道 一般都道府県道等 市町村道その他 Y 自動車専用道路 一般国道 ( 人口 10 万人当たり ) 一般都道府県道等 市町村道その他 95.12 83.00 168.45 2520.11 3933.28 4405.79 62

X 自動車専用道路 一般国道 一般都道府県道等 市町村道その他 共分散 平成 26 年死傷事故件数の共分散 Y 自動車専用道路 一般国道 ( 人口 100 万人当たり ) 一般都道府県道等 市町村道その他 9512 8300 16845 252011 393328 データのスケールが 10 倍になると共分散は 100 倍になる 440579 63

相関係数 共分散を標準偏差の積で割ったものを相関係数と呼ぶ -.! - : の標準偏差,!. : / の標準偏差 -. -. -. データのスケールを表す標準偏差で割ることで 相関係数は 1から1の間に収まる 正の相関があるとき 0 -. は正の値をとる 無相関のとき 0 -. は0に近い 負の相関があるとき 0 -. は負の値をとる 64

4 3 2 1 0-1 -2-3 0 = 0-4 -4-3 -2-1 0 1 2 3 4 4 3 2 1 0-1 -2-3 0 = 0.6-4 -4-3 -2-1 0 1 2 3 4 相関係数と散布図 4 3 2 1 0-1 -2-3 0 = 0.2-4 -4-3 -2-1 0 1 2 3 4 4 3 2 1 0-1 -2-3 0 = 0.8-4 -4-3 -2-1 0 1 2 3 4 4 3 2 1 0-1 -2-3 0 = 0.4-4 -4-3 -2-1 0 1 2 3 4 4 3 2 1 0-1 -2-3 0 = 1.0-4 -4-3 -2-1 0 1 2 3 4 65

4 3 2 1 0-1 相関係数と散布図 4 3 2 1 0-1 4 3 2 1 0-1 -2-3 -3-3 0 = 0 0 = 0.2 0 = 0.4-4 -4-3 -2-1 0 1 2 3 4 4-2 -2-4 -4-3 -2-1 0 1 2 3 4 4-4 -4-3 -2-1 0 1 2 3 4 4 3 2 1 0-1 -2-3 0 = 0.6-4 -4-3 -2-1 0 1 2 3 4 3 2 1 0-1 -2-3 0 = 0.8-4 -4-3 -2-1 0 1 2 3 4 3 2 1 0-1 -2-3 0 = 1.0-4 -4-3 -2-1 0 1 2 3 4 66

平成 26 年死傷事故件数の相関係数 X 自動車専用道路 一般国道 一般都道府県道等 市町村道その他 Y 自動車専用道路 一般国道 一般都道府県道等 市町村道その他 1.0 0.34 0.30 0.41 1.0 0.67 0.70 1.0 0.79 1.0 一般に 弱い相関 中程度の相関 強い相関 非常に強い相関 0 0.3 0.5 0.7 1 67

相関係数の解釈の注意 (1) 外れ値があるとき 外れ値は相関係数の値を大きく変えてしまう (2) 曲線関係があるとき 変数変換を行う必要がある (3) 異質な集団が含まれる場合 集団ごとに相関係数を求める必要がある 相関係数だけで判断せず 散布図を描くことが大事 68

(1) 外れ値が相関係数に与える影響 10 8 データ点 A データ点 Aを含めた場合の相関係数 0 -. = 0.4606 / 6 4 2 0-2 -4-4 -2 0 2 4 6 8 10 データ点 Aを含めない場合の相関係数 0 -. = 0.0222 大きく外れたデータは相関係数の値を変えてしまう データ点 A を 外れ値 として除外してよいのか? 69

箱ひげ図を用いる 外れ値の見つけ方 データ点 A データが正規分布に従うと仮定すると ひげの外に値をとる確率は 0.7% しかない 箱ひげ図を描いてひげの外にあるデータは外れ値である可能性が高い +, ただし データが正規分布に従うとは限らないので 実際に除外するかどうかはよく検討する必要がある 70

外れ値が発生する理由 確認すべきこと 他データとの測定環境の違い 被観測個体の特殊性 データの入力ミス よほど小規模なデータでない限り ヒューマンエラーは避けられない これらの原因による外れ値であると確信できる場合は データから外れ値を除いてもよい 71

(2) U 字型相関 U 字型相関を示す散布図 逆 U 字型相関を示す散布図 10 8 6 4 0 = 0.05 / / 2 0-2 -4-3 -2-1 0 1 2 3 4 2 0-2 -4-6 0 = 0.04-8 -3-2 -1 0 1 2 3 無相関と考えるのは誤り 72

変数変換 U 字型相関を示す散布図 逆 U 字型相関を示す散布図 10 8 6 4 / / 2 0 4 2 0-2 -4-2 -4 0 1 2 3 4 5 6 7 0 = 0.78 0 = 0.80-6 -8 0 1 2 3 4 5 6 7 8 と / の相関は強い 73

(3) 異質な集団が含まれる場合 10 8 6 4 2 0-2 -4-6 -3-2 -1 0 1 2 3 全体の相関係数 0 = 0.47 層別相関係数 の集団 : 0 = 0.89 の集団 : 0 = 0.67 散布図を描き データの構造を把握することが重要 74

相関関係と因果関係 相関関係があるとき因果関係もあるとは限らない ( 例 ) T 市の人口 と T 市の税収 に正の相関がある場合 次の5 通りの可能性が考えられる 人口が増えたので税収が増えた 税収が増えたので人口が増えた 人口が増えたので税収が増えたし 税収が増えたので人口が増えた T 市に大規模工場が出来たので 人口が増えたし税収も増えた 偶然 人口増と税収増が同時に起きた 因果関係がある 擬似相関がある 無関係 75

擬似相関 変数 1 が変数 + と変数, の間の相関をもたらすとき その相関を擬似相関と呼ぶ 変数 + ( 結果 1) 変数 1 ( 原因 ) 擬似相関 変数, ( 結果 2) 例 : 都市の大気汚染の程度 + と都市人口に占める若者の割合, の間には 擬似相関がある 変数 1 は都市の人口である 豊田秀樹, 原因を探る統計学 より 76

相関係数と偏相関係数 相関係数 0 -. : 変数 + と変数, の間の関連性の指標 -. -. -. -. 偏相関係数 0 -. 3 : 変数 1 の影響を変数 + と変数, から排除した上での 変数 + と変数, の間の関連性の指標 -. 3 -. -3.3-3.3 77

偏相関係数の例 +: ノロウイルス食中毒発生件数,: 台風の発生個数 90 80 70 60 50 40 30 20 10 0 6 5 4 3 2 1 0 1 2 3 4 5 6 7 8 9 10 11 12 月 1 2 3 4 5 6 7 8 9 10 11 12月 ( 平成 23 年 ~27 年平均 厚生労働省 ) ( 平成 23 年 ~27 年 気象庁 ) 0 -. = 0.71 ノロウイルスが減ると台風が増える?? 78

偏相関係数の例 1: 平均気温 30 25 20 15 10 5 0 1 2 3 4 5 6 7 8 9 10 11 12 月 (1990 年 ~2013 年の平均 気象庁 ) 0 -. 3 = 0.25 ノロウイルス食中毒の減少と台風の増加は気温という原因により引き起こされていると考えられる 79

偏相関係数の例 0-3 = 0.92 ノロウイルス 気温 0 -. 3 = 0.25 (0 -. = 0.71) 0.3 = 0.83 台風 80

偏相関係数の例 ちなみに 0-3 = 0.80 ノロウイルス 1 カ月前の気温 0 -. 3 = 0.05 (0 -. = 0.71) 0.3 = 0.90 台風 81

クロス表 2 つの変数のデータを 表に集計してまとめたもの 居住年数 思う どちらかとい えば思う 立川市に住み続けたいと思いますか? どちらかといえば思わない 思わない無回答合計 生誕からずっと 111 (71.6%) 38 (24.5%) 4 (2.6%) 2 (1.3%) 0 (0.0%) 155 21 年以上 284 (62.3%) 140 (30.7%) 13 (2.9%) 13 (2.9%) 6 (1.3%) 456 14~20 年 96 (60.4%) 50 (31.4%) 11 (6.9%) 2 (1.3%) 0 (0.0%) 159 10~13 年 74 (59.7%) 42 (33.9%) 4 (3.2%) 3 (2.4%) 1 (0.8%) 124 6~9 年 44 (48.4%) 35 (38.5%) 4 (4.4%) 5 (5.5%) 3 (3.3%) 91 3~5 年 36 (39.6%) 34 (37.4%) 12 (13.2%) 6 (6.6%) 3 (3.3%) 91 2 年以内 33 (40.2%) 29 (35.4%) 17 (20.7%) 2 (2.4%) 1 (1.2%) 82 無回答 12 (50.0%) 10 (41.7%) 0 (0.0%) 1 (4.2%) 1 (4.2%) 24 合計 690 378 65 34 15 1182 平成 27 年度立川市市民満足度調査より 82

クロス表 2 つの変数のデータを 表に集計してまとめたもの 居住年数 思う どちらかとい えば思う 立川市に住み続けたいと思いますか? どちらかといえば思わない 思わない無回答合計 生誕からずっと 111 (71.6%) 38 (24.5%) 4 (2.6%) 2 (1.3%) 0 (0.0%) 155 21 年以上 284 (62.3%) 140 (30.7%) 13 (2.9%) 13 (2.9%) 6 (1.3%) 456 14~20 年 96 (60.4%) 50 (31.4%) 11 (6.9%) 2 (1.3%) 0 (0.0%) 159 関連性の指標 1: 割合の差 ( 絶対的指標 ) 10~13 年 74 (59.7%) 42 (33.9%) 4 (3.2%) 3 (2.4%) 1 (0.8%) 124 6~9 年 44 (48.4%) 35 (38.5%) 4 (4.4%) 5 (5.5%) 3 (3.3%) 91 ( 例 ) 生まれてからずっと立川市に住んでいる人のうち 住み続けたいと思う人は 思わない人より 70.3ポイント多い 3~5 年 36 (39.6%) 34 (37.4%) 12 (13.2%) 6 (6.6%) 3 (3.3%) 91 2 年以内 33 (40.2%) 29 (35.4%) 17 (20.7%) 2 (2.4%) 1 (1.2%) 82 無回答 12 (50.0%) 10 (41.7%) 0 (0.0%) 1 (4.2%) 1 (4.2%) 24 合計 690 378 65 34 15 1182 平成 27 年度立川市市民満足度調査より 83

クロス表 2 つの変数のデータを 表に集計してまとめたもの 居住年数 思う どちらかとい えば思う 立川市に住み続けたいと思いますか? どちらかといえば思わない 思わない無回答合計 生誕からずっと 111 (71.6%) 38 (24.5%) 4 (2.6%) 2 (1.3%) 0 (0.0%) 155 21 年以上 284 (62.3%) 140 (30.7%) 13 (2.9%) 13 (2.9%) 6 (1.3%) 456 14~20 年 96 (60.4%) 50 (31.4%) 11 (6.9%) 2 (1.3%) 0 (0.0%) 159 関連性の指標 2: 割合の比 ( 相対的指標 ) 10~13 年 74 (59.7%) 42 (33.9%) 4 (3.2%) 3 (2.4%) 1 (0.8%) 124 6~9 年 44 (48.4%) 35 (38.5%) 4 (4.4%) 5 (5.5%) 3 (3.3%) 91 ( 例 ) 生まれてからずっと立川市に住んでいる人のうち 住み続けたいと思う人の割合は 思わない人の割合より 55 倍大きい 3~5 年 36 (39.6%) 34 (37.4%) 12 (13.2%) 6 (6.6%) 3 (3.3%) 91 2 年以内 33 (40.2%) 29 (35.4%) 17 (20.7%) 2 (2.4%) 1 (1.2%) 82 無回答 12 (50.0%) 10 (41.7%) 0 (0.0%) 1 (4.2%) 1 (4.2%) 24 合計 690 378 65 34 15 1182 平成 27 年度立川市市民満足度調査より 84

クロス表の落とし穴 1980-90 年代 : 乳がん外科手術後のタモキシフェンの使用とがん再発の関係について [ 佐藤 (2008)] タモキシフェン 再発あり 再発なし 合計 使用 464 (18.2%) 2085 (81.8%) 2549 未使用 424 (18.0%) 1928 (82.0%) 2352 合計 888 4013 4901 再発割合の差 :0.2 ポイント タモキシフェンにはがん再発の予防効果がほとんどない? 85

タモキシフェン 使用 368 (30.3%) 未使用 253 (33.3%) クロス表の落とし穴 リンパ節転移の有無で層に分けてみる リンパ節転移あり リンパ節転移なし 再発あり再発なし合計再発あり再発なし合計 847 (69.7%) 507 (66.7%) 1215 96 (7.2%) 760 171 (10.7%) 1238 (92.8%) 1421 (89.3%) 1334 1592 合計 621 1354 1975 267 2659 2926 再発割合の差 : 3 ポイント 再発割合の差 : 3.5 ポイント タモキシフェンにはがん再発の予防効果がある! 86

クロス表の落とし穴 各集団の人数がバラバラのため 結果が覆ってしまった リンパ節転移あり リンパ節転移なし タモキシフェン 再発あり再発なし合計再発あり再発なし合計 使用 368 (30.3%) 847 (69.7%) 1215 96 (7.2%) 1238 (92.8%) 1334 未使用 253 (33.3%) 507 (66.7%) 760 171 (10.7%) 1421 (89.3%) 1592 リンパ節転移があるときタモキシフェンを使わないことは少ない リンパ節転移がないときタモキシフェンを使わないことが多い 未使用 の全データは リンパ節転移なしの集団の影響が強い よって全データを使用した場合 未使用 で再発しなかった割合が高く見積もられる 87

クロス表の落とし穴 各集団の人数がバラバラのため 結果が覆ってしまった タモキシフェン 仮に 各集団が 1000 人ずつだとすると リンパ節転移あり リンパ節転移なし 再発あり再発なし合計再発あり再発なし合計 使用 303 697 1000 72 928 1000 未使用 333 667 1000 107 893 1000 タモキシフェン 再発あり 再発なし 合計 使用 375 (18.8%) 1625 (81.3%) 2000 未使用 440 (22.0%) 1560 (78.0%) 2000 全体のクロス表でも 3.2 ポイントの再発割合の差がでる 88

シンプソンのパラドックス データのまとめ方によって結果が覆ってしまう現象を シンプソンのパラドックスという どのクロス表での結果を採用するかを決める 方法論はない タモキシフェンの例の場合 リンパ節転移の有無は再発に大きくかかわるため 層別した場合の結果が正しいと考えられる 各データの背景にある知見と照らし合わせて データを解釈することが大事 89

午前中のまとめ 記述統計学によるデータ要約の方法を解説した データ要約は データに対する人間の理解を助ける しかし要約により データの一部の情報が失われることは避けられない ヒストグラムや散布図により データを 見る ことが大事 その上で データが持つ重要な情報を落とさないよう 適切な要約方法を用いる 対象についての知見を学び 先入観や願望を捨てることが重要 90

1 日目の内容 午後 確率と統計 4. 確率と統計の基礎 確率変数 確率関数と確率密度関数 確率変数の期待値 分散 共分散 相関係数 5. 推測統計学の基礎 母集団と標本 大数の法則と中心極限定理 91

午前の話 記述統計学 記述統計学とはデータのもっている主要な特性をより鮮明に表現するために, データを要約したり作表をしたりすること一般を指す ( 統計科学事典, 清水良一訳 ) つまり特定の標本データの性質を調べるための統計学 棒グラフ, ヒストグラム, 散布図などを描く 平均, 中央値, 最頻値, 分散, 標準偏差などを求める 共分散, 相関係数などを求める 92

母集団と標本 何らかの特徴を得る対象となる全集団を母集団と呼ぶ ( 例 ) 日本人の成人男性の平均身長は? 母集団は日本人の成人男性全員 21 時の TV ニュースを視聴していた世帯の割合は? 母集団は全世帯の数 しかし 母集団の情報を完全に把握することは困難 母集団の数が非常に大きい場合 観測が困難な場合 93

母集団と標本 母集団の全体調査が不可能な場合 次のように母集団の性質を推定する 1. 母集団から一部を無作為に選ぶ これを標本と呼ぶ 2. 標本について統計的分析を行い 母集団の性質を推定する ここで用いる方法論を推測統計学と呼ぶ 94

母集団 母集団と標本 ランダムサンプリング 標本 推測統計学 母集団の統計的性質を標本から推定する 記述統計 標本データの性質 95

記述統計学から推測統計学へ 推測統計学において用いる 確率 統計の基礎についてまとめる 確率変数 確率関数と確率密度関数 確率変数の期待値 分散 共分散 相関係数 96

確率と確率変数 確率は不確実な事象の起こりやすさを表す 確率は 0 から 1 の間の実数で表され 各事象が起こる確率をすべて足し合わせると 1 となる 確率変数とは ある確率法則に従って値が決まる変数のこと 確率変数を + と表す 実際に決まった値( 実現値 ) をとする 確率変数がとりうる値の集合 ( 標本空間 ) を Ω と表記する 標本空間 Ωに含まれる値 5が実現する確率をPr (5) と表記する 97

確率と確率変数の例① 当たり + + + Ω = 当たり, はずれ はずれ +の値を確率的に決める Pr + = 当たり = 8 Pr + = はずれ = 1 8 はずれ 確率変数の値の実現 98

確率と確率変数の例 2 コイン投げ サイコロ投げ 確率変数 + コインの向きサイコロの目 標本空間 Ω Ω = 表, 裏 Ω = 1,2,3,4,5,6 確率変数の値を決める方法 確率変数の値が従う確率法則 コインを投げる行為 Pr + = 表 = 1 2 Pr + = 裏 = 1 2 サイコロを投げる行為 Pr + = 1 = Pr + = 2 = Pr + = 3 = Pr + = 4 = Pr + = 5 = Pr + = 6 = 1 6 ここでは歪みのないコイン サイコロを考えます 99

確率変数の種類 離散型確率変数 とびとびの値をとる コイン投げや さいころ投げなどの整数値データ コイン投げの場合など 表を 1 裏を 0 として数値化する 確率変数がある値をとる確率は 確率関数により与えられる 連続型確率変数 とりうる値が連続的なもの 身長 体重などの実数値データ 確率変数がある範囲の値をとる確率は 確率密度関数により与えられる 100

確率変数の種類 離散型確率変数 とびとびの値をとる コイン投げや さいころ投げなどの整数値データ コイン投げの場合など 表を 1 裏を 0 として数値化する 確率変数がある値をとる確率は 確率関数により与えられる 連続型確率変数 とりうる値が連続的なもの 身長 体重などの実数値データ 確率変数がある範囲の値をとる確率は 確率密度関数により与えられる 101

確率関数 離散型確率変数の確率分布を表す関数 Ω =,,, : のとき : Pr + = = 8,, Pr + = : = 8 : 8 = 1 とする ; = 8, ; = 8, となる関数 ;( ) を確率関数と呼ぶ 0.6 コイン投げの確率関数 0.18 サイコロ投げの確率関数 0.5 0.16 0.14 0.4 0.12 ;( ) ;( ) 0.3 0.1 0.08 0.2 0.06 0.1 0.04 0.02 0 0 0.2 0.4 0.6 0.8 1 0 1 2 3 4 5 6 102

確率関数 その他の例 2 つのサイコロを同時に投げて 出た目の和の確率関数 0.18 0.16 0.14 0.12 ;( ) 0.1 0.08 0.06 0.04 0.02 0 1 2 3 4 5 6 7 8 9 10 11 12 13 103

平均と分散 平均 ( 期待値とも呼ぶ ) < : : : 分散 < : : : 8 : : 確率変数が ' 番目の値をとる確率 104

コイン投げの場合 平均と分散の例 > + = 1 1 2 + 0 1 2 = 0.5? + = 1 1 2 1 2 + 0 1 2 1 2 = 0.25 サイコロ投げの場合 > + = 1 1 6 + 2 1 6 + 3 1 6 + 4 1 6 + 5 1 6 + 6 1 6 = 3.5? + = 1 3.5 1 6 + 2 3.5 1 6 + 3 3.5 1 6 + 4 3.5 1 6 + 5 3.5 1 6 + 6 3.5 1 6 = 2.92 105

離散型一様分布 Ω =,, : } のとき ; =,, = ; : = 1/' となる 確率関数 ;( ) を離散型一様分布と呼ぶ 0.6 コイン投げの確率関数 0.18 サイコロ投げの確率関数 0.5 0.16 0.14 0.4 0.12 ;( ) ;( ) 0.3 0.1 0.08 0.2 0.06 0.1 0.04 0.02 0 0 0.2 0.4 0.6 0.8 1 0 1 2 3 4 5 6 確率変数 + の取り得る値の下限を A 上限を B とすると > + = A + B 2,? + = B A + 1 1 12 106

ベルヌーイ分布 事象 A, B がそれぞれ確率 8, 1 8 で起こる離散確率分布 A= 裏, B= 表 A= 成功, B= 失敗 など コイン投げは8 = 0.5に対応する 1 0.8 0.6 0.4 0.2 8 = 0.2 で 0( 失敗 ) 8 = 0.8 で 1( 成功 ) となる場合のベルヌーイ分布 0 0 0.2 0.4 0.6 0.8 1 このような事象を起こさせることをベルヌーイ試行と呼ぶ 107

ベルヌーイ試行を繰り返す 事象 A,B がそれぞれ確率 8, 1 8 で起こる ベルヌーイ試行を C 回繰り返すとき 事象 A が起こる回数 は確率変数である もちろん 事象 B が起こる回数 も確率変数である コイン投げの場合 確率変数 + = 表が出る回数 とすると Ω = 0, 1, 2,, C} ただし C 回の試行の独立性を仮定する C 回の試行は互いに影響されることなく 各試行で事象 A, B が起こる確率は常に 8 と 1 8 である 例えばバスケットボールのフリースローでは独立性が成り立たない 108

2 項分布 事象 A,Bがそれぞれ確率 8, 1 8で起こるベルヌーイ試行をC 回繰り返すとき 確率変数 事象 Aが起こる回数 は2 項分布に従う C - - <D- C 回の試行のうち回で事象 A が起こる場合の数 事象 A が回 事象 B が C 回起こる確率 期待値 :C8 分散 :C8(1 8) 109

2 項分布 C = 30 回のベルヌーイ試行を行う場合 30 - - ED- 0.16 0.14 0.12 8 = 0.3 8 = 0.5 0.16 0.14 0.12 0.1 ; ; 0.08 0.06 0.04 0.02 0.1 0.08 0.06 0.04 0.02 0 0 5 10 15 20 25 30 0 0 5 10 15 20 25 30 110

ポアソン分布 事象 A,B がそれぞれ確率 8, 1 8 で起こる ベルヌーイ試行を C 回繰り返すとき 確率変数 事象 A が起こる回数 は 2 項分布に従う 特に次の条件が成立するときを考える C が非常に大きい 8 と C の間に 8 = F/C という関係があり C が非常に大きいとき 8 は非常に小さい (1 回の試行で事象 A が起こることは稀である ) このとき 2 項分布はポアソン分布となる 111

ポアソン分布 - DG 0.18 0.16 0.14 0.12 ;( ) ;( ) 0.1 0.14 F = 5 F = 10 0.12 0.1 0.08 0.08 0.06 0.06 0.04 0.02 0.04 0.02 0 0 5 10 15 20 0 0 5 10 15 20 25 30 期待値 分散とも F である 112

二項分布の性質から の意味 事象 A の起こる回数の期待値は C8 8 が C と無関係な定数 (< 1) の場合 事象 A の起こる回数は試行回数 C に比例して増える 8 = F/C の場合 C8 = F なので C が大きくなっても事象 A は F 回程度しか起きない ポアソン分布は 1 回の試行で起きることは稀だが 試行回数 C が大きければ F 回くらいは起きる事象 A が 実際に C 回の試行で + 回起きる確率を表す 113

ポアソン分布の実例 プロイセン陸軍で馬に蹴られて死亡した兵士数 1875 年 ~1894 年の20 年間で馬に蹴られて死亡した兵士数の分布を 200 部隊に対して調べた 死亡兵士数 0 1 2 3 4 5 観測数 109 65 22 3 1 0 割合 0.545 0.325 0.110 0.015 0.005 0 [Bortkiewicz 1898] 114

ポアソン分布の実例 プロイセン陸軍で馬に蹴られて死亡した兵士数 [Bortkiewicz 1898] 確率 0.6 0.5 0.4 0.3 実際のデータ F = 0.61 のポアソン分布 0.2 0.1 0 0 1 2 3 4 5 死亡兵士数 F = 0.61 のポアソン分布で近似できる 115

ポアソン分布の実例 その他にも 一定の時間に起こるイベント数の分布 の モデルとして用いられる 交通事故の件数 製造ラインにおける不良品の数 1 時間あたりにかかってくる電話の数 1 日あたりのタクシーの乗客数 ある地域における1ヶ月あたりの胃がんによる死亡者数 ある期間に起こる M7 以上の地震の数 など 116

確率変数の種類 離散型確率変数 とびとびの値をとる コイン投げや さいころ投げなどの整数値データ コイン投げの場合など 表を 1 裏を 0 として数値化する 確率変数がある値をとる確率は 確率関数により与えられる 連続型確率変数 とりうる値が連続的なもの 身長 体重 時間などの実数値データ 確率変数がある範囲の値をとる確率は 確率密度関数により与えられる 117

確率密度関数 ( 例 ) 1000 人の社員が会社にやってくる時間を 1 万日調べた 1000 人 1 万日 は 以下の議論に十分な数 という程度の意味です 0.8 社員の出社時刻のヒストグラム (15 分刻み ) 0.7 0.6 0.5 割合 0.4 0.3 0.2 0.1 0-140 -120-100 -80-60 -40-20 0 20 40 出社時刻ー始業時刻 ( 分 ) 118

確率密度関数 階級の刻み幅を小さくしていく 3 分刻み 0.03 分刻み 1 0.9 1 0.9 0.8 0.8 0.7 0.7 0.6 0.6 0.5 0.5 0.4 0.4 0.3 0.3 0.2 0.2 0.1 0.1 0-140 -120-100 -80-60 -40-20 0 20 40 0-140 -120-100 -80-60 -40-20 0 20 40 出社時刻ー始業時刻 ( 分 ) 出社時刻ー始業時刻 ( 分 ) 刻み幅を小さくすると ヒストグラムは データの相対頻度を表す関数 へ収束 119

確率密度関数 連続型確率変数において ヒストグラムの刻みを無限に小さくする極限により定義される関数を確率密度関数という 確率 そのものではないが それに似た性質を持つ 連続型確率変数において ある値を持つ確率は定義できない ある範囲をとる確率は定義できる 例えば 確率変数がA 以上 B 以下の値をとる確率は Pr A + B = J K 8 確率変数がとり得る値の範囲全体で積分すると 1 になる M L 120

平均と分散 平均 - NOP - NQR 分散 - NOP - NQR ST:+ のとりうる最小値 UV:+ のとりうる最大値 121

連続型一様分布 1 8 = WB A A Bのとき 0 それ以外のとき 0.1 A = 0, B = 10 の一様分布 平均値 0.08 8 0.06 0.04 0.02 分散 0-5 0 5 10 15 122

正規分布 0.14 0.12 0.1 X = 40, Y = 3 平均値 8 0.08 0.06 0.04 X = 30, Y = 5 X = 50, Y = 10 分散 0.02 0 0 20 40 60 80 100 123

標準正規分布 8 0.4 0.35 0.3 0.25 0.2 平均値 : > + = 0 分散 :? + = 1 0.15 0.1 0.05 0-6 -4-2 0 2 4 6 平均 0, 分散 1 の正規分布を標準正規分布と呼ぶ 正規分布に従う確率変数 + を標準化すると, それは標準正規分布に従う 124

正規分布の性質 平均 (X) ± 標準偏差 Y の範囲に約 68% が収まる 0.4 0.35 0.3 8 0.25 0.2 0.15 0.1 0.05 0-6 -4-2 0 2 4 6 X Y X X + Y 125

正規分布の性質 平均 (X) ± 2 標準偏差 Y の範囲に約 95% が収まる 0.4 0.35 0.3 0.25 8 0.2 0.15 0.1 0.05 0-6 -4-2 0 2 4 6 X 2Y X X + 2Y 126

シグマ区間 区間 確率 (%) 1Y 68.2689492137086 2Y 95.4499736103641 3Y 99.7300203936740 4Y 99.9936657516326 5Y 99.9999426696856 6Y 99.9999998026825 7Y 99.9999999997440 8Y 99.9999999999999 9Y 100.000000000000 127

同時確率分布と周辺確率分布 複数の確率変数に関する確率分布 +,, という 2 種類の確率変数の組の 同時確率分布を 8(, /) と表記する 周辺確率分布. NOP - NOP 8 - = J K/ 8, / 8. / = J K 8, /. NQR + と, が互いに独立な場合には 同時確率分布は 8(, /) = 8-8. (/) となる 特に +,, が相関している場合を考える - NQR 128

共分散と相関 共分散 [ \ 相関係数 129

独立 と 無相関 1. 8 +,, = 8 - + 8., のとき + と, は独立である このとき > +, = > + >[,] 2. COV +,, = 0 であるとき + と, は無相関である 独立であれば無相関 > +, > + >, = 0 なので COV +,, = 0 無相関のとき独立であるとは限らない > +,, = 0 かつ > +, >, の少なくともどちらか 1 つが 0 の場合 + と, は独立でなくても無相関となりうる 130

無相関だが独立でない例 8(1,0) = 8(2,1) = 8(2, 1) = 1/3 それ以外の8(+,,) は0の場合 周辺分布 8 - (1) = 1/3, 8 - (2) = 2/3 よって >[+] = 5/3 8. (0) = 8. (1) = 8. ( 1) = 1/3 よって >[,] = 0 / 1 0 1 1 2 COV +,, = (0 + 2 2) 0 = 0 なので無相関 しかし 8 +,, 8 - + 8. (,) なので独立ではない 131

, / の二変量正規分布 2 変量正規分布 1 8, / = 2cY - Y. 1 d 1 ( X - ) exp 2 1 d 2d( X -)(/ X. ) + (/ X.) Y - Y - Y. Y. 周辺化分布はガウス分布となる d: 相関係数 h 8 - = J K/ 8, / Dh h 8. / = J K/ 8, / Dh = = 1 2cY exp X - - 2Y - 1 exp X. 2Y 2cY.. 132

2 変量正規分布の立体図 0.18 0.16 0.14 0.12 8(, /) 0.1 0.08 0.06 0.04 0.02-4 -3-2 0 1 2 0-1 / 0 1 2 3 4-4-3-2-1 3 4 X - = 0, Y - = 1, X. = 0, Y. = 1, d = 0.4 133

2 変量正規分布の等高線 d = 0 d = 0.4 d = 0.8 3 0.16 3 0.183 0.14 0.16 2 2 2 0.12 0.14 1 1 0.121 0.1 0.1 / 0 / 0.08 0 / 0 0.08 0.06-1 -1 0.06-1 0.04 0.04-2 -2-2 0.02 0.02-3 0-3 0-3 -3-2 -1 0 1 2 3-3 -2-1 0 1 2 3-3 -2-1 0 1 2 3 0.3 0.25 0.2 0.15 0.1 0.05 0 134

1 日目の内容 午後 確率と統計 4. 確率と統計の基礎 確率変数 確率関数と確率密度関数 確率変数の期待値 分散 共分散 相関係数 5. 推測統計学の基礎 母集団と標本 大数の法則と中心極限定理 135

母集団 母集団と標本 ランダムサンプリング 標本 推測統計学 母集団の統計的性質を標本から推定する 記述統計 標本データの性質 136

推測統計学の基礎 母集団C人(くじ引きに参加した人) 当選確率は8です 1 8 はずれ 8 当たり + 本当 当たった人の人数iは 二項分布に従う j <Dj C j 平均C8, 分散C8(1 8) 137

推測統計学の基礎 母集団の全数調査が困難である場合に 標本を用いて母集団の統計的性質を推測する 母集団 C 人 標本 ランダムサンプリング 真実 ( 直接観測できない ) 当たった人の人数 i は 二項分布に従う C j j <Dj 観測事実 推測統計学 平均 C8, 分散 C8(1 8) 138

母数と標本統計量 母数 母集団の平均 分散 相関係数など ( 本当に知りたい情報 ) 標本統計量 標本データの平均 分散 相関係数などを得る計算式のこと 特定の標本データを当てはめたものを標本統計量の実現値という ( 例 ) 標本平均の場合 標本統計量 : + +,, + = 1 + 標本統計量の実現値 : = +,, = 1 139

次の表記を用いる 母数と標本統計量 母集団 ( 母数 ) 平均 X 標本 ( 標本統計量の実現値 ) 標準偏差 Y! 相関係数 d 0 140

推測統計学の基礎 当たりを + = 1, はずれを + = 0 とする 標本平均を + = 1 とする + 母集団 (C 人 ) 1 0 0 0 1 0 + = 0.333 0 0 0 標本 ( 人 ) Ck 通りの選び方がある 0 0 1 0 1 0 1 1 0 + = 0.167 + = 0.5 標本平均は確率変数である 141

記述統計量 記述統計量と標本統計量の違い 得られたデータそのものの分布の特徴を要約するための統計量 個々のデータが確率的にばらつくものだとは考えていない 標本統計量 得られたデータは 母集団から得られたサンプルである 個々のデータは確率的にばらつくものだと仮定しており 統計量もそれに従ってばらつく 母集団についての推測を行うための統計量 142

標本平均の分布 8 = 0.2 の場合 0.35 = 10 = 100 = 1000 0.12 0.035 0.3 0.25 0.2 0.15 0.1 0.05 0.1 0.08 0.06 0.04 0.02 0.03 0.025 0.02 0.015 0.01 0.005 0 0 0.2 0.4 0.6 0.8 1 0 0 0.2 0.4 0.6 0.8 1 0 0 0.2 0.4 0.6 0.8 1 + + + 標本サイズ が大きくなるにつれて 真の 8 に収束していく 143

標本平均の分散の標本サイズ依存性 8 = 0.2 の場合 0.016 0.014 0.012? + 0.01 0.008 0.006 0.004 傾き 8(1 8) 0.002 0 0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1 1/ 標本平均の分散は 1/ に比例して小さくなる 144

大数の法則 標本平均に関する性質 確率変数 +, +,, + が独立に同一の分布に従うとする >[+] = Xとする 大数の法則 を大きくしていくと 標本平均は確率 1 で X に収束する 標本のサイズを大きくしていくと 標本平均は母集団における平均値に必ず一致する 145

中心極限定理 標本統計量の分布そのものの特徴に関する重要な定理 確率変数 +, +,, + が独立に同一の分布に従うとする >[+] = X,?[+] = Y とする 中心極限定理 を大きくすると 正規分布に従う + は平均 X, 分散 Y / の 標本平均が従う確率分布は 標本サイズが大きいとき 正規分布で近似でき その平均は母集団の平均と一致 146

中心極限定理 母集団 (C 人 ) 標本 ( 人 ) 真実 当たった人の人数 i = + は平均 C8, 分散 C8(1 8) の二項分布に従う 中心極限定理 (C ) 当たった人の割合 + = < < 平均 8, 分散 8(1 8)/C の 正規分布に従う < + は 観測事実 + = 1 + 中心極限定理より標本平均 + は が大きいとき 平均 8, 分散 8(1 8)/ の正規分布に従う 147

不偏推定量 標本統計量の期待値が母数に一致するとき その標本統計量を不偏推定量と呼ぶ 標本平均は 母集団の平均の不偏推定量である 次のように定義される標本分散は 母集団の分散の不偏推定量である! +,, + = 1 1 + + 148

不偏分散 標本サイズ の代わりに自由度 1 で割った分散を 不偏分散とよぶ > + = 0なので, 分散を計算するときに使っている 自由な 情報は 1 個である したがって, 1で割る より詳しい説明については, 以下を参照のこと統計的方法のしくみ 正しく理解するための 30 の急所, 永田靖 ( 著 ), 日科技連出版社 記述統計においても不偏分散を用いる場合がある 149

まとめ 記述統計学 与えられたデータそのものの統計的性質の把握を目標とする 推測統計学 与えられたデータ ( 標本 : 観測事実 ) の背後にある母集団 ( 真実 ) の統計的性質を 標本の統計的性質から推測する その際に用いる数学的ツールは確率論である 推測統計学の基本である 推定 と 検定 については 2 日目以降の講義で扱う 150

EXCEL: 記述統計量を求める関数 平均 :AVERAGE 中央値 :MEDIAN 最頻値 :MODE.SNGL 分散 :VARP(nで割った分散) 不偏分散 :VAR(n-1で割った分散) 標準偏差 :STDEV.P(nで割った標準偏差) 標準偏差 : STDEV.S(n-1で割った標準偏差 ) 共分散 :COVARIANCE.P(n-1で割った共分散) 共分散 :COVARIANCE.S(n-1で割った分散) 相関係数 :CORREL 四分位数 :QUARTILE.INC 標準化 基準化 :STANDARDIZE