データの整理 ( 度数分布表とヒストグラム ) 1 次元のデータの整理の仕方として代表的な ものに度数分布表とヒストグラムがあります 度数分布表観測値をその値に応じていくつかのグループ ( これを階級という ) に分類し 各階級に入る観測値の数 ( これを度数という ) を数えて表にしたもの 2

Similar documents
Microsoft PowerPoint - データ解析基礎2.ppt

3章 度数分布とヒストグラム

3章 度数分布とヒストグラム

Microsoft PowerPoint - 代表値と散布度.ppt [互換モード]

ファイナンスのための数学基礎 第1回 オリエンテーション、ベクトル

Microsoft PowerPoint - 測量学.ppt [互換モード]

ファイナンスのための数学基礎 第1回 オリエンテーション、ベクトル

経営統計学

Excelによる統計分析検定_知識編_小塚明_1_4章.indd

切片 ( 定数項 ) ダミー 以下の単回帰モデルを考えよう これは賃金と就業年数の関係を分析している : ( 賃金関数 ) ここで Y i = α + β X i + u i, i =1,, n, u i ~ i.i.d. N(0, σ 2 ) Y i : 賃金の対数値, X i : 就業年数. (

Microsoft PowerPoint - データ解析基礎4.ppt [互換モード]

平均値 () 次のデータは, ある高校生 7 人が ヵ月にカレーライスを食べた回数 x を調べたものである 0,8,4,6,9,5,7 ( 回 ) このデータの平均値 x を求めよ () 右の表から, テレビをみた時間 x の平均値を求めよ 階級 ( 分 ) 階級値度数 x( 分 ) f( 人 )

Microsoft PowerPoint - 基礎・経済統計6.ppt

EBNと疫学

第 3 回講義の項目と概要 統計的手法入門 : 品質のばらつきを解析する 平均と標準偏差 (P30) a) データは平均を見ただけではわからない 平均が同じだからといって 同一視してはいけない b) データのばらつきを示す 標準偏差 にも注目しよう c) 平均

Microsoft Word - lec_student-chp3_1-representative

Microsoft Word - apstattext01b.docx

テレビ学習メモ 数学 Ⅰ 第 40 回 第 5 章データの分析 相関係数 監修 執筆 湯浅弘一 今回学ぶこと データの分析の最終回 今までの代表値を複合し ながら 2 種類のデータの関係を数値化します 相関係数は 相関がどの程度強いのかを表しています 学習のポイント 12 種類のデータの相関関係を

講義ノート p.2 データの視覚化ヒストグラムの作成直感的な把握のために重要入力間違いがないか確認するデータの分布を把握する fig. ヒストグラムの作成 fig. ヒストグラムの出力例 度数分布表の作成 データの度数を把握する 入力間違いが無いかの確認にも便利 fig. 度数分布表の作成

DVIOUT-mem

<4D F736F F F696E74202D B835E82CC8EED97DE B835E82CC834F BB F0955C82B793C190AB926C>

統計学入門 練習問題解答集

夏期講習高 センター数学 ⅠA テキスト第 講 [] 人の生徒に数学のテストを行った 次の表 は, その結果である ただし, 表 の数値はすべて正確な値であるとして解答せよ 表 数学のテストの得点 次

画像類似度測定の初歩的な手法の検証

ビジネス統計 統計基礎とエクセル分析 正誤表

様々なミクロ計量モデル†

講義「○○○○」

PowerPoint プレゼンテーション

スライド 1

Microsoft Word - Stattext07.doc

学習指導要領

年生 章資料の活用 ( 基本問題練習 ) 入試問題を解くための準備問題です 1 に適当なことばを入れなさい 資料のとる値のうち, 最大のものから最小のものをひいた差を ア という 度数分布表において, 資料を整理するための区間を階級といい, その幅を 3 右の表は, 生徒 人のある日の睡眠時間を,

学習指導要領

相関係数と偏差ベクトル

第4回

13章 回帰分析

情報工学概論

【指導のポイント】

学習指導要領

Microsoft PowerPoint - Statistics[B]

多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典

<4D F736F F D208EC08CB18C7689E68A E F AA957A82C682948C9F92E82E646F63>

スライド 1

学習指導要領

データ解析

<4D F736F F D208D A778D5A8A778F4B8E7793B CC A7795D2816A2E646F6378>

統計的データ解析

PowerPoint プレゼンテーション

Python-statistics5 Python で統計学を学ぶ (5) この内容は山田 杉澤 村井 (2008) R によるやさしい統計学 (

Microsoft Word - mstattext02.docx

スライド 1

学習指導要領

Microsoft PowerPoint ppt

モジュール1のまとめ

1.民営化

_KyoukaNaiyou_No.4

0415

Microsoft Word - Stattext13.doc

1. 多変量解析の基本的な概念 1. 多変量解析の基本的な概念 1.1 多変量解析の目的 人間のデータは多変量データが多いので多変量解析が有用 特性概括評価特性概括評価 症 例 主 治 医 の 主 観 症 例 主 治 医 の 主 観 単変量解析 客観的規準のある要約多変量解析 要約値 客観的規準のな

森林水文 水資源学 2 2. 水文統計 豪雨があった時, 新聞やテレビのニュースで 50 年に一度の大雨だった などと報告されることがある. 今争点となっている川辺川ダムは,80 年に 1 回の洪水を想定して治水計画が立てられている. 畑地かんがいでは,10 年に 1 回の渇水を対象として計画が立て

学習指導要領

14 化学実験法 II( 吉村 ( 洋 mmol/l の半分だったから さんの測定値は くんの測定値の 4 倍の重みがあり 推定値 としては 0.68 mmol/l その標準偏差は mmol/l 程度ということになる 測定値を 特徴づけるパラメータ t を推定するこの手

Microsoft PowerPoint - 統計科学研究所_R_重回帰分析_変数選択_2.ppt

Microsoft PowerPoint - e-stat(OLS).pptx

測量士補 重要事項「標準偏差」

Microsoft Word - 保健医療統計学112817完成版.docx

13章 回帰分析

Microsoft PowerPoint - 資料04 重回帰分析.ppt

基礎統計

Microsoft PowerPoint slide2forWeb.ppt [互換モード]

基礎統計

データの種類とデータの分布

目次 1 章 SPSS の基礎 基本 はじめに 基本操作方法 章データの編集 はじめに 値ラベルの利用 計算結果に基づく新変数の作成 値のグループ化 値の昇順

確率分布 - 確率と計算 1 6 回に 1 回の割合で 1 の目が出るさいころがある. このさいころを 6 回投げたとき,1 度も 1 の目が出ない確率を求めよ. 5 6 /6 6 =15625/46656= (5/6) 6 = ある市の気象観測所での記録では, 毎年雨の降る

散布度

<4D F736F F D208FAC8A778D5A8A778F4B8E7793B CC81698E5A909495D2816A2E646F6378>

Microsoft PowerPoint - stat-2014-[9] pptx

学力スタンダード(様式1)

テレビ講座追加資料1105

Microsoft PowerPoint - R-stat-intro_04.ppt [互換モード]

Microsoft Word - 町田・全 H30学力スタ 別紙1 1年 数学Ⅰ.doc

Microsoft PowerPoint - statistics pptx

日心TWS

学習指導要領

したがって ばらつきを表すには 偏差の符号をなくしてから平均化する必要がある そのひとつの方法は 1 偏差の絶対値を用いることである 偏差の絶対値の算術平均を 平均偏差 という ( )/5=10.8 偏差の符号を取るもうひとつの方法は 2それを2 乗することです 偏差の2 乗の算

統計学 Ⅰ(8) 累積度数 : ある階級以下に含まれる度数の合計 階級 度数 相対度数累積度数 累積相対度数 点以上 ~ 点未満.. ~.. ~. 7. ~ 6..6 ~. 6.8 ~ ~ ~ ~ ~.. ~.. 合計. - -

Excelによる統計分析検定_知識編_小塚明_5_9章.indd

画像処理工学

学習指導要領

Microsoft PowerPoint - statistics pptx

stat-base_ppt [互換モード]

タイトルを修正 軸ラベルを挿入グラフツール デザイン グラフ要素を追加 軸ラベル 第 1 横 ( 縦 ) 軸 凡例は削除 横軸は, 軸の目盛範囲の最小値 最 大値を手動で設定して調整 図 2 散布図の仕上げ見本 相関係数の計算 散布図を見ると, 因果関係はともかく, 人口と輸送量の間には相関関係があ

Microsoft PowerPoint - CVM.ppt [互換モード]

本日の内容 相関関係散布図 相関係数偏相関係数順位相関係数 単回帰分析 対数目盛 2

資料の調べ方 1-1 月 日 組名前点 あくりょく 1 下の表は,1 組と 2 組の男子の握力測定の記録です 1 番号握力 (kg) 番号握力 (kg)

数値計算法

学習指導要領

Microsoft Word - 補論3.2

<4D F736F F D208EC08CB18C7689E68A E F193F18D8095AA957A C C839395AA957A814590B38B4B95AA957A2E646F63>

stat-base [互換モード]

Transcription:

春学期統計学 I データの整理 : 度数分布 標本分散 等 担当 : 長倉大輔 ( ながくらだいすけ ) 1

データの整理 ( 度数分布表とヒストグラム ) 1 次元のデータの整理の仕方として代表的な ものに度数分布表とヒストグラムがあります 度数分布表観測値をその値に応じていくつかのグループ ( これを階級という ) に分類し 各階級に入る観測値の数 ( これを度数という ) を数えて表にしたもの 2

データの整理 ( 度数分布表とヒストグラム ) 度数分布表 階級は下限値と上限値によって決まります 下限値と上限値を足して 2 で割ったものをその階級の階級値もしくは代表値といいます それぞれの階級の度数を全ての観測値の数で割ったものを相対度数といいます 度数の累積和を累積度数といいます 相対度数の累積和を累積相対度数といいます 3

データの整理 ( 度数分布表とヒストグラム ) 度数分布表の作り方 (1) 範囲 ( レンジ ) を求める ( 下の例では 99 5 = 94) (2) 範囲を全てカバーする階級数 階級幅 階級を決める (3) 階級値を計算する (4) 度数を数える (5) 相対度数などの必要な計算をする 4

データの整理 ( 度数分布表とヒストグラム ) スタージェスの公式 階級数を決める 1 つの目安としてスタージェスの公式というものがあります ( スタージェスの公式 ) 階級数 = 1 + 3.3 log 10 ( 観測値の数 ) 下記の例では 1+3.3 log 10 47 6.5 よりだいたい 6 か 7 となります ( 実際には 6 としました ) オープンエンド階級 下記の例の最上位の階級のように上限 ( 場合によっては下限 ) がない階級の事をオープンエンド階級といい その階級値はその階級に属するデータの平均をとります 5

データの整理 ( 度数分布表とヒストグラム ) 例 : 度数分布表 以下は厚生労働省 人口動態統計 にもとづく 2004 年の都道府県別出生データを小さい順に並べたものです ( 単位 :1000 人 ) 5, 6, 6, 6, 7, 8, 8, 8, 8, 9, 9, 10, 10, 10, 11, 11, 12, 12, 12, 12, 13, 14, 15, 16, 16, 16, 18, 18, 18, 18, 18, 19, 20, 20, 22, 26, 26, 34, 44, 45, 50, 53, 62, 70, 79, 80, 99 このデータの度数分布表を書いてみましょう 統計学 森棟公夫 照井伸彦 中川満 西埜晴久 黒住英司著 2008 有斐閣 p.25 より 6

データの整理 ( 度数分布表とヒストグラム ) 以上 未満階級値度数累積度数相対度数累積相対度数 0-10 5 11 11 0.23 0.23 10-20 15 21 32 0.45 0.68 20-30 25 5 37 0.11 0.79 30-40 35 1 38 0.02 0.81 40-50 45 2 40 0.04 0.85 50-70 7 47 0.15 1.00 47 1.00 最後のオープンエンド階級の階級値はその階級に属するデータの平均値になっています ( 上記の 70 は四捨五入した値 ) 7

データの整理 ( 度数分布表とヒストグラム ) ヒストグラム ヒストグラムとは各棒の面積が度数 もしくは相対度数と比例するように作成された棒グラフで 度数分布表の階級値を棒の中点 階級幅を棒の幅とし 高さを度数もしくは相対度数としたものです オープンエンド階級の場合は階級値を棒の中点とし 棒の幅は隣の階級の上限からオープンエンド階級の階級値までの距離の 2 倍とした上で 棒の面積が度数もしくは相対度数と比例するように高さを調整します ヒストグラムを描くことによって データの分布を視覚的に表す事ができます 8

データの整理 ( 度数分布表とヒストグラム ) 例 1: ヒストグラム 先ほどの度数分布表のヒストグラムは以下のようになります 25 20 15 10 5 0 5 15 25 35 45 70 9

データの整理 ( 度数分布表とヒストグラム ) 例 2: ヒストグラム 日本の年齢別総人口 (2005) 12,000 10,000 人口 ( 単位 1000 人 ) 8,000 6,000 4,000 年齢別総人口 2,000 0 0 5~ 9 15~19 25~29 35~39 45~49 55~59 65~69 75~79 85~89 95~99 年齢 10

データの広がり 分散 平均 メディアンなどはデータの中心を示す統計量でした しかしながら データの中心だけではデータの特徴を十分にとらえきれない場合がほとんどです 通常 データには他にもいろいろな特徴があります その一つが中心からの広がり具合です 分散はデータの広がり具合を示す統計量です 11

データの広がり 記述統計量としての分散 ( 全標本分散 ) n 個のデータ { x 1, x 2,, x n } が与えられている時 これが興味のある全てのデータである場合 ( 全標本の場合 ) 記述統計量としての分散は 2 1 n n 1 ( x x) と定義されます これは全標本分散と呼ばれます 2 12

データの広がり 分散の推定値 n 個のデータ { x 1, x 2,, x n } は興味のある母集団の一部から得られた標本であるとしましょう これらより母集団全体の分散を推定する場合には s 2 1 n 1 n 1 ( x x) が用いられます これは標本分散 ( もしくは標本不偏分散 ) と呼ばれます 2 13

データの広がり 2 つの分散の違い σ 2 と s 2 の違いは n で割るか n 1 で割るかです ( ここでは詳しく述べませんが ) n 1 で割ったほうが母集団全体の分散の推定値として不偏性という統計学的な観点から望ましい性質を持つ事を示す事ができます ( これについては春学期の中盤ごろに詳しく説明する予 定です ) 14

15 15 データの広がり 分散の別表現 σ 2 と s 2 はおよびと表す事もできます n x n x n 1 2 2 2 1 n x n x n s 1 2 2 2 1 1

データの広がり 標準偏差 全標本標準偏差は全標本分散の平方根 標本標準偏差は標本分散の平方根として定義され それぞれ σ, s で表わされます 標準偏差を用いると データのおおよその広がり具合を把握する事ができます 16

データの広がり 分散 標準偏差の例 以下のデータの分散 標準偏差を比べてみましょう ( 標本数は共に 30 です ) ( データ 1) {26, 32, 4, 28, 12, 31, 27, 15, 26, 18, 27, 13, 29, 13, 45, 39, 18, 23, 35, 19, 33, 26, 21, 37, 21, 36, 23, 23, 24, 26} ( データ 2) {4, 12, 27, 43, 23, 14, 26, 35, 15, 17, 38, 19, 22, 25, 49, 7, 42, 31, 23, 46, 25, 28, 36, 24, 1, 15, 33, 8, 27, 35} 17

データの広がり まず平均を比べてみると 実は 2 つのデータとも平均は 25 です 次にこの 2 つのデータのヒストグラムを書いてみると ( データ 1 のヒストグラム ) ( データ 2 のヒストグラム ) 16 16 14 14 12 12 10 10 8 8 6 6 4 4 2 2 0 5 15 25 35 45 0 5 15 25 35 45 のようになります どちらのデータの方が広がっている ( 平均から離れたデータが多い ) でしょうか? 18

データの広がり データ 1 の全標本分散と全標本標準偏差はデータ 1 の分散 77.45 データ 1 の標準偏差 8.8 データ 2 の全標本分散と全標本標準偏差はデータ 2 の分散 149.2 データ 2 の標準偏差 12.21 データの広がりが大きいほど分散 標準偏差は大きくなる 19

データの広がり 分散と標準偏差の性質 分散と標準偏差には次の 3 つの重要な性質があります ( これは先ほどの両方の分散 標準偏差に当てはまります ) 1 全ての標本に一定数を加えたり または減らしたりしても 値は変わらない 2 全ての標本を k 倍すると 分散は k 2 倍になり標準偏差は k 倍になる 3 全ての標本のうちで 平均からの乖離 ( かいり ) が標準偏差の k 倍以内にある標本の割合は少なくとも 1 1 以上である k 2 20

データの広がり チェビシェフの不等式性質 3は以下のように言い換える事ができます 標本 { x 1, x 2,, x n } の平均値を x 標準偏差を s k を1より大きい任意の数とした時に もしくは 区間 [ x ks, x ks] に含まれるx の数 1 1 観測値の数 ( n) k 区間 [ x ks, x ks] に含まれないx の数 1 観測値の数 ( n) k 2 2 が成立する これはチェビシェフの不等式と呼ばれます 21

データの広がり チェビシェフの不等式の例 ( バスの待ち時間 ) 毎朝のバスの待ち時間を 30 日間記録し 分析するとします この時 平均待ち時間が 7.13 分 標本標準偏差が 2.69 であったとしましょう シェビチェフの不等式において k =1.1 とおくと 待ち時間が区間 [7.13 1.1 2.69, 7.13 + 1.1 2.69] [ 4.17, 10.09] に入らない割合は全体の 1/1.1 2 0.83 つまり 17 % 以上の割合でバスの待ち時間は約 4 分から 10 分の間となっています 22

データの広がり チェビシェフの不等式の注意点 チェビシェフの不等式は平均と標準偏差さえわかればどのような標本にもあてはまるという意味で非常に強力な 結果です しかしながら その一般性が高いがゆえに 結論の解釈には注意が必要です 以下の例はチェビシェフの不等式があまり意味をもたない例です 23

データの広がり チェビシェフの不等式の例 2 ( 統計学の点数 ) ある統計学の試験の得点分布が以下のように与えられているとしましょう { 20, 25, 30, 35, 40, 45, 50, 55, 60, 65 } この時平均は 42.5 標準偏差は 15.14 です チェビシェフの不等式に基づいて 56% 以上の人が含まれる区間をもとめてみましょう 結果は意味のあるものでしょうか? 24

データの広がり チェビシェフの不等式の例 2 ( 統計学の点数 ) シェビチェフの不等式において k = 1.5 とすると 1 1/1.5 2 0.556 なので全体の約 56% 以上の学生の点数は区間 [42.5 1.5 15.14, 42.5 + 1.5 15.14] [19.8, 65.2] に入る事になります しかし実際には 100% の学生がこの区間に入る点数を取っています チェビシェフの不等式は区間を大きくとる傾向があるという事には注意が必要です 25

データの標準化と偏差値 標準化 ( 基準化 ) 標準化とは変換後のデータが平均 0 標準偏差 1 ( 分散 1) となるように与えられたデータを変換する事です 偏差値 偏差値とは与えられたデータを平均 50 標準偏差 10 ( 分散 100) となるように変換した時 もとのデータの値に対応する変換後の値の事です 26

データの標準化と偏差値 標準化の仕方 x 2 x 平均 分散のとき x を z x x x と変換する ( 平均を引いて標準偏差で割るという事 ) ことを標準化 ( もしくは基準化 ) するといいます この時 z の平均は 0 標準偏差 ( および分散 ) は 1 となる事が確認できます 27

データの標準化と偏差値 偏差値の計算の仕方 x の偏差値を y としましょう y は次のように計算できます まず x を標準化します この値を z としましょう この時 y は z を用いて と計算されます y 50 10z この時 y の平均は 50 標準偏差は 10 となる事が確認できます 28

データの標準化と偏差値 標準化と偏差値の意味 与えられたデータの中で 個々のデータが全体の中でどのような位置にあるのかは個々のデータをその標本の平均や標準偏差と比べる事によって把握することができます しかしながら 平均や分散が異なる 2 つのデータにおいて ある特定のデータが全体の中で相対的にどのような位置にあるのかを比較するのは難しいでしょう 標準化と偏差値の一つの利点はそのような異なった標本からのデータの比較を可能にするという事です 29

データの標準化と偏差値 例題 ( 標準化と偏差値 ) 今 2 つのデータセットがあるとしましょう データセット 1 の平均と分散は 5 と 4 データセット 2 の平均と分散は 3 と 9 であるとしましょう これら 2 つのデータセットはともに 9 を含んでいるとします (1) 9 の偏差値をそれぞれのデータセットに対して計算しなさい (2) どちらの 9 がそれぞれのデータセットのほかの値と比べて相対的に大きいと考えられますか? (3) 100 点満点のテストで偏差値が 100 以上になることはあり得ますか? 30

演習問題 問題 1 ある試験の平均点が 40 点 標準偏差が 5 点の時に 区間 [30 点, 50 点 ] の間には何 % 以上の人が入るでしょうか? 問題 2 この時 20 点の人と 60 点の人の偏差値を求めなさい 31

宿題 ( 提出する必要はありません ) 40 人のクラスが受験したあるテストにおいて 全ての生徒の点数は整数値をとり 平均が 60 点 標本標準偏差が 5 点であったとしよう A 君のこのテストの得点は 76 点であった これらの情報より A 君のこのクラスでの順位は少なくとも何位以上になる事がいえるか? ヒント : チェビシェフの不等式 32

2 変量のデータの分析 平均や分散は 1 変量のデータに関する値です これらは 1 変量のデータの分布の形状をとらえる上で有用です しかし より複雑な分析では複数の変数に関するデータに対して その相互関係の分析を行う必要が出てきます 以下ではまず変数が 2 つある (2 変量の ) データについてデータの特性のとらえ方を考えます 33

2 変量のデータの分析 散布図 n 個の観測値の組 { (x 1, y 1 ), (x 2, y 2 ),, (x n, y n ) } が与えられたとき これらをプロットしたものを散布図といいます 34

2 変量のデータの分析 ( 例 ) 散布図下の表はある年のJ リーグ18 試合の試合結果です チーム 1 2 3 4 5 6 7 8 9 勝ち数 22 20 20 18 17 18 13 13 13 得点 67 84 80 60 68 62 51 47 49 失点 28 55 48 41 51 53 49 45 43 チーム 10 11 12 13 14 15 16 17 18 勝ち数 13 13 13 13 12 12 5 6 4 得点 50 57 43 56 46 42 32 44 38 失点 56 58 55 65 65 64 56 70 74 統計学 森棟公夫 照井伸彦 中川満 西埜晴久 黒住英司著 2008 有斐閣 p.66 より 35

2 変量のデータの分析 ( 例 ) 散布図 {(x, y)} = {( 得点, 勝ち数 )} の散布図 得点と勝ち数の散布図 25 20 勝数 15 10 5 0 25 35 45 55 65 75 85 得点 36

2 変量のデータの分析 ( 例 ) 散布図 {(x, y)} = {( 失点, 勝ち数 )} の散布図 25 失点と勝ち数の散布図 20 勝数 15 10 5 0 25 35 45 55 65 75 85 失点 37

2 変量のデータの分析 ( 例 ) 散布図 {(x, y)} = {( 得点, 失点 )} の散布図 85 75 失点と得点の散布図 得点 65 55 45 35 25 25 35 45 55 65 75 85 失点 38

2 変量のデータの分析 共分散 対になった n 個のデータ {(x 1, y 1 ), (x 2, y 2 ),, (x n, y n )} が与えられた時 全標本共分散は xy n 1 ( x x)( y y) n 1 x と定義されます ここでとはそれぞれ x と y の標本平均です ( 標本共分散の場合は n が n 1 になります ) y 39

2 変量のデータの分析 共分散の意味 共分散の符号は 2 変数間の直線的な関係の符号を表しています ( 正か負か ) 共分散の問題点 共分散は 2 変数間の直線的な関係の符号を表すのみであって 直線関係の強さを表すものでは ( データの観測単位が同じである時を除いて ) ありません 40

2 変量のデータの分析 例 : 共分散の問題点 以下は男子 10 人の身長と体重のデータです ( 身長の測定単位は上のデータは cm 下のデータは m) 身長 (cm) 175 183 167 178 158 170 165 174 180 162 体重 (kg) 75 90 76 65 60 80 61 67 87 58 身長 (m) 1.75 1.83 1.67 1.78 1.58 1.70 1.65 1.74 1.80 1.62 体重 (kg) 75 90 76 65 60 80 61 67 87 58 この時 上のデータと下のデータの ( 全標本 ) 共分散はそれぞれ 62.32 0.6232 となります では身長と体重の ( 線形 ) 関係は身長を cm で測ったときの方が大きいといえるのでしょうか? 41

体重 (kg) 2 変量のデータの分析 身長 (cm) と体重 (kg) の散布図 100 80 60 40 20 0 150 160 170 180 190 身長 (cm) それぞれの散布図 体重 (kg) 100 80 60 40 20 身長 (m) と体重 (kg) の散布図 0 1.5 1.6 1.7 1.8 1.9 身長 (m) この散布図から明らかなように 2 つのデータの ( 線形 ) 関係の強さは同じです 共分散は観測値の測定単位によって同じデータでもその値が変わるという問題があります 42

2 変量のデータの分析 相関係数 共分散のこのような欠点を補ったものが相関係数です 相関係数は r xy と書かれます ( 相関係数の定義 ) r xy n 1 n ( x 1 ( x x) 2 x)( y r xy はデータを標準化したものの共分散と等しくなります ( 各自で確認して下さい ) n 1 y) ( y y) 2 43

2 変量のデータの分析 相関係数の意味 2 つの変数 x と y の相関係数が (1) 正の値をとる時 正の相関があるといいます これは片方が大きい時 もう片方も大きくなる傾向がある事を意味しています (2) 負の値をとる時 負の相関があるといいます これは片方が大きいとき もう片方は小さくなる傾向がある事を意味しています (3) 0 の時 無相関といいます これは 2 つの変数間にはどのような線形関係もない事を意味しています 44

2 変量のデータの分析 ( 例 ) 相関係数 先ほどの身長と体重の相関係数は cm m のどちらの場合でも 0.74 となります ちなみに J リーグの例では勝数と得点の相関は 0.87, 勝数と失点の相関は 0.71 得点と失点の相関は 0.44 となります 45

2 変量のデータの分析 相関係数の性質 (1) 相関係数はあくまで 2 つの変数の間の線形関係の強さを見る尺度です x と y の間の関係が強くても それが線形関係で無いのであれば 相関係数には反映されません ( 変数間に強い非線形関係があるが相関が 0 の例 ) 30 25 20 15 10 5 0-6 -4-2 0 2 4 6 46

2 変量のデータの分析 相関係数の性質 (2) 相関係数の値は 1 以上 1 以下の値をとります 相関係数が 1 の時には 完全な負の相関があるといい 1 の時には 完全な正の相関があるといいます ( 完全の負の相関 ) ( 完全な正の相関 ) 10 10 5 5 0-6 0 6-5 0-6 0 6-5 -10-10 47

2 変量のデータの分析 相関係数の性質 (3) 相関係数はあくまで相関関係を示すものであり 因果関係を示すものではありません 因果関係とはどちらかがどちらかの原因となっているような関係の事です 例えば身長と体重の場合は身長が高ければ体重が重いという因果関係があると考えられます 48

49 49 2 変量のデータの分析 性質 (2) の証明相関係数の定義はであるが ここで, と置くと シュワルツの不等式より となります n n n xy y y x x y y x x r 1 2 1 2 1 ) ( ) ( ) )( ( x x a y y b 1 1 2 1 2 1 1 2 1 2 1 n n n n n n b a a b b a a b

演習問題 問題 3 {x 1,, x n } と {y 1,, y n } の相関係数の値が 0.2 であるとする z = y +2, ( =1,,n) とした時 {x 1,, x n } と {z 1,, z n } の相関係数の値を求めよ 問題 4 {x 1,, x n } と {y 1,, y n } の相関係数の値が 0.1 であるとする w = 2y,( =1,,n) とした時 {x 1,, x n } と {w 1,,w n } の相関係数の値を求めよ 50