データ 統計 情報 計算 分析 ( 数量的情報 定性的情報 ) 上の図にもあるように 統計学 の目的の一つとして データ ( 中学校では資料と呼んでいた ) や 統計 を正しく分析し 我々の判断や 行動に役立つ 情報 を導き出す力を養うことが挙げられる ( 度数分布表とヒストグラム ) 1 年 A

Similar documents
平均値 () 次のデータは, ある高校生 7 人が ヵ月にカレーライスを食べた回数 x を調べたものである 0,8,4,6,9,5,7 ( 回 ) このデータの平均値 x を求めよ () 右の表から, テレビをみた時間 x の平均値を求めよ 階級 ( 分 ) 階級値度数 x( 分 ) f( 人 )

学習指導要領

散布度

学習指導要領

Microsoft Word - lec_student-chp3_1-representative

テレビ学習メモ 数学 Ⅰ 第 40 回 第 5 章データの分析 相関係数 監修 執筆 湯浅弘一 今回学ぶこと データの分析の最終回 今までの代表値を複合し ながら 2 種類のデータの関係を数値化します 相関係数は 相関がどの程度強いのかを表しています 学習のポイント 12 種類のデータの相関関係を

<4D F736F F D208D A778D5A8A778F4B8E7793B CC A7795D2816A2E646F6378>

Microsoft Word - 町田・全 H30学力スタ 別紙1 1年 数学Ⅰ.doc

学習指導要領

学力スタンダード(様式1)

学習指導要領

経営統計学

Excelによる統計分析検定_知識編_小塚明_1_4章.indd

学習指導要領

Microsoft Word - 保健医療統計学112817完成版.docx

テレビ講座追加資料1105

学習指導要領

Microsoft PowerPoint - 基礎・経済統計6.ppt

学習指導要領

学習指導要領

学習指導要領

中学 1 年生 e ライブラリ数学教材一覧 学校図書 ( 株 ) 中学 1 年 数学 文字式式の計算 項と係数 中学 1 年 数学 次式 中学 1 年 数学 項のまとめ方 中学 1 年 数学 次式の加法 中学 1 年 数学 77

相関係数と偏差ベクトル

Microsoft PowerPoint - データ解析基礎4.ppt [互換モード]

13章 回帰分析

Microsoft PowerPoint - 測量学.ppt [互換モード]

Microsoft PowerPoint - e-stat(OLS).pptx

Microsoft PowerPoint ppt

3章 度数分布とヒストグラム

Microsoft PowerPoint - データ解析基礎2.ppt

3章 度数分布とヒストグラム

代表値

第 3 回講義の項目と概要 統計的手法入門 : 品質のばらつきを解析する 平均と標準偏差 (P30) a) データは平均を見ただけではわからない 平均が同じだからといって 同一視してはいけない b) データのばらつきを示す 標準偏差 にも注目しよう c) 平均

Microsoft Word - スーパーナビ 第6回 数学.docx

Microsoft PowerPoint - 11統計の分析と利用_1-1.pptx

横浜市環境科学研究所

夏期講習高 センター数学 ⅠA テキスト第 講 [] 人の生徒に数学のテストを行った 次の表 は, その結果である ただし, 表 の数値はすべて正確な値であるとして解答せよ 表 数学のテストの得点 次

【指導のポイント】

Microsoft Word - M1-05.docx

<4D F736F F F696E74202D B835E82CC8EED97DE B835E82CC834F BB F0955C82B793C190AB926C>

PowerPoint プレゼンテーション

<4D F736F F D208FAC8A778D5A8A778F4B8E7793B CC81698E5A909495D2816A2E646F6378>

Microsoft Word - 数学Ⅰ

Microsoft PowerPoint - 代表値と散布度.ppt [互換モード]

stat-base_ppt [互換モード]

Microsoft PowerPoint - 10統計の分析と利用_1.pptx

データ解析

<4D F736F F D AAE90AC94C5817A E7793B188C481698D5D E7397A791E58A A778D5A814094F68FE3816A2E646F63>

stat-base [互換モード]

ダンゴムシの 交替性転向反応に 関する研究 3A15 今野直輝

第4回

学習指導要領

スライド 1

画像類似度測定の初歩的な手法の検証

多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典

Blue circle & gradation

PowerPoint プレゼンテーション

データの整理 ( 度数分布表とヒストグラム ) 1 次元のデータの整理の仕方として代表的な ものに度数分布表とヒストグラムがあります 度数分布表観測値をその値に応じていくつかのグループ ( これを階級という ) に分類し 各階級に入る観測値の数 ( これを度数という ) を数えて表にしたもの 2

基礎統計

Microsoft Word - NumericalComputation.docx

中学 3 年数学 ( 東京書籍 ) 単元別コンテンツ一覧 単元ドリル教材解説教材 確認問題ライブラリ (OP) プリント教材 教材数 :17 問題数 : 基本 145, 標準 145, 挑戦 145 多項式と単項式の乗法 除法 式の展開 乗法公式などの問題を収録 解説教材 :6 確認問題 :6 単項

中1数学 移行措置資料

年生 章資料の活用 ( 基本問題練習 ) 入試問題を解くための準備問題です 1 に適当なことばを入れなさい 資料のとる値のうち, 最大のものから最小のものをひいた差を ア という 度数分布表において, 資料を整理するための区間を階級といい, その幅を 3 右の表は, 生徒 人のある日の睡眠時間を,

Ⅰ 指導と評価の年間計画 及び 評価規準と単元計画 の作成の手引き 1 指導と評価の年間計画 についてこれは 次の 2 の 評価規準と単元計画 の全単元について その概要を記述したものである 生徒の学習活動に対するより適正な評価 及び生徒の学習の改善に生かされる評価 ( 指導と評価の一体化 ) の実

中学 1 年数学 ( 東京書籍 ) 単元別コンテンツ一覧 単元ドリル教材解説教材 確認問題ライブラリ (OP) プリント教材 教材数 :8 問題数 : 基本 40, 標準 40, 挑戦 40 正の数 負の数などの問題を収録 解説教材 :3 確認問題 :3 数直線 数の大小と絶対値などの解説 確認問題

Microsoft PowerPoint - Statistics[B]

母平均 母分散 母標準偏差は, が連続的な場合も含めて, すべての個体の特性値 のすべての実現値 の平均 分散 標準偏差であると考えてよい 有限母集団で が離散的な場合, まさにその意味になるが, そうでない場合も, このように理解してよい 5 母数 母集団から定まる定数のこと 母平均, 母分散,

. 角の二等分線と調和平均 平面上に点 を端点とする線分 と を重ならないようにとる, とし とする の二等分線が線分 と交わる点を とし 点 から に垂直に引いた直線が線分 と交わる点 とする 線分 の長さを求めてみよう 点 から に垂直な直線と および との交点をそれぞれ, Dとする つの直角三

頻出問題の解法 4. 絶対値を含む関数 4.1 絶対値を含む関数 絶対値を含む関数の扱い方関数 X = { X ( X 0 のとき ) X ( X <0 のとき ) であるから, 絶対値の 中身 の符号の変わり目で変数の範囲を場合分けし, 絶対値記号をはずす 例 y= x 2 2 x = x ( x

不偏推定量

スライド 1

<88DA8D73915B927595E28F5B8DFB8E712D >

平成 28 年度山梨県学力把握調査 結果分析資料の見方 調査結果概況 正答数分布グラフ 分布の形状から児童生徒の解答状況が分かります 各学校の集計支援ツールでは, 形状だけでなく, 県のデータとの比較もできます 設問別正答率 無解答率グラフ 設問ごとの, 正答率や無解答率が分かります 正答率の低い設

問 題

ビジネス統計 統計基礎とエクセル分析 正誤表

Microsoft Word - 201hyouka-tangen-1.doc

Microsoft PowerPoint - 12統計の分析と利用_1-1.pptx

2011年度 東京大・文系数学

基礎統計

Microsoft Word - Stattext12.doc

<4D F736F F D F90948A F835A E815B8E8E8CB189F090E05F81798D5A97B98CE38F4390B A2E646F63>

経済統計分析1 イントロダクション

[1] の問題は四分位数の計算方法を知っているだけでは解けず, 四分位数や箱ひげ図の意味がわかり, また,2 回目とのデータの比較について箱ひげ図からわかることの判断といったことができるかどうかが問われていた しかも (2) と (3) はそれぞれ選択肢を 4 個と 2 個答えるが, それぞれ完答を

モジュール1のまとめ

EBNと疫学

情報工学概論

2015-2017年度 2次数学セレクション(複素数)解答解説

統計学 - 社会統計の基礎 - 正規分布 標準正規分布累積分布関数の逆関数 t 分布正規分布に従うサンプルの平均の信頼区間 担当 : 岸 康人 資料ページ :

Microsoft Word - apstattext04.docx

統計学入門 練習問題解答集

Microsoft Word - apstattext01b.docx

Medical3

Microsoft PowerPoint - R-stat-intro_04.ppt [互換モード]

memo

Microsoft Word - å“Ÿåłžå¸°173.docx

_KyoukaNaiyou_No.4

振動学特論火曜 1 限 TA332J 藤井康介 6 章スペクトルの平滑化 スペクトルの平滑化とはギザギザした地震波のフーリエ スペクトルやパワ スペクトルでは正確にスペクトルの山がどこにあるかはよく分からない このようなスペクトルから不純なものを取り去って 本当の性質を浮き彫

講義ノート p.2 データの視覚化ヒストグラムの作成直感的な把握のために重要入力間違いがないか確認するデータの分布を把握する fig. ヒストグラムの作成 fig. ヒストグラムの出力例 度数分布表の作成 データの度数を把握する 入力間違いが無いかの確認にも便利 fig. 度数分布表の作成

統計的データ解析

1999年度 センター試験・数学ⅡB

Transcription:

第 4 章データの分析 No.01 ( 中学校での履修事項 ) 1 年生 : 資料の整理 1 階級 階級の幅 度数 度数分布表 ヒストグラム ( 柱状グラフ ) 度数折れ線 相対度数 2 範囲 代表値 ( 平均値 中央値 最頻値 ) 3 近似値 誤差 有効数字 3 年生 : 標本調査 1 標本 母集団 標本調査 全数調査 無作為抽出を学んだそうですね? ( なぜ データの分析 を学ぶのか?) 社会活動で さまざまな問題の解決能力が必要とされる 問題解決を客観的に行う為に 目的に合わせてデータを収集 それらを分析する力の習得が ( 国際的に?) 求められている その基礎固め あるいは ( 数理 ) 統計学の初歩 ( 統計 データ 情報の言葉の違い ) 統計 集団における個々の要素の分布を調べ その集団の傾向 性質などを 数量的 統一的に明らかにすること また その結果として得られた数値データ 立論 計算の基礎となる 既知あるいは認容された事実 数値 資料 つまり 計算するための基となる数字の集まり と考えると良い データ は 統計 を計算するための基となるものであるが データは統計を計算するために用いられるとは必ずしも決まっていない 統計を計算するために 基になるデータは必要であるが データがあるからと言って それが必ず統計として表されている訳ではない 情報 1 あることがらについての知らせ 2 判断を下したり 行動を起こしたりするために必要な 種々の媒体 を介しての知識

データ 統計 情報 計算 分析 ( 数量的情報 定性的情報 ) 上の図にもあるように 統計学 の目的の一つとして データ ( 中学校では資料と呼んでいた ) や 統計 を正しく分析し 我々の判断や 行動に役立つ 情報 を導き出す力を養うことが挙げられる ( 度数分布表とヒストグラム ) 1 年 A 組 20 人の生徒の右手の握力を測定して階級毎に表にまとめたものである 階級 階級値 データを整理するために用いる区間 各階級の中央の値 後で採り上げる 中央値 とは異なる 階級の幅 区間の幅 ( 上では 5[kg] である ) 度数 階級に入っているデータの個数 階級毎の度数を示して分布の様子を わかりやすくした表 ( 左上 ) を度数分布表という 右上のように 階級の幅を底辺 度数を高さとする長方形を順に書いて視覚的に度数の 分布を表したものをヒストグラム ( 柱状グラフ ) という 両端に度数 0 の階級があるもの として 各長方形の上辺の中点を順に線分で結んでできたグラフを 度数折れ線 ( 度数分 布多角形 ) という また このヒストグラムは一つの山のように見えるため 単峰性分布 という 山が二つ以上ある分布を多峰性分布 特に二つの場合を二峰性分布という また 特定の階級 A の相対度数を 階級の度数全データの大きさで定める 各階級に相対度数を対 応させた表を相対度数分布表 相対度数を用いた折れ線を相対度数折れ線という ( 次頁 )

累積して度数などを見る場合もある 特定の階級 A までの度数をすべて加えたものを 階級 A の累積度数 相対度数を加えたものを累積相対度数という 累積度数を用いてヒストグラムを考えることもできる 累積しているため右上がりとなる 折れ線を書く場合は 各長方形の右上の頂点を結ぶ これを累積度数折れ線という 累積相対度数を各階級の上限で結んだ累積相対度数折れ線もある

データの分析 No.02 ( 代表値 ) データ全体の特徴を表す一つの数値を代表値という 1 平均値 ( 相加平均 確率分布では期待値という言葉もある ) n 個のデータ x 1,x 2,x 3,,x n の総和を n で割ったもの ( 相加平均 ) を データの平均値という 和の記号 Σ を用いて と表すことができる ( 理解するためにいろいろな書き方をおさえよう ) 他のデータに比べて極端に大きかったり小さかったりする少数のデータをはずれ値という はずれ値を含む場合 ( 他に影響を与えやすいので ) 平均値は代表値としてふさわしくない 2 中央値 データを大きさの順に並べたとき 中央にくる値を中央値という (a) データが奇数個の場合 並べ直したものを x 1,x 2,x 3,,x n としたとき 中央は 番目なのでx が中央値と なる (b) データが偶数個の場合 並べ直したものを x 1,x 2,x 3,,x n としたとき, +1 番目の 2 つのデータが中央 にあるので その 2 つのデータの平均値を全データの中央値とする はずれ値を含むデータの場合 中央値を考えることで はずれ値をのぞくデータの平均 に近い値となり 代表値にふさわしい 3 最頻値データの中で 最も個数の多い値を そのデータの最頻値という 度数分布表を扱う場合 ( 連続的なデータを扱う場合 ) は 最も度数の大きい階級の階級値を最頻値とすることもあるが 通常 ( 離散的なデータを扱う場合 ) は最初の定義を用いることとする

( ヒストグラムと代表値の関係 ) ヒストグラムに関して 山の上 ( 高い ) の部分を 峰 山の下 ( 低い ) の部分を 裾 と呼ぶ 峰が一つの分布を単峰性分布 二つ以上の分布を多峰性分布といい 特に山が二 つの分布を二峰性分布という 1 左右対称な分布 完全に対称な場合 ( 連続的なデータでは 正規分布と呼ばれる ) 平均値 = 中央値 = 最頻値 である ( 完全に対称でない場合は = の部分が ) ゆが 2 右に歪んだ分布 ( 左に峰が寄り 右方向に裾をひく分布 ) 最頻値 < 中央値 < 平均値 3 左に歪んだ分布 ( 右に峰が寄り 左方向に裾をひく分布 ) となる 平均値 < 中央値 < 最頻値 2 や 3 の場合 平均値を代表値とすることが適切ではない場合がある はずれ値の影 響を受けにくい性質を 抵抗性がある という 中央値や最頻値は 抵抗性がある代表値 である ( 代表値の性質 ) 平均値中央値最頻値 常に 1 つだけ存在 抵抗性がない データが有効に活用されている 常に 1 つだけ存在 抵抗性がある 個々の数値は代表値に直接反映されにくい 1 つとは限らない 抵抗性がある

データの分析 No.03 ( 四分位数と箱ひげ図 ) データの散らばりを考えるときに 次のような ( 代表 ) 値を考えることがある 範囲 (range)=( データの最大値 )-( データの最小値 ) 範囲は 最大値 最小値のみで決まる値なので 極端にはなれた値があると それだけ で範囲は拡大する また複数のデータを比較するときに範囲が同じ場合は 散らばりの違 いを表せない し 四 ぶん分 い 位数 (quartile) データを大きさの順に並べたとき データ全体を 4 等分する位置にあるデータを小さい 方から 第 1 四分位数 第 2 四分位数 ( 中央値のこと ) 第 3 四分位数という データ を小さいものから順に並べ替えて 左半分のデータを 下位のデータ 右半分のデータを 上位のデータ と呼ぶことにする データが奇数個の場合 中央にくる値は そのど ちらでもないものとする このとき で定める ( 下位のデータの中央値 )= 第 1 四分位数 ( 上位のデータの中央値 )= 第 3 四分位数 1 データを小さいものから順に並べ替える 2 中央値 ( 第 2 四分位数 ) を求める 偶数個 中央にある 2 個の値の平均値 3 上の定義に従って第 1 四分位数 第 3 四分位数を求める データの最小値 第 1 四分位数 (Q 1 ) 中央値( 第 2 四分位数 ; Q 2 ) 第 3 四分位数 (Q 3 ) 最大値の 5 つの値を用いてデータを要約することを 5 数要約 という 表計算ソフト Microsoft Excel で関数を用いて四分位数を出すこともできるが 教科書にある定義と若干異なることに注意しないといけない 一般に複数の定義があるが ここでは 上の定義で求めるものとする

四分位範囲 =( 第 3 四分位数 )-( 第 1 四分位数 ) 四分位範囲の値が小さければ データが中央値の近くに集まっていることを指す 逆に 大きければ データの散らばりが大きいことを指す 四分位偏差 = 四分位範囲 四分位範囲は Q 3 -Q 1 で与えられる量なので はずれ値や裾が広い分布の影響を受けにく い ( 抵抗性がある ) また Q 3 -Q 1 =(Q 3 -Q 2 )+(Q 2 -Q 1 ) なので 四分位偏差は 2 つの平均 を表していると見ることもできる 視覚的に分布を見る場合に 5 数要約 ( 最小値 Q 1 Q 2 Q 3 最大値 ) を用いて次の 箱 ひげ髭図 (box and whisker plot) を描いて見る方法がある 平均値の + は省略することが多い ( や を使ったものもある ) ( 箱ひげ図とヒストグラム ) ( ヒストグラムと比較することで ) 箱髭図が表している分布がどんなものか分かると思 う ただし 多峰性分布の場合 ( 峰が複数あるため ) 箱髭図からは分布を判断できない ので注意が必要である

( 補足 ) はずれ値の判別はずれ値の疑いがあるデータを次のように判別することができる 四分位範囲を Q r とすると ( 下位境界値 )=Q 1-1.5 Q r ( 上位境界値 )=Q 3 +1.5 Q r と定めたときに 下位境界値を下回っている もしくは 上位境界値を上回っているときにはずれ値であるとみなせる 箱髭図を用いて 箱の長さを測って上の式を用いて境界値を描くことができるので 視覚的にはずれ値の疑いがある領域を探ることもできる

データの分析 No.04 ( 分散と標準偏差 ) 四分位範囲 四分位偏差は 中央値を基準にした散らばりを考えたが ここではあらためて平均値を基準にした散らばりの量を考えてみる n 個のデータ x 1,x 2,,x n が与えられていて この平均値を x ー とする このとき をそれぞれ x 1,x 2,,x n の偏差という 平均値を下回っているデータに対しては その偏差は負の値をとり 上回っている場合その偏差は正の値をとる 一つ一つは平均からどのくらい離れているかを見ることができる では 全体としてどのくらい散らばっているかを見たいと思い これらの平均値を考えてみると これは常に起こる つまり 偏差の平均値は散らばりの量としては使えない 考えてみ れば自明なことで 平均から下回っているところと上回っているところで相殺するので 量としては 0 を返す訳である 従って 次のような量を考えてみる 偏差の絶対値の平均値 ( これを 平均偏差 という ) を考える 絶対値をとることで それぞれが正の値をとるので 正の量を返す けれども 絶対値記号を外すときに常に場 合分けを考慮しないといけないため これはあまり使えない 一般には次の量を考える 偏差の 2 乗したものの平均値を考える 2 乗することで場合分けを考慮しなくても良い この量を分散 (variance) という V[X] と表すこともある 分散の値が小さいほど平均値の近くにデータが集まっていると言える 分散はここで採り上げた量としては一番使える値であるが これにも若干の問題点があ る それは 2 乗することで次元が 1 つ上がってしまったということである 従って それ

を 補正 するため 分散の ( 正の ) 平方根をとった標準偏差 (standard deviation) と いうものを考える これによって 次元が 元に戻った のである S x と表すこともあ る 標準偏差の値が小さいほど平均値の近くにデータが集まっていると言える 分散については 次で求めることもできる つまり で求まる ( 分散 )=( 各データを 2 乗したものの平均値 )-( 元のデータの平均値 ) 2

データの分析 No.05 かいへい ( 開平法 ) 正の数の平方根を手計算で求める方法として挙げられるものに 開平法 がある 具体的な方法から一般的な原理を押さえてみよう を筆算で求めるには次のようにする 1 数字は 小数点を基準に 2 桁ずつに区切っておく 2 平方 (2 乗 ) して 18 以下になる最大の整数として 4 を見つけ ( ルート, 根号 ) の上に 4 を書く 318-42=2 と次の 2 桁 49 を並べて 249 と書く 4 左側では 4+4=8 を縦書きで計算する 8 249 となる最大の整数 として 3 を見つけ の上に 3 を書く 5249-83 3=0 で右側は終わり 左側は 83+3=86 を縦書きで計算する =43. この方法を活用すれば 他にも のように求まる もちろん有限でない場合もある 上の筆算は どんな原理で行われているのだろうか? その一端を次で見てみよう 左側の和の部分で同じものを足しているのは 上の式の ( 右辺 ) 第 1 項以降が表してい る 右側の積の部分についても ( 右辺 ) の各項の積がそれを表している

10a+b の 2 乗を正方形の面積でイメージしてみると次のようになる ( 補足 ) 偏差値についてある数値が標本の中で どの位置にあるかを表したもの 平均値が 50 標準偏差が 10 となるように標準化 ( 規準化 ) されている 分布が正規分布 ( 確率分布 の単元で扱われるが ここでは左右対称な連続分布というイメージで良い 下図参考 ) であるとき 偏差値の利用価値は高い 偏差値を T( 下図の T-score にならって T とした 本来は standard score) 変量を x その平均値を x ー 標準偏差をσ x とすると次で求まる

データの分析 No.06 そうかん ( 相関関係 ) 相関 は国語的な意味としては 2 つのものが密接に関わりあっていることを指す ここから ( 数学的には )2 種類のデータについて関係性 類似性があるか否かを判断する指標を考えることとする 今まで扱ったデータは 同一の対象に対して 1 つの項目をもつデータのため 1 次元データ と呼ばれる 対して ここでは 2 つの変数 ( 項目 ) をもつデータ 2 次元データ を扱う 2 変量 x y の関係を座標 ( 平面 ) のように点をとって表すと傾向を読み取りやすい このような図を散布図 ( 相関図 ) という 2 つの変量のデータにおいて 一方 ( の値 ) が増えると他方も増える傾向があるとき正の相関 ( 関係 ) があるという [ 図 1] また 一歩が増えると他方は減る傾向があるとき負の相関 ( 関係 ) があるという [ 図 2] どちらも認められないとき 相関 ( 関係 ) がないという [ 図 3] さらに 相関があり 特に散布図において直線的な傾向が強いとき 相関 ( 関係 ) が強いといい 逆に直線的傾向が弱いとき 相関 ( 関係 ) が弱いという 2 つの度数分布表を組み合わせた 相関表 を用いて調べることもできる 各階級の欄 に記入されている数は度数を表す

2 次元データの組が非常に多いときは相関表を用いて度数で表すことで分布を捉えやすいという利点がある ( 共分散と相関係数 ) 散布図だけではなく 相関関係の正負や強弱を数値で表すことができるか考えてみよう 2 変量 x y それぞれの偏差の積の平均値 を共分散 (covariance) という 散布図を座標平面に見立てて 2 変量 x y の平均値 x ー ー y をそれぞれ x 座標 y 座標にとった点 (x ー, y ー ) を中心に平面を 4 領域 1~4( 右上から 反時計回りにとる ) に分割したとする 各データの偏差の積の値が正ならば 1 3 の領域 に点があり 逆に積の値が負ならば 2 4 の領域に点がある 従って となる 正の相関がある 1 3 に点が多い 共分散の値は正 負の相関がある 2 4 に点が多い 共分散の値は負 相関関係がない (x ー, y ー ) 付近に点が多い 共分散の値はほぼ 0

( 補足 ) 共分散に関する別公式 共分散の定義式を変形すると つまり 2 つの変量 x y のデータの ( 積の平均 ) から各々の ( 平均の積 ) をひいたものとなる 共分散は もとのデータの値の大きさで決まるため 単位が異なる 2 変量を扱う場合に解釈しづらい そのため 各々の標準偏差で割った 相関係数 を用いることが一般的である 2 変量の間に相関があるか否か また その強弱をみるために共分散をそれぞれの変量における標準偏差で割ったもの を相関係数 (correlation coefficient) という 主に r で表す 分母 分子の 1/n は約分できるため ( 偏差の積の和 ) (x の偏差の 2 乗和 )(y の偏差の 2 乗和 ) と見ることもできる 相関係数の大事な性質としては 分子にある 2 変量の偏差の積をそれぞれの標準偏差で割っているため ( 規準化 ) となる この証明は難しい

( 証明 ) とおく これを展開すると れを t の 2 次不等式と思って (2 次方程式 Q = 0 の ) 判別式を D とすると となり こ 移項して その項で割ることで 分母 分子に 1/n 2 を掛けて括弧の中に入れると ( 左辺 ) の 2 乗をはずすことで すなわち -1 r 1 を得る ( 証明終 ) 相関係数は絶対値が 1 に近いほど強く 0 に近いほど弱いことを表している ここでは次で類別する 1~0.9 極めて強い 0.9~0.7 強い 0.7~0.4 相関がある 0.4~0.2 やや相関がある ( 弱い相関がある ) 0.2~0 ほとんど相関はない

相関について注意しないといけないことは 2 変量の値の大小に関することなので 相関 関係だけで因果関係を裏付けているわけではないことである ( 補足 ) 疑似相関または偽相関 2 つの事柄に因果関係がないにも関わらず 見えない要因によって因果関係があるように推測されることを疑似相関 ( 偽相関 ) という 例えば A: アイスクリームの販売数 と B: 熱中症の患者数 には正の相関が期待されるが A は B の原因ではなく ともに 暑さ という要因からきているものである ( 補足 ) 度数分布表と標準偏差度数分布表が与えられたときの分散 標準偏差は次で求められる 階級値が x 1,x 2,,x n で それぞれの度数が f 1,f 2,,f n ( 度数の和は N とする ) のとき ( 分散 )= ( 標準偏差 )= ( 分散 )

( 仮平均と変量変換 ) データの値が大きいときや散らばりが少ないときに ( 平均に近い ) 一定の量を除いた上で平均を計算し 元に戻した方が平均を求めやすい場合がある ここで除かれる一定の量を仮平均と呼んでいる 変量を x( データの数は n 個 ) 仮平均を x 0 とすると であることから 変量 x の平均値 x ー は で求まる 仮平均としてふさわしい値は 1 真の平均値に近いこと 2 扱いやすい数値であること 3 ( 度数分布表では ) その階級値に属する度数が大きいこと が挙げられる 一般に 元の変量 x に対して u=ax+b(a, b は定数 ) で与えられた新しい変量 u につ いて その平均値や分散 標準偏差を見てみよう u の分散を V u とすると であるから s u = a s x となる