第 4 章データの分析 No.01 ( 中学校での履修事項 ) 1 年生 : 資料の整理 1 階級 階級の幅 度数 度数分布表 ヒストグラム ( 柱状グラフ ) 度数折れ線 相対度数 2 範囲 代表値 ( 平均値 中央値 最頻値 ) 3 近似値 誤差 有効数字 3 年生 : 標本調査 1 標本 母集団 標本調査 全数調査 無作為抽出を学んだそうですね? ( なぜ データの分析 を学ぶのか?) 社会活動で さまざまな問題の解決能力が必要とされる 問題解決を客観的に行う為に 目的に合わせてデータを収集 それらを分析する力の習得が ( 国際的に?) 求められている その基礎固め あるいは ( 数理 ) 統計学の初歩 ( 統計 データ 情報の言葉の違い ) 統計 集団における個々の要素の分布を調べ その集団の傾向 性質などを 数量的 統一的に明らかにすること また その結果として得られた数値データ 立論 計算の基礎となる 既知あるいは認容された事実 数値 資料 つまり 計算するための基となる数字の集まり と考えると良い データ は 統計 を計算するための基となるものであるが データは統計を計算するために用いられるとは必ずしも決まっていない 統計を計算するために 基になるデータは必要であるが データがあるからと言って それが必ず統計として表されている訳ではない 情報 1 あることがらについての知らせ 2 判断を下したり 行動を起こしたりするために必要な 種々の媒体 を介しての知識
データ 統計 情報 計算 分析 ( 数量的情報 定性的情報 ) 上の図にもあるように 統計学 の目的の一つとして データ ( 中学校では資料と呼んでいた ) や 統計 を正しく分析し 我々の判断や 行動に役立つ 情報 を導き出す力を養うことが挙げられる ( 度数分布表とヒストグラム ) 1 年 A 組 20 人の生徒の右手の握力を測定して階級毎に表にまとめたものである 階級 階級値 データを整理するために用いる区間 各階級の中央の値 後で採り上げる 中央値 とは異なる 階級の幅 区間の幅 ( 上では 5[kg] である ) 度数 階級に入っているデータの個数 階級毎の度数を示して分布の様子を わかりやすくした表 ( 左上 ) を度数分布表という 右上のように 階級の幅を底辺 度数を高さとする長方形を順に書いて視覚的に度数の 分布を表したものをヒストグラム ( 柱状グラフ ) という 両端に度数 0 の階級があるもの として 各長方形の上辺の中点を順に線分で結んでできたグラフを 度数折れ線 ( 度数分 布多角形 ) という また このヒストグラムは一つの山のように見えるため 単峰性分布 という 山が二つ以上ある分布を多峰性分布 特に二つの場合を二峰性分布という また 特定の階級 A の相対度数を 階級の度数全データの大きさで定める 各階級に相対度数を対 応させた表を相対度数分布表 相対度数を用いた折れ線を相対度数折れ線という ( 次頁 )
累積して度数などを見る場合もある 特定の階級 A までの度数をすべて加えたものを 階級 A の累積度数 相対度数を加えたものを累積相対度数という 累積度数を用いてヒストグラムを考えることもできる 累積しているため右上がりとなる 折れ線を書く場合は 各長方形の右上の頂点を結ぶ これを累積度数折れ線という 累積相対度数を各階級の上限で結んだ累積相対度数折れ線もある
データの分析 No.02 ( 代表値 ) データ全体の特徴を表す一つの数値を代表値という 1 平均値 ( 相加平均 確率分布では期待値という言葉もある ) n 個のデータ x 1,x 2,x 3,,x n の総和を n で割ったもの ( 相加平均 ) を データの平均値という 和の記号 Σ を用いて と表すことができる ( 理解するためにいろいろな書き方をおさえよう ) 他のデータに比べて極端に大きかったり小さかったりする少数のデータをはずれ値という はずれ値を含む場合 ( 他に影響を与えやすいので ) 平均値は代表値としてふさわしくない 2 中央値 データを大きさの順に並べたとき 中央にくる値を中央値という (a) データが奇数個の場合 並べ直したものを x 1,x 2,x 3,,x n としたとき 中央は 番目なのでx が中央値と なる (b) データが偶数個の場合 並べ直したものを x 1,x 2,x 3,,x n としたとき, +1 番目の 2 つのデータが中央 にあるので その 2 つのデータの平均値を全データの中央値とする はずれ値を含むデータの場合 中央値を考えることで はずれ値をのぞくデータの平均 に近い値となり 代表値にふさわしい 3 最頻値データの中で 最も個数の多い値を そのデータの最頻値という 度数分布表を扱う場合 ( 連続的なデータを扱う場合 ) は 最も度数の大きい階級の階級値を最頻値とすることもあるが 通常 ( 離散的なデータを扱う場合 ) は最初の定義を用いることとする
( ヒストグラムと代表値の関係 ) ヒストグラムに関して 山の上 ( 高い ) の部分を 峰 山の下 ( 低い ) の部分を 裾 と呼ぶ 峰が一つの分布を単峰性分布 二つ以上の分布を多峰性分布といい 特に山が二 つの分布を二峰性分布という 1 左右対称な分布 完全に対称な場合 ( 連続的なデータでは 正規分布と呼ばれる ) 平均値 = 中央値 = 最頻値 である ( 完全に対称でない場合は = の部分が ) ゆが 2 右に歪んだ分布 ( 左に峰が寄り 右方向に裾をひく分布 ) 最頻値 < 中央値 < 平均値 3 左に歪んだ分布 ( 右に峰が寄り 左方向に裾をひく分布 ) となる 平均値 < 中央値 < 最頻値 2 や 3 の場合 平均値を代表値とすることが適切ではない場合がある はずれ値の影 響を受けにくい性質を 抵抗性がある という 中央値や最頻値は 抵抗性がある代表値 である ( 代表値の性質 ) 平均値中央値最頻値 常に 1 つだけ存在 抵抗性がない データが有効に活用されている 常に 1 つだけ存在 抵抗性がある 個々の数値は代表値に直接反映されにくい 1 つとは限らない 抵抗性がある
データの分析 No.03 ( 四分位数と箱ひげ図 ) データの散らばりを考えるときに 次のような ( 代表 ) 値を考えることがある 範囲 (range)=( データの最大値 )-( データの最小値 ) 範囲は 最大値 最小値のみで決まる値なので 極端にはなれた値があると それだけ で範囲は拡大する また複数のデータを比較するときに範囲が同じ場合は 散らばりの違 いを表せない し 四 ぶん分 い 位数 (quartile) データを大きさの順に並べたとき データ全体を 4 等分する位置にあるデータを小さい 方から 第 1 四分位数 第 2 四分位数 ( 中央値のこと ) 第 3 四分位数という データ を小さいものから順に並べ替えて 左半分のデータを 下位のデータ 右半分のデータを 上位のデータ と呼ぶことにする データが奇数個の場合 中央にくる値は そのど ちらでもないものとする このとき で定める ( 下位のデータの中央値 )= 第 1 四分位数 ( 上位のデータの中央値 )= 第 3 四分位数 1 データを小さいものから順に並べ替える 2 中央値 ( 第 2 四分位数 ) を求める 偶数個 中央にある 2 個の値の平均値 3 上の定義に従って第 1 四分位数 第 3 四分位数を求める データの最小値 第 1 四分位数 (Q 1 ) 中央値( 第 2 四分位数 ; Q 2 ) 第 3 四分位数 (Q 3 ) 最大値の 5 つの値を用いてデータを要約することを 5 数要約 という 表計算ソフト Microsoft Excel で関数を用いて四分位数を出すこともできるが 教科書にある定義と若干異なることに注意しないといけない 一般に複数の定義があるが ここでは 上の定義で求めるものとする
四分位範囲 =( 第 3 四分位数 )-( 第 1 四分位数 ) 四分位範囲の値が小さければ データが中央値の近くに集まっていることを指す 逆に 大きければ データの散らばりが大きいことを指す 四分位偏差 = 四分位範囲 四分位範囲は Q 3 -Q 1 で与えられる量なので はずれ値や裾が広い分布の影響を受けにく い ( 抵抗性がある ) また Q 3 -Q 1 =(Q 3 -Q 2 )+(Q 2 -Q 1 ) なので 四分位偏差は 2 つの平均 を表していると見ることもできる 視覚的に分布を見る場合に 5 数要約 ( 最小値 Q 1 Q 2 Q 3 最大値 ) を用いて次の 箱 ひげ髭図 (box and whisker plot) を描いて見る方法がある 平均値の + は省略することが多い ( や を使ったものもある ) ( 箱ひげ図とヒストグラム ) ( ヒストグラムと比較することで ) 箱髭図が表している分布がどんなものか分かると思 う ただし 多峰性分布の場合 ( 峰が複数あるため ) 箱髭図からは分布を判断できない ので注意が必要である
( 補足 ) はずれ値の判別はずれ値の疑いがあるデータを次のように判別することができる 四分位範囲を Q r とすると ( 下位境界値 )=Q 1-1.5 Q r ( 上位境界値 )=Q 3 +1.5 Q r と定めたときに 下位境界値を下回っている もしくは 上位境界値を上回っているときにはずれ値であるとみなせる 箱髭図を用いて 箱の長さを測って上の式を用いて境界値を描くことができるので 視覚的にはずれ値の疑いがある領域を探ることもできる
データの分析 No.04 ( 分散と標準偏差 ) 四分位範囲 四分位偏差は 中央値を基準にした散らばりを考えたが ここではあらためて平均値を基準にした散らばりの量を考えてみる n 個のデータ x 1,x 2,,x n が与えられていて この平均値を x ー とする このとき をそれぞれ x 1,x 2,,x n の偏差という 平均値を下回っているデータに対しては その偏差は負の値をとり 上回っている場合その偏差は正の値をとる 一つ一つは平均からどのくらい離れているかを見ることができる では 全体としてどのくらい散らばっているかを見たいと思い これらの平均値を考えてみると これは常に起こる つまり 偏差の平均値は散らばりの量としては使えない 考えてみ れば自明なことで 平均から下回っているところと上回っているところで相殺するので 量としては 0 を返す訳である 従って 次のような量を考えてみる 偏差の絶対値の平均値 ( これを 平均偏差 という ) を考える 絶対値をとることで それぞれが正の値をとるので 正の量を返す けれども 絶対値記号を外すときに常に場 合分けを考慮しないといけないため これはあまり使えない 一般には次の量を考える 偏差の 2 乗したものの平均値を考える 2 乗することで場合分けを考慮しなくても良い この量を分散 (variance) という V[X] と表すこともある 分散の値が小さいほど平均値の近くにデータが集まっていると言える 分散はここで採り上げた量としては一番使える値であるが これにも若干の問題点があ る それは 2 乗することで次元が 1 つ上がってしまったということである 従って それ
を 補正 するため 分散の ( 正の ) 平方根をとった標準偏差 (standard deviation) と いうものを考える これによって 次元が 元に戻った のである S x と表すこともあ る 標準偏差の値が小さいほど平均値の近くにデータが集まっていると言える 分散については 次で求めることもできる つまり で求まる ( 分散 )=( 各データを 2 乗したものの平均値 )-( 元のデータの平均値 ) 2
データの分析 No.05 かいへい ( 開平法 ) 正の数の平方根を手計算で求める方法として挙げられるものに 開平法 がある 具体的な方法から一般的な原理を押さえてみよう を筆算で求めるには次のようにする 1 数字は 小数点を基準に 2 桁ずつに区切っておく 2 平方 (2 乗 ) して 18 以下になる最大の整数として 4 を見つけ ( ルート, 根号 ) の上に 4 を書く 318-42=2 と次の 2 桁 49 を並べて 249 と書く 4 左側では 4+4=8 を縦書きで計算する 8 249 となる最大の整数 として 3 を見つけ の上に 3 を書く 5249-83 3=0 で右側は終わり 左側は 83+3=86 を縦書きで計算する =43. この方法を活用すれば 他にも のように求まる もちろん有限でない場合もある 上の筆算は どんな原理で行われているのだろうか? その一端を次で見てみよう 左側の和の部分で同じものを足しているのは 上の式の ( 右辺 ) 第 1 項以降が表してい る 右側の積の部分についても ( 右辺 ) の各項の積がそれを表している
10a+b の 2 乗を正方形の面積でイメージしてみると次のようになる ( 補足 ) 偏差値についてある数値が標本の中で どの位置にあるかを表したもの 平均値が 50 標準偏差が 10 となるように標準化 ( 規準化 ) されている 分布が正規分布 ( 確率分布 の単元で扱われるが ここでは左右対称な連続分布というイメージで良い 下図参考 ) であるとき 偏差値の利用価値は高い 偏差値を T( 下図の T-score にならって T とした 本来は standard score) 変量を x その平均値を x ー 標準偏差をσ x とすると次で求まる
データの分析 No.06 そうかん ( 相関関係 ) 相関 は国語的な意味としては 2 つのものが密接に関わりあっていることを指す ここから ( 数学的には )2 種類のデータについて関係性 類似性があるか否かを判断する指標を考えることとする 今まで扱ったデータは 同一の対象に対して 1 つの項目をもつデータのため 1 次元データ と呼ばれる 対して ここでは 2 つの変数 ( 項目 ) をもつデータ 2 次元データ を扱う 2 変量 x y の関係を座標 ( 平面 ) のように点をとって表すと傾向を読み取りやすい このような図を散布図 ( 相関図 ) という 2 つの変量のデータにおいて 一方 ( の値 ) が増えると他方も増える傾向があるとき正の相関 ( 関係 ) があるという [ 図 1] また 一歩が増えると他方は減る傾向があるとき負の相関 ( 関係 ) があるという [ 図 2] どちらも認められないとき 相関 ( 関係 ) がないという [ 図 3] さらに 相関があり 特に散布図において直線的な傾向が強いとき 相関 ( 関係 ) が強いといい 逆に直線的傾向が弱いとき 相関 ( 関係 ) が弱いという 2 つの度数分布表を組み合わせた 相関表 を用いて調べることもできる 各階級の欄 に記入されている数は度数を表す
2 次元データの組が非常に多いときは相関表を用いて度数で表すことで分布を捉えやすいという利点がある ( 共分散と相関係数 ) 散布図だけではなく 相関関係の正負や強弱を数値で表すことができるか考えてみよう 2 変量 x y それぞれの偏差の積の平均値 を共分散 (covariance) という 散布図を座標平面に見立てて 2 変量 x y の平均値 x ー ー y をそれぞれ x 座標 y 座標にとった点 (x ー, y ー ) を中心に平面を 4 領域 1~4( 右上から 反時計回りにとる ) に分割したとする 各データの偏差の積の値が正ならば 1 3 の領域 に点があり 逆に積の値が負ならば 2 4 の領域に点がある 従って となる 正の相関がある 1 3 に点が多い 共分散の値は正 負の相関がある 2 4 に点が多い 共分散の値は負 相関関係がない (x ー, y ー ) 付近に点が多い 共分散の値はほぼ 0
( 補足 ) 共分散に関する別公式 共分散の定義式を変形すると つまり 2 つの変量 x y のデータの ( 積の平均 ) から各々の ( 平均の積 ) をひいたものとなる 共分散は もとのデータの値の大きさで決まるため 単位が異なる 2 変量を扱う場合に解釈しづらい そのため 各々の標準偏差で割った 相関係数 を用いることが一般的である 2 変量の間に相関があるか否か また その強弱をみるために共分散をそれぞれの変量における標準偏差で割ったもの を相関係数 (correlation coefficient) という 主に r で表す 分母 分子の 1/n は約分できるため ( 偏差の積の和 ) (x の偏差の 2 乗和 )(y の偏差の 2 乗和 ) と見ることもできる 相関係数の大事な性質としては 分子にある 2 変量の偏差の積をそれぞれの標準偏差で割っているため ( 規準化 ) となる この証明は難しい
( 証明 ) とおく これを展開すると れを t の 2 次不等式と思って (2 次方程式 Q = 0 の ) 判別式を D とすると となり こ 移項して その項で割ることで 分母 分子に 1/n 2 を掛けて括弧の中に入れると ( 左辺 ) の 2 乗をはずすことで すなわち -1 r 1 を得る ( 証明終 ) 相関係数は絶対値が 1 に近いほど強く 0 に近いほど弱いことを表している ここでは次で類別する 1~0.9 極めて強い 0.9~0.7 強い 0.7~0.4 相関がある 0.4~0.2 やや相関がある ( 弱い相関がある ) 0.2~0 ほとんど相関はない
相関について注意しないといけないことは 2 変量の値の大小に関することなので 相関 関係だけで因果関係を裏付けているわけではないことである ( 補足 ) 疑似相関または偽相関 2 つの事柄に因果関係がないにも関わらず 見えない要因によって因果関係があるように推測されることを疑似相関 ( 偽相関 ) という 例えば A: アイスクリームの販売数 と B: 熱中症の患者数 には正の相関が期待されるが A は B の原因ではなく ともに 暑さ という要因からきているものである ( 補足 ) 度数分布表と標準偏差度数分布表が与えられたときの分散 標準偏差は次で求められる 階級値が x 1,x 2,,x n で それぞれの度数が f 1,f 2,,f n ( 度数の和は N とする ) のとき ( 分散 )= ( 標準偏差 )= ( 分散 )
( 仮平均と変量変換 ) データの値が大きいときや散らばりが少ないときに ( 平均に近い ) 一定の量を除いた上で平均を計算し 元に戻した方が平均を求めやすい場合がある ここで除かれる一定の量を仮平均と呼んでいる 変量を x( データの数は n 個 ) 仮平均を x 0 とすると であることから 変量 x の平均値 x ー は で求まる 仮平均としてふさわしい値は 1 真の平均値に近いこと 2 扱いやすい数値であること 3 ( 度数分布表では ) その階級値に属する度数が大きいこと が挙げられる 一般に 元の変量 x に対して u=ax+b(a, b は定数 ) で与えられた新しい変量 u につ いて その平均値や分散 標準偏差を見てみよう u の分散を V u とすると であるから s u = a s x となる