データ統計情報計算分析 ( 数量的情報定性的情報 ) 上の図にもあるように統計学の目的の一つとしてデータ ( 中学校では資料と呼んでいた ) や統計を正しく分析し我々の判断や行動に役立つ情報を導き出す力を養うことが挙げられる ( 度数分布表とヒストグラム ) 1 年 A

第 4 章データの分析 No.01 ( 中学校での履修事項 ) 1 年生 : 資料の整理 1 階級階級の幅度数度数分布表ヒストグラム ( 柱状グラフ ) 度数折れ線相対度数 2 範囲代表値 ( 平均値中央値最頻値 ) 3 近似値誤差有効数字 3 年生 : 標本調査 1 標本母集団標本調査全数調査無作為抽出を学んだそうですね? ( なぜデータの分析を学ぶのか?) 社会活動でさまざまな問題の解決能力が必要とされる問題解決を客観的に行う為に目的に合わせてデータを収集それらを分析する力の習得が ( 国際的に?) 求められているその基礎固めあるいは ( 数理 ) 統計学の初歩 ( 統計データ情報の言葉の違い ) 統計集団における個々の要素の分布を調べその集団の傾向性質などを数量的統一的に明らかにすることまたその結果として得られた数値データ立論計算の基礎となる既知あるいは認容された事実数値資料つまり計算するための基となる数字の集まりと考えると良いデータは統計を計算するための基となるものであるがデータは統計を計算するために用いられるとは必ずしも決まっていない統計を計算するために基になるデータは必要であるがデータがあるからと言ってそれが必ず統計として表されている訳ではない情報 1 あることがらについての知らせ 2 判断を下したり行動を起こしたりするために必要な種々の媒体を介しての知識

データ統計情報計算分析 ( 数量的情報定性的情報 ) 上の図にもあるように統計学の目的の一つとしてデータ ( 中学校では資料と呼んでいた ) や統計を正しく分析し我々の判断や行動に役立つ情報を導き出す力を養うことが挙げられる ( 度数分布表とヒストグラム ) 1 年 A 組 20 人の生徒の右手の握力を測定して階級毎に表にまとめたものである階級階級値データを整理するために用いる区間各階級の中央の値後で採り上げる中央値とは異なる階級の幅区間の幅 ( 上では 5[kg] である ) 度数階級に入っているデータの個数階級毎の度数を示して分布の様子をわかりやすくした表 ( 左上 ) を度数分布表という右上のように階級の幅を底辺度数を高さとする長方形を順に書いて視覚的に度数の分布を表したものをヒストグラム ( 柱状グラフ ) という両端に度数 0 の階級があるものとして各長方形の上辺の中点を順に線分で結んでできたグラフを度数折れ線 ( 度数分布多角形 ) というまたこのヒストグラムは一つの山のように見えるため単峰性分布という山が二つ以上ある分布を多峰性分布特に二つの場合を二峰性分布というまた特定の階級 A の相対度数を階級の度数全データの大きさで定める各階級に相対度数を対応させた表を相対度数分布表相対度数を用いた折れ線を相対度数折れ線という ( 次頁 )

累積して度数などを見る場合もある特定の階級 A までの度数をすべて加えたものを階級 A の累積度数相対度数を加えたものを累積相対度数という累積度数を用いてヒストグラムを考えることもできる累積しているため右上がりとなる折れ線を書く場合は各長方形の右上の頂点を結ぶこれを累積度数折れ線という累積相対度数を各階級の上限で結んだ累積相対度数折れ線もある

データの分析 No.02 ( 代表値 ) データ全体の特徴を表す一つの数値を代表値という 1 平均値 ( 相加平均確率分布では期待値という言葉もある ) n 個のデータ x 1,x 2,x 3,,x n の総和を n で割ったもの ( 相加平均 ) をデータの平均値という和の記号 Σ を用いてと表すことができる ( 理解するためにいろいろな書き方をおさえよう ) 他のデータに比べて極端に大きかったり小さかったりする少数のデータをはずれ値というはずれ値を含む場合 ( 他に影響を与えやすいので ) 平均値は代表値としてふさわしくない 2 中央値データを大きさの順に並べたとき中央にくる値を中央値という (a) データが奇数個の場合並べ直したものを x 1,x 2,x 3,,x n としたとき中央は番目なのでx が中央値となる (b) データが偶数個の場合並べ直したものを x 1,x 2,x 3,,x n としたとき, +1 番目の 2 つのデータが中央にあるのでその 2 つのデータの平均値を全データの中央値とするはずれ値を含むデータの場合中央値を考えることではずれ値をのぞくデータの平均に近い値となり代表値にふさわしい 3 最頻値データの中で最も個数の多い値をそのデータの最頻値という度数分布表を扱う場合 ( 連続的なデータを扱う場合 ) は最も度数の大きい階級の階級値を最頻値とすることもあるが通常 ( 離散的なデータを扱う場合 ) は最初の定義を用いることとする

( ヒストグラムと代表値の関係 ) ヒストグラムに関して山の上 ( 高い ) の部分を峰山の下 ( 低い ) の部分を裾と呼ぶ峰が一つの分布を単峰性分布二つ以上の分布を多峰性分布といい特に山が二つの分布を二峰性分布という 1 左右対称な分布完全に対称な場合 ( 連続的なデータでは正規分布と呼ばれる ) 平均値 = 中央値 = 最頻値である ( 完全に対称でない場合は = の部分が ) ゆが 2 右に歪んだ分布 ( 左に峰が寄り右方向に裾をひく分布 ) 最頻値 < 中央値 < 平均値 3 左に歪んだ分布 ( 右に峰が寄り左方向に裾をひく分布 ) となる平均値 < 中央値 < 最頻値 2 や 3 の場合平均値を代表値とすることが適切ではない場合があるはずれ値の影響を受けにくい性質を抵抗性があるという中央値や最頻値は抵抗性がある代表値である ( 代表値の性質 ) 平均値中央値最頻値常に 1 つだけ存在抵抗性がないデータが有効に活用されている常に 1 つだけ存在抵抗性がある個々の数値は代表値に直接反映されにくい 1 つとは限らない抵抗性がある

データの分析 No.03 ( 四分位数と箱ひげ図 ) データの散らばりを考えるときに次のような ( 代表 ) 値を考えることがある範囲 (range)=( データの最大値 )-( データの最小値 ) 範囲は最大値最小値のみで決まる値なので極端にはなれた値があるとそれだけで範囲は拡大するまた複数のデータを比較するときに範囲が同じ場合は散らばりの違いを表せないし四ぶん分い位数 (quartile) データを大きさの順に並べたときデータ全体を 4 等分する位置にあるデータを小さい方から第 1 四分位数第 2 四分位数 ( 中央値のこと ) 第 3 四分位数というデータを小さいものから順に並べ替えて左半分のデータを下位のデータ右半分のデータを上位のデータと呼ぶことにするデータが奇数個の場合中央にくる値はそのどちらでもないものとするこのときで定める ( 下位のデータの中央値 )= 第 1 四分位数 ( 上位のデータの中央値 )= 第 3 四分位数 1 データを小さいものから順に並べ替える 2 中央値 ( 第 2 四分位数 ) を求める偶数個中央にある 2 個の値の平均値 3 上の定義に従って第 1 四分位数第 3 四分位数を求めるデータの最小値第 1 四分位数 (Q 1 ) 中央値( 第 2 四分位数 ; Q 2 ) 第 3 四分位数 (Q 3 ) 最大値の 5 つの値を用いてデータを要約することを 5 数要約という表計算ソフト Microsoft Excel で関数を用いて四分位数を出すこともできるが教科書にある定義と若干異なることに注意しないといけない一般に複数の定義があるがここでは上の定義で求めるものとする

四分位範囲 =( 第 3 四分位数 )-( 第 1 四分位数 ) 四分位範囲の値が小さければデータが中央値の近くに集まっていることを指す逆に大きければデータの散らばりが大きいことを指す四分位偏差 = 四分位範囲四分位範囲は Q 3 -Q 1 で与えられる量なのではずれ値や裾が広い分布の影響を受けにくい ( 抵抗性がある ) また Q 3 -Q 1 =(Q 3 -Q 2 )+(Q 2 -Q 1 ) なので四分位偏差は 2 つの平均を表していると見ることもできる視覚的に分布を見る場合に 5 数要約 ( 最小値 Q 1 Q 2 Q 3 最大値 ) を用いて次の箱ひげ髭図 (box and whisker plot) を描いて見る方法がある平均値の + は省略することが多い ( やを使ったものもある ) ( 箱ひげ図とヒストグラム ) ( ヒストグラムと比較することで ) 箱髭図が表している分布がどんなものか分かると思うただし多峰性分布の場合 ( 峰が複数あるため ) 箱髭図からは分布を判断できないので注意が必要である

( 補足 ) はずれ値の判別はずれ値の疑いがあるデータを次のように判別することができる四分位範囲を Q r とすると ( 下位境界値 )=Q 1-1.5 Q r ( 上位境界値 )=Q 3 +1.5 Q r と定めたときに下位境界値を下回っているもしくは上位境界値を上回っているときにはずれ値であるとみなせる箱髭図を用いて箱の長さを測って上の式を用いて境界値を描くことができるので視覚的にはずれ値の疑いがある領域を探ることもできる

データの分析 No.04 ( 分散と標準偏差 ) 四分位範囲四分位偏差は中央値を基準にした散らばりを考えたがここではあらためて平均値を基準にした散らばりの量を考えてみる n 個のデータ x 1,x 2,,x n が与えられていてこの平均値を x ーとするこのときをそれぞれ x 1,x 2,,x n の偏差という平均値を下回っているデータに対してはその偏差は負の値をとり上回っている場合その偏差は正の値をとる一つ一つは平均からどのくらい離れているかを見ることができるでは全体としてどのくらい散らばっているかを見たいと思いこれらの平均値を考えてみるとこれは常に起こるつまり偏差の平均値は散らばりの量としては使えない考えてみれば自明なことで平均から下回っているところと上回っているところで相殺するので量としては 0 を返す訳である従って次のような量を考えてみる偏差の絶対値の平均値 ( これを平均偏差という ) を考える絶対値をとることでそれぞれが正の値をとるので正の量を返すけれども絶対値記号を外すときに常に場合分けを考慮しないといけないためこれはあまり使えない一般には次の量を考える偏差の 2 乗したものの平均値を考える 2 乗することで場合分けを考慮しなくても良いこの量を分散 (variance) という V[X] と表すこともある分散の値が小さいほど平均値の近くにデータが集まっていると言える分散はここで採り上げた量としては一番使える値であるがこれにも若干の問題点があるそれは 2 乗することで次元が 1 つ上がってしまったということである従ってそれ

を補正するため分散の ( 正の ) 平方根をとった標準偏差 (standard deviation) というものを考えるこれによって次元が元に戻ったのである S x と表すこともある標準偏差の値が小さいほど平均値の近くにデータが集まっていると言える分散については次で求めることもできるつまりで求まる ( 分散 )=( 各データを 2 乗したものの平均値 )-( 元のデータの平均値 ) 2

データの分析 No.05 かいへい ( 開平法 ) 正の数の平方根を手計算で求める方法として挙げられるものに開平法がある具体的な方法から一般的な原理を押さえてみようを筆算で求めるには次のようにする 1 数字は小数点を基準に 2 桁ずつに区切っておく 2 平方 (2 乗 ) して 18 以下になる最大の整数として 4 を見つけ ( ルート, 根号 ) の上に 4 を書く 318-42=2 と次の 2 桁 49 を並べて 249 と書く 4 左側では 4+4=8 を縦書きで計算する 8 249 となる最大の整数として 3 を見つけの上に 3 を書く 5249-83 3=0 で右側は終わり左側は 83+3=86 を縦書きで計算する =43. この方法を活用すれば他にものように求まるもちろん有限でない場合もある上の筆算はどんな原理で行われているのだろうか? その一端を次で見てみよう左側の和の部分で同じものを足しているのは上の式の ( 右辺 ) 第 1 項以降が表している右側の積の部分についても ( 右辺 ) の各項の積がそれを表している

10a+b の 2 乗を正方形の面積でイメージしてみると次のようになる ( 補足 ) 偏差値についてある数値が標本の中でどの位置にあるかを表したもの平均値が 50 標準偏差が 10 となるように標準化 ( 規準化 ) されている分布が正規分布 ( 確率分布の単元で扱われるがここでは左右対称な連続分布というイメージで良い下図参考 ) であるとき偏差値の利用価値は高い偏差値を T( 下図の T-score にならって T とした本来は standard score) 変量を x その平均値を x ー標準偏差をσ x とすると次で求まる

データの分析 No.06 そうかん ( 相関関係 ) 相関は国語的な意味としては 2 つのものが密接に関わりあっていることを指すここから ( 数学的には )2 種類のデータについて関係性類似性があるか否かを判断する指標を考えることとする今まで扱ったデータは同一の対象に対して 1 つの項目をもつデータのため 1 次元データと呼ばれる対してここでは 2 つの変数 ( 項目 ) をもつデータ 2 次元データを扱う 2 変量 x y の関係を座標 ( 平面 ) のように点をとって表すと傾向を読み取りやすいこのような図を散布図 ( 相関図 ) という 2 つの変量のデータにおいて一方 ( の値 ) が増えると他方も増える傾向があるとき正の相関 ( 関係 ) があるという [ 図 1] また一歩が増えると他方は減る傾向があるとき負の相関 ( 関係 ) があるという [ 図 2] どちらも認められないとき相関 ( 関係 ) がないという [ 図 3] さらに相関があり特に散布図において直線的な傾向が強いとき相関 ( 関係 ) が強いといい逆に直線的傾向が弱いとき相関 ( 関係 ) が弱いという 2 つの度数分布表を組み合わせた相関表を用いて調べることもできる各階級の欄に記入されている数は度数を表す

2 次元データの組が非常に多いときは相関表を用いて度数で表すことで分布を捉えやすいという利点がある ( 共分散と相関係数 ) 散布図だけではなく相関関係の正負や強弱を数値で表すことができるか考えてみよう 2 変量 x y それぞれの偏差の積の平均値を共分散 (covariance) という散布図を座標平面に見立てて 2 変量 x y の平均値 x ーー y をそれぞれ x 座標 y 座標にとった点 (x ー, y ー ) を中心に平面を 4 領域 1~4( 右上から反時計回りにとる ) に分割したとする各データの偏差の積の値が正ならば 1 3 の領域に点があり逆に積の値が負ならば 2 4 の領域に点がある従ってとなる正の相関がある 1 3 に点が多い共分散の値は正負の相関がある 2 4 に点が多い共分散の値は負相関関係がない (x ー, y ー ) 付近に点が多い共分散の値はほぼ 0

( 補足 ) 共分散に関する別公式共分散の定義式を変形するとつまり 2 つの変量 x y のデータの ( 積の平均 ) から各々の ( 平均の積 ) をひいたものとなる共分散はもとのデータの値の大きさで決まるため単位が異なる 2 変量を扱う場合に解釈しづらいそのため各々の標準偏差で割った相関係数を用いることが一般的である 2 変量の間に相関があるか否かまたその強弱をみるために共分散をそれぞれの変量における標準偏差で割ったものを相関係数 (correlation coefficient) という主に r で表す分母分子の 1/n は約分できるため ( 偏差の積の和 ) (x の偏差の 2 乗和 )(y の偏差の 2 乗和 ) と見ることもできる相関係数の大事な性質としては分子にある 2 変量の偏差の積をそれぞれの標準偏差で割っているため ( 規準化 ) となるこの証明は難しい

( 証明 ) とおくこれを展開するとれを t の 2 次不等式と思って (2 次方程式 Q = 0 の ) 判別式を D とするととなりこ移項してその項で割ることで分母分子に 1/n 2 を掛けて括弧の中に入れると ( 左辺 ) の 2 乗をはずすことですなわち -1 r 1 を得る ( 証明終 ) 相関係数は絶対値が 1 に近いほど強く 0 に近いほど弱いことを表しているここでは次で類別する 1~0.9 極めて強い 0.9~0.7 強い 0.7~0.4 相関がある 0.4~0.2 やや相関がある ( 弱い相関がある ) 0.2~0 ほとんど相関はない

相関について注意しないといけないことは 2 変量の値の大小に関することなので相関関係だけで因果関係を裏付けているわけではないことである ( 補足 ) 疑似相関または偽相関 2 つの事柄に因果関係がないにも関わらず見えない要因によって因果関係があるように推測されることを疑似相関 ( 偽相関 ) という例えば A: アイスクリームの販売数と B: 熱中症の患者数には正の相関が期待されるが A は B の原因ではなくともに暑さという要因からきているものである ( 補足 ) 度数分布表と標準偏差度数分布表が与えられたときの分散標準偏差は次で求められる階級値が x 1,x 2,,x n でそれぞれの度数が f 1,f 2,,f n ( 度数の和は N とする ) のとき ( 分散 )= ( 標準偏差 )= ( 分散 )

( 仮平均と変量変換 ) データの値が大きいときや散らばりが少ないときに ( 平均に近い ) 一定の量を除いた上で平均を計算し元に戻した方が平均を求めやすい場合があるここで除かれる一定の量を仮平均と呼んでいる変量を x( データの数は n 個 ) 仮平均を x 0 とするとであることから変量 x の平均値 x ーはで求まる仮平均としてふさわしい値は 1 真の平均値に近いこと 2 扱いやすい数値であること 3 ( 度数分布表では ) その階級値に属する度数が大きいことが挙げられる一般に元の変量 x に対して u=ax+b(a, b は定数 ) で与えられた新しい変量 u についてその平均値や分散標準偏差を見てみよう u の分散を V u とするとであるから s u = a s x となる