第2章 1 変量データのまとめ方 本章では, 記述統計の手法について説明します 具体的には, 得られたデータから表やグラフを作成し, 意昧のある統計量を算出する方法など,1 変量データのまとめ方について学びます 本章から理解を深めるための数式が出てきますが, 必ずしも, これらの式を覚える必要はありません それぞれのデータの性質や統計量の意義を理解することが重要です 円グラフと棒グラフ 1 変量質的データをまとめる方法としてよく使われるグラフは, 円グラフと棒グラフです まず, 図 2.1 に, 円グラフの例を示します これは, 学生に好きなスポーツを質問した際に得られたデータをまとめた例です 図 2.1: 円グラフの例 1変量データのまとめ方57 一方, 図 2.2.1 と図 2.2.2 の棒グラフの例は, 各項目の割合を比較するだけでなく, データの度数 ( 頻度 ) そのものを比較することができます
識編111第2 章 図 2.2.1: 棒グラフの例図 2.2.2: 棒グラフの例 ( 降順 ) 円グラフと棒グラフは, 状況に応じて使い分けます 円グラフは, 項目数がそれほど多くない場合に, 各項目の割合を比較する際に有用です 割合の大小を直感的に理解できます 一方, 各項目の度数を比較したい場合や項目数が多い場合には, 円グラフよりも棒グラフのほうが適切です 棒グラフの棒が高いものから低いものへと並ぶように, 頻度順で降順に並び替えてグラフ化することも多くの場合, 有用です このとき, その他 については, 個別に頻度を計算すると数が小さくなってしまう項目 を集めたものと考えられるので, 各項目を降順に並べ替えた後のいちばん最後に示すことが一般的です 度数分布表とヒストグラム 1 変量量的データをまとめる基本的な方法はヒストグラムであり, ヒストグラムを描くためにデータを表形式でまとめたものを度数分布表といいます 一般に, 調査や実験により得られた量的データは, そのままでは数値の羅列にすぎません まず最初に, これらの量的データがどのようにばらついているのかを調べることが必要です ここでは, ヒストグラムを用いて量的データの分布を調べる方法について説明します 2-2-1 度数分布表とヒストグラムの読み方日本人の 20 歳男性 120 人の身長 ( cm ) のデータが以下のように得られたとします 165.3 166.2 181.0 183.9 162.3 177.5 このような量的データに対しては, データの傾向をとらえるため, 表 2.1 のような度数分布表を作成します 度数分布表では, データを階級と呼ばれるいくつかのグループに分け, 22222と22212258 知
第2章各階級に含まれるデータの個数 ( 度数 ) を数えたものを表にします 各階級は, 同じ幅を持 った区間で与えられ, 階級の中心の値を階級値といいます 度数分布表を作成する手順は次 のとおりです 表 2.1: 20 歳男性身長 ( cm ) の度数分布表 階級 階級値 度数 相対度数 累積度数 累積相対度数 150 ~ 155 152.5 1 0.008 1 0.008 155 ~ 160 157.5 5 0.042 6 0.050 160 ~ 165 162.5 16 0.133 22 0.183 165 ~ 170 167.5 35 0.292 57 0.475 170 ~ 175 172.5 32 0.267 89 0.742 175 ~ 180 177.5 19 0.158 108 0.900 180 ~ 185 182.5 9 0.075 117 0.975 185 ~ 190 187.5 3 0.025 120 1 計 120 1 Step 1 データの最大値, 最小値を見つけ, データの範囲 R = 最大値 - 最小値を求める Step 2 階級値 c を決める 階級数は 10 程度に分けることが多いが, データ数に応じて c n 程度を目安として決める 1 Step 3 階級幅 w を,w R/c を目安として決める ただし w は測定単位の整数倍となるように調整する Step 4 階級を決める もっとも小さい階級の下側境界値を 最小値から測定単位の半分を引いた値 とし, ここから w ずつ加えていき, 各階級の境界値を求める このとき, 境界値が最大値 x max より大きくなるまで階級を作る Step 5 各階級をもとに, データの度数を数え, 度数分布表を作成する 度数分布表は, 各階級に含まれるデータが何個あるかという度数を表示しています また, データの総数に対する度数の割合である相対度数は, データ数が異なる複数のデータを比較する場合などに用います さらに, 度数, 相対度数それぞれの累積値を累積度数, 累積相対度数と呼び, これらの値が有効な場合もあります この度数分布表をグラフ化したものがヒ ストグラム ( 図 2.3) です 1変量データのまとめ方59 1 という記号は, だいたいそのくらいの値という大よその等号を表しています たとえば, 階級幅は切りのよい数字が望ましいので,R/c = 2.1623 のような場合,w 2.0 などとしてもよいでしょう
222222222222222識編第2 ヒストグラム章図2.3: ヒストグラムは, その形状によりデータの分布を直感的に把握することができます 特に以下の点について注目することが重要です 1. 単峰形かそうでないか : 得られたデータが一山形の分布 ( 単峰形分布 ) であるのか, 二山, またはそれ以上のピークを持つ分布 ( 多峰形分布 ) であるのかは重要な観点です ( 図 2.4) 山が複数存在する多峰形の場合には, 異なる性質を持つ複数のデータが混在している可能性があるので, その原因を探る必要があります 2. 対称かそうでないか : ヒストグラムが左右対称か非対称かは, この分布が第 7 章の検定や推定で出てくる正規分布をあてはめてよいかどうかに通じます 分布が左右非対称である場合, データの平均値が直観とは異なる値をとることもあるので注意が必要です 3. 中心位置はどこか : データの中心位置を知ることは, 統計解析における基本事項であり, ヒストグラムからおおよその中心を把握することができます 4. ばらつきはどの程度か : データの中心と同時に, データのばらつきの程度を調べることは, もっとも基本的な事項の 1 つです 後述のばらつきを測る尺度と結び付けて, 理解するとよいでしょう 5. 外れ値が存在するか : 外れ値とは, ほかの大多数のデータとかけ離れた値を持つ観測値のことをいいます ( 図 2.5) 外れ値が存在する場合には, その原因を探求してみる必要があります 外れ値が発生する原因はさまざまで, データの転記ミスといった場合もあれば, 何かしらの重大な異常が隠されている場合もあります 外れ値が生じた原因を探ることで, 重要な発見につながる可能性があります 260 知
第2章図 2.4: 一山型と二山型のヒストグラム 図 2.5: 外れ値を含むデータに対するヒストグラム データの中心を表す統計量 データからなんらかの計算により得られた値のことを統計量と呼びます 統計量にはさま ざまな種類があり, データの持つ統計的性質を定量的に測る基準となります ここでは, 統計量のなかでも, 連続データの中心位置を表す統計量について解説します 2-3-1 平均値 代表値のなかで, もっともよく用いられるのが平均値です n 個の観測値 x 1,x 2,,x n が与えられたとすると, 算術平均 x は次の式で計算されます 1変量データのまとめ方61 この算術平均は, 相加平均とも呼ばれ, 日常的にもよく用いられる平均値です ほかの種類の平均値と区別するときには算術平均と呼ばれますが, 単に平均値や平均と呼んだ場合には, この算術平均を指していることが多くあります また, 統計解析において標本平均といった場合も, この算術平均を指す場合がほとんどです 本書においても, 単に平均値という
222222222222222識編 2-3-2 中央値 ゆが平均値は, 外れ値が存在したり, 分布が片方に歪んでいると, その影響を強く受けること が知られています このような外れ値や分布の歪みに影響を受けにくい統計量として, 中央 値 ( メジアン ) があります 中央値は, データを大きさの順に並べたとき, ちょうど真ん中 にくる観測値で定義され, データが偶数個の場合は中央にくる 2 つの観測値の平均を中央値とします たとえば, 以下の 10 個のデータが与えられた場合, 中央値は (5 + 6)/2 = 5.5 となります 1 2 2 3 5 6 8 9 9 50 一方, これらのデータの平均値を計算すると,9.5 になり,50 以外のすべてのデータは平均値よりも小さいデータであることになります これは平均値が外れ値の影響を受けやすいことを示しています 中央値は, 上の例の 50が1000になっても変わらず 5.5となります 2-3-3 最頻値 度数分布のなかでもっとも度数の大きい階級の階級値を最頻値 ( モード ) といいます たとえば, 表 2.1 のデータであれば, 最頻値は 167.5cmということになります 離散データの分布であれば, もっとも頻度の高い値を特定できますが, 連続データの場合には同じ観測値が観測されないことが多いため, 通常は上記のように階級値を使うしかありません そのため, この場合の最頻値は, 度数分布表の階級の作り方により変わることを認識しておく必要があります また, 最頻値も外れ値の影響を受けにくい統計量であると言えるでしょう 2-3-4 平均値 中央値 最頻値の関係 ヒストグラムを描いたときに, 左右対称の単峰形分布であれば, 平均値, 中央値, 最頻値はほとんど値が変わりません 一方, 分布が歪んでいる場合には, 図 2.6 のようになります このグラフのように, ヒストグラムが左に偏った形状の場合, 代表値の値は, 最頻値 < 中央値 < 平均値の順番になります 逆に右に偏った形状の場合は, 最頻値 > 中央値 > 平均値となり, 平均値よりも中央値の方がデータの中心を表すのに適していると考えることもできます たとえば, 日本の社会人全体の収入の程度を把握するために, 平均年収を用いるのが妥当かどうか, という議論はよくあります 年収 5,000 万円以上という高額所得者がいる一方, マイナスの所得者はいませんから, 左右非対称の分布になります 平均年収は, 大多数の人の年収より高めに出るので, 中央値や最頻値を合わせて見るべきと言えます 第2 章場合には算術平均を意昧するものとします 262 知