データ解析基礎. 度数分布と特性値 keyword データの要約 度数分布表, ヒストグラム 分布の中心を表す基本統計量 平均, 最頻値, 中央値 分布のばらつきを表す統計量 分散, 標準偏差 統計データの構造 - データ解析の目的 具体的な対象 ( 母集団 ) についての調査結果 ( 標本をどう加工 処理し, 有益な情報を引き出すかである. 加工 処理するための調査結果として, データ ( 観測データ ) というものがある. 母集団から無作為抽出された個体のことを標本といい, その個数を標本の大きさまたは標本サイズと呼ぶ. 標本 = 観測データ と読み替えても良い 統計データの構造 - データ解析では調査項目のことを変量と呼ぶ. 質的変量 名義尺度 : 名前, 性別 順序尺度 : 好きなもの順位など 量的変量 ( 連続的変量 ) 間隔尺度 : 温度, 成績など 比例尺度 : 距離, 重量, 金額など 統計データの構造 -3: 名義尺度 対象者特性を便宜的に数字で表現 性別 : 男性 =, 女性 = 好きな動物 : 犬 =, 猫 =, ウサギ =3 統計的処理 度数のカウント例 ) 男性 人, 女性 人名義尺度の数字は, 加減乗除算ができない 3
統計データの構造 -: 順位尺度 順位やベスト 3, ワースト 3 などで表現 行きたい国から順に3つ書いてください. 次のタレントを好きな順に3 名書いてください. 統計的処理 例 ) 順位別の度数 位ドイツ 名 位中国 名 3 位オランダ 名 統計データの構造 -: 間隔尺度 評価などの質問 ( 等間隔の順序尺度 ) で使われる 満足度の調査 非常に満足やや満足どちらでもないやや不満非常に不満 統計的処理 度数のカウント 得点化し, 換算 平均などの統計量を計算 統計データの構造 -: 比例尺度 度数分布表 : 質的データ例 数や量などを質問 年収, 年齢 年間売上高, 来場者数 統計的処理 カテゴリー化して度数を計算 平均などの統計量の計算 ID 頭部損傷ヘルメット着用 有り 着用 無し 着用 3 無し 非着用 有り 着用 無し 着用 有り 非着用 7 有り 非着用 無し 着用 793 有り 非着用 応答パターン 頭部損傷 :( 有り, 無し ) ヘルメット着用 : ( 着用, 非着用 ) 7
度数分布表 : 質的な観測データの要約 度数分布表 : 量的な観測データの要約 データで各々の値の個数 ( 度数 ) を求める. 度数を表形式にしたものが度数分布表である 頭部損傷 ヘルッメ着用の有無着用非着用計 有 7 3 無 3 計 7 793 データ集計 度数分布表の作成 ID AGE SAL 3 3 3 33 3 3 7 39 9 7 度数分布表 ( 区間数 ) 区間 ( 以上 - 未満 ) 頻度 - - - 3 3-3 - - - 7 3 7 - - 9 3 9-9 度数分布表 3: 度数分布表の作成 度数分布表作成手順. データ項目を適当な階級に分ける. 各階級に入る度数を数える更に必要ならば, 3. 相対度数, 累積度数, 累積相対度数を計算 相対度数は, データの大きさが異なる複数のデータの分布の比較に有効 度数分布表 : 用語の復習 階級 : 標本値が取り得る値を適当な区間に分けたもの 階級値 : 階級を代表する値. 通常階級の上限と下限の中間値 度数 : 階級に入る標本値の個数 相対度数 : 度数を全標本値の個数で割って, 比率にしたもの 累積度数, 累積相対度数 : 度数, 相対度数を下の階級から順に足したもの
度数分布表 : ヒストグラムの作成 度数分布表 : 度数分布表の読み方 ヒストグラム : グラフの分布の形を見るために, 度数分布表をグラフにしたもの 度数分布表を作成して, ヒストグラムを描くことによってデータの分布を知ることが出来る. データ解析のはじめの一歩!! 区間 ( 以上 - 未満 ) 度数 相対度数累積度数累積相対度数 -.3.3 -. 7. - 3.3. 3-3. 3. -.7.7 -.. - 7 3.. 7 -.7.93-9 3..9 9 -. 9. データ区間 : 3 以上 未満階級値 : 3=(3+)/ 度数 : データ区間に 3 人相対度数 : 9 人は全体の % 累積度数 : 最初から数えてこのデータ区間までに 3 人累積相対度数 : 最初から数えてこのデータ区間までの人数は全体の % 3 度数分布表 7: ヒストグラムの作成 例題 : 得点データ 度数分布表 区間 ( 以上 - 未満 ) 頻度 - - - 3 3-3 - - - 7 3 7 - - 9 3 9 - - - - 3 ヒストグラム 3 - - - - 7 7 - - 9 9 - 学籍番号 得点 性別 IV 7 女子 IV 男子 IV3 男子 IV 男子 IV 男子 IV 男子 IV7 女子 IV 女子 IV9 男子 IV 女子 IV 9 女子 IV 男子 IV3 79 女子 IV 女子 IV 男子 IV 女子 IV7 女子 IV 女子 IV9 7 女子 IV 女子 IV 女子 IV 男子 IV3 7 男子 IV 男子 IV 男子 学籍番号 得点 性別 IV 女子 IV7 9 男子 IV 男子 IV9 77 男子 IV3 女子 IV3 男子 IV3 7 男子 IV33 女子 IV3 女子 IV3 男子 IV3 男子 IV37 女子 IV3 男子 IV39 7 男子 IV 男子 IV 女子 IV 男子 IV3 男子 IV 男子 IV 男子 IV 女子 IV7 女子 IV 3 男子 IV9 女子 IV 39 男子 学籍番号 得点 性別 IV 女子 IV 3 男子 IV3 女子 IV 9 女子 IV 女子 IV 7 男子 IV7 女子 IV 7 女子 IV9 男子 IV7 女子 IV7 男子 IV7 男子 IV73 女子 IV7 男子
例題 : 度数分布表 例題 : ヒストグラム 度数分布表 ( 全体 ) 区間 度数相対頻度 3~. ~ 3.3 ~.3 ~7. 7~. 度数分布表 ( 男子 ) 区間 度数相対頻度 3~. ~ 7. ~.37 ~7 3.7 7~. 度数分布表 ( 女子 ) 区間 度数相対頻度 3~.3 ~. ~.33 ~7.3 7~ 3.9 3 データのまとめ方によって, 異なる解釈ができる場合がある. ヒストグラム : 全体 3~ ~ ~ ~7 7~ ヒストグラム : 男子 3~ ~ ~ ~7 7~ ヒストグラム : 女子 3~ ~ ~ ~7 7~ 7 分布の特性値 度数分布やヒストグラムを見ることで分布の形状を知るができる. 数値で分布の概要を把握するための指標として, 代表値 : データの中心の位置 散布度 : データの散らばり具合 がある. つの指標を総称して 分布の特性値 という. 分布の特性値 : 代表値 データの分布がどのような値を中心に散らばっているか明らかにする. 平均 : データのすべての値を足し合わせて, データ数で割ったもの 最頻値 : 分布の最も高い場所 中央値 ( メジアン ): データの中央にくる値のこと 9
分布の特性値 : 代表値 日本全国の平均世帯収入は? 渡辺久哲 調査データにだまされない法 創元社より 中央値 総務庁の統計局の家計調査によると, 平成 年度の全国平均の世帯年収は 73 万円であった. desity 3...... 最頻値 x 平均値 最頻値 全国の一般世帯およそ 標本について収入と支出についての調査 この73 万円という世帯年収を聞いての感想は, ふつうの家はそんなに稼いでいるのか!! 例えば, ボーナスを年間 3ヶ月分支給すると仮定それば,ヶ月の収入は約 万円となる. 日本全国の平均世帯収入は? 分布の特性値 : 散布度散布度 : 分散 ( 標準偏差 ) 9 7 3 平均年収が 73 万円となった理由 万円以上稼ぐ高所得者がその平均を引き上げていたため 次の つのデータの平均を考える. 平均値は同じである データのもつ意味が全く違う データを要約する値としては不十分? データの散らばりを表す量も表示する - - 3 3 - - - - 7 7 - - 9 9 - - 単位 : 万円 3
7 3 分布の特性値 : 散布度例 ) 散布度 : 分散 ( 標準偏差 ) 3 クラスで, 統計学の試験をし, 各クラスで 3 人ずつ選び平均点を計算すると 点であった. このデータから, ヒストグラムを作成したところ以下のような結果であった. この平均点だけで, データを解釈しても良いか. 3 クラス A のヒストグラム 3 7 7 9 7 3 3 クラス B のヒストグラム 3 7 7 9. 3. 3... 3 クラス C のヒストグラム 3 7 7 9 データの散らばりを表す量散布度 : 分散 ( 標準偏差 ) 分散 : データの散らばりを表現する量 データの散らばり具合が大きいほど, 分散の値は大きくなる. 3 つのクラスの分散の大きさは, クラス A< クラス B< クラス C 標準偏差 : 分散を平方根したもの データの散らばりを表す量散布度 : 分散 ( 標準偏差 ) 平均, 分散の計算式 desity....3. - - x 分布 分布 の平均 = 分布 の平均分布 の分散 < 分布 の分散 分布 個の観測データx= ( x, x,..., x ) が得られたする. x = i= x i このとき, この観測データから標本平均と標本分散は以下の式で計算される. 標本平均標本分散 = ( i ) = i i= i= s x x x x 7
平均値の意味 9 7 点 数 3 以下の 人の学生の得点を表した図 得点と平均点との距離 3 7 9 番号 平均点 番号得点 3 7 7 3 9 7 平均値の意味 人の得点を x= ( x,..., x) と書く. このとき, ある値 α と得点の距離を di = ( xi α) ( i=,...,) で定義すると, その距離の総和 y は y = di ( xi α) α xi xi x = = + i i= i= i= i= i= このとき, y の最小値は, この項がのとき, x の標本分散 yは最小になる α = xi = x i= であるので, 平均値は観測値との距離を最小にする値となる. 9 3 例題 : 平均値の意味 次の度数分布表とヒストグラムはあるテスト結果をまとめたものである. わかることを述べなさい. 度数分布表 区間 度数 - - - 3 3 - - - - 7 7 - - 9 9-7 3 3 - ヒストグラム - - 3 - - - - 7 - - 9-3 7 9 3 例題 : 基本統計量 以下のデータは, 日間にわたる つのストアの 日の売り上げ高 ( 単位 : 万円 ) である. どちらのお店がより安定しているか答えなさい. 日 3 7 9 平野ストア 7 松原マート 3 9 7 3 3 7 3
例題 : 折れ線グラフ 例題 3: 基本統計量 9 7 3 平野ストア 松原マート 平均 分散 標準偏差 平野ストア 9. 3.. 松原マート. 3. 3.3 3 7 9 ( 日 ) 以下のデータは, 同じ科目を講義中心と演習中心という つの異なる講義方法でおこない, クラス A( 講義中心 ) とクラス B( 実習中心 ) からそれぞれ 名を選び, 試験をおこなった結果である. つのクラスを比較しなさい. No 3 7 9 講義中心 A 3 7 3 実習中心 B 3 7 33 77 3 9 No 3 7 9 講義中心 A 7 7 7 3 実習中心 B 39 3 9 3 33 3 例題 3: 基本統計量 例題 3: 基本統計量 基本統計量 平均 分散 標準偏差 講義中心 A..9. 実習中心 B 9. 7.7.7 度数分布表 区間 A B - - 3 3 - - 3-7 - 7 7 - - 9 9-7 3 - - 3 3 - - - - 7 7 - - 9 9 - A B 3 3
まとめ データからの情報抽出 : データの要約 度数分布表, ヒストグラム 分布の中心を表す特性値 代表値 : 平均, 最頻値, 中央値 分布のばらつきを表す特性値 散布度 : 分散, 標準偏差 37