統計の分析と利用 /9/ 統計の分析と利用. データとその扱い PartⅠ -. 一次元のデータ -. 一次元のデータ ヒストグラム 幹葉プロット 箱ひげ図代表値と散らばりデータの尺度 -. 二次元のデータ 変数の関係 : 散布図, 共分散 相関係数 変数の関係 : クロス集計, クラメルの連関係数 変数の関係 : 点グラフ, 相関比 堀田敬介, 9, -,,,, /9/, Fr.~ = ヒストグラム ローレンツ曲線 ジニ係数 幹葉プロット 箱ひげ図 次元のデータ ( データ数 :=) ======例),,,,,, データ [ 土日の来店客数の 年間のデータ ] 週末はどのぐらいお客さんが来てくれたの? 9 8 9 9 9 8 9 8 8 8 8 9 8 89 9 99 9 9 9 9 9 8 8 99 8 9 8 9 9 9 88 89 8 8 9 9 9, ( データが多すぎて全体の傾向がよくわからない! ), 表 [ 土日の来店客数の 年間のデータ ] 階級 (class) 階級数 : 階級幅 : 階級値各階級の上限 下限値の中間値 例. -9 例 - -9 8-9 -9-9 -99-9 8-9 -89 9-9 -9 計 全体の傾向がよくわかる! 度数 (frequecy) なるほど, 週末の来店客数はだいたいこのぐらいのことが多いんだ
統計の分析と利用 /9/ 表 [ 土日の来店客数の 年間のデータ ] -9 8-9 -9-9 -99-9 8-9 -89 9-9 -9 計 階級数 : 階級幅 : -99-9 -99-9 -99-9 計 階級数 : 階級幅 : 階級数 ( 階級幅 ) は任意 どうするかは問題 にすると全体の傾向がわかりやすくなるが, 生データと比べて情報量が少なくなるため, このようなことがおこる. -9-9 9-9 -9 8-89 -9 8 9-99 -9-9 -9-9 -9-9 -9-9 -9-9 8 8-89 -9 9-99 -9-9 -9-9 8-89 8-9 9-99 -9 計 階級数 :8 階級幅 : 階級数の目安 スタージェスの公式 例では log log.. より, 階級数は 8 程度がお勧めだよ データ数 だけで階級数を決めていることに注意 (: 階級数,: データ数 ) Ecel での計算は. = + LOG(, ) 階級数 8( 階級幅 8) で書くと -8 88- - - -9 8-8- - 計 相対度数.9.8...9..8.. 相対度数 (relatve frequecy) なるほど, 週末の来店客数の全体傾向はだいたいわかったぞ でも, 度数の多い階級は全体からみてどのぐらいの割合なの? 表 [ 相対度数 ] -9 8-9 -9-9 -99-9 8-9 -89 9-9 -9 計 相対度数..9. 9. 9..9. 9..9. B さんのお店と比べて, うちのお客さんの来店傾向はどうなのか比較したいな -9 8-9 -9-9 -99-9 -9-89 9-9 -9 計 データ数が異なる つのグループの比較ができる 相対度数...........
統計の分析と利用 /9/ ヒストグラム 累積表 [ 累積度数, 累積相対度数 ] 相対度数 -9. 8-9.9-9. -9 9. -99 9. -9 8.9-9. -89 9. 9-9.9-9. 計. 累積度数 (cumulatve frequecy) 累積度数累積相対度数..8. 9.8 9. 9. 9 8. 9. 99.. 累積相対度数 (cumulatve relatve frequecy) ヒストグラム (hstogram) 柱状グラフ 日 数 - 9 8-9 - 9 ヒストグラム ( 級間隔 ) - 9 - - 99 9 来店客数 - 9 日数 - 89 9-9 - 9 ヒストグラム ヒストグラム (hstogram) 柱状グラフ ヒストグラム ( 級間隔 ) 階級数 8 で書くと 日 数 日数ヒストグラム ( 級間隔 ) 日 8-99 -9-99 -9-99 -9 来店客数 日数 -8 88- - - -9 8-8- - 計 - 8 ヒストグラム ( 級間隔 階級数 8) 88- - - - 9 - 日数 8- - 数 - 8- - - - - 8- - - 9 89 9 9 9 9 89 9 9 来店客数 - - 8- - - 9 9 89 9 9
統計の分析と利用 /9/ ヒストグラム ヒストグラムの形状 左に歪んだ分布 単峰型 (umodal) 右に歪んだ分布 高齢者世帯. % 平成 年調査 ローレンツ曲線 ジニ係数 ローレンツ曲線 ジニ係数 平均所得金額以下 (.%).... 平均所得金額 9 万 千円 中央値 8 万円 所得額累積比 (%) 参考全世帯 - 高齢者世帯別にみた年間所得金額の世帯分布のローレンツ曲線 全世帯 均等分布線 ジニ係数.9 ローレンツ曲線 峰が中央から右に寄っていて, 左側に長く裾を引く分布 双峰型 (bmodal) 峰が つ以上ある分布 峰が中央から左に寄っていて, 右側に長く裾を引く分布 層別 ( 適当にグループ分けすること ) を行うと単峰型分布が出現することが多い.9 万円未満 9... 8. 累積相対. 8 9 9.9 図 所得金額階級別にみた世帯数の相対 世帯数累積比 (%) 補足 : ジニ係数とは?. 度線とローレンツ曲線とで.. 囲まれる部分の面積の 倍.9...... 9 万 8 円以上出展 : 平成 年国民生活基礎調査の概況 ( 厚生労働省 ) Ⅱ, 各種世帯の所得等の状況 -. 所得の分布状況 その他の手法 幹葉プロット, ステムプロット (stem-ad-leaf dagram[plot]) 野球選手の打率一覧 A チーム.......8..8....88.9..9......9...8.89.8.8......9...... B チーム.....9.8.9............9......8.9.9.9...9...9....8.8. 幹葉プロットがヒストグラムより優れているのはどんなところ? 逆は? 9 9 8 8 8 9 9 9 8 9 9 9 8 8 9 8 幹葉 その他の手法 箱ひげ図, 箱型図 (bo plot) 野球選手の打率一覧 A チーム.......8..8....88.9..9......9...8.89.8.8......9...... B チーム.....9.8.9............9......8.9.9.9...9...9....8.8. ひげ 箱.9.8.88.. A チーム ma..9 Q.8 med..88 Q. m.. 全体の % B チーム.8 ma.. Q.9 med.. Q. m..8..9.. 注 : ひげの上端 下端は, 必ずma,mを使うわけではない. r:=q-q としたとき, 上端は区間 (q, q+.r] 内の最大値, 下端は区間 [q-.r, q) 内の最小値を用いる, など.
統計の分析と利用 /9/ 演習 -: ヒストグラム, 幹葉プロット, 箱ひげ図 クラス全員の身長のデータをとり,R を用いてヒストグラム, 幹葉プロット, 箱ひげ図を描こう Step:R commader で [ データ ]-[ 新しいデータセット ] を選び, データに名前をつける (default:dataset) Step: データを取り値を入力して閉じる Step: [ データセットを表示 ] で確認し, それぞれの図を描く -. 一次元のデータ データの代表値 算術平均 中央値 最頻値 データの代表値 ( その他 ) 四分位点 ミッド レンジ 幾何平均, 調和平均 対数平均,detrc 平均 個,,,, = =, =, =, =, 9 - =( ) データの代表値を考える 例 : 個のデータ 8 9 データ 9 算術平均 ( 相加平均 ) arthmetc mea 8 9 データ 9 ( ) 9. 注 ) 数学が嫌い, 数式が苦手, 数を扱うのは嫌 と言う人ほど何故か ( 算術 ) 平均は大好き で 計算したがる ことが多い気がする ( 算術平均で評価 比較 分析をしたがることが多い ) データさえ揃えば 計算するのは簡単 だからだと思われる ( 計算式が簡単で, 理解できていると錯覚しているからだと思われる ) このデータを代表する値って何だろう? 計算が簡単 なのは算術平均の長所だが, その意味を知らずに使うのが, 殊の外危険な数値である, ということも理解しよう
統計の分析と利用 /9/ 中央値 meda データをソートして, ちょうど真ん中にある値 med 最頻値 mode データの中で最も頻繁に出てくる値 mode 補足 : ソート sort とは? データを値の昇順 ( 降順 ) に並べ替えること昇順 = 小さい順 ( 昇っていく順 ) 降順 = 大きい順 ( 降りてくる順 ) 8 9 データ 9 ソート後 9 補足 : データ数が偶数の場合は, 中央値は真ん中 つの算術平均 補足 : 最も頻繁に出てくる値がない場合は最頻値はなし 中央値や最頻値は何故必要なのか? 例 ) 人の年収 ( 単位 : 万円 ) の代表値は?,,, 8,,,, 8,, 8 算術平均 : 中央値 : 最頻値 :, 8 例 ) 人の平均年齢は?,,,,,, 8,,, 算術平均 :.9 中央値 : 最頻値 : #N/A or, ( 一の位切り捨て時 ). 代が 人, 代が 人と言う方が良い ここが代表 ここが代表? 8 ここが代表? ~ ~ ~ ~ ~ ~ ~ 代表値が如何にあてにならないかわかるだろう持っているならデータとその分布を見るのがよい 算術平均, 中央値, 最頻値の関係左に歪んだ分布単峰型 右に歪んだ分布 幾何平均 geometrc mea G. 補足 : 対数を利用すると計算が楽になる log G log log log 8 9 データ 9 % 平均 最頻値中央値 平均中央値最頻値 最頻値中央値 平均 どんなときに幾何平均が役に立つ? 例題 : 次の表から平均経済成長率を求めよ 年度 8 9 経済成長率 % % % % % 答えは % じゃないよ 答えは G....9.9% だよ % % % % 8 9 年の経済規模を とすると, 9 年の経済規模はその..... 倍となる. これと (+r) が等しくなる r がここでの平均
統計の分析と利用 /9/ 調和平均 harmoc mea 8.m/h 8. H. H 8 9 データ 9 どんなときに調和平均が役に立つ? 例題 : 行き時速 m, 帰り時速 mで走った車の平均速度を求めよ m/h 答えはじゃないよ答えはだよ m /h m /h 往復の場合, 平均速度は距離に依存しない! COFFEE BREAK 和積の記号 和を表す記号 :Σ( しぐま ) 積を表す記号 :Π( ぱい ) を を から まで動かして足す を を から まで動かして掛ける 使用例 ) j j ) ( y y y y t t COFFEE BREAK 記号を用いた平均の定義 算術平均 幾何平均 調和平均 G H 幾何平均 = 個の積の 乗根調和平均 = 逆数の算術平均の逆数 四分位点 quartle データをソートし, 等分したときの つの分割点の値 Q : 第 四分位点,Q : 第 四分位点 注意 : 四分位数の定義は複数ある :=. (-), :=. (-) とし, など MS Ecel の関数 QUARTILE() では,Q =., Q =9. Mathematca の関数 quatle[] では,Q =, Q =9 R の関数 quatle() では,Q =., Q =9. ) ( ) ( ) ( ) ( Q Q Q Q.., quartle: 四分位数 quatle: 分位数 Q Q Q 補足 :Q : 第 四分位点は中央値 med である med 8 9 データ 9 ソート後 9
統計の分析と利用 /9/ ミッド レンジ md-rage データの最大値と最小値の算術平均 MR MR,, m,, ma 8 9 データ 9 ソート後 9 ma(,,,) m(,,,). 演習 -: 代表値 統計データを使って代表値を計算する 総務省統計局 (http://www.stat.go.jp) から世帯収入, 世帯貯蓄などのデータを取得し, グラフ化せよ. グラフの形状はどのようになるか? このデータの 算術平均 中央値 最頻値 を計算し, 分布の代表値として最も適切だと思われるのはどれか考察せよ. 最大値 第 四分位数 第 四分位数 最小値 を求めよ. ミッドレンジ を求めよ. 演習 - で得たクラス全員の身長データについて, 代表値を計算しよう 算術平均 中央値 最頻値 を求めよ. 最大値 第 四分位数 第 四分位数 最小値 を求めよ. ミッドレンジ を求めよ. データの値らばりを考える -. 一次元のデータ 例 : 個のデータ 8 9 データ 9 データの散らばり 範囲 四分位偏差 平均偏差 分散, 標準偏差 個,,,, = =, =, =, =, 9 - =( ) このデータの散らばり具合はどのように測るの? 散らばりの度合いを一つの数値で示し, 利用したい 8
統計の分析と利用 /9/ 散らばり DISPERSION 偏差 devato データと平均の差.8 := 9. -. := 9. -. := 9. 偏差の和は必ず になる ( 偏差の和を散らばりの指標としては使えない ) 8 9 データ 9 9. 平均 偏差.8 -.-.-.-.-..8 -.-.-..8 -.-.-.-..8. 偏差の和 算術平均 散らばり DISPERSION 分散 varace 偏差の 乗和を平均化した値 ( 9.) ( 9.) ( S 平均値からの平均的な差 9.) 8 9 データ 9 9. 平均 偏差.8 -.-.-.-.-..8 -.-.-..8 -.-.-.-..8. 偏差の和 ( 偏差 )..89.89.9.89.9..9..89..89.9.89...8 分散 偏差 (- 側 ) 偏差 (+ 側 ) 算術平均 それぞれの偏差を 乗し, 平均する 偏差 偏差 9 9 散らばり DISPERSION 標準偏差 stadard devato 分散の平方根 S ( 9.) ( 9.) ( 9.) 8 9 データ 9 9. 平均 偏差.8 -.-.-.-.-..8 -.-.-..8 -.-.-.-..8. 偏差の和 ( 偏差 )..89.89.9.89.9..9..89..89.9.89...8 分散. 標準偏差 散らばり DISPERSION 平均偏差 mea devato 偏差の絶対値の合計を平均化した値 8 9 データ 9 9. 平均 偏差.8 -. -. -. -. -..8 -. -. -..8 -. -. -. -..8. 偏差の和 ( 偏差 )..89.89.9.89.9..9..89..89.9.89...8 分散. 標準偏差 偏差.8......8....8.....8.9 平均偏差 算術平均 平均値からの平均的な差 それぞれの偏差の絶対値をとり, 平均する 分散の平方根 偏差 偏差 9 9
統計の分析と利用 /9/ 散らばり DISPERSION 範囲 rage 最大値と最小値の差,, m, R ma, 8 9 データ 9 ソート後 9 散らばり DISPERSION 四分位偏差 quartle devato 第 四分位点 Q と第 四分位点 Q の差の半分 Q Q Q 8 9 データ 9 ソート後 9 R ma(,, ) m(,, ) Q Q Q 9... 演習 -: 散らばり 以下のデータについて散らばりを計算したい このデータの 偏差 をだし, 合計が になることを確かめよ. このデータの 分散 を計算せよ. このデータの 標準偏差 を計算せよ. このデータの 平均偏差 を計算せよ. このデータの 範囲 を計算せよ. 例 ) data[,,, 9, ] 範囲 :9 = 8 このデータの 四分位偏差 を計算せよ. COFFEE BREAK 記号を用いた散らばりの定義 分散 S 標準偏差 S 平均偏差 ( ) ( ) ( ) ( ) ( ) ( ) d
統計の分析と利用 /9/ -. 一次元のデータ データの変換 標準化 ( 正規化 ) Cf. 偏差値 個,,,, = =, =, =, =, 9 - =( ) データの一次変換 標準化 stadardzato 各データについて, 平均を引き標準偏差で割る z S (,, ) 標準得点 stadard score,z 得点 - - -- 8 9 どんな 次元データも標準化しちゃえば同じ土俵で比較できるね! 8 S. 変換後のデータは平均, 標準偏差 となる. 平均を引く ということは, 全体の位置を移動し, 真ん中 ( 平均 ) をにすること. 標準偏差で割る ということは, 全体を左右から圧縮して, S 標準偏差をにすること. データの一次変換 偏差値 標準得点に以下の一次変換を施す 元の点数 z 値 T z (,, ) - - z -- - - 8 9 偏差値得点,T 得点 8 S. S 変換後のデータは平均, 標準偏差 となる. 標準化 z S データの一次変換 例 : 人の中間 期末試験の得点,z 得点と偏差値 中間試験 期末試験 平均 88, 標準偏差 9.8 得点 9 8 8 9 8 9 z 得点.. - -.. -.. - 偏差値 88., 9.8. 平均, 標準偏差 得点 z 得点. -. -. -..8 - - 偏差値 8 9 偏差値 T - - z S
統計の分析と利用 /9/ 演習 -: データの標準化 演習 - で得たクラス全員の身長のデータについて,R を用いて標準化を行い,z 得点を出せ R commader で [ データ ]-[ アクティブデータセット内の変数の管理 ]- [ 変数の標準化 ] を選ぶ 以下のデータは, ある試験における 人の学生の結果である 英語の結果について, 各学生の得点を標準化し,z 得点を出せ 英語の z 得点をもとに, 各学生の偏差値を計算せよ 数学 国語についても同様に計算せよ A B C D E 英語 8 国語 8 8 数学 8 9 -. 一次元のデータ データの尺度 個,,,, = =, =, =, =, 9 - =( ) データの測定尺度による分類 順序尺度順序尺度順序尺度順序尺度順序尺度 名義尺度 名義尺度 名義尺度 名義尺度 名義尺度 名義尺度 名義尺度 学籍番号 氏名 性別 生年月日 身長 体重 問題発見技法成績 文教太郎 男 98.. cm 9g B 湘南花子 女 988.. cm 8g AA 厳密 量的データ ( 数値データ ) 質的データ ( カテゴリデータ ) 比率尺度 間隔尺度 順序尺度 名義尺度 曖昧 間隔尺度 比率尺度 間隔尺度 比率尺度 間隔尺度 比に意味がある ( 絶対原点が存在する ) 例 ) 身長 (8cm の A さんは cm の息子の.8 倍背が高い ) 体重 (g 重い ), 絶対温度 ( K, 絶対零度 ) 差に意味がある例 ) 温度 ( 気温 より の方が 高い ) 時刻 ( 午後 時から 時間後 ) 順序関係がある例 ) 成績評価 (A > B > C > D) 居住性 ( 住みやすい > まあまあ > 住みにくい ) 単なる分類 ( 区別ができる ) 例 ) 名前, 性別 ( 男, 女 ), パソコン保有 ( 保有, 非保有 ) データの測定尺度による集計例 質的データと量的データの集計例 データ例 集計例 質的データ 性別 成績 A B C D 計 男 女 計 頻度 量的データ 女性身長 9 9 9 9 8 身長 8 次の級データ区間
統計の分析と利用 /9/ 演習 -: データの尺度 身の回りにあるデータは, つの尺度のどれに相当するか考えてみよう.