Microsoft PowerPoint - 12統計の分析と利用_1-1.pptx

統計の分析と利用 /9/ 統計の分析と利用. データとその扱い PartⅠ -. 一次元のデータ -. 一次元のデータヒストグラム幹葉プロット箱ひげ図代表値と散らばりデータの尺度 -. 二次元のデータ変数の関係 : 散布図, 共分散相関係数変数の関係 : クロス集計, クラメルの連関係数変数の関係 : 点グラフ, 相関比堀田敬介, 9, -,,,, /9/, Fr.~ = ヒストグラムローレンツ曲線ジニ係数幹葉プロット箱ひげ図次元のデータ ( データ数 :=) ======例),,,,,, データ [ 土日の来店客数の年間のデータ ] 週末はどのぐらいお客さんが来てくれたの? 9 8 9 9 9 8 9 8 8 8 8 9 8 89 9 99 9 9 9 9 9 8 8 99 8 9 8 9 9 9 88 89 8 8 9 9 9, ( データが多すぎて全体の傾向がよくわからない! ), 表 [ 土日の来店客数の年間のデータ ] 階級 (class) 階級数 : 階級幅 : 階級値各階級の上限下限値の中間値例. -9 例 - -9 8-9 -9-9 -99-9 8-9 -89 9-9 -9 計全体の傾向がよくわかる! 度数 (frequecy) なるほど, 週末の来店客数はだいたいこのぐらいのことが多いんだ

統計の分析と利用 /9/ 表 [ 土日の来店客数の年間のデータ ] -9 8-9 -9-9 -99-9 8-9 -89 9-9 -9 計階級数 : 階級幅 : -99-9 -99-9 -99-9 計階級数 : 階級幅 : 階級数 ( 階級幅 ) は任意どうするかは問題にすると全体の傾向がわかりやすくなるが, 生データと比べて情報量が少なくなるため, このようなことがおこる. -9-9 9-9 -9 8-89 -9 8 9-99 -9-9 -9-9 -9-9 -9-9 -9-9 8 8-89 -9 9-99 -9-9 -9-9 8-89 8-9 9-99 -9 計階級数 :8 階級幅 : 階級数の目安スタージェスの公式例では log log.. より, 階級数は 8 程度がお勧めだよデータ数だけで階級数を決めていることに注意 (: 階級数,: データ数 ) Ecel での計算は. = + LOG(, ) 階級数 8( 階級幅 8) で書くと -8 88- - - -9 8-8- - 計相対度数.9.8...9..8.. 相対度数 (relatve frequecy) なるほど, 週末の来店客数の全体傾向はだいたいわかったぞでも, 度数の多い階級は全体からみてどのぐらいの割合なの? 表 [ 相対度数 ] -9 8-9 -9-9 -99-9 8-9 -89 9-9 -9 計相対度数..9. 9. 9..9. 9..9. B さんのお店と比べて, うちのお客さんの来店傾向はどうなのか比較したいな -9 8-9 -9-9 -99-9 -9-89 9-9 -9 計データ数が異なるつのグループの比較ができる相対度数...........

統計の分析と利用 /9/ ヒストグラム累積表 [ 累積度数, 累積相対度数 ] 相対度数 -9. 8-9.9-9. -9 9. -99 9. -9 8.9-9. -89 9. 9-9.9-9. 計. 累積度数 (cumulatve frequecy) 累積度数累積相対度数..8. 9.8 9. 9. 9 8. 9. 99.. 累積相対度数 (cumulatve relatve frequecy) ヒストグラム (hstogram) 柱状グラフ日数 - 9 8-9 - 9 ヒストグラム ( 級間隔 ) - 9 - - 99 9 来店客数 - 9 日数 - 89 9-9 - 9 ヒストグラムヒストグラム (hstogram) 柱状グラフヒストグラム ( 級間隔 ) 階級数 8 で書くと日数日数ヒストグラム ( 級間隔 ) 日 8-99 -9-99 -9-99 -9 来店客数日数 -8 88- - - -9 8-8- - 計 - 8 ヒストグラム ( 級間隔階級数 8) 88- - - - 9 - 日数 8- - 数 - 8- - - - - 8- - - 9 89 9 9 9 9 89 9 9 来店客数 - - 8- - - 9 9 89 9 9

統計の分析と利用 /9/ ヒストグラムヒストグラムの形状左に歪んだ分布単峰型 (umodal) 右に歪んだ分布高齢者世帯. % 平成年調査ローレンツ曲線ジニ係数ローレンツ曲線ジニ係数平均所得金額以下 (.%).... 平均所得金額 9 万千円中央値 8 万円所得額累積比 (%) 参考全世帯 - 高齢者世帯別にみた年間所得金額の世帯分布のローレンツ曲線全世帯均等分布線ジニ係数.9 ローレンツ曲線峰が中央から右に寄っていて, 左側に長く裾を引く分布双峰型 (bmodal) 峰がつ以上ある分布峰が中央から左に寄っていて, 右側に長く裾を引く分布層別 ( 適当にグループ分けすること ) を行うと単峰型分布が出現することが多い.9 万円未満 9... 8. 累積相対. 8 9 9.9 図所得金額階級別にみた世帯数の相対世帯数累積比 (%) 補足 : ジニ係数とは?. 度線とローレンツ曲線とで.. 囲まれる部分の面積の倍.9...... 9 万 8 円以上出展 : 平成年国民生活基礎調査の概況 ( 厚生労働省 ) Ⅱ, 各種世帯の所得等の状況 -. 所得の分布状況その他の手法幹葉プロット, ステムプロット (stem-ad-leaf dagram[plot]) 野球選手の打率一覧 A チーム.......8..8....88.9..9......9...8.89.8.8......9...... B チーム.....9.8.9............9......8.9.9.9...9...9....8.8. 幹葉プロットがヒストグラムより優れているのはどんなところ? 逆は? 9 9 8 8 8 9 9 9 8 9 9 9 8 8 9 8 幹葉その他の手法箱ひげ図, 箱型図 (bo plot) 野球選手の打率一覧 A チーム.......8..8....88.9..9......9...8.89.8.8......9...... B チーム.....9.8.9............9......8.9.9.9...9...9....8.8. ひげ箱.9.8.88.. A チーム ma..9 Q.8 med..88 Q. m.. 全体の % B チーム.8 ma.. Q.9 med.. Q. m..8..9.. 注 : ひげの上端下端は, 必ずma,mを使うわけではない. r:=q-q としたとき, 上端は区間 (q, q+.r] 内の最大値, 下端は区間 [q-.r, q) 内の最小値を用いる, など.

統計の分析と利用 /9/ 演習 -: ヒストグラム, 幹葉プロット, 箱ひげ図クラス全員の身長のデータをとり,R を用いてヒストグラム, 幹葉プロット, 箱ひげ図を描こう Step:R commader で [ データ ]-[ 新しいデータセット ] を選び, データに名前をつける (default:dataset) Step: データを取り値を入力して閉じる Step: [ データセットを表示 ] で確認し, それぞれの図を描く -. 一次元のデータデータの代表値算術平均中央値最頻値データの代表値 ( その他 ) 四分位点ミッドレンジ幾何平均, 調和平均対数平均,detrc 平均個,,,, = =, =, =, =, 9 - =( ) データの代表値を考える例 : 個のデータ 8 9 データ 9 算術平均 ( 相加平均 ) arthmetc mea 8 9 データ 9 ( ) 9. 注 ) 数学が嫌い, 数式が苦手, 数を扱うのは嫌と言う人ほど何故か ( 算術 ) 平均は大好きで計算したがることが多い気がする ( 算術平均で評価比較分析をしたがることが多い ) データさえ揃えば計算するのは簡単だからだと思われる ( 計算式が簡単で, 理解できていると錯覚しているからだと思われる ) このデータを代表する値って何だろう? 計算が簡単なのは算術平均の長所だが, その意味を知らずに使うのが, 殊の外危険な数値である, ということも理解しよう

統計の分析と利用 /9/ 中央値 meda データをソートして, ちょうど真ん中にある値 med 最頻値 mode データの中で最も頻繁に出てくる値 mode 補足 : ソート sort とは? データを値の昇順 ( 降順 ) に並べ替えること昇順 = 小さい順 ( 昇っていく順 ) 降順 = 大きい順 ( 降りてくる順 ) 8 9 データ 9 ソート後 9 補足 : データ数が偶数の場合は, 中央値は真ん中つの算術平均補足 : 最も頻繁に出てくる値がない場合は最頻値はなし中央値や最頻値は何故必要なのか? 例 ) 人の年収 ( 単位 : 万円 ) の代表値は?,,, 8,,,, 8,, 8 算術平均 : 中央値 : 最頻値 :, 8 例 ) 人の平均年齢は?,,,,,, 8,,, 算術平均 :.9 中央値 : 最頻値 : #N/A or, ( 一の位切り捨て時 ). 代が人, 代が人と言う方が良いここが代表ここが代表? 8 ここが代表? ~ ~ ~ ~ ~ ~ ~ 代表値が如何にあてにならないかわかるだろう持っているならデータとその分布を見るのがよい算術平均, 中央値, 最頻値の関係左に歪んだ分布単峰型右に歪んだ分布幾何平均 geometrc mea G. 補足 : 対数を利用すると計算が楽になる log G log log log 8 9 データ 9 % 平均最頻値中央値平均中央値最頻値最頻値中央値平均どんなときに幾何平均が役に立つ? 例題 : 次の表から平均経済成長率を求めよ年度 8 9 経済成長率 % % % % % 答えは % じゃないよ答えは G....9.9% だよ % % % % 8 9 年の経済規模をとすると, 9 年の経済規模はその..... 倍となる. これと (+r) が等しくなる r がここでの平均

統計の分析と利用 /9/ 調和平均 harmoc mea 8.m/h 8. H. H 8 9 データ 9 どんなときに調和平均が役に立つ? 例題 : 行き時速 m, 帰り時速 mで走った車の平均速度を求めよ m/h 答えはじゃないよ答えはだよ m /h m /h 往復の場合, 平均速度は距離に依存しない! COFFEE BREAK 和積の記号和を表す記号 :Σ( しぐま ) 積を表す記号 :Π( ぱい ) ををからまで動かして足すををからまで動かして掛ける使用例 ) j j ) ( y y y y t t COFFEE BREAK 記号を用いた平均の定義算術平均幾何平均調和平均 G H 幾何平均 = 個の積の乗根調和平均 = 逆数の算術平均の逆数四分位点 quartle データをソートし, 等分したときのつの分割点の値 Q : 第四分位点,Q : 第四分位点注意 : 四分位数の定義は複数ある :=. (-), :=. (-) とし, など MS Ecel の関数 QUARTILE() では,Q =., Q =9. Mathematca の関数 quatle[] では,Q =, Q =9 R の関数 quatle() では,Q =., Q =9. ) ( ) ( ) ( ) ( Q Q Q Q.., quartle: 四分位数 quatle: 分位数 Q Q Q 補足 :Q : 第四分位点は中央値 med である med 8 9 データ 9 ソート後 9

統計の分析と利用 /9/ ミッドレンジ md-rage データの最大値と最小値の算術平均 MR MR,, m,, ma 8 9 データ 9 ソート後 9 ma(,,,) m(,,,). 演習 -: 代表値統計データを使って代表値を計算する総務省統計局 (http://www.stat.go.jp) から世帯収入, 世帯貯蓄などのデータを取得し, グラフ化せよ. グラフの形状はどのようになるか? このデータの算術平均中央値最頻値を計算し, 分布の代表値として最も適切だと思われるのはどれか考察せよ. 最大値第四分位数第四分位数最小値を求めよ. ミッドレンジを求めよ. 演習 - で得たクラス全員の身長データについて, 代表値を計算しよう算術平均中央値最頻値を求めよ. 最大値第四分位数第四分位数最小値を求めよ. ミッドレンジを求めよ. データの値らばりを考える -. 一次元のデータ例 : 個のデータ 8 9 データ 9 データの散らばり範囲四分位偏差平均偏差分散, 標準偏差個,,,, = =, =, =, =, 9 - =( ) このデータの散らばり具合はどのように測るの? 散らばりの度合いを一つの数値で示し, 利用したい 8

統計の分析と利用 /9/ 散らばり DISPERSION 偏差 devato データと平均の差.8 := 9. -. := 9. -. := 9. 偏差の和は必ずになる ( 偏差の和を散らばりの指標としては使えない ) 8 9 データ 9 9. 平均偏差.8 -.-.-.-.-..8 -.-.-..8 -.-.-.-..8. 偏差の和算術平均散らばり DISPERSION 分散 varace 偏差の乗和を平均化した値 ( 9.) ( 9.) ( S 平均値からの平均的な差 9.) 8 9 データ 9 9. 平均偏差.8 -.-.-.-.-..8 -.-.-..8 -.-.-.-..8. 偏差の和 ( 偏差 )..89.89.9.89.9..9..89..89.9.89...8 分散偏差 (- 側 ) 偏差 (+ 側 ) 算術平均それぞれの偏差を乗し, 平均する偏差偏差 9 9 散らばり DISPERSION 標準偏差 stadard devato 分散の平方根 S ( 9.) ( 9.) ( 9.) 8 9 データ 9 9. 平均偏差.8 -.-.-.-.-..8 -.-.-..8 -.-.-.-..8. 偏差の和 ( 偏差 )..89.89.9.89.9..9..89..89.9.89...8 分散. 標準偏差散らばり DISPERSION 平均偏差 mea devato 偏差の絶対値の合計を平均化した値 8 9 データ 9 9. 平均偏差.8 -. -. -. -. -..8 -. -. -..8 -. -. -. -..8. 偏差の和 ( 偏差 )..89.89.9.89.9..9..89..89.9.89...8 分散. 標準偏差偏差.8......8....8.....8.9 平均偏差算術平均平均値からの平均的な差それぞれの偏差の絶対値をとり, 平均する分散の平方根偏差偏差 9 9

統計の分析と利用 /9/ 散らばり DISPERSION 範囲 rage 最大値と最小値の差,, m, R ma, 8 9 データ 9 ソート後 9 散らばり DISPERSION 四分位偏差 quartle devato 第四分位点 Q と第四分位点 Q の差の半分 Q Q Q 8 9 データ 9 ソート後 9 R ma(,, ) m(,, ) Q Q Q 9... 演習 -: 散らばり以下のデータについて散らばりを計算したいこのデータの偏差をだし, 合計がになることを確かめよ. このデータの分散を計算せよ. このデータの標準偏差を計算せよ. このデータの平均偏差を計算せよ. このデータの範囲を計算せよ. 例 ) data[,,, 9, ] 範囲 :9 = 8 このデータの四分位偏差を計算せよ. COFFEE BREAK 記号を用いた散らばりの定義分散 S 標準偏差 S 平均偏差 ( ) ( ) ( ) ( ) ( ) ( ) d

統計の分析と利用 /9/ -. 一次元のデータデータの変換標準化 ( 正規化 ) Cf. 偏差値個,,,, = =, =, =, =, 9 - =( ) データの一次変換標準化 stadardzato 各データについて, 平均を引き標準偏差で割る z S (,, ) 標準得点 stadard score,z 得点 - - -- 8 9 どんな次元データも標準化しちゃえば同じ土俵で比較できるね! 8 S. 変換後のデータは平均, 標準偏差となる. 平均を引くということは, 全体の位置を移動し, 真ん中 ( 平均 ) をにすること. 標準偏差で割るということは, 全体を左右から圧縮して, S 標準偏差をにすること. データの一次変換偏差値標準得点に以下の一次変換を施す元の点数 z 値 T z (,, ) - - z -- - - 8 9 偏差値得点,T 得点 8 S. S 変換後のデータは平均, 標準偏差となる. 標準化 z S データの一次変換例 : 人の中間期末試験の得点,z 得点と偏差値中間試験期末試験平均 88, 標準偏差 9.8 得点 9 8 8 9 8 9 z 得点.. - -.. -.. - 偏差値 88., 9.8. 平均, 標準偏差得点 z 得点. -. -. -..8 - - 偏差値 8 9 偏差値 T - - z S

統計の分析と利用 /9/ 演習 -: データの標準化演習 - で得たクラス全員の身長のデータについて,R を用いて標準化を行い,z 得点を出せ R commader で [ データ ]-[ アクティブデータセット内の変数の管理 ]- [ 変数の標準化 ] を選ぶ以下のデータは, ある試験における人の学生の結果である英語の結果について, 各学生の得点を標準化し,z 得点を出せ英語の z 得点をもとに, 各学生の偏差値を計算せよ数学国語についても同様に計算せよ A B C D E 英語 8 国語 8 8 数学 8 9 -. 一次元のデータデータの尺度個,,,, = =, =, =, =, 9 - =( ) データの測定尺度による分類順序尺度順序尺度順序尺度順序尺度順序尺度名義尺度名義尺度名義尺度名義尺度名義尺度名義尺度名義尺度学籍番号氏名性別生年月日身長体重問題発見技法成績文教太郎男 98.. cm 9g B 湘南花子女 988.. cm 8g AA 厳密量的データ ( 数値データ ) 質的データ ( カテゴリデータ ) 比率尺度間隔尺度順序尺度名義尺度曖昧間隔尺度比率尺度間隔尺度比率尺度間隔尺度比に意味がある ( 絶対原点が存在する ) 例 ) 身長 (8cm の A さんは cm の息子の.8 倍背が高い ) 体重 (g 重い ), 絶対温度 ( K, 絶対零度 ) 差に意味がある例 ) 温度 ( 気温よりの方が高い ) 時刻 ( 午後時から時間後 ) 順序関係がある例 ) 成績評価 (A > B > C > D) 居住性 ( 住みやすい > まあまあ > 住みにくい ) 単なる分類 ( 区別ができる ) 例 ) 名前, 性別 ( 男, 女 ), パソコン保有 ( 保有, 非保有 ) データの測定尺度による集計例質的データと量的データの集計例データ例集計例質的データ性別成績 A B C D 計男女計頻度量的データ女性身長 9 9 9 9 8 身長 8 次の級データ区間

統計の分析と利用 /9/ 演習 -: データの尺度身の回りにあるデータは, つの尺度のどれに相当するか考えてみよう.