データの種類とデータの分布

Similar documents
Excelによる統計分析検定_知識編_小塚明_1_4章.indd

散布度

Microsoft PowerPoint - データ解析基礎2.ppt

Microsoft PowerPoint - 基礎・経済統計6.ppt

3章 度数分布とヒストグラム

3章 度数分布とヒストグラム

講座内容 第 1 週 データサイエンスとは 第 2 週 分析の概念と事例ビジネス課題解決のためのデータ分析基礎 ( 事例と手法 )1 第 3 週 分析の具体的手法ビジネス課題解決のためのデータ分析基礎 ( 事例と手法 )2 第 4 週 ビジネスにおける予測と分析結果の報告ビジネス課題解決のためのデー

Excelによる統計分析検定_知識編_小塚明_1_4章.indd

データ解析

Microsoft PowerPoint ppt

資料の調べ方 1-1 月 日 組名前点 あくりょく 1 下の表は,1 組と 2 組の男子の握力測定の記録です 1 番号握力 (kg) 番号握力 (kg)

講義ノート p.2 データの視覚化ヒストグラムの作成直感的な把握のために重要入力間違いがないか確認するデータの分布を把握する fig. ヒストグラムの作成 fig. ヒストグラムの出力例 度数分布表の作成 データの度数を把握する 入力間違いが無いかの確認にも便利 fig. 度数分布表の作成

データの整理 ( 度数分布表とヒストグラム ) 1 次元のデータの整理の仕方として代表的な ものに度数分布表とヒストグラムがあります 度数分布表観測値をその値に応じていくつかのグループ ( これを階級という ) に分類し 各階級に入る観測値の数 ( これを度数という ) を数えて表にしたもの 2

Microsoft PowerPoint - 11統計の分析と利用_1-1.pptx

目次 1 章 SPSS の基礎 基本 はじめに 基本操作方法 章データの編集 はじめに 値ラベルの利用 計算結果に基づく新変数の作成 値のグループ化 値の昇順

平均値 () 次のデータは, ある高校生 7 人が ヵ月にカレーライスを食べた回数 x を調べたものである 0,8,4,6,9,5,7 ( 回 ) このデータの平均値 x を求めよ () 右の表から, テレビをみた時間 x の平均値を求めよ 階級 ( 分 ) 階級値度数 x( 分 ) f( 人 )

Microsoft Word - lec_student-chp3_1-representative

統計学 Ⅰ(8) 累積度数 : ある階級以下に含まれる度数の合計 階級 度数 相対度数累積度数 累積相対度数 点以上 ~ 点未満.. ~.. ~. 7. ~ 6..6 ~. 6.8 ~ ~ ~ ~ ~.. ~.. 合計. - -

<4D F736F F D208EC08CB18C7689E68A E F193F18D8095AA957A C C839395AA957A814590B38B4B95AA957A2E646F63>

青焼 1章[15-52].indd

Microsoft Word - 保健医療統計学112817完成版.docx

PowerPoint プレゼンテーション

学習指導要領

MedicalStatisticsForAll.indd

Microsoft PowerPoint - CVM.ppt [互換モード]

Microsoft PowerPoint - 測量学.ppt [互換モード]

自動車感性評価学 1. 二項検定 内容 2 3. 質的データの解析方法 1 ( 名義尺度 ) 2.χ 2 検定 タイプ 1. 二項検定 官能検査における分類データの解析法 識別できるかを調べる 嗜好に差があるかを調べる 2 点比較法 2 点識別法 2 点嗜好法 3 点比較法 3 点識別法 3 点嗜好

第 3 回講義の項目と概要 統計的手法入門 : 品質のばらつきを解析する 平均と標準偏差 (P30) a) データは平均を見ただけではわからない 平均が同じだからといって 同一視してはいけない b) データのばらつきを示す 標準偏差 にも注目しよう c) 平均

経営統計学

統計学 - 社会統計の基礎 - 正規分布 標準正規分布累積分布関数の逆関数 t 分布正規分布に従うサンプルの平均の信頼区間 担当 : 岸 康人 資料ページ :

目次 1. はじめに Excel シートからグラフの選択 グラフの各部の名称 成績の複合グラフを作成 各生徒の 3 科目の合計点を求める 合計点から全体の平均を求める 標準偏差を求める...

森林水文 水資源学 2 2. 水文統計 豪雨があった時, 新聞やテレビのニュースで 50 年に一度の大雨だった などと報告されることがある. 今争点となっている川辺川ダムは,80 年に 1 回の洪水を想定して治水計画が立てられている. 畑地かんがいでは,10 年に 1 回の渇水を対象として計画が立て

Medical3

中学 1 年数学 ( 東京書籍 ) 単元別コンテンツ一覧 単元ドリル教材解説教材 確認問題ライブラリ (OP) プリント教材 教材数 :8 問題数 : 基本 40, 標準 40, 挑戦 40 正の数 負の数などの問題を収録 解説教材 :3 確認問題 :3 数直線 数の大小と絶対値などの解説 確認問題

C3 データ可視化とツール

平成 21 年度全国学力 学習状況調査結果の概要と分析及び改善計画 調査実施期日 平成 21 年 10 月 2 日 ( 金 ) 教務部 平成 21 年 4 月 21 日 ( 火 )AM8:50~11:50 調査実施学級数等 三次市立十日市小学校第 6 学年い ろ は に組 (95 名 ) 教科に関す

Microsoft PowerPoint - R-stat-intro_04.ppt [互換モード]

スライド 1

スプレッドシートについて

<4D F736F F D AAE90AC94C5817A E7793B188C481698D5D E7397A791E58A A778D5A814094F68FE3816A2E646F63>

Microsoft PowerPoint - 統計科学研究所_R_重回帰分析_変数選択_2.ppt

本日のテーマ 1. データの分類 2. データを簡単にまとめる (1 変数の場合 ) 特に, 代表値と散布度 3.2 変数を合わせてまとめる ~ここまでのクイズ~ 4. 推定と検定 略 5. まとめたデータから解析手法へ 2

これに対する度数分布表は次のようになる : 階級 階級値 度数 相対度数 累積度数 累積相対度数 ( 以上 ) ~ ( 未満 ) 0 ~ (3/50 = ) ~ (2/50 = ) ~ (6/5

パソコンの使い方

第4回

このデータは ダイアモンドの価格 ( 価格 ) に対する 評価の影響を調べるために収集されたものです 影響と考えられるものは カラット重量 カラー クラリティー 深さ テーブル径 カット 鑑定機関 の 7 つになります 特に カラット重量 カラー クラリティー カット は 4C と呼ばれ ダイヤモン

相関係数と偏差ベクトル

Microsoft Word - Stattext12.doc

Microsoft Word - apstattext04.docx

Microsoft Word - スーパーナビ 第6回 数学.docx

経済統計分析1 イントロダクション

[12]SPSS_01.indd

<8FAC8A778E5A90942E786C73>

Transcription:

データの種類とデータの分布 統計基礎の補足資料 218 年 6 月 4 日金沢学院大学経営情報学部藤本祥二

2( 教科書 P.52) データのばらつき

分布について データの分布データ全体のばらつき具合 ( 広がり具合 ) 等の全体的な様子をとらえたもの 度数 ( 頻度数 ) ある項目, 又はある値, 又は範囲にデータがどれくらい存在するのかを頻度で示したもの 度数分布度数に関するデータ全体の様子 分布の特徴を, 表やグラフや統計量を使って明らかにすることが記述統計学の目的

2.1( 教科書 P.53) データの種類

データの種類 データは大きく分けて 2 種類 質的データ (category data, 分類データ ) 分類や種類の違い ( カテゴリー ) のデータ例 ) 国籍, 血液型, 好きな科目, 趣味, 量的データ (quantity data, 数量データ ) 数量で測れるデータ例 ) 身長, 体重, 気温, テストの点数, 注意数字で書かれてるからと言って量的データとは限らない数値の大きさや順番, 間隔などに意味があることが重要 ( 電話番号などは数字で書かれてるが分類のための質的データ )

更に細かな分類 ( 統計検定 2 級相当 ) 質的データ 名義尺度 ( 順番に意味がない分類 ) 好き 嫌い, 男 女, 好きな色, 職業, 血液型, 順序尺度 ( 順番に意味がある分類 ) 学歴, 震度,5 段階評価, 優 良 可, 松 竹 梅, 量的データ 間隔尺度 ( 数値の差に意味がある量 ) 摂氏温度, 華氏温度, テストの点数, 時刻, 年齢, 比例尺度 ( 数値の差だけでなく比にも意味がある量 ) 長さ, 重さ, 速度, 絶対温度, 経過時間,

2.2( 教科書 P.55~77) 質的データの分析

質的データの分析 質的データの分布を調べる 項目ごとの度数 ( 頻度, 件数 ) を集計する 集計 ( 教科書 P.55 の集計表,P62 のクロス集計 ) 数え漏れ, 数え過ぎ, をしないように注意 集計した度数から度数分布表や度数グラフを作成する ( 度数の全体の様子が度数分布 ) 項目の順番に意味がないときは大きい順に並べる 大きく占める要因を知りたい時は累積度数を計算しパレート図を作成する

データの集計 ( 表 2.2.1 表 2.2.2) 日付 時間 学年組 名前 理由 12 月 1 日 1:35 2 年 1 組 酒井はるこ ねんざ 12 月 1 日 11:2 1 年 4 組 石田ななこ 頭痛 12 月 3 日 12:55 1 年 1 組 松井たかし 腹痛 保健室を利用した理由 人数 ( 度数 ) 切り傷 5 すり傷 9 ねんざ 3 発熱 3 頭痛 12 腹痛 5 その他 3 理由に注目して集計日本, 中国, 韓国 : ヨーロッパ, 北米 : スペイン語圏 : 参考 : 画線法 - Wikipedia

図 2.2.2~2.2.3 度数 14 12 1 8 6 4 2 保健室を利用した理由 切り傷すり傷ねんざ発熱頭痛腹痛その他 度数 14 12 1 8 6 4 2 保健室を利用した理由 頭痛すり傷切り傷腹痛ねんざ発熱その他 度数保健室を利用した理由 ( 曜日別 ) 14 12 1 8 6 4 2 月曜日火曜日水曜日木曜日金曜日土曜日 横軸の順番に特に意味がないときは度数の大きい順に並べる ( その他は度数の大きさに関係なく最後 ) 横軸の順番に意味があるときはその順に並べる

度数分布 度数 (frequency) その項目に存在するデータ数 ( 頻度, 件数 ) のこと 相対度数 (relative frequency) 全体 ( 総度数 ) に対するその項目の度数の割合 累積度数 (cumulative frequency) その項目までの度数の累積和 累積相対度数 (cumulative relative frequency) 累積 : 累々と積み上げること 全体に対する累積度数の割合 度数分布 (frequency distribution) 全項目の度数を眺めたもの ( 全項目の度数の様子 ) この度数分布で全体の様子が把握できる 相対度数の累積と考えても良い

表 2.2.5 球種 度数 累積度数 相対度数 累積相対度数 ストレート 156 156.47.47 スライダー 814 2374.245.715 カットボール 339 累積和 2713.12.817 チェンジアップ 281 2994.85.92 カーブ 172 累積和 3166.52.953 フォーク 155 3321.47 1. 合計 3321 1. 累積度数 : その項目までの度数の累積和相対度数 : 度数の全体に対する割合累積相対度数 : その項目までの相対度数の累積和累積度数の全体に対する割合 281 3321 2994 3321

松坂投手の球種の分布のパレート図 ( 図 2.2.4) 度数の目盛 3321 3 25 2 15 1 5 ストレートスライダーカットボールチェンジアップカーブフォーク 質的データの度数 ( 棒グラフ ) と累積度数 ( 折れ線グラフ ) を一緒に表示したものがパレート図 度数の目盛 3321 を相対度数の目盛 1(1%) に合わせる 度数 累積度数 相対度数の目盛 1.9.8.7.6.5.4.3.2.1 累積相対度数を見るとストレートとスライダーで全体の 7% を占めることが分かる

表 2.2.4 改 理由 度数 相対度数 累積度数 累積相対度数 頭痛 12.3 12.3 すり傷 9.225 21.525 切り傷 5.125 26.65 腹痛 5.125 31.775 ねんざ 3.75 34.85 発熱 3.75 37.925 その他 3.75 4 1. 計 4 1. パレート図を描くために, 度数の大きい順に並べ替えて累積度数等を計算した

表 2.2.4 のパレート図 度数の目盛 4 度数の目盛 4 を相対度数の目盛 1(1%) に合わせる 相対度数の目盛 1 3.75 2.5 1.25 頭痛すり傷切り傷腹痛ねんざ発熱その他 質的データの度数 ( 棒グラフ ) と累積度数 ( 折れ線グラフ ) を一緒に表示したのがパレート図 度数 累積度数 累積相対度数を見ると腹痛までの要因で全体の 75% を占めることが分かる

累積相対度数と帯グラフ 度数の目盛 相対度数の目盛 帯グラフ 4 1 その他 1 発熱 3.75 ねんざ腹痛.75 切り傷 2.5.5 すり傷 1.25.25 頭痛 帯グラフ (1% 積み上げ棒グラフ ) の境目は累積相対度数に対応

2.3( 教科書 P.78~129) 量的データの分析 今週 2.3.1(P.78)~ 2.3.2(P.98) 2.3.3 以降は次週

量的データの分析 量的データは 2 種類ある 離散データ (discrete data, 整数データ ) 飛び飛びの値のデータ例 ) 抜けた乳歯の本数 縄跳びを飛んだ回数 データ毎に集計し度数分布を調べ グラフを描くグラフを描く際の横軸はデータの値の順に並べる 連続データ (continuous data, 実数データ ) 小数点以下いくらでも小さく半端な値を持つデータ例 ) 身長データ, 体重データ 以上 未満の階級 (class) に分けないと度数の集計ができない 度数分布のグラフでは棒と棒の間に隙間を入れない ( 棒の面積に意味があるため ) このグラフのことを ヒストグラム という

量的データの分布の特徴 ヒストグラムの特徴を分析 ( 教科書 P.84~89) 多峰性に注意 山の頂点が複数 ( 多峰性 ) 異質の集団が混在してる可能性がある 単峰性の分布 分布全体のばらつき ( 広がり ) 具合 左右対称性 ( 左右の歪み具合 ) 峰の尖り具合 外れ値の存在 ミスの場合もあれば, 重要なデータの場合もある 教科書の図を参照するように

単峰性 (unimadal) 多峰性 (multimadal) データが集中してる部分 ( 峰, 山 ) が 1 つ 2 つ以上の峰 異質の集団が混在してる可能性がある 画像元 : 身近な統計第 3 回データのばらつきを表やグラフで要約する ( 量的データの場合 )

歪んだ分布 (skewed distribution) 右に歪んだ分布 ( 右に裾を引く分布 ) 外れ値 (outliner) データの大部分が含まれる区間から, かけ離れたところに位置するデータ 単なるミスの場合もあれば, 重要なデータの場合もある 画像元 : 身近な統計第 3 回データのばらつきを表やグラフで要約する ( 量的データの場合 )

表 2.3.1 の度数分布表 ( 離散データ ) 歩数 [ 歩 ] 度数 [ 人 ] 相対度数 累積度数 累積相対度数 4.143 4.143 1 6.214 1.357 2 1.357 2.714 3 5.179 25.893 4 2.71 27.964 5 1.36 28 1. 計 28 1.

図 2.3.1 度数の目盛 28 度数の目盛 28 を相対度数の目盛 1(1%) に合わせる 相対度数の目盛 1 2 1.75.5.25 1 2 3 4 5 数量データでは横軸は数量の大きさ順にする離散データの場合は棒の間を開ける 度数 累積度数 [ 歩 ] 累積相対度数を見ると 2 歩までで全体の 75% を占めることが分かる

表 2.3.2 の度数分布表 ( 離散データ ) 歩数 [ 歩 ] 度数 [ 人 ] 相対度数 累積度数 累積相対度数 ~5 1.25 1.25 6~1 7.175 8.2 11~15 16.4 24.6 16~2 9.225 33.825 21~25 5.125 38.95 26~3 1.25 39.975 31~35 1.25 4 1. 計 28 1.

図 2.3.2 度数の目盛 4 度数の目盛 4 を相対度数の目盛 1(1%) に合わせる 相対度数の目盛 1 3.75 2.5 1.25 ~5 6~1 11~15 16~2 21~25 26~3 31~35 数量データでは横軸は数量の大きさ順にする離散データの場合は棒の間を開ける 度数 累積度数 [ 歩 ] 累積相対度数を見ると 2 歩までで全体の 8% を占めることが分かる

連続データの扱い 連続データ : 小数点以下いくらでも小さく半端な値を持つデータ階級 ( 度数を集計するための区間 ) に分けて集計 表 2.3.3 集計前のデータ No. 名前体重 [kg] 1 吉永カナ 37. 2 酒井愛 45.6 3 武田智 45. 4 渡辺さえ 42.2 階級 1kg 未満 1kg 以上 2kg 未満 2kg 以上 3kg 未満 3kg 以上 4kg 未満 4kg 以上 5kg 未満 5kg 以上 6kg 未満 度数 各データが必ずどこか 1 つの階級に属するように隙間のない階級に分ける. 2kg ぴったりや,3kg ぴったりのデータがどの階級に所属するのか意識して 以上 や 未満 などの言葉を使う.

表 2.3.5 の女性の体重の度数分布表 階級 [ 単位 kg] 度数相対度数累積度数累積相対度数 1 未満.. 1 以上 2 未満 1.5 1.5 2 以上 3 未満 5.25 6.3 3 以上 4 未満 8.4 14.7 4 以上 5 未満 5.25 19.95 5 以上 6 未満 1.5 2 1. 合計 2 1. 連続データの度数分布の棒グラフをヒストグラム (histogram) という ヒストグラムや累積度数グラフを作る際の注意 連続データの場合, 隣の棒との隙間を開けない 連続データの場合, 累積度数は階級の境目に点を打つ

女性の体重のヒストグラムと累積度数 度数の目盛 2 16 12 8 4 度数の目盛 2 を相対度数の目盛 1(1%) に合わせる 相対度数の目盛 1.8.6.4.2 1 2 3 4 5 6 7 単峰性 左右対称 35[kg] あたりが中心 度数 累積度数 [kg] 累積相対度数と下の目盛で 4kg 未満の人で全体の 7% を占めてること等が分かる

表 2.3.5 の男性の体重の度数分布表 階級 [ 単位 kg] 度数 相対度数累積度数 累積相対度数 2 未満.. 2 以上 3 未満 1.5 1.5 3 以上 4 未満 2.1 3.15 4 以上 5 未満 4.2 7.35 5 以上 6 未満 8.4 15.75 6 以上 7 未満 5.25 2 1. 合計 2 1.

男性の体重のヒストグラムと累積度数 度数の目盛 2 16 12 8 4 度数の目盛 2 を相対度数の目盛 1(1%) に合わせる 相対度数の目盛 1.8.6.4.2 1 2 3 4 5 6 7 8 単峰性 左の裾が長い 65[kg] あたりの頻度が高い 度数 累積度数 [kg] 累積相対度数と下の目盛でどの値までが全体の何 % になるか分かる

表 2.3.7 の 5m 走の度数分布表 階級 [ 単位 : 秒 ] 度数 相対度数累積度数 累積相対度数 7 未満.. 7 以上 8 未満 2.1 2.1 8 以上 9 未満 36.198 38.199 9 以上 1 未満 772.498 18.697 1 以上 11 未満 384.248 1464.945 11 以上 12 未満 72.46 1536.992 12 以上 13 未満 8.5 1544.997 13 以上 14 未満 3.2 1547.999 14 以上 15 未満 2.1 1549 1. 合計 1549 1.

度数の目盛 1549 14 12 1 8 6 4 2 図 2.3.11 5m 走のヒストグラムと累積度数 上位 2% の記録は 9 秒を切っている 度数の目盛 1549 を相対度数の目盛 1(1%) に合わせる 6 7 8 9 1 11 12 13 14 15 16 [ 秒 ] 度数 累積度数 相対度数の目盛 1.95 11 秒より遅い人は 5% に過ぎない.9.8.7.6.5.4.3.2.1

階級幅が等しくない時 表 2.3.6 小遣いの度数分布表 階級 [ 円 ] 階級幅 [ 円 ] 度数 以上 2 未満 2 5 2 以上 4 未満 2 15 4 以上 6 未満 2 25 6 以上 8 未満 2 7 8 以上 1 未満 2 5 1 以上 2 未満 1 1 階級 階級幅 度数 1 以上 12 未満 2 2 12 以上 14 未満 2 2 14 以上 16 未満 2 2 16 以上 18 未満 2 2 18 以上 2 未満 2 2 階級幅を揃えて度数を等分する

図 2.3.1 度数の目盛 67 6.9 5.8.7 4.6 3.5.4 2.3 1.2.1 度数の目盛 67 を相対度数の目盛 1(1%) に合わせる -2 2 4 6 8 1 12 14 16 18 2 22 度数累積度数 相対度数の目盛 1 [ 円 ]