1 データ分析法 I 資料 02: 統計学の概説と 表 グラフに関する規則 担当 : 桑田匡之 m-kuwata[at]b.shobi-u.ac.jp
本資料の内容 2 道具立ての確認 統計学の概説 データの種類 1 変量のデータのグラフ化 アンケート
道具立ての確認 3 授業ホームページアドレスを確認の上, ブックマークをつける http://www.geocities.jp/amalie_emmy/ DataAnalysis/AnalysisI.html 尚美学園大学 Google Apps を利用できる状態にする ( 特にメール ~@b.shobi-u.ac.jp) 学内ネットワークアカウント (1 年生の時にリテラシの授業で使った赤紙の情報 ) の記憶 USB メモリの準備
課題について 4 課題は, Excel ファイルをメールに添付する形式で提出してもらいます Excel ファイルの計算課題を実施して m-kuwata@b.shobi-u.ac.jp に提出してください 提出期限は毎回土曜日の 24:00 です
統計学の概説 5
標本と母集団 6 すべての統計的現象は, 母集団 ( 当該現象全体 ) を観察する代わりに, 標本 ( 母集団の一部 ) を観察し, それをもとに母集団の特性を推測して分析 20 歳の日本人女性全数の身長 街ですれ違った 20 歳女性 50 名の身長
標本の収集 ( サンプリング ) 7 母集団 : 多くの場合, 全データを観察することは不可能 標本 ( サンプル ) を偏りなく ( ランダムに ) 抽出し, その傾向から母集団の傾向を推測する ( のが現実的 ) 母集団 標本
ランダムな標本 8 母集団 標本 20 歳の日本人女性の身長の調査 モデルクラブ所属の 20 歳女性 50 名 道ですれ違った 20 歳女性 50 名 ランダムな標本収集 母集団の各個体が, 標本として選ばれる機会を平等に確保する
層別ランダム標本 9 成人 ( 日本人 ) の身長の調査だったら 道で歩いてすれ違った成人 50 人! 女性と男性では身長が違う 道ですれ違った成人 50 人 道を歩いてすれ違った日本人成人女性 25 人 道を歩いてすれ違った日本人成人男性 25 人 層別ランダム標本 母集団の異なるグループ ( 性別 年齢等 ) から抽出する標本数をあらかじめ定めてそれぞれのグループからランダムに抽出
データの種類 10
統計的変量 11 変量 : 各個体を区別できる属性 or 特性 例 : 中古自動車の購買中古自動車の違いを表わす変量 自動車のブランド ( トヨタ, ホンダ, 日産 ) 状態 ( 良い, 普通, 悪い ) 排気量 価格 タイヤの数 は変量ではない
質的変量 ( 名義変量 ) 12 カテゴリーに分けることができる変量 名義変量 例 : 自動車のメーカー, タイプ, 色 定義を決めて個体に名前を付ける トヨタ ホンダ 日産 ワンボックス セダン ピックアップ
質的変量 ( 順序変量 ) 13 順序変量 例 : 自動車の状態 ( 良い, 悪い, 普通 ) 順序のあるカテゴリーに分割可 良 良 1 番 2 番 情報量が多い 状態 普通 悪 3 番 4 番 5 番 ただし 3 番 2 番 = 1 4 番 3 番 = 1 は成立しない 悪 6 番
量的変量 14 算術を施すことができる数量 ( 数字 ) 離散変量 例 : 自動車の価格 取りうる値が一つ一つはっきり離れている 1,000 円と1,001 円の間に異なる値はとれない 連続変量 例 : 自動車の排気量 どの2つの値の間にも別の値が存在する 1,000ccと1,001ccの間 :1,000.5, 1,000.6..
ゼロ点 15 ゼロ点 : 当該特性が全く無いということ ゼロ点を持つ変量 例 : 所得 所得が0 円 所得がない 10,000 円 /dayの人は5,000 円 /dayの人の2 倍の所得 ゼロ点を持たない変量 例 : 温度 0 度は物体の温度がないこと, という訳ではない 10 度は5 度の2 倍熱いという訳ではない
量的変量 16 量的変量 質的変量への変換可 大 大型 2 輪 1,300cc 600cc 情報量が多い 排気量 小 中型 2 輪 原付 250cc 200cc 49cc 45cc 400cc 50cc
変量の体系 一口にデータといいますが 以下の区別がつかないと適切な処理ができません 17 変量 質的変量 量的変量 名義変量 順序変量 離散変量 連続変量 順序あるカテゴリー 順位
データをとる手順 18 どんなデータをどうとるか考える 調査対象とする母集団の決定 20 歳以上の男女の身長など 標本の収集手段を考える 母集団からの 無作為抽出 が原則 無作為抽出されたデータの記述 加工 データ入力後, 表 グラフにする 母集団の姿を統計的に推測する
1 変量データのグラフ化 19
名義データの表 グラフ表現 名義データ (Kadai02-2.xlsx: TransDat) 20 交通手段 c 名義で入力 交通手段 f 数字にコード化 どのようなグラフ表現が可能でしょう?
名義データの頻度分布表の作成 21 名義データは, 頻度を算出できますが, 平均などの統計量はとれません. グラフ表現としては棒グラフや円グラフが可能です 頻度分布表の作成 棒グラフの作成 円グラフの作成
Excel による名義データの 22 頻度分布表の作成 1. 名義 ( カテゴリ ) の確認をします テーブルとして書式設定 フィルタのプルダウンリスト フィルタの詳細設定 2. 条件合致標本のカウントを行います COUNTIF 関数
テーブル設定とフィルタ データ内の任意のセルを選択して ホーム T スタイル G テーブルとして書式設定 23 任意のスタイルを選択
テーブル設定とフィルタ データの入力範囲を決定 24 間違っていたら修正 カテゴリが確認できます
頻度算出テーブルの作成 25 各カテゴリの頻度算出表を作成 プルダウンリストを入力します
頻度の算出 (COUNTIF) 26 目的 : オリジナルデータから各カテゴリに合致するセルの数を足し合わせる 数式 T 関数ライブラリ G その他の関数 統計 COUNTIF
頻度の算出 (COUNTIF) 範囲と検索条件 27 マウス or キー 注 : テーブルの場合の範囲の表記 オートフィルでその他も算出
棒グラフ 28 Excel のグラフ作成機能で棒グラフを作成 データを選択して 挿入 T グラフ G 縦棒
棒グラフ 29 以下の様なグラフが描画されます
相対頻度によるグラフ表現 棒グラフ, 円グラフなどの描画 30 相対頻度を算出 オートフィルで算出するにはどう工夫?
相対参照 絶対参照 31 $ で, 絶対参照する行列参照先を調整 相対的に参照位置を動かさない要素を $ で固定
相対頻度による棒グラフ 32 算出された相対頻度を先の例を踏襲して描画 離れた場所を選択するには 1つ目は通常選択 2つ目は Ctrl を押しながら選択
円グラフの作成 33 頻度からも作成できますが 通常相対頻度で作成 相対頻度の大きい順番にソートする コピーを作成して 降順にソート
コピー作成時の注意 34 計算結果のコピー & ペーストを実行する際は 単純コピーだと こうなってしまう 予防するには 形式を選択して貼り付け 値
並び替え データ T 並び替えとフィルタ G 35 最優先されるキー : 相対頻度順序 : 降順
円グラフの作成 36 降順ソートした相対頻度表を選択挿入 T グラフ G 円
円グラフの作成 デザインタブからスタイル レイアウトの変更可 37
棒グラフと円グラフ 38 どちらを採用するかは主張する内容によって決まります気分ではない 14 12 10 8 6 4 2 0 バイク バス 自転車 車 電車 徒歩 バイク, 0.10 バス, 0.08 自転車, 0.26 電車, 0.12 徒歩, 0.24 車, 0.20
量的データの表 グラフ表現 39 量的データを表 グラフには階級の幅を設定し, 区間の頻度を求める 世帯主の年齢データの表 グラフ化 (Kadai02-2.xlsx AgeDat)
量的データの頻度分布表 (p.16-20) 階級値 幅の設定のため最小, 最大値を確認 階級の幅 階級値を記載 頻度を抽出 40 最小は, min() 最大は, max() でした
量的データの頻度分布表 (p.16-20) 階級値 幅の設定のため最小, 最大値を確認 階級の幅 階級値を記載 頻度を抽出 41
量的データの頻度分布表 (p.16-20) 階級値 幅の設定のため最小, 最大値を確認 階級の幅 階級値を記載 頻度を抽出 42 算出先を選択して
Frequency 関数 43 範囲内データの該当数を返します 配列処理なので Ctrl Shift Enter で実行します データ範囲と区間を指定したら キーをまとめて押す
相対頻度の算出 44 相対頻度を算出してください
課題 : ヒストグラム 45 相対頻度の算出結果からヒストグラムを作成してください (p.247-248 参照 ) 棒を右クリックして書式設定 棒グラフと異なりヒストグラムは間隔なし
ヒストグラム ( 完成図 ) 46 以下のような体裁にしてください 0.25 0.20 0.15 0.10 0.05 0.00 32.5 37.5 42.5 47.5 52.5 57.5 62.5 67.5 72.5
課題 2 47 頻度でヒストグラムを描画してください x 軸目盛を下記のように設定 12 10 8 6 4 2 0 30-35 35-40 40-45 45-50 50-55 55-60 60-65 65-70 70-75
図 表記載の決まり 48 表のタイトルは表の上に書き 表 1, 表 2, 等と通し番号をうつ グラフは 図 の一種です. チャート図なども含めて図 1, 図 2, 等と通し番号をうつ図のタイトルは図の下に書く 図の説明が続く場合, 図のタイトルの下 グラフには 縦軸 横軸の単位を忘れない
表 図記載の決まり 49 下記が, 論文中の描画方法です 卒論の時などに間違わないでください 表 1. むし歯の被患率データ (2007 年 : 平成 19 年度 ) 平成 19 年度学校保健統計調査報告書 ( 文部科学省,2008) 区分 処置完了者 未処置者 幼稚園 5 歳 20.67 33.03 6 歳 23.82 36.28 小学校 中学校 高校 7 歳 29.54 37.62 8 歳 33.76 37.55 9 歳 35.48 36.06 10 歳 33.69 31.38 11 歳 30.81 26.65 12 歳 29.62 25.38 13 歳 30.94 26.78 14 歳 32.35 29.18 15 歳 35.79 28.40 16 歳 38.16 30.50 17 歳 40.81 32.03 図 1. 時間と処置完了率のシミュレーション結果
アンケート : 課題です 50 以下の質問に回答してください A1: 学籍番号 B1: 受講する授業の時限 C1:PCの使用歴を月単位 D1:1 日のPC 平均使用時間を時間単位 E1: 自分用のPCの月齢 F1: 自分用 PCのOS* G1: 自分用 PCのOfficeのバージョン * *: リストから選択
51 アンケート : データ保存の注意 CSV 形式 ( テキスト カンマ区切り ) 作成ファイルをメールで送付 1 2 4 3 s12345678kadai02-1.csv で保存
今回のまとめ 52 データには属性の区別がある 大きく名義データ, 量的データに区分される 名義データは名義ごとの頻度を算出 量的データは階級を区切って頻度を算出 図表の記載方法には決まりがある 課題 アンケート :f.12345678kadai02-1.csv データ処理 :f.12345678kadai02-2.xlsx m-kuwata@b.shobi-u.ac.jp に提出