DataAnalysisI02.pptx - PDF Free Download

1 データ分析法 I 資料 02: 統計学の概説と表グラフに関する規則担当 : 桑田匡之 m-kuwata[at]b.shobi-u.ac.jp

本資料の内容 2 道具立ての確認統計学の概説データの種類 1 変量のデータのグラフ化アンケート

道具立ての確認 3 授業ホームページアドレスを確認の上, ブックマークをつける http://www.geocities.jp/amalie_emmy/ DataAnalysis/AnalysisI.html 尚美学園大学 Google Apps を利用できる状態にする ( 特にメール ~@b.shobi-u.ac.jp) 学内ネットワークアカウント (1 年生の時にリテラシの授業で使った赤紙の情報 ) の記憶 USB メモリの準備

課題について 4 課題は, Excel ファイルをメールに添付する形式で提出してもらいます Excel ファイルの計算課題を実施して m-kuwata@b.shobi-u.ac.jp に提出してください提出期限は毎回土曜日の 24:00 です

統計学の概説 5

標本と母集団 6 すべての統計的現象は, 母集団 ( 当該現象全体 ) を観察する代わりに, 標本 ( 母集団の一部 ) を観察し, それをもとに母集団の特性を推測して分析 20 歳の日本人女性全数の身長街ですれ違った 20 歳女性 50 名の身長

標本の収集 ( サンプリング ) 7 母集団 : 多くの場合, 全データを観察することは不可能標本 ( サンプル ) を偏りなく ( ランダムに ) 抽出し, その傾向から母集団の傾向を推測する ( のが現実的 ) 母集団標本

ランダムな標本 8 母集団標本 20 歳の日本人女性の身長の調査モデルクラブ所属の 20 歳女性 50 名道ですれ違った 20 歳女性 50 名ランダムな標本収集母集団の各個体が, 標本として選ばれる機会を平等に確保する

層別ランダム標本 9 成人 ( 日本人 ) の身長の調査だったら道で歩いてすれ違った成人 50 人! 女性と男性では身長が違う道ですれ違った成人 50 人道を歩いてすれ違った日本人成人女性 25 人道を歩いてすれ違った日本人成人男性 25 人層別ランダム標本母集団の異なるグループ ( 性別年齢等 ) から抽出する標本数をあらかじめ定めてそれぞれのグループからランダムに抽出

データの種類 10

統計的変量 11 変量 : 各個体を区別できる属性 or 特性例 : 中古自動車の購買中古自動車の違いを表わす変量自動車のブランド ( トヨタ, ホンダ, 日産 ) 状態 ( 良い, 普通, 悪い ) 排気量価格タイヤの数は変量ではない

質的変量 ( 名義変量 ) 12 カテゴリーに分けることができる変量名義変量例 : 自動車のメーカー, タイプ, 色定義を決めて個体に名前を付けるトヨタホンダ日産ワンボックスセダンピックアップ

質的変量 ( 順序変量 ) 13 順序変量例 : 自動車の状態 ( 良い, 悪い, 普通 ) 順序のあるカテゴリーに分割可良良 1 番 2 番情報量が多い状態普通悪 3 番 4 番 5 番ただし 3 番 2 番 = 1 4 番 3 番 = 1 は成立しない悪 6 番

量的変量 14 算術を施すことができる数量 ( 数字 ) 離散変量例 : 自動車の価格取りうる値が一つ一つはっきり離れている 1,000 円と1,001 円の間に異なる値はとれない連続変量例 : 自動車の排気量どの2つの値の間にも別の値が存在する 1,000ccと1,001ccの間 :1,000.5, 1,000.6..

ゼロ点 15 ゼロ点 : 当該特性が全く無いということゼロ点を持つ変量例 : 所得所得が0 円所得がない 10,000 円 /dayの人は5,000 円 /dayの人の2 倍の所得ゼロ点を持たない変量例 : 温度 0 度は物体の温度がないこと, という訳ではない 10 度は5 度の2 倍熱いという訳ではない

量的変量 16 量的変量質的変量への変換可大大型 2 輪 1,300cc 600cc 情報量が多い排気量小中型 2 輪原付 250cc 200cc 49cc 45cc 400cc 50cc

変量の体系一口にデータといいますが以下の区別がつかないと適切な処理ができません 17 変量質的変量量的変量名義変量順序変量離散変量連続変量順序あるカテゴリー順位

データをとる手順 18 どんなデータをどうとるか考える調査対象とする母集団の決定 20 歳以上の男女の身長など標本の収集手段を考える母集団からの無作為抽出が原則無作為抽出されたデータの記述加工データ入力後, 表グラフにする母集団の姿を統計的に推測する

1 変量データのグラフ化 19

名義データの表グラフ表現名義データ (Kadai02-2.xlsx: TransDat) 20 交通手段 c 名義で入力交通手段 f 数字にコード化どのようなグラフ表現が可能でしょう?

名義データの頻度分布表の作成 21 名義データは, 頻度を算出できますが, 平均などの統計量はとれません. グラフ表現としては棒グラフや円グラフが可能です頻度分布表の作成棒グラフの作成円グラフの作成

Excel による名義データの 22 頻度分布表の作成 1. 名義 ( カテゴリ ) の確認をしますテーブルとして書式設定フィルタのプルダウンリストフィルタの詳細設定 2. 条件合致標本のカウントを行います COUNTIF 関数

テーブル設定とフィルタデータ内の任意のセルを選択してホーム T スタイル G テーブルとして書式設定 23 任意のスタイルを選択

テーブル設定とフィルタデータの入力範囲を決定 24 間違っていたら修正カテゴリが確認できます

頻度算出テーブルの作成 25 各カテゴリの頻度算出表を作成プルダウンリストを入力します

頻度の算出 (COUNTIF) 26 目的 : オリジナルデータから各カテゴリに合致するセルの数を足し合わせる数式 T 関数ライブラリ G その他の関数統計 COUNTIF

頻度の算出 (COUNTIF) 範囲と検索条件 27 マウス or キー注 : テーブルの場合の範囲の表記オートフィルでその他も算出

棒グラフ 28 Excel のグラフ作成機能で棒グラフを作成データを選択して挿入 T グラフ G 縦棒

棒グラフ 29 以下の様なグラフが描画されます

相対頻度によるグラフ表現棒グラフ, 円グラフなどの描画 30 相対頻度を算出オートフィルで算出するにはどう工夫?

相対参照絶対参照 31 $ で, 絶対参照する行列参照先を調整相対的に参照位置を動かさない要素を $ で固定

相対頻度による棒グラフ 32 算出された相対頻度を先の例を踏襲して描画離れた場所を選択するには 1つ目は通常選択 2つ目は Ctrl を押しながら選択

円グラフの作成 33 頻度からも作成できますが通常相対頻度で作成相対頻度の大きい順番にソートするコピーを作成して降順にソート

コピー作成時の注意 34 計算結果のコピー & ペーストを実行する際は単純コピーだとこうなってしまう予防するには形式を選択して貼り付け値

並び替えデータ T 並び替えとフィルタ G 35 最優先されるキー : 相対頻度順序 : 降順

円グラフの作成 36 降順ソートした相対頻度表を選択挿入 T グラフ G 円

円グラフの作成デザインタブからスタイルレイアウトの変更可 37

棒グラフと円グラフ 38 どちらを採用するかは主張する内容によって決まります気分ではない 14 12 10 8 6 4 2 0 バイクバス自転車車電車徒歩バイク, 0.10 バス, 0.08 自転車, 0.26 電車, 0.12 徒歩, 0.24 車, 0.20

量的データの表グラフ表現 39 量的データを表グラフには階級の幅を設定し, 区間の頻度を求める世帯主の年齢データの表グラフ化 (Kadai02-2.xlsx AgeDat)

量的データの頻度分布表 (p.16-20) 階級値幅の設定のため最小, 最大値を確認階級の幅階級値を記載頻度を抽出 40 最小は, min() 最大は, max() でした

量的データの頻度分布表 (p.16-20) 階級値幅の設定のため最小, 最大値を確認階級の幅階級値を記載頻度を抽出 41

量的データの頻度分布表 (p.16-20) 階級値幅の設定のため最小, 最大値を確認階級の幅階級値を記載頻度を抽出 42 算出先を選択して

Frequency 関数 43 範囲内データの該当数を返します配列処理なので Ctrl Shift Enter で実行しますデータ範囲と区間を指定したらキーをまとめて押す

相対頻度の算出 44 相対頻度を算出してください

課題 : ヒストグラム 45 相対頻度の算出結果からヒストグラムを作成してください (p.247-248 参照 ) 棒を右クリックして書式設定棒グラフと異なりヒストグラムは間隔なし

ヒストグラム ( 完成図 ) 46 以下のような体裁にしてください 0.25 0.20 0.15 0.10 0.05 0.00 32.5 37.5 42.5 47.5 52.5 57.5 62.5 67.5 72.5

課題 2 47 頻度でヒストグラムを描画してください x 軸目盛を下記のように設定 12 10 8 6 4 2 0 30-35 35-40 40-45 45-50 50-55 55-60 60-65 65-70 70-75

図表記載の決まり 48 表のタイトルは表の上に書き表 1, 表 2, 等と通し番号をうつグラフは図の一種です. チャート図なども含めて図 1, 図 2, 等と通し番号をうつ図のタイトルは図の下に書く図の説明が続く場合, 図のタイトルの下グラフには縦軸横軸の単位を忘れない

表図記載の決まり 49 下記が, 論文中の描画方法です卒論の時などに間違わないでください表 1. むし歯の被患率データ (2007 年 : 平成 19 年度 ) 平成 19 年度学校保健統計調査報告書 ( 文部科学省,2008) 区分処置完了者未処置者幼稚園 5 歳 20.67 33.03 6 歳 23.82 36.28 小学校中学校高校 7 歳 29.54 37.62 8 歳 33.76 37.55 9 歳 35.48 36.06 10 歳 33.69 31.38 11 歳 30.81 26.65 12 歳 29.62 25.38 13 歳 30.94 26.78 14 歳 32.35 29.18 15 歳 35.79 28.40 16 歳 38.16 30.50 17 歳 40.81 32.03 図 1. 時間と処置完了率のシミュレーション結果

アンケート : 課題です 50 以下の質問に回答してください A1: 学籍番号 B1: 受講する授業の時限 C1:PCの使用歴を月単位 D1:1 日のPC 平均使用時間を時間単位 E1: 自分用のPCの月齢 F1: 自分用 PCのOS* G1: 自分用 PCのOfficeのバージョン * *: リストから選択

51 アンケート : データ保存の注意 CSV 形式 ( テキストカンマ区切り ) 作成ファイルをメールで送付 1 2 4 3 s12345678kadai02-1.csv で保存

今回のまとめ 52 データには属性の区別がある大きく名義データ, 量的データに区分される名義データは名義ごとの頻度を算出量的データは階級を区切って頻度を算出図表の記載方法には決まりがある課題アンケート :f.12345678kadai02-1.csv データ処理 :f.12345678kadai02-2.xlsx m-kuwata@b.shobi-u.ac.jp に提出