情報科学第 07 回データ解析と統計代表値 平均 分散 度数分布表 1 本日の内容 データ解析とは 統計の基礎的な値 平均と分散 度数分布表とヒストグラム 講義のページ 第 7 回のその他の欄に 本日使用する教材があります 171025.xls というファイルがありますので ダウンロードして デスクトップに保存してください 2/45 はじめに データ解析とは この世の中には多くのデータが溢れています では この大量のデータを見せられて 我々は何がわかるでしょうか? わかった! 000,10,13243,213,57 62,214,16,45,652321, 45,3217,23412,84243,845,23,125,57,2,5,8... こうなれる人は そうはいません 3/45 データを正確に把握する手法が必要 4/45 データ解析とその目的 統計 統計処理の例 1: 相関関係 2 つ以上の回答項目があるアンケートをとりました 項目 A と項目 B には関連性があるでしょうか? 集計したり 代表値を求めたり 傾向を分析することで そのデータの特徴を知る技術 数値などの客観的な形で表現することで 勘などに頼らない判断が可能に 5/45 項目 A 回答者 1 1 回答者 2 100 回答者 3 80 回答者 4 75 回答者 5 65 回答者 6 65 項目 B 500 490 300 3 290 285 同じ傾向があるかなぁ? 6/45
統計処理の例 2: 推定 一部分の人からアンケートをとりました どのぐらい全体を表しているでしょうか? どのようにしたら 全体の推定ができるでしょうか? どのぐらい性質を引継いでるのかなぁ 統計処理の例 3: 検定 あるデータに対して ある仮説をたてました この仮説は正しいでしょうか? 真実 この推測 あってるのかなぁ 仮説 7/45 8/45 特徴を表す値 代表値とは そのデータを代表する値です 代表する値とは何でしょうか? 何が代表? 9/45 代表的な代表値として 平均 中央値 最頻値 などがあります 10/45 平均値 最頻値 全体の値の平均を平均値と言います もっとも回数が多い値を最頻値と言います 7 人の身長の平均は この高さ 11/45 130cm の人だけ 2 人居る 130cm が最頻値 12/45
中央値 ( メジアン ) 順番に並べたとき 真ん中にくる値を中央値 ( メジアン ) と言います 最大値と最小値 代表値とは少し違いますが グループの中で最大の値と最小の値も よく使われます 2 4 3 7 1 5 5 全部で 7 人だから 4 番目の自分が中央値 13/45 最小! 最大! 14/45 演習 :Excel で求める代表値 演習 : ソート Excelには 代表値を求める関数が準備されています 平均値 :average( セルの範囲 ) 中央値 :median( セルの範囲 ) 最頻値 :mode( セルの範囲 ) 最大値 :max( セルの範囲 ) 最小値 :min( セルの範囲 ) Excelのシートの指示にしたがって それぞれの値を求めてみましょう Excel には データを並べかえる機能があります データタブ の 並べ替えとフィルター グループから実行できます Sheet2 のデータを 大きい順 小さい順に並べ買えてみましょう 複数の条件で並べ買えることもできます 15/45 16/45 平均を求めましょう 各データの平均値を求めてセルに記入しましょう 平均と分散 59 49 23 31 66 15 9 9 8 7 平均値 34 30 23 42 83 3 96 36 51 18 分散 60 47 81 83 73 47 72 49 99 67 標準偏差 18 25 62 17 26 48 48 78 16 27 93 16 24 60 57 86 54 74 33 79 クラスBの結果 26 42 81 69 17 93 101 102 104 104 平均値 64 70 81 52-9 111-28 62 39 88 分散 26 45-6 -9 6 45 8 42-33 15 標準偏差 88 78 23 90 77 44 44-1 92 74-24 92 80 26 30-13 35 5 66-3 17/45 18/45
平均だけで表現できている? 前回は代表値について説明しました 代表値だけでデータの特徴を表せているでしょうか? データのばらつき どんぐりの背比べなデータもあれば 10 人 10 色なデータもあります グループ A 平均 グループ B 10 色どんぐり平均 平均は一緒だけど... 今日はデータのばらつきぐあいのお話です 19/45 平均値では データのばらつきはわかりません データのばらつきを評価するものとして 標準偏差があります /45 標準偏差 標準偏差の意味 データのばらつきぐあいを表す指標です n 個のデータ x, x, 1 2, x n に対して X を平均値としたとき 1 2 n を分散と言います 分散の正の平方根 n i 1 2 X x i を標準偏差と言います 21/45 平均値と個々のデータとの間の差が大きいか小さいかで ばらつき度合いを評価します 10 色どんぐり平均 赤い縦棒の長さの 2 乗和が大きいと ばらつきも大きい 22/45 標準偏差の計算 ( 手作業 )1 標準偏差の計算 ( 手作業 )2 実際に 作業を1ステップずつやってみましょう seet2を開いて 次の順番に行います 1. 平均値を求めます 2. 平均値と各値の引き算の結果を計算します データ平均 - 値 ( 平均 - 値 ) の2 乗 59 平均 49 分散 23 標準偏差 31 66 15 9 9 2 8 7 1 23/45 seet2 を開いて 次の順番に行います 3. ステップ 2 で計算した各値の 2 乗の値を計算します 4. ステップ 3 で計算した値の平均値を計算します これが分散となります データ平均 - 値 ( 平均 - 値 ) の2 乗 59-12.78 平均 46.22 49-2.78 分散 23 23.22 標準偏差 31 15.22 66-19.78 15 31.22 9 37.22 9 37.22 3 8 38.22 7 39.22 4 24/45
標準偏差の計算 ( 手作業 )3 seet2を開いて 次の順番に行います 5. 分散の値の正の平方根を計算します これが標準偏差となります データ平均 - 値 ( 平均 - 値 ) の2 乗 59-12.78 163.3284 平均 46.22 49-2.78 7.7284 分散 713.0516 23 23.22 539.1684 標準偏差 31 15.22 231.6484 66-19.78 391.2484 15 31.22 974.6884 9 37.22 1385.3284 9 37.22 1385.3284 8 38.22 1460.7684 7 39.22 1538.84 5 25/45 分散の計算 ( 関数利用 ) 分散を計算する関数は VARP です VARP( セルを指定 ) として使用します 分散のセルにそれぞれの分散を計算しましょう 59 49 23 31 66 15 9 9 8 7 平均値 34 30 23 42 83 3 96 36 51 18 分散 60 47 81 83 73 47 72 49 99 67 標準偏差 18 25 62 17 26 48 48 78 16 27 93 16 24 60 57 86 54 74 33 79 クラスBの結果 26 42 81 69 17 93 101 102 104 104 平均値 64 70 81 52-9 111-28 62 39 88 分散 26 45-6 -9 6 45 8 42-33 15 標準偏差 88 78 23 90 77 44 44-1 92 74-24 92 80 26 30-13 35 5 66-3 26/45 標準偏差の計算 ( 関数利用 ) 標準偏差を計算する関数は STDEVP です STDEVP( セルを指定 ) として使用します 分散のセルにそれぞれの分散を計算しましょう 59 49 23 31 66 15 9 9 8 7 平均値 34 30 23 42 83 3 96 36 51 18 分散 60 47 81 83 73 47 72 49 99 67 標準偏差 18 25 62 17 26 48 48 78 16 27 93 16 24 60 57 86 54 74 33 79 度数分布表とヒストグラム クラスBの結果 26 42 81 69 17 93 101 102 104 104 平均値 64 70 81 52-9 111-28 62 39 88 分散 26 45-6 -9 6 45 8 42-33 15 標準偏差 88 78 23 90 77 44 44-1 92 74-24 92 80 26 30-13 35 5 66-3 27/45 28/45 平均 分散を求めましょう Excel の関数を利用して 平均値 分散 標準偏差を求めてみましょう 左のデータの... 46 48 48 47 56 66 26 46 71 平均値 33 55 48 47 47 46 49 62 35 45 分散 52 50 49 50 23 62 50 27 42 38 標準偏差 53 41 48 47 54 38 78 52 47 50 60 68 70 42 43 45 50 64 34 34 度数分布表 ( 手作業 ) 46 54 47 28 50 48 49 46 46 39 範囲 人数 累計人数 83 41 41 68 27 57 74 57 46 50 10 59 32 33 26 73 25 63 39 37 42 26 55 48 58 37 57 68 48 30 69 53 48 30 41 49 55 45 55 62 50 average(), varp(), stdevp() 29/45 分散と実際の分布 分散は データの散らばりぐらいを表現しています では データは具体的に どのように分布しているでしょうか? 160cm 台の人が 3 人... 今回は 段階毎の数え上げについてです 30/45
やりたいこと データの傾向を見るために 値をいくつかの段階に分け それぞれの人数を数え上げることが行われます 例 : テストの点数の分布を 10 点刻みの人数で見る年間給与を 100 万円刻みで見る このように 値を段階に分け それぞれのデータ数を集計した表を " 度数分布表 " と言います 31/45 累計 その値までの総数を数え上げたのが累計です 今回の場合 10 点以下 点以下... のようになります 1 100 80 60 0 累計人数 10 30 50 60 70 80 90 100 累計人数 32/45 累計と度数分布 手動で頑張る数え上げ 各値の差が その段階で増えた人数になります 累計人数 この差がその階級の値 1 100 80 60 0 10 30 50 60 70 80 90 100 累計人数 33/45 実際に手を動かして 手動で集計してみましょう 33 55 48 47 47 46 49 62 35 45 10 10 点以下 52 50 49 50 23 62 50 27 42 38 11 点以上 点以下 53 41 48 47 54 38 78 52 47 50 30 21 点以上 30 点以下 60 68 70 42 43 45 50 64 34 34 31 点以上 点以下 46 54 47 28 50 48 49 46 46 39 50 41 点以上 50 点以下 83 41 41 68 27 57 74 57 46 50 60 51 点以上 60 点以下 59 32 33 26 73 25 63 39 37 42 70 61 点以上 70 点以下 26 55 48 58 37 57 68 48 80 71 点以上 80 点以下 69 53 48 30 41 49 55 45 55 62 90 81 点以上 90 点以下 34/45 46 48 48 47 56 66 26 46 71 33 55 48 47 47 46 49 62 35 45 52 50 49 50 23 62 50 27 42 38 53 41 48 47 54 38 78 52 47 50 60 68 70 42 43 45 50 64 34 34 46 54 47 28 50 48 49 46 46 39 83 41 41 68 27 57 74 57 46 50 59 32 33 26 73 25 63 39 37 42 26 55 48 58 37 57 68 48 69 53 48 30 41 49 55 45 55 62 35/45 範囲 人数 累計人数 意味 10 10 点以下 11 点以上 点以下 30 21 点以上 30 点以下 31 点以上 点以下 50 41 点以上 50 点以下 60 51 点以上 60 点以下 70 61 点以上 70 点以下 80 71 点以上 80 点以下 90 81 点以上 90 点以下 36/45
countif を用いた数え上げ (1) countif を用いた数え上げ (2) countif は 条件に合ったデータを数え上げる関数です 条件に "<=10" のように書くことで 10 以下のデータの個数を数え上げることができます たとえば =COUNTIF(A28:J37, <=10 ) とすると セル A28 から J37 の範囲で 10 以下の値のセルの個数を数え上げます Excel では & で文字列を連結できるので =COUNTIF(A28:J37, <= & D5) countif 関数を利用して 累計人数欄に 上からそれぞれ 10 点以下の人数 点以下の人数 30 点以下の人数... を書いてみましょう 33 55 48 47 47 46 49 62 35 45 10 10 点以下 52 50 49 50 23 62 50 27 42 38 11 点以上 点以下 53 41 48 47 54 38 78 52 47 50 30 21 点以上 30 点以下 60 68 70 42 43 45 50 64 34 34 31 点以上 点以下 46 54 47 28 50 48 49 46 46 39 50 41 点以上 50 点以下 83 41 41 68 27 57 74 57 46 50 60 51 点以上 60 点以下 59 32 33 26 73 25 63 39 37 42 70 61 点以上 70 点以下 26 55 48 58 37 57 68 48 80 71 点以上 80 点以下 69 53 48 30 41 49 55 45 55 62 90 81 点以上 90 点以下 とすると D5のセルの値以下をカウントできます 37/45 38/45 countif を用いた数え上げ (3) 50 点より大きく 60 点以下の人 は 60 点以下の人 - 50 点以下の人 で計算できます 人数の部分を埋めましょう 度数分布表 (countif) 33 55 48 47 47 46 49 62 35 45 10 0 10 点以下 52 50 49 50 23 62 50 27 42 38 1 11 点以上 点以下 53 41 48 47 54 38 78 52 47 50 30 10 21 点以上 30 点以下 60 68 70 42 43 45 50 64 34 34 24 31 点以上 点以下 46 54 47 28 50 48 49 46 46 39 50 67 41 点以上 50 点以下 83 41 41 68 27 57 74 57 46 50 60 84 51 点以上 60 点以下 59 32 33 26 73 25 63 39 37 42 70 95 61 点以上 70 点以下 26 55 48 58 37 57 68 48 80 99 71 点以上 80 点以下 69 53 48 30 41 49 55 45 55 62 90 100 81 点以上 90 点以下 100 39/45 frequency を用いた数え上げ (1) Excel の関数 frequency を使っても 度数分布表を作成できます 今までの関数と 少し使い方が違います 33 55 48 47 47 46 49 62 35 45 10 10 点以下 52 50 49 50 23 62 50 27 42 38 11 点以上 点以下 53 41 48 47 54 38 78 52 47 50 30 21 点以上 30 点以下 60 68 70 42 43 45 50 64 34 34 31 点以上 点以下 46 54 47 28 50 48 49 46 46 39 50 41 点以上 50 点以下 83 41 41 68 27 57 74 57 46 50 60 51 点以上 60 点以下 59 32 33 26 73 25 63 39 37 42 70 61 点以上 70 点以下 26 55 48 58 37 57 68 48 80 71 点以上 80 点以下 69 53 48 30 41 49 55 45 55 62 90 81 点以上 90 点以下 /45 frequency を用いた数え上げ (2) frequency を用いた数え上げ (3) frequency( データセル 区間の切方のセル ) として使います 1. 人数の一番上のところに 図のように書きましょう 10 点以下の人数が数え上げられます 33 55 48 47 47 46 49 62 35 45 10 10 点以下 52 50 49 50 23 62 50 27 42 38 11 点以上 点以下 53 41 48 47 54 38 78 52 47 50 30 21 点以上 30 点以下 60 68 70 42 43 45 50 64 34 34 31 点以上 点以下 46 54 47 28 50 48 49 46 46 39 50 41 点以上 50 点以下 83 41 41 68 27 57 74 57 46 50 60 51 点以上 60 点以下 59 32 33 26 73 25 63 39 37 42 70 61 点以上 70 点以下 26 55 48 58 37 57 68 48 80 71 点以上 80 点以下 69 53 48 30 41 49 55 45 55 62 90 81 点以上 90 点以下 =FREQUENCY(A41:J50,L42:L51) 41/45 他のセルにも人数が表示されるようにします 2. 人数のセル全体を選択します 3. F2を押します 4. ShiftとCtrlを押しながらEnterを押します 範囲 人数 累計人数 意味 10 0 10 点以下 11 点以上 点以下 30 21 点以上 30 点以下 31 点以上 点以下 50 41 点以上 50 点以下 60 51 点以上 60 点以下 70 61 点以上 70 点以下 80 71 点以上 80 点以下 90 81 点以上 90 点以下 2. この部分を選択する 3. F2を押す 4. ShiftとCtrlを押しながらEnterする 42/45
frequency を用いた数え上げ (4) 5. 累計人数も計算しましょう たとえば 30 点以下の人の数 は 点以下の人数 + 点より大で30 点以下の人数 です 範囲 人数 累計人数 意味 10 0 10 点以下 1 11 点以上 点以下 30 9 21 点以上 30 点以下 14 31 点以上 点以下 50 43 41 点以上 50 点以下 60 17 51 点以上 60 点以下 70 11 61 点以上 70 点以下 80 4 71 点以上 80 点以下 90 1 81 点以上 90 点以下 100 0 91 点以上 100 点以下 43/45 ヒストグラム 度数分布表を棒グラフにしたものがヒストグラムです 人数 50 45 35 30 25 15 10 5 0 10 点以下 11 点以上 点以下 21 点以上 30 点以下 31 点以上 点以下 書いてみましょう 41 点以上 50 点以下 51 点以上 60 点以下 61 点以上 70 点以下 71 点以上 80 点以下 81 点以上 90 点以下 91 点以上 100 点以下 人数 44/45 データ分析アドイン Excel には データ分析アドインがあり これを使っても度数分布表が作れます データ分析を使うには アドインを有効にする必要があります 1. [ ファイル ] [ オプション ] を選択 2. [ アドイン ] を選択 3. 下の方にある 管理 を Excel アドインにして [ 設定 ] をクリック 4. 分析ツール のチェックを入れる 45/45 データ分析によるヒストグラム データリボンにデータ分析が増えているので それをつかって書いてみましょう 1. [ データ分析 ] [ ヒストグラム ] を選択 2. 入力範囲とデータ区間を入力し グラフ作成にチェックを入れて [OK] をクリック 46/45 おわりに 他にも countifs を使ってヒストグラムを各方法等もあります 適時 選択しましょう 来週から より複雑な統計処理について見ていきます データを推定するときに統計処理は欠かせません 統計処理をする専用のソフトもあります Excel を利用しても 簡単な解析を容易に実行することができます 47/45