PowerPoint プレゼンテーション

Similar documents
基本統計量・クロス集計表の作成

第4回

経営統計学

Microsoft PowerPoint ppt

Microsoft PowerPoint - データ解析基礎2.ppt

Excel2013 ピボットテーブル基礎

Microsoft PowerPoint - 代表値と散布度.ppt [互換モード]

講義ノート p.2 データの視覚化ヒストグラムの作成直感的な把握のために重要入力間違いがないか確認するデータの分布を把握する fig. ヒストグラムの作成 fig. ヒストグラムの出力例 度数分布表の作成 データの度数を把握する 入力間違いが無いかの確認にも便利 fig. 度数分布表の作成

Excel2013 ピボットテーブルを使った分析

散布度

講座内容 第 1 週 データサイエンスとは 第 2 週 分析の概念と事例ビジネス課題解決のためのデータ分析基礎 ( 事例と手法 )1 第 3 週 分析の具体的手法ビジネス課題解決のためのデータ分析基礎 ( 事例と手法 )2 第 4 週 ビジネスにおける予測と分析結果の報告ビジネス課題解決のためのデー

Chapter カスタムテーブルの概要 カスタムテーブル Custom Tables は 複数の変数に基づいた多重クロス集計テーブルや スケール変数を用いた集計テーブルなど より複雑な集計表を自由に設計することができるIBM SPSS Statisticsのオプション製品です テーブ

PowerPoint プレゼンテーション

参考資料 分析ツールからダウンロードするデータについて < 行為明細 > 行為明細データを使いましょう (EVE をお使いの場合は ヘルプの行為明細ダウンロードを参照 ) 各分析ツールのマニュアルを参考にしてください

経済データ分析A

PowerPoint プレゼンテーション

stat-base_ppt [互換モード]

stat-base [互換モード]

Microsoft Word - 操作マニュアル-Excel-2.doc

統計活用のためのExcel 学習の手引き

不偏推定量

ビ Ⅱ13-2 フィールドの追加 変更 [ ピボットテーブルのフィールド ] 作業ウィンドウで [ フィールド ] セクションからフィールドをドラッグ & ドロップでエリアに置いて ピボットテーブルを作ります フィールドとは元リストの列の名前のこと アイテムとはフィールドの各要素のことです フィール

第 3 回講義の項目と概要 統計的手法入門 : 品質のばらつきを解析する 平均と標準偏差 (P30) a) データは平均を見ただけではわからない 平均が同じだからといって 同一視してはいけない b) データのばらつきを示す 標準偏差 にも注目しよう c) 平均

Excel2013 データベース1(テーブル機能と並べ替え)


Microsoft Word - appendix_b

Excelによる統計分析検定_知識編_小塚明_1_4章.indd

EBNと疫学

数値計算法

目次 1 章 SPSS の基礎 基本 はじめに 基本操作方法 章データの編集 はじめに 値ラベルの利用 計算結果に基づく新変数の作成 値のグループ化 値の昇順

パソコンの使い方

総務省 ICTスキル総合習得プログラム(コース3セット)

目次 1. はじめに Excel シートからグラフの選択 グラフの各部の名称 成績の複合グラフを作成 各生徒の 3 科目の合計点を求める 合計点から全体の平均を求める 標準偏差を求める...

スライド 1

Microsoft Word - lec_student-chp3_1-representative

平均値 () 次のデータは, ある高校生 7 人が ヵ月にカレーライスを食べた回数 x を調べたものである 0,8,4,6,9,5,7 ( 回 ) このデータの平均値 x を求めよ () 右の表から, テレビをみた時間 x の平均値を求めよ 階級 ( 分 ) 階級値度数 x( 分 ) f( 人 )

スライド 1

2 / 16 ページ 第 7 講データ処理 ブック ( ファイル ) を開く第 6 講で保存したブック internet.xlsx を開きましょう 1. [Office ボタン ] から [ 開く ] をクリックします 2. [ ファイルの場所 ] がデータを保存している場所になっている

intra-mart Accel Platform — ViewCreator ユーザ操作ガイド   第6版  

相関係数と偏差ベクトル

Excelによる統計分析検定_知識編_小塚明_1_4章.indd

Medical3

はじめに Excel における計算式の入力方法の基礎 Excel では計算式を入力することで様々な計算を行うことができる 例えば はセルに =SQRT((4^2)/3+3*5-2) と入力することで算出される ( 答え ) どのような数式が使えるかは 数式

問題 1 次の文章は Excel の作業環境について述べたものである 下線部の記述の正誤を判断し 解答群 { } の記号で答えよ ただし 下線部以外の記述に誤りはないものとする 設問 1. 数値データが入力されている複数のセルを選択すると 選択した範囲のデータの個数や合計が ステータスバー上に表示さ

(7) 表示されている [ オートフィルオプション ] をクリックして [ 書式なしコピ ー ] をクリックします (8)[ 評価 1] の結果が表示されます [ 評価 2] の列には [ 売上数量 ] が 1500 以上であれば 1000 以上であれば そ うでなければ と表示されるようにしてくだ

Word 実技 実習 編 別冊-6 ページを このページに差し替えてください (*Word 2016では [ ページレイアウト ] タブは [ レイアウト ] タブと名称変更されました ) 1 頁 Word 2016 ( 課題 と ) W ワード ord 2016 の画面構成 [ フ

Microsoft Word A08

スライド 1

第 1 節 関数とは 関数とは 与えられた文字や数値に対し 定められた処理を行って結果を返す命令のことです 例えば パンをホームベーカリーで作るには 最初に材料となる小麦粉などを入れ 次いでドライイースト 最後に水を入れるという順序があります そして スタートボタンを押すとパンが完成します ホームベ

Microsoft PowerPoint slide2forWeb.ppt [互換モード]

データの整理 ( 度数分布表とヒストグラム ) 1 次元のデータの整理の仕方として代表的な ものに度数分布表とヒストグラムがあります 度数分布表観測値をその値に応じていくつかのグループ ( これを階級という ) に分類し 各階級に入る観測値の数 ( これを度数という ) を数えて表にしたもの 2

Microsoft Word - 保健医療統計学112817完成版.docx

モジュール1のまとめ

<4D F736F F F696E74202D B835E82CC8EED97DE B835E82CC834F BB F0955C82B793C190AB926C>

分析のステップ Step 1: Y( 目的変数 ) に対する値の順序を確認 Step 2: モデルのあてはめ を実行 適切なモデルの指定 Step 3: オプションを指定し オッズ比とその信頼区間を表示 以下 このステップに沿って JMP の操作をご説明します Step 1: Y( 目的変数 ) の

§2-2 記述統計と推測統計

正誤表(FPT1004)

3章 度数分布とヒストグラム

ビジネス統計 統計基礎とエクセル分析 正誤表

第 12 講データ管理 1 2 / 14 ページ 12-1 データベースソフトの概要 データベースとは集められた様々なデータをテーマや目的に沿って分類 整理したものです データベースソフトでは データベースを作成し その管理を行います 何種類ものファイルや帳簿で管理していたデータをコンピュータ上で互

消費 統計学基礎実習資料 2017/11/27 < 回帰分析 > 1. 準備 今回の実習では あらかじめ河田が作成した所得と消費のファイルを用いる 課題 19 統計学基礎の講義用 HP から 所得と消費のファイルをダウンロードしてみよう 手順 1 検索エンジンで 河田研究室 と入力し検索すると 河田

Microsoft Word - Stattext12.doc

Medical3

<4D F736F F D F4390B394C5816A8C B835E C835A AA90CD82A982E78CA982E990B68A888F4B8AB595618AC7979D312D332E646F63>

ファイナンスのための数学基礎 第1回 オリエンテーション、ベクトル

A. 表の作成 はじめに 講座テキストページに保存されている表 1 の元データをエクセル 2010 にコピーします (No1) 講座テキスト (Web ページ ) に示した表 1 過去 12 年間の為替と外貨準備の推移 のデータ表を選択する この表 1 を選択した状態で WEB ページの 編集 コピ

統計学 - 社会統計の基礎 - 正規分布 標準正規分布累積分布関数の逆関数 t 分布正規分布に従うサンプルの平均の信頼区間 担当 : 岸 康人 資料ページ :

ワープロソフトウェア

PowerPoint プレゼンテーション

スライド 1

PowerPoint プレゼンテーション

コンピュータリテラシ 第 6 回表計算 2 このスライド 例題 /reidai6.xlsx /reidai6a.xlsx 課題 12 /reidai6b.xlsx /table12_13.xlsx

Microsoft Word - mstattext02.docx

3章 度数分布とヒストグラム

ANOVA

Microsoft Word - apstattext04.docx

Microsoft Word - Stattext07.doc

Microsoft PowerPoint - 基礎・経済統計6.ppt

Microsoft PowerPoint - sc7.ppt [互換モード]

Microsoft Word - apstattext01b.docx

情報処理 基 礎

情報工学概論

スライド 1

Microsoft Word - 206MSAccess2010

問題 1 次の文章は Excel の作業環境について述べたものである 下線部の記述の正誤を判断し 解答群 { } の記号で答えよ ただし 下線部以外の記述に誤りはないものとする 設問 1. クイックアクセスツールバーには アプリケーション名やファイル名が表示される 設問 2. 数式バーのる ボタンを

Microsoft PowerPoint - e-stat(OLS).pptx

Microsoft Word - 教科書大1b第12週06.doc

【指導のポイント】

暮らしのパソコンいろは早稲田公民館 ICT サポートボランティア

改訂履歴

初めてのプログラミング

Blue circle & gradation

(Nov/2009) 2 / = (,,, ) /8

日心TWS

Microsoft PowerPoint - Econometrics

年齢別人数計算ツールマニュアル

情報処理実習(芸術1)

ドリルダウン棒グラフを右クリックすると ドリルダウン が選択でき ドリルダウンすることで更に細かな視点で構成比を確認できます 例えば グラフの出力値を 品種 にしてドリルダウンで メーカー を設定すると 選択された品種の中でどのメーカーが売上に貢献しているかを確認することが可能です 該当商品の確認棒

回答形式 : 微妙にちがう態度と印象態度を聞く質問 ( リッカード尺度 ) 質問 -: あなたはLINEアプリは高校生に使用制限をつけた方がいいと思いますか? そう思う 思わない データ入力は結構大変で 誤りも起きる回答 やっと終わった 質問 - あなたはタブレットが高齢者に役立つと思いますか? 役

代表値

Transcription:

総務省 ICTスキル総合習得教材 概要版 eラーニング用 [ コース3] データ分析 3-3: 基本統計量 クロス集計表の作成 [ コース1] データ収集 [ コース2] データ蓄積 [ コース3] データ分析 [ コース4] データ利活用 1 2 3 4 5

座学実習紹介[3] ピボットテーブルとクロス集計表 本講座の学習内容 (3-3: 基本統計量 クロス集計表の作成 ) 講座概要 数値データの尺度に基づく 4 つのデータの種類を説明します 基本統計量を紹介し Excel 関数による導出方法を説明します Excel のピボットテーブルを用いて クロス集計表を作成する方法を紹介します 講座構成 [1] 数値データの尺度と種類 学習のゴール 数値データの 4 つの尺度を理解する 基本統計量の意味を理解し 代表的な基本統計量が説明できる [2] Excel 関数による基本統計量の導出 Excel 関数を用いて 基本統計量を導出できる ピボットテーブルを用いて クロス集計表や基本統計量に関する表を作成できるようになる

数値データの尺度 [1] 数値データの尺度と種類 数値データの尺度には 名義尺度 順序尺度 間隔尺度 比率尺度 の 4 種類があります 基本統計量の説明の前段階として 数値データの尺度の 4 種の尺度を紹介します 電話番号や郵便番号のように区別や分類のみのために用いられる番号を名義尺度といいます 郵便番号の数字をアルファベットに変更するように 名義尺度は数値を記号に変換してもその目的を果たせます 血液型の A 型を 1 型 B 型を 2 型 AB 型を 3 型 O 型を 4 型 と呼べば 名義尺度といえます 名義尺度では 一致する ( 等しい ) か どうかのみに意味があり 大小関係に意味はありません 地震の震度や 5 段階評価の満足度や成績のように 数値に大小関係 ( 順序 ) はあるものの数値の間隔に意味はないものを順序尺度といいます 震度 3 は震度 2 より揺れが強い とは言えますが 震度 3 は震度 2 と震度 1 が合わさった振動 や 震度 3 は震度 2 の 1.5 倍の揺れ とは言えません 温度や西暦のように目盛が等間隔で差に意味がありつつも 0 や比に意味がない数値を間隔尺度といいます 温度の 1 2 と 2 から 3 は 同じ 1 の上昇 とはいえますが 3 は 1 の 3 倍の温度 とはいえません 0 は水が凍る温度の融点としての意味はあっても 0 でも温度がなくなるわけではありません 重量や長さのように 0 に原点としての意味があり 間隔と比率の両方に意味がある尺度を比率尺度といいます 重量 (kg) や長さ (cm) では 50kg と 100kg 100cm と 200cm は それぞれ 2 倍といえます 重さ 0kg 長さ 0cm は 何も存在しないことに対応しています この 4 種類の尺度によって 平均値などの基本統計量に意味があるかが異なってきます

数値データの尺度と平均値 数値データの尺度によって 平均値に意味があるかが異なってきます 4 種類の尺度のうち 間隔尺度 比率尺度は平均値によってデータを代表する値を示すことができます 満足度などの 5 段階評価の順序尺度においても 便宜的に平均値による指標を表示することがあります しかし 同じ順序の中で最上位の点数のラベルを 5 点から 100 点に変えた場合に平均値は変化するため 代表的な値の表示に適切とは言えません 名義尺度 順序尺度 間隔尺度 事例大小比較差分比率 郵便番号部屋番号 震度 5 段階評価 温度 ( ) 西暦 4 種の数値データの尺度の特徴 最頻値 比率尺度重さ 長さ 代表的な値の表示に適切な統計量 中央値 最頻値 平均値 中央値 最頻値 平均値 中央値 最頻値 日本の住民の住所を 1~47 の都道府県番号 ( 名義尺度 ) で表した場合 最も住民が多い都道府県 ( 最頻値 ) は 13 番の東京都 とはいえますが 平均値を計算しても意味はありません 平均値を計算すると 20.7 となりますが 都道府県番号 20 番の長野県 21 番の岐阜県 とは無関係です [1] 数値データの尺度と種類

基本統計量 [2] Excel 関数による基本統計量の導出 基本統計量とは データセット全体の特徴をそれぞれ一つの値で要約する指標を指します 気温 人間の身長のデータを分析対象とする場合 調査対象とした時間や人数だけデータレコード ( 標本数 サンプルサイズ ) があります 統計学では データの中にある一つ一つの観測値を 標本 や サンプル と言います データという言葉はデータセット全体を指すのか 一つ一つの標本を指すのかが不明瞭になりやすいため 言葉を区別しています データセットに入っている標本の合計を標本数やサンプルサイズと言います Excel の表形式のデータベース ( リレーショナルデータベース ) に格納した場合 標本数はデータレコード数 ( 行数 ) に対応します 標本数が多くなると 一つ一つの標本を確認してデータの特徴を把握することが困難になります 毎分収集している気温のデータは 1 日のデータでも 1440 標本となり 一つ一つの標本を見て確認するだけでも手間がかかります データセット全体の特徴 ( 代表的な値やバラツキの程度 ) をそれぞれ一つの値で要約する指標を基本統計量といいます 基本統計量は 記述統計量や要約統計量と呼ばれることもあります 代表的な値 の一つとして平均値が含まれ 平均値も基本統計量の一つです 最大値および最小値は それぞれがデータセットの状態を一つの値で要約する指標であり 基本統計量に該当します 平均値が同じ100であっても 99~101の間に標本が散らばっている状況と 10~190の間に標本が散らばっている状況では バラツキの程度 が異なります 基本統計量の中には バラツキの程度 を表す指標もあります データ 標本 1 90 標本 2 100 標本 3 110 標本 4 120 標本 5 110 基本統計量 平均値 =106 最大値 =120 最小値 =90

データの代表的な値 ( 平均値 中央値 最頻値 ) 平均値 中央値 最頻値は それぞれデータセットの代表的な値を表す基本統計量です ここではサンプルデータとして 2017 年 7 月 1 日 ~9 月 30 日の東京の天候データ ( 気温 ) を利用します 同時点の天気データが付いている各日の 3 時 6 時 9 時 12 時 15 時 18 時 21 時の 1 日 7 時点の 644 標本のデータを利用します 気象庁の 過去の気象データ ダウンロード (http://www.data.jma.go.jp/gmd/risk/obsdl/index.php) から ダウンロードすることができます 平均値 (mean) は 標本の合計値を標本数で割ったものに対応し 標本から得られた平均値として標本平均とも呼ばれます セルに = AVERAGE( データ範囲 ) と入力することで 平均値が導出できます 中央値 (median) は 標本を大小関係で並べた際に中央の順位にある値を指します セルに = MEDIAN( データ範囲 ) と入力することで 中央値が導出できます 順序尺度において 順序を変えない範囲で 5 点 100 点などのラベル替えをしても 中央値は影響を受けないため 中央値は順序尺度においても意味を持つ指標です 最頻値 (mode) は データの中で最も頻度が高い値を指します セルに = MODE( データ範囲 ) と入力することで 最頻値が導出できます サンプルデータにおける平均値 中央値 最頻値のExce 出力 基本統計量の名称 値 Excel 関数の入力 平均値 25.7 =AVERAGE(C2:C645) 中央値 25.7 =MEDIAN(C2:C645) 最頻値 27.4 =MODE(C2:C645) [2] Excel 関数による基本統計量の導出 平均値 中央値 最頻値のイメージ 正規分布の場合平均値 = 中央値 = 最頻値

標本のバラツキを示す指標 ( 分散 標準偏差 ) 分散 標準偏差は それぞれ標本のバラツキを表す基本統計量です 分散は標本のバラツキを示す指標であり 導出過程で偏差平方和を利用しています 各標本の標本平均からのズレとしての偏差 (= 各標本の値 - 標本平均 ) には正と負の値が両方があり 全標本で偏差の総和をとると正と負が打ち消し合って 0 になります このため 各標本の偏差を二乗することで負の偏差も正の値にしてから総和をとった偏差平方和を導出過程で利用して バラツキの指標の分散を導出します 偏差平方和を ( 標本数 -1) で割ることで 標本分散と呼ばれる二乗しているバラツキの指標が導出できます セルに = VAR.S( データ範囲 ) と入力すると 標本に基づいて母集団の分散を偏りなく推定できる不偏分散が導出できます 標本数自体ではなく ( 標本数 -1) で割る理由や 偏りなく の意味は やや専門的になるため 関心がある方は統計学の入門書を参照して下さい 標準偏差は 二乗していた尺度を元に戻したバラツキの指標です セルに = STDEV.S(( データ範囲 ) と入力すると 標本に基づく標準偏差が導出できます [2] Excel 関数による基本統計量の導出 0.5 0.4 0.3 標準偏差の正規分布への影響 不偏分散は偏差を二乗してから総和をとった偏差平方和から導出しているため 二乗されたバラツキの指標となっています 標準偏差は 不偏分散の正の平方根をとることで 二乗されていた尺度を元に戻しています 0.2 0.1 サンプルデータにおける平均値 中央値 最頻値の Exce 出力 基本統計量の名称 値 Excel 関数の表記 ( 標本 ) 分散 13.01 =VAR.S(C2:C645) ( 標本 ) 標準偏差 3.61 =STDEV.S(C2:C645) 統計学に立ち入らない方は 分散 と 標準偏差 は バラツキの指標と理解するだけで構いません 0-4 -3-2 -1 0 1 2 3 4 正規分布 ( 標準偏差 0.9 [ 分散 0.81]) 標準正規分布 ( 標準偏差 1 [ 分散 1]) 正規分布 ( 標準偏差 1.1 [ 分散 1.21]) 正規分布 ( 標準偏差 2 [ 分散 4]) 標準偏差が大きくなると 分布の頂点は低くなり 分布の裾は広がります

ピボットテーブルの利用 Excel にはピボットテーブルと呼ばれるクロス集計表を簡単に作れる機能があります オリジナルのデータから特定の 2 項目 ( 例 : 性別と年齢層など ) で行と列を作り 交わる部分に該当する件数を求めることをクロス集計といい クロス集計を表に表したものをクロス集計表といいます サンプルデータとして 基本統計量の導出において利用した 2017 年 7 月 1 日 ~9 月 30 日 (92 日分 ) の東京の天候データ ( 気温と天気 ) を利用します Excel のピボットテーブルを使うと簡単にクロス集計表を作ることができます ピボットテーブルは 挿入 タブの中から選択することができます ピボット (pivot) は 旋回する軸 回転軸 を表す英単語です [3] ピボットテーブルとクロス集計表 ピボットテーブルの作成 のダイアログボックスが表示されたら データの範囲を指定して OK をクリックして下さい その後に現れる フィールドリスト から クロス集計表に利用したい変数にチェックを入れます 元のデータと同じシート内にピボットテーブルを作成する場合は ピボットテーブルの作成 のダイアログボックスにおいて 既存のワークシート を選択し ピボットテーブルを作成したい部分のセルを指定します 挿入 タブからピボットテーブルを選択 ピボットテーブルの作成 のダイアログボックス フィールドリスト の選択

ピボットテーブルにおける 行ラベル 列ラベル 値 の設定 ピボットテーブルの作成には 行ラベル 列ラベル と集計対象の値を設定します 画面右側のフィールドリストから クロス集計表において横側の行に入れたい項目を 行ラベル 縦側の列に入れたい項目を 列ラベル にドラッグ & ドロップして移動させます ここでは 時間を 行ラベル 天気を 列ラベル に移動させます ピボットテーブルの集計内容は初期設定で [ 合計値 ] になっているので 初期設定のままであれば 行と列が交差するセルには合計値が表示されます ドラッグ & ドロップでラベルを設定 値フィールドを変更する [3] ピボットテーブルとクロス集計表 クロス集計表として行と列が交差するセルの頻度を見たい場合は 合計 /... の部分をクリックし 値フィールドの設定 から [ データの個数 ] を選択します 一方で 行と列が交差するセルに関する平均値が見たい場合は [ 平均 ] を選択します クロス集計表を見る場合は データの個数 を選択

ピボットテーブルによる集計表の表示 ピボットテーブルでは データの個数に関するクロス集計表のみならず 平均値等の基本統計量に関する集計表を作成することができます 値フィールドの設定 において[ データの個数 ] を選択していると 行と列が交わるセルにはデータの件数を示すクロス集計表を表示できます 2017 年 7 月 1 日 ~9 月 30 日 (92 日分 ) のデータであるため クロス集計表の各に関する時点の合計件数は 92 となり 1 日 7 時点の合計のデータ件数は 644 件です 値フィールドの設定 において [ 平均 ] を選択していると 行と列が交わるセルにはデータの平均値を示す集計表を表示できます ピボットテーブルでは [ 平均 ] の他にも [ 最大値 ][ 最小値 ][ 標本分散 ][ 標本標準偏差 ] といった基本統計量を指定できます データの件数を示すクロス集計表 データの列ラベル 行ラベル雨 快晴 晴れ 曇 薄曇 雷 総計 03 時 15 5 22 43 7 92 06 時 15 3 18 46 10 92 09 時 10 2 20 55 5 92 12 時 11 2 29 43 7 92 15 時 11 3 31 33 13 1 92 18 時 14 3 21 44 9 1 92 21 時 12 7 14 45 13 1 92 総計 88 25 155 309 64 3 644 クロス集計表の右側の総計から 各時点に関するデータ件数は 92 件で 時点合計の標本数が 644 件となっていることが確認できます 平均気温に当たる平均値を表示 平均 / 気列ラベル 行ラベル雨 快晴 晴れ 曇 薄曇 雷 総計 03 時 21.6 22.9 24.4 23.7 25.3 23.6 06 時 21.5 22.4 24.1 23.7 24.7 23.5 09 時 21.7 29.5 27.4 25.9 27.6 26.0 12 時 23.6 31.2 30.0 27.1 30.8 28.0 15 時 23.8 28.6 29.5 27.3 30.2 25.1 28.0 18 時 23.2 26.0 27.0 26.5 28.2 24.6 26.2 21 時 22.2 24.9 24.8 25.4 25.8 22.7 24.9 総計 22.5 25.6 27.2 25.6 27.5 24.1 25.7 ピボットテーブルの平均値から 雨が降っている時間は 平均気温が下がっていること 夜間は日中よりも平均気温が低いことが確認できます ピボットテーブルを使うと データの件数や基本統計量を簡単に表に示すことができます [3] ピボットテーブルとクロス集計表