Excelによる統計分析検定_知識編_小塚明_1_4章.indd

Similar documents
Excelによる統計分析検定_知識編_小塚明_1_4章.indd

Excelによる統計分析検定_知識編_小塚明_5_9章.indd

青焼 1章[15-52].indd

講座内容 第 1 週 データサイエンスとは 第 2 週 分析の概念と事例ビジネス課題解決のためのデータ分析基礎 ( 事例と手法 )1 第 3 週 分析の具体的手法ビジネス課題解決のためのデータ分析基礎 ( 事例と手法 )2 第 4 週 ビジネスにおける予測と分析結果の報告ビジネス課題解決のためのデー

EBNと疫学

母平均 母分散 母標準偏差は, が連続的な場合も含めて, すべての個体の特性値 のすべての実現値 の平均 分散 標準偏差であると考えてよい 有限母集団で が離散的な場合, まさにその意味になるが, そうでない場合も, このように理解してよい 5 母数 母集団から定まる定数のこと 母平均, 母分散,

Microsoft PowerPoint - データ解析基礎2.ppt

ファイナンスのための数学基礎 第1回 オリエンテーション、ベクトル

(3) 検定統計量の有意確率にもとづく仮説の採否データから有意確率 (significant probability, p 値 ) を求め 有意水準と照合する 有意確率とは データの分析によって得られた統計値が偶然おこる確率のこと あらかじめ設定した有意確率より低い場合は 帰無仮説を棄却して対立仮説

Microsoft PowerPoint ppt

第 3 回講義の項目と概要 統計的手法入門 : 品質のばらつきを解析する 平均と標準偏差 (P30) a) データは平均を見ただけではわからない 平均が同じだからといって 同一視してはいけない b) データのばらつきを示す 標準偏差 にも注目しよう c) 平均

Microsoft PowerPoint - sc7.ppt [互換モード]

Microsoft PowerPoint - 代表値と散布度.ppt [互換モード]

Medical3

Chapter カスタムテーブルの概要 カスタムテーブル Custom Tables は 複数の変数に基づいた多重クロス集計テーブルや スケール変数を用いた集計テーブルなど より複雑な集計表を自由に設計することができるIBM SPSS Statisticsのオプション製品です テーブ

講義「○○○○」

ビジネス統計 統計基礎とエクセル分析 正誤表

【指導のポイント】

自動車感性評価学 1. 二項検定 内容 2 3. 質的データの解析方法 1 ( 名義尺度 ) 2.χ 2 検定 タイプ 1. 二項検定 官能検査における分類データの解析法 識別できるかを調べる 嗜好に差があるかを調べる 2 点比較法 2 点識別法 2 点嗜好法 3 点比較法 3 点識別法 3 点嗜好

PowerPoint プレゼンテーション

と 測定を繰り返した時のばらつき の和が 全体のばらつき () に対して どれくらいの割合となるかがわかり 測定システムを評価することができる MSA 第 4 版スタディガイド ジャパン プレクサス (010)p.104 では % GRR の値が10% 未満であれば 一般に受容れられる測定システムと

切片 ( 定数項 ) ダミー 以下の単回帰モデルを考えよう これは賃金と就業年数の関係を分析している : ( 賃金関数 ) ここで Y i = α + β X i + u i, i =1,, n, u i ~ i.i.d. N(0, σ 2 ) Y i : 賃金の対数値, X i : 就業年数. (

<4D F736F F D208D A778D5A8A778F4B8E7793B CC A7795D2816A2E646F6378>

情報工学概論

モジュール1のまとめ

Microsoft PowerPoint - statistics pptx

Microsoft PowerPoint - CVM.ppt [互換モード]

RSS Higher Certificate in Statistics, Specimen A Module 3: Basic Statistical Methods Solutions Question 1 (i) 帰無仮説 : 200C と 250C において鉄鋼の破壊応力の母平均には違いはな

Probit , Mixed logit

<4D F736F F D208EC08CB18C7689E68A E F193F18D8095AA957A C C839395AA957A814590B38B4B95AA957A2E646F63>

Microsoft PowerPoint - stat-2014-[9] pptx

Microsoft PowerPoint - statistics pptx

経営統計学

JMP による 2 群間の比較 SAS Institute Japan 株式会社 JMP ジャパン事業部 2008 年 3 月 JMP で t 検定や Wilcoxon 検定はどのメニューで実行できるのか または検定を行う際の前提条件の評価 ( 正規性 等分散性 ) はどのメニューで実行できるのかと

日心TWS

Microsoft PowerPoint - 基礎・経済統計6.ppt

ダンゴムシの 交替性転向反応に 関する研究 3A15 今野直輝

<4D F736F F F696E74202D B835E82CC8EED97DE B835E82CC834F BB F0955C82B793C190AB926C>

スライド 1

<4D F736F F D208EC08CB18C7689E68A E F1939D8C E82E646F63>

_KyoukaNaiyou_No.4

Medical3

Microsoft Word - Stattext07.doc

Microsoft PowerPoint - 測量学.ppt [互換モード]

Microsoft Word - apstattext04.docx

<4D F736F F D208EC08CB18C7689E68A E F AA957A82C682948C9F92E82E646F63>

Microsoft Word - lec_student-chp3_1-representative

Python-statistics5 Python で統計学を学ぶ (5) この内容は山田 杉澤 村井 (2008) R によるやさしい統計学 (

データの種類とデータの分布

FdData中間期末数学3年

統計的データ解析

目次 1 章 SPSS の基礎 基本 はじめに 基本操作方法 章データの編集 はじめに 値ラベルの利用 計算結果に基づく新変数の作成 値のグループ化 値の昇順

2015実験ゼロ結果と考察 UP用.pdf

3章 度数分布とヒストグラム

解答のポイント 第 1 章問 1 ポイント仮に1 年生全員の数が 100 人であったとする.100 人全員に数学の試験を課して, それらの 100 人の個人個人の点数が母集団となる. 問 2 ポイント仮に10 人を抽出するとする. 学生に1から 100 までの番号を割り当てたとする. 箱の中に番号札

<4D F736F F D204B208C5182CC94E497A682CC8DB782CC8C9F92E BD8F6494E48A722E646F6378>

<4D F736F F D208EC08CB18C7689E68A E F193F18D8095AA957A C C839395AA957A814590B38B4B95AA957A2E646F63>

3章 度数分布とヒストグラム

異文化言語教育評価論 ⅠA 第 4 章分散分析 (3 グループ以上の平均を比較する ) 平成 26 年 5 月 14 日 報告者 :D.M. K.S. 4-1 分散分析とは 検定の多重性 t 検定 2 群の平均値を比較する場合の手法分散分析 3 群以上の平均を比較する場合の手法 t 検定

Microsoft PowerPoint - e-stat(OLS).pptx

統計学の基礎から学ぶ実験計画法ー1

Microsoft PowerPoint slide2forWeb.ppt [互換モード]

1. 多変量解析の基本的な概念 1. 多変量解析の基本的な概念 1.1 多変量解析の目的 人間のデータは多変量データが多いので多変量解析が有用 特性概括評価特性概括評価 症 例 主 治 医 の 主 観 症 例 主 治 医 の 主 観 単変量解析 客観的規準のある要約多変量解析 要約値 客観的規準のな

不偏推定量

多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典

心理学統計法科目コード FB3537 単位数履修方法配当年次担当教員 2 R or SR( 講義 ) 2 年以上河地庸介 2017 年度以前 2018 年度以降に入学した方どちらも履修登録できます 2017 年度以前入学者で 心理学研究法 Ⅱ を履修登録しておらず認定心理士の取得を目指す方 および

Microsoft PowerPoint - 統計科学研究所_R_重回帰分析_変数選択_2.ppt

数値計算法

異文化言語教育評価論 ⅠA 教育 心理系研究のためのデータ分析入門 第 3 章 t 検定 (2 変数間の平均の差を分析 ) 平成 26 年 5 月 7 日 報告者 :M.S. I.N. 3-1 統計的検定 統計的検定 : 設定した仮説にもとづいて集めた標本を確率論の観点から分析し 仮説検証を行うこと

Microsoft Word - appendix_b

分析のステップ Step 1: Y( 目的変数 ) に対する値の順序を確認 Step 2: モデルのあてはめ を実行 適切なモデルの指定 Step 3: オプションを指定し オッズ比とその信頼区間を表示 以下 このステップに沿って JMP の操作をご説明します Step 1: Y( 目的変数 ) の

DataAnalysisI02.pptx

コンピュータ応用・演習 情報処理システム

ANOVA

<4D F736F F D2090B695A8939D8C768A E F AA957A82C682948C9F92E8>

<4D F736F F F696E74202D208CA48B868FD089EE288FDA82B582A294C5292E B8CDD8AB B83685D>

スライド 1

Microsoft Word - meti-report

Microsoft Word - 中学校数学(福島).doc

様々なミクロ計量モデル†

講義ノート p.2 データの視覚化ヒストグラムの作成直感的な把握のために重要入力間違いがないか確認するデータの分布を把握する fig. ヒストグラムの作成 fig. ヒストグラムの出力例 度数分布表の作成 データの度数を把握する 入力間違いが無いかの確認にも便利 fig. 度数分布表の作成

Microsoft Word - 【6.5.4】特許スコア情報の活用

PowerPoint プレゼンテーション

習う ということで 教育を受ける側の 意味合いになると思います また 教育者とした場合 その構造は 義 ( 案 ) では この考え方に基づき 教える ことと学ぶことはダイナミックな相互作用 と捉えています 教育する 者 となると思います 看護学教育の定義を これに当てはめると 教授学習過程する者 と

回答者のうち 68% がこの一年間にクラウドソーシングを利用したと回答しており クラウドソーシングがかなり普及していることがわかる ( 表 2) また 利用したと回答した人(34 人 ) のうち 59%(20 人 ) が前年に比べて発注件数を増やすとともに 利用したことのない人 (11 人 ) のう

学習指導要領

<4D F736F F D208FAC8A778D5A8A778F4B8E7793B CC81698E5A909495D2816A2E646F6378>

Microsoft PowerPoint - statistics pptx

DVIOUT

1

第7章

第4回

次の病院 薬局欄は 氏名 欄に入力された値によって入力すべき値が変わります 太郎の行く病院と花子の行く病院が必ずしも同じではないからです このような違いを 設定 シートで定義しておきましょう 太郎の行く病院のリストを 太郎 花子の行く病院のリストを 花子 として 2 つのリストが定義されています こ

学習指導要領

<4D F736F F D AAE90AC94C5817A E7793B188C481698D5D E7397A791E58A A778D5A814094F68FE3816A2E646F63>

基礎統計

Microsoft Word - 11 進化ゲーム

Microsoft Word - データベース.doc

H22-syokuiku.xls

stat-base_ppt [互換モード]

Transcription:

第1章 母集団と統計データ 本章では, ビジネスのさまざまな場面において統計データを扱ううえで, もっとも基本的事項となる母集団の概念と統計データの種類についてまとめています 母集団の統計的性質を調べるためにとても重要な概念であるサンプリングについて述べるとともに, ランダムサンプリングの重要性についても説明します 統計分析の考え方 ビジネスの多くの場面において, 統計分析は重要です この場合の統計分析とは, 意思決定を行うためのさまざまな統計データをそろえること であるほか, 統計データから重要な知見を得るために, さまざまなデータを組み合わせたり, 図や表で可視化すること という意昧でも使われます 統計分析の重要性は 具体的な数字やデータを用いて, 議論の対象や問題点を客観的に把握すること をもって語られることが多いものです これは確かに正しいですが, 統計分析では, さらに その数字やデータには, なんらかの偶発的な変動やばらつきが含まれていること を前提としている点に注意が必要です 観測された数字やデータは, 観測値としては真であるかもしれませんが, たまたま観測された値であったり, そもそも観測ミスによる誤差が入り込んでいたりするかもしれません 統計分析とは, このような数字やデータの変動を前提とした分析を行うための体系であると言ってもいいでしょう まとめると, 統計分析では次のような考え方に基づいて, 観測された数字やデータを正しく読み解き, 偶発的な変動に惑わされずに, データの持つ規則性や傾向を客観的に把握しようとする方法論であると言うことができます 母集団と統計データ49 1. 具体的な数字やデータを用いて, 議論の対象や問題点を客観的に把握する 2. ただし, それらの数字やデータには偶発的な変動やばらつきが含まれていると考える 観測される数字やデータが変動的なものであるということは, わたしたちの現実世界のあらゆる事象を考えると, きわめて自然な前提です たとえば, 高校生の 1 日の勉強時間 を調べるために, 高校生 1,000 人にアンケートを実施してデータを採取したとします まず,

識編11130 分以下という生徒もいるかもしれません また, 別の 1,000 人を選んできて同じアンケートを実施したら, やはり回答は, 先の 1,000 人とは異なるでしょう このように統計分析では, 得られるデータが変動的なものであることを前提としつつ, そのなかに存在する規則性や傾向を抽出することが最大の関心事ということになります 母集団とサンプリング 1-2-1 母集団と標本統計分析を行う場面では, 必ず分析の目的が存在するでしょう データを用いた統計分析を行うまえに, まず知りたい対象は何であるのかを明確に定義する必要があります ある製品に対する 日本の有権者全体の満足度 か, あるいは 日本の大学生の満足度 か何を知りたいのかによって, 調査の対象や方法もまったく変わってきます このような分析対象の集合全体を母集団といいます たとえば, 日本の有権者全体の意識調査を行うことが目的であれば, この分析が対象としている母集団は 日本の有権者全体 になります 一方, 日本の有権者全体 の意識を知りたいのであれば, 全有権者のデータを採取すればすむことですが, 実際にはコスト面の制約から困難であることが多いものです 統計分析では, 母集団の統計的性質や傾向を把握するために, 母集団から選んだ有限のデータを観測し, その結果に基づいて母集団について推測を行います このようにして, 母集団からなんらかの方法で選んで抽出したデータのことを標本またはサンプルと呼びます 標本は, 標本データ, あるいは単にデータと呼ばれることもあります また, 統計分析のために抽出した標本の数を標本数またはサンプルサイズといいます 一方, 標本データを集計 加工して得られる数値を統計量, あるいは統計データといいます たとえば, 個々の顧客の 1 月の購買商品点数のデータを調査する際, ひとりひとりの購買点数は標本であり, そこから計算した平均購買点数は統計量です 1-2-2 サンプリング母集団から標本を得る操作を標本抽出といいます 標本は母集団について調べるために採取されるものであるため, 母集団の統計的性質ができるかぎり失われないように抽出されるべきです そのためには, 母集団の全体からランダムに標本が抽出される必要があります このような標本抽出をランダムサンプリング, または無作為抽出といい, それにより得られた標本をランダムサンプル, または無作為標本といいます 統計分析では, ランダムサンプリングによって無作為標本を得ることが基本的な考え方で 第1 章これら 1,000 人の回答自体がばらついています 1 日 10 時間勉強する生徒もいれば,1 日 母集団と11111150 知

第1章すが, 実際には完全なランダムサンプリングが困難であることもよくあります たとえば, 日本の有権者全体を母集団としたとき, 母集団全体から完全にランダムにデータを抽出することは困難です 電話帳から任意の番号を選び, 電話によるアンケートを実施したとしても, これが完全にランダムサンプリングであるという保証はありません 電話をかけた時間帯に自宅にいる有権者のみの意見が抽出されるからです 一方,e メールによる回答を集めた場合にも,e メールを使う有権者の意見が抽出されるので, これが有権者全体であるという保証はありません 統計分析では, 対象としている母集団からランダムサンプリングを行うこかたよとが基本であり, 調査対象が偏っていないかどうかについて, 常に確認を行うべきでしょう また, 社会調査などで行われる, 人間を対象とした標本調査では, 母集団を構成する全員から完全にランダムに標本を抽出することが困難な場合も多くあります 母集団の構成員全体のリストがあれば, そのなかからランダムに抽出することも可能ですが, そのようなリストは存在しないことがほとんどです そのため, 社会調査では次のような方法がとられることがよくあります 集落抽出法 : まず調査を行う地域をランダムに選び, 次にそれらの地域に含まれる調査対象をすべて調べる方法 二段階抽出法 : まず調査を行う地域をランダムに選び, 次にその地域に含まれる調査対象からランダムに標本を抽出する方法 若者の意識調査, あるいは顧客への商品に関するアンケート調査といった設問形式の調査では, 回答にバイアスがかかるような設問になってはいけません 次のような設問は, 悪い設問の例です (1) わかりやすい設問文になっていない (2) 1 つの設問で 2 つ以上の内容をたずねている (3) 誘導尋問になっている (1) については, たとえば 観光開発とともに, 環境破壊が進んだと思いますか? という設問に, はい いいえ の二択で答えるものです 環境破壊は進んだと思う 観光開発が原因かはわからない という意見のときに, はい と いいえ のどちらを選んでよ いのか迷う人がいるはずです また, 難しい専門用語を使っていたり, 設問文が二重否定になっていたりと, わかりにくい場合も含まれます 母集団と統計データ51 (2) は この製品は, 高品質でかっこいいと思いますか? といった設問です 1 つの設問で複数の内容を含めて聞くと, 被験者がこの設問をどのように解釈するかによって回答がぶれてしまいます (3) については, ある仮説を裏付けるためのアンケート調査を行う場合に, 回答にバイアスがかかりやすい設問になっている例がときどき見かけられます この規則は, 各部署か

1111111111111識編った設問では, 何も意見を持っていない被験者は はい と答えるでしょう アンケート調査の場合には, しばしば択一式の回答欄の複数項目にチェックが入っていたり, 読み取りにくい記述であったり, あるいは回答がなされていなかったりと, 調査に対する回答としては不適切なものが存在することがほとんどです このような回答は無効回答と呼ばれ, 分析対象のデータからはずす必要があります 無効回答以外の, 分析の対象となり得る回答は, 有効回答と呼ばれます アンケート調査の分析では, アンケート調査を依頼した人数に加え, 有効回答数を示したうえで, その調査結果を示すのが一般的です 1-2-3 記述統計と推測統計 一般に, 得られた有限の標本を加工し, グラフや表によって可視化することで, データの統計的性質を明確にしようとする統計的手法を記述統計といいます 記述統計では, 第 2 章で説明するヒストグラムなど, データをあらゆる角度からモニタリングするための手法を適用することになります 一方, 得られた有限の標本から, ある精度のもとで母集団の性質を明らかにしようとする統計的手法を推測統計といいます 得られた標本から母集団について統計的な推測を行うために, データがある種の確率分布 1 に従っているといった仮定をおく必要があります 一般に, 母集団が確率分布に従っているとき, 有限個の観測データから, この母集団の真の確率分布についてなんらかの推測を行うことが, 推測統計の目的となります そのためには, 観測した標本データが, きちんと母集団を代表しているようにサンプリングすることがとても重要です もし, 調査コストなどの問題から e メールによる意識調査を実施するような場合には, 調査法によるバイアスが存在し得ることを考慮にいれたうえで, 結果を解釈する必要があります 1 確率分布の詳細については, 第 4 章を参照 第1 章らさまざまな問題があると指摘されています この規則は改訂すべきと思いますか? とい 152 知

第1章図 1.1: 母集団とサンプリング 統計データの種類 統計解析では, 解析の対象により多種多様なデータが扱われます 統計解析を学ぶにあたり, まずこれらデータの分類を把握することが重要です データはいくつかの種類に分類され, 分類ごとに適用できる統計手法が異なります 本節では, データの分類方法について説明します 1-3-1 質的データと量的データ 母集団と統計データ53 データは大きく分けると, 質的データと量的データの 2 つに分類できます 質的データとは, 性別や職業, 血液型, 所属会社, 支持政党, 国籍など, 質的な分類を表すデータのことです 一方, 量的データとは, 身長や体重, 金額, 距離, 速度, 個数など, 値が数値として表され, 定量的に大きさが測れるデータを指します 量的データはさらに, 連続的な値をとる連続データと離散的な値をとる離散データに分類できます 連続データは計量値データとも呼ばれます また, 個数や回数のように, 自然数で数えられるデータを計数値データといいます 質的データと量的データを分類するのは, これらの違いによって, データの加工や取り扱いの方法が異なるためです 1-3-2 尺度水準実際の分析においては, 質的データと量的データだけでなく, さらに細かい分類について意識しなければなりません そのため, データの尺度という概念が重要となります 質的データの尺度は, 名義尺度と順序尺度に分けられます 名義尺度は, 性別や職業など,

識編, 男性を 1, 女性を 0 第と数値で置き換えることがありますが ( このような変数をダミー変数といいます ), その値 1 章所属するカテゴリの名前を表しているデータです 統計計算のためにの大小は本質的な意昧を持ちません それに対し, 順序尺度は, 優 良 可 といった成績やアンケートの 5 段階評価など, 数値の大小が順序的な意昧のみを持ち, 数値間の差や比には意昧を持たないデータを表します また, 量的データの尺度は, 間隔尺度と比率尺度に分けられます 間隔尺度は, 気温や偏差値などのように, 数値の差が意昧を持つデータの尺度を表します 一方, 比率尺度は, 身長や体重のように, 数値の差だけでなく, 比率も意昧を持つデータの尺度を指します たとえば, 気温の場合,10 と 15 の差と 20 と 25 の差はともに 5 で, この差の 5 の持つ意昧合いはどちらの場合も同じです しかし,0 は 温度がないこと を表しているわけではなく, 単に水が凍る温度を 0 と定義したための基準値です したがって,20 は 10 の 2 倍の温度であるかというと, 物理的にはそのような説明は正しくありません それに対し, たとえば, 体重 50kgと 100kgでは比率が 2 ですが, これは 体重が 2 倍 ということを表しており, 比率が意昧を持っていることがわかります 間隔尺度と比率尺度の違いは一見わかりにくいものですが,0 が 何もないこと を意昧する場合は比率尺度, そうでない場合は間隔尺度だと言えます 間隔尺度のデータに対し, 比率を計算して考察を行うのは無意味でしょう 章末問題 1. 母集団について, 次のなかから正しい説明を選んでください (1) 母集団とは, 統計として採取したデータの集合である (2) 母集団とは, 世論調査をする際に使われる言葉であり, 成人全体を指す (3) 母集団とは, 複数の部分的な集合の和集合である (4) 母集団とは, 調査の対象となる集合全体である 2. 標本抽出の方法について, 次のなかから正しい説明を選んでください (1) 標本抽出では, 母集団の分布に従って独立に標本が抽出されるべきである (2) 標本抽出では, 調査や標本採取のためのコストを優先すべきである (3) 標本抽出では, ほかの調査ですでに得られているデータを常に活用すべきである (4) 標本抽出では, 観測する標本を見ながら, 次の標本の観測法を調節すべきである 3. 職業別の平均残業時間を調べるため, 職業の候補を複数並べ, 選択回答式で該当する職業 1 つに をつけた後に日々の残業時間を記入する というアンケートを無作為に選んだ企業人 1,000 人に対して実施したところ,10 人が複数の職業に をつけました 章末問題54 知