Microsoft Word - apstattext04.docx

Similar documents
Microsoft Word - Stattext12.doc

JMP による 2 群間の比較 SAS Institute Japan 株式会社 JMP ジャパン事業部 2008 年 3 月 JMP で t 検定や Wilcoxon 検定はどのメニューで実行できるのか または検定を行う際の前提条件の評価 ( 正規性 等分散性 ) はどのメニューで実行できるのかと

経営統計学

Microsoft Word - mstattext02.docx

Excelによる統計分析検定_知識編_小塚明_5_9章.indd

基礎統計

Medical3

ビジネス統計 統計基礎とエクセル分析 正誤表

<4D F736F F D208EC08CB18C7689E68A E F AA957A82C682948C9F92E82E646F63>

統計的データ解析

EBNと疫学

<4D F736F F D208EC08CB18C7689E68A E F193F18D8095AA957A C C839395AA957A814590B38B4B95AA957A2E646F63>

Microsoft PowerPoint - statistics pptx

不偏推定量

Python-statistics5 Python で統計学を学ぶ (5) この内容は山田 杉澤 村井 (2008) R によるやさしい統計学 (

第4回

スライド 1

自動車感性評価学 1. 二項検定 内容 2 3. 質的データの解析方法 1 ( 名義尺度 ) 2.χ 2 検定 タイプ 1. 二項検定 官能検査における分類データの解析法 識別できるかを調べる 嗜好に差があるかを調べる 2 点比較法 2 点識別法 2 点嗜好法 3 点比較法 3 点識別法 3 点嗜好

PowerPoint プレゼンテーション

Microsoft PowerPoint ppt

Microsoft PowerPoint - 基礎・経済統計6.ppt

Medical3

スライド 1

Microsoft PowerPoint - 14都市工学数理ノンパラ.pptx

初めてのプログラミング

Microsoft PowerPoint - e-stat(OLS).pptx

講義ノート p.2 データの視覚化ヒストグラムの作成直感的な把握のために重要入力間違いがないか確認するデータの分布を把握する fig. ヒストグラムの作成 fig. ヒストグラムの出力例 度数分布表の作成 データの度数を把握する 入力間違いが無いかの確認にも便利 fig. 度数分布表の作成

Kumamoto University Center for Multimedia and Information Technologies Lab. 熊本大学アプリケーション実験 ~ 実環境における無線 LAN 受信電波強度を用いた位置推定手法の検討 ~ InKIAI 宮崎県美郷

多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典

目次 1 章 SPSS の基礎 基本 はじめに 基本操作方法 章データの編集 はじめに 値ラベルの利用 計算結果に基づく新変数の作成 値のグループ化 値の昇順

Microsoft PowerPoint - A1.ppt [互換モード]

データ解析

経済統計分析1 イントロダクション

モジュール1のまとめ

講義「○○○○」

Microsoft Word - 操作マニュアル-Excel-2.doc

Microsoft Word - 保健医療統計学112817完成版.docx

Microsoft PowerPoint - データ解析基礎2.ppt

データの作成方法のイメージ ( キーワードで結合の場合 ) 地図太郎 キーワードの値は文字列です キーワードの値は重複しないようにします 同じ値にする Excel データ (CSV) 注意キーワードの値は文字列です キーワードの値は重複しないようにします 1 ツールバーの 編集レイヤの選択 から 編

青焼 1章[15-52].indd

Microsoft Word - lec_student-chp3_1-representative

平均値 () 次のデータは, ある高校生 7 人が ヵ月にカレーライスを食べた回数 x を調べたものである 0,8,4,6,9,5,7 ( 回 ) このデータの平均値 x を求めよ () 右の表から, テレビをみた時間 x の平均値を求めよ 階級 ( 分 ) 階級値度数 x( 分 ) f( 人 )

Microsoft Word - å“Ÿåłžå¸°173.docx

ANOVA

(3) 検定統計量の有意確率にもとづく仮説の採否データから有意確率 (significant probability, p 値 ) を求め 有意水準と照合する 有意確率とは データの分析によって得られた統計値が偶然おこる確率のこと あらかじめ設定した有意確率より低い場合は 帰無仮説を棄却して対立仮説

第 3 回講義の項目と概要 統計的手法入門 : 品質のばらつきを解析する 平均と標準偏差 (P30) a) データは平均を見ただけではわからない 平均が同じだからといって 同一視してはいけない b) データのばらつきを示す 標準偏差 にも注目しよう c) 平均

CAEシミュレーションツールを用いた統計の基礎教育 | (株)日科技研

Excelによる統計分析検定_知識編_小塚明_1_4章.indd

講座内容 第 1 週 データサイエンスとは 第 2 週 分析の概念と事例ビジネス課題解決のためのデータ分析基礎 ( 事例と手法 )1 第 3 週 分析の具体的手法ビジネス課題解決のためのデータ分析基礎 ( 事例と手法 )2 第 4 週 ビジネスにおける予測と分析結果の報告ビジネス課題解決のためのデー

Microsoft PowerPoint - ch04j

PowerPoint プレゼンテーション

森林水文 水資源学 2 2. 水文統計 豪雨があった時, 新聞やテレビのニュースで 50 年に一度の大雨だった などと報告されることがある. 今争点となっている川辺川ダムは,80 年に 1 回の洪水を想定して治水計画が立てられている. 畑地かんがいでは,10 年に 1 回の渇水を対象として計画が立て

3章 度数分布とヒストグラム

コンピュータリテラシ 第 6 回表計算 2 このスライド 例題 /reidai6.xlsx /reidai6a.xlsx 課題 12 /reidai6b.xlsx /table12_13.xlsx

Microsoft PowerPoint - statistics pptx

JUSE-StatWorks/V5 活用ガイドブック

統計学 - 社会統計の基礎 - 正規分布 標準正規分布累積分布関数の逆関数 t 分布正規分布に従うサンプルの平均の信頼区間 担当 : 岸 康人 資料ページ :

分析のステップ Step 1: Y( 目的変数 ) に対する値の順序を確認 Step 2: モデルのあてはめ を実行 適切なモデルの指定 Step 3: オプションを指定し オッズ比とその信頼区間を表示 以下 このステップに沿って JMP の操作をご説明します Step 1: Y( 目的変数 ) の

データ科学2.pptx

Microsoft PowerPoint - 測量学.ppt [互換モード]

PowerPoint プレゼンテーション

際 正規分布に従わない観測値に対して通常の t 検定を適用した場合 どのような不都合が生じるかを考える 一般に通常の t 検定や Wilcoxon 検定などの仮説検定を行う場合 2つの処理の間に差がないことが真実であるにもかかわらず差があると主張する過誤確率 ( 第 1 種の過誤確率 ) 2つの処理

Microsoft PowerPoint - stat-2014-[9] pptx

. 測定方法 7 尺度化 ( 数値化 ) 8 絶対判断 評点法採点法カテゴリー尺度法 図示法 / 線分法 心理物理学的測定法 相対判断 分類法 格付け分類法 順位法 一対比較法 リッカート法 カテゴリー尺度法 / 評定尺度法 あなたは ですか? 9 SD(Semantic Differential)

3章 度数分布とヒストグラム

九州大学学術情報リポジトリ Kyushu University Institutional Repository 使える! 統計検定 機械学習 : I : 2 群間の有意差検定 高木, 英行九州大学大学院芸術工学研究院 出版情報

<4D F736F F D204B208C5182CC94E497A682CC8DB782CC8C9F92E BD8F6494E48A722E646F6378>

DVIOUT

Transcription:

4 章母集団と指定値との量的データの検定 4.1 検定手順今までは質的データの検定の方法を学んで来ましたが これからは量的データについてよく利用される方法を説明します 量的データでは データの分布が正規分布か否かで検定の方法が著しく異なります この章ではまずデータの分布の正規性を調べる方法を述べ 次にデータの平均値または中央値がある指定された値と違うかどうかの検定方法を説明します 以下の図 4.1.1 を見て下さい 図 4.1.1 母集団の統計量と指定値との量的データの比較検定 これは前に示した量的データの検定選択ツリーですが この章では赤い四角で囲まれた部分について利用法を学習します 最終的な検定方法の名前は母平均のt 検定及び Wilcoxon の符号付順位和検定といい どちらを利用するかは正規性の有無によって決められます 4.2 正規性の検定最初は正規性を調べる方法についてです これまではヒストグラムがきれいな富士山型をしている場合は正規分布と言ってきましたが 正規分布はデータ数が多くなければきれいな形になりません データが少ない場合はどうするのでしょうか また 1

きれいな形といっても個人が感じることですから 個人差があります この差をなくすにはどうするのでしょうか 正規性を調べる方法には大きく分けて視覚的な方法と数値的な方法の 2 種類があります 視覚的な方法では データ数が多い場合にはヒストグラムを用いる方法と正規確率紙による方法があります 正規確率紙は古くから売られていたグラフ用紙で ある手順に沿ってデータをプロットして行くと 正規分布と思われる場合はその点が直線に近く並ぶというものです 直線に並ぶ場合は曲線と違ってかなりはっきりと直線からのずれを認識することができます この方法はデータ数が多くても使えますし かなり優れた方法です しかし やはり人間の個人的な感性の違いから人によって異なった結果になる可能性が残っています これをできるだけなくすために 数値的な方法も考えられています よく利用されるのは Kolmogorov-Smirnov 検定 ( 略して K-S 検定 ) と Shapiro-Wilk 検定 ( 略して S-W 検定 ) ですが 一般に S-W 検定の方が正規分布との違いを見つけ出し易くよく利用されているようです しかし K-S 検定はデータ数が数千を超える場合は良い結果を与えるとされています 私のソフトにはきちんとした S-W 検定がなく Shapiro-Francia 検定を元にした近似計算になっています 実用上問題はないと思いますが 利用する場合はその点だけ念頭に置いて下さい それでは具体的に視覚的方法と数値的方法の 2 つの視点から 正規性を調べてみましょう 例以下のデータの正規性を調べよ 2.5, 2.1, 3.4, 2.8, 4.6, 3.2, 3.8, 4.8, 4.0 まずファイル Samples テキスト1.txt を開きます メニュー [ 分析 - 基本統計 - 量的データの集計 ] を選択し 変数選択でデータ1を選んだ画面が以下の図です 2

図 4.2.1 正規性の検定メニューこれは一度利用した分析メニューですが ヒストグラムの他に正規確率紙や S-W 検定などの処理も含まれています このデータは数が少なくヒストグラムで正規性を示すことができませんので 読込 ボタンを押した後 正規確率紙 ボタンをクリックします 結果は以下のように示されます 図 4.2.2 正規確率紙表示画面これを見るとプロットがほぼ直線状に並んでいますので データは正規分布してい 3

るものと考えられます また S-W 検定 ボタンをクリックすると以下の結果が表示されます 図 4.2.3 Shapiro-Wilk 検定 ( 近似 ) 表示画面これは帰無仮説としてデータに正規性がある 対立仮説としてデータに正規性がないとする検定で この結果によると帰無仮説が採択されます 正規性の検定では 正規分布でないということは言えますが 正規分布であることは 正規分布でないといえない という弱い言い方しかできません それはデータ数が増えると差を見出し易くなって 正規分布でない という結論になってしまうかも知れないからです ただ実際の検定の場面では これを正規分布と考えて処理を行うこともあるようで 我々のソフトではこういったニュアンスを込めて 正規性ありとみなす という表現にしています 問題 1 以下のデータの正規性を調べよ 20.9, 61.1, 57.2, 51.0, 46.6, 41.2, 21.0, 56.3, 49.5, 49.3, 22.4, 23.5 問題 2 Samples テキスト 9.txt のデータについて以下の問いに答えよ 但し ヒストグラムについては 密度関数から得た理想的な正規分布の形を加えること 1) 年収のデータの正規性をヒストグラム 正規確率紙 S-W 検定で調べよ 4

S-W 検定確率 [ ] 判定正規分布と [ みなす いえない 判定困難 ] 5

2) 支出のデータの正規性をヒストグラム 正規確率紙 S-W 検定で調べよ S-W 検定確率 [ ] 判定正規分布と [ みなす いえない 判定困難 ] 3) 地域別に年収のデータの正規性を調べよ 地域 1 確率 [ ] 判定正規分布と [ みなす いえない 判定困難 ] 地域 2 確率 [ ] 判定正規分布と [ みなす いえない 判定困難 ] 4.3 母集団の平均値と指定値との比較 ( 正規性あり ) 正規性を調べる方法が分かりましたので 次はデータに正規性があった場合の具体的な検定の方法についてです 以下の例を見て下さい 例ある地域のある規模の会社 9 社について1 人当り売上高のデータを集めたら 正規分布し 平均 2410( 万円 ) 不偏分散から求めた標準偏差 150( 万円 ) であった この地域の会社の1 人当り売上高は日本の同じ規模の会社の1 人当り平均売上高 2260( 万円 ) に比べて差があるといえるか? 有意水準 5% で判定せよ この問題は量的データの検定問題ですから メニューから [ 分析 - 基本統計 - 量的 6

データの検定 - 量的データ検定メニュー ] を選択します 図量的データの検定メニュー この例題では標本を取り出した母集団の母平均 ( 中央値 ) と指定値 2260( 万円 ) との比較ですから 指定値との比較のラインをたどることになります 正規性の検定では 問題の仮定より正規分布することが分かっているので 検定名は母平均のt 検定となります これをクリックすると以下のようなメニューが現れます 図母平均の t 検定画面 この問題は集計結果が分かっているので ラジオボックスは 集計から を選択し 7

集計されたデータを以下の図のように入力します 図母平均のt 検定集計入力画面ここで 検定 ボタンを押すと以下のような出力結果を得ます 図母平均のt 検定結果表示画面この結果から検定確率 p 0.0171 0. 05 となり 平均値と指定値間に差があるといえるということになります 最後にこの計算の基になっている理論式を示しておきましょう 理論母平均の t 検定指定値と比べて平均に差がないとして t n( x ) ~ t u n 1 分布 4.4 母集団の中央値と指定値との比較 ( 正規性なし ) 例 8

ある地域のある規模の会社の1 人当り売上高 ( 万円 ) は以下の通りである これらの会社は同じ規模の会社の中央値 2260( 万円 ) に比べて売上高に差があるといえるか 有意水準 5% で判定せよ 2060, 2350, 1550, 1720, 1800, 1990, 1510, 1720, 2910, 1820, 2600 この問題は正規性を仮定しない問題です ファイル Samples テキスト 4.txt を開き 前に述べた量的データの検定メニューから 以下の道筋を通ります 図量的データの検定メニューこれに従って Wilcoxon の符号付順位和検定 ボタンをクリックすると以下のような検定画面が表示されます 9

図 Wilcoxon の符号付順位和検定画面 ここで 変数選択で 売上高 を選択し ラジオボタンは変数が1つなので 群別データから 指定値に 2260 を入れて 検定 ボタンをクリックします 結果は以下のように差は見出されませんでした 図 Wilcoxon の符号付き順位和検定結果画面 さて Wilcoxon の符号付き順位和検定とはどんなことを使って検定をしているのでしょうか 今 8 個ずつ 3 種類のデータを用意し データの値 - 指定値を横軸にして 3 本のライン上に各データをプロットしてみます 図を見て下さい 0 7 5 3 1 2 4 6 8 2 1 3 4 5 6 7 8 8 7 1 2 3 4 5 6 図検定概念図この3 種類のデータのうち 平均から最もずれているのはどれでしょうか 一番上 10

のデータは平均から左右均等に散らばっていますので これは違います しかし真ん中のデータは極端に右に偏っていますので これだと分かります 視覚的にはすぐに分かりますが 数値的には何を使ってずれを判定するのでしょうか 一番下のデータはあまりずれていないように感じますが 平均から右にずれている個数は 2 番目と同じなので 左右の個数ではありません このデータに対して左右に関係なく 0 に近いところから順番に番号を付けてやることにします それが上の図に付いた番号です この番号を 0 以上と 0 未満のところで合計します 上は 20 と 16 真ん中は 33 と 3 下は 21 と 15 です 真ん中のデータは合計が極端に違います この番号 (0 に近い順位 ) の和によってデータの偏りをみる検定が Wilcoxon の符号付き順位和検定です 実際に利用する式は以下です 理論左右の順位和を求め その小さい方を R とする 標本数が多いとき R n( n 1) 4 1/ 2 z ~ N (0,1) 分布 ( 正の部分 )(Yates の連続補正 ) n( n 1)(2n 1) / 24 標本が少ないとき数表を利用 問題 3 以下のデータの平均値 ( 中央値 ) は 5.5 と比べて差があるといえるか 検定を選んで有意水準 5% で判定せよ 8.4, 4.6, 5.2, 6.3, 7.2, 5.8, 6.0, 5.4, 4.9, 6.9 正規性の判定ヒストグラムにはデータ不足 正規確率紙を描く S-W 検定確率 [ ] 判定正規分布と [ みなす いえない ] 検定名 [ ] 確率 [ ] 判定 5.5 と比べて差があると [ いえる いえない ] 4 章問題 4 Samples テキスト 9.txt のデータを用いて以下の問いに答えよ 11

1) 年収の平均値 ( 中央値 ) は 610 万円より多いといえるか 分析を選んで有意水準 5% で判定せよ 正規性の判定ヒストグラムを描く 正規確率紙を描く S-W 検定確率 [ ] 判定正規分布と [ みなす いえない ] 検定名 [ ] 確率 [ ] 判定 610 万円より多いと [ いえる いえない ] 2) 支出の平均値 ( 中央値 ) は 44 万円より多いといえるか 分析を選んで有意水準 5% で判定せよ 正規性の判定ヒストグラムを描く 正規確率紙を描く S-W 検定確率 [ ] 判定正規分布と [ みなす いえない ] 検定名 [ ] 確率 [ ] 判定 44 万円より多いと [ いえる いえない ] 12