Microsoft Word - Stattext11.doc

Similar documents
Microsoft Word - Stattext12.doc

Microsoft Word - apstattext04.docx

Microsoft Word - Stattext13.doc

Microsoft Word - apstattext05.docx

経営統計学

基礎統計

Excelによる統計分析検定_知識編_小塚明_5_9章.indd

<4D F736F F D208EC08CB18C7689E68A E F AA957A82C682948C9F92E82E646F63>

Python-statistics5 Python で統計学を学ぶ (5) この内容は山田 杉澤 村井 (2008) R によるやさしい統計学 (

EBNと疫学

RSS Higher Certificate in Statistics, Specimen A Module 3: Basic Statistical Methods Solutions Question 1 (i) 帰無仮説 : 200C と 250C において鉄鋼の破壊応力の母平均には違いはな

情報工学概論

Microsoft PowerPoint - statistics pptx

Microsoft PowerPoint - e-stat(OLS).pptx

ビジネス統計 統計基礎とエクセル分析 正誤表

講義「○○○○」

Microsoft PowerPoint - A1.ppt [互換モード]

<4D F736F F D208EC08CB18C7689E68A E F193F18D8095AA957A C C839395AA957A814590B38B4B95AA957A2E646F63>

Microsoft Word - Stattext07.doc

Microsoft PowerPoint - sc7.ppt [互換モード]

不偏推定量

JMP による 2 群間の比較 SAS Institute Japan 株式会社 JMP ジャパン事業部 2008 年 3 月 JMP で t 検定や Wilcoxon 検定はどのメニューで実行できるのか または検定を行う際の前提条件の評価 ( 正規性 等分散性 ) はどのメニューで実行できるのかと

(3) 検定統計量の有意確率にもとづく仮説の採否データから有意確率 (significant probability, p 値 ) を求め 有意水準と照合する 有意確率とは データの分析によって得られた統計値が偶然おこる確率のこと あらかじめ設定した有意確率より低い場合は 帰無仮説を棄却して対立仮説

統計的データ解析

<4D F736F F D208EC08CB18C7689E68A E F193F18D8095AA957A C C839395AA957A814590B38B4B95AA957A2E646F63>

自動車感性評価学 1. 二項検定 内容 2 3. 質的データの解析方法 1 ( 名義尺度 ) 2.χ 2 検定 タイプ 1. 二項検定 官能検査における分類データの解析法 識別できるかを調べる 嗜好に差があるかを調べる 2 点比較法 2 点識別法 2 点嗜好法 3 点比較法 3 点識別法 3 点嗜好

<4D F736F F D2090B695A8939D8C768A E F AA957A82C682948C9F92E8>

スライド 1

Microsoft Word - mstattext02.docx

モジュール1のまとめ

<4D F736F F D208D A778D5A8A778F4B8E7793B CC A7795D2816A2E646F6378>

Medical3

PowerPoint プレゼンテーション

Microsoft PowerPoint - Statistics[B]

Microsoft Word - lec_student-chp3_1-representative

第 3 回講義の項目と概要 統計的手法入門 : 品質のばらつきを解析する 平均と標準偏差 (P30) a) データは平均を見ただけではわからない 平均が同じだからといって 同一視してはいけない b) データのばらつきを示す 標準偏差 にも注目しよう c) 平均

PowerPoint プレゼンテーション

Microsoft PowerPoint - statistics pptx

Microsoft Word - å“Ÿåłžå¸°173.docx

Medical3

平均値 () 次のデータは, ある高校生 7 人が ヵ月にカレーライスを食べた回数 x を調べたものである 0,8,4,6,9,5,7 ( 回 ) このデータの平均値 x を求めよ () 右の表から, テレビをみた時間 x の平均値を求めよ 階級 ( 分 ) 階級値度数 x( 分 ) f( 人 )

スライド 1

Microsoft Word - apstattext03.docx

統計学 Ⅱ( 章 ( 区間推定のシミュレーション 母平均 μ の区間推定 X ~ N, のとき X T ~ 自由度 1の t分布 1 自由度 -1のt 分布の97.5% 点 :t.975 P t T t この式に T を代入する t.975 母集団

Microsoft PowerPoint - Lecture 10.ppt [互換モード]

Kumamoto University Center for Multimedia and Information Technologies Lab. 熊本大学アプリケーション実験 ~ 実環境における無線 LAN 受信電波強度を用いた位置推定手法の検討 ~ InKIAI 宮崎県美郷

Microsoft Word - appendix_b

3章 度数分布とヒストグラム

3章 度数分布とヒストグラム

Microsoft PowerPoint - 基礎・経済統計6.ppt

経済統計分析1 イントロダクション

多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典

母平均 母分散 母標準偏差は, が連続的な場合も含めて, すべての個体の特性値 のすべての実現値 の平均 分散 標準偏差であると考えてよい 有限母集団で が離散的な場合, まさにその意味になるが, そうでない場合も, このように理解してよい 5 母数 母集団から定まる定数のこと 母平均, 母分散,

Microsoft PowerPoint - 14都市工学数理ノンパラ.pptx

異文化言語教育評価論 ⅠA 教育 心理系研究のためのデータ分析入門 第 3 章 t 検定 (2 変数間の平均の差を分析 ) 平成 26 年 5 月 7 日 報告者 :M.S. I.N. 3-1 統計的検定 統計的検定 : 設定した仮説にもとづいて集めた標本を確率論の観点から分析し 仮説検証を行うこと

<4D F736F F D204B208C5182CC94E497A682CC8DB782CC8C9F92E BD8F6494E48A722E646F6378>

第7章

目次 1 章 SPSS の基礎 基本 はじめに 基本操作方法 章データの編集 はじめに 値ラベルの利用 計算結果に基づく新変数の作成 値のグループ化 値の昇順

統計学 - 社会統計の基礎 - 正規分布 標準正規分布累積分布関数の逆関数 t 分布正規分布に従うサンプルの平均の信頼区間 担当 : 岸 康人 資料ページ :

Microsoft PowerPoint - Econometrics pptx

Microsoft PowerPoint - データ解析基礎4.ppt [互換モード]

Excelによる統計分析検定_知識編_小塚明_1_4章.indd

Microsoft PowerPoint - stat-2014-[9] pptx

第4回

散布度

untitled

講義ノート p.2 データの視覚化ヒストグラムの作成直感的な把握のために重要入力間違いがないか確認するデータの分布を把握する fig. ヒストグラムの作成 fig. ヒストグラムの出力例 度数分布表の作成 データの度数を把握する 入力間違いが無いかの確認にも便利 fig. 度数分布表の作成

スライド 1

Microsoft Word - apstattext01b.docx

<4D F736F F F696E74202D B835E82CC8EED97DE B835E82CC834F BB F0955C82B793C190AB926C>

森林水文 水資源学 2 2. 水文統計 豪雨があった時, 新聞やテレビのニュースで 50 年に一度の大雨だった などと報告されることがある. 今争点となっている川辺川ダムは,80 年に 1 回の洪水を想定して治水計画が立てられている. 畑地かんがいでは,10 年に 1 回の渇水を対象として計画が立て

<4D F736F F D208EC08CB18C7689E68A E F1939D8C E82E646F63>

青焼 1章[15-52].indd

切片 ( 定数項 ) ダミー 以下の単回帰モデルを考えよう これは賃金と就業年数の関係を分析している : ( 賃金関数 ) ここで Y i = α + β X i + u i, i =1,, n, u i ~ i.i.d. N(0, σ 2 ) Y i : 賃金の対数値, X i : 就業年数. (

MT2-Slides-13.pptx

Microsoft PowerPoint - ch04j

Microsoft Word - mstattext03.docx

. 測定方法 7 尺度化 ( 数値化 ) 8 絶対判断 評点法採点法カテゴリー尺度法 図示法 / 線分法 心理物理学的測定法 相対判断 分類法 格付け分類法 順位法 一対比較法 リッカート法 カテゴリー尺度法 / 評定尺度法 あなたは ですか? 9 SD(Semantic Differential)

Microsoft Word - Stat doc

はじめに Excel における計算式の入力方法の基礎 Excel では計算式を入力することで様々な計算を行うことができる 例えば はセルに =SQRT((4^2)/3+3*5-2) と入力することで算出される ( 答え ) どのような数式が使えるかは 数式

Microsoft Word - 保健医療統計学112817完成版.docx

Microsoft PowerPoint - statistics pptx

学習指導要領

Microsoft PowerPoint slide2forWeb.ppt [互換モード]

数値計算法

Microsoft Word - mstattext01.docx

Microsoft PowerPoint - R-stat-intro_12.ppt [互換モード]

<4D F736F F D208EC08CB18C7689E68A E F1918A8AD695AA90CD2E646F63>

測量士補 重要事項「標準偏差」

Microsoft PowerPoint - 測量学.ppt [互換モード]

JUSE-StatWorks/V5 ユーザーズマニュアル

Microsoft PowerPoint ppt

平成 7 年度数学 (3) あるゲームを 回行ったときに勝つ確率が. 8のプレイヤーがいる このゲームは 回ごとに独 立であるとする a. このゲームを 5 回行う場合 中心極限定理を用いると このプレイヤーが 5 回以上勝つ確率 は である. 回以上ゲームをした場合 そのうちの勝ち数が 3 割以上

EBNと疫学

喨微勃挹稉弑

データ解析

際 正規分布に従わない観測値に対して通常の t 検定を適用した場合 どのような不都合が生じるかを考える 一般に通常の t 検定や Wilcoxon 検定などの仮説検定を行う場合 2つの処理の間に差がないことが真実であるにもかかわらず差があると主張する過誤確率 ( 第 1 種の過誤確率 ) 2つの処理

解答のポイント 第 1 章問 1 ポイント仮に1 年生全員の数が 100 人であったとする.100 人全員に数学の試験を課して, それらの 100 人の個人個人の点数が母集団となる. 問 2 ポイント仮に10 人を抽出するとする. 学生に1から 100 までの番号を割り当てたとする. 箱の中に番号札

Microsoft Word - 補論3.2

Probit , Mixed logit

Transcription:

章母集団と指定値との量的データの検定. 検定手順 前章で質的データの検定手法について説明しましたので ここからは量的データの検定について話します 量的データの検定は少し分量が多くなりますので 母集団と指定値との検定 対応のない 群間の検定 対応のある 群間の検定 と 3つに章を分けて話を進めることにします ここでは 母集団と指定値との検定について説明します 例えば全国平均が分かっている場合で ある地域の標本と全国平均を比較するような場合や 理論的に与えた結果を実験結果と比較する場合等がこれに当たります この検定方法は分布に正規性があるかどうかによって 図 - のようにつに分かれます 正規性の検定 Yes 母平均の t 検定 No Wlcoxon の符号付順位和検定 図 - 母集団と指定値との量的データの検定手法 そのために まず得られたデータが正規分布に従うかどうか調べてみる必要があります そこでこの章では最初にこの正規性の調べ方について説明します その後 これらの検定手法について解説します また最後に 母平均と指定値との比較の問題で 有意差を得るために必要なデータ数の求め方について簡単に触れてみます. 正規性の検定データが正規分布しているかどうか調べる方法として 4. 節でヒストグラムを描く方法を学びましたが これはある程度データ数が多くないと使えません それではデータ数が少ない場合はどうするのでしょうか この場合には統計処理用に作られた正規確率紙というものを利用する方法があります しかし この正規確率紙を手に入れるのは少々厄介ですので これに変わる方法を Excel で考えてみます 原理は正規確率紙と同じです では具体的に例を用いて説明します 例 -

以下のデータの正規性を調べよ.5,., 3.4,.8, 4.6, 3., 3.8, 4.8, 4.0 解答 Excel を用いた視覚的方法について順を追って説明します ) データを入力する ( データ数を n とする ) ) データを小さい順に並べ替える これは範囲を指定し メニュー [ データ- 並べ替え ] で昇順に並べ替えます 3) データに から番号を振る データの左側に から順番にデータの末尾まで数字を振ります 4) 累積比率を求める p = は番号 n + 先ほど入力した 番号を使って累積比率を計算し データの横に入力します 5) 関数 z = normsnv( p ) を用いて座標値 z を求める 累積比率 p を用いて これに相当する正規分布の座標値 z を求めます ここで座標値 z と下側確率 p の関係は以下の図のようになります p -p 図 - 正規分布と確率 p = normsdst z ), z = normsnv( p ) z ( 6) データと座標値を用いて散布図を描く データ x ( 横軸 ) と上の座標値 z ( 縦軸 ) を用いて 次元の散布図を描きます 7) グラフに近似直線を加える グラフにメニュー [ グラフ- 近似曲線の追加 ] を用いて近似直線を加えます 8) 直線に近く並んでいるようなら正規分布この直線の近傍に点が散らばっているようなら 正規分布とみなされます x -

表 - 正規確率紙の方法 番号 データ 累積比率 x 値. 0. -.855.5 0. -0.846 3.8 0.3-0.5440 4 3. 0.4-0.5335 5 3.4 0.5 0.00000 6 3.8 0.6 0.5335 7 4.0 0.7 0.5440 8 4.6 0.8 0.846 9 4.8 0.9.855 この例題の場合 データが直線状に並んでいると認められるので 正規分布とみなせます 解説ここではなぜこのようなやり方で正規性が示されるのか考えてみます 今確率変数 X が N ( μ, ) 分布であるとします つのデータ値を x として X x である確率 p は p = normsdst( ( x μ) ) のように表されます ここに 変数 ( X μ) は標準 正規分布に従い normsdst( ) は標準正規分布の下側確率を求める Excel 関数でした この確率は近似的にデータ数で見た累積比率に等しいと考えてみます x μ p = normsdst n + ここに n はデータの個数 は小さいほうから数えたデータ x の番号です 右辺の近似式から 逆に標準正規分布の座標値を求めて z = normsnv( ( n + )) とす ると 以下のように z は近似的に x の 次関数となります = x μ μ z normsnv = n + x このようにデータが正規分布に従うならば 上の z を y 軸に x を x 軸にして散布図を描くと データは直線状に並ぶはずです もし この直線から外れるような場合があれば これはデータの正規性に問題があるということです しかし 確率を ( n +) で近似していますので 完全に直線状に並ぶという訳にもいきません 大体直線に並ぶという微妙な基準しかありません 上の方法は直線に並んでいるという直感的な感覚が頼りでしたから 当然人によって判断基準も変わってきます そこでこれをはっきりさせるために数値的な方法も考案されています 代表的な方法には コルモゴロフ-スミルノフ (Kolmogorov-Smrnov).5 0.5-0.5 - -.5 0.5 3 3.5 4 4.5 5 図 - 正規確率紙の方法 -3

の正規性の検定やシャピロ-ウィルク (Shapro-Wlk) の W 統計量を用いた方法等があります 後者の方法で 例題について 正規分布と考えられる確率を求めてみると p < 0.947( 統計ソフト statstca による ) となります また以下の問題にも参考のためにこの確率の値を付記しておきます グラフを見た場合の基準にしてもらえればと思います 問題 以下のデータの正規性を調べよ 507, 49, 4, 493, 45, 640, 464, 60, 530, 395 解答 表 - 正規確率紙の方法 番号 データ 累積比率 x 値 395 0.090909 -.3358.5 45 0.888-0.90846 3 4 0.777-0.60458 0.5 4 464 0.363636-0.34876 0 5 49 0.454545-0.48-0.5 6 493 0.545455 0.49-7 507 0.636364 0.34876 -.5 8 530 0.7773 0.60458 9 60 0.888 0.90846 図 -3 正規確率紙の方法 0 640 0.90909.3358 この場合 ほぼ正規分布とみなせる ( p < 0.555 ) 問題以下のデータの正規性を調べよ 0.9, 6., 57., 5.0, 46.6, 4.,.0, 56.3, 49.5, 49.3,.4, 3.5 解答表 -3 正規確率紙の方法番号データ累積比率 x 値.5 0.9 0.07693 -.4608.0 0.53846 -.0008 0.5 3.4 0.30769-0.7363 0 4 3.5 0.30769-0.5040-0.5 5 4. 0.38465-0.9338-6 46.6 0.46538-0.09656 -.5 7 49.3 0.53846 0.09656-8 49.5 0.65385 0.9338 図 -4 正規確率紙の方法 -4 350 400 450 500 550 600 650 0 5 30 35 40 45 50 55 60 65

9 5.0 0.69308 0.5040 0 56.3 0.7693 0.7363 57. 0.84654.0008 6. 0.93077.4608 直線状に並んでいると言えないので 正規分布とは言えない ( p < 0.039 ).3 母平均と指定値との比較 ( 正規性あり ) 前節で述べた方法は視覚的に正規性を調べる方法ですから その結果になかなか自信が持てないと思います そこでよく使われるのが名前だけ紹介した数値的方法です 統計ソフト等でこの方法を用いると データの分布が正規分布と異なることは容易に示せます しかしその逆は このデータでは正規分布と異なるといえない というだけで 積極的に正規性を支持するものではありません ただ通常この 正規分布と異なるといえない ということで不本意ながら正規性が示されたと解釈することが多いようです この場合 正規性に少しでも怪しいところがあれば 次の節で述べる Wlcoxon の符号付き順位和検定と併用すればよいと思います これは分布型を問わない検定方法ですので 正規分布でもそうでなくても利用できます ここでは 正規性を認めて検定手法の説明をしましょう 例ある会社 0 社のある商品の従業員 人当り売上高のデータを集めたら 平均 4( 万円 ) 不偏分散から求めた標準偏差 4( 万円 ) であった これらの会社の売上高は 6 ( 万円 ) に比べて差があるといえるか 正規分布を仮定し 有意水準 5% で判定せよ 理論母平均の t 検定正規分布する標本について 標本の母平均 μ と指定値 μ とを比較し 差があるかど うか有意水準 α 00% で判定する 但し データ数 n 標本平均 x 不偏分散 u とする 帰無仮説 H 0 : μ = μ ( 平均に差がない ) 対立仮説 H : μ μ ( 平均に差がある, 両側検定 ) x μ) H 0 のもとで t = ~ tn 分布 (.) u p = tdst( t, n,) として p < α のとき H 0 を棄却して H を採択する 解答 n = 0, x = 4, μ = 6, u = 4 として 統計量 t を求めると以下のようになります -5

0(4 6) t = = 4.79574 4 自由度は 0 = 9 より 検定確率値は tdst () 関数を用いて以下のようになります p = tdst( 4.79574, 8, ) = 0.0007 0.000 p < 0.05 より 人当りの売上高に差があるといえると判定されます 解説 t 分布の座標値から確率を求める Excel 関数は 座標値 t, 確率 p, 自由度 d として 以下のように与えられています 確率値を求める場合 最後のパラメータで両側確率か 片側確率かを指定します p = tdst( t, d, ) 両側検定 p = tdst( t, d,) 片側検定 t = tnv( p, d) 両側検定 量的なデータの指定値との比較の問題は データが正規分布する場合とそうでない場合とで取り扱い方が違うことは以前説明しました ではなぜ正規分布する場合だけ特別に t 検定を利用するのでしょうか 一般的な方法があれば どちらの場合もそれを用いればよいはずです その理由は正規分布するデータでは 一般的な方法に比べて t 検定がより差を見出し易いからです 但し t 検定は正規分布からずれると全く意味のないものになってしまいますので 十分注意して使用する必要があります さて データの範囲が広く小さい方に多く集まっているような場合 データの対数を取ると正規分布に近い分布を得ることがあります 図.a はデータをそのまま利用したヒストグラムですが 図.b は自然対数 ( 底が e の対数 ) を取ったデータを用いたヒストグラムです 前者は正規分布から相当外れていますが 後者は正規分布に近い形をしています この場合一般の検定を利用することも考えられますが 対数を取って正規分布にして検定を行った方が 良い結果が得られます このように対数を取ったデータが正規分布するような分布を対数正規分布といいます 40 40 30 30 0 0 0 0 0 0 0 30 40 50 60 70 80 90 図.a 度数分布.0.4.8 3. 3.6 4.0 4.4 4.8 図.b 自然対数を取った度数分布 -6

数学的解説ここでは統計量 t が t 分布に従うことを簡単に示しておきましょう 確率変数 X が 独立で ~ N( μ, ) 分布とすると 平均は X X = ( X + X + L + X n ) ~ N( μ, n) 分布 n X μ となることを 7.3.4 節の問題で示しましたが これを用いると ~ N(0,) 分布と n なることが分かります ここでは指定値 μ の値は分かっていますが の値は分かり ません そこでこれを不偏分散 u から求めた標準偏差 u で代替します 不偏分散には 8.4 節で述べたように 以下の関係があることが知られています n ( n ) u ( X ) = X ~ χ 分布 = そこで 8.3 節で述べた t 分布の定義から 以下のような関係が分かります X μ X μ) = u n u n n ~ n t n 分布 この式では の値が u に置き換わり 左辺はすべてデータから求まります 問題以下のデータの正規性が認められているとき 平均は 5.5 と比べて差があるといえるか 有意水準 5% で判定せよ 8.4, 4.6, 5., 6.3, 7., 5.8, 6.0, 5.4, 4.9, 6.9 解答 n =0, μ = 5. 5, x = 6.07, u =.679 0(6.07 5.5) t = =.544305.679 p = tdst(.544305, 9) = 0.569 0.57 p > 0.05 より 差があるとは言えない -7

.4 母集団の中央値と指定値との比較 ( 正規性なし ) データに正規性が見られないとき 上記の t 検定は使えず データの分布によらない検定手法を利用します このような検定を総称してノンパラメトリック検定といいます これに対して前節の t 検定のように 正規性を利用する検定をパラメトリック検定と呼びます データの正規性に少しでも不安がある場合 我々は両方の手法を併用することをお勧めします 正規性がある場合 ノンパラメトリック検定は使えないのではなく パラメトリック検定の方がより明確に差が出るというだけです しかし 逆に正規性が認められない場合 パラメトリック検定の結果は何の意味も持ちません ノンパラメトリック検定では 何らかの形でデータに順位を付け その順位和を用いて検定を行う場合が多く見られます この教科書で登場するものとしては この節と 3. 節で説明する Wlcoxon の符号付き順位和検定.4 節で学ぶ Wlcoxon の順位和検定 及び 5. 節の Spearman の順位相関係数等が 代表的なノンパラメトリックな手法です これらの理論についてはかなり深い数学的背景があり この教科書の範囲外ですので利用法のみをまとめて解説します 例ある会社のある商品の 人当り売上高 ( 万円 ) は以下の通りである これらの会社の売上高は 6( 万円 ) に比べて差があるといえるか 有意水準 5% で判定せよ 06, 35, 55, 7, 80, 99, 5, 7, 9, 8, 60 理論 Wlcoxon の符号付き順位和検定標本データ x の中央値 m と指定値 m を比較し 差があるかどうか有意水準 α 00% で判定する 帰無仮説 H 0 : m = m 中央値に差がない対立仮説 H : m m ( 両側検定 ) 中央値に差がある新しい変数 z = X m を考える z の小さい順に 0 を除いて順位 r を付け z = 0 の場合を除いて z の正負で 群に分ける 但し 同数値の場合は 順位平均を取る 例えば 5 位がつの場合は 両方 (5+6)/=5.5 とする 各群のデータ数を r, s( n = r + s ) 順位和を R r, Rs とし 小さい方の順位和を R とする データ数が少ない ( n 50 ) とき補遺 3の数表を参照し 両側確率をα として R R のとき H 0 を棄却して H を採 択する -8

データ数が多い ( n > 50 ) とき R n + ) 4 / H 0 のもとで z = ~ N (0,) 分布 ( 正の部分 ) n + )(n + ) / 4 (.) p = ( normsdst( z)) として p < α のとき H 0 を棄却して H を採択する 解答 まず以下のような表を作ります 順位は Excel の rank( 数値, 範囲,) 関数を用いて昇順 に付けます このとき同順位は同じ数字ですから これを平均順位に置き換えて訂正 順位とします 同じ順位を見つけるにはメニュー [ データ- 並べ替え ] を用いると便 利です データ 差 差 順位 訂正順位 06-0 0 35 9 9 55-7 7 0 0 7-54 54 7 7.5 80-46 46 6 6 99-7 7 3 3 5-75 75 7-54 54 7 7.5 9 65 65 9 9 8-44 44 5 5 60 34 34 4 4 この表から データと指定値との差が正のものと負のものに分けて順位和を求めます 訂正順位で四角で囲んだものは差が正になるものです この順位合計を求める際にも並べ替えを用いると簡単です 結果は差が正になる群が 4 負になる群が 5 となります つの順位和から小さい方を選んで R = 4 とします 補遺 3の数表から n = でα = 0. 05 の値 R 0 を求めて 以下のような結論になり = ます R > R より 中央値に差があるとはいえない 解説 Wlcoxon の符号付き順位和検定には 種類の方法があります つはここで述べたように データの値から指定値を引いて絶対値をとり順位を付ける方法 もうつはつの対応するデータ間で引き算を行なって絶対値をとり順位を付ける方法です これらつの方法とも 求めた差の正負で群を分けて順位和を求める方法は同じです 後者については対応のあるデータに対する Wlcoxon の符号付き順位和検定として 3.3 節で学びます -9

手順をまとめておくと まず個々のデータから指定値を引き その絶対値をとります 絶対値の小さい順に順位を付け データから指定値を引いた差の値が正のものと負のものとでつの群に分け それぞれの順位の合計を取ります 例えば 4 位がつあるような同順位のものについては つを (4+5)/=4.5 位とします また データから中央値を引いた差が 0 のデータは除外します つの群のうち 順位合計の小さいものを選び その値によって検定しますが データ数が少ない場合は表によって データ数が多い場合は検定量 z を求め それが標準正規分布に従うことを利用して検定を行ないます もう少し分り易く言い換えると この検定方法は指定値に近いデータから順に順位を付け 指定値より小さい側と大きい側で順位合計を取るものです 分布が指定値より大きい側に偏っていればいるほど 大きい側の順位合計は大きくなります このとき指定値に近いところから順位を付けていますので この傾向はより顕著に効いてきます これがこの検定のうまいところです.5 母平均推定のためのデータ数の決定最後に少し本筋から離れて 調査等をするときにデータ数をどのように決めるのかという問題について考えてみようと思います 0.4 節で母比率と指定比率の比較の場合について述べましたが ここでは正規分布するデータで指定値との比較の問題に絞ってその考え方を学びます 例母集団の標準偏差が 5cm であるとき 標本平均 69cm として指定値 70cm と異なることを有意水準 5% で示すためには いくらのデータ数が必要か 理論 指定値が μ 母分散 の場合 有意水準 α 00% で 標本平均 x から推測される母平均が指定値と等しくないことを判定するために必要なデータ数を求める 但し 検定は両側検定とする x μ) Z = ~ N(0,) 分布を用いて Z( α ) normsnv( α ) n > = (.3) ( x μ) ( x μ) 注 ) Z(α ) は標準正規分布上側確率 α / の座標値である Excel でこれは normsnv( α ) と表示される -0

解答 normsnv(0.975) 5 n > = 96.0369 より 標本は 97 以上必要である 解説.3 節では データ数と指定値 標本平均 不偏分散から観測値の出現確率を求めましたが 今回は指定値 標本平均 母分散の値と観測値の出現確率 ( 有意水準の値 ) からデータ数を求めています 検定の場合とデータ数の決定の場合とで分散が 不偏分散と母分散で異なっていますが 母分散が分からない場合は 近似的に不偏分散で代用しても大きな問題はありません 検定で有意差が出るためには 統計値が Z(α ) より大きいことが条件です ( α ) < x μ) Z を変えて Z( α ) n > x μ 両辺の 乗をとって 以下の式を得ます Z( α ) n > ( x μ) x μ) ここで 不偏分散ではなく母分散を使った理由は ~ t n 分布の関係から u (.3) に相当する式が tnv( α, n ) u n > ( x μ) となり 座標値を求める際に 自由度としてこれから求めようとしているデータ数を使わなければならなくなるからです -