Microsoft PowerPoint - 14都市工学数理ノンパラ.pptx

Similar documents
ビジネス統計 統計基礎とエクセル分析 正誤表

Microsoft Word - Stattext12.doc

<4D F736F F D208EC08CB18C7689E68A E F AA957A82C682948C9F92E82E646F63>

EBNと疫学

基礎統計

Microsoft PowerPoint - sc7.ppt [互換モード]

Microsoft Word - apstattext04.docx

RSS Higher Certificate in Statistics, Specimen A Module 3: Basic Statistical Methods Solutions Question 1 (i) 帰無仮説 : 200C と 250C において鉄鋼の破壊応力の母平均には違いはな

Microsoft PowerPoint - 基礎・経済統計6.ppt

Microsoft Word - Stattext13.doc

PowerPoint プレゼンテーション

Microsoft PowerPoint - データ解析基礎2.ppt

(3) 検定統計量の有意確率にもとづく仮説の採否データから有意確率 (significant probability, p 値 ) を求め 有意水準と照合する 有意確率とは データの分析によって得られた統計値が偶然おこる確率のこと あらかじめ設定した有意確率より低い場合は 帰無仮説を棄却して対立仮説

母平均 母分散 母標準偏差は, が連続的な場合も含めて, すべての個体の特性値 のすべての実現値 の平均 分散 標準偏差であると考えてよい 有限母集団で が離散的な場合, まさにその意味になるが, そうでない場合も, このように理解してよい 5 母数 母集団から定まる定数のこと 母平均, 母分散,

Python-statistics5 Python で統計学を学ぶ (5) この内容は山田 杉澤 村井 (2008) R によるやさしい統計学 (

第 3 回講義の項目と概要 統計的手法入門 : 品質のばらつきを解析する 平均と標準偏差 (P30) a) データは平均を見ただけではわからない 平均が同じだからといって 同一視してはいけない b) データのばらつきを示す 標準偏差 にも注目しよう c) 平均

JMP による 2 群間の比較 SAS Institute Japan 株式会社 JMP ジャパン事業部 2008 年 3 月 JMP で t 検定や Wilcoxon 検定はどのメニューで実行できるのか または検定を行う際の前提条件の評価 ( 正規性 等分散性 ) はどのメニューで実行できるのかと

<4D F736F F D208EC08CB18C7689E68A E F1939D8C E82E646F63>

Microsoft PowerPoint - 代表値と散布度.ppt [互換モード]

情報工学概論

<4D F736F F D2090B695A8939D8C768A E F AA957A82C682948C9F92E8>

Microsoft Word - Stattext11.doc

<4D F736F F D208EC08CB18C7689E68A E F193F18D8095AA957A C C839395AA957A814590B38B4B95AA957A2E646F63>

講義「○○○○」

Microsoft PowerPoint - A1.ppt [互換モード]

自動車感性評価学 1. 二項検定 内容 2 3. 質的データの解析方法 1 ( 名義尺度 ) 2.χ 2 検定 タイプ 1. 二項検定 官能検査における分類データの解析法 識別できるかを調べる 嗜好に差があるかを調べる 2 点比較法 2 点識別法 2 点嗜好法 3 点比較法 3 点識別法 3 点嗜好

Excelによる統計分析検定_知識編_小塚明_5_9章.indd

第7章

講座内容 第 1 週 データサイエンスとは 第 2 週 分析の概念と事例ビジネス課題解決のためのデータ分析基礎 ( 事例と手法 )1 第 3 週 分析の具体的手法ビジネス課題解決のためのデータ分析基礎 ( 事例と手法 )2 第 4 週 ビジネスにおける予測と分析結果の報告ビジネス課題解決のためのデー

平均値 () 次のデータは, ある高校生 7 人が ヵ月にカレーライスを食べた回数 x を調べたものである 0,8,4,6,9,5,7 ( 回 ) このデータの平均値 x を求めよ () 右の表から, テレビをみた時間 x の平均値を求めよ 階級 ( 分 ) 階級値度数 x( 分 ) f( 人 )

PowerPoint プレゼンテーション

統計的データ解析

統計学 - 社会統計の基礎 - 正規分布 標準正規分布累積分布関数の逆関数 t 分布正規分布に従うサンプルの平均の信頼区間 担当 : 岸 康人 資料ページ :

切断安定分布による資産収益率のファットテイル性のモデル化とVaR・ESの計測手法におけるモデル・リスクの数値的分析

スライド 1

Microsoft Word - appendix_b

Microsoft PowerPoint - statistics pptx

Medical3

stat-base_ppt [互換モード]

Probit , Mixed logit

Microsoft PowerPoint ppt

Excelによる統計分析検定_知識編_小塚明_1_4章.indd

スライド 1

<4D F736F F F696E74202D B835E82CC8EED97DE B835E82CC834F BB F0955C82B793C190AB926C>

Microsoft PowerPoint - statistics pptx

Microsoft PowerPoint - statistics pptx

統計学の基礎から学ぶ実験計画法ー1

Microsoft PowerPoint - e-stat(OLS).pptx

様々なミクロ計量モデル†

青焼 1章[15-52].indd

日心TWS

stat-base [互換モード]

Microsoft PowerPoint - stat-2014-[9] pptx

Microsoft PowerPoint - 測量学.ppt [互換モード]

Microsoft Word - apstattext05.docx

<4D F736F F D208EC08CB18C7689E68A E F193F18D8095AA957A C C839395AA957A814590B38B4B95AA957A2E646F63>

散布度

_KyoukaNaiyou_No.4

経済統計分析1 イントロダクション

Microsoft Word - lec_student-chp3_1-representative

MT2-Slides-13.pptx

Microsoft PowerPoint - Econometrics pptx

<4D F736F F D208D A778D5A8A778F4B8E7793B CC A7795D2816A2E646F6378>

データ科学2.pptx

Microsoft Word - å“Ÿåłžå¸°173.docx

森林水文 水資源学 2 2. 水文統計 豪雨があった時, 新聞やテレビのニュースで 50 年に一度の大雨だった などと報告されることがある. 今争点となっている川辺川ダムは,80 年に 1 回の洪水を想定して治水計画が立てられている. 畑地かんがいでは,10 年に 1 回の渇水を対象として計画が立て

Microsoft PowerPoint - ch04j

データの整理 ( 度数分布表とヒストグラム ) 1 次元のデータの整理の仕方として代表的な ものに度数分布表とヒストグラムがあります 度数分布表観測値をその値に応じていくつかのグループ ( これを階級という ) に分類し 各階級に入る観測値の数 ( これを度数という ) を数えて表にしたもの 2

< F55542D303996E291E894AD8CA9365F834E E95AA90CD836D815B>

Excelによる統計分析検定_知識編_小塚明_1_4章.indd

Microsoft Word - 保健医療統計学112817完成版.docx

不偏推定量

モジュール1のまとめ

異文化言語教育評価論 ⅠA 第 4 章分散分析 (3 グループ以上の平均を比較する ) 平成 26 年 5 月 14 日 報告者 :D.M. K.S. 4-1 分散分析とは 検定の多重性 t 検定 2 群の平均値を比較する場合の手法分散分析 3 群以上の平均を比較する場合の手法 t 検定

仮説検定を伴う方法では 検定の仮定が満たされ 検定に適切な検出力があり データの分析に使用される近似で有効な結果が得られることを確認することを推奨します カイ二乗検定の場合 仮定はデータ収集に固有であるためデータチェックでは対応しません Minitab は近似法の検出力と妥当性に焦点を絞っています

解答のポイント 第 1 章問 1 ポイント仮に1 年生全員の数が 100 人であったとする.100 人全員に数学の試験を課して, それらの 100 人の個人個人の点数が母集団となる. 問 2 ポイント仮に10 人を抽出するとする. 学生に1から 100 までの番号を割り当てたとする. 箱の中に番号札

と 測定を繰り返した時のばらつき の和が 全体のばらつき () に対して どれくらいの割合となるかがわかり 測定システムを評価することができる MSA 第 4 版スタディガイド ジャパン プレクサス (010)p.104 では % GRR の値が10% 未満であれば 一般に受容れられる測定システムと

Microsoft PowerPoint - Statistics[B]

切片 ( 定数項 ) ダミー 以下の単回帰モデルを考えよう これは賃金と就業年数の関係を分析している : ( 賃金関数 ) ここで Y i = α + β X i + u i, i =1,, n, u i ~ i.i.d. N(0, σ 2 ) Y i : 賃金の対数値, X i : 就業年数. (

Microsoft PowerPoint - 資料04 重回帰分析.ppt

目次 1 章 SPSS の基礎 基本 はじめに 基本操作方法 章データの編集 はじめに 値ラベルの利用 計算結果に基づく新変数の作成 値のグループ化 値の昇順

Microsoft PowerPoint slide2forWeb.ppt [互換モード]

基礎数理 ()Aさんは確定拠出年金の加入者となった 投資商品は収益率がそれぞれ独立な正規分布 N(7, σ ), N(, σ y ) に従う,Y から選択することとした の過去 8 年間の収益率の実績は {8,,,5,,-,6,}(%) Y の過去 6 年間の収益率の実績は {,,,4,,}(%)

PowerPoint プレゼンテーション

Microsoft Word - 補論3.2

. 測定方法 7 尺度化 ( 数値化 ) 8 絶対判断 評点法採点法カテゴリー尺度法 図示法 / 線分法 心理物理学的測定法 相対判断 分類法 格付け分類法 順位法 一対比較法 リッカート法 カテゴリー尺度法 / 評定尺度法 あなたは ですか? 9 SD(Semantic Differential)

数値計算法

3章 度数分布とヒストグラム

したがって ばらつきを表すには 偏差の符号をなくしてから平均化する必要がある そのひとつの方法は 1 偏差の絶対値を用いることである 偏差の絶対値の算術平均を 平均偏差 という ( )/5=10.8 偏差の符号を取るもうひとつの方法は 2それを2 乗することです 偏差の2 乗の算

EBNと疫学

<4D F736F F F696E74202D208EC0926E89758A7782CC82BD82DF82CC939D8C765F939693FA2E >

経営統計学

3章 度数分布とヒストグラム

14 化学実験法 II( 吉村 ( 洋 mmol/l の半分だったから さんの測定値は くんの測定値の 4 倍の重みがあり 推定値 としては 0.68 mmol/l その標準偏差は mmol/l 程度ということになる 測定値を 特徴づけるパラメータ t を推定するこの手

確率分布 - 確率と計算 1 6 回に 1 回の割合で 1 の目が出るさいころがある. このさいころを 6 回投げたとき,1 度も 1 の目が出ない確率を求めよ. 5 6 /6 6 =15625/46656= (5/6) 6 = ある市の気象観測所での記録では, 毎年雨の降る

はじめに Excel における計算式の入力方法の基礎 Excel では計算式を入力することで様々な計算を行うことができる 例えば はセルに =SQRT((4^2)/3+3*5-2) と入力することで算出される ( 答え ) どのような数式が使えるかは 数式

異文化言語教育評価論 ⅠA 教育 心理系研究のためのデータ分析入門 第 3 章 t 検定 (2 変数間の平均の差を分析 ) 平成 26 年 5 月 7 日 報告者 :M.S. I.N. 3-1 統計的検定 統計的検定 : 設定した仮説にもとづいて集めた標本を確率論の観点から分析し 仮説検証を行うこと

<4D F736F F D204B208C5182CC94E497A682CC8DB782CC8C9F92E BD8F6494E48A722E646F6378>

サーバに関するヘドニック回帰式(再推計結果)

Kumamoto University Center for Multimedia and Information Technologies Lab. 熊本大学アプリケーション実験 ~ 実環境における無線 LAN 受信電波強度を用いた位置推定手法の検討 ~ InKIAI 宮崎県美郷

Transcription:

都市工学数理 浅見泰司 東京大学大学院工学系研究科教授 Yasushi Asami 1 0. 統計学的検定の基本 母集団と標本 世論調査では 日本人全員に聞くというのは事実上不可能 そこで 日本人全員 (= 母集団 ) から 一部 (= 標本 ) を選んで そこで得られた傾向 (= 仮説 ) が日本人全体にもある程度の信頼性で成り立つかどうかを考える (= 検定 ) 注意 サンプリングの方法 ランダムサンプリングが基本 現実にはできないことが多い ( ランダムサンプリングされたことを前提に以下では考える ) Yasushi Asami ノンパラメトリック検定とは? 統計的な方法を考える上で 母集団が何らかの統計分布に従うことを仮定することが多い 分布の特性を決めるものがパラメータ 正規分布 平均値と分散 二項分布 p( 確率 ) と n( 試行回数 ) ポアソン分布 λ( 平均値 ) パラメトリック検定 母集団の分布形やそのパラメータ ( 母数 ) について仮定を設けて行う検定 ノンパラメトリック検定 母集団の分布形やそのパラメータ ( 母数 ) について仮定を設けない検定 つまり より一般的に使える オールマイティー Yasushi Asami 3 Yasushi Asami 4 統計学の参考書 石居進 (1975) 生物統計学入門 培風館. 竹内啓 (1963) 数理統計学 東洋経済. 東京大学教養学部統計学教室 ( 編 ) (1991) 統計学入門 基礎統計学 Ⅰ, 東京大学出版会. 林周二 (1973) 統計学講義 ( 第 版 ) 丸善 柳川尭 (198) ノンパラメトリック法 培風館 山内二郎 ( 編 )(1977) 簡約統計数値表 日本規格協会 尺度の違い? Yasushi Asami 5 Yasushi Asami 6 1

1. 尺度 次の中で平均値が意味を持つのは? 学生証番号 クラス対抗リレー戦でクラスのリレー選手の順位 気温 体重 何が違う? 尺度の種類 名義尺度 (nominal scale) 名称 種類など例 : 学生証番号 血液型 順序尺度 (ordinal scale) 順位など例 : 多い - 少ない 間隔尺度 (interval scale) 差が意味を持つ例 : 温度 比率尺度 (ratio scale) 比率が意味を持つ 0 の意味が明確例 : 長さ Yasushi Asami 7 Yasushi Asami 8 名義尺度 意味を持つ演算 変換 カウント 比率 最頻値 対応関係の変更 意味を持つ図表 頻度図表 比率図表 構成比の円グラフなど 折れ線グラフはダメ 順序尺度 意味を持つ演算 中央値 単調増加変換 ( 順位に関する演算 ) 順位に関するノンパラメトリック統計 意味を持つ図表 順序プロット図 Yasushi Asami 9 Yasushi Asami 10 間隔尺度 意味を持つ演算 変換 和 差 平均値 一次変換 パラメトリック統計 回帰分析 因子分析など 意味を持つ図表 x プロット図 平行箱ひげ図 比率尺度 意味を持つ演算 変換 四則演算 比変換 意味を持つ図表 三角グラフ Yasushi Asami 11 Yasushi Asami 1

ノンパラメトリック検定の考え方 分布を仮定しないということは スケールを変化 ( 単調増加関数による変換 ) させても そのまま成立するような方法であるということ スケールを変化させても保存されるものは 順番 というわけで 順位に着目する方法が多い 順位に着目した時の代表値は 中央値 t 検定に代わる方法は? t 検定では 平均値の違いに着目 中央値の違いに着目すればよい 主な検定したい内容 1 中央値 =M? 符号検定 つの集団の中央値は等しい? Wilcoxon の順位和検定 Yasushi Asami 13 Yasushi Asami 14. 中央値の検定 ( 符号検定 ) 母集団から 9 個の標本をとったら 1,3,6,8,11,15,16,19, 中央値は 4 である は正しいか? Yasushi Asami 15 基本的な考え方 (1) 中央値が 4 ならば それ以上もそれ以下も 1/ の確率で標本に入るはず ()[ 母集団自体には分布の仮定は設けていないが ] 仮説上の中央値よりも大きいか小さいかは 1/ の確率でおきるので その個数は二項分布に従う (3)1/ よりも偏っていれば仮説はおかしい 4 以下の標本は 9 個中 個しかない 9 個中 1/ の確率で起きるものが 個以下しか起きない確率は? Yasushi Asami 16 0 個の確率 9 C 0 (1/) 9 1 個の確率 9 C 1 (1/) 9 個の確率 9 C (1/) 9 合わせると ( 9 C 0 + 9 C 1 + 9 C ) (1/) 9 =(1+9+36)/51=0.089844 ( 有意水準 )5% よりは大きいので それほど珍しいことが起きたわけではない 仮説を棄却できない (4) 標本数が多ければ ( 階乗の計算は大変なので ) 二項分布を正規分布で近似する Yasushi Asami 17 Yasushi Asami 18 3

一般的な手法 Q: ある標本の母集団の中央値はaであるといえるか H 0 : median=a aよりも大のもの (+) の数 =m aよりも小のもの (-) の数 =n m<nならば m i mni 1 1 Pr( k m) mn C よく使うαは0.05 i i0 1 m n m m n 4 H 0 を棄却 Yasushi Asami 19 [ 例 ] 母集団から 100 個標本をとる {x i : i=1~100} x i <M のものが 40 個 (m=40) x i >M のものが 60 個 (n=60) H 0 : 中央値は M である μ=(m+n)/=50, σ =(m+n)/4=5 Φ((40+1/-μ)/σ)=Φ(-9.5/5) =Φ(-1.9)=0.087<α=0.05 H 0 は棄却 Yasushi Asami 0 3. 中央値の違いの検定 (Wilcoxon の順位和検定 ) 母集団 Aから5 個 母集団 Bから6 個の標本をとったら A: 1,3,6,8,11 B: 7,9,1,16,18,1 つの集団の中央値は等しい は正しいか? 基本的な考え方 (1) まずは 全部を順番に並べてみよう A: 1,3,6, 8, 11, B: 7, 9, 1, 16,18,1 Bの方が大きい感じがする () 中央値が同じならば AもBも前半の順位と後半の順位が同じくらいでてくるはず 全体の順位を足し合わせると どちらも 中央値の順位の個数倍くらいになるはず Yasushi Asami 1 Yasushi Asami それよりも目立って小さい ( もしくは大きい ) ならば 仮説はあやしい A の順位は 1,, 3, 5, 7 なので 順位の合計は 18 Wilcoxon の順位和検定の統計表を見ると Yasushi Asami 3 5,6のところでは 18( 以下 ) という順位和は.5% 以下の確率で起きる 5% 以下なので珍しいことが起きた 中央値が等しいという仮説を棄却! https://www.stat.auckland.ac.nz/~wil d/chanceenc/ch10.wilcoxon.pdfより Yasushi Asami 4 4

両方の個数が多いと 数表にはない 正規分布で近似する 本来は だいたい 平均では中央値の順位 ( =(6+5+1)/=6) の個数 (5 個 ) 倍になるはずなので 30が期待値 順位のばらつきは やや難しいが分散が 6 5 (6+5+1)/1=30となる 平均値 30 分散 30で18 以下の値となる確率を計算する Φ((18-30)/30 1/ )=Φ(-.19089)=0.0143<0.05 仮説を棄却! 一般的な手法 Q: 二つのグループ X, Y の母集団の中央値は同じであると考えられるか Xはn 1 個 Yはn 個 Xの順位和はR H 0 : M X =M Y μ=n 1 (n 1 +n +1)/, σ =n 1 n (n 1 +n +1)/1, z=(r-μ)/σ z >z*(α) H 0 を棄却 Yasushi Asami 5 Yasushi Asami 6 [ 例 ]X: 1., 1.4, 1.5, 1.8,.1 (n 1 =5) Y: 1.9,.0,.5,.6,.7 (n =5) ( 順位付け ) X: 1,, 3, 4, 7 Y: 5, 6, 8, 9, 10 R=1++3+4+7=17 R<R*(5,5,α)=19 H 0 は棄却 近似式を用いた場合 : μ=n 1 (n 1 +n +1)/=55/, σ =n 1 n (n 1 +n +1)/1=75/1 Φ((R-μ)/σ)=Φ((17-7.5)/4.787)=Φ(-.193)=0.014<α=0.05 H 0 は棄却 相関係数に代わる方法は? 相関係数で つの変量の関係を調べていた 順位で相関を考えれば良い 主な検定 つの変量は相関しているのか? 片方の順位が上がると もう一方も上がるという関係があるか? Yasushi Asami 7 Yasushi Asami 8 4. 序数尺度の相関 (Spearman の順位相関係数 ) X と Y は i=1~n のものに次のような順位がついている評価対象 1 n X の順位 x 1 x x n Y の順位 1 n X の順位と Y の順位の間に相関があるといえるだろうか Yasushi Asami 9 x i, i を用いて普通の相関係数 r を求める r ( i ( xi x x)( ) i x) i i i i ( ) 簡単 な代数計算によって( 統計の教科書には書いてある ) 次の様に表せる 6 r i i n n x 1 ( ) ( 1) i これを Spearmanの順位相関係数という相関の有意性の検定は ( 基数的数値でないため ) 普通の相関係数の場合と同じようには行えない そこで特別にSpearmanの相関係数の有意性の検定表が用意されている Yasushi Asami 30 5

[ 例 ]X: 1, 19, 8, 48, 59 Y: 15, 30, 1, 69, 85 H 0 : 相関なし n=5 ( 各々順位付け ) X: 1,, 3, 4, 5 Y: 1, 3,, 4, 5 Σ i (x i - i ) =(=d ), r=1-6σ i (x i - i ) /[n(n -1)]=0.9 d d *(5,α)= (α=0.05) H 0 は棄却 正の相関があるといえる Yasushi Asami 31 [ 参考 ]Kendallの順位相関係数 {x i } は大きさの順に並んでいるとする それに対応する { i } がどのくらい順位が似ているかを考える u(a,b)=1 if a<b, 0 otherwiseとする 同順位がない場合は 4 u( i, ) 1i n u( i, ) u(, i ) 1 n( n 1) 1 i n 1i n n( n 1) とすると 大きさの順が一致する場合はτ=1 大きさの順が全く逆の場合はτ=-1となる この量で分析する 仮に同一値がある場合は以下のようにτを補正する u( i, ) u(, i ) 1i n 1i n n( n 1) n( n 1) Tx T ただし T x =Σt x (t x -1)/ T =Σt (t -1)/ t x =xの同一値の組それぞれについてその要素数 t =の同一値の組それぞれについてその要素数 Yasushi Asami 3 サンプリングは適切か? 得られたサンプルは適切か? ランダムサンプリングを想定しているので, ランダムと言えるかどうかをチェックすれば良い 5. 無作為性の検定 ( 連検定 ) ある数字列は無作為抽出の標本と考えられるだろうか ( ばらつき方に規則性がないだろうか ) 主な検定 無作為性の検定 ランダムならば 大きい方の値と小さい方の値は同じような確率で出てくるはず Yasushi Asami 33 Yasushi Asami 34 基本的な考え方 中央値よりも大きい値を大 小さい値を小とすると 大も小も1/の確率でサンプリングされるはず 大 ( 小 ) が続きすぎるのはおかしい 大と小が入れ替わりすぎるのもおかしい 大や小がどのくらい続くかに着目することで無作為性をチェックできる その数列を つに分ける値 ( 例えば中央値 ) を m として m より上ならば +,m より下ならば - と書く (+ の数 =n 1,- の数 =n ) 同一種類の記号の連なりを連という r= 連の総数 r が大きい場合 ( 交互に上下 ) や 小さい場合 ( まとまっている ) は無作為とは言い難い そこで r の上限と下限の臨界値が数表となっておりそれで検定できる n 1, n が大きい場合は次のように正規近似して検定すればよい μ r =n 1 n /(n 1 +n )+1 σ r =n 1 n (n 1 n -n 1 -n )/[(n 1 +n ) (n 1 +n -1)] Yasushi Asami 35 Yasushi Asami 36 6

連検定用 [ 例 ] 5 1 6-1 -5-3 -1 6 3 - -1-3 4-1 -1-5 + + + + + - - + - - + + - - - + + - - - 1 3 4 5 6 7 8 r=8 n 1 =5+1++=10, n =++3+3=10 r*(10,10,α)=6, r**(10,10,α)=16 r*<r<r**(α=0.05) H 0 : 無作為 は棄却されない 山内二郎 ( 編 )(1977) 簡約統計数値表 日本規格協会より Yasushi Asami 37 Yasushi Asami 38 F 検定に代わる方法は? F 検定では 分散の違いに着目 中央値からの離れ方に着目すればよい 主な検定したい内容 1 つの集団のばらつきは等しい? Siegel-Tuke 検定 6. ばらつき度の違いの検定 (Siegel-Tuke 検定 ) つのグループ X, Y のばらつきは同じ程度といえるだろうか Yasushi Asami 39 Yasushi Asami 40 アイデア : これまで習った方法の有効利用 μ X =μ Y を仮定する X, Y の標本を大きさの順に 1 4 5 8 7 6 3 と外側から順位をつけるこれで順位和検定を行えばよい [ 例 ]X: 1,, 5, 9,15,1 Y: 4, 8,10,11,1,16 H 0 : ばらつきは同じ 順位付け X X Y X Y X Y Y Y X Y X +--+--+--+--+--+--+--+--+--+--+--+ 1 4 5 8 9 10 11 1 15 16 1 1 4 5 8 9 1 11 10 7 6 3 X: 1, 4, 8,1, 6, n 1 =6 R=33 Y: 5, 9,11,10, 7, 3 n =6 R*(6,6,α)=8, R**(6,6,α)=50 R*<R<R** H 0 は棄却されない ばらつき度は違うとは言えない Yasushi Asami 41 Yasushi Asami 4 7

検定に代わる方法は? 検定では 離散的な階級における度数の違いに着目 累積分布で分布間の離れ方に着目すればよい 主な検定したい内容 1 つの分布は等しい? Kolmogorov-Smirnov 検定 7.Kolmogorov-Smirnov 検定 つの母集団 X と Y から無作為に標本をとったところ X: x 1, x,, x m Y: 1,,, n となった この つの母集団の分布は同じと言えるか? Yasushi Asami 43 Yasushi Asami 44 まずは 標本累積分布を求める F m (x) = [x 以下の {x 1, x,, x m } の数 ]/m G n () = [ 以下の { 1,,, n } の数 ]/n これは階段状の関数となる つのもとの分布が等しいならば このつはさほど大きな違いがないはず そこで その最大差を求める Dm,n = sup x F m (x)-g n (x) つの母集団の累積分布関数が等しいという帰無仮説のもとで D m,n に応じた確率値が統計表として示されている Yasushi Asami 45 Yasushi Asami 46 数値例 柳川尭 (198) ノンパラメトリック法 培風館より 注意 : この数表では m=n の場合のみ使える X:1,,3,5,7,9,11,13,14,15 Y:4,6,8,10,1,16,17,18,19,0 X と Y の母集団は同じ分布? Yasushi Asami 47 Yasushi Asami 48 8

柳川尭 (198) ノンパラメトリック法 培風館より 差が最大なのは D 10,10 =5/10( 値が15~16) P 0 {D 10,10 >5/10}=0.1678 つまり十分にまれな現象とは言えない 帰無仮説を棄却できない ( つまり つの母集団の分布が違うとは言い切れない ) Yasushi Asami 49 Yasushi Asami 50 まとめ ノンパラメトリック検定手法は 以下にもとの分布の性質を仮定しないで いかに検定に持ち込めるかという工夫を凝らした手法が多い 順序関係が保存されることを最大限に用いているものが多い 工夫次第で 新たな方法を 発明 することもできる分野 Yasushi Asami 51 Yasushi Asami 5 9