Microsoft PowerPoint - statistics-12B.pptx

Similar documents
EBNと疫学

統計学 - 社会統計の基礎 - 正規分布 標準正規分布累積分布関数の逆関数 t 分布正規分布に従うサンプルの平均の信頼区間 担当 : 岸 康人 資料ページ :

_KyoukaNaiyou_No.4

情報工学概論

第 3 回講義の項目と概要 統計的手法入門 : 品質のばらつきを解析する 平均と標準偏差 (P30) a) データは平均を見ただけではわからない 平均が同じだからといって 同一視してはいけない b) データのばらつきを示す 標準偏差 にも注目しよう c) 平均

<4D F736F F D208EC08CB18C7689E68A E F193F18D8095AA957A C C839395AA957A814590B38B4B95AA957A2E646F63>

基礎統計

Microsoft PowerPoint - statistics pptx

<4D F736F F D208EC08CB18C7689E68A E F193F18D8095AA957A C C839395AA957A814590B38B4B95AA957A2E646F63>

モジュール1のまとめ

不偏推定量

Microsoft Word - å“Ÿåłžå¸°173.docx

統計的データ解析

Microsoft Word - Stattext12.doc

スライド 1

<4D F736F F D208EC08CB18C7689E68A E F AA957A82C682948C9F92E82E646F63>

ビジネス統計 統計基礎とエクセル分析 正誤表

第4回

Microsoft PowerPoint - e-stat(OLS).pptx

統計学の基礎から学ぶ実験計画法ー1

スライド 1

Microsoft PowerPoint - stat-2014-[9] pptx

Microsoft Word - appendix_b

(3) 検定統計量の有意確率にもとづく仮説の採否データから有意確率 (significant probability, p 値 ) を求め 有意水準と照合する 有意確率とは データの分析によって得られた統計値が偶然おこる確率のこと あらかじめ設定した有意確率より低い場合は 帰無仮説を棄却して対立仮説

Microsoft PowerPoint - 基礎・経済統計6.ppt

母平均 母分散 母標準偏差は, が連続的な場合も含めて, すべての個体の特性値 のすべての実現値 の平均 分散 標準偏差であると考えてよい 有限母集団で が離散的な場合, まさにその意味になるが, そうでない場合も, このように理解してよい 5 母数 母集団から定まる定数のこと 母平均, 母分散,

講義「○○○○」

青焼 1章[15-52].indd

データ解析

相関係数と偏差ベクトル

Microsoft PowerPoint slide2forWeb.ppt [互換モード]

Microsoft PowerPoint ppt

第7章

Microsoft PowerPoint - statistics pptx

Python-statistics5 Python で統計学を学ぶ (5) この内容は山田 杉澤 村井 (2008) R によるやさしい統計学 (

Microsoft PowerPoint - 測量学.ppt [互換モード]

<4D F736F F D2090B695A8939D8C768A E F AA957A82C682948C9F92E8>

Microsoft Word - Stattext07.doc

Excelによる統計分析検定_知識編_小塚明_5_9章.indd

Microsoft PowerPoint - statistics pptx

自動車感性評価学 1. 二項検定 内容 2 3. 質的データの解析方法 1 ( 名義尺度 ) 2.χ 2 検定 タイプ 1. 二項検定 官能検査における分類データの解析法 識別できるかを調べる 嗜好に差があるかを調べる 2 点比較法 2 点識別法 2 点嗜好法 3 点比較法 3 点識別法 3 点嗜好

様々なミクロ計量モデル†

Microsoft PowerPoint - Lecture 10.ppt [互換モード]

経済データ分析A

講義ノート p.2 データの視覚化ヒストグラムの作成直感的な把握のために重要入力間違いがないか確認するデータの分布を把握する fig. ヒストグラムの作成 fig. ヒストグラムの出力例 度数分布表の作成 データの度数を把握する 入力間違いが無いかの確認にも便利 fig. 度数分布表の作成

Medical3

Microsoft PowerPoint - Inoue-statistics [互換モード]

Microsoft PowerPoint - sc7.ppt [互換モード]

経営統計学

スライド 1

カイ二乗フィット検定、パラメータの誤差

Probit , Mixed logit

Microsoft Word - Stattext13.doc

Microsoft Word - apstattext04.docx

多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典

数値計算法

Microsoft Word - Stattext11.doc

Microsoft PowerPoint - Statistics[B]

確率分布 - 確率と計算 1 6 回に 1 回の割合で 1 の目が出るさいころがある. このさいころを 6 回投げたとき,1 度も 1 の目が出ない確率を求めよ. 5 6 /6 6 =15625/46656= (5/6) 6 = ある市の気象観測所での記録では, 毎年雨の降る

PowerPoint プレゼンテーション

はじめに Excel における計算式の入力方法の基礎 Excel では計算式を入力することで様々な計算を行うことができる 例えば はセルに =SQRT((4^2)/3+3*5-2) と入力することで算出される ( 答え ) どのような数式が使えるかは 数式

ii 2. F. ( ), ,,. 5. G., L., D. ( ) ( ), 2005.,. 6.,,. 7.,. 8. ( ), , (20 ). 1. (75% ) (25% ). 60.,. 2. =8 5, =8 4 (. 1.) 1.,,

経済統計分析1 イントロダクション

Microsoft Word - lec_student-chp3_1-representative

森林水文 水資源学 2 2. 水文統計 豪雨があった時, 新聞やテレビのニュースで 50 年に一度の大雨だった などと報告されることがある. 今争点となっている川辺川ダムは,80 年に 1 回の洪水を想定して治水計画が立てられている. 畑地かんがいでは,10 年に 1 回の渇水を対象として計画が立て

Microsoft PowerPoint - データ解析基礎4.ppt [互換モード]

Microsoft PowerPoint - statistics08_03.ppt [互換モード]

PowerPoint プレゼンテーション

Microsoft PowerPoint - 資料04 重回帰分析.ppt

RSS Higher Certificate in Statistics, Specimen A Module 3: Basic Statistical Methods Solutions Question 1 (i) 帰無仮説 : 200C と 250C において鉄鋼の破壊応力の母平均には違いはな

PowerPoint プレゼンテーション

Medical3

切片 ( 定数項 ) ダミー 以下の単回帰モデルを考えよう これは賃金と就業年数の関係を分析している : ( 賃金関数 ) ここで Y i = α + β X i + u i, i =1,, n, u i ~ i.i.d. N(0, σ 2 ) Y i : 賃金の対数値, X i : 就業年数. (

Kumamoto University Center for Multimedia and Information Technologies Lab. 熊本大学アプリケーション実験 ~ 実環境における無線 LAN 受信電波強度を用いた位置推定手法の検討 ~ InKIAI 宮崎県美郷

Microsoft Word - 保健医療統計学112817完成版.docx

タイトルを修正 軸ラベルを挿入グラフツール デザイン グラフ要素を追加 軸ラベル 第 1 横 ( 縦 ) 軸 凡例は削除 横軸は, 軸の目盛範囲の最小値 最 大値を手動で設定して調整 図 2 散布図の仕上げ見本 相関係数の計算 散布図を見ると, 因果関係はともかく, 人口と輸送量の間には相関関係があ

Microsoft PowerPoint - Econometrics pptx

<4D F736F F D208EC08CB18C7689E68A E F1939D8C E82E646F63>

<4D F736F F D208D A778D5A8A778F4B8E7793B CC A7795D2816A2E646F6378>

3章 度数分布とヒストグラム

数値計算法

目次 1 章 SPSS の基礎 基本 はじめに 基本操作方法 章データの編集 はじめに 値ラベルの利用 計算結果に基づく新変数の作成 値のグループ化 値の昇順

JMP による 2 群間の比較 SAS Institute Japan 株式会社 JMP ジャパン事業部 2008 年 3 月 JMP で t 検定や Wilcoxon 検定はどのメニューで実行できるのか または検定を行う際の前提条件の評価 ( 正規性 等分散性 ) はどのメニューで実行できるのかと

13章 回帰分析

統計学 Ⅱ( 章 ( 区間推定のシミュレーション 母平均 μ の区間推定 X ~ N, のとき X T ~ 自由度 1の t分布 1 自由度 -1のt 分布の97.5% 点 :t.975 P t T t この式に T を代入する t.975 母集団

<4D F736F F D208EC08CB18C7689E68A E F1918A8AD695AA90CD2E646F63>

3章 度数分布とヒストグラム

Microsoft PowerPoint 確率レジュメA

Microsoft Word - 微分入門.doc

禁無断転載 第 3 章統計的手法に用いられる分布 All rights reserved (C) 芳賀 第 1 節我々の身の回りにある代表的分布と性質 1. 分布の表わし方我々の身の回りにある全てのものは ばらつきを持っています 収集したデータを分析していくためには このばらつきがどのような分布にな

Excelによる統計分析検定_知識編_小塚明_1_4章.indd

Microsoft PowerPoint - R-stat-intro_12.ppt [互換モード]

ANOVA

Microsoft Word - mstattext02.docx

スライド 1

日心TWS

Microsoft PowerPoint - A1.ppt [互換モード]

MT2-Slides-13.pptx

ii 3.,. 4. F. (), ,,. 8.,. 1. (75% ) (25% ) =9 7, =9 8 (. ). 1.,, (). 3.,. 1. ( ).,.,.,.,.,. ( ) (1 2 )., ( ), 0. 2., 1., 0,.

(Nov/2009) 2 / = (,,, ) /8

Transcription:

医療統計 -1 (01/10/4) 統計学の基礎となる確率の考え と 統計的 法を理解し 様々なデータを統計的に解析できる能 を養う 1. 確率モデルの考え が分かる. 確率分布の性質を理解できる 3. 正規分布の応 ができる 4. 標本の抽出 法を説明できる 5. 実際の医療データを基にした検定ができる 確率の学問 統計学の基礎は確率 (Probability 何かの現象の起こりやすさの数値 ) 確率の研究は賭博の研究 (16C カルダーノ 17C パスカル ) から始まり 19C ラプラスの古典的確率論を経て 1933 コルモゴロフの公理的確率論で学問的に確 された 公理的確率論では ( 他の現代数学と同様 ) 確率 が何を意味しているのかという問題は追求せず 確率 が満たすべき性質をいくつか規定し その性質から導くことのできる定理を突き詰めていく学問である Wikipedia(slide-7 参照 ) Gerolamo Cardano 1501-1576 Blaise Pascal 163-166 Pierre-Simon Laplace 1749-187 Andrey Nikolaevich Kolmogorov 1903-1987 伊藤清 ( 京 )1915-008 確率と微積分の融合理論を築いた 融 学の基礎となった 013/1/1 Nara University of Education 1 013/1/1 Nara University of Education 医療統計 統計 =Statistics 統 ( すべて ) を計 ( はか ) る Statistics show that the population of this city has doubled in ten years. 統計によればこの市の は 10 年で 倍になった. 統計学 とは集団の特徴を ( その 部のデータから ) 明らかにする しようとする 学問 ( 集団全体を調べることはできないので 推定 がどうしても ること したがって ある確率で誤りがありうることを認める ) 医療統計の 的 疫学研究 臨床研究におけるデータの集め や整理の仕 そのための理論 技法 解析 法といった 法論 健康影響 臨床試験 医薬品の安全対策 などなど ルートの計算できる電卓 (100 円ショップにある ) を各 意してください = で逆数が計算できると便利です ( 3 = 0.3333 となるものです : 普通は 1 になります ) 013/1/1 Nara University of Education 3 013/1/1 Nara University of Education 4

統計処理とは 記述統計と推測統計 統計処理とは 測定された ( バラバラな ) データの中から定量的な情報を取り出すための 法をいう 身長測定 男子 女子 176 150 166 155 180 149 170 160 17 16 190 170 155 156 169 160 177 151 平均 17.8 157.0 分散 84.6 40.7 男子 女子 155 150 166 149 169 151 170 155 17 156 176 160 177 160 180 16 190 170 00 190 180 170 160 150 140 00 190 180 170 160 150 140 0 5 10 0 5 10 男子 女子 男子 女子 平均値分散 ( ばらつきの程度 ) データ 集団 抽出 視覚的表現 推定 標本 記述統計の 法 並べ替え 作表 グラフ化 代表値 ( 平均値 中央値 ) 散布度 ( 分散 標準偏差 ) 相関関係データの特性を要約して伝えることが 的 推定統計の 法 点推定 区間推定 検定標本から 集団の特性を推測することが 的 集団 (population: 多くの の意味から ) 013/1/1 Nara University of Education 5 013/1/1 Nara University of Education 6 確率 (probability) 新 児の男 XY( ) か XX( )? (X と Y が対等であれば ) P( )=P( )=1/ 古典的確率 確率 (probability) の公理 事象 (event: 起きたことがら ) を A と書き その確率 P(A) は 1. P(A) は0 1の範囲の数. P(0): 何も起きない確率 =0 3. P(ALL): 何かが起きる確率 =1 4. 排他的 (Exclusive) な事象 AとBについて P(A or B)=P(A)+P(B) 経験的には P( ) が 0.5116 経験的 ( 統計的 ) 確率 0.5+0.5=1 0.49999+0.49999+0.0000=1 どちらも上の公理は満たしている 013/1/1 Nara University of Education 7 013/1/1 Nara University of Education 8

誤差 (error) と偏り 測定値 = 正しい値 +- 誤差 +- 偏り 精度 (Accuracy: 盛りの細かさ ) 偏り (bias) 測定 法の問題異なる測定 法のデータの 較には注意を要する 標本抽出の問題本当にランダムに選ばれているか? 誤差は きいが偏りは少ない 精度 : 低い誤差 : 数センチ 精度 : い誤差 : 数 mm 誤差は さいが偏りが きい 013/1/1 Nara University of Education 9 013/1/1 Nara University of Education 10 データの処理の 語 1) ソート (sorting: 並べ替え ) 並べ替える (SORTING: 昇順 降順 ) 度数分布 (HISTOGRAM) 平均値 (AVERAGE) 中央値 (MEDIAN) 最頻値 (MODE) 偏差 (DEVIATION) 分散 (VARIANCE) 標準偏差 (STANDARD DEVIATION) 昇順 (Ascending Order) さいものが先 降順 (Descending Order) きいものが先 サンプル番号 圧 No.1 115 No. 131 No.3 1 No.4 113 No.5 15 No.6 19 No.7 118 No.8 1 No.9 134 No.10 116 No.11 136 No.1 118 No.13 16 No.14 131 No.15 14 No.16 133 No.17 11 No.18 10 サンプル番号 圧 1 No.38 96 最 値 No.37 103 No.19 109 No.48 10 5 No.17 11 中央値 6 No. 11 No.8 11 No.43 134 50 No.11 136 最 値 中央値 (median)= 平均値ではないデータが偶数なら 平均をとる 013/1/1 Nara University of Education 11 013/1/1 Nara University of Education 1

度数分布 5mmHg および 10mmHg 区間で集計し ヒストグラムを作る 最頻値 (mode) 14 p 15 区間の中央 p=14.5 を最頻値とする 1 10 8 6 4 0 集計 95-99 100-104 105-109 110-114 115-119 10-14 15-19 130-134 135-139 Excel による計算実習 粗データ ( 新 児体重 100 ) について 平均値 中央値を求めなさい 度数データ表 (00g-slice) を作りなさいそれから最頻値を求めなさい http://cent5.nara-edu.ac.jp/stat/ からデータ ( 新 児 100 ) をダウンロードする 013/1/1 Nara University of Education 13 013/1/1 Nara University of Education 14 Excel ( 並べ替え ) 1) A/B 列全体を選択し ) データ 並べ替え 3) 最優先キーは 体重 (B 列 ) ) データ 並べ替え 4) 順序は 昇順 Excel ( 最 値 最 値 中央値 ) 読み取った値を プリントに記 してください 1)A/B 選択 3) 優先キー 4) 昇順 013/1/1 Nara University of Education 15 013/1/1 Nara University of Education 16

Excel ( 総和と平均値 ) 1) 10 に 総和 と書き ) Σボタン (Auto-SUM) で 体重の総和を求める 3) 103 に 平均 と書き =B10/counta(B:B101) と する (counta= 空 でないデータの個数 ) Excel (AVERAGE 関数 ) Excel の関数を使って ワンタッチで平均値を求める 1) 104 に 確認 と し ) 数式 関数の挿 統計 から AVERAGEを選択 3) 対象となるデータの範囲をドラッグする ) ) ) 013/1/1 Nara University of Education 17 1) 013/1/1 Nara University of Education 18 Excel ( 度数表とヒストグラム ) いろいろな 法はある ( らしい ) が ピボットテーブル を使ってみる 1) 表の中のどこか ( 左上 ( 番号 )) をクリックしてから ) 挿 ピボットテーブル Excel ( ピボットテーブル作成 ) 3) 範囲が表全体を含んでいる (A1:B101) ことを確認し 4) 配置する場所は 既存のワークシート 場所 図のこのあたりにして [OK] 013/1/1 Nara University of Education 19 013/1/1 Nara University of Education 0

Excel ( ピボットテーブル - 集計 ) 5) 体重 を ラベル は 6) 番号 を Σ 値 欄にドラッグすると 集計表ができる Excel ( ピボットテーブル - グループ化 ) 7) 体重 のセルを右クリックし グループ化 を選択する 8) 先頭の値 に 00( 最 値以下で切れのよい数字 ) 9) 単位 を 00 とする末尾の値はそのままでよい これで 00g でスライスした度数分布表ができる最頻値は 3000 300 の中 の値とする 013/1/1 Nara University of Education 1 013/1/1 Nara University of Education Excel ( ヒストグラム ) 10) 度数分布表から ヒストグラムができる ( 隙間の無い棒グラフを選ぶ ) Excel ( 技 ) 等差数列 ( 規則的に増減する数字 ) を 1 5 100 10 99 つ以上 数字を し 全体を選択し 右下のフィルハンドル ( ) を下にドラッグする 1 5 100 10 99 3 15 98 4 0 97 5 5 96 6 30 95 7 35 94 8 40 93 9 45 9 10 50 91 ある範囲の数をすべて掛ける =PRODUCT( 範囲 ) 数式 関数の挿 [PRODUCT] 368800=PRODUCT( 範囲 ) 013/1/1 Nara University of Education 3 013/1/1 Nara University of Education 4

医療統計 - (01/10/11) 以下の 葉の意味 計算の 法を 熟知 する 平均 (Average Mean) 分散 (Variance) 標準偏差 (Standard Deviation:σ) 特に 分散 =σ 逆に σ = 分散 相関係数 (Correlation Coefficient) 回帰直線 (Regression Line) 分散 (Variance) n 個のデータ (x i ) の平均値を x h とすると 平均との差 x i -x h を偏差 (deviation) という Σ(x i -x h ) /n を分散 ( 偏差の 乗の平均 :variance); 今は 葉だけ :Σ(x i -x h ) /(n-1) を不偏 (un-biased) 分散という 分散の平 根を標準偏差 (σ シグマ :standard deviation) という 以下のデータの分散と σ を で計算しなさい データ番号値偏差偏差 No.1 40 No. 50 No.3 60 No.4 70 No.5 80 データ番号値偏差偏差 No.1 50 No. 55 No.3 60 No.4 65 No.5 70 データ番号値偏差偏差 No.1 56 No. 58 No.3 60 No.4 6 No.5 64 和 和 和 013/1/1 Nara University of Education 5 平均 =60 分散 = σ= 平均 =60 分散 = σ= 平均 =60 分散 = σ= 013/1/1 Nara University of Education 6 分散 =σ 分散とは ( 偏差の 乗 ) の平均 標準偏差 σ とは ( 分散 ) のこと 分散 と 標準偏差 σ は どちらかが分かれば 他は計算できる分散 =σ σ= ( 分散 ) ひょうじゅんへんさ は書くのも うのも い! そこで 分散 =σ と うことがある ex 分散が 3.0 である とは 分散が 9.0 であり 標準偏差が 3.0 であることを同時に表現している 分散 : 別の計算 法 -1 (x i -x h ) の 乗の和 を以下のように計算する ( x i x i x i x x i h ) x x x nx h h i h ( nx x h h ) nx h データの 乗の和 - 平均値の 乗 * データ個数となる 計算が 段階減っている プリントに計算結果を記 しなさい データ番号値値 No.1 40 No. 50 No.3 60 No.4 70 No.5 80 和 平均 =60 値の 乗の和は = 分散 = σ= 013/1/1 Nara University of Education 7 013/1/1 Nara University of Education 8

分散 標準偏差 :Excel 関数 後でこういう関数を使う (excel007) 今 は で計算するので使わなくてよい =VARP( ) variance-p 分散 =Σ(x i -x h ) /N ( データの個数 ) =VAR( ) 不偏分散 =Σ(x i -x h ) /(N-1) =STDEVP( ) standard-deviation-p 標準偏差 = ( 分散 ) =STDEV( ) 不偏標準偏差 = ( 不偏分散 ) 偏差値 (deviation score) 偏差値とは ( 偏差 / 標準偏差 σ)*10+50 と定義される 平均値なら偏差値は 50 点平均値 +σ なら 60 点 +σ なら 70 点 -σ は 40 点 以下の空欄の偏差値を計算しなさい データ番号値偏差偏差値 データ番号値偏差偏差値 Excel010 では また別の名前になっているのでややこしい 多くの統計の問題では 不偏分散 不偏標準偏差を使うことが多いので そちらに簡単な名前が付いている 集団 (Population) から抽出したデータを扱う場合 ( 不偏 ) を使う 集団 = データの全体の場合 P の付いた関数を使う No.1 40-0 No. 50-10 No.3 60 0 50 No.4 70 +10 No.5 80 +0 平均 =60 σ= No.1 50-10 No. 55-5 No.3 60 0 50 No.4 65 +5 No.5 70 +10 平均 =60 σ= 013/1/1 Nara University of Education 9 013/1/1 Nara University of Education 30 次元データ 新 児の 体重データから散布図 (scatter plot) を作りなさい 番号 身長 体重 No.1 46.0 700 No. 49.5 30 No.3 50.0 3360 No.4 50.0 3500 No.5 49.0 310 No.6 50.0 3160 No.7 53.0 4150 No.55 50.0 330 No.56 49.0 930 No.57 50.0 330 No.58 48.0 60 No.59 47.5 860 No.60 48.0 530 4500 4000 3500 3000 500 000 1500 44.0 46.0 48.0 50.0 5.0 54.0 が きいと体重も きいという 傾向 が読み取れる 体重 Excel ( 散布図を作る ) http://cent5.nara-edu.ac.jp/stat/ からデータ ( 新 児体重 100 ) をダウンロードする 1) と 体重 の列を選択する ) 挿 散布図 ( マーカーのみ ) 3) 縦軸をクリックし 軸の書式設定 から 最 値を 1500 とする 013/1/1 Nara University of Education 31 013/1/1 Nara University of Education 3

Excel ( 散布図のスタイル変更 ) グラフのレイアウト を変更してみる 1) グラフのどこかをクリックすると グラフツール が表 されるので ) グラフのレイアウト から 3) 以下のような表 を選んでみなさい x の分散 (variance) は Q x =Σ(x i -x h ) /n y の分散は Q y =Σ(y i -y h ) /n xy の 共分散 covariance を Q xy =Σ(x i -x h )(y i -y h )/n として 相関係数を r= Q xy / (Q x *Q y ) と定義する (correlation coefficient) Q xy <0 Q xy >0 Q xy <0 Q xy >0 Q xy <0 Q xy >0 4) 軸ラベル の 字を例えば 体重 に変更してみる Y h Q xy >0 共分散 > 0 r は正 Q xy <0 Y h Q xy >0 Q xy <0 Y h Q xy >0 x h x h x h 共分散 0 r はゼロに近い 共分散 < 0 r は負 Q xy <0 データが 直線なら r= +1 データが 直線なら r= -1 013/1/1 Nara University of Education 33 013/1/1 Nara University of Education 34 相関係数 相関係数を計算する 3 つの 法 r=1 右上がりの 直線 (xでyが決定される) 0<r<1 正の相関 (xが きいほどyも きくなる傾向) r 0 yとxには相関がない ( 無関係 ) -1<r<0 負の相関 (xが きいほどyは さくなる傾向) r=-1 右下がりの 直線 1) 定義に従って x の分散 y の分散 x-y の共分散から計算する ) Excel の関数を =CORREL() を いる 3) Excel のグラフの表 機能を利 する 他にもあると思いますが 上の 3 つを試してみよう 013/1/1 Nara University of Education 35 013/1/1 Nara University of Education 36

相関係数を計算する ( データ ) http://cent5.nara-edu.ac.jp/stat/ から ( 相関係数計算データ ) をダウンロードし 定義に従って 相関係数を計算しなさい ( 答えをプリントに記 ) Excel ( 相関係数を計算する -1) X Y の平均を求め (=average) X,Y の偏差 偏差 ^ から X,Y の分散 共分散を求め (=sum()/5) 相関係数を計算する ( 平 根は sqrt() 関数 ) 013/1/1 Nara University of Education 37 013/1/1 Nara University of Education 38 Excel ( 相関係数を計算する -) http://cent5.nara-edu.ac.jp/stat/ からデータ ( と の :) をダウンロードし Excel の関数 (=CORREL()) を使って 相関係数を求める ( プリントに記 ) 回帰直線 (regression line) X と Y の関係を 1 本の直線で表すとすれば これを 回帰直線 という 1) ここで クリックしてから ) 数式 関数の挿 3) CORREL(Correlation: 相関 ) 関数を選択 4) [ 配列 1] に A 列の数字 5) [ 配列 ] に B 列の数字を選択する 父親 息子 ( 成人 ) 165 176 171 183 181 187 16 165 166 174 169 17 171 17 165 171 177 180 168 183 165 166 17 183 164 173 176 188 16 171 166 173 163 168 174 174 173 176 169 176 y=son 190 185 180 175 170 165 160 160 165 170 175 180 185 X=FATHER 013/1/1 Nara University of Education 39 013/1/1 Nara University of Education 40

回帰直線の定義 ( 参考 ) 最 乗法 データ点との 差 の 乗の和が最 になるよう直線 a,b を決める ( 最 乗法 ) y y=ax+b i 番 のデータ (x i,y i ) と直線 (y=ax+b) との差 i は ( ax b) y i i i y y=ax+b 傾き a 切 ( x x )( y y ) i h i ( xi xh) b y h ax h h x (x i,y i ) の 乗の和が最も さくなるように a,b を決める S i S S 0, 0 a b {( ax b) y } これから 少々 い計算の結果 i i x a ( xi x )( y y ) h i ( xi xh) h b y h ax h 013/1/1 Nara University of Education 41 013/1/1 Nara University of Education 4 回帰直線の引き (Excel) 回帰直線の引き (Excel) 同じデータ ( と : 回帰直線 ) から 散布図 を作る 散布図を書いてから グラフツール レイアウト 近似曲線 線形近似 ( オプション : グラフに式を表 : R- 乗値を表 ) R の値は何を表しているか? 散布図を書いてから グラフツール レイアウト 近似曲線 線形近似 式の表 回帰直線の式と相関係数をプリントに記 し 左図を印刷提出しなさい ( 名 : 番号 ) 013/1/1 Nara University of Education 43 013/1/1 Nara University of Education 44

Why 回帰? 背の い の息 ( たち ) の平均はその ( たち ) より低い 背の低い の息 ( たち ) の平均はその ( たち ) より い 息 の背丈は平均に向かって 回帰 = 復帰 する ( ダーウィンの弟 の研究結果 ) 注意 : 相関係数!= 直線の傾き 様々な相関係数 (r) y(son) a( 傾き )=1 の直線 ( の平均 =( の平均 ) 平均への回帰 a( 傾き )=0.9 の直線 定義できず 直線の傾き (a) とは関係ない 平均への回帰 x(father) 013/1/1 Nara University of Education 45 013/1/1 Nara University of Education 46 BLANK PAGE BLANK PAGE 013/1/1 Nara University of Education 47 013/1/1 Nara University of Education 48

医療統計 -3 (01/10/18) ギリシャ 字に慣れる ( 書き順も ) 様々な確率 (probability) の分布 (distribution) と計算法 確率 離散型 様分布 項分布 ポアソン分布 連続型 様分布 正規分布 指数分布 t 分布 カイ (χ) 乗分布 F 分布 確率 確率変数 ( 回数 個数 etc) 確率変数 ( 体重 etc) 013/1/1 Nara University of Education 49 http://greenkeint.tumblr.com/post/3979586700 http://homepage1.nifty.com/suzuri/gg/ggk001.html 013/1/1 Nara University of Education 50 項分布 (Binomial Distribution) の例 項分布 ( 定義 ) さいころを 10 回振って 6 が 3 回出る確率は? =(1/6) 3 (5/6) 7 * 10 C 3 =0.155 治癒率 1/6 の新薬を 10 に投与した 3 が治る確率は? =(1/6) 3 (5/6) 7 * 10 C 3 結果が YES/NO の 通りある試 を n 回 った時 k 回 YES になる確率 ( 通り = 項 ) がどうなるか? YES( 成功 ) の確率を p( 字 ) とする 従って NO( 失敗 ) の確率は 1-p n 回の試 を って k 回 YES( 成功 ) である確率 P( 字 ) は X=k を確率変数として ( 確率変数は x,x,z,z 等を いる習慣 ) 6 の出る 3 回は 10 回のうちどれでもよいから 10C 3 ( 項係数 ) 倍される X B10(x,1/6) 0 0.161505583 1 0.33011166 0.90710049 3 0.155045360 4 0.05465876 5 0.01303810 6 0.00170635 7 0.00048073 8 0.000018605 9 0.00000087 10 0.000000017 計 1.000000000 B 10 (x,1/6) 0.350000000 0.300000000 0.50000000 0.00000000 0.150000000 0.100000000 0.050000000 0.000000000 0 1 3 4 5 6 7 8 9 10 P[ X k nk k] nck p (1 p) ここで n C k は 項係数 (Combination) で C k n n! k!( n k)! k 回成功する確率は p k 残りは失敗だから (1-p) n-k 成功 失敗の順序は任意なので n C k 倍になる 013/1/1 Nara University of Education 51 013/1/1 Nara University of Education 5

項分布 ( 計算練習 ) 項分布 ( 計算練習 )- P[ k] k nk nck p (1 p) 15% あたりのくじを10 回引いたとき あたりが0 回 1 回 となる確率を計算する 始めに 定義通り計算し ( 項係数 =COMBIN, 乗 =POWER) P(k) を計算する k nk P[ k] nck p (1 p) あたりの確率 (p) 0.15 回数 (n) 10 あたりの数 (k) nck p^k (1-p)^(n-k) P(k) 0 1 1 1 10 0.15 45 0.05 3 10 0.003375 4 10 0.000506 5 5 7.59E-05 6 10 1.14E-05 7 10 1.71E-06 8 45.56E-07 9 10 3.84E-08 10 1 5.77E-09 B3( 回数 ) を選択し [F4] を押し 絶対番地 $B$3 にする $B$3 A6 フィルハンドル (+) をドラッグして 下にコピーする Excel 関数 項係数 nc k =COMBIN(n,k) 乗 p k =POWER(p,k) (1-p) (n-k) =POWER(1-p,n-k) n は定数だから絶対指定 [F4] p は定数だから絶対指定 [F4] 013/1/1 Nara University of Education 53 013/1/1 Nara University of Education 54 項分布 (BINOMDIST 関数 ) Excel 関数 BINOMDIST(Binomial-Distribution) で計算し 前スライドの P(k) との 致を確かめる あたりの確率 (p) 0.15 回数 (n) 10 A6 $B$3 あたりの数 (k) nck p^k (1-p)^(n-k) P(k) BINOMDIST 関数 0 1 1 0.1968744 1 10 0.15 0.316169 45 0.05 0.74905 3 10 0.003375 0.305771 4 10 0.000506 0.3771495 5 5 7.59E-05 0.4437053 6 10 1.14E-05 0.50063 7 10 1.71E-06 0.61415 8 45.56E-07 0.75 9 10 3.84E-08 0.85 10 1 5.77E-09 1 分布の値は FALSE とする 013/1/1 Nara University of Education 55 $B$ ポアソン (Poisson) 分布の例 平均 5 本の電話が掛かってくる に 本も掛かってこない確率は? 10 本掛かってくる確率は? λ=5 として P( x) e X( 回数 ) P(x):λ=5 0 0.0067379 1 0.0336897 0.08443 3 0.1403739 4 0.1754674 5 0.1754674 6 0.1468 7 0.1044449 8 0.065780 9 0.036656 10 0.018138 ここまでの計 0.9863047 15 0.000157 0 0.0000003 x x! 0.000000 0.1500000 0.1000000 0.0500000 P(x):λ=5 0.0000000 0 1 3 4 5 6 7 8 9 10 11 013/1/1 Nara University of Education 56

ポアソン (Poisson) 分布とは ポアソン (Poisson) 分布 - 計算練習 ある時間内に平均 λ 回起こる事象が その時間内に x 回起こる確率 P(x) 前ページの例 : 平均 5 本の電話が掛かってくる に 時間の範囲を 1 として 平均 λ=5 本も掛かってこない確率は?x=0 10 本掛かってくる確率は?x=10 として P( x) e x x! 交差点の の通 量 お店に来るお客の数 WEB のアクセス件数 単位 積に落ちる 粒の数 1 光年内の恒星の個数 etc e A exp(a) exponential(a) と読む ( 仏 ) 数学者 Siméon Denis Poisson 1781-1840 013/1/1 Nara University of Education 57 平均 分に 1 回電話がかかってくるとする 10 分間に 0 回 1 回 10 回,0 回 電話がかかってくる確率は? 10 分間では平均 5 回なので P(x) の式で λ=5 x=0,1, とする 10 分平均 λ 5 e^(-λ) 0.006738 回数 (x) λ^x x! P(x) 0 1 1 0.006738 1 3 4 5 315 10 0.175467 6 7 8 9 10 0 9.53674E+13.439E+18.64E-07 P( x) e 013/1/1 Nara University of Education 58 x x! 1) 計算式通りに計算する exp() fact() ) 関数 POISSON() でも計算し確認する 計算練習 - 計算練習 -3 関数 POISSON Excel 関数 ) 関数 POISSON() でも計算し 確認する e x =EXP(x) P( x) e x x! false 階乗 Factorial X!=FACT(X) 0 1 1 0.006738 1 3 4 5 315 10 0.175467 6 7 8 9 10 0 9.53674E+13.439E+18.64E-07 013/1/1 Nara University of Education 59 013/1/1 Nara University of Education 60

項分布 ( 極限 ) ポアッソン分布 希な現象を 量に観測するとポアッソン分布になる (19 世紀プロシア軍で に蹴られて死ぬ兵隊の数がポアソン分布になる という研究があった ) 平均 5 本の電話が掛かってくるとする ある 1 秒間に電話が掛かってくる確率 P=5 本 /4 時間 *60 分 *60 秒 =0.000058 故に ある 1 秒間に掛かってこない確率は 1-P=0.99994 従って (86400 秒 ) に 10 本掛かってくる確率は 項分布を いて 86400C 10 * (0.000058) 10 *(1-0.000058) 86390 この式で N=86400 が きく p=0.000058 が さいことを いると λ=5 x=10 として 右の式になるということが される P( x) e 式の導出は http://ja.wikipedia.org/wiki/%e3%83%9d%e3%8%a%e3%8%bd%e3%83 %B3%E5%88%86%E5%B8%83 等にある 013/1/1 Nara University of Education 61 x x! 確率 の分布 (distribution) 様分布から正規分布へ 1 個 場合の数確率 1 0.1667 1 0.1667 3 1 0.1667 4 1 0.1667 5 1 0.1667 6 1 0.1667 確率の和 6 1.0000 個 の和 場合の数確率 10.07777778 3 0.055555556 4 30.083333333 5 40.111111111 6 50.138888889 7 60.166666667 8 50.138888889 9 40.111111111 10 30.083333333 11 0.055555556 1 10.07777778 確率の和 36 1.000000 確率 0.000 0.1500 0.1000 0.0500 0.0000 0 1 3 4 5 6 7 確率 013/1/1 Nara University of Education 6 0.18 0.16 0.14 0.1 0.1 0.08 0.06 0.04 0.0 0 0 1 3 4 5 6 7 8 9 10 11 1 13 の和 これを 様分布 (Uniform) という 多くのデータは正規分布に近づく 正規分布 (Normal Distribution) contents 3 個 の和 場合の数 確率 3 1 0.004630 4 3 0.013889 5 6 0.07778 6 10 0.04696 7 15 0.069444 8 1 0.097 9 5 0.115741 10 7 0.15000 11 7 0.15000 1 5 0.115741 13 1 0.097 14 15 0.069444 15 10 0.04696 16 6 0.07778 17 3 0.013889 18 1 0.004630 確率の和 16 1.000000 確率 0.140000 0.10000 0.100000 0.080000 0.060000 0.040000 0.00000 の和 0.000000 0 1 3 4 5 6 7 8 9 1011113141516171819 ラフな い だが たくさん集めるとなんでも正規分布になる = これを 中 極限定理 という 標準正規分布関数平均 =0 分散 =1 f ( x) 1 exp( x ) 013/1/1 Nara University of Education 63 013/1/1 Nara University of Education 64

正規分布に慣れるために =exp 関数に慣れる 数 e と関数 e x e=.7 188 188 45904 ( 然対数の底 ) という 複利計算 1 (1 1) 年利 100% で1 年間の元利 1 (1 ).5 年利 50% で 年間の元利 1 3 (1 ).37037... 3 1 10 (1 ) 10 1 (1 ) 100 1 N (1 ) N.59374... 100.704813...7188188459.. e 年利 10% で 10 年間の元利 年利 1% で 100 年間の元利 利率 年数 =1 で 年数が の極限値が e である 013/1/1 Nara University of Education 65 1 e (1 ) N e x (1 x N N ) N 1 1 1 1....71881884 59.. 0! 1!! 3! 0 1 3 x x x x ここでn!=n*n-1* 1... 0! 1!! 3! 但し 0!=1!=1とする 微分しても積分しても 分 と等しい関数 = e x d dx x e x e x e dx e x 解析学 ( 微分積分学 ) において最も重要な関数 013/1/1 Nara University of Education 66 e x 数学でもっとも重要な関数 e x と e -x 微分すると 分 になる ( 故に積分しても同じになる ) e x d dx (1 e x x N ) N 1 1x 0 1! 1 Euler( オイラー ) の公式 e e ix i cos 1 0 1 3 x x x x... 0! 1!! 3! 1 31 0 1 3 x 3 x x x x x x...... e! 3! 0! 1!! 3! x i sin x スイス : Leonhard Euler, 1707-1783 X exp(x) -x^ exp(-x^) -6.0 0.0048-36.00 0.0000000000-5.5 0.00409-30.5 0.0000000000-5.0 0.00674-5.00 0.0000000000-4.5 0.01111-0.5 0.0000000016-4.0 0.0183-16.00 0.000000115-3.5 0.0300-1.5 0.0000047851-3.0 0.04979-9.00 0.000134098 -.5 0.0808-6.5 0.0019304541 -.0 0.13534-4.00 0.0183156389-1.5 0.313 -.5 0.10539946-1.0 0.36788-1.00 0.367879441-0.5 0.60653-0.5 0.7788007831 0.0 1.00000 0.00 1.0000000000 0.5 1.6487-0.5 0.7788007831 1.0.7188-1.00 0.367879441 1.5 4.48169 -.5 0.10539946.0 7.38906-4.00 0.0183156389.5 1.1849-6.5 0.0019304541 3.0 0.08554-9.00 0.000134098 3.5 33.11545-1.5 0.0000047851 4.0 54.59815-16.00 0.000000115 4.5 90.01713-0.5 0.0000000016 5.0 148.41316-5.00 0.0000000000 5.5 44.69193-30.5 0.0000000000 6.0 403.4879-36.00 0.0000000000 プリントに e x e -x のグラフを で書きなさい exp(x) 10 9 8 7 6 5 4 3 1 0 6.0 4.0.0 0.0.0 4.0 6.0 exp( x^) 1.00 0.90 0.80 0.70 0.60 0.50 0.40 0.30 0.0 0.10 0.00 6.0 4.0.0 0.0.0 4.0 6.0 013/1/1 Nara University of Education 67 013/1/1 Nara University of Education 68

x exp( なぜ? ) dx.506.. 確率の総和 = 積を 1 にするために 標準正規分布関数を以下で定義する f ( x) 1 exp( x ) 頂点 =1 このカーブの下の 積.506 頂点 0.4 このカーブの下の 積 =1 x なぜ? 変曲点が =+1/-1 となるように f ''( x) 1 ( x x 1) exp( ) 般の正規分布の場合原点から変曲点までの距離が σ( 標準偏差 ) となる -1 上に凸 0 +1 下に凸 013/1/1 Nara University of Education 69 013/1/1 Nara University of Education 70 般の正規分布の式 μ: 平均,σ: 標準偏差 N(0,1) 標準正規分布 (μ=0 σ=1) f ( x) 1 exp( 0 1 x ) グラフを μ ずらす 1 ( x ) f ( x) exp( ) μ N(μ,σ ) 値は 1/σ 倍する σ グラフの下の 積はどちらも 1 に等しい 幅を σ 倍する 正規分布の μ と σ 1 ( x ) N(μ,σ ) f ( x) exp( ) 平均が μ であるとは確率変数 x の値を分布関数で平均すると μ になるということ x f ( x) dx 分散とは確率変数 xと平均の差 ( 偏差 ) の 乗を分布関数で平均した値のこと 計算の結果 σ となる故に標準偏差はσとなる ( x ) f ( x) dx 離散分布の場合 平均は全体の個数 (N) で割るが 正規分布の全体 = 積 =1 なので 積分 (=Σ に相当 ) した値がそのまま平均値になる 013/1/1 Nara University of Education 71 013/1/1 Nara University of Education 7

医療統計 -4 (01/10/5) 般の正規分布の式 正規分布の性質と応 項分布 どのような分布であれ多くの試 を重ねると分布はこの形に近づくことの発 ( ド モアブル ) Abraham de Moivre, 1667-1754 標準正規分布の形 μ: 平均,σ : 分散 ( 標準偏差 ) N(0,1 ) 標準正規分布 (μ=0 σ=1) f ( x) 1 exp( 1 x ) グラフを μ ずらす N(μ,σ ) 1 ( x ) f ( x) exp( ) 値は 1/σ 倍する σ グラフの下の 積はどちらも 1 に等しい 幅を σ 倍する ポアッソン分布 013/1/1 Nara University of Education 73 0 013/1/1 Nara University of Education 74 μ Z 変換 逆に μ: 平均,σ: 標準偏差の正規分布があるとする 変数 Z=(X-μ)/σ は標準正規分布に従う 故に 般の正規分布は 変数 Z を いて N(0,1 ) として処理する N(0,1 ) 標準正規分布 (μ=0 σ=1) f ( z) 1 z exp( ) 1 般の正規分布 (μ σ ) これを Z 変換という ( ) Z X μ N(μ,σ ) 1 ( x ) f ( x) exp( ) σ 確率変数 (x) こちらの関数の形にして処理するのが 般的 すべて この標準正規分布 N(0,1) で処理する N(0,1 ) の正確な形 確率分布 確率変数 (z) 標準正規分布 N(μ=0,σ=1) 標準 (Standard) 正規 (Normal) 分布 (Distribution) 1(σ) 変曲点 (σ) 3(σ) exp( f ( z ) z ) 1 exp( z ) この形の関数をガウス型 (Gaussian) という Gauss によって研究された 正規分布をガウス分布という分野もある 0 確率変数 (z) 013/1/1 Nara University of Education 75 Fridericus Gauss 1777-1855 013/1/1 Nara University of Education 76

確率は 積 問題は つ 縦軸の数値は何を意味するか? z から 積 P を求める 積 P から z を求める 確率分布 z=0 となる確率が 0.4 という意味ではない! 確率変数 z が 0 1 の範囲である確率がこの 積から求まる ( 約 0.34) ということである 曲線の下の 積全体は 1(100%) である ( そうなるように決めたのである ) 確率分布 P( 積 = 確率 ) z が与えられたとき 積 P はいくらか? 0 z の範囲になる確率 P はいくらか? 積が P になるような z はいくつか? 確率が P になるような z の範囲は 0 からどこまで (z) か? 確率変数 (z) どちらも では計算できない表または Excel 関数を いる 標準正規分布 N(μ=0,σ=1) f ( z ) 1 z exp( ) f ( z ) 1 z exp( ) z( 確率変数 ) 013/1/1 Nara University of Education 77 013/1/1 Nara University of Education 78 標準正規分布表 標準正規分布表 ( 続き ) コンピュータが 近にない時代を体験する 0 3 の確率は 0.4987 1) z が 0 となる確率は? ) z が 1 となる確率は?( 引き算 ) 3) 0 z となる確率が 0.31 となる z の値は? (z=0.88 で P=0.3106 z=0.87 で P=0.3078 近い を取りなさい ) Slide-9 に拡 図あります 013/1/1 Nara University of Education 79 013/1/1 Nara University of Education 80

積 ( 確率 ) の表や関数はいろいろあるので要注意 練習 :Excel 関数を利 する 側 両側 0 z 半分 / 倍 -z z 全体が 1 で左右対称 ( 半分は 0.5) を いれば どれかが分かれば 他はすべて求まる z z Z を与えて 積 (P) を求める正規分布表 (+0.5) と 致することを確認する 練習 : 1) 以下の表の Z の値に対応した下側 累積 確率を Excel の関数 NORMSDIST で計算し 記 しなさい ) 同じ z の値での 標準正規分布表 (Slide79-80) の値も記 しなさい 3) この つの値の差はいくらになるか? z 以上 ( 上側 累積 確率 ) -z z 以外 ( 両側 累積 確率 ) Excel の NORMSDIST(z) または NORMDIST(x,μ,σ,TRUE) Normal (Standard) Distribution Z NORMSDIST(Z) 正規分布表 (Z) その差 0 1 3 z 以下 ( 下側 累積 確率 ) 013/1/1 Nara University of Education 81 013/1/1 Nara University of Education 8 例題のための関数 -NORMSDIST 逆問題 積 ( 確率 ) から変数 Z を求める 標準正規分布の下側累積分布関数の値 P( い部分の 積 = 確率 )=NORMSDIST(z) NORMal( 正規分布 ) Standard( 標準 ) DISTribution( 分布 ) 積 ( 確率 ) を与えて 対応する Z を求める 1) 正規分布表から つける ( ぴったりでなければ 補間する ) z から 下側累積の 積 ( ) を求める NORMSDIST(0) 0.5 NORMSDIST(.0) 0.997 z ) Excel の関数 Z=NORMSINV(P) Normal-distribution (Standard) Inverse( 逆 ) 練習 : 下側確率 ( 図の斜線部の 積 ) が下に す値となる z の値を Excel 関数 NORMSINV で求めなさい 下側確率 (P) Z=NORMSINV 0.81 0.8413 0.977 013/1/1 Nara University of Education 83 013/1/1 Nara University of Education 84

例題のための関数 -NORMSINV 般の正規分布 (Z 変換 ) 標準正規分布の下側累積分布関数の逆関数の値 z=normsinv(p= い部分の 積 = 確率 ) NORMal( 正規分布 ) Standard( 標準 ) INVerse( 逆 ) 般の正規分布 N(μ,σ ) の X は Z 変換 Z=(X-μ)/σ <-> X=μ+σ*Z によって標準正規分布 N(0,1 ) になる 対応するグラフの下の 積はどちらも等しい 下側累積の 積が P となる z は? NORMSINV(0.5) 0 NORMSINV(0.95) 1.6449 グラフを μ ずらす 値は 1/σ 倍する 幅を σ 倍する NORMSINV(1.0) ERROR( または ) 確率変数 (z) 0 1 μ μ+σ 確率変数 (x) こちらの Z=1 の下側確率と こちらの x=μ+1 σ の下側確率は等しい 013/1/1 Nara University of Education 85 013/1/1 Nara University of Education 86 般の正規分布 (Z 変換 ) よって 般の正規分布 N(μ,σ ) は Z 変換 Z=(X-μ)/σ によって標準正規分布 N(0,1 ) として処理するのが便利である 例題 : 知能指数 IQ は N(μ=100,σ =15 ) の正規分布にしたがうとして IQ が 150 以上の は何パーセントいるか? Z=(x=150 - μ=100)/(σ=15)=3.33 標準正規分布表 (Slide-80) から Z=3.33 に対応する 積 = 確率は 0.4996 と分かる 故に (Z=3.33 つまり IQ=150) 以上の 積 = 確率は 0.5-0.4996=0.0004 (0.04%) となる ここの 積が 0.4996 x=150 Z=3.33 残りが 0.0004 013/1/1 Nara University of Education 87 逆問題 上位 5% に るための偏差値は? Slide-79 標準正規分布表 を調べると P=0.45 となる z は z=1.64 P= z=1.65 P= から 補間して z= ( 求めよ ) 正確には Excel の関数 ( 下側確率逆関数 ) NORMSINV(P= ) z= ( 求めよ ) 偏差値とは H=z*10+50 のことだから 上のzで計算すると H= となる 故に 偏差値 点以上なら 上位 5% に る NORMSINV の 積は下側累積 正規分布表 の 積はここ ここの 積が 0.05 となる z は? Slide-30 偏差値 =10*( 点数 x ー平均 μ)/σ+50 013/1/1 Nara University of Education 88

正規分布 :Z->P( 順問題 ) 例題 正規分布 :P->Z( 逆問題 ) 例題 1. 確率変数 z が N( 0, 1 ) の正規分布に従うとき,p( 1 z 3 ) を求めよ.. 確率変数 x が N( 1, 36) の正規分布に従うとき,p( 9 x 18 ) を求めよ. ( 分散が 6 である ) 3. 平均値が 60 で標準偏差が 15 の正規分布において, 確率変数 X の値が 75 以上 90 以下となる確率を求めよ. Slide-88 の 法に従って 上位 1% 上位 10% に るための偏差値を計算しなさい表で求める または Excel 関数でも どちらかで計算しなさい 4. ある試験の受験者 1000 の得点の平均は 55 点, 標準偏差は 15 点であった. 得点の分布がほぼ正規分布とみなせるとき, 得点が 85 点の は得点の い から数えて約何 にいるか ( 上位何 % 以内 という答えでもよい ). http://www.geisya.or.jp/~mwm48961/statistics/stddiv1.htm 013/1/1 Nara University of Education 89 013/1/1 Nara University of Education 90 よく る図 標準正規分布表 (0 Z の確率 ) 同じことを っている 平均 +/- σ の範囲に約 95% 平均 +/- 3σ の範囲に約 99% 以上含まれる ということが 切 常 活的には 95% 99% の範囲に っていれば OK であることが多い 物理学の実験では +/- 6 σ (99.9999999%) の確からしさが要求される Higgs 粒 の検出は まだこのレベルに達してはいない 013/1/1 Nara University of Education 91 013/1/1 Nara University of Education 9

医療統計 -5 (01/11/1) 集団 (Population) と標本 (Sample) 無作為に抽出された標本のデータから 集団の性質を推定することが 的 推定 集団 (population) と標本 (sample) 標本が多いほど 集団の性質がより正確に推定できる 標本の数 n を 標本の きさ (size) という 集団 抽出 標本 集団の きさは問題としない 分多ければよい n は平均値が意味がある程度の きさ 数個以上 任意 013/1/1 Nara University of Education 93 013/1/1 Nara University of Education 94 集団の (μ σ) と標本の (m と σ') 統計学によれば 集団の平均 μ 標準偏差 σ とする ( 分かっているとする ) そこから抽出した標本 (n 個 ) の平均値 m の [ 期待値 ] は μ に等しく標準偏差 σ'=σ/ n となる 集団 μ σ 平均 =m'' 平均 =m 平均 =m' m の期待値 =[m]=μ σ'=σ/ n [ 期待値 ]= 試 を無限回おこなったとして 得られる値の平均値のこと 例 (n=3 σ=8cm σ'=4.6cm) 集団 = 全国男 学 として 平均 μ=173cm 標準偏差 σ=8cm が分かっているとする n=( たとえば )3( ) の標本をたくさんとってみる 集団 μ σ σ=8cm 平均 =175 平均 =170 平均 =180 平均 =160 [m]=μ=173cm 標本 (n=3) [m]=μ σʼ=4.6cm σ'=4.6cm きさ 3 の標本の平均値の分布この分散は (8/ 3=4.6cm) となる 013/1/1 Nara University of Education 95 013/1/1 Nara University of Education 96

n=300( ) なら? 逆に n=1( ) なら? 測定値 = 平均値 集団 μ σ=8cm 平均 =173 平均 =17 平均 =174 173cm 標本 (n=300) [m]=μ σʼ=0.48cm 集団 μ σ=8cm 平均 =188 平均?=17 平均 =155 標本 (n=1) [m]=μ σʼ=σ 平均 =175 きさ 300 の標本の平均値の分布この分散は (8/ 300=0.46cm) となる 平均 =175 きさ 1 の標本の平均値 = 測定値の分布は 集団と同じ 標本のサイズを きくすると 平均値の分布のバラツキ ( 分散 = 標準偏差 ) は さくなる 013/1/1 Nara University of Education 97 013/1/1 Nara University of Education 98 まとめると 集団の平均 μ 分散 σ ( 標準偏差 σ) から サイズ n の標本をたくさんとって 平均値の分布をみると 集団 μ σ 標本の平均の 期待値 は μ となり 標本 ( サイズ =n) [m]=μ σʼ=σ/ n 標本の平均値の分布の分散は (σ /n) となる ( 要するに狭くなる ) 標準偏差で えば σ/ n となる n をうんと きくすると ( ) σ は 0 となるつまり 確実に標本の平均値は 集団の平均値になる ということ 中 極限定理 (Central Limit Theorem) 集団 ( 平均 μ 分散 σ ( 標準偏差 σ) から サイズ n の標本をたくさんとって 平均値の分布をみると 平均値 m は正規分布 N(μ,σ /n) となる 標本の平均の 期待値 は μ となり 平均 :μ 分散 : σ N(, ) 平均値は正規分布する 集団が正規分布である必要はない ということがいえる これを中 極限定理という ( 統計学でもっとも基本的な定理 ) n 013/1/1 Nara University of Education 99 013/1/1 Nara University of Education 100

例題 : 標本平均の分散 ( 標準偏差 ) 例題 -1 標本の きさと標準偏差 平均 :μ 分散 : σ 集団の平均体重 μ=55kg 標準偏差 σ=5kg の時 5 のサンプルの体重の平均値 (m) は? 標準偏差 (σ') は? 平均 (μ) 55kg, 標準偏差 (σ)5kg の 集団から, きさ 5(n) の標本を抽出するとき, 標本平均の期待値 [m] と標準偏差 (σ') を求めよ. 定義に従って 求めてください イメージを絵で描いてください サイズ n の標本の平均 :m=μ 分散 :σ' =σ /n N (, ) n 集団の分布 n=5 の標本の平均の分布図 故に標準偏差 σ'=σ/ n 標本の平均値の分布 013/1/1 Nara University of Education 101 013/1/1 Nara University of Education 10 例題 - 逆に 標本から 集団を推定する 集団の平均 150(g), 標準偏差 30(g) の 葱から 100 個の標本を無作為抽出するとき, 標本平均が 145(g) 以下となる確率を求めよ 集団の分布 μ=150 σ=30 n=100 標本抽出 標本平均の分布 [m]=μ=150 σ'= n=100 のサンプルの σ' は? この σ' を使って x=145 を z 変換して z は? この z の値 (+ に直して ) で標準偏差表を ると? 従って x<145 となる確率は? 平均 :? 分散 : σ 集団の標準偏差 (σ) は 何らかの 法で知られているとする ( 分からない場合は 後で扱う ) n のサンプルの の平均値が 170cm であった 集団の平均値はいくらと推定されるだろうか? n 人平均 :170cm 013/1/1 Nara University of Education 103 013/1/1 Nara University of Education 104

標本平均 m から 集団の平均 μ を推定する 集団の平均 μ が 175cm と仮定する μ=165 とすると μ=175 分散 : σ はわかっているが平均 : μ は? ありそう 分散 : σ=8cm 平均 : μ=175cm とする N(, ) n n のサンプルの平均が m(ex 170cm) であったとする 集団の平均 μ を推定してみる nサンプルの平均値の正規分布 m=170 μ=170 可能性 い μ=175 ちょっと可能性は少ない μ=180 ありそうもない 10 サンプルの平均値が 170cm とする このとき 10 のサンプルの平均が170cm 以下となる確率はどの程度か? Z=(170-175)/(8/ 10)=-1.98から左の い確率は約.5% m=170 170 以下あるいは 180 以上である確率は約 5% となる m=170 z=-1.98 8 N( 175, ( ) ) n 10 μ=175 P=0.4761 =95.% z=+1.98 013/1/1 Nara University of Education 105 013/1/1 Nara University of Education 106 逆に考える = 平均の区間推定 まとめると m=170 m=170 約 95% μ<165 μ=175 95% 99% z=1.96 上側確率 =0.05 両側 95% z=-1.98 z=+1.98.58 ' 1.96 ' 1.96 '.58 ' 標準偏差 8cm の 集団から取った 10 のサンプルの平均が 170cm となっているとき 平均が 165cm 以下 または 175cm 以上である確率は 5% 程度である このことを以下のように表現し 区間推定と う 信頼度 95% で 平均は 165cm 175cm である σ=8cm n=10 人とすると σ'=8/ 10=.53cm 信頼度 95% では μ= 170 +- 1.96*.53 165.0~175.0 信頼度 99% では μ= 170 +-.58*.53 163.5~176.5 と表現する z=.58 上側確率 =0.005 両側 99% 013/1/1 Nara University of Education 107 013/1/1 Nara University of Education 108

簡単に うと 信頼度 とは n=10 のサンプル平均 =170cm であった 集団の平均を推定すると 信頼度 95% では 165cm 175cm 信頼度 99% では 163.5cm 176.5cm σ=8cm 95% 信頼区間 99% 信頼区間 013/1/1 Nara University of Education 109 同じ測定を何度も繰り返したとき 測定値がその範囲になる確率 ( 範囲のことを 信頼区間 という ) (1- 信頼度 ) の程度では そうならない確率がある 信頼度が いほど 範囲は広くなる ( 曖昧になる ) 99% 信頼区間 95% 信頼区間 50% 信頼区間 0% 信頼区間 ( ジャストの値 ) 99.9% 信頼区間 信頼度 95% で である とは 同じ測定 ( 抽出 ) を何回 ( 理論的には 回 ) も行ったとき そのようにならないこと ( 誤り ) が 5% で起こりうる ということである 信頼度 100% で言明できることは 母集団の平均値は [- ~ ] ということ 母集団の平均値 = サンプルの平均値 170.00000 cm である という言明の信頼度は 0% である 013/1/1 Nara University of Education 110 平均の推定 - 例題 -1 量の 葱 ( 平均値 =μ= 不明 標準偏差 =σ=30g) から 100 個の標本を無作為抽出して測定したところ, 標本平均 150g となった. 平均 ( 集団の平均 =μ) の 95% の信頼区間を求めよ. σ' = σ/ 100 95% 信頼区間は 150-1.96*σ' <= μ <= 150+1.96*σ' g g 標準偏差 30(g) である 量の 葱から標本を無作為抽出する. 平均の 95% 信頼区間の幅を 3(g) 以下で得るには, 標本の きさを何個にすればよいか 幅が 3 ということは +/-(1.96*σ') が +/-(1.5) になればよい σ'=σ(30)/ n=1.5/1.96 から n= 故に n = 個 ( 以上 ) 区間推定のパターンを覚える サイズ n のサンプルの平均値 m から 集団の平均値 μ の範囲を推定する 集団 μ? σ n 個のサンプル 集団の標準偏差 σが分かっていれば それを使う分からなければ サンプルの標準偏差 * を 集団のσとみなして 95% 信頼度では μの範囲 ( 区間推定 ) は m 1.96 n 99% 信頼度では μの範囲 ( 区間推定 ) は m.58 n m 信頼度が いほど 範囲は広くなる ( 曖昧になる ) http://www.geisya.or.jp/~mwm48961/statistics/sample1.htm 013/1/1 Nara University of Education 111 * サイズ n>30 程度なら これでよい ( この標準偏差は 不偏分散 (n-1 で割るほう ) から計算するのが better 013/1/1 Nara University of Education 11

課題 信頼区間のパターン 1. ある町の 学校 1 年 男 から 50 を無作為抽出して調べたところ, 平均 は 116.8cm であった. この町の 学校 1 年 男 の平均 について信頼度 95% の信頼区間を求めよ. また 信頼度 99% ではどうか? なお, 同年に われた全国調査で, 学校 1 年 男 の の標準偏差は 4.97cm であった. 95% 5% z=1.645 側 99% 1% z=.36 95% 99%. 学校 1 年 男 の の標準偏差は 4.97(cm) であることが分かっているとき, ある町の 学校 1 年 男 の平均 を信頼度 95% で +/-1cm の誤差 ( 幅 cm) で求めるには, 標本の きさを何 にすればよいか. z=-1.960 5% z=1.960 両側 z=-.576 1% z=.576 95% 99% 013/1/1 Nara University of Education 113 013/1/1 Nara University of Education 114 正規分布表 (z: 側確率 ) Appendix ( 公式の導出 ) 母集団平均 :μ 分散 : σ 定理 : サイズ n の標本の [ 平均値 ] の分散は 集団の分散の 1/n になる N(, ) n x x 1 E( V ( )) n n E( ): 期待値 V( ): 分散 1 E( V ( x1) V ( x) ) ne( V ( x)) n n n n 1 1 n 個の標本の平均値の分散は 標本の抽出が無作為なら お互いに相関がないので 各確率変数の分散の和になる ( 共分散 ( 積 ) にあたる項は 0 になるから ) 極端なケースとして 集団全部をサンプルとして取れば (n ) 確実にサンプルの平均値は μ になり 分散はあり得ない (σ /n 0) 013/1/1 Nara University of Education 115 013/1/1 Nara University of Education 116

医療統計 -6 01/11/8 区間推定のパターン ( 復習 ) 区間推定の復習 集団 n 個のサンプル z=0(m=μ) 集団 n 個のサンプル μ? σ 既知 m σ'=σ/ n 95% μ? σ 既知 平均 m P(-1.96<z<1.96)=95% z 変換 z=(m-μ)/σ' から P(-1.96σ'<(m-μ)<1.96σ')=95% つまり m-1.96σ'<μ<m+1.96σ' である確率が 95% である と解釈し この範囲を 95% 信頼区間という z=-1.96 z=+1.96 mの分布 集団の標準偏差 σが分かっているとき 95% 信頼度では μの範囲 (95% 信頼区間 ) は 99% 信頼度では μの範囲 (99% 信頼区間 ) は m 1.96 n m.58 n 狭い 広い m 99% なら 1.96.58 とする 013/1/1 Nara University of Education 117 013/1/1 Nara University of Education 118 集団の σ がわからない場合の区間推定 種類の 標準偏差 1/n か 1/(n-1) か 集団 μ? σ? n 個のサンプル 平均 m (x1,x,x3 ) 集団 μ σ n 個のサンプル 平均 m (x1,x,x3 ) 簡便な 法 1) サンプルデータ (x1,x ) から単純に 標準偏差 (s) を求めて ( xi m) s それを 集団の標準偏差 (σ) とみなして ( 推定して ) n 前スライドの式を適 ) サンプルデータから 不偏標準偏差 (u) を求めて それを 集団の標準偏差 (σ) とみなして 以下同 3) 由度 n-1 の t- 分布 ( 後述 ) を適 し 区間推定する 統計的に信頼性の い 法 ( 信頼区間は広くなる = 間違える危険が少なくなる ) ( サンプル数が多くなると どれでも同じような結論になる ) u ( xi m) n 1 標準偏差 (σ) σ =Σ(xi-μ) /N (N: 集団全体 ) 1) 標準偏差 (s) s ( xi m) / n ) 不偏標準偏差 (u) u ( xi m) /( n 1) 集団の標準偏差 (σ) の推定値としては 不偏標準偏差 (u) の が統計学的により妥当とされる (u > s) (xi-μ)=(xi ー m)+(m-μ) から 平均との分散 = 標本平均との分散 + 平均の差の 乗 σ > s (sはσの推定値としては さい) 1 1 ( xi ) ( xi m) ( m ) n n Excel 関数では分散 (s )=VARP 標準偏差 (s)=stdevp 不偏分散 (u )=VAR 不偏標準偏差 (u)=stdev 単純な に P=Population( 集団 ) が付くことに注意 ( サンプル = 集団そのものと なす ということ ) Variance: 分散 Standard Deviation: 標準偏差 013/1/1 Nara University of Education 119 013/1/1 Nara University of Education 10

集団の σ がわからない場合の区間推定 : 例題 繰り返しになるが 区間推定のパターンをまとめると 前スライドの 1) と ) を実 してみる Data ファイル Book-3-STDEV/STDEVP サイズ n のサンプルの平均値 m から 集団の平均値 μ の範囲を推定する 集団から 4 個のサンプルを得た 平均の 99% 信頼区間を計算しなさい No X 偏差 偏差 ^ 1 35.9 43.9 3 51. 分散 (s^) 標準偏差 (s) 4 35.3 不偏分散 (u^) 不偏標準偏差 5 36.7 6 49.4 VARP STDEVP 7 39.5 VAR STDEV 8 59.6 平均 9 43.8 10 3.9 11 36.0 1 43.0 13 41.9 14 44.6 15 47. 16 56. 17 45.6 18 47.7 19 38.1 0 51.8 1 4.3 46.6 3 35.5 4 3.4 和 43.1 0) 偏差の 乗の和を求め 1) 分散の定義から s と s を求め ) 不偏分散の定義から u と u を求め 3) 対応する Excel 関数の値と 致を確認する 4) σ=s としたときの区間推定 ~ 5) σ=u としたときの区間推定 ~ ちなみに t- 分布を いると [39.1~47.4] となる 013/1/1 Nara University of Education 11 集団 μ? σ? n 個のサンプル 1. 集団の標準偏差 σ が分かっている場合 それを使って 標本平均の標準偏差 σ' = σ/ n として これまでのパターンを適 して区間推定する. 集団の標準偏差が不明の時 かつ標本数 n が 30 程度以上なら n 個の標本の標準偏差 ( 不偏標準偏差 *) を 集団の標準偏差 σ と なして以下同じく σ'=σ/ n として 上と同じパターンで処理する 3. 集団の標準偏差が不明 かつ標本数 n が 30 程度以下なら後述の t- 分布を いて区間推定を う * 不偏分散 不偏標準偏差とは n で割る代わりに (n-1) で割って求めた値である (Slide-6) 013/1/1 Nara University of Education 1 率の推定 yes/no の 率 ( 項分布 正規分布 ) t- 分布の話の前に 別パターンの推定について学ぶ それは Yes/No の 率 ( 率 ) を推定すること 集団の 持率 =p yes yes no yes n に聴いたところ 持率は R でした 集団の 持率 p はいくらの範囲と推定できるか? Yes の 率 =p No の 率 =(1-p) の 集団がありそこから n 個のサンプルを取るとする そのうち k 個が yes である確率は 項分布 (Slide-5) で計算できるが n がある程度 きい場合 ( 数 以上 ) Yes の 率の期待値 ( 平均 ) は p であり Yes の 率の分散は σ' =p(1-p)/n の正規分布となることが分かっている (Appendix) 率 =p yes yes no p yes サンプルでの 持率 =R / 体重のような連続的な変数ではない 集団において占める割合を 率 (p), 標本において占める割合を標本 率 (R) という. 標本 率 (R) を調べることにより, 率 (p) を推定することができる. yes の 率 R の期待値 = 率 p 分散 σ' =p(1-p)/n yesの 率 N( p,( p(1 p) / n) 013/1/1 Nara University of Education 13 013/1/1 Nara University of Education 14

率はわからない ( 調べたいことなので ) 率 p は調べたいことそのものなので σ' は計算できない σ' =p(1-p)/n 例題 & 練習 3600 を無作為に抽出して聞いたところ 持は 000 だった 集団の 持率 p の範囲を推定しなさい そこで サンプルでの 率 R を代わりに いて σʼ の推定値とする σ' =p(1-p)/n R(1-R)/n この σ' を いて 率 (p) の区間推定を う yes 率 =p yes no yes n=3600 サンプルの 持率 R=000/3600=0.5556 から σʼ= (R*(1-R)/n) = (0.5556*0.4444/3600)=0.0083 95% 信頼度では p の範囲は R 1.96 ' R +/- 1.6% (53.9 57.%) 99% 信頼度では p の範囲は R.58 ' R +/-.1% (53.4 57.7%) yes の 率 R の期待値 = 率 p 分散 σ' =R(1-R)/n サンプル 率 R (=3/4) yesの 率 N( p,( R(1 R) / n) 013/1/1 Nara University of Education 15 p では 360 に聞いたところ 持は00 だった 集団の 持率 p の範囲を推定しなさい n=360 サンプルの 持率 R=00/360=0.5556 σʼ= (R*(1-R)/n) = 95% 信頼度では p の範囲は R 1.96 ' R +/- % ( % %) 99% 信頼度では p の範囲は R.58 ' R +/- % ( % %) 013/1/1 Nara University of Education 16 課題 -1 量の 葱から 100 個の標本を無作為抽出して検査したところ, 不良品が 5 個あった. 集団の不良率を 95% の信頼度で推定せよ. 標本 率も未確定の場合 ここまでの例では 調査を実施して サンプルのパーセンテージ (R) が分かったとして 集団のパーセンテージ (p) を推測するということであった で 調査の設計 という課題がある たとえば 新薬の有効性 ( 効くか効かないか ) を調べたい. これこれの信頼度で推定を うためには何例以上調査すればよいか? 標本の不良率 R=? 標準偏差 σ' を個数 n と R= で表し 下の式に適 する 95% 信頼度では p の範囲は R 1.96 ' R +/- % ( % %) サンプルの 率 (R) も 集団の 率 (p) もわからないのだから σ'= (p(1-p))/ n (R(1-R))/ n を計算できないが x(1-x) は 0<x<1 の範囲で最 で 1/4=0.5 ということを使って次ページのように n を決める 0.3000 P(1-P) 0.000 0.1000 0.0000 0.00 0.50 1.00 1.50 013/1/1 Nara University of Education 17 013/1/1 Nara University of Education 18

調査の設計 ( 必要な n を決める ): 例題 無作為抽出で世論調査を って, ある政策に対する 持率を調べたい. 信頼度 95%, 誤差の範囲 +/-1% 以内で求めるには何 以上調査すればよいか. 95% 信頼度では p の範囲は +/-(1.96σ') である よって 1.96σ' < 1% (0.01) としたい σ'= (p(1-p))/ n (R(1-R))/ n だが p も Rも分からない ( これから調査するのだから ) とりあえず式変形して n>(1.96/0.01) (p(1-p)) から n>(1.96/0.01) (p(1-p)) p がどんな値 (0 1) でも p(1-p) は 1/4 以下だから n> (1.96/0.01) (1/4)=9604 ( 以上 ) とすれば 丈夫である 0.3000 0.000 0.1000 P(1-P) 0.0000 0.00 0.50 1.00 1.50 課題 無作為抽出で世論調査を って, ある政策に対する 持率を調べたい. 信頼度 99%, 誤差の範囲 +/-1% 以内で求めるには何 以上調査すればよいか. 99% 信頼度では p の範囲は +/-( σ') である よって σ' < 1% (0.01) としたい σ' をサンプル数 nとpを使って表すと となる 故に 0.01> 式変形して n>( / ) (p(1-p)) から n>( / ) (p(1-p)) p は不明であるが どんな場合でも p(1-p) は 1/4 以下だからサンプル数は 以上であればよい YES/No が半々の場合 (p=0.5 p(1-p)=0.5) 番多くの に聞かなければいけない ほぼ全員が YES/No に偏っている場合は もっと少ないサンプルでよいが 最悪のケースでのサンプル数を求めていると うこと 故障率や不良率のように p が さいと なされる場合は もっと少ないサンプル数でよいことになる 013/1/1 Nara University of Education 19 013/1/1 Nara University of Education 130 補 : 項分布と正規分布の関係 項分布とは YES/NO の 通りある試 をn 回 った時 k 回 YESになる確率分布であった YES( 成功 ) の確率をp( 字 ) とすると n 回の試 を って k 回 YES( 成功 ) である確率 P( 字 ) は k nk P[ k] C p (1 p) n k これは n が きくなると μ=np σ =np(1-p) の正規分布に近づく 項分布 正規分布の例題 コインを 100 回投げたとき 表がでる平均回数の 95% 信頼区間を求めなさい p=(1-p)=0.5 だから平均 μ= 回分散 σ = の正規分布となる N( np, np(1 p)) 95% 信頼区間は +/-( )=+/- 約 回 故に 95% 信頼区間は 回 なお 99% では +/-( )=+/- 約 回故に 99% 信頼区間は 回 N( np 50, np(1 p) 5) 013/1/1 Nara University of Education 131 013/1/1 Nara University of Education 13

医療統計 -7 01/11/15 Student の t 分布 による区間推定 集団 m の分布は σ'=(u または s)/ n の正規分布として区間推定 検定を っても 丈夫 Student の t 分布 Guness 社員 W. ゴセット の論 平均値の誤差の確率分布 による (1908) Guiness 社では社員の論 発表を禁 ( 機密保持のため ) そこでペンネーム Student で論 発表 関数の変数として 字 t を いたので (Student の )t 分布という μ? σ? 多くのサンプルが得られる場合 少ない (n<30 程度 ) サンプルしかない場合 m( 標本平均 ), s( 標本標準偏差 ), u( 標本不偏標準偏差 ) m の分布は n-1 の 由度を持つ t 分布 ( 正規分布の補正 ) に従うとして 区間推定 検定を う (t 検定 ) m t u/ n William Gosset 1876 1937 30 未満のサンプルを 標本 30 以上を 標本 と うことがある t 変数の使い は習慣的に x: 普通の正規分布 z: 標準正規分布など 013/1/1 Nara University of Education 133 013/1/1 Nara University of Education 134 Student の t 分布 さいサンプル (n<30 程度 ) から 集団の値を推定する場合に いる 由度が さいと 正規分布からずれる 由度とは (n-1) のこと 由度 30 以上ではほとんど正規分布と 致する t 分布の t 値は 以下の式 m t u/ n 由度 という 葉 変数の個数 マイナス 拘束条件式の数 を数学では 由度 Degree of Freedom という z=1 z=1,x=y たとえば 3 次元空間 x,y,z(3 変数 ) に 式 1) Z=1 を課すと 平 となる 3 変数の 空間 を1 個の式が 拘束 すると になる と うさらに式 ) x=y も課すと 直線となる 3 変数の 空間 を 個の式が 拘束 すると 線 になる と う つまり 3 変数 (x,y,z) に拘束がなければ 空間 ( 由度 =3) 1 個の式で拘束 3-1= の 由度は 個の式で拘束 3-=1 線 の 由度は 1 t μ: 平均 m: 標本平均 u: 標本の不偏標準偏差 n: 標本サイズ ( サンプル数 ) 次式を課すと 平 直線になるが 般の式を課すと 曲 曲線になる 例 x +y +z =1 を課すと 球 になるこの場合でも 由度は同じく ( は 線は 1) と数える 由度 = 由度 =1 013/1/1 Nara University of Education 135 013/1/1 Nara University of Education 136

統計での 由度はなぜ n-1 か? t 分布の定義 サンプル数が n 集団 μ σ n サンプル 変数は x 1,x,x n の n 個 これらに対して 標本の平均値 m=(x 1 +x + +x n )/n という条件 ( 個の式 ) を課すと n 個の変数を拘束することになる x 1 x n が 平均 μ 標準偏差 σ の正規分布に従う独 な確率変数であるとする 標本平均を m とし 標本 ( 不偏 ) 標準偏差を u とすると このとき m t u / n 変数は以下の確率密度関数に従う f ( t) (( 1) / ) (1 ( / ) t ( 1)/ n-1=ν( ニュー )=df=degree of freedom ( 由度 ) / ) f(t) 故に サンプル数 n のとき n-1 が 由度となる これを df (Degree of Freedom) と表す 013/1/1 Nara University of Education 137 この式のどこにも 標準偏差 σ は現れないことが重要 ( ただし ν = n 1 Γ はガンマ関数 *(Appendix)) これは ゴセットによって された ここで t の従う分布を t 分布 ( またはスチューデント分布 ) と呼ぶ ν ( ニュー ) は 由度と呼ばれる この分布は ν によるが もとの正規分布の 数である μ や σ にはよらない この性質から 標本値から 集団の平均値を統計的に推定する区間推定や 集団の平均値の仮説検定に利 できる 013/1/1 Nara University of Education 138 t t 分布の形の基本は 1 (1 t ) t 分布と信頼区間 f ( t) (( 1) / ) (1 ( / ) t 恐ろしそうな関数だが ν=1なら 1 f ( t) c1 (1 t ) ν= なら f ( t) c 定数 c 1,c は 積 =1 にするためにある 1 t (1 ) 3 / ) ( 1)/ (1 t 1 (1 t ) ) f(t) Γ( ガンマ ) 関数 μ? σ? 標本平均 =m 標本不偏標準偏差 =u t=(m-μ)/(u/ n)) n=3 個のサンプル ν=df: 由度 =4-1= n=0 個のサンプル ν=df: 由度 =0-1=19 微妙に形が異なる 頂点の さ 裾の広がりかた 信頼区間が df によって異なる 95% 信頼区間 95% 信頼区間 df= の t 分布 df=19 の t 分布 (Added Later) 正規分布に べて 裾が広い 区間推定 ( 信頼区間 ) は広くなる サンプルが少ないほど信頼区間は広がる ( 当然 ) df=19 の時 95% 信頼区間は +/-(.09) これは正規分布の +/-(1.96) にごく近い df 0 ではほとんど正規分布と形は変わらない 013/1/1 Nara University of Education 139 013/1/1 Nara University of Education 140

t 分布表の t 分布表の - 有意 準 ( 確率 ) 有意 準 由度 (df) 由度で少ないほど裾が広がっている 由度 (df) 由度 = 数 でほぼ正規分布に 致する df=13 なら t=.16 この右の 積は全体の.5% 両側で考えると 5% この右の 積は全体の.5% 両側で考えると 5% Slide-144 由度と有意 準と両側か 側かを決めて 表を る df=1 なら t=1.706 由度 で正規分布と同じになる 95%: +/-1.96 99%: +/-.58 http://www.koka.ac.jp/morigiwa/sjs/td.htm 013/1/1 Nara University of Education 141 http://www.koka.ac.jp/morigiwa/sjs/td.htm 013/1/1 Nara University of Education 14 t 分布表を作ってみる ( では計算できない ) Excel で t の値を求める関数 TINV 両側検定信頼 95% 信頼 99% 自由度確率 確率 df 0.05 0.01 1 3 4 5 6 7 8 9 10 11 1 13 14 15 16 17 18 19 0 1 3 4 5 6 7 8 9 50.0086.6778 100 1.9840.659 00 1.9719.6006 300 1.9679.593 1,000 1.963.5808 正規分布 1.96.58 Excel 関数 TINV( 確率, 自由度 ) によって空欄を計算しなさい Excel 関数 TINV( 確率, 由度 ) 両側確率が 与えられた 確率 になる t の値を計算する 確率 から t の値 なので (T-Inverse( 逆 )) という 課題 : いくつかの値をプリントに書き込みなさい 由度 で正規分布の値 1.96(95%) と.58(99%) になる -t 95%/99% t 両側確率 =5%/1% 由度と有意 準 p( 両側 ) を与えて t 分布表の値を求める tinv(p, 由度 ) t-inverse(t の逆関数 : と読む ) p df tinv(p,df) 0.05 8.306004 0.01 8 3.355387 013/1/1 Nara University of Education 143 013/1/1 Nara University of Education 144

t 分布表の例題 -1 量の答案から 9 枚の答案だけを採点した 集団の平均を信頼度 95% で推定しなさい ( 平均の信頼度 95% の信頼区間を求めなさい という い をする ) 集団の σ がわからない場合の区間推定の 較 Slide-11を思い出す 集団から4 個のサンプルを得た 平均の99% 信頼区間を計算しなさい 集団は正規分布を仮定するが 集団の標準偏差は不明 サンプル数は 30 以下なので t 分布を いる No.1 38 No. 44 No.3 70 No.4 53 No.5 50 No.6 34 No.7 51 No.8 49 No.9 58 平均 49.66667 不偏 SD 10.66536 標本平均 m=49.67 標本不偏標準偏差 u=10.67 t 分布表で 由度 df=9-1=8 両側有意 準 0.05のところを lookupすると t=.306 である 信頼度 (1-0.05=95%) の信頼区間は 49.67(+-).306*10.67/ 9 =49.67(+/-)8.0 ie. 41.4 <= μ <= 57.9 信頼度 99%(p=0.01) なら どうなるか? t= となるから μ=49.67(+/-) [ ] m t u/ n /.306.306 u m/ n No X 1 35.9 43.9 3 51. 4 35.3 5 36.7 6 49.4 7 39.5 8 59.6 9 43.8 10 3.9 11 36.0 1 43.0 13 41.9 14 44.6 15 47. 16 56. 17 45.6 18 47.7 19 38.1 0 51.8 1 4.3 46.6 3 35.5 4 3.4 平均 43.1 標準偏差 (s) 7.09 不偏標準偏差 (u) 7.4 1) 標準偏差 σ= 標本標準偏差 s=7.03 と推定する 正規分布と なして 99% 区間は 43. (+/-).58 7.03/ 4 = 43. (+/-)3.70 ) 標準偏差 σ= 標本不偏標準偏差 u=7.4 と推定する 上と同様に 43.(+/-).58 7.4/ 4= (+/-) 3.81 3) df=3 の t 分布表から 0.01 を つけると t=.807 43.(+/-).807 u/ 4 43.(+/-).807 7.4/ 4= (+/-) 4.14 統計的に信頼度の い 法を いる = 範囲は広くなる = より安全ではある m t u / n m t u / n 013/1/1 Nara University of Education 145 013/1/1 Nara University of Education 146 t 分布の例題 -1 t 分布の例題 - ある製品から標本 10 個を無作為抽出したところ, 重さの標本平均は 148.5(g), 標本 ( 不偏 ) 標準偏差は 3(g) であった. この製品の 平均の信頼度 95% の信頼区間を求めよ n=10 df=9 m=148.5(g) u=3(g) t 分布表で df=9 p=0.05 を引くと t= 信頼区間は m (+/-) / (+/-) (g) [ ] (g) m t u / n ある製品から標本 10 個を無作為抽出したところ, 重さの標本平均は148.5(g), 標本 ( 単純 ) 標準偏差は3(g) であった. (n-1ではなく nで割ったもの ) この製品の 平均の信頼度 95% の信頼区間を求めよ n=10 df=9 m=148.5(g) s=3(g) u=3 (4/3) t 分布表で df=9 p=0.05 を引くと t= 信頼区間は m (+/-) / (+/-) (g) [ ] (g) m t u / m t s / n n 1 s u u s ( x m) n ( x m) n 1 ( n 1) u ns i i n n 1 u なら / n s なら / (n-1) に注意 013/1/1 Nara University of Education 147 013/1/1 Nara University of Education 148

検定 (test testing) とは 集団の平均や分散 ( 標準偏差 ) について 仮説を てて サンプルデータを元に その仮説が成り つかどうか判断することを 検定 という 統計学的仮説検定 statistical hypothesis testing 仮説が正しいと仮定した上で 集団から 実際に観察されたサンプルが抽出される確率を ( 統計学から ) 求め その確率が 分に さければ ( 通常は 5% または 1%) 仮説は成り ちそうもない と判断できる ( 否定形であることに注意 ) 簡単な例 コインを 50 回投げたら 35 回も表が出た このコインはおかしい と いたい 1) コインは正常 (P=1/) だと仮定する ) そのとき 表が 35 回出る確率はいくらか? 正規分布として 平均 :5 回 σ= (np(1-p))=3.536 3) 95% の信頼度で 回数の範囲を求めると 5+-( 1.96*σ) 18 3 回 1.96 95% 1.96 4) 35 回はこの範囲外である 18 回 5 回 3 回 5) ということは 最初の仮定 (P=1/) がおかしい = コインに細 がされていると考えてよい絶対にそうだ ということではない (5% の危険性はある ) 35 回 013/1/1 Nara University of Education 149 013/1/1 Nara University of Education 150 葉の定義 帰無仮説の棄却域と採択域 ( 本 では ) 主張したいことを H1= 作業仮説 = 対 仮説 と う ex 新薬は効果がある 有意 準 5% 採択域 正規分布で両側検定の場合 ( わざと )H1 の反対の仮説を てる これを H0= 帰無仮説 と う ex 新薬の効果はない Null( 無 )Hypothesis( 仮説 ): 最終的に否定したい という気持ち 実験データでは 新薬を投与した 10 中 5 が治癒した ところが 仮説 H0 の元で ( 新薬に効果がないとすれば ) 10 中 5 治癒する確率は 5%( 有意 準 危険率 ) に満たないことが統計的に えるとする このとき 5% の有意 準 ( 危険率 ) で帰無仮説を棄却 (Reject) する という 棄却域 95% 1.96 z 有意 準 1% 棄却域.58 99% z 棄却域 1.96 採択域棄却域.58 棄却 : ききゃく とは 捨てること 採択しないこと 請求をしりぞけること 有意 準 5% とは 誤りをおかす危険率が 5% であること つまり 同様の調査 検定を 100 回 ったとして 5 回程度は得られた結論が誤っている可能性があるということ 有意 準には 5% あるいは 1% がよく いられる 013/1/1 Nara University of Education 151 013/1/1 Nara University of Education 15

簡単な例 -again コインを 50 回投げたら 35 回も表が出た このコインはおかしい と いたい 1) コインは正常 (P=1/) だと仮定する これが 帰無仮説 ) そのとき 表が 35 回出る確率はいくらか? 正規分布として 平均 :5 回 σ= (np(1-p))=3.536 3) 99% の信頼区間は 5+-(.58*σ) 16 34 回.58 4) 35 回はやはりこの範囲外 ( 棄却域 ) である故に 16 回 5 回 34 回 5) " 有意 準 1% でも コインは正常 という仮説は棄却される " と う表現をする 要するに このコインはおかしい ということ 013/1/1 Nara University of Education 153 99%.58 35 回 簡単な例 -again コインを 50 回投げたら 30 回表が出た このコインはおかしい = 対 仮説 と えるか? 1) コインは正常 (P=1/) だと仮定する ( 帰無仮説 ) ) そのとき 表が出る確率の分布を理論的に求めると正規分布として 平均 :5 回 σ= (np(1-p))=3.536 3) 95% の信頼度で 回数の範囲を求めると 5+- 1.96*σ 18 3 回 1.96 1.96 4) 30 回はこの範囲内 ( 採択域 ) である 18 回 5 回 3 回 5) したがって 帰無仮説 ( コインが正常であるということ ) は棄却 = 否定できない ( これ以上に強い主張はしていないことに注意 ) 013/1/1 Nara University of Education 154 95% 採択域 30 回 棄却域 例題 サイコロを 600 回投げて 1 の が 90 回出た. 有意 準 5% として, このサイコロが正しく作られているかどうか判断せよ. t 分布表 両側確率 95% 99% 両側確率 95% 99% 正しいサイコロとは どの が出るか p=1/6 であること 帰無仮説 1 の が出る確率は 項分布では B(n=600,p=1/6) であるが n が きいので N( 平均 =np=100,σ =np(1-p)=9.13 ) の正規分布としてよい (Slide-131) 由度 有意 準 5%(95% 区間推定範囲 ) では 1の が出る回数の範囲は 100 (+/-) = 100(+/-) 回 90 回はこの範囲か? 範囲の外 ( 棄却域 ) なら 有意 準 5% で " サイコロは正しい " を棄却できる 範囲内 ( 採択域 ) なら 有意 準 5% では " サイコロは正しい " を棄却できない と う結論になる ( どちらかに をつけなさい ) 013/1/1 Nara University of Education 155 013/1/1 Nara University of Education 156

医療統計 -8 01/11/ 繰り返しになるが 統計学的仮説検定 statistical hypothesis testing 集団の性質について 仮説を てて サンプルデータを元に その仮説が成り つかどうか判断することを 検定 という 仮説が正しいと仮定した上で 集団から 実際に観察されたサンプルが抽出される確率を求め その値により判断を う その確率が 分に さければ ( 般に 1% または 5%) 仮説は成り ちそうもない と判断できる ( 否定形 = 棄却であることに注意 ) 葉の定義 ( 本 では ) 主張したいことを H1= 作業仮説 = 対 仮説 と う ex 新薬は旧薬より効果がある ( わざと )H1 の反対の仮説を てる これを H0= 帰無仮説 と う ex 新薬と旧薬の効果は同じ Null( 無 )Hypothesis( 仮説 ): 最終的に否定したい という気持ち 実験データでは 新薬投与グループと 旧薬投与グループの ( 何らかの ) 数値データの平均値が ある値だけ異なっていた ところが 仮説 H0 の元で ( 新薬と旧薬の効果に差がなければ ) これだけの異なりが起こる確率は 5% 以下であることが統計学的に ( 統計モデルを いて ) いえるとする このとき 5% の有意 準 ( 危険率 ) で帰無仮説 H0 を棄却 (Reject) する という ( 通常は有意 準を 5% または 1% とする ) 013/1/1 Nara University of Education 157 013/1/1 Nara University of Education 158 仮説検定の 順 帰無仮説のパターンはどれか?( 問題によってパターンはきまっている ) いいたいこと ( 対 仮説 ) 帰無仮説例 平均に差がある 平均に差がない A 薬はB 薬より効果がある 相関がある 相関がない Aの摂取とBの発症に相関あり etc 有意 準はとりあえず5% とする 帰無仮説を仮定して 統計モデル ( 正規分布とかt 分布 ) の 法に従って統計量を (zとか xとか t ) を計算する 例えば Zとする 有意 準と統計モデルで決まる値を表から読み取る Z' とする z >= z' なら 応 有意 準 5% で帰無仮説を棄却 が結論棄却域 さらに有意 準 1% でもこうなるか? 有意 準 1% でも帰無仮説を棄却 と結論 zʼ z < z' なら 有意 準 5% で帰無仮説は棄却できない が結論 有意 準 5% で帰無仮説を採択する と ってもよいこの場合 1% で調べる必要はない ( 棄却されるはずがないから ) 棄却域 結論の述べ H0: 帰無仮説 = A 群と B 群の平均に差はない とする (1) 有意 準 1% で 帰無仮説は棄却できる 有意 準 1% で A 群と B 群の平均には差がある () 有意 準 5% で 帰無仮説は棄却できる 有意 準 5% で A 群と B 群の平均には差がある (3) 有意 準 5% で 帰無仮説は棄却できない 有意 準 5% で A 群と B 群の平均に差があるとはいえない 95% 99% 正規分布 /t 分布 (3) 採択域 () 5% 棄却域 (1) 1% 棄却域 013/1/1 Nara University of Education 159 013/1/1 Nara University of Education 160

100 回に 5 回は間違うけどしょうがない 結論は絶対ではない 集団の状態帰無仮説を棄却しない帰無仮説を棄却する 本当は帰無仮説が正しい場合 正しい判定 1-β 誤り ( 第 1 種の過誤 ) α 本当は対 仮説が正しい場合 誤り ( 第 種の過誤 ) β 正しい判定 1-α 本当は A 薬と B 薬に差はないのに 差がある と ってしまうこと 第 1 種の過誤 (Type-1-error という :α) 本当は差があるのに 差があるとは えない といってしまうこと 第 種の過誤 (Type--error という :β) 有意 準 (α) とは 第 1 種の過誤をおかす確率 ( 危険率 ) と定義されている (1-β) のことを検定 ( 検出 ) という 検定 法の種類 とりあえず 葉だけを記しておきます パラメトリックな検定 法と t 検定 F 検定 分散分析 ノン パラメトリックな検定 法があるカイ (χ) 乗検定 Parametric = Parameter パラメータ = 数 の Parameter = 特徴を す値 (ex 平均値 分散 標準偏差 ) このような値を仮定した検定をパラメトリック検定という ( 般に正規分布や分散が等しいことを仮定する ) 1) 分布が不明の場合 ) そういう値が存在しない場合 ( 定性的データ ) などの場合ノン パラメトリック検定を う 1 3 4 5 すごくよかった よかった 普通 よくない ぜんぜんよくない 3 5 10 3 0 まず パラメトリックな検定から始めます 013/1/1 Nara University of Education 161 013/1/1 Nara University of Education 16 平均値の検定 平均値の検定 ( 例 -1: 正規分布の場合 ) ABC-Farm の出荷タマネギは 1 個 00g 標準偏差の 10g であるとする 集団 μ??? 標本 m ここに 100 個のタマネギがあって 平均 197g であった このタマネギは ABC-Farm の出荷基準に合っていると えるか? (ABC-Farm のものだといってよいか?) 有意 準 5% で検定しなさい 集団 ( 平均 =μ) がある そこから選んだかどうか分からないが 標本が n ヶあり ( 平均 =m) である この標本は 集団から抽出されたものかどうか ( 集団と同じ性質を持つものと ) 判定できるか? 標本の平均 =m が 集団の平均 =μ とかけ離れていれば 怪しい 集団と同じ性質を持つ を 棄却 できる 集団 = 基準品 μ=00g σ=10g 1) この 集団から取り出したものか? 否か? ) 帰無仮説 H0 = この 集団からとりだしたものである とする n=100 m=197g σ'=σ/ n 3) そうであれば μ=00g σ=10g の 集団から得られた 100 サンプルの 95% 区間推定範囲は (+/-)1.96σ' =(+/-)1.96 10/ 100 =(+/-)1.96g から 00(+/-)1.96 [198 0]g 197g は範囲外 = 棄却域になって ならば どの程度離れていたら そういえるのか? 013/1/1 Nara University of Education 163 4) 結論 : このサンプルは 5% 有意 準で 基準に合っている が棄却される 有意 準で 5% で 基準を満たしていない と える 013/1/1 Nara University of Education 164

平均値の検定例 -1- 続 前 Slide の問題を有意 準 1% で検定しなさい 棄却される? されない? 平均値の検定 ( 例 -:t 分布の場合 ) 通常の 事 (A) を与えたマウス ( 集団 ) は 4 週間で 4g になるとする 特別の 事 (B) を与えた 10 匹は以下のようになった ( 平均 7g) この 事 (B) に体重増加の効果があったと えるであろうか? 平均 4g 1) 有意 準 (α)5% で ABC-Farm 基準を満たしている は棄却できた 普通の? 事 (A) ) 有意 準 1% で ABC-Farm 基準を満たしている は棄却できる場合 α1% でも 基準を満たしている を棄却棄却できない場合 α1% では 基準を満たしている を棄却できない どちらですか? 特別の! 事 (B) 平均 7g No.1 9 No. 31 No.3 3 No.4 5 No.5 9 No.6 No.7 31 No.8 8 No.9 5 No.10 7 平均 7 不偏標準偏差 3.1678 013/1/1 Nara University of Education 165 013/1/1 Nara University of Education 166 平均値の検定 ( 例 -:t 分布の場合 - 続 ) 平均値の検定 ( 例 -:t 分布の場合 - 続 ) 帰無仮説 = A でも B でも平均は 4g になる とする B に増進効果はない ということと同じ 平均 4g の 集団から 10 匹を選んで平均が 7g になる確率はどの程度であろうか? という問題になる 標準偏差は不明 サンプル数 30 以下なので 由度 10-1= の t 分布を いると 95% 信頼区間 ( 有意 準 5%) の t の値は t 分布表から t'=.6 前問を有意 準 1% で判定しなさい t= t'= だから t は ( 棄却域?/ 採択域?) である 結論 平均 μ=4 標本平均 m=7 標本不偏標準偏差 u=3.16 n=10 から t=(7-4)/(3.16/ 10)= 3.00 t distribution m t u / n t>t' だから t は棄却域である故に B に効果がない は 5% 有意 準で棄却できる 効果があった と えた 013/1/1 Nara University of Education 167 013/1/1 Nara University of Education 168

平均値の検定の意味の補 率の検定 平均の差だけではなく u( 不偏標準偏差 ) が関係するということは No.1 9 No. 31 No.3 3 No.4 5 No.5 9 No.6 No.7 31 No.8 8 No.9 5 No.10 7 平均 7 不偏標準偏差 3.1678 No.1 6 No. 6 No.3 6 No.4 6 No.5 6 No.6 5 No.7 5 No.8 5 No.9 5 No.10 5 平均 5.5 t=(7-4)/(3.16/ 10)= 3.00 > t'=.6 μ=4 の 集団から 無作為 にはこんなにバラツキの少ないデータが得られるはずがない! 激しく 棄却 される 不偏標準偏差 0.57046 t=(5.5-4)/(0.57/ 10)= 9.00 >> t'=.6 率 =p? 集団の 率 p は こうであって欲しい / こうではないだろうか? と推定値を考える 標本での 率 R を調べた yes 集団の 率が仮定した値 p( 帰無仮説 ) であったとして n 個の標本での 率が R になる確率はどの程度であろうか? それが 極端に さければ 棄却域なら 仮定した 率 p は怪しい 棄却できる ということになる no 標本 率 =R 標本の 率 R は 正規分布に従うことが分かっているから (Slide-165) それを いて判定を う 013/1/1 Nara University of Education 169 013/1/1 Nara University of Education 170 率の検定 ( 例 ) 率の検定 ( 例 - 続 ) ある施策について 持率を調査したところ 40 中 4 賛成であった この施策は過半数の 持を得ている と考えてよいか? 有意 準 5% で検定しなさい H1: p>50% をいいたいので H0: P=50%=0.5 とする (p<=0.5 ではないか? そうだけど これでいいのだ ) p=0.5 を仮定するとサンプルの 率 R は平均 =p=0.5 n=40 σ= (p(1-p)/n) = 0.08 の正規分布になる (Slide-165) p=0.5 R=0.6 z=1.6 R=0.6 は z 変換すると Z=(0.6-0.5)/σ =1.5 率 =p>50%? 013/1/1 Nara University of Education 171 yes 左 (Slide-114) と べて 棄却できない つまり 持は過半数以下 を棄却できない yes yes no R=4/40=0.6 95% 5% no 側 95% の棄却域 z=1.645 何を っているのか? 仮に 率 p が ジャスト 0.5 であったとすると R=0.6 に対応する z 値 ((0.6-0.5)/σ) が 1.6 であり これは 側 5% の採択域である (H0: P=0.05 を棄却できない ) 率が0.5より さくなっていくと正規分布のグラフは左にずれていって zの値は きくなって いずれは棄却域に るが (0.6-p)/0.08 = 1.645 から p=0.47 過半数ではない (P<0.5) という条件では 必ず棄却域に るということはいえない 従って 棄却 はできない 普通にいうと サンプルが 60% 賛成だからといって 集団の過半数が賛成とはいえない となる p<0.5 R=0.6 z=1.6 z=1.645 013/1/1 Nara University of Education 17 95% 5%

率の検定 - 続 t 分布による検定練習 -1 では 400 中 40 賛成であった とすれば結論はどうなるか? 帰無仮説は p<=50% であるが p=50 として計算を う 以下のデータが得られた ( ダウンロード T-TEST-01.xls) 平均は 100 と ってよいであろうか? 検定しなさい ( 有意 準 5% で い 棄却されたら 1% でも う ) 平均 p=0.5 n=400 σ= (p(1-p)/n=0.05 の正規分布だから z=(r-p)/σ=4.0 (Slide-114) 側 95% の棄却域は Z'=1.645 側 99% の棄却域は Z'=.36 較して 有意 準 1% で帰無仮説は棄却される (p=0.5 で棄却されるのだから p<0.5 ならさらに起こりにくい = 棄却される ) 結論は : 有意 準 1% で 持率が半数以下である を棄却 過半数の 持を得ている といえる ( サンプル数が多くなった [40 400] ので σ が さくなり z 値が きくなって 棄却されるようになった ということ ) μ=100 N=5 標本 値 No.1 86 No. 93 No.3 110 No.4 96 No.5 85 平均 (m) 標準偏差 (u) 自由度 (df) t 値 TINV(5%,df) TINV(1%,df) 帰無仮説は 平均 =100 である 結論を 章で いなさい これ以降単に 標準偏差 と った場合不偏標準偏差 u(n-1 で割る ) を指すこととする Excel の STDEV である 013/1/1 Nara University of Education 173 013/1/1 Nara University of Education 174 t 分布による検定練習 - t 分布表 圧降下剤 A と B を同じ対象に投与したデータ ( 最 圧 /mmhg) である ( ダウンロード T-TEST0.xls) B は A より最 圧を下げる効果があるといえるであろうか? 検定しなさい 両側確率 95% 99% 両側確率 95% 99% 最高血圧 (mmhg) 対象 A 投与 B 投与 A-B( 効果の差 ) No.1 133 131 No. 10 11-1 No.3 16 15 10 No.4 145 141 4 No.5 13 18 4 No.6 151 143 8 No.7 147 145 No.8 16 1 4 No.9 139 136 3 No.10 147 130 17 平均 (m) 標準偏差 (u) t 値 TINV(5%,df=9) TINV(1%,df=9) A-B の項 に着 し 帰無仮説は A-B の平均は =0 つまり 効果に差はない として検定を いなさい 検定の過程を し 結論を 章で いなさい 由度 013/1/1 Nara University of Education 175 013/1/1 Nara University of Education 176

おまけ で標準偏差を計算する 平均値 m を求め 偏差の 乗の和 =X として u= (X/n-1) 1) 偏差を計算して 乗するのは 倒 右の式を使えばデータの値の 乗の和を Y として u= ((Y-n m^)/(n-1) ) DATA 偏差 偏差 ^ DATA DATA^ DATA-01 19-34.5 1173.1 19 361 DATA-0 69 15.75 48.1 69 4761 DATA-03 55 1.75 3.1 55 305 DATA-04 3-1.5 451.6 3 104 DATA-05 90 36.75 1350.6 90 8100 DATA-06 64 10.75 115.6 64 4096 DATA-07 46-7.5 5.6 46 116 DATA-08 51 -.5 5.1 51 601 和 46 3399.5 X 和 6084 平均 53.5 53.5 平均 標準偏差.03731 標準偏差.03731 u= (X/(n-1)) Y u= ((Y-n m^)/(n-1)) ( x m) i x i i i i x m x nm mx x nm m x m nm nm i i BLANK PAGE 013/1/1 Nara University of Education 177 013/1/1 Nara University of Education 178 BLANK PAGE BLANK PAGE 013/1/1 Nara University of Education 179 013/1/1 Nara University of Education 180

医療統計 -9 01/1/6 z 変数 t 変数の意味 前回の復習と確認 最高血圧 (mmhg) 対象 A 投与 B 投与 A-B( 効果の差 ) No.1 133 131 No. 10 11-1 No.3 16 15 10 No.4 145 141 4 No.5 13 18 4 No.6 151 143 8 No.7 147 145 No.8 16 1 4 No.9 139 136 3 No.10 147 130 17 平均 (m) 標準偏差 (u) t 値 TINV(5%,df=9) TINV(1%,df=9) 5.3 5.14 3.58.6 3.50 m t? u / n m t? u / n t=-3.6 t=0 t 分布は左右対称だから どちらでもかまわないマイナスではなく 絶対値で考える t=3.6( -3.6 でも ) は 1% 棄却域に っている 結論 : 1% 有意 準で 効果に差がある 圧を下げる効果がある と ってよい t=3.6 t(1% 棄却域 )=3.5 σ が分かれば 正規分布 (z 変数 ) 分からなければ t 分布 (t 変数 ) 標準パターン平均 =0 σ=1( 正規分布の場合 ) 95% 99% の範囲が数値として決められる z 変数 t 変数への変換 z x x t u / n 様々な値の分布を 標準パターン に変換して 1 個の 分布表 を参照できるようにする 夫 (t 分布の場合は 由度毎に分布表があるが ) ( データをコンピュータ処理できる場合 必ずしも必要ではない ) 現実のデータの平均や分散は様々 013/1/1 Nara University of Education 181 013/1/1 Nara University of Education 18 t 分布の応 - 続 - 平均値の差の検定 つの 集団の平均の差を検定する (A) 学校から 10 (B) 学校から 0 選んで を測った 各標本の平均値が異なるからと って A B 学校全体 ( 集団 ) の平均値も異なると えるだろうか? 対応のない検定 (A) と (B) はお互いに無関係な標本 10 に従来の降圧剤を飲んでもらって 圧を測った (A) 少し時間をおき 同じ10 に新開発の降圧剤を飲んでもらって 圧を測った (B) 各平均値の差から 新開発降圧剤の効果を結論できるであろうか? 対応のある検定 (A) と (B) は同じ標本 = 被験者に対するデータ 対応のある場合と無い場合で検定の 法が異なる A 学校 B 学校 A 君 150cm あ君 145 B 145 い 170 C 165 う D え 対応がない場合 従来薬 新薬 差 Aさん 133mmHg 131 B 10 11-1 C 16 15 10 対応がある場合 A B つの 集団について 対応があるとき 対応があるときのt 検定 前回の例 Case-1) Slide-175 対応がないとき 平均の差 F 検定 ( 等分散の検定 ) 分散が等しい ( と なせる ) 時分散が等しくない ( と なせる ) とき A 集団 B 集団 A 集団 B 集団 分散が等しいとき 平均の差 分散が等しいときの t 検定 分散が異なるときの t 検定 (Welch 法 ) 分散が等しくないとき Case-) Case-3) 標は平均の差が 有意であるか偶然か? の検定 013/1/1 Nara University of Education 183 013/1/1 Nara University of Education 184

分散が等しいか? の検定 ( 等分散の検定 ) F 検定 ( 等分散の検定 ) 集団 A 集団 B μ A? σ A? μ B? σ B? μ A? σ A? μ B? σ B? n A m A u A n B m B u B 異なる 集団 A,B の分散 ( 標準偏差 ) が等しいか否かを 標本の値から判定すること 等分散の検定 という 法として 後述の F 検定 を う とりあえずは 分散は等しいと仮定して ( 前 Slide の Case-) うこともある サイズ :n A 平均 :m A 不偏標準偏差 :u A u A >u B とする (u の きい を A と思えばよい ) F 0 =u A /u B という変数は 統計学によれば F 分布という分布に従い 集団の分散 (σ A と σ B ) が等しいか否かの検定は F 分布表 で うことができる n B m B u B 013/1/1 Nara University of Education 185 013/1/1 Nara University of Education 186 F 分布 F 分布表 -1 Fisher の F 分布 左右対称ではない df A =df B =10 のとき df A =( 分 ) 標本の 由度 ( サイズ -1) によって 形が変わる F α α=5% 棄却域 分 の 由度 df A =n A -1 分 の 由度 df B =n B -1 として (u B >u A なら 分 と分 を れ替える ) 0 1 3 4 Ronald Aylmer Fisher 1890 196 有意 準 5% の棄却域の開始位置 F α の表を次スライドに す df B =( 分 ) 013/1/1 Nara University of Education 187 013/1/1 Nara University of Education 188

F 分布表 - df A =( 分 ) F 検定の例 A 小学校 B 小学校 146 145 141 136 151 139 144 14 135 13 146 131 14 145 14 141 153 13 137 15 140 14 143 134 19 137 145 14 サイズ 15 13 自由度 14 1 平均 14.40 139.08 不偏分散 35.6 38.58 標準偏差 5.94 6.1 帰無仮説 : A B の 集団の分散は等しい 有意 準 5% u A =35.8 < u B =38.58 なので F 0 =38.58/35.6 ( きい を分 にする ) =1.094 分 の 由度 =1 分 の 由度 =14 で F 分布表を ると F α =.5 位 ( 由度 1 と 15 の間だから ) F 0 =1.094 は採択域 分散は等しい を棄却できない 等しいものとしてかまわない df B =( 分 ) F α α=5% 棄却域 0 1 3 4 013/1/1 Nara University of Education 189 013/1/1 Nara University of Education 190 F 検定 - 例題 以下の つのグループの 集団の分散に差があるといえるだろうか? 5% 有意 準で F 検定を いなさい 帰無仮説は 各グループの 集団の分散に差はない Group-A Group-B 31 9 9 31 30 3 3 30 8 9 サイズ 6 4 自由度 5 3 平均 9.83 30.50 不偏分散 F0= 各グループの分散 u を求め きい を分 さい を分 にした値 F 0 = 分 の 由度は? 分 の 由度は? F 分布表から 5% 有意 準の基準値 F α = 以上から 結論を述べなさい 差の検定 ( 対応のない場合 -Case-) F 検定によって 両グループの分散に差はないものとしてよいことが分かった (Slide-189) ので いよいよ A 小学校 B 小学校 146 145 141 136 151 139 144 14 135 13 146 131 14 145 14 141 153 13 137 15 140 14 143 134 19 137 145 14 サイズ 15 13 自由度 14 1 平均 14.40 139.08 不偏分散 35.6 38.58 標準偏差 5.94 6.1 両校の 集団の平均に差があるか否かの検定を いたい 標本のサイズは n A +n B =8 平均は 個 (m A m B ) あるので 由度は n A +n B -=6 である 013/1/1 Nara University of Education 191 013/1/1 Nara University of Education 19

Case- 等分散 ) での確率モデル Case-) での確率モデル - 続 つの 集団 (A,B) の平均は異なるかもしれないが分散はひとしいものとする グループ A から n A 個グループ B から n B 個の標本を採ると以下の t 0 は 由度 n A +n B - の t 分布になることが統計学から える t 0 ( n A μ A? σ? A n A ( サイズ ) m A ( 平均 ) v A =u A ( 分散 ) B μ B? σ? n B m B v B =u B ( m AmB ) ( A B ) 1) VA ( nb 1) VB na nb ( n n ) n n 帰無仮説として つの 集団の平均は等しい とする場合は μ A ー μ B =0 とする A B 実際に t 0 を計算する A 小学校 B 小学校 146 145 141 136 151 139 144 14 135 13 146 131 14 145 14 141 153 13 137 15 140 14 143 134 19 137 145 14 サイズ 15 13 自由度 14 1 平均 14.40 139.08 不偏分散 35.6 38.58 標準偏差 5.94 6.1 t 0 1.44 (14.4 139.1) 0 (15 1) 35.6 (131) 38.58 15 13 (15 13 ) 1513 由度 =6 の t 分布表をみて 有意 準 5% では t=.06 有意 準 1% では t=.78 t0=1.44 はどちらよりも さいから帰無仮説 ( 差がない ) は棄却できない 結論有意 準 5% で A と B の平均に差があるとは えない t 0 t 棄却域 013/1/1 Nara University of Education 193 013/1/1 Nara University of Education 194 練習問題 次の 群のデータについて 対応のない t 検定 (Case-/3) を い 集団の平均値に差があるか否かについて述べなさい 標本サイズ 平均値 標準偏差 (u) A 群 13 6. 3.5 B 群 15.9.8 1) 等分散 を確かめるためにF 検定を う uの きい を分 さい を分 とする ( どっちが分? ) F 0 の値はいくつ? 分 の 由度 = 分 の 由度 = でF 分布表 (α= 有意 準 5%) を て F α はいくつ?( ぴったりの項がなければ 番近いところ ) ( 位 ) この つを べて F 0 <F α なら 等分散 としてよい : 確認 練習問題 - 続き ) つの 集団に対する t 検定を う slide-193 サイズ平均値 u V=u A 群 13 6. 3.5 1.5 B 群 15.9.8 7.84 帰無仮説は 集団の平均に差がない (μ A ー μ B )=0 t 0 を計算しなさい ( ご苦労様です )? t 分布の 由度はいくつ? 5% 棄却域のt 値は? 1% 棄却域のt 値は? ( m AmB ) ( A B ) 結論は? t0 ( na 1) VA ( nb 1) VB na nb ( n n ) n n A B A B 013/1/1 Nara University of Education 195 013/1/1 Nara University of Education 196

医療統計 -10 01/1/13 Case-3 異分散 ) での確率モデル A B 群の平均値の差の検定の Case-3 対応があるとき 対応があるときのt 検定 前前回の例 Case-1) Slide-175 対応がないとき F 検定 ( 等分散の検定 ) 分散が等しい ( と なせる ) とき = 等分散分散が等しくない ( と なせる ) とき = 異分散 分散が等しいときの t 検定 分散が異なるときの t 検定 (Welch 法 ) 前回の例 Case-) Slide-19 今回 Case-3) F 検定で A B 群の分散が等しいとは なせない と判断される場合 ( 異分散 ) Welch( ウエルチ ) の t 検定 を う BIOMETRIKA1947 分散の異なる 集団に対する Student 問題 (t 分布 ) の 般化について つの 集団 (A,B) の平均は異なり F 検定によれば分散も異なる ( 同じとは えない ) 場合 Case ) とはここが異なる グループ A から n A 個グループ B から n B 個の標本を採ると 次ページの t 0 は 由度 df の t 分布になることが統計学から える (Welch 1947) μ A? σ A? n A ( サイズ ) m A ( 平均 ) v A =u A ( 分散 ) 帰無仮説として つの 集団の平均は等しい とする場合は μ A ー μ B =0 とする μ B? σ B? n B m B v B =u B 013/1/1 Nara University of Education 197 013/1/1 Nara University of Education 198 Welch の t 検定 Welch の t 検定の計算練習 -1 分散が等しいとは なせない つの群の標本があるとする 標本サイズ平均値分散 (V=u ) A 群 n A m A u A =V A 帰無仮説 : 集団の平均 μa と μb は等しい μ A μb 標本サイズ平均値分散 (V=u ) A 群 n A =100 m A =14 9=3 B 群 n B =50 m B =140 4= Slide-194:A B 学校の データ 但しサイズが きく 分散が さい B 群 n B m B u B =V B 統計学的に 以下の定理がある (B.L. Welch 1947) 変数 t 0 は 由度 df の t 分布に従う t 0 m V n A A A m B V n B B df V n n A V A V na n A A B B V n 1 n B B B 1 A 集団 由度が na+nb- (Case-) ではなく B 集団 半端な数になることが特徴 1) 帰無仮説 :A,B 学校の平均 には差がない ) F 検定を い 等分散 か否かを確かめる u の きい を分 さい を分 とする F 0 の値はいくつ? 分 の 由度 = 分 の 由度 = で F 分布表 (α= 有意 準 5%) を て F α はいくつ?( ぴったりの項がなければ 番近いところ ) この つを べて F 0 <F α なら 等分散 Case- の t 検定? そうでなければ 異分散 としてよい Welch の t 検定? 確認 013/1/1 Nara University of Education 199 013/1/1 Nara University of Education 00

Welch の t 検定の計算練習 - ) Welch の t 検定を うために以下の t 0 と df( 由度 ) を計算する ma mb t0? VA VB n n A B df V A na V A VB na nb 1 n V B nb 1? t 0 = 由度 df= 整数にならないが 番近い整数 = で t 検定を う ( この df は 100+50- とかけ離れた値にはならないことに注意 ) n A B 有意 準 5% 由度 の t 分布表から t α = 約 ( 体 ) 結論 : 14cm と 140cm は近いのに なぜこういう結論になるのか? 考えてみる 013/1/1 Nara University of Education 01 Break 013/1/1 Nara University of Education 0 ノンパラメトリック検定 集団が正規分布していることを仮定できない場合 連続的な変数でない場合 ( 液型 順位データ 選択肢 ) 変おいしいおいしいまあまあまずいとてもまずい A 飯店 10 14 0 4 0 B 堂 8 9 13 1 順位和検定 符号付順位検定 順位相関検定 etc χ( カイ ) 乗検定 χ( カイ ) 乗検定の例 -1 χ 乗検定 YE/NO( 選択肢 ) データの検定 暴露あり 暴露なし 計 疾患発 あり a b a+b 疾患発 なし c d c+d 計 a+c b+d n 観測された値 ( 観測値 ) 的 : 暴露因 ( ウイルス 薬品 放射線など ) と疾病発 に関連があるか? を検定したい 帰無仮説 : 関連がない とする 暴露あり暴露なし計 疾患発 あり (a+b)(a+c)/n (a+b)(b+d)/n a+b 疾患発 なし (c+d)(a+c)/n (c+d)(b+d)/n c+d 計 a+c b+d n 関連がなければ こうなると期待される ( 単なる 例配分 ) 値 ( 期待値 ) 各マス での観測値と期待値の差の 乗 (χ 乗 ) の和を計算し 基準値 ( 有意 準できまる ) より きければ 帰無仮説を棄却 関連がある といってよい 013/1/1 Nara University of Education 03 013/1/1 Nara University of Education 04

観測値と期待値 ( 例えば ) 観測された値 ( 観測値 ) コーヒー 常飲者 コーヒー常飲者 計 不整脈 覚あり 18 17 35 不整脈 覚なし 48 130 558 計 646(81%) 147(19%) 793(100%) χ 乗検定の意味と 順 -1) 項 毎の観測値のデータと ( 帰無仮説を仮定した ) 期待値があるとする 項 1 項 項 n 観測値 (Obs) O 1 O O n 期待値 (Exp) E 1 E E n コーヒーと不整脈 覚は関係ないとする ( 帰無仮説 ) コーヒー 常飲者 コーヒー常飲者 計 不整脈 覚あり 191.4 43.6 35 不整脈 覚なし 454.6 103.4 558 計 646(81%) 147(19%) 793(100%) 35 と 558 を 81% と 19% に 例配分するとこうなる 期待値 これから どのような 順で検定するか? ( 次週に説明します ) 観測値と期待値の差の 乗を期待値で割ったものの総和をカイ 乗という ( O1 E1) ( O E) ( On En) E 1 E カイ 乗 χ は これで 個の変数です E n 013/1/1 Nara University of Education 05 013/1/1 Nara University of Education 06 χ 乗検定の意味と 順 -) 由度 統計学によれば カイ 乗の値は 由度 df によって定まるカイ 乗分布に従う χ 乗検定の意味と 順 -3) カイ 乗分布はこういう形をしている 1) 1 次元パターン 項 1 項 項 n 計観測値 (Obs) O 1 O O n N 由度 乗の和なのでプラス側しかない 変数 =n 個 合計の式 O1+O+ +On=N が 1 個だから 由度 df=n-1 ) 次元パターン 要因あり 要因なし 計 現象あり a b a+b 現象なし c d c+d 計 a+c b+d N 変数 = 個 3 つの合計が決まれば 他は決まるから 由度 df=4-3=1 般に n m 列の項 の 由度は df=(n-1) (m-1) となる Z= χ Slide-136 由度 df とは 変数の個数 -( 必要最 限の ) 条件式の数 013/1/1 Nara University of Education 07 013/1/1 Nara University of Education 08

χ 乗検定の意味と 順 -4) 棄却域 χ 乗検定例 (1 次元パターン ) カイ 乗分布表 p( 有意水準 ) 自由度 0.05 0.01 1 3.84 6.63 5.99 3 7.81 11.34 4 9.49 13.8 5 11.07 15.09 6 1.59 16.81 7 14.07 18.48 8 15.51 0.09 9 16.9 1.67 10 18.31 11 19.68 4.7 1 1.03 6. 13.36 7.69 14 3.68 9.14 15 5.00 30.58 16 6.30 3.00 17 7.59 33.41 18 8.87 34.81 19 30.14 36.19 0 31.41 37.57 EXCEL 関数 CHIINV( 確率 ( 有意 準 ) 由度 ) で計算できる 課題 : p=0.01 の分布表の を Excel で計算して埋めなさい 本 の ABO 式 液型の分布はおよそ A 型 40%,B 型 0%,AB 型 10%,O 型 30% である ある村で献 に応じた者のうち 100 の 液型は次の表のとおりであった この村の住 の 液型分布は, 本 全体の 液型分布とほぼ同じと なしてよいか? A B AB O 計 観測値 (Obs) 37 5 1 6 100 期待値 (Exp) 40 0 10 30 100 帰無仮説 : この村の分布は 本 全体と同じとする 期待値が計算される 由度 =4 変数 -1 合計 =3 A B AB O 計 観測値 (OBS) 37 5 1 6 100 期待値 (EXP) 40 0 10 30 100 (O-E)^/E 0.5 1.50 0.400 0.533.408 χ =.408 Slide-09 のカイ 乗分布表 α=5% 由度 =3 を ると χ α=7.81 従って 有意 準 5% で帰無仮説は棄却できない Observed Expected カイ 乗分布.408 7.81 5% 棄却域 013/1/1 Nara University of Education 09 013/1/1 Nara University of Education 10 χ 乗検定練習 (1 次元パターン ) サイコロを 10 回振ったら 以下のような の出 であった このさいころは 正しい であろうか? ( 正しい とはすべての が 1/6 の確率で出ることであるとする ) 帰無仮説 : このサイコロは 正しく 作られている 目 1 3 4 5 6 計 観測値 (O) 5 7 0 10 13 5 10 期待値 (E) (O-E)^/E 1) 正しい サイコロを10 回振った時の期待値は? すべて ) (o-e) /Eを計算し すべてを加えて χ を求める BLANK PAGE 3) カイ 乗分布表から 由度 df= () 有意 準 5% の χ α は? 4) 棄却域か否か? 5) 結論 : 6) の出 が 下のようであったら χ の値はいくら? 7) この場合の結論は? 目 1 3 4 5 6 計 観測値 (O) 1 18 0 15 4 10 期待値 (E) (O-E)^/E 013/1/1 Nara University of Education 11 013/1/1 Nara University of Education 1

医療統計 -11 01/1/0 カイ 乗検定 ( 次元パターン ) 今 はノンパラメトリック検定の中のカイ 乗分布 ( 次元パターン ) による検定を う 1) 復習 : 先週の 1 次元パターン ある項 の観測値が 何らかの基準となる 率から計算される値 ( 期待値あるいは理論値 ) と整合しているかを判定する = 適合度の判定 ともいう 項 1 項 項 n 計 観測値 (Obs) O 1 O O n N 期待値 (Exp) E 1 E E n N (O-E)^/E χ 由度 N-1 以下の χ によって カイ 乗分布の検定を う ( O1 E1) ( O E) ( n n) E1 E En O E ) 今回は 次元パターン ( クロス集計表 ) 例えば 年代という要因と 映画館によく くという現象には相関があるか? 表側 ( ひょうそく ) を 説明変数 表頭 ( ひょうとう ) を 的変数 ということもあるまた 縦を Factor( 要因 ) 横を Outcome( 結果 ) と呼べる場合もある 縦の項 と 横の項 に何らかの関連があるのか否かを検定することを 独 性の検定 という ( 独 とは 関係がない という意味 ) 帰無仮説としては縦と横の項 は独 つまり 関連がないと仮定して現実のデータの実現確率を統計学的に検定する ということ 表側 表頭 年齢 毎週 1, 回 年数回 かない 計 10 代 1 3 1 7 0 代 5 0 30 代 3 映画をどのくらい に きますか? 013/1/1 Nara University of Education 13 013/1/1 Nara University of Education 14 カイ 乗検定 ( 次元パターン ) 例 -1 カイ 乗検定 ( 次元パターン ) 例 -1 続 例として O( 観測データ ) 肺癌発症 発症 計 喫煙 16 11 7 喫煙 16 7 3 計 3 18 50 64% 36% 帰無仮説 ( 喫煙と発症は無関係 ) E( 期待値 ) 肺癌発症 発症 計 喫煙 17.8 9.7 7 喫煙 14.7 8.8 3 計 3 18 50 (O-E)^/E 肺癌発症 発症 計 喫煙 0.095 0.169 0.63 喫煙 0.111 0.198 0.309 計 0.573 検定は 次のスライドへ 全体としての発症率は 3/50=0.64 これが 喫煙 / 喫煙と無関係なら ( これが帰無仮説 ) 喫煙者の発症数は 7*0.64=17.8 喫煙者の発症数も 3*0.64=14.7 となることが期待される (64% と 36% に 例配分する ということ ) 観測データ (O) と 期待値 (E) の対応するマス について (O-E)^/E を計算し すべての和を取ったものが χ である (0.573) 前スライドからこのデータについて χ =0.573 由度 (df)=(-1)*(-1)=1 カイ 乗分布表 Slide-09 p( 有意水準 ) 自由度 0.05 0.01 1 3.84 6.63 5.99 9.1 3 7.81 11.34 4 9.49 13.8 5 11.07 15.09 6 1.59 16.81 次元パターンの 由度とは 項 A 項 B 計 項 1 a b a+b 項 c d 計 a+c N 変数 (a,b,c,d)= 個 3 つの合計 (a+b,a+c,n) が決まれば 他 (c+d,b+d) は決まるから 由度 df=4-3=1 般に n m 列の項 の 由度は df=(n-1) (m-1) となる Slide-136 由度 df とは 変数の個数 -( 必要最 限の ) 条件式の数 カイ 乗分布 カイ 乗分布表から df=1 有意 準 5% では χ α=3.84 > 0.573 故に 棄却できない結論 : 喫煙と肺癌の発症には関連がない は5% の有意 準で棄却できない 0.573 3.84 (* このデータからは こういう結論になるということです ) 5% 棄却域 013/1/1 Nara University of Education 15 013/1/1 Nara University of Education 16

カイ 乗検定課題 -1 カイ 乗検定課題 -1 続 Slide-05 のデータを書き換えて以下のように る では 対応するデータについて χ を計算してください 測定データ 不整脈自覚あり 不整脈自覚なし 計 コーヒー常飲者 17 130 147 コーヒー非常飲者 18 48 646 計 35 % 558 % 793 帰無仮説 : コーヒーの常飲と不整脈の 覚有無とは無関係 とする このとき サンプル全体として 覚あり の割合は % 覚なし は % これを いて コーヒー常飲者と 常飲者の 覚あり / なし についての 期待される 値を決めてください ( コーヒーの常飲の有無と 不整脈 覚の有無に関係がないとすれば (= 帰無仮説 ) 単に 793 中 35 が不整脈 覚あり 558 に 覚なしということである そうであれば コーヒーの常飲とは無関係に 不整脈の 覚あり / なしの 数が決まるはずである これを 帰無仮説の元での期待値 という ) 測定データ 不整脈自覚あり 不整脈自覚なし 計 コーヒー常飲者? %? % 147 コーヒー非常飲者? %? % 646 計 35 % 558 % 793 O( 実験データ ) 自覚あり 自覚なし 計 Coffee 常飲 17 130 Coffee 非常飲 18 48 (O-E)^/E 自覚あり 自覚なし 計 計 Coffee 常飲 Coffee 非常飲 E( 期待値 ) 自覚あり 自覚なし 計 計 χ Coffee 常飲 Coffee 非常飲計 χ は = 由度は = 有意 準 5% でカイ 乗分布表を ると χ α= 有意 準 1% では χ α= 結論 : 013/1/1 Nara University of Education 17 013/1/1 Nara University of Education 18 カイ 乗検定課題 - カイ 乗の計算 ( の公式 ) 3つの地域から無作為にサンプル調査をした年齢別 構成が以下のようであった これらの地域の年齢別 構成に有意な差があると えるであろうか? 検定しなさい 帰無仮説 : 3つ地域の年齢別 構成に有意な差はない (O) 観測度数 0-4 5-49 50- 計 A 市 1 143 0 384 B 市 43 13 187 36 C 市 56 11 189 366 計 10 396 596 111 (E) 期待値 0-4 5-49 50- 計 A 市 384 B 市 36 C 市 366 計 10 396 596 111 (O-E)^/E 0-4 5-49 50- 計 A 市 B 市 C 市計 検定の過程と結論 χ = df= χ(5%)= χ(1%)= 結論 : 構成に有意な差がある? ない? n m の表からカイ 乗の値 χ を求める 順は理解できたと思います この 順を理解した上で の場合の以下の公式も有 です ( 導出はがんばればできます ) 項 A 項 B 計 項 1 a b a+b 項 c d c+d 計 a+c b+d N(a+b+c+d) ( a d bc) ( a b c d) ( a b) ( c d) ( a c) ( b d) この式を れば 対称性から 表の縦横 ( 表頭 表側 ) を れ替えてもカイ 乗の値は同じであることが分かります (c b としても 値は変わりません ) 計算例として (Slide-15 のデータで ) O( 観測データ ) 肺癌発症 発症 計 喫煙 16 11 7 喫煙 16 7 3 計 3 18 50 (167 1611) 50 0.573 318 7 3 Slide-15 の値と 致します 013/1/1 Nara University of Education 19 013/1/1 Nara University of Education 0

カイ 乗検定課題 -3 カイ 乗検定 Excel 関数 (CHITEST) 運動の量の多少と冠動脈疾患の有無に関して 下のデータについてカイ 乗検定を いなさい 実測データ 冠動脈疾患あり 冠動脈疾患なし 計 運動量少ない 36 49 85 運動量多い 3 75 98 計 59 54 583 χ? 帰無仮説 : 運動の量の多少と冠動脈疾患の有無には関連がない 前スライドの公式によって χ の値は = 由度 df= 有意 準 5% と 1% でのカイ 乗分布表から χ(5%)= χ(1%)= 結論は : 運動量の多少と冠動脈疾患の有無に関して 帰無仮説は棄却される? されない? カイ 乗分布表 Slide-09 p( 有意水準 ) 自由度 0.05 0.01 1 3.84 6.63 5.99 9.1 3 7.81 11.34 4 9.49 13.8 5 11.07 15.09 6 1.59 16.81 013/1/1 Nara University of Education 1 カイ 乗検定の 順を要約すれば 1) 観測値 (O) 期待値 (E) Σ(O-E) /E=χ を計算し ) カイ 乗分布表の 由度 (df) と α=5% 1% 欄を LookUp し χ α を調べる 3) χ が χ α より きければ有意 準 5%/1% で帰無仮説は棄却される 上の ) と 3) を Excel の関数 CHITEST( カイ テスト ) で実 できる O( 観測データ ) 肺癌発症 発症 計 喫煙 16 11 7 喫煙 16 7 3 計 3 18 50 E( 期待値 ) 肺癌発症 発症 計 喫煙 17.8 9.7 7 喫煙 14.7 8.8 3 計 3 18 50 CHITEST 0.449 答え ( 上側確率 ) カイ 乗分布 (df=1) 5% 棄却域 Slide-17の結果ではこの問題でのχ =0.574であった 0.449とは この値より右側の確率 ( 積 ) を表している 0.574 3.84 これが5%(0.05) より 遥かに きいので 棄却域には っていないということになる 013/1/1 Nara University of Education 課題と問題点 課題と問題点 - 続 コホート (Cohort) 研究 実験群と対照群を 意する には ある要因 ( 暴露 ) を与え他 には与えない 腫瘍あり 腫瘍なし 計 暴露 (A 群 ) 5(1.8%) 80 87 暴露 (B 群 ) 6(0.1%) 5043 5049 定期間後症例の発 を 較する ケースコントロール (Case Control) 研究 ( 症例対応研究 ) 腫瘍あり 腫瘍なし 暴露 66 14 暴露 7 15 計 93 9 たまたま 腫瘍のある が 93 ない が 9 いました各々のグループで要因 ( 暴露 ) の有無を ( 事後的に ) 調べたら上の表のようになりました 結果 ( 腫瘍のあるなし ) をみて 要因を事後的に調べる という意味で 後ろ向きの研究 ともいわれる cohort( 英 ) もともとは 古代ローマにおける歩兵隊の単位 疫学では 共通の因 を持った個 の集合という意味で いる ( マウスでもそういう ) ある薬を服 した集団と服 していない集団とに分類し 較すること 等 で因果関係を調べること 実験データの意味がはっきりしている 実験として望ましいが 時間がかかる 費 がかかる 期間の追跡が困難 希にしか起こらない症例の場合 結果が得られないこともある データは得やすい コホート研究に べて 集団との対応が不明確 ここで 使われる検定 法が 1) カイ 乗検定であり ) 次回以降 オッズ 相対リスク などの話題を取り上げる 013/1/1 Nara University of Education 3 013/1/1 Nara University of Education 4

医療統計 -1 013/1/10 リスク とオッズ A HAPPY NEW YEAR カイ 乗検定とは 縦項 A と横項 B が関連があるか否か? を検定すること得られる結論は 関連がある 関連がない ( 独 ) 項 A 項 A 項 B 項 B 項 A(ex 年代 ) と項 B(ex 映画へ く ) はなんでもよい 故に 独 性の検定 という もっと積極的に 要因と結果の因果関係を知りたい特に医学 ( 疫学 ) 分野で関 のあること 危険因 (+) 危険因 (-) 発症 (+) 発症 (-) 危険因 が発症の原因といえるかどうかを知りたい 013/1/1 Nara University of Education 5 013/1/1 Nara University of Education 6 カイ 乗検定で分かること 分からないこと 疫学では 向性が 事 ( リスクとオッズ ) どっちが好き? 邦楽 洋楽 計 若い 10 0 30 若くない 0 40 60 計 30 60 90 χ= 0 どっちが好き? 邦楽 洋楽 計 若い 0 30 30 若くない 60 0 60 計 60 30 90 χ= 90 若さと好みは無関係なら χ の値は さくなる ( 完全に同じ割合なら χ=0) 若い は 必ず 洋楽が好きなら χ の値は きくなる ( 最 ではデータ総数 ) 危険因 (Risk-Factor) 病原菌 放射線 遺伝要因など 結果 (Outcome) 発症 発病など 発症 (+) 発症 (-) 危険因 (+) a b 危険因 (-) c d 慣習上危険因 (Risk-Factor)= 薬品結果 (Outcome)= 治癒でも こう う 発症 (+) に着 して 発症数 (+)/ 全体を RISK( リスク ) 発症数 (+)/ 発症数 (-) を ODDS( オッズ ) という ( 定義 ) どっちが好き? 邦楽 洋楽 計 若い 30 0 30 若くない 0 60 60 計 30 60 90 χ= 90 全く逆の傾向でも χ の値は同じ χ の値は 縦項 と横項 の関連の強さ のみを表す関連の 向性 / 傾向 は されていない 危険因 の (+) と (-) について この値の をリスク (Risk Ratio:RR) オッズ (Odds Ratio:OR) という ( 定義 ) 発症 (+) 発症のリスク 発症のオッヅ 発症 (-) 危険因 (+) a R+=a/(a+b) O+=a/b b 危険因 (-) c R-=c/(c+d) O-=c/d d リスク =R+/R- オッヅ =O+/O- Ratio ( 率 ) レイシオレイショウ /réɪʃoʊ, ʃiòʊ ʃi`əʊ/ リスク / オッヅ どちらも危険因 のあるなしでの発症の起こりやすさの 安になっている 013/1/1 Nara University of Education 7 013/1/1 Nara University of Education 8

リスク (RR) とオッズ (OR) 例を る 前向きと後ろ向き研究 例 腫瘍発症 (+) 発症リスク 発症オッズ 腫瘍 発症 (-) 放射線暴露 (+) 66 0.85 4.71 14 放射線 暴露 (-) 7 0.643 1.80 15 暴露 ( ばくろ ) さらすこと 前向き研究 コホート研究 統制群による研究 未来 リスク (RR)=0.85/0.643=1.8 オッズ (OR)=4.71/1.80=.61 どちらも 1 以上であるということは 放射線暴露が腫瘍発 を増加させることを している 実験群と対照群を 意する には ある要因 ( 暴露 ) を与え他 には与えない 各群での発症の有無を調べる 例 管疾患 (+) リスクオッズ 管疾患 (-) アスピリン投与 40 0.080 0.087 460 プラセボ ( 偽薬 ) 投与 60 0.10 0.136 440 後ろ向き研究 ケース コントロール研究 リスク (RR)=0.080/0.10=0.667 オッズ (OR)=0.087/0.136=0.638 どちらも 1 以下であるということは アスピリン投与が 管疾患発症を抑制していることを している 現在発症している群 現在発症していない群 過去 過去にさかのぼって原因 ( 要因 ) の有無を調べる では どちらの を いるのが適切であろうか? 013/1/1 Nara University of Education 9 013/1/1 Nara University of Education 30 前向きではリスク (RR) 後ろ向きではオッズ (OR) WHY? -1 前向きではリスク (RR) 後ろ向きではオッズ (OR) WHY? - 標語 : 前向き研究ではリスク (RR) 後ろ向き研究ではオッズ (OR) を使う 前向きではどちらでも 差はでないが 後ろ向きでリスク を使うと不都合 ( 誤った検定 ) の可能性がある 例 1: 前向き研究の例 アスピリン投与群と偽薬投与群を 意して 以下のデータになった リスク とオッズ は したとおりである 介 実験 管疾患 (+) RISK ODDS 管疾患 (-) 計 アスピリン 40 0.080 0.087 460 500 プラセボ ( 偽薬 ) 60 0.10 0.136 440 500 RATIO(RR/OR) 0.667 0.638 課題 : プラセボ投与群を 10 倍にしたとき リスク とオッズ はどうなるか? 介 実験 管疾患 (+) RISK ODDS 管疾患 (-) 計 アスピリン 40 460 500 プラセボ ( 偽薬 ) 600 4400 5000 RATIO(RR/OR) 群の規模を きく変化させても RR/OR のどちらも変化がないことが分かるはず 例 : 後ろ向き研究の例 胃ガンの発症群と 発症群について 過去の飲酒の有無を調べた リスク (RR) とオッズ (OR) は したとおりである 後ろ向き研究 胃ガン発症 (+) RISK ODDS 胃ガン発症 (-) 計 毎 飲酒 (+) 150 0.60 1.50 100 50 毎 飲酒 (-) 350 0.47 0.88 400 750 計 500 500 RATIO(RR/OR) 1.9 1.71 後ろ向き研究では 現在の発症の有無でグループを作るので 課題 : 発症者を 10 倍にしたとき RISK と ODD はどうなるか? 後ろ向き研究 胃ガン発症 (+) RISK ODDS 胃ガン発症 (-) 計 毎 飲酒 (+) 150 1000 1150 毎 飲酒 (-) 350 4000 4350 計 500 5000 RATIO(RR/OR) OR はほとんど変わらないが RR は きく異なることが分かるはず 013/1/1 Nara University of Education 31 013/1/1 Nara University of Education 3

前向きではリスク (RR) 後ろ向きではオッズ (OR) 結論 前向きではグループ計 後ろ向きでは症例計 前向き研究では 要因の有無でグループを作り グループ毎のサイズを決める ( 変化させる ) 後ろ向き研究では 現在の Outcome( 結果 発症 ) 毎にグループを作り そのサイズを決める ( 変化させる ) RISK と ODDS は 値が さい場合はよく似た値となり 何かの要因がある場合とない場合の結果への影響度を す指標である どちらかといえば RISK の が ( 発症者 / 全体で ) 意味が明瞭なのでなるべくこちらを使いたいのだが 後ろ向き研究では サイズを実験の都合で決める ( 変化させる ) 場合 RISK は安定した指標にならないので ODDS を いる 前向き研究では RISK を使うことになっている 前向き研究では グループの計のみ記録する 介 実験 管疾患 (+) 管疾患 (-) 計 アスピリン 40 460 500 プラセボ ( 偽薬 ) 60 440 500 後ろ向き研究では 結果のグループの計のみ書く 後ろ向き研究 胃ガン発症 (+) 胃ガン発症 (-) 毎 飲酒 (+) 150 100 毎 飲酒 (-) 350 400 計 500 500 研究に当たって 最初に決める数 という意味を強調するためにこういう にする習慣である 013/1/1 Nara University of Education 33 013/1/1 Nara University of Education 34 最初に 後ろ向き から Odds とは オッズ (Odds Ratio:OR) Probable: ありそうな Probability: 確率 Odd: 奇妙な 希な 珍しい Odds: 珍しさ 賭の倍率 ある現象 (A) に着 して 確率 (P) は (A) の回数 / 全体 ある現象 (A) が起きた回数起きなかった回数計 a b a+b このことを 別の い で オッズ (O) は (A) の回数 /(A) でない回数 と表す ( 起こりやすさ / 起こりにくさの表現のしかたの違い ) もちろん である O P O, P ( 1 P) (1 O) A NOT(A) 計 回数 10 30 40 確率 0.5 0.75 1 オッズ 0.333 3 ( 積が1) a P a b a O b 発症 (+) 発症 (-) 危険要因 (+) a b 危険要因 (-) c d 危険要因がある場合 (+) 発症 (+) のオッズは a/b 危険要因がない場合 (-) の発症 (+) のオッズは c/d と定義する 例 腫瘍発症 (+) 腫瘍 発症 (-) 放射線暴露 (+) 66 (O=66/14=4.71) 14 放射線 暴露 (-) 7 (O=7/15=1.8) 15 つのオッズ (a/b=4.71 と c/d=1.8) の =ad/bc=.6 をオッズ (OR:Odds Ratio) という オッズ が 1 以上だと 危険要因 ( 放射線 ) がある場合の発症のリスクが ( 危険要因のない場合より ) い といえる 定量的には 危険要因 ( 放射線 ) がある場合の発症のリスクは ( 危険要因がない場合の ).6 倍である というイメージである 013/1/1 Nara University of Education 35 013/1/1 Nara University of Education 36

オッズ の信頼区間 オッズ の信頼区間の解釈 結果 (+) 結果 (-) 要因 (+) a b 要因 (-) c d a O b ad OR O c bc d 結果 (+) 結果 (-) 因 (+) a b 因 (-) c d 1 1 1 1 SE ORの上限 =( 点評価 ) A a b c d ORの下限 =( 点評価 )/A A exp(1.96 SE) 何らかの要因が ある結果を じさせるリスク ( よいことの場合もあるが ) が要因がない場合に べて何倍になるかをオッズ (Odds Ratio) といい OR=ad/bc で計算される ( 点評価という ) 実際には 統計的な不確実性があり 統計学的には OR は以下の範囲と推定される (95% 信頼区間 ) OR の上限 =( 点評価 ) A OR の下限 =( 点評価 )/A 点評価 OR=ad/bc 下限 OR/A 上限 OR A A exp(1.96 SE) where, SE 1 1 1 1 a b c d 1.96 とは正規分布の 95% 信頼区間の境界であるそして SE>0 だから A は 1 以上である SE は標準誤差 :Standard Error という 点評価 OR=ad/bc 下限 OR/A 上限 OR A ORの95% 信頼区間 1.0 1.0 OR の 95% 信頼区間の下限が 1 以上なら 因 が結果をもたらすリスクが有意に い といえる OR の 95% 信頼区間の上限が 1 以下なら 因 が結果をもたらすリスクが有意に低い といえる ( 因 が結果を 抑制している といえる ) OR の 95% 信頼区間が 1 を含む場合 因 が結果をもたらすリスクについて 有意な関連があるとはいえない となる OR の 95% 信頼区間 013/1/1 Nara University of Education 37 1.0 013/1/1 Nara University of Education 38 オッズ の信頼区間の解釈 ( 別の い ) オッズ の信頼区間の計算例 結果 (+) 結果 (-) 因 (+) a b 因 (-) c d 点評価 OR=ad/bc 下限 OR/A 上限 OR A ORの95% 信頼区間 1.0 1.0 1 1 1 1 d ORの上限 =( 点評価 ) A SE a b c ORの下限 =( 点評価 )/A A exp(1.96 SE) 帰無仮説 : 因 と結果に関連はない に対して OR の 95% 信頼区間が 1 を含む場合有意 準 5% で帰無仮説は棄却できない 因 と結果に関連がある とはいえない 1 を含まない場合有意 準 5% で帰無仮説を棄却できる 因 と結果には何らかの関連がある といってよい 例 腫瘍発症 (+) 腫瘍 発症 (-) 放射線暴露 (+) 66 (O=66/14=4.71) 14 放射線 暴露 (-) 7 (O=7/15=1.8) 15 OR( 点評価 )=66 15/(14 7)=.6 SE= (1/66+1/14+1/7+1/5)=0.1903 A=exp(1.96 0.1903)=1.45 OR の上限 =( 点評価 ) A=.6 1.45=3.80 OR の下限 =( 点評価 )/A=.6/1.45=1.81 下限が 1.81 で 1 より きいので 5% 有意 準で放射線暴露は腫瘍発 のリスクを める といえる 定量的には 5% 有意 準でリスクが 1.8 3.8 倍になる といえる OR の点評価 =ad/bc OR の上限 =( 点評価 ) A OR の下限 =( 点評価 )/A 1 1 1 1 SE a b c d A exp(1.96 SE) 点評価.6 下限 1.81 上限 3.80 1.0 OR の 95% 信頼区間 前向き研究の場合は RR(Risk Ratio) で同じように判定をする Slide-46 1.0 013/1/1 Nara University of Education 39 関連のあるなしに加えて リスクを定量的に評価できることに意味がある ( カイ 乗検定ではこれができない ) 013/1/1 Nara University of Education 40

オッズ の信頼区間の計算練習 -1 補 -1:exp(A) を電卓で計算する 危険因 ( 運動不 ) は 冠動脈疾患のリスクを めるか? 冠動脈疾患あり 冠動脈疾患なし 運動不足 36 49 非運動不足 3 75 オッズ の 95% 信頼区間を求め リスクについて結論を述べなさい OR( 点評価 )= SE= (1/ +1/ +1/ +1/ )= A=exp(1.96 SE)= OR の上限 = A= OR の下限 = /A= 信頼区間は 1.0 を含むか? 結論は? 有意 準 (5% で ) ちなみに Slide-1( カイ 乗検定 ) と違う結論になるかもしれませんが どちらも微妙な判定になっているのでそういうこともあります EXCEL や関数電卓なら =EXP( ) で計算する普通の電卓ではこうする (A は 10 以下とする ) (51+A)/(51-A) を計算し 掛ける (X) イコール (=) を 8 回繰り返す (56 乗する ) A=0.551 51+A=51.551 51-A=511.449 (51.551/511.449)[X=][X=] かける イコールを 8 回 =1.73 これが exp(a) の答え 練習 exp(1.0).718 になるはず チェック exp(.0) 7.389 になるはず チェック 013/1/1 Nara University of Education 41 013/1/1 Nara University of Education 4 補 -: なぜこんな式になるか? オッズ の信頼区間の計算練習 - 理屈 : オッズ (OR) とリスク (RR) の 然対数 (ln) が正規分布することが知られている 然対数とは exp 関数の逆関数である (ln(exp(x))=x exp(ln(x))=x) ln(or) と ln(rr) の 95% 信頼区間は (+/-)1.96 SE となる SE は 標準誤差 (Standard Error) といい以下で定義される SE( forrr) SE( foror) 1 1 1 1 a a b c c d 1 1 1 1 a b c d OR/RR の標本での値を μ [OR/RR の 然対数 ] の 95% 信頼区間の [ 境界 X の 然対数 は正規分布から ln(x)=ln(μ)+- 1.96SE X=exp(ln(μ)+-1.96SE) X=μ exp(+-1.96se) [μ/exp(1.96se) X μ exp(1.96se)] Outcome(+) Outcome(-) factor(+) a b factor(-) c d 以下のようにデータを修正すれば どのように結論が変わるであろうか? 冠動脈疾患あり 冠動脈疾患なし 運動不足 36+0 49 非運動不足 3 75 オッズ の 95% 信頼区間を求め リスクについて結論を述べなさい OR( 点評価 )= SE= (1/ +1/ +1/ +1/ )= A=exp(1.96 SE)= OR の上限 = A= OR の下限 = /A= 信頼区間は 1.0 を含むか? 結論は? 有意 準 5% で リスクは 倍 倍になる 対数から普通の数に戻すと 上限下限は (+/-) ではなく ( 割る / かける ) となる 99% 信頼区間を求める場合は 1.96 を.58 とする (Slide-114) 013/1/1 Nara University of Education 43 013/1/1 Nara University of Education 44

次に 前向き リスク の評価 リスク の評価 前向き研究 ( コホート研究 ) では オッズ ではなくリスク を いてリスクの検定を う 法は オッズ の場合と同じである 例 : アスピリンの 管疾患予防効果を調べるため アスピリンとプラセボを 500 ずつに投与した 介 実験 管疾患 (+) 管疾患 (-) 計 アスピリン 40 460 500 プラセボ ( 偽薬 ) 60 440 500 RR( 点評価 )= 0.667 1 1 1 1 1 1 1 1 SE( forrr) 0.194 a a b c c d 40 500 60 500 A=exp(1.96 0.194=0.380)=1.46 このとき アスピリンには 管疾患の予防効果があるといえるであろうか? リスク とその 95% 信頼区間を計算し 評価しなさい 介 実験 管疾患 (+) RISK 管疾患 (-) 計 アスピリン 40 40/500=0.08 460 500 プラセボ ( 偽薬 ) 60 60/500=0.1 440 500 RISK (RR) 0.08/0.1=0.6667 アスピリン投与群の RISK は 0.08 投与しなかった群の RISK は 0.1 投与した がしなかった に して リスク (RR)=0.08/0.1=0.6667 倍の ( 抑制 ) 効果があったとことになるが RR の 95% 信頼区間を求めると RR の 95% 信頼区間の上限 =RR( 点評価 ) A=0.667 1.46=0.97 下限 =RR( 点評価 )/A=0.667/1.46=0.46 (RR の点評価 =0.667 95% 信頼区間は 0.46 0.97) 上限も 1.0 より さいので 結論 : 有意 準 5% でアスピリンとプラセボには 管疾患発症に差がある ( アスピリンには抑制効果がある ) といえる さらに : 抑制効果は 0.46 0.97 である といえる 0.667 0.46 0.97 1.0 013/1/1 Nara University of Education 45 013/1/1 Nara University of Education 46 リスク の評価 - 練習 以下のデータについて リスク の検定を い 結論を述べなさい 介 実験 管疾患 (+) 管疾患 (-) 計 アスピリン 45 455 500 プラセボ ( 偽薬 ) 60 440 500 RR( 点評価 )= SE= A=Exp(1.96 SE)= BLANK PAGE 帰無仮説 : アスピリンとプラセボの効果に差はない RR の 95% 信頼区間は 信頼区間に 1.0 を含むか? 結論は? 013/1/1 Nara University of Education 47 013/1/1 Nara University of Education 48

医療統計 -13 013/1/17 U 群と K 群の順位和 もう つのノンパラメトリック検定 ( 評価や順位に基づく検定 ) 順位和検定とは 順位 (RANK) チーム 1 位 U 位 K 3 位 K 4 位 U 5 位 U 6 位 K 7 位 K 8 位 U 順位和検定の 的 U 群と K 群に有意な 競争 の差があるであろうか? を各チームの順位の和から判定したい U/K チームから 4 選 ずつ出場し 緒に競争した結果 U チームの順位和 (Rank Sum) とは 1+4+5+8=18 K チームの順位和は +3+6+7=18 各チームの順位和が きく違っている場合 チームの 実 に差がある と なされる 極端な場合 強いチームが 1++3+4=10 弱いチームが 5+6+7+8=6 になる 1 位が の場合 1.5 位が と計算する 1 位が三 なら (1++3)/3= 位が三 とする 013/1/1 Nara University of Education 49 1 位 位 3 位 4 位 5 位 6 位 7 位 8 位順位和 CASE-1 U U U U 10 CASE- U U U U 11 CASE-3 U U U U 1 CASE-4 U U U U 13 CASE-5 U U U U 14 CASE-6 U U U U 1 U U U U 4 U U U U U U U U 5 CASE-70 U U U U 6 順位和が 10 と 6 になるのは 1 通りしかない 18 になるのは 8 通りの場合がある 1++3+ +8=(N+1)N/=36 だから 両群均等に 18 となる場合が 番多い UUUUKKKK から KKKKUUUU まで 70 通りある (4+4) C 4 =70 順位和は 10 6 順位和と場合の数 9 8 7 6 5 4 3 1 0 10 11 1 13 14 15 16 17 18 19 0 1 3 4 5 6 013/1/1 Nara University of Education 50 順位 と 順位和 の期待値 順位和と信頼区間 1 位 位 3 位 4 位 5 位 6 位 7 位 8 位 CASE-1 U U U U K K K K CASE-70 K K K K U U U U 1 位から 8 位まで 実 差がなく 全く偶然に決まるとすれば個 の順位の期待値は (1++3+ +8)/8 = 4.5 位である 故にチームに実 差がないと仮定した場合の 4 のチームの順位和の期待値は 4 4.5 = 18 である 10 8 6 4 0 順位和と場合の数 10 11 1 13 14 15 16 17 18 19 0 1 3 4 5 6 順位和は期待値に近いほど確率的に起こる可能性が い U 群から N u K 群から N k 選抜競技で U 群の順位和は全員上位なら最 (1 通り ) UUU KKK 全員下位なら最 (1 通り ) KKK UUU 有意な実 差がないと仮定した場合 順位和の分布 ( 場合の数 ) はこうなる 順位和は 期待値 に近い可能性が く 極端に きく / さくなる確率は低い N が きいとき正規分布に近づく 場合の数 般に N1 と N のチーム (N=N1+N) として個 の順位の期待値は (1++ +N)/N=(N+1)/ 位 N1 チームの順位和の期待値は N1 (N+1)/ N チームの順位和の期待値は N (N+1)/ 逆に 実際の順位和が期待値より きく異なっている場合 実 差がない という帰無仮説が棄却される 場合の数の 95% を含む順位和の範囲を順位和の 95% 信頼区間という もし U 群と K 群に有意な実 の差がなければ = 帰無仮説 順位和はこの範囲に 95% るはずである 順位和がこの範囲に らない時有意 準 5% で 帰無仮説を棄却できる 順位和 場合の数の 95% を含む範囲 =95% 信頼区間 013/1/1 Nara University of Education 51 013/1/1 Nara University of Education 5

Wilcoxon( ウイルコクソン ) の順位和表 順位和検定の例題 -1 ( 連続データ ) Nl/Ns 3 4 5 6 7 8 9 3-4 - 10/6 5 6/1 11/9 17/38 6 7/3 1/3 18/4 6/5 7 7/6 13/35 0/45 7/57 36/69 8 8/8 14/38 1/49 9/61 38/74 49/87 9 8/31 14/4 /53 31/65 40/79 51/93 6/109 10 9/33 15/45 3/57 3/70 4/84 53/99 65/115 11 9/36 16/48 4/61 34/74 44/89 55/105 68/11 1 10/38 17/51 6/64 35/79 46/94 58/110 71/17 13 10/41 18/54 7/68 37/83 48/99 60/116 73/134 14 11/43 19/57 8/7 38/88 50/104 6/1 76/140 15 11/46 0/60 9/76 40/9 5/109 65/17 79/146 16 1/48 1/63 30/80 4/96 54/114 67/133 8/15 17 1/51 1/67 3/83 43/101 56/119 70/138 84/159 順位和の さい の標本数を Ns( 横の列 :smaller) きい の標本数を Nl( 縦の :larger) を て順位和の 95% 信頼区間が分かる ex 4 と 4 の時 10/6 とある順位和の 95% 信頼区間は 10 6 であり これ以上 またはこれ以下の場合帰無仮説が 5% 有意 準で棄却される と読む この表にないところは 正規分布で近似計算できる Frank Wilcoxon 189-1965 USA 013/1/1 Nara University of Education 53 新薬と既存薬の効果を 各群 8 の臨床試験を実施した 病気の改善度を表す検査値が以下のようであった ( 帰無仮説 = 新薬 / 既存薬に差がない ) グループ 被験者 ID 改善度 順位 グループ 被験者 ID 改善度 既存薬群 O-1 0.5 1 新薬群 N-5 10.5 既存薬群 O- 0.1 ソート 新薬群 N-7 5.1 既存薬群 O-3.0 3 新薬群 N-3 5.0 既存薬群 O-4 3.5 4 既存薬群 O-4 3.5 既存薬群 O-5 1.4 5 新薬群 N- 3.3 既存薬群 O-6 0.8 6 新薬群 N-1 3.0 既存薬群 O-7.9 7 既存薬群 O-7.9 既存薬群 O-8 1.7 8 新薬群 N-6.8 新薬群 N-1 3.0 9 既存薬群 O-3.0 新薬群 N- 3.3 10 既存薬群 O-8 1.7 新薬群 N-3 5.0 11 新薬群 N-8 1.6 新薬群 N-4 1.5 1 新薬群 N-4 1.5 新薬群 N-5 10.5 13 既存薬群 O-5 1.4 新薬群 N-6.8 14 既存薬群 O-6 0.8 新薬群 N-7 5.1 15 既存薬群 O-1 0.5 新薬群 N-8 1.6 16 既存薬群 O- 0.1 改善度 で順位をつけると 新薬群の順位和 =1++3+5+6+8+11+1=48 既存薬群の順位和 =88 差がないとしたときの順位和の期待値は 68 である (( 順位の期待値 =8.5) 8=68) 013/1/1 Nara University of Education 54 表を て判定する 順位和検定の課題 -1 新薬群の順位和 =1++3+5+6+8+11+1=48 既存薬群の順位和 =88 順位和の さい の標本数が横 きい の標本数が縦 / ここではどちらも 8 1 位 位 3 位 4 位 5 位 6 位 7 位 8 位 9 位 10 位 U 順位和 K K K U U U K U K U Nl/Ns 3 4 5 6 7 8 9 3-4 - 10/6 5 6/1 11/9 17/38 6 7/3 1/3 18/4 6/5 7 7/6 13/35 0/45 7/57 36/69 8 8/8 14/38 1/49 9/61 38/74 49/87 U 群 K 群とも 4 名で競 をして上の順位になった 帰無仮説 :U 群と K 群に有意な差はない U 群の順位和は? K 群の順位和は? この場合の順位和は 95% 信頼区間で 49 87 となっている 観測された順位和は 48 と 88 で 信頼区間から ( わずかではあるが ) 外れている 結論 : 有意 準 5% で帰無仮説を棄却できる つまり 新薬と既存薬の効果には差がある といえる 95% 信頼区間 49 68 87 48 順位和 88 実際の ( 観測された ) 順位和 Wilocoxon の順位和検定表によれば この場合の順位和の 95% 信頼区間は? 結論 : この結果の順位和は 95% 信頼区間に ( 含まれる? 含まれない?) 従って 帰無仮説は棄却できる? できない? 013/1/1 Nara University of Education 55 013/1/1 Nara University of Education 56

順位和検定の例題 - ( 正規分布近似 ) 順位和検定の例題 - ( 正規分布近似 ) 各群の標本数がおおむね 15 以上の場合 表ではなく 正規分布での近似式を いて検定する標本数 =8 ではあるが 直前の例題 (Slide-53) を使ってその 法を すと 順位和の さい群 (Gs) の標本数を ns とする ( 前例では 8) 順位和の きい群 (Gl) の標本数を nl とする ( これも 8) どちらも差がないとした場合の Gs の順位和の期待値 μ は μ=ns (1+ns+nl)/ =( 前例では )8 (1+8+8)/=68 1 位から 16 位まで ランダムに選べば 平均は (1+16)/=8.5 位 =(1+ns+nl)/ 全員が 8.5 位と思えば Gs 群の ns の順位和は 8 8.5=68 つまり ns (1+ns+nl)/ 分散 V は 以下の式になる ( これは統計学から ) V=ns nl (1+ns+nl)/1 ( 前例では ) 8 8 17/1 = 90.67 標準偏差 σ= V=9.5 Z= 順位和の期待値との差 ( の絶対値 ) /σ を計算する 48-68 / 90.67=.10 013/1/1 Nara University of Education 57 続 μ=68 σ= 90.67=9.5 Z= 順位和の期待値との差 ( の絶対値 ) /σ Gs について = 48-68 / 90.67=.10 Gl について = 88-68 / 90.67=.10( 上と同じ ) (95% 信頼区間の境界値 )1.96 と 較し きければ 帰無仮説 : つの群に差はない を棄却できる この例では.10 > 1.96 なので 5% 有意 準で 差がない は棄却できるが (99% 信頼区間の境界値 ).58 よりは さいので 有意 準 1% では 差がない は棄却できない 結論 : 5% 有意 準で帰無仮説は棄却 有意 準 5% で 差がある といえる (Slide-5 と整合している ) z=-1.960 z=-.576 正規分布 95% z=1.960 z=.576 013/1/1 Nara University of Education 58 99% Slide-114 5% 1% 順位和検定の例題 - (n>15) データの尺度 ( しゃくど :Scale) 1 位 位 3 位 4 位 5 位 6 位 7 位 8 位 9 位 10 位 U 順位和 K K K U U U K U K U 33 例題 -1 を正規分布近似で検定する (ns=nl=5 なので適応条件 (n>15) からは外れるが 練習 ) 帰無仮説 :U 群と K 群に有意な差はない 順位和の期待値 μは? 分散 Vは? 標準偏差 σは? Z= 順位和観測値 -μ /σ= - / = 5% 有意 準の Z 値は? 1% 有意 準の Z 値は? 較して 結論 : 有意 準 % で帰無仮説は棄却できる? できない? 数値のデータの性格を 4 つに分類する スティーヴンズ (Stanley Stevens)1946 論 測定尺度の理論について "On the Theory of Scales of Measurement" の提案がよく いられる 名義尺度 (Nominal Scale) 順位尺度 (Ordinal Scale) 間隔尺度 (Interval Scale) 率尺度 (Ratio Scale) 区別や分類 例 液型電話番号 可能な計算 意味なし 順番成績の順序 較 等間隔データ ゼロ点 ( 原点 ) がある 摂 温度 暦 付 体重 現在 順位尺度 のはなしをしているこれにはノンパラメトリック検定 す 引く 四則演算すべて Stanley Smith Stevens Psychologist from USA 1906-1973 013/1/1 Nara University of Education 59 013/1/1 Nara University of Education 60

順位和検定の例題 -3 ( 順序データ ) 順序データの並び 新薬と既存薬の効果について 各群 30 の臨床試験を実施した 病気の改善度の評価が以下のようであった 効果に差があるといえるであろうか? 改善 変わらず 悪化 計 新薬 15 7 8 30 既存薬 7 18 5 30 改善 変わらず 悪化 の順に 順位を考える 同 評価のグループには 代表順位を決める 各グループでの順位和を求める 改善 変わらず 悪化 計 新薬 15 7 8 30 既存薬 7 18 5 30 計 5 13 順位 1 位 位 3 位 47 位 48 位 60 位 代表順位 11.5 位 35 位 54 位 新薬群の順位和 =15 11.5 位 +7 35 位 +8 54 位 =849.5 既存薬群の順位和 =7 11.5+18 35+5 54=980.5 全く同じデータであるが 順位和は異なる 改善 変わらず 悪化 計 新薬 15 7 8 30 既存薬 7 18 5 30 改善 悪化 変わらず 計 新薬 15 8 7 30 既存薬 7 5 18 30 改善 変わらず 悪化 という 順序関係が 切である カイ 乗検定では どちらの表で計算しても同じ結果になる カイ 乗検定は 価値観 を反映していない 013/1/1 Nara University of Education 61 013/1/1 Nara University of Education 6 同順位を含む順位和検定 ( 正規分布近似 ) 計算実 (Excel がないと無理 ) 改善 変わらず 悪化 計 新薬 15 7 8 30 既存薬 7 18 5 30 計 5 13 順位 1 位 位 3 位 47 位 48 位 60 位 代表順位 11.5 位 35 位 54 位 新薬群の順位和 =15 11.5 位 +7 35 位 +8 54 位 =849.5 ( こちらが Gs ns=30) 既存薬群の順位和 =7 11.5+18 35+5 54=980.5 ( こちらが Gl nl=30) 順位和の期待値 μ =30 (1+30+30)/ = 915 (Gs Gl どちらも ) ( 要するに 1 位 60 位の平均は 30.5 位 30 の順位の和は 30 30.5=915) 分散の計算がややこしい 分散 V=A ns nl/(1 全体の 数 ( 全体の 数 -1)) ここで A= ( 全体の 数 3 - 全体の 数 ) -( 改善 グループの 数 3 - 改善 グループ 数 ) -( 不変 グループの 数 3 - 不変 グループ 数 ) -( 悪化 グループの 数 3 - 悪化 グループ 数 ) 順位和の さい群を Gs 数を ns 順位和の きい群を Gl 数を nl とかく n (1 n n ) / s where s ns nl V 1N( N 1) s N n n s l 3 ( N N) l 3 ( di di ) i グループ 改善 変わらず 悪化 計 新薬 15 7 8 30 既存薬 7 18 5 30 計 5 13 60 計の三乗 10,648 15,65,197 16,000 計の三乗 - 計 10,66 15,600,184 15,940 A=N 3 -N-Σ(d 3 -d) 187,530 ns 30 nl 30 N 60 Y 0.005 V=A Y 3,843 σ( V) 6.0 n (1 n n ) / s where s ns nl V 1N( N 1) 分散 V=Y A s N n n s l 3 ( N N) l 3 ( di di ) i Y=ns nl/(1 全体の 数 ( 全体の 数 -1)) A= ( 全体の 数 3 - 全体の 数 ) -( 改善 グループの 数 3 - 改善 グループ 数 ) -( 不変 グループの 数 3 - 不変 グループ 数 ) -( 悪化 グループの 数 3 - 悪化 グループ 数 ) 013/1/1 Nara University of Education 63 013/1/1 Nara University of Education 64

結果と結論 順位和検定 ( 順序データ ) の課題 新薬群の順位和 =849.5 (Gs) 既存薬群の順位和 =980.5 順位和の期待値 =915 標準偏差 =6.0 Z= 849.5-915 /6.0=1.06 < 1.96 ( 正規分布での 95% Z 値 ) 結論 : 有意 準 5% では帰無仮説 ( 差がない ) は棄却できない 新薬と既存薬の効果について Slide-59 とデータを れ替えただけです例題と同様に検定しなさい 改善 変わらず 悪化 計 新薬 18 5 7 30 既存薬 7 8 15 30 改善 変わらず 悪化 計 新薬 18 5 7 30 既存薬 7 8 15 30 計 5 13 順位 1 位 5 位 (6) 位 (38) 位 (39) 位 60 位 代表順位 (13) 位 (3) 位 (49.5) 位 新薬群の順位和 =18 位 +5 位 +7 位 = 既存薬群の順位和 =7 +8 +15 = 例題の数値とはずいぶん異なる ( なぜだろうか?) 013/1/1 Nara University of Education 65 013/1/1 Nara University of Education 66 順位和検定 ( 順序データ ) の課題 - 続き おつかれさま グループ 改善 変わらず 悪化 計 新薬 18 5 7 30 既存薬 7 8 15 30 計 (d) 5 13 60 計の三乗 計の三乗 - 計 A=N 3 -N-Σ(d 3 -d) 実際にこのように で計算する機会は少ないと思いますがパソコンソフトで検定を うときにも 何をどのようにしているのかを知っていることはよいことと思います ns 30 nl 30 N=(ns+nl) 60 Y=ns*nl/(1*N*(N-1)) V=A Y σ( V) 新薬群の順位和 = 既存薬群の順位和 = 順位和の期待値 = 標準偏差 = Z= - / = 正規分布の Z 値 1.96(5%).58(1%) と 較して 結論 : ( 有意 準 % で帰無仮説 ( 差がない ) は棄却される? されない? 次週は総復習をする予定です 013/1/1 Nara University of Education 67 013/1/1 Nara University of Education 68