Microsoft PowerPoint - statistics-12B.pptx

Size: px

Start display at page:

Download "Microsoft PowerPoint - statistics-12B.pptx"

さあしゃたかひ
5 years ago
Views:

が何を意味しているのかという問題は追求せず確率が満たすべき性質をいくつか規定しその性質から導くことのできる定理を突き詰めていく学問である Wikipedia(slide-7 参照 ) Gerolamo Cardano 1501-1576 Blaise Pascal 163-166 Pierre-Simon Laplace 1749-187 Andrey Nikolaevich

1 医療統計 -1 (01/10/4) 統計学の基礎となる確率の考えと統計的法を理解し様々なデータを統計的に解析できる能を養う 1. 確率モデルの考えが分かる. 確率分布の性質を理解できる 3. 正規分布の応ができる 4. 標本の抽出法を説明できる 5. 実際の医療データを基にした検定ができる確率の学問統計学の基礎は確率 (Probability 何かの現象の起こりやすさの数値 ) 確率の研究は賭博の研究 (16C カルダーノ 17C パスカル ) から始まり 19C ラプラスの古典的確率論を経て 1933 コルモゴロフの公理的確率論で学問的に確された公理的確率論では ( 他の現代数学と同様 ) 確率が何を意味しているのかという問題は追求せず確率が満たすべき性質をいくつか規定しその性質から導くことのできる定理を突き詰めていく学問である Wikipedia(slide-7 参照 ) Gerolamo Cardano Blaise Pascal Pierre-Simon Laplace Andrey Nikolaevich Kolmogorov 伊藤清 ( 京 ) 確率と微積分の融合理論を築いた融学の基礎となった 013/1/1 Nara University of Education 1 013/1/1 Nara University of Education 医療統計統計 =Statistics 統 ( すべて ) を計 ( はか ) る Statistics show that the population of this city has doubled in ten years. 統計によればこの市のは 10 年で倍になった. 統計学とは集団の特徴を ( その部のデータから ) 明らかにするしようとする学問 ( 集団全体を調べることはできないので推定がどうしてもることしたがってある確率で誤りがありうることを認める ) 医療統計の的疫学研究臨床研究におけるデータの集めや整理の仕そのための理論技法解析法といった法論健康影響臨床試験医薬品の安全対策などなどルートの計算できる電卓 (100 円ショップにある ) を各意してください = で逆数が計算できると便利です ( 3 = となるものです : 普通は 1 になります ) 013/1/1 Nara University of Education 3 013/1/1 Nara University of Education 4

統計処理とは記述統計と推測統計統計処理とは測定された ( バラバラな ) データの中から定量的な情報を取り出すための法をいう身長測定男子女子 176 150 166 155 180 149 170 160 17 16 190 170 155 156 169 160 177 151 平均 17.8 157.0 分散 84.6 40.

2 統計処理とは記述統計と推測統計統計処理とは測定された ( バラバラな ) データの中から定量的な情報を取り出すための法をいう身長測定男子女子平均分散男子女子男子女子男子女子平均値分散 ( ばらつきの程度 ) データ集団抽出視覚的表現推定標本記述統計の法並べ替え作表グラフ化代表値 ( 平均値中央値 ) 散布度 ( 分散標準偏差 ) 相関関係データの特性を要約して伝えることが的推定統計の法点推定区間推定検定標本から集団の特性を推測することが的集団 (population: 多くのの意味から ) 013/1/1 Nara University of Education 5 013/1/1 Nara University of Education 6 確率 (probability) 新児の男 XY( ) か XX( )? (X と Y が対等であれば ) P( )=P( )=1/ 古典的確率確率 (probability) の公理事象 (event: 起きたことがら ) を A と書きその確率 P(A) は 1. P(A) は0 1の範囲の数. P(0): 何も起きない確率 =0 3. P(ALL): 何かが起きる確率 =1 4. 排他的 (Exclusive) な事象 AとBについて P(A or B)=P(A)+P(B) 経験的には P( ) が経験的 ( 統計的 ) 確率 = =1 どちらも上の公理は満たしている 013/1/1 Nara University of Education 7 013/1/1 Nara University of Education 8

誤差 (error) と偏り測定値 = 正しい値 +- 誤差 +- 偏り精度 (Accuracy: 盛りの細かさ ) 偏り (bias) 測定法の問題異なる測定法のデータの較には注意を要する

誤差はきいが偏りは少ない精度 : 低い誤差 : 数センチ精度 : い誤差 : 数 mm 誤差はさいが偏りがきい 013/1/1 Nara University of Education 9 013/1/1

(AVERAGE) 中央値 (MEDIAN) 最頻値 (MODE) 偏差 (DEVIATION) 分散 (VARIANCE) 標準偏差 (STANDARD DEVIATION) 昇順 (Ascending Order)

8 1 No.9 134 No.10 116 No.11 136 No.1 118 No.13 16 No.14 131 No.15 14 No.16 133 No.17 11 No.

3 誤差 (error) と偏り測定値 = 正しい値 +- 誤差 +- 偏り精度 (Accuracy: 盛りの細かさ ) 偏り (bias) 測定法の問題異なる測定法のデータの較には注意を要する標本抽出の問題本当にランダムに選ばれているか? 誤差はきいが偏りは少ない精度 : 低い誤差 : 数センチ精度 : い誤差 : 数 mm 誤差はさいが偏りがきい 013/1/1 Nara University of Education 9 013/1/1 Nara University of Education 10 データの処理の語 1) ソート (sorting: 並べ替え ) 並べ替える (SORTING: 昇順降順 ) 度数分布 (HISTOGRAM) 平均値 (AVERAGE) 中央値 (MEDIAN) 最頻値 (MODE) 偏差 (DEVIATION) 分散 (VARIANCE) 標準偏差 (STANDARD DEVIATION) 昇順 (Ascending Order) さいものが先降順 (Descending Order) きいものが先サンプル番号圧 No No. 131 No.3 1 No No.5 15 No.6 19 No No.8 1 No No No No No No No No No No サンプル番号圧 1 No 最値 No No No No 中央値 6 No. 11 No.8 11 No No 最値中央値 (median)= 平均値ではないデータが偶数なら平均をとる 013/1/1 Nara University of Education /1/1 Nara University of Education 1

度数分布 5mmHg および 10mmHg 区間で集計しヒストグラムを作る最頻値 (mode) 14 p 15 区間の中央 p=14.

130-134 135-139 Excel による計算実習粗データ ( 新児体重 100 ) について平均値中央値を求めなさい度数データ表

jp/stat/ からデータ ( 新児 100 ) をダウンロードする 013/1/1 Nara University of Education 13

並べ替え 3) 最優先キーは体重 (B 列 ) ) データ並べ替え 4) 順序は昇順 Excel ( 最値最値中央値 ) 読み取った値を

4 度数分布 5mmHg および 10mmHg 区間で集計しヒストグラムを作る最頻値 (mode) 14 p 15 区間の中央 p=14.5 を最頻値とする集計 Excel による計算実習粗データ ( 新児体重 100 ) について平均値中央値を求めなさい度数データ表 (00g-slice) を作りなさいそれから最頻値を求めなさいからデータ ( 新児 100 ) をダウンロードする 013/1/1 Nara University of Education /1/1 Nara University of Education 14 Excel ( 並べ替え ) 1) A/B 列全体を選択し ) データ並べ替え 3) 最優先キーは体重 (B 列 ) ) データ並べ替え 4) 順序は昇順 Excel ( 最値最値中央値 ) 読み取った値をプリントに記してください 1)A/B 選択 3) 優先キー 4) 昇順 013/1/1 Nara University of Education /1/1 Nara University of Education 16

Excel ( 総和と平均値 ) 1) 10 に総和と書き ) Σボタン (Auto-SUM) で

空でないデータの個数 ) Excel (AVERAGE 関数 ) Excel の関数を使って

対象となるデータの範囲をドラッグする ) ) ) 013/1/1 Nara University of

Excel ( 度数表とヒストグラム ) いろいろな法はある ( らしい ) がピボットテーブルを使ってみる 1)

ピボットテーブル作成 ) 3) 範囲が表全体を含んでいる (A1:B101) ことを確認し 4) 配置する場所は

5 Excel ( 総和と平均値 ) 1) 10 に総和と書き ) Σボタン (Auto-SUM) で体重の総和を求める 3) 103 に平均と書き =B10/counta(B:B101) とする (counta= 空でないデータの個数 ) Excel (AVERAGE 関数 ) Excel の関数を使ってワンタッチで平均値を求める 1) 104 に確認とし ) 数式関数の挿統計から AVERAGEを選択 3) 対象となるデータの範囲をドラッグする ) ) ) 013/1/1 Nara University of Education 17 1) 013/1/1 Nara University of Education 18 Excel ( 度数表とヒストグラム ) いろいろな法はある ( らしい ) がピボットテーブルを使ってみる 1) 表の中のどこか ( 左上 ( 番号 )) をクリックしてから ) 挿ピボットテーブル Excel ( ピボットテーブル作成 ) 3) 範囲が表全体を含んでいる (A1:B101) ことを確認し 4) 配置する場所は既存のワークシート場所図のこのあたりにして [OK] 013/1/1 Nara University of Education /1/1 Nara University of Education 0

Excel ( ピボットテーブル - 集計 ) 5) 体重をラベルは 6) 番号を Σ 値欄にドラッグすると集計表ができる

00( 最値以下で切れのよい数字 ) 9) 単位を 00 とする末尾の値はそのままでよいこれで 00g

Education 1 013/1/1 Nara University of Education Excel ( ヒストグラム )

規則的に増減する数字 ) を 1 5 100 10 99 つ以上数字をし全体を選択し右下のフィルハンドル ( )

93 9 45 9 10 50 91 ある範囲の数をすべて掛ける =PRODUCT( 範囲 ) 数式関数の挿 [PRODUCT]

6 Excel ( ピボットテーブル - 集計 ) 5) 体重をラベルは 6) 番号を Σ 値欄にドラッグすると集計表ができる Excel ( ピボットテーブル - グループ化 ) 7) 体重のセルを右クリックしグループ化を選択する 8) 先頭の値に 00( 最値以下で切れのよい数字 ) 9) 単位を 00 とする末尾の値はそのままでよいこれで 00g でスライスした度数分布表ができる最頻値はの中の値とする 013/1/1 Nara University of Education 1 013/1/1 Nara University of Education Excel ( ヒストグラム ) 10) 度数分布表からヒストグラムができる ( 隙間の無い棒グラフを選ぶ ) Excel ( 技 ) 等差数列 ( 規則的に増減する数字 ) をつ以上数字をし全体を選択し右下のフィルハンドル ( ) を下にドラッグするある範囲の数をすべて掛ける =PRODUCT( 範囲 ) 数式関数の挿 [PRODUCT] =PRODUCT( 範囲 ) 013/1/1 Nara University of Education 3 013/1/1 Nara University of Education 4

7 医療統計 - (01/10/11) 以下の葉の意味計算の法を熟知する平均 (Average Mean) 分散 (Variance) 標準偏差 (Standard Deviation:σ) 特に分散 =σ 逆に σ = 分散相関係数 (Correlation Coefficient) 回帰直線 (Regression Line) 分散 (Variance) n 個のデータ (x i ) の平均値を x h とすると平均との差 x i -x h を偏差 (deviation) という Σ(x i -x h ) /n を分散 ( 偏差の乗の平均 :variance); 今は葉だけ :Σ(x i -x h ) /(n-1) を不偏 (un-biased) 分散という分散の平根を標準偏差 (σ シグマ :standard deviation) という以下のデータの分散と σ をで計算しなさいデータ番号値偏差偏差 No.1 40 No. 50 No.3 60 No.4 70 No.5 80 データ番号値偏差偏差 No.1 50 No. 55 No.3 60 No.4 65 No.5 70 データ番号値偏差偏差 No.1 56 No. 58 No.3 60 No.4 6 No.5 64 和和和 013/1/1 Nara University of Education 5 平均 =60 分散 = σ= 平均 =60 分散 = σ= 平均 =60 分散 = σ= 013/1/1 Nara University of Education 6 分散 =σ 分散とは ( 偏差の乗 ) の平均標準偏差 σ とは ( 分散 ) のこと分散と標準偏差 σ はどちらかが分かれば他は計算できる分散 =σ σ= ( 分散 ) ひょうじゅんへんさは書くのもうのもい! そこで分散 =σ とうことがある ex 分散が 3.0 であるとは分散が 9.0 であり標準偏差が 3.0 であることを同時に表現している分散 : 別の計算法 -1 (x i -x h ) の乗の和を以下のように計算する ( x i x i x i x x i h ) x x x nx h h i h ( nx x h h ) nx h データの乗の和 - 平均値の乗 * データ個数となる計算が段階減っているプリントに計算結果を記しなさいデータ番号値値 No.1 40 No. 50 No.3 60 No.4 70 No.5 80 和平均 =60 値の乗の和は = 分散 = σ= 013/1/1 Nara University of Education 7 013/1/1 Nara University of Education 8

分散標準偏差 :Excel 関数後でこういう関数を使う (excel007) 今はで計算するので使わなくてよい =VARP( ) variance-p 分散 =Σ(x i -x h ) /N ( データの個数 ) =VAR( ) 不偏分散 =Σ(x i -x h ) /(N-1) =STDEVP( ) standard-deviation-p 標準偏差 = ( 分散 ) =STDEV(

8 分散標準偏差 :Excel 関数後でこういう関数を使う (excel007) 今はで計算するので使わなくてよい =VARP( ) variance-p 分散 =Σ(x i -x h ) /N ( データの個数 ) =VAR( ) 不偏分散 =Σ(x i -x h ) /(N-1) =STDEVP( ) standard-deviation-p 標準偏差 = ( 分散 ) =STDEV( ) 不偏標準偏差 = ( 不偏分散 ) 偏差値 (deviation score) 偏差値とは ( 偏差 / 標準偏差 σ)*10+50 と定義される平均値なら偏差値は 50 点平均値 +σ なら 60 点 +σ なら 70 点 -σ は 40 点以下の空欄の偏差値を計算しなさいデータ番号値偏差偏差値データ番号値偏差偏差値 Excel010 ではまた別の名前になっているのでややこしい多くの統計の問題では不偏分散不偏標準偏差を使うことが多いのでそちらに簡単な名前が付いている集団 (Population) から抽出したデータを扱う場合 ( 不偏 ) を使う集団 = データの全体の場合 P の付いた関数を使う No No No No No 平均 =60 σ= No No No No No 平均 =60 σ= 013/1/1 Nara University of Education 9 013/1/1 Nara University of Education 30 次元データ新児の体重データから散布図 (scatter plot) を作りなさい番号身長体重 No No No No No No No No No No No No No がきいと体重もきいという傾向が読み取れる体重 Excel ( 散布図を作る ) からデータ ( 新児体重 100 ) をダウンロードする 1) と体重の列を選択する ) 挿散布図 ( マーカーのみ ) 3) 縦軸をクリックし軸の書式設定から最値を 1500 とする 013/1/1 Nara University of Education /1/1 Nara University of Education 3

Excel ( 散布図のスタイル変更 ) グラフのレイアウトを変更してみる 1) グラフのどこかをクリックするとグラフツールが表されるので ) グラフのレイアウトから 3) 以下のような表を選んでみなさい x の分散 (variance) は Q x =Σ(x i -x h ) /n y の分散は Q y =Σ(y i -y h ) /n xy の共分散 covariance を

9 Excel ( 散布図のスタイル変更 ) グラフのレイアウトを変更してみる 1) グラフのどこかをクリックするとグラフツールが表されるので ) グラフのレイアウトから 3) 以下のような表を選んでみなさい x の分散 (variance) は Q x =Σ(x i -x h ) /n y の分散は Q y =Σ(y i -y h ) /n xy の共分散 covariance を Q xy =Σ(x i -x h )(y i -y h )/n として相関係数を r= Q xy / (Q x *Q y ) と定義する (correlation coefficient) Q xy <0 Q xy >0 Q xy <0 Q xy >0 Q xy <0 Q xy >0 4) 軸ラベルの字を例えば体重に変更してみる Y h Q xy >0 共分散 > 0 r は正 Q xy <0 Y h Q xy >0 Q xy <0 Y h Q xy >0 x h x h x h 共分散 0 r はゼロに近い共分散 < 0 r は負 Q xy <0 データが直線なら r= +1 データが直線なら r= /1/1 Nara University of Education /1/1 Nara University of Education 34 相関係数相関係数を計算する 3 つの法 r=1 右上がりの直線 (xでyが決定される) 0<r<1 正の相関 (xがきいほどyもきくなる傾向) r 0 yとxには相関がない ( 無関係 ) -1<r<0 負の相関 (xがきいほどyはさくなる傾向) r=-1 右下がりの直線 1) 定義に従って x の分散 y の分散 x-y の共分散から計算する ) Excel の関数を =CORREL() をいる 3) Excel のグラフの表機能を利する他にもあると思いますが上の 3 つを試してみよう 013/1/1 Nara University of Education /1/1 Nara University of Education 36

相関係数を計算する ( データ ) http://cent5.nara-edu.ac.

X,Y の偏差偏差 ^ から X,Y の分散共分散を求め (=sum()/5) 相関係数を計算する ( 平根は sqrt() 関数 ) 013/1/1 Nara University of Education 37

jp/stat/ からデータ ( との :) をダウンロードし Excel の関数 (=CORREL()) を使って相関係数を求める ( プリントに記 ) 回帰直線 (regression line) X と Y の関係を

配列 ] に B 列の数字を選択する父親息子 ( 成人 ) 165 176 171 183 181 187 16 165 166 174 169 17 171 17 165 171 177 180 168 183 165

10 相関係数を計算する ( データ ) から ( 相関係数計算データ ) をダウンロードし定義に従って相関係数を計算しなさい ( 答えをプリントに記 ) Excel ( 相関係数を計算する -1) X Y の平均を求め (=average) X,Y の偏差偏差 ^ から X,Y の分散共分散を求め (=sum()/5) 相関係数を計算する ( 平根は sqrt() 関数 ) 013/1/1 Nara University of Education /1/1 Nara University of Education 38 Excel ( 相関係数を計算する -) からデータ ( との :) をダウンロードし Excel の関数 (=CORREL()) を使って相関係数を求める ( プリントに記 ) 回帰直線 (regression line) X と Y の関係を 1 本の直線で表すとすればこれを回帰直線という 1) ここでクリックしてから ) 数式関数の挿 3) CORREL(Correlation: 相関 ) 関数を選択 4) [ 配列 1] に A 列の数字 5) [ 配列 ] に B 列の数字を選択する父親息子 ( 成人 ) y=son X=FATHER 013/1/1 Nara University of Education /1/1 Nara University of Education 40

11 回帰直線の定義 ( 参考 ) 最乗法データ点との差の乗の和が最になるよう直線 a,b を決める ( 最乗法 ) y y=ax+b i 番のデータ (x i,y i ) と直線 (y=ax+b) との差 i は ( ax b) y i i i y y=ax+b 傾き a 切 ( x x )( y y ) i h i ( xi xh) b y h ax h h x (x i,y i ) の乗の和が最もさくなるように a,b を決める S i S S 0, 0 a b {( ax b) y } これから少々い計算の結果 i i x a ( xi x )( y y ) h i ( xi xh) h b y h ax h 013/1/1 Nara University of Education /1/1 Nara University of Education 4 回帰直線の引き (Excel) 回帰直線の引き (Excel) 同じデータ ( と : 回帰直線 ) から散布図を作る散布図を書いてからグラフツールレイアウト近似曲線線形近似 ( オプション : グラフに式を表 : R- 乗値を表 ) R の値は何を表しているか? 散布図を書いてからグラフツールレイアウト近似曲線線形近似式の表回帰直線の式と相関係数をプリントに記し左図を印刷提出しなさい ( 名 : 番号 ) 013/1/1 Nara University of Education /1/1 Nara University of Education 44

12 Why 回帰? 背のいの息 ( たち ) の平均はその ( たち ) より低い背の低いの息 ( たち ) の平均はその ( たち ) よりい息の背丈は平均に向かって回帰 = 復帰する ( ダーウィンの弟の研究結果 ) 注意 : 相関係数!= 直線の傾き様々な相関係数 (r) y(son) a( 傾き )=1 の直線 ( の平均 =( の平均 ) 平均への回帰 a( 傾き )=0.9 の直線定義できず直線の傾き (a) とは関係ない平均への回帰 x(father) 013/1/1 Nara University of Education /1/1 Nara University of Education 46 BLANK PAGE BLANK PAGE 013/1/1 Nara University of Education /1/1 Nara University of Education 48

医療統計 -3 (01/10/18) ギリシャ字に慣れる ( 書き順も ) 様々な確率 (probability) の分布 (distribution) と計算法確率離散型様分布項分布ポアソン分布連続型様分布正規分布指数分布 t 分布カイ (χ) 乗分布 F 分布確率確率変数 ( 回数個数 etc) 確率変数 ( 体重 etc) 013/1/1 Nara

html 013/1/1 Nara University of Education 50 項分布 (Binomial Distribution) の例項分布 ( 定義 ) さいころを 10 回振って 6 が 3 回出る確率は? =(1/6) 3 (5/6) 7 * 10 C 3 =0.155 治癒率 1/6 の新薬を 10 に投与した 3 が治る確率は?

13 医療統計 -3 (01/10/18) ギリシャ字に慣れる ( 書き順も ) 様々な確率 (probability) の分布 (distribution) と計算法確率離散型様分布項分布ポアソン分布連続型様分布正規分布指数分布 t 分布カイ (χ) 乗分布 F 分布確率確率変数 ( 回数個数 etc) 確率変数 ( 体重 etc) 013/1/1 Nara University of Education /1/1 Nara University of Education 50 項分布 (Binomial Distribution) の例項分布 ( 定義 ) さいころを 10 回振って 6 が 3 回出る確率は? =(1/6) 3 (5/6) 7 * 10 C 3 =0.155 治癒率 1/6 の新薬を 10 に投与した 3 が治る確率は? =(1/6) 3 (5/6) 7 * 10 C 3 結果が YES/NO の通りある試を n 回った時 k 回 YES になる確率 ( 通り = 項 ) がどうなるか? YES( 成功 ) の確率を p( 字 ) とする従って NO( 失敗 ) の確率は 1-p n 回の試をって k 回 YES( 成功 ) である確率 P( 字 ) は X=k を確率変数として ( 確率変数は x,x,z,z 等をいる習慣 ) 6 の出る 3 回は 10 回のうちどれでもよいから 10C 3 ( 項係数 ) 倍される X B10(x,1/6) 計 B 10 (x,1/6) P[ X k nk k] nck p (1 p) ここで n C k は項係数 (Combination) で C k n n! k!( n k)! k 回成功する確率は p k 残りは失敗だから (1-p) n-k 成功失敗の順序は任意なので n C k 倍になる 013/1/1 Nara University of Education /1/1 Nara University of Education 5

77E-09 B3( 回数 ) を選択し [F4] を押し絶対番地 $B$3 にする $B$3 A6 フィルハンドル (+) をドラッグして下にコピーする Excel 関数項係数 nc k =COMBIN(n,k) 乗 p k =POWER(p,k) (1-p) (n-k) =POWER(1-p,n-k) n は定数だから絶対指定 [F4] p は定数だから絶対指定 [F4]

14 項分布 ( 計算練習 ) 項分布 ( 計算練習 )- P[ k] k nk nck p (1 p) 15% あたりのくじを10 回引いたときあたりが0 回 1 回となる確率を計算する始めに定義通り計算し ( 項係数 =COMBIN, 乗 =POWER) P(k) を計算する k nk P[ k] nck p (1 p) あたりの確率 (p) 0.15 回数 (n) 10 あたりの数 (k) nck p^k (1-p)^(n-k) P(k) E E E E E E-09 B3( 回数 ) を選択し [F4] を押し絶対番地 $B$3 にする $B$3 A6 フィルハンドル (+) をドラッグして下にコピーする Excel 関数項係数 nc k =COMBIN(n,k) 乗 p k =POWER(p,k) (1-p) (n-k) =POWER(1-p,n-k) n は定数だから絶対指定 [F4] p は定数だから絶対指定 [F4] 013/1/1 Nara University of Education /1/1 Nara University of Education 54 項分布 (BINOMDIST 関数 ) Excel 関数 BINOMDIST(Binomial-Distribution) で計算し前スライドの P(k) との致を確かめるあたりの確率 (p) 0.15 回数 (n) 10 A6 $B$3 あたりの数 (k) nck p^k (1-p)^(n-k) P(k) BINOMDIST 関数 E E E E E E-09 1 分布の値は FALSE とする 013/1/1 Nara University of Education 55 $B$ ポアソン (Poisson) 分布の例平均 5 本の電話が掛かってくるに本も掛かってこない確率は? 10 本掛かってくる確率は? λ=5 として P( x) e X( 回数 ) P(x):λ= ここまでの計 x x! P(x):λ= /1/1 Nara University of Education 56

ポアソン (Poisson) 分布とはポアソン (Poisson) 分布 - 計算練習ある時間内に平均 λ 回起こる事象がその時間内に x 回起こる確率 P(x) 前ページの例 : 平均 5 本の電話が掛かってくるに時間の範囲を

交差点のの通量お店に来るお客の数 WEB のアクセス件数単位積に落ちる粒の数 1 光年内の恒星の個数 etc e A exp(a) exponential(a) と読む ( 仏 ) 数学者 Siméon Denis

10 分間では平均 5 回なので P(x) の式で λ=5 x=0,1, とする 10 分平均 λ 5 e^(-λ) 0.006738 回数 (x) λ^x x! P(x) 0 1 1 0.006738 1 3 4 5 315 10 0.

1) 計算式通りに計算する exp() fact() ) 関数 POISSON() でも計算し確認する計算練習 - 計算練習 -3 関数 POISSON Excel 関数 ) 関数 POISSON() でも計算し確認する e x

15 ポアソン (Poisson) 分布とはポアソン (Poisson) 分布 - 計算練習ある時間内に平均 λ 回起こる事象がその時間内に x 回起こる確率 P(x) 前ページの例 : 平均 5 本の電話が掛かってくるに時間の範囲を 1 として平均 λ=5 本も掛かってこない確率は?x=0 10 本掛かってくる確率は?x=10 として P( x) e x x! 交差点のの通量お店に来るお客の数 WEB のアクセス件数単位積に落ちる粒の数 1 光年内の恒星の個数 etc e A exp(a) exponential(a) と読む ( 仏 ) 数学者 Siméon Denis Poisson /1/1 Nara University of Education 57 平均分に 1 回電話がかかってくるとする 10 分間に 0 回 1 回 10 回,0 回電話がかかってくる確率は? 10 分間では平均 5 回なので P(x) の式で λ=5 x=0,1, とする 10 分平均 λ 5 e^(-λ) 回数 (x) λ^x x! P(x) E E+18.64E-07 P( x) e 013/1/1 Nara University of Education 58 x x! 1) 計算式通りに計算する exp() fact() ) 関数 POISSON() でも計算し確認する計算練習 - 計算練習 -3 関数 POISSON Excel 関数 ) 関数 POISSON() でも計算し確認する e x =EXP(x) P( x) e x x! false 階乗 Factorial X!=FACT(X) E E+18.64E /1/1 Nara University of Education /1/1 Nara University of Education 60

項分布 ( 極限 ) ポアッソン分布希な現象を量に観測するとポアッソン分布になる (19 世紀プロシア軍でに蹴られて死ぬ兵隊の数がポアソン分布になるという研究があった ) 平均 5 本の電話が掛かってくるとするある 1 秒間に電話が掛かってくる確率 P=5 本 /4 時間 *60 分 *60 秒 =0.000058 故にある 1 秒間に掛かってこない確率は 1-P=0.

16 項分布 ( 極限 ) ポアッソン分布希な現象を量に観測するとポアッソン分布になる (19 世紀プロシア軍でに蹴られて死ぬ兵隊の数がポアソン分布になるという研究があった ) 平均 5 本の電話が掛かってくるとするある 1 秒間に電話が掛かってくる確率 P=5 本 /4 時間 *60 分 *60 秒 = 故にある 1 秒間に掛かってこない確率は 1-P= 従って (86400 秒 ) に 10 本掛かってくる確率は項分布をいて 86400C 10 * ( ) 10 *( ) この式で N=86400 がきく p= がさいことをいると λ=5 x=10 として右の式になるということがされる P( x) e 式の導出は %B3%E5%88%86%E5%B8%83 等にある 013/1/1 Nara University of Education 61 x x! 確率の分布 (distribution) 様分布から正規分布へ 1 個場合の数確率確率の和個の和場合の数確率確率の和確率確率 013/1/1 Nara University of Education の和これを様分布 (Uniform) という多くのデータは正規分布に近づく正規分布 (Normal Distribution) contents 3 個の和場合の数確率確率の和確率の和ラフないだがたくさん集めるとなんでも正規分布になる = これを中極限定理という標準正規分布関数平均 =0 分散 =1 f ( x) 1 exp( x ) 013/1/1 Nara University of Education /1/1 Nara University of Education 64

正規分布に慣れるために =exp 関数に慣れる数 e と関数 e x e=.7 188 188 45904 ( 然対数の底 ) という複利計算 1 (1 1) 年利 100% で1 年間の元利 1 (1 ).5 年利 50% で年間の元利 1 3 (1 ).37037... 3 1 10 (1 ) 10 1 (1 ) 100 1 N (1 ) N.59374... 100.704813.

0 1 3 x x x x ここでn!=n*n-1* 1... 0! 1!! 3! 但し 0!=1!

17 正規分布に慣れるために =exp 関数に慣れる数 e と関数 e x e= ( 然対数の底 ) という複利計算 1 (1 1) 年利 100% で1 年間の元利 1 (1 ).5 年利 50% で年間の元利 1 3 (1 ) (1 ) 10 1 (1 ) N (1 ) N e 年利 10% で 10 年間の元利年利 1% で 100 年間の元利利率年数 =1 で年数がの極限値が e である 013/1/1 Nara University of Education 65 1 e (1 ) N e x (1 x N N ) N ! 1!! 3! x x x x ここでn!=n*n-1* ! 1!! 3! 但し 0!=1!=1とする微分しても積分しても分と等しい関数 = e x d dx x e x e x e dx e x 解析学 ( 微分積分学 ) において最も重要な関数 013/1/1 Nara University of Education 66 e x 数学でもっとも重要な関数 e x と e -x 微分すると分になる ( 故に積分しても同じになる ) e x d dx (1 e x x N ) N 1 1x 0 1! 1 Euler( オイラー ) の公式 e e ix i cos x x x x... 0! 1!! 3! x 3 x x x x x x e! 3! 0! 1!! 3! x i sin x スイス : Leonhard Euler, X exp(x) -x^ exp(-x^) プリントに e x e -x のグラフをで書きなさい exp(x) exp( x^) /1/1 Nara University of Education /1/1 Nara University of Education 68

18 x exp( なぜ? ) dx 確率の総和 = 積を 1 にするために標準正規分布関数を以下で定義する f ( x) 1 exp( x ) 頂点 =1 このカーブの下の積.506 頂点 0.4 このカーブの下の積 =1 x なぜ? 変曲点が =+1/-1 となるように f ''( x) 1 ( x x 1) exp( ) 般の正規分布の場合原点から変曲点までの距離が σ( 標準偏差 ) となる -1 上に凸 0 +1 下に凸 013/1/1 Nara University of Education /1/1 Nara University of Education 70 般の正規分布の式 μ: 平均,σ: 標準偏差 N(0,1) 標準正規分布 (μ=0 σ=1) f ( x) 1 exp( 0 1 x ) グラフを μ ずらす 1 ( x ) f ( x) exp( ) μ N(μ,σ ) 値は 1/σ 倍する σ グラフの下の積はどちらも 1 に等しい幅を σ 倍する正規分布の μ と σ 1 ( x ) N(μ,σ ) f ( x) exp( ) 平均が μ であるとは確率変数 x の値を分布関数で平均すると μ になるということ x f ( x) dx 分散とは確率変数 xと平均の差 ( 偏差 ) の乗を分布関数で平均した値のこと計算の結果 σ となる故に標準偏差はσとなる ( x ) f ( x) dx 離散分布の場合平均は全体の個数 (N) で割るが正規分布の全体 = 積 =1 なので積分 (=Σ に相当 ) した値がそのまま平均値になる 013/1/1 Nara University of Education /1/1 Nara University of Education 7

医療統計 -4 (01/10/5) 般の正規分布の式正規分布の性質と応項分布どのような分布であれ多くの試を重ねると分布はこの形に近づくことの発 ( ドモアブル ) Abraham de Moivre, 1667-1754 標準正規分布の形 μ: 平均,σ : 分散 ( 標準偏差 ) N(0,1 ) 標準正規分布 (μ=0 σ=1) f ( x) 1 exp( 1 x ) グラフを μ

標準偏差の正規分布があるとする変数 Z=(X-μ)/σ は標準正規分布に従う故に般の正規分布は変数 Z をいて N(0,1 ) として処理する N(0,1 ) 標準正規分布 (μ=0 σ=1) f ( z) 1 z exp( ) 1 般の正規分布 (μ σ ) これを Z 変換という ( ) Z X μ N(μ,σ ) 1 ( x ) f ( x) exp( ) σ 確率変数 (x)

19 医療統計 -4 (01/10/5) 般の正規分布の式正規分布の性質と応項分布どのような分布であれ多くの試を重ねると分布はこの形に近づくことの発 ( ドモアブル ) Abraham de Moivre, 標準正規分布の形 μ: 平均,σ : 分散 ( 標準偏差 ) N(0,1 ) 標準正規分布 (μ=0 σ=1) f ( x) 1 exp( 1 x ) グラフを μ ずらす N(μ,σ ) 1 ( x ) f ( x) exp( ) 値は 1/σ 倍する σ グラフの下の積はどちらも 1 に等しい幅を σ 倍するポアッソン分布 013/1/1 Nara University of Education /1/1 Nara University of Education 74 μ Z 変換逆に μ: 平均,σ: 標準偏差の正規分布があるとする変数 Z=(X-μ)/σ は標準正規分布に従う故に般の正規分布は変数 Z をいて N(0,1 ) として処理する N(0,1 ) 標準正規分布 (μ=0 σ=1) f ( z) 1 z exp( ) 1 般の正規分布 (μ σ ) これを Z 変換という ( ) Z X μ N(μ,σ ) 1 ( x ) f ( x) exp( ) σ 確率変数 (x) こちらの関数の形にして処理するのが般的すべてこの標準正規分布 N(0,1) で処理する N(0,1 ) の正確な形確率分布確率変数 (z) 標準正規分布 N(μ=0,σ=1) 標準 (Standard) 正規 (Normal) 分布 (Distribution) 1(σ) 変曲点 (σ) 3(σ) exp( f ( z ) z ) 1 exp( z ) この形の関数をガウス型 (Gaussian) という Gauss によって研究された正規分布をガウス分布という分野もある 0 確率変数 (z) 013/1/1 Nara University of Education 75 Fridericus Gauss /1/1 Nara University of Education 76

確率変数 (z) どちらもでは計算できない表または Excel 関数をいる標準正規分布 N(μ=0,σ=1) f ( z ) 1 z exp( ) f ( z ) 1 z exp( ) z( 確率変数 ) 013/1/1 Nara University of Education 77 013/1/1 Nara University of Education 78

20 確率は積問題はつ縦軸の数値は何を意味するか? z から積 P を求める積 P から z を求める確率分布 z=0 となる確率が 0.4 という意味ではない! 確率変数 z が 0 1 の範囲である確率がこの積から求まる ( 約 0.34) ということである曲線の下の積全体は 1(100%) である ( そうなるように決めたのである ) 確率分布 P( 積 = 確率 ) z が与えられたとき積 P はいくらか? 0 z の範囲になる確率 P はいくらか? 積が P になるような z はいくつか? 確率が P になるような z の範囲は 0 からどこまで (z) か? 確率変数 (z) どちらもでは計算できない表または Excel 関数をいる標準正規分布 N(μ=0,σ=1) f ( z ) 1 z exp( ) f ( z ) 1 z exp( ) z( 確率変数 ) 013/1/1 Nara University of Education /1/1 Nara University of Education 78 標準正規分布表標準正規分布表 ( 続き ) コンピュータが近にない時代を体験する 0 3 の確率は ) z が 0 となる確率は? ) z が 1 となる確率は?( 引き算 ) 3) 0 z となる確率が 0.31 となる z の値は? (z=0.88 で P= z=0.87 で P= 近いを取りなさい ) Slide-9 に拡図あります 013/1/1 Nara University of Education /1/1 Nara University of Education 80

21 積 ( 確率 ) の表や関数はいろいろあるので要注意練習 :Excel 関数を利する側両側 0 z 半分 / 倍 -z z 全体が 1 で左右対称 ( 半分は 0.5) をいればどれかが分かれば他はすべて求まる z z Z を与えて積 (P) を求める正規分布表 (+0.5) と致することを確認する練習 : 1) 以下の表の Z の値に対応した下側累積確率を Excel の関数 NORMSDIST で計算し記しなさい ) 同じ z の値での標準正規分布表 (Slide79-80) の値も記しなさい 3) このつの値の差はいくらになるか? z 以上 ( 上側累積確率 ) -z z 以外 ( 両側累積確率 ) Excel の NORMSDIST(z) または NORMDIST(x,μ,σ,TRUE) Normal (Standard) Distribution Z NORMSDIST(Z) 正規分布表 (Z) その差 z 以下 ( 下側累積確率 ) 013/1/1 Nara University of Education /1/1 Nara University of Education 8 例題のための関数 -NORMSDIST 逆問題積 ( 確率 ) から変数 Z を求める標準正規分布の下側累積分布関数の値 P( い部分の積 = 確率 )=NORMSDIST(z) NORMal( 正規分布 ) Standard( 標準 ) DISTribution( 分布 ) 積 ( 確率 ) を与えて対応する Z を求める 1) 正規分布表からつける ( ぴったりでなければ補間する ) z から下側累積の積 ( ) を求める NORMSDIST(0) 0.5 NORMSDIST(.0) z ) Excel の関数 Z=NORMSINV(P) Normal-distribution (Standard) Inverse( 逆 ) 練習 : 下側確率 ( 図の斜線部の積 ) が下にす値となる z の値を Excel 関数 NORMSINV で求めなさい下側確率 (P) Z=NORMSINV /1/1 Nara University of Education /1/1 Nara University of Education 84

22 例題のための関数 -NORMSINV 般の正規分布 (Z 変換 ) 標準正規分布の下側累積分布関数の逆関数の値 z=normsinv(p= い部分の積 = 確率 ) NORMal( 正規分布 ) Standard( 標準 ) INVerse( 逆 ) 般の正規分布 N(μ,σ ) の X は Z 変換 Z=(X-μ)/σ <-> X=μ+σ*Z によって標準正規分布 N(0,1 ) になる対応するグラフの下の積はどちらも等しい下側累積の積が P となる z は? NORMSINV(0.5) 0 NORMSINV(0.95) グラフを μ ずらす値は 1/σ 倍する幅を σ 倍する NORMSINV(1.0) ERROR( または ) 確率変数 (z) 0 1 μ μ+σ 確率変数 (x) こちらの Z=1 の下側確率とこちらの x=μ+1 σ の下側確率は等しい 013/1/1 Nara University of Education /1/1 Nara University of Education 86 般の正規分布 (Z 変換 ) よって般の正規分布 N(μ,σ ) は Z 変換 Z=(X-μ)/σ によって標準正規分布 N(0,1 ) として処理するのが便利である例題 : 知能指数 IQ は N(μ=100,σ =15 ) の正規分布にしたがうとして IQ が 150 以上のは何パーセントいるか? Z=(x=150 - μ=100)/(σ=15)=3.33 標準正規分布表 (Slide-80) から Z=3.33 に対応する積 = 確率はと分かる故に (Z=3.33 つまり IQ=150) 以上の積 = 確率は = (0.04%) となるここの積が x=150 Z=3.33 残りが /1/1 Nara University of Education 87 逆問題上位 5% にるための偏差値は? Slide-79 標準正規分布表を調べると P=0.45 となる z は z=1.64 P= z=1.65 P= から補間して z= ( 求めよ ) 正確には Excel の関数 ( 下側確率逆関数 ) NORMSINV(P= ) z= ( 求めよ ) 偏差値とは H=z*10+50 のことだから上のzで計算すると H= となる故に偏差値点以上なら上位 5% にる NORMSINV の積は下側累積正規分布表の積はここここの積が 0.05 となる z は? Slide-30 偏差値 =10*( 点数 x ー平均 μ)/σ /1/1 Nara University of Education 88

23 正規分布 :Z->P( 順問題 ) 例題正規分布 :P->Z( 逆問題 ) 例題 1. 確率変数 z が N( 0, 1 ) の正規分布に従うとき,p( 1 z 3 ) を求めよ.. 確率変数 x が N( 1, 36) の正規分布に従うとき,p( 9 x 18 ) を求めよ. ( 分散が 6 である ) 3. 平均値が 60 で標準偏差が 15 の正規分布において, 確率変数 X の値が 75 以上 90 以下となる確率を求めよ. Slide-88 の法に従って上位 1% 上位 10% にるための偏差値を計算しなさい表で求めるまたは Excel 関数でもどちらかで計算しなさい 4. ある試験の受験者 1000 の得点の平均は 55 点, 標準偏差は 15 点であった. 得点の分布がほぼ正規分布とみなせるとき, 得点が 85 点のは得点のいから数えて約何にいるか ( 上位何 % 以内という答えでもよい ) /1/1 Nara University of Education /1/1 Nara University of Education 90 よくる図標準正規分布表 (0 Z の確率 ) 同じことをっている平均 +/- σ の範囲に約 95% 平均 +/- 3σ の範囲に約 99% 以上含まれるということが切常活的には 95% 99% の範囲にっていれば OK であることが多い物理学の実験では +/- 6 σ ( %) の確からしさが要求される Higgs 粒の検出はまだこのレベルに達してはいない 013/1/1 Nara University of Education /1/1 Nara University of Education 9

24 医療統計 -5 (01/11/1) 集団 (Population) と標本 (Sample) 無作為に抽出された標本のデータから集団の性質を推定することが的推定集団 (population) と標本 (sample) 標本が多いほど集団の性質がより正確に推定できる標本の数 n を標本のきさ (size) という集団抽出標本集団のきさは問題としない分多ければよい n は平均値が意味がある程度のきさ数個以上任意 013/1/1 Nara University of Education /1/1 Nara University of Education 94 集団の (μ σ) と標本の (m と σ') 統計学によれば集団の平均 μ 標準偏差 σ とする ( 分かっているとする ) そこから抽出した標本 (n 個 ) の平均値 m の [ 期待値 ] は μ に等しく標準偏差 σ'=σ/ n となる集団 μ σ 平均 =m'' 平均 =m 平均 =m' m の期待値 =[m]=μ σ'=σ/ n [ 期待値 ]= 試を無限回おこなったとして得られる値の平均値のこと例 (n=3 σ=8cm σ'=4.6cm) 集団 = 全国男学として平均 μ=173cm 標準偏差 σ=8cm が分かっているとする n=( たとえば )3( ) の標本をたくさんとってみる集団 μ σ σ=8cm 平均 =175 平均 =170 平均 =180 平均 =160 [m]=μ=173cm 標本 (n=3) [m]=μ σʼ=4.6cm σ'=4.6cm きさ 3 の標本の平均値の分布この分散は (8/ 3=4.6cm) となる 013/1/1 Nara University of Education /1/1 Nara University of Education 96

25 n=300( ) なら? 逆に n=1( ) なら? 測定値 = 平均値集団 μ σ=8cm 平均 =173 平均 =17 平均 = cm 標本 (n=300) [m]=μ σʼ=0.48cm 集団 μ σ=8cm 平均 =188 平均?=17 平均 =155 標本 (n=1) [m]=μ σʼ=σ 平均 =175 きさ 300 の標本の平均値の分布この分散は (8/ 300=0.46cm) となる平均 =175 きさ 1 の標本の平均値 = 測定値の分布は集団と同じ標本のサイズをきくすると平均値の分布のバラツキ ( 分散 = 標準偏差 ) はさくなる 013/1/1 Nara University of Education /1/1 Nara University of Education 98 まとめると集団の平均 μ 分散 σ ( 標準偏差 σ) からサイズ n の標本をたくさんとって平均値の分布をみると集団 μ σ 標本の平均の期待値は μ となり標本 ( サイズ =n) [m]=μ σʼ=σ/ n 標本の平均値の分布の分散は (σ /n) となる ( 要するに狭くなる ) 標準偏差でえば σ/ n となる n をうんときくすると ( ) σ は 0 となるつまり確実に標本の平均値は集団の平均値になるということ中極限定理 (Central Limit Theorem) 集団 ( 平均 μ 分散 σ ( 標準偏差 σ) からサイズ n の標本をたくさんとって平均値の分布をみると平均値 m は正規分布 N(μ,σ /n) となる標本の平均の期待値は μ となり平均 :μ 分散 : σ N(, ) 平均値は正規分布する集団が正規分布である必要はないということがいえるこれを中極限定理という ( 統計学でもっとも基本的な定理 ) n 013/1/1 Nara University of Education /1/1 Nara University of Education 100

26 例題 : 標本平均の分散 ( 標準偏差 ) 例題 -1 標本のきさと標準偏差平均 :μ 分散 : σ 集団の平均体重 μ=55kg 標準偏差 σ=5kg の時 5 のサンプルの体重の平均値 (m) は? 標準偏差 (σ') は? 平均 (μ) 55kg, 標準偏差 (σ)5kg の集団から, きさ 5(n) の標本を抽出するとき, 標本平均の期待値 [m] と標準偏差 (σ') を求めよ. 定義に従って求めてくださいイメージを絵で描いてくださいサイズ n の標本の平均 :m=μ 分散 :σ' =σ /n N (, ) n 集団の分布 n=5 の標本の平均の分布図故に標準偏差 σ'=σ/ n 標本の平均値の分布 013/1/1 Nara University of Education /1/1 Nara University of Education 10 例題 - 逆に標本から集団を推定する集団の平均 150(g), 標準偏差 30(g) の葱から 100 個の標本を無作為抽出するとき, 標本平均が 145(g) 以下となる確率を求めよ集団の分布 μ=150 σ=30 n=100 標本抽出標本平均の分布 [m]=μ=150 σ'= n=100 のサンプルの σ' は? この σ' を使って x=145 を z 変換して z は? この z の値 (+ に直して ) で標準偏差表をると? 従って x<145 となる確率は? 平均 :? 分散 : σ 集団の標準偏差 (σ) は何らかの法で知られているとする ( 分からない場合は後で扱う ) n のサンプルのの平均値が 170cm であった集団の平均値はいくらと推定されるだろうか? n 人平均 :170cm 013/1/1 Nara University of Education /1/1 Nara University of Education 104

27 標本平均 m から集団の平均 μ を推定する集団の平均 μ が 175cm と仮定する μ=165 とすると μ=175 分散 : σ はわかっているが平均 : μ は? ありそう分散 : σ=8cm 平均 : μ=175cm とする N(, ) n n のサンプルの平均が m(ex 170cm) であったとする集団の平均 μ を推定してみる nサンプルの平均値の正規分布 m=170 μ=170 可能性い μ=175 ちょっと可能性は少ない μ=180 ありそうもない 10 サンプルの平均値が 170cm とするこのとき 10 のサンプルの平均が170cm 以下となる確率はどの程度か? Z=( )/(8/ 10)=-1.98から左のい確率は約.5% m= 以下あるいは 180 以上である確率は約 5% となる m=170 z= N( 175, ( ) ) n 10 μ=175 P= =95.% z= /1/1 Nara University of Education /1/1 Nara University of Education 106 逆に考える = 平均の区間推定まとめると m=170 m=170 約 95% μ<165 μ=175 95% 99% z=1.96 上側確率 =0.05 両側 95% z=-1.98 z= ' 1.96 ' 1.96 '.58 ' 標準偏差 8cm の集団から取った 10 のサンプルの平均が 170cm となっているとき平均が 165cm 以下または 175cm 以上である確率は 5% 程度であるこのことを以下のように表現し区間推定とう信頼度 95% で平均は 165cm 175cm である σ=8cm n=10 人とすると σ'=8/ 10=.53cm 信頼度 95% では μ= * ~175.0 信頼度 99% では μ= * ~176.5 と表現する z=.58 上側確率 =0.005 両側 99% 013/1/1 Nara University of Education /1/1 Nara University of Education 108

28 簡単にうと信頼度とは n=10 のサンプル平均 =170cm であった集団の平均を推定すると信頼度 95% では 165cm 175cm 信頼度 99% では 163.5cm 176.5cm σ=8cm 95% 信頼区間 99% 信頼区間 013/1/1 Nara University of Education 109 同じ測定を何度も繰り返したとき測定値がその範囲になる確率 ( 範囲のことを信頼区間という ) (1- 信頼度 ) の程度ではそうならない確率がある信頼度がいほど範囲は広くなる ( 曖昧になる ) 99% 信頼区間 95% 信頼区間 50% 信頼区間 0% 信頼区間 ( ジャストの値 ) 99.9% 信頼区間信頼度 95% でであるとは同じ測定 ( 抽出 ) を何回 ( 理論的には回 ) も行ったときそのようにならないこと ( 誤り ) が 5% で起こりうるということである信頼度 100% で言明できることは母集団の平均値は [- ~ ] ということ母集団の平均値 = サンプルの平均値 cm であるという言明の信頼度は 0% である 013/1/1 Nara University of Education 110 平均の推定 - 例題 -1 量の葱 ( 平均値 =μ= 不明標準偏差 =σ=30g) から 100 個の標本を無作為抽出して測定したところ, 標本平均 150g となった. 平均 ( 集団の平均 =μ) の 95% の信頼区間を求めよ. σ' = σ/ % 信頼区間は *σ' <= μ <= *σ' g g 標準偏差 30(g) である量の葱から標本を無作為抽出する. 平均の 95% 信頼区間の幅を 3(g) 以下で得るには, 標本のきさを何個にすればよいか幅が 3 ということは +/-(1.96*σ') が +/-(1.5) になればよい σ'=σ(30)/ n=1.5/1.96 から n= 故に n = 個 ( 以上 ) 区間推定のパターンを覚えるサイズ n のサンプルの平均値 m から集団の平均値 μ の範囲を推定する集団 μ? σ n 個のサンプル集団の標準偏差 σが分かっていればそれを使う分からなければサンプルの標準偏差 * を集団のσとみなして 95% 信頼度では μの範囲 ( 区間推定 ) は m 1.96 n 99% 信頼度では μの範囲 ( 区間推定 ) は m.58 n m 信頼度がいほど範囲は広くなる ( 曖昧になる ) 013/1/1 Nara University of Education 111 * サイズ n>30 程度ならこれでよい ( この標準偏差は不偏分散 (n-1 で割るほう ) から計算するのが better 013/1/1 Nara University of Education 11

課題信頼区間のパターン 1. ある町の学校 1 年男から 50 を無作為抽出して調べたところ, 平均は 116.8cm であった. この町の学校 1 年男の平均について信頼度 95% の信頼区間を求めよ. また信頼度 99% ではどうか? なお, 同年にわれた全国調査で, 学校 1 年男のの標準偏差は 4.97cm であった. 95% 5% z=1.

29 課題信頼区間のパターン 1. ある町の学校 1 年男から 50 を無作為抽出して調べたところ, 平均は 116.8cm であった. この町の学校 1 年男の平均について信頼度 95% の信頼区間を求めよ. また信頼度 99% ではどうか? なお, 同年にわれた全国調査で, 学校 1 年男のの標準偏差は 4.97cm であった. 95% 5% z=1.645 側 99% 1% z=.36 95% 99%. 学校 1 年男のの標準偏差は 4.97(cm) であることが分かっているとき, ある町の学校 1 年男の平均を信頼度 95% で +/-1cm の誤差 ( 幅 cm) で求めるには, 標本のきさを何にすればよいか. z= % z=1.960 両側 z= % z= % 99% 013/1/1 Nara University of Education /1/1 Nara University of Education 114 正規分布表 (z: 側確率 ) Appendix ( 公式の導出 ) 母集団平均 :μ 分散 : σ 定理 : サイズ n の標本の [ 平均値 ] の分散は集団の分散の 1/n になる N(, ) n x x 1 E( V ( )) n n E( ): 期待値 V( ): 分散 1 E( V ( x1) V ( x) ) ne( V ( x)) n n n n 1 1 n 個の標本の平均値の分散は標本の抽出が無作為ならお互いに相関がないので各確率変数の分散の和になる ( 共分散 ( 積 ) にあたる項は 0 になるから ) 極端なケースとして集団全部をサンプルとして取れば (n ) 確実にサンプルの平均値は μ になり分散はあり得ない (σ /n 0) 013/1/1 Nara University of Education /1/1 Nara University of Education 116

30 医療統計 -6 01/11/8 区間推定のパターン ( 復習 ) 区間推定の復習集団 n 個のサンプル z=0(m=μ) 集団 n 個のサンプル μ? σ 既知 m σ'=σ/ n 95% μ? σ 既知平均 m P(-1.96<z<1.96)=95% z 変換 z=(m-μ)/σ' から P(-1.96σ'<(m-μ)<1.96σ')=95% つまり m-1.96σ'<μ<m+1.96σ' である確率が 95% であると解釈しこの範囲を 95% 信頼区間という z=-1.96 z=+1.96 mの分布集団の標準偏差 σが分かっているとき 95% 信頼度では μの範囲 (95% 信頼区間 ) は 99% 信頼度では μの範囲 (99% 信頼区間 ) は m 1.96 n m.58 n 狭い広い m 99% ならとする 013/1/1 Nara University of Education /1/1 Nara University of Education 118 集団の σ がわからない場合の区間推定種類の標準偏差 1/n か 1/(n-1) か集団 μ? σ? n 個のサンプル平均 m (x1,x,x3 ) 集団 μ σ n 個のサンプル平均 m (x1,x,x3 ) 簡便な法 1) サンプルデータ (x1,x ) から単純に標準偏差 (s) を求めて ( xi m) s それを集団の標準偏差 (σ) とみなして ( 推定して ) n 前スライドの式を適 ) サンプルデータから不偏標準偏差 (u) を求めてそれを集団の標準偏差 (σ) とみなして以下同 3) 由度 n-1 の t- 分布 ( 後述 ) を適し区間推定する統計的に信頼性のい法 ( 信頼区間は広くなる = 間違える危険が少なくなる ) ( サンプル数が多くなるとどれでも同じような結論になる ) u ( xi m) n 1 標準偏差 (σ) σ =Σ(xi-μ) /N (N: 集団全体 ) 1) 標準偏差 (s) s ( xi m) / n ) 不偏標準偏差 (u) u ( xi m) /( n 1) 集団の標準偏差 (σ) の推定値としては不偏標準偏差 (u) のが統計学的により妥当とされる (u > s) (xi-μ)=(xi ー m)+(m-μ) から平均との分散 = 標本平均との分散 + 平均の差の乗 σ > s (sはσの推定値としてはさい) 1 1 ( xi ) ( xi m) ( m ) n n Excel 関数では分散 (s )=VARP 標準偏差 (s)=stdevp 不偏分散 (u )=VAR 不偏標準偏差 (u)=stdev 単純なに P=Population( 集団 ) が付くことに注意 ( サンプル = 集団そのものとなすということ ) Variance: 分散 Standard Deviation: 標準偏差 013/1/1 Nara University of Education /1/1 Nara University of Education 10

31 集団の σ がわからない場合の区間推定 : 例題繰り返しになるが区間推定のパターンをまとめると前スライドの 1) と ) を実してみる Data ファイル Book-3-STDEV/STDEVP サイズ n のサンプルの平均値 m から集団の平均値 μ の範囲を推定する集団から 4 個のサンプルを得た平均の 99% 信頼区間を計算しなさい No X 偏差偏差 ^ 分散 (s^) 標準偏差 (s) 不偏分散 (u^) 不偏標準偏差 VARP STDEVP VAR STDEV 平均和 ) 偏差の乗の和を求め 1) 分散の定義から s と s を求め ) 不偏分散の定義から u と u を求め 3) 対応する Excel 関数の値と致を確認する 4) σ=s としたときの区間推定 ~ 5) σ=u としたときの区間推定 ~ ちなみに t- 分布をいると [39.1~47.4] となる 013/1/1 Nara University of Education 11 集団 μ? σ? n 個のサンプル 1. 集団の標準偏差 σ が分かっている場合それを使って標本平均の標準偏差 σ' = σ/ n としてこれまでのパターンを適して区間推定する. 集団の標準偏差が不明の時かつ標本数 n が 30 程度以上なら n 個の標本の標準偏差 ( 不偏標準偏差 *) を集団の標準偏差 σ となして以下同じく σ'=σ/ n として上と同じパターンで処理する 3. 集団の標準偏差が不明かつ標本数 n が 30 程度以下なら後述の t- 分布をいて区間推定をう * 不偏分散不偏標準偏差とは n で割る代わりに (n-1) で割って求めた値である (Slide-6) 013/1/1 Nara University of Education 1 率の推定 yes/no の率 ( 項分布正規分布 ) t- 分布の話の前に別パターンの推定について学ぶそれは Yes/No の率 ( 率 ) を推定すること集団の持率 =p yes yes no yes n に聴いたところ持率は R でした集団の持率 p はいくらの範囲と推定できるか? Yes の率 =p No の率 =(1-p) の集団がありそこから n 個のサンプルを取るとするそのうち k 個が yes である確率は項分布 (Slide-5) で計算できるが n がある程度きい場合 ( 数以上 ) Yes の率の期待値 ( 平均 ) は p であり Yes の率の分散は σ' =p(1-p)/n の正規分布となることが分かっている (Appendix) 率 =p yes yes no p yes サンプルでの持率 =R / 体重のような連続的な変数ではない集団において占める割合を率 (p), 標本において占める割合を標本率 (R) という. 標本率 (R) を調べることにより, 率 (p) を推定することができる. yes の率 R の期待値 = 率 p 分散 σ' =p(1-p)/n yesの率 N( p,( p(1 p) / n) 013/1/1 Nara University of Education /1/1 Nara University of Education 14

32 率はわからない ( 調べたいことなので ) 率 p は調べたいことそのものなので σ' は計算できない σ' =p(1-p)/n 例題 & 練習 3600 を無作為に抽出して聞いたところ持は 000 だった集団の持率 p の範囲を推定しなさいそこでサンプルでの率 R を代わりにいて σʼ の推定値とする σ' =p(1-p)/n R(1-R)/n この σ' をいて率 (p) の区間推定をう yes 率 =p yes no yes n=3600 サンプルの持率 R=000/3600= から σʼ= (R*(1-R)/n) = (0.5556*0.4444/3600)= % 信頼度では p の範囲は R 1.96 ' R +/- 1.6% ( %) 99% 信頼度では p の範囲は R.58 ' R +/-.1% ( %) yes の率 R の期待値 = 率 p 分散 σ' =R(1-R)/n サンプル率 R (=3/4) yesの率 N( p,( R(1 R) / n) 013/1/1 Nara University of Education 15 p では 360 に聞いたところ持は00 だった集団の持率 p の範囲を推定しなさい n=360 サンプルの持率 R=00/360= σʼ= (R*(1-R)/n) = 95% 信頼度では p の範囲は R 1.96 ' R +/- % ( % %) 99% 信頼度では p の範囲は R.58 ' R +/- % ( % %) 013/1/1 Nara University of Education 16 課題 -1 量の葱から 100 個の標本を無作為抽出して検査したところ, 不良品が 5 個あった. 集団の不良率を 95% の信頼度で推定せよ. 標本率も未確定の場合ここまでの例では調査を実施してサンプルのパーセンテージ (R) が分かったとして集団のパーセンテージ (p) を推測するということであったで調査の設計という課題があるたとえば新薬の有効性 ( 効くか効かないか ) を調べたい. これこれの信頼度で推定をうためには何例以上調査すればよいか? 標本の不良率 R=? 標準偏差 σ' を個数 n と R= で表し下の式に適する 95% 信頼度では p の範囲は R 1.96 ' R +/- % ( % %) サンプルの率 (R) も集団の率 (p) もわからないのだから σ'= (p(1-p))/ n (R(1-R))/ n を計算できないが x(1-x) は 0<x<1 の範囲で最で 1/4=0.5 ということを使って次ページのように n を決める P(1-P) /1/1 Nara University of Education /1/1 Nara University of Education 18

33 調査の設計 ( 必要な n を決める ): 例題無作為抽出で世論調査をって, ある政策に対する持率を調べたい. 信頼度 95%, 誤差の範囲 +/-1% 以内で求めるには何以上調査すればよいか. 95% 信頼度では p の範囲は +/-(1.96σ') であるよって 1.96σ' < 1% (0.01) としたい σ'= (p(1-p))/ n (R(1-R))/ n だが p も Rも分からない ( これから調査するのだから ) とりあえず式変形して n>(1.96/0.01) (p(1-p)) から n>(1.96/0.01) (p(1-p)) p がどんな値 (0 1) でも p(1-p) は 1/4 以下だから n> (1.96/0.01) (1/4)=9604 ( 以上 ) とすれば丈夫である P(1-P) 課題無作為抽出で世論調査をって, ある政策に対する持率を調べたい. 信頼度 99%, 誤差の範囲 +/-1% 以内で求めるには何以上調査すればよいか. 99% 信頼度では p の範囲は +/-( σ') であるよって σ' < 1% (0.01) としたい σ' をサンプル数 nとpを使って表すととなる故に 0.01> 式変形して n>( / ) (p(1-p)) から n>( / ) (p(1-p)) p は不明であるがどんな場合でも p(1-p) は 1/4 以下だからサンプル数は以上であればよい YES/No が半々の場合 (p=0.5 p(1-p)=0.5) 番多くのに聞かなければいけないほぼ全員が YES/No に偏っている場合はもっと少ないサンプルでよいが最悪のケースでのサンプル数を求めているとうこと故障率や不良率のように p がさいとなされる場合はもっと少ないサンプル数でよいことになる 013/1/1 Nara University of Education /1/1 Nara University of Education 130 補 : 項分布と正規分布の関係項分布とは YES/NO の通りある試をn 回った時 k 回 YESになる確率分布であった YES( 成功 ) の確率をp( 字 ) とすると n 回の試をって k 回 YES( 成功 ) である確率 P( 字 ) は k nk P[ k] C p (1 p) n k これは n がきくなると μ=np σ =np(1-p) の正規分布に近づく項分布正規分布の例題コインを 100 回投げたとき表がでる平均回数の 95% 信頼区間を求めなさい p=(1-p)=0.5 だから平均 μ= 回分散 σ = の正規分布となる N( np, np(1 p)) 95% 信頼区間は +/-( )=+/- 約回故に 95% 信頼区間は回なお 99% では +/-( )=+/- 約回故に 99% 信頼区間は回 N( np 50, np(1 p) 5) 013/1/1 Nara University of Education /1/1 Nara University of Education 13

多くのサンプルが得られる場合少ない (n<30 程度 ) サンプルしかない場合 m( 標本平均 ), s( 標本標準偏差 ), u( 標本不偏標準偏差 ) m の分布は n-1 の由度を持つ t 分布 ( 正規分布の補正 ) に従うとして区間推定検定をう (t 検定 ) m t u/ n William Gosset 1876 1937 30 未満のサンプルを標本 30 以上を標本

34 医療統計 -7 01/11/15 Student の t 分布による区間推定集団 m の分布は σ'=(u または s)/ n の正規分布として区間推定検定をっても丈夫 Student の t 分布 Guness 社員 W. ゴセットの論平均値の誤差の確率分布による (1908) Guiness 社では社員の論発表を禁 ( 機密保持のため ) そこでペンネーム Student で論発表関数の変数として字 t をいたので (Student の )t 分布という μ? σ? 多くのサンプルが得られる場合少ない (n<30 程度 ) サンプルしかない場合 m( 標本平均 ), s( 標本標準偏差 ), u( 標本不偏標準偏差 ) m の分布は n-1 の由度を持つ t 分布 ( 正規分布の補正 ) に従うとして区間推定検定をう (t 検定 ) m t u/ n William Gosset 未満のサンプルを標本 30 以上を標本とうことがある t 変数の使いは習慣的に x: 普通の正規分布 z: 標準正規分布など 013/1/1 Nara University of Education /1/1 Nara University of Education 134 Student の t 分布さいサンプル (n<30 程度 ) から集団の値を推定する場合にいる由度がさいと正規分布からずれる由度とは (n-1) のこと由度 30 以上ではほとんど正規分布と致する t 分布の t 値は以下の式 m t u/ n 由度という葉変数の個数マイナス拘束条件式の数を数学では由度 Degree of Freedom という z=1 z=1,x=y たとえば 3 次元空間 x,y,z(3 変数 ) に式 1) Z=1 を課すと平となる 3 変数の空間を1 個の式が拘束するとになるとうさらに式 ) x=y も課すと直線となる 3 変数の空間を個の式が拘束すると線になるとうつまり 3 変数 (x,y,z) に拘束がなければ空間 ( 由度 =3) 1 個の式で拘束 3-1= の由度は個の式で拘束 3-=1 線の由度は 1 t μ: 平均 m: 標本平均 u: 標本の不偏標準偏差 n: 標本サイズ ( サンプル数 ) 次式を課すと平直線になるが般の式を課すと曲曲線になる例 x +y +z =1 を課すと球になるこの場合でも由度は同じく ( は線は 1) と数える由度 = 由度 =1 013/1/1 Nara University of Education /1/1 Nara University of Education 136

とするとこのとき m t u / n 変数は以下の確率密度関数に従う f ( t) (( 1) / ) (1 ( / ) t ( 1)/ n-1=ν( ニュー )=df=degree of freedom ( 由度 ) / ) f(t) 故にサンプル数 n のとき n-1 が由度となるこれを df (Degree of Freedom) と表す 013/1/1 Nara

35 統計での由度はなぜ n-1 か? t 分布の定義サンプル数が n 集団 μ σ n サンプル変数は x 1,x,x n の n 個これらに対して標本の平均値 m=(x 1 +x + +x n )/n という条件 ( 個の式 ) を課すと n 個の変数を拘束することになる x 1 x n が平均 μ 標準偏差 σ の正規分布に従う独な確率変数であるとする標本平均を m とし標本 ( 不偏 ) 標準偏差を u とするとこのとき m t u / n 変数は以下の確率密度関数に従う f ( t) (( 1) / ) (1 ( / ) t ( 1)/ n-1=ν( ニュー )=df=degree of freedom ( 由度 ) / ) f(t) 故にサンプル数 n のとき n-1 が由度となるこれを df (Degree of Freedom) と表す 013/1/1 Nara University of Education 137 この式のどこにも標準偏差 σ は現れないことが重要 ( ただし ν = n 1 Γ はガンマ関数 *(Appendix)) これはゴセットによってされたここで t の従う分布を t 分布 ( またはスチューデント分布 ) と呼ぶ ν ( ニュー ) は由度と呼ばれるこの分布は ν によるがもとの正規分布の数である μ や σ にはよらないこの性質から標本値から集団の平均値を統計的に推定する区間推定や集団の平均値の仮説検定に利できる 013/1/1 Nara University of Education 138 t t 分布の形の基本は 1 (1 t ) t 分布と信頼区間 f ( t) (( 1) / ) (1 ( / ) t 恐ろしそうな関数だが ν=1なら 1 f ( t) c1 (1 t ) ν= なら f ( t) c 定数 c 1,c は積 =1 にするためにある 1 t (1 ) 3 / ) ( 1)/ (1 t 1 (1 t ) ) f(t) Γ( ガンマ ) 関数 μ? σ? 標本平均 =m 標本不偏標準偏差 =u t=(m-μ)/(u/ n)) n=3 個のサンプル ν=df: 由度 =4-1= n=0 個のサンプル ν=df: 由度 =0-1=19 微妙に形が異なる頂点のさ裾の広がりかた信頼区間が df によって異なる 95% 信頼区間 95% 信頼区間 df= の t 分布 df=19 の t 分布 (Added Later) 正規分布にべて裾が広い区間推定 ( 信頼区間 ) は広くなるサンプルが少ないほど信頼区間は広がる ( 当然 ) df=19 の時 95% 信頼区間は +/-(.09) これは正規分布の +/-(1.96) にごく近い df 0 ではほとんど正規分布と形は変わらない 013/1/1 Nara University of Education /1/1 Nara University of Education 140

t 分布表の t 分布表の - 有意準 ( 確率 ) 有意準由度 (df) 由度で少ないほど裾が広がっている由度 (df) 由度 = 数でほぼ正規分布に致する df=13 なら t=.16 この右の積は全体の.5% 両側で考えると 5% この右の積は全体の.5% 両側で考えると 5% Slide-144 由度と有意準と両側か側かを決めて表をる df=1 なら t=1.

36 t 分布表の t 分布表の - 有意準 ( 確率 ) 有意準由度 (df) 由度で少ないほど裾が広がっている由度 (df) 由度 = 数でほぼ正規分布に致する df=13 なら t=.16 この右の積は全体の.5% 両側で考えると 5% この右の積は全体の.5% 両側で考えると 5% Slide-144 由度と有意準と両側か側かを決めて表をる df=1 なら t=1.706 由度で正規分布と同じになる 95%: +/ %: +/ /1/1 Nara University of Education /1/1 Nara University of Education 14 t 分布表を作ってみる ( では計算できない ) Excel で t の値を求める関数 TINV 両側検定信頼 95% 信頼 99% 自由度確率確率 df , 正規分布 Excel 関数 TINV( 確率, 自由度 ) によって空欄を計算しなさい Excel 関数 TINV( 確率, 由度 ) 両側確率が与えられた確率になる t の値を計算する確率から t の値なので (T-Inverse( 逆 )) という課題 : いくつかの値をプリントに書き込みなさい由度で正規分布の値 1.96(95%) と.58(99%) になる -t 95%/99% t 両側確率 =5%/1% 由度と有意準 p( 両側 ) を与えて t 分布表の値を求める tinv(p, 由度 ) t-inverse(t の逆関数 : と読む ) p df tinv(p,df) /1/1 Nara University of Education /1/1 Nara University of Education 144

37 t 分布表の例題 -1 量の答案から 9 枚の答案だけを採点した集団の平均を信頼度 95% で推定しなさい ( 平均の信頼度 95% の信頼区間を求めなさいといういをする ) 集団の σ がわからない場合の区間推定の較 Slide-11を思い出す集団から4 個のサンプルを得た平均の99% 信頼区間を計算しなさい集団は正規分布を仮定するが集団の標準偏差は不明サンプル数は 30 以下なので t 分布をいる No.1 38 No. 44 No.3 70 No.4 53 No.5 50 No.6 34 No.7 51 No.8 49 No.9 58 平均不偏 SD 標本平均 m=49.67 標本不偏標準偏差 u=10.67 t 分布表で由度 df=9-1=8 両側有意準 0.05のところを lookupすると t=.306 である信頼度 (1-0.05=95%) の信頼区間は 49.67(+-).306*10.67/ 9 =49.67(+/-)8.0 ie <= μ <= 57.9 信頼度 99%(p=0.01) ならどうなるか? t= となるから μ=49.67(+/-) [ ] m t u/ n / u m/ n No X 平均 43.1 標準偏差 (s) 7.09 不偏標準偏差 (u) 7.4 1) 標準偏差 σ= 標本標準偏差 s=7.03 と推定する正規分布となして 99% 区間は 43. (+/-) / 4 = 43. (+/-)3.70 ) 標準偏差 σ= 標本不偏標準偏差 u=7.4 と推定する上と同様に 43.(+/-) / 4= (+/-) ) df=3 の t 分布表から 0.01 をつけると t= (+/-).807 u/ 4 43.(+/-) / 4= (+/-) 4.14 統計的に信頼度のい法をいる = 範囲は広くなる = より安全ではある m t u / n m t u / n 013/1/1 Nara University of Education /1/1 Nara University of Education 146 t 分布の例題 -1 t 分布の例題 - ある製品から標本 10 個を無作為抽出したところ, 重さの標本平均は 148.5(g), 標本 ( 不偏 ) 標準偏差は 3(g) であった. この製品の平均の信頼度 95% の信頼区間を求めよ n=10 df=9 m=148.5(g) u=3(g) t 分布表で df=9 p=0.05 を引くと t= 信頼区間は m (+/-) / (+/-) (g) [ ] (g) m t u / n ある製品から標本 10 個を無作為抽出したところ, 重さの標本平均は148.5(g), 標本 ( 単純 ) 標準偏差は3(g) であった. (n-1ではなく nで割ったもの ) この製品の平均の信頼度 95% の信頼区間を求めよ n=10 df=9 m=148.5(g) s=3(g) u=3 (4/3) t 分布表で df=9 p=0.05 を引くと t= 信頼区間は m (+/-) / (+/-) (g) [ ] (g) m t u / m t s / n n 1 s u u s ( x m) n ( x m) n 1 ( n 1) u ns i i n n 1 u なら / n s なら / (n-1) に注意 013/1/1 Nara University of Education /1/1 Nara University of Education 148

38 検定 (test testing) とは集団の平均や分散 ( 標準偏差 ) について仮説をててサンプルデータを元にその仮説が成りつかどうか判断することを検定という統計学的仮説検定 statistical hypothesis testing 仮説が正しいと仮定した上で集団から実際に観察されたサンプルが抽出される確率を ( 統計学から ) 求めその確率が分にさければ ( 通常は 5% または 1%) 仮説は成りちそうもないと判断できる ( 否定形であることに注意 ) 簡単な例コインを 50 回投げたら 35 回も表が出たこのコインはおかしいといたい 1) コインは正常 (P=1/) だと仮定する ) そのとき表が 35 回出る確率はいくらか? 正規分布として平均 :5 回 σ= (np(1-p))= ) 95% の信頼度で回数の範囲を求めると 5+-( 1.96*σ) 18 3 回 % ) 35 回はこの範囲外である 18 回 5 回 3 回 5) ということは最初の仮定 (P=1/) がおかしい = コインに細がされていると考えてよい絶対にそうだということではない (5% の危険性はある ) 35 回 013/1/1 Nara University of Education /1/1 Nara University of Education 150 葉の定義帰無仮説の棄却域と採択域 ( 本では ) 主張したいことを H1= 作業仮説 = 対仮説とう ex 新薬は効果がある有意準 5% 採択域正規分布で両側検定の場合 ( わざと )H1 の反対の仮説をてるこれを H0= 帰無仮説とう ex 新薬の効果はない Null( 無 )Hypothesis( 仮説 ): 最終的に否定したいという気持ち実験データでは新薬を投与した 10 中 5 が治癒したところが仮説 H0 の元で ( 新薬に効果がないとすれば ) 10 中 5 治癒する確率は 5%( 有意準危険率 ) に満たないことが統計的にえるとするこのとき 5% の有意準 ( 危険率 ) で帰無仮説を棄却 (Reject) するという棄却域 95% 1.96 z 有意準 1% 棄却域.58 99% z 棄却域 1.96 採択域棄却域.58 棄却 : ききゃくとは捨てること採択しないこと請求をしりぞけること有意準 5% とは誤りをおかす危険率が 5% であることつまり同様の調査検定を 100 回ったとして 5 回程度は得られた結論が誤っている可能性があるということ有意準には 5% あるいは 1% がよくいられる 013/1/1 Nara University of Education /1/1 Nara University of Education 15

39 簡単な例 -again コインを 50 回投げたら 35 回も表が出たこのコインはおかしいといたい 1) コインは正常 (P=1/) だと仮定するこれが帰無仮説 ) そのとき表が 35 回出る確率はいくらか? 正規分布として平均 :5 回 σ= (np(1-p))= ) 99% の信頼区間は 5+-(.58*σ) 回.58 4) 35 回はやはりこの範囲外 ( 棄却域 ) である故に 16 回 5 回 34 回 5) " 有意準 1% でもコインは正常という仮説は棄却される " とう表現をする要するにこのコインはおかしいということ 013/1/1 Nara University of Education % 回簡単な例 -again コインを 50 回投げたら 30 回表が出たこのコインはおかしい = 対仮説とえるか? 1) コインは正常 (P=1/) だと仮定する ( 帰無仮説 ) ) そのとき表が出る確率の分布を理論的に求めると正規分布として平均 :5 回 σ= (np(1-p))= ) 95% の信頼度で回数の範囲を求めると *σ 18 3 回 ) 30 回はこの範囲内 ( 採択域 ) である 18 回 5 回 3 回 5) したがって帰無仮説 ( コインが正常であるということ ) は棄却 = 否定できない ( これ以上に強い主張はしていないことに注意 ) 013/1/1 Nara University of Education % 採択域 30 回棄却域例題サイコロを 600 回投げて 1 のが 90 回出た. 有意準 5% として, このサイコロが正しく作られているかどうか判断せよ. t 分布表両側確率 95% 99% 両側確率 95% 99% 正しいサイコロとはどのが出るか p=1/6 であること帰無仮説 1 のが出る確率は項分布では B(n=600,p=1/6) であるが n がきいので N( 平均 =np=100,σ =np(1-p)=9.13 ) の正規分布としてよい (Slide-131) 由度有意準 5%(95% 区間推定範囲 ) では 1のが出る回数の範囲は 100 (+/-) = 100(+/-) 回 90 回はこの範囲か? 範囲の外 ( 棄却域 ) なら有意準 5% で " サイコロは正しい " を棄却できる範囲内 ( 採択域 ) なら有意準 5% では " サイコロは正しい " を棄却できないとう結論になる ( どちらかにをつけなさい ) 013/1/1 Nara University of Education /1/1 Nara University of Education 156

40 医療統計 -8 01/11/ 繰り返しになるが統計学的仮説検定 statistical hypothesis testing 集団の性質について仮説をててサンプルデータを元にその仮説が成りつかどうか判断することを検定という仮説が正しいと仮定した上で集団から実際に観察されたサンプルが抽出される確率を求めその値により判断をうその確率が分にさければ ( 般に 1% または 5%) 仮説は成りちそうもないと判断できる ( 否定形 = 棄却であることに注意 ) 葉の定義 ( 本では ) 主張したいことを H1= 作業仮説 = 対仮説とう ex 新薬は旧薬より効果がある ( わざと )H1 の反対の仮説をてるこれを H0= 帰無仮説とう ex 新薬と旧薬の効果は同じ Null( 無 )Hypothesis( 仮説 ): 最終的に否定したいという気持ち実験データでは新薬投与グループと旧薬投与グループの ( 何らかの ) 数値データの平均値がある値だけ異なっていたところが仮説 H0 の元で ( 新薬と旧薬の効果に差がなければ ) これだけの異なりが起こる確率は 5% 以下であることが統計学的に ( 統計モデルをいて ) いえるとするこのとき 5% の有意準 ( 危険率 ) で帰無仮説 H0 を棄却 (Reject) するという ( 通常は有意準を 5% または 1% とする ) 013/1/1 Nara University of Education /1/1 Nara University of Education 158 仮説検定の順帰無仮説のパターンはどれか?( 問題によってパターンはきまっている ) いいたいこと ( 対仮説 ) 帰無仮説例平均に差がある平均に差がない A 薬はB 薬より効果がある相関がある相関がない Aの摂取とBの発症に相関あり etc 有意準はとりあえず5% とする帰無仮説を仮定して統計モデル ( 正規分布とかt 分布 ) の法に従って統計量を (zとか xとか t ) を計算する例えば Zとする有意準と統計モデルで決まる値を表から読み取る Z' とする z >= z' なら応有意準 5% で帰無仮説を棄却が結論棄却域さらに有意準 1% でもこうなるか? 有意準 1% でも帰無仮説を棄却と結論 zʼ z < z' なら有意準 5% で帰無仮説は棄却できないが結論有意準 5% で帰無仮説を採択するとってもよいこの場合 1% で調べる必要はない ( 棄却されるはずがないから ) 棄却域結論の述べ H0: 帰無仮説 = A 群と B 群の平均に差はないとする (1) 有意準 1% で帰無仮説は棄却できる有意準 1% で A 群と B 群の平均には差がある () 有意準 5% で帰無仮説は棄却できる有意準 5% で A 群と B 群の平均には差がある (3) 有意準 5% で帰無仮説は棄却できない有意準 5% で A 群と B 群の平均に差があるとはいえない 95% 99% 正規分布 /t 分布 (3) 採択域 () 5% 棄却域 (1) 1% 棄却域 013/1/1 Nara University of Education /1/1 Nara University of Education 160

100 回に 5 回は間違うけどしょうがない結論は絶対ではない集団の状態帰無仮説を棄却しない帰無仮説を棄却する本当は帰無仮説が正しい場合正しい判定 1-β 誤り ( 第 1 種の過誤 ) α 本当は対仮説が正しい場合誤り ( 第種の過誤 ) β 正しい判定 1-α 本当は A 薬と B 薬に差はないのに差があるとってしまうこと第 1 種の過誤 (Type-1-error

41 100 回に 5 回は間違うけどしょうがない結論は絶対ではない集団の状態帰無仮説を棄却しない帰無仮説を棄却する本当は帰無仮説が正しい場合正しい判定 1-β 誤り ( 第 1 種の過誤 ) α 本当は対仮説が正しい場合誤り ( 第種の過誤 ) β 正しい判定 1-α 本当は A 薬と B 薬に差はないのに差があるとってしまうこと第 1 種の過誤 (Type-1-error という :α) 本当は差があるのに差があるとはえないといってしまうこと第種の過誤 (Type--error という :β) 有意準 (α) とは第 1 種の過誤をおかす確率 ( 危険率 ) と定義されている (1-β) のことを検定 ( 検出 ) という検定法の種類とりあえず葉だけを記しておきますパラメトリックな検定法と t 検定 F 検定分散分析ノンパラメトリックな検定法があるカイ (χ) 乗検定 Parametric = Parameter パラメータ = 数の Parameter = 特徴をす値 (ex 平均値分散標準偏差 ) このような値を仮定した検定をパラメトリック検定という ( 般に正規分布や分散が等しいことを仮定する ) 1) 分布が不明の場合 ) そういう値が存在しない場合 ( 定性的データ ) などの場合ノンパラメトリック検定をうすごくよかったよかった普通よくないぜんぜんよくないまずパラメトリックな検定から始めます 013/1/1 Nara University of Education /1/1 Nara University of Education 16 平均値の検定平均値の検定 ( 例 -1: 正規分布の場合 ) ABC-Farm の出荷タマネギは 1 個 00g 標準偏差の 10g であるとする集団 μ??? 標本 m ここに 100 個のタマネギがあって平均 197g であったこのタマネギは ABC-Farm の出荷基準に合っているとえるか? (ABC-Farm のものだといってよいか?) 有意準 5% で検定しなさい集団 ( 平均 =μ) があるそこから選んだかどうか分からないが標本が n ヶあり ( 平均 =m) であるこの標本は集団から抽出されたものかどうか ( 集団と同じ性質を持つものと ) 判定できるか? 標本の平均 =m が集団の平均 =μ とかけ離れていれば怪しい集団と同じ性質を持つを棄却できる集団 = 基準品 μ=00g σ=10g 1) この集団から取り出したものか? 否か? ) 帰無仮説 H0 = この集団からとりだしたものであるとする n=100 m=197g σ'=σ/ n 3) そうであれば μ=00g σ=10g の集団から得られた 100 サンプルの 95% 区間推定範囲は (+/-)1.96σ' =(+/-) / 100 =(+/-)1.96g から 00(+/-)1.96 [198 0]g 197g は範囲外 = 棄却域になってならばどの程度離れていたらそういえるのか? 013/1/1 Nara University of Education 163 4) 結論 : このサンプルは 5% 有意準で基準に合っているが棄却される有意準で 5% で基準を満たしていないとえる 013/1/1 Nara University of Education 164

42 平均値の検定例 -1- 続前 Slide の問題を有意準 1% で検定しなさい棄却される? されない? 平均値の検定 ( 例 -:t 分布の場合 ) 通常の事 (A) を与えたマウス ( 集団 ) は 4 週間で 4g になるとする特別の事 (B) を与えた 10 匹は以下のようになった ( 平均 7g) この事 (B) に体重増加の効果があったとえるであろうか? 平均 4g 1) 有意準 (α)5% で ABC-Farm 基準を満たしているは棄却できた普通の? 事 (A) ) 有意準 1% で ABC-Farm 基準を満たしているは棄却できる場合 α1% でも基準を満たしているを棄却棄却できない場合 α1% では基準を満たしているを棄却できないどちらですか? 特別の! 事 (B) 平均 7g No.1 9 No. 31 No.3 3 No.4 5 No.5 9 No.6 No.7 31 No.8 8 No.9 5 No.10 7 平均 7 不偏標準偏差 /1/1 Nara University of Education /1/1 Nara University of Education 166 平均値の検定 ( 例 -:t 分布の場合 - 続 ) 平均値の検定 ( 例 -:t 分布の場合 - 続 ) 帰無仮説 = A でも B でも平均は 4g になるとする B に増進効果はないということと同じ平均 4g の集団から 10 匹を選んで平均が 7g になる確率はどの程度であろうか? という問題になる標準偏差は不明サンプル数 30 以下なので由度 10-1= の t 分布をいると 95% 信頼区間 ( 有意準 5%) の t の値は t 分布表から t'=.6 前問を有意準 1% で判定しなさい t= t'= だから t は ( 棄却域?/ 採択域?) である結論平均 μ=4 標本平均 m=7 標本不偏標準偏差 u=3.16 n=10 から t=(7-4)/(3.16/ 10)= 3.00 t distribution m t u / n t>t' だから t は棄却域である故に B に効果がないは 5% 有意準で棄却できる効果があったとえた 013/1/1 Nara University of Education /1/1 Nara University of Education 168

43 平均値の検定の意味の補率の検定平均の差だけではなく u( 不偏標準偏差 ) が関係するということは No.1 9 No. 31 No.3 3 No.4 5 No.5 9 No.6 No.7 31 No.8 8 No.9 5 No.10 7 平均 7 不偏標準偏差 No.1 6 No. 6 No.3 6 No.4 6 No.5 6 No.6 5 No.7 5 No.8 5 No.9 5 No.10 5 平均 5.5 t=(7-4)/(3.16/ 10)= 3.00 > t'=.6 μ=4 の集団から無作為にはこんなにバラツキの少ないデータが得られるはずがない! 激しく棄却される不偏標準偏差 t=(5.5-4)/(0.57/ 10)= 9.00 >> t'=.6 率 =p? 集団の率 p はこうであって欲しい / こうではないだろうか? と推定値を考える標本での率 R を調べた yes 集団の率が仮定した値 p( 帰無仮説 ) であったとして n 個の標本での率が R になる確率はどの程度であろうか? それが極端にさければ棄却域なら仮定した率 p は怪しい棄却できるということになる no 標本率 =R 標本の率 R は正規分布に従うことが分かっているから (Slide-165) それをいて判定をう 013/1/1 Nara University of Education /1/1 Nara University of Education 170 率の検定 ( 例 ) 率の検定 ( 例 - 続 ) ある施策について持率を調査したところ 40 中 4 賛成であったこの施策は過半数の持を得ていると考えてよいか? 有意準 5% で検定しなさい H1: p>50% をいいたいので H0: P=50%=0.5 とする (p<=0.5 ではないか? そうだけどこれでいいのだ ) p=0.5 を仮定するとサンプルの率 R は平均 =p=0.5 n=40 σ= (p(1-p)/n) = 0.08 の正規分布になる (Slide-165) p=0.5 R=0.6 z=1.6 R=0.6 は z 変換すると Z=( )/σ =1.5 率 =p>50%? 013/1/1 Nara University of Education 171 yes 左 (Slide-114) とべて棄却できないつまり持は過半数以下を棄却できない yes yes no R=4/40=0.6 95% 5% no 側 95% の棄却域 z=1.645 何をっているのか? 仮に率 p がジャスト 0.5 であったとすると R=0.6 に対応する z 値 (( )/σ) が 1.6 でありこれは側 5% の採択域である (H0: P=0.05 を棄却できない ) 率が0.5よりさくなっていくと正規分布のグラフは左にずれていって zの値はきくなっていずれは棄却域にるが (0.6-p)/0.08 = から p=0.47 過半数ではない (P<0.5) という条件では必ず棄却域にるということはいえない従って棄却はできない普通にいうとサンプルが 60% 賛成だからといって集団の過半数が賛成とはいえないとなる p<0.5 R=0.6 z=1.6 z= /1/1 Nara University of Education 17 95% 5%

44 率の検定 - 続 t 分布による検定練習 -1 では 400 中 40 賛成であったとすれば結論はどうなるか? 帰無仮説は p<=50% であるが p=50 として計算をう以下のデータが得られた ( ダウンロード T-TEST-01.xls) 平均は 100 とってよいであろうか? 検定しなさい ( 有意準 5% でい棄却されたら 1% でもう ) 平均 p=0.5 n=400 σ= (p(1-p)/n=0.05 の正規分布だから z=(r-p)/σ=4.0 (Slide-114) 側 95% の棄却域は Z'=1.645 側 99% の棄却域は Z'=.36 較して有意準 1% で帰無仮説は棄却される (p=0.5 で棄却されるのだから p<0.5 ならさらに起こりにくい = 棄却される ) 結論は : 有意準 1% で持率が半数以下であるを棄却過半数の持を得ているといえる ( サンプル数が多くなった [40 400] ので σ がさくなり z 値がきくなって棄却されるようになったということ ) μ=100 N=5 標本値 No.1 86 No. 93 No No.4 96 No.5 85 平均 (m) 標準偏差 (u) 自由度 (df) t 値 TINV(5%,df) TINV(1%,df) 帰無仮説は平均 =100 である結論を章でいなさいこれ以降単に標準偏差とった場合不偏標準偏差 u(n-1 で割る ) を指すこととする Excel の STDEV である 013/1/1 Nara University of Education /1/1 Nara University of Education 174 t 分布による検定練習 - t 分布表圧降下剤 A と B を同じ対象に投与したデータ ( 最圧 /mmhg) である ( ダウンロード T-TEST0.xls) B は A より最圧を下げる効果があるといえるであろうか? 検定しなさい両側確率 95% 99% 両側確率 95% 99% 最高血圧 (mmhg) 対象 A 投与 B 投与 A-B( 効果の差 ) No No No No No No No No No No 平均 (m) 標準偏差 (u) t 値 TINV(5%,df=9) TINV(1%,df=9) A-B の項に着し帰無仮説は A-B の平均は =0 つまり効果に差はないとして検定をいなさい検定の過程をし結論を章でいなさい由度 013/1/1 Nara University of Education /1/1 Nara University of Education 176

45 おまけで標準偏差を計算する平均値 m を求め偏差の乗の和 =X として u= (X/n-1) 1) 偏差を計算して乗するのは倒右の式を使えばデータの値の乗の和を Y として u= ((Y-n m^)/(n-1) ) DATA 偏差偏差 ^ DATA DATA^ DATA DATA DATA DATA DATA DATA DATA DATA 和 X 和 6084 平均平均標準偏差標準偏差 u= (X/(n-1)) Y u= ((Y-n m^)/(n-1)) ( x m) i x i i i i x m x nm mx x nm m x m nm nm i i BLANK PAGE 013/1/1 Nara University of Education /1/1 Nara University of Education 178 BLANK PAGE BLANK PAGE 013/1/1 Nara University of Education /1/1 Nara University of Education 180

46 医療統計 -9 01/1/6 z 変数 t 変数の意味前回の復習と確認最高血圧 (mmhg) 対象 A 投与 B 投与 A-B( 効果の差 ) No No No No No No No No No No 平均 (m) 標準偏差 (u) t 値 TINV(5%,df=9) TINV(1%,df=9) m t? u / n m t? u / n t=-3.6 t=0 t 分布は左右対称だからどちらでもかまわないマイナスではなく絶対値で考える t=3.6( -3.6 でも ) は 1% 棄却域にっている結論 : 1% 有意準で効果に差がある圧を下げる効果があるとってよい t=3.6 t(1% 棄却域 )=3.5 σ が分かれば正規分布 (z 変数 ) 分からなければ t 分布 (t 変数 ) 標準パターン平均 =0 σ=1( 正規分布の場合 ) 95% 99% の範囲が数値として決められる z 変数 t 変数への変換 z x x t u / n 様々な値の分布を標準パターンに変換して 1 個の分布表を参照できるようにする夫 (t 分布の場合は由度毎に分布表があるが ) ( データをコンピュータ処理できる場合必ずしも必要ではない ) 現実のデータの平均や分散は様々 013/1/1 Nara University of Education /1/1 Nara University of Education 18 t 分布の応 - 続 - 平均値の差の検定つの集団の平均の差を検定する (A) 学校から 10 (B) 学校から 0 選んでを測った各標本の平均値が異なるからとって A B 学校全体 ( 集団 ) の平均値も異なるとえるだろうか? 対応のない検定 (A) と (B) はお互いに無関係な標本 10 に従来の降圧剤を飲んでもらって圧を測った (A) 少し時間をおき同じ10 に新開発の降圧剤を飲んでもらって圧を測った (B) 各平均値の差から新開発降圧剤の効果を結論できるであろうか? 対応のある検定 (A) と (B) は同じ標本 = 被験者に対するデータ対応のある場合と無い場合で検定の法が異なる A 学校 B 学校 A 君 150cm あ君 145 B 145 い 170 C 165 う D え対応がない場合従来薬新薬差 Aさん 133mmHg 131 B C 対応がある場合 A B つの集団について対応があるとき対応があるときのt 検定前回の例 Case-1) Slide-175 対応がないとき平均の差 F 検定 ( 等分散の検定 ) 分散が等しい ( となせる ) 時分散が等しくない ( となせる ) とき A 集団 B 集団 A 集団 B 集団分散が等しいとき平均の差分散が等しいときの t 検定分散が異なるときの t 検定 (Welch 法 ) 分散が等しくないとき Case-) Case-3) 標は平均の差が有意であるか偶然か? の検定 013/1/1 Nara University of Education /1/1 Nara University of Education 184

n A m A u A n B m B u B 異なる集団 A,B の分散 ( 標準偏差 ) が等しいか否かを標本の値から判定すること等分散の検定という法として後述の F 検定をうとりあえずは分散は等しいと仮定して ( 前 Slide の Case-) うこともあるサイズ :n A 平均 :m A 不偏標準偏差 :u A u A >u B とする (u のきいを A

47 分散が等しいか? の検定 ( 等分散の検定 ) F 検定 ( 等分散の検定 ) 集団 A 集団 B μ A? σ A? μ B? σ B? μ A? σ A? μ B? σ B? n A m A u A n B m B u B 異なる集団 A,B の分散 ( 標準偏差 ) が等しいか否かを標本の値から判定すること等分散の検定という法として後述の F 検定をうとりあえずは分散は等しいと仮定して ( 前 Slide の Case-) うこともあるサイズ :n A 平均 :m A 不偏標準偏差 :u A u A >u B とする (u のきいを A と思えばよい ) F 0 =u A /u B という変数は統計学によれば F 分布という分布に従い集団の分散 (σ A と σ B ) が等しいか否かの検定は F 分布表でうことができる n B m B u B 013/1/1 Nara University of Education /1/1 Nara University of Education 186 F 分布 F 分布表 -1 Fisher の F 分布左右対称ではない df A =df B =10 のとき df A =( 分 ) 標本の由度 ( サイズ -1) によって形が変わる F α α=5% 棄却域分の由度 df A =n A -1 分の由度 df B =n B -1 として (u B >u A なら分と分をれ替える ) Ronald Aylmer Fisher 有意準 5% の棄却域の開始位置 F α の表を次スライドにす df B =( 分 ) 013/1/1 Nara University of Education /1/1 Nara University of Education 188

F 分布表 - df A =( 分 ) F 検定の例 A 小学校 B 小学校 146 145 141 136 151 139 144 14 135 13 146 131 14 145 14 141 153 13 137 15 140 14 143 134 19 137 145 14 サイズ 15 13 自由度 14 1 平均 14.40 139.08 不偏分散 35.6 38.58 標準偏差 5.

48 F 分布表 - df A =( 分 ) F 検定の例 A 小学校 B 小学校サイズ自由度 14 1 平均不偏分散標準偏差帰無仮説 : A B の集団の分散は等しい有意準 5% u A =35.8 < u B =38.58 なので F 0 =38.58/35.6 ( きいを分にする ) =1.094 分の由度 =1 分の由度 =14 で F 分布表をると F α =.5 位 ( 由度 1 と 15 の間だから ) F 0 =1.094 は採択域分散は等しいを棄却できない等しいものとしてかまわない df B =( 分 ) F α α=5% 棄却域 /1/1 Nara University of Education /1/1 Nara University of Education 190 F 検定 - 例題以下のつのグループの集団の分散に差があるといえるだろうか? 5% 有意準で F 検定をいなさい帰無仮説は各グループの集団の分散に差はない Group-A Group-B サイズ 6 4 自由度 5 3 平均不偏分散 F0= 各グループの分散 u を求めきいを分さいを分にした値 F 0 = 分の由度は? 分の由度は? F 分布表から 5% 有意準の基準値 F α = 以上から結論を述べなさい差の検定 ( 対応のない場合 -Case-) F 検定によって両グループの分散に差はないものとしてよいことが分かった (Slide-189) のでいよいよ A 小学校 B 小学校サイズ自由度 14 1 平均不偏分散標準偏差両校の集団の平均に差があるか否かの検定をいたい標本のサイズは n A +n B =8 平均は個 (m A m B ) あるので由度は n A +n B -=6 である 013/1/1 Nara University of Education /1/1 Nara University of Education 19

49 Case- 等分散 ) での確率モデル Case-) での確率モデル - 続つの集団 (A,B) の平均は異なるかもしれないが分散はひとしいものとするグループ A から n A 個グループ B から n B 個の標本を採ると以下の t 0 は由度 n A +n B - の t 分布になることが統計学からえる t 0 ( n A μ A? σ? A n A ( サイズ ) m A ( 平均 ) v A =u A ( 分散 ) B μ B? σ? n B m B v B =u B ( m AmB ) ( A B ) 1) VA ( nb 1) VB na nb ( n n ) n n 帰無仮説としてつの集団の平均は等しいとする場合は μ A ー μ B =0 とする A B 実際に t 0 を計算する A 小学校 B 小学校サイズ自由度 14 1 平均不偏分散標準偏差 t ( ) 0 (15 1) 35.6 (131) (15 13 ) 1513 由度 =6 の t 分布表をみて有意準 5% では t=.06 有意準 1% では t=.78 t0=1.44 はどちらよりもさいから帰無仮説 ( 差がない ) は棄却できない結論有意準 5% で A と B の平均に差があるとはえない t 0 t 棄却域 013/1/1 Nara University of Education /1/1 Nara University of Education 194 練習問題次の群のデータについて対応のない t 検定 (Case-/3) をい集団の平均値に差があるか否かについて述べなさい標本サイズ平均値標準偏差 (u) A 群 B 群 ) 等分散を確かめるためにF 検定をう uのきいを分さいを分とする ( どっちが分? ) F 0 の値はいくつ? 分の由度 = 分の由度 = でF 分布表 (α= 有意準 5%) をて F α はいくつ?( ぴったりの項がなければ番近いところ ) ( 位 ) このつをべて F 0 <F α なら等分散としてよい : 確認練習問題 - 続き ) つの集団に対する t 検定をう slide-193 サイズ平均値 u V=u A 群 B 群帰無仮説は集団の平均に差がない (μ A ー μ B )=0 t 0 を計算しなさい ( ご苦労様です )? t 分布の由度はいくつ? 5% 棄却域のt 値は? 1% 棄却域のt 値は? ( m AmB ) ( A B ) 結論は? t0 ( na 1) VA ( nb 1) VB na nb ( n n ) n n A B A B 013/1/1 Nara University of Education /1/1 Nara University of Education 196

医療統計 -10 01/1/13 Case-3 異分散 ) での確率モデル A B 群の平均値の差の検定の Case-3 対応があるとき対応があるときのt 検定前前回の例 Case-1) Slide-175 対応がないとき F 検定 ( 等分散の検定 ) 分散が等しい ( となせる ) とき = 等分散分散が等しくない ( となせる ) とき = 異分散分散が等しいときの t 検定

50 医療統計 /1/13 Case-3 異分散 ) での確率モデル A B 群の平均値の差の検定の Case-3 対応があるとき対応があるときのt 検定前前回の例 Case-1) Slide-175 対応がないとき F 検定 ( 等分散の検定 ) 分散が等しい ( となせる ) とき = 等分散分散が等しくない ( となせる ) とき = 異分散分散が等しいときの t 検定分散が異なるときの t 検定 (Welch 法 ) 前回の例 Case-) Slide-19 今回 Case-3) F 検定で A B 群の分散が等しいとはなせないと判断される場合 ( 異分散 ) Welch( ウエルチ ) の t 検定をう BIOMETRIKA1947 分散の異なる集団に対する Student 問題 (t 分布 ) の般化についてつの集団 (A,B) の平均は異なり F 検定によれば分散も異なる ( 同じとはえない ) 場合 Case ) とはここが異なるグループ A から n A 個グループ B から n B 個の標本を採ると次ページの t 0 は由度 df の t 分布になることが統計学からえる (Welch 1947) μ A? σ A? n A ( サイズ ) m A ( 平均 ) v A =u A ( 分散 ) 帰無仮説としてつの集団の平均は等しいとする場合は μ A ー μ B =0 とする μ B? σ B? n B m B v B =u B 013/1/1 Nara University of Education /1/1 Nara University of Education 198 Welch の t 検定 Welch の t 検定の計算練習 -1 分散が等しいとはなせないつの群の標本があるとする標本サイズ平均値分散 (V=u ) A 群 n A m A u A =V A 帰無仮説 : 集団の平均 μa と μb は等しい μ A μb 標本サイズ平均値分散 (V=u ) A 群 n A =100 m A =14 9=3 B 群 n B =50 m B =140 4= Slide-194:A B 学校のデータ但しサイズがきく分散がさい B 群 n B m B u B =V B 統計学的に以下の定理がある (B.L. Welch 1947) 変数 t 0 は由度 df の t 分布に従う t 0 m V n A A A m B V n B B df V n n A V A V na n A A B B V n 1 n B B B 1 A 集団由度が na+nb- (Case-) ではなく B 集団半端な数になることが特徴 1) 帰無仮説 :A,B 学校の平均には差がない ) F 検定をい等分散か否かを確かめる u のきいを分さいを分とする F 0 の値はいくつ? 分の由度 = 分の由度 = で F 分布表 (α= 有意準 5%) をて F α はいくつ?( ぴったりの項がなければ番近いところ ) このつをべて F 0 <F α なら等分散 Case- の t 検定? そうでなければ異分散としてよい Welch の t 検定? 確認 013/1/1 Nara University of Education /1/1 Nara University of Education 00

51 Welch の t 検定の計算練習 - ) Welch の t 検定をうために以下の t 0 と df( 由度 ) を計算する ma mb t0? VA VB n n A B df V A na V A VB na nb 1 n V B nb 1? t 0 = 由度 df= 整数にならないが番近い整数 = で t 検定をう ( この df はとかけ離れた値にはならないことに注意 ) n A B 有意準 5% 由度の t 分布表から t α = 約 ( 体 ) 結論 : 14cm と 140cm は近いのになぜこういう結論になるのか? 考えてみる 013/1/1 Nara University of Education 01 Break 013/1/1 Nara University of Education 0 ノンパラメトリック検定集団が正規分布していることを仮定できない場合連続的な変数でない場合 ( 液型順位データ選択肢 ) 変おいしいおいしいまあまあまずいとてもまずい A 飯店 B 堂順位和検定符号付順位検定順位相関検定 etc χ( カイ ) 乗検定 χ( カイ ) 乗検定の例 -1 χ 乗検定 YE/NO( 選択肢 ) データの検定暴露あり暴露なし計疾患発あり a b a+b 疾患発なし c d c+d 計 a+c b+d n 観測された値 ( 観測値 ) 的 : 暴露因 ( ウイルス薬品放射線など ) と疾病発に関連があるか? を検定したい帰無仮説 : 関連がないとする暴露あり暴露なし計疾患発あり (a+b)(a+c)/n (a+b)(b+d)/n a+b 疾患発なし (c+d)(a+c)/n (c+d)(b+d)/n c+d 計 a+c b+d n 関連がなければこうなると期待される ( 単なる例配分 ) 値 ( 期待値 ) 各マスでの観測値と期待値の差の乗 (χ 乗 ) の和を計算し基準値 ( 有意準できまる ) よりきければ帰無仮説を棄却関連があるといってよい 013/1/1 Nara University of Education /1/1 Nara University of Education 04

52 観測値と期待値 ( 例えば ) 観測された値 ( 観測値 ) コーヒー常飲者コーヒー常飲者計不整脈覚あり不整脈覚なし計 646(81%) 147(19%) 793(100%) χ 乗検定の意味と順 -1) 項毎の観測値のデータと ( 帰無仮説を仮定した ) 期待値があるとする項 1 項項 n 観測値 (Obs) O 1 O O n 期待値 (Exp) E 1 E E n コーヒーと不整脈覚は関係ないとする ( 帰無仮説 ) コーヒー常飲者コーヒー常飲者計不整脈覚あり不整脈覚なし計 646(81%) 147(19%) 793(100%) 35 と 558 を 81% と 19% に例配分するとこうなる期待値これからどのような順で検定するか? ( 次週に説明します ) 観測値と期待値の差の乗を期待値で割ったものの総和をカイ乗という ( O1 E1) ( O E) ( On En) E 1 E カイ乗 χ はこれで個の変数です E n 013/1/1 Nara University of Education /1/1 Nara University of Education 06 χ 乗検定の意味と順 -) 由度統計学によればカイ乗の値は由度 df によって定まるカイ乗分布に従う χ 乗検定の意味と順 -3) カイ乗分布はこういう形をしている 1) 1 次元パターン項 1 項項 n 計観測値 (Obs) O 1 O O n N 由度乗の和なのでプラス側しかない変数 =n 個合計の式 O1+O+ +On=N が 1 個だから由度 df=n-1 ) 次元パターン要因あり要因なし計現象あり a b a+b 現象なし c d c+d 計 a+c b+d N 変数 = 個 3 つの合計が決まれば他は決まるから由度 df=4-3=1 般に n m 列の項の由度は df=(n-1) (m-1) となる Z= χ Slide-136 由度 df とは変数の個数 -( 必要最限の ) 条件式の数 013/1/1 Nara University of Education /1/1 Nara University of Education 08

53 χ 乗検定の意味と順 -4) 棄却域 χ 乗検定例 (1 次元パターン ) カイ乗分布表 p( 有意水準 ) 自由度 EXCEL 関数 CHIINV( 確率 ( 有意準 ) 由度 ) で計算できる課題 : p=0.01 の分布表のを Excel で計算して埋めなさい本の ABO 式液型の分布はおよそ A 型 40%,B 型 0%,AB 型 10%,O 型 30% であるある村で献に応じた者のうち 100 の液型は次の表のとおりであったこの村の住の液型分布は, 本全体の液型分布とほぼ同じとなしてよいか? A B AB O 計観測値 (Obs) 期待値 (Exp) 帰無仮説 : この村の分布は本全体と同じとする期待値が計算される由度 =4 変数 -1 合計 =3 A B AB O 計観測値 (OBS) 期待値 (EXP) (O-E)^/E χ =.408 Slide-09 のカイ乗分布表 α=5% 由度 =3 をると χ α=7.81 従って有意準 5% で帰無仮説は棄却できない Observed Expected カイ乗分布 % 棄却域 013/1/1 Nara University of Education /1/1 Nara University of Education 10 χ 乗検定練習 (1 次元パターン ) サイコロを 10 回振ったら以下のようなの出であったこのさいころは正しいであろうか? ( 正しいとはすべてのが 1/6 の確率で出ることであるとする ) 帰無仮説 : このサイコロは正しく作られている目計観測値 (O) 期待値 (E) (O-E)^/E 1) 正しいサイコロを10 回振った時の期待値は? すべて ) (o-e) /Eを計算しすべてを加えて χ を求める BLANK PAGE 3) カイ乗分布表から由度 df= () 有意準 5% の χ α は? 4) 棄却域か否か? 5) 結論 : 6) の出が下のようであったら χ の値はいくら? 7) この場合の結論は? 目計観測値 (O) 期待値 (E) (O-E)^/E 013/1/1 Nara University of Education /1/1 Nara University of Education 1

54 医療統計 /1/0 カイ乗検定 ( 次元パターン ) 今はノンパラメトリック検定の中のカイ乗分布 ( 次元パターン ) による検定をう 1) 復習 : 先週の 1 次元パターンある項の観測値が何らかの基準となる率から計算される値 ( 期待値あるいは理論値 ) と整合しているかを判定する = 適合度の判定ともいう項 1 項項 n 計観測値 (Obs) O 1 O O n N 期待値 (Exp) E 1 E E n N (O-E)^/E χ 由度 N-1 以下の χ によってカイ乗分布の検定をう ( O1 E1) ( O E) ( n n) E1 E En O E ) 今回は次元パターン ( クロス集計表 ) 例えば年代という要因と映画館によくくという現象には相関があるか? 表側 ( ひょうそく ) を説明変数表頭 ( ひょうとう ) を的変数ということもあるまた縦を Factor( 要因 ) 横を Outcome( 結果 ) と呼べる場合もある縦の項と横の項に何らかの関連があるのか否かを検定することを独性の検定という ( 独とは関係がないという意味 ) 帰無仮説としては縦と横の項は独つまり関連がないと仮定して現実のデータの実現確率を統計学的に検定するということ表側表頭年齢毎週 1, 回年数回かない計 10 代代代 3 映画をどのくらいにきますか? 013/1/1 Nara University of Education /1/1 Nara University of Education 14 カイ乗検定 ( 次元パターン ) 例 -1 カイ乗検定 ( 次元パターン ) 例 -1 続例として O( 観測データ ) 肺癌発症発症計喫煙喫煙計 % 36% 帰無仮説 ( 喫煙と発症は無関係 ) E( 期待値 ) 肺癌発症発症計喫煙喫煙計 (O-E)^/E 肺癌発症発症計喫煙喫煙計検定は次のスライドへ全体としての発症率は 3/50=0.64 これが喫煙 / 喫煙と無関係なら ( これが帰無仮説 ) 喫煙者の発症数は 7*0.64=17.8 喫煙者の発症数も 3*0.64=14.7 となることが期待される (64% と 36% に例配分するということ ) 観測データ (O) と期待値 (E) の対応するマスについて (O-E)^/E を計算しすべての和を取ったものが χ である (0.573) 前スライドからこのデータについて χ =0.573 由度 (df)=(-1)*(-1)=1 カイ乗分布表 Slide-09 p( 有意水準 ) 自由度次元パターンの由度とは項 A 項 B 計項 1 a b a+b 項 c d 計 a+c N 変数 (a,b,c,d)= 個 3 つの合計 (a+b,a+c,n) が決まれば他 (c+d,b+d) は決まるから由度 df=4-3=1 般に n m 列の項の由度は df=(n-1) (m-1) となる Slide-136 由度 df とは変数の個数 -( 必要最限の ) 条件式の数カイ乗分布カイ乗分布表から df=1 有意準 5% では χ α=3.84 > 故に棄却できない結論 : 喫煙と肺癌の発症には関連がないは5% の有意準で棄却できない (* このデータからはこういう結論になるということです ) 5% 棄却域 013/1/1 Nara University of Education /1/1 Nara University of Education 16

55 カイ乗検定課題 -1 カイ乗検定課題 -1 続 Slide-05 のデータを書き換えて以下のようにるでは対応するデータについて χ を計算してください測定データ不整脈自覚あり不整脈自覚なし計コーヒー常飲者コーヒー非常飲者計 35 % 558 % 793 帰無仮説 : コーヒーの常飲と不整脈の覚有無とは無関係とするこのときサンプル全体として覚ありの割合は % 覚なしは % これをいてコーヒー常飲者と常飲者の覚あり / なしについての期待される値を決めてください ( コーヒーの常飲の有無と不整脈覚の有無に関係がないとすれば (= 帰無仮説 ) 単に 793 中 35 が不整脈覚あり 558 に覚なしということであるそうであればコーヒーの常飲とは無関係に不整脈の覚あり / なしの数が決まるはずであるこれを帰無仮説の元での期待値という ) 測定データ不整脈自覚あり不整脈自覚なし計コーヒー常飲者? %? % 147 コーヒー非常飲者? %? % 646 計 35 % 558 % 793 O( 実験データ ) 自覚あり自覚なし計 Coffee 常飲 Coffee 非常飲 (O-E)^/E 自覚あり自覚なし計計 Coffee 常飲 Coffee 非常飲 E( 期待値 ) 自覚あり自覚なし計計 χ Coffee 常飲 Coffee 非常飲計 χ は = 由度は = 有意準 5% でカイ乗分布表をると χ α= 有意準 1% では χ α= 結論 : 013/1/1 Nara University of Education /1/1 Nara University of Education 18 カイ乗検定課題 - カイ乗の計算 ( の公式 ) 3つの地域から無作為にサンプル調査をした年齢別構成が以下のようであったこれらの地域の年齢別構成に有意な差があるとえるであろうか? 検定しなさい帰無仮説 : 3つ地域の年齢別構成に有意な差はない (O) 観測度数計 A 市 B 市 C 市計 (E) 期待値計 A 市 384 B 市 36 C 市 366 計 (O-E)^/E 計 A 市 B 市 C 市計検定の過程と結論 χ = df= χ(5%)= χ(1%)= 結論 : 構成に有意な差がある? ない? n m の表からカイ乗の値 χ を求める順は理解できたと思いますこの順を理解した上での場合の以下の公式も有です ( 導出はがんばればできます ) 項 A 項 B 計項 1 a b a+b 項 c d c+d 計 a+c b+d N(a+b+c+d) ( a d bc) ( a b c d) ( a b) ( c d) ( a c) ( b d) この式をれば対称性から表の縦横 ( 表頭表側 ) をれ替えてもカイ乗の値は同じであることが分かります (c b としても値は変わりません ) 計算例として (Slide-15 のデータで ) O( 観測データ ) 肺癌発症発症計喫煙喫煙計 ( ) Slide-15 の値と致します 013/1/1 Nara University of Education /1/1 Nara University of Education 0

カイ乗検定課題 -3 カイ乗検定 Excel 関数 (CHITEST) 運動の量の多少と冠動脈疾患の有無に関して下のデータについてカイ乗検定をいなさい実測データ冠動脈疾患あり冠動脈疾患なし計運動量少ない 36 49 85 運動量多い 3 75 98 計 59 54 583 χ?

56 カイ乗検定課題 -3 カイ乗検定 Excel 関数 (CHITEST) 運動の量の多少と冠動脈疾患の有無に関して下のデータについてカイ乗検定をいなさい実測データ冠動脈疾患あり冠動脈疾患なし計運動量少ない運動量多い計 χ? 帰無仮説 : 運動の量の多少と冠動脈疾患の有無には関連がない前スライドの公式によって χ の値は = 由度 df= 有意準 5% と 1% でのカイ乗分布表から χ(5%)= χ(1%)= 結論は : 運動量の多少と冠動脈疾患の有無に関して帰無仮説は棄却される? されない? カイ乗分布表 Slide-09 p( 有意水準 ) 自由度 /1/1 Nara University of Education 1 カイ乗検定の順を要約すれば 1) 観測値 (O) 期待値 (E) Σ(O-E) /E=χ を計算し ) カイ乗分布表の由度 (df) と α=5% 1% 欄を LookUp し χ α を調べる 3) χ が χ α よりきければ有意準 5%/1% で帰無仮説は棄却される上の ) と 3) を Excel の関数 CHITEST( カイテスト ) で実できる O( 観測データ ) 肺癌発症発症計喫煙喫煙計 E( 期待値 ) 肺癌発症発症計喫煙喫煙計 CHITEST 答え ( 上側確率 ) カイ乗分布 (df=1) 5% 棄却域 Slide-17の結果ではこの問題でのχ =0.574であった 0.449とはこの値より右側の確率 ( 積 ) を表しているこれが5%(0.05) より遥かにきいので棄却域にはっていないということになる 013/1/1 Nara University of Education 課題と問題点課題と問題点 - 続コホート (Cohort) 研究実験群と対照群を意するにはある要因 ( 暴露 ) を与え他には与えない腫瘍あり腫瘍なし計暴露 (A 群 ) 5(1.8%) 暴露 (B 群 ) 6(0.1%) 定期間後症例の発を較するケースコントロール (Case Control) 研究 ( 症例対応研究 ) 腫瘍あり腫瘍なし暴露暴露 7 15 計 93 9 たまたま腫瘍のあるが 93 ないが 9 いました各々のグループで要因 ( 暴露 ) の有無を ( 事後的に ) 調べたら上の表のようになりました結果 ( 腫瘍のあるなし ) をみて要因を事後的に調べるという意味で後ろ向きの研究ともいわれる cohort( 英 ) もともとは古代ローマにおける歩兵隊の単位疫学では共通の因を持った個の集合という意味でいる ( マウスでもそういう ) ある薬を服した集団と服していない集団とに分類し較すること等で因果関係を調べること実験データの意味がはっきりしている実験として望ましいが時間がかかる費がかかる期間の追跡が困難希にしか起こらない症例の場合結果が得られないこともあるデータは得やすいコホート研究にべて集団との対応が不明確ここで使われる検定法が 1) カイ乗検定であり ) 次回以降オッズ相対リスクなどの話題を取り上げる 013/1/1 Nara University of Education 3 013/1/1 Nara University of Education 4

医療統計 -1 013/1/10 リスクとオッズ A HAPPY NEW YEAR カイ乗検定とは縦項 A と横項 B が関連があるか否か?

57 医療統計 /1/10 リスクとオッズ A HAPPY NEW YEAR カイ乗検定とは縦項 A と横項 B が関連があるか否か? を検定すること得られる結論は関連がある関連がない ( 独 ) 項 A 項 A 項 B 項 B 項 A(ex 年代 ) と項 B(ex 映画へく ) はなんでもよい故に独性の検定というもっと積極的に要因と結果の因果関係を知りたい特に医学 ( 疫学 ) 分野で関のあること危険因 (+) 危険因 (-) 発症 (+) 発症 (-) 危険因が発症の原因といえるかどうかを知りたい 013/1/1 Nara University of Education 5 013/1/1 Nara University of Education 6 カイ乗検定で分かること分からないこと疫学では向性が事 ( リスクとオッズ ) どっちが好き? 邦楽洋楽計若い若くない計 χ= 0 どっちが好き? 邦楽洋楽計若い若くない計 χ= 90 若さと好みは無関係なら χ の値はさくなる ( 完全に同じ割合なら χ=0) 若いは必ず洋楽が好きなら χ の値はきくなる ( 最ではデータ総数 ) 危険因 (Risk-Factor) 病原菌放射線遺伝要因など結果 (Outcome) 発症発病など発症 (+) 発症 (-) 危険因 (+) a b 危険因 (-) c d 慣習上危険因 (Risk-Factor)= 薬品結果 (Outcome)= 治癒でもこうう発症 (+) に着して発症数 (+)/ 全体を RISK( リスク ) 発症数 (+)/ 発症数 (-) を ODDS( オッズ ) という ( 定義 ) どっちが好き? 邦楽洋楽計若い若くない計 χ= 90 全く逆の傾向でも χ の値は同じ χ の値は縦項と横項の関連の強さのみを表す関連の向性 / 傾向はされていない危険因の (+) と (-) についてこの値のをリスク (Risk Ratio:RR) オッズ (Odds Ratio:OR) という ( 定義 ) 発症 (+) 発症のリスク発症のオッヅ発症 (-) 危険因 (+) a R+=a/(a+b) O+=a/b b 危険因 (-) c R-=c/(c+d) O-=c/d d リスク =R+/R- オッヅ =O+/O- Ratio ( 率 ) レイシオレイショウ /réɪʃoʊ, ʃiòʊ ʃi`əʊ/ リスク / オッヅどちらも危険因のあるなしでの発症の起こりやすさの安になっている 013/1/1 Nara University of Education 7 013/1/1 Nara University of Education 8

58 リスク (RR) とオッズ (OR) 例をる前向きと後ろ向き研究例腫瘍発症 (+) 発症リスク発症オッズ腫瘍発症 (-) 放射線暴露 (+) 放射線暴露 (-) 暴露 ( ばくろ ) さらすこと前向き研究コホート研究統制群による研究未来リスク (RR)=0.85/0.643=1.8 オッズ (OR)=4.71/1.80=.61 どちらも 1 以上であるということは放射線暴露が腫瘍発を増加させることをしている実験群と対照群を意するにはある要因 ( 暴露 ) を与え他には与えない各群での発症の有無を調べる例管疾患 (+) リスクオッズ管疾患 (-) アスピリン投与プラセボ ( 偽薬 ) 投与後ろ向き研究ケースコントロール研究リスク (RR)=0.080/0.10=0.667 オッズ (OR)=0.087/0.136=0.638 どちらも 1 以下であるということはアスピリン投与が管疾患発症を抑制していることをしている現在発症している群現在発症していない群過去過去にさかのぼって原因 ( 要因 ) の有無を調べるではどちらのをいるのが適切であろうか? 013/1/1 Nara University of Education 9 013/1/1 Nara University of Education 30 前向きではリスク (RR) 後ろ向きではオッズ (OR) WHY? -1 前向きではリスク (RR) 後ろ向きではオッズ (OR) WHY? - 標語 : 前向き研究ではリスク (RR) 後ろ向き研究ではオッズ (OR) を使う前向きではどちらでも差はでないが後ろ向きでリスクを使うと不都合 ( 誤った検定 ) の可能性がある例 1: 前向き研究の例アスピリン投与群と偽薬投与群を意して以下のデータになったリスクとオッズはしたとおりである介実験管疾患 (+) RISK ODDS 管疾患 (-) 計アスピリンプラセボ ( 偽薬 ) RATIO(RR/OR) 課題 : プラセボ投与群を 10 倍にしたときリスクとオッズはどうなるか? 介実験管疾患 (+) RISK ODDS 管疾患 (-) 計アスピリンプラセボ ( 偽薬 ) RATIO(RR/OR) 群の規模をきく変化させても RR/OR のどちらも変化がないことが分かるはず例 : 後ろ向き研究の例胃ガンの発症群と発症群について過去の飲酒の有無を調べたリスク (RR) とオッズ (OR) はしたとおりである後ろ向き研究胃ガン発症 (+) RISK ODDS 胃ガン発症 (-) 計毎飲酒 (+) 毎飲酒 (-) 計 RATIO(RR/OR) 後ろ向き研究では現在の発症の有無でグループを作るので課題 : 発症者を 10 倍にしたとき RISK と ODD はどうなるか? 後ろ向き研究胃ガン発症 (+) RISK ODDS 胃ガン発症 (-) 計毎飲酒 (+) 毎飲酒 (-) 計 RATIO(RR/OR) OR はほとんど変わらないが RR はきく異なることが分かるはず 013/1/1 Nara University of Education /1/1 Nara University of Education 3

59 前向きではリスク (RR) 後ろ向きではオッズ (OR) 結論前向きではグループ計後ろ向きでは症例計前向き研究では要因の有無でグループを作りグループ毎のサイズを決める ( 変化させる ) 後ろ向き研究では現在の Outcome( 結果発症 ) 毎にグループを作りそのサイズを決める ( 変化させる ) RISK と ODDS は値がさい場合はよく似た値となり何かの要因がある場合とない場合の結果への影響度をす指標であるどちらかといえば RISK のが ( 発症者 / 全体で ) 意味が明瞭なのでなるべくこちらを使いたいのだが後ろ向き研究ではサイズを実験の都合で決める ( 変化させる ) 場合 RISK は安定した指標にならないので ODDS をいる前向き研究では RISK を使うことになっている前向き研究ではグループの計のみ記録する介実験管疾患 (+) 管疾患 (-) 計アスピリンプラセボ ( 偽薬 ) 後ろ向き研究では結果のグループの計のみ書く後ろ向き研究胃ガン発症 (+) 胃ガン発症 (-) 毎飲酒 (+) 毎飲酒 (-) 計研究に当たって最初に決める数という意味を強調するためにこういうにする習慣である 013/1/1 Nara University of Education /1/1 Nara University of Education 34 最初に後ろ向きから Odds とはオッズ (Odds Ratio:OR) Probable: ありそうな Probability: 確率 Odd: 奇妙な希な珍しい Odds: 珍しさ賭の倍率ある現象 (A) に着して確率 (P) は (A) の回数 / 全体ある現象 (A) が起きた回数起きなかった回数計 a b a+b このことを別のいでオッズ (O) は (A) の回数 /(A) でない回数と表す ( 起こりやすさ / 起こりにくさの表現のしかたの違い ) もちろんである O P O, P ( 1 P) (1 O) A NOT(A) 計回数確率オッズ ( 積が1) a P a b a O b 発症 (+) 発症 (-) 危険要因 (+) a b 危険要因 (-) c d 危険要因がある場合 (+) 発症 (+) のオッズは a/b 危険要因がない場合 (-) の発症 (+) のオッズは c/d と定義する例腫瘍発症 (+) 腫瘍発症 (-) 放射線暴露 (+) 66 (O=66/14=4.71) 14 放射線暴露 (-) 7 (O=7/15=1.8) 15 つのオッズ (a/b=4.71 と c/d=1.8) の =ad/bc=.6 をオッズ (OR:Odds Ratio) というオッズが 1 以上だと危険要因 ( 放射線 ) がある場合の発症のリスクが ( 危険要因のない場合より ) いといえる定量的には危険要因 ( 放射線 ) がある場合の発症のリスクは ( 危険要因がない場合の ).6 倍であるというイメージである 013/1/1 Nara University of Education /1/1 Nara University of Education 36

60 オッズの信頼区間オッズの信頼区間の解釈結果 (+) 結果 (-) 要因 (+) a b 要因 (-) c d a O b ad OR O c bc d 結果 (+) 結果 (-) 因 (+) a b 因 (-) c d SE ORの上限 =( 点評価 ) A a b c d ORの下限 =( 点評価 )/A A exp(1.96 SE) 何らかの要因がある結果をじさせるリスク ( よいことの場合もあるが ) が要因がない場合にべて何倍になるかをオッズ (Odds Ratio) といい OR=ad/bc で計算される ( 点評価という ) 実際には統計的な不確実性があり統計学的には OR は以下の範囲と推定される (95% 信頼区間 ) OR の上限 =( 点評価 ) A OR の下限 =( 点評価 )/A 点評価 OR=ad/bc 下限 OR/A 上限 OR A A exp(1.96 SE) where, SE a b c d 1.96 とは正規分布の 95% 信頼区間の境界であるそして SE>0 だから A は 1 以上である SE は標準誤差 :Standard Error という点評価 OR=ad/bc 下限 OR/A 上限 OR A ORの95% 信頼区間 OR の 95% 信頼区間の下限が 1 以上なら因が結果をもたらすリスクが有意にいといえる OR の 95% 信頼区間の上限が 1 以下なら因が結果をもたらすリスクが有意に低いといえる ( 因が結果を抑制しているといえる ) OR の 95% 信頼区間が 1 を含む場合因が結果をもたらすリスクについて有意な関連があるとはいえないとなる OR の 95% 信頼区間 013/1/1 Nara University of Education /1/1 Nara University of Education 38 オッズの信頼区間の解釈 ( 別のい ) オッズの信頼区間の計算例結果 (+) 結果 (-) 因 (+) a b 因 (-) c d 点評価 OR=ad/bc 下限 OR/A 上限 OR A ORの95% 信頼区間 d ORの上限 =( 点評価 ) A SE a b c ORの下限 =( 点評価 )/A A exp(1.96 SE) 帰無仮説 : 因と結果に関連はないに対して OR の 95% 信頼区間が 1 を含む場合有意準 5% で帰無仮説は棄却できない因と結果に関連があるとはいえない 1 を含まない場合有意準 5% で帰無仮説を棄却できる因と結果には何らかの関連があるといってよい例腫瘍発症 (+) 腫瘍発症 (-) 放射線暴露 (+) 66 (O=66/14=4.71) 14 放射線暴露 (-) 7 (O=7/15=1.8) 15 OR( 点評価 )=66 15/(14 7)=.6 SE= (1/66+1/14+1/7+1/5)= A=exp( )=1.45 OR の上限 =( 点評価 ) A= =3.80 OR の下限 =( 点評価 )/A=.6/1.45=1.81 下限が 1.81 で 1 よりきいので 5% 有意準で放射線暴露は腫瘍発のリスクをめるといえる定量的には 5% 有意準でリスクが倍になるといえる OR の点評価 =ad/bc OR の上限 =( 点評価 ) A OR の下限 =( 点評価 )/A SE a b c d A exp(1.96 SE) 点評価.6 下限 1.81 上限 OR の 95% 信頼区間前向き研究の場合は RR(Risk Ratio) で同じように判定をする Slide /1/1 Nara University of Education 39 関連のあるなしに加えてリスクを定量的に評価できることに意味がある ( カイ乗検定ではこれができない ) 013/1/1 Nara University of Education 40

61 オッズの信頼区間の計算練習 -1 補 -1:exp(A) を電卓で計算する危険因 ( 運動不 ) は冠動脈疾患のリスクをめるか? 冠動脈疾患あり冠動脈疾患なし運動不足非運動不足 3 75 オッズの 95% 信頼区間を求めリスクについて結論を述べなさい OR( 点評価 )= SE= (1/ +1/ +1/ +1/ )= A=exp(1.96 SE)= OR の上限 = A= OR の下限 = /A= 信頼区間は 1.0 を含むか? 結論は? 有意準 (5% で ) ちなみに Slide-1( カイ乗検定 ) と違う結論になるかもしれませんがどちらも微妙な判定になっているのでそういうこともあります EXCEL や関数電卓なら =EXP( ) で計算する普通の電卓ではこうする (A は 10 以下とする ) (51+A)/(51-A) を計算し掛ける (X) イコール (=) を 8 回繰り返す (56 乗する ) A= A= A= (51.551/ )[X=][X=] かけるイコールを 8 回 =1.73 これが exp(a) の答え練習 exp(1.0).718 になるはずチェック exp(.0) になるはずチェック 013/1/1 Nara University of Education /1/1 Nara University of Education 4 補 -: なぜこんな式になるか? オッズの信頼区間の計算練習 - 理屈 : オッズ (OR) とリスク (RR) の然対数 (ln) が正規分布することが知られている然対数とは exp 関数の逆関数である (ln(exp(x))=x exp(ln(x))=x) ln(or) と ln(rr) の 95% 信頼区間は (+/-)1.96 SE となる SE は標準誤差 (Standard Error) といい以下で定義される SE( forrr) SE( foror) a a b c c d a b c d OR/RR の標本での値を μ [OR/RR の然対数 ] の 95% 信頼区間の [ 境界 X の然対数は正規分布から ln(x)=ln(μ) SE X=exp(ln(μ)+-1.96SE) X=μ exp(+-1.96se) [μ/exp(1.96se) X μ exp(1.96se)] Outcome(+) Outcome(-) factor(+) a b factor(-) c d 以下のようにデータを修正すればどのように結論が変わるであろうか? 冠動脈疾患あり冠動脈疾患なし運動不足非運動不足 3 75 オッズの 95% 信頼区間を求めリスクについて結論を述べなさい OR( 点評価 )= SE= (1/ +1/ +1/ +1/ )= A=exp(1.96 SE)= OR の上限 = A= OR の下限 = /A= 信頼区間は 1.0 を含むか? 結論は? 有意準 5% でリスクは倍倍になる対数から普通の数に戻すと上限下限は (+/-) ではなく ( 割る / かける ) となる 99% 信頼区間を求める場合は 1.96 を.58 とする (Slide-114) 013/1/1 Nara University of Education /1/1 Nara University of Education 44

62 次に前向きリスクの評価リスクの評価前向き研究 ( コホート研究 ) ではオッズではなくリスクをいてリスクの検定をう法はオッズの場合と同じである例 : アスピリンの管疾患予防効果を調べるためアスピリンとプラセボを 500 ずつに投与した介実験管疾患 (+) 管疾患 (-) 計アスピリンプラセボ ( 偽薬 ) RR( 点評価 )= SE( forrr) a a b c c d A=exp( =0.380)=1.46 このときアスピリンには管疾患の予防効果があるといえるであろうか? リスクとその 95% 信頼区間を計算し評価しなさい介実験管疾患 (+) RISK 管疾患 (-) 計アスピリン 40 40/500= プラセボ ( 偽薬 ) 60 60/500= RISK (RR) 0.08/0.1= アスピリン投与群の RISK は 0.08 投与しなかった群の RISK は 0.1 投与したがしなかったにしてリスク (RR)=0.08/0.1= 倍の ( 抑制 ) 効果があったとことになるが RR の 95% 信頼区間を求めると RR の 95% 信頼区間の上限 =RR( 点評価 ) A= =0.97 下限 =RR( 点評価 )/A=0.667/1.46=0.46 (RR の点評価 = % 信頼区間は ) 上限も 1.0 よりさいので結論 : 有意準 5% でアスピリンとプラセボには管疾患発症に差がある ( アスピリンには抑制効果がある ) といえるさらに : 抑制効果はであるといえる /1/1 Nara University of Education /1/1 Nara University of Education 46 リスクの評価 - 練習以下のデータについてリスクの検定をい結論を述べなさい介実験管疾患 (+) 管疾患 (-) 計アスピリンプラセボ ( 偽薬 ) RR( 点評価 )= SE= A=Exp(1.96 SE)= BLANK PAGE 帰無仮説 : アスピリンとプラセボの効果に差はない RR の 95% 信頼区間は信頼区間に 1.0 を含むか? 結論は? 013/1/1 Nara University of Education /1/1 Nara University of Education 48

医療統計 -13 013/1/17 U 群と K 群の順位和もうつのノンパラメトリック検定 ( 評価や順位に基づく検定 ) 順位和検定とは順位 (RANK) チーム 1 位 U 位 K 3 位 K 4 位 U 5 位 U 6 位 K 7 位 K 8 位 U 順位和検定の的 U 群と K 群に有意な競争の差があるであろうか?

5 位がと計算する 1 位が三なら (1++3)/3= 位が三とする 013/1/1 Nara University of Education 49 1 位位 3 位 4 位 5 位 6 位 7 位 8 位順位和 CASE-1 U U U U 10 CASE- U U U U 11 CASE-3 U U U U 1 CASE-4 U U U U 13 CASE-5 U U U U 14

63 医療統計 /1/17 U 群と K 群の順位和もうつのノンパラメトリック検定 ( 評価や順位に基づく検定 ) 順位和検定とは順位 (RANK) チーム 1 位 U 位 K 3 位 K 4 位 U 5 位 U 6 位 K 7 位 K 8 位 U 順位和検定の的 U 群と K 群に有意な競争の差があるであろうか? を各チームの順位の和から判定したい U/K チームから 4 選ずつ出場し緒に競争した結果 U チームの順位和 (Rank Sum) とは =18 K チームの順位和は =18 各チームの順位和がきく違っている場合チームの実に差があるとなされる極端な場合強いチームが =10 弱いチームが =6 になる 1 位がの場合 1.5 位がと計算する 1 位が三なら (1++3)/3= 位が三とする 013/1/1 Nara University of Education 49 1 位位 3 位 4 位 5 位 6 位 7 位 8 位順位和 CASE-1 U U U U 10 CASE- U U U U 11 CASE-3 U U U U 1 CASE-4 U U U U 13 CASE-5 U U U U 14 CASE-6 U U U U 1 U U U U 4 U U U U U U U U 5 CASE-70 U U U U 6 順位和が 10 と 6 になるのは 1 通りしかない 18 になるのは 8 通りの場合がある =(N+1)N/=36 だから両群均等に 18 となる場合が番多い UUUUKKKK から KKKKUUUU まで 70 通りある (4+4) C 4 =70 順位和は 10 6 順位和と場合の数 /1/1 Nara University of Education 50 順位と順位和の期待値順位和と信頼区間 1 位位 3 位 4 位 5 位 6 位 7 位 8 位 CASE-1 U U U U K K K K CASE-70 K K K K U U U U 1 位から 8 位まで実差がなく全く偶然に決まるとすれば個の順位の期待値は ( )/8 = 4.5 位である故にチームに実差がないと仮定した場合の 4 のチームの順位和の期待値は = 18 である順位和と場合の数順位和は期待値に近いほど確率的に起こる可能性がい U 群から N u K 群から N k 選抜競技で U 群の順位和は全員上位なら最 (1 通り ) UUU KKK 全員下位なら最 (1 通り ) KKK UUU 有意な実差がないと仮定した場合順位和の分布 ( 場合の数 ) はこうなる順位和は期待値に近い可能性がく極端にきく / さくなる確率は低い N がきいとき正規分布に近づく場合の数般に N1 と N のチーム (N=N1+N) として個の順位の期待値は (1++ +N)/N=(N+1)/ 位 N1 チームの順位和の期待値は N1 (N+1)/ N チームの順位和の期待値は N (N+1)/ 逆に実際の順位和が期待値よりきく異なっている場合実差がないという帰無仮説が棄却される場合の数の 95% を含む順位和の範囲を順位和の 95% 信頼区間というもし U 群と K 群に有意な実の差がなければ = 帰無仮説順位和はこの範囲に 95% るはずである順位和がこの範囲にらない時有意準 5% で帰無仮説を棄却できる順位和場合の数の 95% を含む範囲 =95% 信頼区間 013/1/1 Nara University of Education /1/1 Nara University of Education 5

Wilcoxon( ウイルコクソン ) の順位和表順位和検定の例題 -1 ( 連続データ ) Nl/Ns 3 4 5 6 7 8 9 3-4 - 10/6 5 6/1 11/9 17/38 6 7/3 1/3 18/4 6/5 7 7/6 13/35 0/45 7/57 36/69 8 8/8 14/38 1/49 9/61 38/74 49/87 9 8/31 14/4 /53 31/65

64 Wilcoxon( ウイルコクソン ) の順位和表順位和検定の例題 -1 ( 連続データ ) Nl/Ns /6 5 6/1 11/9 17/38 6 7/3 1/3 18/4 6/5 7 7/6 13/35 0/45 7/57 36/69 8 8/8 14/38 1/49 9/61 38/74 49/87 9 8/31 14/4 /53 31/65 40/79 51/93 6/ /33 15/45 3/57 3/70 4/84 53/99 65/ /36 16/48 4/61 34/74 44/89 55/105 68/ /38 17/51 6/64 35/79 46/94 58/110 71/ /41 18/54 7/68 37/83 48/99 60/116 73/ /43 19/57 8/7 38/88 50/104 6/1 76/ /46 0/60 9/76 40/9 5/109 65/17 79/ /48 1/63 30/80 4/96 54/114 67/133 8/ /51 1/67 3/83 43/101 56/119 70/138 84/159 順位和のさいの標本数を Ns( 横の列 :smaller) きいの標本数を Nl( 縦の :larger) をて順位和の 95% 信頼区間が分かる ex 4 と 4 の時 10/6 とある順位和の 95% 信頼区間は 10 6 でありこれ以上またはこれ以下の場合帰無仮説が 5% 有意準で棄却されると読むこの表にないところは正規分布で近似計算できる Frank Wilcoxon USA 013/1/1 Nara University of Education 53 新薬と既存薬の効果を各群 8 の臨床試験を実施した病気の改善度を表す検査値が以下のようであった ( 帰無仮説 = 新薬 / 既存薬に差がない ) グループ被験者 ID 改善度順位グループ被験者 ID 改善度既存薬群 O 新薬群 N 既存薬群 O- 0.1 ソート新薬群 N 既存薬群 O 新薬群 N 既存薬群 O 既存薬群 O 既存薬群 O 新薬群 N- 3.3 既存薬群 O 新薬群 N 既存薬群 O 既存薬群 O-7.9 既存薬群 O 新薬群 N-6.8 新薬群 N 既存薬群 O-3.0 新薬群 N 既存薬群 O 新薬群 N 新薬群 N 新薬群 N 新薬群 N 新薬群 N 既存薬群 O 新薬群 N 既存薬群 O 新薬群 N 既存薬群 O 新薬群 N 既存薬群 O- 0.1 改善度で順位をつけると新薬群の順位和 = =48 既存薬群の順位和 =88 差がないとしたときの順位和の期待値は 68 である (( 順位の期待値 =8.5) 8=68) 013/1/1 Nara University of Education 54 表をて判定する順位和検定の課題 -1 新薬群の順位和 = =48 既存薬群の順位和 =88 順位和のさいの標本数が横きいの標本数が縦 / ここではどちらも 8 1 位位 3 位 4 位 5 位 6 位 7 位 8 位 9 位 10 位 U 順位和 K K K U U U K U K U Nl/Ns /6 5 6/1 11/9 17/38 6 7/3 1/3 18/4 6/5 7 7/6 13/35 0/45 7/57 36/69 8 8/8 14/38 1/49 9/61 38/74 49/87 U 群 K 群とも 4 名で競をして上の順位になった帰無仮説 :U 群と K 群に有意な差はない U 群の順位和は? K 群の順位和は? この場合の順位和は 95% 信頼区間でとなっている観測された順位和は 48 と 88 で信頼区間から ( わずかではあるが ) 外れている結論 : 有意準 5% で帰無仮説を棄却できるつまり新薬と既存薬の効果には差があるといえる 95% 信頼区間順位和 88 実際の ( 観測された ) 順位和 Wilocoxon の順位和検定表によればこの場合の順位和の 95% 信頼区間は? 結論 : この結果の順位和は 95% 信頼区間に ( 含まれる? 含まれない?) 従って帰無仮説は棄却できる? できない? 013/1/1 Nara University of Education /1/1 Nara University of Education 56

順位和検定の例題 - ( 正規分布近似 ) 順位和検定の例題 - ( 正規分布近似 ) 各群の標本数がおおむね 15 以上の場合表ではなく正規分布での近似式をいて検定する標本数 =8 ではあるが直前の例題

どちらも差がないとした場合の Gs の順位和の期待値 μ は μ=ns (1+ns+nl)/ =( 前例では )8 (1+8+8)/=68 1 位から 16 位までランダムに選べば平均は (1+16)/=8.

5=68 つまり ns (1+ns+nl)/ 分散 V は以下の式になる ( これは統計学から ) V=ns nl (1+ns+nl)/1 ( 前例では ) 8 8 17/1 = 90.67 標準偏差 σ= V=9.

67=9.5 Z= 順位和の期待値との差 ( の絶対値 ) /σ Gs について = 48-68 / 90.67=.10 Gl について = 88-68 / 90.67=.10( 上と同じ ) (95% 信頼区間の境界値 )1.

58 よりはさいので有意準 1% では差がないは棄却できない結論 : 5% 有意準で帰無仮説は棄却有意準 5% で差があるといえる (Slide-5 と整合している ) z=-1.960 z=-.

576 013/1/1 Nara University of Education 58 99% Slide-114 5% 1% 順位和検定の例題 - (n>15) データの尺度 ( しゃくど :Scale) 1 位

からは外れるが練習 ) 帰無仮説 :U 群と K 群に有意な差はない順位和の期待値 μは? 分散 Vは? 標準偏差 σは? Z= 順位和観測値 -μ /σ= - / = 5% 有意準の Z 値は?

数値のデータの性格を 4 つに分類するスティーヴンズ (Stanley Stevens)1946 論測定尺度の理論について "On the Theory of Scales of Measurement"

65 順位和検定の例題 - ( 正規分布近似 ) 順位和検定の例題 - ( 正規分布近似 ) 各群の標本数がおおむね 15 以上の場合表ではなく正規分布での近似式をいて検定する標本数 =8 ではあるが直前の例題 (Slide-53) を使ってその法をすと順位和のさい群 (Gs) の標本数を ns とする ( 前例では 8) 順位和のきい群 (Gl) の標本数を nl とする ( これも 8) どちらも差がないとした場合の Gs の順位和の期待値 μ は μ=ns (1+ns+nl)/ =( 前例では )8 (1+8+8)/=68 1 位から 16 位までランダムに選べば平均は (1+16)/=8.5 位 =(1+ns+nl)/ 全員が 8.5 位と思えば Gs 群の ns の順位和は 8 8.5=68 つまり ns (1+ns+nl)/ 分散 V は以下の式になる ( これは統計学から ) V=ns nl (1+ns+nl)/1 ( 前例では ) /1 = 標準偏差 σ= V=9.5 Z= 順位和の期待値との差 ( の絶対値 ) /σ を計算する / 90.67= /1/1 Nara University of Education 57 続 μ=68 σ= 90.67=9.5 Z= 順位和の期待値との差 ( の絶対値 ) /σ Gs について = / 90.67=.10 Gl について = / 90.67=.10( 上と同じ ) (95% 信頼区間の境界値 )1.96 と較しきければ帰無仮説 : つの群に差はないを棄却できるこの例では.10 > 1.96 なので 5% 有意準で差がないは棄却できるが (99% 信頼区間の境界値 ).58 よりはさいので有意準 1% では差がないは棄却できない結論 : 5% 有意準で帰無仮説は棄却有意準 5% で差があるといえる (Slide-5 と整合している ) z= z=-.576 正規分布 95% z=1.960 z= /1/1 Nara University of Education 58 99% Slide-114 5% 1% 順位和検定の例題 - (n>15) データの尺度 ( しゃくど :Scale) 1 位位 3 位 4 位 5 位 6 位 7 位 8 位 9 位 10 位 U 順位和 K K K U U U K U K U 33 例題 -1 を正規分布近似で検定する (ns=nl=5 なので適応条件 (n>15) からは外れるが練習 ) 帰無仮説 :U 群と K 群に有意な差はない順位和の期待値 μは? 分散 Vは? 標準偏差 σは? Z= 順位和観測値 -μ /σ= - / = 5% 有意準の Z 値は? 1% 有意準の Z 値は? 較して結論 : 有意準 % で帰無仮説は棄却できる? できない? 数値のデータの性格を 4 つに分類するスティーヴンズ (Stanley Stevens)1946 論測定尺度の理論について "On the Theory of Scales of Measurement" の提案がよくいられる名義尺度 (Nominal Scale) 順位尺度 (Ordinal Scale) 間隔尺度 (Interval Scale) 率尺度 (Ratio Scale) 区別や分類例液型電話番号可能な計算意味なし順番成績の順序較等間隔データゼロ点 ( 原点 ) がある摂温度暦付体重現在順位尺度のはなしをしているこれにはノンパラメトリック検定す引く四則演算すべて Stanley Smith Stevens Psychologist from USA /1/1 Nara University of Education /1/1 Nara University of Education 60

66 順位和検定の例題 -3 ( 順序データ ) 順序データの並び新薬と既存薬の効果について各群 30 の臨床試験を実施した病気の改善度の評価が以下のようであった効果に差があるといえるであろうか? 改善変わらず悪化計新薬既存薬改善変わらず悪化の順に順位を考える同評価のグループには代表順位を決める各グループでの順位和を求める改善変わらず悪化計新薬既存薬計 5 13 順位 1 位位 3 位 47 位 48 位 60 位代表順位 11.5 位 35 位 54 位新薬群の順位和 = 位位位 =849.5 既存薬群の順位和 = =980.5 全く同じデータであるが順位和は異なる改善変わらず悪化計新薬既存薬改善悪化変わらず計新薬既存薬改善変わらず悪化という順序関係が切であるカイ乗検定ではどちらの表で計算しても同じ結果になるカイ乗検定は価値観を反映していない 013/1/1 Nara University of Education /1/1 Nara University of Education 6 同順位を含む順位和検定 ( 正規分布近似 ) 計算実 (Excel がないと無理 ) 改善変わらず悪化計新薬既存薬計 5 13 順位 1 位位 3 位 47 位 48 位 60 位代表順位 11.5 位 35 位 54 位新薬群の順位和 = 位位位 =849.5 ( こちらが Gs ns=30) 既存薬群の順位和 = =980.5 ( こちらが Gl nl=30) 順位和の期待値 μ =30 ( )/ = 915 (Gs Gl どちらも ) ( 要するに 1 位 60 位の平均は 30.5 位 30 の順位の和は =915) 分散の計算がややこしい分散 V=A ns nl/(1 全体の数 ( 全体の数 -1)) ここで A= ( 全体の数 3 - 全体の数 ) -( 改善グループの数 3 - 改善グループ数 ) -( 不変グループの数 3 - 不変グループ数 ) -( 悪化グループの数 3 - 悪化グループ数 ) 順位和のさい群を Gs 数を ns 順位和のきい群を Gl 数を nl とかく n (1 n n ) / s where s ns nl V 1N( N 1) s N n n s l 3 ( N N) l 3 ( di di ) i グループ改善変わらず悪化計新薬既存薬計計の三乗 10,648 15,65,197 16,000 計の三乗 - 計 10,66 15,600,184 15,940 A=N 3 -N-Σ(d 3 -d) 187,530 ns 30 nl 30 N 60 Y V=A Y 3,843 σ( V) 6.0 n (1 n n ) / s where s ns nl V 1N( N 1) 分散 V=Y A s N n n s l 3 ( N N) l 3 ( di di ) i Y=ns nl/(1 全体の数 ( 全体の数 -1)) A= ( 全体の数 3 - 全体の数 ) -( 改善グループの数 3 - 改善グループ数 ) -( 不変グループの数 3 - 不変グループ数 ) -( 悪化グループの数 3 - 悪化グループ数 ) 013/1/1 Nara University of Education /1/1 Nara University of Education 64

結果と結論順位和検定 ( 順序データ ) の課題新薬群の順位和 =849.5 (Gs) 既存薬群の順位和 =980.5 順位和の期待値 =915 標準偏差 =6.0 Z= 849.5-915 /6.0=1.06 < 1.

67 結果と結論順位和検定 ( 順序データ ) の課題新薬群の順位和 =849.5 (Gs) 既存薬群の順位和 =980.5 順位和の期待値 =915 標準偏差 =6.0 Z= /6.0=1.06 < 1.96 ( 正規分布での 95% Z 値 ) 結論 : 有意準 5% では帰無仮説 ( 差がない ) は棄却できない新薬と既存薬の効果について Slide-59 とデータをれ替えただけです例題と同様に検定しなさい改善変わらず悪化計新薬既存薬改善変わらず悪化計新薬既存薬計 5 13 順位 1 位 5 位 (6) 位 (38) 位 (39) 位 60 位代表順位 (13) 位 (3) 位 (49.5) 位新薬群の順位和 =18 位 +5 位 +7 位 = 既存薬群の順位和 = = 例題の数値とはずいぶん異なる ( なぜだろうか?) 013/1/1 Nara University of Education /1/1 Nara University of Education 66 順位和検定 ( 順序データ ) の課題 - 続きおつかれさまグループ改善変わらず悪化計新薬既存薬計 (d) 計の三乗計の三乗 - 計 A=N 3 -N-Σ(d 3 -d) 実際にこのようにで計算する機会は少ないと思いますがパソコンソフトで検定をうときにも何をどのようにしているのかを知っていることはよいことと思います ns 30 nl 30 N=(ns+nl) 60 Y=ns*nl/(1*N*(N-1)) V=A Y σ( V) 新薬群の順位和 = 既存薬群の順位和 = 順位和の期待値 = 標準偏差 = Z= - / = 正規分布の Z 値 1.96(5%).58(1%) と較して結論 : ( 有意準 % で帰無仮説 ( 差がない ) は棄却される? されない? 次週は総復習をする予定です 013/1/1 Nara University of Education /1/1 Nara University of Education 68

すべて見る

EBNと疫学

EBNと疫学推定と検定 57 ( 復習 ) 記述統計と推測統計統計解析は大きく 2 つに分けられる記述統計推測統計記述統計観察集団の特性を示すもの代表値 ( 平均値や中央値 ) やばらつきの指標 ( 標準偏差など ) 図表を効果的に使う推測統計観察集団のデータから母集団の特性を推定する平均 / 分散 / 係数値などの推定 ( 点推定 ) 点推定値のばらつきを調べる ( 区間推定 ) 検定統計量を用いた検定