Microsoft PowerPoint - statistics-12B.pptx

Size: px
Start display at page:

Download "Microsoft PowerPoint - statistics-12B.pptx"

Transcription

1 医療統計 -1 (01/10/4) 統計学の基礎となる確率の考え と 統計的 法を理解し 様々なデータを統計的に解析できる能 を養う 1. 確率モデルの考え が分かる. 確率分布の性質を理解できる 3. 正規分布の応 ができる 4. 標本の抽出 法を説明できる 5. 実際の医療データを基にした検定ができる 確率の学問 統計学の基礎は確率 (Probability 何かの現象の起こりやすさの数値 ) 確率の研究は賭博の研究 (16C カルダーノ 17C パスカル ) から始まり 19C ラプラスの古典的確率論を経て 1933 コルモゴロフの公理的確率論で学問的に確 された 公理的確率論では ( 他の現代数学と同様 ) 確率 が何を意味しているのかという問題は追求せず 確率 が満たすべき性質をいくつか規定し その性質から導くことのできる定理を突き詰めていく学問である Wikipedia(slide-7 参照 ) Gerolamo Cardano Blaise Pascal Pierre-Simon Laplace Andrey Nikolaevich Kolmogorov 伊藤清 ( 京 ) 確率と微積分の融合理論を築いた 融 学の基礎となった 013/1/1 Nara University of Education 1 013/1/1 Nara University of Education 医療統計 統計 =Statistics 統 ( すべて ) を計 ( はか ) る Statistics show that the population of this city has doubled in ten years. 統計によればこの市の は 10 年で 倍になった. 統計学 とは集団の特徴を ( その 部のデータから ) 明らかにする しようとする 学問 ( 集団全体を調べることはできないので 推定 がどうしても ること したがって ある確率で誤りがありうることを認める ) 医療統計の 的 疫学研究 臨床研究におけるデータの集め や整理の仕 そのための理論 技法 解析 法といった 法論 健康影響 臨床試験 医薬品の安全対策 などなど ルートの計算できる電卓 (100 円ショップにある ) を各 意してください = で逆数が計算できると便利です ( 3 = となるものです : 普通は 1 になります ) 013/1/1 Nara University of Education 3 013/1/1 Nara University of Education 4

2 統計処理とは 記述統計と推測統計 統計処理とは 測定された ( バラバラな ) データの中から定量的な情報を取り出すための 法をいう 身長測定 男子 女子 平均 分散 男子 女子 男子 女子 男子 女子 平均値分散 ( ばらつきの程度 ) データ 集団 抽出 視覚的表現 推定 標本 記述統計の 法 並べ替え 作表 グラフ化 代表値 ( 平均値 中央値 ) 散布度 ( 分散 標準偏差 ) 相関関係データの特性を要約して伝えることが 的 推定統計の 法 点推定 区間推定 検定標本から 集団の特性を推測することが 的 集団 (population: 多くの の意味から ) 013/1/1 Nara University of Education 5 013/1/1 Nara University of Education 6 確率 (probability) 新 児の男 XY( ) か XX( )? (X と Y が対等であれば ) P( )=P( )=1/ 古典的確率 確率 (probability) の公理 事象 (event: 起きたことがら ) を A と書き その確率 P(A) は 1. P(A) は0 1の範囲の数. P(0): 何も起きない確率 =0 3. P(ALL): 何かが起きる確率 =1 4. 排他的 (Exclusive) な事象 AとBについて P(A or B)=P(A)+P(B) 経験的には P( ) が 経験的 ( 統計的 ) 確率 = =1 どちらも上の公理は満たしている 013/1/1 Nara University of Education 7 013/1/1 Nara University of Education 8

3 誤差 (error) と偏り 測定値 = 正しい値 +- 誤差 +- 偏り 精度 (Accuracy: 盛りの細かさ ) 偏り (bias) 測定 法の問題異なる測定 法のデータの 較には注意を要する 標本抽出の問題本当にランダムに選ばれているか? 誤差は きいが偏りは少ない 精度 : 低い誤差 : 数センチ 精度 : い誤差 : 数 mm 誤差は さいが偏りが きい 013/1/1 Nara University of Education 9 013/1/1 Nara University of Education 10 データの処理の 語 1) ソート (sorting: 並べ替え ) 並べ替える (SORTING: 昇順 降順 ) 度数分布 (HISTOGRAM) 平均値 (AVERAGE) 中央値 (MEDIAN) 最頻値 (MODE) 偏差 (DEVIATION) 分散 (VARIANCE) 標準偏差 (STANDARD DEVIATION) 昇順 (Ascending Order) さいものが先 降順 (Descending Order) きいものが先 サンプル番号 圧 No No. 131 No.3 1 No No.5 15 No.6 19 No No.8 1 No No No No No No No No No No サンプル番号 圧 1 No 最 値 No No No No 中央値 6 No. 11 No.8 11 No No 最 値 中央値 (median)= 平均値ではないデータが偶数なら 平均をとる 013/1/1 Nara University of Education /1/1 Nara University of Education 1

4 度数分布 5mmHg および 10mmHg 区間で集計し ヒストグラムを作る 最頻値 (mode) 14 p 15 区間の中央 p=14.5 を最頻値とする 集計 Excel による計算実習 粗データ ( 新 児体重 100 ) について 平均値 中央値を求めなさい 度数データ表 (00g-slice) を作りなさいそれから最頻値を求めなさい からデータ ( 新 児 100 ) をダウンロードする 013/1/1 Nara University of Education /1/1 Nara University of Education 14 Excel ( 並べ替え ) 1) A/B 列全体を選択し ) データ 並べ替え 3) 最優先キーは 体重 (B 列 ) ) データ 並べ替え 4) 順序は 昇順 Excel ( 最 値 最 値 中央値 ) 読み取った値を プリントに記 してください 1)A/B 選択 3) 優先キー 4) 昇順 013/1/1 Nara University of Education /1/1 Nara University of Education 16

5 Excel ( 総和と平均値 ) 1) 10 に 総和 と書き ) Σボタン (Auto-SUM) で 体重の総和を求める 3) 103 に 平均 と書き =B10/counta(B:B101) と する (counta= 空 でないデータの個数 ) Excel (AVERAGE 関数 ) Excel の関数を使って ワンタッチで平均値を求める 1) 104 に 確認 と し ) 数式 関数の挿 統計 から AVERAGEを選択 3) 対象となるデータの範囲をドラッグする ) ) ) 013/1/1 Nara University of Education 17 1) 013/1/1 Nara University of Education 18 Excel ( 度数表とヒストグラム ) いろいろな 法はある ( らしい ) が ピボットテーブル を使ってみる 1) 表の中のどこか ( 左上 ( 番号 )) をクリックしてから ) 挿 ピボットテーブル Excel ( ピボットテーブル作成 ) 3) 範囲が表全体を含んでいる (A1:B101) ことを確認し 4) 配置する場所は 既存のワークシート 場所 図のこのあたりにして [OK] 013/1/1 Nara University of Education /1/1 Nara University of Education 0

6 Excel ( ピボットテーブル - 集計 ) 5) 体重 を ラベル は 6) 番号 を Σ 値 欄にドラッグすると 集計表ができる Excel ( ピボットテーブル - グループ化 ) 7) 体重 のセルを右クリックし グループ化 を選択する 8) 先頭の値 に 00( 最 値以下で切れのよい数字 ) 9) 単位 を 00 とする末尾の値はそのままでよい これで 00g でスライスした度数分布表ができる最頻値は の中 の値とする 013/1/1 Nara University of Education 1 013/1/1 Nara University of Education Excel ( ヒストグラム ) 10) 度数分布表から ヒストグラムができる ( 隙間の無い棒グラフを選ぶ ) Excel ( 技 ) 等差数列 ( 規則的に増減する数字 ) を つ以上 数字を し 全体を選択し 右下のフィルハンドル ( ) を下にドラッグする ある範囲の数をすべて掛ける =PRODUCT( 範囲 ) 数式 関数の挿 [PRODUCT] =PRODUCT( 範囲 ) 013/1/1 Nara University of Education 3 013/1/1 Nara University of Education 4

7 医療統計 - (01/10/11) 以下の 葉の意味 計算の 法を 熟知 する 平均 (Average Mean) 分散 (Variance) 標準偏差 (Standard Deviation:σ) 特に 分散 =σ 逆に σ = 分散 相関係数 (Correlation Coefficient) 回帰直線 (Regression Line) 分散 (Variance) n 個のデータ (x i ) の平均値を x h とすると 平均との差 x i -x h を偏差 (deviation) という Σ(x i -x h ) /n を分散 ( 偏差の 乗の平均 :variance); 今は 葉だけ :Σ(x i -x h ) /(n-1) を不偏 (un-biased) 分散という 分散の平 根を標準偏差 (σ シグマ :standard deviation) という 以下のデータの分散と σ を で計算しなさい データ番号値偏差偏差 No.1 40 No. 50 No.3 60 No.4 70 No.5 80 データ番号値偏差偏差 No.1 50 No. 55 No.3 60 No.4 65 No.5 70 データ番号値偏差偏差 No.1 56 No. 58 No.3 60 No.4 6 No.5 64 和 和 和 013/1/1 Nara University of Education 5 平均 =60 分散 = σ= 平均 =60 分散 = σ= 平均 =60 分散 = σ= 013/1/1 Nara University of Education 6 分散 =σ 分散とは ( 偏差の 乗 ) の平均 標準偏差 σ とは ( 分散 ) のこと 分散 と 標準偏差 σ は どちらかが分かれば 他は計算できる分散 =σ σ= ( 分散 ) ひょうじゅんへんさ は書くのも うのも い! そこで 分散 =σ と うことがある ex 分散が 3.0 である とは 分散が 9.0 であり 標準偏差が 3.0 であることを同時に表現している 分散 : 別の計算 法 -1 (x i -x h ) の 乗の和 を以下のように計算する ( x i x i x i x x i h ) x x x nx h h i h ( nx x h h ) nx h データの 乗の和 - 平均値の 乗 * データ個数となる 計算が 段階減っている プリントに計算結果を記 しなさい データ番号値値 No.1 40 No. 50 No.3 60 No.4 70 No.5 80 和 平均 =60 値の 乗の和は = 分散 = σ= 013/1/1 Nara University of Education 7 013/1/1 Nara University of Education 8

8 分散 標準偏差 :Excel 関数 後でこういう関数を使う (excel007) 今 は で計算するので使わなくてよい =VARP( ) variance-p 分散 =Σ(x i -x h ) /N ( データの個数 ) =VAR( ) 不偏分散 =Σ(x i -x h ) /(N-1) =STDEVP( ) standard-deviation-p 標準偏差 = ( 分散 ) =STDEV( ) 不偏標準偏差 = ( 不偏分散 ) 偏差値 (deviation score) 偏差値とは ( 偏差 / 標準偏差 σ)*10+50 と定義される 平均値なら偏差値は 50 点平均値 +σ なら 60 点 +σ なら 70 点 -σ は 40 点 以下の空欄の偏差値を計算しなさい データ番号値偏差偏差値 データ番号値偏差偏差値 Excel010 では また別の名前になっているのでややこしい 多くの統計の問題では 不偏分散 不偏標準偏差を使うことが多いので そちらに簡単な名前が付いている 集団 (Population) から抽出したデータを扱う場合 ( 不偏 ) を使う 集団 = データの全体の場合 P の付いた関数を使う No No No No No 平均 =60 σ= No No No No No 平均 =60 σ= 013/1/1 Nara University of Education 9 013/1/1 Nara University of Education 30 次元データ 新 児の 体重データから散布図 (scatter plot) を作りなさい 番号 身長 体重 No No No No No No No No No No No No No が きいと体重も きいという 傾向 が読み取れる 体重 Excel ( 散布図を作る ) からデータ ( 新 児体重 100 ) をダウンロードする 1) と 体重 の列を選択する ) 挿 散布図 ( マーカーのみ ) 3) 縦軸をクリックし 軸の書式設定 から 最 値を 1500 とする 013/1/1 Nara University of Education /1/1 Nara University of Education 3

9 Excel ( 散布図のスタイル変更 ) グラフのレイアウト を変更してみる 1) グラフのどこかをクリックすると グラフツール が表 されるので ) グラフのレイアウト から 3) 以下のような表 を選んでみなさい x の分散 (variance) は Q x =Σ(x i -x h ) /n y の分散は Q y =Σ(y i -y h ) /n xy の 共分散 covariance を Q xy =Σ(x i -x h )(y i -y h )/n として 相関係数を r= Q xy / (Q x *Q y ) と定義する (correlation coefficient) Q xy <0 Q xy >0 Q xy <0 Q xy >0 Q xy <0 Q xy >0 4) 軸ラベル の 字を例えば 体重 に変更してみる Y h Q xy >0 共分散 > 0 r は正 Q xy <0 Y h Q xy >0 Q xy <0 Y h Q xy >0 x h x h x h 共分散 0 r はゼロに近い 共分散 < 0 r は負 Q xy <0 データが 直線なら r= +1 データが 直線なら r= /1/1 Nara University of Education /1/1 Nara University of Education 34 相関係数 相関係数を計算する 3 つの 法 r=1 右上がりの 直線 (xでyが決定される) 0<r<1 正の相関 (xが きいほどyも きくなる傾向) r 0 yとxには相関がない ( 無関係 ) -1<r<0 負の相関 (xが きいほどyは さくなる傾向) r=-1 右下がりの 直線 1) 定義に従って x の分散 y の分散 x-y の共分散から計算する ) Excel の関数を =CORREL() を いる 3) Excel のグラフの表 機能を利 する 他にもあると思いますが 上の 3 つを試してみよう 013/1/1 Nara University of Education /1/1 Nara University of Education 36

10 相関係数を計算する ( データ ) から ( 相関係数計算データ ) をダウンロードし 定義に従って 相関係数を計算しなさい ( 答えをプリントに記 ) Excel ( 相関係数を計算する -1) X Y の平均を求め (=average) X,Y の偏差 偏差 ^ から X,Y の分散 共分散を求め (=sum()/5) 相関係数を計算する ( 平 根は sqrt() 関数 ) 013/1/1 Nara University of Education /1/1 Nara University of Education 38 Excel ( 相関係数を計算する -) からデータ ( と の :) をダウンロードし Excel の関数 (=CORREL()) を使って 相関係数を求める ( プリントに記 ) 回帰直線 (regression line) X と Y の関係を 1 本の直線で表すとすれば これを 回帰直線 という 1) ここで クリックしてから ) 数式 関数の挿 3) CORREL(Correlation: 相関 ) 関数を選択 4) [ 配列 1] に A 列の数字 5) [ 配列 ] に B 列の数字を選択する 父親 息子 ( 成人 ) y=son X=FATHER 013/1/1 Nara University of Education /1/1 Nara University of Education 40

11 回帰直線の定義 ( 参考 ) 最 乗法 データ点との 差 の 乗の和が最 になるよう直線 a,b を決める ( 最 乗法 ) y y=ax+b i 番 のデータ (x i,y i ) と直線 (y=ax+b) との差 i は ( ax b) y i i i y y=ax+b 傾き a 切 ( x x )( y y ) i h i ( xi xh) b y h ax h h x (x i,y i ) の 乗の和が最も さくなるように a,b を決める S i S S 0, 0 a b {( ax b) y } これから 少々 い計算の結果 i i x a ( xi x )( y y ) h i ( xi xh) h b y h ax h 013/1/1 Nara University of Education /1/1 Nara University of Education 4 回帰直線の引き (Excel) 回帰直線の引き (Excel) 同じデータ ( と : 回帰直線 ) から 散布図 を作る 散布図を書いてから グラフツール レイアウト 近似曲線 線形近似 ( オプション : グラフに式を表 : R- 乗値を表 ) R の値は何を表しているか? 散布図を書いてから グラフツール レイアウト 近似曲線 線形近似 式の表 回帰直線の式と相関係数をプリントに記 し 左図を印刷提出しなさい ( 名 : 番号 ) 013/1/1 Nara University of Education /1/1 Nara University of Education 44

12 Why 回帰? 背の い の息 ( たち ) の平均はその ( たち ) より低い 背の低い の息 ( たち ) の平均はその ( たち ) より い 息 の背丈は平均に向かって 回帰 = 復帰 する ( ダーウィンの弟 の研究結果 ) 注意 : 相関係数!= 直線の傾き 様々な相関係数 (r) y(son) a( 傾き )=1 の直線 ( の平均 =( の平均 ) 平均への回帰 a( 傾き )=0.9 の直線 定義できず 直線の傾き (a) とは関係ない 平均への回帰 x(father) 013/1/1 Nara University of Education /1/1 Nara University of Education 46 BLANK PAGE BLANK PAGE 013/1/1 Nara University of Education /1/1 Nara University of Education 48

13 医療統計 -3 (01/10/18) ギリシャ 字に慣れる ( 書き順も ) 様々な確率 (probability) の分布 (distribution) と計算法 確率 離散型 様分布 項分布 ポアソン分布 連続型 様分布 正規分布 指数分布 t 分布 カイ (χ) 乗分布 F 分布 確率 確率変数 ( 回数 個数 etc) 確率変数 ( 体重 etc) 013/1/1 Nara University of Education /1/1 Nara University of Education 50 項分布 (Binomial Distribution) の例 項分布 ( 定義 ) さいころを 10 回振って 6 が 3 回出る確率は? =(1/6) 3 (5/6) 7 * 10 C 3 =0.155 治癒率 1/6 の新薬を 10 に投与した 3 が治る確率は? =(1/6) 3 (5/6) 7 * 10 C 3 結果が YES/NO の 通りある試 を n 回 った時 k 回 YES になる確率 ( 通り = 項 ) がどうなるか? YES( 成功 ) の確率を p( 字 ) とする 従って NO( 失敗 ) の確率は 1-p n 回の試 を って k 回 YES( 成功 ) である確率 P( 字 ) は X=k を確率変数として ( 確率変数は x,x,z,z 等を いる習慣 ) 6 の出る 3 回は 10 回のうちどれでもよいから 10C 3 ( 項係数 ) 倍される X B10(x,1/6) 計 B 10 (x,1/6) P[ X k nk k] nck p (1 p) ここで n C k は 項係数 (Combination) で C k n n! k!( n k)! k 回成功する確率は p k 残りは失敗だから (1-p) n-k 成功 失敗の順序は任意なので n C k 倍になる 013/1/1 Nara University of Education /1/1 Nara University of Education 5

14 項分布 ( 計算練習 ) 項分布 ( 計算練習 )- P[ k] k nk nck p (1 p) 15% あたりのくじを10 回引いたとき あたりが0 回 1 回 となる確率を計算する 始めに 定義通り計算し ( 項係数 =COMBIN, 乗 =POWER) P(k) を計算する k nk P[ k] nck p (1 p) あたりの確率 (p) 0.15 回数 (n) 10 あたりの数 (k) nck p^k (1-p)^(n-k) P(k) E E E E E E-09 B3( 回数 ) を選択し [F4] を押し 絶対番地 $B$3 にする $B$3 A6 フィルハンドル (+) をドラッグして 下にコピーする Excel 関数 項係数 nc k =COMBIN(n,k) 乗 p k =POWER(p,k) (1-p) (n-k) =POWER(1-p,n-k) n は定数だから絶対指定 [F4] p は定数だから絶対指定 [F4] 013/1/1 Nara University of Education /1/1 Nara University of Education 54 項分布 (BINOMDIST 関数 ) Excel 関数 BINOMDIST(Binomial-Distribution) で計算し 前スライドの P(k) との 致を確かめる あたりの確率 (p) 0.15 回数 (n) 10 A6 $B$3 あたりの数 (k) nck p^k (1-p)^(n-k) P(k) BINOMDIST 関数 E E E E E E-09 1 分布の値は FALSE とする 013/1/1 Nara University of Education 55 $B$ ポアソン (Poisson) 分布の例 平均 5 本の電話が掛かってくる に 本も掛かってこない確率は? 10 本掛かってくる確率は? λ=5 として P( x) e X( 回数 ) P(x):λ= ここまでの計 x x! P(x):λ= /1/1 Nara University of Education 56

15 ポアソン (Poisson) 分布とは ポアソン (Poisson) 分布 - 計算練習 ある時間内に平均 λ 回起こる事象が その時間内に x 回起こる確率 P(x) 前ページの例 : 平均 5 本の電話が掛かってくる に 時間の範囲を 1 として 平均 λ=5 本も掛かってこない確率は?x=0 10 本掛かってくる確率は?x=10 として P( x) e x x! 交差点の の通 量 お店に来るお客の数 WEB のアクセス件数 単位 積に落ちる 粒の数 1 光年内の恒星の個数 etc e A exp(a) exponential(a) と読む ( 仏 ) 数学者 Siméon Denis Poisson /1/1 Nara University of Education 57 平均 分に 1 回電話がかかってくるとする 10 分間に 0 回 1 回 10 回,0 回 電話がかかってくる確率は? 10 分間では平均 5 回なので P(x) の式で λ=5 x=0,1, とする 10 分平均 λ 5 e^(-λ) 回数 (x) λ^x x! P(x) E E+18.64E-07 P( x) e 013/1/1 Nara University of Education 58 x x! 1) 計算式通りに計算する exp() fact() ) 関数 POISSON() でも計算し確認する 計算練習 - 計算練習 -3 関数 POISSON Excel 関数 ) 関数 POISSON() でも計算し 確認する e x =EXP(x) P( x) e x x! false 階乗 Factorial X!=FACT(X) E E+18.64E /1/1 Nara University of Education /1/1 Nara University of Education 60

16 項分布 ( 極限 ) ポアッソン分布 希な現象を 量に観測するとポアッソン分布になる (19 世紀プロシア軍で に蹴られて死ぬ兵隊の数がポアソン分布になる という研究があった ) 平均 5 本の電話が掛かってくるとする ある 1 秒間に電話が掛かってくる確率 P=5 本 /4 時間 *60 分 *60 秒 = 故に ある 1 秒間に掛かってこない確率は 1-P= 従って (86400 秒 ) に 10 本掛かってくる確率は 項分布を いて 86400C 10 * ( ) 10 *( ) この式で N=86400 が きく p= が さいことを いると λ=5 x=10 として 右の式になるということが される P( x) e 式の導出は %B3%E5%88%86%E5%B8%83 等にある 013/1/1 Nara University of Education 61 x x! 確率 の分布 (distribution) 様分布から正規分布へ 1 個 場合の数確率 確率の和 個 の和 場合の数確率 確率の和 確率 確率 013/1/1 Nara University of Education の和 これを 様分布 (Uniform) という 多くのデータは正規分布に近づく 正規分布 (Normal Distribution) contents 3 個 の和 場合の数 確率 確率の和 確率 の和 ラフな い だが たくさん集めるとなんでも正規分布になる = これを 中 極限定理 という 標準正規分布関数平均 =0 分散 =1 f ( x) 1 exp( x ) 013/1/1 Nara University of Education /1/1 Nara University of Education 64

17 正規分布に慣れるために =exp 関数に慣れる 数 e と関数 e x e= ( 然対数の底 ) という 複利計算 1 (1 1) 年利 100% で1 年間の元利 1 (1 ).5 年利 50% で 年間の元利 1 3 (1 ) (1 ) 10 1 (1 ) N (1 ) N e 年利 10% で 10 年間の元利 年利 1% で 100 年間の元利 利率 年数 =1 で 年数が の極限値が e である 013/1/1 Nara University of Education 65 1 e (1 ) N e x (1 x N N ) N ! 1!! 3! x x x x ここでn!=n*n-1* ! 1!! 3! 但し 0!=1!=1とする 微分しても積分しても 分 と等しい関数 = e x d dx x e x e x e dx e x 解析学 ( 微分積分学 ) において最も重要な関数 013/1/1 Nara University of Education 66 e x 数学でもっとも重要な関数 e x と e -x 微分すると 分 になる ( 故に積分しても同じになる ) e x d dx (1 e x x N ) N 1 1x 0 1! 1 Euler( オイラー ) の公式 e e ix i cos x x x x... 0! 1!! 3! x 3 x x x x x x e! 3! 0! 1!! 3! x i sin x スイス : Leonhard Euler, X exp(x) -x^ exp(-x^) プリントに e x e -x のグラフを で書きなさい exp(x) exp( x^) /1/1 Nara University of Education /1/1 Nara University of Education 68

18 x exp( なぜ? ) dx 確率の総和 = 積を 1 にするために 標準正規分布関数を以下で定義する f ( x) 1 exp( x ) 頂点 =1 このカーブの下の 積.506 頂点 0.4 このカーブの下の 積 =1 x なぜ? 変曲点が =+1/-1 となるように f ''( x) 1 ( x x 1) exp( ) 般の正規分布の場合原点から変曲点までの距離が σ( 標準偏差 ) となる -1 上に凸 0 +1 下に凸 013/1/1 Nara University of Education /1/1 Nara University of Education 70 般の正規分布の式 μ: 平均,σ: 標準偏差 N(0,1) 標準正規分布 (μ=0 σ=1) f ( x) 1 exp( 0 1 x ) グラフを μ ずらす 1 ( x ) f ( x) exp( ) μ N(μ,σ ) 値は 1/σ 倍する σ グラフの下の 積はどちらも 1 に等しい 幅を σ 倍する 正規分布の μ と σ 1 ( x ) N(μ,σ ) f ( x) exp( ) 平均が μ であるとは確率変数 x の値を分布関数で平均すると μ になるということ x f ( x) dx 分散とは確率変数 xと平均の差 ( 偏差 ) の 乗を分布関数で平均した値のこと 計算の結果 σ となる故に標準偏差はσとなる ( x ) f ( x) dx 離散分布の場合 平均は全体の個数 (N) で割るが 正規分布の全体 = 積 =1 なので 積分 (=Σ に相当 ) した値がそのまま平均値になる 013/1/1 Nara University of Education /1/1 Nara University of Education 7

19 医療統計 -4 (01/10/5) 般の正規分布の式 正規分布の性質と応 項分布 どのような分布であれ多くの試 を重ねると分布はこの形に近づくことの発 ( ド モアブル ) Abraham de Moivre, 標準正規分布の形 μ: 平均,σ : 分散 ( 標準偏差 ) N(0,1 ) 標準正規分布 (μ=0 σ=1) f ( x) 1 exp( 1 x ) グラフを μ ずらす N(μ,σ ) 1 ( x ) f ( x) exp( ) 値は 1/σ 倍する σ グラフの下の 積はどちらも 1 に等しい 幅を σ 倍する ポアッソン分布 013/1/1 Nara University of Education /1/1 Nara University of Education 74 μ Z 変換 逆に μ: 平均,σ: 標準偏差の正規分布があるとする 変数 Z=(X-μ)/σ は標準正規分布に従う 故に 般の正規分布は 変数 Z を いて N(0,1 ) として処理する N(0,1 ) 標準正規分布 (μ=0 σ=1) f ( z) 1 z exp( ) 1 般の正規分布 (μ σ ) これを Z 変換という ( ) Z X μ N(μ,σ ) 1 ( x ) f ( x) exp( ) σ 確率変数 (x) こちらの関数の形にして処理するのが 般的 すべて この標準正規分布 N(0,1) で処理する N(0,1 ) の正確な形 確率分布 確率変数 (z) 標準正規分布 N(μ=0,σ=1) 標準 (Standard) 正規 (Normal) 分布 (Distribution) 1(σ) 変曲点 (σ) 3(σ) exp( f ( z ) z ) 1 exp( z ) この形の関数をガウス型 (Gaussian) という Gauss によって研究された 正規分布をガウス分布という分野もある 0 確率変数 (z) 013/1/1 Nara University of Education 75 Fridericus Gauss /1/1 Nara University of Education 76

20 確率は 積 問題は つ 縦軸の数値は何を意味するか? z から 積 P を求める 積 P から z を求める 確率分布 z=0 となる確率が 0.4 という意味ではない! 確率変数 z が 0 1 の範囲である確率がこの 積から求まる ( 約 0.34) ということである 曲線の下の 積全体は 1(100%) である ( そうなるように決めたのである ) 確率分布 P( 積 = 確率 ) z が与えられたとき 積 P はいくらか? 0 z の範囲になる確率 P はいくらか? 積が P になるような z はいくつか? 確率が P になるような z の範囲は 0 からどこまで (z) か? 確率変数 (z) どちらも では計算できない表または Excel 関数を いる 標準正規分布 N(μ=0,σ=1) f ( z ) 1 z exp( ) f ( z ) 1 z exp( ) z( 確率変数 ) 013/1/1 Nara University of Education /1/1 Nara University of Education 78 標準正規分布表 標準正規分布表 ( 続き ) コンピュータが 近にない時代を体験する 0 3 の確率は ) z が 0 となる確率は? ) z が 1 となる確率は?( 引き算 ) 3) 0 z となる確率が 0.31 となる z の値は? (z=0.88 で P= z=0.87 で P= 近い を取りなさい ) Slide-9 に拡 図あります 013/1/1 Nara University of Education /1/1 Nara University of Education 80

21 積 ( 確率 ) の表や関数はいろいろあるので要注意 練習 :Excel 関数を利 する 側 両側 0 z 半分 / 倍 -z z 全体が 1 で左右対称 ( 半分は 0.5) を いれば どれかが分かれば 他はすべて求まる z z Z を与えて 積 (P) を求める正規分布表 (+0.5) と 致することを確認する 練習 : 1) 以下の表の Z の値に対応した下側 累積 確率を Excel の関数 NORMSDIST で計算し 記 しなさい ) 同じ z の値での 標準正規分布表 (Slide79-80) の値も記 しなさい 3) この つの値の差はいくらになるか? z 以上 ( 上側 累積 確率 ) -z z 以外 ( 両側 累積 確率 ) Excel の NORMSDIST(z) または NORMDIST(x,μ,σ,TRUE) Normal (Standard) Distribution Z NORMSDIST(Z) 正規分布表 (Z) その差 z 以下 ( 下側 累積 確率 ) 013/1/1 Nara University of Education /1/1 Nara University of Education 8 例題のための関数 -NORMSDIST 逆問題 積 ( 確率 ) から変数 Z を求める 標準正規分布の下側累積分布関数の値 P( い部分の 積 = 確率 )=NORMSDIST(z) NORMal( 正規分布 ) Standard( 標準 ) DISTribution( 分布 ) 積 ( 確率 ) を与えて 対応する Z を求める 1) 正規分布表から つける ( ぴったりでなければ 補間する ) z から 下側累積の 積 ( ) を求める NORMSDIST(0) 0.5 NORMSDIST(.0) z ) Excel の関数 Z=NORMSINV(P) Normal-distribution (Standard) Inverse( 逆 ) 練習 : 下側確率 ( 図の斜線部の 積 ) が下に す値となる z の値を Excel 関数 NORMSINV で求めなさい 下側確率 (P) Z=NORMSINV /1/1 Nara University of Education /1/1 Nara University of Education 84

22 例題のための関数 -NORMSINV 般の正規分布 (Z 変換 ) 標準正規分布の下側累積分布関数の逆関数の値 z=normsinv(p= い部分の 積 = 確率 ) NORMal( 正規分布 ) Standard( 標準 ) INVerse( 逆 ) 般の正規分布 N(μ,σ ) の X は Z 変換 Z=(X-μ)/σ <-> X=μ+σ*Z によって標準正規分布 N(0,1 ) になる 対応するグラフの下の 積はどちらも等しい 下側累積の 積が P となる z は? NORMSINV(0.5) 0 NORMSINV(0.95) グラフを μ ずらす 値は 1/σ 倍する 幅を σ 倍する NORMSINV(1.0) ERROR( または ) 確率変数 (z) 0 1 μ μ+σ 確率変数 (x) こちらの Z=1 の下側確率と こちらの x=μ+1 σ の下側確率は等しい 013/1/1 Nara University of Education /1/1 Nara University of Education 86 般の正規分布 (Z 変換 ) よって 般の正規分布 N(μ,σ ) は Z 変換 Z=(X-μ)/σ によって標準正規分布 N(0,1 ) として処理するのが便利である 例題 : 知能指数 IQ は N(μ=100,σ =15 ) の正規分布にしたがうとして IQ が 150 以上の は何パーセントいるか? Z=(x=150 - μ=100)/(σ=15)=3.33 標準正規分布表 (Slide-80) から Z=3.33 に対応する 積 = 確率は と分かる 故に (Z=3.33 つまり IQ=150) 以上の 積 = 確率は = (0.04%) となる ここの 積が x=150 Z=3.33 残りが /1/1 Nara University of Education 87 逆問題 上位 5% に るための偏差値は? Slide-79 標準正規分布表 を調べると P=0.45 となる z は z=1.64 P= z=1.65 P= から 補間して z= ( 求めよ ) 正確には Excel の関数 ( 下側確率逆関数 ) NORMSINV(P= ) z= ( 求めよ ) 偏差値とは H=z*10+50 のことだから 上のzで計算すると H= となる 故に 偏差値 点以上なら 上位 5% に る NORMSINV の 積は下側累積 正規分布表 の 積はここ ここの 積が 0.05 となる z は? Slide-30 偏差値 =10*( 点数 x ー平均 μ)/σ /1/1 Nara University of Education 88

23 正規分布 :Z->P( 順問題 ) 例題 正規分布 :P->Z( 逆問題 ) 例題 1. 確率変数 z が N( 0, 1 ) の正規分布に従うとき,p( 1 z 3 ) を求めよ.. 確率変数 x が N( 1, 36) の正規分布に従うとき,p( 9 x 18 ) を求めよ. ( 分散が 6 である ) 3. 平均値が 60 で標準偏差が 15 の正規分布において, 確率変数 X の値が 75 以上 90 以下となる確率を求めよ. Slide-88 の 法に従って 上位 1% 上位 10% に るための偏差値を計算しなさい表で求める または Excel 関数でも どちらかで計算しなさい 4. ある試験の受験者 1000 の得点の平均は 55 点, 標準偏差は 15 点であった. 得点の分布がほぼ正規分布とみなせるとき, 得点が 85 点の は得点の い から数えて約何 にいるか ( 上位何 % 以内 という答えでもよい ) /1/1 Nara University of Education /1/1 Nara University of Education 90 よく る図 標準正規分布表 (0 Z の確率 ) 同じことを っている 平均 +/- σ の範囲に約 95% 平均 +/- 3σ の範囲に約 99% 以上含まれる ということが 切 常 活的には 95% 99% の範囲に っていれば OK であることが多い 物理学の実験では +/- 6 σ ( %) の確からしさが要求される Higgs 粒 の検出は まだこのレベルに達してはいない 013/1/1 Nara University of Education /1/1 Nara University of Education 9

24 医療統計 -5 (01/11/1) 集団 (Population) と標本 (Sample) 無作為に抽出された標本のデータから 集団の性質を推定することが 的 推定 集団 (population) と標本 (sample) 標本が多いほど 集団の性質がより正確に推定できる 標本の数 n を 標本の きさ (size) という 集団 抽出 標本 集団の きさは問題としない 分多ければよい n は平均値が意味がある程度の きさ 数個以上 任意 013/1/1 Nara University of Education /1/1 Nara University of Education 94 集団の (μ σ) と標本の (m と σ') 統計学によれば 集団の平均 μ 標準偏差 σ とする ( 分かっているとする ) そこから抽出した標本 (n 個 ) の平均値 m の [ 期待値 ] は μ に等しく標準偏差 σ'=σ/ n となる 集団 μ σ 平均 =m'' 平均 =m 平均 =m' m の期待値 =[m]=μ σ'=σ/ n [ 期待値 ]= 試 を無限回おこなったとして 得られる値の平均値のこと 例 (n=3 σ=8cm σ'=4.6cm) 集団 = 全国男 学 として 平均 μ=173cm 標準偏差 σ=8cm が分かっているとする n=( たとえば )3( ) の標本をたくさんとってみる 集団 μ σ σ=8cm 平均 =175 平均 =170 平均 =180 平均 =160 [m]=μ=173cm 標本 (n=3) [m]=μ σʼ=4.6cm σ'=4.6cm きさ 3 の標本の平均値の分布この分散は (8/ 3=4.6cm) となる 013/1/1 Nara University of Education /1/1 Nara University of Education 96

25 n=300( ) なら? 逆に n=1( ) なら? 測定値 = 平均値 集団 μ σ=8cm 平均 =173 平均 =17 平均 = cm 標本 (n=300) [m]=μ σʼ=0.48cm 集団 μ σ=8cm 平均 =188 平均?=17 平均 =155 標本 (n=1) [m]=μ σʼ=σ 平均 =175 きさ 300 の標本の平均値の分布この分散は (8/ 300=0.46cm) となる 平均 =175 きさ 1 の標本の平均値 = 測定値の分布は 集団と同じ 標本のサイズを きくすると 平均値の分布のバラツキ ( 分散 = 標準偏差 ) は さくなる 013/1/1 Nara University of Education /1/1 Nara University of Education 98 まとめると 集団の平均 μ 分散 σ ( 標準偏差 σ) から サイズ n の標本をたくさんとって 平均値の分布をみると 集団 μ σ 標本の平均の 期待値 は μ となり 標本 ( サイズ =n) [m]=μ σʼ=σ/ n 標本の平均値の分布の分散は (σ /n) となる ( 要するに狭くなる ) 標準偏差で えば σ/ n となる n をうんと きくすると ( ) σ は 0 となるつまり 確実に標本の平均値は 集団の平均値になる ということ 中 極限定理 (Central Limit Theorem) 集団 ( 平均 μ 分散 σ ( 標準偏差 σ) から サイズ n の標本をたくさんとって 平均値の分布をみると 平均値 m は正規分布 N(μ,σ /n) となる 標本の平均の 期待値 は μ となり 平均 :μ 分散 : σ N(, ) 平均値は正規分布する 集団が正規分布である必要はない ということがいえる これを中 極限定理という ( 統計学でもっとも基本的な定理 ) n 013/1/1 Nara University of Education /1/1 Nara University of Education 100

26 例題 : 標本平均の分散 ( 標準偏差 ) 例題 -1 標本の きさと標準偏差 平均 :μ 分散 : σ 集団の平均体重 μ=55kg 標準偏差 σ=5kg の時 5 のサンプルの体重の平均値 (m) は? 標準偏差 (σ') は? 平均 (μ) 55kg, 標準偏差 (σ)5kg の 集団から, きさ 5(n) の標本を抽出するとき, 標本平均の期待値 [m] と標準偏差 (σ') を求めよ. 定義に従って 求めてください イメージを絵で描いてください サイズ n の標本の平均 :m=μ 分散 :σ' =σ /n N (, ) n 集団の分布 n=5 の標本の平均の分布図 故に標準偏差 σ'=σ/ n 標本の平均値の分布 013/1/1 Nara University of Education /1/1 Nara University of Education 10 例題 - 逆に 標本から 集団を推定する 集団の平均 150(g), 標準偏差 30(g) の 葱から 100 個の標本を無作為抽出するとき, 標本平均が 145(g) 以下となる確率を求めよ 集団の分布 μ=150 σ=30 n=100 標本抽出 標本平均の分布 [m]=μ=150 σ'= n=100 のサンプルの σ' は? この σ' を使って x=145 を z 変換して z は? この z の値 (+ に直して ) で標準偏差表を ると? 従って x<145 となる確率は? 平均 :? 分散 : σ 集団の標準偏差 (σ) は 何らかの 法で知られているとする ( 分からない場合は 後で扱う ) n のサンプルの の平均値が 170cm であった 集団の平均値はいくらと推定されるだろうか? n 人平均 :170cm 013/1/1 Nara University of Education /1/1 Nara University of Education 104

27 標本平均 m から 集団の平均 μ を推定する 集団の平均 μ が 175cm と仮定する μ=165 とすると μ=175 分散 : σ はわかっているが平均 : μ は? ありそう 分散 : σ=8cm 平均 : μ=175cm とする N(, ) n n のサンプルの平均が m(ex 170cm) であったとする 集団の平均 μ を推定してみる nサンプルの平均値の正規分布 m=170 μ=170 可能性 い μ=175 ちょっと可能性は少ない μ=180 ありそうもない 10 サンプルの平均値が 170cm とする このとき 10 のサンプルの平均が170cm 以下となる確率はどの程度か? Z=( )/(8/ 10)=-1.98から左の い確率は約.5% m= 以下あるいは 180 以上である確率は約 5% となる m=170 z= N( 175, ( ) ) n 10 μ=175 P= =95.% z= /1/1 Nara University of Education /1/1 Nara University of Education 106 逆に考える = 平均の区間推定 まとめると m=170 m=170 約 95% μ<165 μ=175 95% 99% z=1.96 上側確率 =0.05 両側 95% z=-1.98 z= ' 1.96 ' 1.96 '.58 ' 標準偏差 8cm の 集団から取った 10 のサンプルの平均が 170cm となっているとき 平均が 165cm 以下 または 175cm 以上である確率は 5% 程度である このことを以下のように表現し 区間推定と う 信頼度 95% で 平均は 165cm 175cm である σ=8cm n=10 人とすると σ'=8/ 10=.53cm 信頼度 95% では μ= * ~175.0 信頼度 99% では μ= * ~176.5 と表現する z=.58 上側確率 =0.005 両側 99% 013/1/1 Nara University of Education /1/1 Nara University of Education 108

28 簡単に うと 信頼度 とは n=10 のサンプル平均 =170cm であった 集団の平均を推定すると 信頼度 95% では 165cm 175cm 信頼度 99% では 163.5cm 176.5cm σ=8cm 95% 信頼区間 99% 信頼区間 013/1/1 Nara University of Education 109 同じ測定を何度も繰り返したとき 測定値がその範囲になる確率 ( 範囲のことを 信頼区間 という ) (1- 信頼度 ) の程度では そうならない確率がある 信頼度が いほど 範囲は広くなる ( 曖昧になる ) 99% 信頼区間 95% 信頼区間 50% 信頼区間 0% 信頼区間 ( ジャストの値 ) 99.9% 信頼区間 信頼度 95% で である とは 同じ測定 ( 抽出 ) を何回 ( 理論的には 回 ) も行ったとき そのようにならないこと ( 誤り ) が 5% で起こりうる ということである 信頼度 100% で言明できることは 母集団の平均値は [- ~ ] ということ 母集団の平均値 = サンプルの平均値 cm である という言明の信頼度は 0% である 013/1/1 Nara University of Education 110 平均の推定 - 例題 -1 量の 葱 ( 平均値 =μ= 不明 標準偏差 =σ=30g) から 100 個の標本を無作為抽出して測定したところ, 標本平均 150g となった. 平均 ( 集団の平均 =μ) の 95% の信頼区間を求めよ. σ' = σ/ % 信頼区間は *σ' <= μ <= *σ' g g 標準偏差 30(g) である 量の 葱から標本を無作為抽出する. 平均の 95% 信頼区間の幅を 3(g) 以下で得るには, 標本の きさを何個にすればよいか 幅が 3 ということは +/-(1.96*σ') が +/-(1.5) になればよい σ'=σ(30)/ n=1.5/1.96 から n= 故に n = 個 ( 以上 ) 区間推定のパターンを覚える サイズ n のサンプルの平均値 m から 集団の平均値 μ の範囲を推定する 集団 μ? σ n 個のサンプル 集団の標準偏差 σが分かっていれば それを使う分からなければ サンプルの標準偏差 * を 集団のσとみなして 95% 信頼度では μの範囲 ( 区間推定 ) は m 1.96 n 99% 信頼度では μの範囲 ( 区間推定 ) は m.58 n m 信頼度が いほど 範囲は広くなる ( 曖昧になる ) 013/1/1 Nara University of Education 111 * サイズ n>30 程度なら これでよい ( この標準偏差は 不偏分散 (n-1 で割るほう ) から計算するのが better 013/1/1 Nara University of Education 11

29 課題 信頼区間のパターン 1. ある町の 学校 1 年 男 から 50 を無作為抽出して調べたところ, 平均 は 116.8cm であった. この町の 学校 1 年 男 の平均 について信頼度 95% の信頼区間を求めよ. また 信頼度 99% ではどうか? なお, 同年に われた全国調査で, 学校 1 年 男 の の標準偏差は 4.97cm であった. 95% 5% z=1.645 側 99% 1% z=.36 95% 99%. 学校 1 年 男 の の標準偏差は 4.97(cm) であることが分かっているとき, ある町の 学校 1 年 男 の平均 を信頼度 95% で +/-1cm の誤差 ( 幅 cm) で求めるには, 標本の きさを何 にすればよいか. z= % z=1.960 両側 z= % z= % 99% 013/1/1 Nara University of Education /1/1 Nara University of Education 114 正規分布表 (z: 側確率 ) Appendix ( 公式の導出 ) 母集団平均 :μ 分散 : σ 定理 : サイズ n の標本の [ 平均値 ] の分散は 集団の分散の 1/n になる N(, ) n x x 1 E( V ( )) n n E( ): 期待値 V( ): 分散 1 E( V ( x1) V ( x) ) ne( V ( x)) n n n n 1 1 n 個の標本の平均値の分散は 標本の抽出が無作為なら お互いに相関がないので 各確率変数の分散の和になる ( 共分散 ( 積 ) にあたる項は 0 になるから ) 極端なケースとして 集団全部をサンプルとして取れば (n ) 確実にサンプルの平均値は μ になり 分散はあり得ない (σ /n 0) 013/1/1 Nara University of Education /1/1 Nara University of Education 116

30 医療統計 -6 01/11/8 区間推定のパターン ( 復習 ) 区間推定の復習 集団 n 個のサンプル z=0(m=μ) 集団 n 個のサンプル μ? σ 既知 m σ'=σ/ n 95% μ? σ 既知 平均 m P(-1.96<z<1.96)=95% z 変換 z=(m-μ)/σ' から P(-1.96σ'<(m-μ)<1.96σ')=95% つまり m-1.96σ'<μ<m+1.96σ' である確率が 95% である と解釈し この範囲を 95% 信頼区間という z=-1.96 z=+1.96 mの分布 集団の標準偏差 σが分かっているとき 95% 信頼度では μの範囲 (95% 信頼区間 ) は 99% 信頼度では μの範囲 (99% 信頼区間 ) は m 1.96 n m.58 n 狭い 広い m 99% なら とする 013/1/1 Nara University of Education /1/1 Nara University of Education 118 集団の σ がわからない場合の区間推定 種類の 標準偏差 1/n か 1/(n-1) か 集団 μ? σ? n 個のサンプル 平均 m (x1,x,x3 ) 集団 μ σ n 個のサンプル 平均 m (x1,x,x3 ) 簡便な 法 1) サンプルデータ (x1,x ) から単純に 標準偏差 (s) を求めて ( xi m) s それを 集団の標準偏差 (σ) とみなして ( 推定して ) n 前スライドの式を適 ) サンプルデータから 不偏標準偏差 (u) を求めて それを 集団の標準偏差 (σ) とみなして 以下同 3) 由度 n-1 の t- 分布 ( 後述 ) を適 し 区間推定する 統計的に信頼性の い 法 ( 信頼区間は広くなる = 間違える危険が少なくなる ) ( サンプル数が多くなると どれでも同じような結論になる ) u ( xi m) n 1 標準偏差 (σ) σ =Σ(xi-μ) /N (N: 集団全体 ) 1) 標準偏差 (s) s ( xi m) / n ) 不偏標準偏差 (u) u ( xi m) /( n 1) 集団の標準偏差 (σ) の推定値としては 不偏標準偏差 (u) の が統計学的により妥当とされる (u > s) (xi-μ)=(xi ー m)+(m-μ) から 平均との分散 = 標本平均との分散 + 平均の差の 乗 σ > s (sはσの推定値としては さい) 1 1 ( xi ) ( xi m) ( m ) n n Excel 関数では分散 (s )=VARP 標準偏差 (s)=stdevp 不偏分散 (u )=VAR 不偏標準偏差 (u)=stdev 単純な に P=Population( 集団 ) が付くことに注意 ( サンプル = 集団そのものと なす ということ ) Variance: 分散 Standard Deviation: 標準偏差 013/1/1 Nara University of Education /1/1 Nara University of Education 10

31 集団の σ がわからない場合の区間推定 : 例題 繰り返しになるが 区間推定のパターンをまとめると 前スライドの 1) と ) を実 してみる Data ファイル Book-3-STDEV/STDEVP サイズ n のサンプルの平均値 m から 集団の平均値 μ の範囲を推定する 集団から 4 個のサンプルを得た 平均の 99% 信頼区間を計算しなさい No X 偏差 偏差 ^ 分散 (s^) 標準偏差 (s) 不偏分散 (u^) 不偏標準偏差 VARP STDEVP VAR STDEV 平均 和 ) 偏差の 乗の和を求め 1) 分散の定義から s と s を求め ) 不偏分散の定義から u と u を求め 3) 対応する Excel 関数の値と 致を確認する 4) σ=s としたときの区間推定 ~ 5) σ=u としたときの区間推定 ~ ちなみに t- 分布を いると [39.1~47.4] となる 013/1/1 Nara University of Education 11 集団 μ? σ? n 個のサンプル 1. 集団の標準偏差 σ が分かっている場合 それを使って 標本平均の標準偏差 σ' = σ/ n として これまでのパターンを適 して区間推定する. 集団の標準偏差が不明の時 かつ標本数 n が 30 程度以上なら n 個の標本の標準偏差 ( 不偏標準偏差 *) を 集団の標準偏差 σ と なして以下同じく σ'=σ/ n として 上と同じパターンで処理する 3. 集団の標準偏差が不明 かつ標本数 n が 30 程度以下なら後述の t- 分布を いて区間推定を う * 不偏分散 不偏標準偏差とは n で割る代わりに (n-1) で割って求めた値である (Slide-6) 013/1/1 Nara University of Education 1 率の推定 yes/no の 率 ( 項分布 正規分布 ) t- 分布の話の前に 別パターンの推定について学ぶ それは Yes/No の 率 ( 率 ) を推定すること 集団の 持率 =p yes yes no yes n に聴いたところ 持率は R でした 集団の 持率 p はいくらの範囲と推定できるか? Yes の 率 =p No の 率 =(1-p) の 集団がありそこから n 個のサンプルを取るとする そのうち k 個が yes である確率は 項分布 (Slide-5) で計算できるが n がある程度 きい場合 ( 数 以上 ) Yes の 率の期待値 ( 平均 ) は p であり Yes の 率の分散は σ' =p(1-p)/n の正規分布となることが分かっている (Appendix) 率 =p yes yes no p yes サンプルでの 持率 =R / 体重のような連続的な変数ではない 集団において占める割合を 率 (p), 標本において占める割合を標本 率 (R) という. 標本 率 (R) を調べることにより, 率 (p) を推定することができる. yes の 率 R の期待値 = 率 p 分散 σ' =p(1-p)/n yesの 率 N( p,( p(1 p) / n) 013/1/1 Nara University of Education /1/1 Nara University of Education 14

32 率はわからない ( 調べたいことなので ) 率 p は調べたいことそのものなので σ' は計算できない σ' =p(1-p)/n 例題 & 練習 3600 を無作為に抽出して聞いたところ 持は 000 だった 集団の 持率 p の範囲を推定しなさい そこで サンプルでの 率 R を代わりに いて σʼ の推定値とする σ' =p(1-p)/n R(1-R)/n この σ' を いて 率 (p) の区間推定を う yes 率 =p yes no yes n=3600 サンプルの 持率 R=000/3600= から σʼ= (R*(1-R)/n) = (0.5556*0.4444/3600)= % 信頼度では p の範囲は R 1.96 ' R +/- 1.6% ( %) 99% 信頼度では p の範囲は R.58 ' R +/-.1% ( %) yes の 率 R の期待値 = 率 p 分散 σ' =R(1-R)/n サンプル 率 R (=3/4) yesの 率 N( p,( R(1 R) / n) 013/1/1 Nara University of Education 15 p では 360 に聞いたところ 持は00 だった 集団の 持率 p の範囲を推定しなさい n=360 サンプルの 持率 R=00/360= σʼ= (R*(1-R)/n) = 95% 信頼度では p の範囲は R 1.96 ' R +/- % ( % %) 99% 信頼度では p の範囲は R.58 ' R +/- % ( % %) 013/1/1 Nara University of Education 16 課題 -1 量の 葱から 100 個の標本を無作為抽出して検査したところ, 不良品が 5 個あった. 集団の不良率を 95% の信頼度で推定せよ. 標本 率も未確定の場合 ここまでの例では 調査を実施して サンプルのパーセンテージ (R) が分かったとして 集団のパーセンテージ (p) を推測するということであった で 調査の設計 という課題がある たとえば 新薬の有効性 ( 効くか効かないか ) を調べたい. これこれの信頼度で推定を うためには何例以上調査すればよいか? 標本の不良率 R=? 標準偏差 σ' を個数 n と R= で表し 下の式に適 する 95% 信頼度では p の範囲は R 1.96 ' R +/- % ( % %) サンプルの 率 (R) も 集団の 率 (p) もわからないのだから σ'= (p(1-p))/ n (R(1-R))/ n を計算できないが x(1-x) は 0<x<1 の範囲で最 で 1/4=0.5 ということを使って次ページのように n を決める P(1-P) /1/1 Nara University of Education /1/1 Nara University of Education 18

33 調査の設計 ( 必要な n を決める ): 例題 無作為抽出で世論調査を って, ある政策に対する 持率を調べたい. 信頼度 95%, 誤差の範囲 +/-1% 以内で求めるには何 以上調査すればよいか. 95% 信頼度では p の範囲は +/-(1.96σ') である よって 1.96σ' < 1% (0.01) としたい σ'= (p(1-p))/ n (R(1-R))/ n だが p も Rも分からない ( これから調査するのだから ) とりあえず式変形して n>(1.96/0.01) (p(1-p)) から n>(1.96/0.01) (p(1-p)) p がどんな値 (0 1) でも p(1-p) は 1/4 以下だから n> (1.96/0.01) (1/4)=9604 ( 以上 ) とすれば 丈夫である P(1-P) 課題 無作為抽出で世論調査を って, ある政策に対する 持率を調べたい. 信頼度 99%, 誤差の範囲 +/-1% 以内で求めるには何 以上調査すればよいか. 99% 信頼度では p の範囲は +/-( σ') である よって σ' < 1% (0.01) としたい σ' をサンプル数 nとpを使って表すと となる 故に 0.01> 式変形して n>( / ) (p(1-p)) から n>( / ) (p(1-p)) p は不明であるが どんな場合でも p(1-p) は 1/4 以下だからサンプル数は 以上であればよい YES/No が半々の場合 (p=0.5 p(1-p)=0.5) 番多くの に聞かなければいけない ほぼ全員が YES/No に偏っている場合は もっと少ないサンプルでよいが 最悪のケースでのサンプル数を求めていると うこと 故障率や不良率のように p が さいと なされる場合は もっと少ないサンプル数でよいことになる 013/1/1 Nara University of Education /1/1 Nara University of Education 130 補 : 項分布と正規分布の関係 項分布とは YES/NO の 通りある試 をn 回 った時 k 回 YESになる確率分布であった YES( 成功 ) の確率をp( 字 ) とすると n 回の試 を って k 回 YES( 成功 ) である確率 P( 字 ) は k nk P[ k] C p (1 p) n k これは n が きくなると μ=np σ =np(1-p) の正規分布に近づく 項分布 正規分布の例題 コインを 100 回投げたとき 表がでる平均回数の 95% 信頼区間を求めなさい p=(1-p)=0.5 だから平均 μ= 回分散 σ = の正規分布となる N( np, np(1 p)) 95% 信頼区間は +/-( )=+/- 約 回 故に 95% 信頼区間は 回 なお 99% では +/-( )=+/- 約 回故に 99% 信頼区間は 回 N( np 50, np(1 p) 5) 013/1/1 Nara University of Education /1/1 Nara University of Education 13

34 医療統計 -7 01/11/15 Student の t 分布 による区間推定 集団 m の分布は σ'=(u または s)/ n の正規分布として区間推定 検定を っても 丈夫 Student の t 分布 Guness 社員 W. ゴセット の論 平均値の誤差の確率分布 による (1908) Guiness 社では社員の論 発表を禁 ( 機密保持のため ) そこでペンネーム Student で論 発表 関数の変数として 字 t を いたので (Student の )t 分布という μ? σ? 多くのサンプルが得られる場合 少ない (n<30 程度 ) サンプルしかない場合 m( 標本平均 ), s( 標本標準偏差 ), u( 標本不偏標準偏差 ) m の分布は n-1 の 由度を持つ t 分布 ( 正規分布の補正 ) に従うとして 区間推定 検定を う (t 検定 ) m t u/ n William Gosset 未満のサンプルを 標本 30 以上を 標本 と うことがある t 変数の使い は習慣的に x: 普通の正規分布 z: 標準正規分布など 013/1/1 Nara University of Education /1/1 Nara University of Education 134 Student の t 分布 さいサンプル (n<30 程度 ) から 集団の値を推定する場合に いる 由度が さいと 正規分布からずれる 由度とは (n-1) のこと 由度 30 以上ではほとんど正規分布と 致する t 分布の t 値は 以下の式 m t u/ n 由度 という 葉 変数の個数 マイナス 拘束条件式の数 を数学では 由度 Degree of Freedom という z=1 z=1,x=y たとえば 3 次元空間 x,y,z(3 変数 ) に 式 1) Z=1 を課すと 平 となる 3 変数の 空間 を1 個の式が 拘束 すると になる と うさらに式 ) x=y も課すと 直線となる 3 変数の 空間 を 個の式が 拘束 すると 線 になる と う つまり 3 変数 (x,y,z) に拘束がなければ 空間 ( 由度 =3) 1 個の式で拘束 3-1= の 由度は 個の式で拘束 3-=1 線 の 由度は 1 t μ: 平均 m: 標本平均 u: 標本の不偏標準偏差 n: 標本サイズ ( サンプル数 ) 次式を課すと 平 直線になるが 般の式を課すと 曲 曲線になる 例 x +y +z =1 を課すと 球 になるこの場合でも 由度は同じく ( は 線は 1) と数える 由度 = 由度 =1 013/1/1 Nara University of Education /1/1 Nara University of Education 136

35 統計での 由度はなぜ n-1 か? t 分布の定義 サンプル数が n 集団 μ σ n サンプル 変数は x 1,x,x n の n 個 これらに対して 標本の平均値 m=(x 1 +x + +x n )/n という条件 ( 個の式 ) を課すと n 個の変数を拘束することになる x 1 x n が 平均 μ 標準偏差 σ の正規分布に従う独 な確率変数であるとする 標本平均を m とし 標本 ( 不偏 ) 標準偏差を u とすると このとき m t u / n 変数は以下の確率密度関数に従う f ( t) (( 1) / ) (1 ( / ) t ( 1)/ n-1=ν( ニュー )=df=degree of freedom ( 由度 ) / ) f(t) 故に サンプル数 n のとき n-1 が 由度となる これを df (Degree of Freedom) と表す 013/1/1 Nara University of Education 137 この式のどこにも 標準偏差 σ は現れないことが重要 ( ただし ν = n 1 Γ はガンマ関数 *(Appendix)) これは ゴセットによって された ここで t の従う分布を t 分布 ( またはスチューデント分布 ) と呼ぶ ν ( ニュー ) は 由度と呼ばれる この分布は ν によるが もとの正規分布の 数である μ や σ にはよらない この性質から 標本値から 集団の平均値を統計的に推定する区間推定や 集団の平均値の仮説検定に利 できる 013/1/1 Nara University of Education 138 t t 分布の形の基本は 1 (1 t ) t 分布と信頼区間 f ( t) (( 1) / ) (1 ( / ) t 恐ろしそうな関数だが ν=1なら 1 f ( t) c1 (1 t ) ν= なら f ( t) c 定数 c 1,c は 積 =1 にするためにある 1 t (1 ) 3 / ) ( 1)/ (1 t 1 (1 t ) ) f(t) Γ( ガンマ ) 関数 μ? σ? 標本平均 =m 標本不偏標準偏差 =u t=(m-μ)/(u/ n)) n=3 個のサンプル ν=df: 由度 =4-1= n=0 個のサンプル ν=df: 由度 =0-1=19 微妙に形が異なる 頂点の さ 裾の広がりかた 信頼区間が df によって異なる 95% 信頼区間 95% 信頼区間 df= の t 分布 df=19 の t 分布 (Added Later) 正規分布に べて 裾が広い 区間推定 ( 信頼区間 ) は広くなる サンプルが少ないほど信頼区間は広がる ( 当然 ) df=19 の時 95% 信頼区間は +/-(.09) これは正規分布の +/-(1.96) にごく近い df 0 ではほとんど正規分布と形は変わらない 013/1/1 Nara University of Education /1/1 Nara University of Education 140

36 t 分布表の t 分布表の - 有意 準 ( 確率 ) 有意 準 由度 (df) 由度で少ないほど裾が広がっている 由度 (df) 由度 = 数 でほぼ正規分布に 致する df=13 なら t=.16 この右の 積は全体の.5% 両側で考えると 5% この右の 積は全体の.5% 両側で考えると 5% Slide-144 由度と有意 準と両側か 側かを決めて 表を る df=1 なら t=1.706 由度 で正規分布と同じになる 95%: +/ %: +/ /1/1 Nara University of Education /1/1 Nara University of Education 14 t 分布表を作ってみる ( では計算できない ) Excel で t の値を求める関数 TINV 両側検定信頼 95% 信頼 99% 自由度確率 確率 df , 正規分布 Excel 関数 TINV( 確率, 自由度 ) によって空欄を計算しなさい Excel 関数 TINV( 確率, 由度 ) 両側確率が 与えられた 確率 になる t の値を計算する 確率 から t の値 なので (T-Inverse( 逆 )) という 課題 : いくつかの値をプリントに書き込みなさい 由度 で正規分布の値 1.96(95%) と.58(99%) になる -t 95%/99% t 両側確率 =5%/1% 由度と有意 準 p( 両側 ) を与えて t 分布表の値を求める tinv(p, 由度 ) t-inverse(t の逆関数 : と読む ) p df tinv(p,df) /1/1 Nara University of Education /1/1 Nara University of Education 144

37 t 分布表の例題 -1 量の答案から 9 枚の答案だけを採点した 集団の平均を信頼度 95% で推定しなさい ( 平均の信頼度 95% の信頼区間を求めなさい という い をする ) 集団の σ がわからない場合の区間推定の 較 Slide-11を思い出す 集団から4 個のサンプルを得た 平均の99% 信頼区間を計算しなさい 集団は正規分布を仮定するが 集団の標準偏差は不明 サンプル数は 30 以下なので t 分布を いる No.1 38 No. 44 No.3 70 No.4 53 No.5 50 No.6 34 No.7 51 No.8 49 No.9 58 平均 不偏 SD 標本平均 m=49.67 標本不偏標準偏差 u=10.67 t 分布表で 由度 df=9-1=8 両側有意 準 0.05のところを lookupすると t=.306 である 信頼度 (1-0.05=95%) の信頼区間は 49.67(+-).306*10.67/ 9 =49.67(+/-)8.0 ie <= μ <= 57.9 信頼度 99%(p=0.01) なら どうなるか? t= となるから μ=49.67(+/-) [ ] m t u/ n / u m/ n No X 平均 43.1 標準偏差 (s) 7.09 不偏標準偏差 (u) 7.4 1) 標準偏差 σ= 標本標準偏差 s=7.03 と推定する 正規分布と なして 99% 区間は 43. (+/-) / 4 = 43. (+/-)3.70 ) 標準偏差 σ= 標本不偏標準偏差 u=7.4 と推定する 上と同様に 43.(+/-) / 4= (+/-) ) df=3 の t 分布表から 0.01 を つけると t= (+/-).807 u/ 4 43.(+/-) / 4= (+/-) 4.14 統計的に信頼度の い 法を いる = 範囲は広くなる = より安全ではある m t u / n m t u / n 013/1/1 Nara University of Education /1/1 Nara University of Education 146 t 分布の例題 -1 t 分布の例題 - ある製品から標本 10 個を無作為抽出したところ, 重さの標本平均は 148.5(g), 標本 ( 不偏 ) 標準偏差は 3(g) であった. この製品の 平均の信頼度 95% の信頼区間を求めよ n=10 df=9 m=148.5(g) u=3(g) t 分布表で df=9 p=0.05 を引くと t= 信頼区間は m (+/-) / (+/-) (g) [ ] (g) m t u / n ある製品から標本 10 個を無作為抽出したところ, 重さの標本平均は148.5(g), 標本 ( 単純 ) 標準偏差は3(g) であった. (n-1ではなく nで割ったもの ) この製品の 平均の信頼度 95% の信頼区間を求めよ n=10 df=9 m=148.5(g) s=3(g) u=3 (4/3) t 分布表で df=9 p=0.05 を引くと t= 信頼区間は m (+/-) / (+/-) (g) [ ] (g) m t u / m t s / n n 1 s u u s ( x m) n ( x m) n 1 ( n 1) u ns i i n n 1 u なら / n s なら / (n-1) に注意 013/1/1 Nara University of Education /1/1 Nara University of Education 148

38 検定 (test testing) とは 集団の平均や分散 ( 標準偏差 ) について 仮説を てて サンプルデータを元に その仮説が成り つかどうか判断することを 検定 という 統計学的仮説検定 statistical hypothesis testing 仮説が正しいと仮定した上で 集団から 実際に観察されたサンプルが抽出される確率を ( 統計学から ) 求め その確率が 分に さければ ( 通常は 5% または 1%) 仮説は成り ちそうもない と判断できる ( 否定形であることに注意 ) 簡単な例 コインを 50 回投げたら 35 回も表が出た このコインはおかしい と いたい 1) コインは正常 (P=1/) だと仮定する ) そのとき 表が 35 回出る確率はいくらか? 正規分布として 平均 :5 回 σ= (np(1-p))= ) 95% の信頼度で 回数の範囲を求めると 5+-( 1.96*σ) 18 3 回 % ) 35 回はこの範囲外である 18 回 5 回 3 回 5) ということは 最初の仮定 (P=1/) がおかしい = コインに細 がされていると考えてよい絶対にそうだ ということではない (5% の危険性はある ) 35 回 013/1/1 Nara University of Education /1/1 Nara University of Education 150 葉の定義 帰無仮説の棄却域と採択域 ( 本 では ) 主張したいことを H1= 作業仮説 = 対 仮説 と う ex 新薬は効果がある 有意 準 5% 採択域 正規分布で両側検定の場合 ( わざと )H1 の反対の仮説を てる これを H0= 帰無仮説 と う ex 新薬の効果はない Null( 無 )Hypothesis( 仮説 ): 最終的に否定したい という気持ち 実験データでは 新薬を投与した 10 中 5 が治癒した ところが 仮説 H0 の元で ( 新薬に効果がないとすれば ) 10 中 5 治癒する確率は 5%( 有意 準 危険率 ) に満たないことが統計的に えるとする このとき 5% の有意 準 ( 危険率 ) で帰無仮説を棄却 (Reject) する という 棄却域 95% 1.96 z 有意 準 1% 棄却域.58 99% z 棄却域 1.96 採択域棄却域.58 棄却 : ききゃく とは 捨てること 採択しないこと 請求をしりぞけること 有意 準 5% とは 誤りをおかす危険率が 5% であること つまり 同様の調査 検定を 100 回 ったとして 5 回程度は得られた結論が誤っている可能性があるということ 有意 準には 5% あるいは 1% がよく いられる 013/1/1 Nara University of Education /1/1 Nara University of Education 15

39 簡単な例 -again コインを 50 回投げたら 35 回も表が出た このコインはおかしい と いたい 1) コインは正常 (P=1/) だと仮定する これが 帰無仮説 ) そのとき 表が 35 回出る確率はいくらか? 正規分布として 平均 :5 回 σ= (np(1-p))= ) 99% の信頼区間は 5+-(.58*σ) 回.58 4) 35 回はやはりこの範囲外 ( 棄却域 ) である故に 16 回 5 回 34 回 5) " 有意 準 1% でも コインは正常 という仮説は棄却される " と う表現をする 要するに このコインはおかしい ということ 013/1/1 Nara University of Education % 回 簡単な例 -again コインを 50 回投げたら 30 回表が出た このコインはおかしい = 対 仮説 と えるか? 1) コインは正常 (P=1/) だと仮定する ( 帰無仮説 ) ) そのとき 表が出る確率の分布を理論的に求めると正規分布として 平均 :5 回 σ= (np(1-p))= ) 95% の信頼度で 回数の範囲を求めると *σ 18 3 回 ) 30 回はこの範囲内 ( 採択域 ) である 18 回 5 回 3 回 5) したがって 帰無仮説 ( コインが正常であるということ ) は棄却 = 否定できない ( これ以上に強い主張はしていないことに注意 ) 013/1/1 Nara University of Education % 採択域 30 回 棄却域 例題 サイコロを 600 回投げて 1 の が 90 回出た. 有意 準 5% として, このサイコロが正しく作られているかどうか判断せよ. t 分布表 両側確率 95% 99% 両側確率 95% 99% 正しいサイコロとは どの が出るか p=1/6 であること 帰無仮説 1 の が出る確率は 項分布では B(n=600,p=1/6) であるが n が きいので N( 平均 =np=100,σ =np(1-p)=9.13 ) の正規分布としてよい (Slide-131) 由度 有意 準 5%(95% 区間推定範囲 ) では 1の が出る回数の範囲は 100 (+/-) = 100(+/-) 回 90 回はこの範囲か? 範囲の外 ( 棄却域 ) なら 有意 準 5% で " サイコロは正しい " を棄却できる 範囲内 ( 採択域 ) なら 有意 準 5% では " サイコロは正しい " を棄却できない と う結論になる ( どちらかに をつけなさい ) 013/1/1 Nara University of Education /1/1 Nara University of Education 156

40 医療統計 -8 01/11/ 繰り返しになるが 統計学的仮説検定 statistical hypothesis testing 集団の性質について 仮説を てて サンプルデータを元に その仮説が成り つかどうか判断することを 検定 という 仮説が正しいと仮定した上で 集団から 実際に観察されたサンプルが抽出される確率を求め その値により判断を う その確率が 分に さければ ( 般に 1% または 5%) 仮説は成り ちそうもない と判断できる ( 否定形 = 棄却であることに注意 ) 葉の定義 ( 本 では ) 主張したいことを H1= 作業仮説 = 対 仮説 と う ex 新薬は旧薬より効果がある ( わざと )H1 の反対の仮説を てる これを H0= 帰無仮説 と う ex 新薬と旧薬の効果は同じ Null( 無 )Hypothesis( 仮説 ): 最終的に否定したい という気持ち 実験データでは 新薬投与グループと 旧薬投与グループの ( 何らかの ) 数値データの平均値が ある値だけ異なっていた ところが 仮説 H0 の元で ( 新薬と旧薬の効果に差がなければ ) これだけの異なりが起こる確率は 5% 以下であることが統計学的に ( 統計モデルを いて ) いえるとする このとき 5% の有意 準 ( 危険率 ) で帰無仮説 H0 を棄却 (Reject) する という ( 通常は有意 準を 5% または 1% とする ) 013/1/1 Nara University of Education /1/1 Nara University of Education 158 仮説検定の 順 帰無仮説のパターンはどれか?( 問題によってパターンはきまっている ) いいたいこと ( 対 仮説 ) 帰無仮説例 平均に差がある 平均に差がない A 薬はB 薬より効果がある 相関がある 相関がない Aの摂取とBの発症に相関あり etc 有意 準はとりあえず5% とする 帰無仮説を仮定して 統計モデル ( 正規分布とかt 分布 ) の 法に従って統計量を (zとか xとか t ) を計算する 例えば Zとする 有意 準と統計モデルで決まる値を表から読み取る Z' とする z >= z' なら 応 有意 準 5% で帰無仮説を棄却 が結論棄却域 さらに有意 準 1% でもこうなるか? 有意 準 1% でも帰無仮説を棄却 と結論 zʼ z < z' なら 有意 準 5% で帰無仮説は棄却できない が結論 有意 準 5% で帰無仮説を採択する と ってもよいこの場合 1% で調べる必要はない ( 棄却されるはずがないから ) 棄却域 結論の述べ H0: 帰無仮説 = A 群と B 群の平均に差はない とする (1) 有意 準 1% で 帰無仮説は棄却できる 有意 準 1% で A 群と B 群の平均には差がある () 有意 準 5% で 帰無仮説は棄却できる 有意 準 5% で A 群と B 群の平均には差がある (3) 有意 準 5% で 帰無仮説は棄却できない 有意 準 5% で A 群と B 群の平均に差があるとはいえない 95% 99% 正規分布 /t 分布 (3) 採択域 () 5% 棄却域 (1) 1% 棄却域 013/1/1 Nara University of Education /1/1 Nara University of Education 160

41 100 回に 5 回は間違うけどしょうがない 結論は絶対ではない 集団の状態帰無仮説を棄却しない帰無仮説を棄却する 本当は帰無仮説が正しい場合 正しい判定 1-β 誤り ( 第 1 種の過誤 ) α 本当は対 仮説が正しい場合 誤り ( 第 種の過誤 ) β 正しい判定 1-α 本当は A 薬と B 薬に差はないのに 差がある と ってしまうこと 第 1 種の過誤 (Type-1-error という :α) 本当は差があるのに 差があるとは えない といってしまうこと 第 種の過誤 (Type--error という :β) 有意 準 (α) とは 第 1 種の過誤をおかす確率 ( 危険率 ) と定義されている (1-β) のことを検定 ( 検出 ) という 検定 法の種類 とりあえず 葉だけを記しておきます パラメトリックな検定 法と t 検定 F 検定 分散分析 ノン パラメトリックな検定 法があるカイ (χ) 乗検定 Parametric = Parameter パラメータ = 数 の Parameter = 特徴を す値 (ex 平均値 分散 標準偏差 ) このような値を仮定した検定をパラメトリック検定という ( 般に正規分布や分散が等しいことを仮定する ) 1) 分布が不明の場合 ) そういう値が存在しない場合 ( 定性的データ ) などの場合ノン パラメトリック検定を う すごくよかった よかった 普通 よくない ぜんぜんよくない まず パラメトリックな検定から始めます 013/1/1 Nara University of Education /1/1 Nara University of Education 16 平均値の検定 平均値の検定 ( 例 -1: 正規分布の場合 ) ABC-Farm の出荷タマネギは 1 個 00g 標準偏差の 10g であるとする 集団 μ??? 標本 m ここに 100 個のタマネギがあって 平均 197g であった このタマネギは ABC-Farm の出荷基準に合っていると えるか? (ABC-Farm のものだといってよいか?) 有意 準 5% で検定しなさい 集団 ( 平均 =μ) がある そこから選んだかどうか分からないが 標本が n ヶあり ( 平均 =m) である この標本は 集団から抽出されたものかどうか ( 集団と同じ性質を持つものと ) 判定できるか? 標本の平均 =m が 集団の平均 =μ とかけ離れていれば 怪しい 集団と同じ性質を持つ を 棄却 できる 集団 = 基準品 μ=00g σ=10g 1) この 集団から取り出したものか? 否か? ) 帰無仮説 H0 = この 集団からとりだしたものである とする n=100 m=197g σ'=σ/ n 3) そうであれば μ=00g σ=10g の 集団から得られた 100 サンプルの 95% 区間推定範囲は (+/-)1.96σ' =(+/-) / 100 =(+/-)1.96g から 00(+/-)1.96 [198 0]g 197g は範囲外 = 棄却域になって ならば どの程度離れていたら そういえるのか? 013/1/1 Nara University of Education 163 4) 結論 : このサンプルは 5% 有意 準で 基準に合っている が棄却される 有意 準で 5% で 基準を満たしていない と える 013/1/1 Nara University of Education 164

42 平均値の検定例 -1- 続 前 Slide の問題を有意 準 1% で検定しなさい 棄却される? されない? 平均値の検定 ( 例 -:t 分布の場合 ) 通常の 事 (A) を与えたマウス ( 集団 ) は 4 週間で 4g になるとする 特別の 事 (B) を与えた 10 匹は以下のようになった ( 平均 7g) この 事 (B) に体重増加の効果があったと えるであろうか? 平均 4g 1) 有意 準 (α)5% で ABC-Farm 基準を満たしている は棄却できた 普通の? 事 (A) ) 有意 準 1% で ABC-Farm 基準を満たしている は棄却できる場合 α1% でも 基準を満たしている を棄却棄却できない場合 α1% では 基準を満たしている を棄却できない どちらですか? 特別の! 事 (B) 平均 7g No.1 9 No. 31 No.3 3 No.4 5 No.5 9 No.6 No.7 31 No.8 8 No.9 5 No.10 7 平均 7 不偏標準偏差 /1/1 Nara University of Education /1/1 Nara University of Education 166 平均値の検定 ( 例 -:t 分布の場合 - 続 ) 平均値の検定 ( 例 -:t 分布の場合 - 続 ) 帰無仮説 = A でも B でも平均は 4g になる とする B に増進効果はない ということと同じ 平均 4g の 集団から 10 匹を選んで平均が 7g になる確率はどの程度であろうか? という問題になる 標準偏差は不明 サンプル数 30 以下なので 由度 10-1= の t 分布を いると 95% 信頼区間 ( 有意 準 5%) の t の値は t 分布表から t'=.6 前問を有意 準 1% で判定しなさい t= t'= だから t は ( 棄却域?/ 採択域?) である 結論 平均 μ=4 標本平均 m=7 標本不偏標準偏差 u=3.16 n=10 から t=(7-4)/(3.16/ 10)= 3.00 t distribution m t u / n t>t' だから t は棄却域である故に B に効果がない は 5% 有意 準で棄却できる 効果があった と えた 013/1/1 Nara University of Education /1/1 Nara University of Education 168

43 平均値の検定の意味の補 率の検定 平均の差だけではなく u( 不偏標準偏差 ) が関係するということは No.1 9 No. 31 No.3 3 No.4 5 No.5 9 No.6 No.7 31 No.8 8 No.9 5 No.10 7 平均 7 不偏標準偏差 No.1 6 No. 6 No.3 6 No.4 6 No.5 6 No.6 5 No.7 5 No.8 5 No.9 5 No.10 5 平均 5.5 t=(7-4)/(3.16/ 10)= 3.00 > t'=.6 μ=4 の 集団から 無作為 にはこんなにバラツキの少ないデータが得られるはずがない! 激しく 棄却 される 不偏標準偏差 t=(5.5-4)/(0.57/ 10)= 9.00 >> t'=.6 率 =p? 集団の 率 p は こうであって欲しい / こうではないだろうか? と推定値を考える 標本での 率 R を調べた yes 集団の 率が仮定した値 p( 帰無仮説 ) であったとして n 個の標本での 率が R になる確率はどの程度であろうか? それが 極端に さければ 棄却域なら 仮定した 率 p は怪しい 棄却できる ということになる no 標本 率 =R 標本の 率 R は 正規分布に従うことが分かっているから (Slide-165) それを いて判定を う 013/1/1 Nara University of Education /1/1 Nara University of Education 170 率の検定 ( 例 ) 率の検定 ( 例 - 続 ) ある施策について 持率を調査したところ 40 中 4 賛成であった この施策は過半数の 持を得ている と考えてよいか? 有意 準 5% で検定しなさい H1: p>50% をいいたいので H0: P=50%=0.5 とする (p<=0.5 ではないか? そうだけど これでいいのだ ) p=0.5 を仮定するとサンプルの 率 R は平均 =p=0.5 n=40 σ= (p(1-p)/n) = 0.08 の正規分布になる (Slide-165) p=0.5 R=0.6 z=1.6 R=0.6 は z 変換すると Z=( )/σ =1.5 率 =p>50%? 013/1/1 Nara University of Education 171 yes 左 (Slide-114) と べて 棄却できない つまり 持は過半数以下 を棄却できない yes yes no R=4/40=0.6 95% 5% no 側 95% の棄却域 z=1.645 何を っているのか? 仮に 率 p が ジャスト 0.5 であったとすると R=0.6 に対応する z 値 (( )/σ) が 1.6 であり これは 側 5% の採択域である (H0: P=0.05 を棄却できない ) 率が0.5より さくなっていくと正規分布のグラフは左にずれていって zの値は きくなって いずれは棄却域に るが (0.6-p)/0.08 = から p=0.47 過半数ではない (P<0.5) という条件では 必ず棄却域に るということはいえない 従って 棄却 はできない 普通にいうと サンプルが 60% 賛成だからといって 集団の過半数が賛成とはいえない となる p<0.5 R=0.6 z=1.6 z= /1/1 Nara University of Education 17 95% 5%

44 率の検定 - 続 t 分布による検定練習 -1 では 400 中 40 賛成であった とすれば結論はどうなるか? 帰無仮説は p<=50% であるが p=50 として計算を う 以下のデータが得られた ( ダウンロード T-TEST-01.xls) 平均は 100 と ってよいであろうか? 検定しなさい ( 有意 準 5% で い 棄却されたら 1% でも う ) 平均 p=0.5 n=400 σ= (p(1-p)/n=0.05 の正規分布だから z=(r-p)/σ=4.0 (Slide-114) 側 95% の棄却域は Z'=1.645 側 99% の棄却域は Z'=.36 較して 有意 準 1% で帰無仮説は棄却される (p=0.5 で棄却されるのだから p<0.5 ならさらに起こりにくい = 棄却される ) 結論は : 有意 準 1% で 持率が半数以下である を棄却 過半数の 持を得ている といえる ( サンプル数が多くなった [40 400] ので σ が さくなり z 値が きくなって 棄却されるようになった ということ ) μ=100 N=5 標本 値 No.1 86 No. 93 No No.4 96 No.5 85 平均 (m) 標準偏差 (u) 自由度 (df) t 値 TINV(5%,df) TINV(1%,df) 帰無仮説は 平均 =100 である 結論を 章で いなさい これ以降単に 標準偏差 と った場合不偏標準偏差 u(n-1 で割る ) を指すこととする Excel の STDEV である 013/1/1 Nara University of Education /1/1 Nara University of Education 174 t 分布による検定練習 - t 分布表 圧降下剤 A と B を同じ対象に投与したデータ ( 最 圧 /mmhg) である ( ダウンロード T-TEST0.xls) B は A より最 圧を下げる効果があるといえるであろうか? 検定しなさい 両側確率 95% 99% 両側確率 95% 99% 最高血圧 (mmhg) 対象 A 投与 B 投与 A-B( 効果の差 ) No No No No No No No No No No 平均 (m) 標準偏差 (u) t 値 TINV(5%,df=9) TINV(1%,df=9) A-B の項 に着 し 帰無仮説は A-B の平均は =0 つまり 効果に差はない として検定を いなさい 検定の過程を し 結論を 章で いなさい 由度 013/1/1 Nara University of Education /1/1 Nara University of Education 176

45 おまけ で標準偏差を計算する 平均値 m を求め 偏差の 乗の和 =X として u= (X/n-1) 1) 偏差を計算して 乗するのは 倒 右の式を使えばデータの値の 乗の和を Y として u= ((Y-n m^)/(n-1) ) DATA 偏差 偏差 ^ DATA DATA^ DATA DATA DATA DATA DATA DATA DATA DATA 和 X 和 6084 平均 平均 標準偏差 標準偏差 u= (X/(n-1)) Y u= ((Y-n m^)/(n-1)) ( x m) i x i i i i x m x nm mx x nm m x m nm nm i i BLANK PAGE 013/1/1 Nara University of Education /1/1 Nara University of Education 178 BLANK PAGE BLANK PAGE 013/1/1 Nara University of Education /1/1 Nara University of Education 180

46 医療統計 -9 01/1/6 z 変数 t 変数の意味 前回の復習と確認 最高血圧 (mmhg) 対象 A 投与 B 投与 A-B( 効果の差 ) No No No No No No No No No No 平均 (m) 標準偏差 (u) t 値 TINV(5%,df=9) TINV(1%,df=9) m t? u / n m t? u / n t=-3.6 t=0 t 分布は左右対称だから どちらでもかまわないマイナスではなく 絶対値で考える t=3.6( -3.6 でも ) は 1% 棄却域に っている 結論 : 1% 有意 準で 効果に差がある 圧を下げる効果がある と ってよい t=3.6 t(1% 棄却域 )=3.5 σ が分かれば 正規分布 (z 変数 ) 分からなければ t 分布 (t 変数 ) 標準パターン平均 =0 σ=1( 正規分布の場合 ) 95% 99% の範囲が数値として決められる z 変数 t 変数への変換 z x x t u / n 様々な値の分布を 標準パターン に変換して 1 個の 分布表 を参照できるようにする 夫 (t 分布の場合は 由度毎に分布表があるが ) ( データをコンピュータ処理できる場合 必ずしも必要ではない ) 現実のデータの平均や分散は様々 013/1/1 Nara University of Education /1/1 Nara University of Education 18 t 分布の応 - 続 - 平均値の差の検定 つの 集団の平均の差を検定する (A) 学校から 10 (B) 学校から 0 選んで を測った 各標本の平均値が異なるからと って A B 学校全体 ( 集団 ) の平均値も異なると えるだろうか? 対応のない検定 (A) と (B) はお互いに無関係な標本 10 に従来の降圧剤を飲んでもらって 圧を測った (A) 少し時間をおき 同じ10 に新開発の降圧剤を飲んでもらって 圧を測った (B) 各平均値の差から 新開発降圧剤の効果を結論できるであろうか? 対応のある検定 (A) と (B) は同じ標本 = 被験者に対するデータ 対応のある場合と無い場合で検定の 法が異なる A 学校 B 学校 A 君 150cm あ君 145 B 145 い 170 C 165 う D え 対応がない場合 従来薬 新薬 差 Aさん 133mmHg 131 B C 対応がある場合 A B つの 集団について 対応があるとき 対応があるときのt 検定 前回の例 Case-1) Slide-175 対応がないとき 平均の差 F 検定 ( 等分散の検定 ) 分散が等しい ( と なせる ) 時分散が等しくない ( と なせる ) とき A 集団 B 集団 A 集団 B 集団 分散が等しいとき 平均の差 分散が等しいときの t 検定 分散が異なるときの t 検定 (Welch 法 ) 分散が等しくないとき Case-) Case-3) 標は平均の差が 有意であるか偶然か? の検定 013/1/1 Nara University of Education /1/1 Nara University of Education 184

47 分散が等しいか? の検定 ( 等分散の検定 ) F 検定 ( 等分散の検定 ) 集団 A 集団 B μ A? σ A? μ B? σ B? μ A? σ A? μ B? σ B? n A m A u A n B m B u B 異なる 集団 A,B の分散 ( 標準偏差 ) が等しいか否かを 標本の値から判定すること 等分散の検定 という 法として 後述の F 検定 を う とりあえずは 分散は等しいと仮定して ( 前 Slide の Case-) うこともある サイズ :n A 平均 :m A 不偏標準偏差 :u A u A >u B とする (u の きい を A と思えばよい ) F 0 =u A /u B という変数は 統計学によれば F 分布という分布に従い 集団の分散 (σ A と σ B ) が等しいか否かの検定は F 分布表 で うことができる n B m B u B 013/1/1 Nara University of Education /1/1 Nara University of Education 186 F 分布 F 分布表 -1 Fisher の F 分布 左右対称ではない df A =df B =10 のとき df A =( 分 ) 標本の 由度 ( サイズ -1) によって 形が変わる F α α=5% 棄却域 分 の 由度 df A =n A -1 分 の 由度 df B =n B -1 として (u B >u A なら 分 と分 を れ替える ) Ronald Aylmer Fisher 有意 準 5% の棄却域の開始位置 F α の表を次スライドに す df B =( 分 ) 013/1/1 Nara University of Education /1/1 Nara University of Education 188

48 F 分布表 - df A =( 分 ) F 検定の例 A 小学校 B 小学校 サイズ 自由度 14 1 平均 不偏分散 標準偏差 帰無仮説 : A B の 集団の分散は等しい 有意 準 5% u A =35.8 < u B =38.58 なので F 0 =38.58/35.6 ( きい を分 にする ) =1.094 分 の 由度 =1 分 の 由度 =14 で F 分布表を ると F α =.5 位 ( 由度 1 と 15 の間だから ) F 0 =1.094 は採択域 分散は等しい を棄却できない 等しいものとしてかまわない df B =( 分 ) F α α=5% 棄却域 /1/1 Nara University of Education /1/1 Nara University of Education 190 F 検定 - 例題 以下の つのグループの 集団の分散に差があるといえるだろうか? 5% 有意 準で F 検定を いなさい 帰無仮説は 各グループの 集団の分散に差はない Group-A Group-B サイズ 6 4 自由度 5 3 平均 不偏分散 F0= 各グループの分散 u を求め きい を分 さい を分 にした値 F 0 = 分 の 由度は? 分 の 由度は? F 分布表から 5% 有意 準の基準値 F α = 以上から 結論を述べなさい 差の検定 ( 対応のない場合 -Case-) F 検定によって 両グループの分散に差はないものとしてよいことが分かった (Slide-189) ので いよいよ A 小学校 B 小学校 サイズ 自由度 14 1 平均 不偏分散 標準偏差 両校の 集団の平均に差があるか否かの検定を いたい 標本のサイズは n A +n B =8 平均は 個 (m A m B ) あるので 由度は n A +n B -=6 である 013/1/1 Nara University of Education /1/1 Nara University of Education 19

49 Case- 等分散 ) での確率モデル Case-) での確率モデル - 続 つの 集団 (A,B) の平均は異なるかもしれないが分散はひとしいものとする グループ A から n A 個グループ B から n B 個の標本を採ると以下の t 0 は 由度 n A +n B - の t 分布になることが統計学から える t 0 ( n A μ A? σ? A n A ( サイズ ) m A ( 平均 ) v A =u A ( 分散 ) B μ B? σ? n B m B v B =u B ( m AmB ) ( A B ) 1) VA ( nb 1) VB na nb ( n n ) n n 帰無仮説として つの 集団の平均は等しい とする場合は μ A ー μ B =0 とする A B 実際に t 0 を計算する A 小学校 B 小学校 サイズ 自由度 14 1 平均 不偏分散 標準偏差 t ( ) 0 (15 1) 35.6 (131) (15 13 ) 1513 由度 =6 の t 分布表をみて 有意 準 5% では t=.06 有意 準 1% では t=.78 t0=1.44 はどちらよりも さいから帰無仮説 ( 差がない ) は棄却できない 結論有意 準 5% で A と B の平均に差があるとは えない t 0 t 棄却域 013/1/1 Nara University of Education /1/1 Nara University of Education 194 練習問題 次の 群のデータについて 対応のない t 検定 (Case-/3) を い 集団の平均値に差があるか否かについて述べなさい 標本サイズ 平均値 標準偏差 (u) A 群 B 群 ) 等分散 を確かめるためにF 検定を う uの きい を分 さい を分 とする ( どっちが分? ) F 0 の値はいくつ? 分 の 由度 = 分 の 由度 = でF 分布表 (α= 有意 準 5%) を て F α はいくつ?( ぴったりの項がなければ 番近いところ ) ( 位 ) この つを べて F 0 <F α なら 等分散 としてよい : 確認 練習問題 - 続き ) つの 集団に対する t 検定を う slide-193 サイズ平均値 u V=u A 群 B 群 帰無仮説は 集団の平均に差がない (μ A ー μ B )=0 t 0 を計算しなさい ( ご苦労様です )? t 分布の 由度はいくつ? 5% 棄却域のt 値は? 1% 棄却域のt 値は? ( m AmB ) ( A B ) 結論は? t0 ( na 1) VA ( nb 1) VB na nb ( n n ) n n A B A B 013/1/1 Nara University of Education /1/1 Nara University of Education 196

50 医療統計 /1/13 Case-3 異分散 ) での確率モデル A B 群の平均値の差の検定の Case-3 対応があるとき 対応があるときのt 検定 前前回の例 Case-1) Slide-175 対応がないとき F 検定 ( 等分散の検定 ) 分散が等しい ( と なせる ) とき = 等分散分散が等しくない ( と なせる ) とき = 異分散 分散が等しいときの t 検定 分散が異なるときの t 検定 (Welch 法 ) 前回の例 Case-) Slide-19 今回 Case-3) F 検定で A B 群の分散が等しいとは なせない と判断される場合 ( 異分散 ) Welch( ウエルチ ) の t 検定 を う BIOMETRIKA1947 分散の異なる 集団に対する Student 問題 (t 分布 ) の 般化について つの 集団 (A,B) の平均は異なり F 検定によれば分散も異なる ( 同じとは えない ) 場合 Case ) とはここが異なる グループ A から n A 個グループ B から n B 個の標本を採ると 次ページの t 0 は 由度 df の t 分布になることが統計学から える (Welch 1947) μ A? σ A? n A ( サイズ ) m A ( 平均 ) v A =u A ( 分散 ) 帰無仮説として つの 集団の平均は等しい とする場合は μ A ー μ B =0 とする μ B? σ B? n B m B v B =u B 013/1/1 Nara University of Education /1/1 Nara University of Education 198 Welch の t 検定 Welch の t 検定の計算練習 -1 分散が等しいとは なせない つの群の標本があるとする 標本サイズ平均値分散 (V=u ) A 群 n A m A u A =V A 帰無仮説 : 集団の平均 μa と μb は等しい μ A μb 標本サイズ平均値分散 (V=u ) A 群 n A =100 m A =14 9=3 B 群 n B =50 m B =140 4= Slide-194:A B 学校の データ 但しサイズが きく 分散が さい B 群 n B m B u B =V B 統計学的に 以下の定理がある (B.L. Welch 1947) 変数 t 0 は 由度 df の t 分布に従う t 0 m V n A A A m B V n B B df V n n A V A V na n A A B B V n 1 n B B B 1 A 集団 由度が na+nb- (Case-) ではなく B 集団 半端な数になることが特徴 1) 帰無仮説 :A,B 学校の平均 には差がない ) F 検定を い 等分散 か否かを確かめる u の きい を分 さい を分 とする F 0 の値はいくつ? 分 の 由度 = 分 の 由度 = で F 分布表 (α= 有意 準 5%) を て F α はいくつ?( ぴったりの項がなければ 番近いところ ) この つを べて F 0 <F α なら 等分散 Case- の t 検定? そうでなければ 異分散 としてよい Welch の t 検定? 確認 013/1/1 Nara University of Education /1/1 Nara University of Education 00

51 Welch の t 検定の計算練習 - ) Welch の t 検定を うために以下の t 0 と df( 由度 ) を計算する ma mb t0? VA VB n n A B df V A na V A VB na nb 1 n V B nb 1? t 0 = 由度 df= 整数にならないが 番近い整数 = で t 検定を う ( この df は とかけ離れた値にはならないことに注意 ) n A B 有意 準 5% 由度 の t 分布表から t α = 約 ( 体 ) 結論 : 14cm と 140cm は近いのに なぜこういう結論になるのか? 考えてみる 013/1/1 Nara University of Education 01 Break 013/1/1 Nara University of Education 0 ノンパラメトリック検定 集団が正規分布していることを仮定できない場合 連続的な変数でない場合 ( 液型 順位データ 選択肢 ) 変おいしいおいしいまあまあまずいとてもまずい A 飯店 B 堂 順位和検定 符号付順位検定 順位相関検定 etc χ( カイ ) 乗検定 χ( カイ ) 乗検定の例 -1 χ 乗検定 YE/NO( 選択肢 ) データの検定 暴露あり 暴露なし 計 疾患発 あり a b a+b 疾患発 なし c d c+d 計 a+c b+d n 観測された値 ( 観測値 ) 的 : 暴露因 ( ウイルス 薬品 放射線など ) と疾病発 に関連があるか? を検定したい 帰無仮説 : 関連がない とする 暴露あり暴露なし計 疾患発 あり (a+b)(a+c)/n (a+b)(b+d)/n a+b 疾患発 なし (c+d)(a+c)/n (c+d)(b+d)/n c+d 計 a+c b+d n 関連がなければ こうなると期待される ( 単なる 例配分 ) 値 ( 期待値 ) 各マス での観測値と期待値の差の 乗 (χ 乗 ) の和を計算し 基準値 ( 有意 準できまる ) より きければ 帰無仮説を棄却 関連がある といってよい 013/1/1 Nara University of Education /1/1 Nara University of Education 04

52 観測値と期待値 ( 例えば ) 観測された値 ( 観測値 ) コーヒー 常飲者 コーヒー常飲者 計 不整脈 覚あり 不整脈 覚なし 計 646(81%) 147(19%) 793(100%) χ 乗検定の意味と 順 -1) 項 毎の観測値のデータと ( 帰無仮説を仮定した ) 期待値があるとする 項 1 項 項 n 観測値 (Obs) O 1 O O n 期待値 (Exp) E 1 E E n コーヒーと不整脈 覚は関係ないとする ( 帰無仮説 ) コーヒー 常飲者 コーヒー常飲者 計 不整脈 覚あり 不整脈 覚なし 計 646(81%) 147(19%) 793(100%) 35 と 558 を 81% と 19% に 例配分するとこうなる 期待値 これから どのような 順で検定するか? ( 次週に説明します ) 観測値と期待値の差の 乗を期待値で割ったものの総和をカイ 乗という ( O1 E1) ( O E) ( On En) E 1 E カイ 乗 χ は これで 個の変数です E n 013/1/1 Nara University of Education /1/1 Nara University of Education 06 χ 乗検定の意味と 順 -) 由度 統計学によれば カイ 乗の値は 由度 df によって定まるカイ 乗分布に従う χ 乗検定の意味と 順 -3) カイ 乗分布はこういう形をしている 1) 1 次元パターン 項 1 項 項 n 計観測値 (Obs) O 1 O O n N 由度 乗の和なのでプラス側しかない 変数 =n 個 合計の式 O1+O+ +On=N が 1 個だから 由度 df=n-1 ) 次元パターン 要因あり 要因なし 計 現象あり a b a+b 現象なし c d c+d 計 a+c b+d N 変数 = 個 3 つの合計が決まれば 他は決まるから 由度 df=4-3=1 般に n m 列の項 の 由度は df=(n-1) (m-1) となる Z= χ Slide-136 由度 df とは 変数の個数 -( 必要最 限の ) 条件式の数 013/1/1 Nara University of Education /1/1 Nara University of Education 08

53 χ 乗検定の意味と 順 -4) 棄却域 χ 乗検定例 (1 次元パターン ) カイ 乗分布表 p( 有意水準 ) 自由度 EXCEL 関数 CHIINV( 確率 ( 有意 準 ) 由度 ) で計算できる 課題 : p=0.01 の分布表の を Excel で計算して埋めなさい 本 の ABO 式 液型の分布はおよそ A 型 40%,B 型 0%,AB 型 10%,O 型 30% である ある村で献 に応じた者のうち 100 の 液型は次の表のとおりであった この村の住 の 液型分布は, 本 全体の 液型分布とほぼ同じと なしてよいか? A B AB O 計 観測値 (Obs) 期待値 (Exp) 帰無仮説 : この村の分布は 本 全体と同じとする 期待値が計算される 由度 =4 変数 -1 合計 =3 A B AB O 計 観測値 (OBS) 期待値 (EXP) (O-E)^/E χ =.408 Slide-09 のカイ 乗分布表 α=5% 由度 =3 を ると χ α=7.81 従って 有意 準 5% で帰無仮説は棄却できない Observed Expected カイ 乗分布 % 棄却域 013/1/1 Nara University of Education /1/1 Nara University of Education 10 χ 乗検定練習 (1 次元パターン ) サイコロを 10 回振ったら 以下のような の出 であった このさいころは 正しい であろうか? ( 正しい とはすべての が 1/6 の確率で出ることであるとする ) 帰無仮説 : このサイコロは 正しく 作られている 目 計 観測値 (O) 期待値 (E) (O-E)^/E 1) 正しい サイコロを10 回振った時の期待値は? すべて ) (o-e) /Eを計算し すべてを加えて χ を求める BLANK PAGE 3) カイ 乗分布表から 由度 df= () 有意 準 5% の χ α は? 4) 棄却域か否か? 5) 結論 : 6) の出 が 下のようであったら χ の値はいくら? 7) この場合の結論は? 目 計 観測値 (O) 期待値 (E) (O-E)^/E 013/1/1 Nara University of Education /1/1 Nara University of Education 1

54 医療統計 /1/0 カイ 乗検定 ( 次元パターン ) 今 はノンパラメトリック検定の中のカイ 乗分布 ( 次元パターン ) による検定を う 1) 復習 : 先週の 1 次元パターン ある項 の観測値が 何らかの基準となる 率から計算される値 ( 期待値あるいは理論値 ) と整合しているかを判定する = 適合度の判定 ともいう 項 1 項 項 n 計 観測値 (Obs) O 1 O O n N 期待値 (Exp) E 1 E E n N (O-E)^/E χ 由度 N-1 以下の χ によって カイ 乗分布の検定を う ( O1 E1) ( O E) ( n n) E1 E En O E ) 今回は 次元パターン ( クロス集計表 ) 例えば 年代という要因と 映画館によく くという現象には相関があるか? 表側 ( ひょうそく ) を 説明変数 表頭 ( ひょうとう ) を 的変数 ということもあるまた 縦を Factor( 要因 ) 横を Outcome( 結果 ) と呼べる場合もある 縦の項 と 横の項 に何らかの関連があるのか否かを検定することを 独 性の検定 という ( 独 とは 関係がない という意味 ) 帰無仮説としては縦と横の項 は独 つまり 関連がないと仮定して現実のデータの実現確率を統計学的に検定する ということ 表側 表頭 年齢 毎週 1, 回 年数回 かない 計 10 代 代 代 3 映画をどのくらい に きますか? 013/1/1 Nara University of Education /1/1 Nara University of Education 14 カイ 乗検定 ( 次元パターン ) 例 -1 カイ 乗検定 ( 次元パターン ) 例 -1 続 例として O( 観測データ ) 肺癌発症 発症 計 喫煙 喫煙 計 % 36% 帰無仮説 ( 喫煙と発症は無関係 ) E( 期待値 ) 肺癌発症 発症 計 喫煙 喫煙 計 (O-E)^/E 肺癌発症 発症 計 喫煙 喫煙 計 検定は 次のスライドへ 全体としての発症率は 3/50=0.64 これが 喫煙 / 喫煙と無関係なら ( これが帰無仮説 ) 喫煙者の発症数は 7*0.64=17.8 喫煙者の発症数も 3*0.64=14.7 となることが期待される (64% と 36% に 例配分する ということ ) 観測データ (O) と 期待値 (E) の対応するマス について (O-E)^/E を計算し すべての和を取ったものが χ である (0.573) 前スライドからこのデータについて χ =0.573 由度 (df)=(-1)*(-1)=1 カイ 乗分布表 Slide-09 p( 有意水準 ) 自由度 次元パターンの 由度とは 項 A 項 B 計 項 1 a b a+b 項 c d 計 a+c N 変数 (a,b,c,d)= 個 3 つの合計 (a+b,a+c,n) が決まれば 他 (c+d,b+d) は決まるから 由度 df=4-3=1 般に n m 列の項 の 由度は df=(n-1) (m-1) となる Slide-136 由度 df とは 変数の個数 -( 必要最 限の ) 条件式の数 カイ 乗分布 カイ 乗分布表から df=1 有意 準 5% では χ α=3.84 > 故に 棄却できない結論 : 喫煙と肺癌の発症には関連がない は5% の有意 準で棄却できない (* このデータからは こういう結論になるということです ) 5% 棄却域 013/1/1 Nara University of Education /1/1 Nara University of Education 16

55 カイ 乗検定課題 -1 カイ 乗検定課題 -1 続 Slide-05 のデータを書き換えて以下のように る では 対応するデータについて χ を計算してください 測定データ 不整脈自覚あり 不整脈自覚なし 計 コーヒー常飲者 コーヒー非常飲者 計 35 % 558 % 793 帰無仮説 : コーヒーの常飲と不整脈の 覚有無とは無関係 とする このとき サンプル全体として 覚あり の割合は % 覚なし は % これを いて コーヒー常飲者と 常飲者の 覚あり / なし についての 期待される 値を決めてください ( コーヒーの常飲の有無と 不整脈 覚の有無に関係がないとすれば (= 帰無仮説 ) 単に 793 中 35 が不整脈 覚あり 558 に 覚なしということである そうであれば コーヒーの常飲とは無関係に 不整脈の 覚あり / なしの 数が決まるはずである これを 帰無仮説の元での期待値 という ) 測定データ 不整脈自覚あり 不整脈自覚なし 計 コーヒー常飲者? %? % 147 コーヒー非常飲者? %? % 646 計 35 % 558 % 793 O( 実験データ ) 自覚あり 自覚なし 計 Coffee 常飲 Coffee 非常飲 (O-E)^/E 自覚あり 自覚なし 計 計 Coffee 常飲 Coffee 非常飲 E( 期待値 ) 自覚あり 自覚なし 計 計 χ Coffee 常飲 Coffee 非常飲計 χ は = 由度は = 有意 準 5% でカイ 乗分布表を ると χ α= 有意 準 1% では χ α= 結論 : 013/1/1 Nara University of Education /1/1 Nara University of Education 18 カイ 乗検定課題 - カイ 乗の計算 ( の公式 ) 3つの地域から無作為にサンプル調査をした年齢別 構成が以下のようであった これらの地域の年齢別 構成に有意な差があると えるであろうか? 検定しなさい 帰無仮説 : 3つ地域の年齢別 構成に有意な差はない (O) 観測度数 計 A 市 B 市 C 市 計 (E) 期待値 計 A 市 384 B 市 36 C 市 366 計 (O-E)^/E 計 A 市 B 市 C 市計 検定の過程と結論 χ = df= χ(5%)= χ(1%)= 結論 : 構成に有意な差がある? ない? n m の表からカイ 乗の値 χ を求める 順は理解できたと思います この 順を理解した上で の場合の以下の公式も有 です ( 導出はがんばればできます ) 項 A 項 B 計 項 1 a b a+b 項 c d c+d 計 a+c b+d N(a+b+c+d) ( a d bc) ( a b c d) ( a b) ( c d) ( a c) ( b d) この式を れば 対称性から 表の縦横 ( 表頭 表側 ) を れ替えてもカイ 乗の値は同じであることが分かります (c b としても 値は変わりません ) 計算例として (Slide-15 のデータで ) O( 観測データ ) 肺癌発症 発症 計 喫煙 喫煙 計 ( ) Slide-15 の値と 致します 013/1/1 Nara University of Education /1/1 Nara University of Education 0

56 カイ 乗検定課題 -3 カイ 乗検定 Excel 関数 (CHITEST) 運動の量の多少と冠動脈疾患の有無に関して 下のデータについてカイ 乗検定を いなさい 実測データ 冠動脈疾患あり 冠動脈疾患なし 計 運動量少ない 運動量多い 計 χ? 帰無仮説 : 運動の量の多少と冠動脈疾患の有無には関連がない 前スライドの公式によって χ の値は = 由度 df= 有意 準 5% と 1% でのカイ 乗分布表から χ(5%)= χ(1%)= 結論は : 運動量の多少と冠動脈疾患の有無に関して 帰無仮説は棄却される? されない? カイ 乗分布表 Slide-09 p( 有意水準 ) 自由度 /1/1 Nara University of Education 1 カイ 乗検定の 順を要約すれば 1) 観測値 (O) 期待値 (E) Σ(O-E) /E=χ を計算し ) カイ 乗分布表の 由度 (df) と α=5% 1% 欄を LookUp し χ α を調べる 3) χ が χ α より きければ有意 準 5%/1% で帰無仮説は棄却される 上の ) と 3) を Excel の関数 CHITEST( カイ テスト ) で実 できる O( 観測データ ) 肺癌発症 発症 計 喫煙 喫煙 計 E( 期待値 ) 肺癌発症 発症 計 喫煙 喫煙 計 CHITEST 答え ( 上側確率 ) カイ 乗分布 (df=1) 5% 棄却域 Slide-17の結果ではこの問題でのχ =0.574であった 0.449とは この値より右側の確率 ( 積 ) を表している これが5%(0.05) より 遥かに きいので 棄却域には っていないということになる 013/1/1 Nara University of Education 課題と問題点 課題と問題点 - 続 コホート (Cohort) 研究 実験群と対照群を 意する には ある要因 ( 暴露 ) を与え他 には与えない 腫瘍あり 腫瘍なし 計 暴露 (A 群 ) 5(1.8%) 暴露 (B 群 ) 6(0.1%) 定期間後症例の発 を 較する ケースコントロール (Case Control) 研究 ( 症例対応研究 ) 腫瘍あり 腫瘍なし 暴露 暴露 7 15 計 93 9 たまたま 腫瘍のある が 93 ない が 9 いました各々のグループで要因 ( 暴露 ) の有無を ( 事後的に ) 調べたら上の表のようになりました 結果 ( 腫瘍のあるなし ) をみて 要因を事後的に調べる という意味で 後ろ向きの研究 ともいわれる cohort( 英 ) もともとは 古代ローマにおける歩兵隊の単位 疫学では 共通の因 を持った個 の集合という意味で いる ( マウスでもそういう ) ある薬を服 した集団と服 していない集団とに分類し 較すること 等 で因果関係を調べること 実験データの意味がはっきりしている 実験として望ましいが 時間がかかる 費 がかかる 期間の追跡が困難 希にしか起こらない症例の場合 結果が得られないこともある データは得やすい コホート研究に べて 集団との対応が不明確 ここで 使われる検定 法が 1) カイ 乗検定であり ) 次回以降 オッズ 相対リスク などの話題を取り上げる 013/1/1 Nara University of Education 3 013/1/1 Nara University of Education 4

57 医療統計 /1/10 リスク とオッズ A HAPPY NEW YEAR カイ 乗検定とは 縦項 A と横項 B が関連があるか否か? を検定すること得られる結論は 関連がある 関連がない ( 独 ) 項 A 項 A 項 B 項 B 項 A(ex 年代 ) と項 B(ex 映画へ く ) はなんでもよい 故に 独 性の検定 という もっと積極的に 要因と結果の因果関係を知りたい特に医学 ( 疫学 ) 分野で関 のあること 危険因 (+) 危険因 (-) 発症 (+) 発症 (-) 危険因 が発症の原因といえるかどうかを知りたい 013/1/1 Nara University of Education 5 013/1/1 Nara University of Education 6 カイ 乗検定で分かること 分からないこと 疫学では 向性が 事 ( リスクとオッズ ) どっちが好き? 邦楽 洋楽 計 若い 若くない 計 χ= 0 どっちが好き? 邦楽 洋楽 計 若い 若くない 計 χ= 90 若さと好みは無関係なら χ の値は さくなる ( 完全に同じ割合なら χ=0) 若い は 必ず 洋楽が好きなら χ の値は きくなる ( 最 ではデータ総数 ) 危険因 (Risk-Factor) 病原菌 放射線 遺伝要因など 結果 (Outcome) 発症 発病など 発症 (+) 発症 (-) 危険因 (+) a b 危険因 (-) c d 慣習上危険因 (Risk-Factor)= 薬品結果 (Outcome)= 治癒でも こう う 発症 (+) に着 して 発症数 (+)/ 全体を RISK( リスク ) 発症数 (+)/ 発症数 (-) を ODDS( オッズ ) という ( 定義 ) どっちが好き? 邦楽 洋楽 計 若い 若くない 計 χ= 90 全く逆の傾向でも χ の値は同じ χ の値は 縦項 と横項 の関連の強さ のみを表す関連の 向性 / 傾向 は されていない 危険因 の (+) と (-) について この値の をリスク (Risk Ratio:RR) オッズ (Odds Ratio:OR) という ( 定義 ) 発症 (+) 発症のリスク 発症のオッヅ 発症 (-) 危険因 (+) a R+=a/(a+b) O+=a/b b 危険因 (-) c R-=c/(c+d) O-=c/d d リスク =R+/R- オッヅ =O+/O- Ratio ( 率 ) レイシオレイショウ /réɪʃoʊ, ʃiòʊ ʃi`əʊ/ リスク / オッヅ どちらも危険因 のあるなしでの発症の起こりやすさの 安になっている 013/1/1 Nara University of Education 7 013/1/1 Nara University of Education 8

58 リスク (RR) とオッズ (OR) 例を る 前向きと後ろ向き研究 例 腫瘍発症 (+) 発症リスク 発症オッズ 腫瘍 発症 (-) 放射線暴露 (+) 放射線 暴露 (-) 暴露 ( ばくろ ) さらすこと 前向き研究 コホート研究 統制群による研究 未来 リスク (RR)=0.85/0.643=1.8 オッズ (OR)=4.71/1.80=.61 どちらも 1 以上であるということは 放射線暴露が腫瘍発 を増加させることを している 実験群と対照群を 意する には ある要因 ( 暴露 ) を与え他 には与えない 各群での発症の有無を調べる 例 管疾患 (+) リスクオッズ 管疾患 (-) アスピリン投与 プラセボ ( 偽薬 ) 投与 後ろ向き研究 ケース コントロール研究 リスク (RR)=0.080/0.10=0.667 オッズ (OR)=0.087/0.136=0.638 どちらも 1 以下であるということは アスピリン投与が 管疾患発症を抑制していることを している 現在発症している群 現在発症していない群 過去 過去にさかのぼって原因 ( 要因 ) の有無を調べる では どちらの を いるのが適切であろうか? 013/1/1 Nara University of Education 9 013/1/1 Nara University of Education 30 前向きではリスク (RR) 後ろ向きではオッズ (OR) WHY? -1 前向きではリスク (RR) 後ろ向きではオッズ (OR) WHY? - 標語 : 前向き研究ではリスク (RR) 後ろ向き研究ではオッズ (OR) を使う 前向きではどちらでも 差はでないが 後ろ向きでリスク を使うと不都合 ( 誤った検定 ) の可能性がある 例 1: 前向き研究の例 アスピリン投与群と偽薬投与群を 意して 以下のデータになった リスク とオッズ は したとおりである 介 実験 管疾患 (+) RISK ODDS 管疾患 (-) 計 アスピリン プラセボ ( 偽薬 ) RATIO(RR/OR) 課題 : プラセボ投与群を 10 倍にしたとき リスク とオッズ はどうなるか? 介 実験 管疾患 (+) RISK ODDS 管疾患 (-) 計 アスピリン プラセボ ( 偽薬 ) RATIO(RR/OR) 群の規模を きく変化させても RR/OR のどちらも変化がないことが分かるはず 例 : 後ろ向き研究の例 胃ガンの発症群と 発症群について 過去の飲酒の有無を調べた リスク (RR) とオッズ (OR) は したとおりである 後ろ向き研究 胃ガン発症 (+) RISK ODDS 胃ガン発症 (-) 計 毎 飲酒 (+) 毎 飲酒 (-) 計 RATIO(RR/OR) 後ろ向き研究では 現在の発症の有無でグループを作るので 課題 : 発症者を 10 倍にしたとき RISK と ODD はどうなるか? 後ろ向き研究 胃ガン発症 (+) RISK ODDS 胃ガン発症 (-) 計 毎 飲酒 (+) 毎 飲酒 (-) 計 RATIO(RR/OR) OR はほとんど変わらないが RR は きく異なることが分かるはず 013/1/1 Nara University of Education /1/1 Nara University of Education 3

59 前向きではリスク (RR) 後ろ向きではオッズ (OR) 結論 前向きではグループ計 後ろ向きでは症例計 前向き研究では 要因の有無でグループを作り グループ毎のサイズを決める ( 変化させる ) 後ろ向き研究では 現在の Outcome( 結果 発症 ) 毎にグループを作り そのサイズを決める ( 変化させる ) RISK と ODDS は 値が さい場合はよく似た値となり 何かの要因がある場合とない場合の結果への影響度を す指標である どちらかといえば RISK の が ( 発症者 / 全体で ) 意味が明瞭なのでなるべくこちらを使いたいのだが 後ろ向き研究では サイズを実験の都合で決める ( 変化させる ) 場合 RISK は安定した指標にならないので ODDS を いる 前向き研究では RISK を使うことになっている 前向き研究では グループの計のみ記録する 介 実験 管疾患 (+) 管疾患 (-) 計 アスピリン プラセボ ( 偽薬 ) 後ろ向き研究では 結果のグループの計のみ書く 後ろ向き研究 胃ガン発症 (+) 胃ガン発症 (-) 毎 飲酒 (+) 毎 飲酒 (-) 計 研究に当たって 最初に決める数 という意味を強調するためにこういう にする習慣である 013/1/1 Nara University of Education /1/1 Nara University of Education 34 最初に 後ろ向き から Odds とは オッズ (Odds Ratio:OR) Probable: ありそうな Probability: 確率 Odd: 奇妙な 希な 珍しい Odds: 珍しさ 賭の倍率 ある現象 (A) に着 して 確率 (P) は (A) の回数 / 全体 ある現象 (A) が起きた回数起きなかった回数計 a b a+b このことを 別の い で オッズ (O) は (A) の回数 /(A) でない回数 と表す ( 起こりやすさ / 起こりにくさの表現のしかたの違い ) もちろん である O P O, P ( 1 P) (1 O) A NOT(A) 計 回数 確率 オッズ ( 積が1) a P a b a O b 発症 (+) 発症 (-) 危険要因 (+) a b 危険要因 (-) c d 危険要因がある場合 (+) 発症 (+) のオッズは a/b 危険要因がない場合 (-) の発症 (+) のオッズは c/d と定義する 例 腫瘍発症 (+) 腫瘍 発症 (-) 放射線暴露 (+) 66 (O=66/14=4.71) 14 放射線 暴露 (-) 7 (O=7/15=1.8) 15 つのオッズ (a/b=4.71 と c/d=1.8) の =ad/bc=.6 をオッズ (OR:Odds Ratio) という オッズ が 1 以上だと 危険要因 ( 放射線 ) がある場合の発症のリスクが ( 危険要因のない場合より ) い といえる 定量的には 危険要因 ( 放射線 ) がある場合の発症のリスクは ( 危険要因がない場合の ).6 倍である というイメージである 013/1/1 Nara University of Education /1/1 Nara University of Education 36

60 オッズ の信頼区間 オッズ の信頼区間の解釈 結果 (+) 結果 (-) 要因 (+) a b 要因 (-) c d a O b ad OR O c bc d 結果 (+) 結果 (-) 因 (+) a b 因 (-) c d SE ORの上限 =( 点評価 ) A a b c d ORの下限 =( 点評価 )/A A exp(1.96 SE) 何らかの要因が ある結果を じさせるリスク ( よいことの場合もあるが ) が要因がない場合に べて何倍になるかをオッズ (Odds Ratio) といい OR=ad/bc で計算される ( 点評価という ) 実際には 統計的な不確実性があり 統計学的には OR は以下の範囲と推定される (95% 信頼区間 ) OR の上限 =( 点評価 ) A OR の下限 =( 点評価 )/A 点評価 OR=ad/bc 下限 OR/A 上限 OR A A exp(1.96 SE) where, SE a b c d 1.96 とは正規分布の 95% 信頼区間の境界であるそして SE>0 だから A は 1 以上である SE は標準誤差 :Standard Error という 点評価 OR=ad/bc 下限 OR/A 上限 OR A ORの95% 信頼区間 OR の 95% 信頼区間の下限が 1 以上なら 因 が結果をもたらすリスクが有意に い といえる OR の 95% 信頼区間の上限が 1 以下なら 因 が結果をもたらすリスクが有意に低い といえる ( 因 が結果を 抑制している といえる ) OR の 95% 信頼区間が 1 を含む場合 因 が結果をもたらすリスクについて 有意な関連があるとはいえない となる OR の 95% 信頼区間 013/1/1 Nara University of Education /1/1 Nara University of Education 38 オッズ の信頼区間の解釈 ( 別の い ) オッズ の信頼区間の計算例 結果 (+) 結果 (-) 因 (+) a b 因 (-) c d 点評価 OR=ad/bc 下限 OR/A 上限 OR A ORの95% 信頼区間 d ORの上限 =( 点評価 ) A SE a b c ORの下限 =( 点評価 )/A A exp(1.96 SE) 帰無仮説 : 因 と結果に関連はない に対して OR の 95% 信頼区間が 1 を含む場合有意 準 5% で帰無仮説は棄却できない 因 と結果に関連がある とはいえない 1 を含まない場合有意 準 5% で帰無仮説を棄却できる 因 と結果には何らかの関連がある といってよい 例 腫瘍発症 (+) 腫瘍 発症 (-) 放射線暴露 (+) 66 (O=66/14=4.71) 14 放射線 暴露 (-) 7 (O=7/15=1.8) 15 OR( 点評価 )=66 15/(14 7)=.6 SE= (1/66+1/14+1/7+1/5)= A=exp( )=1.45 OR の上限 =( 点評価 ) A= =3.80 OR の下限 =( 点評価 )/A=.6/1.45=1.81 下限が 1.81 で 1 より きいので 5% 有意 準で放射線暴露は腫瘍発 のリスクを める といえる 定量的には 5% 有意 準でリスクが 倍になる といえる OR の点評価 =ad/bc OR の上限 =( 点評価 ) A OR の下限 =( 点評価 )/A SE a b c d A exp(1.96 SE) 点評価.6 下限 1.81 上限 OR の 95% 信頼区間 前向き研究の場合は RR(Risk Ratio) で同じように判定をする Slide /1/1 Nara University of Education 39 関連のあるなしに加えて リスクを定量的に評価できることに意味がある ( カイ 乗検定ではこれができない ) 013/1/1 Nara University of Education 40

61 オッズ の信頼区間の計算練習 -1 補 -1:exp(A) を電卓で計算する 危険因 ( 運動不 ) は 冠動脈疾患のリスクを めるか? 冠動脈疾患あり 冠動脈疾患なし 運動不足 非運動不足 3 75 オッズ の 95% 信頼区間を求め リスクについて結論を述べなさい OR( 点評価 )= SE= (1/ +1/ +1/ +1/ )= A=exp(1.96 SE)= OR の上限 = A= OR の下限 = /A= 信頼区間は 1.0 を含むか? 結論は? 有意 準 (5% で ) ちなみに Slide-1( カイ 乗検定 ) と違う結論になるかもしれませんが どちらも微妙な判定になっているのでそういうこともあります EXCEL や関数電卓なら =EXP( ) で計算する普通の電卓ではこうする (A は 10 以下とする ) (51+A)/(51-A) を計算し 掛ける (X) イコール (=) を 8 回繰り返す (56 乗する ) A= A= A= (51.551/ )[X=][X=] かける イコールを 8 回 =1.73 これが exp(a) の答え 練習 exp(1.0).718 になるはず チェック exp(.0) になるはず チェック 013/1/1 Nara University of Education /1/1 Nara University of Education 4 補 -: なぜこんな式になるか? オッズ の信頼区間の計算練習 - 理屈 : オッズ (OR) とリスク (RR) の 然対数 (ln) が正規分布することが知られている 然対数とは exp 関数の逆関数である (ln(exp(x))=x exp(ln(x))=x) ln(or) と ln(rr) の 95% 信頼区間は (+/-)1.96 SE となる SE は 標準誤差 (Standard Error) といい以下で定義される SE( forrr) SE( foror) a a b c c d a b c d OR/RR の標本での値を μ [OR/RR の 然対数 ] の 95% 信頼区間の [ 境界 X の 然対数 は正規分布から ln(x)=ln(μ) SE X=exp(ln(μ)+-1.96SE) X=μ exp(+-1.96se) [μ/exp(1.96se) X μ exp(1.96se)] Outcome(+) Outcome(-) factor(+) a b factor(-) c d 以下のようにデータを修正すれば どのように結論が変わるであろうか? 冠動脈疾患あり 冠動脈疾患なし 運動不足 非運動不足 3 75 オッズ の 95% 信頼区間を求め リスクについて結論を述べなさい OR( 点評価 )= SE= (1/ +1/ +1/ +1/ )= A=exp(1.96 SE)= OR の上限 = A= OR の下限 = /A= 信頼区間は 1.0 を含むか? 結論は? 有意 準 5% で リスクは 倍 倍になる 対数から普通の数に戻すと 上限下限は (+/-) ではなく ( 割る / かける ) となる 99% 信頼区間を求める場合は 1.96 を.58 とする (Slide-114) 013/1/1 Nara University of Education /1/1 Nara University of Education 44

62 次に 前向き リスク の評価 リスク の評価 前向き研究 ( コホート研究 ) では オッズ ではなくリスク を いてリスクの検定を う 法は オッズ の場合と同じである 例 : アスピリンの 管疾患予防効果を調べるため アスピリンとプラセボを 500 ずつに投与した 介 実験 管疾患 (+) 管疾患 (-) 計 アスピリン プラセボ ( 偽薬 ) RR( 点評価 )= SE( forrr) a a b c c d A=exp( =0.380)=1.46 このとき アスピリンには 管疾患の予防効果があるといえるであろうか? リスク とその 95% 信頼区間を計算し 評価しなさい 介 実験 管疾患 (+) RISK 管疾患 (-) 計 アスピリン 40 40/500= プラセボ ( 偽薬 ) 60 60/500= RISK (RR) 0.08/0.1= アスピリン投与群の RISK は 0.08 投与しなかった群の RISK は 0.1 投与した がしなかった に して リスク (RR)=0.08/0.1= 倍の ( 抑制 ) 効果があったとことになるが RR の 95% 信頼区間を求めると RR の 95% 信頼区間の上限 =RR( 点評価 ) A= =0.97 下限 =RR( 点評価 )/A=0.667/1.46=0.46 (RR の点評価 = % 信頼区間は ) 上限も 1.0 より さいので 結論 : 有意 準 5% でアスピリンとプラセボには 管疾患発症に差がある ( アスピリンには抑制効果がある ) といえる さらに : 抑制効果は である といえる /1/1 Nara University of Education /1/1 Nara University of Education 46 リスク の評価 - 練習 以下のデータについて リスク の検定を い 結論を述べなさい 介 実験 管疾患 (+) 管疾患 (-) 計 アスピリン プラセボ ( 偽薬 ) RR( 点評価 )= SE= A=Exp(1.96 SE)= BLANK PAGE 帰無仮説 : アスピリンとプラセボの効果に差はない RR の 95% 信頼区間は 信頼区間に 1.0 を含むか? 結論は? 013/1/1 Nara University of Education /1/1 Nara University of Education 48

63 医療統計 /1/17 U 群と K 群の順位和 もう つのノンパラメトリック検定 ( 評価や順位に基づく検定 ) 順位和検定とは 順位 (RANK) チーム 1 位 U 位 K 3 位 K 4 位 U 5 位 U 6 位 K 7 位 K 8 位 U 順位和検定の 的 U 群と K 群に有意な 競争 の差があるであろうか? を各チームの順位の和から判定したい U/K チームから 4 選 ずつ出場し 緒に競争した結果 U チームの順位和 (Rank Sum) とは =18 K チームの順位和は =18 各チームの順位和が きく違っている場合 チームの 実 に差がある と なされる 極端な場合 強いチームが =10 弱いチームが =6 になる 1 位が の場合 1.5 位が と計算する 1 位が三 なら (1++3)/3= 位が三 とする 013/1/1 Nara University of Education 49 1 位 位 3 位 4 位 5 位 6 位 7 位 8 位順位和 CASE-1 U U U U 10 CASE- U U U U 11 CASE-3 U U U U 1 CASE-4 U U U U 13 CASE-5 U U U U 14 CASE-6 U U U U 1 U U U U 4 U U U U U U U U 5 CASE-70 U U U U 6 順位和が 10 と 6 になるのは 1 通りしかない 18 になるのは 8 通りの場合がある =(N+1)N/=36 だから 両群均等に 18 となる場合が 番多い UUUUKKKK から KKKKUUUU まで 70 通りある (4+4) C 4 =70 順位和は 10 6 順位和と場合の数 /1/1 Nara University of Education 50 順位 と 順位和 の期待値 順位和と信頼区間 1 位 位 3 位 4 位 5 位 6 位 7 位 8 位 CASE-1 U U U U K K K K CASE-70 K K K K U U U U 1 位から 8 位まで 実 差がなく 全く偶然に決まるとすれば個 の順位の期待値は ( )/8 = 4.5 位である 故にチームに実 差がないと仮定した場合の 4 のチームの順位和の期待値は = 18 である 順位和と場合の数 順位和は期待値に近いほど確率的に起こる可能性が い U 群から N u K 群から N k 選抜競技で U 群の順位和は全員上位なら最 (1 通り ) UUU KKK 全員下位なら最 (1 通り ) KKK UUU 有意な実 差がないと仮定した場合 順位和の分布 ( 場合の数 ) はこうなる 順位和は 期待値 に近い可能性が く 極端に きく / さくなる確率は低い N が きいとき正規分布に近づく 場合の数 般に N1 と N のチーム (N=N1+N) として個 の順位の期待値は (1++ +N)/N=(N+1)/ 位 N1 チームの順位和の期待値は N1 (N+1)/ N チームの順位和の期待値は N (N+1)/ 逆に 実際の順位和が期待値より きく異なっている場合 実 差がない という帰無仮説が棄却される 場合の数の 95% を含む順位和の範囲を順位和の 95% 信頼区間という もし U 群と K 群に有意な実 の差がなければ = 帰無仮説 順位和はこの範囲に 95% るはずである 順位和がこの範囲に らない時有意 準 5% で 帰無仮説を棄却できる 順位和 場合の数の 95% を含む範囲 =95% 信頼区間 013/1/1 Nara University of Education /1/1 Nara University of Education 5

64 Wilcoxon( ウイルコクソン ) の順位和表 順位和検定の例題 -1 ( 連続データ ) Nl/Ns /6 5 6/1 11/9 17/38 6 7/3 1/3 18/4 6/5 7 7/6 13/35 0/45 7/57 36/69 8 8/8 14/38 1/49 9/61 38/74 49/87 9 8/31 14/4 /53 31/65 40/79 51/93 6/ /33 15/45 3/57 3/70 4/84 53/99 65/ /36 16/48 4/61 34/74 44/89 55/105 68/ /38 17/51 6/64 35/79 46/94 58/110 71/ /41 18/54 7/68 37/83 48/99 60/116 73/ /43 19/57 8/7 38/88 50/104 6/1 76/ /46 0/60 9/76 40/9 5/109 65/17 79/ /48 1/63 30/80 4/96 54/114 67/133 8/ /51 1/67 3/83 43/101 56/119 70/138 84/159 順位和の さい の標本数を Ns( 横の列 :smaller) きい の標本数を Nl( 縦の :larger) を て順位和の 95% 信頼区間が分かる ex 4 と 4 の時 10/6 とある順位和の 95% 信頼区間は 10 6 であり これ以上 またはこれ以下の場合帰無仮説が 5% 有意 準で棄却される と読む この表にないところは 正規分布で近似計算できる Frank Wilcoxon USA 013/1/1 Nara University of Education 53 新薬と既存薬の効果を 各群 8 の臨床試験を実施した 病気の改善度を表す検査値が以下のようであった ( 帰無仮説 = 新薬 / 既存薬に差がない ) グループ 被験者 ID 改善度 順位 グループ 被験者 ID 改善度 既存薬群 O 新薬群 N 既存薬群 O- 0.1 ソート 新薬群 N 既存薬群 O 新薬群 N 既存薬群 O 既存薬群 O 既存薬群 O 新薬群 N- 3.3 既存薬群 O 新薬群 N 既存薬群 O 既存薬群 O-7.9 既存薬群 O 新薬群 N-6.8 新薬群 N 既存薬群 O-3.0 新薬群 N 既存薬群 O 新薬群 N 新薬群 N 新薬群 N 新薬群 N 新薬群 N 既存薬群 O 新薬群 N 既存薬群 O 新薬群 N 既存薬群 O 新薬群 N 既存薬群 O- 0.1 改善度 で順位をつけると 新薬群の順位和 = =48 既存薬群の順位和 =88 差がないとしたときの順位和の期待値は 68 である (( 順位の期待値 =8.5) 8=68) 013/1/1 Nara University of Education 54 表を て判定する 順位和検定の課題 -1 新薬群の順位和 = =48 既存薬群の順位和 =88 順位和の さい の標本数が横 きい の標本数が縦 / ここではどちらも 8 1 位 位 3 位 4 位 5 位 6 位 7 位 8 位 9 位 10 位 U 順位和 K K K U U U K U K U Nl/Ns /6 5 6/1 11/9 17/38 6 7/3 1/3 18/4 6/5 7 7/6 13/35 0/45 7/57 36/69 8 8/8 14/38 1/49 9/61 38/74 49/87 U 群 K 群とも 4 名で競 をして上の順位になった 帰無仮説 :U 群と K 群に有意な差はない U 群の順位和は? K 群の順位和は? この場合の順位和は 95% 信頼区間で となっている 観測された順位和は 48 と 88 で 信頼区間から ( わずかではあるが ) 外れている 結論 : 有意 準 5% で帰無仮説を棄却できる つまり 新薬と既存薬の効果には差がある といえる 95% 信頼区間 順位和 88 実際の ( 観測された ) 順位和 Wilocoxon の順位和検定表によれば この場合の順位和の 95% 信頼区間は? 結論 : この結果の順位和は 95% 信頼区間に ( 含まれる? 含まれない?) 従って 帰無仮説は棄却できる? できない? 013/1/1 Nara University of Education /1/1 Nara University of Education 56

65 順位和検定の例題 - ( 正規分布近似 ) 順位和検定の例題 - ( 正規分布近似 ) 各群の標本数がおおむね 15 以上の場合 表ではなく 正規分布での近似式を いて検定する標本数 =8 ではあるが 直前の例題 (Slide-53) を使ってその 法を すと 順位和の さい群 (Gs) の標本数を ns とする ( 前例では 8) 順位和の きい群 (Gl) の標本数を nl とする ( これも 8) どちらも差がないとした場合の Gs の順位和の期待値 μ は μ=ns (1+ns+nl)/ =( 前例では )8 (1+8+8)/=68 1 位から 16 位まで ランダムに選べば 平均は (1+16)/=8.5 位 =(1+ns+nl)/ 全員が 8.5 位と思えば Gs 群の ns の順位和は 8 8.5=68 つまり ns (1+ns+nl)/ 分散 V は 以下の式になる ( これは統計学から ) V=ns nl (1+ns+nl)/1 ( 前例では ) /1 = 標準偏差 σ= V=9.5 Z= 順位和の期待値との差 ( の絶対値 ) /σ を計算する / 90.67= /1/1 Nara University of Education 57 続 μ=68 σ= 90.67=9.5 Z= 順位和の期待値との差 ( の絶対値 ) /σ Gs について = / 90.67=.10 Gl について = / 90.67=.10( 上と同じ ) (95% 信頼区間の境界値 )1.96 と 較し きければ 帰無仮説 : つの群に差はない を棄却できる この例では.10 > 1.96 なので 5% 有意 準で 差がない は棄却できるが (99% 信頼区間の境界値 ).58 よりは さいので 有意 準 1% では 差がない は棄却できない 結論 : 5% 有意 準で帰無仮説は棄却 有意 準 5% で 差がある といえる (Slide-5 と整合している ) z= z=-.576 正規分布 95% z=1.960 z= /1/1 Nara University of Education 58 99% Slide-114 5% 1% 順位和検定の例題 - (n>15) データの尺度 ( しゃくど :Scale) 1 位 位 3 位 4 位 5 位 6 位 7 位 8 位 9 位 10 位 U 順位和 K K K U U U K U K U 33 例題 -1 を正規分布近似で検定する (ns=nl=5 なので適応条件 (n>15) からは外れるが 練習 ) 帰無仮説 :U 群と K 群に有意な差はない 順位和の期待値 μは? 分散 Vは? 標準偏差 σは? Z= 順位和観測値 -μ /σ= - / = 5% 有意 準の Z 値は? 1% 有意 準の Z 値は? 較して 結論 : 有意 準 % で帰無仮説は棄却できる? できない? 数値のデータの性格を 4 つに分類する スティーヴンズ (Stanley Stevens)1946 論 測定尺度の理論について "On the Theory of Scales of Measurement" の提案がよく いられる 名義尺度 (Nominal Scale) 順位尺度 (Ordinal Scale) 間隔尺度 (Interval Scale) 率尺度 (Ratio Scale) 区別や分類 例 液型電話番号 可能な計算 意味なし 順番成績の順序 較 等間隔データ ゼロ点 ( 原点 ) がある 摂 温度 暦 付 体重 現在 順位尺度 のはなしをしているこれにはノンパラメトリック検定 す 引く 四則演算すべて Stanley Smith Stevens Psychologist from USA /1/1 Nara University of Education /1/1 Nara University of Education 60

66 順位和検定の例題 -3 ( 順序データ ) 順序データの並び 新薬と既存薬の効果について 各群 30 の臨床試験を実施した 病気の改善度の評価が以下のようであった 効果に差があるといえるであろうか? 改善 変わらず 悪化 計 新薬 既存薬 改善 変わらず 悪化 の順に 順位を考える 同 評価のグループには 代表順位を決める 各グループでの順位和を求める 改善 変わらず 悪化 計 新薬 既存薬 計 5 13 順位 1 位 位 3 位 47 位 48 位 60 位 代表順位 11.5 位 35 位 54 位 新薬群の順位和 = 位 位 位 =849.5 既存薬群の順位和 = =980.5 全く同じデータであるが 順位和は異なる 改善 変わらず 悪化 計 新薬 既存薬 改善 悪化 変わらず 計 新薬 既存薬 改善 変わらず 悪化 という 順序関係が 切である カイ 乗検定では どちらの表で計算しても同じ結果になる カイ 乗検定は 価値観 を反映していない 013/1/1 Nara University of Education /1/1 Nara University of Education 6 同順位を含む順位和検定 ( 正規分布近似 ) 計算実 (Excel がないと無理 ) 改善 変わらず 悪化 計 新薬 既存薬 計 5 13 順位 1 位 位 3 位 47 位 48 位 60 位 代表順位 11.5 位 35 位 54 位 新薬群の順位和 = 位 位 位 =849.5 ( こちらが Gs ns=30) 既存薬群の順位和 = =980.5 ( こちらが Gl nl=30) 順位和の期待値 μ =30 ( )/ = 915 (Gs Gl どちらも ) ( 要するに 1 位 60 位の平均は 30.5 位 30 の順位の和は =915) 分散の計算がややこしい 分散 V=A ns nl/(1 全体の 数 ( 全体の 数 -1)) ここで A= ( 全体の 数 3 - 全体の 数 ) -( 改善 グループの 数 3 - 改善 グループ 数 ) -( 不変 グループの 数 3 - 不変 グループ 数 ) -( 悪化 グループの 数 3 - 悪化 グループ 数 ) 順位和の さい群を Gs 数を ns 順位和の きい群を Gl 数を nl とかく n (1 n n ) / s where s ns nl V 1N( N 1) s N n n s l 3 ( N N) l 3 ( di di ) i グループ 改善 変わらず 悪化 計 新薬 既存薬 計 計の三乗 10,648 15,65,197 16,000 計の三乗 - 計 10,66 15,600,184 15,940 A=N 3 -N-Σ(d 3 -d) 187,530 ns 30 nl 30 N 60 Y V=A Y 3,843 σ( V) 6.0 n (1 n n ) / s where s ns nl V 1N( N 1) 分散 V=Y A s N n n s l 3 ( N N) l 3 ( di di ) i Y=ns nl/(1 全体の 数 ( 全体の 数 -1)) A= ( 全体の 数 3 - 全体の 数 ) -( 改善 グループの 数 3 - 改善 グループ 数 ) -( 不変 グループの 数 3 - 不変 グループ 数 ) -( 悪化 グループの 数 3 - 悪化 グループ 数 ) 013/1/1 Nara University of Education /1/1 Nara University of Education 64

67 結果と結論 順位和検定 ( 順序データ ) の課題 新薬群の順位和 =849.5 (Gs) 既存薬群の順位和 =980.5 順位和の期待値 =915 標準偏差 =6.0 Z= /6.0=1.06 < 1.96 ( 正規分布での 95% Z 値 ) 結論 : 有意 準 5% では帰無仮説 ( 差がない ) は棄却できない 新薬と既存薬の効果について Slide-59 とデータを れ替えただけです例題と同様に検定しなさい 改善 変わらず 悪化 計 新薬 既存薬 改善 変わらず 悪化 計 新薬 既存薬 計 5 13 順位 1 位 5 位 (6) 位 (38) 位 (39) 位 60 位 代表順位 (13) 位 (3) 位 (49.5) 位 新薬群の順位和 =18 位 +5 位 +7 位 = 既存薬群の順位和 = = 例題の数値とはずいぶん異なる ( なぜだろうか?) 013/1/1 Nara University of Education /1/1 Nara University of Education 66 順位和検定 ( 順序データ ) の課題 - 続き おつかれさま グループ 改善 変わらず 悪化 計 新薬 既存薬 計 (d) 計の三乗 計の三乗 - 計 A=N 3 -N-Σ(d 3 -d) 実際にこのように で計算する機会は少ないと思いますがパソコンソフトで検定を うときにも 何をどのようにしているのかを知っていることはよいことと思います ns 30 nl 30 N=(ns+nl) 60 Y=ns*nl/(1*N*(N-1)) V=A Y σ( V) 新薬群の順位和 = 既存薬群の順位和 = 順位和の期待値 = 標準偏差 = Z= - / = 正規分布の Z 値 1.96(5%).58(1%) と 較して 結論 : ( 有意 準 % で帰無仮説 ( 差がない ) は棄却される? されない? 次週は総復習をする予定です 013/1/1 Nara University of Education /1/1 Nara University of Education 68

EBNと疫学

EBNと疫学 推定と検定 57 ( 復習 ) 記述統計と推測統計 統計解析は大きく 2 つに分けられる 記述統計 推測統計 記述統計 観察集団の特性を示すもの 代表値 ( 平均値や中央値 ) や ばらつきの指標 ( 標準偏差など ) 図表を効果的に使う 推測統計 観察集団のデータから母集団の特性を 推定 する 平均 / 分散 / 係数値などの推定 ( 点推定 ) 点推定値のばらつきを調べる ( 区間推定 ) 検定統計量を用いた検定

More information

統計学 - 社会統計の基礎 - 正規分布 標準正規分布累積分布関数の逆関数 t 分布正規分布に従うサンプルの平均の信頼区間 担当 : 岸 康人 資料ページ :

統計学 - 社会統計の基礎 - 正規分布 標準正規分布累積分布関数の逆関数 t 分布正規分布に従うサンプルの平均の信頼区間 担当 : 岸 康人 資料ページ : 統計学 - 社会統計の基礎 - 正規分布 標準正規分布累積分布関数の逆関数 t 分布正規分布に従うサンプルの平均の信頼区間 担当 : 岸 康人 資料ページ : https://goo.gl/qw1djw 正規分布 ( 復習 ) 正規分布 (Normal Distribution)N (μ, σ 2 ) 別名 : ガウス分布 (Gaussian Distribution) 密度関数 Excel:= NORM.DIST

More information

_KyoukaNaiyou_No.4

_KyoukaNaiyou_No.4 理科教科内容指導論 I : 物理分野 物理現象の定量的把握第 4 回 ( 実験 ) データの眺め ~ 統計学の基礎続き 統計のはなし 基礎 応 娯楽 (Best selected business books) 村平 科技連出版社 1836 円 前回の復習と今回以降の 標 東京 学 善 郎 Web サイトより データ ヒストグラム 代表値 ( 平均値 最頻値 中間値 ) 分布の散らばり 集団の分布

More information

情報工学概論

情報工学概論 確率と統計 中山クラス 第 11 週 0 本日の内容 第 3 回レポート解説 第 5 章 5.6 独立性の検定 ( カイ二乗検定 ) 5.7 サンプルサイズの検定結果への影響練習問題 (4),(5) 第 4 回レポート課題の説明 1 演習問題 ( 前回 ) の解説 勉強時間と定期試験の得点の関係を無相関検定により調べる. データ入力 > aa

More information

第 3 回講義の項目と概要 統計的手法入門 : 品質のばらつきを解析する 平均と標準偏差 (P30) a) データは平均を見ただけではわからない 平均が同じだからといって 同一視してはいけない b) データのばらつきを示す 標準偏差 にも注目しよう c) 平均

第 3 回講義の項目と概要 統計的手法入門 : 品質のばらつきを解析する 平均と標準偏差 (P30) a) データは平均を見ただけではわからない 平均が同じだからといって 同一視してはいけない b) データのばらつきを示す 標準偏差 にも注目しよう c) 平均 第 3 回講義の項目と概要 016.8.9 1.3 統計的手法入門 : 品質のばらつきを解析する 1.3.1 平均と標準偏差 (P30) a) データは平均を見ただけではわからない 平均が同じだからといって 同一視してはいけない b) データのばらつきを示す 標準偏差 にも注目しよう c) 平均 :AVERAGE 関数, 標準偏差 :STDEVP 関数とSTDEVという関数 1 取得したデータそのものの標準偏差

More information

<4D F736F F D208EC08CB18C7689E68A E F193F18D8095AA957A C C839395AA957A814590B38B4B95AA957A2E646F63>

<4D F736F F D208EC08CB18C7689E68A E F193F18D8095AA957A C C839395AA957A814590B38B4B95AA957A2E646F63> 第 4 回二項分布, ポアソン分布, 正規分布 実験計画学 009 年 月 0 日 A. 代表的な分布. 離散分布 二項分布大きさ n の標本で, 事象 Eの起こる確率を p とするとき, そのうち x 個にEが起こる確率 P(x) は二項分布に従う. 例さいころを 0 回振ったときに の出る回数 x の確率分布は二項分布に従う. この場合, n = 0, p = 6 の二項分布になる さいころを

More information

基礎統計

基礎統計 基礎統計 第 11 回講義資料 6.4.2 標本平均の差の標本分布 母平均の差 標本平均の差をみれば良い ただし, 母分散に依存するため場合分けをする 1 2 3 分散が既知分散が未知であるが等しい分散が未知であり等しいとは限らない 1 母分散が既知のとき が既知 標準化変量 2 母分散が未知であり, 等しいとき 分散が未知であるが, 等しいということは分かっているとき 標準化変量 自由度 の t

More information

Microsoft PowerPoint - statistics pptx

Microsoft PowerPoint - statistics pptx 統計学 第 17 回 講義 母平均の区間推定 Part- 016 年 6 14 ( )3 限 担当教員 : 唐渡 広志 ( からと こうじ ) 研究室 : 経済学研究棟 4 階 43 号室 email: kkarato@eco.u toyama.ac.jp website: http://www3.u toyama.ac.jp/kkarato/ 1 講義の目的 標本平均は正規分布に従うという性質を

More information

<4D F736F F D208EC08CB18C7689E68A E F193F18D8095AA957A C C839395AA957A814590B38B4B95AA957A2E646F63>

<4D F736F F D208EC08CB18C7689E68A E F193F18D8095AA957A C C839395AA957A814590B38B4B95AA957A2E646F63> 第 4 回二項分布, ポアソン分布, 正規分布 実験計画学 A. 代表的な分布. 離散分布 二項分布大きさ n の標本で, 事象 Eの起こる確率を p とするとき, そのうち x 個にEが起こる確率 P(x) は二項分布に従う. 例さいころを 0 回振ったときに の出る回数 x の確率分布は二項分布に従う. この場合, n 0, p 6 の二項分布になる さいころを 0 回振ったときに が 0 回出る

More information

モジュール1のまとめ

モジュール1のまとめ 数理統計学 第 0 回 復習 標本分散と ( 標本 ) 不偏分散両方とも 分散 というのが実情 二乗偏差計標本分散 = データ数 (0ページ) ( 標本 ) 不偏分散 = (03 ページ ) 二乗偏差計 データ数 - 分析ではこちらをとることが多い 復習 ここまで 実験結果 ( 万回 ) 平均 50Kg 標準偏差 0Kg 0 人 全体に小さすぎる > mea(jkke) [] 89.4373 標準偏差

More information

不偏推定量

不偏推定量 不偏推定量 情報科学の補足資料 018 年 6 月 7 日藤本祥二 統計的推定 (statistical estimatio) 確率分布が理論的に分かっている標本統計量を利用する 確率分布の期待値の値をそのまま推定値とするのが点推定 ( 信頼度 0%) 点推定に ± で幅を持たせて信頼度を上げたものが区間推定 持たせた幅のことを誤差 (error) と呼ぶ 信頼度 (cofidece level)

More information

Microsoft Word - å“Ÿåłžå¸°173.docx

Microsoft Word - å“Ÿåłžå¸°173.docx 回帰分析 ( その 3) 経済情報処理 価格弾力性の推定ある商品について その購入量を w 単価を p とし それぞれの変化量を w p で表 w w すことにする この時 この商品の価格弾力性 は により定義される これ p p は p が 1 パーセント変化した場合に w が何パーセント変化するかを示したものである ここで p を 0 に近づけていった極限を考えると d ln w 1 dw dw

More information

統計的データ解析

統計的データ解析 統計的データ解析 011 011.11.9 林田清 ( 大阪大学大学院理学研究科 ) 連続確率分布の平均値 分散 比較のため P(c ) c 分布 自由度 の ( カイ c 平均値 0, 標準偏差 1の正規分布 に従う変数 xの自乗和 c x =1 が従う分布を自由度 の分布と呼ぶ 一般に自由度の分布は f /1 c / / ( c ) {( c ) e }/ ( / ) 期待値 二乗 ) 分布 c

More information

Microsoft Word - Stattext12.doc

Microsoft Word - Stattext12.doc 章対応のない 群間の量的データの検定. 検定手順 この章ではデータ間に 対 の対応のないつの標本から推定される母集団間の平均値や中央値の比較を行ないます 検定手法は 図. のようにまず正規に従うかどうかを調べます 但し この場合はつの群が共に正規に従うことを調べる必要があります 次に 群とも正規ならば F 検定を用いて等分散であるかどうかを調べます 等分散の場合は t 検定 等分散でない場合はウェルチ

More information

スライド 1

スライド 1 データ解析特論第 10 回 ( 全 15 回 ) 2012 年 12 月 11 日 ( 火 ) 情報エレクトロニクス専攻横田孝義 1 終了 11/13 11/20 重回帰分析をしばらくやります 12/4 12/11 12/18 2 前回から回帰分析について学習しています 3 ( 単 ) 回帰分析 単回帰分析では一つの従属変数 ( 目的変数 ) を 一つの独立変数 ( 説明変数 ) で予測する事を考える

More information

<4D F736F F D208EC08CB18C7689E68A E F AA957A82C682948C9F92E82E646F63>

<4D F736F F D208EC08CB18C7689E68A E F AA957A82C682948C9F92E82E646F63> 第 7 回 t 分布と t 検定 実験計画学 A.t 分布 ( 小標本に関する平均の推定と検定 ) 前々回と前回の授業では, 標本が十分に大きいあるいは母分散が既知であることを条件に正規分布を用いて推定 検定した. しかし, 母集団が正規分布し, 標本が小さい場合には, 標本分散から母分散を推定するときの不確実さを加味したt 分布を用いて推定 検定しなければならない. t 分布は標本分散の自由度 f(

More information

ビジネス統計 統計基礎とエクセル分析 正誤表

ビジネス統計 統計基礎とエクセル分析 正誤表 ビジネス統計統計基礎とエクセル分析 ビジネス統計スペシャリスト エクセル分析スペシャリスト 公式テキスト正誤表と学習用データ更新履歴 平成 30 年 5 月 14 日現在 公式テキスト正誤表 頁場所誤正修正 6 知識編第 章 -3-3 最頻値の解説内容 たとえば, 表.1 のデータであれば, 最頻値は 167.5cm というたとえば, 表.1 のデータであれば, 最頻値は 165.0cm ということになります

More information

第4回

第4回 Excel で度数分布表を作成 表計算ソフトの Microsoft Excel を使って 度数分布表を作成する場合 関数を使わなくても 四則演算(+ */) だけでも作成できます しかし データ数が多い場合に度数を求めたり 度数などの合計を求めるときには 関数を使えばデータを処理しやすく なります 度数分布表の作成で使用する関数 合計は SUM SUM( 合計を計算する ) 書式 :SUM( 数値数値

More information

Microsoft PowerPoint - e-stat(OLS).pptx

Microsoft PowerPoint - e-stat(OLS).pptx 経済統計学 ( 補足 ) 最小二乗法について 担当 : 小塚匡文 2015 年 11 月 19 日 ( 改訂版 ) 神戸大学経済学部 2015 年度後期開講授業 補足 : 最小二乗法 ( 単回帰分析 ) 1.( 単純 ) 回帰分析とは? 標本サイズTの2 変数 ( ここではXとY) のデータが存在 YをXで説明する回帰方程式を推定するための方法 Y: 被説明変数 ( または従属変数 ) X: 説明変数

More information

統計学の基礎から学ぶ実験計画法ー1

統計学の基礎から学ぶ実験計画法ー1 第 部統計学の基礎と. 統計学とは. 統計学の基本. 母集団とサンプル ( 標本 ). データ (data) 3. 集団の特性を示す統計量 基本的な解析手法 3. 統計量 (statistic) とは 3. 集団を代表する統計量 - 平均値など 3.3 集団のばらつきを表す値 - 平方和 分散 標準偏差 4. ばらつき ( 分布 ) を表す関数 4. 確率密度関数 4. 最も重要な正規分布 4.3

More information

スライド 1

スライド 1 データ解析特論重回帰分析編 2017 年 7 月 10 日 ( 月 )~ 情報エレクトロニクスコース横田孝義 1 ( 単 ) 回帰分析 単回帰分析では一つの従属変数 ( 目的変数 ) を 一つの独立変数 ( 説明変数 ) で予測する事を考える 具体的には y = a + bx という回帰直線 ( モデル ) でデータを代表させる このためにデータからこの回帰直線の切片 (a) と傾き (b) を最小

More information

Microsoft PowerPoint - stat-2014-[9] pptx

Microsoft PowerPoint - stat-2014-[9] pptx 統計学 第 17 回 講義 母平均の区間推定 Part-1 014 年 6 17 ( )6-7 限 担当教員 : 唐渡 広志 ( からと こうじ ) 研究室 : 経済学研究棟 4 階 43 号室 email: kkarato@eco.u-toyama.ac.j website: htt://www3.u-toyama.ac.j/kkarato/ 1 講義の目的 標本平均は正規分布に従うという性質を

More information

Microsoft Word - appendix_b

Microsoft Word - appendix_b 付録 B エクセルの使い方 藪友良 (2019/04/05) 統計学を勉強しても やはり実際に自分で使ってみないと理解は十分ではあ りません ここでは 実際に統計分析を使う方法のひとつとして Microsoft Office のエクセルの使い方を解説します B.1 分析ツールエクセルについている分析ツールという機能を使えば さまざまな統計分析が可能です まず この機能を使えるように設定をします もし

More information

(3) 検定統計量の有意確率にもとづく仮説の採否データから有意確率 (significant probability, p 値 ) を求め 有意水準と照合する 有意確率とは データの分析によって得られた統計値が偶然おこる確率のこと あらかじめ設定した有意確率より低い場合は 帰無仮説を棄却して対立仮説

(3) 検定統計量の有意確率にもとづく仮説の採否データから有意確率 (significant probability, p 値 ) を求め 有意水準と照合する 有意確率とは データの分析によって得られた統計値が偶然おこる確率のこと あらかじめ設定した有意確率より低い場合は 帰無仮説を棄却して対立仮説 第 3 章 t 検定 (pp. 33-42) 3-1 統計的検定 統計的検定とは 設定した仮説を検証する場合に 仮説に基づいて集めた標本を 確率論の観点から分析 検証すること 使用する標本は 母集団から無作為抽出されたものでなければならない パラメトリック検定とノンパラメトリック検定 パラメトリック検定は母集団が正規分布に従う間隔尺度あるいは比率尺度の連続データを対象とする ノンパラメトリック検定は母集団に特定の分布を仮定しない

More information

Microsoft PowerPoint - 基礎・経済統計6.ppt

Microsoft PowerPoint - 基礎・経済統計6.ppt . 確率変数 基礎 経済統計 6 確率分布 事象を数値化したもの ( 事象ー > 数値 の関数 自然に数値されている場合 さいころの目 量的尺度 数値化が必要な場合 質的尺度, 順序的尺度 それらの尺度に数値を割り当てる 例えば, コインの表が出たら, 裏なら 0. 離散確率変数と連続確率変数 確率変数の値 連続値をとるもの 身長, 体重, 実質 GDP など とびとびの値 離散値をとるもの 新生児の性別

More information

母平均 母分散 母標準偏差は, が連続的な場合も含めて, すべての個体の特性値 のすべての実現値 の平均 分散 標準偏差であると考えてよい 有限母集団で が離散的な場合, まさにその意味になるが, そうでない場合も, このように理解してよい 5 母数 母集団から定まる定数のこと 母平均, 母分散,

母平均 母分散 母標準偏差は, が連続的な場合も含めて, すべての個体の特性値 のすべての実現値 の平均 分散 標準偏差であると考えてよい 有限母集団で が離散的な場合, まさにその意味になるが, そうでない場合も, このように理解してよい 5 母数 母集団から定まる定数のこと 母平均, 母分散, . 無作為標本. 基本的用語 推測統計における基本的な用語を確認する 母集団 調査の対象になる集団のこと 最終的に, 判断の対象になる集団である 母集団の個体 母集団を構成する つ つのもののこと 母集団は個体の集まりである 個体の特性値 個体の特性を表す数値のこと 身長や体重など 特性値は, 変量ともいう 4 有限母集団と無限母集団 個体の個数が有限の母集団を 有限母集団, 個体の個数が無限の母集団を

More information

講義「○○○○」

講義「○○○○」 講義 信頼度の推定と立証 内容. 点推定と区間推定. 指数分布の点推定 区間推定 3. 指数分布 正規分布の信頼度推定 担当 : 倉敷哲生 ( ビジネスエンジニアリング専攻 ) 統計的推測 標本から得られる情報を基に 母集団に関する結論の導出が目的 測定値 x x x 3 : x 母集団 (populaio) 母集団の特性値 統計的推測 標本 (sample) 標本の特性値 分布のパラメータ ( 母数

More information

青焼 1章[15-52].indd

青焼 1章[15-52].indd 1 第 1 章統計の基礎知識 1 1 なぜ統計解析が必要なのか? 人間は自分自身の経験にもとづいて 感覚的にものごとを判断しがちである 例えばある疾患に対する標準治療薬の有効率が 50% であったとする そこに新薬が登場し ある医師がその新薬を 5 人の患者に使ったところ 4 人が有効と判定されたとしたら 多くの医師はこれまでの標準治療薬よりも新薬のほうが有効性が高そうだと感じることだろう しかし

More information

データ解析

データ解析 データ解析 ( 前期 ) 最小二乗法 向井厚志 005 年度テキスト 0 データ解析 - 最小二乗法 - 目次 第 回 Σ の計算 第 回ヒストグラム 第 3 回平均と標準偏差 6 第 回誤差の伝播 8 第 5 回正規分布 0 第 6 回最尤性原理 第 7 回正規分布の 分布の幅 第 8 回最小二乗法 6 第 9 回最小二乗法の練習 8 第 0 回最小二乗法の推定誤差 0 第 回推定誤差の計算 第

More information

相関係数と偏差ベクトル

相関係数と偏差ベクトル 相関係数と偏差ベクトル 経営統計演習の補足資料 07 年 月 9 日金沢学院大学経営情報学部藤本祥二 相関係数の復習 r = s xy s x s y = = n σ n i= σn i= n σ n i= n σ i= x i xҧ y i തy x i xҧ n σ n i= y i തy x i xҧ x i xҧ y i തy σn i= y i തy 式が長くなるので u, v の文字で偏差を表すことにする

More information

Microsoft PowerPoint slide2forWeb.ppt [互換モード]

Microsoft PowerPoint slide2forWeb.ppt [互換モード] 講義内容 9..4 正規分布 ormal dstrbuto ガウス分布 Gaussa dstrbuto 中心極限定理 サンプルからの母集団統計量の推定 不偏推定量について 確率変数, 確率密度関数 確率密度関数 確率密度関数は積分したら. 平均 : 確率変数 分散 : 例 ある場所, ある日時での気温の確率. : 気温, : 気温 が起こる確率 標本平均とのアナロジー 類推 例 人の身長の分布と平均

More information

Microsoft PowerPoint ppt

Microsoft PowerPoint ppt 情報科学第 07 回データ解析と統計代表値 平均 分散 度数分布表 1 本日の内容 データ解析とは 統計の基礎的な値 平均と分散 度数分布表とヒストグラム 講義のページ 第 7 回のその他の欄に 本日使用する教材があります 171025.xls というファイルがありますので ダウンロードして デスクトップに保存してください 2/45 はじめに データ解析とは この世の中には多くのデータが溢れています

More information

第7章

第7章 5. 推定と検定母集団分布の母数を推定する方法と仮説検定の方法を解説する まず 母数を一つの値で推定する点推定について 推定精度としての標準誤差を説明する また 母数が区間に存在することを推定する信頼区間も取り扱う 後半は統計的仮説検定について述べる 検定法の基本的な考え方と正規分布および二項確率についての検定法を解説する 5.1. 点推定先に述べた統計量は対応する母数の推定値である このように母数を一つの値およびベクトルで推定する場合を点推定

More information

Microsoft PowerPoint - statistics pptx

Microsoft PowerPoint - statistics pptx 統計学 第 回 講義 仮説検定 Part-3 06 年 6 8 ( )3 限 担当教員 唐渡 広志 ( からと こうじ ) 研究室 経済学研究棟 4 階 43 号室 email kkarato@eco.u-toyama.ac.j webite htt://www3.u-toyama.ac.j/kkarato/ 講義の目的 つの 集団の平均 ( 率 ) に差があるかどうかを検定する 法を理解します keyword:

More information

Python-statistics5 Python で統計学を学ぶ (5) この内容は山田 杉澤 村井 (2008) R によるやさしい統計学 (

Python-statistics5   Python で統計学を学ぶ (5) この内容は山田 杉澤 村井 (2008) R によるやさしい統計学 ( http://localhost:8888/notebooks/... Python で統計学を学ぶ (5) この内容は山田 杉澤 村井 (2008) R によるやさしい統計学 (http://shop.ohmsha.co.jp/shop /shopdetail.html?brandcode=000000001781&search=978-4-274-06710-5&sort=) を参考にしています

More information

Microsoft PowerPoint - 測量学.ppt [互換モード]

Microsoft PowerPoint - 測量学.ppt [互換モード] 8/5/ 誤差理論 測定の分類 性格による分類 独立 ( な ) 測定 : 測定値がある条件を満たさなければならないなどの拘束や制約を持たないで独立して行う測定 条件 ( 付き ) 測定 : 三角形の 3 つの内角の和のように, 個々の測定値間に満たすべき条件式が存在する場合の測定 方法による分類 直接測定 : 距離や角度などを機器を用いて直接行う測定 間接測定 : 求めるべき量を直接測定するのではなく,

More information

<4D F736F F D2090B695A8939D8C768A E F AA957A82C682948C9F92E8>

<4D F736F F D2090B695A8939D8C768A E F AA957A82C682948C9F92E8> 第 8 回 t 分布と t 検定 生物統計学 A.t 分布 ( 小標本に関する平均の推定と検定 ) 前々回と前回の授業では, 標本が十分に大きいあるいは母分散が既知であることを条件に正規分布を用いて推定 検定した. しかし, 母集団が正規分布し, 標本が小さい場合には, 標本分散から母分散を推定するときの不確実さを加味したt 分布を用いて推定 検定しなければならない. t 分布は標本分散の自由度 f(

More information

Microsoft Word - Stattext07.doc

Microsoft Word - Stattext07.doc 7 章正規分布 正規分布 (ormal dstrbuto) は 偶発的なデータのゆらぎによって生じる統計学で最も基本的な確率分布です この章では正規分布についてその性質を詳しく見て行きましょう 7. 一般の正規分布正規分布は 平均と分散の つの量によって完全に特徴付けられています 平均 μ 分散 の正規分布は N ( μ, ) 分布とも書かれます ここに N は ormal の頭文字を 表わしています

More information

Excelによる統計分析検定_知識編_小塚明_5_9章.indd

Excelによる統計分析検定_知識編_小塚明_5_9章.indd 第7章57766 検定と推定 サンプリングによって得られた標本から, 母集団の統計的性質に対して推測を行うことを統計的推測といいます 本章では, 推測統計の根幹をなす仮説検定と推定の基本的な考え方について説明します 前章までの知識を用いて, 具体的な分析を行います 本章以降の知識は操作編での操作に直接関連していますので, 少し聞きなれない言葉ですが, 帰無仮説 有意水準 棄却域 などの意味を理解して,

More information

Microsoft PowerPoint - statistics pptx

Microsoft PowerPoint - statistics pptx 統計学 第 16 回 講義 母平均の区間推定 Part-1 016 年 6 10 ( ) 1 限 担当教員 : 唐渡 広志 ( からと こうじ ) 研究室 : 経済学研究棟 4 階 43 号室 email: kkarato@eco.u-toyama.ac.jp website: http://www3.u-toyama.ac.jp/kkarato/ 1 講義の目的 標本平均は正規分布に従うという性質を

More information

自動車感性評価学 1. 二項検定 内容 2 3. 質的データの解析方法 1 ( 名義尺度 ) 2.χ 2 検定 タイプ 1. 二項検定 官能検査における分類データの解析法 識別できるかを調べる 嗜好に差があるかを調べる 2 点比較法 2 点識別法 2 点嗜好法 3 点比較法 3 点識別法 3 点嗜好

自動車感性評価学 1. 二項検定 内容 2 3. 質的データの解析方法 1 ( 名義尺度 ) 2.χ 2 検定 タイプ 1. 二項検定 官能検査における分類データの解析法 識別できるかを調べる 嗜好に差があるかを調べる 2 点比較法 2 点識別法 2 点嗜好法 3 点比較法 3 点識別法 3 点嗜好 . 内容 3. 質的データの解析方法 ( 名義尺度 ).χ 検定 タイプ. 官能検査における分類データの解析法 識別できるかを調べる 嗜好に差があるかを調べる 点比較法 点識別法 点嗜好法 3 点比較法 3 点識別法 3 点嗜好法 : 点比較法 : 点識別法 配偶法 配偶法 ( 官能評価の基礎と応用 ) 3 A か B かの判定において 回の判定でAが選ばれる回数 kは p の二項分布に従う H :

More information

様々なミクロ計量モデル†

様々なミクロ計量モデル† 担当 : 長倉大輔 ( ながくらだいすけ ) この資料は私の講義において使用するために作成した資料です WEB ページ上で公開しており 自由に参照して頂いて構いません ただし 内容について 一応検証してありますが もし間違いがあった場合でもそれによって生じるいかなる損害 不利益について責任を負いかねますのでご了承ください 間違いは発見次第 継続的に直していますが まだ存在する可能性があります 1 カウントデータモデル

More information

Microsoft PowerPoint - Lecture 10.ppt [互換モード]

Microsoft PowerPoint - Lecture 10.ppt [互換モード] 講義予定 環境プラニング演習 II 第 0 回 009. 6. 7 千葉大学工学部都市環境システム学科 山崎文雄 http://ares.tu.cha-u.jp/ tu ujp/ ( 009 年 4 月 8 日 ( 土 :50 ー 4:0 演習の説明, 微分 積分と数値計算 ( 009 年 4 月 5 日 ( 土 :50 ー 4:0 微分 積分と数値計算 (3 009 年 5 月 9 日 ( 土 :50

More information

経済データ分析A

経済データ分析A 経済データ分析 A 第 6 回 1 変量統計の復習 Excel 操作編 芳賀麻誉美 mayomi@mayomi.org Part2. 基本統計量の算出 ( 平均 分散 標準偏差 ) 3. 式の入力と計算 関数の利用合計 データの個数 平均 分散 標準偏差の求め方 F12~F14 F16 に 文字を入力 ( 行見出し ) 1) データの合計を SUM 関数を使って求める G2:G11 と記述された :(

More information

講義ノート p.2 データの視覚化ヒストグラムの作成直感的な把握のために重要入力間違いがないか確認するデータの分布を把握する fig. ヒストグラムの作成 fig. ヒストグラムの出力例 度数分布表の作成 データの度数を把握する 入力間違いが無いかの確認にも便利 fig. 度数分布表の作成

講義ノート p.2 データの視覚化ヒストグラムの作成直感的な把握のために重要入力間違いがないか確認するデータの分布を把握する fig. ヒストグラムの作成 fig. ヒストグラムの出力例 度数分布表の作成 データの度数を把握する 入力間違いが無いかの確認にも便利 fig. 度数分布表の作成 講義ノート p.1 前回の復習 尺度について数字には情報量に応じて 4 段階の種類がある名義尺度順序尺度 : 質的データ間隔尺度比例尺度 : 量的データ 尺度によって利用できる分析方法に差異がある SPSS での入力の練習と簡単な操作の説明 変数ビューで変数を設定 ( 型や尺度に注意 ) fig. 変数ビュー データビューでデータを入力 fig. データビュー 講義ノート p.2 データの視覚化ヒストグラムの作成直感的な把握のために重要入力間違いがないか確認するデータの分布を把握する

More information

Medical3

Medical3 Chapter 1 1.4.1 1 元配置分散分析と多重比較の実行 3つの治療法による測定値に有意な差が認められるかどうかを分散分析で調べます この例では 因子が1つだけ含まれるため1 元配置分散分析 one-way ANOVA の適用になります また 多重比較法 multiple comparison procedure を用いて 具体的のどの治療法の間に有意差が認められるかを検定します 1. 分析メニュー

More information

Microsoft PowerPoint - Inoue-statistics [互換モード]

Microsoft PowerPoint - Inoue-statistics [互換モード] 誤差論 神戸大学大学院農学研究科 井上一哉 (Kazuya INOUE) 誤差論 2011 年度前期火曜クラス 1 講義内容 誤差と有効数字 (Slide No.2~8 Text p.76~78) 誤差の分布と標準偏差 (Slide No.9~18 Text p.78~80) 最確値とその誤差 (Slide No.19~25 Text p.80~81) 誤差の伝播 (Slide No.26~32 Text

More information

Microsoft PowerPoint - sc7.ppt [互換モード]

Microsoft PowerPoint - sc7.ppt [互換モード] / 社会調査論 本章の概要 本章では クロス集計表を用いた独立性の検定を中心に方法を学ぶ 1) 立命館大学経済学部 寺脇 拓 2 11 1.1 比率の推定 ベルヌーイ分布 (Bernoulli distribution) 浄水器の所有率を推定したいとする 浄水器の所有の有無を表す変数をxで表し 浄水器をもっている を 1 浄水器をもっていない を 0 で表す 母集団の浄水器を持っている人の割合をpで表すとすると

More information

経営統計学

経営統計学 5 章基本統計量 3.5 節で量的データの集計方法について簡単に触れ 前章でデータの分布について学びましたが データの特徴をつの数値で示すこともよく行なわれます これは統計量と呼ばれ 主に分布の中心や拡がりなどを表わします この章ではよく利用される分布の統計量を特徴で分類して説明します 数式表示を統一的に行なうために データの個数を 個とし それらを,,, と表わすことにします ここで学ぶ統計量は統計分析の基礎となっており

More information

スライド 1

スライド 1 計測工学第 12 回以降 測定値の誤差と精度編 2014 年 7 月 2 日 ( 水 )~7 月 16 日 ( 水 ) 知能情報工学科 横田孝義 1 授業計画 4/9 4/16 4/23 5/7 5/14 5/21 5/28 6/4 6/11 6/18 6/25 7/2 7/9 7/16 7/23 2 誤差とその取扱い 3 誤差 = 測定値 真の値 相対誤差 = 誤差 / 真の値 4 誤差 (error)

More information

カイ二乗フィット検定、パラメータの誤差

カイ二乗フィット検定、パラメータの誤差 統計的データ解析 008 008.. 林田清 ( 大阪大学大学院理学研究科 ) 問題 C (, ) ( x xˆ) ( y yˆ) σ x πσ σ y y Pabx (, ;,,, ) ˆ y σx σ y = dx exp exp πσx ただし xy ˆ ˆ はyˆ = axˆ+ bであらわされる直線モデル上の点 ( ˆ) ( ˆ ) ( ) x x y ax b y ax b Pabx (,

More information

Probit , Mixed logit

Probit , Mixed logit Probit, Mixed logit 2016/5/16 スタートアップゼミ #5 B4 後藤祥孝 1 0. 目次 Probit モデルについて 1. モデル概要 2. 定式化と理解 3. 推定 Mixed logit モデルについて 4. モデル概要 5. 定式化と理解 6. 推定 2 1.Probit 概要 プロビットモデルとは. 効用関数の誤差項に多変量正規分布を仮定したもの. 誤差項には様々な要因が存在するため,

More information

Microsoft Word - Stattext13.doc

Microsoft Word - Stattext13.doc 3 章対応のある 群間の量的データの検定 3. 検定手順 この章では対応がある場合の量的データの検定方法について学びます この場合も図 3. のように最初に正規に従うかどうかを調べます 正規性が認められた場合は対応がある場合の t 検定 正規性が認められない場合はウィルコクソン (Wlcoxo) の符号付き順位和検定を行ないます 章で述べた検定方法と似ていますが ここでは対応のあるデータ同士を引き算した値を用いて判断します

More information

Microsoft Word - apstattext04.docx

Microsoft Word - apstattext04.docx 4 章母集団と指定値との量的データの検定 4.1 検定手順今までは質的データの検定の方法を学んで来ましたが これからは量的データについてよく利用される方法を説明します 量的データでは データの分布が正規分布か否かで検定の方法が著しく異なります この章ではまずデータの分布の正規性を調べる方法を述べ 次にデータの平均値または中央値がある指定された値と違うかどうかの検定方法を説明します 以下の図 4.1.1

More information

多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典

多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典 多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典 重回帰分析とは? 重回帰分析とは複数の説明変数から目的変数との関係性を予測 評価説明変数 ( 数量データ ) は目的変数を説明するのに有効であるか得られた関係性より未知のデータの妥当性を判断する これを重回帰分析という つまり どんなことをするのか? 1 最小 2 乗法により重回帰モデルを想定 2 自由度調整済寄与率を求め

More information

数値計算法

数値計算法 数値計算法 008 4/3 林田清 ( 大阪大学大学院理学研究科 ) 実験データの統計処理その 誤差について 母集団と標本 平均値と標準偏差 誤差伝播 最尤法 平均値につく誤差 誤差 (Error): 真の値からのずれ 測定誤差 物差しが曲がっていた 測定する対象が室温が低いため縮んでいた g の単位までしかデジタル表示されない計りで g 以下 計りの目盛りを読み取る角度によって値が異なる 統計誤差

More information

Microsoft Word - Stattext11.doc

Microsoft Word - Stattext11.doc 章母集団と指定値との量的データの検定. 検定手順 前章で質的データの検定手法について説明しましたので ここからは量的データの検定について話します 量的データの検定は少し分量が多くなりますので 母集団と指定値との検定 対応のない 群間の検定 対応のある 群間の検定 と 3つに章を分けて話を進めることにします ここでは 母集団と指定値との検定について説明します 例えば全国平均が分かっている場合で ある地域の標本と全国平均を比較するような場合や

More information

Microsoft PowerPoint - Statistics[B]

Microsoft PowerPoint - Statistics[B] 講義の目的 サンプルサイズの大きい標本比率の分布は正規分布で近似できることを理解します 科目コード 130509, 130609, 110225 統計学講義第 19/20 回 2019 年 6 月 25 日 ( 火 )6/7 限 担当教員 : 唐渡広志 ( からと こうじ ) 研究室 : email: website: 経済学研究棟 4 階 432 号室 kkarato@eco.u-toyama.ac.jp

More information

確率分布 - 確率と計算 1 6 回に 1 回の割合で 1 の目が出るさいころがある. このさいころを 6 回投げたとき,1 度も 1 の目が出ない確率を求めよ. 5 6 /6 6 =15625/46656= (5/6) 6 = ある市の気象観測所での記録では, 毎年雨の降る

確率分布 - 確率と計算 1 6 回に 1 回の割合で 1 の目が出るさいころがある. このさいころを 6 回投げたとき,1 度も 1 の目が出ない確率を求めよ. 5 6 /6 6 =15625/46656= (5/6) 6 = ある市の気象観測所での記録では, 毎年雨の降る 確率分布 - 確率と計算 6 回に 回の割合で の目が出るさいころがある. このさいころを 6 回投げたとき 度も の目が出ない確率を求めよ. 5 6 /6 6 =565/46656=.48 (5/6) 6 =.48 ある市の気象観測所での記録では 毎年雨の降る日と降らない日の割合は概ね :9 で一定している. 前日に発表される予報の精度は 8% で 残りの % は実際とは逆の天気を予報している.

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション 1/X Chapter 9: Linear correlation Cohen, B. H. (2007). In B. H. Cohen (Ed.), Explaining Psychological Statistics (3rd ed.) (pp. 255-285). NJ: Wiley. 概要 2/X 相関係数とは何か 相関係数の数式 検定 注意点 フィッシャーのZ 変換 信頼区間 相関係数の差の検定

More information

はじめに Excel における計算式の入力方法の基礎 Excel では計算式を入力することで様々な計算を行うことができる 例えば はセルに =SQRT((4^2)/3+3*5-2) と入力することで算出される ( 答え ) どのような数式が使えるかは 数式

はじめに Excel における計算式の入力方法の基礎 Excel では計算式を入力することで様々な計算を行うことができる 例えば はセルに =SQRT((4^2)/3+3*5-2) と入力することで算出される ( 答え ) どのような数式が使えるかは 数式 統計演習 統計 とはバラツキのあるデータから数値上の性質や規則性あるいは不規則性を 客観的に分析 評価する手法のことである 統計的手法には様々なものが含まれるが 今回はそのなかから 記述統計と統計学的推測について簡単にふれる 記述統計 : 収集した標本の平均や分散 標準偏差などを計算し データの示す傾向や性質を要約して把握する手法のこと 求められた値を記述統計量 ( または要約統計量 ) と言う 平均値

More information

ii 2. F. ( ), ,,. 5. G., L., D. ( ) ( ), 2005.,. 6.,,. 7.,. 8. ( ), , (20 ). 1. (75% ) (25% ). 60.,. 2. =8 5, =8 4 (. 1.) 1.,,

ii 2. F. ( ), ,,. 5. G., L., D. ( ) ( ), 2005.,. 6.,,. 7.,. 8. ( ), , (20 ). 1. (75% ) (25% ). 60.,. 2. =8 5, =8 4 (. 1.) 1.,, (1 C205) 4 8 27(2015) http://www.math.is.tohoku.ac.jp/~obata,.,,,..,,. 1. 2. 3. 4. 5. 6. 7.... 1., 2014... 2. P. G., 1995.,. 3.,. 4.. 5., 1996... 1., 2007,. ii 2. F. ( ),.. 3... 4.,,. 5. G., L., D. ( )

More information

経済統計分析1 イントロダクション

経済統計分析1 イントロダクション 1 経済統計分析 9 分散分析 今日のおはなし. 検定 statistical test のいろいろ 2 変数の関係を調べる手段のひとつ適合度検定独立性検定分散分析 今日のタネ 吉田耕作.2006. 直感的統計学. 日経 BP. 中村隆英ほか.1984. 統計入門. 東大出版会. 2 仮説検定の手続き 仮説検定のロジック もし帰無仮説が正しければ, 検定統計量が既知の分布に従う 計算された検定統計量の値から,

More information

Microsoft Word - lec_student-chp3_1-representative

Microsoft Word - lec_student-chp3_1-representative 1. はじめに この節でのテーマ データ分布の中心位置を数値で表す 可視化でとらえた分布の中心位置を数量化する 平均値とメジアン, 幾何平均 この節での到達目標 1 平均値 メジアン 幾何平均の定義を書ける 2 平均値とメジアン, 幾何平均の特徴と使える状況を説明できる. 3 平均値 メジアン 幾何平均を計算できる 2. 特性値 集めたデータを度数分布表やヒストグラムに整理する ( 可視化する )

More information

森林水文 水資源学 2 2. 水文統計 豪雨があった時, 新聞やテレビのニュースで 50 年に一度の大雨だった などと報告されることがある. 今争点となっている川辺川ダムは,80 年に 1 回の洪水を想定して治水計画が立てられている. 畑地かんがいでは,10 年に 1 回の渇水を対象として計画が立て

森林水文 水資源学 2 2. 水文統計 豪雨があった時, 新聞やテレビのニュースで 50 年に一度の大雨だった などと報告されることがある. 今争点となっている川辺川ダムは,80 年に 1 回の洪水を想定して治水計画が立てられている. 畑地かんがいでは,10 年に 1 回の渇水を対象として計画が立て . 水文統計 豪雨があった時, 新聞やテレビのニュースで 50 年に一度の大雨だった などと報告されることがある. 今争点となっている川辺川ダムは,80 年に 回の洪水を想定して治水計画が立てられている. 畑地かんがいでは,0 年に 回の渇水を対象として計画が立てられる. このように, 水利構造物の設計や, 治水や利水の計画などでは, 年に 回起こるような降雨事象 ( 最大降雨強度, 最大連続干天日数など

More information

Microsoft PowerPoint - データ解析基礎4.ppt [互換モード]

Microsoft PowerPoint - データ解析基礎4.ppt [互換モード] データ解析基礎. 正規分布と相関係数 keyword 正規分布 正規分布の性質 偏差値 変数間の関係を表す統計量 共分散 相関係数 散布図 正規分布 世の中の多くの現象は, 標本数を大きくしていくと, 正規分布に近づいていくことが知られている. 正規分布 データ解析の基礎となる重要な分布 平均と分散によって特徴づけることができる. 平均値 : 分布の中心を表す値 分散 : 分布のばらつきを表す値 正規分布

More information

Microsoft PowerPoint - statistics08_03.ppt [互換モード]

Microsoft PowerPoint - statistics08_03.ppt [互換モード] 授業担当 : 徳永伸一 東京医科歯科大学教養部 数学講座 前回 ( 第 2 回 ) の授業の概要 : 第 1 回 ( 教科書第 9 章 順列 組合せと確率 ほぼ全部 ) の復習 教科書第 10 章 記述統計 S. TOKUNAGA 2 1 Overview 確率 (9 章 ) 記述統計 (10 章 ) 情報の要約 表やグラフで表す 代表値 ( 平均など ) や散布度 ( 分散など ) を求める 確率モデル

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション 総務省 ICTスキル総合習得教材 概要版 eラーニング用 [ コース3] データ分析 3-3: 基本統計量 クロス集計表の作成 [ コース1] データ収集 [ コース2] データ蓄積 [ コース3] データ分析 [ コース4] データ利活用 1 2 3 4 5 座学実習紹介[3] ピボットテーブルとクロス集計表 本講座の学習内容 (3-3: 基本統計量 クロス集計表の作成 ) 講座概要 数値データの尺度に基づく

More information

Microsoft PowerPoint - 資料04 重回帰分析.ppt

Microsoft PowerPoint - 資料04 重回帰分析.ppt 04. 重回帰分析 京都大学 加納学 Division of Process Control & Process Sstems Engineering Department of Chemical Engineering, Koto Universit manabu@cheme.koto-u.ac.jp http://www-pse.cheme.koto-u.ac.jp/~kano/ Outline

More information

RSS Higher Certificate in Statistics, Specimen A Module 3: Basic Statistical Methods Solutions Question 1 (i) 帰無仮説 : 200C と 250C において鉄鋼の破壊応力の母平均には違いはな

RSS Higher Certificate in Statistics, Specimen A Module 3: Basic Statistical Methods Solutions Question 1 (i) 帰無仮説 : 200C と 250C において鉄鋼の破壊応力の母平均には違いはな RSS Higher Certiicate in Statistics, Specimen A Module 3: Basic Statistical Methods Solutions Question (i) 帰無仮説 : 00C と 50C において鉄鋼の破壊応力の母平均には違いはない. 対立仮説 : 破壊応力の母平均には違いがあり, 50C の方ときの方が大きい. n 8, n 7, x 59.6,

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション 学位論文作成のための疫学 統計解析の実際 徳島大学大学院 医歯薬学研究部 社会医学系 予防医学分野 有澤孝吉 (e-mail: karisawa@tokushima-u.ac.jp) 本日の講義の内容 (SPSS を用いて ) 記述統計 ( データのまとめ方 ) 代表値 ばらつき正規確率プロット 正規性の検定標準偏差 不偏標準偏差 標準誤差の区別中心極限定理母平均の区間推定 ( 母集団の標準偏差が既知の場合

More information

Medical3

Medical3 1.4.1 クロス集計表の作成 -l m 分割表 - 3つ以上のカテゴリを含む変数を用いて l mのクロス集計表による分析を行います この例では race( 人種 ) によってlow( 低体重出生 ) に差が認められるかどうかを分析します 人種には3つのカテゴリ 低体重出生には2つのカテゴリが含まれています 2つの変数はともにカテゴリ変数であるため クロス集計表によって分析します 1. 分析メニュー

More information

切片 ( 定数項 ) ダミー 以下の単回帰モデルを考えよう これは賃金と就業年数の関係を分析している : ( 賃金関数 ) ここで Y i = α + β X i + u i, i =1,, n, u i ~ i.i.d. N(0, σ 2 ) Y i : 賃金の対数値, X i : 就業年数. (

切片 ( 定数項 ) ダミー 以下の単回帰モデルを考えよう これは賃金と就業年数の関係を分析している : ( 賃金関数 ) ここで Y i = α + β X i + u i, i =1,, n, u i ~ i.i.d. N(0, σ 2 ) Y i : 賃金の対数値, X i : 就業年数. ( 統計学ダミー変数による分析 担当 : 長倉大輔 ( ながくらだいすけ ) 1 切片 ( 定数項 ) ダミー 以下の単回帰モデルを考えよう これは賃金と就業年数の関係を分析している : ( 賃金関数 ) ここで Y i = α + β X i + u i, i =1,, n, u i ~ i.i.d. N(0, σ 2 ) Y i : 賃金の対数値, X i : 就業年数. ( 実際は賃金を就業年数だけで説明するのは現実的はない

More information

Kumamoto University Center for Multimedia and Information Technologies Lab. 熊本大学アプリケーション実験 ~ 実環境における無線 LAN 受信電波強度を用いた位置推定手法の検討 ~ InKIAI 宮崎県美郷

Kumamoto University Center for Multimedia and Information Technologies Lab. 熊本大学アプリケーション実験 ~ 実環境における無線 LAN 受信電波強度を用いた位置推定手法の検討 ~ InKIAI 宮崎県美郷 熊本大学アプリケーション実験 ~ 実環境における無線 LAN 受信電波強度を用いた位置推定手法の検討 ~ InKIAI プロジェクト @ 宮崎県美郷町 熊本大学副島慶人川村諒 1 実験の目的 従来 信号の受信電波強度 (RSSI:RecevedSgnal StrengthIndcator) により 対象の位置を推定する手法として 無線 LAN の AP(AccessPont) から受信する信号の減衰量をもとに位置を推定する手法が多く検討されている

More information

Microsoft Word - 保健医療統計学112817完成版.docx

Microsoft Word - 保健医療統計学112817完成版.docx 講義で使用するので テキスト ( 地域診断のすすめ方 ) を必ず持参すること 5 4 統計処理のすすめ方 ( テキスト P. 134 136) 1. 6つのステップ 分布を知る ( 度数分布表 ヒストグラム ) 基礎統計量を求める Ø 代表値 Ø バラツキ : 範囲 ( 最大値 最小値 四分位偏位 ) 分散 標準偏差 標準誤差 集計する ( 単純集計 クロス集計 ) 母集団の情報を推定する ( 母平均

More information

タイトルを修正 軸ラベルを挿入グラフツール デザイン グラフ要素を追加 軸ラベル 第 1 横 ( 縦 ) 軸 凡例は削除 横軸は, 軸の目盛範囲の最小値 最 大値を手動で設定して調整 図 2 散布図の仕上げ見本 相関係数の計算 散布図を見ると, 因果関係はともかく, 人口と輸送量の間には相関関係があ

タイトルを修正 軸ラベルを挿入グラフツール デザイン グラフ要素を追加 軸ラベル 第 1 横 ( 縦 ) 軸 凡例は削除 横軸は, 軸の目盛範囲の最小値 最 大値を手動で設定して調整 図 2 散布図の仕上げ見本 相関係数の計算 散布図を見ると, 因果関係はともかく, 人口と輸送量の間には相関関係があ Excel を使った相関係数の計算 回帰分析 準備データは授業のホームページ上に Excel ブックの状態 ( ファイル名 pop_traffic.xlsx) で用意してあるので, これをダウンロードして保存しておく ダウンロードされたファイルを開いたら,DATA シート中の空欄 (POP,TK の列 ) をそれぞれの合計値 (POP の場合は,POP1~POP3) で埋めるように,SUM 関数あるいは和の式を使って処理しておく

More information

Microsoft PowerPoint - Econometrics pptx

Microsoft PowerPoint - Econometrics pptx 計量経済学講義 第 4 回回帰モデルの診断と選択 Part 07 年 ( ) 限 担当教員 : 唐渡 広志 研究室 : 経済学研究棟 4 階 43 号室 emal: kkarato@eco.u-toyama.ac.p webste: http://www3.u-toyama.ac.p/kkarato/ 講義の目的 誤差項の分散が不均 である場合や, 系列相関を持つ場合についての検定 法と修正 法を学びます

More information

<4D F736F F D208EC08CB18C7689E68A E F1939D8C E82E646F63>

<4D F736F F D208EC08CB18C7689E68A E F1939D8C E82E646F63> 第 5 回統計的推定 実験計画学 A. 統計的推定と検定母集団から無作為抽出した標本から母集団についてなんらかの推論を行う. この場合, 統計から行う推論には統計的 ( ) と統計的 ( ) の 2つがある. 推定統計的に標本の統計量から母集団の母数 ( 母平均, 母標準偏差など ) を推論することを統計的推定という. 例 : 視聴率調査を 200 人に対して行い, 番組 Aの視聴率を推定した. 検定統計的に標本の統計量から母数に関する予想の真偽を検証することを統計的検定という.

More information

<4D F736F F D208D A778D5A8A778F4B8E7793B CC A7795D2816A2E646F6378>

<4D F736F F D208D A778D5A8A778F4B8E7793B CC A7795D2816A2E646F6378> 高等学校学習指導要領解説数学統計関係部分抜粋 第 部数学第 2 章各科目第 節数学 Ⅰ 3 内容と内容の取扱い (4) データの分析 (4) データの分析統計の基本的な考えを理解するとともに, それを用いてデータを整理 分析し傾向を把握できるようにする アデータの散らばり四分位偏差, 分散及び標準偏差などの意味について理解し, それらを用いてデータの傾向を把握し, 説明すること イデータの相関散布図や相関係数の意味を理解し,

More information

3章 度数分布とヒストグラム

3章 度数分布とヒストグラム 度数分布とヒストグラム データとは 複雑な確率ゲームから生まれたと考えてよい データ分析の第一歩として データの持つ基本的特性を把握することが重要である 分析の流れ データの分布 ( 散らばり ) を 度数分布表にまとめ グラフ化する グラフに 平均値や分散など 分布の特徴を示す客観的な数値を加える データが母集団からのランダムサンプルならば 母集団についての推測を行う 度数分布とヒストグラムの作成

More information

数値計算法

数値計算法 数値計算法 011/5/5 林田清 ( 大阪大学大学院理学研究科 ) レポート課題 1( 締め切りは 5/5) 平均値と標準偏差を求めるプログラム 入力 : データの数 データ データは以下の 10 個 ( 例えばある月の最高気温 ( )10 日分 ) 34.3,5.0,3.,34.6,.9,7.7,30.6,5.8,3.0,31.3 出力 :( 標本 ) 平均値 標準偏差 ソースプログラムと出力結果をメイルの本文にして

More information

目次 1 章 SPSS の基礎 基本 はじめに 基本操作方法 章データの編集 はじめに 値ラベルの利用 計算結果に基づく新変数の作成 値のグループ化 値の昇順

目次 1 章 SPSS の基礎 基本 はじめに 基本操作方法 章データの編集 はじめに 値ラベルの利用 計算結果に基づく新変数の作成 値のグループ化 値の昇順 SPSS 講習会テキスト 明治大学教育の情報化推進本部 IZM20140527 目次 1 章 SPSS の基礎 基本... 3 1.1 はじめに... 3 1.2 基本操作方法... 3 2 章データの編集... 6 2.1 はじめに... 6 2.2 値ラベルの利用... 6 2.3 計算結果に基づく新変数の作成... 7 2.4 値のグループ化... 8 2.5 値の昇順 降順... 10 3

More information

JMP による 2 群間の比較 SAS Institute Japan 株式会社 JMP ジャパン事業部 2008 年 3 月 JMP で t 検定や Wilcoxon 検定はどのメニューで実行できるのか または検定を行う際の前提条件の評価 ( 正規性 等分散性 ) はどのメニューで実行できるのかと

JMP による 2 群間の比較 SAS Institute Japan 株式会社 JMP ジャパン事業部 2008 年 3 月 JMP で t 検定や Wilcoxon 検定はどのメニューで実行できるのか または検定を行う際の前提条件の評価 ( 正規性 等分散性 ) はどのメニューで実行できるのかと JMP による 2 群間の比較 SAS Institute Japan 株式会社 JMP ジャパン事業部 2008 年 3 月 JMP で t 検定や Wilcoxon 検定はどのメニューで実行できるのか または検定を行う際の前提条件の評価 ( 正規性 等分散性 ) はどのメニューで実行できるのかというお問い合わせがよくあります そこで本文書では これらについて の回答を 例題を用いて説明します 1.

More information

13章 回帰分析

13章 回帰分析 単回帰分析 つ以上の変数についての関係を見る つの 目的 被説明 変数を その他の 説明 変数を使って 予測しようというものである 因果関係とは限らない ここで勉強すること 最小 乗法と回帰直線 決定係数とは何か? 最小 乗法と回帰直線 これまで 変数の間の関係の深さについて考えてきた 相関係数 ここでは 変数に役割を与え 一方の 説明 変数を用いて他方の 目的 被説明 変数を説明することを考える

More information

統計学 Ⅱ( 章 ( 区間推定のシミュレーション 母平均 μ の区間推定 X ~ N, のとき X T ~ 自由度 1の t分布 1 自由度 -1のt 分布の97.5% 点 :t.975 P t T t この式に T を代入する t.975 母集団

統計学 Ⅱ( 章 ( 区間推定のシミュレーション 母平均 μ の区間推定 X ~ N, のとき X T ~ 自由度 1の t分布 1 自由度 -1のt 分布の97.5% 点 :t.975 P t T t この式に T を代入する t.975 母集団 統計学 Ⅱ(16 11-1 章 11 章母集団パラメータの推定 1. 信頼区間 (1 点推定と区間推定 ( 区間推定のシミュレーション (3 母平均 μの信頼区間 (4 母比率 pの信頼区間 (5 母比率 pのより厳密な信頼区間. 点推定量の特性 (1 標本平均 X の持つ望ましい性質 ( 不偏性 (3 推定量の分散と有効性 (4 平均 乗誤差 MEと最小分散性 (5 一致性 (6 チェビシェフの不等式

More information

<4D F736F F D208EC08CB18C7689E68A E F1918A8AD695AA90CD2E646F63>

<4D F736F F D208EC08CB18C7689E68A E F1918A8AD695AA90CD2E646F63> 第 回相関分析 9 年 月 日 A.つの変数間の関係を調べる. 散布図を書く例 水稲の収量に関連のある生育指標を知りたい. 例えば草丈と収量には関連があるだろうか? 例 トマトの糖度は施肥量によってどのように変化するかを知りたい. 例えば, 窒素施肥量を増加させると糖度はどうなるか? 散布図の書き方 )x 軸 ( 横軸 ) には原因となる変量を, y 軸 ( 縦軸 ) には結果となる変量をとる. サツマイモの収量

More information

3章 度数分布とヒストグラム

3章 度数分布とヒストグラム 3 章度数分布とヒストグラム データの中の分析 ( 記述統計 ) であれ データの外への推論 ( 推測統計 ) であれ まず データの持つ基本的特性を把握することが重要である 1 分析の流れ データの分布 ( 散らばり ) を 度数分布表にまとめ グラフ化する 3 章 グラフに 平均値や分散など 分布の特徴を示す客観的な数値を加える 4 5 6 章 データが母集団からのランダムサンプルならば 母集団についての推測を行う

More information

Microsoft PowerPoint 確率レジュメA

Microsoft PowerPoint 確率レジュメA 確率統計レジュメ集 ( 前半 ) 202.04.0 版 立命館大学 電子情報デザイン学科 この講義の目標 進め方 この講義は指定教科書の内容をしっかりと理解することを目的とする. 配布するレジュメは その理解を助けるための資料である. 必ず 教科書に書かれた基礎的な内容をひとつひとつ理解するように努めること. レジュメの空欄の箇所は 教科書からそのヒントを見つけることができる. 予習時に教科書を読み

More information

Microsoft Word - 微分入門.doc

Microsoft Word - 微分入門.doc 基本公式 例題 0 定義式 f( ) 数 Ⅲ 微分入門 = の導関数を定義式にもとづいて計算しなさい 基本事項 ( f( ), g( ) が微分可能ならば ) y= f( ) g( ) のとき, y = y= f( ) g( ) h( ) のとき, y = ( f( ), g( ) が微分可能で, g( ) 0 ならば ) f( ) y = のとき, y = g ( ) とくに, y = のとき,

More information

禁無断転載 第 3 章統計的手法に用いられる分布 All rights reserved (C) 芳賀 第 1 節我々の身の回りにある代表的分布と性質 1. 分布の表わし方我々の身の回りにある全てのものは ばらつきを持っています 収集したデータを分析していくためには このばらつきがどのような分布にな

禁無断転載 第 3 章統計的手法に用いられる分布 All rights reserved (C) 芳賀 第 1 節我々の身の回りにある代表的分布と性質 1. 分布の表わし方我々の身の回りにある全てのものは ばらつきを持っています 収集したデータを分析していくためには このばらつきがどのような分布にな 第 3 章統計的手法に用いられる分布 第 節我々の身の回りにある代表的分布と性質. 分布の表わし方我々の身の回りにある全てのものは ばらつきを持っています 収集したデータを分析していくためには このばらつきがどのような分布になっているかを明確に表現し 分析 比較を行えるようにしなければなりません この手法を覚えるようにしましょう () 分布の示し方収集した分布の全体的状態を目視で確認 比較するためには

More information

Excelによる統計分析検定_知識編_小塚明_1_4章.indd

Excelによる統計分析検定_知識編_小塚明_1_4章.indd 第2章 1 変量データのまとめ方 本章では, 記述統計の手法について説明します 具体的には, 得られたデータから表やグラフを作成し, 意昧のある統計量を算出する方法など,1 変量データのまとめ方について学びます 本章から理解を深めるための数式が出てきますが, 必ずしも, これらの式を覚える必要はありません それぞれのデータの性質や統計量の意義を理解することが重要です 円グラフと棒グラフ 1 変量質的データをまとめる方法としてよく使われるグラフは,

More information

Microsoft PowerPoint - R-stat-intro_12.ppt [互換モード]

Microsoft PowerPoint - R-stat-intro_12.ppt [互換モード] R で統計解析入門 (12) 生存時間解析 中篇 準備 : データ DEP の読み込み 1. データ DEP を以下からダウンロードする http://www.cwk.zaq.ne.jp/fkhud708/files/dep.csv /fkh /d 2. ダウンロードした場所を把握する ここでは c:/temp とする 3. R を起動し,2. 2 の場所に移動し, データを読み込む 4. データ

More information

ANOVA

ANOVA 3 つ z のグループの平均を比べる ( 分散分析 : ANOVA: analysis of variance) 分散分析は 全体として 3 つ以上のグループの平均に差があるか ということしかわからないために, どのグループの間に差があったかを確かめるには 多重比較 という方法を用います これは Excel だと自分で計算しなければならないので, 分散分析には統計ソフトを使った方がよいでしょう 1.

More information

Microsoft Word - mstattext02.docx

Microsoft Word - mstattext02.docx 章重回帰分析 複数の変数で 1つの変数を予測するような手法を 重回帰分析 といいます 前の巻でところで述べた回帰分析は 1つの説明変数で目的変数を予測 ( 説明 ) する手法でしたが この説明変数が複数個になったと考えればよいでしょう 重回帰分析はこの予測式を与える分析手法です 以下の例を見て下さい 例 以下のデータ (Samples 重回帰分析 1.txt) をもとに体重を身長と胸囲の1 次関数で

More information

スライド 1

スライド 1 体験統計学 ~ 第 2 回 ~ 本稿の Web ページ 古橋武 1 不偏分散 2 データ : a 1 = 165 [cm] a 2 = 174 [cm] a 3 = 183 [cm] a 4 = 169 [cm] a 5 = 178 [cm] 平均 : a 165 + 174 + 183 + 169 + 178 = 5 = 173.8 総和 :( 具体的な表現 ) V = 1 {(165 173.8)

More information

日心TWS

日心TWS 2017.09.22 (15:40~17:10) 日本心理学会第 81 回大会 TWS ベイジアンデータ解析入門 回帰分析を例に ベイジアンデータ解析 を体験してみる 広島大学大学院教育学研究科平川真 ベイジアン分析のステップ (p.24) 1) データの特定 2) モデルの定義 ( 解釈可能な ) モデルの作成 3) パラメタの事前分布の設定 4) ベイズ推論を用いて パラメタの値に確信度を再配分ベイズ推定

More information

Microsoft PowerPoint - A1.ppt [互換モード]

Microsoft PowerPoint - A1.ppt [互換モード] 011/4/13 付録 A1( 推測統計学の基礎 ) 付録 A1 推測統計学の基礎 1. 統計学. カイ 乗検定 3. 分散分析 4. 相関係数 5. 多変量解析 1. 統計学 3 統計ソフト 4 記述統計学 推測統計学 検定 ノンパラメトリック検定名義 / 分類尺度順序 / 順位尺度パラメトリック検定間隔 / 距離尺度比例 / 比率尺度 SAS SPSS R R-Tps (http://cse.aro.affrc.go.jp/takezawa/r-tps/r.html)

More information

MT2-Slides-13.pptx

MT2-Slides-13.pptx 計測工学 II 第 13 回 Excel による有意差の検定 今日の内容 第 13 回 Excel による有意差の検定 危険率や統計検定 を学習します 有意差とは? 計測して データを取りました データ処理して 特性を調べました それで 何がわかるの? ある治療法だと 病気の治癒率が高い! なぜ そう言い切ることができるの? 有意差があることを示す 意味の有る差 (Significant Difference)

More information

ii 3.,. 4. F. (), ,,. 8.,. 1. (75% ) (25% ) =9 7, =9 8 (. ). 1.,, (). 3.,. 1. ( ).,.,.,.,.,. ( ) (1 2 )., ( ), 0. 2., 1., 0,.

ii 3.,. 4. F. (), ,,. 8.,. 1. (75% ) (25% ) =9 7, =9 8 (. ). 1.,, (). 3.,. 1. ( ).,.,.,.,.,. ( ) (1 2 )., ( ), 0. 2., 1., 0,. 23(2011) (1 C104) 5 11 (2 C206) 5 12 http://www.math.is.tohoku.ac.jp/~obata,.,,,.. 1. 2. 3. 4. 5. 6. 7.,,. 1., 2007 ( ). 2. P. G. Hoel, 1995. 3... 1... 2.,,. ii 3.,. 4. F. (),.. 5.. 6.. 7.,,. 8.,. 1. (75%

More information

(Nov/2009) 2 / = (,,, ) 1 4 3 3 2/8

(Nov/2009) 2 / = (,,, ) 1 4 3 3 2/8 (Nov/2009) 1 sun open-office calc 2 1 2 3 3 1 3 1 2 3 1 2 3 1/8 (Nov/2009) 2 / = (,,, ) 1 4 3 3 2/8 (Nov/2009) 1 (true) false 1 2 2 A1:A10 A 1 2 150 3 200 4 250 5 320 6 330 7 360 8 380 9 420 10 480 (1)

More information