青焼 1章[15-52].indd

Similar documents
EBNと疫学

RSS Higher Certificate in Statistics, Specimen A Module 3: Basic Statistical Methods Solutions Question 1 (i) 帰無仮説 : 200C と 250C において鉄鋼の破壊応力の母平均には違いはな

(3) 検定統計量の有意確率にもとづく仮説の採否データから有意確率 (significant probability, p 値 ) を求め 有意水準と照合する 有意確率とは データの分析によって得られた統計値が偶然おこる確率のこと あらかじめ設定した有意確率より低い場合は 帰無仮説を棄却して対立仮説

Medical3

統計的データ解析

Excelによる統計分析検定_知識編_小塚明_5_9章.indd

Excelによる統計分析検定_知識編_小塚明_1_4章.indd

情報工学概論

自動車感性評価学 1. 二項検定 内容 2 3. 質的データの解析方法 1 ( 名義尺度 ) 2.χ 2 検定 タイプ 1. 二項検定 官能検査における分類データの解析法 識別できるかを調べる 嗜好に差があるかを調べる 2 点比較法 2 点識別法 2 点嗜好法 3 点比較法 3 点識別法 3 点嗜好

スライド 1

講座内容 第 1 週 データサイエンスとは 第 2 週 分析の概念と事例ビジネス課題解決のためのデータ分析基礎 ( 事例と手法 )1 第 3 週 分析の具体的手法ビジネス課題解決のためのデータ分析基礎 ( 事例と手法 )2 第 4 週 ビジネスにおける予測と分析結果の報告ビジネス課題解決のためのデー

Microsoft PowerPoint - R-stat-intro_12.ppt [互換モード]

第 3 回講義の項目と概要 統計的手法入門 : 品質のばらつきを解析する 平均と標準偏差 (P30) a) データは平均を見ただけではわからない 平均が同じだからといって 同一視してはいけない b) データのばらつきを示す 標準偏差 にも注目しよう c) 平均

不偏推定量

MedicalStatisticsForAll.indd

ビジネス統計 統計基礎とエクセル分析 正誤表

<4D F736F F D208EC08CB18C7689E68A E F AA957A82C682948C9F92E82E646F63>

Medical3

Microsoft PowerPoint - sc7.ppt [互換モード]

PowerPoint プレゼンテーション

基礎統計

統計学 - 社会統計の基礎 - 正規分布 標準正規分布累積分布関数の逆関数 t 分布正規分布に従うサンプルの平均の信頼区間 担当 : 岸 康人 資料ページ :

スライド 1

仮説検定を伴う方法では 検定の仮定が満たされ 検定に適切な検出力があり データの分析に使用される近似で有効な結果が得られることを確認することを推奨します カイ二乗検定の場合 仮定はデータ収集に固有であるためデータチェックでは対応しません Minitab は近似法の検出力と妥当性に焦点を絞っています

Python-statistics5 Python で統計学を学ぶ (5) この内容は山田 杉澤 村井 (2008) R によるやさしい統計学 (

EBM&CQ.ppt

Microsoft Word - Power_Analysis_Jp_ docx

異文化言語教育評価論 ⅠA 教育 心理系研究のためのデータ分析入門 第 3 章 t 検定 (2 変数間の平均の差を分析 ) 平成 26 年 5 月 7 日 報告者 :M.S. I.N. 3-1 統計的検定 統計的検定 : 設定した仮説にもとづいて集めた標本を確率論の観点から分析し 仮説検証を行うこと

第7章

Microsoft Word - Stattext13.doc

日本製薬工業協会シンポジウム 生存時間解析の評価指標に関する最近の展開ー RMST (restricted mean survival time) を理解するー 2. RMST の定義と統計的推測 2018 年 6 月 13 日医薬品評価委員会データサイエンス部会タスクフォース 4 生存時間解析チー

解析センターを知っていただく キャンペーン

Microsoft PowerPoint - stat-2014-[9] pptx

13章 回帰分析

講義「○○○○」

Microsoft PowerPoint - statistics pptx

Microsoft PowerPoint - 基礎・経済統計6.ppt

多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典

Microsoft Word - Stattext12.doc

データ科学2.pptx

日心TWS

Kumamoto University Center for Multimedia and Information Technologies Lab. 熊本大学アプリケーション実験 ~ 実環境における無線 LAN 受信電波強度を用いた位置推定手法の検討 ~ InKIAI 宮崎県美郷

Microsoft PowerPoint - statistics pptx

異文化言語教育評価論 ⅠA 第 4 章分散分析 (3 グループ以上の平均を比較する ) 平成 26 年 5 月 14 日 報告者 :D.M. K.S. 4-1 分散分析とは 検定の多重性 t 検定 2 群の平均値を比較する場合の手法分散分析 3 群以上の平均を比較する場合の手法 t 検定

カイ二乗フィット検定、パラメータの誤差

Microsoft PowerPoint - A1.ppt [互換モード]

JMP による 2 群間の比較 SAS Institute Japan 株式会社 JMP ジャパン事業部 2008 年 3 月 JMP で t 検定や Wilcoxon 検定はどのメニューで実行できるのか または検定を行う際の前提条件の評価 ( 正規性 等分散性 ) はどのメニューで実行できるのかと

目次 1 章 SPSS の基礎 基本 はじめに 基本操作方法 章データの編集 はじめに 値ラベルの利用 計算結果に基づく新変数の作成 値のグループ化 値の昇順

Microsoft PowerPoint - statistics pptx

心理学統計法科目コード FB3537 単位数履修方法配当年次担当教員 2 R or SR( 講義 ) 2 年以上河地庸介 2017 年度以前 2018 年度以降に入学した方どちらも履修登録できます 2017 年度以前入学者で 心理学研究法 Ⅱ を履修登録しておらず認定心理士の取得を目指す方 および

モジュール1のまとめ

<4D F736F F D2090B695A8939D8C768A E F AA957A82C682948C9F92E8>

<4D F736F F D204B208C5182CC94E497A682CC8DB782CC8C9F92E BD8F6494E48A722E646F6378>

Microsoft Word - 保健医療統計学112817完成版.docx

Microsoft PowerPoint - e-stat(OLS).pptx

生活設計レジメ

44 4 I (1) ( ) (10 15 ) ( 17 ) ( 3 1 ) (2)

I II III 28 29

切断安定分布による資産収益率のファットテイル性のモデル化とVaR・ESの計測手法におけるモデル・リスクの数値的分析


<4D F736F F D208D A778D5A8A778F4B8E7793B CC A7795D2816A2E646F6378>

統計学の基礎から学ぶ実験計画法ー1

分析のステップ Step 1: Y( 目的変数 ) に対する値の順序を確認 Step 2: モデルのあてはめ を実行 適切なモデルの指定 Step 3: オプションを指定し オッズ比とその信頼区間を表示 以下 このステップに沿って JMP の操作をご説明します Step 1: Y( 目的変数 ) の

Microsoft Word - apstattext04.docx

Microsoft PowerPoint - ch04j

はじめに Excel における計算式の入力方法の基礎 Excel では計算式を入力することで様々な計算を行うことができる 例えば はセルに =SQRT((4^2)/3+3*5-2) と入力することで算出される ( 答え ) どのような数式が使えるかは 数式

JMP によるオッズ比 リスク比 ( ハザード比 ) の算出方法と注意点 SAS Institute Japan 株式会社 JMP ジャパン事業部 2008 年 3 月改定 1. はじめに本文書は JMP でオッズ比 リスク比 それぞれに対する信頼区間を求める算出方法と注意点を述べたものです この後

Microsoft PowerPoint - 統計科学研究所_R_重回帰分析_変数選択_2.ppt

Microsoft PowerPoint - 資料04 重回帰分析.ppt

Microsoft PowerPoint - SAS2012_ZHANG_0629.ppt [互換モード]

Microsoft PowerPoint - データ解析基礎4.ppt [互換モード]

Microsoft PowerPoint - データ解析基礎2.ppt

<4D F736F F F696E74202D B835E82CC8EED97DE B835E82CC834F BB F0955C82B793C190AB926C>

<4D F736F F D208EC08CB18C7689E68A E F1939D8C E82E646F63>

切片 ( 定数項 ) ダミー 以下の単回帰モデルを考えよう これは賃金と就業年数の関係を分析している : ( 賃金関数 ) ここで Y i = α + β X i + u i, i =1,, n, u i ~ i.i.d. N(0, σ 2 ) Y i : 賃金の対数値, X i : 就業年数. (

Microsoft PowerPoint slide2forWeb.ppt [互換モード]

目次 はじめに P 値の落とし穴 P 値に最も影響するもの P 値の落とし穴症例数は研究計画時に設計すべき 解析に用いられた症例数と研究に参加した症例数の食い違い 解析に用いられた症例数と研究に参加した症例数の食い違い除かれた標本の表記求められる症例数の設計 2

Microsoft Word - 【セット版】別添資料2)環境省レッドリストカテゴリー(2012)

PowerPoint プレゼンテーション


1. 多変量解析の基本的な概念 1. 多変量解析の基本的な概念 1.1 多変量解析の目的 人間のデータは多変量データが多いので多変量解析が有用 特性概括評価特性概括評価 症 例 主 治 医 の 主 観 症 例 主 治 医 の 主 観 単変量解析 客観的規準のある要約多変量解析 要約値 客観的規準のな

NLMIXED プロシジャを用いた生存時間解析 伊藤要二アストラゼネカ株式会社臨床統計 プログラミング グループグルプ Survival analysis using PROC NLMIXED Yohji Itoh Clinical Statistics & Programming Group, A

Excelによる統計分析検定_知識編_小塚明_1_4章.indd

Microsoft PowerPoint - 代表値と散布度.ppt [互換モード]

統計学 Ⅱ( 章 ( 区間推定のシミュレーション 母平均 μ の区間推定 X ~ N, のとき X T ~ 自由度 1の t分布 1 自由度 -1のt 分布の97.5% 点 :t.975 P t T t この式に T を代入する t.975 母集団

Microsoft Word - appendix_b

Microsoft PowerPoint - R-stat-intro_04.ppt [互換モード]

経営統計学

<4D F736F F D208EC08CB18C7689E68A E F193F18D8095AA957A C C839395AA957A814590B38B4B95AA957A2E646F63>

<4D F736F F D208EC08CB18C7689E68A E F1918A8AD695AA90CD2E646F63>

本冊子の利用にあたって 本冊子は 能力強化研修で扱う内容を理解する上で助けとなるであろう統計学の基礎事 項を選択肢形式の問題として提示したものです 統計学に不安のある受講生は事前の学 習として活用ください 試験ではないので正答数自体は重要ではありません より効果的な学習 復習となるよ う 次のような

Microsoft Word - å“Ÿåłžå¸°173.docx

Microsoft PowerPoint - 測量学.ppt [互換モード]

ダンゴムシの 交替性転向反応に 関する研究 3A15 今野直輝

ファイナンスのための数学基礎 第1回 オリエンテーション、ベクトル

1

解答のポイント 第 1 章問 1 ポイント仮に1 年生全員の数が 100 人であったとする.100 人全員に数学の試験を課して, それらの 100 人の個人個人の点数が母集団となる. 問 2 ポイント仮に10 人を抽出するとする. 学生に1から 100 までの番号を割り当てたとする. 箱の中に番号札

10 年相対生存率 全患者 相対生存率 (%) (Period 法 ) Key Point 1

スライド 1

untitled

Transcription:

1 第 1 章統計の基礎知識 1 1 なぜ統計解析が必要なのか? 人間は自分自身の経験にもとづいて 感覚的にものごとを判断しがちである 例えばある疾患に対する標準治療薬の有効率が 50% であったとする そこに新薬が登場し ある医師がその新薬を 5 人の患者に使ったところ 4 人が有効と判定されたとしたら 多くの医師はこれまでの標準治療薬よりも新薬のほうが有効性が高そうだと感じることだろう しかし たまたま有効性が出やすい 5 人に治療が行われたにすぎないかもしれない 同じ疾患を有する患者であったとしても 疾患の細かな分類や進行度 患者の年齢 性別 臓器の状態などによって有効率は左右される さらに背景の条件が全く同じであったとしても有効率にばらつきは生じる 治療に対して思い入れが強ければ強いほど 治療結果に大きく一喜一憂し 客観的な評価が困難となる 印象に残る結果は感覚的な判断を偏らせてしまう 統計解析の目的は 前提としてこのような様々なばらつきが存在する状況の中で 限られた標本 (sample) から母集団 (population) を推測し より一般的な結論を導き出そうとすることである 母集団の定義は状況によって異なるが 例えばある疾患に対する新薬の有効性を評価するのであれば その疾患を有するすべての患者が母集団となる 統計解析をしていると 目の前にあるデータだけを対象としているような錯覚にとらわれることがあるが 実際に行っていることは その標本を用いて本当の母集団の全体像を推定しようとしているのである ( 選挙の出口調査による全体の投票数や議席数の予測をイメージすればよい )

2 第 1 章統計の基礎知識 統計解析の目的は 母集団から抽出した標本 ( サンプル ) を用いて 解析することによって 母集団を推測することである 解析 の 2 変数の種類とその要約 1 変数の種類統計解析で扱う主な変数は連続変数 (continuous variable) 順序変数 (ordinal variable) 名義変数(categorical/nominal variable) の 3 つに分けられる 連続変数は身長 体重など 数値で表される定量的なデータを意味する 順序変数 名義変数はいずれも質的なデータであるが 順序変数は尿蛋白の (-) (±) (+) (2+) (3+) や 腫瘍の進行度のステージ I II III IV のように順序づけられたものである 一方 名義変数は 性別の男性 女性や ABO 血液型の A B O AB 型のように順序の関係がない ( 男性 女性 あるいは有効 無効のように二値だけを持つ場合は二値変数あるいは二区分変数 (binary variable) とも呼ばれる ) 特殊な変数として医学統計ではしばしば生存期間の解析が行われる 正確にいうと 必ずしも生存期間だけを対象とする解析ではなく ある時点からあるできごと ( イベント ) が発生するまでの期間 (time-to-event variable) の解析であり 死亡がイベントとして定義された場合に生存期間の解析が行われることになる この解析方法の特徴は ある時期まで生存していた ( あるいはイベントが発生していなかった ) ことは知られているが その後の情報が得られないよう場合に観察打ち切り (censor) として解析に含めることができる点である 例えば ある疾患に対して特定の治療を行った後の生存期間を解析する場合に 最終観察時点で生存中の患者の真の生存期間は不明であるが その時点で打ち切りとして扱うことによって

第 1 章統計の基礎知識 3 解析に含めることができる この解析においては イベントが 1 回しか発生しないものであることと 打ち切りとなる理由が解析対象のイベントの発生とは無関係であることが必要である 例えば悪性腫瘍に対する化学療法後の生存期間の解析において 打ち切りとなった理由が他院への転院のような場合は 病状が増悪して死期の近づいた患者がしばしばホスピスに転院するという背景が解析上の偏り ( バイアス ) を生じてしまう危険性がある 2 変数の要約 信頼区間各変数を要約して記述する方法はそれぞれの解析のところで詳しく述べるが まずは全体像を眺めることが重要である 名義変数なら頻度分布を 連続変数であれば散布 ヒストグラム 箱ひげなどを描いてみる 生存期間を表すためには Kaplan-Meier 曲線が用いられる 各変数を端的に記述するには それらを代表する値と信頼区間 (confidence interval,ci) が役に立つ 例えば 有効と無効の二値の名義変数なら比率 ( 有効率 ) とその信頼区間 正規分布に従う連続変数ならその平均値とその信頼区間 ( あるいはばらつきを示したければ平均値と標準偏差 ) などである 50 人の患者にある治療を行って 30 人が有効 20 人が無効という結果であったとしたら 有効率は 30/50=60% である この 60% という数値が母集団の有効率に対する点推定である 一方 信頼区間の計算は区間推定といわれる 母集団からサンプルを抽出することによって推定した 95% 信頼区間が母集団の真の比率を含む確率は 95% である ( 非常に似通った表現だが 母集団の真の比率が 95% 信頼区間に中に含まれる確率が 95% という表現とは異なる 真の母集団の比率は常に一定であり サンプリングするごとに信頼区間の方が変化するのである ) なお 95% という数値は慣習上しばしば使われているだけであり 状況によっては 99% 信頼区間や 90% 信頼区間なども用いられる P 値の有意水準として慣習的に 5% がしばしば用いられていることと同じことである

4 第 1 章統計の基礎知識 名義変数 連続変数を要約 記述する方法の例 分割表 ヒストグラム 計 1 1 1 1 1 計 11 散布 箱ひげ ン イル ン イル ン イル 1 ン イル 3 群間の比較 P 値とは? 2 群を統計学的に比較するには 2 つの方法がある 1 つは 2 群の差あるいは比の信頼区間を計算することである 2 群の差の 95% 信頼区間が 0 を含まなければ あるいは 2 群の比の 95% 信頼区間が 1 を含まなければ有意差があると結論される ( これは P<0.05 に相当する ) もう 1 つは P 値を計算することである この 2 つの方法は同じ統計学的原理と前提にもとづいている まず P 値を計算する前に

第 1 章統計の基礎知識 5 サンプルが母集団からランダムに抽出されているという前提のもとで帰無仮説 (null hypothesis, H0) をたてる 帰無仮説とは 2 つの母集団には違いはなく 観察された結果における 2 群の差は偶然にすぎないという仮説である P 値はこの帰無仮説が真である場合に 実際に観察された あるいはそれ以上の 2 群の差が観察される確率である この確率が非常に小さい場合 帰無仮説は正しくないと判断され ( 棄却され ) 2 群に有意な差があると考える 2 群の差の 95% 信頼区間による群間比較 矢印の幅が信頼区間を示す 信頼区間が 0 を またいでいない場合に有意差があると考える の の の の の の ののの P 値がどれぐらい小さければ有意と判断するかの閾値が有意水準 (significance level, α) である αは習慣上 0.05(5%) に設定されている ( つまり 5% ぐらいのエラーは容認せざるを得ないという前提 ) が 目的に応じて定められるべきであり 状況によっては 0.01 0.001 などが用いられることもある P 値がαよりも小さければ有意と判断するわけであるが すると帰無仮説が実際には真であるにもかかわらず それを棄却してしまう過誤 ( エラー ) が生じる確率もαとなる このような過誤を第 Ⅰ 種の過誤 (Type Ⅰ error,α error) という 逆に実際には帰無仮説が偽であるにもかかわらず これを棄却しない過誤を第 Ⅱ 種の過誤 (Type Ⅱ error,β error) という αの値を小さくすると第 Ⅰ 種の過誤は減少するが第 Ⅱ 種の過誤が増加し 逆にαの値を大きくすると 第 Ⅰ 種の過誤は増加するが 第 Ⅱ 種の過誤は減少する 両方の過誤を減少させる唯一の方法はより大きいサンプルを集めることである サンプルサイズが大きくなればβは小さくなり すなわち統計学的な検出力 (power,1-β) は大きくなる