本日の内容 G.Verbeke, and G.Molenberghs. 著 Linear Mixed Models for Longitudinal Data (Springer, 以下 テキスト と呼びます ) の 章のうち モデリングに関する部分をまとめます 最後の方を除いて 誤差は
|
|
|
- こうざぶろう なかじゅく
- 7 years ago
- Views:
Transcription
1 経時データのモデリング (1) 第 10 回 BioS 継続勉強会 土居正明 1
2 本日の内容 G.Verbeke, and G.Molenberghs. 著 Linear Mixed Models for Longitudinal Data (Springer, 以下 テキスト と呼びます ) の 章のうち モデリングに関する部分をまとめます 最後の方を除いて 誤差は独立と仮定しています 誤差の系列相関は 次回扱います 参考文献は 今回と次回の内容を合わせたものです 2
3 本日の内容 1. はじめに ( データの紹介 モデリングの基礎 ) 2. 3 章の内容 3. 6 章の内容 4. 9 章の内容 5. まとめと参考文献 3
4 注意 テキストは 記号の使い方等が結構いい加減です ( 確率変数とその実現値の使い分け など ) 数理的な部分で たまに間違い ( 誤植と呼ぶには大きいもの ) もあります 本資料ではテキストより記号等を変更しています 大抵は意図的に 修正 していますので 大体はこっちの方が正しいです ( が 誤植は結構あるはずです ) LMM は線形混合効果モデル (Linear Mixed Model) の略です 分散成分の推定には 特に断りがなければ REML 法を用いています 4
5 1. はじめに ( データの紹介 モデリングの基礎 ) 5
6 はじめに 症例の個の時点のデータが 1 症例の経時変化 である 6
7 本書を通して大事なこと 目的は探索解析 本当のモデルは分からないので 探索しましょう 使える モデルをみつけるための 試行錯誤 の方法論を考えましょう Essentially, all models are wrong, but some are useful. (by G.E.P. Box) 7
8 統計で最も重要なこと ( 私見 ) 全ての tool は不完全である プロットして目視 尤度比検定 情報量規準など どれも 決定的 な知識はくれない これさえしておけば絶対大丈夫 という人は信用してはいけません しかし 不完全だからいい加減でよい わけではない むしろ 不完全なので 一層注意深く観察 検討しよう という態度が重要 最終モデルに対しても もしかしたら不完全かも と思うこと ただし 現在の知識 情報 技術ではここが限界 というまで検討することが大事 8
9 モデリングとは ( 私見 ) 全く分からない から入って 少しは分かったかも で終わるもの 完全に分かる = 真のモデルが分かる は ( 人間の力では ) あり得ない 情報がさらに蓄積すれば 構築されるモデルは変わりうる あまり自信のない判断をせざるを得なくなるときもあるが その時は ここで微妙な判断をした ということを忘れないことが重要 自分のモデルを冷静に評価すること 9
10 経時データのモデリング 決めなければいけないものがたくさんある ( は 9 章までのテーマ ) 平均構造 どの要因を選ぶか? 変量効果の分散構造 誤差の相関構造 10 章のテーマ (3.8) 10
11 今回のモデルの 固定効果 変量効果 誤差 固定効果 : に依存しない 全症例 投与群など 複数の個人に共通の部分 変量効果 : に依存する 被験者特有の部分 被験者内変動 誤差 : 固定効果 変量効果で説明できない データのばらつき 被験者間変動 11
12 症例は固定効果か変量効果か? どちらでも解析することは可能 症例内のデータの相関を考慮した解析を行うため 変量効果を用いることが多い テキストでも 変量効果として扱う 投与群 の固定効果を入れて 投与群全員に共通の値からのずれ という形で扱う 12
13 モデリングで決めなければいけないこと どの変数が入るか? 時間 性別 etc どういう風に入るか? 時間の 1 次関数?2 次関数? 変数はそのままで OK? 変換してから入れる? 誤差は独立? 相関あり? 変量効果同士の相関は? 13
14 本章であつかう実データの紹介 (Prostate Data: 前立腺癌のデータ ) 詳しくは 節参照 前立腺癌は アメリカでは男性の癌による死亡の 2 番目の原因 治療にお金もかかる 早期発見が重要 PSA (prostate-specific antigen) がマーカーになる PSA は正常細胞にも癌性前立腺細胞にも含まれる酵素 前立腺組織の体積と関係がある 14
15 本章であつかう実データの紹介 (Prostate Data: 前立腺癌のデータ ) BPH(benign prostatic hyperplasia, 良性前立腺過形成 ) でも PSA が大きくなる Pearson et al. (1991) によると PSA の値だけで判断した場合 最大 60% の BPH 患者が前立腺癌と誤診される 現状では PSA は前立腺癌のマーカーとして不十分 前立腺癌だけを検出する判断基準を導けるようなモデルを作りたい ( 目的 ) 15
16 Prostate Data 個人ごとのデータの推移 ( 図 2.3) ( 横軸は診断前の時間 : 右が過去 ) これを区別するモデリングをしたい テキスト 13P より引用 16
17 本章であつかう実データの紹介 (Prostate Data: 前立腺癌のデータ ) 単位時間あたりの変化 : 正しい意味での 率 仮説 PSA の変化率を見れば 前立腺癌の早期発見ができるのではないか? PSA の数値だけではなくて経時変化の仕方までよく見れば よりよい前立腺癌のマーカーになるのでは? 時間に依存した部分に注目 17
18 本章であつかう実データの紹介 (Prostate Data: 前立腺癌のデータ ) BLSA (Baltimore Longitudinal Study of Aging) のデータ Pearson et al. (1994) 参照 デザイン 後ろ向き Case-Control 研究 凍結させた血清サンプルを使用 被験者の内訳は 前立腺癌 :18 例 局所浸潤性癌 (L/R Cancer):14 例 転移性癌 (Metastaic Cancer):4 例 良性前立腺過形成 (BPH):20 例 対照群 (Control, 前立腺癌の兆候なし ):16 例 18
19 本章であつかう実データの紹介 (Prostate Data: 前立腺癌のデータ ) 選択基準 1. 泌尿器科医によって 前立腺癌 BPH による単純前立腺摘出術 前立腺の病気はない と診断されるまでに 7 年以上の追跡調査のデータがある 2. 病理学的診断により確認されている 3. 診断の前に前立腺の手術がない 19
20 デザインの詳細 診断時の年齢 追跡期間は対照群 BPH 群 前立腺癌群でマッチングした 50 歳以上では BPH の罹患率が高すぎるため 対照群を見つけるのが難しかった 対照群は BPH 群に比べて 初回来院や診断時の年齢がだいぶ若い 局所浸潤性癌と転移性癌を分けて考えた PSA は指数関数的に増加するので 対数を考え 0 に近い値であることも考慮して をプロットした 20
21 Prostate Data 人口統計学的データなど ( 表 2.3) テキスト 12P より引用 21
22 国立がんセンターの Web ページ ( より タンデム R 法の グレーゾーン の ~ の値は 22
23 Prostate Data 個人ごとのデータの推移 ( 図 2.3) ( 横軸は診断前の時間 : 右が過去 )( 再掲 ) これを区別するモデリングをしたい テキスト 13P より引用 23
24 モデリングの基礎 24
25 誤差とは? 誤差というからには 独立同分布が基本では? 少なくとも独立性は欲しい 誤差が相関する というのは不思議な表現 モデリングが不十分 と解釈するべきでは? 誤差が相関がある場合 その要因を取り出して 変量効果によるモデリング + ( 独立同分布の ) 誤差 となるまでモデリングを続けたい ( 理想 ) 25
26 探索 : モデルを段々複雑にしていく (1) 固定効果のみのモデル ( 固定効果以外は全て誤差 ) (2) 変量効果をいくつか入れたモデル 相関構造が複雑 別の要因の影響では? を分解 この相関構造は? 複雑なら 別の要因を考える26
27 系列相関 (Serial Correlation) とは いくつかの変量効果を入れた後 個人のデータの経時推移による相関がに残っているか? 残っているなら その部分を 時間依存する要因 として取り出したい 逆に とりあえず取り出して見て 相関が無視できるか を考えてみては? この部分の相関が十分大きいかどうかをみる 誤差時間に依存する部分 ( 変量効果 27 )
28 モデルの一般形 誤差 : 独立同分布 独立 時点ごとの相関 系列相関 (10.1) 28
29 2. 3 章の内容 29
30 3 章の内容 手当たり次第に変数を入れたモデルで解析する 章 3 章では 基本的なモデル構築と推定方法である 2 段階解析 (2-stage analysis) LMM の解析 がテーマ どの要因を固定効果にして 平均構造をどうするか 等は 9 章に回す とりあえず 変数は多めに入れる ( 本書は 足りないよりは 多すぎる方がいい というスタンス ) 30
31 3 章の内容 ( モデル選択の基本戦略 1) 2 段階解析 (3.2 節 ) 1st step 2nd step 代入 個人ごとに異なる 固定効果と思って推定 を求める 個人ごとの変動 全員に共通したパラメータ (3.1) (3.2) 1st stepの 固定効果 が2nd step では 変量効果 になるので 厳密に言うと 変 推定せずに代入して一括で推定を行うのがLMM 31
32 今回のモデルで用いる説明変数 時間 グラフより時間依存は明らか 群 入れないと意味がない 年齢 背景の偏りがあったため入れる 時間と群 年齢の交互作用 本書では これだけを入れている 本当に十分? それでいて 変数は多めに入れましょう という方針 少し疑問 32
33 記号 被験者の年齢 : 群を表すダミー変数 ( その群のとき1, それ以外 0) 対照群 : BPH 群 : 局浸潤性癌群 : 転移性癌群 : 33
34 Prostate Data 個人ごとのデータの推移 ( 図 2.3) ( 横軸は診断前の時間 : 右が過去 ) 時間の 2 次関数としてよいのでは? テキスト 13P より引用 34
35 1st step 3 章の復習 :Prostate Dataの例 (2 段階解析 ) 1 人 1 人別々のパラメータ 2nd step (3.5) (3.6) : 全症例に共通の固定効果 : 変量効果 変量効果は 1st stepの要因全ての内のみに存在 35
36 3 章の解析 2:Prostate Data の例 LMM(2nd step に 1st step を代入 ) (3.10) 変量効果はここだけ LMM では 最初からこのモデルを用いてパラメータ推定を行う 36
37 行列で表現してみる 1 症例の 1 時点分 とおくと (3.10) は以下のように書ける 37
38 行列で表現してみる 1 症例分 とおくと 1 症例の全体をまとめたベクトル 行列表示は となる ここで 分布の仮定を 誤差は独立同分布 9 10 章ではここを変える とする 38
39 3 章 : 手当たり次第に変数を入れたモデル ( 誤差分布は独立同分布 ) repeated statement Proc mixed data = prostate covtest; 不要 class id group; 時間の2 乗 : データセットで作る model lnpsa = group age group*time age*time group* time2 age*time2 / noint solution; random intercept time time2 / type = un subject = id g; run; 変量効果の分散共分散行列には制限をつけない パラメータ 6 個 39
40 出力 1: 固定効果 ( 表 5.1) 左が model based 右が robust 下から順に検討 基本的な固定効果は残す 不要? テキスト 49P より引用 40 同じ?
41 出力 2: 分散成分 ( 表 5.1) テキスト 49P より引用 covtest オプションの検定はあまり信頼できない 変量効果が必要かどうかの検定は 6 章で扱う 41
42 3. 6 章の内容 42
43 6 章の内容 不要な変数を減らす 章 3 章では 手当たり次第変数を入れた 6 章で 不要な変数かどうかを判断する検定を考える Wald 検定 F 検定 43
44 Overall の帰無仮説 ( 表 5.1 の結果からあたりをつける ) まとめて判断する Wald 検定と F 検定の 2 つを示す (6.7) テキスト58P より引用 44
45 6 章の解析 余分な変数を減らすための検定 (2 種類 ) Overall の帰無仮説に対する検定統計量 自由度 : (6.5) 分子の自由度 :, 分母の自由度 : 何種類かある (6.6) 45
46 不要な固定効果を消すための検定 Proc mixed data = prostate covtest; class id group; model lnpsa = group age group*time age*time group* time2 age*time2 F 検定の分母の自由度 Satterthwaite の方法 / noint ddfm=satterth chisq solution; random intercept time time2 / type = un subject = id g; contrast Final model age*time 1, 不要な固定効果を消すための検定 run; group*time , age*time2 1, group*time , group*time , group*time / chisq; 検定も計算 46 ( デフォルトはF 検定 )
47 SAS の出力 テキスト 113P より引用 分子の自由度 F 分布の分母の自由度 (Satterthwaite) どちらも有意差なし 統計量間の関係 47
48 判断の根拠と私見 帰無仮説が棄却されなかった場合 減らす 本当にこれで OK? 例数や入れる変数の数に依存すると思うけど 今回は例数も少ないですし 有意差なし = 帰無仮説が正しい という解釈が 臨床統計家としては大変心苦しかったり では こうすれば大丈夫 という対案があるかと言われると 困る 情報量規準等も あくまで参考値 なので 不十分な方法 ということを認識して 先に進みましょう 最終モデルも 多分 True Model ではない です けど Useful Model にはしたいです 48
49 6 章の解析 :Prostate Data (3.10) 式から検定で減らした結果 (6.8) 変量効果 49
50 行列で表現してみる 1 症例の 1 時点分 投与群 ダミー変数 投与群ごとに違う時間の 1 次関数 時間の 2 次関数 とおくと (6.8) は以下のように書ける 50
51 行列で表現してみる 1 症例分 (3 章と見た目は全く同じ ) とおくと 1 症例の全体をまとめたベクトル 行列表示は となる ここで 分布の仮定を 誤差は独立同分布 9 10 章ではここを変える とする 51
52 6 章 : 変数を絞ったモデル ( 誤差分散は独立同分布 ) 群を表す Proc mixed data = prostate covtest; ダミー変数 class id group; model lnpsa = group age bph*time loccanc*time metcanc*time2 cancer*time2 / noint solution; random intercept time time2 / type = un subject = id g; run; 前立腺癌の 2 群を併合した群を表すダミー変数 52
53 表 6.1 se の 4 倍以上 テキスト 59P より引用 53
54 表 6.1 テキスト 59P より引用 54
55 変数を減らしたモデルで 群ごとの違いをみる BPH 群と 局所浸潤性癌群の比較 (1)5 年時点のの値の比較 :10 年 局所浸潤性癌 BPH 表 6.1 の推定値を代入 55
56 (2)5 年時点のの変化率の比較 時間に対する変化が知りたい 局所浸潤性癌群の方が 右に行くほど減少が大きい 右が過去なので 局所浸潤性癌群の方が 56 急激に増加する
57 表 6.2 SAS の出力 PSA の経時変化は群間差がありそう 継続的にデータ収集して変化をみるべき テキスト 61P より引用 57
58 変量効果が必要かどうかの判断 変量効果の分散パラメータ に対して として検定を行う 大問題 帰無仮説が パラメータ空間の端点 通常の漸近論が使えない Wald 統計量や尤度比検定統計量が 帰無仮説のもとで漸近的に分布に従わない Proc Mixed の covtest オプションは微妙 58
59 解決策 尤度比検定統計量 の漸近的に従う分布を考える (ML は REML でも可 ) 分布の混合分布になることが多い (Self and Liang(1987), Stram and Lee (1994,1995) 参照 ) 59
60 Prostate Data 切片 の影響範囲 より 時間の 2 乗の項が必要かどうか をみる検定の帰無仮説は パラメータ3つ 通常なら自由度 3の 分布 今回は 自由度 2と3の 分布の1:1の混合分布 60
61 Prostate Data( 表 6.5) 高次の項から考える 時間の 2 乗が必要か? が知りたい Model1 と Model2 の比較 テキスト 72P より引用 61
62 かなり大きい 明らかに帰無仮説は棄却 時間の 2 乗の変量効果は必要 自由度 2と3の分布を 1:1で混合した混合分布 テキスト 73P より引用 Model4 : 変量効果なし Model3 : 切片項のみ Model2 : 切片項と時間 Model1 : 切片項と時間と時間の 2 乗 62
63 結論 帰無仮説が棄却された 時間の 2 乗の項も必要っぽい ( やっぱり少し心苦しい ただ 棄却されたので そこまで大きな問題はなさそう? 例数も少ないので 臨床的に意味がないほど小さい差 が検出された可能性は低そう ) 変量効果は 切片項 時間 時間の 2 乗 の 3 つが必要そう 63
64 これまでのまとめ 3 章 : 手当たり次第要因を入れてモデルを構築 2 段階解析 LMM( 誤差は独立 ) 6 章 : 不要っぽい変数を減らした 固定効果 :Wald 検定 F 検定の使用 Overall の帰無仮説を使用して 帰無仮説が棄却されない = 帰無仮説を採択 という方針 固定効果はだいぶ減った 変量効果 : 尤度比検定 ただし 通常の漸近論は使えず 検定統計量の漸近分布 を別途求める 変量効果は減らなかった 64
65 4. 9 章の内容 65
66 9 章の内容 モデル構築の一般論の章 9 章では 平均構造が正しそうかどうかはどうやって判断したらよいか? 変量効果はどのように選べばよいか? 系列相関が必要かどうかの判断 がテーマ 66
67 方針 Altham(1984) 変数が少なすぎると モデルの仮定が正しくないときに推測が正しくなくなる 一方 変数が多すぎると 推定効率が下がり 標準誤差が大きくなるだけである 本書は 少なすぎるより多すぎる方がよい というスタンス 67
68 9 章の仮定など ( モデル選択の基本戦略 2) モデル選択の基本戦略 しばらくの間は 固定効果は平均構造に影響 仮定 変量効果は分散構造に影響 のため 68
69 基本的なモデル構築の手順 ( 図 9.1) Prostate Data では 1 周半 テキスト 122P より引用 69
70 固定効果と変量効果 相関構造のモデリングは 平均構造で説明しきれない部分に対して行われる 用いる平均構造が変わると 相関構造のモデリングも影響を受ける 70
71 平均構造 ( 固定効果 ) の検討 効果を多めに入れて 正しいモデリング よりも 間違った場合の影響が少ないモデリング をする 次に分散構造を検討し その後変数を減らす という方針 平均構造が 間違っていそうかどうか は残差プロットで検討する 71
72 真のモデル 誤差と残差の関係 推定したモデル y 9 y 誤差 3 2 残差 x 誤差は未知 データは同じ x 残差は既知 72
73 誤差と残差の関係 誤差 と 残差 は違います 誤差 : 真のモデルに入っているもの 未知 残差 : モデルを当てはめた後 データと推定値 ( や予測値 ) とのズレ 既知 残差は誤差の予測値 と考えることができます 誤差の性質を検討して 誤差は未知だから 代わりに残差でその性質を満たすかどうか検討する 大体性質同じでしょ? という論法が 本章でよく用いられます 73 73
74 y 10 ( 準備 ) 平均構造の特定を正しくした場合と誤った場合の残差プロット y x x 2 次関数が当てはまるっぽい無理矢理 1 次関数をあてはめる 平均構造の誤特定 74
75 残差プロット 残差 20 残差 x x 誤って 1 次関数を当てはめた残差 0 との大小に傾向がある 正しく 2 次関数を当てはめた残差 x によらず均等にばらつく x の値によらず 0 の周りに均等にばらついていれば 75 平均構造の特定は大きく間違ってはいないかも
76 平均構造の検討 :Prostate Data ( 図 9.2: 図 9.1 の矢印 1 週目左 ) Smoothing してみた 2 次関数くらいが妥当? テキスト 124P より引用 76
77 推定 確率変動する部分 = 平均構造以外の部分 = データから平均構造を除いた部分 平均構造の特定が正しければ不偏推定量 のプロットには 77 分散構造の情報があるのでは?
78 平均構造の特定がおかしそう なことは どうすれば分かる? 平均構造の特定が正しくなければ 0 の不偏推定量でない プロットしてみて 時点ごとの残差の平均が 0 から大きく離れていれば 平均構造の特定が間違っているかも 78
79 平均構造決定 OLS で推定 残差プロット ( の成分 ) 図 9.3 個人差 変量切片で減らせる どの時点でも残差が 0 を中心に均等 平均構造の特定は悪くないかも テキスト 125P より引用 79
80 変量効果の検討 変量切片 個人のばらつきに対応 時間依存する変量効果 時点ごとの分散の変化に対応 ばらつきの個人差 時間変化を検討する 80
81 分散が時間依存する とは? 例 ) 変量効果が時間の 1 次関数 ( のみ ) の場合 とすると 時間の 1 次関数 分散は時間の 2 次関数 時間に変量効果を入れれば 分散は時間依存する 81
82 変量効果検討の際の ガイドライン (1) 1 個人ごとの残差のプロファイルの回帰モデルを作る 例 ) 残差プロットが個人ごとに直線っぽいなら 切片と傾きに変量効果を入れる 2 を仮定するなら 変量効果は 固定効果からのずれ を表す の各列は の列の 1 次結合で表されることが必要 2 段階解析でモデルを作れば この条件は満たされる 82
83 変量効果検討の際の ガイドライン (2) 3Morrell, Pearson, and Brant (1997) によると には下意の項が全て入ったときのみ 上位の項も入れるようにする 2 次の項を入れる場合は 切片と 1 次の項は必ず入れる 4 変量効果を入れる場合 理想は 誤差は独立同分布 しかし 確認 ( 推定した分散関数と Smoothing の結果の比較 ) は必要 83
84 変量効果の検討 ( 図 9.1 の矢印 1 週目の右 ) 84
85 残差の 2 乗 ( の各成分の2 乗 ) のプロットとSmoothing 分散の次元 テキスト 126P より引用 残差の 2 乗が時間依存している 時間依存する変量効果が必要では? 85
86 図 9.3 残差プロットをもう 1 回検討 変量効果は時間の 1 次関数では少し不安 テキスト 125P より引用 86 2 次関数まで入れておいて 2 次の項が不要なら消す
87 誤差 は 時間によらず等分散 が望ましい 分散の経時変化を変量効果として取り出したい 今回のプロットからは 変量効果の追加を検討 ガイドライン 1 より 時間の 2 次関数まで含める ガイドライン 3 より 1 次の項 切片項も含める 87
88 分散関数の推定 (3 章のモデルをあてはめる ) とおくと (3.10) のモデルは と書けた これより と書ける 88
89 3 章のモデルの解析結果 ( 表 5.1) をもとにして 推定した分散関数はとおくと 89
90 図 9.5 推定した分散関数と Smoothing した関数とのずれ 両端がずれる 系列相関を考えてみる 実線 :Smoothing 破線 : 推定した分散関数 テキスト 128P より引用 90
91 両端のずれをどうにかしたい 系列相関の追加 検討済み まだ ここを変更 という仮定を変えてみる として 誤差 系列相関 を仮定し をモデリングする 対角成分は 1 詳しくは 10 章 とりあえず Gaussian を仮定 91
92 3 章の手当たり次第に変数を入れたモデル + 系列相関を Gaussian に指定 (p129) repeated statement Proc mixed data = prostate covtest; で指定 class id group timeclss; model lnpsa = group age group*time age*time group*time2 age*time2 / noint solution; random intercept time time2 / type = un subject = id g; repeated timeclss / type = sp(gau)(time) local subject = id; run; 誤差にも入れる カテゴリ変数 ( 中身は time と全く同じ ) 系列相関を Gaussian に 時間変数 ( 連続 ) は time 92
93 出力 ( 表 9.1 : 変量効果 誤差部分のみ ) REML 推定 テキスト 130P より引用 93
94 分散関数の推定 (3 章のモデル + 系列相関のモデルをあてはめる ) とおくと (3.10) のモデルは と書けた これより と書ける ( 詳細は 10 章 ) 94
95 表 9.1 の値を代入 95
96 図 9.6 推定した分散関数と Smoothing とのずれ 端の fitting がだいぶ改善 系列相関は必要っぽい ( ただし 0~5 year はそれほど改善していない ) 実線 :Smoothing 破線 : 推定した分散関数 テキスト 131P より引用 96
97 変数を絞る ( 図 9.1 の矢印 2 週目 ) 6 章で検討した方法を用いて 減らすべき要因を減らす 本書ではきちんと書かれていない が SAS の出力をみて 減らせそうなパラメータの目星をつけ る Wald 検定か F 検定で検討 平均構造が変わると 分散構造も影響を受けるので もう 1 回残差プロットをして 妥当性を検討する などが必要 97
98 9 章 : 変数を絞ったモデル + 系列相関を Gaussian に指定 (p133) Proc mixed data = prostate covtest; class id group timeclss; model lnpsa = group age bph*time loccanc*time metcanc*time2 cancer*time2 / noint solution; random intercept time time2 / type = un subject = id g; repeated timeclss / type = sp(gau)(time) local subject = id; run; 9 章までの最終モデル 98
99 出力 1: 固定効果 ( 表 9.3) テキスト 134P より引用 99
100 出力 2: 分散成分など ( 表 9.3) テキスト 134P より引用 100
101 最終モデルで 群ごとの違いをみる BPH 群と 局所浸潤性癌群の比較 (1)5 年時点のの値の比較 :10 年 局所浸潤性癌 BPH 表 9.3 の推定値を代入 101
102 (2)5 年時点のの変化率の比較 時間に対する変化が知りたい 局所浸潤性癌群の方が 右に行くほど減少が大きい 右が過去なので 局所浸潤性癌群の方が 102 急激に増加する
103 9 章のまとめ モデル構築の一般論 固定効果構築 変量効果構築 減らすかどうかの検討 の順番 テキストの記載は 最後の 詰め が甘いです ( ただし 著者らは本書に記載していない解析を大量にしているはずです 甘いのはあくまで 記載 だけだと思います ) 103
104 5. まとめと参考文献 104
105 本日のまとめ 3 章 2 段階解析と LMM を用いて とりあえず解析してみた 6 章 固定効果 変量効果を F 検定 Wald 検定 尤度比検定で減らす方法を検討した 9 章 モデル選択の指針 固定効果 変量効果 系列相関のモデリングの方法を検討した ( 系列相関は さわり だけ 詳しくは 10 章で ) 105
106 今回のモデル構築で微妙な点 固定効果 変量効果が少なすぎるのでは? 最低限必要なもの しか加えていないように見える 本書のスタンスは 少ないよりは多い方がよい なので 主張と行動が一貫していない? 変数を減らす ことを検定で判断した 帰無仮説が棄却できない = 帰無仮説が正しい と判断した 帰無仮説が棄却されるかどうかは例数に依存する 帰無仮説の選び方が比較的恣意的 だからおかしい ではなくて この点を忘れないように気をつけながら使いましょう 情報が増えたら モデルのアップデートも考えましょう 106
107 テキストの参考文献 (1) Altham,P.M.E. (1984) Improving the precision of estimation by fitting a model. Journal of the Royal Statistical Society, Series B, 46, Diggle,P.J. (1988) An approach to the analysis of repeated measures. Biometrics, 44, Diggle,P.J., Liang,K.-Y., and Zeger,S.L. (1994) Analysis of Longitudinal Data. Cxford Science Publications. Oxford: Clarendon Press. Lesaffre,E., Asefa,M., and Verbeke,G. (1999) Assessing the goodness-of-fit of the Laird and Ware model: an example: the Jimma Infant Survival Differential Longitudinal Study. Statistics in Medicine, 18, Morrell, C.H., Pearson,J.D., and Brant,L.J. (1997) Linear transformations of linear mixed-effects models. The American Statistician, 51,
108 テキストの参考文献 (2) Pearson,J.D., Kaminski,P., Metter, E.J., Fozard, J.L., Brant,L.J., Morrell,C.H., and Carter,H.B. (1999) Modeling longitudinal rates of change in prostate specific antigen during aging. Proceedings of the Social Statistics Section of the American Statistical Association, Washington, DC, pp Pearson,J.D., Morrell, C.H., Landis,P.K., Carter,H.B., and Brant,L.J. (1994) Mixed-effects regression models for studying the natural history of prostate disease. Statistics in Medicine, 13, Royston,P. and Altman,D.G. (1994) Regression using fractional polynomials of continuous covariates: parsimonious parametric modelling. Applied Statistics, 43, Self,S.G. and Liang,K.Y.(1987) Asymptotic properties of maximum likelihood estimatiors and likelihood ratio tests under nonstandard conditions. Journal of the American Statistical Association, 82,
109 原著の参考文献 (3) Stram,D.O and Lee,J.W. (1994) Variance components testing in the longitudinal mixed effects model. Biometrics, 50, Stram,D.O and Lee,J.W. (1995) Correction to: Variance components testing in the longitudinal mixed effects model. Biometrics, 51, Verbeke,G., Lesaffre,E, and Brant,L.J. (1998) The detection of residual serial correlation in linear mixed models. Statistics in Medicine, 17,
110 追加の参考文献 Box,G.E.P (1976). Science and Statistics. Journal of American Statistical Association, 71, Box,G.E.P (1979). Robustness in the Strategy of Scientific Model Building. Robustness in Statistics:Proceedings of a Workshop(1979) edited by R.L.Launer and G.N.Wilkinson Box,G.E.P. and Draper,N.R.(1987). Empirical Model-Building and Response Surfaces. Wiley. 土居正明, 横道洋司, 青山淑子, 五百路徹也, 中村竜児, 吉田和生, 白岩健, 松下勲, 西山毅, 井上永介, 上原秀昭, 山口亨, 酒井美良訳 (2011). 線形モデルとその拡張 - 一般化線形モデル 混合効果モデル 経時データのためのモデル-, 株式会社シーエーシー. (McCulloch,C.E., Searle,S.R, and Neuhaus, J.M. (2008) Generalized, Linear, and Mixed Models 2nd edition. Wiley.) 松山裕, 山口拓洋編訳 (2001). 医学統計のための線形混合モデル-SAS によるアプローチ, サイエンティスト社. (Verbeke,G. and Molenbergh,G.M.ed. (1997). Mixed models in Practice A SAS- Oriented Approach-. Springer) 三中信宏 (2006) 系統樹思考の世界, 講談社
本日の内容 前回と同じ本 G.Verbeke, and G.Molenberghs. 著 Linear Mixed Models for Longitudinal Data (Springer, 以下 テキスト と呼びます ) の 10 章をまとめます 誤差が独立でない場合を扱います 参考文献は 今
経時データのモデリング (2) 第 11 回 BioS 継続勉強会 土居正明 1 本日の内容 前回と同じ本 G.Verbeke, and G.Molenberghs. 著 Linear Mixed Models for Longitudinal Data (Springer, 以下 テキスト と呼びます ) の 10 章をまとめます 誤差が独立でない場合を扱います 参考文献は 今回と次回の内容を合わせたものです
NLMIXED プロシジャを用いた生存時間解析 伊藤要二アストラゼネカ株式会社臨床統計 プログラミング グループグルプ Survival analysis using PROC NLMIXED Yohji Itoh Clinical Statistics & Programming Group, A
NLMIXED プロシジャを用いた生存時間解析 伊藤要二アストラゼネカ株式会社臨床統計 プログラミング グループグルプ Survival analysis using PROC NLMIXED Yohji Itoh Clinical Statistics & Programming Group, AstraZeneca KK 要旨 : NLMIXEDプロシジャの最尤推定の機能を用いて 指数分布 Weibull
統計的データ解析
統計的データ解析 011 011.11.9 林田清 ( 大阪大学大学院理学研究科 ) 連続確率分布の平均値 分散 比較のため P(c ) c 分布 自由度 の ( カイ c 平均値 0, 標準偏差 1の正規分布 に従う変数 xの自乗和 c x =1 が従う分布を自由度 の分布と呼ぶ 一般に自由度の分布は f /1 c / / ( c ) {( c ) e }/ ( / ) 期待値 二乗 ) 分布 c
EBNと疫学
推定と検定 57 ( 復習 ) 記述統計と推測統計 統計解析は大きく 2 つに分けられる 記述統計 推測統計 記述統計 観察集団の特性を示すもの 代表値 ( 平均値や中央値 ) や ばらつきの指標 ( 標準偏差など ) 図表を効果的に使う 推測統計 観察集団のデータから母集団の特性を 推定 する 平均 / 分散 / 係数値などの推定 ( 点推定 ) 点推定値のばらつきを調べる ( 区間推定 ) 検定統計量を用いた検定
スライド 1
データ解析特論第 10 回 ( 全 15 回 ) 2012 年 12 月 11 日 ( 火 ) 情報エレクトロニクス専攻横田孝義 1 終了 11/13 11/20 重回帰分析をしばらくやります 12/4 12/11 12/18 2 前回から回帰分析について学習しています 3 ( 単 ) 回帰分析 単回帰分析では一つの従属変数 ( 目的変数 ) を 一つの独立変数 ( 説明変数 ) で予測する事を考える
Microsoft PowerPoint - e-stat(OLS).pptx
経済統計学 ( 補足 ) 最小二乗法について 担当 : 小塚匡文 2015 年 11 月 19 日 ( 改訂版 ) 神戸大学経済学部 2015 年度後期開講授業 補足 : 最小二乗法 ( 単回帰分析 ) 1.( 単純 ) 回帰分析とは? 標本サイズTの2 変数 ( ここではXとY) のデータが存在 YをXで説明する回帰方程式を推定するための方法 Y: 被説明変数 ( または従属変数 ) X: 説明変数
スライド 1
データ解析特論重回帰分析編 2017 年 7 月 10 日 ( 月 )~ 情報エレクトロニクスコース横田孝義 1 ( 単 ) 回帰分析 単回帰分析では一つの従属変数 ( 目的変数 ) を 一つの独立変数 ( 説明変数 ) で予測する事を考える 具体的には y = a + bx という回帰直線 ( モデル ) でデータを代表させる このためにデータからこの回帰直線の切片 (a) と傾き (b) を最小
Microsoft PowerPoint - GLMMexample_ver pptx
Linear Mixed Model ( 以下 混合モデル ) の短い解説 この解説のPDFは http://www.lowtem.hokudai.ac.jp/plantecol/akihiro/sumida-index.html の お勉強 のページにあります. ver 20121121 と との間に次のような関係が見つかったとしよう 全体的な傾向に対する回帰直線を点線で示した ところが これらのデータは実は異なる
PowerPoint プレゼンテーション
1/X Chapter 9: Linear correlation Cohen, B. H. (2007). In B. H. Cohen (Ed.), Explaining Psychological Statistics (3rd ed.) (pp. 255-285). NJ: Wiley. 概要 2/X 相関係数とは何か 相関係数の数式 検定 注意点 フィッシャーのZ 変換 信頼区間 相関係数の差の検定
Microsoft PowerPoint - R-stat-intro_12.ppt [互換モード]
R で統計解析入門 (12) 生存時間解析 中篇 準備 : データ DEP の読み込み 1. データ DEP を以下からダウンロードする http://www.cwk.zaq.ne.jp/fkhud708/files/dep.csv /fkh /d 2. ダウンロードした場所を把握する ここでは c:/temp とする 3. R を起動し,2. 2 の場所に移動し, データを読み込む 4. データ
ビジネス統計 統計基礎とエクセル分析 正誤表
ビジネス統計統計基礎とエクセル分析 ビジネス統計スペシャリスト エクセル分析スペシャリスト 公式テキスト正誤表と学習用データ更新履歴 平成 30 年 5 月 14 日現在 公式テキスト正誤表 頁場所誤正修正 6 知識編第 章 -3-3 最頻値の解説内容 たとえば, 表.1 のデータであれば, 最頻値は 167.5cm というたとえば, 表.1 のデータであれば, 最頻値は 165.0cm ということになります
多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典
多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典 重回帰分析とは? 重回帰分析とは複数の説明変数から目的変数との関係性を予測 評価説明変数 ( 数量データ ) は目的変数を説明するのに有効であるか得られた関係性より未知のデータの妥当性を判断する これを重回帰分析という つまり どんなことをするのか? 1 最小 2 乗法により重回帰モデルを想定 2 自由度調整済寄与率を求め
Microsoft PowerPoint - 資料04 重回帰分析.ppt
04. 重回帰分析 京都大学 加納学 Division of Process Control & Process Sstems Engineering Department of Chemical Engineering, Koto Universit [email protected] http://www-pse.cheme.koto-u.ac.jp/~kano/ Outline
Microsoft Word - 補論3.2
補論 3. 多変量 GARC モデル 07//6 新谷元嗣 藪友良 対数尤度関数 3 章 7 節では 変量の対数尤度を求めた ここでは多変量の場合 とくに 変量について対数尤度を求める 誤差項 は平均 0 で 次元の正規分布に従うとする 単純化のため 分散と共分散は時間を通じて一定としよう ( この仮定は後で変更される ) したがって ij から添え字 を除くことができる このとき と の尤度関数は
13章 回帰分析
単回帰分析 つ以上の変数についての関係を見る つの 目的 被説明 変数を その他の 説明 変数を使って 予測しようというものである 因果関係とは限らない ここで勉強すること 最小 乗法と回帰直線 決定係数とは何か? 最小 乗法と回帰直線 これまで 変数の間の関係の深さについて考えてきた 相関係数 ここでは 変数に役割を与え 一方の 説明 変数を用いて他方の 目的 被説明 変数を説明することを考える
Microsoft PowerPoint - 統計科学研究所_R_重回帰分析_変数選択_2.ppt
重回帰分析 残差分析 変数選択 1 内容 重回帰分析 残差分析 歯の咬耗度データの分析 R で変数選択 ~ step 関数 ~ 2 重回帰分析と単回帰分析 体重を予測する問題 分析 1 身長 のみから体重を予測 分析 2 身長 と ウエスト の両方を用いて体重を予測 分析 1 と比べて大きな改善 体重 に関する推測では 身長 だけでは不十分 重回帰分析における問題 ~ モデルの構築 ~ 適切なモデルで分析しているか?
講義「○○○○」
講義 信頼度の推定と立証 内容. 点推定と区間推定. 指数分布の点推定 区間推定 3. 指数分布 正規分布の信頼度推定 担当 : 倉敷哲生 ( ビジネスエンジニアリング専攻 ) 統計的推測 標本から得られる情報を基に 母集団に関する結論の導出が目的 測定値 x x x 3 : x 母集団 (populaio) 母集団の特性値 統計的推測 標本 (sample) 標本の特性値 分布のパラメータ ( 母数
Probit , Mixed logit
Probit, Mixed logit 2016/5/16 スタートアップゼミ #5 B4 後藤祥孝 1 0. 目次 Probit モデルについて 1. モデル概要 2. 定式化と理解 3. 推定 Mixed logit モデルについて 4. モデル概要 5. 定式化と理解 6. 推定 2 1.Probit 概要 プロビットモデルとは. 効用関数の誤差項に多変量正規分布を仮定したもの. 誤差項には様々な要因が存在するため,
様々なミクロ計量モデル†
担当 : 長倉大輔 ( ながくらだいすけ ) この資料は私の講義において使用するために作成した資料です WEB ページ上で公開しており 自由に参照して頂いて構いません ただし 内容について 一応検証してありますが もし間違いがあった場合でもそれによって生じるいかなる損害 不利益について責任を負いかねますのでご了承ください 間違いは発見次第 継続的に直していますが まだ存在する可能性があります 1 カウントデータモデル
基礎統計
基礎統計 第 11 回講義資料 6.4.2 標本平均の差の標本分布 母平均の差 標本平均の差をみれば良い ただし, 母分散に依存するため場合分けをする 1 2 3 分散が既知分散が未知であるが等しい分散が未知であり等しいとは限らない 1 母分散が既知のとき が既知 標準化変量 2 母分散が未知であり, 等しいとき 分散が未知であるが, 等しいということは分かっているとき 標準化変量 自由度 の t
日本製薬工業協会シンポジウム 生存時間解析の評価指標に関する最近の展開ー RMST (restricted mean survival time) を理解するー 2. RMST の定義と統計的推測 2018 年 6 月 13 日医薬品評価委員会データサイエンス部会タスクフォース 4 生存時間解析チー
日本製薬工業協会シンポジウム 生存時間解析の評価指標に関する最近の展開ー RMST (restricted mean survival time) を理解するー 2. RMST の定義と統計的推測 2018 年 6 月 13 日医薬品評価委員会データサイエンス部会タスクフォース 4 生存時間解析チーム 日本新薬 ( 株 ) 田中慎一 留意点 本発表は, 先日公開された 生存時間型応答の評価指標 -RMST(restricted
集中理論談話会 #9 Bhat, C.R., Sidharthan, R.: A simulation evaluation of the maximum approximate composite marginal likelihood (MACML) estimator for mixed mu
集中理論談話会 #9 Bhat, C.R., Sidharthan, R.: A simulation evaluation of the maximum approximate composite marginal likelihood (MACML) estimator for mixed multinomial probit models, Transportation Research Part
切片 ( 定数項 ) ダミー 以下の単回帰モデルを考えよう これは賃金と就業年数の関係を分析している : ( 賃金関数 ) ここで Y i = α + β X i + u i, i =1,, n, u i ~ i.i.d. N(0, σ 2 ) Y i : 賃金の対数値, X i : 就業年数. (
統計学ダミー変数による分析 担当 : 長倉大輔 ( ながくらだいすけ ) 1 切片 ( 定数項 ) ダミー 以下の単回帰モデルを考えよう これは賃金と就業年数の関係を分析している : ( 賃金関数 ) ここで Y i = α + β X i + u i, i =1,, n, u i ~ i.i.d. N(0, σ 2 ) Y i : 賃金の対数値, X i : 就業年数. ( 実際は賃金を就業年数だけで説明するのは現実的はない
カイ二乗フィット検定、パラメータの誤差
統計的データ解析 008 008.. 林田清 ( 大阪大学大学院理学研究科 ) 問題 C (, ) ( x xˆ) ( y yˆ) σ x πσ σ y y Pabx (, ;,,, ) ˆ y σx σ y = dx exp exp πσx ただし xy ˆ ˆ はyˆ = axˆ+ bであらわされる直線モデル上の点 ( ˆ) ( ˆ ) ( ) x x y ax b y ax b Pabx (,
Medical3
Chapter 1 1.4.1 1 元配置分散分析と多重比較の実行 3つの治療法による測定値に有意な差が認められるかどうかを分散分析で調べます この例では 因子が1つだけ含まれるため1 元配置分散分析 one-way ANOVA の適用になります また 多重比較法 multiple comparison procedure を用いて 具体的のどの治療法の間に有意差が認められるかを検定します 1. 分析メニュー
青焼 1章[15-52].indd
1 第 1 章統計の基礎知識 1 1 なぜ統計解析が必要なのか? 人間は自分自身の経験にもとづいて 感覚的にものごとを判断しがちである 例えばある疾患に対する標準治療薬の有効率が 50% であったとする そこに新薬が登場し ある医師がその新薬を 5 人の患者に使ったところ 4 人が有効と判定されたとしたら 多くの医師はこれまでの標準治療薬よりも新薬のほうが有効性が高そうだと感じることだろう しかし
解析センターを知っていただく キャンペーン
005..5 SAS 問題設定 目的 PKパラメータ (AUC,Cmax,Tmaxなど) の推定 PKパラメータの群間比較 PKパラメータのバラツキの評価! データの特徴 非反復測定値 個体につき 個の測定値しか得られない plasma concentration 非反復測定値のイメージ図 測定時点間で個体の対応がない 着目する状況 plasma concentration 経時反復測定値のイメージ図
経済統計分析1 イントロダクション
1 経済統計分析 9 分散分析 今日のおはなし. 検定 statistical test のいろいろ 2 変数の関係を調べる手段のひとつ適合度検定独立性検定分散分析 今日のタネ 吉田耕作.2006. 直感的統計学. 日経 BP. 中村隆英ほか.1984. 統計入門. 東大出版会. 2 仮説検定の手続き 仮説検定のロジック もし帰無仮説が正しければ, 検定統計量が既知の分布に従う 計算された検定統計量の値から,
(3) 検定統計量の有意確率にもとづく仮説の採否データから有意確率 (significant probability, p 値 ) を求め 有意水準と照合する 有意確率とは データの分析によって得られた統計値が偶然おこる確率のこと あらかじめ設定した有意確率より低い場合は 帰無仮説を棄却して対立仮説
第 3 章 t 検定 (pp. 33-42) 3-1 統計的検定 統計的検定とは 設定した仮説を検証する場合に 仮説に基づいて集めた標本を 確率論の観点から分析 検証すること 使用する標本は 母集団から無作為抽出されたものでなければならない パラメトリック検定とノンパラメトリック検定 パラメトリック検定は母集団が正規分布に従う間隔尺度あるいは比率尺度の連続データを対象とする ノンパラメトリック検定は母集団に特定の分布を仮定しない
分析のステップ Step 1: Y( 目的変数 ) に対する値の順序を確認 Step 2: モデルのあてはめ を実行 適切なモデルの指定 Step 3: オプションを指定し オッズ比とその信頼区間を表示 以下 このステップに沿って JMP の操作をご説明します Step 1: Y( 目的変数 ) の
JMP によるオッズ比 リスク比 ( ハザード比 ) の算出と注意点 SAS Institute Japan 株式会社 JMP ジャパン事業部 2011 年 10 月改定 1. はじめに 本文書は JMP でロジスティック回帰モデルによるオッズ比 比例ハザードモデルによるリスク比 それぞれに対する信頼区間を求める操作方法と注意点を述べたものです 本文書は JMP 7 以降のバージョンに対応しております
データ科学2.pptx
データ科学 多重検定 2 mul%ple test False Discovery Rate 藤博幸 前回の復習 1 多くの検定を繰り返す時には 単純に個々の検定を繰り返すだけでは不十分 5% 有意水準ということは, 1000 回検定を繰り返すと, 50 回くらいは帰無仮説が正しいのに 間違って棄却されてすまうじちがあるということ ex) 1 万個の遺伝子について 正常細胞とガン細胞で それぞれの遺伝子の発現に差があるかどうかを検定
Dependent Variable: LOG(GDP00/(E*HOUR)) Date: 02/27/06 Time: 16:39 Sample (adjusted): 1994Q1 2005Q3 Included observations: 47 after adjustments C -1.5
第 4 章 この章では 最小二乗法をベースにして 推計上のさまざまなテクニックを検討する 変数のバリエーション 係数の制約係数にあらかじめ制約がある場合がある たとえばマクロの生産関数は 次のように表すことができる 生産要素は資本と労働である 稼動資本は資本ストックに稼働率をかけることで計算でき 労働投入量は 就業者数に総労働時間をかけることで計算できる 制約を掛けずに 推計すると次の結果が得られる
Excelによる統計分析検定_知識編_小塚明_5_9章.indd
第7章57766 検定と推定 サンプリングによって得られた標本から, 母集団の統計的性質に対して推測を行うことを統計的推測といいます 本章では, 推測統計の根幹をなす仮説検定と推定の基本的な考え方について説明します 前章までの知識を用いて, 具体的な分析を行います 本章以降の知識は操作編での操作に直接関連していますので, 少し聞きなれない言葉ですが, 帰無仮説 有意水準 棄却域 などの意味を理解して,
14 化学実験法 II( 吉村 ( 洋 mmol/l の半分だったから さんの測定値は くんの測定値の 4 倍の重みがあり 推定値 としては 0.68 mmol/l その標準偏差は mmol/l 程度ということになる 測定値を 特徴づけるパラメータ t を推定するこの手
14 化学実験法 II( 吉村 ( 洋 014.6.1. 最小 乗法のはなし 014.6.1. 内容 最小 乗法のはなし...1 最小 乗法の考え方...1 最小 乗法によるパラメータの決定... パラメータの信頼区間...3 重みの異なるデータの取扱い...4 相関係数 決定係数 ( 最小 乗法を語るもう一つの立場...5 実験条件の誤差の影響...5 問題...6 最小 乗法の考え方 飲料水中のカルシウム濃度を
PowerPoint プレゼンテーション
復習 ) 時系列のモデリング ~a. 離散時間モデル ~ y k + a 1 z 1 y k + + a na z n ay k = b 0 u k + b 1 z 1 u k + + b nb z n bu k y k = G z 1 u k = B(z 1 ) A(z 1 u k ) ARMA モデル A z 1 B z 1 = 1 + a 1 z 1 + + a na z n a = b 0
今回 次回の要点 あぶない 時系列データ解析は やめましょう! 統計モデル のあてはめ Danger!! (危 1) 時系列データの GLM あてはめ (危 2) 時系列Yt 時系列 Xt 各時刻の個体数 気温 とか これは次回)
生態学の時系列データ解析でよく見る あぶない モデリング 久保拓弥 mailto:[email protected] statistical model for time-series data 2017-07-03 kubostat2017 (h) 1/59 今回 次回の要点 あぶない 時系列データ解析は やめましょう! 統計モデル のあてはめ Danger!! (危 1) 時系列データの
異文化言語教育評価論 ⅠA 第 4 章分散分析 (3 グループ以上の平均を比較する ) 平成 26 年 5 月 14 日 報告者 :D.M. K.S. 4-1 分散分析とは 検定の多重性 t 検定 2 群の平均値を比較する場合の手法分散分析 3 群以上の平均を比較する場合の手法 t 検定
異文化言語教育評価論 ⅠA 第 4 章分散分析 (3 グループ以上の平均を比較する ) 平成 26 年 5 月 14 日 報告者 :D.M. K.S. 4-1 分散分析とは 4-1-1 検定の多重性 t 検定 2 群の平均値を比較する場合の手法分散分析 3 群以上の平均を比較する場合の手法 t 検定の反復 (e.g., A, B, C の 3 群の比較を A-B 間 B-C 間 A-C 間の t 検定で行う
Medical3
1.4.1 クロス集計表の作成 -l m 分割表 - 3つ以上のカテゴリを含む変数を用いて l mのクロス集計表による分析を行います この例では race( 人種 ) によってlow( 低体重出生 ) に差が認められるかどうかを分析します 人種には3つのカテゴリ 低体重出生には2つのカテゴリが含まれています 2つの変数はともにカテゴリ変数であるため クロス集計表によって分析します 1. 分析メニュー
<4D F736F F D208EC08CB18C7689E68A E F AA957A82C682948C9F92E82E646F63>
第 7 回 t 分布と t 検定 実験計画学 A.t 分布 ( 小標本に関する平均の推定と検定 ) 前々回と前回の授業では, 標本が十分に大きいあるいは母分散が既知であることを条件に正規分布を用いて推定 検定した. しかし, 母集団が正規分布し, 標本が小さい場合には, 標本分散から母分散を推定するときの不確実さを加味したt 分布を用いて推定 検定しなければならない. t 分布は標本分散の自由度 f(
Microsoft PowerPoint - ch04j
Ch.4 重回帰分析 : 推論 重回帰分析 y = 0 + 1 x 1 + 2 x 2 +... + k x k + u 2. 推論 1. OLS 推定量の標本分布 2. 1 係数の仮説検定 : t 検定 3. 信頼区間 4. 係数の線形結合への仮説検定 5. 複数線形制約の検定 : F 検定 6. 回帰結果の報告 入門計量経済学 1 入門計量経済学 2 OLS 推定量の標本分布について OLS 推定量は確率変数
Microsoft Word doc
. 正規線形モデルのベイズ推定翠川 大竹距離減衰式 (PGA(Midorikawa, S., and Ohtake, Y. (, Attenuation relationships of peak ground acceleration and velocity considering attenuation characteristics for shallow and deeper earthquakes,
モジュール1のまとめ
数理統計学 第 0 回 復習 標本分散と ( 標本 ) 不偏分散両方とも 分散 というのが実情 二乗偏差計標本分散 = データ数 (0ページ) ( 標本 ) 不偏分散 = (03 ページ ) 二乗偏差計 データ数 - 分析ではこちらをとることが多い 復習 ここまで 実験結果 ( 万回 ) 平均 50Kg 標準偏差 0Kg 0 人 全体に小さすぎる > mea(jkke) [] 89.4373 標準偏差
2. 時系列分析 プラットフォームの使用法 JMP の 時系列分析 プラットフォームでは 一変量の時系列に対する分析を行うことができます この章では JMP のサンプルデ ータを用いて このプラットフォームの使用法をご説明します JMP のメニューバーより [ ヘルプ ] > [ サンプルデータ ]
JMP を用いた ARIMA モデルのあてはめ SAS Institute Japan 株式会社 JMP ジャパン事業部 2013 年 2 月作成 1. はじめに JMP の時系列分析では 一変量の時系列データに対する分析や予測を行うことができ 時系列データに対するグラフ表示 時系列モデルのあてはめ モデルの評価 予測まで 対話的に分析を実行することができます 時系列データにあてはめるモデルとしては
横浜市環境科学研究所
周期時系列の統計解析 単回帰分析 io 8 年 3 日 周期時系列に季節調整を行わないで単回帰分析を適用すると, 回帰係数には周期成分の影響が加わる. ここでは, 周期時系列をコサイン関数モデルで近似し単回帰分析によりモデルの回帰係数を求め, 周期成分の影響を検討した. また, その結果を気温時系列に当てはめ, 課題等について考察した. 気温時系列とコサイン関数モデル第 報の結果を利用するので, その一部を再掲する.
Microsoft Word - apstattext04.docx
4 章母集団と指定値との量的データの検定 4.1 検定手順今までは質的データの検定の方法を学んで来ましたが これからは量的データについてよく利用される方法を説明します 量的データでは データの分布が正規分布か否かで検定の方法が著しく異なります この章ではまずデータの分布の正規性を調べる方法を述べ 次にデータの平均値または中央値がある指定された値と違うかどうかの検定方法を説明します 以下の図 4.1.1
<4D F736F F F696E74202D B835E89F090CD89898F4B81408F6489F18B4195AA90CD A E707074>
重回帰分析 (2) データ解析演習 6.9 M1 荻原祐二 1 発表の流れ 1. 復習 2. ダミー変数を用いた重回帰分析 3. 交互作用項を用いた重回帰分析 4. 実際のデータで演習 2 復習 他の独立変数の影響を取り除いた時に ある独立変数が従属変数をどれくらい予測できるか 変数 X1 変数 X2 β= 変数 Y 想定したモデルが全体としてどの程度当てはまるのか R²= 3 偏相関係数と標準化偏回帰係数の違い
Microsoft Word - å“Ÿåłžå¸°173.docx
回帰分析 ( その 3) 経済情報処理 価格弾力性の推定ある商品について その購入量を w 単価を p とし それぞれの変化量を w p で表 w w すことにする この時 この商品の価格弾力性 は により定義される これ p p は p が 1 パーセント変化した場合に w が何パーセント変化するかを示したものである ここで p を 0 に近づけていった極限を考えると d ln w 1 dw dw
ANOVA
3 つ z のグループの平均を比べる ( 分散分析 : ANOVA: analysis of variance) 分散分析は 全体として 3 つ以上のグループの平均に差があるか ということしかわからないために, どのグループの間に差があったかを確かめるには 多重比較 という方法を用います これは Excel だと自分で計算しなければならないので, 分散分析には統計ソフトを使った方がよいでしょう 1.
スライド 1
生存時間解析における Lakatos の症例数設計法の有用性の評価 魚住龍史, * 水澤純基 浜田知久馬 日本化薬株式会社医薬データセンター 東京理科大学工学部経営工学科 Evaluation of availability about sample size formula by Lakatos on survival analysis Ryuji Uozumi,, * Junki Mizusawa,
8 A B B B B B B B B B 175
4.. 共分散分析 4.1 共分散分析の原理 共分散分析は共変数の影響を取り除いて平均値を比較する手法 (1) 共分散分析 あるデータを群間比較したい そのデータに影響を与える他のデータが存在する 他のデータの影響を取り除いて元のデータを比較したい 共分散分析を適用 共分散分析 (ANCOVA:analysis of covariance アンコバ ) は分散分析に回帰分析の原理を応 用し 他のデータの影響を考慮して目的のデータを総合的に群間比較する手法
Microsoft PowerPoint - Econometrics pptx
計量経済学講義 第 4 回回帰モデルの診断と選択 Part 07 年 ( ) 限 担当教員 : 唐渡 広志 研究室 : 経済学研究棟 4 階 43 号室 emal: [email protected] webste: http://www3.u-toyama.ac.p/kkarato/ 講義の目的 誤差項の分散が不均 である場合や, 系列相関を持つ場合についての検定 法と修正 法を学びます
MedicalStatisticsForAll.indd
みんなの 医療統計 12 基礎理論と EZR を完全マスター! Ayumi SHINTANI はじめに EZR EZR iii EZR 2016 2 iv CONTENTS はじめに... ⅲ EZR をインストールしよう... 1 EZR 1...1 EZR 2...3...8 R Console...10 1 日目 記述統計量...11 平均値と中央値... 11...12...15...18
Python-statistics5 Python で統計学を学ぶ (5) この内容は山田 杉澤 村井 (2008) R によるやさしい統計学 (
http://localhost:8888/notebooks/... Python で統計学を学ぶ (5) この内容は山田 杉澤 村井 (2008) R によるやさしい統計学 (http://shop.ohmsha.co.jp/shop /shopdetail.html?brandcode=000000001781&search=978-4-274-06710-5&sort=) を参考にしています
Microsoft PowerPoint - R-stat-intro_04.ppt [互換モード]
R で統計解析入門 (4) 散布図と回帰直線と相関係数 準備 : データ DEP の読み込み 1. データ DEP を以下からダウンロードする http://www.cwk.zaq.ne.jp/fkhud708/files/dep.csv 2. ダウンロードした場所を把握する ここでは c:/temp とする 3. R を起動し,2. の場所に移動し, データを読み込む 4. データ DEP から薬剤
Microsoft Word - lec_student-chp3_1-representative
1. はじめに この節でのテーマ データ分布の中心位置を数値で表す 可視化でとらえた分布の中心位置を数量化する 平均値とメジアン, 幾何平均 この節での到達目標 1 平均値 メジアン 幾何平均の定義を書ける 2 平均値とメジアン, 幾何平均の特徴と使える状況を説明できる. 3 平均値 メジアン 幾何平均を計算できる 2. 特性値 集めたデータを度数分布表やヒストグラムに整理する ( 可視化する )
PowerPoint Presentation
付録 2 2 次元アフィン変換 直交変換 たたみ込み 1.2 次元のアフィン変換 座標 (x,y ) を (x,y) に移すことを 2 次元での変換. 特に, 変換が と書けるとき, アフィン変換, アフィン変換は, その 1 次の項による変換 と 0 次の項による変換 アフィン変換 0 次の項は平行移動 1 次の項は座標 (x, y ) をベクトルと考えて とすれば このようなもの 2 次元ベクトルの線形写像
JMP による 2 群間の比較 SAS Institute Japan 株式会社 JMP ジャパン事業部 2008 年 3 月 JMP で t 検定や Wilcoxon 検定はどのメニューで実行できるのか または検定を行う際の前提条件の評価 ( 正規性 等分散性 ) はどのメニューで実行できるのかと
JMP による 2 群間の比較 SAS Institute Japan 株式会社 JMP ジャパン事業部 2008 年 3 月 JMP で t 検定や Wilcoxon 検定はどのメニューで実行できるのか または検定を行う際の前提条件の評価 ( 正規性 等分散性 ) はどのメニューで実行できるのかというお問い合わせがよくあります そこで本文書では これらについて の回答を 例題を用いて説明します 1.
Microsoft Word - mstattext02.docx
章重回帰分析 複数の変数で 1つの変数を予測するような手法を 重回帰分析 といいます 前の巻でところで述べた回帰分析は 1つの説明変数で目的変数を予測 ( 説明 ) する手法でしたが この説明変数が複数個になったと考えればよいでしょう 重回帰分析はこの予測式を与える分析手法です 以下の例を見て下さい 例 以下のデータ (Samples 重回帰分析 1.txt) をもとに体重を身長と胸囲の1 次関数で
不偏推定量
不偏推定量 情報科学の補足資料 018 年 6 月 7 日藤本祥二 統計的推定 (statistical estimatio) 確率分布が理論的に分かっている標本統計量を利用する 確率分布の期待値の値をそのまま推定値とするのが点推定 ( 信頼度 0%) 点推定に ± で幅を持たせて信頼度を上げたものが区間推定 持たせた幅のことを誤差 (error) と呼ぶ 信頼度 (cofidece level)
JMP によるオッズ比 リスク比 ( ハザード比 ) の算出方法と注意点 SAS Institute Japan 株式会社 JMP ジャパン事業部 2008 年 3 月改定 1. はじめに本文書は JMP でオッズ比 リスク比 それぞれに対する信頼区間を求める算出方法と注意点を述べたものです この後
JMP によるオッズ比 リスク比 ( ハザード比 ) の算出方法と注意点 SAS Institute Japan 株式会社 JMP ジャパン事業部 2008 年 3 月改定 1. はじめに本文書は JMP でオッズ比 リスク比 それぞれに対する信頼区間を求める算出方法と注意点を述べたものです この後の 2 章では JMP でのオッズ比 オッズ比の信頼区間の算出方法について サンプルデータを用いて解説しております
スライド 1
欠測のあるデータにおける population-averaged 及び subject-specific アプローチの性能評価 多田圭佑サノフィ株式会社 研究開発部門医薬開発本部 統計解析 プログラミング部統計解析室 土居正明駒嵜弘 Performance evaluation of population-averaged and subject-specific approach with missing
Microsoft Word - Stattext12.doc
章対応のない 群間の量的データの検定. 検定手順 この章ではデータ間に 対 の対応のないつの標本から推定される母集団間の平均値や中央値の比較を行ないます 検定手法は 図. のようにまず正規に従うかどうかを調べます 但し この場合はつの群が共に正規に従うことを調べる必要があります 次に 群とも正規ならば F 検定を用いて等分散であるかどうかを調べます 等分散の場合は t 検定 等分散でない場合はウェルチ
計量経済学の第一歩 田中隆一 ( 著 ) gretl で例題と実証分析問題を 再現する方法 発行所株式会社有斐閣 2015 年 12 月 20 日初版第 1 刷発行 ISBN , Ryuichi Tanaka, Printed in Japan
計量経済学の第一歩 田中隆一 ( 著 ) gretl で例題と実証分析問題を 再現する方法 発行所株式会社有斐閣 2015 年 12 月 20 日初版第 1 刷発行 ISBN 978-4-641-15028-7, Printed in Japan 第 5 章単回帰分析 本文例例 5. 1: 学歴と年収の関係 まず 5_income.csv を読み込み, メニューの モデル (M) 最小 2 乗法 (O)
ベイズ統計入門
ベイズ統計入門 条件付確率 事象 F が起こったことが既知であるという条件の下で E が起こる確率を条件付確率 (codtoal probablt) という P ( E F ) P ( E F ) P( F ) 定義式を変形すると 確率の乗法公式となる ( E F ) P( F ) P( E F ) P( E) P( F E) P 事象の独立 ある事象の生起する確率が 他のある事象が生起するかどうかによって変化しないとき
1 環境統計学ぷらす 第 5 回 一般 ( 化 ) 線形混合モデル 高木俊 2013/11/21
1 環境統計学ぷらす 第 5 回 一般 ( 化 ) 線形混合モデル 高木俊 [email protected] 2013/11/21 2 予定 第 1 回 : Rの基礎と仮説検定 第 2 回 : 分散分析と回帰 第 3 回 : 一般線形モデル 交互作用 第 4.1 回 : 一般化線形モデル 第 4.2 回 : モデル選択 (11/29?) 第 5 回 : 一般化線形混合モデル
kubostat2017b p.1 agenda I 2017 (b) probability distribution and maximum likelihood estimation :
kubostat2017b p.1 agenda I 2017 (b) probabilit distribution and maimum likelihood estimation [email protected] http://goo.gl/76c4i 2017 11 14 : 2017 11 07 15:43 1 : 2 3? 4 kubostat2017b (http://goo.gl/76c4i)
Microsoft PowerPoint - 三次元座標測定 ppt
冗長座標測定機 ()( 三次元座標計測 ( 第 9 回 ) 5 年度大学院講義 6 年 月 7 日 冗長性を持つ 次元座標測定機 次元 辺測量 : 冗長性を出すために つのレーザトラッカを配置し, キャッツアイまでの距離から座標を測定する つのカメラ ( 次元的なカメラ ) とレーザスキャナ : つの角度測定システムによる座標測定 つの回転関節による 次元 自由度多関節機構 高増潔東京大学工学系研究科精密機械工学専攻
Microsoft PowerPoint - S11_1 2010Econometrics [互換モード]
S11_1 計量経済学 一般化古典的回帰モデル -3 1 図 7-3 不均一分散の検定と想定の誤り 想定の誤りと不均一分散均一分散を棄却 3つの可能性 1. 不均一分散がある. 不均一分散はないがモデルの想定に誤り 3. 両者が同時に起きている 想定に誤り不均一分散を 検出 したら散布図に戻り関数形の想定や説明変数の選択を再検討 残差 残差 Y 真の関係 e e 線形回帰 X X 1 実行可能な一般化最小二乗法
Microsoft PowerPoint - mp11-02.pptx
数理計画法第 2 回 塩浦昭義情報科学研究科准教授 [email protected] http://www.dais.is.tohoku.ac.jp/~shioura/teaching 前回の復習 数理計画とは? 数理計画 ( 復習 ) 数理計画問題とは? 狭義には : 数理 ( 数学 ) を使って計画を立てるための問題 広義には : 与えられた評価尺度に関して最も良い解を求める問題
博士学位請求論文審査報告書 申請者 : 植松良公 論文題目 :Statistical Analysis of Nonlinear Time Series 1. 論文の主題と構成経済時系列分析においては, 基礎となる理論は定常性や線形性を仮定して構築されるが, 実際の経済データにおいては, 非定常性や
Title 非線形時系列の統計解析 Author(s) 植松, 良公 Citation Issue 2013-09-30 Date Type Thesis or Dissertation Text Version ETD URL http://doi.org/10.15057/25906 Right Hitotsubashi University Repository 博士学位請求論文審査報告書 申請者
Microsoft Word - cjs63B9_ docx
日本人の年齢別推算糸球体濾過量 (egfr) の検討 ~ 協会けんぽ東京支部 76 万人の健診データから ~ 渋谷区医師会 望星新宿南口クリニック院長高橋俊雅 協会けんぽ東京支部保健グループ岡本康子 尾川朋子 目的 企画総務グループ馬場武彦 概要 推算糸球体濾過量 (egfr) は 慢性腎臓病 (CKD) の診断 治療に広く利用さ れているが 個々人の egfr を比較できる年齢別 egfr( 標準値
みっちりGLM
2015/3/27 12:00-13:00 日本草地学会若手 R 統計企画 ( 信州大学農学部 ) R と一般化線形モデル入門 山梨県富士山科学研究所 安田泰輔 謝辞 : 日本草地学会若手の会の皆様 発表の機会を頂き たいへんありがとうございます! 茨城大学 学生時代 自己紹介 ベータ二項分布を用いた種の空間分布の解析 所属 : 山梨県富士山科学研究所 最近の研究テーマ 近接リモートセンシングによる半自然草地のモニタリング手法開発
Microsoft PowerPoint - statistics pptx
統計学 第 回 講義 仮説検定 Part-3 06 年 6 8 ( )3 限 担当教員 唐渡 広志 ( からと こうじ ) 研究室 経済学研究棟 4 階 43 号室 email [email protected] webite htt://www3.u-toyama.ac.j/kkarato/ 講義の目的 つの 集団の平均 ( 率 ) に差があるかどうかを検定する 法を理解します keyword:
Kumamoto University Center for Multimedia and Information Technologies Lab. 熊本大学アプリケーション実験 ~ 実環境における無線 LAN 受信電波強度を用いた位置推定手法の検討 ~ InKIAI 宮崎県美郷
熊本大学アプリケーション実験 ~ 実環境における無線 LAN 受信電波強度を用いた位置推定手法の検討 ~ InKIAI プロジェクト @ 宮崎県美郷町 熊本大学副島慶人川村諒 1 実験の目的 従来 信号の受信電波強度 (RSSI:RecevedSgnal StrengthIndcator) により 対象の位置を推定する手法として 無線 LAN の AP(AccessPont) から受信する信号の減衰量をもとに位置を推定する手法が多く検討されている
当し 図 6. のように 2 分類 ( 疾患の有無 ) のデータを直線の代わりにシグモイド曲線 (S 字状曲線 ) で回帰する手法である ちなみに 直線で回帰する手法はコクラン アーミテージの傾向検定 疾患の確率 x : リスクファクター 図 6. ロジスティック曲線と回帰直線 疾患が発
6.. ロジスティック回帰分析 6. ロジスティック回帰分析の原理 ロジスティック回帰分析は判別分析を前向きデータ用にした手法 () ロジスティックモデル 疾患が発症するかどうかをリスクファクターから予想したいまたは疾患のリスクファクターを検討したい 判別分析は後ろ向きデータ用だから前向きデータ用にする必要がある ロジスティック回帰分析を適用ロジスティック回帰分析 ( ロジット回帰分析 ) は 判別分析をロジスティック曲線によって前向き研究から得られたデータ用にした手法
統計学 - 社会統計の基礎 - 正規分布 標準正規分布累積分布関数の逆関数 t 分布正規分布に従うサンプルの平均の信頼区間 担当 : 岸 康人 資料ページ :
統計学 - 社会統計の基礎 - 正規分布 標準正規分布累積分布関数の逆関数 t 分布正規分布に従うサンプルの平均の信頼区間 担当 : 岸 康人 資料ページ : https://goo.gl/qw1djw 正規分布 ( 復習 ) 正規分布 (Normal Distribution)N (μ, σ 2 ) 別名 : ガウス分布 (Gaussian Distribution) 密度関数 Excel:= NORM.DIST
相関係数と偏差ベクトル
相関係数と偏差ベクトル 経営統計演習の補足資料 07 年 月 9 日金沢学院大学経営情報学部藤本祥二 相関係数の復習 r = s xy s x s y = = n σ n i= σn i= n σ n i= n σ i= x i xҧ y i തy x i xҧ n σ n i= y i തy x i xҧ x i xҧ y i തy σn i= y i തy 式が長くなるので u, v の文字で偏差を表すことにする
ファイナンスのための数学基礎 第1回 オリエンテーション、ベクトル
時系列分析 変量時系列モデルとその性質 担当 : 長倉大輔 ( ながくらだいすけ 時系列モデル 時系列モデルとは時系列データを生み出すメカニズムとなるものである これは実際には未知である 私たちにできるのは観測された時系列データからその背後にある時系列モデルを推測 推定するだけである 以下ではいくつかの代表的な時系列モデルを考察する 自己回帰モデル (Auoregressive Model もっとも頻繁に使われる時系列モデルは自己回帰モデル
目次 1 章 SPSS の基礎 基本 はじめに 基本操作方法 章データの編集 はじめに 値ラベルの利用 計算結果に基づく新変数の作成 値のグループ化 値の昇順
SPSS 講習会テキスト 明治大学教育の情報化推進本部 IZM20140527 目次 1 章 SPSS の基礎 基本... 3 1.1 はじめに... 3 1.2 基本操作方法... 3 2 章データの編集... 6 2.1 はじめに... 6 2.2 値ラベルの利用... 6 2.3 計算結果に基づく新変数の作成... 7 2.4 値のグループ化... 8 2.5 値の昇順 降順... 10 3
DVIOUT
第 章 離散フーリエ変換 離散フーリエ変換 これまで 私たちは連続関数に対するフーリエ変換およびフーリエ積分 ( 逆フーリエ変換 ) について学んできました この節では フーリエ変換を離散化した離散フーリエ変換について学びましょう 自然現象 ( 音声 ) などを観測して得られる波 ( 信号値 ; 観測値 ) は 通常 電気信号による連続的な波として観測機器から出力されます しかしながら コンピュータはこの様な連続的な波を直接扱うことができないため
今日の要点 あぶない 時系列データ解析は やめましょう! 統計モデル のあてはめ (危 1) 時系列データの GLM あてはめ (危 2) 時系列Yt 時系列 Xt 各時刻の個体数 気温 とか
時系列データ解析でよく見る あぶない モデリング 久保拓弥 (北海道大 環境科学) 1/56 今日の要点 あぶない 時系列データ解析は やめましょう! 統計モデル のあてはめ (危 1) 時系列データの GLM あてはめ (危 2) 時系列Yt 時系列 Xt 各時刻の個体数 気温 とか (危 1) 時系列データを GLM で (危 2) 時系列Yt 時系列 Xt 相関は因果関係ではない 問題の一部
仮説検定を伴う方法では 検定の仮定が満たされ 検定に適切な検出力があり データの分析に使用される近似で有効な結果が得られることを確認することを推奨します カイ二乗検定の場合 仮定はデータ収集に固有であるためデータチェックでは対応しません Minitab は近似法の検出力と妥当性に焦点を絞っています
MINITAB アシスタントホワイトペーパー本書は Minitab 統計ソフトウェアのアシスタントで使用される方法およびデータチェックを開発するため Minitab の統計専門家によって行われた調査に関する一連の文書の 1 つです カイ二乗検定 概要 実際には 連続データの収集が不可能な場合や難しい場合 品質の専門家は工程を評価するためのカテゴリデータの収集が必要となることがあります たとえば 製品は不良
Microsoft Word - 計量研修テキスト_第5版).doc
Q10-2 テキスト P191 1. 記述統計量 ( 変数 :YY95) 表示変数として 平均 中央値 最大値 最小値 標準偏差 観測値 を選択 A. 都道府県別 Descriptive Statistics for YY95 Categorized by values of PREFNUM Date: 05/11/06 Time: 14:36 Sample: 1990 2002 Included
memo
数理情報工学特論第一 機械学習とデータマイニング 4 章 : 教師なし学習 3 かしまひさし 鹿島久嗣 ( 数理 6 研 ) [email protected].~ DEPARTMENT OF MATHEMATICAL INFORMATICS 1 グラフィカルモデルについて学びます グラフィカルモデル グラフィカルラッソ グラフィカルラッソの推定アルゴリズム 2 グラフィカルモデル 3 教師なし学習の主要タスクは
