2 と入力すると以下のようになる > x1<-c(1.52,2,3.01,9,2,6.3,5,11.2) > y1<-c(4,0.21,-1.5,8,2,6,9.915,5.2) > cor(x1,y1) [1] > cor.test(x1,y1) Pearson's produ
|
|
|
- とよみ しもかさ
- 7 years ago
- Views:
Transcription
1 1 統計 データ解析セミナーの予習 粕谷英一 ( 理 生物 生態 ) GCOE アジア保全生態学 本日のメニュー R 一般化線形モデル (Generalized Linear Models 略して GLM) R で GLM を使う R でグラフを描く 説明しないこと :R でできること全般 たくさんあるので時間的に無理 R でするプログラミング-データ解析なら使いやすい R 起動と終了 起動は他のアプリケーションと同じ終了は コマンド画面 (R の基本的かつ主な画面 ) で q() と入力するか メニューから終了を選ぶ 終了時には 作業スペースを保存するか ( オブジェクトなどが保存される ) どうか聞いてくる 関数などがどんなものかわからないとき? 関数の名前 help( 関数の名前 )?? 関数の名前 簡単な例 データを入力し 相関係数を計算し グラフを書くデータの入力と相関係数の計算 x1<-c(1.52,2,3.01,9,2,6.3,5,11.2) y1<-c(4,0.21,-1.5,8,2,6,9.915,5.2) cor(x1,y1) cor.test(x1,y1)
2 2 と入力すると以下のようになる > x1<-c(1.52,2,3.01,9,2,6.3,5,11.2) > y1<-c(4,0.21,-1.5,8,2,6,9.915,5.2) > cor(x1,y1) [1] > cor.test(x1,y1) Pearson's product-moment correlation data: x1 and y1 t = , df = 6, p-value = alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval: sample estimates: cor さらに hist(x1) hist(y1) plot(x1,y1) と ( ゆっくり ) 入力すると > hist(x1) > hist(y1) > plot(x1,y1) とメインのウィンドウには出て 同時に自動的に別ウィンドウが開いて x1 のヒストグラム y1 のヒストグラム x1 が横軸で y1 が縦軸の散布図が表示される
3 3 <- 代入 + 足し算 - 引き算 * 掛け算 / 割り算 ^べき乗 c() ベクトルを作る cor() 相関係数を計算する cor.test() 相関係数を計算して信頼区間を求め 検定する 簡単な例: 続き基本的な統計量の計算 以下のように入力すると mean(x1) median(x1) var(x1) sd(x1) range(x1) 以下のようになる > mean(x1) [1] > median(x1) [1] > var(x1) [1] > sd(x1) [1] > range(x1) [1] 基本的な統計量を計算する関数 mean() 平均 median() 中央値 var() 分散 sd() 標準偏差 range() 範囲 キー操作上下の矢印キーは履歴の移動
4 4 簡単な例: 続きオブジェクトの中味 cortest1<-cor.test(x1,y1) cortest1 str(cortest1) cortest1$estimate と入力すると 以下のようになる > cortest1<-cor.test(x1,y1) > cortest1 Pearson's product-moment correlation data: x1 and y1 t = , df = 6, p-value = alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval: sample estimates: cor > cortest1$estimate cor > str(cortest1) List of 9 $ statistic : Named num attr(*, "names")= chr "t" $ parameter : Named num 6..- attr(*, "names")= chr "df" $ p.value : num $ estimate : Named num attr(*, "names")= chr "cor" $ null.value : Named num 0
5 5 > cortest1$estimate cor str() その名前のものーオブジェクトーの中味の構造を表示 $ オブジェクトを構成するもの 簡単な例: 続きベクトルの操作 x1[1] x1[5] x1[x1<=8.5] x1[1:5] z1<-x1+y1*2 z1 z2<-(x1-x1/y1) z2 z2[8] <-(216.5) z2 z2<-(216.5) z2 > x1[1] [1] 1.52 > x1[5] [1] 2 > x1[x1<=8.5] [1] > x1[1:5] [1] > z1<-x1+y1*2 > z1 [1]
6 6 > z2<-(x1-x1/y1) > z2 [1] [8] > z2[8]<-(216.5) > z2 [1] [7] > z2<-(216.5) > z2 [1] [] 内の数字はベクトル内での要素の位置を表す数字 : 数字は連続した整数を表す 簡単な例: 続きデータフレーム データフレームとはベクトルを複数まとめたようなもの ( オブジェクトの形式の 1 つ ) 統計的なデータ解析ではよく使われて便利 << 例の書き方を簡単にします>> > newdata1<-data.frame(x1,y1) > newdata1 x1 y > names(newdata1)<-c("haba","nagasa") > newdata1 haba nagasa
7 > summary(newdata1) haba nagasa Min. : Min. : st Qu.: st Qu.: Median : Median : Mean : Mean : rd Qu.: rd Qu.: Max. : Max. : > newdata1$haba [1] > newdata1$nagasa [1] > newdata1[1,] haba nagasa > newdata1[,1] [1] > newdata1[,"haba"] [1] > newdata1.01<-subset(newdata1,haba<=8.1) > newdata1.01 haba nagasa
8 8 > newdata1.02<-newdata1 > newdata1.02$menseki<-newdata1.02$haba*newdata1.02$nagasa > newdata1.02$menseki [1] > newdata1.02 haba nagasa menseki data.frame() データフレームを作る summary() $ subset() 条件に合うデータだけからなるデータフレームを作る データファイルの読み込み 他のソフトウェアで作られたデータファイルを R のデータフレームに読み込む 基本的な考え方 : コンピューターができそうなことはコンピューターにやら せる- 省力化とまちがい減らし コピーしてクリップボードにあるものを読み込む 他の統計ソフト専用ファ イルを読む MS-Excel のファイルを読むなどの関数は各種揃っているが ここ では テキストファイルを読む ( 応用がきくから ) 以下のデータを 1124test1.txt という名前で保存しておく 区切り記号はタブ nage ura taion takasa
9 > mydata01<-read.table("1124test1.txt") > mydata01 V1 V2 V3 V4 1 nage ura taion takasa > mydata01<-read.table("1124test1.txt",header=t) > mydata01 nage ura taion takasa
10 10 まずここまでやってみる ディレクトリとファイル名の確認を忘れずに > mydata01$uraritu<-(mydata01$ura/mydata01$nage) > mydata01 nage ura taion takasa uraritu > plot(mydata01) read.table() 表の形になっているファイルを読み込む R とパッケージ R には特定の目的のための関数などを集めたパッケージと呼ばれるものが多数ある いずれかのパッケージに含まれている分析手法の数は膨大なので 自分がしたい分析はまずどこかのパッケージにないか探すといい パッケージに含まれている関数などを使いたいときには そのパッケージをネット上から自分のコンピューターに入れておき ( パッケージのインストール ) 使うときにインストールされているパッケージをロードする( パッケージの読み込み ) たまたま 異なるパッケージに同じ名前の関数があると 後から読み込まれた方が使われる ( 警告が出る ) R と GUI R は 基本的にはコマンドラインに文字を入力して動かす ( 実は統計ソフトの多くはそうである ) しかし もっとグラフィカルインターフェースっぽく使いたいときには そのようなパッケージなどもある 代表的には R commander(rcmdr とも呼ばれる )
11 11 = = = = = = = = = = = = = = = = = = = = = = = = = = = = R 補足 # 全オブジェクト消去 ( みな消えてしまえ ) rm(list=ls(all=true)) あるいは rm(list=ls())
12 12 一般化線形モデル 回帰を拡張 ( 一般化 ) したものです 回帰とは 回帰のパーツ説明説明変数 ( 昔は独立変数 ) 目的変数 ( 応答変数 昔は従属変数 ) 誤差 ( 残差 ) 説明変数の式が目的変数の期待値を決め 実際の目的変数の値はその期待値のまわりにばらつく目的変数の期待値と実際の値の差を誤差と呼ぶ たとえば y=3x-1 で x=3 で y=7 というデータがあったとすると x=3 に対する目的変数 y の期待値は 8 で 残差は-1 である 3x-1 の 3 を回帰係数 -1 を切片という 直線回帰で 説明変数を複数にすると ( 線形 ) 重回帰重回帰で 説明変数に名義変数まで拡張すると 一般線形モデル ( 正規線形モデル ) 一般線形モデルで 説明変数の一次式以外のもの ( の一部 ) と目的変数の分布を等分散の正規分布以外のものまで拡張すると 一般化線形モデル 一般化線形モデルのパーツ :3つの構成要素 線形予測子 linear predictor 説明変数の一次式のこと リンク関数( 連結関数 )link funtion 説明変数の一次式と目的変数の予測値 ( 期待値 ) の関係リンク関数 ( 目的変数の予測値 )= 線形予測子 誤差分布( 構造 )error structure 目的変数の予測値 ( 期待値 ) のまわりのばらつきの分布 リンク関数の例 :identity( そのまま ) log( 対数 ) logit( ロジット ) inverse
13 13 ( 逆数 ) ( 相補的 log-log) 誤差分布の例等分散の正規分布 ( 分散が一定 ) ポアソン分布( 分散は平均と等しい ) 二項分布( 分散 = 観察された個数 確率 (1- 確率 )) ガンマ分布( 分散は平均の二乗に比例 ) ポアソン分布 : 単位時間 ( 単位面積 ) あたり一定の率で生じるイベントの回数 ( ものの個数 ) 回数なので非負の整数 イベント回数や個体数を分析するときの基本二項分布 : 一定の確率で2つのできごとのどちらかが起こる現象を n 回繰り返したときの片方のできごとが起こる回数 生存 vs 死亡やメス vs オス ある場所にいる vs 他のところにいるといったデータを分析するときの基本 一般化線形モデルの例 : リンク関数が identity 誤差分布が等分散の正規分布直線回帰 ( 元々の意味での ) 重回帰 分散分析リンク関数が logit 誤差分布が二項分布ロジスティック回帰 対数線形モデルの一部リンク関数が対数 誤差分布がポアソン分布ポアソン回帰 一般化線形モデルにおける必須知識線形予測子関係名義変数はダミー変数にして扱うオフセットいつも回帰係数が 1 の説明変数交互作用 (interaction) ある説明変数が目的変数に与える効果が 他の説明変数の値が変わると変わる両変数の積を説明変数にする ( 偏 ) 回帰係数の意味 : 他の説明変数の値をすべて一定に保って その説明変数の値を 1 増やしたときに目的変数の期待値に与える効果 尤度 (likelihood) 確率ないしそれに準じるもの ( 連続的な量だと特定の値の確率は 0 なので確率密度を使う ) 確率かそれに準じるものなので たいていは 1 より小さい尤度を最大にするように回帰係数や切片など ( パラメーター ) を決める ( 最尤法という )
14 14 対数尤度 (log likelihood) 検定 Wald 検定尤度比検定スコア検定普通の ( 帰無 ) 仮説その説明変数が変化しても目的変数の期待値に変化なし回帰係数 ( パラメーター ) が 0 か Wald 検定や尤度比検定やスコア検定はサンプル数が大きいときに正しいサンプル数が少ないときにはパラメトリック ブートストラップなど 最適な予測式 ( モデル選択 ) AIC( 赤池情報量規準 ) 自由パラメーター数 2+ 最大対数尤度のマイナス 2 倍 誤差構造関係 overdispersion( 分散が過大 ): 二項分布やポアソン分布では平均値を決める確率や単位当たり発生率が決まれば分散も決まる しかし 実際には 平均に対して 現実の分散はこの分布からの理論値よりも大きいことが多い そのため 二項分布やポアソン分布のつもりで分析すると 偏りを過大に評価してしまう quasi-likelihood( 擬似尤度 準尤度 ) 平均と分散の関係はデータ解析上重要なので 平均が変わったとき分散がどう変化するかだけを問題にした尤度もどき 多重共線性説明変数の中に相関が非常に強いものがあると 結果が不安定になる ( データのごくわずかなちがいで 回帰係数の値などが大きく変化 ) R で GLM を使う glm() という関数 3 構成要素線形予測子を formula( 記号 ~) 誤差を family リンク関数を link で指定する
15 15 glm( 目的変数 ~ 説明変数,family= かんとか (link=" 何とか ")) 等分散の正規分布 identity リンクの例 ( 直線回帰と同じ ) > gx1<-c(1,3,2,5.1,4.02,2.8,5,6,7,8) > gy1<-c(4.02,2.2,5.1,4.2,3.5,1,7,8.5,9.1,7.3) >## ここまではデータの準備 > res.n01<-glm(gy1~gx1,family=gaussian(link="identity")) > res.n01 Call: glm(formula = gy1 ~ gx1, family = gaussian(link = "identity")) (Intercept) gx Degrees of Freedom: 9 Total (i.e. Null); 8 Residual Null Deviance: Residual Deviance: AIC: 45.9 > summary(res.n01) Call: glm(formula = gy1 ~ gx1, family = gaussian(link = "identity")) Deviance Residuals: Min 1Q Median 3Q Max Estimate Std. Error t value Pr(> t ) (Intercept) gx * --- Signif. codes: 0 *** ** 0.01 * (Dispersion parameter for gaussian family taken to be )
16 16 Null deviance: on 9 degrees of freedom Residual deviance: on 8 degrees of freedom AIC: Number of Fisher Scoring iterations: 2 > anova(res.n01) Analysis of Deviance Table Model: gaussian, link: identity Response: gy1 Terms added sequentially (first to last) Df Deviance Resid. Df Resid. Dev NULL gx > anova(res.n01,test="f") Analysis of Deviance Table Model: gaussian, link: identity Response: gy1 Terms added sequentially (first to last) Df Deviance Resid. Df Resid. Dev F Pr(>F) NULL gx * --- Signif. codes: 0 *** ** 0.01 *
17 17 gaussian は等分散の正規分布の意味 family を指定して リンク関数を指定しないとデフォールトのリンク関数が使われる ( たまたまそれを使いたければ link を省略できる ) > res.n02<-glm(gy1~gx1,family=gaussian) > res.n02 Call: glm(formula = gy1 ~ gx1, family = gaussian) (Intercept) gx Degrees of Freedom: 9 Total (i.e. Null); 8 Residual Null Deviance: Residual Deviance: AIC: 45.9 > summary(res.n02) Call: glm(formula = gy1 ~ gx1, family = gaussian) Deviance Residuals: Min 1Q Median 3Q Max Estimate Std. Error t value Pr(> t ) (Intercept) gx * --- Signif. codes: 0 *** ** 0.01 * (Dispersion parameter for gaussian family taken to be )
18 18 Null deviance: on 9 degrees of freedom Residual deviance: on 8 degrees of freedom AIC: Number of Fisher Scoring iterations: 2 この例は等分散の正規分布 ( のつもり ) なので 一般線形モデル用の関数 lm() も使える > res.n03<-lm(gy1~gx1) > res.n03 Call: lm(formula = gy1 ~ gx1) (Intercept) gx > summary(res.n03) Call: lm(formula = gy1 ~ gx1) Residuals: Min 1Q Median 3Q Max Estimate Std. Error t value Pr(> t ) (Intercept) gx * --- Signif. codes: 0 *** ** 0.01 *
19 19 Residual standard error: on 8 degrees of freedom Multiple R-squared: 0.518, Adjusted R-squared: F-statistic: on 1 and 8 DF, p-value: 結果は同じ 説明変数が名義尺度のとき 片方 ( 以下の例では a) に 0 もう片方( 以下の例では b) に 1 を割り当てるダミー変数を使って分析している > gx2<-c("a","b","a","b","a","a","a","a","b","b") > gx2 [1] "a" "b" "a" "b" "a" "a" "a" "a" "b" "b" > summary(gx2) Length Class Mode 10 character character > res.n04<-glm(gy1~gx2,family=gaussian(link="identity")) 警告メッセージ : In model.matrix.default(mt, mf, contrasts) : 変数 'gx2' は因子に変換されました > res.n04 Call: glm(formula = gy1 ~ gx2, family = gaussian(link = "identity")) (Intercept) gx2b Degrees of Freedom: 9 Total (i.e. Null); 8 Residual Null Deviance: Residual Deviance: AIC: > summary(res.n04) Call: glm(formula = gy1 ~ gx2, family = gaussian(link = "identity"))
20 20 Deviance Residuals: Min 1Q Median 3Q Max Estimate Std. Error t value Pr(> t ) (Intercept) ** gx2b Signif. codes: 0 *** ** 0.01 * (Dispersion parameter for gaussian family taken to be ) Null deviance: on 9 degrees of freedom Residual deviance: on 8 degrees of freedom AIC: Number of Fisher Scoring iterations: 2 途中のエラーメッセージはデータの作成手順によっては出ないこともある回帰係数や切片の意味を確かめてみる > cka<-c(1,3,5,6,7,8) > gx2[cka] [1] "a" "a" "a" "a" "a" "a" > ckb<-c(2,4,9,10) > gx2[ckb] [1] "b" "b" "b" "b" > mean(gy1[cka]) [1] > mean(gy1[ckb]) [1] 5.7 > mean(gy1[ckb])- mean(gy1[cka]) [1]
21 21 次は 目的変数が 2 項分布の例 ( ロジスティック回帰 ) データは先ほどファイル読み込みで使った > mydata01 nage ura taion takasa uraritu >res.b01<-glm(uraritu~taion+takasa,weight=nage,data=mydata01,family=b inomial(link="logit")) > res.b01 Call: glm(formula = uraritu ~ taion + takasa, family = binomial(link = "logit"), data = mydata01, weights = nage) (Intercept) taion takasa Degrees of Freedom: 11 Total (i.e. Null); 9 Residual Null Deviance: Residual Deviance: AIC: > summary(res.b01) Call: glm(formula = uraritu ~ taion + takasa, family = binomial(link = "logit"),
22 22 data = mydata01, weights = nage) Deviance Residuals: Min 1Q Median 3Q Max Estimate Std. Error z value Pr(> z ) (Intercept) e-05 *** taion e-05 *** takasa Signif. codes: 0 *** ** 0.01 * (Dispersion parameter for binomial family taken to be 1) Null deviance: on 11 degrees of freedom Residual deviance: on 9 degrees of freedom AIC: Number of Fisher Scoring iterations: 4 > anova(res.b01,test="chisq") Analysis of Deviance Table Model: binomial, link: logit Response: uraritu Terms added sequentially (first to last) Df Deviance Resid. Df Resid. Dev P(> Chi ) NULL taion e-06 *** takasa
23 Signif. codes: 0 *** ** 0.01 * family が binomial( 二項分布の意味 ) のときはデフォールトのリンクは logit なので省略しても同じ > res.b02<-glm(uraritu~taion+takasa,weight=nage,data=mydata01,family=bi nomial) > res.b02 Call: glm(formula = uraritu ~ taion + takasa, family = binomial, data = mydata01, weights = nage) (Intercept) taion takasa Degrees of Freedom: 11 Total (i.e. Null); 9 Residual Null Deviance: Residual Deviance: AIC: > summary(res.b02) Call: glm(formula = uraritu ~ taion + takasa, family = binomial, data = mydata01, weights = nage) Deviance Residuals: Min 1Q Median 3Q Max Estimate Std. Error z value Pr(> z ) (Intercept) e-05 *** taion e-05 *** takasa
24 Signif. codes: 0 *** ** 0.01 * (Dispersion parameter for binomial family taken to be 1) Null deviance: on 11 degrees of freedom Residual deviance: on 9 degrees of freedom AIC: Number of Fisher Scoring iterations: 4 > anova(res.b02,test="chisq") Analysis of Deviance Table Model: binomial, link: logit Response: uraritu Terms added sequentially (first to last) Df Deviance Resid. Df Resid. Dev P(> Chi ) NULL taion e-06 *** takasa Signif. codes: 0 *** ** 0.01 * データはこんな与え方も可能 > res.b04<-glm(cbind(ura,(nage-ura))~taion+takasa,data=mydata01,family=bi nomial(link="logit")) > res.b04
25 25 Call: glm(formula = cbind(ura, (nage - ura)) ~ taion + takasa, family = binomial(link = "logit"), data = mydata01) (Intercept) taion takasa Degrees of Freedom: 11 Total (i.e. Null); 9 Residual Null Deviance: Residual Deviance: AIC: > summary(res.b04) Call: glm(formula = cbind(ura, (nage - ura)) ~ taion + takasa, family = binomial(link = "logit"), data = mydata01) Deviance Residuals: Min 1Q Median 3Q Max Estimate Std. Error z value Pr(> z ) (Intercept) e-05 *** taion e-05 *** takasa Signif. codes: 0 *** ** 0.01 * (Dispersion parameter for binomial family taken to be 1) Null deviance: on 11 degrees of freedom Residual deviance: on 9 degrees of freedom AIC:
26 26 Number of Fisher Scoring iterations: 4 > anova(res.b04,test="chisq") Analysis of Deviance Table Model: binomial, link: logit Response: cbind(ura, (nage - ura)) Terms added sequentially (first to last) Df Deviance Resid. Df Resid. Dev P(> Chi ) NULL taion e-06 *** takasa Signif. codes: 0 *** ** 0.01 * 目的変数を 率 ( 部分の数 / 全体の数 ) で与えたときには 全体の数によりデー タの重さが異なるので weight を指定する必要がある quasi-likelihood による overdispersion 対策 ( 実際には この例では overdispersion になっていない ) > res.qb04<-glm(cbind(ura,(nage-ura))~taion+takasa,data=mydata01,family= quasibinomial) > res.qb04 Call: glm(formula = cbind(ura, (nage - ura)) ~ taion + takasa, family = quasibinomial, data = mydata01) (Intercept) taion takasa
27 Degrees of Freedom: 11 Total (i.e. Null); 9 Residual Null Deviance: Residual Deviance: AIC: NA > summary(res.qb04) Call: glm(formula = cbind(ura, (nage - ura)) ~ taion + takasa, family = quasibinomial, data = mydata01) Deviance Residuals: Min 1Q Median 3Q Max Estimate Std. Error t value Pr(> t ) (Intercept) ** taion ** takasa Signif. codes: 0 *** ** 0.01 * (Dispersion parameter for quasibinomial family taken to be ) Null deviance: on 11 degrees of freedom Residual deviance: on 9 degrees of freedom AIC: NA Number of Fisher Scoring iterations: 4 > anova(res.qb04,test="f") Analysis of Deviance Table Model: quasibinomial, link: logit
28 28 Response: cbind(ura, (nage - ura)) Terms added sequentially (first to last) Df Deviance Resid. Df Resid. Dev F Pr(>F) NULL taion *** takasa Signif. codes: 0 *** ** 0.01 * 交互作用のある例交互作用およびその説明変数そのものは * で指定交互作用だけは : で指定 ( こういう分析に意味があることはまれ ) > res.bi01<-glm(uraritu~taion*takasa,weight=nage,data=mydata01,family=bi nomial(link="logit")) > res.bi02<-glm(uraritu~taion+takasa+taion:takasa,weight=nage,data=mydat a01,family=binomial(link="logit")) > res.bi03<-glm(uraritu~taion:takasa,weight=nage,data=mydata01,family=bi nomial(link="logit")) > res.bi01 Call: glm(formula = uraritu ~ taion * takasa, family = binomial(link = "logit"), data = mydata01, weights = nage) (Intercept) taion takasa taion:takasa
29 29 Degrees of Freedom: 11 Total (i.e. Null); 8 Residual Null Deviance: Residual Deviance: AIC: 44.4 > res.bi02 Call: glm(formula = uraritu ~ taion + takasa + taion:takasa, family = binomial(link = "logit"), data = mydata01, weights = nage) (Intercept) taion takasa taion:takasa Degrees of Freedom: 11 Total (i.e. Null); 8 Residual Null Deviance: Residual Deviance: AIC: 44.4 > res.bi03 Call: glm(formula = uraritu ~ taion:takasa, family = binomial(link = "logit"), data = mydata01, weights = nage) (Intercept) taion:takasa Degrees of Freedom: 11 Total (i.e. Null); 10 Residual Null Deviance: Residual Deviance: AIC: 60 定数項 ( 切片 ) だけ > res.b06<-glm(uraritu~1,weight=nage,data=mydata01,family=binomial(link= "logit")) > res.b06 Call: glm(formula = uraritu ~ 1, family = binomial(link = "logit"),
30 30 data = mydata01, weights = nage) (Intercept) Degrees of Freedom: 11 Total (i.e. Null); 11 Residual Null Deviance: Residual Deviance: AIC: 定数項 ( 切片 ) が 0 > res.b07<-glm(uraritu~taion-1,weight=nage,data=mydata01,family=binomial (link="logit")) > res.b07 Call: glm(formula = uraritu ~ taion - 1, family = binomial(link = "logit"), data = mydata01, weights = nage) taion Degrees of Freedom: 12 Total (i.e. Null); 11 Residual Null Deviance: Residual Deviance: 31.2 AIC: 目的変数がポアソン分布でリンク関数が対数の場合 ( ポアソン回帰 ) 以下が使ったデータ > pdata1 x1 y
31 > res.p01<-glm(y1~x1,data=pdata1,family=poisson(link="log")) > res.p01 Call: glm(formula = y1 ~ x1, family = poisson(link = "log"), data = pdata1) (Intercept) x Degrees of Freedom: 10 Total (i.e. Null); 9 Residual Null Deviance: Residual Deviance: 13.4 AIC: > summary(res.p01) Call: glm(formula = y1 ~ x1, family = poisson(link = "log"), data = pdata1) Deviance Residuals: Min 1Q Median 3Q Max Estimate Std. Error z value Pr(> z ) (Intercept) x **
32 Signif. codes: 0 *** ** 0.01 * (Dispersion parameter for poisson family taken to be 1) Null deviance: on 10 degrees of freedom Residual deviance: on 9 degrees of freedom AIC: Number of Fisher Scoring iterations: 5 > anova(res.p01,test="chisq") Analysis of Deviance Table Model: poisson, link: log Response: y1 Terms added sequentially (first to last) Df Deviance Resid. Df Resid. Dev P(> Chi ) NULL x ** --- Signif. codes: 0 *** ** 0.01 * family が poisson( ポアソン分布の意味 ) のときはデフォールトのリンクは log なので省略しても同じ > res.p02<-glm(y1~x1,data=pdata1,family=poisson) > res.p02 Call: glm(formula = y1 ~ x1, family = poisson, data = pdata1)
33 33 (Intercept) x Degrees of Freedom: 10 Total (i.e. Null); 9 Residual Null Deviance: Residual Deviance: 13.4 AIC: quasi-likelihood による overdispersion 対策 ( この例では overdispersion の程度はごく弱い ) > res.qp01<-glm(y1~x1,data=pdata1,family=quasipoisson) > res.qp01 Call: glm(formula = y1 ~ x1, family = quasipoisson, data = pdata1) (Intercept) x Degrees of Freedom: 10 Total (i.e. Null); 9 Residual Null Deviance: Residual Deviance: 13.4 AIC: NA > summary(res.qp01) Call: glm(formula = y1 ~ x1, family = quasipoisson, data = pdata1) Deviance Residuals: Min 1Q Median 3Q Max Estimate Std. Error t value Pr(> t ) (Intercept) x *
34 Signif. codes: 0 *** ** 0.01 * (Dispersion parameter for quasipoisson family taken to be ) Null deviance: on 10 degrees of freedom Residual deviance: on 9 degrees of freedom AIC: NA Number of Fisher Scoring iterations: 5 > anova(res.qp01,test="chisq") Analysis of Deviance Table Model: quasipoisson, link: log Response: y1 Terms added sequentially (first to last) Df Deviance Resid. Df Resid. Dev P(> Chi ) NULL x ** --- Signif. codes: 0 *** ** 0.01 * オフセットの説明たとえば c1 が行動が見られた回数で tt1 が観察時間だとする 観察時間当たりの行動回数 (c1/tt1) を目的変数として分析したいとする リンクは対数リンクだとする 説明変数を x とすると log(c1/tt1)= β*x+α という回帰式を考えていることになる 左辺を変形する log(c1) - log(tt1)= β*x+α
35 35 となり 整理して log(c1)= β*x+α+ log(tt1) となる offset( 変数名 ) では 回帰係数が 1 になる変数を指定するので この場合 c1~x+offset(tt1) ではなく c1~x+offset(log(tt1)) となる なお 観察時間の効果を除く とか思って c1~x+ tt1 としてしまうと log(c1)= β*x+α+γ*tt1 変形して log(c1)- γ*tt1= β*x+α 整理して log(c1/exp(γ*tt1))= β*x+α となって 分析の目的とはだいぶ遠いところに行ってしまう 何かの2 乗を説明変数に入れたいとき > res.nq01<-glm(gy1~i(gx1^2),family=gaussian) > res.nq01 Call: glm(formula = gy1 ~ I(gx1^2), family = gaussian) (Intercept) I(gx1^2) Degrees of Freedom: 9 Total (i.e. Null); 8 Residual Null Deviance: Residual Deviance: AIC: 45 ## 上は 2 次の項と定数項だけ 次は 1 次の項もある普通の 2 次式 > res.nq02<-glm(gy1~i(gx1^2)+gx1,family=gaussian) > res.nq02 Call: glm(formula = gy1 ~ I(gx1^2) + gx1, family = gaussian)
36 36 (Intercept) I(gx1^2) gx Degrees of Freedom: 9 Total (i.e. Null); 7 Residual Null Deviance: Residual Deviance: 28.8 AIC: 46.96
37 37 R でグラフを描く グラフィックス用の関数や命令には それだけで図ができる高水準のものと 線を引く点を打つなどの低水準のものがある ここでは plot() を中心に 高水準のものの使い方の基本例を説明する 関数 plot() による散布図の例 ( 以下は1 行ずつ実行して結果を確認する ) > plot(y1~x1,data=pdata1) ## 横軸の名前を変える > plot(y1~x1,data=pdata1,xlab="shoumou") ## 縦軸の名前も変える > plot(y1~x1,data=pdata1,xlab="shoumou",ylab="no. of events") ## 横軸の範囲を指定 > plot(y1~x1,data=pdata1,xlim=c(0,20)) ## 縦軸の範囲を指定 > plot(y1~x1,data=pdata1,ylim=c(0,20)) ## 縦軸の範囲と横軸の範囲を指定 > plot(y1~x1,data=pdata1,xlim=c(0,30),ylim=c(0,20)) ## 線の太さを変えて記号の見かけ上の大きさを変えてみる > plot(y1~x1,data=pdata1,lwd=30) ## 記号の色を変えてみる > plot(y1~x1,data=pdata1,col="blue") ## 記号の色と見かけ上の大きさを変えてみる > plot(y1~x1,data=pdata1,lwd=20,col="blue") ## 直線で結ぶ > plot(y1~x1,data=pdata1,type="l") ## 点を直線で結ぶ > plot(y1~x1,data=pdata1,type="b")
38 38 エラーバーをつけてみる gx1 の上下に er1 の長さのエラーバーを付ける > c1<-1:10 > c1 [1] > plot(gx1~c1) > er1<-c(0.2,0.5,0.4,0.6,0.8,1.1,1.5,1.3,0.5,1.9) > gx1u<-gx1+er1 > gx1l<-gx1-er1 > plot(gx1~c1) > arrows(c1,gx1u,c1,gx1l,length=.05,angle=90,code=3) ##1つの変数だけ指定すると その変数が縦軸 順序を横軸にした散布図になる > plot(pdata1$x1) ##density の結果を入れると カーネル密度のグラフになる > plot(density(gy1)) 一般化線形関数モデルの関数 glm() の結果を plot() の中に入れると 残差プロットがいくつか次々にできる #enter を押すと次が描かれる > plot(res.p01) 関数 barplot() で棒グラフを描く ## まず使うデータ > bardata01<-c(3,2.1,6.5,2,2.5) > bardata01 [1] > barplot(bardata01) # 棒の隙間をなくす > barplot(bardata01,space=0)
39 39 # 棒の隙間を広く > barplot(bardata01,space=0.5) # 棒の中に斜線を引く > barplot(bardata01,density=10,angle=5) # 棒の中の斜線の角度を変える > barplot(bardata01,density=10,angle=45) # 棒の中に斜線を密に引く > barplot(bardata01,density=50,angle=45) # 棒の太さをちがえる > barplot(bardata01,width=c(2,1.5,2,1,1)) # 棒が横向き > barplot(bardata01,horiz=t) # 棒をちがう色でぬる > barplot(bardata01,col = c("blue", "black", "cyan","green","brown")) 箱ひげ図を boxplot() で描く箱ひげ図 (box plot) は 箱でデータの中央値と上下のヒンジを示し それよりも広い範囲を直線で示す > boxplot(gy1~gx2)
40 40 ヒストグラムを hist() で描く # 使用するデータ > hdata1<-c(1,7.1,2,3,4,5,9,2,3,4,5,6,8,5.2,4,3,2,4,5,8,9,2) > hist(hdata1) #breaks で区切りの値を与えることができる > hist(hdata1,breaks=c(0.5,3.5,6.5,9.5)) # 細かくしてみる > hist(hdata1,breaks=c(0.5,1.5,2.5,3.5,4.5,5.5,6.5,7.5,8.5,9.5)) # > hist(hdata1,breaks=c(0.2,2.2,4.2,6.2,8.2,10.2)) # 区間幅は同じでなくてもいい- 意味があるかどうかは別だが > hist(hdata1,breaks=c(0.2,2.9,4.2,6.2,8.2,10.2)) = = = = = = = = = = = = = = = = = = = = = = = = = = = =
講義のーと : データ解析のための統計モデリング. 第3回
Title 講義のーと : データ解析のための統計モデリング Author(s) 久保, 拓弥 Issue Date 2008 Doc URL http://hdl.handle.net/2115/49477 Type learningobject Note この講義資料は, 著者のホームページ http://hosho.ees.hokudai.ac.jp/~kub ードできます Note(URL)http://hosho.ees.hokudai.ac.jp/~kubo/ce/EesLecture20
Use R
Use R! 2008/05/23( ) Index Introduction (GLM) ( ) R. Introduction R,, PLS,,, etc. 2. Correlation coefficient (Pearson s product moment correlation) r = Sxy Sxx Syy :, Sxy, Sxx= X, Syy Y 1.96 95% R cor(x,
kubostat2017c p (c) Poisson regression, a generalized linear model (GLM) : :
kubostat2017c p.1 2017 (c), a generalized linear model (GLM) : [email protected] http://goo.gl/76c4i 2017 11 14 : 2017 11 07 15:43 kubostat2017c (http://goo.gl/76c4i) 2017 (c) 2017 11 14 1 / 47 agenda
1 15 R Part : website:
1 15 R Part 4 2017 7 24 4 : website: email: http://www3.u-toyama.ac.jp/kkarato/ [email protected] 1 2 2 3 2.1............................... 3 2.2 2................................. 4 2.3................................
一般化線形 (混合) モデル (2) - ロジスティック回帰と GLMM
.. ( ) (2) GLMM [email protected] I http://goo.gl/rrhzey 2013 08 27 : 2013 08 27 08:29 kubostat2013ou2 (http://goo.gl/rrhzey) ( ) (2) 2013 08 27 1 / 74 I.1 N k.2 binomial distribution logit link function.3.4!
201711grade2.pdf
2017 11 26 1 2 28 3 90 4 5 A 1 2 3 4 Web Web 6 B 10 3 10 3 7 34 8 23 9 10 1 2 3 1 (A) 3 32.14 0.65 2.82 0.93 7.48 (B) 4 6 61.30 54.68 34.86 5.25 19.07 (C) 7 13 5.89 42.18 56.51 35.80 50.28 (D) 14 20 0.35
k3 ( :07 ) 2 (A) k = 1 (B) k = 7 y x x 1 (k2)?? x y (A) GLM (k
2012 11 01 k3 (2012-10-24 14:07 ) 1 6 3 (2012 11 01 k3) [email protected] web http://goo.gl/wijx2 web http://goo.gl/ufq2 1 3 2 : 4 3 AIC 6 4 7 5 8 6 : 9 7 11 8 12 8.1 (1)........ 13 8.2 (2) χ 2....................
回帰分析 単回帰
回帰分析 単回帰 麻生良文 単回帰モデル simple regression model = α + β + u 従属変数 (dependent variable) 被説明変数 (eplained variable) 独立変数 (independent variable) 説明変数 (eplanator variable) u 誤差項 (error term) 撹乱項 (disturbance term)
Dependent Variable: LOG(GDP00/(E*HOUR)) Date: 02/27/06 Time: 16:39 Sample (adjusted): 1994Q1 2005Q3 Included observations: 47 after adjustments C -1.5
第 4 章 この章では 最小二乗法をベースにして 推計上のさまざまなテクニックを検討する 変数のバリエーション 係数の制約係数にあらかじめ制約がある場合がある たとえばマクロの生産関数は 次のように表すことができる 生産要素は資本と労働である 稼動資本は資本ストックに稼働率をかけることで計算でき 労働投入量は 就業者数に総労働時間をかけることで計算できる 制約を掛けずに 推計すると次の結果が得られる
DAA09
> summary(dat.lm1) Call: lm(formula = sales ~ price, data = dat) Residuals: Min 1Q Median 3Q Max -55.719-19.270 4.212 16.143 73.454 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 237.1326
講義のーと : データ解析のための統計モデリング. 第5回
Title 講義のーと : データ解析のための統計モデリング Author(s) 久保, 拓弥 Issue Date 2008 Doc URL http://hdl.handle.net/2115/49477 Type learningobject Note この講義資料は, 著者のホームページ http://hosho.ees.hokudai.ac.jp/~kub ードできます Note(URL)http://hosho.ees.hokudai.ac.jp/~kubo/ce/EesLecture20
みっちりGLM
2015/3/27 12:00-13:00 日本草地学会若手 R 統計企画 ( 信州大学農学部 ) R と一般化線形モデル入門 山梨県富士山科学研究所 安田泰輔 謝辞 : 日本草地学会若手の会の皆様 発表の機会を頂き たいへんありがとうございます! 茨城大学 学生時代 自己紹介 ベータ二項分布を用いた種の空間分布の解析 所属 : 山梨県富士山科学研究所 最近の研究テーマ 近接リモートセンシングによる半自然草地のモニタリング手法開発
1 環境統計学ぷらす 第 5 回 一般 ( 化 ) 線形混合モデル 高木俊 2013/11/21
1 環境統計学ぷらす 第 5 回 一般 ( 化 ) 線形混合モデル 高木俊 [email protected] 2013/11/21 2 予定 第 1 回 : Rの基礎と仮説検定 第 2 回 : 分散分析と回帰 第 3 回 : 一般線形モデル 交互作用 第 4.1 回 : 一般化線形モデル 第 4.2 回 : モデル選択 (11/29?) 第 5 回 : 一般化線形混合モデル
kubostat2017e p.1 I 2017 (e) GLM logistic regression : : :02 1 N y count data or
kubostat207e p. I 207 (e) GLM [email protected] https://goo.gl/z9ycjy 207 4 207 6:02 N y 2 binomial distribution logit link function 3 4! offset kubostat207e (https://goo.gl/z9ycjy) 207 (e) 207 4
統計的データ解析
統計的データ解析 011 011.11.9 林田清 ( 大阪大学大学院理学研究科 ) 連続確率分布の平均値 分散 比較のため P(c ) c 分布 自由度 の ( カイ c 平均値 0, 標準偏差 1の正規分布 に従う変数 xの自乗和 c x =1 が従う分布を自由度 の分布と呼ぶ 一般に自由度の分布は f /1 c / / ( c ) {( c ) e }/ ( / ) 期待値 二乗 ) 分布 c
スライド 1
データ解析特論重回帰分析編 2017 年 7 月 10 日 ( 月 )~ 情報エレクトロニクスコース横田孝義 1 ( 単 ) 回帰分析 単回帰分析では一つの従属変数 ( 目的変数 ) を 一つの独立変数 ( 説明変数 ) で予測する事を考える 具体的には y = a + bx という回帰直線 ( モデル ) でデータを代表させる このためにデータからこの回帰直線の切片 (a) と傾き (b) を最小
Microsoft PowerPoint - GLMMexample_ver pptx
Linear Mixed Model ( 以下 混合モデル ) の短い解説 この解説のPDFは http://www.lowtem.hokudai.ac.jp/plantecol/akihiro/sumida-index.html の お勉強 のページにあります. ver 20121121 と との間に次のような関係が見つかったとしよう 全体的な傾向に対する回帰直線を点線で示した ところが これらのデータは実は異なる
Microsoft PowerPoint - e-stat(OLS).pptx
経済統計学 ( 補足 ) 最小二乗法について 担当 : 小塚匡文 2015 年 11 月 19 日 ( 改訂版 ) 神戸大学経済学部 2015 年度後期開講授業 補足 : 最小二乗法 ( 単回帰分析 ) 1.( 単純 ) 回帰分析とは? 標本サイズTの2 変数 ( ここではXとY) のデータが存在 YをXで説明する回帰方程式を推定するための方法 Y: 被説明変数 ( または従属変数 ) X: 説明変数
スライド 1
データ解析特論第 10 回 ( 全 15 回 ) 2012 年 12 月 11 日 ( 火 ) 情報エレクトロニクス専攻横田孝義 1 終了 11/13 11/20 重回帰分析をしばらくやります 12/4 12/11 12/18 2 前回から回帰分析について学習しています 3 ( 単 ) 回帰分析 単回帰分析では一つの従属変数 ( 目的変数 ) を 一つの独立変数 ( 説明変数 ) で予測する事を考える
kubostat2018d p.2 :? bod size x and fertilization f change seed number? : a statistical model for this example? i response variable seed number : { i
kubostat2018d p.1 I 2018 (d) model selection and [email protected] http://goo.gl/76c4i 2018 06 25 : 2018 06 21 17:45 1 2 3 4 :? AIC : deviance model selection misunderstanding kubostat2018d (http://goo.gl/76c4i)
R John Fox R R R Console library(rcmdr) Rcmdr R GUI Windows R R SDI *1 R Console R 1 2 Windows XP Windows * 2 R R Console R ˆ R
R John Fox 2006 8 26 2008 8 28 1 R R R Console library(rcmdr) Rcmdr R GUI Windows R R SDI *1 R Console R 1 2 Windows XP Windows * 2 R R Console R ˆ R GUI R R R Console > ˆ 2 ˆ Fox(2005) [email protected]
多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典
多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典 重回帰分析とは? 重回帰分析とは複数の説明変数から目的変数との関係性を予測 評価説明変数 ( 数量データ ) は目的変数を説明するのに有効であるか得られた関係性より未知のデータの妥当性を判断する これを重回帰分析という つまり どんなことをするのか? 1 最小 2 乗法により重回帰モデルを想定 2 自由度調整済寄与率を求め
R による共和分分析 1. 共和分分析を行う 1.1 パッケージ urca インスツールする 共和分分析をするために R のパッケージ urca をインスツールする パッケージとは通常の R には含まれていない 追加的な R のコマンドの集まりのようなものである R には追加的に 600 以上のパッ
R による共和分分析 1. 共和分分析を行う 1.1 パッケージ urca インスツールする 共和分分析をするために R のパッケージ urca をインスツールする パッケージとは通常の R には含まれていない 追加的な R のコマンドの集まりのようなものである R には追加的に 600 以上のパッケージが用意されており それぞれ分析の目的に応じて標準の R にパッケージを追加していくことになる インターネットに接続してあるパソコンで
Microsoft Word - 計量研修テキスト_第5版).doc
Q10-2 テキスト P191 1. 記述統計量 ( 変数 :YY95) 表示変数として 平均 中央値 最大値 最小値 標準偏差 観測値 を選択 A. 都道府県別 Descriptive Statistics for YY95 Categorized by values of PREFNUM Date: 05/11/06 Time: 14:36 Sample: 1990 2002 Included
<4D F736F F F696E74202D BD95CF97CA89F090CD F6489F18B4195AA90CD816A>
主な多変量解析 9. 多変量解析 1 ( 重回帰分析 ) 目的変数 量的 説明変数 質的 あり量的 重回帰分析 数量化 Ⅰ 類 質的 判別分析 数量化 Ⅱ 類 なし 主成分分析因子分析多次元尺度構成法 数量化 Ⅲ 類数量化 Ⅳ 類 その他 クラスタ分析共分散構造分析 説明変数 : 独立変数 予測変数 目的変数 : 従属変数 基準変数 3 1. 単回帰分析各データの構造 y b ax a α: 1,,,
当し 図 6. のように 2 分類 ( 疾患の有無 ) のデータを直線の代わりにシグモイド曲線 (S 字状曲線 ) で回帰する手法である ちなみに 直線で回帰する手法はコクラン アーミテージの傾向検定 疾患の確率 x : リスクファクター 図 6. ロジスティック曲線と回帰直線 疾患が発
6.. ロジスティック回帰分析 6. ロジスティック回帰分析の原理 ロジスティック回帰分析は判別分析を前向きデータ用にした手法 () ロジスティックモデル 疾患が発症するかどうかをリスクファクターから予想したいまたは疾患のリスクファクターを検討したい 判別分析は後ろ向きデータ用だから前向きデータ用にする必要がある ロジスティック回帰分析を適用ロジスティック回帰分析 ( ロジット回帰分析 ) は 判別分析をロジスティック曲線によって前向き研究から得られたデータ用にした手法
,, Poisson 3 3. t t y,, y n Nµ, σ 2 y i µ + ɛ i ɛ i N0, σ 2 E[y i ] µ * i y i x i y i α + βx i + ɛ i ɛ i N0, σ 2, α, β *3 y i E[y i ] α + βx i
Armitage.? SAS.2 µ, µ 2, µ 3 a, a 2, a 3 a µ + a 2 µ 2 + a 3 µ 3 µ, µ 2, µ 3 µ, µ 2, µ 3 log a, a 2, a 3 a µ + a 2 µ 2 + a 3 µ 3 µ, µ 2, µ 3 * 2 2. y t y y y Poisson y * ,, Poisson 3 3. t t y,, y n Nµ,
回帰分析 重回帰(1)
回帰分析 重回帰 (1) 項目 重回帰モデルの前提 最小二乗推定量の性質 仮説検定 ( 単一の制約 ) 決定係数 Eviews での回帰分析の実際 非線形効果 ダミー変数 定数項ダミー 傾きのダミー 3 つ以上のカテゴリー 重回帰モデル multiple regression model 説明変数が 個以上 y 1 x 1 x k x k u i y x i 他の説明変数を一定に保っておいて,x i
Microsoft PowerPoint ppt
情報科学第 07 回データ解析と統計代表値 平均 分散 度数分布表 1 本日の内容 データ解析とは 統計の基礎的な値 平均と分散 度数分布表とヒストグラム 講義のページ 第 7 回のその他の欄に 本日使用する教材があります 171025.xls というファイルがありますので ダウンロードして デスクトップに保存してください 2/45 はじめに データ解析とは この世の中には多くのデータが溢れています
様々なミクロ計量モデル†
担当 : 長倉大輔 ( ながくらだいすけ ) この資料は私の講義において使用するために作成した資料です WEB ページ上で公開しており 自由に参照して頂いて構いません ただし 内容について 一応検証してありますが もし間違いがあった場合でもそれによって生じるいかなる損害 不利益について責任を負いかねますのでご了承ください 間違いは発見次第 継続的に直していますが まだ存在する可能性があります 1 カウントデータモデル
(2/24) : 1. R R R
R? http://hosho.ees.hokudai.ac.jp/ kubo/ce/2004/ : [email protected] (2/24) : 1. R 2. 3. R R (3/24)? 1. ( ) 2. ( I ) : (p ) : cf. (power) p? (4/24) p ( ) I p ( ) I? ( ) (5/24)? 0 2 4 6 8 A B A B (control)
パッケージのインストール Rには 複雑な解析を便利に行うためのパッケージが容易されています ( 世界中の研究者達が提供してくれる ) 今回は例として多重比較検定用のmultcomp パッケージをインストールしてみます ( 注意 ) 滋賀県立大学のようにプロキシ経由でインターネットに接続する環境で R
ソフトウェア R を用いた統計解析 清水顕史 R のインストール R の情報 ( 日本語 ) は RjpWikihttp://www.okada.jp.org/RWiki/?RjpWiki にまとめられています 説明に従って最新版の exe ファイルをダウンロード (http://cran.md.tsukuba.ac.jp/bin/windows/base/) し クリックしてインストールします インストール終了後
不偏推定量
不偏推定量 情報科学の補足資料 018 年 6 月 7 日藤本祥二 統計的推定 (statistical estimatio) 確率分布が理論的に分かっている標本統計量を利用する 確率分布の期待値の値をそのまま推定値とするのが点推定 ( 信頼度 0%) 点推定に ± で幅を持たせて信頼度を上げたものが区間推定 持たせた幅のことを誤差 (error) と呼ぶ 信頼度 (cofidece level)
1 Stata SEM LightStone 4 SEM 4.. Alan C. Acock, Discovering Structural Equation Modeling Using Stata, Revised Edition, Stata Press 3.
1 Stata SEM LightStone 4 SEM 4.. Alan C. Acock, 2013. Discovering Structural Equation Modeling Using Stata, Revised Edition, Stata Press 3. 2 4, 2. 1 2 2 Depress Conservative. 3., 3,. SES66 Alien67 Alien71,
と入力する すると最初の 25 行が表示される 1 行目は変数の名前であり 2 列目は企業番号 (1,,10),3 列目は西暦 (1935,,1954) を表している ( 他のパネルデータを分析する際もデ ータをこのように並べておかなくてはならない つまりまず i=1 を固定し i=1 の t に関
R によるパネルデータモデルの推定 R を用いて 静学的パネルデータモデルに対して Pooled OLS, LSDV (Least Squares Dummy Variable) 推定 F 検定 ( 個別効果なしの F 検定 ) GLS(Generalized Least Square : 一般化最小二乗 ) 法による推定 およびハウスマン検定を行うやり方を 動学的パネルデータモデルに対して 1 階階差
以下の内容について説明する 1. VAR モデル推定する 2. VAR モデルを用いて予測する 3. グレンジャーの因果性を検定する 4. インパルス応答関数を描く 1. VAR モデルを推定する ここでは VAR(p) モデル : R による時系列分析の方法 2 y t = c + Φ 1 y t
以下の内容について説明する 1. VAR モデル推定する 2. VAR モデルを用いて予測する 3. グレンジャーの因果性を検定する 4. インパルス応答関数を描く 1. VAR モデルを推定する ここでは VAR(p) モデル : R による時系列分析の方法 2 y t = c + Φ 1 y t 1 + + Φ p y t p + ε t, ε t ~ W.N(Ω), を推定することを考える (
kubostat2017b p.1 agenda I 2017 (b) probability distribution and maximum likelihood estimation :
kubostat2017b p.1 agenda I 2017 (b) probabilit distribution and maimum likelihood estimation [email protected] http://goo.gl/76c4i 2017 11 14 : 2017 11 07 15:43 1 : 2 3? 4 kubostat2017b (http://goo.gl/76c4i)
Microsoft Word - 計量研修テキスト_第5版).doc
Q4-1 テキスト P83 多重共線性が発生する回帰 320000 280000 240000 200000 6000 4000 160000 120000 2000 0-2000 -4000 74 76 78 80 82 84 86 88 90 92 94 96 98 R e s i dual A c tual Fi tted Dependent Variable: C90 Date: 10/27/05
7. フィリップス曲線 経済統計分析 (2014 年度秋学期 ) フィリップス曲線の推定 ( 経済理論との関連 ) フィリップス曲線とは何か? 物価と失業の関係 トレード オフ 政策運営 ( 財政 金融政策 ) への含意 ( 計量分析の手法 ) 関数形の選択 ( 関係が直線的でない場合の推定 ) 推
7. フィリップス曲線 経済統計分析 ( 年度秋学期 ) フィリップス曲線の推定 ( 経済理論との関連 ) フィリップス曲線とは何か? 物価と失業の関係 トレード オフ 政策運営 ( 財政 金融政策 ) への含意 ( 計量分析の手法 ) 関数形の選択 ( 関係が直線的でない場合の推定 ) 推定結果に基づく予測シミュレーション 物価と失業の関係......... -. -. -........ 失業率
今日の要点 あぶない 時系列データ解析は やめましょう! 統計モデル のあてはめ (危 1) 時系列データの GLM あてはめ (危 2) 時系列Yt 時系列 Xt 各時刻の個体数 気温 とか
時系列データ解析でよく見る あぶない モデリング 久保拓弥 (北海道大 環境科学) 1/56 今日の要点 あぶない 時系列データ解析は やめましょう! 統計モデル のあてはめ (危 1) 時系列データの GLM あてはめ (危 2) 時系列Yt 時系列 Xt 各時刻の個体数 気温 とか (危 1) 時系列データを GLM で (危 2) 時系列Yt 時系列 Xt 相関は因果関係ではない 問題の一部
第4回
Excel で度数分布表を作成 表計算ソフトの Microsoft Excel を使って 度数分布表を作成する場合 関数を使わなくても 四則演算(+ */) だけでも作成できます しかし データ数が多い場合に度数を求めたり 度数などの合計を求めるときには 関数を使えばデータを処理しやすく なります 度数分布表の作成で使用する関数 合計は SUM SUM( 合計を計算する ) 書式 :SUM( 数値数値
目次 1 章 SPSS の基礎 基本 はじめに 基本操作方法 章データの編集 はじめに 値ラベルの利用 計算結果に基づく新変数の作成 値のグループ化 値の昇順
SPSS 講習会テキスト 明治大学教育の情報化推進本部 IZM20140527 目次 1 章 SPSS の基礎 基本... 3 1.1 はじめに... 3 1.2 基本操作方法... 3 2 章データの編集... 6 2.1 はじめに... 6 2.2 値ラベルの利用... 6 2.3 計算結果に基づく新変数の作成... 7 2.4 値のグループ化... 8 2.5 値の昇順 降順... 10 3
C3 データ可視化とツール
< 第 3 回 > データ可視化とツール 統計数理研究所 中野純司 [email protected] データ可視化とツール 概要 データサイエンティスト育成クラッシュコース データサイエンティストとしてデータ分析を行う際に必要な可視化の考え方と それを実行するためのフリーソフトウェアを紹介する 1. はじめに 2. 静的なグラフィックス 3. 動的なグラフィックス 4. 対話的なグラフィックス 1.
EBNと疫学
推定と検定 57 ( 復習 ) 記述統計と推測統計 統計解析は大きく 2 つに分けられる 記述統計 推測統計 記述統計 観察集団の特性を示すもの 代表値 ( 平均値や中央値 ) や ばらつきの指標 ( 標準偏差など ) 図表を効果的に使う 推測統計 観察集団のデータから母集団の特性を 推定 する 平均 / 分散 / 係数値などの推定 ( 点推定 ) 点推定値のばらつきを調べる ( 区間推定 ) 検定統計量を用いた検定
講義「○○○○」
講義 信頼度の推定と立証 内容. 点推定と区間推定. 指数分布の点推定 区間推定 3. 指数分布 正規分布の信頼度推定 担当 : 倉敷哲生 ( ビジネスエンジニアリング専攻 ) 統計的推測 標本から得られる情報を基に 母集団に関する結論の導出が目的 測定値 x x x 3 : x 母集団 (populaio) 母集団の特性値 統計的推測 標本 (sample) 標本の特性値 分布のパラメータ ( 母数
まず y t を定数項だけに回帰する > levelmod = lm(topixrate~1) 次にこの出力を使って先ほどのレジームスイッチングモデルを推定する 以下のように入力する > levelswmod = msmfit(levelmod,k=,p=0,sw=c(t,t)) ここで k はレジ
マルコフレジームスイッチングモデルの推定 1. マルコフレジームスイッチング (MS) モデルを推定する 1.1 パッケージ MSwM インスツールする MS モデルを推定するために R のパッケージ MSwM をインスツールする パッケージとは通常の R には含まれていない 追加的な R のコマンドの集まりのようなものである R には追加的に 600 以上のパッケージが用意されており それぞれ分析の目的に応じて標準の
データ解析
データ解析 ( 前期 ) 最小二乗法 向井厚志 005 年度テキスト 0 データ解析 - 最小二乗法 - 目次 第 回 Σ の計算 第 回ヒストグラム 第 3 回平均と標準偏差 6 第 回誤差の伝播 8 第 5 回正規分布 0 第 6 回最尤性原理 第 7 回正規分布の 分布の幅 第 8 回最小二乗法 6 第 9 回最小二乗法の練習 8 第 0 回最小二乗法の推定誤差 0 第 回推定誤差の計算 第
Microsoft PowerPoint - R-stat-intro_12.ppt [互換モード]
R で統計解析入門 (12) 生存時間解析 中篇 準備 : データ DEP の読み込み 1. データ DEP を以下からダウンロードする http://www.cwk.zaq.ne.jp/fkhud708/files/dep.csv /fkh /d 2. ダウンロードした場所を把握する ここでは c:/temp とする 3. R を起動し,2. 2 の場所に移動し, データを読み込む 4. データ
統計学 - 社会統計の基礎 - 正規分布 標準正規分布累積分布関数の逆関数 t 分布正規分布に従うサンプルの平均の信頼区間 担当 : 岸 康人 資料ページ :
統計学 - 社会統計の基礎 - 正規分布 標準正規分布累積分布関数の逆関数 t 分布正規分布に従うサンプルの平均の信頼区間 担当 : 岸 康人 資料ページ : https://goo.gl/qw1djw 正規分布 ( 復習 ) 正規分布 (Normal Distribution)N (μ, σ 2 ) 別名 : ガウス分布 (Gaussian Distribution) 密度関数 Excel:= NORM.DIST
数量的アプローチ 年 6 月 11 日 イントロダクション データ分析をマスターする 12 のレッスン ウェブサポートページ ( 有斐閣 ) 水落研究室 R http:
イントロダクション データ分析をマスターする 12 のレッスン ウェブサポートページ ( 有斐閣 ) http://yuhikaku-nibu.txt-nifty.com/blog/2017/09/22103.html 水落研究室 R http://depts.nanzan-u.ac.jp/ugrad/ps/mizuochi/r.html 1 この授業では統計ソフト R を使って分析を行います データを扱うソフトとして
Microsoft Word - 計量研修テキスト_第5版).doc
Q3-1-1 テキスト P59 10.8.3.2.1.0 -.1 -.2 10.4 10.0 9.6 9.2 8.8 -.3 76 78 80 82 84 86 88 90 92 94 96 98 R e s i d u al A c tual Fi tte d Dependent Variable: LOG(TAXH) Date: 10/26/05 Time: 15:42 Sample: 1975
青焼 1章[15-52].indd
1 第 1 章統計の基礎知識 1 1 なぜ統計解析が必要なのか? 人間は自分自身の経験にもとづいて 感覚的にものごとを判断しがちである 例えばある疾患に対する標準治療薬の有効率が 50% であったとする そこに新薬が登場し ある医師がその新薬を 5 人の患者に使ったところ 4 人が有効と判定されたとしたら 多くの医師はこれまでの標準治療薬よりも新薬のほうが有効性が高そうだと感じることだろう しかし
Probit , Mixed logit
Probit, Mixed logit 2016/5/16 スタートアップゼミ #5 B4 後藤祥孝 1 0. 目次 Probit モデルについて 1. モデル概要 2. 定式化と理解 3. 推定 Mixed logit モデルについて 4. モデル概要 5. 定式化と理解 6. 推定 2 1.Probit 概要 プロビットモデルとは. 効用関数の誤差項に多変量正規分布を仮定したもの. 誤差項には様々な要因が存在するため,
講義のーと : データ解析のための統計モデリング. 第2回
Title 講義のーと : データ解析のための統計モデリング Author(s) 久保, 拓弥 Issue Date 2008 Doc URL http://hdl.handle.net/2115/49477 Type learningobject Note この講義資料は, 著者のホームページ http://hosho.ees.hokudai.ac.jp/~kub ードできます Note(URL)http://hosho.ees.hokudai.ac.jp/~kubo/ce/EesLecture20
0 部分的最小二乗回帰 Partial Least Squares Regression PLS 明治大学理 学部応用化学科 データ化学 学研究室 弘昌
0 部分的最小二乗回帰 Parial Leas Squares Regressio PLS 明治大学理 学部応用化学科 データ化学 学研究室 弘昌 部分的最小二乗回帰 (PLS) とは? 部分的最小二乗回帰 (Parial Leas Squares Regressio, PLS) 線形の回帰分析手法の つ 説明変数 ( 記述 ) の数がサンプルの数より多くても計算可能 回帰式を作るときにノイズの影響を受けにくい
基礎統計
基礎統計 第 11 回講義資料 6.4.2 標本平均の差の標本分布 母平均の差 標本平均の差をみれば良い ただし, 母分散に依存するため場合分けをする 1 2 3 分散が既知分散が未知であるが等しい分散が未知であり等しいとは限らない 1 母分散が既知のとき が既知 標準化変量 2 母分散が未知であり, 等しいとき 分散が未知であるが, 等しいということは分かっているとき 標準化変量 自由度 の t
MedicalStatisticsForAll.indd
みんなの 医療統計 12 基礎理論と EZR を完全マスター! Ayumi SHINTANI はじめに EZR EZR iii EZR 2016 2 iv CONTENTS はじめに... ⅲ EZR をインストールしよう... 1 EZR 1...1 EZR 2...3...8 R Console...10 1 日目 記述統計量...11 平均値と中央値... 11...12...15...18
3. みせかけの相関単位根系列が注目されるのは これを持つ変数同士の回帰には意味がないためだ 単位根系列で代表的なドリフト付きランダムウォークを発生させてそれを確かめてみよう yと xという変数名の系列をを作成する yt=0.5+yt-1+et xt=0.1+xt-1+et 初期値を y は 10
第 10 章 くさりのない犬 はじめにこの章では 単位根検定や 共和分検定を説明する データが単位根を持つ系列の場合 見せかけの相関をする場合があり 推計結果が信用できなくなる 経済分析の手順として 系列が定常系列か単位根を持つ非定常系列かを見極め 定常系列であればそのまま推計し 非定常系列であれば階差をとって推計するのが一般的である 1. ランダムウオーク 最も簡単な単位根を持つ系列としてランダムウオークがある
NLMIXED プロシジャを用いた生存時間解析 伊藤要二アストラゼネカ株式会社臨床統計 プログラミング グループグルプ Survival analysis using PROC NLMIXED Yohji Itoh Clinical Statistics & Programming Group, A
NLMIXED プロシジャを用いた生存時間解析 伊藤要二アストラゼネカ株式会社臨床統計 プログラミング グループグルプ Survival analysis using PROC NLMIXED Yohji Itoh Clinical Statistics & Programming Group, AstraZeneca KK 要旨 : NLMIXEDプロシジャの最尤推定の機能を用いて 指数分布 Weibull
Microsoft PowerPoint - 測量学.ppt [互換モード]
8/5/ 誤差理論 測定の分類 性格による分類 独立 ( な ) 測定 : 測定値がある条件を満たさなければならないなどの拘束や制約を持たないで独立して行う測定 条件 ( 付き ) 測定 : 三角形の 3 つの内角の和のように, 個々の測定値間に満たすべき条件式が存在する場合の測定 方法による分類 直接測定 : 距離や角度などを機器を用いて直接行う測定 間接測定 : 求めるべき量を直接測定するのではなく,
(3) 検定統計量の有意確率にもとづく仮説の採否データから有意確率 (significant probability, p 値 ) を求め 有意水準と照合する 有意確率とは データの分析によって得られた統計値が偶然おこる確率のこと あらかじめ設定した有意確率より低い場合は 帰無仮説を棄却して対立仮説
第 3 章 t 検定 (pp. 33-42) 3-1 統計的検定 統計的検定とは 設定した仮説を検証する場合に 仮説に基づいて集めた標本を 確率論の観点から分析 検証すること 使用する標本は 母集団から無作為抽出されたものでなければならない パラメトリック検定とノンパラメトリック検定 パラメトリック検定は母集団が正規分布に従う間隔尺度あるいは比率尺度の連続データを対象とする ノンパラメトリック検定は母集団に特定の分布を仮定しない
相関係数と偏差ベクトル
相関係数と偏差ベクトル 経営統計演習の補足資料 07 年 月 9 日金沢学院大学経営情報学部藤本祥二 相関係数の復習 r = s xy s x s y = = n σ n i= σn i= n σ n i= n σ i= x i xҧ y i തy x i xҧ n σ n i= y i തy x i xҧ x i xҧ y i തy σn i= y i തy 式が長くなるので u, v の文字で偏差を表すことにする
Microsoft Word - mstattext02.docx
章重回帰分析 複数の変数で 1つの変数を予測するような手法を 重回帰分析 といいます 前の巻でところで述べた回帰分析は 1つの説明変数で目的変数を予測 ( 説明 ) する手法でしたが この説明変数が複数個になったと考えればよいでしょう 重回帰分析はこの予測式を与える分析手法です 以下の例を見て下さい 例 以下のデータ (Samples 重回帰分析 1.txt) をもとに体重を身長と胸囲の1 次関数で
関数の定義域を制限する 関数のコマンドを入力バーに打つことにより 関数の定義域を制限することが出来ます Function[ < 関数 >, <x の開始値 >, <x の終了値 > ] 例えば f(x) = x 2 2x + 1 ( 1 < x < 4) のグラフを描くには Function[ x^
この節では GeoGebra を用いて関数のグラフを描画する基本事項を扱います 画面下部にある入力バーから式を入力し 後から書式設定により色や名前を整えることが出来ます グラフィックスビューによる作図は 後の章で扱います 1.1 グラフの挿入関数のグラフは 関数 y = f(x) を満たす (x, y) を座標とする全ての点を描くことです 入力バーを用いれば 関数を直接入力することが出来 その関数のグラフを作図することが出来ます
Chapter 1 Epidemiological Terminology
Appendix Real examples of statistical analysis 検定 偶然を超えた差なら有意差という P
Microsoft Word - 計量研修テキスト_第5版).doc
Q9-1 テキスト P166 2)VAR の推定 注 ) 各変数について ADF 検定を行った結果 和文の次数はすべて 1 である 作業手順 4 情報量基準 (AIC) によるラグ次数の選択 VAR Lag Order Selection Criteria Endogenous variables: D(IG9S) D(IP9S) D(CP9S) Exogenous variables: C Date:
CAEシミュレーションツールを用いた統計の基礎教育 | (株)日科技研
CAE シミュレーションツール を用いた統計の基礎教育 ( 株 ) 日本科学技術研修所数理事業部 1 現在の統計教育の課題 2009 年から統計教育が中等 高等教育の必須科目となり, 大学でも問題解決ができるような人材 ( 学生 ) を育てたい. 大学ではコンピューター ( 統計ソフトの利用 ) を重視した教育をより積極的におこなうのと同時に, 理論面もきちんと教育すべきである. ( 報告 数理科学分野における統計科学教育
切片 ( 定数項 ) ダミー 以下の単回帰モデルを考えよう これは賃金と就業年数の関係を分析している : ( 賃金関数 ) ここで Y i = α + β X i + u i, i =1,, n, u i ~ i.i.d. N(0, σ 2 ) Y i : 賃金の対数値, X i : 就業年数. (
統計学ダミー変数による分析 担当 : 長倉大輔 ( ながくらだいすけ ) 1 切片 ( 定数項 ) ダミー 以下の単回帰モデルを考えよう これは賃金と就業年数の関係を分析している : ( 賃金関数 ) ここで Y i = α + β X i + u i, i =1,, n, u i ~ i.i.d. N(0, σ 2 ) Y i : 賃金の対数値, X i : 就業年数. ( 実際は賃金を就業年数だけで説明するのは現実的はない
こんにちは由美子です
Analysis of Variance 2 two sample t test analysis of variance (ANOVA) CO 3 3 1 EFV1 µ 1 µ 2 µ 3 H 0 H 0 : µ 1 = µ 2 = µ 3 H A : Group 1 Group 2.. Group k population mean µ 1 µ µ κ SD σ 1 σ σ κ sample mean
0.0 Excelファイルの読み取り専用での立ち上げ手順 1) 開示 Excelファイルの知的所有権について開示する数値解析の説明用の Excel ファイルには 改変ができないようにパスワードが設定してあります しかし 読者の方には読み取り用のパスワードを開示しますので Excel ファイルを読み取
第 1 回分 Excel ファイルの操作手順書 目次 Eexcel による数値解析準備事項 0.0 Excel ファイルの読み取り専用での立ち上げ手順 0.1 アドインのソルバーとデータ分析の有効化 ( 使えるようにする ) 第 1 回線形方程式 - 線形方程式 ( 実験式のつくり方 : 最小 2 乗法と多重回帰 )- 1.1 荷重とバネの長さの実験式 (Excelファイルのファイル名に同じ 以下同様)
Microsoft PowerPoint - 統計科学研究所_R_重回帰分析_変数選択_2.ppt
重回帰分析 残差分析 変数選択 1 内容 重回帰分析 残差分析 歯の咬耗度データの分析 R で変数選択 ~ step 関数 ~ 2 重回帰分析と単回帰分析 体重を予測する問題 分析 1 身長 のみから体重を予測 分析 2 身長 と ウエスト の両方を用いて体重を予測 分析 1 と比べて大きな改善 体重 に関する推測では 身長 だけでは不十分 重回帰分析における問題 ~ モデルの構築 ~ 適切なモデルで分析しているか?
こんにちは由美子です
1 2 . sum Variable Obs Mean Std. Dev. Min Max ---------+----------------------------------------------------- var1 13.4923077.3545926.05 1.1 3 3 3 0.71 3 x 3 C 3 = 0.3579 2 1 0.71 2 x 0.29 x 3 C 2 = 0.4386
Microsoft PowerPoint - 資料04 重回帰分析.ppt
04. 重回帰分析 京都大学 加納学 Division of Process Control & Process Sstems Engineering Department of Chemical Engineering, Koto Universit [email protected] http://www-pse.cheme.koto-u.ac.jp/~kano/ Outline
分析のステップ Step 1: Y( 目的変数 ) に対する値の順序を確認 Step 2: モデルのあてはめ を実行 適切なモデルの指定 Step 3: オプションを指定し オッズ比とその信頼区間を表示 以下 このステップに沿って JMP の操作をご説明します Step 1: Y( 目的変数 ) の
JMP によるオッズ比 リスク比 ( ハザード比 ) の算出と注意点 SAS Institute Japan 株式会社 JMP ジャパン事業部 2011 年 10 月改定 1. はじめに 本文書は JMP でロジスティック回帰モデルによるオッズ比 比例ハザードモデルによるリスク比 それぞれに対する信頼区間を求める操作方法と注意点を述べたものです 本文書は JMP 7 以降のバージョンに対応しております
計量経済学の第一歩 田中隆一 ( 著 ) gretl で例題と実証分析問題を 再現する方法 発行所株式会社有斐閣 2015 年 12 月 20 日初版第 1 刷発行 ISBN , Ryuichi Tanaka, Printed in Japan
計量経済学の第一歩 田中隆一 ( 著 ) gretl で例題と実証分析問題を 再現する方法 発行所株式会社有斐閣 2015 年 12 月 20 日初版第 1 刷発行 ISBN 978-4-641-15028-7, Printed in Japan 第 5 章単回帰分析 本文例例 5. 1: 学歴と年収の関係 まず 5_income.csv を読み込み, メニューの モデル (M) 最小 2 乗法 (O)
