R-introduction.R

Similar documents
情報工学概論

1 R Windows R 1.1 R The R project web R web Download [CRAN] CRAN Mirrors Japan Download and Install R [Windows 9

Microsoft Word - å“Ÿåłžå¸°173.docx

統計学 - 社会統計の基礎 - 正規分布 標準正規分布累積分布関数の逆関数 t 分布正規分布に従うサンプルの平均の信頼区間 担当 : 岸 康人 資料ページ :

宿題の解答

データ科学2.pptx

Use R

Python-statistics5 Python で統計学を学ぶ (5) この内容は山田 杉澤 村井 (2008) R によるやさしい統計学 (

Microsoft PowerPoint - Lecture 10.ppt [互換モード]

講義のーと : データ解析のための統計モデリング. 第2回

(3) 検定統計量の有意確率にもとづく仮説の採否データから有意確率 (significant probability, p 値 ) を求め 有意水準と照合する 有意確率とは データの分析によって得られた統計値が偶然おこる確率のこと あらかじめ設定した有意確率より低い場合は 帰無仮説を棄却して対立仮説

linguistics

「統 計 数 学 3」

untitled

ビジネス統計 統計基礎とエクセル分析 正誤表

確率・統計の基礎

Microsoft PowerPoint - A1.ppt [互換モード]

stat2_slides-13.key

モジュール1のまとめ

基礎統計

k2 ( :35 ) ( k2) (GLM) web web 1 :

Microsoft PowerPoint - JAIMAセミナー(MCM) ppt [互換モード]

日本製薬工業協会シンポジウム 生存時間解析の評価指標に関する最近の展開ー RMST (restricted mean survival time) を理解するー 2. RMST の定義と統計的推測 2018 年 6 月 13 日医薬品評価委員会データサイエンス部会タスクフォース 4 生存時間解析チー

現代日本論演習/比較現代日本論研究演習I「統計分析の基礎」

プリント

2011年10月 179号 新レイアウト/001     4C

Microsoft Word - Stattext12.doc

第 3 回講義の項目と概要 統計的手法入門 : 品質のばらつきを解析する 平均と標準偏差 (P30) a) データは平均を見ただけではわからない 平均が同じだからといって 同一視してはいけない b) データのばらつきを示す 標準偏差 にも注目しよう c) 平均

RとExcelを用いた分布推定の実践例

不偏推定量

日心TWS

Microsoft PowerPoint - Econometrics pptx

第7章

(lm) lm AIC 2 / 1

PackageSoft/R-033U.tex (2018/March) R:

スライド 1

現代日本論演習/比較現代日本論研究演習I「統計分析の基礎」

Medical3

講義「○○○○」

Microsoft PowerPoint - sc7.ppt [互換モード]

2 2 GDP( ) 1 () 143,694 47,186 48,997 38,371 36,559 44,519 28,565 44,550 26,526 43,237 23,031 38,455 15,945 34,971 14,996 44,950 10,852 10,183 10,337

統計学の基礎から学ぶ実験計画法ー1

<4D F736F F D208EC08CB18C7689E68A E F AA957A82C682948C9F92E82E646F63>

Microsoft Word - Stattext13.doc

第1回(全5回) Rの基礎と仮説検定

Debian での数学ことはじめ。 - gnuplot, Octave, R 入門

Microsoft PowerPoint - 統計科学研究所_R_重回帰分析_変数選択_2.ppt

Microsoft PowerPoint - Statistics[B]


RSS Higher Certificate in Statistics, Specimen A Module 3: Basic Statistical Methods Solutions Question 1 (i) 帰無仮説 : 200C と 250C において鉄鋼の破壊応力の母平均には違いはな

講義のーと : データ解析のための統計モデリング. 第5回

解答のポイント 第 1 章問 1 ポイント仮に1 年生全員の数が 100 人であったとする.100 人全員に数学の試験を課して, それらの 100 人の個人個人の点数が母集団となる. 問 2 ポイント仮に10 人を抽出するとする. 学生に1から 100 までの番号を割り当てたとする. 箱の中に番号札

自動車感性評価学 1. 二項検定 内容 2 3. 質的データの解析方法 1 ( 名義尺度 ) 2.χ 2 検定 タイプ 1. 二項検定 官能検査における分類データの解析法 識別できるかを調べる 嗜好に差があるかを調べる 2 点比較法 2 点識別法 2 点嗜好法 3 点比較法 3 点識別法 3 点嗜好

EBNと疫学

α β *2 α α β β α = α 1 β = 1 β 2.2 α 0 β *3 2.3 * *2 *3 *4 (µ A ) (µ P ) (µ A > µ P ) 10 (µ A = µ P + 10) 15 (µ A = µ P +

_Kobayashi

こんにちは由美子です

Medical3

DAA12

解析センターを知っていただく キャンペーン

DAA04

Dependent Variable: LOG(GDP00/(E*HOUR)) Date: 02/27/06 Time: 16:39 Sample (adjusted): 1994Q1 2005Q3 Included observations: 47 after adjustments C -1.5

Rを使うための準備

. 測定方法 7 尺度化 ( 数値化 ) 8 絶対判断 評点法採点法カテゴリー尺度法 図示法 / 線分法 心理物理学的測定法 相対判断 分類法 格付け分類法 順位法 一対比較法 リッカート法 カテゴリー尺度法 / 評定尺度法 あなたは ですか? 9 SD(Semantic Differential)

統計的データ解析

CAEシミュレーションツールを用いた統計の基礎教育 | (株)日科技研

Microsoft Word - 計量研修テキスト_第5版).doc

こんにちは由美子です

カテゴリ変数と独立性の検定

PowerPoint プレゼンテーション

分布

経済統計分析1 イントロダクション

Excelによる統計分析検定_知識編_小塚明_5_9章.indd

MT2-Slides-13.pptx

R分散分析06.indd

DAA03

<4D F736F F F696E74202D2088E38A77939D8C7695D78BAD89EF313591E63189F18AEE967B939D8C7697CA2E >

<4D F736F F D2090B695A8939D8C768A E F AA957A82C682948C9F92E8>

目次 1 章 SPSS の基礎 基本 はじめに 基本操作方法 章データの編集 はじめに 値ラベルの利用 計算結果に基づく新変数の作成 値のグループ化 値の昇順

win版8日目

Rによる計量分析:データ解析と可視化 - 第3回 Rの基礎とデータ操作・管理

<4D F736F F D208EC08CB18C7689E68A E F193F18D8095AA957A C C839395AA957A814590B38B4B95AA957A2E646F63>

Microsoft PowerPoint - データ解析基礎4.ppt [互換モード]

untitled

統計学 Ⅱ( 章 ( 区間推定のシミュレーション 母平均 μ の区間推定 X ~ N, のとき X T ~ 自由度 1の t分布 1 自由度 -1のt 分布の97.5% 点 :t.975 P t T t この式に T を代入する t.975 母集団

森林水文 水資源学 2 2. 水文統計 豪雨があった時, 新聞やテレビのニュースで 50 年に一度の大雨だった などと報告されることがある. 今争点となっている川辺川ダムは,80 年に 1 回の洪水を想定して治水計画が立てられている. 畑地かんがいでは,10 年に 1 回の渇水を対象として計画が立て

スライド 1

バイオインフォマティクス特論4

異文化言語教育評価論 ⅠA 教育 心理系研究のためのデータ分析入門 第 3 章 t 検定 (2 変数間の平均の差を分析 ) 平成 26 年 5 月 7 日 報告者 :M.S. I.N. 3-1 統計的検定 統計的検定 : 設定した仮説にもとづいて集めた標本を確率論の観点から分析し 仮説検証を行うこと

青焼 1章[15-52].indd

ISBN ISBN 5 128p ISBN ISBN 2

民事責任規定・エンフォースメント

ISBN ISBN ISBN

496



ISBN ISBN 0 0 ISBN

DAA02

スライド 1

Microsoft Word - 保健医療統計学112817完成版.docx

Transcription:

による統計解析 三中信宏 minaka@affrc.go.jp http://leeswijzer.org 305-8604 茨城県つくば市観音台 3-1-3 国立研究開発法人農業 食品産業技術総合研究機構農業環境変動研究センター統計モデル解析ユニット専門員 租界 R の門前にて : 統計言語 R との極私的格闘記録 http://leeswijzer.org/r/r-top.html 教科書と参考書 奥村晴彦 R で楽しむ統計 (2016 年 9 月 15 日刊行, 共立出版 [Wonderful R 1], 東京, x+190 pp., 本体価格 2,500 円, ISBN:978-4-320-11241-4) 青木繁伸 R による統計解析 (2009 年 4 月 15 日刊行, オーム社,x + 322 pp., 本体価格 3,800 円,ISBN:978-4-274-06757-0) Jared P. Lander[ 高柳慎一 牧山幸史 簑田高志訳 Tokyo.R 協力 ] みんなの R: データ分析と統計解析の新しい教科書 (2015 年 6 月 22 日刊行, マイナビ, 東京, 447 pp., 本体価格 3,800 円, ISBN:978-4-8399-5521-2) 石田基広 R で学ぶデータ プログラミング入門 :RStudio を活用する (2012 年 10 月 25 日刊行, 共立出版, 東京,viii+278 pp., 本体価格 3,200 円,ISBN:978-4-320-11029-8) 大森崇 阪田真己子 宿久洋 R Commander によるデータ解析 第 2 版 (2014 年 1 月 25 日刊行, 共立出版, 東京,x+221 pp., 本体価格 2,800 円,ISBN:978-4-320-11084-7) 嶋田正和 阿部真人 R で学ぶ統計学入門 (2017 年 1 月 27 日刊行, 東京化学同人, 東京, xii+281 pp., 本体価格 2,700 円, ISBN:978-4-8079-0859-2) Michael J. Crawley 著 [ 野間口謙太郎 菊池泰樹訳 ] 統計学:R を用いた入門書改訂第 2 版 (2016 年 4 月刊行, 共立出版, 本体価格 4,600 円,ISBN:978-4-320-11154-7)

R-introduction.R minaka Thu Aug 3 15:01:36 2017 # ーーーーーーーーーー # データの読みこみ # ーーーーーーーーーー #R にデータを入力するには : # 1) コマンドラインからの入力 # 2) ファイルからの入力 # の二つの方法があります. ファイルからの入力に関してはテキストファイルやエクセルのスプレッドシートはもちろん SAS や SPSS など他の統計ソフトウェアのデータ形式でもいインポートできます. # コマンドラインからのデータ入力 # 簡単なデータならばコマンドラインから直接キー入力してもいいでしょう. #[ 例 ]11 個の数値データを daily.intake に格納する ( c( ) はベクトル ) daily.intake <- c(5260,5470,5640,6180,6390,6515,6805,7515,7515,8230,8770) # daily.intake の内容表示 daily.intake ## [1] 5260 5470 5640 6180 6390 6515 6805 7515 7515 8230 8770 # このように入力されたデータについては, たとえば平均 (mean) 標準偏差 (sd) 分散 (var) 分位点 (quantile) などの記述統計量を下記のように計算できます. # 平均 mean(daily.intake) ## [1] 6753.636 # 標準偏差 sd(daily.intake) ## [1] 1142.123 # 分散 var(daily.intake) ## [1] 1304445 # 分位点 quantile(daily.intake)

## 0% 25% 50% 75% 100% ## 5260 5910 6515 7515 8770 # また, 母平均 μ に関する仮説を t 検定することもできます : t.test(daily.intake, mu=7725) ## ## One Sample t-test ## ## data: daily.intake ## t = -2.8208, df = 10, p-value = 0.01814 ## alternative hypothesis: true mean is not equal to 7725 ## 95 percent confidence interval: ## 5986.348 7520.925 ## sample estimates: ## mean of x ## 6753.636 # ーーーーーーーーーーーーー # 正規分布に関連する関数 # ーーーーーーーーーーーーー # 平均 0, 標準偏差 0.8 の正規分布の確率密度関数 (dnorm) x <- seq(-3, 3, 0.05) plot(x,dnorm(x, mean=0, sd=0.4), type="n") curve(dnorm(x, mean=0, sd=0.8), type="l",add=t) # 正規分布の確率分布関数 (pnorm) とその逆関数 (qnorm) curve(pnorm(x, mean=0, sd=0.8), type="l", lty=3, add=t) # 下側 5% 点の表示 abline(h=0.05) lower.alpha5 <- qnorm(0.05, mean=0, sd=0.8) lower.alpha5 ## [1] -1.315883 abline(v=lower.alpha5) points(lower.alpha5, 0.05, cex=3.0, pch="*") # 上側 5% 点の表示 abline(h=0.95) upper.alpha5 <- qnorm(0.05, mean=0, sd=0.8, lower.tail = FALSE) upper.alpha5 ## [1] 1.315883

abline(v=upper.alpha5) points(upper.alpha5, 0.95, cex=3.0, pch="*") # 下側 1% 点の表示 abline(h=0.01, lty=2) lower.alpha1 <- qnorm(0.01, mean=0, sd=0.8) lower.alpha1 ## [1] -1.861078 abline(v=lower.alpha1, lty=2) points(lower.alpha1, 0.01, cex=3.0, pch="*") # 上側 1% 点の表示 abline(h=0.99, lty=2) upper.alpha1 <- qnorm(0.01, mean=0, sd=0.8, lower.tail = FALSE) upper.alpha1 ## [1] 1.861078 abline(v=upper.alpha1, lty=2) points(upper.alpha1, 0.99, cex=3.0, pch="*")

# 正規乱数 (rnorm) の生成とヒストグラム表示 #10 乱数 random.norm <- rnorm(10, mean=0, sd=0.8) hist(random.norm, freq=f) #1000 乱数 random.norm <- rnorm(1000, mean=0, sd=0.8) hist(random.norm, freq=f)

#1000000 乱数 ( 密度関数描画 ) random.norm <- rnorm(1000000, mean=0, sd=0.8) hist(random.norm, freq=f) curve(dnorm(x, mean=0, sd=0.8), add=t)

# 正規分布のパラメーター (1) 平均 μ を変える x <- seq(-4, 4, 0.01) plot(x, dnorm(x, mean=0, sd=0.5), type="n") title("normal Distribution\nmean=0 -> 2.0") for (i in 1:5) curve(dnorm(x, mean=0.5*(i-1), sd=0.5), type="l", add=t)

# 正規分布のパラメーター (2) 分散 σ^2 を変える x <- seq(-4, 4, 0.01) plot(x, dnorm(x, mean=0, sd=0.5), type="n") title("normal Distribution\nsd=0.5 -> 2.5") for (i in 1:5) curve(dnorm(x, mean=0, sd=0.5*i), type="l", add=t)

# 標準正規分布 ( 平均 0, 分散 1) への変換 # 変換前の正規乱数と密度関数 mean1 <- 1.0 sd2 <- 2.0 plot(x, dnorm(x, mean=0, sd=1), type="n") x <- rnorm(10000, mean=mean1, sd=sd2) hist(x, freq=f, density=25, angle=135, add=t) curve(dnorm(x, mean=mean1, sd=sd2), type="l", lty=2, lwd=2, add=t) # 変換後の標準正規乱数と密度関数 hist((x - mean1)/sd2, freq=f, density=25, angle=45, add=t) curve(dnorm(x, mean=0, sd=1), type="l", lty=1, lwd=2, add=t)

# ーーーーーーーーーーーーーーーーー # 正規分布のもとでの棄却域の図示 # ーーーーーーーーーーーーーーーーー # 正規分布 ( 平均 0, 標準偏差 0.8) の図示 x <- seq(-3,3,0.01) plot(x,dnorm(x,mean=0,sd=0.8),type="n") curve(dnorm(x,mean=0,sd=0.8),type="l",add=t) # 棄却水準 (α=0.05) を設定と表示 alpha <- 0.05 title("alpha=0.05") # 左側棄却域の表示 xmin <- -3 xmax <- 3 critical.left <- qnorm(alpha/2, mean=0, sd=0.8) xaxis <- seq(xmin, critical.left, length=100) yaxis <- c(dnorm(xaxis, mean=0, sd=0.8), 0, 0) yaxis <- c(dnorm(xaxis, mean=0, sd=0.8), 0, 0) xaxis <- c(xaxis, critical.left, xmin) polygon(xaxis, yaxis, density=25) # 右側棄却域の表示 critical.right <- qnorm(alpha/2, mean=0,sd=0.8,lower.tail=f) xaxis <- seq(critical.right, xmax, length=100) yaxis <- c(dnorm(xaxis, mean=0, sd=0.8), 0, 0) xaxis <- c(xaxis, xmax, critical.right) polygon(xaxis, yaxis, density=25) # 棄却域タイトル表示 ypos <- dnorm(critical.left, mean=0, sd=0.8) text(xmin, ypos, "rejection\nregion", adj=0) text(xmax, ypos, "rejection\nregion", adj=1) # 受容域タイトル表示 text((critical.left+critical.right)/2, 2*ypos+0.02, "acceptance region") xaxis <- c(rep(critical.left,2), rep(critical.right,2)) yaxis <- c(2*ypos-0.02, 2*ypos, 2*ypos, 2*ypos-0.02) lines(xaxis,yaxis)

#α=0.05 での棄却水準値 critical.left ## [1] -1.567971 critical.right ## [1] 1.567971 # ーーーーーーーーーーーーー # χ 二乗分布に関連する関数 # ーーーーーーーーーーーーー #χ 二乗分布の密度関数 (dchisq) を表示 x <- seq(0, 20, 0.01) plot(x, dchisq(x, 5), type="n") curve(dchisq(x, 10), type="l", add=t)

#χ 分布のパラメーター 自由度を変える x <- seq(0, 20, 0.01) plot(x, dchisq(x, 5), type="n") title("chi-square Distribution\ndf=5 -> 10") for (i in 1:5) curve(dchisq(x, 5+i), type="l", add=t)

# ーーーーーーーーーーーー # t 分布に関連する関数 # ーーーーーーーーーーーー #t 分布の密度関数 (dt) を表示し, 標準正規分布と比較 x <- seq(-4, 4, 0.01) plot(x, dt(x, 20), type="n") curve(dt(x, 5), type="l", add=t) curve(dnorm(x), type="l", lty=2, add=t) #5% 点の表示 abline(h=0.05) lower.alpha5 <- qt(0.05, 5) lower.alpha5 ## [1] -2.015048 abline(v=lower.alpha5) points(lower.alpha5, 0.05, cex=3.0, pch="*") upper.alpha5 <- -lower.alpha5 upper.alpha5 ## [1] 2.015048

abline(v=upper.alpha5) points(upper.alpha5, 0.05, cex=3.0, pch="*") #t 分布のパラメーター 自由度を変える x <- seq(-4, 4, 0.01) plot(x, dt(x, 20), type="n") title("t Distribution\ndf=5 -> 1") for (i in 1:5) curve(dt(x, 5-(i-1)), type="l", add=t)

# ーーーーーーーーーーーー # F 分布に関連する関数 # ーーーーーーーーーーーー #F 分布の密度関数 (df) を表示 x <- seq(0, 4, 0.01) plot(x, df(x, 15, 50), type="n") curve(df(x, 13, 50), type="l", add=t) #F 分布の確率分布関数 (pf) を表示 curve(pf(x, 13, 50), type="l", lty=3, add=t) #5% 点の表示 abline(h=0.05) lower.alpha5 <- qf(0.05, 13, 50) lower.alpha5 ## [1] 0.4321874 abline(v=lower.alpha5) points(lower.alpha5, 0.05, cex=3.0, pch="*") abline(h=0.95) upper.alpha5 <- qf(0.05, 13, 50, lower.tail = FALSE) upper.alpha5

## [1] 1.921429 abline(v=upper.alpha5) points(upper.alpha5, 0.95, cex=3.0, pch="*") #1% 点の表示 abline(h=0.01, lty=2) lower.alpha1 <- qf(0.01, 13, 50) lower.alpha1 ## [1] 0.2962809 abline(v=lower.alpha1, lty=2) points(lower.alpha1, 0.01, cex=3.0, pch="*") abline(h=0.99, lty=2) upper.alpha1 <- qf(0.01, 13, 50, lower.tail = FALSE) upper.alpha1 ## [1] 2.508328 abline(v=upper.alpha1, lty=2) points(upper.alpha1, 0.99, cex=3.0, pch="*")

#F 分布のパラメーター (1) 分子自由度 n1 を変える x <- seq(0, 4, 0.01) plot(x, df(x, 15, 50), type="n") title("f Distribution\nn1=13 -> 5") for (i in 1:5) curve(df(x, 13-2*(i-1), 50), type="l", add=t) #F 分布のパラメーター (2) 分母自由度 n2 を変える x <- seq(0, 4, 0.01) plot(x, df(x, 15, 50), type="n") title("f Distribution\nn2=50 -> 10") for (i in 1:5) curve(df(x, 13, 50-10*(i-1)), type="l", add=t)

#F 分布のパラメーター (3) 分子と分母の自由度を同時に変える x <- seq(0, 4, 0.01) plot(x, df(x, 15, 50), type="n") title("f Distribution\nn1=13 -> 5\nn2=50 -> 10") for (i in 1:5) curve(df(x, 13-2*(i-1), 50-10*(i-1)), type="l", add=t)