Microsoft PowerPoint - R-intro-05.ppt

Similar documents
Microsoft PowerPoint - R-graph_data-mining.ppt

Microsoft PowerPoint - R-stat-intro_04.ppt [互換モード]

Microsoft PowerPoint - R-stat-intro_12.ppt [互換モード]

Microsoft PowerPoint - 統計科学研究所_R_重回帰分析_変数選択_2.ppt

Microsoft PowerPoint - R-intro-06.ppt

CAEシミュレーションツールを用いた統計の基礎教育 | (株)日科技研

<4D F736F F D204A4D5082C982E682E991CE B A F2E646F63>

_Kobayashi

PowerPoint プレゼンテーション

Microsoft PowerPoint - R-commander.ppt

1. 多変量解析の基本的な概念 1. 多変量解析の基本的な概念 1.1 多変量解析の目的 人間のデータは多変量データが多いので多変量解析が有用 特性概括評価特性概括評価 症 例 主 治 医 の 主 観 症 例 主 治 医 の 主 観 単変量解析 客観的規準のある要約多変量解析 要約値 客観的規準のな

スライド 1

C3 データ可視化とツール

斎藤参郎 データサイエンス A 2018 年度水曜日 2 限目 (10:40-12:10) 0. イントロダクション 講義の進め方 担当昨年度より 講義の方針 1) 自宅でも学習できる 2) 様々なデータ分析手法を自分でインストールし 実験できる 環境の紹

Microsoft Word - mstattext03.docx

データサイエンス講座第 3 回機械学習その 2 ロジスティクス回帰 カーネル法とサポートベクターマシン アンサンブル学習

多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典

Medical3

スライド 1

13章 回帰分析

切片 ( 定数項 ) ダミー 以下の単回帰モデルを考えよう これは賃金と就業年数の関係を分析している : ( 賃金関数 ) ここで Y i = α + β X i + u i, i =1,, n, u i ~ i.i.d. N(0, σ 2 ) Y i : 賃金の対数値, X i : 就業年数. (

統計的データ解析

このデータは ダイアモンドの価格 ( 価格 ) に対する 評価の影響を調べるために収集されたものです 影響と考えられるものは カラット重量 カラー クラリティー 深さ テーブル径 カット 鑑定機関 の 7 つになります 特に カラット重量 カラー クラリティー カット は 4C と呼ばれ ダイヤモン

Microsoft PowerPoint - no1_17

Microsoft PowerPoint - no1_19.pptx

横浜市環境科学研究所

Chapter 1 Epidemiological Terminology

8 A B B B B B B B B B 175

Microsoft PowerPoint - データ解析演習 0520 廣橋

Excelによる統計分析検定_知識編_小塚明_1_4章.indd

Microsoft PowerPoint - 統計科学研究所_R_主成分分析.ppt

Microsoft PowerPoint - e-stat(OLS).pptx

統計学 - 社会統計の基礎 - 正規分布 標準正規分布累積分布関数の逆関数 t 分布正規分布に従うサンプルの平均の信頼区間 担当 : 岸 康人 資料ページ :

3章 度数分布とヒストグラム

NLMIXED プロシジャを用いた生存時間解析 伊藤要二アストラゼネカ株式会社臨床統計 プログラミング グループグルプ Survival analysis using PROC NLMIXED Yohji Itoh Clinical Statistics & Programming Group, A

PowerPoint プレゼンテーション

MedicalStatisticsForAll.indd

Microsoft Word - mstattext02.docx

計量経済学の第一歩 田中隆一 ( 著 ) gretl で例題と実証分析問題を 再現する方法 発行所株式会社有斐閣 2015 年 12 月 20 日初版第 1 刷発行 ISBN , Ryuichi Tanaka, Printed in Japan

<4D F736F F F696E74202D B835E89F090CD89898F4B81408F6489F18B4195AA90CD A E707074>

相関分析・偏相関分析

Microsoft PowerPoint - H17-5時限(パターン認識).ppt

EBNと疫学

因子分析

カイ二乗フィット検定、パラメータの誤差

3章 度数分布とヒストグラム

memo

日心TWS

Microsoft PowerPoint - 基礎・経済統計6.ppt

青焼 1章[15-52].indd

Microsoft Word - apstattext04.docx

情報工学概論

散布度

4 月 東京都立蔵前工業高等学校平成 30 年度教科 ( 工業 ) 科目 ( プログラミング技術 ) 年間授業計画 教科 :( 工業 ) 科目 :( プログラミング技術 ) 単位数 : 2 単位 対象学年組 :( 第 3 学年電気科 ) 教科担当者 :( 高橋寛 三枝明夫 ) 使用教科書 :( プロ

1.民営化

0 部分的最小二乗回帰 Partial Least Squares Regression PLS 明治大学理 学部応用化学科 データ化学 学研究室 弘昌

Rの基本操作

Microsoft Word - Stattext13.doc

スライド 1

Microsoft PowerPoint - データ解析基礎4.ppt [互換モード]

Microsoft PowerPoint - 資料04 重回帰分析.ppt

Microsoft PowerPoint - ca ppt [互換モード]

目次 1 章 SPSS の基礎 基本 はじめに 基本操作方法 章データの編集 はじめに 値ラベルの利用 計算結果に基づく新変数の作成 値のグループ化 値の昇順

<4D F736F F D208D A778D5A8A778F4B8E7793B CC A7795D2816A2E646F6378>


Microsoft PowerPoint ppt

JMP によるオッズ比 リスク比 ( ハザード比 ) の算出方法と注意点 SAS Institute Japan 株式会社 JMP ジャパン事業部 2008 年 3 月改定 1. はじめに本文書は JMP でオッズ比 リスク比 それぞれに対する信頼区間を求める算出方法と注意点を述べたものです この後

Microsoft Word - Stattext12.doc

PowerPoint プレゼンテーション

Chapter カスタムテーブルの概要 カスタムテーブル Custom Tables は 複数の変数に基づいた多重クロス集計テーブルや スケール変数を用いた集計テーブルなど より複雑な集計表を自由に設計することができるIBM SPSS Statisticsのオプション製品です テーブ

Microsoft Word - lec_student-chp3_1-representative

Microsoft PowerPoint - 05DecisionTree-print.ppt

ビジネス統計 統計基礎とエクセル分析 正誤表

モジュール1のまとめ

講座内容 第 1 週 データサイエンスとは 第 2 週 分析の概念と事例ビジネス課題解決のためのデータ分析基礎 ( 事例と手法 )1 第 3 週 分析の具体的手法ビジネス課題解決のためのデータ分析基礎 ( 事例と手法 )2 第 4 週 ビジネスにおける予測と分析結果の報告ビジネス課題解決のためのデー

スライド 1

当し 図 6. のように 2 分類 ( 疾患の有無 ) のデータを直線の代わりにシグモイド曲線 (S 字状曲線 ) で回帰する手法である ちなみに 直線で回帰する手法はコクラン アーミテージの傾向検定 疾患の確率 x : リスクファクター 図 6. ロジスティック曲線と回帰直線 疾患が発

スライド 1

<4D F736F F D204B208C5182CC94E497A682CC8DB782CC8C9F92E BD8F6494E48A722E646F6378>

回帰分析の用途・実験計画法の意義・グラフィカルモデリングの活用 | 永田 靖教授(早稲田大学)

Microsoft PowerPoint - A1.ppt [互換モード]

Microsoft Word - 保健医療統計学112817完成版.docx

統計分析ソフトによる統計分析 R 初歩の初歩(1)

C プログラミング演習 1( 再 ) 2 講義では C プログラミングの基本を学び 演習では やや実践的なプログラミングを通して学ぶ

Medical3

JUSE-StatWorks/V5 活用ガイドブック

経営統計学

プログラミング基礎

データ解析

4 段階推定法とは 予測に使うモデルの紹介 4 段階推定法の課題 2

<4D F736F F F696E74202D204D C982E682E892B290AE82B582BD838A E8DB782CC904D978A8BE68AD482C98AD682B782E988EA8D6C8E402E >

タイトルを修正 軸ラベルを挿入グラフツール デザイン グラフ要素を追加 軸ラベル 第 1 横 ( 縦 ) 軸 凡例は削除 横軸は, 軸の目盛範囲の最小値 最 大値を手動で設定して調整 図 2 散布図の仕上げ見本 相関係数の計算 散布図を見ると, 因果関係はともかく, 人口と輸送量の間には相関関係があ

Microsoft PowerPoint - mp11-06.pptx

サイオステクノロジー株式会社

<4D F736F F F696E74202D B835E82CC8EED97DE B835E82CC834F BB F0955C82B793C190AB926C>

Python-statistics5 Python で統計学を学ぶ (5) この内容は山田 杉澤 村井 (2008) R によるやさしい統計学 (

狭山デポ様IBM移設予定機器 _ppt [Compatibility Mode]

Microsoft PowerPoint - 測量学.ppt [互換モード]

(3) 検定統計量の有意確率にもとづく仮説の採否データから有意確率 (significant probability, p 値 ) を求め 有意水準と照合する 有意確率とは データの分析によって得られた統計値が偶然おこる確率のこと あらかじめ設定した有意確率より低い場合は 帰無仮説を棄却して対立仮説

分析のステップ Step 1: Y( 目的変数 ) に対する値の順序を確認 Step 2: モデルのあてはめ を実行 適切なモデルの指定 Step 3: オプションを指定し オッズ比とその信頼区間を表示 以下 このステップに沿って JMP の操作をご説明します Step 1: Y( 目的変数 ) の

Transcription:

R で学ぶデータ解析とシミュレーション 5 ~ グラフとデータマイニング ~

5 時間目のメニュー イントロ データ iris の紹介 1 つの変数を要約する 2 つの変数の関係を見る CART の紹介 データ iris でお試し Graphic by (c)tomo.yun (http://www.yunphoto.net) 2

グラフとデータマイニング データ iris Sepal.Length Sepal.Width Petal.Length Petal.Width Species 5.1 3.5 1.4 4.9 3.0 1.4 4.7 3.2 1.3 4.6 3.1 1.5 5.0 3.6 1.4 5.4 3.9 1.7 0.4 4.6 3.4 1.4 0.3 フィッシャーが判別分析法を紹介するために利用したアヤメの品種分類 (Species:,versicolor,virginica) に関するデータ 以下の4 変数を説明変数としてアヤメの種類を判別しようとした アヤメのがくの長さ (Sepal.Length) アヤメのがくの幅 (Sepal.Width) アヤメの花弁の長さ (Petal.Length) アヤメの花弁の幅 (Petal.Width) 3

グラフとデータマイニング データ iris Sepal.Length Sepal.Width Petal.Length Petal.Width Species 5.1 3.5 1.4 4.9 3.0 1.4 4.7 3.2 1.3 4.6 3.1 1.5 5.0 3.6 1.4 5.4 3.9 1.7 0.4 4.6 3.4 1.4 0.3 5.0 3.4 1.5 4.4 2.9 1.4 4.9 3.1 1.5 0.1 5.4 3.7 1.5 4.8 3.4 1.6 4.8 3.0 1.4 0.1 データを眺めてもよく分からない データを要約する! 4

グラフとデータマイニング 1 変数の要約 Sepal.Length Sepal.Width Petal.Length Petal.Width Species 5.1 3.5 1.4 4.9 3.0 1.4 4.7 3.2 1.3 4.6 3.1 1.5 5.0 3.6 1.4 5.4 3.9 1.7 0.4 4.6 3.4 1.4 0.3 アヤメのがくの長さ (Sepal.Length) の特徴をつかむには 1. 数値による要約 要約統計量を求める 2. グラフによる要約 ヒストグラムを作成する 3. 層別して要約統計量やヒストグラム 5

グラフとデータマイニング 要約統計量 一番小さい値 ( 最小値 ) 真ん中の値 ( 中央値, 平均値 ) 一番大きい値 ( 最大値 ) 要約統計量を眺めてもよく分からない データをグラフにする! ( 注 ) 要約統計量を算出するのも大事なお仕事です ^^; 6

グラフとデータマイニング ヒストグラム 一番小さい値 真ん中の値 一番大きい値 一目瞭然! 7

グラフとデータマイニング 層別解析 一 目 瞭 Setosa : がくが短い 層別すると特徴が浮き出る! Verginica: がくが長い 然! 8

グラフとデータマイニング 2 変数の関係 Sepal.Length Sepal.Width Petal.Length Petal.Width Species 5.1 3.5 1.4 4.9 3.0 1.4 4.7 3.2 1.3 4.6 3.1 1.5 5.0 3.6 1.4 5.4 3.9 1.7 0.4 4.6 3.4 1.4 0.3 アヤメの花弁の幅 (Petal.Width) と花弁の長さ (Petal.Length) の関係を見る場合は 1. 数値による要約 相関係数を求める 2. グラフによる要約 散布図を描く 3. 層別してグラフ ( 散布図 ) を描く 9

グラフとデータマイニング 2 変数の関係 花弁の幅 (Petal.Width) と長さ (Petal.Length) の関係を調べるには 1. 相関係数を算出する 2. グラフを描く 3. 層別にグラフを描く 10

グラフとデータマイニング 相関係数 相関係数とは? -1 ~ 1 の間の値をとる値 1 に近い : 右肩上がり -1 に近い : 右肩下がり 中途半端な値のときは解釈が難しい このデータを除いたら相関なし? 11

グラフとデータマイニング 相関係数 相関なし? 相関あり? データを 1 つ追加しただけ 花弁の幅 (Petal.Width) と長さ (Petal.Length) の関係を調べるには 1. 相関係数を算出する よく分からない場合が多い 2. グラフを描く 分かる 3. 層別にグラフを描く 非常によく分かる! 12

グラフとデータマイニング 2 変数の関係 Petal.Width と Petal.Length の関係は右肩上がり ひと目で分かる! 一目瞭然! 13

グラフとデータマイニング 層別解析 Versicolor Virginica 一 目 Setosa 瞭 Setosa : 左下に分布 層別すると特徴が浮き出る! Verginica: 右上に分布 然! 14

重要なのは 層別解析! 15

ここまでのまとめ データ解析を行う手順は 1. データを R Commander に読み込ませる 2. データ解析を実行する 3. 結果を保存する, 結果をレポートにまとめる etc 具体的なデータ解析例 1 つの変数について要約する場合 : 数値による要約 ( 要約統計量 ) を計算する前に, まずグラフ! 注目しているカテゴリ ( アヤメの種類など ) があるなら層別解析! 2 つの変数間の関係を見る場合 : 数値による要約 ( 相関係数 ) を計算する前に, まずグラフ! 注目しているカテゴリ ( アヤメの種類など ) があるなら層別解析! 16

グラフとデータマイニング その他 17

グラフとデータマイニング その他 18

グラフとデータマイニング その他 19

5 時間目のメニュー イントロ データ iris の紹介 1 つの変数を要約する 2 つの変数の関係を見る CART の紹介 CART とは? CART の作成方法 CART の剪定作業 データ iris でお試し Graphic by (c)tomo.yun (http://www.yunphoto.net) 20

グラフとデータマイニング 分類 予測 Sepal.Length Sepal.Width Petal.Length Petal.Width Species 5.1 3.5 1.4 4.9 3.0 1.4 4.7 3.2 1.3 4.6 3.1 1.5 5.0 3.6 1.4 5.4 3.9 1.7 0.4 4.6 3.4 1.4 0.3 ここまでは アヤメの種類 (Species) で層別するのが重要! というお話でした 今度は逆に 他の変数からアヤメの種類を予測する ことは出来る? 例えば 花弁の長さ (Petal.Length) が 以下ならば のような分類ルールを作ることは出来る? 21

グラフとデータマイニング 分類 予測 22

グラフとデータマイニング 分類 予測 Setosa 23

グラフとデータマイニング 分類 予測 Virginica Setosa 24

グラフとデータマイニング 分類 予測 Virginica Setosa Versicolor 25

前頁のスライドをルール化 分類木 (CART) Petal.Length< 2.45 Petal.Length>=2.45 Petal.Width< 1.75 Petal.Width>=1.75 50/0/0 実際のデータを使って分類すると Petal.Length< 4.95 Petal.Length>=4.95 virginica 0/1/45 予測されたアヤメの種類 versicolor 0/47/1 virginica 0/2/4 26

CART(Classification and Regression Trees) とは? あるルールに従ってデータを分け, 分類や予測を行う 目的変数がカテゴリ : 分類木 このiris の例! 目的変数が連続変数 : 回帰木 次のスライド Virginica Setosa Versicolor ルール化! ( 分類 予測 ) 27

回帰木の例 男女 10 人にやせ薬 (A) と偽薬 (P) を飲んでもらう 飲みはじめの体重を測り,1 ヶ月飲み続けた後, 再度測定 体重の変化量 (kg) を目的変数として回帰木を作成 Difference ( 体重の変化 ) Group ( 薬剤 ) Sex ( 性別 ) Baseline ( 前値 ) 1-1 A A Man Man 55 65 Group=A Group=P -2 A Man 70-2 A Woman 45-3 A Woman 50 Baseline>=57.5 Baseline< 57.5 3 P Woman 50 Sex= 女 Sex= 男 2 P Woman 55 2 1-1 P P P Woman Man Man 55 60 65-2.5 n=2-0.66667 n=3 0 n=2 2.3333 n=3 ( 各カテゴリの平均値と例数が表示される ) 28

分類木 回帰木の分岐基準 各ノードの不純度 (impurity) を I(A) p A をノード A 内の 確率分布 ( the class distribution ) とすると Entropy: I(A) = i(p A ) = -Σ j p Aj log p Aj Gini index: I(A) = i(p A ) = 1 -Σ j P Aj 2 平方和 :SS * = 平方和 = Σ j (y j -y) 2 ノード A をノード A L とノード A R に分割する場合は 以下の I を最大化するような分割ルールを選択する 分類木 : I = P(A)I(A) - P(A L )I(A L ) - P(A R )I(A R ) 回帰木 : I = {SS T -(SS L +SS R )}/N 29

分類木について Improve ( 体重改善?) No Group ( 薬剤 ) A Sex ( 性別 ) Man 分岐なし Yes Yes A A Man Man 薬剤で分岐 Yes A Woman Yes No No A P P Woman Woman Woman No No Yes P P P Woman Man Man 性別で分岐 0.18 > 0.02 薬剤 で分岐させる方が良い 30

回帰木について Difference ( 体重の変化 ) Group ( 薬剤 ) Sex ( 性別 ) 全体の平方和 1 A Man SS T Σ j (y j -y) 2-1 -2 A A Man Man 薬剤で分岐した場合 -2 A Woman SS A Σ j (y Aj -y A ) 2-3 3 A P Woman Woman SS P Σ j (y Pj -y P ) 2 2 P Woman SS T -(SS L +SS R ) 2 P Woman 1 P Man 性別で分岐した場合 -1 P Man SS 男 Σ j (y 男 j - y 男 ) 2 SS 女 Σ j (y 女 j - y 女 ) 2 SS T -(SS L +SS R ) 19.2 > 1.6 薬剤 で分岐させる方が良い 31

32 CART は放っておくとどこまでも枝分かれしていく

分類木 回帰木の剪定 分類木 回帰木は放っておくとどこまでも枝分かれしていく 剪定 (Pruning) が必要! 剪定 (Pruning): リスクと複雑度を評価する (AICみたいな) cp: 複雑度パラメータ (complexity parameter) クロスバリデーションで各 木 のリスク R( ) を評価する ( 分岐が無い木の誤判別率 = 1 となるように調整 ) 分類木の場合 : 誤判別率 (relative risk) を用いる 回帰木の場合 :SS * を用いる 木 T の良さを以下の値 (Cost-complexity) で評価する R α (T) = R(T) + cp T のノード数 ( を最小にするような T の部分木を選択する ) 最適な cp の値はクロスバリデーションで評価する 33

回帰木の場合 最適な木の探索手順 1 複雑度 cp を 0.01 にした上で木を構築 ( が作成した木のリスト) 初期値は 0.01, 全ての木を出力する場合は 0 にすればよい 2 各木について, クロスバリデーションでリスクと SE を計算する 3 上記リストの中でリスク (xerror) が最小となるものを探す ( では 2 ) 4 3 の木の xerror+1se を算出する ( では 0.756579+794117) 5 リストを上からなぞり,4 の値を初めて下回った木が最適な木 ( では 2 ) 5 の意味 : 木の葉 ( ノード ) の数が少なくても, 木の葉の数が大きい場合のリスクとそれほど変わらない, という意味 34

回帰木の場合 剪定 剪定 35

R でのプログラム例 リスクの最小値 +SE (0.75...+7... = 1.02) 36

リスク = 相対誤判別率 R( ) について Impr. Diff. Group ( 薬剤 ) Sex ( 性別 ) 分類木の場合 : 分岐なしの木 T の誤判別率 = 5/10 = 0.5 No 1 A Man Group で分岐した木の誤判別率 = 2/10 = Yes -1 A Man 分岐なしの木の R(t) = 1.0 固定 Yes -2 A Man Group で分岐した木の R(t) = /0.5 = 0.4 Yes -2 A Woman 回帰木の場合 : Yes -3 A Woman 分岐なしの木 T の SS T = 39.2 No No No 3 2 2 P P P Woman Woman Woman Group で分岐した木の SS L + SS R = 7.2+29.2 分岐なしの木の R(t) = 1.0 固定 Group で分岐した木の R(t) No 1 P Man = (7.2+29.2)/39.2 = 0.958 Yes -1 P Man Group と Sex で分岐した木の (SS ManL + SS ManL + SS Woman + SS Woman ) = 4.67 + 2 + 0.67 + 0.5 = 7.84 ( 各 Group の中で SS L + SS R を算出する ) Group と Sex で分岐した木の R(t) = 7.84 / 39.2 = 37

5 時間目のメニュー イントロ データ iris の紹介 1 つの変数を要約する 2 つの変数の関係を見る CART の紹介 CART とは? CART の作成方法 CART の剪定作業 データ iris でお試し お試し 余談 + 演習 Graphic by (c)tomo.yun (http://www.yunphoto.net) 38

データ iris でお試し 39

データ iris でお試し 40

データ iris でお試し 分岐数 =2 size=3 が最適! cp=0.094 41

データ iris でお試し ( 分岐 2) 42

余談 臨床試験に適用出来る? 層別解析しているのと同じ 外れ値に対しては頑健 例数が少ないと不安定 (n=1000 以上が望ましい??) 注目している 群 がうまく出てくれたらいいけど 2 分木 なので多群の試験に適用するとさらに困難となる 作成した 木 の再現性があると言えない 交互作用を見つけるのに適した木 が出来にくい 例えば 男女 で交互作用があるかどうかを検討する場合 体重の変化量の平均値 :-5kg( 女性 群併合 ),-5kg( 男性 群併合 ) 女性の体重の変化量の平均値 :-10kg(Placebo 群 ),±0kg(Active 群 ) 男性の体重の変化量の平均値 :±0kg(Placebo 群 ),-10kg(Active 群 ) 女性に絞って群別の平均値 男性に絞って群別の平均値 を算出してはじめて交互作用が浮き出る CART の性質上 のような分岐は出てくれない? A 女 P A 男 P 43

余談 CART 以外の分析 分類 予測手法 回帰分析 ( 共分散分析 ロジスティック回帰 ) お気楽に, ざっくりと分析する場合 ニューラル ネットワーク 非線形的なデータ構造にも対応, 分類ルール不明 サポートベクターマシン CART のような直線的な分類だけではなく, 曲線的な分類が出来る 判別 が目的なので, 説明変数が目的変数に対してどのような影響を与えているかは不明 集団学習 ( バギング, ランダムフォレストなど ) バギング : 多数の CART を生成して多数決 ( 分類の場合 ) or 平均 ( 回帰の場合 ) ランダムフォレスト : 与えられたデータからいくつかの変数をランダム抽出し ( ブートストラップサンプル )CART を作成 多数回くり返して多数決 ( 分類の場合 )or 平均 ( 回帰の場合 ) アソシエーション ルール ( 相関分析 ): ビールと紙おむつ 44

演習 1. 変数 x にデータ iris を代入してください 2. 1. で作成したデータ x の中身を表示してください 3. 1. で作成したデータ x の中の変数 Sepal.Length について 要約統計量を算出してください ヒストグラムを描いてください アヤメの種類 (Species) ごとにヒストグラムを描いてください 変数 Sepal.Length の長さが 5 かどうかの 1 標本 t 検定を実行してください 関数 t.test() を使ってください 45

演習 4. 1. で作成したデータ x の中の変数 Petal.Width と Petal.Length について 相関係数を算出してください ( 余裕のある方は Spearman でも ) 散布図を描いてください アヤメの種類 (Species) ごとに散布図を描いてください 5. データ x の中の変数 Species を目的変数, それ以外の変数を説明変数として CART を作成してください 46

参考 検定関数一覧 47

参考文献 よくわかる多変量解析の基本と仕組み 山口和範, 高橋淳一, 竹内光悦 ( 秀和システム, 2004) CART による応用 2 進木解析法 大滝厚, 堀江宥治, Dan Steinberg( 日科技連出版社, 1998) S-PLUS による統計解析 W.N. Venables, B.D. Ripley( シュプリンガー, 2001) An Introduction to Recursive Partitioning Using the RPART Routines Terry M.. Therneau, Elizabeth J.. Atkinson (Mayo Foundation, 1997) 48

演習 (45 枚目のスライド分 ) の回答例 49

演習 (45 枚目のスライド分 ) の回答例 50

この講義の後に読んでいただきたい本 本講義の復習 R で学ぶデータマイニング I,II( 熊谷悦生, 舟尾暢男 ; 九天社 ) データ解析環境 R ( 舟尾暢男, 高浪洋平 ; 工学社 ) R と統計を並行して勉強されたい方向け R によるやさしい統計学 ( 山田剛史他 ; オーム社 ) R による保健医療データ解析演習 ( 中澤港 ; ヒ アソンエテ ュケーション ) 工学のためのデータサイエンス入門 ( 間瀬茂他 ; 数理工学社 ) 本格的に R をはじめる方向け R プログラミングマニュアル ( 間瀬茂 ; 数理工学社 ) R の基礎とプログラミング技法 ( 石田基広訳 ; シュフ リンカ ー シ ャハ ン ) 各論 R による医療統計学 ( 岡田昌史監訳 ; 丸善 ) R によるデータサイエンス ( 金明哲 ; 森北出版 ) R と S-PLUS による多変量解析 ( 石田基広訳 ; シュフ リンカ ー シ ャハ ン ) リファレンス RjpWiki( 筑波大学 岡田昌史先生の Wiki) http://www.okada.jp.org/rwiki/ The R Tips( 舟尾暢男 ; 九天社 書籍とホームページ両方あり ) http://cse.naro.affrc.go.jp/takezawa/r-tips/r2.html 51

5 時間目にやったこと イントロ データ iris の紹介 1 つの変数を要約する 2 つの変数の関係を見る CART の紹介 CART とは? CART の作成方法 CART の剪定作業 データ iris でお試し お試し 余談 + 演習 終 52