Microsoft PowerPoint - 06DecisionTree-v3abridged.ppt [互換モード]

Size: px

Start display at page:

Download "Microsoft PowerPoint - 06DecisionTree-v3abridged.ppt [互換モード]"

ことこやがい
5 years ago
Views:

( 何が目標関数か ) 明確ではないアルゴリズムは OR 的なものとはかけ離れているけれども最終ユーザに非常に分かりやすく誤差もそこそこに小さいため重要なツールである単純かつ有効なだけに様々な工夫がされてきているあなどってはいけない出来上がった決定木は理解しやすい ( すぐ分かるだから使われる ) しかし作るのは結構難しい分類器 lassifiers である決定木

1 今日の目標知的情報処理 6. 簡単便利な決定木 : 作るのは少々難しい櫻井彰人慶應義塾大学理工学部決定木の作り方を理解する構築には greedy アルゴリズムノードに置く属性の選択 : 情報量増分増分比が必要な局面がある復習 : 情報量について回帰もできる ( 回帰木 ) R では tree, rpart を試す決定木決定木は他の学習器とかなり異なる境界は綺麗な関数ではかけない何を目標としているか ( 何が目標関数か ) 明確ではないアルゴリズムは OR 的なものとはかけ離れているけれども最終ユーザに非常に分かりやすく誤差もそこそこに小さいため重要なツールである単純かつ有効なだけに様々な工夫がされてきているあなどってはいけない出来上がった決定木は理解しやすい ( すぐ分かるだから使われる ) しかし作るのは結構難しい分類器 lassifiers である決定木 Decision Trees 事例 ( ラベルのついていないもの ): 属性 attribute ( または特徴 feature) のベクトル内節 Internal Nodes: 属性値のテストを行う典型的 : 等しいかどうかのテスト (e.g., Wind =? ) その他不等式や様々なテストが可能枝 Branches: 枝を選ぶ条件である属性値 ( テストが等式以外のときはテストの結果 ) 一対一対応 (e.g., Wind = trong, Wind = Light ) 葉 Leaves: 割当てた分類結果 ( 分類クラスのラベル lass Labels) Humidity? Outlook? unny Overcast Rain Maybe Wind? PlayTennis に対応する決定木 High Normal trong Light No Yes No Maybe 決定木の学習 : 例決定木の作成 ( 帰納 ) D0 D D4 D D D D5 [9+, 5-] Outlook unny Overcast D6 D7 Rain D4 D3 D3 D8 D9 グリーディな方略. いったん決めたら心変わりしない迷路を進むときに後戻りしない一度掴んだら離さない最適ではないが後戻りしない分速い訓練データをある評価基準を最適化するようにある属性で分割する. 一度分割してある枝を作ったらそれを取りやめることはない D9 D D D8 D [+, 3-] [4+, 0-] [3+, -] D3 D D7 D3 D0 D4 D4 D5 D6 課題訓練データの分割方法を決定する属性テスト方法をどう定めるか? 最良の分割をどう決めるか? ( 分割の ) 止め時の決め方

属性テスト条件の決め方属性タイプによって異なる名義変数順序変数数値変数いくつに分割するかによって異なる分割多分割名義変数による分割多分割 : 当該変数の変数値の異なり数分分割する.

{ スポーツ, ラグジュリー } 車タイプ { ファミリー } または車タイプ { ファミリ, ラグジュリー } { スポーツ } 数値変数に基づく分割身長体重血圧コレステロール値

等頻度区間 ( パーセンタイル ) クラスタリング値判別 : (A < v) または (A v) すべての可能な分割を考えベストなものを見出す計算が一層必要となることも決定木の作成 ( 帰納 )

いったん決めたら心変わりしない迷路を進むときに後戻りしない一度掴んだら離さない最適ではないが後戻りしない分速い訓練データをある評価基準を最適化するようにある属性で分割する.

( 分割の ) 止め時の決め方最良な分割はどうやって見つける? 0: 6 : 4 自家用車?

2 属性テスト条件の決め方属性タイプによって異なる名義変数順序変数数値変数いくつに分割するかによって異なる分割多分割名義変数による分割多分割 : 当該変数の変数値の異なり数分分割する. 車タイプファミリーラグジュリースポーツ分割 : 変数値を個に分割する. 最適な分割を求める必要あり. { スポーツ, ラグジュリー } 車タイプ { ファミリー } または車タイプ { ファミリ, ラグジュリー } { スポーツ } 数値変数に基づく分割身長体重血圧コレステロール値単位ずつ分けると分けすぎ離散化 : いくつかの境 ( 閾値ともいう ) を設けていくつかに分けるいくつかの方法がある離散化して順序属性として扱う静的最初に一回だけ離散化動的等幅区間等頻度区間 ( パーセンタイル ) クラスタリング値判別 : (A < v) または (A v) すべての可能な分割を考えベストなものを見出す計算が一層必要となることも決定木の作成 ( 帰納 ) グリーディな方略. いったん決めたら心変わりしない迷路を進むときに後戻りしない一度掴んだら離さない最適ではないが後戻りしない分速い訓練データをある評価基準を最適化するようにある属性で分割する. 一度分割してある枝を作ったらそれを取りやめることはない課題訓練データの分割方法を決定する属性テスト方法をどう定めるか? 最良の分割をどう決めるか? ( 分割の ) 止め時の決め方最良な分割はどうやって見つける? 0: 6 : 4 自家用車? 0: 4 : 6 分割前 : 0 ( クラス 0) に 0 データ, ( クラス ) に 0 データ 0: : 3 車タイプ? Yes No ファミリラグジュリ c c スポーティ : 8 : 0 0: : 7 0: : 0 0: : 0 学生 ID? c 0: 0 : c : 0 : 最良な分割はどうやって見つける? グリーディ方略 : 新ノード内のクラス分布が同質となる分割がベターどこかのクラスが圧倒的な多数となる ( これが同質 ) ということはそれだ! といっても間違いが少ない ( ノードの ) 同質さの物差しが必要 : どの条件が最適か? 非 - 同質, 純度が低い不純度が高い同質, 純度が高い不純度が低い

平均情報量とも呼ばれる式で書くと H ( p,..., p ) p log m p p... p log log p... p log p ( 比較のために ) サイコロの出る目の平均 p p... p6 6 m m -log(p) 0 3 4 0.0 0. 0.4 0.6 0.8.

3 最良な分割はどうやって見つける? 分割前 : 0 N00 M0 N0 A? B? Yes No Yes No ノード N ノード N ノード N3 ノード N4 不純度のものさしエントロピージニインデックス Gini Index 0 N0 N 0 N0 N 0 N30 N3 0 N40 N4 誤分類率 M M M3 M4 M Gain = M0 M vs M0 M34 M0 = N00 と N0 のエントロピー M34 復習 : エントロピーエントロピー平均情報量とも呼ばれる式で書くと H ( p,..., p ) p log m p p... p log log p... p log p ( 比較のために ) サイコロの出る目の平均 p p... p6 6 m m -log(p) p m p m つまり平均情報量が情報量の平均だとすると log p i が情報量ということになる負の符号がついているのは p< 故 log g <0 となるが負の数はいろいろと不便なため符号反転しているから OR ½ のべき乗を考えるから ( のべき乗ではない ) 情報量ある事象の情報量はその事象が起こったということを ( 他の皆が知らないときに ) 知ることの価値事象としてコインの表が出ること ( 確率 /)) としよう表が出たことを知る価値を a としようコインが表コインが表というつの情報を知る価値は a + a = a だろう ( 一つずつ聞く場合を考えればよい ) コインが表コインが表の二つの事象が起こる確率は ½ * ½ =/4 事象としてサイコロのが出ること ( 確率 /6)) としようが出たことを知る価値を b としようサイコロがサイコロがというつの情報を知る価値は b + b = b だろう ( 一つずつ聞く場合を考えればよい ) コインが表コインが表の二つの事象が起こる確率は /6 * /6 =/36 つまり事象が起こる確率が乗になると価値は倍になる情報量を表す関数事象が起こる確率が乗になると価値は倍になる事象が起こる確率 p が p になると価値 v は v になる予想屋を想像して下さい一度予想して正解して報酬を得る再び予想して正解して報酬を得る回とも正解の確率は積報酬は和でしょう? 事象が起こる確率 p が p になると価値 v(p) は v(p ) = v(p) になる上記のような関数は log しかないことが示せる ( 底は決まらない何でもよい ) そこで底をとし価値が正になるように符合反転すると ( 底を/ にしたのと同じ ) 生起確率 p の事象が生起したことを知るという情報の価値は -log p とすればよいことが分る情報量 ( p) log p log p 3

4 不公平かもしれないコイン表が出る確率 p, 裏が出る確率が -p であるコインのコイン投げを考えるこのコインを回投げたときに出た表裏を知る情報の価値はどのくらいであろうか? 表が出るという情報の価値は -log p, 裏が出るという情報の価値は -log(-p) である表が出る確率は p, 裏が出る確率は -p であるのでこの確率に基づく ( 情報価値の ) 平均値を考えよう H ( p, p) p log p ( p) log ( p) p log p ( p)log ( p) 不公平かもしれないサイコロ目 i が出る確率 p i であるサイコロを考えるこのサイコロを回投げたときに出た目を知る情報の価値はどのくらいであろうか? 目 i が出るという情報の価値は -log p i であるこの確率に基づく ( 情報価値の ) 平均値を考えよう H ( p, p,, p ) p log p p log p p log p p log 6 p p log p p log p 不純度を測る物差しとしての情報量復習終わり : エントロピー不純度種類の個体が混在している場合を考える割合をpと-pとする p=0またはp=のときは最も純粋であるのでこのとき0 p=/のとき最も純度が低いのでこのときになるような関数があるとよい明らかにエントロピーがその性質を満たす一般にn 種類の個体が混在している場合はどうだろうか割合をp, p n とする p i のいずれかがで他が0というときが最も純度が高い逆にp i のすべてが等しいとき (/nの時) 最も純度が低い明らかにエントロピーはこの性質をもつそこで non - InformationD HD cclasses(d) D c Dc log D D 補足 : エントロピー値は集合の要素一個あたりの情報量となっている定義情報量増分属性 A に関する D の情報量増分は, A を用いた分割によるエントロピー減少分の期待値 : InformationGainD, A HD values(a) D v HD v D H D Dv H Dv D D vvalues(a) v 但し D v は {x D x.(a) = v }, すなわち, D 中の事例で属性 A の値が v であるものの集合補足 : A による分割によって生じる部分集合 D v の大きさに従ってエントロピーの大きさを調整エントロピー値は集合の要素一個あたりの情報量となっているためどちらの属性を使うのがいい? [9+, 35-] True A False [9+, 35-] True HD A False 要は逆を考えて下るに従い混沌さが減ればよいクリアになればよい混沌さが小エントロピーが小あらためて : 決定木の構築通常の手順 : 上から下に ( 根から葉へ ) そしてgreedy 再帰的かつ分割統治 (divide-and-conquer) まずは : 一つの属性を選び根とする属性値ごとに枝を作る次は : 訓練データを部分集合に分割 ( 枝一本につき一個 ) 最後に : 同じ手順を個々の枝について行うその場合個々の枝に割り当てられた訓練データのみを用いる ( 全体は用いない ) ノードに ( それへの枝に ) 割り当てられた訓練データがすべて同じクラスになったら終了 [+, 5-] [8+, 30-] [8+, 33-] [+, -] H HD D 4

テニスをするや否やどの属性がいいのか? (a) (b) Tom Mitchell Machine Learning の例題.

info([,3]) = entropy(/5,3/5) = (/5)log(/5) (3/5)log(3/5) = 0.

log(0) = 0 Outlook = Rainy : info([3,]) = entropy(3/5/,/5) =

97 この属性を用いたときの情報量は info([3,],[4,0],[3,]) = (5/4) 0.

693 bits D v InformationGainD, A HD HDv vvalues(a) D D H D Dv H

com/4700-weather-outlook-improves-thursday-shuttle-launch.

情報量増分 : 分割前の情報量分割後の情報量 gain( Outlook ) = info([9,5])

47 bits 同様に計算すると gain( Outlook ) = 0.47 gain( Temperature ) = 0.

5 テニスをするや否やどの属性がいいのか? (a) (b) Tom Mitchell Machine Learning の例題. よく使われる (c) (d) 計算例 : 属性 Outlook 計算例 : 情報量増分 Outlook = unny : info([,3]) = entropy(/5,3/5) = (/5)log(/5) (3/5)log(3/5) = 0.97 Outlook = Overcast : info([4,0]) = entropy(,0) = log() 0 log(0) = 0 Outlook = Rainy : info([3,]) = entropy(3/5/,/5) = (3/5)log(3/5) (/5)log(/5) = 0.97 この属性を用いたときの情報量は info([3,],[4,0],[3,]) = (5/4) (4/4) 0 + (5/4) 0.97 = bits D v InformationGainD, A HD HDv vvalues(a) D D H D Dv H Dv D vvalues(a) ただし通常はノードのエントロピーを直接用いることはない情報量増分を用いる. 情報量増分 : 分割前の情報量分割後の情報量 gain( Outlook ) = info([9,5]) info([,3],[4,0],[3,]) = = 0.47 bits 同様に計算すると gain( Outlook ) = 0.47 gain( Temperature ) = 0.09 gain( Humidity ) = 0.5 gain( Windy ) = 情報量増分が多いほど純度が高い従って Outlook を選ぶことにする分割を続ける最終的に得られる決定木注 : すべての葉が純である必要はない ; というのも同じデータなのにクラスが違うことがあるから ( ノイズのせい ) データがそれ以上分割しない方がよくなったらやめ 5

6 ちょっと問題が属性値の多い属性 ( 例えば ID) があるとおかしくなる属性値の多い属性が選ばれてしまう選んでみるとおかしい! 枝数が非常に多くなる属性があると ID コードをつけてみよう ID コードを根にもってくると切株枝分かれの多い属性この分割のエントロピー info( IDcode ) = info([0,]) + info([0,]) + + info([0,]) = 0 bits 情報量増分は最大となる ( すなわち bits ) 従って, 属性値が多いと訓練データの部分集合は純になりやすい情報量増分は属性値の多い属性の方にバイアスしているこの結果過学習 overfitting ( 過去のデータの学習という意味では素晴らしいが予測のためには最適でない属性を選んでしまう ) になってしまう一つの解決法 : 増分比増分比 Gain ratio: 情報量増分のもつバイアスを減少させる増分比は枝の本数とそれに割り当てられる訓練データの大きさの両方を勘定に入れる情報量増分の修正は訓練データの集合をどのような ( 大きさと要素数の ) 部分集合に分割するかという分割の情報量を用いて行われる増分比の計算例計算例 : ID コードの分割情報量 (split information) info([,,,]) = 4 ( - (/4) log(/4) ) = bits 増分比の定義 gain_ratio( Attribute ) = gain( Attribute ) / split_info( Attribute ) 計算例 : gain_ratio( IDcode ) = bits / bits = 0.46 InformationGainD, A HD values(a) D v HDv D v plitinformationd, A values(a) D v Dv log D D v D D D A H,,..., D D D 6

他の属性に関する増分比解決した? 解決しない? Outlook がトップであるが今度は Humidity が肉薄しているというのも Humidity は個に分割するため増分比が相対的に良くなるためである. 見ればわかるように : ID code の増分比が最大!. もっともそのアドバンテージは大分と減少したが.

7 他の属性に関する増分比解決した? 解決しない? Outlook がトップであるが今度は Humidity が肉薄しているというのも Humidity は個に分割するため増分比が相対的に良くなるためである. 見ればわかるように : ID code の増分比が最大!. もっともそのアドバンテージは大分と減少したが. 増分比の問題点 : 過補償となるおそれがあること分割情報量が小さいために不適当な属性が選ばれる可能性よくある修理方法 : 増分比が最大のものを選ぶのだが当該属性の情報量増分は少なくとも情報量増分の平均値 ( 全属性で考えて ) はあるものという条件を課す. 補足決定木のトップダウン ( 根から葉へ ) アルゴリズム ( ID3 ) は Ross Quinlan (University of ydney Australia) が開発数値属性属性テストは次の形をとる x j > ある定数属性値のなす空間を短冊に分割する増分比はこのアルゴリズムの基本的な改良の一つこれに引き続き開発されたのが 4.5 数値属性欠測値ノイズのあるデータが扱える属性選択には他の方法がたくさんある! ( といっても結果の精度にはあまり違いがない ) 数値属性破産の予測勿論これでもいい x j > ある定数短冊への分割は同じ L: 一年あたりの支払い遅延回数 R: 支出 / 収入 B: 破産 7

分割を考えよう各属性ごとに分割することを考えよう今回の例では R 軸に沿っての分割の仕方は高々 9 方法ある一般に, 訓練データが m 個あれば m 方法ありそうしかし今回の場合は R 軸の値が同じデータがあるのでその分減った.

5 6 3 4 0.85.5 5 5 0.86.5 4 0 3 7 0.63 0.5 0 6 7 0.93 それぞれの軸でのすべての可能性を考え分割した場合のエントロピーを計算した下方下方上方上方にあるにあるにあるにあるエントロ境界ピー個数個数個数個数 6.

85.05.5.35.60.80 エントロピー.00.00 0.98 0.98 0.94 0.98 0.9 0.98 0.9 境界 0.5 0.40 0.60 0.85.05.5.35.60.80 たまたま L 軸で境界を.

下方下方上方上方にあるにあるにあるにあるエントロ境界ピー個数個数個数個数 6.5 3 6 0 0.93 5.0 3 4 0 3 0.74 3.5 3 4 0.85.5 5 0.86 承前今度の最適な分割は R > 0.9 である.

8 分割を考えよう各属性ごとに分割することを考えよう今回の例では R 軸に沿っての分割の仕方は高々 9 方法ある一般に, 訓練データが m 個あれば m 方法ありそうしかし今回の場合は R 軸の値が同じデータがあるのでその分減った. 分割その II L 軸では高々 6 方法ある L 軸は整数値をとるので値が重複するデータは多い. 分割によるエントロピーを計算承前下方下方上方上方にあるにあるにあるにあるエントロ境界ピー個数個数個数個数それぞれの軸でのすべての可能性を考え分割した場合のエントロピーを計算した下方下方上方上方にあるにあるにあるにあるエントロ境界ピー個数個数個数個数エントロピー境界エントロピー境界たまたま L 軸で境界を.5 とした場合片側が No だけになることがわかった ( エントロピーも最小 ) 承前残りの空間のすべての分割を考える. エントロピーは再計算が必要. すでに葉に割り当てられた訓練データは取り除いて考えなければならないから. 下方下方上方上方にあるにあるにあるにあるエントロ境界ピー個数個数個数個数承前今度の最適な分割は R > 0.9 である. しかもすべて Yes であるので葉を作ることができる. 下方下方上方上方にあるにあるにあるにあるエントロ境界ピー個数個数個数個数エントロピー境界エントロピー境界

0) に近い値が得られるのは, ほとんどすべてのデータが同一のクラスに属するとき.

9 承前これを続ければ次のものが得られる : GINI と回帰木 GINI に基づく分割基準これまで説明してきた分割基準はエントロピーであった : ( 注 : p( j t) はノード t におけるクラス j データの相対頻度 ). 別法に GINI インデックスを用いるものがある : 両者とも : 最大値 (log n c または - /n c ) が得られるのは, 当該データがどのクラスにも等分に分配されているときである. 等分であるということは何の面白さもない. しかしこの状態でずっと実はこれ! と教わり続けることは結構価値のあることである最小値 (0.0) に近い値が得られるのは, ほとんどすべてのデータが同一のクラスに属するとき. 少数派が発生する場合は非常に面白いけれどもたいていは多数派が発生するのでまったく面白くない個のクラスに分ける場合 : Entropy ( t) p( j t)log p( j t) GINI( t) j j [ p( j t)] 回帰木 Regression Trees 決定木と同じ, 但し葉において実数値定数を出力する. 葉における値今いる葉ノードには複数個のデータがあると仮定しようなおかつ何らかの理由によりこのノードはこれ以上分割しないものとする. 離散値の場合 ( これまでの場合 ), 葉における値 ( 出力値 ) はその葉における多数派の値としていた. 数値属性の場合, 妥当な値は平均値であろう. 従って, もし葉ノードにおける出力値として平均値を用いるならば, ( これからノードを分割して子供が葉ノードになろうというときには ) 枝分かれして作られる新たな葉ノードにおいてデータのもつ値が当該葉ノード内の値の平均値よりあんまり離れていない方がよかろう. R における決定木 R には決定木関連のパッケージとして tree rpart 及び rpart を多変量回帰木 (multivariate regression trees) に拡張させた mvpart がある統計学には数値の集合がどのくらい分散しているかを表す尺度がある ( 言い換えれば, 個々の数値が平均値からどれだけ離れているか ); ご存じの分散である. 9

10 data(iris) (iris.tr<-tree(pecies~.,data=iris)) plot(iris.tr,type="u"); text(iris.tr) setosa Petal.Length <.45 Petal.Length < 4.95 epal.length < 5.5 分類木の例 (tree) Petal.Width <.75 Petal.Length < 4.95 virginica virginica virginica (iris.tr<-snip.tree(iris.tr,nodes=c(,7))) plot(iris.tr,type="u");text(iris.tr) Petal.Length <.45 Petal.Length < 4.95 Petal.Width <.75 versicolor virginica versicolor versicolor ) root setosa ( ) ) Petal.Length < setosa ( ) * 3) Petal.Length > versicolor ( ) 6) Petal.Width < versicolor ( ) ) Petal.Length < versicolor ( ) 4) epal.length < versicolor ( ) * 5) epal.length > versicolor ( ) * 3) Petal.Length > virginica ( ) * 7) Petal.Width > virginica ( ) 4) Petal.Length < virginica ( ) * 5) Petal.Length > virginica ( ) * setosa library(tree) virginica 分類木の例 (tree) library(tree) (iris.tr<-snip.tree(iris.tr,nodes=c(,7))) iris.label<-c("", "", "")[iris[, 5]] plot(iris[,3],iris[,4],type="n") text(iris[,3],iris[,4],labels=iris.label) partition.tree(iris.tr,add=t,col=,cex=.5) iris[, 4] setosa virginica versicolor virginica iris[, 3] 回帰木の例 (tree) 回帰木の例 (tree) > Library(tree) > data(cars) > cars.tr<-tree(dist~speed,data=cars) > print(cars.tr) node), split, n, deviance, yval * denotes terminal node ) root ) speed < ) speed < ) speed < * 9) speed > * 5) speed > * 3) speed > ) speed < * 7) speed > * > plot(cars.tr,type="u") > text(cars.tr) > plot(cars.tr,type="u") > text(cars.tr) > Library(tree) data(cars) cars.tr<-tree(dist~speed,data=cars) print(cars.tr) plot(cars.tr,type="u") text(cars.tr) plot(cars.tr,type="u") text(cars.tr) speed < 9.5 speed <.5 speed < 7.5 speed < > plot(cars$speed,cars$dist) > partition.tree(cars.tr,add=t,col=) > cars$dist cars$speed 回帰木の例 (tree) では別のデータで (cars.tr<-prune.tree(cars.tr,best=4)) plot(cars.tr); text(cars.tr,all=t) plot(cars$speed,cars$dist) partition.tree(cars.tr,add=t,col=) speed < speed <.5 speed < cars$dist cars$speed 例によってテニスのデータを用いてみようこのデータの特徴はすべての属性が離散値であること Outlook Temp. Humidity Windy Play unny Hot High False No unny Hot High True No Overcast Hot High False Yes Rainy Mild High False Yes Rainy ool Normal False Yes Rainy ool Normal True No Overcast ool Normal True Yes unny Mild High False No unny ool Normal False Yes Rainy Mild Normal False Yes unny Mild Normal True Yes Overcast Mild High True Yes Overcast Hot Normal False Yes Rainy Mild High True No 0

11 library(tree) としたあと説明が必要ですなお漢字も OK > setwd("d:/r/ample") > playtennis <- read.csv("playtennis.csv", header=t) > (playtennis.tr<-tree(play~.,data=playtennis)) node), split, n, deviance, yval, (yprob) * denotes terminal node ) root Yes ( ) ) Humidity: High No ( ) * 3) Humidity: Normal Yes ( ) * > plot(playtennis.tr); text(playtennis.tr) これは失敗と言っていいでしょうなぜこうなってしまったのでしょうか? それは枝分かれするときの条件が厳しく ( つまり枝分かれしないようい ) なっているからですそれ ( つまり制御の仕方 ) を調べてみましょう?tree として下さい "tree" の説明書が得られますしかし木を生成するときの制御の仕方についての記述は見つかりませんこういうときは control というキーワードを探してみます下の方に control.tree という文言がありますここをクリックするか?control.tree としてみてください tree.control(nobs, mincut = 5, minsize = 0, mindev = 0.0) が制御方法であり default 値であることが分ります多少試行錯誤すると今回は mincut =, minsize = が最小値つまり最も木が発達しやすいパラメータであることが分りますそこで tree.control(length(playtennis[,]), mincut =, minsize = ) としてみますが結果は変わりません理由は分りませんやむをえず別のライブラリを使うことにします No Humidity:a Yes > library(rpart) > setwd("d:/r/ample") > playtennis <- read.csv("playtennis.csv", header=t) > (playtennis.tr <- rpart(play~., playtennis ) ) n= 4 node), split, n, loss, yval, (yprob) * denotes terminal node ) root 4 5 Yes ( ) * > plot(playtennis.tr); text(playtennis.tr) 以下にエラー plot.rpart(playtennis.tr) : fit is not a tree, just a root これはもっと悪い枝分かれせず根のみとなってしまった先ほどと同様に?rpart としてみましょう今度は引数に control というものがあります下の例題を見ると rpart.control を使えばよいことが分ります rpart.control をクリックするか?rpart.control としてみましょう Minsplit を小さくすれば良さそうなことが想像できます試してみましょう > library(rpart) > setwd("d:/r/ample") > playtennis <- read.csv("playtennis.csv", header=t) > (playtennis.tr <- rpart(play~., playtennis, + control=rpart.control(minsplit=)) ) n= 4 node), split, n, loss, yval, (yprob) * denotes terminal node ) root 4 5 Yes ( ) ) Outlook=Rainy,unny 0 5 No ( ) 4) Humidity=High 5 No ( ) 8) Outlook=unny 3 0 No ( ) * 9) Outlook=Rainy No ( ) 8) Windy=True 0 No ( ) * 9) Windy=False 0 Yes ( ) * 5) Humidity=Normal 5 Yes ( ) 0) Windy=True No ( ) 0) Outlook=Rainy 0 No ( ) * ) Outlook=unny 0 Yes ( ) * ) Windy=False 3 0 Yes ( ) * 3) Outlook=Overcast 4 0 Yes ( ) * > plot(playtennis.tr); text(playtennis.tr) Outlook=c Windy=b No Humidity=a Outlook=bc Windy=b Outlook=b Yes No Yes No Yes [] "ool" "Hot" "Mild" > levels(playtennis$windy) 今度はうまく行ったようであるでは未知データがどう分類されるか見てみよう [] "False" "True" "predict" について rpart の説明書中には記述がないこういったときは?predict.rpart としてみる ( つまりクラス rpart のメソッド predict) パッケージ e07の naivebayes とは異なり次のように簡単にテストできる PlayTennisTest0 <- read.csv("playtennistest0.csv",header=true) predict(playtennis.tr, PlayTennisTest0) > levels(playtennis$outlook) [] "Overcast" "Rainy" "unny" > levels(playtennis$temp.) Yes > playtennistest0 <- read.csv("playtennistest0.csv",header=true) > predict(playtennis.tr, playtennistest0) No Yes [,] 0 [,] 0 > playtennistest0 Outlook Temp. Humidity Windy Play unny ool High True No Rainy Mild Normal False Yes 結果は勿論想定通りなおパラメータに type があり確率値の出力が可能です > predict(playtennis.tr, PlayTennisTest0, type="prob") No Yes [,] 0 [,] 0 > # level number, class frequencies, probabilities > predict(playtennis.tr, PlayTennisTest0, type="matrix") [,] [,] [,3] [,4] [,5] [,] [,] 気がついたかもしれませんが tree も rpart も分木しか作りませんその点では weka の J48 の方がよくできています今日の課題 Naïve Bayes のときの今日の課題とデータは同じです rpart を用いて下図左の訓練データが与えられたとき下図右のテストデータの属性スキーの値を推定せよ R を使ってください雪天気シーズン体調スキーベタ霧ロー回復 no 新雪晴ロー回復 yes 新雪霧ロー回復 yes ざらめ霧ロー怪我 no 新雪晴ロー怪我 no ベタ晴ロー回復 yes 新雪霧ロー回復 yes ベタ晴半ば回復 yes 新雪晴ハイ回復 yes 新雪風ロー回復 yes ざらめ霧半ば回復 no 新雪風ロー回復 yes 新雪晴半ば回復 yes ざらめ風ハイ疲労 no 雪天気シーズン体調スキーベタ風半ば疲労? 時間が余る人向け今日の課題について学習データの confusion matrix を作ってください面倒なことは rpart 木の予測値 (predict の出力値 ) が no, yes の列の matrix ( 行は各データ ) になることです一方正解として用意しているのは yes, no が一列に並んだ配列です次のような方法が考えられます ( いくつもあると思います ) predict の出力を yes, no の列に変える例えば no の列をみて要素が 0.5 より大であれば "no" にそうでなければ "yes" にする lapply が使えますなお結果は list になりますので as.character を使って character に変えます factor を no の列 ( または yes の列 ) に適用してもよい labels を指定して level の名称を "yes" と "no" にする正解値 ( no, yes を値とする列 ) を 0, の列にし predict の出力の no の列 (yes の列でもよい ) が 0, の列であることを利用するなお最も簡単な解は predict で, type="class" を指定することです上の問題はそれをしない方法を考えてみようという R の練習問題です

12 まとめ決定木の作り方分りやすく使いやすい誤差は大きめ構築には greedy アルゴリズムノードに置く属性の選択 : 情報量増分増分比が必要な局面がある復習 : 情報量について一つの発展形として回帰木がある R では tree, rpart を試してみた

Microsoft PowerPoint - 05DecisionTree-print.ppt

Microsoft PowerPoint - 05DecisionTree-print.ppt あらためて : 決定木の構築決定木その 4 ( 改めて ) 決定木の作り方慶應義塾大学理工学部櫻井彰人通常の手順 : 上から下に ( 根から葉へ ) 再帰的かつ分割統治 (divide-and-conquer) まずは : 一つの属性を選び根とする属性値ごとに枝を作る次は : 訓練データを部分集合に分割 ( 枝一本につき一個 ) 最後に : 同じ手順を個々の枝について行うその場合個々の枝に割り当てられた訓練データのみを用いる