データサイエンス講座第 3 回機械学習その 2 ロジスティクス回帰カーネル法とサポートベクターマシンアンサンブル学習

ロジスティクス回帰基本的には重回帰分析のモデルと考え方は似ている = 1 1+ ( ) 目的変数 = 係数説明変数 + 定数この式をグラフ化すると y は 0 1 に収まる ( シグモイド関数 ) トレーニングデータから確率を最大となる地点をもとめそれぞれの係数を求める 1 売れた -10-5 0 5 10 売れない確率が最大の地点 2

ロジスティクス回帰ロジスティクス回帰のメリット結構メリットが多い 1. カテゴリ変数 ( 男性性好き嫌い ) も説明変数として扱うことができる 2. 重回帰分析の一種なのでステップワイズ (AIC) によってパラメータを削減して説明のいモデルを作ることができる 3. 個々の説明変数をオッズ比 ( 他と比較した確率の起こりやすさ ) ですことができるので何が重要なパラメータか説明しやすいランク説明変数 P 値有意確率オッズ比 1 40 代 _ 年収 0.1% 1.23 2 性別 _ 男性 0.4% 1.12 Excel ではサポートしていないので R, Python, SPSS などで実施するケースが多い医療統計ではデフォルトで利ぜひマスターして戻ってから実践してください 3

カーネル法カーネル法データを次元の特徴空間に写像したときの主成分分析具体的には 2 次元平面座標 (x,y) に A1(1,1),A2(1,-1),A3(-1,-1),A4(-1,1) があるとする A1,A3 が一つのクラスであるとすると平面上にクラスの境界線を引けない二次元平面 (x,y) の 4 つの点を 3 次元空間 (x,y,z) に射影すると A1(1,1,1) A2(1,-1,-1) A3(- 1,-1,1) A4(-1,1,-1) になり両クラスは平面で切り分けることが可能になる次元の特徴変換をカーネル法 (ψ(x)) と呼ぶ参考ビデオ https://www.youtube.com/watch?v=3licbrzprza&hl=ja&gl=jp データ写像 F=ψ(x) 明確に境界を線引きできない z=0 の平面を境界面 4

カーネル法次元空間変換の問題点変換にあたって内積を計算する 3 次元の場合の内積 (X,Y,Z) (X, Y,Z, X^2.Y^2.Z^2,XY,YZ,ZX) 次元が増えれば増えるほど計算量は増えるどうやって計算量をすくなくするか? カーネル法の登場特徴空間への非線形写像 ( ) ( ) =(, ) 再生核ヒルベルト空間 (RKHS) の条件で次元 (T) の内積をカーネル関数 K(x1,x2) に変換することが可能 ( カーネルトリック ) いくつかのカーネル関数 (K) ガウスカーネル (RBF カーネル ) 正規分布に従う, = exp 2 2, = tanh("1 #) 無限次元から写像できるガウスカーネルがカーネル法のカーネル関数としてよく利される 5

サポートベクターマシンカーネル法機械学習サポートベクター = 機械学習サポートベクターマシンの目的 : 教師あり学習あるデータを教師ありデータに基づいて分類したい分類回帰式 ( y = ax + b) で説明したいただし単純な回帰式ではを説明できないカーネル法で 2 次元座標を多次元特徴空間に変換特徴空間で回帰分析をすることで分類する境界線のギリギリ ( マージン最大化 ) で線を引くサポートベクターマシン = カーネル法 + 回帰分析 6

サポートベクターマシンサポートベクターマシンの目的きちんと線引きをしたい場合によっては判別に失敗するケースも 7

サポートベクターマシンサポートベクターマシンの考え方緑とオレンジ 2 つの線を引く緑とオレンジと較べて緑の方がとの隔てる幅が広い ( マージンが大きい ) ととの最大マージンを取る線を選ぶとのそれぞれの端っこのデータに注目 ( サポートベクター ) であれば -1 となる ax+by+c= -1, であれば 1 となる ax+by+c=1 となる端っこに線を引くそのとの端っこが一番遠い距離 ( 最大マージン ) を数学的な手法を計算し教師データを作る 8

アンサンブル学習アンサンブル = 集合例 : 音楽 2 人以上で演奏するアンサンブル学習の考え方モデリングの難しいところ過学習正確なモデルにしようとすればするほど汎性は失われるアンサンブル学習の考え方たくさんのモデルを作成してそこから多数決平均をとるアプローチ ( 集合知 ) 入力データ例 : メール弱学習器 1 弱学習器 2 弱学習器 3 弱学習器 4 弱学習器 5 判定 : 迷惑メール判定 : 正常メール判定 : 迷惑メール判定 : 迷惑メール判定 : 迷惑メール迷惑メール 4 正常メール 1 迷惑メール判定弱学習器に重みをつける方法などいくつかパターンあり弱学習器のパターンバギング判定に際して単純に平均多数決ブースティング - 誤検知率に応じて重みをつけるランダムフォレスト複数の決定木から平均多数決をとる 9

アンサンブル学習アンサンブル学習は精度はいか? 厳密に証明はできないもののデータ数が多くなればなるほどトレーニングエラーが減る傾向がありビックデータ解析では広く利アンサンブル学習の応例 1 コンピュータ将棋アンサンブル学習の応例 2 IBM Watson 10

アンサンブル学習決定木性の生存率がもっともいロジスティクス回帰のオッズと同じ結論性別が生存への影響大クラス関係なく男性の生存は少ない性で 3 等のクラスは 20 人生存性で 3 等以外のクラスは 254 人生存 11

アンサンブル学習もどってランダムフォレストランダムフォレストの仕組みトレーニングデータ学習器ブートストラップサンプリングランダム生成トレーニンクテータ一部トレーニンクテータ一部トレーニンクテータ一部トレーニンクテータ一部決定木決定木決定木決定木多数決平均 12

アンサンブル学習ランダムフォレストのアルゴリズム 1. トレーニングデータからブートストラップサンプリングを作成する 2. ブートストラップサンプルから決定木 $% を構築指定したノード数になるまで以下を繰り返す a. p 個の説明変数から m 個の変数をランダムに選択する b. m この説明変数から最も説明しやすい変数を分岐ノードとする 3. B 個の決定木 $% をいて学習器を構築 4. 最終的に判別問題は多数決回帰問題は平均で答えを出す決めるべきパラメータとして指定したノードの数 m 個の変数判別問題 : ノード 1 m= p 回帰問題 : ノード 5 m=p/3 13

アンサンブル学習バイアスバリアンス理論汎化誤差 = バイアス + バリアンス + 削除不能誤差バイアス (Bias) トレーニングデータから統計モデルを学習するアルゴリズムの良し悪しバリアンス (Variance) トレーニングデータに由来する誤差単純なモデル ( 回帰式など ) 単純ゆえにバイアスは大きい線形なので十分モデルを説明できないこともある一方で単純ゆえにトレーニングデータに対する誤差は少ないバリアンスは低い複雑なモデル ( ニューラルネットなど ) 複雑ゆえにバイアスは小さい一方で複雑ゆえにトレーニングデータに対する誤差は大きいバリアンスは大きいバイアスバリアンスはトレードオフの関係ランダムフォレストは弱学習器を多様なサンプルから学習してバリアンスを減らすアプローチ 14

おススメ書籍 R による統計解析 2009 年 4 月木繁伸 ( 著 ) オーム社統計解析の大部分について網羅的に掲載されている R でどうするかわからなくなったとき参照すると便利データサイエンティスト養成読本 2015 年 9 月技術評論社入門といいながらも結構度なところまで及 Python での応画像認識など踏み込んで取り上げている本講座の次のステップとしておススメ 15

データサイエンス講座第 3 回機械学習その 2 ロジスティクス回帰 カーネル法とサポートベクターマシン アンサンブル学習

データサイエンス講座第 3 回機械学習その 2 ロジスティクス回帰カーネル法とサポートベクターマシンアンサンブル学習