データサイエンス講座第 3 回機械学習その 2 ロジスティクス回帰 カーネル法とサポートベクターマシン アンサンブル学習

Similar documents
Microsoft PowerPoint - H17-5時限(パターン認識).ppt

Microsoft PowerPoint - OsakaU_1intro.pptx

0 部分的最小二乗回帰 Partial Least Squares Regression PLS 明治大学理 学部応用化学科 データ化学 学研究室 弘昌

Microsoft PowerPoint - 資料04 重回帰分析.ppt

Slide 1

MATLAB®製品紹介セミナー

PowerPoint Presentation

0 スペクトル 時系列データの前処理 法 平滑化 ( スムージング ) と微分 明治大学理 学部応用化学科 データ化学 学研究室 弘昌

1.民営化

Microsoft Word - ㅎ㇤ㇺå®ı璃ㆨAIã†®æŁ°ç’ƒ.docx

統計的データ解析

スライド 1

PowerPoint Presentation

1. 多変量解析の基本的な概念 1. 多変量解析の基本的な概念 1.1 多変量解析の目的 人間のデータは多変量データが多いので多変量解析が有用 特性概括評価特性概括評価 症 例 主 治 医 の 主 観 症 例 主 治 医 の 主 観 単変量解析 客観的規準のある要約多変量解析 要約値 客観的規準のな

C3 データ可視化とツール

Microsoft PowerPoint - e-stat(OLS).pptx

Microsoft PowerPoint - 統計科学研究所_R_重回帰分析_変数選択_2.ppt

ボルツマンマシンの高速化

講義「○○○○」

カイ二乗フィット検定、パラメータの誤差

Microsoft PowerPoint SIGAL.ppt

相関分析・偏相関分析

memo

パソコンシミュレータの現状

カーネル法

スライド 1

040402.ユニットテスト

モジュール1のまとめ

Microsoft Word - 補論3.2

Presentation Title

Microsoft PowerPoint - 統計科学研究所_R_主成分分析.ppt

Microsoft PowerPoint - mp11-06.pptx

Microsoft Word - NumericalComputation.docx

スライド タイトルなし

EBNと疫学

スライド 1

_KyoukaNaiyou_No.4

多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典

4 段階推定法とは 予測に使うモデルの紹介 4 段階推定法の課題 2

14 化学実験法 II( 吉村 ( 洋 mmol/l の半分だったから さんの測定値は くんの測定値の 4 倍の重みがあり 推定値 としては 0.68 mmol/l その標準偏差は mmol/l 程度ということになる 測定値を 特徴づけるパラメータ t を推定するこの手

Microsoft PowerPoint - IBIS2012_open.pptx

以下 変数の上のドットは時間に関する微分を表わしている (ex. 2 dx d x x, x 2 dt dt ) 付録 E 非線形微分方程式の平衡点の安定性解析 E-1) 非線形方程式の線形近似特に言及してこなかったが これまでは線形微分方程式 ( x や x, x などがすべて 1 次で なおかつ

AI技術の紹介とセンサーデータ解析への応用

Kumamoto University Center for Multimedia and Information Technologies Lab. 熊本大学アプリケーション実験 ~ 実環境における無線 LAN 受信電波強度を用いた位置推定手法の検討 ~ InKIAI 宮崎県美郷

Microsoft Word - SPSS2007s5.doc

Microsoft Word - 保健医療統計学112817完成版.docx

Presentation Title

Microsoft PowerPoint - 9.pptx

Microsoft PowerPoint - 9.pptx

モデリングとは

PowerPoint プレゼンテーション

高次元データ スパース正則化学習法 最適化手法 proximal point algorithm 確率最適化手法 2

電子図書館用高速データベース管理システム[稲田]

Microsoft PowerPoint - R-stat-intro_12.ppt [互換モード]

狭山デポ様IBM移設予定機器 _ppt [Compatibility Mode]

<4D F736F F F696E74202D E738A5889BB8BE688E68A4F82CC926E89BF908492E882C98AD682B782E98CA48B862E707074>

Rの基本操作

タイトルを修正 軸ラベルを挿入グラフツール デザイン グラフ要素を追加 軸ラベル 第 1 横 ( 縦 ) 軸 凡例は削除 横軸は, 軸の目盛範囲の最小値 最 大値を手動で設定して調整 図 2 散布図の仕上げ見本 相関係数の計算 散布図を見ると, 因果関係はともかく, 人口と輸送量の間には相関関係があ

Microsoft PowerPoint - 測量学.ppt [互換モード]

スライド 1

ビジネス統計 統計基礎とエクセル分析 正誤表

Python-statistics5 Python で統計学を学ぶ (5) この内容は山田 杉澤 村井 (2008) R によるやさしい統計学 (

大気環境シミュレーション

3. 分析対象 ( サンプル ) 今回は次のような調達品の仕様データを用いる これは金属加工品の調達実績である 行は 45 となって おり これは 45 の調達実績を分析していることを指す 45 回 金属加工品を調達しており 調達実績につ いて 各仕様を表にした 横寸法縦寸法削り長ザグリありザグリな

コンピュータグラフィックス第6回

Code_Aster / Salome-Meca 中級者への道 2015年5月31日

目次 1 章 SPSS の基礎 基本 はじめに 基本操作方法 章データの編集 はじめに 値ラベルの利用 計算結果に基づく新変数の作成 値のグループ化 値の昇順

Microsoft Word - 卒論レジュメ_最終_.doc

Microsoft PowerPoint - mp11-02.pptx

目次 はじめに P.02 マクロの種類 ---

スライド 1

みっちりGLM

はじめに 最近の住宅市場は世帯数に比べ 住宅数が多く 1 この数字だけを見れば供給過剰といえる しかし実際には 消費者側の多様な需要とそれに合わせた供給も存在するため 世帯数と住宅数だけで需給バランスを把握でき るとは言い難い 国土交通省の不動産の鑑定評価基準にもあるように 不動産の価値には 現在の

Microsoft PowerPoint - 10.pptx

0 21 カラー反射率 slope aspect 図 2.9: 復元結果例 2.4 画像生成技術としての計算フォトグラフィ 3 次元情報を復元することにより, 画像生成 ( レンダリング ) に応用することが可能である. 近年, コンピュータにより, カメラで直接得られない画像を生成する技術分野が生

JMP によるオッズ比 リスク比 ( ハザード比 ) の算出方法と注意点 SAS Institute Japan 株式会社 JMP ジャパン事業部 2008 年 3 月改定 1. はじめに本文書は JMP でオッズ比 リスク比 それぞれに対する信頼区間を求める算出方法と注意点を述べたものです この後

不偏推定量

主成分分析 -因子分析との比較-

Autodesk Inventor Skill Builders Autodesk Inventor 2010 構造解析の精度改良 メッシュリファインメントによる収束計算 予想作業時間:15 分 対象のバージョン:Inventor 2010 もしくはそれ以降のバージョン シミュレーションを設定する際

経済統計分析1 イントロダクション

2018年度 岡山大・理系数学

スライド 1

横浜市環境科学研究所

プログラムのゴールと特徴 プログラムのゴールデータ分析職 ( データサイエンティストでなくとも ) に求められる高度な統計学や機械学習の理論とスキルを体系立てて理解し ビジネス課題に適用できる人材の育成を目指します 具体的には以下のことができるようになることを目指します 高度なデータ分析技術を用いて

航空機の運動方程式

PowerPoint プレゼンテーション

コンピュータグラフィックス第8回

Microsoft Word ã‡»ã…«ã‡ªã…¼ã…‹ã…žã…‹ã…³ã†¨åłºæœ›å•¤(佒芤喋çfl�)

Microsoft PowerPoint - LectureB1handout.ppt [互換モード]

PowerPoint プレゼンテーション

Microsoft PowerPoint - 三次元座標測定 ppt

Microsoft PowerPoint - R-stat-intro_04.ppt [互換モード]

Microsoft PowerPoint - statistics pptx

Microsoft Word - Stattext07.doc

Microsoft PowerPoint - H21生物計算化学2.ppt

様々なミクロ計量モデル†

ii 3.,. 4. F. (), ,,. 8.,. 1. (75% ) (25% ) =9 7, =9 8 (. ). 1.,, (). 3.,. 1. ( ).,.,.,.,.,. ( ) (1 2 )., ( ), 0. 2., 1., 0,.

ベイズ統計入門

スライド 1

日心TWS

Transcription:

データサイエンス講座第 3 回機械学習その 2 ロジスティクス回帰 カーネル法とサポートベクターマシン アンサンブル学習

ロジスティクス回帰 基本的には重回帰分析のモデルと考え方は似ている = 1 1+ ( ) 目的変数 = 係数 説明変数 + 定数 この式をグラフ化すると y は 0 1 に収まる ( シグモイド関数 ) トレーニングデータから確率を最大となる地点をもとめ それぞれの係数を求める 1 売れた -10-5 0 5 10 売れない 確率が最大 の地点 2

ロジスティクス回帰 ロジスティクス回帰のメリット 結構 メリットが多い 1. カテゴリ変数 ( 男性 性 好き 嫌い ) も説明変数として扱うことができる 2. 重回帰分析の一種なのでステップワイズ (AIC) によって パラメータを削減して 説明 の いモデルを作ることができる 3. 個々の説明変数をオッズ比 ( 他と比較した確率の起こりやすさ ) で すことができるので 何が重要なパラメータか説明しやすい ランク 説明変数 P 値有意確率 オッズ比 1 40 代 _ 年収 0.1% 1.23 2 性別 _ 男性 0.4% 1.12 Excel ではサポートしていないので R, Python, SPSS などで実施するケースが多い 医療統計ではデフォルトで利 ぜひ マスターして 戻ってから実践してください 3

カーネル法 カーネル法 データを 次元の特徴空間に写像したときの主成分分析 具体的には 2 次元平面座標 (x,y) に A1(1,1),A2(1,-1),A3(-1,-1),A4(-1,1) があるとする A1,A3 が一つのクラスであるとすると 平面上にクラスの境界線を引けない 二次元平面 (x,y) の 4 つの点を 3 次元空間 (x,y,z) に射影すると A1(1,1,1) A2(1,-1,-1) A3(- 1,-1,1) A4(-1,1,-1) になり 両クラスは平面で切り分けることが可能になる 次元の特徴変換をカーネル法 (ψ(x)) と呼ぶ 参考ビデオ https://www.youtube.com/watch?v=3licbrzprza&hl=ja&gl=jp データ写像 F=ψ(x) 明確に境界を線引きできない z=0 の平面を境界面 4

カーネル法 次元空間変換の問題点 変換にあたって内積を計算する 3 次元の場合の内積 (X,Y,Z) (X, Y,Z, X^2.Y^2.Z^2,XY,YZ,ZX) 次元が増えれば増えるほど計算量は増える どうやって計算量をすくなくするか? カーネル法の登場特徴空間への非線形写像 ( ) ( ) =(, ) 再生核ヒルベルト空間 (RKHS) の条件で 次元 (T) の内積をカーネル関数 K(x1,x2) に変換することが可能 ( カーネルトリック ) いくつかのカーネル関数 (K) ガウスカーネル (RBF カーネル ) 正規分布に従う, = exp 2 2, = tanh("1 #) 無限次元から写像できるガウスカーネルがカーネル法のカーネル関数としてよく利 される 5

サポートベクターマシン カーネル法 機械学習 サポートベクター = 機械学習 サポートベクターマシンの目的 : 教師あり学習 あるデータを教師ありデータに基づいて分類したい 分類 回帰式 ( y = ax + b) で説明したい ただし 単純な回帰式では を説明できない カーネル法で 2 次元座標を多次元特徴空間に変換 特徴空間で 回帰分析をすることで 分類する 境界線のギリギリ ( マージン最大化 ) で線を引く サポートベクターマシン = カーネル法 + 回帰分析 6

サポートベクターマシン サポートベクターマシンの目的 きちんと線引きをしたい 場合によっては 判別に失敗するケースも 7

サポートベクターマシン サポートベクターマシンの考え方 緑とオレンジ 2 つの線を引く 緑とオレンジと較べて 緑の方が と の隔てる幅が広い ( マージンが大きい ) と との最大マージンを取る線を選ぶ と のそれぞれの端っこのデータに注目 ( サポートベクター ) であれば -1 となる ax+by+c= -1, であれば 1 となる ax+by+c=1 となる端っこに線を引く その と の端っこが一番遠い距離 ( 最大マージン ) を数学的な手法を計算し 教師データを作る 8

アンサンブル学習 アンサンブル = 集合 例 : 音楽 2 人以上で演奏する アンサンブル学習の考え方 モデリングの難しいところ 過学習 正確なモデルにしようとすればするほど 汎 性は失われる アンサンブル学習の考え方 たくさんのモデルを作成して そこから多数決 平均をとるアプローチ ( 集合知 ) 入力データ例 : メール 弱学習器 1 弱学習器 2 弱学習器 3 弱学習器 4 弱学習器 5 判定 : 迷惑メール判定 : 正常メール判定 : 迷惑メール判定 : 迷惑メール 判定 : 迷惑メール 迷惑メール 4 正常メール 1 迷惑メール判定 弱学習器に重みをつける方法などいくつかパターンあり 弱学習器のパターン バギング 判定に際して単純に平均 多数決 ブースティング - 誤検知率に応じて重みをつける ランダムフォレスト 複数の決定木から平均多数決をとる 9

アンサンブル学習 アンサンブル学習は精度は いか? 厳密に証明はできないものの データ数が多くなればなるほど トレーニングエラーが減る傾向があり ビックデータ解析では広く利 アンサンブル学習の応 例 1 コンピュータ将棋 アンサンブル学習の応 例 2 IBM Watson 10

アンサンブル学習 決定木 性の生存率がもっとも い ロジスティクス回帰のオッズと同じ結論 性別が生存への影響大 クラス関係なく男性の生存は少ない 性で 3 等のクラスは 20 人生存 性で 3 等以外のクラスは 254 人生存 11

アンサンブル学習 もどって ランダムフォレスト ランダムフォレストの仕組み トレーニングデータ 学習器 ブートストラップサンプリング ランダム生成 トレーニンク テ ータ一部 トレーニンク テ ータ一部 トレーニンク テ ータ一部 トレーニンク テ ータ一部 決定木決定木決定木決定木 多数決平均 12

アンサンブル学習 ランダムフォレストのアルゴリズム 1. トレーニングデータからブートストラップサンプリングを作成する 2. ブートストラップサンプルから決定木 $% を構築 指定したノード数になるまで以下を繰り返す a. p 個の説明変数から m 個の変数をランダムに選択する b. m この説明変数から最も説明しやすい変数を分岐ノードとする 3. B 個の決定木 $% を いて学習器を構築 4. 最終的に判別問題は多数決 回帰問題は平均で答えを出す 決めるべきパラメータとして 指定したノードの数 m 個の変数 判別問題 : ノード 1 m= p 回帰問題 : ノード 5 m=p/3 13

アンサンブル学習 バイアス バリアンス理論 汎化誤差 = バイアス + バリアンス + 削除不能誤差 バイアス (Bias) トレーニングデータから統計モデルを学習するアルゴリズムの良し悪し バリアンス (Variance) トレーニングデータに由来する誤差 単純なモデル ( 回帰式など ) 単純ゆえに バイアスは大きい 線形なので 十分モデルを説明できないこともある 一方で 単純ゆえに トレーニングデータに対する誤差は少ない バリアンスは低い 複雑なモデル ( ニューラルネットなど ) 複雑ゆえに バイアスは小さい 一方で 複雑ゆえに トレーニングデータに対する誤差は大きい バリアンスは大きい バイアス バリアンスはトレードオフの関係 ランダムフォレストは 弱学習器を多様なサンプルから学習してバリアンスを減らすアプローチ 14

おススメ書籍 R による統計解析 2009 年 4 月 木繁伸 ( 著 ) オーム社 統計解析の大部分について網羅的に掲載されている R でどうするかわからなくなったとき参照すると便利 データサイエンティスト養成読本 2015 年 9 月 技術評論社 入門といいながらも 結構 度なところまで 及 Python での応 画像認識など踏み込んで取り上げている 本講座の次のステップとしておススメ 15