スライド 1

Similar documents
Microsoft PowerPoint - 資料04 重回帰分析.ppt

多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典

Microsoft PowerPoint - H17-5時限(パターン認識).ppt

要旨 1. 始めに PCA 2. 不偏分散, 分散, 共分散 N N 49

0 部分的最小二乗回帰 Partial Least Squares Regression PLS 明治大学理 学部応用化学科 データ化学 学研究室 弘昌

Microsoft PowerPoint - 統計科学研究所_R_重回帰分析_変数選択_2.ppt

スライド 1

Rの基本操作

NLMIXED プロシジャを用いた生存時間解析 伊藤要二アストラゼネカ株式会社臨床統計 プログラミング グループグルプ Survival analysis using PROC NLMIXED Yohji Itoh Clinical Statistics & Programming Group, A

統計的データ解析

PowerPoint プレゼンテーション

Kumamoto University Center for Multimedia and Information Technologies Lab. 熊本大学アプリケーション実験 ~ 実環境における無線 LAN 受信電波強度を用いた位置推定手法の検討 ~ InKIAI 宮崎県美郷

Microsoft PowerPoint - 05DecisionTree-print.ppt

Microsoft PowerPoint - R-stat-intro_12.ppt [互換モード]

様々なミクロ計量モデル†

データサイエンス講座第 3 回機械学習その 2 ロジスティクス回帰 カーネル法とサポートベクターマシン アンサンブル学習

dvi

Microsoft PowerPoint - 【配布・WEB公開用】SAS発表資料.pptx

Probit , Mixed logit

サーバに関するヘドニック回帰式(再推計結果)

ベイズ統計入門

13章 回帰分析

AI技術の紹介とセンサーデータ解析への応用

Microsoft Word - mstattext02.docx

dvi

欠測を含む順序カテゴリカル経時データの解析 -GEE プロシジャの有用性 - 駒嵜弘 1 藤原正和 2 ( 1 マルホ株式会社 2 塩野義製薬株式会社 ) Ordinal longitudinal data analysis with missing data -Usefulness of Proc

MedicalStatisticsForAll.indd

Chapter 1 Epidemiological Terminology

4 段階推定法とは 予測に使うモデルの紹介 4 段階推定法の課題 2

0 21 カラー反射率 slope aspect 図 2.9: 復元結果例 2.4 画像生成技術としての計算フォトグラフィ 3 次元情報を復元することにより, 画像生成 ( レンダリング ) に応用することが可能である. 近年, コンピュータにより, カメラで直接得られない画像を生成する技術分野が生

分析のステップ Step 1: Y( 目的変数 ) に対する値の順序を確認 Step 2: モデルのあてはめ を実行 適切なモデルの指定 Step 3: オプションを指定し オッズ比とその信頼区間を表示 以下 このステップに沿って JMP の操作をご説明します Step 1: Y( 目的変数 ) の

スライド 1

集中理論談話会 #9 Bhat, C.R., Sidharthan, R.: A simulation evaluation of the maximum approximate composite marginal likelihood (MACML) estimator for mixed mu

1.民営化

スライド 1

JMP によるオッズ比 リスク比 ( ハザード比 ) の算出方法と注意点 SAS Institute Japan 株式会社 JMP ジャパン事業部 2008 年 3 月改定 1. はじめに本文書は JMP でオッズ比 リスク比 それぞれに対する信頼区間を求める算出方法と注意点を述べたものです この後

kubostat2017b p.1 agenda I 2017 (b) probability distribution and maximum likelihood estimation :

PowerPoint プレゼンテーション

EBNと疫学

kubostat2017c p (c) Poisson regression, a generalized linear model (GLM) : :

Microsoft Word - 補論3.2

講義「○○○○」

Microsoft PowerPoint - e-stat(OLS).pptx

切片 ( 定数項 ) ダミー 以下の単回帰モデルを考えよう これは賃金と就業年数の関係を分析している : ( 賃金関数 ) ここで Y i = α + β X i + u i, i =1,, n, u i ~ i.i.d. N(0, σ 2 ) Y i : 賃金の対数値, X i : 就業年数. (

Microsoft Word doc

当し 図 6. のように 2 分類 ( 疾患の有無 ) のデータを直線の代わりにシグモイド曲線 (S 字状曲線 ) で回帰する手法である ちなみに 直線で回帰する手法はコクラン アーミテージの傾向検定 疾患の確率 x : リスクファクター 図 6. ロジスティック曲線と回帰直線 疾患が発

Introduction to System Identification

Microsoft PowerPoint - mp11-06.pptx

博士学位請求論文審査報告書 申請者 : 植松良公 論文題目 :Statistical Analysis of Nonlinear Time Series 1. 論文の主題と構成経済時系列分析においては, 基礎となる理論は定常性や線形性を仮定して構築されるが, 実際の経済データにおいては, 非定常性や

カイ二乗フィット検定、パラメータの誤差

PSMATCH Procedure ニューラルネットワークの奇跡のマッチング ~Real World Data の利用可能性を忖度する ~ 馬場崇充 藤原正和 北西由武 ( 塩野義製薬株式会社解析センター ) PSMATCH Procedure Neural Network = Miracle En

<4D F736F F D204A4D5082C982E682E991CE B A F2E646F63>

Microsoft PowerPoint - SAS2012_ZHANG_0629.ppt [互換モード]

7. フィリップス曲線 経済統計分析 (2014 年度秋学期 ) フィリップス曲線の推定 ( 経済理論との関連 ) フィリップス曲線とは何か? 物価と失業の関係 トレード オフ 政策運営 ( 財政 金融政策 ) への含意 ( 計量分析の手法 ) 関数形の選択 ( 関係が直線的でない場合の推定 ) 推

x T = (x 1,, x M ) x T x M K C 1,, C K 22 x w y 1: 2 2

2010_LD_Ide.ppt

Excelにおける回帰分析(最小二乗法)の手順と出力

Kobe University Repository : Kernel タイトル Title 著者 Author(s) 掲載誌 巻号 ページ Citation 刊行日 Issue date 資源タイプ Resource Type 版区分 Resource Version 権利 Rights DOI

0 スペクトル 時系列データの前処理 法 平滑化 ( スムージング ) と微分 明治大学理 学部応用化学科 データ化学 学研究室 弘昌

SAS_user_2015_fukiya02

<4D F736F F F696E74202D E738A5889BB8BE688E68A4F82CC926E89BF908492E882C98AD682B782E98CA48B862E707074>

回帰分析 単回帰

簿記教育における習熟度別クラス編成 簿記教育における習熟度別クラス編成 濱田峰子 要旨 近年 学生の多様化に伴い きめ細やかな個別対応や対話型授業が可能な少人数の習熟度別クラス編成の重要性が増している そのため 本学では入学時にプレイスメントテストを実施し 国語 数学 英語の 3 教科については習熟

Presentation Title

計量経済学の第一歩 田中隆一 ( 著 ) gretl で例題と実証分析問題を 再現する方法 発行所株式会社有斐閣 2015 年 12 月 20 日初版第 1 刷発行 ISBN , Ryuichi Tanaka, Printed in Japan

みっちりGLM

スライド 1

Excelによる統計分析検定_知識編_小塚明_5_9章.indd

Microsoft PowerPoint - 【配布・WEB公開用】ACRONET_Kitahara.ppt [互換モード]

今回 次回の要点 あぶない 時系列データ解析は やめましょう! 統計モデル のあてはめ Danger!! (危 1) 時系列データの GLM あてはめ (危 2) 時系列Yt 時系列 Xt 各時刻の個体数 気温 とか これは次回)

Dependent Variable: LOG(GDP00/(E*HOUR)) Date: 02/27/06 Time: 16:39 Sample (adjusted): 1994Q1 2005Q3 Included observations: 47 after adjustments C -1.5

スライド -3 日本語版 SF-6D に関しては すでに開発と検証が終わっていまして 6 つの下位尺度からなる尺度として利用が始まっています その 6 つの下位尺度とは ここに挙げている身体機能 日常役割機能 社会生活機能 身体の痛み 心の健康 活力といったもので これらの組み合わせで 1 万スライ

統計学 - 社会統計の基礎 - 正規分布 標準正規分布累積分布関数の逆関数 t 分布正規分布に従うサンプルの平均の信頼区間 担当 : 岸 康人 資料ページ :

<4D F736F F F696E74202D204D C982E682E892B290AE82B582BD838A E8DB782CC904D978A8BE68AD482C98AD682B782E988EA8D6C8E402E >

Microsoft PowerPoint - S11_1 2010Econometrics [互換モード]

Microsoft PowerPoint - Inoue-statistics [互換モード]

Microsoft PowerPoint - no1_17

14 化学実験法 II( 吉村 ( 洋 mmol/l の半分だったから さんの測定値は くんの測定値の 4 倍の重みがあり 推定値 としては 0.68 mmol/l その標準偏差は mmol/l 程度ということになる 測定値を 特徴づけるパラメータ t を推定するこの手

memo

確率的ラフ集合モデルによる決定クラスの抽出

日心TWS

統計学の基礎から学ぶ実験計画法ー1

Microsoft PowerPoint - SASユーザ総会2016_MRCT_送付用.pptx

Medical3

C3 データ可視化とツール

Microsoft PowerPoint - 知財報告会H20kobayakawa.ppt [互換モード]

Microsoft Word - Time Series Basic - Modeling.doc

Microsoft PowerPoint - LectureB1handout.ppt [互換モード]

JUSE-StatWorks/V5 活用ガイドブック

kubostat7f p GLM! logistic regression as usual? N? GLM GLM doesn t work! GLM!! probabilit distribution binomial distribution : : β + β x i link functi

最小二乗法とロバスト推定

ii 3.,. 4. F. (), ,,. 8.,. 1. (75% ) (25% ) =9 7, =9 8 (. ). 1.,, (). 3.,. 1. ( ).,.,.,.,.,. ( ) (1 2 )., ( ), 0. 2., 1., 0,.

PowerPoint プレゼンテーション

青焼 1章[15-52].indd

Microsoft PowerPoint - ch04j

<4D F736F F F696E74202D B835E89F090CD89898F4B81408F6489F18B4195AA90CD A E707074>

1. 多変量解析の基本的な概念 1. 多変量解析の基本的な概念 1.1 多変量解析の目的 人間のデータは多変量データが多いので多変量解析が有用 特性概括評価特性概括評価 症 例 主 治 医 の 主 観 症 例 主 治 医 の 主 観 単変量解析 客観的規準のある要約多変量解析 要約値 客観的規準のな

スライド 1

JMP による 2 群間の比較 SAS Institute Japan 株式会社 JMP ジャパン事業部 2008 年 3 月 JMP で t 検定や Wilcoxon 検定はどのメニューで実行できるのか または検定を行う際の前提条件の評価 ( 正規性 等分散性 ) はどのメニューで実行できるのかと

スライド 1

Transcription:

- SAS 共同企画セッション - 一世を風靡した Random Forest (Random Woods) が SAS(IMSTAT) で使えるようになったので縦長 / 横長データに適用してみる 塩野義製薬株式会社 木口亮, 北西由武, 都地昭夫, 渡辺秀章 - SAS joint planning session - Make an attempt to apply Random Forest (Random Woods) available in IMSTAT to huge records / super multi-dimensional data Shionogi & Co., Ltd. Ryo Kiguchi, Yoshitake Kitanishi, Akio Tsuji, Hideaki Watanabe

要旨 : 縦長 / 横長の仮想データに対して, ロバストな変数選択の手法の一つである Random Forest を IMSTAT で適用し, その性能を見る. また, その他の変数選択の手法との比較も行う. キーワード :IMSTAT RANDOMWOOD GLMSELECT Lasso Elastic Net

Outline 縦長データと横長データ 重要な変数の選択 1 Random Forest 2 Lasso / Elastic net シミュレーション まとめ 課題

縦長データと横長データ

縦長データ EX.) 医療ビッグデータ 医師の診療行為から生まれるビッグデータに, カルテ, レセプト ( 診療報酬明細 ) などをソースとして得られるものがある 患者さん一人ひとりの薬剤処方歴, 手術歴, 診断歴, 入院歴といった情報が蓄積されたデータ Real World Data(RWD) と呼ばれることも多い 一般に超多サンプル少変数のデータ構造の場合が多い

横長データ EX.) ゲノムビッグデータ 従来から扱っている臨床試験データは少サンプル多変数 遺伝子データに至っては, 少サンプル超多変数のデータ構造をとることが多い データの特徴 説明変数同士の相関が強いグループが存在 少サンプルなので, グループに含まれない変数でも相関が強くなる可能性がある 偶然相関が強くなった変数の排除が難しい

データ構造に依らず, 関心のあるアウトカムに対する予測モデルに適切な解釈を与えるために, 説明変数を予め選択してモデル構築をすることは重要 モデル構築 応答変数に影響を与える重要な変数を選択したい!

重要な変数の選択 1 Random Forest 2 Lasso / Elastic net

重要な変数の選択 1 Random Forest の 重要度 をもとに変数選択する Random Forest ランダムサンプリングされたトレーニングデータによって学習した多数の決定木 or 回帰木を使用する機械学習アルゴリズム IMSTAT の RANDOMWOODS ステートメントで Random Forest を縦長データ / 横長データに実施し, 変数の重要度を測定してその性能をみる

重要な変数の選択 1 Random Forest の 重要度 をもとに変数選択する 決定木と回帰木 明示的な関数を用いず, 一連の手順に沿ってデータを分岐させることで, 予測や判別を行う手法を決定木 ( 応答変数 : カテゴリ変数 ) または回帰木 ( 応答変数 : 連続変数 ) 傘の有無 種類 降水確率 勤務形態 通勤時間 持っていかない 0% 内勤 20 分 持っていかない 30% 内勤 75 分 折りたたみ傘 10% 外勤 55 分 折りたたみ傘 30% 外勤 90 分 折りたたみ傘 30% 外勤 30 分 折りたたみ傘 50% 外勤 45 分 折りたたみ傘 70% 内勤 80 分 折りたたみ傘 70% 外勤 100 分 長傘 40% 内勤 15 分 長傘 70% 内勤 40 分 長傘 80% 内勤 35 分 長傘 100% 外勤 50 分 持っていかない 勤務形態は? 内勤 40% 未満 外勤 折りたたみ傘 降水確率は? 40% 以上 60 分以上 折りたたみ傘 通勤時間は? 60 分未満 長傘

重要な変数の選択 1 Random Forest の 重要度 をもとに変数選択する 決定木と回帰木 利点は? 仮定が不要 回帰分析 : モデルや正規性の仮定の問題 データの素性がわからない状況で適用しやすい アルゴリズムが容易であり 解釈しやすい ノード内の不均一性の尺度 i t に基づき, 分割し, 決定木 / 回帰木を求める この尺度 i t を用いて,Random Forest で 重要度 を算出する 勤務形態は? 降水確率は? 通勤時間は? 持っていかない 折りたたみ傘 折りたたみ傘 長傘

ノード内の不均一性の尺度 i(t) 連続変数の場合 残差平方和 : i t = (y i y t ) 2 i I カテゴリ変数の場合 ジニ不純度 :i t = 1 p k (t) 2 k エントロピー不純度 : i t = p k t logp k (t) k p k t はノード t でのクラス k の割合 新たに変数を木に追加したときに減少する統計量が, 最大になる変数を選ぶ

重要な変数の選択 1 Random Forest の 重要度 をもとに変数選択する Random Forest Random Forest の発想は決定木 / 回帰木 + ブートストラップである Random Forest の出力は決定木 / 回帰木の出力結果の平均値などであり, 木を作ることが目的ではないことに注意! 利点は? 特徴量である 重要度 が学習とともに計算できる 学習が早い 過学習が起こりにくい 適用範囲が広い 欠点は? パラメータが多い 学習データが少ないとうまく学習できない

重要な変数の選択 1 Random Forest の 重要度 をもとに変数選択する Random Forest の手順

重要度 重要度 : 新たに変数を木に追加したときに減少する統計量を元に算出する 算出手順 ノード内の不均一性の尺度 i(t) から算出される mmm i(t) 1. ある変数が追加されるごとに減少する統計量を算出する 同じ変数が何度か用いられる場合には 減少する統計量の合計 2. 木が複数本ある場合, 各木で求めた 減少する統計量 の平均が変数の重要度

Sample Code proc imstat DATA=LASRLIB.Dataset; RANDOMWOODS OUTCOME/ /* 応答変数 */ INPUT=(COL1 COL2 COL3 COL4 COL5 COL6) /* 説明変数 */ NOMINAL=(COL3 COL5 COL6) /* カテゴリー変数 */ M=4 /* 説明変数のサンプリング数 */ LEAFSIZE=5 /* 葉の枚数 */ MAXBRANCH=2 /* 枝の最大数 * / MAXLEVEL=10 /* 木の深さ* / BOOTSTRAP=0.8 /* Default:1-exp(-1) */ NTREE=3000; /* 決定木の本数 */ run; quit;

重要な変数の選択 2 Lasso / Elastic net で変数選択する 遺伝子データの変数選択を考える 超多変数であり, ノイズとなる変数を多く含むので, モデルの予測精度を高める変数選択を行いたい 単に 変数 に注目するのではなく, 説明変数同士の相関が強い グループ に注目して変数選択することがデータの特徴上, 重要 データの特徴 説明変数同士の相関が強いグループが存在 少サンプルなので, グループに含まれない変数でも相関が高くなる可能性がある 偶然相関が高くなった変数の排除が難しい

重要な変数の選択 2 Lasso / Elastic net で変数選択する 一般的な線形回帰モデルで,p 個の目的変数 x 1,, x p が与えられ, 応答変数が以下のように予測されたとする. y = β 0 + x 1 β 1 + + x p β p = Xβ 最小二乗推定量 (OLS 推定量 ) β = argmin β y Xβ 2 推定したモデルの評価基準 モデルの予測精度 モデルの解釈 2 つの側面に対して,OLS 推定量は優れていない この改善のために 罰則 の考え方がある.

重要な変数の選択 2 Lasso / Elastic net で変数選択する 罰則 の例 : リッジ回帰 一般的な線形回帰モデルの推定量 罰則項! β = argmin β { y Xβ 2 + λ β 2 } モデルの予測精度は向上! チューニングパラメータ 課題 モデルに取り込む変数を選択できず, すべての変数をモデルに組み込む これに対して考案されたのが Lasso

重要な変数の選択 2 Lasso Lasso / Elastic net で変数選択する 一般的な線形回帰モデルの推定量 特徴 β = argmin β y Xβ 2 + λ β } 連続的に縮小推定を行い, かつ変数選択が可能 予測の性能はその他 ( リッジ回帰など ) の罰則より優れる Lasso が機能するために必要な制約 罰則項! 遺伝子データに不向きな制約 p>n の場合,Lasso では高々 n 個の説明変数しか選択できない 説明変数同士の相関が強い場合, それらの変数をグループと呼ぶとすると, 変数選択する際にそのグループの中から 1 つの変数のみをモデルに組み込み, それ以外を無視する傾向がある

重要な変数の選択 2 Lasso / Elastic net で変数選択する Elastic Net Lasso の特性である, 変数選択と連続的な縮小推定に加えて, 変数間の相関によるグループ効果を考慮することができる β = 1 + λ 2 argmin β { y Xβ 2 + λ 2 β 2 + λ 1 β 1 } グループ効果を表すパラメータ ( チューニングパラメータ ) p p β 2 2 = β j, β 1 = β j j=1 j=1

Sample Code Lasso proc glmselect data=work.data plots=all ; run ; model OUTCOME=COL1-COL10 / selection=lasso(steps=1000 choose=aic) ; Elastic net 停止条件 モデル選択の基準 proc glmselect data=work.data plots(stepaxis=normb)=coefficients ; model OUTCOME=COL1-COL10 / selection=elasticnet(steps=1000 L2=0.1 choose=aic) ; run ; チューニングパラメータ

シミュレーション 当日公開

まとめ 当日公開

課題 当日公開

参考文献 Robert Tibshirani (2011). Regression shrinkage and selection via the lasso: A retrospective. Journal of the Royal Statistical Society, Series B 73(3), 273-282. Hui Zou and Trevor Hastie(2005). Regularization and variable selection via the elastic net. Journal of the Royal Statistical Society, Series B 67(2), 301-320. Trevor Hastie, Robert Tibshirani, Jerome Friedman (2009). The Elements of Statistical Learning. Simon N. Wood(2006). Generalized Additive Models: an introduction with R. Chapman & Hall/CRC.

End of Slide