takano1

Size: px

Start display at page:

Download "takano1"

かおりたかひ
5 years ago
Views:

1 欠損値を補完する? 教育認知心理学講座野村研究室 M1 高野了太データ解析演習 2017/07/05

2 目次 1. はじめに 2. 欠損値の種類 2-1. MCAR 2-2. MAR 2-3. MNAR 3. 欠損データの対処法 3-1. FIML 法 3-2. 多重代入法 4. 実際に多重代入法をやろう! 2

3 1. はじめに心理学の研究とりわけ質問紙調査などでは欠損値はつきもの欠損値があるデータをどのように扱うのかに関しては様々な議論がなされてきた (Enders, 2010) 欠損値があるサンプルは消せば良い! 欠損値がある部分だけ抜いて分析すれば良い! 欠損値のところは平均値を代入すれば良い!... 本当にそれで良いの?? という話 3

4 2. 欠損値の種類欠損値はどのように欠損が生じたかによって 3 つに大きく分類 1MCAR (Missing Completely At Random) ー完全ランダムに欠損が生じた場合 2MAR (Missing At Random) ー分析に含まれる変数 (X) とは関係するが欠損データとそれを含む変数 (Y) に対しては無関係な場合 3MNAR (Missing Not At Random) ー欠損値の有無が欠損値を持つ変数自身と関係を持つ場合 data.pdf 4

5 2-1. MCAR MCAR (Missing Completely At Random) 欠損が完全にランダムに生じている場合欠損データを含む変数はもちろん他の変数とも関連がない右図では...? ー Y が欠損データのある変数ー R は欠損した時は 0 観測した時は 1 をとる確率変数ー X は分析に含まれるその他の変数 R が X Y どちらとも関連していないことがわかる 5

6 2-2. MAR MAR (Missing At Random) Y における欠損値の有無 (R) が他の変数 X と関連しているが X を統制するとその変数 Y 自体の値とは無関係である場合他の変数との関連は OK IQ が低い人に後の適性検査を実施しなかった時欠損の有無 (R) が IQ(X) と関連 MCAR ではない欠損なしの適性検査 (Y) が欠損の有無 (R) と関連してそうだがそれは IQ による偏相関統制すれば消える MAR com/koujapanese/mis sing_data.pdf 6

2-3. MNAR MNAR (Missing Not At Random) 分析に含まれる他の変数を統制した後でも欠損値の有無 (R) が欠損値を持つ変数自体 (Y) と関係を持つ場合ただし他の変数を組み込むことでそれが分析には直接関係ない変数であっても MAR にすることが可能ー Inclusive

7 2-3. MNAR MNAR (Missing Not At Random) 分析に含まれる他の変数を統制した後でも欠損値の有無 (R) が欠損値を持つ変数自体 (Y) と関係を持つ場合ただし他の変数を組み込むことでそれが分析には直接関係ない変数であっても MAR にすることが可能ー Inclusive Analysis Strategy (Enders, 2010; Rubbin, 1996) ー補助変数 (Auxiliary Variable: 右図 A) 補助変数はいくつあっても良いしとりあえず全部投入すれば良いーシミュレーション研究で実証 (Enders, 2008) 具体的には多重代入法や完全情報最尤推定法など 7

8 3. 欠損データの対処法除去する手法 1 ペアワイズ削除法ー 2 変数の組み合わせで少なくとも 1 つが欠損していれば削除 2 リストワイズ削除法ー 1 つでも欠損値があればオブジェクトを削除伝統的な処理法ではあるが MCAR を前提としている推定値にバイアスがかかり仮に MCAR であったとしても検定力が低下することが分かっているため現在は他の手法を用いられることが多い推定する手法 1 完全情報最尤推定法 (Full Information Maximum Likelihood method) 2 多重代入法 (Multiple Imputation Method) 8

9 3. 欠損データの対処法欠損の割合 : 10% 未満リストワイズでも OK? 10% 以上 FIML or MI are.net/hajimesasak i1/wi

10 3-1. FIML 法完全情報最尤推定法 (Full Information Maximum Likelihood method) ーケースごとに欠損パタンに応じた個別の尤度関数を仮定した最尤推定法ー普通の最尤推定法と変わらないが FIML と呼ばれることが多い個人ごとにデータのサイズが違っていても個人ごと全体の尤度を求めることができる欠損値があったとしても同様の原理で最尤推定値を求めることができるつまり他の変数の情報を借りるような形で欠損値のある変数のパラメタを推定することが可能詳しくは村山先生の資料 ( 及び Enders (2010) を参照 AMOS や Mplus SAS でも実施可能 10

11 3-2. 多重代入法代入法 (Imputation Method) ー平均値代入法 : 欠損値以外の平均値を代入するー回帰代入法 : 回帰モデルの予測値を代入するこれらは測定に伴う不確実性を反映していないため分散などが過小推定されてしまうこの問題の対処法として Stochastic Regression Imputation ー回帰モデルの予測値にランダム誤差 ( 誤差分散 ) を加えるこの手法はある程度 Good だが欠損値があることによる推定の不確定性が考慮されていないため欠損値が多い場合に標準誤差を過小評価してしまう 11

12 3-2. 多重代入法多重代入法 (Multiple Imputation Method) では欠損値を代入したデータセットを複数作成しその結果を統合することで欠損値データの統計的推測を行う (Rubin, 1987) データセットを複数作成することで欠損値による推定の不安定性を結果に反映させている 1 代入ステップ : 擬似完全データセットを複数作成する 2 分析ステップ : 推定値と SE を得る 3 統合ステップ : 複数の推定値と SE を統合して単一のそれらを算出 12

13 3-2. 多重代入法 1 代入ステップ (Imputation Step) ーデータ拡大法が主流基本的にベイズ統計学の考えに大きく依拠ー事後予測分布から乱数を発生させそれを欠損値に代入したデータセットを複数作るー乱数の発生にはマルコフ連鎖モンテカルロ法 (Markov chain monte carlo; MCMC) マルコフ連鎖モンテカルロ法ーデータ x が与えられた時事後分布 P(θ x) からパラメータ θ をサンプリングする手法 13

14 3-2. 多重代入法 3 統合ステップ (Posterior / Integration Step) ー複数の擬似完全データセットが得られたらそれぞれのデータセットに関して目的の分析 ( 回帰分析 ANOVA SEM など ) を実施するーパラメタの推定値と SE を統合するパラメタ推定値の統合ー平均する SE の統合擬似データセット間のばらつきの指標 14

15 3-2. 多重代入法多重代入法の留意事項擬似完全データセットの数ー Rubin (1987) は 3~5 mice パッケージのデフォルトは 5 ー Enders (2010) は 20 くらいを目安としている交互作用に興味がある時ー代入ステップで交互作用項もモデルに含めておく階層的なデータの分析を用いる場合ー階層性を代入時に仮定した方が Better だがそれができるソフトウェアは少ない (Norm と Mplus ver.6 では可能 ) 尺度レベル? 項目レベル? ー検出力の関係から項目レベルでやった方が良いが項目数が多いと結果が収束しなかったり ( 回帰分析だと ) そもそも代入できないこともー Enders (2010) は両方使った代入も勧めている 15

16 4. 実際に多重代入法をやろう! 使用するのは R の MICE パッケージ他にも SAS や SPSS のパッケージで代入ステップと統合ステップを自動的に行うことができる (SPSS は sequential regression model を使用 ) R では MICE の他にも Amelia Norm などのパッケージがある R パッケージ MICE ーオランダのユトレヒト大学の Stef van Buuren (2012) を中心としてチームにより開発された多重代入法プログラムー mice() 関数で代入を行い with() 関数で分析 pool() 関数で統合結果を見るー生成した補定済データセットは complete() 関数で作成できるーデータ例は mice パッケージにあるデータを使用 16

4. 実際に多重代入法をやろう! http://sssslide.com/www.

17 4. 実際に多重代入法をやろう! 37-hiromacchan 17

18 4. 実際に多重代入法をやろう! データ概要 age: Age group (1=20-39, 2=40-59, 3=60+) bmi: Body mass index (kg/m**2) hyp: Hypertensive (1=no,2=yes) chl: Total serum cholesterol (mg/dl) 重回帰分析 chl<-age, bmi 年齢はすべて分かっているがそのほかに欠損がいくつかある分析の流れ 1 欠損パターンを概観する 2 データを補完する 3 補完データを分析して統合する 4 補完後のデータを確認する 18

19 4. 実際に多重代入法をやろう! 1 分析パターンを概観する data(nhanes) # mice を install install.packages("mice") library(mice) md.pattern(nhanes) install.packages("vim") library(vim) aggr(nhanes, prop = FALSE, number = TRUE) 19

20 4. 実際に多重代入法をやろう! 2 データを補完する tempdata <- mice(nhanes, m=10, # refers to the number of imputed datasets. Five is the default value. maxit=50, meth='pmm', # refers to the imputation method, pmm: predictive mean matching seed=500) summary(tempdata) 20

21 4. 実際に多重代入法をやろう! 3 補完データを分析して統合する fit <- with(data=tempdata, lm (chl ~age +bmi) ) summary (pool (fit)) 21

22 4. 実際に多重代入法をやろう! 4 補完後のデータを確認する library(lattice) xyplot(tempdata, chl ~ age+bmi,pch=18,cex=1) densityplot(tempdata) stripplot(tempdata, pch = 20, cex = 1.2) 22

23 参考資料 / 文献 URL 村山先生の pdf( スライド 4~14) 清水先生のサイト ( スライド 4~14) mice パッケージの使い方のサイト ( スライド 15~21) 広大徳岡さんのスライド ( スライド 4~14) 外科医の方のサイト ( スライド 15~21) 高橋さん伊藤さんの資料 ( スライド 15~21) Matsui Hiroki さんのスライド ( スライド 15~21) Hajime Sasaki さんのスライド ( スライド 9) Enders, C.K. (2010). Applied missing data analysis. New York: Guilford. Rubin, D. B. (1987). Multiple imputation for nonresponse in surveys. New York: Wiley. 23

X X X Y R Y R Y R MCAR MAR MNAR Figure 1: MCAR, MAR, MNAR Y R X 1.2 Missing At Random (MAR) MAR MCAR MCAR Y X X Y MCAR 2 1 R X Y Table 1 3 IQ MCAR Y I

X X X Y R Y R Y R MCAR MAR MNAR Figure 1: MCAR, MAR, MNAR Y R X 1.2 Missing At Random (MAR) MAR MCAR MCAR Y X X Y MCAR 2 1 R X Y Table 1 3 IQ MCAR Y I (missing data analysis) - - 1/16/2011 (missing data, missing value) (list-wise deletion) (pair-wise deletion) (full information maximum likelihood method, FIML) (multiple imputation method) 1 missing completely