Microsoft PowerPoint - 14回パラメータ推定配布用.pptx

Similar documents
Microsoft PowerPoint - 夏の学校2018配布用佐々木.pptx

U U U car Vcar car bus Vbus bus rail Vrail bus 多項ロジットモデル ε~iidガンベル 2 独立で (Independently) 同一 (Identically) の分散を持つ 0 分布 (Distributed) 0 Cov(U)

Probit , Mixed logit

PowerPoint プレゼンテーション

memo

日心TWS

ベイズ統計入門

Microsoft Word - Time Series Basic - Modeling.doc

統計的データ解析

生命情報学

したがって このモデルではの長さをもつ潜在履歴 latent history が存在し 同様に と指標化して扱うことができる 以下では 潜在的に起こりうる履歴を潜在履歴 latent history 実際にデ ータとして記録された履歴を記録履歴 recorded history ということにする M

Microsoft PowerPoint - H17-5時限(パターン認識).ppt

2014 BinN 論文セミナーについて

カイ二乗フィット検定、パラメータの誤差

Microsoft PowerPoint - 測量学.ppt [互換モード]

講義「○○○○」

様々なミクロ計量モデル†

基礎統計

Microsoft Word - NumericalComputation.docx

< E6D6364>

EBNと疫学

PowerPoint プレゼンテーション

Statistical inference for one-sample proportion

Microsoft PowerPoint - NA03-09black.ppt

集中理論談話会 #9 Bhat, C.R., Sidharthan, R.: A simulation evaluation of the maximum approximate composite marginal likelihood (MACML) estimator for mixed mu

統計学的画像再構成法である

以下のように整理できる ( 個人の添え字 n は省略 ). Ordered Logit exp Z exp Z exp Z exp Z Ordered Probit P P F Z P P F Z F Z P 3 P3 F Z あとは通常の MNL と同様, 以下の尤度関数を最大化すればよい. L

4 段階推定法とは 予測に使うモデルの紹介 4 段階推定法の課題 2

数値計算法

PowerPoint プレゼンテーション

Microsoft Word - 補論3.2

スライド 1

NLMIXED プロシジャを用いた生存時間解析 伊藤要二アストラゼネカ株式会社臨床統計 プログラミング グループグルプ Survival analysis using PROC NLMIXED Yohji Itoh Clinical Statistics & Programming Group, A

スライド 1

パソコンシミュレータの現状

画像処理工学

Title

Microsoft PowerPoint - 資料04 重回帰分析.ppt

Microsoft PowerPoint - S11_1 2010Econometrics [互換モード]

第7章

情報工学概論

14 化学実験法 II( 吉村 ( 洋 mmol/l の半分だったから さんの測定値は くんの測定値の 4 倍の重みがあり 推定値 としては 0.68 mmol/l その標準偏差は mmol/l 程度ということになる 測定値を 特徴づけるパラメータ t を推定するこの手

kubo2015ngt6 p.2 ( ( (MLE 8 y i L(q q log L(q q 0 ˆq log L(q / q = 0 q ˆq = = = * ˆq = 0.46 ( 8 y 0.46 y y y i kubo (ht

確率分布 - 確率と計算 1 6 回に 1 回の割合で 1 の目が出るさいころがある. このさいころを 6 回投げたとき,1 度も 1 の目が出ない確率を求めよ. 5 6 /6 6 =15625/46656= (5/6) 6 = ある市の気象観測所での記録では, 毎年雨の降る

OpenFOAM(R) ソースコード入門 pt1 熱伝導方程式の解法から有限体積法の実装について考える 前編 : 有限体積法の基礎確認 2013/11/17 オープンCAE 富山富山県立大学中川慎二

データ解析

航空機の運動方程式

森林水文 水資源学 2 2. 水文統計 豪雨があった時, 新聞やテレビのニュースで 50 年に一度の大雨だった などと報告されることがある. 今争点となっている川辺川ダムは,80 年に 1 回の洪水を想定して治水計画が立てられている. 畑地かんがいでは,10 年に 1 回の渇水を対象として計画が立て

統計学 - 社会統計の基礎 - 正規分布 標準正規分布累積分布関数の逆関数 t 分布正規分布に従うサンプルの平均の信頼区間 担当 : 岸 康人 資料ページ :

Variational Auto Encoder

1 コンテストについて SAS Insttute Japan 株式会社様主催 教育用擬似ミクロデータを利用した分析のコンテスト 規定課題 : 事前に提示された度数表 集計表の結果を再現 自由課題 : 自由な分析 ( 用いるのは擬似ミクロデータのみ ) 39 団体 45 名がエントリー ( 年齢制限

Microsoft Word - Matlab_R_MLE.docx

Microsoft PowerPoint - 資料3 BB-REVIEW (依田構成員).ppt

Microsoft PowerPoint - e-stat(OLS).pptx

<4D F736F F D208EC08CB18C7689E68A E F193F18D8095AA957A C C839395AA957A814590B38B4B95AA957A2E646F63>

統計学の基礎から学ぶ実験計画法ー1

アルゴリズムとデータ構造

Microsoft PowerPoint - SPECTPETの原理2012.ppt [互換モード]

ビジネス統計 統計基礎とエクセル分析 正誤表

福井正康 共分散構造分析を基にした最小 乗法と最尤法を組み込んだ 初期値設定については 当初 MCMC を予定していたが 主成分法で与えた値が良い結果を与えることが分かり 計算速度の関係からそちらを採用した 最後に MCMC の乱数発生法で 我々はこれまで Metropolis-Hstigs 法を用

ii 3.,. 4. F. (), ,,. 8.,. 1. (75% ) (25% ) =9 7, =9 8 (. ). 1.,, (). 3.,. 1. ( ).,.,.,.,.,. ( ) (1 2 )., ( ), 0. 2., 1., 0,.

解析センターを知っていただく キャンペーン

Microsoft Word - å“Ÿåłžå¸°173.docx

統計学 Ⅱ( 章 ( 区間推定のシミュレーション 母平均 μ の区間推定 X ~ N, のとき X T ~ 自由度 1の t分布 1 自由度 -1のt 分布の97.5% 点 :t.975 P t T t この式に T を代入する t.975 母集団

データサイエンス講座第 3 回機械学習その 2 ロジスティクス回帰 カーネル法とサポートベクターマシン アンサンブル学習

Microsoft PowerPoint SIGAL.ppt

PowerPoint プレゼンテーション

自動車感性評価学 1. 二項検定 内容 2 3. 質的データの解析方法 1 ( 名義尺度 ) 2.χ 2 検定 タイプ 1. 二項検定 官能検査における分類データの解析法 識別できるかを調べる 嗜好に差があるかを調べる 2 点比較法 2 点識別法 2 点嗜好法 3 点比較法 3 点識別法 3 点嗜好

Microsoft PowerPoint - Lecture 10.ppt [互換モード]

PowerPoint Presentation

0 21 カラー反射率 slope aspect 図 2.9: 復元結果例 2.4 画像生成技術としての計算フォトグラフィ 3 次元情報を復元することにより, 画像生成 ( レンダリング ) に応用することが可能である. 近年, コンピュータにより, カメラで直接得られない画像を生成する技術分野が生

PowerPoint プレゼンテーション

CAEシミュレーションツールを用いた統計の基礎教育 | (株)日科技研

ボルツマンマシンの高速化

Stanによるハミルトニアンモンテカルロ法を用いたサンプリングについて

混沌系工学特論 #5

OpRisk VaR3.2 Presentation

モジュール1のまとめ

SAP11_03

PowerPoint プレゼンテーション

数値計算で学ぶ物理学 4 放物運動と惑星運動 地上のように下向きに重力がはたらいているような場においては 物体を投げると放物運動をする 一方 中心星のまわりの重力場中では 惑星は 円 だ円 放物線または双曲線を描きながら運動する ここでは 放物運動と惑星運動を 運動方程式を導出したうえで 数値シミュ

不偏推定量

DVIOUT

Microsoft PowerPoint - 【配布・WEB公開用】SAS発表資料.pptx

untitled

<4D F736F F D208D A778D5A8A778F4B8E7793B CC A7795D2816A2E646F6378>

2011年度 大阪大・理系数学

Microsoft Word doc

因子分析

1.民営化

逐次近似法の基礎と各種補正方法

kubostat1g p. MCMC binomial distribution q MCMC : i N i y i p(y i q = ( Ni y i q y i (1 q N i y i, q {y i } q likelihood q L(q {y i } = i=1 p(y i q 1

09.pptx

Microsoft Word - Logit_by_R

Microsoft Word - reg.doc

多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典

スライド 1

川崎医会誌一般教, 32 号 : (2006) 39 非心ベキ正規分布のパラメータの推定 川崎医科大学 教材教具センター *, 情報科学教室 ** 格和勝利 * 近藤芳朗 ** ( 平成 18 年 11 月 208 受理 ) On Estimation of Parameters in

Autodesk Inventor Skill Builders Autodesk Inventor 2010 構造解析の精度改良 メッシュリファインメントによる収束計算 予想作業時間:15 分 対象のバージョン:Inventor 2010 もしくはそれ以降のバージョン シミュレーションを設定する際

計算機シミュレーション

Transcription:

パラメータ推定の理論と実践 BEhavior Study for Transportation Graduate school, Univ. of Yamanashi 山梨大学佐々木邦明

最尤推定法 点推定量を求める最もポピュラーな方法 L n x n i1 f x i 右上の式を θ の関数とみなしたものが尤度関数 データ (a,b) が得られたとき, 全体の平均がいくつとするのがよいか 平均がいくつだったら (a,b) が得られやすいか? 尤度関数を最大化する θ の値を最尤推定量とするのが最尤推定法 選択モデルの場合,f が選択確率 個人の選択確率を全員で掛け合わせる MaxLikelihood max i P i x i 2

最大化アルゴリズムの考え方 対数尤度関数の段階的な最大化 1. 初期値を与える 2. 初期値周りで勾配 (1 次微分 ) 等を用いて次の推定値の方向を決める 3. 初期値付近のステップサイズを 1 次微分,2 次微分を用いて適切に決めて次の推定値を決める 4. 収束基準 ( 尤度関数の一時微分ベクトル ) を判定し, 収束していない場合は, 現在の値を初期値として 2 に進む ST L n x ˆML 1 2 3

代表的な繰り返し計算法 尤度関数を最大化 : 尤度関数の一階微分 =0 を解く g() Newton Raphson 法 テイラー展開の 1 次近似を利用して進める 解の収束が早い ( ステップ数が少ない ) 準 Newton 法 (BFGS 法 ) ヘッセ行列を逐次近似する. 1 n1 n H g1 H: 尤度関数の二階微分ヘッセ行列 g: 尤度関数の一階微分 4

パラメータ推定がうまくいかない 収束するとは θ n+1 と θ n が同じになる g 1 が 0 になる 収束しない 無限に繰り返す θ 2 が計算不能 H 1 が存在しない ( 計算できない ) 変数が完全相関変数が効用関数に影響していない関数の近似状況 2 次関数近似初期値の問題 局所最適解 見かけ上の最大化 そもそも推定不可能 推定プログラムに誤り g() 5

そもそも推定不能 最大値において唯一解が求まらない可能性がある ( 最大値となるパラメータベクトルが無数にある ) Identification Problem 例 U 1 U 3 U 2 効用に適当な数を足しても選択確率に変化はない 定数項は相対的数値 0 6

シミュレーションによる推定

シミュレーションによる尤度計算 手順 1. 誤差項の密度関数から選択肢の数の次元の ( 準 ) 乱数を発生させる 2. この乱数を誤差の値として, 各代替案の効用値を計算 ( 積分 ) する 3. 代替案 iの効用値とその他の代替案の効用との値を比較し, それらの大小関係を1 0の変数 Gで記述する. 4. 1~3のステップを繰り返す. その反復回数をRとする. R 1 r Pi 5. シミュレーションされた確率は G R r1 となり, この値は不偏推定量である. 効用を確定値にする 確定的に選択を決定 比率を確率に置き換える これを尤度として最大になるようにパラメータをアップデートする 8

準乱数の例 代表的例としてHalton 数列がある. その計算方法は素数 pに対して s 1 t t t1 st, st 1 p, st 2 p, st p 例えば p=3 ならば, 初期値 0 として 1/3, 2/3, 1/9, 4/9, 7/9, 2/9, 5/9, 8/9 p t 多次元化 数列の異なる素数 p を決めて, それぞれに応じて数列を作り多次元化する. 正規分布化 数列を制約つきの乱数発生と同様の変換をして正規分布化 9

連続型シミュレーション 1. 誤差項の密度関数から選択肢の数の次元の乱数を発生させる 2. この乱数を誤差の値として, 各代替案の効用値を計算する 3. この効用をロジット変換を行い, 連続的な0 1 変数に変換する. この変換後の値をSとする 4. 1~3のステップを繰り返す. その反復回数をRとする. R 1 r 5. シミュレーションされた確率は Pi S となり, この値 R r1 は不偏推定量である. 10

シミュレーションベースのパラメータ推定法 シミュレーション尤度最大化 (MSL) シミュレーションによって計算された確率を尤度として, 最大化を行う. 特性 サンプル数と乱数発生回数に依存する. 乱数発生回数が十分大きいと一致性や漸近的有効性を持ち解析積分と一緒の特性を持つ. 乱数発生回数がサンプル数に対して小さく固定されると一致性もない. 11

ベイズ推定 P D 事後分布 P D P P D 事前確率 尤度

乱数による最大値計算 ある変数に対して乱数を発生させ, その時の関数の値を調べる 単純な乱数だと効率が悪い 尤度関数の値の大きさで, 次のパラメータにあたりをつける 尤度分布に基づく乱数を発生できれば, その頻度がパラメータの分布になる θ

MCMC 法による推定 Gibbs Sampling 一つを除いて残りのパラメータを固定して条件付き分布を考える あるパラメータの事後分布を求め, その分布から次のパラメータをサンプリングする 同様に事後分布から順々にサンプリングする Metropolis Hastings Sampling あるパラメータに対する尤度を計算する パラメータをある方向 ( ランダムに ) に変える 基本的には 尤度が大きくなるようならその方向を採択 尤度が小さくなるようなら 逆方向にパラメータを変える 実際は一様乱数との大小で採択を決定 データ拡大法によるプロビットモデル ベイズロジットモデル 前の状態に基づいて (Markov Chain) 新しいパラメータをランダムにサンプリング (Monte Carlo) する

平均値も計算可能 例 平日一日の平均トリップ数が右の表のように与えられる 分散の事前分布を逆ガンマ, 平均値の事前分布を正規分布とする 7 6 5 4 3 2 1 0 メトロポリス法の MCMC で平均値と分散の分布を計算してみる μ σ 6.0 8.1 7.2 3.9 4.5 2.5 6.6 4.1 2.0 5.5 続く 1 45 89 133 177 221 265 309 353 397 441 485 529 573 617 661 705 749 793 837 881 925 969 1013 1057 1101 1145 1189 1233 1277 1321 1365 1409 1453 1497 1541 1585 1629 1673 1717 1761 1805 1849 1893 1937 1981 この時 μ と σ の平均値は単純に平均で計算可能で 5.01 と 2.17 ( 1000 まで廃棄 )

ロジット プロビットモデルの MCMC 推定プログラム ( 兵藤 2009) library(mcmcpack) ### データファイルの読み込み Dat< read.csv("h:/2014/data.csv",header=true) hh< nrow(dat) ## データ数 :Data の行数を数える rtime < Dat[, 6]/100; btime < Dat[, 9]/100; ctime < Dat[,12]/100 rcost < Dat[, 7]/100; bcost < Dat[,10]/100; ccost < Dat[,13]/100 raged < matrix(0,nrow=hh,ncol=1); baged < 1*(Dat[,3]>=6); caged < raged rcar < matrix(0,nrow=hh,ncol=1); bcar < rcar; ccar < 1*(Dat[,4]>=2) ## 選択結果 ch < matrix(0,nrow=hh,ncol=3) colnames(ch) < c("1", "2", "3") for (i in 1:hh){ if (Dat[i, 5]==0) ch[i,1] < 999 if (Dat[i, 2]==1) ch[i,1] < 1 if (Dat[i, 8]==0) ch[i,2] < 999 if (Dat[i, 2]==2) ch[i,2] < 1 if (Dat[i,11]==0) ch[i,3] < 999 if (Dat[i, 2]==3) ch[i,3] < 1 } post < MCMCmnl(ch ~ choicevar(rtime, "time", "1") + choicevar(btime, "time", "2") + choicevar(ctime, "time", "3") + choicevar(rcost, "cost", "1") + choicevar(bcost, "cost", "2") + choicevar(ccost, "cost", "3") + choicevar(raged, "aged", "1") + choicevar(baged, "aged", "2") + choicevar(caged, "aged", "3") + choicevar(rcar, "car", "1") + choicevar(bcar, "car", "2") + choicevar(ccar, "car", "3"), baseline="3", burnin=1000, mcmc.method="rwm", b0=0, B0=0, seed=2348, verbose=1000, mcmc=10000, B=0.001) plot(post) summary(post) ロジット library(bayesm) ### データファイルの読み込み Dat< read.csv("h:/2014/data.csv",header=true) hh< nrow(dat) ## データ数 :Data の行数を数える alt < 3 rtime < Dat[, 6]/100; btime < Dat[, 9]/100; ctime < Dat[,12]/100 rcost < Dat[, 7]/100; bcost < Dat[,10]/100; ccost < Dat[,13]/100 raged < matrix(0,nrow=hh,ncol=1); baged < 1*(Dat[,3]>=6); caged < raged rcar < matrix(0,nrow=hh,ncol=1); bcar < rcar; ccar < 1*(Dat[,4]>=2) cres < Dat[,2] na < 4 Xa < cbind(rtime,btime,ctime,rcost,bcost,ccost,raged,baged,caged,rcar,bcar,ccar) nd < 0 X < createx(alt, na=na, nd=nd, Xa=Xa, Xd=NULL, DIFF=TRUE, base=3) dat1 < list(p=alt, y=cres, X=X) mcmc1 < list(r=5000,k=1) res1 < rmnpgibbs(data=dat1, Mcmc=mcmc1) plot(res1$betadraw) plot(res1$sigmadraw) プロビット

推定例 (MH アルゴリズムでロジット ) 兵藤 2009 を用いた

ベイズ推定のメリットデメリット メリット 解析的にはパラメータが求まらない複雑なモデルもパラメータ分布が求まる 例 : パネルデータの個人モデルを考慮した階層モデル パラメータの分布がわかる 多峰性の分布になったならばモデル構造を考え直す デメリット 時間がかかる MNL の推定 MCMC:15 秒最尤推定 :7 秒 パラメータの分布が収束しない場合もある

参考文献等 入門ベイズ統計学松原望 ベイズモデリングによるマーケティング分析照井伸彦 R による離散選択モデルの推定方法メモ兵藤哲朗