PowerPoint プレゼンテーション

Similar documents
ベイズ統計入門

PowerPoint プレゼンテーション

生命情報学

Microsoft PowerPoint - 12RL.ppt

様々なミクロ計量モデル†

ଗȨɍɫȮĘർǻ 図 : a)3 次元自由粒子の波数空間におけるエネルギー固有値の分布の様子 b) マクロなサイズの系 L ) における W E) と ΩE) の対応 として与えられる 周期境界条件を満たす波数 kn は kn = πn, L n = 0, ±, ±, 7) となる 長さ L の有限

Microsoft Word - lec_student-chp3_1-representative

Autodesk Inventor Skill Builders Autodesk Inventor 2010 構造解析の精度改良 メッシュリファインメントによる収束計算 予想作業時間:15 分 対象のバージョン:Inventor 2010 もしくはそれ以降のバージョン シミュレーションを設定する際

Probit , Mixed logit

Microsoft PowerPoint SIGAL.ppt

Microsoft PowerPoint - 基礎・経済統計6.ppt

混沌系工学特論 #5

4 段階推定法とは 予測に使うモデルの紹介 4 段階推定法の課題 2

講義「○○○○」

統計的データ解析

Microsoft Word - NumericalComputation.docx

Kumamoto University Center for Multimedia and Information Technologies Lab. 熊本大学アプリケーション実験 ~ 実環境における無線 LAN 受信電波強度を用いた位置推定手法の検討 ~ InKIAI 宮崎県美郷

パソコンシミュレータの現状

Microsoft PowerPoint - ca ppt [互換モード]

カイ二乗フィット検定、パラメータの誤差

スライド 1

Microsoft PowerPoint - H17-5時限(パターン認識).ppt

PowerPoint プレゼンテーション

Microsoft PowerPoint - 測量学.ppt [互換モード]

情報 システム工学概論 コンピュータゲームプレイヤ 鶴岡慶雅 工学部電子情報工学科 情報理工学系研究科電子情報学専攻

画像処理工学

数値計算法

Microsoft PowerPoint - 13approx.pptx

スライド 1

スライド 1

ディジタル信号処理

Microsoft PowerPoint - qcomp.ppt [互換モード]

Microsoft Word - Time Series Basic - Modeling.doc

Information Theory

PowerPoint プレゼンテーション

ファイナンスのための数学基礎 第1回 オリエンテーション、ベクトル

A Constructive Approach to Gene Expression Dynamics

Microsoft PowerPoint - 05.pptx

PowerPoint プレゼンテーション

0 21 カラー反射率 slope aspect 図 2.9: 復元結果例 2.4 画像生成技術としての計算フォトグラフィ 3 次元情報を復元することにより, 画像生成 ( レンダリング ) に応用することが可能である. 近年, コンピュータにより, カメラで直接得られない画像を生成する技術分野が生

Functional Programming

スライド 1

NLMIXED プロシジャを用いた生存時間解析 伊藤要二アストラゼネカ株式会社臨床統計 プログラミング グループグルプ Survival analysis using PROC NLMIXED Yohji Itoh Clinical Statistics & Programming Group, A

SAP11_03

Microsoft Word - 補論3.2

リスク分析・シミュレーション

Microsoft PowerPoint - H21生物計算化学2.ppt

例 e 指数関数的に減衰する信号を h( a < + a a すると, それらのラプラス変換は, H ( ) { e } e インパルス応答が h( a < ( ただし a >, U( ) { } となるシステムにステップ信号 ( y( のラプラス変換 Y () は, Y ( ) H ( ) X (

Microsoft PowerPoint - 14MDL.pptx

ii 3.,. 4. F. (), ,,. 8.,. 1. (75% ) (25% ) =9 7, =9 8 (. ). 1.,, (). 3.,. 1. ( ).,.,.,.,.,. ( ) (1 2 )., ( ), 0. 2., 1., 0,.

アルゴリズムとデータ構造

26号経営技術レポート「相連報の実務」.PDF

memo

ダンゴムシの 交替性転向反応に 関する研究 3A15 今野直輝

Microsoft PowerPoint - IntroAlgDs-05-4.ppt

モデリングとは

<4D F736F F D ED97AA2D8D F8D E646F63>

<4D F736F F F696E74202D208CA48B868FD089EE288FDA82B582A294C5292E B8CDD8AB B83685D>

データ解析

オートマトン 形式言語及び演習 1. 有限オートマトンとは 酒井正彦 形式言語 言語とは : 文字列の集合例 : 偶数個の 1 の後に 0 を持つ列からなる集合 {0, 110, 11110,

PowerPoint プレゼンテーション

スライド 1

発電単価 [JPY/kWh] 差が大きい ピークシフトによる経済的価値が大きい Time 0 時 23 時 30 分 発電単価 [JPY/kWh] 差が小さい ピークシフトしても経済的価値

Microsoft PowerPoint ppt

Microsoft PowerPoint - 03ModelBased.ppt

Microsoft PowerPoint - H22制御工学I-2回.ppt

技術開発懇談会-感性工学.ppt

FEM原理講座 (サンプルテキスト)

2014 BinN 論文セミナーについて

Microsoft PowerPoint - H22制御工学I-10回.ppt

目次 ガウス過程 (Gaussian Process; GP) 序論 GPによる回帰 GPによる識別 GP 状態空間モデル 概括 GP 状態空間モデルによる音楽ムードの推定

電気電子工学CH-2_1017_v2済

森林水文 水資源学 2 2. 水文統計 豪雨があった時, 新聞やテレビのニュースで 50 年に一度の大雨だった などと報告されることがある. 今争点となっている川辺川ダムは,80 年に 1 回の洪水を想定して治水計画が立てられている. 畑地かんがいでは,10 年に 1 回の渇水を対象として計画が立て

コンピュータ工学講義プリント (7 月 17 日 ) 今回の講義では フローチャートについて学ぶ フローチャートとはフローチャートは コンピュータプログラムの処理の流れを視覚的に表し 処理の全体像を把握しやすくするために書く図である 日本語では流れ図という 図 1 は ユーザーに 0 以上の整数 n

ボルツマンマシンの高速化

スライド 1

DVIOUT

Microsoft PowerPoint - 5.ppt [互換モード]

コンテンツセントリックネットワーク技術を用いた ストリームデータ配信システムの設計と実装

構造化プログラミングと データ抽象

Microsoft Word - å“Ÿåłžå¸°173.docx

ii 2. F. ( ), ,,. 5. G., L., D. ( ) ( ), 2005.,. 6.,,. 7.,. 8. ( ), , (20 ). 1. (75% ) (25% ). 60.,. 2. =8 5, =8 4 (. 1.) 1.,,

NLP プログラミング勉強会 6 かな漢字変換 自然言語処理プログラミング勉強会 6 - かな漢字変換 Graham Neubig 奈良先端科学技術大学院大学 (NAIST) 1

観測範囲に制限のあるセンサ情報の外延と統合によるロボットの行動生成法 Motion generation of robot with limited sensing range based on extrapolation and integration of sensor spaces 動に関する


memo

Microsoft PowerPoint - 6.PID制御.pptx

Information Theory

学習指導要領

Microsoft PowerPoint - Inoue-statistics [互換モード]

Microsoft PowerPoint - 10.pptx

Microsoft PowerPoint - 3.ppt [互換モード]

untitled

Microsoft Word doc

フィードバック ~ 様々な電子回路の性質 ~ 実験 (1) 目的実験 (1) では 非反転増幅器の増幅率や位相差が 回路を構成する抵抗値や入力信号の周波数によってどのように変わるのかを調べる 実験方法 図 1 のような自由振動回路を組み オペアンプの + 入力端子を接地したときの出力電圧 が 0 と

ダイポールアンテナ標準:校正の実際と不確かさ

第Ⅱ編/労働移動と地域の発展

Microsoft PowerPoint - 9.pptx

Microsoft PowerPoint - 物情数学C(2012)(フーリエ前半)_up

Microsoft PowerPoint - 9.pptx

Transcription:

ロボットの計画と制御 マルコフ決定過程 確率ロボティクス 14 章 http://www.probabilistic-robotics.org/ 1

14.1 動機付けロボットの行動選択のための確率的なアルゴリズム 目的 予想される不確かさを最小化したい. ロボットの動作につての不確かさ (MDP で考える ) 決定論的な要素 ロボット工学の理論の多くは, 動作の影響は決定論的であるという仮定のもとに成り立っている. しかしこれだけでは説明できない事象が混入するのが通常. 統計的な要素 ロボットや周囲の環境の確率論的な性質から生ずる. ロボットの知覚についての不確かさ (MDP POMDP へ ) 完全可観測な系 vs. 部分観測可能な系 2

14.2 ロボットの行動選択における不確かさ ロボットはどちらの経路を進むのが良いだろうか 2 Goal 1 Start 古典的な制御手法では 1 が選ばれる. 狭い経路を通ると, 途中で壁をこするかもしれない ロボットは壁を検知するためにスピードを落とさなければならないかもしれない 2 を選ぶ方法はどのように構成すればよいだろう? 3

http://www.probabilistic-robotics.org/ Deterministic, fully observable 4

http://www.probabilistic-robotics.org/ Stochastic, Fully Observable 5

http://www.probabilistic-robotics.org/ Stochastic, Partially Observable 6

14.2 行動選択における不確かさ マルコフ決定過程 (MDPs: Markov decision processes) ロボットの動作に関する不確かさのみを考慮する枠組み. 任意の時間において, 環境の状態が完全に計測できることを仮定する. p y x p x k u k 1, x k 1 知覚モデルは決定論的で全単射を仮定 行動モデルは非決定論的. 単一の行動シーケンスを計画するのでは不十分であるので, 複数の行動シーケンスを計画可能でなければならない. ロボットが出あうすべての状態に対して行動選択のための方策を生成する? 制御方策 ユニバーサルプラン ナビゲーション関数 など 7

14.2 行動選択における不確かさ 部分観測マルコフ決定過程 (POMDPs: partially observable Markov decision processes) ロボットモーションにおける不確かさを考慮する枠組み p y x 実用において計測には雑音が混入する 信念空間 ( 情報空間 ) ロボットが環境内で持つ可能性のある信念 すべてから構成される. POMDPs では信念空間において行動を割り当てる. しかし計算複雑性の問題がつきまとう. 信念 : ベイズ統計の用語 ベイズ統計では 確率はあくまでも何らかの主観的な根拠に基づいて計算されるものであり 計算された確率分布を 信念 ある事象に対する確率を 信念の度合い と呼ぶ 8

14.3 価値反復価値反復 : 報酬関数に対する各行動の有効性を再帰的に計算する手法仮定 : 環境の状態が各時刻において完全観測可能 (MDPを考える) 14.3.1 終端状態と報酬 報酬関数の簡単な例 r x, u = 100 1 (u により終端状態に到達する場合 ) ( その他の場合 ) 報酬関数の導入の意義 統一的にコストを評価する 様々な要因のコストのトレードオフを表現するため ゴールへ到達する確率を高めることが 余分なエネルギーや時間に見合うだろうか? など 9

14.3 価値反復 制御方策の表現 π: y 1:k 1, u 1:k 1 u k 制御方策 : 過去の制御入力系列と観測系列のデータを現時刻の制御入力 u k に写像する関数完全観測可能な場合は状態量を知り得るので π: x 1:k u k 期待累積報酬 報酬を得る時刻には遅延が生ずるのが一般的. 将来の報酬の和が最大となるような行動を選択することが目標. R T = E T τ=1 γ τ r k+τ T は計画区間 ロボットが時刻 k から k + T まで累積した報酬 r k+τ γ τ は割引率.γ [0; 1] この値が小さいと, 未来の報酬が指数的に割り引かれる 10

14.3 価値反復 T 期待累積報酬 R T = E γ τ r k+τ T は計画区間 τ=1 T = 1 の場合 グリーディアルゴリズム : すぐ次の報酬を最大化する. 計算は早い. T > 1 の場合 有限区間 : 通常 γ = 1 として報酬を割り引かない. 計算は複雑化する. T = の場合 無限区間 :γ < 1 かつ r < r max で R を最大化する. R r max + γr max + γ 2 r max + γ 3 r max + = r max 1 γ 11

14.3 価値反復 累積報酬と状態との関連付けの表記 複数の制御方策毎の報酬を比較 選択する場合に便利 R T (x k ) = E T τ=1 γ τ r k+τ x k 累積報酬と制御方策との関連付け ( 状態との依存関係を明示すると ) T R π T (x k ) = E γ τ r k+τ u k+τ = π(y 1:k+τ 1, u 1:k+τ 1 ) τ=1 各 π についての R T π (x k ) を比較し, 将来の報酬が多いものを選べる. 12

14.3 価値反復 14.3.2 完全観測可能な場合の最適制御方策の発見 事後確率 p x k y 1:k, u 1:k が期待値 E p x k y 1:k, u 1:k で表現できる応用を想定 ( 運動モデルに誤差や外乱の混入がほとんどないシステム ) π k : x k u k 制御方策 : 状態から最適入力への写像 ( ある状態 x を実行するための最適入力 u を決める関数を π と呼ぼう ) T = 1 の場合 (1 ステップ後の報酬を最大化する方策 π 1 に興味がある場合 ) 1 ステップ後の報酬 r(x k+1, u k+1 ) を最大化する制御方策を選ぶ π k+1 x k+1 = argmax u k+1 r(x k+1, u k+1 ) 報酬 r(x k+1, u k+1 ) は対応する価値関数を持つ V 1 x k+1 = γmax u k+1 r(x k+1, u k+1 ) ( x は固定で u を様々に変更し, 最大の報酬を探す.) (γ で割引された次の最大報酬を与える関数 ) 13

14.3 価値反復 T > 1 の場合 (T ステップ後の報酬を最大化する方策 π T に興味がある場合 ) π k+2 x k+2 = argmax u k+2 r x k+2, u k+2 + V 1 x k+1 p x k+1 u k+2, x k+2 dx k+1 V 2 x k+2 = γmax u k+1 r(x k+1, u k+1 ) 再帰的に繰り返す π k+t x k+t = argmax u k+t r x k+t, u k+t + V T 1 x k+t 1 p x k+t 1 u k+t, x k+t dx k+t 1 V T x k+t = γmax u k+t 1 r(x k+t 1, u k+t 1 ) π k+t x k+t は計画対象区間 T において最適 最適な制御方策を求めるアルゴリズムができそう! 14

14.3 価値反復 Algorithm MDP_discrete_value_iteration () : for i = 1 to N do V x i r min endfor repeat until convergence for i = 1 to N do endfor V x i endrepeat return V γmax u T r x i, u + V x j p x j u, x i j=1 Algorithm policy_mdp (x, V) : π x = argmax u r x, u + N j=1 V x j p x j u, x i

http://www.probabilistic-robotics.org/ Value Iteration for Motion Planning 16

14.4 ロボット制御への応用 価値反復の特徴 ロボットが取りうるすべての状態空間全体 ( たとえば x, y, θ, v, ω ) で定義されるロボットがどこにいようとも行動を選択できる. 大域的な位置推定を行っている最中には実行できない. 実応用に利用するためには 状態空間と制御入力空間を離散化して求める. 関数 V x k はルックアップテーブルで実装する. 次元の呪いがあるので 離散化で分解表現が利用できるのは低次元の状態空間表現に限られる. 高次元の場合には 価値関数を表現するために学習アルゴリズムの導入が一般的. 17

15.1 部分観測マルコフ決定過程 部分観測マルコフ決定過程 (POMDPs: partially observable Markov decision processes) MDPsでは行動の不確かさのみを考慮していた. 計測の不確かさも考慮に入れるにはPOMDPsを利用する. 計測の不確かさと制御の不確かさの両立を考慮する必要がある. 部分 とは, 環境の全状態を直接計測できないことを表す. 状態空間, 行動空間, 観測空間, 計画対象区間 Tがすべて有限であれば, 最適制御方策を発見するアルゴリズムは存在する. しかし, 計算量が大きくなるため, 近似的なアルゴリズムになる. 18

15.1 部分観測マルコフ決定過程 V T x = γmax u r x, u + T j=1 V T 1 x p x u, x dx V 1 x = γmax u x は部分観測可能 r(x, u) x が部分的に観測できない V T b = γmax u r b, u + T j=1 V T 1 b p b u, b db V 1 b = γmax u E x r(x, u) 事後確率分布 ( 信念空間 b) において価値評価を行う T 制御方策の決定 π T b = argmax u r b, u + j=1 V T 1 b p b u, b db

15.1 部分観測マルコフ決定過程 制御方策の決定アルゴリズム POMDP: 有限的な POMDS アルゴリズムよりも正確だが計算量に問題がある. ロボットが明快な信念状態から行動を開始するとき, その後取りうる信念状態の数はごく少数に限られることが多い. 価値関数が適切な信念状態だけではなく全ての信念状態に対して計算されるということは, 価値反復アルゴリズムの欠点. PBVI: ポイントベースド価値反復 典型的な信念状態の組み合わせを考え, 価値関数をその組み合わせ内で最大化するように制限する. 与えられる現状のどの信念状態とも対応しない関連しない拘束を生成しないことで価値計算を効率化する. 20

15.1 部分観測マルコフ決定過程 制御方策の決定アルゴリズム QMDP: MDP と POMDP のハイブリッド手法. 行動を一回行うと, 状態が完全に観測可能になるという仮定のもと, 信念空間における正確な価値関数を得ることができる.MDP と同じ計算複雑性を持つ. 拡張 MDP: AMDP: augmented MDP 信念状態を低次元な十分統計量に落として, その低次元空間で価値反復を行う方法. もっとも基本的な実装では, 最尤な状態とエントロピーで計算された不確かさの度合いを組み合わせた表現を用いる. MDP の計算量よりも効率は良くならないが, 精度は向上する. MC-POMDP: モンテカルロ POMDP POMDP のパーティクルフィルタバージョン. 信念をパーティクルで近似する. 信念を動的に生成することで, 信念の数を比較的少なくできる. 連続量の状態, 行動, 計測に適用可能である. ただし, パーティクルフィルタの一般的な手法と同等の問題や,MC-POMDP 特有の問題が生ずる. 21