ÄÖÒÒ ÊÓÓØ ÖÑÛÓÖ Ó ÔØÚ ÓÒØÖÓÐ Ù Ò ÊÒÓÖÑÒØ ÄÖÒÒ ËÝ ØÑ ÀÑ ÃÑÙÖ ËÒÓÙ ÃÓÝ ÁÒØÖ ÔÐÒÖÝ ÖÙØ ËÓÓÐ Ó ËÒ Ò Òº ÌÓÝÓ ÁÒ ØØÙØ Ó ÌÒÓÐÓÝ ØÖØ ÁÒ Ø ÔÔÖ Û ÒØÖÓÙ ÒÛ ÔØÚ ÓÒØÖÓÐ ÖÑÛÓÖ ÓÑÔÓ Ó ÖÒÓÖÑÒØ ÐÖÒÒ Êĵº Ì ÊÄ ÓÒ¹ÐÒ ÐÖÒÒ Ó Ò ÒÔÙعÓÙØÔÙØ ÑÔÔÒ ØÖÓÙ ÔÖÓ Ó ØÖÐ Ò ÖÖÓÖ Ò ØÓ ÑÔÖÓÚ Ø ÚÓÖº Ï ÓÛ Ø ØÙÖ Ó Ø ÖÑÛÓÖ ØÖÓÙ ÑÓÒ ØÖØÓÒ Ó ÐÖÒÒ ÓÒØÖÓÐ ÖÙÐ Ò ÖÐ ÖÓÓØ º ½ ½º½ ÙÔÖÚ ÐÖÒÒµ º½ ½º Ø Ø Ø ¾º Ø ½ Ö Ø ÜØ Ø Ö Ø ÙÖ ½ ½º¾ º Ø Ø ½ ½ ½º ÖØÙÖÒ ÔÓÐÝ ½º º½
ÙÖ ¾ Ç̽ Ç̾ ½º º¾ ½º º ¾ º¾ Ç̽ Ç̾ ½µ ¾µ µ µ ¼º ¼º µ ½ Ç̽ Ç̾ Ç̽ Ç̾ º¾ Ç̽ Ç̾ Ç̽ Ç̽ Ç̾ º¾ ¾ ¼½¾¼ º½¼ Ç̽ º½¼ Ç̽ е оµ нµ
Ð µ ØÖÓص Ç̽ Ç̾ º½¼ Ø ¹ ØÓÖ ÖÒÓÖÑÒØ ÓÖ Ø Ö Ø Î Ø ½ µ Î Ø µ Ø ¹ ÖØ Î µ ÖØ ÊÛÖ ØÓÒ Ø Ì¹ÖÖÓÖ ÅÖÓÚ ÓÒ ÔÖÓ Åȵ º½ ÅÈ Ë Ê Ø Ø ¾Ë Ø ¾ Ö Ø ¾Ê ÅÈ Ø Ø Ø ½ Ì Ø Ø ½ µ Ö Ø Ö Ø µ Ì Ø Ø ½ µ Ö Ø µ ÔÓÐݵ Î Ø ½ ¼ Ö Ø ½µ ¼ ½ Î Ø Ø ÅÈ Î µ ½ Ø Ö Ø ¼ ؼ ¾µ ÅÈ ¾ ÙÖ ØÓÖ¹ÖØ ÖØ ØÓÖ Ì¹ÖÖÓÖ ØÓÖ Ì¹ÖÖÓÖ ½º Ø ØÓÖ Ø ¾º ÖØ Ö Ø Ø ½ ØÓÖ Ì¹ÖÖÓÖ Ì¹ÖÖÓÖµ Ö Ø Î Ø ½µ Πص Î µ ÖØ º ̹ÖÖÓÖ ØÓÖ Ì¹ÖÖÓÖµ ¼ ̹ÖÖÓÖµ ¼ º Ì ÖØ ÚÐÙ Ì ¼µ Πص Πص «Ì¹ÖÖÓÖµ «º ½º ÙÖ ØÓÖ¹ÖØ º½ ØÓÖ¹ÖØ ØÓÖ¹ÖØ ½ º µ º ØÓÖ ÖØ ØÓÖ Ø Ø Ö Ø
Ø ½ ÖØ Ì Î Ø µ Ì ÖÖÓÖ Ö Ø Î Ø ½ µ Î Ø µ µ Î Ø µ Î Ø µ «Ì ÖÖÓÖ µ ¼ «½ ¼ ½ ØÓÖ ÖØ Ì ÖÖÓÖ Ì ÖÖÓÖ Ø Ø Ì ÖÖÓÖ Ø Ø probability density 0.4 0.3 0.2 0.1 º ÄÆ ÌÈ ÄÆ È Ç̽ µ Ú µ Ç̾ µ µ ÙÖ 10 Carpet -sigma(s) mu(s) sigma(s) Action a ÙÖ ØÓÖ ½ ÑÙ µ Ñ µ Ì ÖÖÓÖ ÑÙ µ Ñ µ Ñ µ Ì ÖÖÓÖ Averaged Reward (100 steps) 5 0-5 -10 Rubber mat 0 2000 4000 6000 8000 10000 Learning Steps º¾ ØÓÖ¹ÖØ ØÓÖ ØÓÖ¹ÖØ ØÓÖ º ØÓÖ ÑÙ µ Ñ µ Ì ÖÖÓÖ ØÓÖ Ì ÖÖÓÖ Ø Ø ÑÙ µ Ñ µ Ñ µ Ì ÖÖÓÖ ÙÖ Ç̽ ½¼¼¼¼ ¼ Averaged Reward (100 steps) 10 8 6 4 2 0-2 -4 Oct2 normal 0 5000 10000 15000 20000 25000 30000 35000 40000 Learning Steps ÙÖ Ç̾ ¼¼¼¼ ½¼ Ç̽ Ç̾ º Ç̽ ½¼¼
µ µ Ç̽ ¼¼¼ µ ½¼¼¼¼ Ñ» º Ç̾ Ç̾ Ç̽ ÇÌ º ÊÖÒ ½ ÖØÓ ºº ËÙØØÓÒ ÊºËº ² ÒÖ ÓÒ ºÏº ÆÙ¹ ÖÓÒÐ ÔØÚ ÐÑÒØ ØØ Ò ÓÐÚ ÆÙÐØ ÐÖÒÒ ÓÒØÖÓÐ ÔÖÓÐÑ Á ÌÖÒ ØÓÒ ÓÒ ËÝ ØÑ ÅÒ Ò ÝÖÒØ ÚÓк ËÅß½ ÒÓº ÔÔº ß ½ µº ¾ ÎÓк ÆÓº½¼ ÔÔº½ß¾ ½µº ØÓÖ ØÓÖ¹ÖØ ß ÎÐÙ¹ÙÒØÓÒ ÎÓк½ ÆÓº¾ ÔÔº¾ß¾ ¾¼¼¼µº ÎÓк½¾¾¹ ÆÓº ÔÔº ¼ß ¾¼¼¾µº ÙÖ ¾ ÇÌ º½½ ¼ ÔÔº½½¹½ ¾¼¼ µº ËÙØØÓÒ ÊºËº ² ÖØÓ º ÊÒÓÖÑÒØ ÄÖÒÒ Ò ÁÒØÖÓÙØÓÒ ÖÓÖ ÓÓ Ì ÅÁÌ ÈÖ ½µº ËÙØØÓÒ ÊºËº ÅÐÐ ØÖ º ËÒ Ëº ² ÅÒ¹ ÓÙÖ º ÈÓÐÝ ÖÒØ ÅØÓ ÓÖ ÊÒÓÖ¹ ÑÒØ ÄÖÒÒ ÛØ ÙÒØÓÒ ÔÔÖÓÜÑØÓÒ ¹ ÚÒ Ò ÆÙÖÐ ÁÒÓÖÑØÓÒ ÈÖÓ Ò ËÝ ØÑ ½¾ ÆÁÈ˽¾µ ÔÔº ½¼ß½¼ ¾¼¼¼µº ÏÐÐÑ ÊºÂº ËÑÔÐ ËØØ ØÐ ÖÒØ Óй ÐÓÛÒ ÐÓÖØÑ ÓÖ ÓÒÒØÓÒ Ø ÊÒÓÖÑÒØ ÄÖÒÒ ÅÒ ÄÖÒÒ ÔÔº ¾¾ß¾ ½¾µº
Figure 10: カーペット上にて 10000 ステップ 約 80 分 学習後に得た動作の一例 左側 約 10000 ステップ後 80 Figure 11: ヘビ型ロボットが得た動作の一例 左側 側面 分 右側 約 30000 ステップ後 120 分 方向移動動作 右側 旋回動作