ÙÖ ¾ ÇÌ½ ÇÌ¾ ½º º¾ ½º º ¾ º¾ ÇÌ½ ÇÌ¾ ½µ ¾µ µ µ ¼º ¼º µ ½ ÇÌ½ ÇÌ¾ ÇÌ½ ÇÌ¾ º¾ ÇÌ½ ÇÌ¾ ÇÌ½ ÇÌ½ ÇÌ¾ º¾ ¾ ¼½¾¼ º½¼ ÇÌ½ º½¼ ÇÌ½ Ðµ Ð¾µ Ð½µ

ÄÖÒÒ ÊÓÓØ ÖÑÛÓÖ Ó ÔØÚ ÓÒØÖÓÐ Ù Ò ÊÒÓÖÑÒØ ÄÖÒÒ ËÝ ØÑ ÀÑ ÃÑÙÖ ËÒÓÙ ÃÓÝ ÁÒØÖ ÔÐÒÖÝ ÖÙØ ËÓÓÐ Ó ËÒ Ò Òº ÌÓÝÓ ÁÒ ØØÙØ Ó ÌÒÓÐÓÝ ØÖØ ÁÒ Ø ÔÔÖ Û ÒØÖÓÙ ÒÛ ÔØÚ ÓÒØÖÓÐ ÖÑÛÓÖ ÓÑÔÓ Ó ÖÒÓÖÑÒØ ÐÖÒÒ ÊÄµº Ì ÊÄ ÓÒ¹ÐÒ ÐÖÒÒ Ó Ò ÒÔÙØ¹ÓÙØÔÙØ ÑÔÔÒ ØÖÓÙ ÔÖÓ Ó ØÖÐ Ò ÖÖÓÖ Ò ØÓ ÑÔÖÓÚ Ø ÚÓÖº Ï ÓÛ Ø ØÙÖ Ó Ø ÖÑÛÓÖ ØÖÓÙ ÑÓÒ ØÖØÓÒ Ó ÐÖÒÒ ÓÒØÖÓÐ ÖÙÐ Ò ÖÐ ÖÓÓØ º ½ ½º½ ÙÔÖÚ ÐÖÒÒµ º½ ½º Ø Ø Ø ¾º Ø ½ Ö Ø ÜØ Ø Ö Ø ÙÖ ½ ½º¾ º Ø Ø ½ ½ ½º ÖØÙÖÒ ÔÓÐÝ ½º º½

Ð µ ØÖÓØµ ÇÌ½ ÇÌ¾ º½¼ Ø ¹ ØÓÖ ÖÒÓÖÑÒØ ÓÖ Ø Ö Ø Î Ø ½ µ Î Ø µ Ø ¹ ÖØ Î µ ÖØ ÊÛÖ ØÓÒ Ø Ì¹ÖÖÓÖ ÅÖÓÚ ÓÒ ÔÖÓ ÅÈµ º½ ÅÈ Ë Ê Ø Ø ¾Ë Ø ¾ Ö Ø ¾Ê ÅÈ Ø Ø Ø ½ Ì Ø Ø ½ µ Ö Ø Ö Ø µ Ì Ø Ø ½ µ Ö Ø µ ÔÓÐÝµ Î Ø ½ ¼ Ö Ø ½µ ¼ ½ Î Ø Ø ÅÈ Î µ ½ Ø Ö Ø ¼ Ø¼ ¾µ ÅÈ ¾ ÙÖ ØÓÖ¹ÖØ ÖØ ØÓÖ Ì¹ÖÖÓÖ ØÓÖ Ì¹ÖÖÓÖ ½º Ø ØÓÖ Ø ¾º ÖØ Ö Ø Ø ½ ØÓÖ Ì¹ÖÖÓÖ Ì¹ÖÖÓÖµ Ö Ø Î Ø ½µ Î Øµ Î µ ÖØ º Ì¹ÖÖÓÖ ØÓÖ Ì¹ÖÖÓÖµ ¼ Ì¹ÖÖÓÖµ ¼ º Ì ÖØ ÚÐÙ Ì ¼µ Î Øµ Î Øµ «Ì¹ÖÖÓÖµ «º ½º ÙÖ ØÓÖ¹ÖØ º½ ØÓÖ¹ÖØ ØÓÖ¹ÖØ ½ º µ º ØÓÖ ÖØ ØÓÖ Ø Ø Ö Ø

Ø ½ ÖØ Ì Î Ø µ Ì ÖÖÓÖ Ö Ø Î Ø ½ µ Î Ø µ µ Î Ø µ Î Ø µ «Ì ÖÖÓÖ µ ¼ «½ ¼ ½ ØÓÖ ÖØ Ì ÖÖÓÖ Ì ÖÖÓÖ Ø Ø Ì ÖÖÓÖ Ø Ø probability density 0.4 0.3 0.2 0.1 º ÄÆ ÌÈ ÄÆ È ÇÌ½ µ Ú µ ÇÌ¾ µ µ ÙÖ 10 Carpet -sigma(s) mu(s) sigma(s) Action a ÙÖ ØÓÖ ½ ÑÙ µ Ñ µ Ì ÖÖÓÖ ÑÙ µ Ñ µ Ñ µ Ì ÖÖÓÖ Averaged Reward (100 steps) 5 0-5 -10 Rubber mat 0 2000 4000 6000 8000 10000 Learning Steps º¾ ØÓÖ¹ÖØ ØÓÖ ØÓÖ¹ÖØ ØÓÖ º ØÓÖ ÑÙ µ Ñ µ Ì ÖÖÓÖ ØÓÖ Ì ÖÖÓÖ Ø Ø ÑÙ µ Ñ µ Ñ µ Ì ÖÖÓÖ ÙÖ ÇÌ½ ½¼¼¼¼ ¼ Averaged Reward (100 steps) 10 8 6 4 2 0-2 -4 Oct2 normal 0 5000 10000 15000 20000 25000 30000 35000 40000 Learning Steps ÙÖ ÇÌ¾ ¼¼¼¼ ½¼ ÇÌ½ ÇÌ¾ º ÇÌ½ ½¼¼

µ µ ÇÌ½ ¼¼¼ µ ½¼¼¼¼ Ñ» º ÇÌ¾ ÇÌ¾ ÇÌ½ ÇÌ º ÊÖÒ ½ ÖØÓ ºº ËÙØØÓÒ ÊºËº ² ÒÖ ÓÒ ºÏº ÆÙ¹ ÖÓÒÐ ÔØÚ ÐÑÒØ ØØ Ò ÓÐÚ ÆÙÐØ ÐÖÒÒ ÓÒØÖÓÐ ÔÖÓÐÑ Á ÌÖÒ ØÓÒ ÓÒ ËÝ ØÑ ÅÒ Ò ÝÖÒØ ÚÓÐº ËÅß½ ÒÓº ÔÔº ß ½ µº ¾ ÎÓÐº ÆÓº½¼ ÔÔº½ß¾ ½µº ØÓÖ ØÓÖ¹ÖØ ß ÎÐÙ¹ÙÒØÓÒ ÎÓÐº½ ÆÓº¾ ÔÔº¾ß¾ ¾¼¼¼µº ÎÓÐº½¾¾¹ ÆÓº ÔÔº ¼ß ¾¼¼¾µº ÙÖ ¾ ÇÌ º½½ ¼ ÔÔº½½¹½ ¾¼¼ µº ËÙØØÓÒ ÊºËº ² ÖØÓ º ÊÒÓÖÑÒØ ÄÖÒÒ Ò ÁÒØÖÓÙØÓÒ ÖÓÖ ÓÓ Ì ÅÁÌ ÈÖ ½µº ËÙØØÓÒ ÊºËº ÅÐÐ ØÖ º ËÒ Ëº ² ÅÒ¹ ÓÙÖ º ÈÓÐÝ ÖÒØ ÅØÓ ÓÖ ÊÒÓÖ¹ ÑÒØ ÄÖÒÒ ÛØ ÙÒØÓÒ ÔÔÖÓÜÑØÓÒ ¹ ÚÒ Ò ÆÙÖÐ ÁÒÓÖÑØÓÒ ÈÖÓ Ò ËÝ ØÑ ½¾ ÆÁÈË½¾µ ÔÔº ½¼ß½¼ ¾¼¼¼µº ÏÐÐÑ ÊºÂº ËÑÔÐ ËØØ ØÐ ÖÒØ ÓÐ¹ ÐÓÛÒ ÐÓÖØÑ ÓÖ ÓÒÒØÓÒ Ø ÊÒÓÖÑÒØ ÄÖÒÒ ÅÒ ÄÖÒÒ ÔÔº ¾¾ß¾ ½¾µº

Figure 10: カーペット上にて 10000 ステップ約 80 分学習後に得た動作の一例左側約 10000 ステップ後 80 Figure 11: ヘビ型ロボットが得た動作の一例左側側面分右側約 30000 ステップ後 120 分方向移動動作右側旋回動作