強化学習の適用例：ロボットの移動動作獲得

ここで示す例は，強化学習が持つ以下の２つの特徴について示すことを意図している。

強化学習による制御プログラミングの自動化・省力化
ハンドコーディングよりも優れた解の獲得，特に不確実性（摩擦やガタ，振動，誤差など）や計測が困難な未知パラメータが多い場合，人間の常識では対処し切れないことが予想され，強化学習の効果が期待できる．

以下に示すように，異なるメカニズムを持つロボットを同一の学習アルゴリズムによってそれぞれに適した制御規則を獲得させることによって，強化学習の汎用性を示す。

８自由度４脚ロボット (2002.03.07)

強化学習によってまっすぐ前進する制御規則を試行錯誤によって獲得する。

Fig.A,B: 学習対象としたロボット機構のその模式図． Aはボディから２節リンクアームが張り出す構造を持ち，Bはボディにねじりと曲げを行う構造を持つ． AとBはメカニズム的に全く異なるが，完全に同じ学習アルゴリズムを適用可能．

強化学習によって前進する制御規則を試行錯誤によって獲得する。

画像に示すように５つのリンクを環状につないだ構造のロボットで，２箇所の関節のみをモーターで駆動して形を変える。転がって進むような制御規則を強化学習により試行錯誤を通じて獲得する。左右非対称な構造のため，ハンドコーディングによるプログラミングは難しい。
５リンク環状ロボットの詳細な説明ページへ

質問やコメント等はメールにてどうぞ：