信頼度を用いた強化学習アルゴリズム

この研究では強化学習システムのために適応型の動作選択方法を内部の予測、見積りの信頼性の概念に基づいて提案する。 この概念は、内部の精度を見積もっている、信頼度指数(RI)と呼ばれる内部の変数を使用することで実現されている。 時間差の学習システムを値の関数のためにこの指数を定義して、それをボルツマン動作選択規則のtemperature parameterの代わりに用いた。 それに従って、予測の不確実性によって、探索の動きの重さは適応するように変化する。 表と荷重の合計している値の関数を使用した。 temperature parameterを加えた学習係数を調整するのに信頼度がメタ学習の基礎になるということでRIを使用した。 数値実験を提案された方法を調べるために行った。 適応型の学習係数で、大きいRIの減少率を導入したとき、RIベースのQ-学習システムは特徴を示した。 統計的調べたら、アルゴリズムが学習の初期位相で探索するのに多くの時間を費やしたが、学習の中点から学習を加速したことを確認した。 提案された方法がactor-critic modelsと共にうまくいかないのが示された。 提案された方法の限界と関連研究との関係について議論する。

発表文献

電気通信大学 大学院情報システム学研究科 情報メディアシステム学専攻 人間情報学講座 阪口研究室
Copyright(c) 2007 Human Informatics Laboratory. All rights reserved.
WWW admin: