3-3-2 代表的な強化学習アルゴリズム

動的計画法

環境のルールがすべて分かっている前提で、理論的に最適な行動を計算していく方法です。▶続きを読む

モンテカルロ法

実際に試した結果(エピソード)を最後まで見届けてから、行動の良し悪しを学んでいく方法です。▶続きを読む

TD学習

行動の途中途中で評価を更新しながら学習を進める、モンテカルロと動的計画法の中間的なアプローチです。▶続きを読む

方策勾配法

価値を経由せず、「どう動くか(方策)」そのものを直接改善していく学習方法です。▶続きを読む

Actor-Critic

行動役(Actor)と評価役(Critic)が協力しながら、より安定した学習を目指すハイブリッド型の手法です。▶続きを読む

DQN

ニューラルネットワークを使って価値関数を近似し、複雑な環境でも学習できるようにした強化学習の発展形です。▶続きを読む