3-3-2 代表的な強化学習アルゴリズム

環境のルールがすべて分かっている前提で、理論的に最適な行動を計算していく方法です。▶続きを読む

実際に試した結果（エピソード）を最後まで見届けてから、行動の良し悪しを学んでいく方法です。▶続きを読む

行動の途中途中で評価を更新しながら学習を進める、モンテカルロと動的計画法の中間的なアプローチです。▶続きを読む

価値を経由せず、「どう動くか（方策）」そのものを直接改善していく学習方法です。▶続きを読む

行動役（Actor）と評価役（Critic）が協力しながら、より安定した学習を目指すハイブリッド型の手法です。▶続きを読む

◆DQN

ニューラルネットワークを使って価値関数を近似し、複雑な環境でも学習できるようにした強化学習の発展形です。▶続きを読む