3-3-2 代表的な強化学習アルゴリズム 2026/2/222026/2/24 ◆動的計画法 環境のルールがすべて分かっている前提で、理論的に最適な行動を計算していく方法です。▶続きを読む ◆モンテカルロ法 実際に試した結果(エピソード)を最後まで見届けてから、行動の良し悪しを学んでいく方法です。▶続きを読む ◆TD学習 行動の途中途中で評価を更新しながら学習を進める、モンテカルロと動的計画法の中間的なアプローチです。▶続きを読む ◆方策勾配法 価値を経由せず、「どう動くか(方策)」そのものを直接改善していく学習方法です。▶続きを読む ◆Actor-Critic 行動役(Actor)と評価役(Critic)が協力しながら、より安定した学習を目指すハイブリッド型の手法です。▶続きを読む ◆DQN ニューラルネットワークを使って価値関数を近似し、複雑な環境でも学習できるようにした強化学習の発展形です。▶続きを読む