3-3-2-4 方策勾配法

これまでの強化学習では、
・状態価値 V
・行動価値 Q
といった価値関数を通して、「どの行動が良さそうか」を間接的に学んできました。
でも、方策勾配法は、発想が違います。
方策勾配法は、価値を経由せず、方策（どう動くか）そのものを直接改善する学習方法です。
つまり、「この状況では、右に行く確率を上げよう」「ここでは、攻める選択を強めよう」というように、行動の確率を、報酬に向かって少しずつ動かします。

方策勾配法は、「行動のクセ」を直接書き換えるAIとでも言いましょうか。
ここでいう「勾配」は、「どっち方向に動かせば、報酬が増えそうか」という傾き。
その傾きに沿って、方策を少しずつ更新していきます。

方策勾配法の特徴を挙げてみましょう。
・方策を直接最適化できる
・確率的な行動を自然に扱える
・連続行動にも強い
・学習が不安定になりやすい
・分散が大きくなりがち

REINFORCE

REINFORCEは、方策勾配法の中でいちばん基本的なアルゴリズムです。
考え方はとてもシンプル。
実際に行動して、エピソードを最後まで走り切って、得られた報酬をもとに「うまくいった行動の確率」を上げます。
具体的には、
・大きな報酬につながった行動 → 起こりやすくする
・報酬が小さかった行動 → 起こりにくくする
という更新を、確率的に行います。

価値関数は使わず、
行動 × 報酬
だけで学習する、とてもピュアな方策勾配です。

REINFORCEの特徴を挙げてみましょう。
・最も基本的な方策勾配法
・エピソード完結型
・良かった行動の確率を上げる