3-3-2-1 動的計画法

動的計画法は、環境のルールがすべて分かっている前提で、最適な行動を計算によって求める方法です。
ここでいう「ルールが分かっている」とは、
・どの行動をすると
・どの状態に
・どれくらいの確率で移るか
が分かっている、ということです。
つまり、マルコフ決定過程の中身が全部見えている世界。
だからこの方法では、「もしこの状態なら、将来の報酬はどれくらいになる？」と、未来をさかのぼるように計算できます。

動的計画法には、主に2つの代表例があります。
価値反復法（Value Iteration）
方策反復法（Policy Iteration）
どちらも、ベルマン方程式という考え方を使って、未来の価値を少しずつ更新しながら、最適方策に近づいていきます。

特徴を挙げると、以下となります。
・モデルあり（遷移確率が既知）
・理論的に最適解に収束する
・状態数が多いと計算が爆発する
つまり、小さくてルールがはっきりした世界では強いけれど、現実の複雑な世界にはそのままでは使いにくいのです。