動的計画法は、世界のルールをすべて知ったうえで未来を計算していました。
でも現実の多くの場面では、状態遷移の確率も、報酬の仕組みも、最初から分からない。
そこで登場するのが、モンテカルロ法です。
モンテカルロ法は、
・実際にやってみて
・最後までプレイして
・その結果から学ぶ
という、とても素直な方法です。
モンテカルロ法のいちばん大きな特徴は、エピソードが終わってから学習する、という点。
ゲームなら、スタートから、ゲームオーバー or クリアまで、全部終わってから、「あの場面はよかった」「あそこは失敗だった」と振り返ります。
途中では評価しません。
最後の結果を見て、そこに至るまでの行動すべてに、まとめて点数をつけます。
また、モンテカルロ法は、遷移確率を知らず、環境モデルを持ちません。
ただ経験だけを集めて、価値関数や方策を更新していきます。
特徴をまとめましょう。
・モデルなし
・実体験ベース
・エピソードが必要
・途中状態の評価ができない
・学習が遅くなりやすい