6-4-2 強化学習の学習を支える手法

前の章では、DQNからAgent57まで、強化学習アルゴリズムがどのように進化してきたかを追いました。
しかし、アルゴリズムの進化だけが強化学習を強くしてきたわけではありません。その裏側には、学習そのものをより賢く、より効率的にするための「支える技術」が存在しています。

ミケが迷宮を学習するとき、ただ何度も歩き回るだけでは限界があります。
「もっと広く探索できる工夫」「ご褒美のあげ方の設計」「迷宮の状況を正しく把握する力」——こうした土台があってはじめて、アルゴリズムは本来の力を発揮できるのです。

この章では、強化学習の学習を内側から支える三つの手法を見ていきましょう。

ノイジーネットワーク
報酬成形
状態表現学習
まとめ

ノイジーネットワーク

強化学習において、エージェントが「まだ試したことのない行動」にあえて挑戦することを探索といいます。探索が十分でないと、エージェントは慣れ親しんだ行動ばかりを繰り返し、より良い方法を見つけられないまま学習が止まってしまいます。

従来は、行動をランダムに選ぶ確率を外から調整することで探索を促していました。
しかしノイジーネットワークは、その発想を根本から変えます。ネットワークの重みパラメータそのものに、意図的なランダムなゆらぎ（ノイズ）を加えることで、探索を自然に、そして自動的に行えるようにしたのです。

ミケが迷宮を歩くとき、いつもと少し違う気まぐれな一歩を踏み出すことで、思いがけない近道を発見することがあります。
ノイジーネットワークは、その「気まぐれ」をネットワークの内側に組み込んだ仕組みといえます。外から強制するのではなく、内側から自然に生まれる探索——それがこの手法の本質です。

報酬成形

強化学習において、エージェントが学習するための唯一の手がかりは報酬です。しかし現実の問題では、報酬がなかなかもらえない場面が多くあります。
たとえば囲碁では、勝敗がわかるのはゲームが終わったときだけです。それまでの何百手もの行動が、よかったのかどうか、すぐにはわかりません。

報酬成形（Reward Shaping）とは、この問題に対処するために、人間が学習の途中に小さな報酬のヒントを設計して与える手法です。ゴールまでの道のりを細かく区切り、「この方向に進めた」「この行動は正しかった」という中間的なフィードバックを加えることで、エージェントが迷子になりにくくなります。

ミケにたとえるなら、出口でだけチュールをあげるのではなく、「正しい方向に曲がれたとき」にも小さなおやつをあげるイメージです。
ただし、報酬の設計を誤ると、エージェントがその中間報酬だけを稼ごうとして、本来のゴールを目指さなくなることもあります。報酬成形は強力な手法ですが、設計者の意図と知恵が問われる、繊細な技術でもあります。

状態表現学習

強化学習のエージェントが正しく行動するためには、まず「今自分がどういう状況にいるか」を正確に把握できなければなりません。この「状況の把握」に使われるのが状態表現です。

状態表現学習とは、複雑な入力情報（画像・センサーデータなど）から、学習に役立つ本質的な特徴だけを抽出して、コンパクトな形で表現することを自動的に学ぶ手法です。

たとえばゲーム画面のすべてのピクセルをそのまま扱うのではなく、「敵の位置」「自分の体力」など、意思決定に本当に必要な情報だけを取り出して使えるようにします。

ミケが迷宮を歩くとき、壁の色や床のテクスチャより、「曲がり角がどこにあるか」「出口がどの方向か」を感じ取る力のほうがずっと重要です。
状態表現学習は、そのような「何が大事かを見抜く目」をAIが自分で育てる仕組みといえます。良い状態表現が得られると、その後の強化学習の効率と精度が大きく向上します。

まとめ

ノイジーネットワーク → ネットワークの重みにランダムなゆらぎを加えることで、探索を自動的・自然に行えるようにした手法
報酬成形 → 学習の途中に人間が小さな中間報酬を設計して与えることで、エージェントが正しい方向に学習しやすくする手法
状態表現学習 → 複雑な入力情報から学習に必要な本質的な特徴だけを自動的に抽出・表現することを学ぶ手法

next ▶　強化学習を実世界で使うための技術