6-4-4 複雑環境における強化学習

一匹のミケが、一つの迷宮を学ぶ——これまでの強化学習は、基本的にそういう構造でした。
しかし現実の世界は、一人の学習者が一つの環境に向き合うほど単純ではありません。複数の意思を持つ存在が同じ空間に共存し、互いの行動が互いに影響を与え合いながら、全体として複雑なダイナミクスを生み出しています。

これは、哲学が長く問い続けてきたテーマでもあります。「個人の合理的な選択が、集団にとって合理的な結果をもたらすとは限らない」——ゲーム理論や社会哲学が繰り返し向き合ってきた問いです。この章では、強化学習がその複雑さにどう挑むかを見ていきましょう。

マルチエージェント強化学習（MARL）

マルチエージェント強化学習（MARL：Multi-Agent Reinforcement Learning）は、複数のエージェントが同じ環境の中で同時に学習する枠組みです。
ここでいうエージェントとは、環境を観察し、自分の方針に従って行動する学習の主体のことです。強化学習においては、ミケのように「動いて、結果を受け取り、学ぶ」存在全般を指します。

MARLでは、それぞれのエージェントが自分の方針に従って行動し、互いの行動が環境に影響を与え合います。
MARLの難しさは、「環境が静止していない」という点にあります。通常の強化学習では、エージェントが学習する間、環境のルールは変わりません。しかしMARLでは、他のエージェントも同時に学習して行動を変えていくため、自分が適応しようとしている環境そのものが絶えず変化し続けます。これを非定常性と呼びます。

MARLには大きく三つの関係性があります。
全員で共通の目標を目指す協調型、互いに競い合う競争型、そして協調と競争が混在する混合型です。
自動運転における複数車両の協調制御、経済市場のシミュレーション、ゲームAIにおける複数キャラクターの戦略立案など、現実の多くの問題がMARLの枠組みで研究されています。

連続値制御

これまで見てきた強化学習の多くは、「右に行く・左に行く・止まる」のような離散的な行動を選ぶ問題を扱っていました。
しかし現実の世界では、そう単純にはいきません。ロボットの関節をどの角度まで曲げるか、車のハンドルをどれだけ切るか——現実の制御は、無数の中間値を持つ連続した値の上に成り立っています。

連続値制御とは、こうした連続的な行動空間における意思決定を強化学習で扱う技術です。
離散的な選択肢であれば「どれを選ぶか」という問いで済みますが、連続値では「どの値を出力するか」という問いになります。選択肢が無限に存在する空間の中から、最適な一点を見つけなければならないのです。

具体的な場面を思い浮かべてみましょう。
自動運転車がカーブを曲がるとき、ハンドルの角度は「右か左か」ではなく、「何度傾けるか」という連続した値です。
ロボットアームが卵をつかむとき、力の加減が強すぎれば割れてしまい、弱すぎれば落としてしまいます。ちょうどよい握力——それは「強い・弱い」の二択ではなく、無数の中間値の中にある一点です。
ドローンが安定して飛行するためには、四つのプロペラそれぞれの回転数を、風の変化に応じてリアルタイムで微調整し続けなければなりません。

実はこれは、人間が日常的に行っていることでもあります。箸で豆をつまむとき、自転車でバランスをとるとき、声のトーンを相手に合わせて調整するとき——私たちは無意識のうちに、連続した値の制御を絶えず行っています。AIが連続値制御を学ぶことは、そうした人間の身体的な知性の一端を再現しようとする試みともいえます。

連続値制御を実現するための代表的なアルゴリズムとして、DDPG・TD3・SACなどが知られています。これらはいずれも、連続した行動空間の中で安定して学習できるよう工夫された手法です。

まとめ

エージェント → 環境を観察し、自分の方針に従って行動する学習の主体。強化学習において「動いて、結果を受け取り、学ぶ」存在全般を指す
マルチエージェント強化学習（MARL） → 複数のエージェントが同じ環境の中で同時に学習する枠組み。互いの行動が影響し合うため、環境が絶えず変化し続けるという難しさを持つ
非定常性 → MARLにおいて、他のエージェントの学習によって環境のダイナミクスが変化し続ける性質。通常の強化学習では前提としている「環境の安定性」が崩れる
連続値制御 → 離散的な選択肢ではなく、連続した値の中から最適な行動を出力する強化学習の技術。ロボット制御や自動運転など、現実の物理的な制御問題に不可欠

「賢く行動すれば、良い結果が生まれる」——私たちはそう信じたい。しかし、ゲーム理論はその素朴な信頼に、静かに疑問を投げかけます。

─囚人のジレンマ─
二人の囚人が、別々の部屋で尋問されています。互いに連絡をとる手段はありません。それぞれに同じ選択肢が与えられています——黙秘するか、裏切るか。
結果はこうなります。

二人とも黙秘すれば → 二人とも軽い刑
一人が裏切り、一人が黙秘すれば → 裏切った方は釈放、黙秘した方は重い刑
二人とも裏切れば → 二人とも中くらいの刑

さて、あなたが囚人だとしたら、どちらを選びますか。
冷静に考えてみましょう。相手が黙秘するなら、自分が裏切れば釈放される。相手が裏切るなら、自分も裏切っておかないと重い刑を受ける。どちらの場合も、個人として合理的な選択は「裏切る」ことになります。
しかし、二人とも同じ合理的な判断をした結果——二人とも「裏切る」を選び、二人とも中くらいの刑という結果に終わります。二人とも黙秘していれば得られたはずの「軽い刑」より、悪い結果です。
個人の合理性が積み重なったとき、集団にとっての最適解は失われていた。これが「囚人のジレンマ」の示す、深いパラドックスです。

マルチエージェント強化学習（MARL）の世界でも、まったく同じことが起きます。
複数のエージェントがそれぞれ自分の報酬を最大化しようと学習すると、全体としては非効率な、あるいは誰にとっても望ましくない状態に陥ることがあります。交差点で全員が我先にと進もうとすれば、誰も動けなくなる渋滞のように。市場で全員が同じタイミングで売り逃げようとすれば、暴落が起きるように。

ゲーム理論はこの状態をナッシュ均衡と呼びます。誰も一人では戦略を変える動機を持てない、しかし全体としては最適ではない——そういう均衡点です。MARLのエージェントたちは、学習を重ねるうちに自然とこのナッシュ均衡に収束していくことがあります。賢くなった結果、集団として賢くない場所に落ち着いてしまうのです。

では、どうすれば個人の合理性と集団の最適解を一致させられるのでしょうか。
ゲーム理論が導き出した一つの答えは、繰り返しゲームという考え方です。一度きりの関係なら裏切る動機が生まれやすくても、長期的に関係が続くとわかっていれば、協調する動機が生まれます。「今裏切れば、次から相手も裏切ってくる」という予測が、協調を支えるのです。
MARLの研究も、同じ問いに向き合っています。エージェントたちが協調行動を自発的に学べるよう、報酬の設計を工夫したり、エージェント同士がコミュニケーションできる仕組みを取り入れたりする研究が進んでいます。
そしてここには、AIを超えた、より大きな問いが潜んでいます。協調とは、設計されるものなのか。それとも、自然に生まれるものなのか。
人間社会における法律・道徳・文化は、長い時間をかけて「裏切りにくい環境」を設計してきた試みともいえます。AIが協調を学ぶプロセスは、人間が社会を作ってきたプロセスと、どこか似ているのかもしれません。

next ▶　強化学習の応用事例

マルチエージェント強化学習（MARL）

連続値制御

まとめ

コラム：個人の合理性は、集団を救わない——ゲーム理論とMARL+