6-4-1 強化学習アルゴリズムの進化

ある日、ミケというネコが、巨大な迷宮に放り込まれました。
地図はありません。説明書もありません。ただ、出口にたどり着いたとき、チュールがもらえるということだけ知っています。
ミケは最初、でたらめに歩きます。右に行ったら壁。戻る。左に行ったら少し進めました。「左はいいかも」とミケは感じます。何度も何度も迷宮を歩くうちに、ミケは気づいていきます。「ここは左」「この角は右」「この道は遠回りだ」——誰かに教えてもらったわけではありません。やってみて、うまくいったかを繰り返すうちに、自分で学んでいったのです。
これが強化学習の本質です。
そして、このミケの脳の中にディープラーニングが入ったとき——深層強化学習が生まれました。
ここからは、そのミケの脳がどんどん賢くなっていく歴史を、一緒に追っていきましょう。

DQN

DQN（Deep Q-Network）は、深層強化学習の歴史における出発点となったアルゴリズムです。
2013年にDeepMindが発表し、アタリ社のレトロゲームをルール説明なしにプレイさせたところ、多くのゲームで人間のスコアを超えるという驚くべき結果を残しました。
それまでの強化学習は、シンプルな状況にしか対応できませんでした。しかしDQNは、ディープラーニングを組み合わせることで、ゲーム画面のような複雑な視覚情報の中から「次にどう動くべきか」を自分で判断できるようになりました。

ミケにたとえるなら、迷宮の「全体の雰囲気」や「空気感」を肌で感じながら動けるようになった、最初の一歩です。
深層強化学習という分野の扉を開いた、記念碑的なアルゴリズムといえます。

ダブルDQN

DQNは画期的でしたが、一つ厄介な癖を持っていました。
「よさそうな行動」の価値を、実際よりも高く見積もりすぎてしまう傾向——いわば楽観的すぎる判断の問題です。これを「過大評価バイアス」と呼びます。
ダブルDQNは、その癖を修正するために設計されたアルゴリズムです。「次にどの行動がよいかを選ぶ係」と「その行動がどのくらいよいかを評価する係」をあえて分離することで、一方の判断がもう一方によってチェックされる仕組みになっています。

ミケが「この道よさそう！」と直感しても、もう一人の冷静なミケが「本当にそう？」と確認してくれる——そんなイメージです。
小さな工夫ですが、これによって学習の精度は着実に向上しました。

デュエリングネットワーク

デュエリングネットワークは、アルゴリズムそのものではなく、ネットワークの内部構造（アーキテクチャ）に工夫を加えたアプローチです。
このアーキテクチャのポイントは、ネットワークを二つの流れに分けることにあります。一つは「この状況はそもそも有利なのか、不利なのか」を判断する流れ（状態価値）、もう一つは「この状況でどの行動がベストか」を判断する流れ（行動アドバンテージ）です。

この二つを分けて学習させ、最後に統合することで、特に選択肢が多く複雑な場面での判断精度が大きく向上しました。

ミケでいえば、どの道を選ぶかを考える前に、まず「今いる場所が安全かどうか」を感じ取る力を身につけたようなイメージです。状況を把握してから行動を選ぶ、という順番の賢さが生まれました。

Rainbow

RainbowはDQN以降に生まれたさまざまな改良——ダブルDQN、デュエリングネットワーク、そのほかの複数の工夫——を一つのアルゴリズムにまとめて統合したものです。
2017年にDeepMindが発表しました。
名前の通り、複数の色（改良手法）を重ね合わせて、より豊かで強力なモデルを作り上げています。

注目すべきは、それぞれの改良を単独で使うよりも、組み合わせることで性能がさらに向上したという事実です。「いいとこどり」の発想が、実際に機能することを証明した研究でもあります。
改良の積み重ねが、どれだけ大きな力になるか——Rainbowはそのことを教えてくれるアルゴリズムです。

PPO

PPO（Proximal Policy Optimization）は、「学習の安定性」を最優先に設計されたアルゴリズムです。
2017年にOpenAIが発表しました。

強化学習には、一度の学習で方針を大きく変えすぎると、それまで積み上げてきた学習が崩れてしまうという難しさがあります。PPOはその問題に対処するために、一歩ずつ、慎重に、少しずつ方針を更新するという仕組みを持っています。急がず、でも着実に——そのバランス感覚が特徴です。
現在でも実用的なアルゴリズムとして広く使われており、ChatGPTをはじめとする大規模言語モデルの学習プロセス（RLHF：人間のフィードバックを使った強化学習）にも採用されています。
研究の世界だけでなく、私たちが日常的に触れているAIの裏側にも、PPOは静かに息づいています。

A3C

A3C（Asynchronous Advantage Actor-Critic）は、「並列学習」という発想を強化学習に持ち込んだアルゴリズムです。
2016年にDeepMindが発表しました。

それまでの強化学習は、一人のエージェント（ミケ）が一つの環境で順番に経験を積んでいくスタイルでした。A3Cはその発想を根本から変えます。複数のミケがそれぞれ異なる迷宮で同時に経験を積み、その学習結果を一つの脳に集約するのです。
一匹が順番に学ぶより、たくさんのミケが同時に動いたほうが、多様な経験が集まり、学習が格段に速くなります。

「非同期（Asynchronous）」という言葉が示す通り、それぞれが自分のペースで動きながら、全体として賢くなっていく——そんな仕組みです。

APE-X

APE-Xは、A3Cの「並列学習」をさらに大規模に、そして効率的に発展させたアルゴリズムです。
2018年にDeepMindが発表しました。

A3Cでは、経験を集めることと学習することを同じエージェントが担っていました。APE-Xはそこに分業の発想を持ち込みます。多数のエージェントは「経験を集めること」に専念し、実際に学習する脳（Learner）は別に一つだけ用意します。現場で情報を集める担当と、それを分析して判断を下す担当が分かれているイメージです。

この分業によって、より多くの多様な経験を効率よく学習に活かせるようになり、パフォーマンスが大きく向上しました。
規模を大きくすることで、かえってシンプルで強くなる——APE-Xはそんな設計の妙を感じさせるアルゴリズムです。

Agent57

Agent57は、2020年にDeepMindが発表したアルゴリズムで、アタリの全57タイトルすべてにおいて人間の平均スコアを超えた、はじめてのAIです。
それまでのアルゴリズムは、得意なゲームと苦手なゲームにばらつきがありました。すぐに報酬がもらえるゲームは得意でも、なかなか報酬がもらえない難しいゲームになると、うまく学習できないという弱点があったのです。Agent57はその問題を克服するために、短期的な報酬と長期的な報酬の両方をバランスよく扱える仕組みを取り入れました。

ミケが「すぐもらえるチュール」だけでなく、「遠くにある大きなごちそう」を目指して粘り強く動けるようになったイメージです。

どんな種類のゲームにも対応できる汎用性——それがAgent57の最大の達成でした。強化学習アルゴリズムの進化の、一つの到達点といえるでしょう。

まとめ

DQN → ディープラーニングと強化学習を組み合わせた最初のアルゴリズム。
ダブルDQN → DQNが持つ「行動価値の過大評価」という癖を、評価役を分けることで修正したアルゴリズム
デュエリングネットワーク → 「状況の評価」と「行動の選択」をネットワーク内で分けて学習させることで、複雑な場面での判断精度を高めたアーキテクチャ
Rainbow → DQNの複数の改良手法を一つに統合したアルゴリズム
PPO → 方針を少しずつ慎重に更新することで学習を安定させるアルゴリズム
A3C → 複数のエージェントが並列で経験を積み、一つの脳に集約する「並列学習」を実現したアルゴリズム
APE-X → 経験を集める役割と学習する役割を分業し、大規模な並列学習をより効率的に実現したアルゴリズム
Agent57 → 短期・長期の報酬をバランスよく扱う汎用性を持つ

next ▶　強化学習の学習を支える手法