ここまで、強化学習のアルゴリズムや、それを支える手法、現実への適用技術を見てきました。
この章では、それらが実際にどんなAIとして結実したのかを見ていきます。
ゲームの中で人間を超えたAI、そして私たちが日常的に言葉を交わしているAIの裏側へ——強化学習は、研究室の外の世界に静かに、しかし確実に根を張っています。
RLHF
RLHF(Reinforcement Learning from Human Feedback)とは、人間のフィードバックを報酬として使う強化学習の手法です。ChatGPTやClaudeをはじめとする現代の大規模言語モデルの多くが、この手法を用いて訓練されています。
通常の強化学習では、報酬はスコアや勝敗のような明確な数値で与えられます。しかし「良い文章とは何か」「適切な回答とは何か」は、数値で簡単に定義できません。RLHFはその問題に対して、人間自身に「どちらの回答が良いか」を評価してもらい、その判断を報酬として学習に組み込むというアプローチをとります。
具体的にはこんな流れです。
まずAIが同じ質問に対して、二通りの回答を生成します。
たとえば「落ち込んでいる友人にかける言葉を教えて」という問いに対して、回答Aは事務的で短い返答、回答Bは共感を込めた丁寧な返答だったとします。人間の評価者が「Bの方が良い」と判断すると、その評価が報酬としてAIの学習に反映されます。この比較と評価を膨大な数繰り返すことで、AIは「人間が良いと感じる回答」を少しずつ学んでいきます。
哲学的に見ると、ここには興味深い問いが潜んでいます。「良さ」の基準を人間が与えるということは、AIは人間の価値観を学んでいるということです。しかしその「人間の価値観」は、誰の、どの文化の、どの時代のものなのか——RLHFは強力な手法であると同時に、AIが何を「良い」と学ぶかを人間が決めるという、深い責任を伴う技術でもあります。
AlphaStar
AlphaStarは、2019年にDeepMindが発表した、リアルタイムストラテジーゲーム「StarCraft II(スタークラフト2)」をプレイするAIです。
StarCraft IIは、チェスや囲碁とは次元の違う複雑さを持つゲームです。プレイヤーは同時に数百のユニットを操作し、資源を管理しながら、霧に覆われた広大なマップで相手の動きを読み、長期的な戦略と瞬時の判断を組み合わせなければなりません。
AlphaStarはこのゲームにおいて、世界トッププロ選手に勝利しました。その学習には、模倣学習(プロの試合データから学ぶ)と強化学習(エージェント同士の対戦で学ぶ)が組み合わされ、さらにMARLの枠組みで多様な戦略を持つエージェントたちが互いに競い合いながら成長していきました。
AlphaStarが示したのは、「不完全情報・長期戦略・リアルタイム判断」という、現実の複雑な意思決定に近い環境でも、強化学習が機能するということでした。ゲームの勝利という目標の向こうに、現実世界への応用可能性が見えています。
OpenAI Five
OpenAI Fiveは、2019年にOpenAIが発表した、オンラインゲーム「Dota 2」をプレイするAIです。Dota 2は5対5のチーム戦略ゲームで、一試合が30分から1時間に及ぶこともあります。各プレイヤーが異なる役割を持ち、チームとして連携しながら戦う——個人の技術だけでなく、チームとしての協調が勝敗を分けるゲームです。
OpenAI Fiveは、人間のプロチームとの対戦で勝利を収めました。驚くべきはその学習量で、毎日人間でいう約180年分のゲームプレイを自己対戦によって積み重ねたといわれています。その膨大な経験の中から、チームとして最適な連携パターンを自ら見つけ出したのです。
AlphaStarとOpenAI Fiveを並べてみると、一つのことが見えてきます。
強化学習の応用は、「一人の天才を作る」段階から、「チームとして協調できる知性を作る」段階へと進化しているということです。そしてその方向は、RLHFによって「人間と対話できる知性」へとさらに広がっていきました。
強化学習の応用事例は、AIが個から集団へ、ゲームから言語へと、その活躍の場を着実に広げてきた歴史でもあります。
まとめ
RLHF(Reinforcement Learning from Human Feedback) → 人間のフィードバックを報酬として使う強化学習の手法。ChatGPTやClaudeなど現代の大規模言語モデルの訓練に広く採用されている
AlphaStar → DeepMindが開発したStarCraft IIのAI。不完全情報・長期戦略・リアルタイム判断という複雑な環境で、世界トッププロ選手に勝利した
OpenAI Five → OpenAIが開発したDota 2のAI。5対5のチーム戦で人間のプロチームに勝利し、強化学習によるチームとしての協調を実現した
深層強化学習の歴史を語るとき、DeepMindという研究機関の名前を外すことはできません。
DQNの誕生からAgent57まで、この章で見てきたアルゴリズムの多くがDeepMindから生まれました。そしてその歩みの中に、一つの壮大な物語があります。AlphaGoからAlphaStarへ——人間の知性の牙城を、一つひとつ超えていった挑戦の記録です。
AlphaGo…囲碁という壁
2016年、DeepMindは「AlphaGo」を発表しました。囲碁の世界チャンピオン、イ・セドル九段との対局で4勝1敗という結果を残し、世界に衝撃を与えたのです。
囲碁は長らく「AIには攻略できない最後のゲーム」とされていました。盤面の選択肢が天文学的な数に上り、チェスのように「先を読む」だけでは対応できないからです。AlphaGoは、人間のプロ棋士の棋譜データから学ぶ模倣学習と、自己対戦による強化学習を組み合わせることで、この壁を乗り越えました。
AlphaGo Zero…「人間を模倣しない」という選択
AlphaGoの衝撃から一年後、DeepMindはさらに驚くべき発表をします。AlphaGo Zeroです。
AlphaGo Zeroの最大の特徴は、人間の棋譜データを一切使わないことでした。ルールだけを与えられ、ひたすら自己対戦を繰り返すことで、ゼロから囲碁を学んでいきます。その結果、AlphaGo Zeroは元のAlphaGoに100戦100勝という圧倒的な強さを見せました。
人間の経験を模倣することなく、人間を超えた——この事実は、AIの可能性についての認識を根底から揺さぶるものでした。「人間から学ぶことが、必ずしも最善ではない」という、静かな、しかし深いメッセージを残しました。
AlphaZero…一つの知性が、複数のゲームを学ぶ
2017年、DeepMindはAlphaGo Zeroの仕組みを発展させたAlphaZeroを発表します。AlphaZeroは囲碁だけでなく、チェスと将棋にも対応した汎用的なアルゴリズムです。
それぞれのゲームに特化した専用AIを作るのではなく、一つのアルゴリズムが複数のゲームを自己対戦だけで習得する——この汎用性こそが、AlphaZeroの革新でした。チェスでは数時間の学習で既存の最強AIを超え、将棋でも同様の結果を出しました。「特定の問題を解く知性」から「汎用的に学べる知性」へ、AIの目標が静かに変わり始めた瞬間でもありました。
AlphaStar…現実の複雑さへ
そして2019年、DeepMindの挑戦はゲームの中でも特別に複雑な領域へと踏み込みます。AlphaStar——StarCraft IIへの挑戦です。
チェスや囲碁との決定的な違いは、不完全情報と同時進行にあります。囲碁の盤面は全員に見えていますが、StarCraft IIでは霧に覆われたマップの中で、相手の動きを読みながら、数百のユニットをリアルタイムで操作しなければなりません。一手ずつ交互に指す静的なゲームではなく、時間が絶えず流れる動的な戦場です。
AlphaStarは模倣学習と強化学習、そしてMARLの枠組みを組み合わせ、多様な戦略を持つエージェントたちが互いに競い合いながら成長しました。世界トッププロへの勝利は、「完全情報・静的環境」を超えて、「不完全情報・動的環境」でも深層強化学習が機能することを示した、一つの到達点でした。
AlphaGoからAlphaStarへの道のりを振り返ると、DeepMindの挑戦には一つの一貫したテーマが見えてきます。「より現実に近い複雑さへ」という方向性です。
完全情報から不完全情報へ。静的な環境から動的な環境へ。一人の対戦から複数エージェントの協調へ。そしてRLHFによって、ゲームの外の現実世界、人間との対話へ——。
強化学習の応用の歴史は、AIが「閉じた世界の中の勝者」から、「開かれた世界の中の参加者」へと変わっていく物語でもあります。その物語は、まだ続いています。
next ▶ データ生成とは何か