6-5-3 拡散モデルとNeRF Stable Diffusionのしくみ

GANが「二つのネットワークの競争」から画像を生み出したのに対して、まったく異なる発想から生まれた技術があります。拡散モデル（Diffusion Model）と NeRF です。どちらもGANの次世代を担う技術として注目を集めており、私たちが日常的に触れている画像生成AIの多くが、すでにこの技術の上に成り立っています。

拡散モデル（Diffusion Model）

拡散モデルのアイデアの出発点は、少し意外なところにあります。
「画像を壊すことを学べば、画像を作ることも学べる」という発想です。

具体的にはこうです。
まず、一枚の美しい風景写真に、少しずつノイズ（ざらつき・乱れ）を加えていきます。最初はほんの少し霞がかかった程度。それを繰り返すうちに、だんだんと砂嵐のような画像になっていき、最終的には元の写真の面影がまったくない、ランダムなノイズだけになります。これが拡散（forward process）です。

拡散モデルはこの「壊れていく過程」を大量の画像で学習します。
そして逆に、「ノイズだらけの画像から、少しずつノイズを取り除いて元の画像を復元する」という逆拡散（reverse process）も同時に学びます。砂嵐の中から、少しずつ絵が浮かび上がってくるイメージです。

この「復元する力」を身につけたあと、完全なランダムノイズを出発点として逆拡散を行うと——何もないところから、新しい画像が生成されます。
しかしここで一つの疑問が生まれます。「夕暮れの海辺を描いて」という言葉を、AIはどうやって理解するのか？ノイズから画像を復元する力は身につきました。でも、言葉と画像はまったく異なる種類の情報です。その橋渡しをするのが、CLIPという技術です。

CLIP（Contrastive Language-Image Pre-training）は、OpenAIが開発した、テキストと画像を結びつけるモデルです。
仕組みはこうです。「夕暮れの海辺」という文章と、実際の夕暮れの海辺の写真を、大量にセットで学習します。「犬が走っている」という文章と犬が走っている写真、「雨の日の街並み」という文章と雨の街の写真——このような「言葉と画像のペア」を膨大に学ぶことで、CLIPは言葉の意味と画像の視覚的な特徴を、同じ空間の中で理解できるようになります。▶マルチモーダルにおけるCLIP

ミケにたとえるなら、「チュール」という言葉を聞いただけで、あの銀色のパッケージと独特の香りと味を思い浮かべられるようになる——言葉と感覚的な経験が、頭の中でつながっている状態です。

CLIPはAIにとって、そのような「言葉と視覚をつなぐ感覚」を与える技術といえます。
Stable Diffusion は、この拡散モデルとCLIPを組み合わせた代表的な画像生成AIです。
CLIPが「夕暮れの海辺」という言葉を視覚的な特徴に変換し、拡散モデルがその特徴を手がかりにノイズの中から画像を浮かび上がらせる——二つの技術が役割分担することで、テキストから高品質な画像を生成できるようになっています。
MidjourneyやAdobe Fireflyなども同様の技術を採用しており、現在の画像生成AIの主流はGANから拡散モデルへと移行しています。

NeRF（ニューラル放射輝度場）

NeRF（Neural Radiance Field）は、拡散モデルとはまた異なる、独自の発想から生まれた技術です。一言でいえば、「複数の角度から撮った写真をもとに、撮影していない角度からの見え方を生成する」技術です。

たとえば、一つの彫刻を正面・横・斜め上など、様々な角度から撮影した写真が10枚あるとします。
NeRFはその10枚を学習することで、「真後ろから見たらどう見えるか」「真上から見たらどう見えるか」という、実際には撮影していない視点の画像を生成できるようになります。

これはどういう仕組みでしょうか。
NeRFは空間の中の「どの位置に、どのくらいの密度で、どんな色の光があるか」を学習します。彫刻の表面の質感、光の反射の仕方、影の落ち方——これらを3次元空間の情報として丸ごと学ぶことで、どの角度からでも「もしこの位置から見たら」という画像を生成できるようになるのです。

私たち人間は、物体を一度見ると、見ていない角度からの見え方をある程度想像できます。
りんごを正面から見れば、裏側にもへたがあるだろうと想像する——NeRFはその「空間的な想像力」に近い能力をAIに与えようとする技術といえます。
映画のVFX、建築や文化財のデジタル保存、自動運転のシミュレーションなど、3D空間の再現が必要な幅広い分野で活用が期待されています。

まとめ

拡散モデル（Diffusion Model） → 画像にノイズを少しずつ加えて壊す過程と、ノイズを取り除いて復元する過程を学習することで、新しい画像を生成する手法
CLIP（Contrastive Language-Image Pre-training） → テキストと画像を結びつけるモデル。言葉の意味と画像の視覚的な特徴を同じ空間の中で理解することで、テキスト指示を画像生成に活かせるようにする
Stable Diffusion → 拡散モデルとCLIPを組み合わせた代表的な画像生成AI。テキスト指示から高品質な画像を生成できる
NeRF（ニューラル放射輝度場） → 複数角度から撮影した2D画像をもとに、撮影していない視点からの3D画像を生成する技術。空間の光・色・密度の情報を丸ごと学習する

next ▶　文章生成・音声生成　言葉と声を作るAI