6-5-1 データ生成とは何か

これまでの章で見てきたAIは、主に「読み取る」存在でした。画像を見て何が写っているかを答え、声を聞いて言葉に変換し、文章を読んで意味を理解する——入力された情報を分析し、認識し、分類することが、AIの主な役割でした。

しかしここから先は、少し違います。AIが「作り出す」側に回るのです。
存在しない人物の顔を描き、書いていない文章を紡ぎ、録音していない声を合成し、撮影していない角度の風景を生み出す——データ生成とは、AIが新しいデータそのものを創り出すタスクのことです。
この能力を持つAIを、私たちは生成AIと呼んでいます。

認識系AIと生成AIは、何が違うのか

認識系AIと生成AIの違いを一言で表すなら、「入力と出力の方向」が違います。
認識系AIは、複雑な入力(画像・音声・文章)をシンプルな出力(ラベル・数値・カテゴリ)に変換します。
「この画像は猫である」「この声はAさんのものだ」——豊かな情報を、意味のある答えへと絞り込む方向です。

生成AIはその逆です。シンプルな入力(テキストの指示・ランダムなノイズ)から、複雑で豊かな出力(画像・文章・音声)を作り出します。
「猫の絵を描いて」という一言から、精細な画像が生まれる方向です。

この「逆方向」への転換が、AIの可能性を大きく広げました。

データ生成タスクの種類

生成AIが作り出せるデータは、大きく四つに分けられます。それぞれ、私たちの日常のどこかにすでに顔を出しています。

画像生成は、テキストの指示や別の画像をもとに、新しい画像を作り出す技術です。
「夕暮れの富士山をジブリ風に描いて」という一文から、精細な絵が生まれる——Stable DiffusionやMidjourneyが代表的な例で、イラストレーターやデザイナーの仕事の風景を大きく変えつつあります。

文章生成は、与えられた文脈を読み取り、続きとなる自然な文章を生み出す技術です。ChatGPTやClaudeのような大規模言語モデルがその中心にあります。
メールの下書き、レポートの要約、アイデアの壁打ち相手——気づけば私たちの日常のあちこちに入り込んでいる、現在最も身近な生成AIの応用です。

音声生成は、テキストから人間の声に近い音声を合成する技術です。カーナビのアナウンス、スマートスピーカーの返答、動画のナレーション——少し耳を澄ませば、私たちはすでに一日に何度も「生成された声」を聞いています。
近年は感情や抑揚まで再現できる精度に達しており、人間の声との区別がつきにくくなってきています。

3D・空間生成は、2D画像や少量のデータから3次元の空間や物体を生成する技術です。
数枚の写真から、実際には撮影していない角度の風景を作り出す——映画のVFXや建築・文化財のデジタル保存など、「現実を再現・拡張する」用途で注目されています。見ていない場所を想像する、という人間の空間認識に近い能力をAIが持ちはじめています。

「創造」とは何か

哲学者たちは長らく、「創造とは何か」を問い続けてきました。無から何かを生み出すことは、かつて神や芸術家だけに許された行為だと考えられていた時代もあります。

しかし生成AIは、その問いを私たちの日常の中に引き下ろしました。
AIは膨大なデータからパターンを学び、そのパターンをもとに新しいデータを生成します。
それは「創造」なのか、それとも「高度な模倣」なのか。AIが描いた絵に、人間が感動するとき、そこに「創造性」はあるといえるのか——。

その答えはまだ誰も持っていません。
ただ確かなのは、生成AIの登場によって「創造すること」の意味そのものが、問い直されはじめているということです。その問いを胸に置きながら、次のページからは各技術の仕組みを一つずつ見ていきましょう。

next ▶ GAN・DCGAN・CycleGAN 画像生成AIを支える技術