6-7-2 マルチモーダルのタスクと技術 見る・読む・答える・描く

マルチモーダルAIが「複数の種類の情報を扱える」とわかったところで、次の問いが生まれます。
では具体的に、何ができるのか。
画像とテキストを組み合わせることで、AIはどんなタスクをこなせるようになったのでしょうか。
この章では、マルチモーダルAIの代表的な四つのタスクを見ていきます。

Image Captioning

Image Captioning（画像キャプション生成）とは、画像を入力として受け取り、その内容を説明するテキストを自動生成するタスクです。

たとえば、公園のベンチで老人が犬と並んで座っている写真を入力すると、「老人と犬が公園のベンチに座っています」という説明文をAIが自動的に生成します。
視覚的な情報を言語的な情報に変換する——まさにマルチモーダルの本領が発揮されるタスクです。

この技術は、私たちの日常のあちこちにすでに入り込んでいます。
視覚に障がいのある方がスマートフォンのカメラで写真を撮ると、AIが画像の内容を音声で読み上げる——Image Captioningはそうしたアクセシビリティ技術の核心を担っています。
また、大量の画像に自動でタグや説明を付ける作業、SNSへの投稿画像の自動説明生成なども、この技術の応用です。

Visual Question Answering

Visual Question Answering（VQA：視覚的質問応答）とは、画像とテキストの質問を同時に入力として受け取り、その質問に答えるタスクです。

たとえば、冷蔵庫の中の写真を見せながら「この中に卵はありますか？」と質問すると、AIが「はい、卵が6個あります」と答える。料理中の写真を見せながら「このフライパンは熱くなっていますか？」と聞けば、炎の様子から判断して答えてくれる——画像を「見る」力と、言語を「理解する」力が同時に働いています。

VQAが興味深いのは、単純な「画像認識」を超えている点です。
画像の中の物体を認識するだけでなく、質問の意図を読み取り、画像から必要な情報を選び出して答えを導く——視覚と言語と推論が同時に絡み合う、複雑なタスクです。
現在のChatGPTやClaudeが画像を受け取って質問に答えられるのも、VQAの技術が土台にあります。

Text-To-Image

Text-To-Imageとは、テキストの指示から画像を生成するタスクです。
拡散モデルの章で登場したStable DiffusionやMidjourneyが、まさにこのタスクを担うAIです。

「夕暮れの海辺に立つ灯台、水彩画風」というテキストを入力すると、AIがその描写に沿った画像を生み出す。言葉という抽象的な情報から、視覚という具体的な情報へ——Image Captioningとは逆方向の変換です。

この逆方向の対称性は、少し立ち止まって考えると不思議です。
言葉から絵が生まれ、絵から言葉が生まれる——AIは言語と視覚の間を自在に行き来できるようになりつつあります。
かつて絵を描くことは、手と目と感性を持つ人間だけの営みでした。Text-To-Imageの登場は、その前提を静かに、しかし確実に揺さぶっています。

Zero-shot

Zero-shot（ゼロショット）とは、特定のタスクの学習データをまったく与えられていない状態で、そのタスクをこなす能力のことです。
Few-shot学習が「少ない例から学ぶ」であれば、Zero-shotは「例がゼロでもこなす」——その極限の形です。

たとえば、「トマト」と「きゅうり」の画像で学習したAIが、一度も見たことのない「なす」の画像を正しく「野菜」として分類できる。
あるいは翻訳AIの例で考えてみましょう。日本語↔英語、英語↔フランス語のペアで学習したAIが、直接学んでいない日本語↔フランス語の翻訳をこなせる——これがZero-shotです。「英語」という共通の橋を通じて、日本語とフランス語の関係を自分で推論できるからです。
実際にGoogleの多言語翻訳モデルでは、学習していない言語ペア間でもある程度の翻訳精度が確認されており、Zero-shotの能力が実証されています。

Zero-shotが可能になる背景には、事前学習によって身についた豊かな知識と、概念間の関係を深く理解する力があります。
「なす」を直接学ばなくても、「野菜とはどういうものか」という概念を深く理解していれば、初めて見るものでも正しく分類できる。
CLIPのようなマルチモーダルモデルは、画像とテキストを大量に学ぶことで、この「概念の深い理解」を身につけ、Zero-shotの能力を高めています。

まとめ

Image Captioning（画像キャプション生成） → 画像を入力として受け取り、その内容を説明するテキストを自動生成するタスク。視覚情報を言語情報に変換する
Visual Question Answering（VQA） → 画像とテキストの質問を同時に入力として受け取り、質問に答えるタスク。視覚・言語・推論が同時に絡み合う
Text-To-Image → テキストの指示から画像を生成するタスク。Stable DiffusionやMidjourneyが代表例
Zero-shot → 特定のタスクの学習データをまったく与えられていない状態で、そのタスクをこなす能力。事前学習による豊かな知識と概念理解が土台になっている

next ▶　代表的なマルチモーダルモデル　CLIP・DALL-E・Flamingo・Unified-IO