マルチモーダルの概念を知り、タスクの種類を理解したところで、いよいよ具体的なモデルを見ていきましょう。
ここで登場する四つのモデルは、それぞれ異なる方向からマルチモーダルの可能性を切り開いてきた先駆者たちです。
技術の進化は、一つの発明が次の発明を呼ぶ連鎖として進んでいきます——その流れを感じながら読んでみてください。
CLIP
CLIP(Contrastive Language-Image Pre-training)は、2021年にOpenAIが発表した、テキストと画像を結びつける基盤モデルです。転移学習の章でも登場しましたが、マルチモーダルモデルとしても重要な位置を占めているため、ここで改めて見ていきます。
CLIPの仕組みはシンプルです。「夕暮れの海辺」という文章と、実際の夕暮れの海辺の写真——このような「言葉と画像のペア」をインターネット上から大量に集めて学習することで、言葉の意味と画像の視覚的な特徴を同じ空間の中で理解できるようになります。
CLIPが革新的だったのは、Zero-shotの能力を大幅に引き上げた点です。Zero-shotとは、特定の画像を直接学習していなくても、正しく分類できる能力のことです。
たとえばCLIPが「別のなすの写真」で「なす」という概念は学んでいるとします。しかしこの特定のなすの写真は一度も見たことがない。それでもCLIPは、画像とテキストの「似ている度合い」を測ることで、「これはなすだ」と正しく判定できます。「なすの写真です」「りんごの写真です」「犬の写真です」という三つのテキストと画像を照らし合わせると、「なすの写真です」というテキストが一番画像と似ている——その照合だけで、見たことのない画像でも分類できるのです。
人間が「なす」を知っていれば、どんななすの写真を見ても「これはなすだ」とわかるように——CLIPは「概念として知っている」という能力をAIで実現しました。
CLIPはその後、Stable DiffusionをはじめとするText-To-Imageモデルの重要な部品として広く採用され、現代のマルチモーダルAIの土台の一つになっています。
DALL-E
DALL-E(ダリ)は、2021年にOpenAIが発表した、テキストから画像を生成するText-To-Imageモデルです。
名前は、シュルレアリスムの画家サルバドール・ダリと、ピクサーのキャラクターWALL-Eを組み合わせたものといわれています——その名前からして、芸術とAIの交差点に立つモデルです。
初代DALL-Eは、テキストから画像を生成できることを示した先駆的なモデルでしたが、生成画像の品質にはまだ課題がありました。
その翌年に発表されたDALL-E 2は、CLIPと拡散モデルを組み合わせた二段階の構造によって、品質を大幅に向上させました。まずCLIPが「夕暮れの海辺の灯台」というテキストを視覚的な特徴の情報に変換し、次に拡散モデルがその特徴をもとにノイズの中から画像を浮かび上がらせる——言葉から視覚的な特徴へ、視覚的な特徴から画像へという二段階のリレーが、より精細でテキストへの忠実度の高い画像生成を可能にしました。
DALL-Eの驚きは、その生成能力の自由さにあります。「アボカドの形をした肘掛け椅子」「宇宙服を着たサムライが月面を歩いている」——現実には存在しない、言葉でしか描写できないような場面を、高品質な画像として生成できます。
現実の模倣にとどまらず、言葉の組み合わせが生み出す「想像の世界」を視覚化できること——それがDALL-Eの本質的な革新でした。
その後DALL-E 3へとさらに進化を重ね、指示への忠実さと画像の品質は一段と向上しています。
Flamingo
Flamingo(フラミンゴ)は、2022年にDeepMindが発表した、画像と言語を組み合わせて対話できるマルチモーダルモデルです。
Flamingoの特徴は、Few-shotの能力の高さにあります。少ない例を示すだけで、新しいタスクに柔軟に対応できます。
たとえば「この画像の面白いところを説明して」という質問に数例を見せるだけで、その後は様々な画像に対して同じスタイルで答えられるようになります。
Flamingoが実現したのは、画像を含む「会話」です。
テキストだけでなく、画像が混在したやり取りを自然に処理できる——「この写真を見てください。この人は何をしていますか?」「では次の写真と比べると、どう違いますか?」という流れで、画像を交えた連続した対話が可能になりました。
現在のChatGPTやClaudeが画像を含む会話を自然にこなせる背景には、Flamingoのような研究の積み重ねがあります。
Unified-IO
Unified-IO(ユニファイドIO)は、2022年にAllen Institute for AIが発表した、テキスト・画像・音声・動画など、あらゆる種類の入出力を一つのモデルで扱うことを目指したマルチモーダルモデルです。
これまでのモデルは、得意とするモーダルの組み合わせが限られていました。
画像とテキストは扱えるが音声は扱えない、テキストの入出力は得意だが画像の生成は別のモデルが必要——そうした「専門家の集まり」としての構造が一般的でした。
Unified-IOはその発想を根本から変えます。
あらゆる入力をひとつの共通した形式に変換し、ひとつのモデルで処理して、あらゆる形式で出力する——「何でも受け取って、何でも出力できる」汎用モデルを目指したのです。
人間にたとえるなら、目で見て、耳で聞いて、口で話して、手で書く——複数の感覚と表現手段を一つの知性が統合しているあり方です。Unified-IOはその人間的な統合性を、AIで実現しようとした野心的な試みといえます。
完全な実現にはまだ課題がありますが、「一つのモデルがすべてのモーダルを扱う」という方向性は、マルチモーダルAIの一つの到達点を示しています。
まとめ
CLIP → テキストと画像を結びつける基盤モデル。言葉と画像のペアを大量に学習することでZero-shot能力を大幅に向上させた。Text-To-Imageモデルの重要な部品として広く採用されている
DALL-E → OpenAIが開発したText-To-Imageモデル。現実に存在しない場面も含め、テキストの指示から高品質な画像を生成できる
Flamingo → DeepMindが開発した、画像と言語を組み合わせた対話ができるマルチモーダルモデル。Few-shot能力の高さと、画像を含む連続した会話処理が特徴
Unified-IO → テキスト・画像・音声・動画など、あらゆる種類の入出力を一つのモデルで扱うことを目指したマルチモーダルモデル。「何でも受け取って何でも出力できる」汎用モデルへの挑戦