6-7-1 マルチモーダルとは何か 複数の感覚を持つAIへ

目で見て、耳で聞いて、言葉で考える——人間はいつも、複数の感覚を同時に使いながら世界を理解しています。
目の前のコーヒーカップを認識するとき、私たちはその色や形を見るだけでなく、「コーヒーカップ」という言葉と結びつけ、陶器の感触や香りの記憶とも自然につなげています。
複数の情報が組み合わさることで、世界の理解はより豊かで確かなものになるのです。

哲学者のメルロ=ポンティは、「人間は身体を通じて世界を知覚する」と語りました。
私たちの認識は、視覚・聴覚・触覚が複雑に絡み合った身体的な経験の上に成り立っている——その洞察は、AIの進化の方向性とも不思議なほど重なります。
一つの感覚に特化したAIから、複数の感覚を横断するAIへ。その歩みは、人間の知覚の豊かさに近づこうとする試みともいえます。

マルチモーダル

モーダル(modal)とは、情報の「種類」や「形式」のことです。
画像はひとつのモーダル、テキストはひとつのモーダル、音声はひとつのモーダル——それぞれが異なる形式で世界を表現しています。

マルチモーダル(Murtimodal)とは、その名の通り「複数のモーダルを同時に扱う」ことです。

身近な例で考えてみましょう。
ChatGPTやClaudeに写真を送って「この画像に何が写っていますか?」と聞くと、AIは画像の内容を言葉で説明してくれます。音声で話しかければ音声で返答し、文章を送れば文章で答える——複数の種類の情報をまたいで理解・生成できること、それがマルチモーダルの本質です。

従来のAIは、一つのモーダルに特化していました。
画像認識AIは画像しか扱えず、言語モデルはテキストしか扱えませんでした。
しかし現実の世界の情報は、一つのモーダルだけで完結していることの方が少ないです。
写真にはキャプションが添えられ、動画には音声が伴い、会話には表情が加わります。
マルチモーダルAIは、その現実の複雑さに近づこうとする試みです。

基盤モデル

マルチモーダルAIを語るとき、基盤モデル(Foundation Model)という概念は欠かせません。
基盤モデルとは、膨大なデータで事前学習された大規模なモデルで、様々なタスクの「土台(基盤)」として使われるものです。
特定のタスクのためだけに作られたモデルではなく、多様な用途に転用・応用できる汎用性を持っています。
GPT、BERT、CLIPなどが代表的な基盤モデルです。

建築にたとえるなら、基盤モデルはしっかりと整備された「土台」です。
その上にどんな建物を建てるか——翻訳に使うか、画像生成に使うか、医療診断に使うか——は、利用する側が決める。
基盤モデルという共通の土台があることで、様々なAIアプリケーションを効率よく開発できるようになりました。

マルチモーダルの文脈では、画像とテキストの両方を扱える基盤モデルが特に重要です。
一つのモデルが複数のモーダルを理解する土台を持つことで、その上に様々なマルチモーダルタスクを乗せられるようになります。

マルチタスク学習

マルチモーダルと混同されやすい概念として、マルチタスク学習(Multi-task Learning)があります。ここで整理しておきましょう。

マルチモーダル → 「複数の種類の情報(画像・テキスト・音声)を扱える」こと
マルチタスク学習 → 「複数の種類の学習課題を同時にこなせる」こと

マルチモーダルが「何を入力・出力できるか」に注目するのに対して、マルチタスク学習は「どんな学習課題に対応できるか」に注目します。

マルチタスク学習でいう「タスク」とは、たとえばこういったものです。
画像を見て「これは何の画像か」を答える(分類)、画像を見て内容を言葉で説明する(キャプション生成)、質問を読んで答える(質問応答)——これらはそれぞれ異なる学習課題です。
マルチタスク学習では、一つのモデルがこれらを別々に学ぶのではなく、同時にまとめて学びます。

人間にたとえるなら、読書をすることで語彙が増え、語彙が増えることで文章を書く力も上がり、書く力が上がることで読解力もさらに深まる——複数の学びが互いを高め合う、あの感覚です。
マルチタスク学習では、タスク間の知識が相互に活かされることで、それぞれのタスクの精度が単独で学ぶより向上することがあります。

現代の大規模AIモデルは、マルチモーダルとマルチタスクの両方を同時に実現しようとしています。
複数の種類の情報を理解しながら、複数の種類の課題に対応できる——それが現代のマルチモーダルAIの目指す姿です。

まとめ

モーダル → 情報の種類や形式のこと。画像・テキスト・音声などがそれぞれ異なるモーダルにあたる
マルチモーダル → 複数のモーダルを同時に扱うこと。画像を見て言葉で説明する、音声を聞いてテキストで返答するなど、異なる種類の情報をまたいで理解・生成できる
基盤モデル → 膨大なデータで事前学習された大規模モデルで、様々なタスクの土台として使われる。GPT・BERT・CLIPなどが代表例
マルチタスク学習 → 一つのモデルが複数の異なる学習課題(分類・キャプション生成・質問応答など)を同時に学ぶ手法。タスク間の知識が互いに活かされ、それぞれの精度向上につながることがある

「りんご」という言葉を知っている。しかしそれは、本当に「わかっている」といえるのでしょうか。

◆言葉を知ることと、わかることの違い
哲学者のジョン・サールは、1980年に「中国語の部屋」という思考実験を提唱しました。
部屋の中に英語しか話せない人がいて、外から中国語の質問が差し込まれてくる。その人は、中国語の記号と記号の対応ルールが書かれたマニュアルを持っていて、それを参照しながら適切な中国語の返答を返すことができます。外から見れば、まるで中国語を理解しているように見える。しかし部屋の中の人は、中国語の意味をまったく理解していません。
サールが問いかけたのは、これです。「記号を正しく操作することは、意味を理解することと同じではないのではないか」——。
テキストだけを学んだAIは、この「中国語の部屋」に似ているかもしれません。
膨大な言語データから言葉と言葉の関係を学び、適切な言葉を返すことができる。
しかし「りんご」という言葉が、あの赤い色、手のひらに感じる重さ、かじったときの甘酸っぱさと結びついているかどうか——そこは別の問いです。

◆シンボルグラウンディング問題
この問いに名前をつけたのが、シンボルグラウンディング問題です。1990年、認知科学者のスティーブン・ハルナッドが提唱しました。
「シンボル(記号)」とは、言葉や概念のこと。「グラウンディング(接地)」とは、その記号が現実の感覚的な経験と結びついていること。シンボルグラウンディング問題とは、「記号が現実に根ざしていなければ、その意味は空洞ではないか」という問いです。
辞書で「りんご」を調べると「バラ科の果樹の果実」と書いてある。「バラ科」を調べると別の言葉で説明されている。言葉が言葉で説明され続ける——その連鎖の中に、現実の感覚はどこにも登場しません。テキストだけで学んだAIは、この「言葉が言葉を参照し続ける」世界の中に閉じ込められているともいえます。

◆マルチモーダルは、その問いへの応答か
マルチモーダルAIは、この問いに一つの応答を試みています。
画像とテキストを同時に学ぶことで、「りんご」という言葉と赤い丸い果物の視覚的な特徴が結びつく。音声とテキストを組み合わせることで、言葉に音の質感が加わる。複数のモーダルを横断することで、言葉が少しずつ「現実に接地」されていく——。
メルロ=ポンティが語った「身体を通じた知覚」の観点からすれば、マルチモーダルはAIに「感覚の断片」を与えようとする試みです。視覚という感覚、音という感覚——それらを言語と結びつけることで、身体なき知性に、身体性の一端を与えようとしている
しかしここで、正直に立ち止まる必要があります。マルチモーダルAIが画像とテキストを結びつけて学んだとしても、それは本当に「わかっている」ことになるのでしょうか。りんごの重さを手で感じたことのないAIが、「りんごは重い」という言葉を本当の意味で理解できるのか——その問いに、今の技術は完全な答えを持っていません。

◆問いが残ることの意味
「AIは世界を本当にわかっているのか」——この問いは、AIの限界を指摘するためだけにあるのではありません。この問いを問い続けることで、私たちは「人間が世界をわかるとはどういうことか」を改めて問い直すことになります。
AIを作ることは、人間を知ることでもある——この章の最初に書いたその言葉が、ここでも響いています。
マルチモーダルの技術的な進化の奥底には、哲学が何世紀もかけて向き合ってきた問いが、まだ解かれないまま息づいています。

next ▶ マルチモーダルのタスクと技術 見る・読む・答える・描く