AIを開発するとき、最初にぶつかる壁の一つが「学習データをどこから集めるか」という問いです。
良質なデータが大量に必要なのに、そのデータの多くには著作権がある——この章では、AI開発の現場でデータを集めて使う際に、著作権上どんな点に気をつけるべきかを整理していきます。
スクレイピングと著作権
スクレイピング(scraping)とは、ウェブサイトから自動的にデータを収集する技術のことです。
AIの学習データを集める方法として広く使われていますが、著作権との関係で注意が必要です。
著作権法30条の4により、情報解析を目的としたスクレイピングは原則として許容されています。しかしいくつかの重要な例外と注意点があります。
利用規約でスクレイピングを禁止しているサイト——多くのウェブサービスの利用規約には「自動的なデータ収集を禁止する」という条項があります。著作権法上は許容されていても、利用規約に違反することは契約違反になります。
個人情報を含むデータのスクレイピング——ウェブ上のデータには個人情報が含まれることがあります。著作権の問題とは別に、個人情報保護法の観点からも注意が必要です。
30条の4の例外
30条の4には重要な例外があります。「著作権者の利益を不当に害する場合」には、30条の4は適用されないのです。
では「利益を不当に害する」とはどういう場合でしょうか。判断の基準はこうです——本来著作権者が得られるはずだった収益や機会を、不当に奪っているかどうか。
具体的に考えてみましょう。
著作権者が「このデータはAI学習用として販売しています」と提供しているにもかかわらず、それを無断でスクレイピングして学習に使う——これは著作権者の販売機会を奪うため、「利益を不当に害する」にあたる可能性が高いです。
著作権者が「AI学習への利用を禁止する」と明示しているデータを無断で学習に使う——著作権者の意思に反するため、同様に例外にあたる可能性があります。
一方、一般公開されていて、AI学習用のデータ販売もしておらず、利用禁止の意思表示もない場合——例外にあたりにくく、30条の4の範囲内とされることが多いです。
「著作権者の収益や意思を不当に損なうかどうか」——これが判断の核心です。しかしこの基準はまだ明確ではなく、現在も議論が続いています。
スクレイピングの実態
ここで、スクレイピングの現実についても触れておきましょう。
大手AI企業がウェブサイトを無断でスクレイピングしているという報告は、世界中から上がっています。スクレイピングによってサイトに大きな負荷がかかり、サイトがダウンするという被害も実際に起きています。
ウェブサイトにはrobots.txt(ロボッツ・テキスト)というファイルを置くことで、「このサイトのスクレイピングを禁止する」という意思表示ができます。
しかしこれに法的な強制力はなく、無視するAI企業も存在します。
ニューヨーク・タイムズがOpenAIを訴えた訴訟でも、無断スクレイピングが主要な論点の一つになっています。
「著作権法上は許容されるかもしれないが、倫理上は許されない」——法律と倫理の間の溝が、ここでもまた浮かび上がります。
データセットの著作権
AIの学習に使うデータセットそのものにも、著作権が関わります。
データベースの著作権——個々のデータには著作権がなくても、データを体系的に収集・整理したデータベースには著作権が生まれることがあります。
「素材の選択または配列に創作性がある」データベースは、著作権法上の保護を受けます。
たとえば、無数の画像の中から特定のテーマに沿って選び、独自の分類方法で整理した画像データセットには、その選択・配列に創作性があれば著作権が生まれます。このようなデータセットを無断でAIの学習に使うことは、著作権侵害になりえます。
アノテーションの著作権——データセットには、人間がラベル付け(アノテーション)を行ったものがあります。そのアノテーション自体に創作性がある場合、著作権が生まれることがあります。
著作物を学習データに使う際の注意点
著作権のある著作物をAIの学習データとして使う場合の、具体的な注意点を整理しましょう。
①30条の4の範囲を守る——情報解析を目的とする利用であれば、著作権者の許可なく使えます。しかし「著作権者の利益を不当に害する場合」には適用されません。著作権者がデータを販売している場合や、特定の著作者のスタイルだけを模倣するための学習は要注意です。
②利用規約・ライセンスを確認する——著作権法上は許容されていても、データの提供元の利用規約やライセンスで制限されている場合があります。必ず確認しましょう。
③出所を記録しておく——学習に使ったデータの出所を記録しておくことで、後から問題が生じた際に対応しやすくなります。
④商用利用と非商用利用を区別する——研究目的での利用は許容されても、商用AIの学習には使えないデータセットがあります。使用目的に合ったデータセットを選ぶことが重要です。
生成AIサービスとデータの権利
生成AIをサービスとして提供する側にも、データの権利をめぐる難しい問いがあります。
一つ目は学習データの問題です。
具体的な場面で考えてみましょう。
あるAI企業が、ウェブ上の小説・イラスト・音楽を大量に収集して、画像生成AIを開発しました。サービスをリリースして多くのユーザーに使われ始めた後、イラストレーターたちが「私たちの作品が無断で学習に使われている」として訴訟を起こしました——これは実際に海外で起きた出来事です。
「学習に使ったデータを使う権利が、本当にあったのか」——この問いは、サービスを世に出した後に突きつけられることがあります。学習データの権利処理を後回しにしてサービスをリリースすることの危うさが、ここにあります。
二つ目はユーザーが入力したデータの問題です。
あなたがAIサービスに入力した文章や画像には、著作権があることがあります。「同意する」ボタンを押した利用規約の中に「入力データをAIの学習に使用することがある」と書かれていた場合——あなたは知らないうちに、自分の著作物をAIに提供していることになります。サービスを使う前に、利用規約を確認することの重要性がここにあります。
三つ目は生成物の権利の問題です。
AIが生成したコンテンツが誰のものか、商用利用できるかどうかを、サービス提供者は利用規約で明確にしておく必要があります。曖昧なまま放置すると、ユーザーとのトラブルの原因になります。
著作権とAI——終わらない問い
この章を読んできて、一つのことが見えてきたのではないでしょうか。
AIと著作権をめぐる問いには、まだ答えが出ていないものがたくさんあります。
30条の4の例外の範囲、AI生成物の著作権の帰属、画風や声の保護——法律が技術に追いつこうとしながら、創作者たちが傷つき続けている現実があります。
この問いは、法律家だけが考えるものではありません。
AIを使う私たち全員が向き合うべき問いです。
「データを使う」という行為の裏側に、必ず「データを作った人」がいる——小説を書いた人、絵を描いた人、声を磨いた人、コードを書いた人。その人たちの「意志と労働」への敬意を忘れないこと。それが、AI時代を生きる私たちの、最低限の誠実さではないでしょうか。
ヘーゲルの言葉で始めたこの章を、同じ問いで締めくくります。
「人間が自分の意志と労働を注ぎ込んだものに、所有権が生まれる」——AIがどれだけ発展しても、この言葉の重みは変わらないはずです。
next ▶ 知的財産権とは何か 特許権と著作権のすみ分け