データを集め、整え、モデルを学習させた。評価してみると、精度が驚くほど高い——しかし実際に運用してみると、まったく使い物にならない。そんな悪夢のような状況が、AI開発の現場では起きることがあります。
原因の一つが、データリーケージです。気づかないうちにデータの扱いを間違えることで、モデルの評価が根本から狂ってしまう——この章では、その落とし穴と、データを共有しながら共同開発を進める際の留意点を見ていきます。
データリーケージとは何か
データリーケージ(Data Leakage)とは、モデルの学習や評価の過程で、本来使ってはいけない情報が混入してしまう問題のことです。
「リーケージ」とは「漏れ」という意味で、使ってはいけない情報が「漏れ込んでくる」イメージです。
なぜ問題になるのでしょうか。
試験にたとえるとわかりやすいです。本番のテストと同じ問題で事前に練習していた学生は、練習のスコアはよくても、別の問題では通用しない。データリーケージはまさにこの「答えを見ながらの練習」が原因で起きます。評価上は高精度なのに、実際に運用すると使い物にならない——そんな悪夢のような状況を引き起こします。
データリーケージが起きやすい場面
前処理のタイミングの問題——データの正規化(数値のスケールを揃える処理)を、学習データとテストデータに分ける前に行ってしまうことで起きます。
たとえば100人分のデータがあって、80人を学習用、20人をテスト用に使いたいとします。正規化とは「全データの中の最大値・最小値をもとに、数値のスケールを揃える」処理です。100人全員のデータで先に正規化してしまうと、テスト用の20人の情報(最大値・最小値など)が、正規化の計算に使われてしまいます。つまりテストデータの情報が、学習の段階にすでに混入しているのです。
正しい順番は「先に80人と20人に分ける→80人のデータだけで正規化のルールを決める→そのルールをテスト用の20人にも適用する」です。「分けてから処理する」——この順番を守ることが重要です。
時系列データの取り扱い——時系列データ(時間の流れに沿ったデータ)では、未来のデータが学習に混入するリスクがあります。
たとえば株価予測AIを作るとき、過去のデータの中に「その時点の翌日の株価」が誤って含まれていると、AIは未来の情報を見ながら学習していることになります。実際の運用では翌日の株価はまだわからないため、現実では使えないモデルが完成してしまいます。「過去のデータで学習して、未来のデータで評価する」という時間の順番を厳守しなければなりません。
ターゲットリーケージ——予測したい値(ターゲット)と強く相関する特徴量が、学習データに含まれてしまう問題です。
たとえば「病気かどうか」を予測するモデルに、「入院したかどうか」という情報を含めてしまうと——入院は病気の結果であるため、答えが学習データに含まれているようなものです。
データ共有と共同開発の留意点
AIプロジェクトは、複数の企業や組織が協力して進めることがあります。そのとき、データを共有しながら開発を進める場面が生じますが、いくつかの重要な留意点があります。
個人情報・機密情報の管理
共同開発でデータを共有する際、個人情報や企業の機密情報が含まれている場合は、特に慎重な管理が必要です。
誰がデータにアクセスできるか、データをどこに保存するか、共有の範囲はどこまでかを、契約や規約で明確にしておく必要があります。
データの所有権と利用権
共同開発で生まれたデータや学習済みモデルは、誰のものか——この問いは、後になってトラブルの原因になることがあります。
プロジェクトの開始前に、データの所有権・利用権・成果物の帰属を明確に取り決めておくことが重要です。
連合学習(Federated Learning)
連合学習を一言でいえば、「データは外に出さず、学習の成果だけを共有する」仕組みです。
たとえば三つの病院が協力して診断AIを作りたいとします。しかし患者データはプライバシーの問題から、病院の外に出せません。連合学習では、各病院が自分のデータを手元に置いたままモデルを学習させ、「データそのもの」ではなく「学習によって更新されたモデルの情報(重み)」だけを外部のサーバーに送ります。サーバーはその情報を統合して一つのモデルに反映させ、また各病院に配る——このやり取りを繰り返すことで、データを一か所に集めることなく、共同でモデルを育てられるのです。
データは病院の外に出ない。でも学習の成果は共有される——プライバシーを守りながら共同開発を実現する、巧みな発想です。
まとめ
データリーケージ(Data Leakage) → モデルの学習や評価の過程で、本来使ってはいけない情報が混入してしまう問題。モデルの評価が実態より高く出て、実運用で使い物にならないモデルが完成するリスクがある
ターゲットリーケージ → 予測したい値と強く相関する特徴量が学習データに含まれてしまうデータリーケージの一種
連合学習(Federated Learning) → データを一か所に集めることなく、各組織がデータを手元に置いたまま共同でモデルを学習する技術。プライバシーを守りながら共同開発を実現できる
next ▶ データのばらつきを測る 平均・中央値・標準偏差・外れ値