8-1-5 データを整理する 移動平均・度数分布・確率密度

データを分析する前に、まずデータの全体像をつかむ必要があります。
膨大な数字の羅列を前にして、いきなり計算を始めても、何が見えているのかわからないまま進んでしまいます。

地図を広げてから旅を始めるように、データの「形」を把握してから分析に入る——この章では、データを整理して見通しをよくするための三つの道具を見ていきます。

度数分布とは何か

度数分布(frequency distribution)とは、データをいくつかの区間に分けて、それぞれの区間にデータが何個入っているかを整理したものです。

たとえば、100人の学生のテストの点数があるとします。0〜9点が2人、10〜19点が5人、20〜29点が8人……というように、点数を10点ごとの区間に分けて、各区間に何人いるかを数える——これが度数分布です。

度数分布を棒グラフで表したものをヒストグラムと呼びます。
ヒストグラムを見ると、データが「どのあたりに集まっているか」「どんな形の分布をしているか」が一目でわかります。
正規分布のような釣り鐘型なのか、左右どちらかに偏っているのか、二つの山がある分布なのか——データの「顔」が見えてくるのです。

AIの学習では、データの分布を事前に確認することが重要です。
極端に偏った分布のまま学習させると、AIはその偏りを「正しい世界の姿」として学んでしまいます。度数分布は、そうした問題を事前に発見するための基本的な道具です。

移動平均とは何か

移動平均(moving average)とは、時系列データ(時間の流れに沿ったデータ)の「なめらかなトレンド」を見るために、一定期間の平均を順番にずらしながら計算していく手法です。

株価のグラフを思い浮かべてみましょう。日々の株価は上がったり下がったりと激しく動きます。そのままでは「全体として上昇傾向にあるのか、下降傾向にあるのか」がわかりにくいです。そこで「直近7日間の平均」を毎日計算して折れ線グラフにすると——日々の細かい動きが平滑化されて、全体のトレンドがなめらかに浮かび上がります。

「移動」という言葉は、この「平均を取る期間をずらしながら計算する」ことを表しています。
7日移動平均なら、今日の値は「今日を含む直近7日間の平均」、明日の値は「明日を含む直近7日間の平均」——窓をずらしながら平均を計算していくイメージです。

AIの分野では、学習の進み具合(損失関数の変化)を移動平均でなめらかにして可視化したり、時系列データの予測モデルの前処理として使ったりします。

確率密度とは何か

確率密度(probability density)は、連続した値の分布を表すための概念です。確率分布の章でも少し触れましたが、ここで改めて整理しましょう。

「身長がちょうど170.000…cmである確率」はほぼゼロです。しかし「身長が169cmから171cmの間に入る確率」は意味を持ちます。
連続した値を扱うとき、「ある一点の確率」ではなく「ある区間に入る確率」として考える必要があります。

確率密度関数とは、この「連続した値の分布」をグラフで表したものです。
正規分布の釣り鐘型のグラフが、確率密度関数の代表的な例です。
グラフの「山が高いところ」はその値が出やすく、「山が低いところ」はその値が出にくい——グラフのある区間の面積が、その区間に値が入る確率を表します。

「グラフの高さ=確率」ではなく、「グラフの面積=確率」——ここが確率密度のポイントです。グラフ全体の面積は必ず1(100%)になります。どこかに必ず値が入るからです。

まとめ

度数分布 → データをいくつかの区間に分けて、各区間にデータが何個入っているかを整理したもの。データの全体像を把握するための基本的な道具
ヒストグラム → 度数分布を棒グラフで表したもの。データの分布の形を視覚的に確認できる
移動平均 → 一定期間の平均を順番にずらしながら計算することで、時系列データのなめらかなトレンドを見る手法
確率密度関数 → 連続した値の分布をグラフで表したもの。グラフのある区間の面積が、その区間に値が入る確率を表す。グラフ全体の面積は必ず1になる

next ▶ 個人情報とは何か 定義と基本的な考え方