「平均」という言葉は、日常的によく使います。「平均点」「平均年収」「平均気温」——数字の集まりを一つの値で表すとき、私たちは自然に平均を使います。しかし、平均だけを見ていると、見えなくなるものがあります。
10人のクラスで、9人が50点、1人が100点だったとします。平均は55点。「まあまあの成績のクラス」に見えます。しかし実態は、9人が50点で一人だけが突出しているクラスです。平均という一つの数字が、データの実態を隠してしまっている——これが、統計の道具を複数組み合わせて使う理由です。
データの「中心」はどこにあるのか。データはどのくらい「広がっている」のか。この二つの問いに答えるための道具を、この章では見ていきます。
平均・中央値・最頻値(mean・median・mode)とは何か
データの「中心」を表す方法は、一つではありません。代表的な三つを見ていきましょう。
平均
平均(mean)は、すべての値を足して、データの個数で割った値です。
最もよく使われる代表値ですが、極端に大きい値や小さい値(外れ値)の影響を受けやすいという弱点があります。
先ほどの「9人が50点、1人が100点」の例がまさにこれです。
中央値
中央値(median)は、データを小さい順に並べたとき、ちょうど真ん中に来る値です。
外れ値の影響を受けにくいため、年収のような「一部の極端に高い値がある」データでは、平均より実態を正確に反映することがあります。
「日本人の平均年収」より「中央値」の方が、大多数の人の実感に近い——そういうことです。
最頻値
最頻値(mode)は、データの中で最も多く登場する値のことです。
テストの点数のような数値データでは、同じ値がぴったり一致することが少ないため、最頻値があまり意味を持たないことが多いです。
しかし「好きな色は?」「血液型は?」のように、決まった種類の中から選ぶデータでは、同じ答えが何度も登場します。その中で一番多く選ばれた答えが最頻値——「このクラスで一番多い血液型はA型」のような形で使われます。
平均や中央値が「数値の大小」を扱う指標であるのに対して、最頻値は「一番人気は何か」を示す指標です。使い方が少し異なる道具として覚えておくと整理しやすいでしょう。
分散・標準偏差(variance・standard deviation)とは何か
データの「中心」がわかったら、次に知りたいのは「広がり」です。平均が同じでも、データのばらつき方が違えば、まったく異なる集団といえます。
分散
まず分散(variance)から見ていきましょう。分散は、各データが平均からどのくらい離れているかを数値で表したものです。
各データについて「平均との差」を計算し、それを二乗して平均します——値が大きいほど、データが平均から広く散らばっていることを意味します。
しかし分散には一つ不便な点があります。「差を二乗している」ため、単位が変わってしまうのです。テストの点数(点)のばらつきを分散で測ると、「点²(点の二乗)」という直感的にわかりにくい単位になってしまいます。
標準偏差
そこで登場するのが標準偏差(standard deviation)です。分散の平方根(√)をとることで、単位を元のデータと同じ「点」に戻します。
分散と標準偏差は「同じことを言っている」のですが、標準偏差の方が元のデータと同じ単位で読めるため、実際の分析では標準偏差が多く使われます。
二つのクラスの数学の点数で考えてみましょう。どちらも平均70点。クラスAは全員が65〜75点の間に収まっているのに対して、クラスBは30点から100点まで広く散らばっています。
この違いを数値で表すと、クラスBの方が分散も標準偏差も大きくなります。
「平均だけ見ていてはわからないもの」を、この二つの指標は教えてくれます。
外れ値(outlier)とは何か
外れ値(outlier)とは、他のデータから大きく離れた値のことです。
測定ミス、入力ミス、あるいは本当に特殊なケース——外れ値にはさまざまな原因があります。
外れ値は、分析に大きな影響を与えます。平均は外れ値に引っ張られやすく、一つの極端な値が全体の印象を歪めることがあります。だからこそ、データを分析する前に「外れ値がないか」を確認することが重要です。
ただし、外れ値を機械的に「ノイズ(邪魔なもの)」として除去すればいいわけではありません。
外れ値が実は重要な発見を示していることもあります。
工場の生産ラインで、ほとんどの製品が正常値を示す中に一つだけ異常な値がある——その外れ値こそが、重大な不良を早期に発見するサインかもしれない。
外れ値を「異常なもの」として切り捨てるのか、「重要なシグナル」として向き合うのか——それはデータを読む人間の判断にかかっています。
まとめ
平均(mean) → すべての値を足してデータの個数で割った値。外れ値の影響を受けやすい
中央値(median) → データを小さい順に並べたとき真ん中に来る値。外れ値の影響を受けにくく、年収など極端な値があるデータで実態を反映しやすい
最頻値(mode) → データの中で最も多く登場する値。カテゴリデータで特に力を発揮する
分散(variance) → 各データが平均からどのくらい離れているかを測る指標。値が大きいほどデータが広く散らばっている
標準偏差(standard deviation) → 分散の平方根をとった値。元のデータと同じ単位で「ばらつき」を表現できる
外れ値(outlier) → 他のデータから大きく離れた値。ノイズの場合もあれば、重要な発見を示すシグナルの場合もある