8-1-2 確率と分布 正規分布・二項分布・ベルヌーイ分布・ポアソン分布

「明日、雨が降る確率は70%」——この一文を、私たちは日常的に受け取っています。
しかし少し立ち止まって考えてみると、これは不思議な言葉です。明日という日はまだ来ていない。雨が降るかどうかは、まだ決まっていない。その「まだ決まっていないこと」を、70%という数字で表している——。

「不確かさを数値で表す」とはどういうことか。
哲学者たちは長らく、確率の意味をめぐって議論してきました。確率とは世界の客観的な性質なのか、それとも人間の知識の不完全さを表すものなのか——その問いはまだ完全には解決していません。
しかし実用的な道具として、確率は私たちの世界の理解を大きく助けてきました。
この章では、AIが「不確かさ」を扱うための道具、確率と分布を見ていきましょう。

確率変数・確率分布とは何か

確率変数

確率変数(random variable)とは、ひと言でいえば「まだ決まっていない値」のことです。
サイコロを投げる前、出る目はまだわかりません。1が出るかもしれないし、6が出るかもしれない。でも「1〜6のどれかが、それぞれ1/6の確率で出る」ということはわかっています。
この「まだ決まっていないけど、とりうる値と確率はわかっている」状態を確率変数と呼びます。

明日の気温、次の顧客が商品を買うかどうか、今日届くメールの件数——これらもすべて確率変数です。「結果はまだ決まっていない、でも可能性はわかっている」——そんな値のことを確率変数と呼ぶと覚えておきましょう。

確率分布

確率分布(probability distribution)とは、その確率変数が「どんな値を、どのくらいの確率でとるか」を表したものです。
「どの値がどのくらい起こりやすいか」の全体像を示す地図のようなイメージです。

確率分布には様々な種類があります。どんな現象を表したいかによって、使うべき分布が変わってきます——以下で代表的な四つを見ていきましょう。

ベルヌーイ分布とは何か

ベルヌーイ分布(Bernoulli distribution)は、最もシンプルな確率分布です。結果が「成功(1)」か「失敗(0)」の二択しかない場合に使われます。

コインを一回投げたとき、表が出るか裏が出るか。ある商品を一人の顧客が買うか買わないか。メールがスパムかスパムでないか——結果が必ず二択になる「一回きりの試行」を表すのが、ベルヌーイ分布です。

二項分布とは何か

二項分布(binomial distribution)は、ベルヌーイ分布を複数回繰り返したときの分布です。
「同じ試行をn回繰り返したとき、成功がk回起きる確率」を表します。

コインを10回投げたとき、表が何回出るか。100人の顧客にメールを送ったとき、何人が購入するか——ベルヌーイ分布(一回の試行)を積み重ねた「複数回の試行」を表すのが二項分布です。

ベルヌーイ分布が「一回だけコインを投げる」であれば、二項分布は「コインを10回投げる」——その関係です。

ポアソン分布とは何か

ポアソン分布(Poisson distribution)は、「一定の時間や空間の中で、ある事象が何回起きるか」を表す分布です。

1時間に来店する顧客の人数。1日に届くメールの件数。1週間に起きる交通事故の件数——「めったに起きないが、ランダムに発生する事象」の回数を表すのに向いています。

二項分布との違いを一言でいえば——二項分布は「n回試行して何回成功するか」、ポアソン分布は「一定時間内に何回起きるか」という問いの違いです。

正規分布とは何か

正規分布(normal distribution)は、確率分布の中で最も重要で、最も広く使われる分布です。グラフにすると左右対称の美しい釣り鐘型(ベル型)になることから、ベル曲線とも呼ばれます。

正規分布が特別な理由は、自然界や社会のあらゆる場所に現れることです。
人間の身長・体重・テストの点数・測定誤差——多くの現象が正規分布に従います。
中心(平均)付近の値が最も多く、平均から離れるほど少なくなる」という、直感的にも納得しやすい形です。

正規分布は平均(μ)と標準偏差(σ)の二つの値で完全に決まります。平均が分布の中心を決め、標準偏差が分布の広がりを決める——この二つさえわかれば、その現象の全体像が見えてきます。

AIと正規分布の関係も深く、ニューラルネットワークのパラメータの初期値を正規分布に従って設定することが一般的です。また、データが正規分布に従っているという前提のもとで成立する統計手法も多く、正規分布はAIの数理的な土台の一つといえます。

確率密度とは何か

最後に、確率密度(probability density)という概念を整理しておきましょう。
ベルヌーイ分布や二項分布は「離散的な値(0か1か、0回か1回か2回か)」を扱いますが、身長や気温のような「連続した値」を扱うときは少し考え方が変わります。
「身長がちょうど170.000…cmである確率」はほぼゼロですが、「身長が169cmから171cmの間に入る確率」は意味を持ちます。

確率密度とは、この「連続した値の分布」を表すための概念です。
正規分布のグラフのある区間の面積が、その区間に値が入る確率を表します
グラフそのものが「確率密度関数」であり、その面積が確率——そのように理解するとすっきりします。

まとめ

確率変数 → とりうる値とその確率が定まっている変数。サイコロの出る目など
確率分布 → 確率変数がどんな値をどのくらいの確率でとるかを表したもの。「どの値がどのくらい起こりやすいか」の全体像
ベルヌーイ分布 → 結果が「成功(1)」か「失敗(0)」の二択しかない一回きりの試行を表す分布
二項分布 → ベルヌーイ分布をn回繰り返したときの分布。n回の試行で成功がk回起きる確率を表す
ポアソン分布 → 一定の時間や空間の中で、ある事象が何回起きるかを表す分布。めったに起きないがランダムに発生する事象に向いている
正規分布 → 左右対称の釣り鐘型をした確率分布。自然界や社会の多くの現象に現れる。平均と標準偏差の二つの値で決まる
確率密度 → 連続した値の分布を表すための概念。確率密度関数のグラフのある区間の面積が、その区間に値が入る確率を表す

next ▶ 関係性を測る 相関係数・共分散・疑似相関・コサイン類似度