8-1-4 推測と検定 帰無仮説・最尤法・条件付き確率・期待値

「この薬は本当に効くのか」「このAIモデルの精度は偶然ではないのか」「このデータから、見えない真実を読み取れるか」——統計の世界では、限られたデータから、より大きな真実に近づこうとします。

しかしここには、根本的な難しさがあります。
私たちは世界のすべてを観察できるわけではありません。
100人のデータから、1000万人の傾向を推測する。昨日のデータから、明日を予測する——限られた情報から、見えないものへと推理を働かせる。それが統計的推測の本質です。

名探偵が手がかりから犯人を推理するように、統計学者はデータから真実を推理します。この章では、その「推理の道具」を見ていきましょう。

条件付き確率とは何か
期待値とは何か
帰無仮説・対立仮説とは何か
最尤法・最小二乗法・相互情報量とは何か
まとめ

条件付き確率とは何か

条件付き確率（conditional probability）とは、「ある情報が加わったとき、確率がどのくらい変わるか」を表す概念です。

たとえば「今日、外が濡れている確率」は、何も情報がない状態では30%くらいかもしれません。
しかし「さっき雨が降っていた」という情報が加わると——「外が濡れている確率」は一気に90%近くに跳ね上がります。
新しい情報が加わることで、確率が大きく変わった——これが条件付き確率の本質です。

AIの分野では、スパムフィルタに条件付き確率が使われています。
「このメールに『無料』『当選』という言葉が含まれている」という情報が加わったとき、「このメールがスパムである確率」はどのくらい変わるか——そう考えることで、メールがスパムかどうかを判定しているのです。

ひと言でまとめると——「〇〇だとわかったとき、△△である確率はどう変わるか」、それが条件付き確率です。

期待値とは何か

期待値（expected value）とは、「確率的な試行を繰り返したとき、平均的に得られる値」のことです。

サイコロを一回振ったとき、出る目の期待値はいくらでしょうか。
1〜6の目がそれぞれ1/6の確率で出るので、期待値は「1×1/6 ＋ 2×1/6 ＋ 3×1/6 ＋ 4×1/6 ＋ 5×1/6 ＋ 6×1/6 ＝ 3.5」です。
実際に3.5という目は存在しませんが、何度も振り続けると平均的に3.5に近づいていく——それが期待値です。

ビジネスの意思決定でも期待値は重要です。
「成功すれば100万円の利益、失敗すれば50万円の損失、成功確率は70%」というとき、期待値は「100×0.7 ＋ (－50)×0.3 ＝ 55万円」。期待値がプラスなら、平均的には得をする選択といえます。

強化学習においても、エージェントが「将来得られる報酬の期待値」を最大化するように学習する——期待値はAIの意思決定の核心にある概念です。

帰無仮説・対立仮説とは何か

「この新しいAIモデルは、従来のモデルより本当に精度が高いのか」——こういった問いに答えるための枠組みが、仮説検定です。

仮説検定では、まず帰無仮説（null hypothesis）を立てます。
帰無仮説とは「差がない・効果がない」という保守的な仮説です。「新しいモデルと従来のモデルの精度に、差はない」——これが帰無仮説です。

そして対立仮説（alternative hypothesis）は、帰無仮説の反対——「差がある・効果がある」という仮説です。「新しいモデルの方が精度が高い」——これが対立仮説です。

仮説検定では、「もし帰無仮説が正しいとしたら、このデータが得られる確率はどのくらいか」を計算します。その確率（p値）が非常に低ければ、「帰無仮説は正しくない、つまり差がある」と判断します。

名探偵のたとえで言うなら——帰無仮説は「犯人ではない（アリバイがある）」という仮定です。それを崩すだけの証拠（データ）が集まったとき、はじめて「犯人だ（差がある）」と結論付けられる。
統計的検定は、「無実の推定」から出発する慎重な推理の枠組みなのです。

最尤法・最小二乗法・相互情報量とは何か

この三つは、「データから最もよい答えを導き出す」という同じ目標に向かいながら、それぞれ少し違うアプローチをとる道具たちです。
料理道具にたとえるなら、包丁・おろし金・泡立て器——どれも「料理を作る道具」だけど、使う場面が違うようなイメージです。

最尤法（Maximum Likelihood Estimation）は、「このデータが得られる確率を最大にする値はどれか」を探す道具です。
コインを10回投げて8回表が出たとき、「このコインの表が出る確率」として最もデータに合う値を探す——それが最尤法です。

最小二乗法（Ordinary Least Squares）は、「散らばったデータ点に、最もよく当てはまる直線を引く」道具です。
身長と体重のデータが散らばっているとき、その点群を最もうまく表す直線を引く——誤差の合計を最小にすることで、その直線を決めます。

相互情報量（mutual information）は、「二つの変数がどのくらい情報を共有しているか」を測る道具です。
一方を知ることで、もう一方についての不確かさがどのくらい減るか——相関係数では捉えられない複雑な関係も測れる、より広い意味での「つながりの強さ」の指標です。

名前と目的だけ押さえておけば十分です。
「データに合う答えを探すための道具が、用途に応じていくつかある」——そのイメージを持っておきましょう。

まとめ

条件付き確率 → ある条件が与えられたとき、別の事象が起きる確率。新しい情報が加わったとき、確率がどう更新されるかを表す
期待値 → 確率的な試行を繰り返したとき、平均的に得られる値。強化学習においてエージェントが最大化しようとする「将来の報酬の期待値」の概念にも使われる
帰無仮説 → 仮説検定において「差がない・効果がない」という保守的な仮説。これを棄却することで「差がある」と結論付ける
対立仮説 → 帰無仮説の反対。「差がある・効果がある」という仮説
最尤法 → 観測されたデータが得られる確率を最大にするパラメータを推定する手法
最小二乗法 → データ点と予測値のずれ（誤差）の二乗の合計を最小にする手法。回帰分析で「最もよく当てはまる直線」を引くときに使われる
相互情報量 → 二つの変数の間でどのくらい情報を共有しているかを測る指標。相関係数では捉えられない非線形の関係も測れる

next ▶　データを整理する　移動平均・度数分布・確率密度