3-4-4 情報量規準という考え方

オッカムの剃刀は言います。
「必要以上に仮定を増やしてはならない」

でも、ここでひとつ問題があります。
「どこまでが必要で、どこからが余計なのか？」
それを感覚ではなく、数値で判断しようとしたのが、情報量規準という考え方です。
モデルは、複雑にすればするほど、訓練データにはよく合います。
でも、それは未来への強さとは限りません。
だから私たちは、
・当てはまりの良さ
・モデルの複雑さ
この二つを同時に見る必要があります。
情報量規準は、そのための物差しです。

情報量規準は、オッカムの剃刀を、数式にしたもの。
精度だけでなく、「どれだけ無駄を増やしていないか」も見ます。
それがAICやBICの思想です。

赤池情報量規準（AIC）

モデルは、がんばればいくらでも賢くなれる。
ルールを増やし、パラメータを足し、細かいところまで説明する。
すると、目の前のデータには、ぴったり合います。
でも、それは本当に「理解」でしょうか？
赤池情報量規準（AIC）は、そこで問いを投げかけます。

「よく当てているけれど、その説明、ちょっと増やしすぎていない？」

AICは、
・データへの当てはまり
・モデルの複雑さ
この二つを同時に見ます。

当てはまりが良いのは大事。
でも、複雑にしすぎたら少し減点。
予測を大事にする、やや実用的な物差しで、未来にどれだけ使えるか、そこを重視しています。

AICは「値が小さいほど良い」です。
当てはまり＋複雑さへのペナルティを表します。
主に予測性能の観点でモデルを比較します。

ベイズ情報量規準（BIC）

ベイズ情報量規準（BIC）も同じように、当てはまり、複雑さ、を比べます。
でもBICは、もう少し厳しいです。

「そのパラメータ、本当に必要？」

と、より強く問いかけます。
データが多くなればなるほど、余計な説明を許しません。
AICよりも、真のシンプルさを重視します。

BICも「値が小さいほど良い」です。
AICよりも複雑さへのペナルティが強いです。
より「真のモデル」に近いものを選ぼうとする傾向があります。