オッカムの剃刀は言います。
「必要以上に仮定を増やしてはならない」
でも、ここでひとつ問題があります。
「どこまでが必要で、どこからが余計なのか?」
それを感覚ではなく、数値で判断しようとしたのが、情報量規準という考え方です。
モデルは、複雑にすればするほど、訓練データにはよく合います。
でも、それは未来への強さとは限りません。
だから私たちは、
・当てはまりの良さ
・モデルの複雑さ
この二つを同時に見る必要があります。
情報量規準は、そのための物差しです。
情報量規準は、オッカムの剃刀を、数式にしたもの。
精度だけでなく、「どれだけ無駄を増やしていないか」も見ます。
それがAICやBICの思想です。
赤池情報量規準(AIC)
モデルは、がんばればいくらでも賢くなれる。
ルールを増やし、パラメータを足し、細かいところまで説明する。
すると、目の前のデータには、ぴったり合います。
でも、それは本当に「理解」でしょうか?
赤池情報量規準(AIC)は、そこで問いを投げかけます。
「よく当てているけれど、その説明、ちょっと増やしすぎていない?」
AICは、
・データへの当てはまり
・モデルの複雑さ
この二つを同時に見ます。
当てはまりが良いのは大事。
でも、複雑にしすぎたら少し減点。
予測を大事にする、やや実用的な物差しで、未来にどれだけ使えるか、そこを重視しています。
AICは「値が小さいほど良い」です。
当てはまり+複雑さへのペナルティを表します。
主に予測性能の観点でモデルを比較します。
ベイズ情報量規準(BIC)
ベイズ情報量規準(BIC)も同じように、当てはまり、複雑さ、を比べます。
でもBICは、もう少し厳しいです。
「そのパラメータ、本当に必要?」
と、より強く問いかけます。
データが多くなればなるほど、余計な説明を許しません。
AICよりも、真のシンプルさを重視します。
BICも「値が小さいほど良い」です。
AICよりも複雑さへのペナルティが強いです。
より「真のモデル」に近いものを選ぼうとする傾向があります。