4-5-2 誤差が伝わるときの問題

誤差逆伝播法によって、ニューラルネットワークは「どこを修正すればよいのか」をさかのぼりながら学習していきます。
しかしネットワークが深くなると、この誤差がうまく伝わらなくなることがあります。

代表的なものとして、

・勾配消失問題
・勾配爆発問題
・信用割当問題

といった課題が知られています。

勾配消失問題

誤差逆伝播では、誤差の情報が

出力層
↓
隠れ層
↓
さらに前の層

という順番で伝わっていきます。
しかし、この途中で、誤差の情報がどんどん小さくなってしまうことがあります。

イメージとしては、長い伝言ゲームをしている場面です。
最初ははっきりした声でも、何人も通しているうちに声が小さくなり、最後にはほとんど聞こえなくなってしまう。
すると前の層では、「どれくらい修正すればいいのか」が分からなくなり、学習が進まなくなってしまいます。
これが勾配消失問題です。

勾配爆発問題

逆に、誤差が大きくなりすぎてしまうこともあります。
これは、坂道を転がるボールを想像すると分かりやすいかもしれません。
坂が急すぎると、ボールは勢いよく転がりすぎてしまいます。
すると、「ここを少し直そう」と思ってボールを動かしたつもりが、勢いがつきすぎて、大きく行き過ぎてしまうことがあります。
ニューラルネットワークでも似たことが起こります。
誤差が大きくなりすぎると、「ここを少し修正しよう」という調整が、大きく変わりすぎてしまうことがあります。
するとモデルは、

修正
↓
行き過ぎる
↓
また修正
↓
また行き過ぎる

という状態になり、学習が安定しなくなってしまいます。
これが勾配爆発問題です。

信用割当問題

もう一つの問題が、
信用割当問題（credit assignment problem）です。
ニューラルネットワークでは、多くのニューロンが協力して結果を出しています。
そのため、最終的にミスが見つかったとき、「どの部分がどれくらい悪かったのか」を判断するのが難しくなります。
これは、チームで仕事をしていて最後にミスが見つかったとき、「誰の担当が原因だったのか」を特定するのが難しい状況に少し似ています。
信用割当問題とは、誤差をどの部分にどれくらい割り当てればよいのかが難しいという問題なのです。

next ▶　勾配降下法とは何か