Deep Learning(An MIT Press book) 7.2

Deep Learning(An MIT Press book) の要点メモシリーズ。

Chapter 7 Regularization for Deep Learning

7.2 Norm Penalties as Constrained Optimization

  • 正則化つきの最適化を generalized Lagrange function と考える
    • 正則化項は不等式制約にあたる
    • 正則化項の係数α(KKT multiplier)も最適化する
    • 正則化項が、ある定数kを越えるとαが大きくなって半径kのボールに納めるように動く
    • kとαの関係は目的関数Jによるので、kは観測できないがαによって調整できる
  • 適切なkがわかっている場合は、(正則化項つき最適化ではなく)重み更新時に明示的に正則化項の値がkを越えたらkの内側に戻すのもあり
    • パラメータを小さくする制約つき最適化は局所解になる可能性がある
      • NNでいうといくつかの dead unit をもって訓練している状態
    • 値が大きければ目的関数を大きく減らせる重みが小さくなってしまう場合もある
      • 明示的にkの内側に戻す方法なら、kの内側に入れば重みを減らす効果はない
    • 明示的な方法なら学習率を大きくしたときに学習が不安定になる問題を解消できる
  • 重み行列の列ごとに制約をかける方法もある