Deep Learning(An MIT Press book) 7.1.1

Deep Learning(An MIT Press book) の要点メモシリーズ。

あっ、これPRMLで出てきたやつだ!な話。

Chapter 7 Regularization for Deep Learning

  • 効率的な regularizer はバイアスをそんなに増やさずにバリアンスを大幅に減らす
  • 過度に複雑な(=バリアンスの大きい) mode family は必ずしも true data-generating process を含んでいるとは限らない
    • deep の場合はほぼ確実に true data-generating process は model family の外にある
      • deep は本質的に全宇宙のシミュレーションを含んでいるので(つよい)

7.1 Parameter Norm Penalties

  • NN ではアフィン変換の重みにだけ正則化をかける(バイアスは除く)
    • アフィン変換の重みは2変数が関わるが、バイアスは1変数なので正則化しなくてもバリアンスは大きくならない
    • バイアスを正則化すると underfitting してしまう
  • wで正則化するパラメータを、θで全パラメータを表す
  • 層ごとに違うα(正則化項の係数)をかけてもいいが探索空間が大きくなるので同じにするのが妥当

7.1.1 L2 Parameter Regularization

  • L2 正則化は weight decay として知られる
    • ridge regression や Tikhonov regularization とも
  • L2 正則化は重みが原点に近づくようにする
    • 原点以外の任意の点に近づくようにしても正則化の効果がある
    • 真の点に近い方が結果が良くなる
    • 真の点はわからないので0にする
  • L2 正則化は1ステップでは定数比率重みを減らす
  • 訓練全体ではλ/(λ+α)で重みがリスケールされる
    • λはJ(正則化していない損失関数)のヘッセ行列の固有値
    • λ >> α ならほぼ変わらない、λ << α なら重みが0に近くなる
  • 線形回帰に L2 正則化を適用するとαに比べて小さい重みが shrink する