EchizenBlog-Drei

Deep Learning(An MIT Press book) 7.1.1

技術

Deep Learning(An MIT Press book) の要点メモシリーズ。

あっ、これPRMLで出てきたやつだ！な話。

Chapter 7 Regularization for Deep Learning

効率的な regularizer はバイアスをそんなに増やさずにバリアンスを大幅に減らす
過度に複雑な（=バリアンスの大きい） mode family は必ずしも true data-generating process を含んでいるとは限らない
- deep の場合はほぼ確実に true data-generating process は model family の外にある
  - deep は本質的に全宇宙のシミュレーションを含んでいるので（つよい）

7.1 Parameter Norm Penalties

NN ではアフィン変換の重みにだけ正則化をかける（バイアスは除く）
- アフィン変換の重みは2変数が関わるが、バイアスは1変数なので正則化しなくてもバリアンスは大きくならない
- バイアスを正則化すると underfitting してしまう
wで正則化するパラメータを、θで全パラメータを表す
層ごとに違うα（正則化項の係数）をかけてもいいが探索空間が大きくなるので同じにするのが妥当

7.1.1 L² Parameter Regularization

L² 正則化は weight decay として知られる
- ridge regression や Tikhonov regularization とも
L² 正則化は重みが原点に近づくようにする
- 原点以外の任意の点に近づくようにしても正則化の効果がある
- 真の点に近い方が結果が良くなる
- 真の点はわからないので0にする
L² 正則化は1ステップでは定数比率重みを減らす
訓練全体ではλ/(λ+α)で重みがリスケールされる
- λはJ（正則化していない損失関数）のヘッセ行列の固有値
- λ >> α ならほぼ変わらない、λ << α なら重みが0に近くなる
線形回帰に L² 正則化を適用するとαに比べて小さい重みが shrink する