Deep Learning(An MIT Press book) の要点メモシリーズ。
LASSO(よめない)のお話。
Chapter 7 Regularization for Deep Learning
7.1 Parameter Norm Penalties
7.1.2 L1 Regularization
- 正則化項の勾配が sign() なので、目的関数を二次近似しても代数的にきれいな解を得られない
- 洗練されたモデルは線形モデル(目的関数が二次)の Taylor 展開を適当な次数で打ち切ったものとみなせる
- Hessian をさらに単純化して対角行列と考える
- PCA を使った前処理で feature 間の相関を消す
- Hessian が対角行列だとスカラーだけの式になるので、きれいな解が得られる
- L1 は疎な解が得られる
- L2 はガウス事前分布のMAP推定に等しい
- L1 はラプラス事前分布のMAP推定に等しい