EchizenBlog-Drei

Deep Learning(An MIT Press book) 7.1.2

技術

Deep Learning(An MIT Press book) の要点メモシリーズ。

LASSO（よめない）のお話。

Chapter 7 Regularization for Deep Learning

7.1 Parameter Norm Penalties

7.1.2 L¹ Regularization

正則化項の勾配が sign() なので、目的関数を二次近似しても代数的にきれいな解を得られない
洗練されたモデルは線形モデル（目的関数が二次）の Taylor 展開を適当な次数で打ち切ったものとみなせる
Hessian をさらに単純化して対角行列と考える
- PCA を使った前処理で feature 間の相関を消す
- Hessian が対角行列だとスカラーだけの式になるので、きれいな解が得られる
  - $w_i=sign(w_i^{*})max\{|w_i^{*}|-\alpha/H_{i,j}, 0\}$
L¹ は疎な解が得られる
- 特徴量選択に使われる
- LASSO
L² はガウス事前分布のMAP推定に等しい
L¹ はラプラス事前分布のMAP推定に等しい