Deep Learning(An MIT Press book) 7.1.2

Deep Learning(An MIT Press book) の要点メモシリーズ。

LASSO(よめない)のお話。

Chapter 7 Regularization for Deep Learning

7.1 Parameter Norm Penalties

7.1.2 L1 Regularization

  • 正則化項の勾配が sign() なので、目的関数を二次近似しても代数的にきれいな解を得られない
  • 洗練されたモデルは線形モデル(目的関数が二次)の Taylor 展開を適当な次数で打ち切ったものとみなせる
  • Hessian をさらに単純化して対角行列と考える
    • PCA を使った前処理で feature 間の相関を消す
    • Hessian が対角行列だとスカラーだけの式になるので、きれいな解が得られる
      • w_i=sign(w_i^{*})max\{|w_i^{*}|-\alpha/H_{i,j}, 0\}
  • L1 は疎な解が得られる
    • 特徴量選択に使われる
    • LASSO
  • L2ガウス事前分布のMAP推定に等しい
  • L1ラプラス事前分布のMAP推定に等しい