Deep Learning(An MIT Press book) 6.3.2 - 6.3.3

Deep Learning(An MIT Press book) の要点メモシリーズ。

今日の範囲は隠れ層の後半。ReLU 以外の諸々の話。

Chapter 6 Deep Feedforward Networks

6.3 Hidden Units

6.3.2 Logistic Sigmoid and Hyperbolic Tangent

  • sigmoidal なユニット
    • logistic sigmoid g(z)=\sigma(z)
    • hyperbolic tangent g(z)=tanh(z)
  • tanh(z)=2\sigma(2z)-1
  • sigmoidal なユニットはドメインの大半で saturate し、0周辺でのみ strongly sensitive
    • 勾配法には向かないので、隠れ層で使うのはよくない
    • 出力層ならコスト関数で打ち消せるので大丈夫
  • logistic sigmoid よりも hyperbolic tangent のほうがよい
    • tanh(0)=0,\sigma(0)=1/2 なので tanh は0付近で identity function のように振る舞う
  • RNN、確率モデル、autoencoder では piecewise linear なユニットが使えない場合 sigmoidal なユニットを使う

6.3.3 Other Hidden Units

  • 多くの微分可能な関数が activation function として機能するが、顕著な改善がないものには興味が持たれない
  • 役に立つ activation function
    • identity function
      • 全ての層が linear だと全体が linear になってしまうのでよくないが、いくつかの層が linear であるのは問題ない
      • linear な層は効率的に factorize (=パラメータ数削減)できる
      • h=g(W^{\mathrm{T}}x+b) => h=g(V^{\mathrm{T}}U^{\mathrm{T}}x+b)
    • softmax
      • k 個の離散値の確率分布として
    • その他
      • RBF unit, Softplus, Hard tanh