Deep Learning(An MIT Press book) 6.5.10 - 6.6

Deep Learning(An MIT Press book) の要点メモシリーズ。

Chapter 6 Deep Feedforward Networks

6.5 Back-Propagation and Other Differentiation Algorithms

6.5.9 Higher-Order Derivatives

  • Theano, Tensorflow は高次の微分をサポートしている
    • 数式微分を使っている(?)
  • 深層学習の文脈では Hessian の微分に興味がある
    • パラメータが10億とかあるので Hessian の計算が難しい
    • Krylov 法を使う
  • Hessian の計算は推奨されないが、 Hessian と vector の積は計算できる場合がある
    • Hessian と one-hot vector の積など

6.6 Historical Notes

  • 近年のNNの改善には2つの要素がある
    • 大きなデータセットによって汎化しないといけない自由度が減った
    • 計算機が強力になったので大きなネットワークを使えるようになった
  • 加えて、少数のアルゴリズム的な改善があった
    • 損失関数をMSEから cross-entropy にしたことで sigmoid や sofmax のパフォーマンスが上がった
    • 隠れユニットを sigmoid から部分線形なもの(cf. ReLU)に変えた
      • ネットワークが小さいときは sigmoid のほうが有効だった