[WIP] Deep Learning(An MIT Press book) 7.12

Deep Learning(An MIT Press book) の要点メモシリーズ。

Chapter 7 Regularization for Deep Learning

7.12 Dropout

  • dropout
    • 多数の大きなネットワークのbaggingを近似したもの
      • 普通にやると計算量とメモリがやばいので
    • いくつかのユニットの出力にゼロをかけて消す
  • ミニバッチごとにdropoutするユニットを変える
    • 各ユニットがdropoutする確率はハイパーパラメータ
      • 入力ユニットが0.8、隠れユニットが0.5というのがよく使われる
  • モデル間でパラメータを共有する(ここが近似)
    • baggingは各モデルが独立
  • predictは算術平均よりも幾何平均のほうがいいらしい(よくわからなかった)