Deep Learning(An MIT Press book) の要点メモシリーズ。

Chapter 7 Regularization for Deep Learning

7.8 Early Stopping

Early Stopping: 学習終了時の（訓練データでのエラーが最小な）パラメータではなく、学習全体を通して評価データでのエラーが最小になっていたパラメータを最終的なパラメータとする方法
ハイパーパラメータ選択のアルゴリズムと見ることもできる
毎回評価データのエラーを出さないといけないのが最大のコスト
理想的には学習とは別プロセスで評価をする
- そのようなリソースがない場合は評価データを減らすか、評価の回数を少なくするか
別のコストとして、最良のパラメータの保存用メモリがある
- 学習中は再度使われないのでディスクとかに書いておけばよい
Early Stoppingは学習そのものには手を加えない控えめな正則化
Early Stoppingは他の正則化手法と同時に用いられる
Early Stoppingで学習後に、Early Stoppingに使ったデータも混ぜて追加学習をする場合がある
- Early Stopping後にモデルを初期化して、同じ回数学習させる
  - 同じ回数とは？同じ重み更新回数？同じエポック？（データが増えてるので両者は同じではない）
- Early Stopping後にモデルはそのままで学習を続ける
  - Early Stoppingより悪くなったら終わる（よくなる保証はない）
Early Stoppingによる正則化のメカニズム
- パラメータ空間を初期パラメータ近傍に収める
- 線形モデルのquadraticな損失関数を勾配法で学習するとき、Early StoppingはL2正則化(=weight decay)に等しい
  - L2の係数とEarly Stoppingのステップ数は逆数の関係
  - Early StoppingはL2のようにハイパーパラメータごとに多くの学習を試さなくても最適な正則化ができる利点がある

EchizenBlog-Drei

Deep Learning(An MIT Press book) 7.8

Chapter 7 Regularization for Deep Learning

7.8 Early Stopping