Deep Learning(An MIT Press book) の要点メモシリーズ。
Chapter 7 Regularization for Deep Learning
7.8 Early Stopping
- Early Stopping: 学習終了時の(訓練データでのエラーが最小な)パラメータではなく、学習全体を通して評価データでのエラーが最小になっていたパラメータを最終的なパラメータとする方法
- ハイパーパラメータ選択のアルゴリズムと見ることもできる
- 毎回評価データのエラーを出さないといけないのが最大のコスト
- 理想的には学習とは別プロセスで評価をする
- そのようなリソースがない場合は評価データを減らすか、評価の回数を少なくするか
- 別のコストとして、最良のパラメータの保存用メモリがある
- 学習中は再度使われないのでディスクとかに書いておけばよい
- Early Stoppingは学習そのものには手を加えない控えめな正則化
- Early Stoppingは他の正則化手法と同時に用いられる
- Early Stoppingで学習後に、Early Stoppingに使ったデータも混ぜて追加学習をする場合がある
- Early Stopping後にモデルを初期化して、同じ回数学習させる
- 同じ回数とは?同じ重み更新回数?同じエポック?(データが増えてるので両者は同じではない)
- Early Stopping後にモデルはそのままで学習を続ける
- Early Stoppingより悪くなったら終わる(よくなる保証はない)
- Early Stopping後にモデルを初期化して、同じ回数学習させる
- Early Stoppingによる正則化のメカニズム