- @ThothChildren
- 2017.9.13
- PV 233
Momentum最適化関数
ー 概要 ー
SGDではランダムにデータを選んでパラメータ更新を行ったことで値がばたつきなかなか収束しない.慣性項を加えたことで、パラメータ更新に勢いをつけ学習を早くした.
この章を学ぶ前に必要な知識
効果
- SGDよりパラメータ更新が早くなる
- とんでもなく外れたパラメータ更新を抑える
ポイント
- 少し前までの更新量を覚えておき、次回の更新のときに考慮する
解 説
SGD勾配降下法ではあるデータの値を使って更新量を計算してそれでパラメータ更新を行っていた.そのため選択するデータによって更新量がまちまちでパラメータの値がばたつき、更新が遅くなる問題があった.
MomentumではSGDでの更新に更新量を慣性項として式に加えることで、過去何回かの更新量を考慮しながら更新することができるようになりました。
ボールが今まで転がってきた方向に転がり続けやすくなるのと同じで、
慣性項によってより極小値への収束が早くなりました. | Momentum 導入 |
$$w_{t+1} = w_t - \eta \nabla f(w_t) + \alpha \Delta w_t $$ | Momentum最適化関数
右辺第3項が慣性項でSGDにはない項 |
Momentumでは慣性項が増えた分ハイパーパラメータももう一つ増えて、あらかじめηとαの両方を決めておく必要がある. | ハイパーパラメータの設定 |
この章を学んで新たに学べる
Comments