Momentum最適化関数

概要

SGDではランダムにデータを選んでパラメータ更新を行ったことで値がばたつきなかなか収束しない.慣性項を加えたことで、パラメータ更新に勢いをつけ学習を早くした.
Facebookシェア Twitterツイート LINEで送る このエントリーをはてなブックマークに追加
この章を学ぶ前に必要な知識
0
効果
  • SGDよりパラメータ更新が早くなる
  • とんでもなく外れたパラメータ更新を抑える
ポイント
  • 少し前までの更新量を覚えておき、次回の更新のときに考慮する

解 説

SGD勾配降下法ではあるデータの値を使って更新量を計算してそれでパラメータ更新を行っていた.そのため選択するデータによって更新量がまちまちでパラメータの値がばたつき、更新が遅くなる問題があった. MomentumではSGDでの更新に更新量を慣性項として式に加えることで、過去何回かの更新量を考慮しながら更新することができるようになりました。 ボールが今まで転がってきた方向に転がり続けやすくなるのと同じで、 慣性項によってより極小値への収束が早くなりました.
Momentum 導入
$$w_{t+1} = w_t - \eta \nabla f(w_t) + \alpha \Delta w_t $$
Momentum最適化関数 右辺第3項が慣性項でSGDにはない項
Momentumでは慣性項が増えた分ハイパーパラメータももう一つ増えて、あらかじめηとαの両方を決めておく必要がある.
ハイパーパラメータの設定
この章を学んで新たに学べる
Comments

Reasons
>>隠す