- @ThothChildren
- 2017.9.13
- PV 230
RMSProp最適化関数
ー 概要 ー
ニューラルネットワークの学習係数を自動で調整する最適化関数の一つ.
Adagradで問題だった学習が進むにつれて学習係数が小さくなるのを回避. (その点ではAdadeltaと目的は同じ)
この章を学ぶ前に必要な知識
ポイント
- 学習係数を自動で更新
- Adagradで問題だった学習が進むと学習係数が必ず小さくなる問題を解消
解 説
Adagradの問題だった
学習が進むにつれて分母の合計値は増えていき学習係数が0に近づいていくこと
を過去何回かの合計値を近似する指数移動平均を使用することで解消
公式な論文には出稿されておらず、Hintonさんの講義資料にのみ現れる. | Adagrad最適化関数 |
$$w_t = w_{t-1} - \frac{\eta}{\sqrt{E[\nabla{J(w_t)}]^2 + \epsilon}}\nabla{J(w_t)}$$ | RMSProp最適化関数 |
この章を学んで新たに学べる
Comments
Reasons
知識: Adagrad最適化関数
学習係数を自動調整していく最適化関数の一つ.
過去の勾配と最新の勾配を元に各パラメータごとに学習率を調整するのが特徴.
Adam, Adadelta, RMSPropはAdagradを改良したもの