Adadelta最適化関数

ー概要ー

学習係数を自動で調整する最適化関数. Adagradで学習が進むにつれて学習係数が0になってしまう点を改良した最適化関数. 単位を揃えることで学習係数の初期値を不要にしている.

この章を学ぶ前に必要な知識

ポイント

過去数個の勾配に限定して更新量を計算
学習係数を自動で更新
学習係数初期値不要
Adagradを改良した最適化関数

解説

AdadeltaはAdagradでの
・学習が進むと学習係数が0になってしまうこと
・過去の勾配を全て保持していること
・単位が揃っていないこと
の課題を解決した最適化関数.

上記の課題をそれぞれ
・過去全てを使わずn個分のみを使用して学習係数を調整する
・n個分を保持するのではなく合計値を保持する.(指数平滑移動平均で更新)
・パラメータと同じ単位にするため、学習係数を過去のパラメータ平均に置き換える

Adagrad最適化関数

$$w_t = w_{t-1} - \frac{RMS(\Delta{w})_{t-1}}{RMS(\nabla{J(w)})_t} \nabla{J(w_t)}$$

Adadelta最適化関数 RMSは与えられた変数を二乗してたし合わせ平均する関数(二乗平均平方根)

この章を学んで新たに学べる

Comments

Reasons
>>隠す

知識: Adagrad最適化関数

学習係数を自動調整していく最適化関数の一つ. 過去の勾配と最新の勾配を元に各パラメータごとに学習率を調整するのが特徴. Adam, Adadelta, RMSPropはAdagradを改良したもの

続きを見る

Adadelta最適化関数

ー 概要 ー

解 説

Reasons >>隠す

ー概要ー

解説

Reasons
>>隠す