ゼロから作るDeep Learning ―Pythonで学ぶディープラーニングの理論と実装

本日、再読了。

誤差逆伝播の前に、数値（偏）微分を学ぶ。数値微分は汎用的で簡単だが、遅い。そのために誤差逆伝播がある。掛け算・足し算・指数・各活性化関数に対して、解析的な微分を求めておき、計算フローの逆順に作用させることで誤差逆伝播できる。合成関数の微分の応用。

最適化。乱択されるミニバッチ単位で微分方向に最適化するのがSGD。加速度や摩擦をシミュレートして緩やかさを取り入れたのがMomentum。学習係数を減衰させるのがAdaGrad。Momentum + AdaGrad = Adam。