ディープラーニングを支える技術〈2〉 ニューラルネットワーク最大の謎

本日読了。

良書。ディープラーニングの様々な「最前線」を平易に紹介。図解がとても良い。経営学での入山章栄のような位置付け。
・NNの基本概念。次元の多いNNは、良い極小解(最適解の可能性が高く、汎化性能が高い)に辿り着きやすい。プラトー(平らな場所)、鞍点。多様体仮説、最小記述量原理、宝くじ仮説。学習は当たりくじを削り出す。陰的正則化、明示的な正則化
・最適化。NovoGrad、AdaBelief、Lookahead Optimizer、Stochasitic Weighted Averaging。
・学習率は焼きなます。コサインアニーリング、ウォームアップ。
・生成モデル=データセットから学習可能なシミュレーター。VAE、GAN(→ StyleGAN)、自己回帰モデル(→ GPT3、CausalCNN、PixelCNN、Dilated Convolution、WaveNet)、正規化フロー、拡散モデル。
強化学習。、報酬という間接的なフィードバックをもとに、時間差のある信用割当問題を解いて、非i.i.dからサンプリングされたデータを使って、最適な方策を推定する。報酬関数を設計するだけで学習できる。
強化学習の項の中身は、「ゼロつく」と同等)
・今後の発展。必要な学習データ量の削減(→ 自己教師あり学習(→ Word2vec、BERT、GPT3)、離散化自己回帰モデル(→ MAE)、対比学習(→ SimCLR、BYOL))。計算性能の向上。問題固有の知識の組み込み(→ 対称性)。システム2。