拡散モデル データ生成技術の数理

本日読了。

難解。大学の専門数学の教科書のようである。

  • 拡散モデルは生成モデルの一種。生成モデルは尤度ベースの方法と、暗黙的生成モデル(代表はGAN)の2通りがある。前者は、すべてのデータをまとめた分配関数の計算量が困難。後者は不安定でモード崩壊をおこしやすい。
  • 高次元データの生成モデルは、すべてのデータをまとめた分配関数の扱いが困難であに。MCMC法は、この課題を解消可能であるが、多様体仮説にもとづき効率的な探索が困難であるとともに、局所最適解に陥りやすい。
  • これらを解消するためにスコアを導入する。MCMC+スコアを、ランジュバン・モンテカルロ法と呼ぶ。スコアを導入するために、スコアを学習で求める。訓練データのみから明示的スコアマッチングにより学習できる場合と、暗黙的スコアマッチングが必要な場合がある。
  • 暗黙的スコアマッチングの計算量の問題と過学習の問題を解決するために、データにノイズを加えた摂動後分布に暗黙的スコアマッチングを適用する。これを、デノイジングスコアマッチングと呼ぶ。デノイジングスコアマッチングは、過学習を防ぎ、効率的にスコアを推定することができる。
  • 拡散モデルは、SBM(スコアベースモデル)とDDPM(デノイジング拡散確率モデル)という異なるアプローチがある。SBMは、ランジュバン・モンテカルロ法の問題点を解消するために、異なるノイズを加えてスコアを推定し、徐々にノイズを下げていく。DDPMは、ノイズを徐々に強くする拡散過程を考えて、拡散過程を逆にたどる生成過程を得る。SBMとDDPMは統一した枠組みで説明できる。さらにステップ数を無限大にすることで、離散化誤差を0に近づけ、完全に統一できる。
  • 連続時間の拡散モデルは、確率微分方程式(SDE)で求められる。SDEの周辺尤度と一致する常微分方程式(ODE)である確率フローを導出できる。これにより、ノイズとサンプルを相互に変換でき、対数尤度の不偏推定を求められる。
  • 拡散モデルは、固定の認識モデルを使い、複雑な生成過程を簡単な生成過程の組み合わせに自動で分解でき、独立に学習することができる。複数のモデルを組み合わせることも可能である。
  • 拡散モデルは、条件付き生成、部分空間拡散モデル、対称性を考慮した拡散モデルなどに応用可能である。
  • 拡散モデルの応用として、画像生成・超解像・補完・画像変換、動画・パノラマ生成、(画像の)意味の抽出と変換、音声の合成と強調、化合物の生成と配座、敵対的摂動(人間には気づかない摂動により分類/予測を騙す)に対する頑健性向上、データ圧縮などに応用できる。