AlphaZero 深層学習・強化学習・探索人工知能プログラミング実践入門

先日読了。

良書。AlphaZeroのしくみをゴールに強化学習をひととおり学べる。

多層バンディット問題、探索と利用のバランスを取る。

方策勾配法、エピソードを繰り返して方策の選択確率を学習。

SarsaとQ学習、行動価値関数を学習する。DQN、状態数が多い時に行動価値関数を表形式ではなくニューラルネットワークとして学習する。

ミニマックス法とアルファベータ法による木探索。

原始モンテカルロ探索、ランダムに多数回プレイアウトして状態価値の合計を計算。モンテカルロ木探索、有望な手をより深く読む。

アルファゼロでは、デュアルネットワークを使う。方策と価値の2つのニューラルネットワーク（局面 → ResNet → 方策、価値の両方に分岐出力）。過去最強をもとにセルフプレイ500回して、あきらかに強くなっていれば更新する。