先日読了。
良書。AlphaZeroのしくみをゴールに強化学習をひととおり学べる。
多層バンディット問題、探索と利用のバランスを取る。
方策勾配法、エピソードを繰り返して方策の選択確率を学習。
SarsaとQ学習、行動価値関数を学習する。DQN、状態数が多い時に行動価値関数を表形式ではなくニューラルネットワークとして学習する。
ミニマックス法とアルファベータ法による木探索。
原始モンテカルロ探索、ランダムに多数回プレイアウトして状態価値の合計を計算。モンテカルロ木探索、有望な手をより深く読む。
アルファゼロでは、デュアルネットワークを使う。方策と価値の2つのニューラルネットワーク(局面 → ResNet → 方策、価値の両方に分岐出力)。過去最強をもとにセルフプレイ500回して、あきらかに強くなっていれば更新する。