本日読了。
ゲームAIのデファクトであるOpenAI Gym / Baselinesについての解説本。
エージェントは状態のもとで行動をして報酬をもらい、それを学習して方策を最適化していく。ゲームオーバーまでをエピソード、個々のフレームをステップと呼ぶ。
OpenAI Gymは、さまざまなゲーム環境を統一的インタフェースで用意する。Baselinesは、強化学習のアルゴリズムを統一的に用意する。当初はOpenAI純正のBaselinesが使われていたが、使い勝手をよくしたStable Baselinesが主流。学習状況の監視にはTensorBoardが使われる。
アルゴリズムの分類。モデルベースは特定環境に最適化、有名なのはAlphaZero。モデルフリーは実装や調整が容易、現在のポリシーのみで学習するオンポリシーと、過去の学習も使うオフボリシーに分けられる。
Stable Baselines Zooは、学習済みモデル集。ハイパラの最適化はOptunaを使う。
その他、Unity ML Agentも有名で、主要機能はOpenAI Gymから呼び出すラッパーがある。