OpenAI Gym / Baselines 深層学習・強化学習 人工知能プログラミング 実践入門

本日読了。

ゲームAIのデファクトであるOpenAI Gym / Baselinesについての解説本。

エージェントは状態のもとで行動をして報酬をもらい、それを学習して方策を最適化していく。ゲームオーバーまでをエピソード、個々のフレームをステップと呼ぶ。

OpenAI Gymは、さまざまなゲーム環境を統一的インタフェースで用意する。Baselinesは、強化学習アルゴリズムを統一的に用意する。当初はOpenAI純正のBaselinesが使われていたが、使い勝手をよくしたStable Baselinesが主流。学習状況の監視にはTensorBoardが使われる。

アルゴリズムの分類。モデルベースは特定環境に最適化、有名なのはAlphaZero。モデルフリーは実装や調整が容易、現在のポリシーのみで学習するオンポリシーと、過去の学習も使うオフボリシーに分けられる。

Stable Baselines Zooは、学習済みモデル集。ハイパラの最適化はOptunaを使う。

その他、Unity ML Agentも有名で、主要機能はOpenAI Gymから呼び出すラッパーがある。