アルファ碁はなぜ人間に勝てたのか

昨日読了。

とても面白い。アルファ碁を題材に、現在のAIの実力、できること/できないことを、科学的に説明している。

3目並べ、オセロやチェスに使われているミニマックス法、αβ枝刈りから始まって、最近のモンテカルロ法ディープラーニングまで、アルファ碁の技術要素を紐解いていく。モンテカルロ法ミニマックス、αβ枝刈りとは異なる手法で、とにかく最終局面までランダムに打ち進めて(プレイアウト)、勝敗の確率をもとに、次の一手を決める。ディープラーニングは、上位者同士の非常に多数の対局をもとに、ある局面での次の一手を導き出す多次元評価関数を最適化する。ある程度学習した後は、コンピュータ同士での自動対局で学習する強化学習を行う。
アルファ碁は、ディープラーニングモンテカルロ法との組み合わせでできている。ポリシーネットワークはディープラーニング次の一手の候補手を選択し、バリューネットワークはモンテカルロ法で評価している。しかし、シチョウやナカ手などのいくつかの手筋は、ディープラーニングでも候補手として現れにくいため、評価関数を付け加えている。
これらは囲碁というものに特化したモデルであり、さらに19路に特化している。そのため、他のゲーム、他の問題解決への汎用性は無い。原理としては単純なパターンマッチングであり、戦略や意味を解釈しているわけではないため、パターンが異なる問題には対応できない。これが現在のAIの限界である。ある程度決まった枠内であればAIの効果はあるが、汎用ロボットや完全な自動運転などにおいて、毎回異なる状況を判断していくには、今のディープラーニングの手法とは異なる手法の確立が必要である。