top of page
検索
執筆者の写真Social Impact Act

AlphaGo Zeroの衝撃〜教師データは不要か?強化学習の進化〜

更新日:2019年7月3日


SIAの今井です。

幼少の頃から趣味で囲碁をやっていた関係で、囲碁AIのアルファー碁は定点観測しています。

今回Google(DeepMind)から新しい論文が発表されましたのでその内容について紹介します。


社会的インパクト領域などにも、テクノロジーが及ぼす影響は大きく、昨今では人工知能の活用は様々な領域に広がっています、こうした知識なども、活動の前提となってくる日が近いかもしれません。(関連の記事のリンクも貼っておきます)

AlphaGo Zeroの特徴

【旧版のアルファー碁】のポイントは下記です。

• 局面の勝率を評価するモデル(value networks)と、着手の勝率を評価するモデル (policy networks)が別々に構築されている

• プロの棋譜と、自己対決(強化学習)によりモデル(CNN)の精度を向上させている

• 強化済みモデルとモンテカルロ木検索(MCTS)を用いて着手を選択している

• 完全情報ゲームの人工知能を用いた解き方の知見はAlphaGoの取り組みが、一定の示唆を提供し、人間が凌駕することが実証された


【新版のアルファー碁 ゼロ】のポイント

教師なし学習により、旧版を凌駕

DeepLearningなどサービス開発の障壁の一つが、学習データの確保とされてきました。

例えばガンを検知する人工知能を開発しようとした場合は、今まではガンの写真を大量に入手し、それを学習させることで、高い精度を実現を目指してきました。

ただし、そうした学習データの確保には時間とコストがかかり、開発の障壁となっていました。

旧版のアルファー碁も初期は、プロの棋士の棋譜(対局の記録)を学習させ、その後自己対戦で、さらに研鑽をつむ方式をとっていました。今回の論文の最も衝撃的な点は、そもそも、ゲームのルールとゴールだけを設定すれば、人工知能が人間を凌駕する可能性があるということが立証された点です。(少なくとも囲碁というゲームの中においては)

局面の勝率を評価するモデル(value networks)と、着手の勝率を評価するモデル (policy networks)の統合

そもそもDeepLearningとは、人間の脳のニューラルネットワークを模して作成されたフレームワークです。

そういう意味では、人間を出発点にしています。

そして、局面の勝率を評価するモデル(value networks)と、着手の勝率を評価するモデル (policy networks)というのも、まさに、囲碁の棋士が着手を選択する際と近しいものでした。

【人間においても二つが別個の判断から着手が決定される】

• 形勢判断(局面の勝率を評価)

• 最善手の選択(着手の勝率を評価)

形勢が悪い場合、相手に正しく対応されると、本来悪手であっても、形勢判断に基づき 、相手のミスする可能性としない可能性、ミスした際としなかった際の形勢判断のバランスで着手が決定されます。

ただ、今回は、そのvalue networksと、policy networksを統合し(人間の思考のフレームワークを若干崩して)より高い精度が出た点です。

驚異的な学習スピード(完全情報ゲームの学習データの作成の工夫)

論文の結論からいうと、3日の学習で、世界チャンピョンを圧倒した旧版を凌駕する強さとなったということです。

そこでポイントとなるのが、学習データの作成で(人間の手を学習には使ってないですが)学習データはどちらにしてもキモになります。

そこで、モンテカルロ木を活用し、一手打つたびに、他の候補手も学習データとするという手法を活用しています。

具体的には、勝敗をz、ネットワークが出力する盤面の評価値をv、モンテカルロ木探索の出す確率をπ、ネットワークが出力する「どこに石を置くか」の確率をp、パラメータをθとした時に下記を最小化するようにしているようです

l = (z – v)^2 – πlogp + c|θ|^2

今回は、人工知能の話題について取り上げました。

テクノロジーの話題についても折をみて紹介していきます。

Comments


メルマガ登録はこちら

送信ありがとうございました

bottom of page