チェス、将棋、囲碁のすべてでこれまでの最強AIに勝利した人工知能「AlphaZero」(cnet.com)
年末年始の仕事納めまでやっぱり色々と手につかない状態ではある管理人なのですが、ついに人工知能はここまで来たか、という感のある記事だったので。
いわゆるAlphaGOやAlphaGO Zeroの後継となるような人工知能で、基本的なルールのみを教育し、自分自身との対戦による自己強化学習のみで訓練したもの。これはAlphaGO Zeroの戦略と同じですが、それをチェスや将棋などの他のテーブルゲームにも応用できた、というのが今回の記事ですね。それぞれの分野で最強と謳われるAIと、チェスで9時間、将棋で12時間、囲碁で13日間の自己強化学習を終えて対戦し、勝利したとのこと。詳しく見てみると、チェスの先手は約3割で勝利、7割引き分けで負けはほぼ無しの状態、後手は9割以上引き分けになってます。チェスは一定以上の実力者同士の勝負は引き分けになることが多いので、成績を見ても十分でしょう。将棋は白黒と書かれていて先手後手が分かりづらいのですが、黒が9割以上で勝利、白は8割以上で勝利とあって、たぶん黒を先手にしてるんかな? 一般に将棋は先手有利と言われてるので、黒先手でしょう。後手番でも8割以上勝ってますが。囲碁は対戦相手がAlphaGO Zeroで、それでも先手で8割以上勝利、後手番でも5割以上で勝利しています。囲碁の後手番が勝負として一番拮抗しているように見えますが、後手番でようやっと均衡するレベルならやはり実力が勝っているというべきですね。総合的に見て、AlphaZeroが各分野の専門AIを凌駕しているのは間違いなさそう。
具体的な指し手の判断基準を別記事で見たんですけども、単なる総当たり的な考えから、より人間的な思考である”直感的な指し手”ができるようになっているのが肝ですかね。かみ砕いて言えば、ランダムなモンテカルロ木探索だとチェスや将棋などの「1マス違いで大きな戦略の差が生まれる」テーブルゲームでは無駄が多かったんですが、そこら辺を強化学習でばっさり探索しなくなるような感じっぽい。囲碁はあまり分からんのですが、将棋やチェスよりもモンテカルロ木探索が合っていた、と記憶しています。より人間らしい思考方法ができるようになった、といっても過言ではないですね。
将棋のネット実況中継をたまに見ますが、現在の形勢判断をコンピュータが数値として表示することが当たり前のようになってきてます。たまにこの形勢判断が外れて人間の手のほうが凄い!と思わせる場面があるので、数値はあくまでコンピュータの理屈という物差しで見られていたんですが、AlphaZeroの手法が普及してくるとこの形勢判断のアヤもなくなってくるんでしょうかね。それでも指し手は人間だから、完全にコンピュータをトレースすることはないんですけども。まぁ、そのあたりはどう演出するか、といった見せる側の工夫が求められるようになるんでしょうかね。
Comment
去年もあっという間に終わって新しい年に!
あけましておめでとうございます!!
こっちはそれなりにみんな元気だよ
あけましておめでとうございます。今年もよろしくお願いします。
といっても、もう松の内を過ぎてしまいそうですが。
昨年は(も?)あっという間でしたねー。また時間ができたら皆で集まりたいですな。