Aestetica

コンピュータ将棋Selene(セレネ)を作っています。名前は西海枝昌彦(さいかいし まさひこ)と読みます。

第4回将棋電王トーナメント

うちの息子(マルチーズ)について、
①前から見たときにどれだけかわいいのか。
②背中の丸み具合がどれだけかわいいのか。
③しっぽの動きがどれだけかわいいのか。
④おててがどれだけかわいいのか。
といった観点で、以下18万行ほど記載しましたので、お暇であればご覧ください。

結果

今回は5位決定トーナメントで大将軍に敗れ、6位でした。
大将軍とは入賞をかけて二度目の対決。評価値の精度で負けていたのでこれはしょうがない。次の機会に頑張ろう。
負けムードのときは持ち時間2時間がめちゃくちゃに長く感じる(笑)

今回のSeleneについて

以前までは方策勾配法による自己対局で点の付き方が安定しなかったのですが、どうにか安定する方法を見つけてまんべなくというか正常にというか、値がつくようになりました。
どのアルゴリズムも奥が深い!サンプルとかならすぐに動くんですけどね。将棋みたいな複雑なものだといろいろです。
学習した棋譜は42万局。相当やったと思うものの、まわりの人たちは数十億・・。億・・。億・・。

ABC探索ではないけれど、ABC探索的な考え方で枝刈り。
有効そうな指し手が複数ある局面が連続した場合、その局面はそれ以上読みません。
局面によってはstockfishベースよりも早く勝ち/負けを発見できます。

Multi Cutによりがっさり枝刈りするようにしました。
調整が難しいというか、測定しまくって採用したりなんだり。
局面によってstockfishに勝ったり負けたり。平均的には負けているんでしょうね。
Seleneだけだと思ったら、ツツカナもやっていたのか!!

といったことで探索においてstockfishに負けているため、ほぼ全員stockfish探索となる今回の大会は大変、ものすごく、はんぱ無く厳しいものになるだろうと予想していましたが、評価値の精度が良かったんだかどうなんだか、互角に戦えたと思っています。

Ponanzaについて

序盤こそ読みの深さはSeleneと同等でも、中終盤において、場合によっては5手も深く読んでいて、さらに勝ちもSeleneより数手早く読んでいました。とにかく探索を深く正確に読む力がすさまじいです。

評価値はみんなにマネされてしまったので、他の強豪プログラムもかなりPonanzaに近くなっている。
評価値が近い状態で読みだけ深い場合、見かけのレーティングが近かったとしても実はぜんぜん勝てなくなります。
似れば似るほど勝てないというか。
あれだけの連勝をするのも納得です。今回は席も隣で、じっくり点の付き方や探索の数値を見たので尋常じゃない努力がなんとなーくわかりました。
PonanzaとSeleneの対局は、今回の戦型においてはPonanzaと同じような評価値のグラフとなったものの、そのまま数手遅れている。

Ponanzaに勝つのであれば、評価値を同じレベルとした場合は読みの深さをPonanzaより1手でも深く読めれば良いか、評価値をまったく別のアプローチで作る必要があるのでは。

みんなが採用したN手先の評価値を学習する手法について

話を聞くかぎりではRootStrap。NDFのやり方の簡易版。
評価値を勝率として計算すると複数の人から聞きましたが、実際には勝率というか棋士の指し手との一致した点の積み重ね(わかりにくい)だと思います。勝ち負けから報酬を与える方式ではないみたい。
これが実に強力なので、やってみたい衝動に駆られる三日間。どうするよおい。
PVを追って点をつけていくので、序盤なんかはとくに影響力があるの、かなあ。どうかなあ。

厳しい・・

技巧が決勝に残れなかったのはもちろんびっくりしましたが、ツツカナの予選敗退についても相当ショックを受けました。
いやあ、マジかー。と何回も順位表を見てました。ツツカナと対戦したかったけどできなかったですね。またよろしく。

スプラトゥーンについて

開発者の人にやってるかどうか聞いたら、驚くほどみんなやってない。
何人かに購入を勧めたけど、人によっては開発時間が1兆分の1になるのでやっぱりやめたほうがいいかも。
また、次から振り駒は廃止し、スプラトゥーンによって先手後手を決める方式にすべき。
これは私から正式にご提案させて頂きます。