Aestetica

コンピュータ将棋Selene(セレネ)を作っています。名前は西海枝昌彦(さいかいし まさひこ)と読みます。

最近のSeleneについて

録画しておいたシン・ゴジラを観た(2回目)。

やっぱり最後の、ごくごくごくごく・・∑(〃゚ o ゚〃) ハッ!!ぴきーーーん!!!
のところが、とか、まあいいか。

石原さとみの英語のところが気になりすぎて会話が入ってこないとか、山手線や京浜東北線の本気とかいろいろあるけど、停止中の横でビルにバクダンを仕掛ける人の度胸を私は評価したい。


去年~今年でやったことを細かい話も含めて適当に。
そろそろ、まったく新しいものを作りたいなあ。・・という気分になる。
t-nを使用しているようなアルゴリズムは無いものか。AlphaGo Zeroでやっていることがそういうことなのかなあ。

1.
方策勾配法での学習では先手と後手を同一視しないように学習。オプティマイザにはMomentumを使用。
歩の価値を100とした。歩の価値を実際の評価値のスケールとして計算し、温度は固定。
将棋以外でもいろいろと試してみたが、結構なんでも学習できてしまう。
去年度の電王トーナメントでは、まだそこまで強化学習が浸透してなかったので結構優位に立てたはず・・だったけど、もう少しでした。

2.
ハッシュ値が低い場合には浅い探索を試してみる。など。
Reductionをほぼやらなくなってしまったので、全般的にこういう系で浅い探索を試す感じ。

3.
Historyは、どんどんエスカレートしていき、ミニ機械学習のようなとこまできた。
どっちみち、1局面に対してたくさん評価するので、その結果を詳しく取っておく。
報酬がdepth基準。
以前はPVを遡って加点する方式だったがこっちに変更。

4.
ある指し手に対する有効な指し手。を優先的に探索する。
指し手の種類で細分化。

5.
ある条件により、駒損する指し手(飛車で歩を取るとか)は探索しない。
条件により、探索中ずっとダメな指し手と認定されると探索しない。
などの、探索しないシリーズ。

6.
静止探索は結構しっかりやるように変更。今までが雑すぎた。
探索をカットする条件については、専用の評価値・・というほどのものではないけど、それを見て判断する。
ハッシュを入れても、どうやっても強くならないので中止。

7.
MultiProbCutでは、かなり細分化して計測した結果を使用している。
本当は、ある程度読みを入れた対局を計測すべき。
探索中に計測しても良かったかなー?一回やってみようかなあ。