Aestetica

コンピュータ将棋Selene(セレネ)を作っています。名前は西海枝昌彦(さいかいし まさひこ)と読みます。

東ロボくん

諸事情により初詣に行けない。という苦境。
なんとかここは頑張りたい。浅草もものすごく行きたい。
ここ10年で最もツライが、ここは耐えるとき。


AIで東大の試験に合格しよう!という「東ロボくん」というプロジェクトがあって、
Todai Robot Project
http://21robot.org/
現在はいろいろあって中断中。
どんなのかな?と思って試しに数学のところを見てみると、プログラムの内容はこんなことになっている。

以下を順番に実行。
①問題の文章を読むプログラム
②次に、文章を理解して立式(式を作る)するプログラム
③あらゆる式に対応した、解くプログラムたくさん

なので、文章を読むところは難しそう。なんとか立式すると、あとは専用ルーチンが種類分だけあるので選択して実行。
うーん。これだと、高校生にも③のプログラムを与えて戦わないとフェアじゃないのでは?立式勝負というか。
立式も、プログラムにやらせると変数の数が半端無く多くなってしまい、これもまた難しそう。
式のところにも点がつくような試験でも点が取れるのかな?

国語や英語でつまづいたということなので、どこまでいっても自然言語処理(文章を読んで理解するプログラム)が難しいということなんですね。
オープンソース化するそうなので、出たら読んでみようかな。

私も以前、ゼロから言語を学習するプログラムを途中まで、いや、ほんの触り程度なのかな。を作ったことがあって、未知の言語を読み解いてやろうとしたことがあるんだけど、これがまた大変難しい。
もちろん、ヒントや仮定となる単語を入れてやらないと最終的にはダメなんだけど、統計やらなにやらめちゃくちゃ勉強する。「文章ってなんだろう。言葉って?!」みたいなことを散々考えるようになって、そりゃAIMもブレるわ。

赤ちゃんは統計的に重要な単語から覚えていくということなので、統計から攻めるアプローチは間違っていなかったと信じたいが、対象の文章がたくさん必要になる。しかし、今はwikipediaがあるので文章量は十分。昔だったら新聞の文章でも打ち込んでるのかなあ。
とかなんとか言いながら、やるんだったら、現在の最新研究やオープンソース化されているものを参考としたり、解読とか認知心理学に関する書籍を読み込むなどをして取り込まないとダメだな。ゼロからだと強烈に厳しい。
といったことで、そのへんをまず読もう(いったいなんの役に立つのか?(笑))。