yasuhisa's blog

時間がかかるからC++に。。。

DBCLS

この前の続き。umlsの正解データの付近がちゃんと正解になるようにしていたが、recallが上がらない理由を探していた。が、よくよく考えるとpneから取ってきている単語の数が十分ではないからそういうことが起こっているんだと気づいた。あほすぎる。。。

正解セットが50000件くらいあるとして、Precision*1が0.2とかだとする。でも、Precisionの計算が400/2000とかであると、Precisionは0.008くらいになってしまうが、これだとそもそもPrecisionは0.04以上になりようがない。。。

というわけで、pneから抽出してくる単語の量をもっと増やさないといけないから増やすことにしたのだが*2、20年分のテキストに対してRubyで処理させていると時間がかかりすぎる。というわけで15時くらいからC++で実装を開始するなどしていました。

*1:RecallとPrecisionについてはこの付近を参照。

*2:1985-2006年まであって、とりあえず1985年のものを使ってやっていた。年度が増えるにつれて文章の量は増加する傾向にある。