Blogから単語の数の情報が入っている行列を作り出す

R

Ruby側の正規表現で記号っぽい文字を取り除くことにした。あんま変わってない。あとはhtmlっぽいところがまだ入ってくるので、その辺は自分でフィルタをかけないとだめだな。 extract_meisi_from_blog <- function(url){ ruby <- paste(" require %q[rubygem…

文章間における単語の共起の尺度

R

ピアソンの相関係数で文章間の相関係数を求めようとしたら、0.3よりでかいのがほとんどないという結果になった。いや、関係ないのばっかりという可能性もなくはないんですが。 > cor(hoge[,1:13]) [,1] [,2] [,3] [,4] [,5] [,6] [1,] 1.00000000 0.15776083…

ToDo

夏休みの2/3が終了してしまったとか恐ろしい。。。 「ジェフリーズのルール」というものについて勉強する 事前分布をフィッシャー情報行列の平方根に比例させるとうまくいくという謎のもの ベイズ統計入門のP53くらいから始まる話 Rejectセキュリティプログ…