読者です 読者をやめる 読者になる 読者になる

N-gram with R

R
ngram <- function(str,n){
  strvec <- c()
  for(i in 1:(nchar(str)-n+1)){
    strvec[i] <- paste(strsplit(sentence,"")[[1]][i:(i+n)],collapse="")
  }
  sort(table(strvec),decreasing=TRUE)
}
> sentence <- "自分の居間まで重そうな母の言葉は母も聞きます。
+ 彼はどこへか行って、いつも古本屋に売るさ」。
+ 先生の宅とこの木の下を歩いていた。
+ ところが実際は、あなたがた顫え出したつもりでいたのですが、一年と立ち二年と過ぎ、もう一杯上げます。
+ その時分から、Kの墓へ毎月お参りをしようとしたのです。
+ 私は迂闊な青年であった。
+ けれども無理はないそのたびに先生のこの病は慢性であったのです。
+ しかし決して使われた。
+ だから、私までも引き留めたでしょうけれども事情にうといったでしょうか」「綺麗に刈り込んだ時、私はまた腕組みをしてよそを向いて、もし坊さんは二、三日前晩食に呼ばれそうに見えました。
+ 日本の女らしく思う気は少しも起ります。"
> sentence <- gsub("\n","",sentence)
> head(ngram(sentence,3))
strvec
たのです けれども たでしょ であった でしょう のです。 
       3        2        2        2        2        2 

ref