R

Rユーザー会が開催されるよ!!

Tsukuba.R#6の開催もありますが、年度末はRのイベント盛りだくさんです!!研究集会「データ解析環境Rの整備と利用」ということで、11月27日(金)と12月5日(土)の二回に分けて開催されます。12月5日(土)のほうでは僕らがTsukuba.Rでやっている活動をLTのような…

library(plyr)のeach関数にバグがある件→作者さんに報告しました

R

複数の関数を適用した結果を返すeach関数 - Seeking for my unique color.の続き。library(plyr)のeach関数にバグというかよろしくない実装があるのをかつどんさんが見つけた。よろしくないことが起こる例としては > result <- 1:10 > each(length, mean, va…

複数の関数を適用した結果を返すeach関数

R

Rであるデータに対して、複数の処理をして、その結果をまとめて返すというのはlist関数を使うのが定石だと思うんだが、若干めんどくさいところがある。例えば無名関数でやるとこんな感じ。 > (function(x){list(mean(x), var(x))})(1:10) [[1]] [1] 5.5 [[2]…

差集合的なにか

R

集合は定義から、同じ要素は含まないわけですが、そうゆうのも許して欲しいときがある。こういう2つのベクトルがあったとき x <- c("a", "b", "c", "a", "a", "b") y <- c("c", "d", "c") Rでの差集合演算を使うともちろんこうなる。 > setdiff(x, y) [1] "a…

Rと自然言語処理

Rは コーパス言語学的なものに対しては相性がよい 一方、(言語モデルなどの)自然言語処理に対してはひたすら相性が悪い そんな気がしている。 see also CRAN Task View: Natural Language Processing

Tsukuba.R#6を開催するよ!!

いやはや、Tsukuba.R#5をやってから大分経過しております。。。 Tsukuba.R#5をやってきました - Seeking for my unique color. というわけで、Tsukuba.R#6を開催しようと思います。# 実は10月半ばに開催する予定だったんですが、大学の全学停電や学園祭シー…

初めてのEMアルゴリズム with R

混合正規分布について 混合正規分布のEMアルゴリズムによるパラメータ推定 EMアルゴリズムの単調増加性について この前はEMアルゴリズムがどんな感じのメカニズムで、どんな性質を持っているか簡単に書いた。 初めてのEMアルゴリズム - yasuhisa's blog とい…

applyの普通じゃない(?)ような使い方

R

R苦手の会で説明したんだけど、なんとなくBlogでも書いてみる。こんな風なcsvファイルがあったとする。 hoge, 2 fuga, 3 piyo, 1 これは文章中にhogeが2回、fugaが3回、piyoが1回出てきたというようなものを表わしている。ここで、このcsvの情報から単語の登…

Rosenbrockのbanana functionを共役勾配法で最適化して、可視化してみた

wikipedia:en:Rosenbrock_functionという有名らしい関数があるんですが、共役勾配法の動きを見てみるためにこの関数で遊んでみました。結果はこんな感じ。 極端すぎないパラメータだと大域的最適解に行ってくれました。コードも簡単。 f <- function(x) { x1 …

共役勾配法を実装してみた

本当は去年みたいなplotをしたいんだけど、面倒(ry。工学基礎 最適化とその応用 (新・工科系の数学)の4.6章で遊んでいる。二次関数の簡単なのをとりあえず。 f <- function(x) { x1 <- x[1]; x2 <- x[2] 3 / 2 * x1^2 + x1 * x2 + x2^2 - 6 * x1 - 7 * x2 } …

Rで疎行列を扱う

自分用メモ。 library(Matrix) setwd("/Users/syou6162/Downloads/data") x <- readMM("k1b.mtx") x[1, 1:10] x <- as(x, "CsparseMatrix")

RserveをC++から使ってみる

R C++

最近Rを使っていなさすぎて死ぬレベルなので、Rを使うことにした。ただし、C++を通して。RserveというRを叩けるTCP/IPサーバーがあるらしいので、それを使います。主にJavaで使うことを想定されているらしいですが、Javaはもう覚えていないので*1、C++で触り…

Bug fixしてもらえたった

R

ここに書いていたiterationsのパッケージ。 useR!2009で気になった発表をいくつか紹介してみる - Seeking for my unique color. こんな感じのlocaleだと動かないよ、と報告したところ > sessionInfo() R version 2.9.1 (2009-06-26) i386-apple-darwin9.7.0 …

useR!2009で気になった発表をいくつか紹介してみる

R

7/17から7/19はRubyKaigi 2009が行なわれていましたが、ほぼ同時期の7/7から7/10はuseR! 2009がフランスで行なわれていたようです。RubyKaigiは2006年から毎年開催されていますが、useR!も2004年から毎年開催されていて、RubyKaigiに負けないような規模(とい…

Tsukuba.R#5の発表資料

Rの基本データ構造をもっと理解しよう id:syou6162 自己紹介 吉田康久 id:syou6162 syouでおk Tsukuba大学のM1 Tsukuba.Rの近況(?)その1 Tsukuba.Rの活動が熊本でも知られているみたいで、ちょっと発表してきた やっちろ.Rの発表資料 - Seeking for my uniqu…

精度がなかなか上がらない→辞書の特徴について考える

DBCLSでバイト。指標のところは全部実装したので、ライフサイエンス辞書の単語を正解のものとして、RecallやPrecision、F値(自然言語処理のF値がなんでこういう式なのかを勉強しておかないと。。。)などを計算。が、ありえないほど精度が出なくてへこむ。テ…

Rによる最適化、パラメータ推定入門

パラメータの推定、でもその前に optimize関数について 補足 パラメータの推定 ベルヌーイ分布 定式化(尤度関数) 尤度関数の実装 尤度関数の最適化(パラメータ推定) 正規分布におけるパラメータ推定 まとめ パラメータの推定、でもその前に統計におけるパラ…

RMeCabでインストールにこけるときがある

Mac10.5.6を使っていて、Rを「sourceから」インストールしていた場合 > library(RMeCab) エラー: パッケージ 'RMeCab' は universal-apple-darwin8.11.1 に対して造られました となって、使えなかった。なんでだろーと思ってバイナリのほうでインストールす…

MeCabで区切った単語を再びつなげる

先週は形態素解析なアプローチじゃなくて、特長語抽出のような感じで専門用語が取り出せないかなーとやっていた。 www.yasuhisay.info が、YamChaの使い方がよく分からない&使うツールの中身が今の自分にとってはブラックボックスすぎる、ということで形態素…

やっちろ.Rの発表資料

R

会場なう。ということで、資料を置いておきます。 やっちろ.R in 熊本 id:syou6162 今日のAgenda 自己紹介 Tsukuba.Rについて 事前調査 Rのぐぐり方、効率がよい(と思われる)勉強の仕方 Rのデータ構造とそれに関する関数 ベクトル、行列、データフレーム、リ…

専門用語の辞書の加工

こんな感じになっている辞書から zygoma (解剖)頬骨 zygomatic 頬骨の zygomycete (生物)接合菌 zygomycosis (病名)接合菌症 zygote 接合体, 接合子 zygote nuclei (解剖)《複》接合体核 zygote nucleus (解剖)接合体核 zygotene 合糸期, ザイゴテ…

単語の登場回数がどういう分布をしているか見てみる

今日は講習会があっていたので、蛋白質核酸酵素のほうを調べるお仕事ができていなかったので、電車の中で書いてみる*1。単語の登場回数というのはたぶんlong tailをしているんだろうなーというのは予想がつくんだけど、どのくらいlong tailなのかを調べてみ…

熊本でRの勉強会があるらしい!!

R

Tsukuba.R#5どうしようかと話していたりする感じだったんですけど、まさか地元でできるとは思っていなかった!! やっちろ.R in 熊本 : ATND というわけで、GWに熊本、九州付近帰省している人たち集合!!

今日の作業log

R

igraphのようにグラフを表示してくれるパッケージがあるようなので使ってみる。文章間の関係性をごにょごにょするのに、なんかやってみようかと思っている。この前のターム文章行列から何かできれば、という感じです。 source("http://bioconductor.org/bioc…

Rで転置インデックスを作ろうとしたらひどく苦労したという話

WEB+DB PRESS Vol.49のP77付近を読みながら。Perlとかだったら配列のハッシュ(逆だっけ)とかで簡単に実現できそうな感じのものなんだけど、Rの仕様にひどく悩まされて一時間くらいかかってしまった。。。こういうデータから txt1 <- "PerlによるWebアプリケ…

list.Rがない

R

上のやつ関連で。「出力が膨大になるのは、大体listかdata.frameかmatrixだよなー」ということで、print.data.frameとかの挙動をちょっと変更するか、と思っていたんだけど、print.listが存在しない。そんなバカな、と思ってソースを調べるとlist.Rもなんか…

最近やりたいなと思っていること

R

最近Rでやることの傾向として、計算時間はまあまあかかって、結果の出力が恐しく長くなる、、、というのがある。summaryとか使えよっていう話なんだけど、人間は忘れやすいものでついつい忘れてしまう。C-cで止めようとしても計算を止めるではなくて、出力を…

MeCabとRMeCabをインストールして、ちょっと遊んでみる

某バイトというか勉強させてもらっているところ*1でRとMeCabでほげほげするようなのでインストールするよ!!Macです。mecabと辞書のインストールMeCab - Browse Files at SourceForge.netよりmecabとmecab-ipadicをダウンロード。win用以外のは辞書が含まれて…

N-gram with R

R

ngram <- function(str,n){ strvec <- c() for(i in 1:(nchar(str)-n+1)){ strvec[i] <- paste(strsplit(sentence,"")[[1]][i:(i+n)],collapse="") } sort(table(strvec),decreasing=TRUE) } > sentence <- "自分の居間まで重そうな母の言葉は母も聞きます。…

ちょっと遊ぶ

データ点が与えられた時に、を計算するような関数をGaucheとHaskellで作ってみた。 Haskell Haskellで無名関数のリストができているのに、printできないからできていないものと勘違いしていて無駄に時間を過ごした。 density :: Double -> (Double -> Double…