2009-06-01から1ヶ月間の記事一覧

いっけえええ!!!

ということで某はてなインターンに申し込んだ。

データの持ち方を工夫→SVMを使って専門用語に分類

文字列にある文字が登場したら1、そうでなかったら0というような特徴ベクトルを束ねた行列を作ろうとしていたんだけど、巨大になりすぎた(扱うテキストの量は大分少なくしたんだけど)。つまり、こんな行列がでかくなりすぎたということだ。 グリコーゲン 分…

MeCabで切った後の複合名詞に対して、部分文字列の組み合わせを考える

完全一致はしないけど、部分文字列で見ると専門用語があるという感じなので、分類したいデータは取りうる部分文字列の組み合わせの要素、ということになる。 def comb_of_substr(a) (1..a.length).map{|b| a.enum_cons(b).map{|c| c } }.inject([]) {|z, x| …

分類問題のための教師データの作成

6月の間は出現頻度と連接頻度に基づく専門用語抽出にある論文の考え方にそって、C++とかRubyで実装していた。しかし、どうも精度や再現率が低い。id:theclaさんに結果を見せてみたところ「おしいのは結構あるんだけどねえ」という感じで、(精度とかを測る時…

フォードファルカーソン法をRubyで実装

グラフに対する基本的な問題として 最小全域木 最短路問題 最大フロー の3つがあると思う。で、最小全域木は離散最適の課題としてPrim法を使って解いてみたし、最短路問題はベルマンフォードのアルゴリズムをRubyとC++で解いてみた。となったら、最大フロー…

ベルマンフォードアルゴリズムをC++で

アルゴリズムの経過をアニメーションgifにするために書いたはいいものの、アルゴリズムとは関係ないコードが増えてしまったので、C++で書き直してみた。以下コード。 #include <iostream> #include <string> #include <map> #include <vector> #include <math.h> using namespace std; class Directe</math.h></vector></map></string></iostream>…

ベルマンフォードのアルゴリズムで実行される結果も逐次表示

離散最適化理論の課題が出ていたので、ベルマンフォードのアルゴリズムを実装してみることにした。アルゴリズムが実行されていく様子の例もレポートに貼ろうと思ったんだけど、アルゴリズムはもうあるんだから、その様子をruby-graphvizとかで吐けばいいじゃ…

和集合を取る

C++

#include <iostream> #include <string> #include <vector> #include <algorithm> using namespace std; int main (int argc, char **argv) { vector<string> a1; a1.push_back("トライグラム"); a1.push_back("統計"); vector<string> a2; a2.push_back("トライグラム"); a2.push_back("日本語"); vector<string> result (</string></string></string></algorithm></vector></string></iostream>…

今年の夏も熱い!!

先週の末くらいから夏のイベント募集みたいなのが結構始まっています。 はてなインターン M1なので、インターンどこに行こうかと考えている人が周りにたくさんいます。自分ももちろんそんなM1の一人です。B3のときにインターンに行かせてもらった経験から、…

Tsukuba.R#5の発表資料

Rの基本データ構造をもっと理解しよう id:syou6162 自己紹介 吉田康久 id:syou6162 syouでおk Tsukuba大学のM1 Tsukuba.Rの近況(?)その1 Tsukuba.Rの活動が熊本でも知られているみたいで、ちょっと発表してきた やっちろ.Rの発表資料 - Seeking for my uniqu…

Tsukuba.R#5をやってきました

id:sayamatcherさんにお願いして会場を貸していただき、Tsukuba.R#5@DBCLSをやってきました。 Tsukuba.R#5 - Tsukuba.R - Seesaa Wiki(ウィキ) 自分の発表 僕の発表資料はここに上げてあります。初めて実習形式な感じでやってみたので、いつもより資料だけ…

PRML読書会第三回に参加しました

第二回に引き続き、参加させてもらいました。 C.M.ビショップ「パターン認識と機械学習(PRML)」読書会(第3回) : ATND 今回は第二章の確率分布のところでした。自分は2.4の指数型分布族のところについて発表してきました。資料を公開しておきます。 Prml f…

時間がかかるからC++に。。。

この前の続き。umlsの正解データの付近がちゃんと正解になるようにしていたが、recallが上がらない理由を探していた。が、よくよく考えるとpneから取ってきている単語の数が十分ではないからそういうことが起こっているんだと気づいた。あほすぎる。。。正解…

はてダラのテキストを検索する

恐らくこのブログを一番検索しているのはid:syou6162なんだけど、毎回http://d.hatena.ne.jp/syou6162から検索するのは面倒すぎる。日記ははてダラで書いているので、テキストはローカルにある。じゃあ、grepで探せよ、という話なんだけど、htmlで表示してく…

NLTKで遊ぶ準備

昨日はNAISTの入試に必要な書類を整えるとかの作業。添削してもらった小論文(添削していただいた方、ありがとうございます!!)を仕上げて、なんとか形に。A4で2枚ということなので、最初は1.5枚くらいで書いていたんだけど、どんどん書き加わってきて、最後の…

精度がなかなか上がらない→辞書の特徴について考える

DBCLSでバイト。指標のところは全部実装したので、ライフサイエンス辞書の単語を正解のものとして、RecallやPrecision、F値(自然言語処理のF値がなんでこういう式なのかを勉強しておかないと。。。)などを計算。が、ありえないほど精度が出なくてへこむ。テ…

PRML3章 線形回帰モデルが終わった

研究科の友達とやっているPRML勉強会で、第3章が終わりました。忘れないようにメモっておきます。3.1章【線形基底関数モデル】基底関数を使った線形回帰モデルを定義。加法性のガウスノイズを使って、確率変数にし尤度関数も定義。尤度関数を最大にするよう…

指標を全部実装してみた

この前の続き。先週の水曜で大体作ってしまっていたんだが、使い方ミスっててバグってると勘違いしていたorz。 出現頻度と連接頻度に基づく専門用語抽出 - Seeking for my unique color. とりあえずpneの1985年分のテキストを食わせて、それぞれの指標で上位…

筑波→奈良、奈良→筑波

書いてた通り、NAISTの個別相談会に行ってきました。GWにも行ってますが。DBCLSのバイトを休ませてもらって、金曜に出発。自宅を10蒔に出て、NAISTに17蒔くらいに着きました。行くまでの間に、DBCLSで今やっていることをどういう感じでやったらうまく行くか…