DBCLS

統合データベース講習会AJACS本郷6での発表の動画が上がってました

スライドとかはもう上げてあったんですが、発表の時に取られていた動画がうpされたみたいです(中の人、お疲れ様です&ありがとうございます)。ニコニコにも上がっている。 内容はともかくとして、自分の声を自分が聞くのって気持ち悪いですねぇ。。。自分で話…

統合収穫祭で発表してきました

統合データベース講演会AJACS本郷6(通称、統合収穫祭)でDBCLSで自分がRA(Research Assistant)として一年間やってきたことを @jj0c_0jjj @wakuteka @mickey24 @yag_ays @y_benjo @iNut と一緒に発表しました(発表順)。会場にきてくださった方、ustで見ていて…

PNE(蛋白質核酸酵素)のテキストで各年のトレンドとか共起語とか

テキストから専門用語を取ってくるのはしばらく前に一段落してて、今は違うことやってます。PNEの1985年から2006年までのテキストが手元にあるんですが、それなりにテキストの数*1もあるし、自分の専門外の文章で年毎の特徴とかよく分からないなーと思ったの…

学習結果のRecallとPrecision【半教師あり学習の効果の検証】

この前の続き。 学習結果のRecallとPrecision - Seeking for my unique color. 前回のところは設定をどう置けばいいのかetcが自分でもはっきりしていなかったりで、とりあえずRecallとPrecision書いてみました的な感じになってしまっていたorz。ということで…

構築した辞書を元にAho Corasick法を使ってキーワードを探す

どのようなときにAho Corasick法が必要か辞書構築した後の応用先(?)の一つとして、辞書を元にした転置インデックスを作ることがあげられる。「どのキーワードがどの文章に登場したか」が一番簡単な転置インデックスだと思うんだけど、今回は登場した文章のど…

学習結果のRecallとPrecision

7月くらいから機械学習を使って、辞書うんぬんなことをやり始めなんとかそれっぽい(専門用語らしき、ということ)のが出てくるようになってきた。11月くらいからは半教師あり学習の一番簡単そうなのでやってみようということで、ollをライブラリとして使って…

半教師あり学習でollを使いたいので、ollをライブラリとして使ってみる

バイトにて、岡野原さんが作られているオンライン学習をサポートした機械学習ライブラリ「oll」をめちゃくちゃ使わせてもらっている。 Google Code Archive - Long-term storage for Google Code Project Hosting. 自然言語処理のような大規模かつスパースな…

文脈の情報も取り入れつつ特徴ベクトルを構築する、の続き、の続き

こことかここの続き。typenameとかのところではまってコンパイルできない><とかやってました。前回のSVMに投げたところでは、複合名詞中に何の単語が登場したか、という超単純な情報しか見ていなかったんだけど、今度は2つ前後の単語や語頭語尾の情報など…

文脈の情報も取り入れつつ特徴ベクトルを構築する、の続き

自分用メモ。整理しないとわけが分からなくなってきた。 std::multimapというのを知る equal_rangeでpairが返ってくる 7章:STL 7章:STL 特待のパターン以外のものを削除 find . -type f -not -name '*.txt' | xargs rm 今のところ必要な情報は 二つ前の形…

複合名詞の周辺の情報、複合名詞の先頭と末尾の情報

この前やったSVMに使った素性は考えられる中では相当単純なものを使ったので、(悪くはなかったけど)改善の余地がありまくっている。というわけで 複合名詞の先頭の単語 複合名詞の末尾の単語 複合名詞の前後の単語 を集めてくるためのコードを書いた。条件分…

ミスの修正とか、品詞を詳しく見るとか

バイトですよっと。以前の処理ミスに気づくpneのrawテキストはこんな感じでxmlもどきっぽい感じになっている。 <キーワード> タイリングアレイ/chIP-chip/エピゲノミクス/メチル化 </キーワード> というわけで、中身だけ抜いてくるやつを以前書いていた。 専門用語の辞書…

データの持ち方を工夫→SVMを使って専門用語に分類

文字列にある文字が登場したら1、そうでなかったら0というような特徴ベクトルを束ねた行列を作ろうとしていたんだけど、巨大になりすぎた(扱うテキストの量は大分少なくしたんだけど)。つまり、こんな行列がでかくなりすぎたということだ。 グリコーゲン 分…

分類問題のための教師データの作成

6月の間は出現頻度と連接頻度に基づく専門用語抽出にある論文の考え方にそって、C++とかRubyで実装していた。しかし、どうも精度や再現率が低い。id:theclaさんに結果を見せてみたところ「おしいのは結構あるんだけどねえ」という感じで、(精度とかを測る時…

時間がかかるからC++に。。。

この前の続き。umlsの正解データの付近がちゃんと正解になるようにしていたが、recallが上がらない理由を探していた。が、よくよく考えるとpneから取ってきている単語の数が十分ではないからそういうことが起こっているんだと気づいた。あほすぎる。。。正解…

統合データベース講習会: AJACS本郷4

AJACS9 - MotDB 「はじめに:統合データベースプロジェクトとは?」 DBが整っていないと、知のめぐりのよりライフサイエンス研究ができない 全国でやっている(6回の講習会と2回の勉強会) DB内の記述(アノテーション)は正しい? 問題点 DBが散在している、利用…