2010-04-01から1ヶ月間の記事一覧

BBQ準備などなど

明日は新入生歓迎のBBQ、ということで準備のお手伝いなど。yuta-hさんの車でtomoya-mと一緒に。 色々買ったが量が色々おかしい。二枚目はレシート笑。50人くらい参加者がいるらしい。松本先生の家に色々届けた後、megumi-oさんも一緒にBaby Faceというお店へ…

にっきー

ミーティングとか終わって、学食でご飯食べて、研究室で仮眠(椅子で寝ると疲れるので仮眠いえど家に帰って寝たほうがよいということが分かった。寮も近いんだし)。起きたら計算機システム概論の復習をするも、全く分からないのでパタ☆ヘネとか引っ張り出すも…

DMLAが松本研での最初の発表になりそう

松本研ではM1の最初の時期は勉強会での発表が免除*1されるようだが、ここ2週間くらいでちょこちょこ論文を読んでたこともあり、発表したい病にかかったので発表者で挙手してみた。こういうのに興味があります、的なことを研究室の人に知ってもらえたら色々面…

CRF++の自分用メモetc

論文読んだりしているけど、実際にCRFを動かしたことがなかったり...ということで動かしてみる。動かすためにいくつか理解しないといけないことがあるので自分用メモ。 CRF++: Yet Another CRF toolkit 素性テンプレート Unigram まず簡単そうなところから。…

NoSQLのライブラリとその特徴について調べる

NoSQL、新しいデータベースの潮流 (2) NoSQLに分類されるデータベースプロダクト | マイナビニュース HBase Hadoop、hBaseで構築する大規模分散データ処理システム (1/2):CodeZine(コードジン) HBaseの開発者がHadoop、BigTable、分散データベースについ…

Google Summer of Codeでacceptされました

http://socghop.appspot.com/gsoc/program/list_projects/google/gsoc2010 Google Open Source Blog: This Year’s Google Summer of Code Students Announced! Google Summer of Codeにapplyしました - Seeking for my unique color. 朝起きたらメールがきて…

アセンブラでほげほげする

ASM

アセンブラを吐かせる。 gcc -S hello.c こんな出力が。 .cstring LC0: .ascii "Hello C!\0" .text .globl _main _main: pushl %ebp movl %esp, %ebp pushl %ebx subl $20, %esp call L3 "L00000000001$pb": L3: popl %ebx leal LC0-"L00000000001$pb"(%ebx)…

DFAの簡略化

第一部の最後。任意のDFAから、それと等価で状態数が最小のDFAを求める手法。計算機の設計とかで使われるので、重要。 状態数が少ないとハードウェアが小さくできる 情報検索 正則表現のような検索をしたいとき(DFAみたいなものを中で作っているらしい) なん…

自然言語処理の応用勉強会キックオフミーティング

新しく今年できた勉強会(NLP.app)のキックオフミーティング。NLP.appは外部に公開して大丈夫と言われたのでなるべく書いていく方針で!!NLPのタスク的には 述語項構造解析(predicate-argument structure analysis) 意味役割付与(semantic role labeling) を主…

A simple introduction to maximum entropy models for natural language processing

DMLAにはローカルルールがあって、基本的に論文紹介でも外部のBlogのようなところに書いてはいけないというルールがあるのだが*1、金曜のyuta-hさんの最大エントロピー法周りの話は外部に公開しても構わないと書いてあったので書いてみる。Ratnaparkhi A. "A…

研究室の図書室

今学期取っている授業の中で、計算機システム概論というのがあるが、あの辺の内容は(基礎的なのに)すごい苦手で苦労しまくっている。小テストとかみんなよくできているっぽいので、授業というより自分の理解能力が低いのが問題のようである。。。なんかいい…

国際会議のメモ

ACL

DMLAで発表しようかなと思っているんだけど*1、4月に自分が読んでた論文が2005年以前のものが多い感じだったので、最近の国際学会で面白そうに思ったものをいくつかピックアップ。CRF関係でICMLに面白そうなのがあったけど、まだ読めなかった。 ACL-IJCNLP 2…

食事会

yuta-hさんが設定してくださった特待生の人での食事会。ライフの向い側のひな野に行った。和食のバイキング的なところ。杏仁豆腐がおいしかった。自分の研究室以外の人とからむ機会がないので、他の研究室がどんな感じなのかが聞けて楽しい。その後、買い物…

Synergyを導入

Desk環境を見せろと怖い人に言われたので - Seeking for my unique color. というわけでディスプレイが3枚あるような状態なんだけど、一台は別のマシンで動いているのでキーボード&マウスも2つ必要という状態になったので、どうにかする。 Page headers alre…

Desk環境を見せろと怖い人に言われたので

iPhoneで取ったからなんかしょぼい写真。

Dependency Parsing

CJEの勉強会に出席するのは初めて。 形態素解析、品詞タグづけ word segmentation and POS tagging 未知語検出/抽出 out-of-vocabulary detection/extraction 固有表現抽出・語彙知識獲得 NER, lexical acquisition 系列タギング・系列セグメンテーション se…

LZ78方式符号化をRubyで実装、を改良

Trieちゃんと使ったので、それなりの速度になりました。100MBくらいのテキストが40MBくらいまで縮んだかと思えば、2.8MBのテキストが2.6MBにしかならなかったりと圧縮したいテキストの性質によって圧縮率が全然違う感じでした。WEB+DB PRESS Vol.54によると…

closureさん、怖いです...

R

id:mickey24が解説記事を書いてくれるはずなので、正座して待ってます。iさんを早く殺してあげて欲しい。fさんに振り回されてかわいそう。。。 > f <- sapply(1:10, function(i){ function(x) { i } }) > lapply(f, function(func) (func)(3)) [[1]] [1] 10 …

LZ78方式符号化をRubyで実装

してみたはいいけど、激しく遅い。なんでかなーと思って調べているとWEB+DB PRESS Vol.54にid:naoyaさんのPerlでの実装が載ってた。位置どこどこに何があったかを記録しておくような辞書を容易しておくようだ。そりゃ遅くなるな。。。なお、辞書はTrieでやる…

ハフマン符号以外の符号化法

3部構成の1/3が今日で終了、らしい。前回の補足 ブロック化すると、どうして効率が良くなるか? 理想と現実の違いがあるから 理想的な符号語長は実数値、現実では整数値 頻繁に「悪化」して、ときどき「改善」される→理想と現実のギャップ 確率が大きくなると…

係とか席とか色々決まった

係は計算機をお守りする係になりました。id:smlyさん、id:tettsyunさんとかにおそわりながら仕事を覚えていきたいと思います。仕事は大きいところだと停電前後らしく、その辺でOSのアップデートとかやるらしい(不定期でも色々ありそうだけど)。松本研は計算…

正則言語と正則表現

この前の続き。 DFAが受理する言語 NFAが受理する言語 正則表現が表す言語 は全て正則言語である、というのを示すのがメインテーマ。正則表現 => NFAの証明。正則表現に現われる演算子の数に関する帰納法で示す。分解していって、一個少ないから帰納法の仮定…

週末

月曜日に先生とのミーティングをお願いしたので、それで必要になりそうな論文とかを読みこな...したいがなかなか読みこなせない。notation理解するのにも3時間くらいかかってそんなアホな...という感じですが、めげずに準備してます。。。

ハフマン符号の性能との限界、その他の符号化

前回の復習 4元のハフマン符号 何種類か木の作りかたがある => どの作り方がいいんだろう、どうやったら作れるだろう 仮想的な点を作って3k + 1個の節点を容易してあげればいいんじゃないんだろうか ハフマン符号の性能と限界 ハフマン符号は理解しやすくて…

ThinkPad

id:mamorukさんより。完全に初期の状態からセットアップ。Windows久しぶりでござる。T43。無線Lanのドライバが足りなくって、3時間(どんだけかかってるんだ)かけてようやくつなげられるようになる。あと、デュアルディスプレイのドライバも足りなかったので…

研究室配属

自然言語処理学講座になったでござる。 学生 - NAIST Computational Linguistics 2年間よろしくお願いします。

正則言語の性質

正則言語が 集合和 補集合 共通部分 集合差 連接 閉包 の演算に関して閉じているということを示した。証明自体は簡単。これによりなかなかうれしい性質が得られる。証明のところでは、(NFAではなく)DFAの性質を使っているところがあったりもする。が、前回NF…

研究会

mamorukさんとmasayu-aさんの発表。両極端(?)というわけでもないけど、アプローチの仕方が違ってて面白い。途中で、松本先生に研究の相談(事前にメールでお願いしていた)。月曜にもう一回浅原先生とでお願いしてあるので、週末でちょっとでも論文を読んでお…

探索

土日はPRML行ったり寝てたり(疲れてたらしい。。。)したので、原付乗ってなかった。今日は晴れてはいないけど、雨は降ってなかったのでどっか行ってみることにした。この前は163を走って死にそうになったので別の道で。こっちのほうはイオンくらいまで死なず…

情報をコンパクトに表現する

ハフマン符号まで。情報源符号化情報源に一番近いところで使われるべきもの。情報源から発生した通報(または通報の系列)を、記録系や処理系で利用可能な記号系列に変換すること。 通報を符号語(0 or 1からなる系列)に変換する 符号語の集合を符号という 一意…