2010-01-01から1年間の記事一覧

にっき

初めてのMT勉強会。もうちょっと分かるかなと思ったけど、正直どこが分からないかも分からないくらい理解できていなかった。この前Blogのコメントでid:mamorukさんに勧めてもらった資料には目を通してはいたんだが。。。このままではまずい。。。関係認識勉…

符号の性能評価

9回目。一限はお腹が減る。。。 色々な線形符号が存在 性能がよいものもあれば悪いものもあるので、性能を客観的に測れる指標が欲しい 最小ハミング距離や符号の重み分布を使った性能評価のやり方をやる ベクトル間の距離を定義してやる必要がある 常識的な…

M2の人が発表

4月から先生やスタッフの方が自分の研究の概要を話されていたが、今週からM2の先輩の発表。3人ずつ。M1の発表は7月からなので、何かしらしゃべれるようにしなければ。。。研究会は学会での質疑の練習という意味合いもあるということだったのでなるべく自分が…

線形符号と生成行列

復習 偶パリティ符号は線形符号だったら、奇パリティ符号は線形符号ではない 具体的な生成行列の生成方法の復習 p3の例。分かりやすい modに乗せて、排他的論理和で考える 先週の続き(誤り訂正符号)。 線形符号は 符号語集合がベクトル空間をなすような符号 …

#20 Large Language Models in Machine Translation

Thorsten Brants, Ashok C. Popat, Peng Xu, Franz J. Och, Jeffrey Dean, EMNLP-2007内容は結構シンプル。目的意識としては How might one build a language model that allows scaling to very large amounts of training data?(どーやってでかいデータで…

文脈自由言語とプッシュダウンオートマトン

今日から第二部。第一部でやったことの一般化になっているらしい。どう一般化になっているかはまだ分からないけど。 生成規則(るーる)を使って考える この方法を使うと正則表現のようなことができそう? 規則はrecursiveに(ちょっと違うか)定義されることもあ…

Tsukuba.R#7が開催されました&雑惑

Tsukuba.R#7 - Tsukuba.R - Seesaa Wiki(ウィキ) 参加者が40くらい(多分)で、ustreamのviewerのmaxで120越え(!!)という感じで大盛況だったんじゃないかなと思います。参加してくださった皆さんありがとうございます。研究室で聞いてたので音は聞けなかった…

B4の方を研究室案内とか

テストできなくてしょぼーんとFSNLPの予習をしていたところに、id:mamorukさんがいらっしゃって何かなーと思ったら、来年度松本研に希望のB4の方がいらっしゃるとのこと。去年も自分は二回ほど入試の前にNAISTにきて色々お話をさせてもらった&聞かせてもらっ…

情報を正確に伝える

今日から通信路符号化の話。信頼性の低い情報伝達媒体を介した情報通信を考えよう、という内容(効率化より、正確に伝えるというところにウエイトを置いてる)。 誤りが起きないようにするのがベストだが、全く起きないようにするのは現実的に困難 発想を変え…

GWなのでホソの会に参加してきた

なんだかんだでGWはリアルが充実している気が...。id:ujihisaがカナダから帰ってくるとSkypeで聞いていて、ホソの会というのがあるということだったので参加させてもらうことになった。同期にid:ujihisaの知り合いがいたので、その人も誘ってみた。学研北生…

テスト勉強

自分用メモ。ビデオアーカイブを見直しつつ、過去問を見つつ、できるようになっておかないと死亡なトピックをまとめておく。 具体的に解釈された言語 => DFA 具体的に解釈された言語 => 正則言語 NFA => DFA スライドのp51からp63に。p59からが例になってい…

にっき

前日のバーベキューが終わった後に友達の相談乗ってたら3時くらいになってて寝ようと思ったら目が冴えてきて5時くらいに寝た気がする。もそもそ起き出して、計算理論の過去問が思ってたより全然解けなくて死にたくなる。授業中理解したつもりだったが、授業…

松本研バーベキュー

昨日買い出しに行ったりとかしたから午前は爆睡していた。集合時間の30分前くらいには松本先生のお宅に到着。バーベキューセットが2つもあって驚く。下のみたいなのが2つ。 1時半に会が開始。本当に50人くらい集まっていたように思う。すげぇ。。。50個はあ…

BBQ準備などなど

明日は新入生歓迎のBBQ、ということで準備のお手伝いなど。yuta-hさんの車でtomoya-mと一緒に。 色々買ったが量が色々おかしい。二枚目はレシート笑。50人くらい参加者がいるらしい。松本先生の家に色々届けた後、megumi-oさんも一緒にBaby Faceというお店へ…

にっきー

ミーティングとか終わって、学食でご飯食べて、研究室で仮眠(椅子で寝ると疲れるので仮眠いえど家に帰って寝たほうがよいということが分かった。寮も近いんだし)。起きたら計算機システム概論の復習をするも、全く分からないのでパタ☆ヘネとか引っ張り出すも…

DMLAが松本研での最初の発表になりそう

松本研ではM1の最初の時期は勉強会での発表が免除*1されるようだが、ここ2週間くらいでちょこちょこ論文を読んでたこともあり、発表したい病にかかったので発表者で挙手してみた。こういうのに興味があります、的なことを研究室の人に知ってもらえたら色々面…

CRF++の自分用メモetc

論文読んだりしているけど、実際にCRFを動かしたことがなかったり...ということで動かしてみる。動かすためにいくつか理解しないといけないことがあるので自分用メモ。 CRF++: Yet Another CRF toolkit 素性テンプレート Unigram まず簡単そうなところから。…

NoSQLのライブラリとその特徴について調べる

NoSQL、新しいデータベースの潮流 (2) NoSQLに分類されるデータベースプロダクト | マイナビニュース HBase Hadoop、hBaseで構築する大規模分散データ処理システム (1/2):CodeZine(コードジン) HBaseの開発者がHadoop、BigTable、分散データベースについ…

Google Summer of Codeでacceptされました

http://socghop.appspot.com/gsoc/program/list_projects/google/gsoc2010 Google Open Source Blog: This Year’s Google Summer of Code Students Announced! Google Summer of Codeにapplyしました - Seeking for my unique color. 朝起きたらメールがきて…

アセンブラでほげほげする

ASM

アセンブラを吐かせる。 gcc -S hello.c こんな出力が。 .cstring LC0: .ascii "Hello C!\0" .text .globl _main _main: pushl %ebp movl %esp, %ebp pushl %ebx subl $20, %esp call L3 "L00000000001$pb": L3: popl %ebx leal LC0-"L00000000001$pb"(%ebx)…

DFAの簡略化

第一部の最後。任意のDFAから、それと等価で状態数が最小のDFAを求める手法。計算機の設計とかで使われるので、重要。 状態数が少ないとハードウェアが小さくできる 情報検索 正則表現のような検索をしたいとき(DFAみたいなものを中で作っているらしい) なん…

自然言語処理の応用勉強会キックオフミーティング

新しく今年できた勉強会(NLP.app)のキックオフミーティング。NLP.appは外部に公開して大丈夫と言われたのでなるべく書いていく方針で!!NLPのタスク的には 述語項構造解析(predicate-argument structure analysis) 意味役割付与(semantic role labeling) を主…

A simple introduction to maximum entropy models for natural language processing

DMLAにはローカルルールがあって、基本的に論文紹介でも外部のBlogのようなところに書いてはいけないというルールがあるのだが*1、金曜のyuta-hさんの最大エントロピー法周りの話は外部に公開しても構わないと書いてあったので書いてみる。Ratnaparkhi A. "A…

研究室の図書室

今学期取っている授業の中で、計算機システム概論というのがあるが、あの辺の内容は(基礎的なのに)すごい苦手で苦労しまくっている。小テストとかみんなよくできているっぽいので、授業というより自分の理解能力が低いのが問題のようである。。。なんかいい…

国際会議のメモ

ACL

DMLAで発表しようかなと思っているんだけど*1、4月に自分が読んでた論文が2005年以前のものが多い感じだったので、最近の国際学会で面白そうに思ったものをいくつかピックアップ。CRF関係でICMLに面白そうなのがあったけど、まだ読めなかった。 ACL-IJCNLP 2…

食事会

yuta-hさんが設定してくださった特待生の人での食事会。ライフの向い側のひな野に行った。和食のバイキング的なところ。杏仁豆腐がおいしかった。自分の研究室以外の人とからむ機会がないので、他の研究室がどんな感じなのかが聞けて楽しい。その後、買い物…

Synergyを導入

Desk環境を見せろと怖い人に言われたので - Seeking for my unique color. というわけでディスプレイが3枚あるような状態なんだけど、一台は別のマシンで動いているのでキーボード&マウスも2つ必要という状態になったので、どうにかする。 Page headers alre…

Desk環境を見せろと怖い人に言われたので

iPhoneで取ったからなんかしょぼい写真。

Dependency Parsing

CJEの勉強会に出席するのは初めて。 形態素解析、品詞タグづけ word segmentation and POS tagging 未知語検出/抽出 out-of-vocabulary detection/extraction 固有表現抽出・語彙知識獲得 NER, lexical acquisition 系列タギング・系列セグメンテーション se…

LZ78方式符号化をRubyで実装、を改良

Trieちゃんと使ったので、それなりの速度になりました。100MBくらいのテキストが40MBくらいまで縮んだかと思えば、2.8MBのテキストが2.6MBにしかならなかったりと圧縮したいテキストの性質によって圧縮率が全然違う感じでした。WEB+DB PRESS Vol.54によると…