論文100本ノックの感想&独断と偏見に満ち溢れた今年読んだ中で面白かった論文紹介

論文100本ノック日記機械学習自然言語処理

100本いってないじゃん!! いつまで高見の見物してるんですか??? 目を通してるConference その他 LDA関係 LDA自体について LDAをベースにした応用モデル形態素解析、分かち書きノンパラベイズその他クラスタリング最適化教師なし学習今年の1月1日から…

2010-11-28

合同研@NAIST

自然言語処理

nlpjm2010 初参加かと思ったら去年も行っていたということに気がついた。今年のほうが知り合い増えているかなと思ったが、事前に知っている人は去年のほうが多かった気が(知ってる人はこない人が多かった。NAISTだから...じゃないよね?)。まあ、知り合い増や…

2010-11-25

HMMのスケーリング係数

自然言語処理機械学習 HMM

HMMを実装する上で考えなければならない問題点HMMにおけるパラメータ推定はフォワードバックワードによって効率的に計算される。しかし、実際に計算機上でこのアルゴリズムを動かそうとすると気を付けなければならないことがある。再帰式の右辺のそれぞれの…

2010-10-29

依存構文解析(MST parserとLIP)

自然言語処理

前回の続きと今回の資料。係り受けの問題をちょっと違う見方で見てみる。 Graph-based Method Integer Linear Programming Method Span-based Method こっちは次回らしい(Eisnerアルゴリズム => この前岩立さんのチュートリアルがあった) Graph-based Method…

2010-10-26

EMNLP読み会2010

自然言語処理 EMNLP 研究室

告知していたように、研究室でEMNLP読み会を開催しました。おかげ様で読み手の人数が増えたので、二回に分けてやることになりそうです(第二回目は11月に)。ai-aさんとkodai-t、joseph-iが読み手で参加してくれました、ありがとうございます(自分も一個担当)…

2010-10-22

Eisnerアルゴリズムのチュートリアル

自然言語処理

III期初のD-Lec。岩立さんによるEisnerアルゴリズムのチュートリアル。今日の午前に松本先生の依存構造解析とかの授業があった後なので、すごくよいタイミング。Eisnerアルゴリズムは依存構造解析を行なうためのアルゴリズムの1つで言語に依存しない Projec…

2010-10-22

統語解析入門続編

自然言語処理

前回のメモと今回の資料。Chart Parsing どこまで進んだという解析結果と次に何がくるか top down chart法 (bottom upと比べて)新しい文法規則を展開するタイミングが違うだけ単語の隙間にb[i, j]とかがあるのに注意最初のきっかけが必要(例: b[0, 0]にs -…

2010-10-20

統語解析入門

自然言語処理

今期にあっている松本先生の計算言語学に出ている。今日からparsingの話で、最近parsingに興味があるわりに全然知識がないので出席*1。松本先生のparsingの授業を受けられる、というのもすごい話である。資料 => http://is-education.naist.jp/Data/Syllabu…

2010-07-08

前向きアルゴリズム、Vitebiアルゴリズム

機械学習自然言語処理 HMM

Viterbi書くの何回目だろ。。。週末にはバウムウェルチ(Baum-Welch)のアルゴリズムこと前向き後ろ向きアルゴリズムを書きたいところ。 www.yasuhisay.info # -*- coding: utf-8 -*- # 確率的言語モデル(東京大学出版)第4章(隠れマルコフモデル) require 'pp'…

2010-06-07

FSNLP 2.2の資料を公開します

自然言語処理機械学習 FSNLP

研究室の自然言語処理の基礎勉強会でFSNLPを使っていて、今週が自分の担当のところ。2.2章の情報理論。情報理論のテストも終わったばかりということでみんなの頭の中に記憶があるときでよかったです。言語モデルのほうとかは早めにやっていたほうがいいと思…

2010-05-24

CYKアルゴリズム

自然言語処理計算理論

前回はCFLに関してのパンピングレンマだったが、あんまり覚えてない。正則言語だと同じところを2回通って、ループができるか?というところが肝だった(気がする)が、CFLに関してのパンピングレンマだとTreeに関して同じ構造が出てくるか?が肝っぽい、というこ…

2009-12-16

学習結果のRecallとPrecision【半教師あり学習の効果の検証】

DBCLS 自然言語処理

この前の続き。学習結果のRecallとPrecision - Seeking for my unique color. 前回のところは設定をどう置けばいいのかetcが自分でもはっきりしていなかったりで、とりあえずRecallとPrecision書いてみました的な感じになってしまっていたorz。ということで…

2009-12-04

学習結果のRecallとPrecision

自然言語処理 DBCLS

7月くらいから機械学習を使って、辞書うんぬんなことをやり始めなんとかそれっぽい(専門用語らしき、ということ)のが出てくるようになってきた。11月くらいからは半教師あり学習の一番簡単そうなのでやってみようということで、ollをライブラリとして使って…

2009-11-17

自然言語処理特論最終回

自然言語処理

今日は最終課題になっていた言語モデルのみんなのモデルがどれくらいのPPまでいったかというところをばっと見ていきました。自分はBack-offの実装にてこずっていたら期限が近づいていたので(おい)、線形補間法(EMアルゴリズムで係数推定)で挑みました。ただ…

2009-11-04

トピックモデル入門編

自然言語処理

自然言語処理特論も最後の話題、トピックモデルに先週から入ってます。今日の資料はこの辺の最初の付近。 Topicに基づく統計的言語モデルの最善線前々回までの内容は最尤推定に基づいていたものがほとんどで、(ベイズ的な流れではない)スムージングの方法の…

2009-11-01

Liner Interpolation with EM Algorithm

自然言語処理日記

線形補間法の係数をEMアルゴリズムで推定するコードがようやくちゃんと動いた。前は係数手動で決めたりしてたけど、とりあえず形にはなった。しかし、テストセットパープレキシティが14.805であり、14を切らないので、これではAは確実に取れるか分からない。…

2009-10-30

ディリクレ過程とディリクレ過程混合モデル

自然言語処理ベイズ統計

多項分布とディリクレ分布NLP関係、特に言語モデルなどでは多項分布がよく使われる(N個のデータがあったときに、Aに1つ、Bに3つ…というような感じ)。言語モデルを作るときにはゼロ頻度問題が常に問題となるので、多項分布のパラメータを最尤推定で求めたもの…

2009-10-27

初めての経験ベイズ

自然言語処理機械学習

今日の自然言語処理特論は言語モデルから一旦離れて*1、ベイズ入門なお話。ベイズについては多少知っているので、その辺はもう書かない。新しく出てきたものの中に経験ベイズの話があった。経験ベイズを考える状況としてはベイズ的なフレームワークで考えて…

2009-10-26

Rと自然言語処理

R 自然言語処理

Rはコーパス言語学的なものに対しては相性がよい一方、(言語モデルなどの)自然言語処理に対してはひたすら相性が悪いそんな気がしている。 see also CRAN Task View: Natural Language Processing

2009-10-20

初めての最大エントロピー法

自然言語処理機械学習

なぜ最大エントロピー法が必要か自然言語処理特論の授業で最大エントロピー法が紹介されました。言語モデルで、パープレキティが小さいモデルを作るのが目標なんですが、EMアルゴリズムでは、小さくできるパープレキシティにちょっと限界がありました。まあ…

2009-10-13

言語モデルの応用先

自然言語処理

自然言語処理特論の最終課題は言語モデルを作ることで、評価はテストセットパープレキシティ(PP)によってされる。ちなみに、昨日は簡単な言語モデルを作っていた。Trigramで線形補完法*1。PPが14を下回ったら評価のAがくるのだが、線形補完法を使うとギリギ…

2009-10-13

初めてのEMアルゴリズム

自然言語処理機械学習

EMアルゴリズムとは今日の自然言語処理特論の内容はEMアルゴリズム。N-gram言語モデルを作るときには、未知語に関連して0頻度問題がつきまとう。TrigramからBigram、BigramからUnigramと切り替えていくback-offなどの方法もあるが、今日やったのは線形補完法…

2009-10-12

言語モデルの準備

自然言語処理 C++

自然言語処理特論で使うやつの準備の準備くらいの。準備として青空文庫のテキストを食わせる。で、何か入力の文を与えるとUnigram、Bigram、Trigramの言語モデルでのその文が出てくる確率を計算する。確率は非常に小さくなるので、出力するところでは対数を…

2009-10-07

Trieとかtcとか系列タギングとか

自然言語処理 Perl C++

タブ区切りデータの三列目を取り出す「-F」の使い方、すぐ忘れる。。。 perl -F"\t" -anle 'print $F[2]' umls2ja.tab Trieを構築するためのライブラリTx http://www-tsujii.is.s.u-tokyo.ac.jp/~hillbig/tx-j.htm dartsのほうは日本語だとうまく動かない…?T…