自然言語処理

論文100本ノックの感想&独断と偏見に満ち溢れた今年読んだ中で面白かった論文紹介

100本いってないじゃん!! いつまで高見の見物してるんですか??? 目を通してるConference その他 LDA関係 LDA自体について LDAをベースにした応用モデル 形態素解析、分かち書き ノンパラベイズ その他 クラスタリング 最適化 教師なし学習 今年の1月1日から…

合同研@NAIST

nlpjm2010 初参加かと思ったら去年も行っていたということに気がついた。今年のほうが知り合い増えているかなと思ったが、事前に知っている人は去年のほうが多かった気が(知ってる人はこない人が多かった。NAISTだから...じゃないよね?)。まあ、知り合い増や…

HMMのスケーリング係数

HMMを実装する上で考えなければならない問題点HMMにおけるパラメータ推定はフォワードバックワードによって効率的に計算される。しかし、実際に計算機上でこのアルゴリズムを動かそうとすると気を付けなければならないことがある。再帰式 の右辺のそれぞれの…

依存構文解析(MST parserとLIP)

前回の続きと今回の資料。係り受けの問題をちょっと違う見方で見てみる。 Graph-based Method Integer Linear Programming Method Span-based Method こっちは次回らしい(Eisnerアルゴリズム => この前岩立さんのチュートリアルがあった) Graph-based Method…

EMNLP読み会2010

告知していたように、研究室でEMNLP読み会を開催しました。おかげ様で読み手の人数が増えたので、二回に分けてやることになりそうです(第二回目は11月に)。ai-aさんとkodai-t、joseph-iが読み手で参加してくれました、ありがとうございます(自分も一個担当)…

Eisnerアルゴリズムのチュートリアル

III期初のD-Lec。岩立さんによるEisnerアルゴリズムのチュートリアル。今日の午前に松本先生の依存構造解析とかの授業があった後なので、すごくよいタイミング。Eisnerアルゴリズムは依存構造解析を行なうためのアルゴリズムの1つで 言語に依存しない Projec…

統語解析入門続編

前回のメモと今回の資料。Chart Parsing どこまで進んだという解析結果と次に何がくるか top down chart法 (bottom upと比べて)新しい文法規則を展開するタイミングが違うだけ 単語の隙間にb[i, j]とかがあるのに注意 最初のきっかけが必要(例: b[0, 0]にs -…

統語解析入門

今期にあっている松本先生の計算言語学に出ている。今日からparsingの話で、最近parsingに興味があるわりに全然知識がないので出席*1。松本先生のparsingの授業を受けられる、というのもすごい話である。 資料 => http://is-education.naist.jp/Data/Syllabu…

前向きアルゴリズム、Vitebiアルゴリズム

Viterbi書くの何回目だろ。。。週末にはバウムウェルチ(Baum-Welch)のアルゴリズムこと前向き後ろ向きアルゴリズムを書きたいところ。 www.yasuhisay.info # -*- coding: utf-8 -*- # 確率的言語モデル(東京大学出版)第4章(隠れマルコフモデル) require 'pp'…

FSNLP 2.2の資料を公開します

研究室の自然言語処理の基礎勉強会でFSNLPを使っていて、今週が自分の担当のところ。2.2章の情報理論。情報理論のテストも終わったばかりということでみんなの頭の中に記憶があるときでよかったです。言語モデルのほうとかは早めにやっていたほうがいいと思…

CYKアルゴリズム

前回はCFLに関してのパンピングレンマだったが、あんまり覚えてない。正則言語だと同じところを2回通って、ループができるか?というところが肝だった(気がする)が、CFLに関してのパンピングレンマだとTreeに関して同じ構造が出てくるか?が肝っぽい、というこ…

学習結果のRecallとPrecision【半教師あり学習の効果の検証】

この前の続き。 学習結果のRecallとPrecision - Seeking for my unique color. 前回のところは設定をどう置けばいいのかetcが自分でもはっきりしていなかったりで、とりあえずRecallとPrecision書いてみました的な感じになってしまっていたorz。ということで…

学習結果のRecallとPrecision

7月くらいから機械学習を使って、辞書うんぬんなことをやり始めなんとかそれっぽい(専門用語らしき、ということ)のが出てくるようになってきた。11月くらいからは半教師あり学習の一番簡単そうなのでやってみようということで、ollをライブラリとして使って…

自然言語処理特論最終回

今日は最終課題になっていた言語モデルのみんなのモデルがどれくらいのPPまでいったかというところをばっと見ていきました。自分はBack-offの実装にてこずっていたら期限が近づいていたので(おい)、線形補間法(EMアルゴリズムで係数推定)で挑みました。ただ…

トピックモデル入門編

自然言語処理特論も最後の話題、トピックモデルに先週から入ってます。今日の資料はこの辺の最初の付近。 Topicに基づく統計的言語モデルの最善線 前々回までの内容は最尤推定に基づいていたものがほとんどで、(ベイズ的な流れではない)スムージングの方法の…

Liner Interpolation with EM Algorithm

線形補間法の係数をEMアルゴリズムで推定するコードがようやくちゃんと動いた。前は係数手動で決めたりしてたけど、とりあえず形にはなった。しかし、テストセットパープレキシティが14.805であり、14を切らないので、これではAは確実に取れるか分からない。…

ディリクレ過程とディリクレ過程混合モデル

多項分布とディリクレ分布NLP関係、特に言語モデルなどでは多項分布がよく使われる(N個のデータがあったときに、Aに1つ、Bに3つ…というような感じ)。言語モデルを作るときにはゼロ頻度問題が常に問題となるので、多項分布のパラメータを最尤推定で求めたもの…

初めての経験ベイズ

今日の自然言語処理特論は言語モデルから一旦離れて*1、ベイズ入門なお話。ベイズについては多少知っているので、その辺はもう書かない。新しく出てきたものの中に経験ベイズの話があった。経験ベイズを考える状況としては ベイズ的なフレームワークで考えて…

Rと自然言語処理

Rは コーパス言語学的なものに対しては相性がよい 一方、(言語モデルなどの)自然言語処理に対してはひたすら相性が悪い そんな気がしている。 see also CRAN Task View: Natural Language Processing

初めての最大エントロピー法

なぜ最大エントロピー法が必要か自然言語処理特論の授業で最大エントロピー法が紹介されました。言語モデルで、パープレキティが小さいモデルを作るのが目標なんですが、EMアルゴリズムでは、小さくできるパープレキシティにちょっと限界がありました。まあ…

言語モデルの応用先

自然言語処理特論の最終課題は言語モデルを作ることで、評価はテストセットパープレキシティ(PP)によってされる。ちなみに、昨日は簡単な言語モデルを作っていた。Trigramで線形補完法*1。PPが14を下回ったら評価のAがくるのだが、線形補完法を使うとギリギ…

初めてのEMアルゴリズム

EMアルゴリズムとは今日の自然言語処理特論の内容はEMアルゴリズム。N-gram言語モデルを作るときには、未知語に関連して0頻度問題がつきまとう。TrigramからBigram、BigramからUnigramと切り替えていくback-offなどの方法もあるが、今日やったのは線形補完法…

言語モデルの準備

自然言語処理特論で使うやつの準備の準備くらいの。準備として青空文庫のテキストを食わせる。で、何か入力の文を与えるとUnigram、Bigram、Trigramの言語モデルでのその文が出てくる確率を計算する。確率は非常に小さくなるので、出力するところでは対数を…

Trieとかtcとか系列タギングとか

タブ区切りデータの三列目を取り出す「-F」の使い方、すぐ忘れる。。。 perl -F"\t" -anle 'print $F[2]' umls2ja.tab Trieを構築するためのライブラリTx http://www-tsujii.is.s.u-tokyo.ac.jp/~hillbig/tx-j.htm dartsのほうは日本語だとうまく動かない…?T…

Back-off smoothing

書いてるとちゅー!!先週は言語モデル(n-gram)の話があって、パープレキシティの話をして、多項分布の最尤推定だとパープレキシティが無限大にいってしまうからどうにかしないと!!ということをやりました。 言語モデルのよさをはかる指標としてのパープレキシ…

言語モデルのよさをはかる指標としてのパープレキシティ

今日の自然言語処理特論の講義がとても面白かったのでメモ。今日の自然言語処理特論では、最初に言語モデルとしてn-gramのモデルの紹介があって、それの最尤推定の話。次に言語モデルのよさをはかる尺度としてエントロピー*1を元にしたパープレキシティが紹…

Rで疎行列を扱う

自分用メモ。 library(Matrix) setwd("/Users/syou6162/Downloads/data") x <- readMM("k1b.mtx") x[1, 1:10] x <- as(x, "CsparseMatrix")

ollが凄い件について

DBCLSのバイトでSVM-Light Support Vector Machineを使っていたんだけど、計算が一時間とかでは終わらなくなってきたので、気軽に実験できなくなってきていた。「この素性は効くのかなあ」とか出し入れして実験したい自分としては、気軽に実験できないのは致…

自然言語処理は総合格闘技?

戯れ言。自然言語処理で何かやろうとすると アルゴリズムとデータ構造 IR データ圧縮とか 機械学習 最適化理論 などなど、本当に色々なことを使う。色々勉強するのを大変と感じるか面白いと感じるかで全然違ってくるんだけど、色々工夫のやりようがあってい…

ミスの修正とか、品詞を詳しく見るとか

バイトですよっと。以前の処理ミスに気づくpneのrawテキストはこんな感じでxmlもどきっぽい感じになっている。 <キーワード> タイリングアレイ/chIP-chip/エピゲノミクス/メチル化 </キーワード> というわけで、中身だけ抜いてくるやつを以前書いていた。 専門用語の辞書…