#68 Negative Training Data can be Harmful to Text Classification

Xiaoli Li, Bing Liu and See-Kiong Ng, in Proceedings of Conference on Empirical Methods in Natural Language Processing (EMNLP-10). Oct. 9-11, 2010, MIT, Massachusetts, USA.

いわゆるcovariate shift的な問題を考えている論文。covariate shiftとは(おおざっぱに言えば)学習データとテストデータで分布が違うみたいな状況を考えるような問題で、例えば大学のメールボックスでspam filterを作っても企業でのメールは大学のものと分布が違うから単純にやるとうまく行かない場合があるよね、という感じ(より正確に言えばp(y_test | w)とp(y_train |w)が異なるようなケースも考える、ということ)。まあ、一種のdomain adaptationのようなケースと考えられるのかもしれないけど。

ただ、この論文ではそういうcovariate shiftやdomain adaptationで使われるような手法で解決を試みるのではなく、labelが付いた正例とラベルなしデータから学習するようなモデルをベースで構成している。DBCLSで専門用語辞書を構築していたときに似たような問題を扱っていて(専門用語はどういうものか定義できるが、専門用語でない単語は自明ではないので負例の扱いに困る。結局は超単純なself-learningでやってしまったが)、年始の付近にいくつか論文を読んでいたことがあった。

特に最初のNigamの論文は結構有名でEM-lambdaと呼ばれることもあるので、読んだことないなら読むとよいかも。既存の手法と大体やることは似た感じだが、unlabeled data Uから信頼できそうなnegativeをextractするのが新しい(?なんか記憶がどこかにいっているw)らしく、正例のdocument Pとコサイン類似度ではかって類似度が低いものはnegativeであるだろうとするのがmain ideaのようだ。やっていることは極めて単純。

Unlabeledなデータはどうやって作ったのか、という話がちょっと議論になったが、たぶんテストデータもつっこんだtransductiveな感じの設定でやられたんだろうという結論。自分の感想としてはML使ってテキスト分類がうまく行くのは十分すぎるほどに知られているので、普通にML使うだけではうまく行かないようなタスクで実験して欲しかったかなと思った。