#13 A Simple Probabilistic Approach to Learning from Positive and Unlabeled Examples

D. Zhang and W. S. Lee.
In Proceedings of the 5th Annual UK Workshop on Computational Intel ligence (UKCI), pages 83–87, Sept. 2005.

久しぶりに正例とラベルなしデータから分類器を作る系の論文(半教師ありのゼミの関係でこっちをあんまり読めてなかった)。タイトル通りシンプルな手法で、効率もよくスケーラブルな感じでわりと気にいった感じ。

既存研究との比較

[1]のアプローチでは、ナイーブベイズをこの問題に適用しているが、カテゴリの事前確率が一般には分からないというのが問題と言えば問題である*1。しかし、この論文の手法だとpriorが必要ない。

あと、これまでの正例とラベルなしからの学習系の論文、例えば[2]や[3]、は2つのステップからなるものが多かった([3]が網羅的に書いてある)。Blogにもlogを残している。

最初のステップで、初期の学習器を使いラベルなしデータから負例と信頼できそうなものを取ってくる、次のステップでそのデータも加えた上で学習器を再構築する、というようなものだ。が、この論文の手法ではそのような2つのステップを踏まずに行ける。

この論文の手法

基本的な考え方は[4]のそれと似ているところがある。Blogにも書いた。

正例のdocumentが確率pでラベルなしデータにswitch、ラベルなしデータを負例と見なすというやつだ。推定しないといけないものとしてはPr[P|x]とPr[U|x]、bがある。これも[4]と似ているところがある。というか同じである^^。

Estimating Pr[P|x] and Pr[U|x]

[4]では条件付き確率Pr[P|x]、Pr[U|x]を学習するのに(オンライン版の)ロジステック回帰を使っていた。[4]とのdiffはこの辺にあって、この論文では[5]が元になっているPrTFIDFという手法を使っている。推定の方法も簡単で、テキストを一回なめてしまえばよいだけなので効率的でもある。

Estimating b

これは[4]と同じ。[4]の論文のmain contributionの一つであったF値ではないパフォーマンス尺度を使って推定を行なう(このタスクでは負例がないので、F値ではパフォーマンス評価ができない)。

参考文献

[1] Denis, F. Gilleron, R and Tommasi, M. (2002). "Text classification from positive and unlabeled examples." IPMU, 2002.
[2] Bing Liu, Yang Dai, Xiaoli Li, Wee Sun Lee and and Philip Yu. "Building Text Classifiers Using Positive and Unlabeled Examples." Proceedings of the Third IEEE International Conference on Data Mining (ICDM-03), Melbourne, Florida, November 19-22, 2003.
[3] Liu, Bing and Lee, Wee Sun and Yu, Philip S. and Li, Xiaoli (2002). "Partially Supervised Classification of Text Documents" In Proc. 19th Intl. Conf. on Machine Learning.
[4] Lee, W. S. & Liu, B. "Learning with Positive and Unlabeled Examples Using Weighted Logistic Regression." In Proceedings of the Twentieth International Conference on Machine Learning (ICML (2003).
[5] T. Joachims (1997). `A probabilistic analysis of the Rocchio algorithm with TFIDF for text categorization'. In D. H. Fisher (ed.), Proceedings of ICML-97, 14th International Conference on Machine Learning, pp. 143-151, Nashville, US. Morgan Kaufmann Publishers, San Francisco, US.

*1:ブックマークのような例だと、人は面倒くさがってブックマークしないことが考えられるので、priorが正確ではないと言えば正確ではない