#4 Learning with Positive and Unlabeled Examples Using Weighted Logistic Regression

Lee, W. S. & Liu, B.
In Proceedings of the Twentieth International Conference on Machine Learning (ICML (2003).

この論文のmainのcontributionは2つ。

出力値が(ただの実数ではなく)確率で返ってくるので、最尤法が使える。そして凸なので最適化が容易(ここではオンラインの方法が示されている)
正例とラベルなしデータしかない(負例がない)中でF値に相当するperformance measureを導出した。正則化項の学習に使うことができてうれしい

ただまあ、色々な論文を眺めていると2つ目のほうが大きい貢献かしら(あとにも書くけど、一つ目のところがそんなに大きなcontributionなのかと言われるとそうでもない気がする)。ここのCの値を学習するのにもこの指標が使われていたりしたし。たぶん、後者が重要なポイントです。

この論文で考えてるモデルは[1]のを元にしていて、正例のデータを確率 $\alpha$ でラベルなしに、確率 $1 - \alpha$ で正例に残したままにする(ノイズが入ったというような)。で、この仮定(というかモデル)の元では負例を(間違って)正例とすることがなく、正例は確率 $\alpha$ で間違いを起こす、ということになる(なんでこういう発想になってきたのかは元論文にあとで当たること)。

こういうモデルでfalse positiveとfalse negativeの和の期待値を最小にしようというのはNP-hardだということが知られている。そこで確率構造を入れることにより、ロジステック回帰のようなものを使えて最適化ができる、という話が書いてある。

Learning Linear Functions

復習。正例は確率 $\alpha$ で間違うが、負例は間違えないようなノイズ入りのモデルを考えている。false positiveとfalse negativeの確率の和について考えるんだが、[2]の仕事を使うとこいつを最小化することはfalse positiveとfalse negativeにノイズが1か-1の確率の重みをつけたものの最小化であることが分かる。で、ちょっとした証明をすると、0.5がちゃんと閾値的な役割を果たしているよってことが分かる。

で、ここから「そのためには条件付き確率が必要だよね。じゃあ、ロジステック回帰使いましょう!」って書いてあるけど、ロジステック回帰でないといけない必要性が全然見い出せない。別に新しくもないしなぁ。うーむ。。。

Estimating Performance using Positive and Unlabeled Examples

ここは重要なところだな。IRの分野などではperformanceの指標としてよくF値が使われるんだが、負例がないためにF値は使えない。そこで正例とラベルなしデータを使っていかにF値を推定するかということになるんだが、余計に仮定を追加することなしに、これを直接推定することができる。これは大きい貢献のところだなー。

参考文献

[1] François Denis, Bat M, Universit'e De Lille I, PAC Learning from Positive Statistical Queries, Proc. 9th International Conference on Algorithmic Learning Theory - ALT '98
[2] A. Blum and T. Mitchell, Combining labeled and unlabeled data with co-training, In COLT’ 98: Proceedings of the eleventh annual conference on Computational learning theory, pages 92–100, New York, NY, USA, 1998. ACM.