アイデア出し。いくつか「半教師あり学習」と「正例とラベルなしデータ」に関する論文を読んだ。「正例とラベルなしデータ」のほうは決定版って感じのものはあんまりない気がしていて(分野がマイナーなのもあるかも)、「半教師あり学習」は特にグラフを使ったものが熱い気がした(手法の種類も多い)。
両者は関係しているようで、あんまりうまく行っていないような気がしている。具体的に言うと「正例とラベルなしデータ」のほうがあんまり「半教師あり学習」の成果のほうをうまく取り込めていない気がする。取り込めていないっていうか枯れていないっていうか。
で、「半教師あり学習」のグラフ伝播を使うと「正例とラベルなしデータ」のほうでうまく行きそうな気がしてきた。何かしらの距離をベースにしてノード間のウエイトを定義、ラベル伝播をさせていくような感じ。イメージとしては、一色しかない色の付いた水(正例)をたらして、ウエイトがでかいところはすぐに色が変化、そうでないところは中々色が変わらないって感じのイメージ。が、本当に一色しかないと時間が無限大までいけば全部その色になってしまうので、他の研究と同様にある定数の確率で正例を負例にするとかしないとだめかな。
「正例とラベルなしデータ」のほうでは損失関数を使ったやつだと直感的ではないというかそんな感じがしているのである。
とりあえずうまく行くかもよく分からないので実験してみようかと思う。